{ "best_metric": null, "best_model_checkpoint": null, "epoch": 3.0, "eval_steps": 500, "global_step": 750000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.002, "grad_norm": 4.8645100593566895, "learning_rate": 4.996666666666667e-05, "loss": 2.7797, "step": 500 }, { "epoch": 0.004, "grad_norm": 5.379912853240967, "learning_rate": 4.993333333333334e-05, "loss": 2.6052, "step": 1000 }, { "epoch": 0.006, "grad_norm": 3.9640469551086426, "learning_rate": 4.99e-05, "loss": 2.558, "step": 1500 }, { "epoch": 0.008, "grad_norm": 3.1447696685791016, "learning_rate": 4.986666666666667e-05, "loss": 2.535, "step": 2000 }, { "epoch": 0.01, "grad_norm": 4.1346330642700195, "learning_rate": 4.9833333333333336e-05, "loss": 2.4799, "step": 2500 }, { "epoch": 0.012, "grad_norm": 4.81771183013916, "learning_rate": 4.9800000000000004e-05, "loss": 2.445, "step": 3000 }, { "epoch": 0.014, "grad_norm": 3.2848784923553467, "learning_rate": 4.9766666666666666e-05, "loss": 2.5137, "step": 3500 }, { "epoch": 0.016, "grad_norm": 4.020968437194824, "learning_rate": 4.973333333333334e-05, "loss": 2.4714, "step": 4000 }, { "epoch": 0.018, "grad_norm": 3.6858625411987305, "learning_rate": 4.97e-05, "loss": 2.4405, "step": 4500 }, { "epoch": 0.02, "grad_norm": 5.601511478424072, "learning_rate": 4.966666666666667e-05, "loss": 2.4184, "step": 5000 }, { "epoch": 0.022, "grad_norm": 4.523524761199951, "learning_rate": 4.963333333333334e-05, "loss": 2.4376, "step": 5500 }, { "epoch": 0.024, "grad_norm": 3.962721347808838, "learning_rate": 4.96e-05, "loss": 2.4003, "step": 6000 }, { "epoch": 0.026, "grad_norm": 6.19443416595459, "learning_rate": 4.956666666666667e-05, "loss": 2.4151, "step": 6500 }, { "epoch": 0.028, "grad_norm": 4.02651309967041, "learning_rate": 4.9533333333333336e-05, "loss": 2.3803, "step": 7000 }, { "epoch": 0.03, "grad_norm": 4.385961055755615, "learning_rate": 4.9500000000000004e-05, "loss": 2.3912, "step": 7500 }, { "epoch": 0.032, "grad_norm": 4.189236640930176, "learning_rate": 4.9466666666666665e-05, "loss": 2.3441, "step": 8000 }, { "epoch": 0.034, "grad_norm": 3.693387508392334, "learning_rate": 4.943333333333334e-05, "loss": 2.3357, "step": 8500 }, { "epoch": 0.036, "grad_norm": 2.807659149169922, "learning_rate": 4.94e-05, "loss": 2.3653, "step": 9000 }, { "epoch": 0.038, "grad_norm": 3.522406816482544, "learning_rate": 4.936666666666667e-05, "loss": 2.3387, "step": 9500 }, { "epoch": 0.04, "grad_norm": 5.274356842041016, "learning_rate": 4.933333333333334e-05, "loss": 2.2758, "step": 10000 }, { "epoch": 0.042, "grad_norm": 3.6869125366210938, "learning_rate": 4.93e-05, "loss": 2.3385, "step": 10500 }, { "epoch": 0.044, "grad_norm": 3.541245460510254, "learning_rate": 4.926666666666667e-05, "loss": 2.313, "step": 11000 }, { "epoch": 0.046, "grad_norm": 3.681368589401245, "learning_rate": 4.9233333333333335e-05, "loss": 2.3263, "step": 11500 }, { "epoch": 0.048, "grad_norm": 5.731677055358887, "learning_rate": 4.92e-05, "loss": 2.3098, "step": 12000 }, { "epoch": 0.05, "grad_norm": 3.5993146896362305, "learning_rate": 4.9166666666666665e-05, "loss": 2.3609, "step": 12500 }, { "epoch": 0.052, "grad_norm": 3.599547863006592, "learning_rate": 4.913333333333334e-05, "loss": 2.3419, "step": 13000 }, { "epoch": 0.054, "grad_norm": 4.167891502380371, "learning_rate": 4.91e-05, "loss": 2.2413, "step": 13500 }, { "epoch": 0.056, "grad_norm": 3.4915518760681152, "learning_rate": 4.906666666666667e-05, "loss": 2.3372, "step": 14000 }, { "epoch": 0.058, "grad_norm": 5.390059471130371, "learning_rate": 4.903333333333334e-05, "loss": 2.3426, "step": 14500 }, { "epoch": 0.06, "grad_norm": 4.040329456329346, "learning_rate": 4.9e-05, "loss": 2.3551, "step": 15000 }, { "epoch": 0.062, "grad_norm": 4.870177268981934, "learning_rate": 4.8966666666666667e-05, "loss": 2.2974, "step": 15500 }, { "epoch": 0.064, "grad_norm": 2.722949743270874, "learning_rate": 4.8933333333333335e-05, "loss": 2.2941, "step": 16000 }, { "epoch": 0.066, "grad_norm": 3.273509979248047, "learning_rate": 4.89e-05, "loss": 2.3103, "step": 16500 }, { "epoch": 0.068, "grad_norm": 4.021369934082031, "learning_rate": 4.886666666666667e-05, "loss": 2.2787, "step": 17000 }, { "epoch": 0.07, "grad_norm": 4.276086330413818, "learning_rate": 4.883333333333334e-05, "loss": 2.2616, "step": 17500 }, { "epoch": 0.072, "grad_norm": 3.5050389766693115, "learning_rate": 4.88e-05, "loss": 2.2795, "step": 18000 }, { "epoch": 0.074, "grad_norm": 4.199524402618408, "learning_rate": 4.876666666666667e-05, "loss": 2.2871, "step": 18500 }, { "epoch": 0.076, "grad_norm": 4.081117630004883, "learning_rate": 4.8733333333333337e-05, "loss": 2.2821, "step": 19000 }, { "epoch": 0.078, "grad_norm": 3.5695736408233643, "learning_rate": 4.87e-05, "loss": 2.3156, "step": 19500 }, { "epoch": 0.08, "grad_norm": 5.097811222076416, "learning_rate": 4.866666666666667e-05, "loss": 2.311, "step": 20000 }, { "epoch": 0.082, "grad_norm": 2.6825947761535645, "learning_rate": 4.8633333333333334e-05, "loss": 2.3048, "step": 20500 }, { "epoch": 0.084, "grad_norm": 3.4080872535705566, "learning_rate": 4.86e-05, "loss": 2.2669, "step": 21000 }, { "epoch": 0.086, "grad_norm": 4.328364372253418, "learning_rate": 4.856666666666667e-05, "loss": 2.2935, "step": 21500 }, { "epoch": 0.088, "grad_norm": 4.735811233520508, "learning_rate": 4.853333333333334e-05, "loss": 2.2341, "step": 22000 }, { "epoch": 0.09, "grad_norm": 4.199121475219727, "learning_rate": 4.85e-05, "loss": 2.2832, "step": 22500 }, { "epoch": 0.092, "grad_norm": 3.812959909439087, "learning_rate": 4.8466666666666675e-05, "loss": 2.2997, "step": 23000 }, { "epoch": 0.094, "grad_norm": 5.936341285705566, "learning_rate": 4.8433333333333336e-05, "loss": 2.2248, "step": 23500 }, { "epoch": 0.096, "grad_norm": 3.2249481678009033, "learning_rate": 4.8400000000000004e-05, "loss": 2.2531, "step": 24000 }, { "epoch": 0.098, "grad_norm": 5.251713275909424, "learning_rate": 4.836666666666667e-05, "loss": 2.2289, "step": 24500 }, { "epoch": 0.1, "grad_norm": 3.292351007461548, "learning_rate": 4.8333333333333334e-05, "loss": 2.2534, "step": 25000 }, { "epoch": 0.102, "grad_norm": 2.7489211559295654, "learning_rate": 4.83e-05, "loss": 2.2509, "step": 25500 }, { "epoch": 0.104, "grad_norm": 2.556155204772949, "learning_rate": 4.826666666666667e-05, "loss": 2.2749, "step": 26000 }, { "epoch": 0.106, "grad_norm": 3.8081729412078857, "learning_rate": 4.823333333333334e-05, "loss": 2.2825, "step": 26500 }, { "epoch": 0.108, "grad_norm": 3.964282751083374, "learning_rate": 4.82e-05, "loss": 2.1973, "step": 27000 }, { "epoch": 0.11, "grad_norm": 3.4347293376922607, "learning_rate": 4.8166666666666674e-05, "loss": 2.2707, "step": 27500 }, { "epoch": 0.112, "grad_norm": 4.294029235839844, "learning_rate": 4.8133333333333336e-05, "loss": 2.1915, "step": 28000 }, { "epoch": 0.114, "grad_norm": 4.330965518951416, "learning_rate": 4.8100000000000004e-05, "loss": 2.1753, "step": 28500 }, { "epoch": 0.116, "grad_norm": 4.579583644866943, "learning_rate": 4.806666666666667e-05, "loss": 2.2813, "step": 29000 }, { "epoch": 0.118, "grad_norm": 3.2384727001190186, "learning_rate": 4.803333333333333e-05, "loss": 2.2486, "step": 29500 }, { "epoch": 0.12, "grad_norm": 2.8345494270324707, "learning_rate": 4.8e-05, "loss": 2.2553, "step": 30000 }, { "epoch": 0.122, "grad_norm": 3.484576463699341, "learning_rate": 4.796666666666667e-05, "loss": 2.2019, "step": 30500 }, { "epoch": 0.124, "grad_norm": 3.3220837116241455, "learning_rate": 4.793333333333334e-05, "loss": 2.2267, "step": 31000 }, { "epoch": 0.126, "grad_norm": 4.989398002624512, "learning_rate": 4.79e-05, "loss": 2.1817, "step": 31500 }, { "epoch": 0.128, "grad_norm": 3.302114248275757, "learning_rate": 4.7866666666666674e-05, "loss": 2.224, "step": 32000 }, { "epoch": 0.13, "grad_norm": 3.5390403270721436, "learning_rate": 4.7833333333333335e-05, "loss": 2.2016, "step": 32500 }, { "epoch": 0.132, "grad_norm": 2.661050319671631, "learning_rate": 4.78e-05, "loss": 2.1926, "step": 33000 }, { "epoch": 0.134, "grad_norm": 3.876189947128296, "learning_rate": 4.776666666666667e-05, "loss": 2.2749, "step": 33500 }, { "epoch": 0.136, "grad_norm": 4.3662800788879395, "learning_rate": 4.773333333333333e-05, "loss": 2.1771, "step": 34000 }, { "epoch": 0.138, "grad_norm": 3.5553414821624756, "learning_rate": 4.77e-05, "loss": 2.2333, "step": 34500 }, { "epoch": 0.14, "grad_norm": 3.3606815338134766, "learning_rate": 4.766666666666667e-05, "loss": 2.2021, "step": 35000 }, { "epoch": 0.142, "grad_norm": 2.821028232574463, "learning_rate": 4.763333333333334e-05, "loss": 2.1815, "step": 35500 }, { "epoch": 0.144, "grad_norm": 3.8814945220947266, "learning_rate": 4.76e-05, "loss": 2.2017, "step": 36000 }, { "epoch": 0.146, "grad_norm": 4.055913925170898, "learning_rate": 4.756666666666667e-05, "loss": 2.1921, "step": 36500 }, { "epoch": 0.148, "grad_norm": 2.8168225288391113, "learning_rate": 4.7533333333333334e-05, "loss": 2.215, "step": 37000 }, { "epoch": 0.15, "grad_norm": 2.923954725265503, "learning_rate": 4.75e-05, "loss": 2.1728, "step": 37500 }, { "epoch": 0.152, "grad_norm": 3.0966224670410156, "learning_rate": 4.746666666666667e-05, "loss": 2.1879, "step": 38000 }, { "epoch": 0.154, "grad_norm": 3.9779932498931885, "learning_rate": 4.743333333333333e-05, "loss": 2.1823, "step": 38500 }, { "epoch": 0.156, "grad_norm": 3.8520679473876953, "learning_rate": 4.74e-05, "loss": 2.2028, "step": 39000 }, { "epoch": 0.158, "grad_norm": 3.9359588623046875, "learning_rate": 4.736666666666667e-05, "loss": 2.1436, "step": 39500 }, { "epoch": 0.16, "grad_norm": 3.2693755626678467, "learning_rate": 4.7333333333333336e-05, "loss": 2.1961, "step": 40000 }, { "epoch": 0.162, "grad_norm": 2.5243139266967773, "learning_rate": 4.73e-05, "loss": 2.1738, "step": 40500 }, { "epoch": 0.164, "grad_norm": 4.016306400299072, "learning_rate": 4.726666666666667e-05, "loss": 2.1829, "step": 41000 }, { "epoch": 0.166, "grad_norm": 3.190603017807007, "learning_rate": 4.7233333333333334e-05, "loss": 2.2625, "step": 41500 }, { "epoch": 0.168, "grad_norm": 5.114010810852051, "learning_rate": 4.72e-05, "loss": 2.1802, "step": 42000 }, { "epoch": 0.17, "grad_norm": 3.469277858734131, "learning_rate": 4.716666666666667e-05, "loss": 2.2688, "step": 42500 }, { "epoch": 0.172, "grad_norm": 3.814119577407837, "learning_rate": 4.713333333333333e-05, "loss": 2.1262, "step": 43000 }, { "epoch": 0.174, "grad_norm": 4.100981712341309, "learning_rate": 4.71e-05, "loss": 2.1781, "step": 43500 }, { "epoch": 0.176, "grad_norm": 4.354139804840088, "learning_rate": 4.706666666666667e-05, "loss": 2.2184, "step": 44000 }, { "epoch": 0.178, "grad_norm": 4.569510459899902, "learning_rate": 4.7033333333333336e-05, "loss": 2.1911, "step": 44500 }, { "epoch": 0.18, "grad_norm": 3.179772138595581, "learning_rate": 4.7e-05, "loss": 2.1917, "step": 45000 }, { "epoch": 0.182, "grad_norm": 3.42645525932312, "learning_rate": 4.696666666666667e-05, "loss": 2.1263, "step": 45500 }, { "epoch": 0.184, "grad_norm": 5.382231712341309, "learning_rate": 4.6933333333333333e-05, "loss": 2.2493, "step": 46000 }, { "epoch": 0.186, "grad_norm": 5.931434631347656, "learning_rate": 4.69e-05, "loss": 2.1616, "step": 46500 }, { "epoch": 0.188, "grad_norm": 2.6758346557617188, "learning_rate": 4.686666666666667e-05, "loss": 2.1895, "step": 47000 }, { "epoch": 0.19, "grad_norm": 4.499919891357422, "learning_rate": 4.683333333333334e-05, "loss": 2.1534, "step": 47500 }, { "epoch": 0.192, "grad_norm": 3.2183690071105957, "learning_rate": 4.6800000000000006e-05, "loss": 2.2583, "step": 48000 }, { "epoch": 0.194, "grad_norm": 2.868917226791382, "learning_rate": 4.676666666666667e-05, "loss": 2.1716, "step": 48500 }, { "epoch": 0.196, "grad_norm": 3.731288433074951, "learning_rate": 4.6733333333333335e-05, "loss": 2.2447, "step": 49000 }, { "epoch": 0.198, "grad_norm": 3.4196813106536865, "learning_rate": 4.6700000000000003e-05, "loss": 2.1791, "step": 49500 }, { "epoch": 0.2, "grad_norm": 4.53775691986084, "learning_rate": 4.666666666666667e-05, "loss": 2.1751, "step": 50000 }, { "epoch": 0.202, "grad_norm": 3.948880195617676, "learning_rate": 4.663333333333333e-05, "loss": 2.202, "step": 50500 }, { "epoch": 0.204, "grad_norm": 5.424979209899902, "learning_rate": 4.660000000000001e-05, "loss": 2.1322, "step": 51000 }, { "epoch": 0.206, "grad_norm": 3.3181073665618896, "learning_rate": 4.656666666666667e-05, "loss": 2.1802, "step": 51500 }, { "epoch": 0.208, "grad_norm": 3.727454662322998, "learning_rate": 4.653333333333334e-05, "loss": 2.1418, "step": 52000 }, { "epoch": 0.21, "grad_norm": 4.028873920440674, "learning_rate": 4.6500000000000005e-05, "loss": 2.1675, "step": 52500 }, { "epoch": 0.212, "grad_norm": 4.989190578460693, "learning_rate": 4.646666666666667e-05, "loss": 2.1399, "step": 53000 }, { "epoch": 0.214, "grad_norm": 3.221280813217163, "learning_rate": 4.6433333333333335e-05, "loss": 2.1777, "step": 53500 }, { "epoch": 0.216, "grad_norm": 3.428086519241333, "learning_rate": 4.64e-05, "loss": 2.1646, "step": 54000 }, { "epoch": 0.218, "grad_norm": 3.5606329441070557, "learning_rate": 4.636666666666667e-05, "loss": 2.1985, "step": 54500 }, { "epoch": 0.22, "grad_norm": 4.00446081161499, "learning_rate": 4.633333333333333e-05, "loss": 2.1758, "step": 55000 }, { "epoch": 0.222, "grad_norm": 3.827890157699585, "learning_rate": 4.630000000000001e-05, "loss": 2.1452, "step": 55500 }, { "epoch": 0.224, "grad_norm": 3.6797239780426025, "learning_rate": 4.626666666666667e-05, "loss": 2.1319, "step": 56000 }, { "epoch": 0.226, "grad_norm": 2.939504623413086, "learning_rate": 4.623333333333334e-05, "loss": 2.1941, "step": 56500 }, { "epoch": 0.228, "grad_norm": 2.9682395458221436, "learning_rate": 4.6200000000000005e-05, "loss": 2.1591, "step": 57000 }, { "epoch": 0.23, "grad_norm": 2.7204818725585938, "learning_rate": 4.6166666666666666e-05, "loss": 2.1492, "step": 57500 }, { "epoch": 0.232, "grad_norm": 2.3042027950286865, "learning_rate": 4.6133333333333334e-05, "loss": 2.2162, "step": 58000 }, { "epoch": 0.234, "grad_norm": 8.11201286315918, "learning_rate": 4.61e-05, "loss": 2.1961, "step": 58500 }, { "epoch": 0.236, "grad_norm": 4.328165531158447, "learning_rate": 4.606666666666667e-05, "loss": 2.1703, "step": 59000 }, { "epoch": 0.238, "grad_norm": 2.358962297439575, "learning_rate": 4.603333333333333e-05, "loss": 2.1451, "step": 59500 }, { "epoch": 0.24, "grad_norm": 2.828664541244507, "learning_rate": 4.600000000000001e-05, "loss": 2.1237, "step": 60000 }, { "epoch": 0.242, "grad_norm": 3.2035675048828125, "learning_rate": 4.596666666666667e-05, "loss": 2.0976, "step": 60500 }, { "epoch": 0.244, "grad_norm": 3.383072853088379, "learning_rate": 4.5933333333333336e-05, "loss": 2.1939, "step": 61000 }, { "epoch": 0.246, "grad_norm": 3.0149519443511963, "learning_rate": 4.5900000000000004e-05, "loss": 2.1504, "step": 61500 }, { "epoch": 0.248, "grad_norm": 3.882446527481079, "learning_rate": 4.5866666666666666e-05, "loss": 2.1422, "step": 62000 }, { "epoch": 0.25, "grad_norm": 3.4065513610839844, "learning_rate": 4.5833333333333334e-05, "loss": 2.1733, "step": 62500 }, { "epoch": 0.252, "grad_norm": 4.781372547149658, "learning_rate": 4.58e-05, "loss": 2.1758, "step": 63000 }, { "epoch": 0.254, "grad_norm": 5.701450347900391, "learning_rate": 4.576666666666667e-05, "loss": 2.1758, "step": 63500 }, { "epoch": 0.256, "grad_norm": 2.9135901927948, "learning_rate": 4.573333333333333e-05, "loss": 2.1873, "step": 64000 }, { "epoch": 0.258, "grad_norm": 3.19520902633667, "learning_rate": 4.5700000000000006e-05, "loss": 2.1595, "step": 64500 }, { "epoch": 0.26, "grad_norm": 4.735665798187256, "learning_rate": 4.566666666666667e-05, "loss": 2.1277, "step": 65000 }, { "epoch": 0.262, "grad_norm": 3.377713203430176, "learning_rate": 4.5633333333333336e-05, "loss": 2.1647, "step": 65500 }, { "epoch": 0.264, "grad_norm": 2.931816816329956, "learning_rate": 4.5600000000000004e-05, "loss": 2.1857, "step": 66000 }, { "epoch": 0.266, "grad_norm": 3.2189459800720215, "learning_rate": 4.556666666666667e-05, "loss": 2.1273, "step": 66500 }, { "epoch": 0.268, "grad_norm": 2.6468396186828613, "learning_rate": 4.553333333333333e-05, "loss": 2.1315, "step": 67000 }, { "epoch": 0.27, "grad_norm": 3.905832290649414, "learning_rate": 4.55e-05, "loss": 2.102, "step": 67500 }, { "epoch": 0.272, "grad_norm": 4.4523420333862305, "learning_rate": 4.546666666666667e-05, "loss": 2.132, "step": 68000 }, { "epoch": 0.274, "grad_norm": 3.438626289367676, "learning_rate": 4.543333333333333e-05, "loss": 2.073, "step": 68500 }, { "epoch": 0.276, "grad_norm": 4.564730167388916, "learning_rate": 4.5400000000000006e-05, "loss": 2.0854, "step": 69000 }, { "epoch": 0.278, "grad_norm": 3.2972309589385986, "learning_rate": 4.536666666666667e-05, "loss": 2.131, "step": 69500 }, { "epoch": 0.28, "grad_norm": 3.035818576812744, "learning_rate": 4.5333333333333335e-05, "loss": 2.106, "step": 70000 }, { "epoch": 0.282, "grad_norm": 7.811884880065918, "learning_rate": 4.53e-05, "loss": 2.1292, "step": 70500 }, { "epoch": 0.284, "grad_norm": 5.092980861663818, "learning_rate": 4.526666666666667e-05, "loss": 2.1491, "step": 71000 }, { "epoch": 0.286, "grad_norm": 3.103090524673462, "learning_rate": 4.523333333333333e-05, "loss": 2.1384, "step": 71500 }, { "epoch": 0.288, "grad_norm": 3.5172979831695557, "learning_rate": 4.52e-05, "loss": 2.0726, "step": 72000 }, { "epoch": 0.29, "grad_norm": 2.4746406078338623, "learning_rate": 4.516666666666667e-05, "loss": 2.1094, "step": 72500 }, { "epoch": 0.292, "grad_norm": 3.892256498336792, "learning_rate": 4.513333333333333e-05, "loss": 2.1232, "step": 73000 }, { "epoch": 0.294, "grad_norm": 3.967252254486084, "learning_rate": 4.5100000000000005e-05, "loss": 2.1418, "step": 73500 }, { "epoch": 0.296, "grad_norm": 2.4911153316497803, "learning_rate": 4.5066666666666667e-05, "loss": 2.0842, "step": 74000 }, { "epoch": 0.298, "grad_norm": 3.2252719402313232, "learning_rate": 4.5033333333333335e-05, "loss": 2.098, "step": 74500 }, { "epoch": 0.3, "grad_norm": 2.985283136367798, "learning_rate": 4.5e-05, "loss": 2.1425, "step": 75000 }, { "epoch": 0.302, "grad_norm": 3.0429468154907227, "learning_rate": 4.496666666666667e-05, "loss": 2.1294, "step": 75500 }, { "epoch": 0.304, "grad_norm": 2.7342679500579834, "learning_rate": 4.493333333333333e-05, "loss": 2.1986, "step": 76000 }, { "epoch": 0.306, "grad_norm": 4.057483673095703, "learning_rate": 4.49e-05, "loss": 2.119, "step": 76500 }, { "epoch": 0.308, "grad_norm": 2.410175323486328, "learning_rate": 4.486666666666667e-05, "loss": 2.0871, "step": 77000 }, { "epoch": 0.31, "grad_norm": 2.3968799114227295, "learning_rate": 4.483333333333333e-05, "loss": 2.0911, "step": 77500 }, { "epoch": 0.312, "grad_norm": 2.9172019958496094, "learning_rate": 4.4800000000000005e-05, "loss": 2.1253, "step": 78000 }, { "epoch": 0.314, "grad_norm": 3.167297601699829, "learning_rate": 4.4766666666666666e-05, "loss": 2.0541, "step": 78500 }, { "epoch": 0.316, "grad_norm": 3.127229690551758, "learning_rate": 4.473333333333334e-05, "loss": 2.1449, "step": 79000 }, { "epoch": 0.318, "grad_norm": 3.1288318634033203, "learning_rate": 4.47e-05, "loss": 2.1658, "step": 79500 }, { "epoch": 0.32, "grad_norm": 2.388526201248169, "learning_rate": 4.466666666666667e-05, "loss": 2.1652, "step": 80000 }, { "epoch": 0.322, "grad_norm": 3.584243059158325, "learning_rate": 4.463333333333334e-05, "loss": 2.1232, "step": 80500 }, { "epoch": 0.324, "grad_norm": 1.7563213109970093, "learning_rate": 4.46e-05, "loss": 2.1008, "step": 81000 }, { "epoch": 0.326, "grad_norm": 2.9459004402160645, "learning_rate": 4.456666666666667e-05, "loss": 2.0999, "step": 81500 }, { "epoch": 0.328, "grad_norm": 3.793452501296997, "learning_rate": 4.4533333333333336e-05, "loss": 2.0838, "step": 82000 }, { "epoch": 0.33, "grad_norm": 3.2618210315704346, "learning_rate": 4.4500000000000004e-05, "loss": 2.1374, "step": 82500 }, { "epoch": 0.332, "grad_norm": 3.7118992805480957, "learning_rate": 4.4466666666666666e-05, "loss": 2.0699, "step": 83000 }, { "epoch": 0.334, "grad_norm": 3.5839309692382812, "learning_rate": 4.443333333333334e-05, "loss": 2.1548, "step": 83500 }, { "epoch": 0.336, "grad_norm": 4.390428066253662, "learning_rate": 4.44e-05, "loss": 2.0963, "step": 84000 }, { "epoch": 0.338, "grad_norm": 2.715428113937378, "learning_rate": 4.436666666666667e-05, "loss": 2.0966, "step": 84500 }, { "epoch": 0.34, "grad_norm": 2.7761735916137695, "learning_rate": 4.433333333333334e-05, "loss": 2.1553, "step": 85000 }, { "epoch": 0.342, "grad_norm": 4.191737174987793, "learning_rate": 4.43e-05, "loss": 2.1021, "step": 85500 }, { "epoch": 0.344, "grad_norm": 3.5068883895874023, "learning_rate": 4.426666666666667e-05, "loss": 2.0895, "step": 86000 }, { "epoch": 0.346, "grad_norm": 2.2797133922576904, "learning_rate": 4.4233333333333336e-05, "loss": 2.0971, "step": 86500 }, { "epoch": 0.348, "grad_norm": 3.373415470123291, "learning_rate": 4.4200000000000004e-05, "loss": 2.1137, "step": 87000 }, { "epoch": 0.35, "grad_norm": 3.57524037361145, "learning_rate": 4.4166666666666665e-05, "loss": 2.0742, "step": 87500 }, { "epoch": 0.352, "grad_norm": 3.6643145084381104, "learning_rate": 4.413333333333334e-05, "loss": 2.1568, "step": 88000 }, { "epoch": 0.354, "grad_norm": 3.4529213905334473, "learning_rate": 4.41e-05, "loss": 2.1251, "step": 88500 }, { "epoch": 0.356, "grad_norm": 3.4587767124176025, "learning_rate": 4.406666666666667e-05, "loss": 2.0994, "step": 89000 }, { "epoch": 0.358, "grad_norm": 3.905923843383789, "learning_rate": 4.403333333333334e-05, "loss": 2.1044, "step": 89500 }, { "epoch": 0.36, "grad_norm": 3.8221778869628906, "learning_rate": 4.4000000000000006e-05, "loss": 2.0868, "step": 90000 }, { "epoch": 0.362, "grad_norm": 3.8898580074310303, "learning_rate": 4.396666666666667e-05, "loss": 2.1366, "step": 90500 }, { "epoch": 0.364, "grad_norm": 2.8539063930511475, "learning_rate": 4.3933333333333335e-05, "loss": 2.0988, "step": 91000 }, { "epoch": 0.366, "grad_norm": 3.7087953090667725, "learning_rate": 4.39e-05, "loss": 2.0389, "step": 91500 }, { "epoch": 0.368, "grad_norm": 4.052675247192383, "learning_rate": 4.3866666666666665e-05, "loss": 2.1131, "step": 92000 }, { "epoch": 0.37, "grad_norm": 2.6268131732940674, "learning_rate": 4.383333333333334e-05, "loss": 2.082, "step": 92500 }, { "epoch": 0.372, "grad_norm": 2.995457649230957, "learning_rate": 4.38e-05, "loss": 2.0898, "step": 93000 }, { "epoch": 0.374, "grad_norm": 3.6384551525115967, "learning_rate": 4.376666666666667e-05, "loss": 2.1156, "step": 93500 }, { "epoch": 0.376, "grad_norm": 1.7209620475769043, "learning_rate": 4.373333333333334e-05, "loss": 2.087, "step": 94000 }, { "epoch": 0.378, "grad_norm": 3.265519380569458, "learning_rate": 4.3700000000000005e-05, "loss": 2.0531, "step": 94500 }, { "epoch": 0.38, "grad_norm": 3.0279839038848877, "learning_rate": 4.3666666666666666e-05, "loss": 2.0767, "step": 95000 }, { "epoch": 0.382, "grad_norm": 5.8288493156433105, "learning_rate": 4.3633333333333335e-05, "loss": 2.0825, "step": 95500 }, { "epoch": 0.384, "grad_norm": 4.257803440093994, "learning_rate": 4.36e-05, "loss": 2.0819, "step": 96000 }, { "epoch": 0.386, "grad_norm": 2.3219985961914062, "learning_rate": 4.3566666666666664e-05, "loss": 2.142, "step": 96500 }, { "epoch": 0.388, "grad_norm": 3.8289096355438232, "learning_rate": 4.353333333333334e-05, "loss": 2.1156, "step": 97000 }, { "epoch": 0.39, "grad_norm": 4.018870830535889, "learning_rate": 4.35e-05, "loss": 2.1038, "step": 97500 }, { "epoch": 0.392, "grad_norm": 3.5996994972229004, "learning_rate": 4.346666666666667e-05, "loss": 2.1344, "step": 98000 }, { "epoch": 0.394, "grad_norm": 5.009657859802246, "learning_rate": 4.3433333333333336e-05, "loss": 2.0643, "step": 98500 }, { "epoch": 0.396, "grad_norm": 3.2676007747650146, "learning_rate": 4.3400000000000005e-05, "loss": 2.0461, "step": 99000 }, { "epoch": 0.398, "grad_norm": 4.084861755371094, "learning_rate": 4.3366666666666666e-05, "loss": 2.0873, "step": 99500 }, { "epoch": 0.4, "grad_norm": 3.0719213485717773, "learning_rate": 4.3333333333333334e-05, "loss": 2.0876, "step": 100000 }, { "epoch": 0.402, "grad_norm": 4.066457748413086, "learning_rate": 4.33e-05, "loss": 2.1435, "step": 100500 }, { "epoch": 0.404, "grad_norm": 3.7681031227111816, "learning_rate": 4.3266666666666664e-05, "loss": 2.121, "step": 101000 }, { "epoch": 0.406, "grad_norm": 3.9134926795959473, "learning_rate": 4.323333333333334e-05, "loss": 2.1102, "step": 101500 }, { "epoch": 0.408, "grad_norm": 5.633421897888184, "learning_rate": 4.32e-05, "loss": 2.0901, "step": 102000 }, { "epoch": 0.41, "grad_norm": 2.6770498752593994, "learning_rate": 4.316666666666667e-05, "loss": 2.1348, "step": 102500 }, { "epoch": 0.412, "grad_norm": 3.900874614715576, "learning_rate": 4.3133333333333336e-05, "loss": 2.0964, "step": 103000 }, { "epoch": 0.414, "grad_norm": 7.085757255554199, "learning_rate": 4.3100000000000004e-05, "loss": 2.1136, "step": 103500 }, { "epoch": 0.416, "grad_norm": 4.378531455993652, "learning_rate": 4.3066666666666665e-05, "loss": 2.0943, "step": 104000 }, { "epoch": 0.418, "grad_norm": 5.20663595199585, "learning_rate": 4.3033333333333334e-05, "loss": 2.083, "step": 104500 }, { "epoch": 0.42, "grad_norm": 4.048889636993408, "learning_rate": 4.3e-05, "loss": 2.0464, "step": 105000 }, { "epoch": 0.422, "grad_norm": 3.5435705184936523, "learning_rate": 4.296666666666666e-05, "loss": 2.0341, "step": 105500 }, { "epoch": 0.424, "grad_norm": 3.88645076751709, "learning_rate": 4.293333333333334e-05, "loss": 2.0686, "step": 106000 }, { "epoch": 0.426, "grad_norm": 2.0479886531829834, "learning_rate": 4.29e-05, "loss": 2.0904, "step": 106500 }, { "epoch": 0.428, "grad_norm": 3.7434587478637695, "learning_rate": 4.286666666666667e-05, "loss": 2.0684, "step": 107000 }, { "epoch": 0.43, "grad_norm": 5.205404758453369, "learning_rate": 4.2833333333333335e-05, "loss": 2.1565, "step": 107500 }, { "epoch": 0.432, "grad_norm": 3.417572498321533, "learning_rate": 4.2800000000000004e-05, "loss": 2.0853, "step": 108000 }, { "epoch": 0.434, "grad_norm": 2.5680015087127686, "learning_rate": 4.2766666666666665e-05, "loss": 2.1047, "step": 108500 }, { "epoch": 0.436, "grad_norm": 2.610365390777588, "learning_rate": 4.273333333333333e-05, "loss": 2.0632, "step": 109000 }, { "epoch": 0.438, "grad_norm": 2.8608062267303467, "learning_rate": 4.27e-05, "loss": 2.0585, "step": 109500 }, { "epoch": 0.44, "grad_norm": 3.0791268348693848, "learning_rate": 4.266666666666667e-05, "loss": 2.0507, "step": 110000 }, { "epoch": 0.442, "grad_norm": 5.4177775382995605, "learning_rate": 4.263333333333334e-05, "loss": 2.0372, "step": 110500 }, { "epoch": 0.444, "grad_norm": 5.032754898071289, "learning_rate": 4.26e-05, "loss": 2.0846, "step": 111000 }, { "epoch": 0.446, "grad_norm": 4.747138023376465, "learning_rate": 4.2566666666666674e-05, "loss": 2.0895, "step": 111500 }, { "epoch": 0.448, "grad_norm": 4.253020286560059, "learning_rate": 4.2533333333333335e-05, "loss": 2.115, "step": 112000 }, { "epoch": 0.45, "grad_norm": 4.46184778213501, "learning_rate": 4.25e-05, "loss": 2.095, "step": 112500 }, { "epoch": 0.452, "grad_norm": 3.109792470932007, "learning_rate": 4.246666666666667e-05, "loss": 2.1052, "step": 113000 }, { "epoch": 0.454, "grad_norm": 7.856069087982178, "learning_rate": 4.243333333333334e-05, "loss": 2.0776, "step": 113500 }, { "epoch": 0.456, "grad_norm": 3.9295754432678223, "learning_rate": 4.24e-05, "loss": 2.1196, "step": 114000 }, { "epoch": 0.458, "grad_norm": 3.329394578933716, "learning_rate": 4.236666666666667e-05, "loss": 2.1217, "step": 114500 }, { "epoch": 0.46, "grad_norm": 2.929871082305908, "learning_rate": 4.233333333333334e-05, "loss": 2.0731, "step": 115000 }, { "epoch": 0.462, "grad_norm": 3.9470176696777344, "learning_rate": 4.23e-05, "loss": 2.0762, "step": 115500 }, { "epoch": 0.464, "grad_norm": 2.9162380695343018, "learning_rate": 4.226666666666667e-05, "loss": 2.1109, "step": 116000 }, { "epoch": 0.466, "grad_norm": 3.983062744140625, "learning_rate": 4.2233333333333334e-05, "loss": 2.0822, "step": 116500 }, { "epoch": 0.468, "grad_norm": 4.452120780944824, "learning_rate": 4.22e-05, "loss": 2.0367, "step": 117000 }, { "epoch": 0.47, "grad_norm": 3.6147115230560303, "learning_rate": 4.216666666666667e-05, "loss": 2.0391, "step": 117500 }, { "epoch": 0.472, "grad_norm": 3.7301905155181885, "learning_rate": 4.213333333333334e-05, "loss": 2.0909, "step": 118000 }, { "epoch": 0.474, "grad_norm": 3.6918649673461914, "learning_rate": 4.21e-05, "loss": 2.0537, "step": 118500 }, { "epoch": 0.476, "grad_norm": 2.606703758239746, "learning_rate": 4.206666666666667e-05, "loss": 2.0796, "step": 119000 }, { "epoch": 0.478, "grad_norm": 4.6035919189453125, "learning_rate": 4.2033333333333336e-05, "loss": 2.1071, "step": 119500 }, { "epoch": 0.48, "grad_norm": 3.273329496383667, "learning_rate": 4.2e-05, "loss": 2.0831, "step": 120000 }, { "epoch": 0.482, "grad_norm": 3.0302696228027344, "learning_rate": 4.196666666666667e-05, "loss": 2.0546, "step": 120500 }, { "epoch": 0.484, "grad_norm": 4.3502583503723145, "learning_rate": 4.1933333333333334e-05, "loss": 2.0926, "step": 121000 }, { "epoch": 0.486, "grad_norm": 4.17106294631958, "learning_rate": 4.19e-05, "loss": 2.1072, "step": 121500 }, { "epoch": 0.488, "grad_norm": 3.400022029876709, "learning_rate": 4.186666666666667e-05, "loss": 1.9922, "step": 122000 }, { "epoch": 0.49, "grad_norm": 9.018649101257324, "learning_rate": 4.183333333333334e-05, "loss": 2.1444, "step": 122500 }, { "epoch": 0.492, "grad_norm": 6.39442253112793, "learning_rate": 4.18e-05, "loss": 2.0598, "step": 123000 }, { "epoch": 0.494, "grad_norm": 3.2140920162200928, "learning_rate": 4.176666666666667e-05, "loss": 2.0591, "step": 123500 }, { "epoch": 0.496, "grad_norm": 3.08949613571167, "learning_rate": 4.1733333333333336e-05, "loss": 2.0333, "step": 124000 }, { "epoch": 0.498, "grad_norm": 4.796686172485352, "learning_rate": 4.17e-05, "loss": 2.0813, "step": 124500 }, { "epoch": 0.5, "grad_norm": 3.2902324199676514, "learning_rate": 4.166666666666667e-05, "loss": 2.111, "step": 125000 }, { "epoch": 0.502, "grad_norm": 3.1211979389190674, "learning_rate": 4.1633333333333333e-05, "loss": 2.1149, "step": 125500 }, { "epoch": 0.504, "grad_norm": 3.3916032314300537, "learning_rate": 4.16e-05, "loss": 2.0738, "step": 126000 }, { "epoch": 0.506, "grad_norm": 2.5486552715301514, "learning_rate": 4.156666666666667e-05, "loss": 2.0776, "step": 126500 }, { "epoch": 0.508, "grad_norm": 3.1618568897247314, "learning_rate": 4.153333333333334e-05, "loss": 2.0995, "step": 127000 }, { "epoch": 0.51, "grad_norm": 2.678793430328369, "learning_rate": 4.15e-05, "loss": 2.0531, "step": 127500 }, { "epoch": 0.512, "grad_norm": 2.9615633487701416, "learning_rate": 4.146666666666667e-05, "loss": 2.0667, "step": 128000 }, { "epoch": 0.514, "grad_norm": 3.363345146179199, "learning_rate": 4.1433333333333335e-05, "loss": 2.1193, "step": 128500 }, { "epoch": 0.516, "grad_norm": 2.689866304397583, "learning_rate": 4.14e-05, "loss": 2.0989, "step": 129000 }, { "epoch": 0.518, "grad_norm": 3.714822769165039, "learning_rate": 4.136666666666667e-05, "loss": 2.0501, "step": 129500 }, { "epoch": 0.52, "grad_norm": 2.598795175552368, "learning_rate": 4.133333333333333e-05, "loss": 2.0491, "step": 130000 }, { "epoch": 0.522, "grad_norm": 2.874335289001465, "learning_rate": 4.13e-05, "loss": 2.0749, "step": 130500 }, { "epoch": 0.524, "grad_norm": 3.205214738845825, "learning_rate": 4.126666666666667e-05, "loss": 2.0623, "step": 131000 }, { "epoch": 0.526, "grad_norm": 4.125555515289307, "learning_rate": 4.123333333333334e-05, "loss": 2.0028, "step": 131500 }, { "epoch": 0.528, "grad_norm": 3.410125732421875, "learning_rate": 4.12e-05, "loss": 2.0544, "step": 132000 }, { "epoch": 0.53, "grad_norm": 3.3796143531799316, "learning_rate": 4.116666666666667e-05, "loss": 2.0707, "step": 132500 }, { "epoch": 0.532, "grad_norm": 2.917487859725952, "learning_rate": 4.1133333333333335e-05, "loss": 2.0796, "step": 133000 }, { "epoch": 0.534, "grad_norm": 2.9457132816314697, "learning_rate": 4.11e-05, "loss": 2.0417, "step": 133500 }, { "epoch": 0.536, "grad_norm": 3.2625885009765625, "learning_rate": 4.106666666666667e-05, "loss": 2.0701, "step": 134000 }, { "epoch": 0.538, "grad_norm": 2.5929174423217773, "learning_rate": 4.103333333333333e-05, "loss": 2.0365, "step": 134500 }, { "epoch": 0.54, "grad_norm": 3.7858805656433105, "learning_rate": 4.1e-05, "loss": 2.0688, "step": 135000 }, { "epoch": 0.542, "grad_norm": 2.518702268600464, "learning_rate": 4.096666666666667e-05, "loss": 2.0347, "step": 135500 }, { "epoch": 0.544, "grad_norm": 2.147878885269165, "learning_rate": 4.093333333333334e-05, "loss": 2.0907, "step": 136000 }, { "epoch": 0.546, "grad_norm": 2.583623170852661, "learning_rate": 4.09e-05, "loss": 2.0574, "step": 136500 }, { "epoch": 0.548, "grad_norm": 3.7128000259399414, "learning_rate": 4.086666666666667e-05, "loss": 2.0317, "step": 137000 }, { "epoch": 0.55, "grad_norm": 3.355604410171509, "learning_rate": 4.0833333333333334e-05, "loss": 2.0925, "step": 137500 }, { "epoch": 0.552, "grad_norm": 2.571455955505371, "learning_rate": 4.08e-05, "loss": 2.0609, "step": 138000 }, { "epoch": 0.554, "grad_norm": 4.0345964431762695, "learning_rate": 4.076666666666667e-05, "loss": 2.0588, "step": 138500 }, { "epoch": 0.556, "grad_norm": 2.335813283920288, "learning_rate": 4.073333333333333e-05, "loss": 2.0593, "step": 139000 }, { "epoch": 0.558, "grad_norm": 2.635006904602051, "learning_rate": 4.07e-05, "loss": 2.0305, "step": 139500 }, { "epoch": 0.56, "grad_norm": 3.2713277339935303, "learning_rate": 4.066666666666667e-05, "loss": 2.101, "step": 140000 }, { "epoch": 0.562, "grad_norm": 3.0536394119262695, "learning_rate": 4.0633333333333336e-05, "loss": 2.0822, "step": 140500 }, { "epoch": 0.564, "grad_norm": 2.738590955734253, "learning_rate": 4.0600000000000004e-05, "loss": 2.0657, "step": 141000 }, { "epoch": 0.566, "grad_norm": 2.7430801391601562, "learning_rate": 4.056666666666667e-05, "loss": 2.0501, "step": 141500 }, { "epoch": 0.568, "grad_norm": 3.0719614028930664, "learning_rate": 4.0533333333333334e-05, "loss": 2.0858, "step": 142000 }, { "epoch": 0.57, "grad_norm": 3.7511579990386963, "learning_rate": 4.05e-05, "loss": 2.0379, "step": 142500 }, { "epoch": 0.572, "grad_norm": 2.9549365043640137, "learning_rate": 4.046666666666667e-05, "loss": 2.061, "step": 143000 }, { "epoch": 0.574, "grad_norm": 2.747694492340088, "learning_rate": 4.043333333333333e-05, "loss": 2.0594, "step": 143500 }, { "epoch": 0.576, "grad_norm": 3.0523245334625244, "learning_rate": 4.0400000000000006e-05, "loss": 2.0242, "step": 144000 }, { "epoch": 0.578, "grad_norm": 3.2143924236297607, "learning_rate": 4.036666666666667e-05, "loss": 2.0594, "step": 144500 }, { "epoch": 0.58, "grad_norm": 3.238633394241333, "learning_rate": 4.0333333333333336e-05, "loss": 2.0018, "step": 145000 }, { "epoch": 0.582, "grad_norm": 3.028563976287842, "learning_rate": 4.0300000000000004e-05, "loss": 2.0638, "step": 145500 }, { "epoch": 0.584, "grad_norm": 3.076982259750366, "learning_rate": 4.026666666666667e-05, "loss": 2.0542, "step": 146000 }, { "epoch": 0.586, "grad_norm": 3.362534761428833, "learning_rate": 4.023333333333333e-05, "loss": 2.0644, "step": 146500 }, { "epoch": 0.588, "grad_norm": 3.74678373336792, "learning_rate": 4.02e-05, "loss": 2.0504, "step": 147000 }, { "epoch": 0.59, "grad_norm": 3.791611671447754, "learning_rate": 4.016666666666667e-05, "loss": 2.0707, "step": 147500 }, { "epoch": 0.592, "grad_norm": 2.929403066635132, "learning_rate": 4.013333333333333e-05, "loss": 2.0457, "step": 148000 }, { "epoch": 0.594, "grad_norm": 3.552448034286499, "learning_rate": 4.0100000000000006e-05, "loss": 2.036, "step": 148500 }, { "epoch": 0.596, "grad_norm": 5.283909797668457, "learning_rate": 4.006666666666667e-05, "loss": 2.0015, "step": 149000 }, { "epoch": 0.598, "grad_norm": 4.07560396194458, "learning_rate": 4.0033333333333335e-05, "loss": 2.0624, "step": 149500 }, { "epoch": 0.6, "grad_norm": 4.289628982543945, "learning_rate": 4e-05, "loss": 2.0246, "step": 150000 }, { "epoch": 0.602, "grad_norm": 4.160073757171631, "learning_rate": 3.996666666666667e-05, "loss": 2.0213, "step": 150500 }, { "epoch": 0.604, "grad_norm": 3.4908013343811035, "learning_rate": 3.993333333333333e-05, "loss": 2.0658, "step": 151000 }, { "epoch": 0.606, "grad_norm": 2.9672882556915283, "learning_rate": 3.99e-05, "loss": 2.0558, "step": 151500 }, { "epoch": 0.608, "grad_norm": 3.672718048095703, "learning_rate": 3.986666666666667e-05, "loss": 2.1092, "step": 152000 }, { "epoch": 0.61, "grad_norm": 2.5369906425476074, "learning_rate": 3.983333333333333e-05, "loss": 2.0265, "step": 152500 }, { "epoch": 0.612, "grad_norm": 2.8393161296844482, "learning_rate": 3.9800000000000005e-05, "loss": 2.0251, "step": 153000 }, { "epoch": 0.614, "grad_norm": 3.6911427974700928, "learning_rate": 3.9766666666666667e-05, "loss": 2.1154, "step": 153500 }, { "epoch": 0.616, "grad_norm": 4.792574405670166, "learning_rate": 3.9733333333333335e-05, "loss": 2.0488, "step": 154000 }, { "epoch": 0.618, "grad_norm": 2.8738489151000977, "learning_rate": 3.97e-05, "loss": 2.0367, "step": 154500 }, { "epoch": 0.62, "grad_norm": 2.669877290725708, "learning_rate": 3.966666666666667e-05, "loss": 2.0635, "step": 155000 }, { "epoch": 0.622, "grad_norm": 3.7285993099212646, "learning_rate": 3.963333333333333e-05, "loss": 2.0624, "step": 155500 }, { "epoch": 0.624, "grad_norm": 2.3784637451171875, "learning_rate": 3.960000000000001e-05, "loss": 2.0818, "step": 156000 }, { "epoch": 0.626, "grad_norm": 3.081803560256958, "learning_rate": 3.956666666666667e-05, "loss": 2.088, "step": 156500 }, { "epoch": 0.628, "grad_norm": 3.345363140106201, "learning_rate": 3.9533333333333337e-05, "loss": 2.0417, "step": 157000 }, { "epoch": 0.63, "grad_norm": 3.539335012435913, "learning_rate": 3.9500000000000005e-05, "loss": 2.0896, "step": 157500 }, { "epoch": 0.632, "grad_norm": 9.583149909973145, "learning_rate": 3.9466666666666666e-05, "loss": 2.0003, "step": 158000 }, { "epoch": 0.634, "grad_norm": 3.890080451965332, "learning_rate": 3.9433333333333334e-05, "loss": 2.0148, "step": 158500 }, { "epoch": 0.636, "grad_norm": 3.9122307300567627, "learning_rate": 3.94e-05, "loss": 2.0528, "step": 159000 }, { "epoch": 0.638, "grad_norm": 3.224517345428467, "learning_rate": 3.936666666666667e-05, "loss": 2.0549, "step": 159500 }, { "epoch": 0.64, "grad_norm": 3.221017837524414, "learning_rate": 3.933333333333333e-05, "loss": 2.006, "step": 160000 }, { "epoch": 0.642, "grad_norm": 4.312368869781494, "learning_rate": 3.9300000000000007e-05, "loss": 2.0563, "step": 160500 }, { "epoch": 0.644, "grad_norm": 4.354990005493164, "learning_rate": 3.926666666666667e-05, "loss": 2.0434, "step": 161000 }, { "epoch": 0.646, "grad_norm": 3.228994607925415, "learning_rate": 3.9233333333333336e-05, "loss": 2.0358, "step": 161500 }, { "epoch": 0.648, "grad_norm": 3.925718307495117, "learning_rate": 3.9200000000000004e-05, "loss": 2.0136, "step": 162000 }, { "epoch": 0.65, "grad_norm": 4.197310447692871, "learning_rate": 3.9166666666666665e-05, "loss": 2.0355, "step": 162500 }, { "epoch": 0.652, "grad_norm": 1.8161051273345947, "learning_rate": 3.9133333333333334e-05, "loss": 2.0368, "step": 163000 }, { "epoch": 0.654, "grad_norm": 3.0000922679901123, "learning_rate": 3.91e-05, "loss": 2.0392, "step": 163500 }, { "epoch": 0.656, "grad_norm": 3.431110382080078, "learning_rate": 3.906666666666667e-05, "loss": 2.0281, "step": 164000 }, { "epoch": 0.658, "grad_norm": 2.8818106651306152, "learning_rate": 3.903333333333333e-05, "loss": 2.0448, "step": 164500 }, { "epoch": 0.66, "grad_norm": 3.118952989578247, "learning_rate": 3.9000000000000006e-05, "loss": 2.0006, "step": 165000 }, { "epoch": 0.662, "grad_norm": 2.253390073776245, "learning_rate": 3.896666666666667e-05, "loss": 2.0293, "step": 165500 }, { "epoch": 0.664, "grad_norm": 2.047863483428955, "learning_rate": 3.8933333333333336e-05, "loss": 2.0546, "step": 166000 }, { "epoch": 0.666, "grad_norm": 3.777038097381592, "learning_rate": 3.8900000000000004e-05, "loss": 2.0403, "step": 166500 }, { "epoch": 0.668, "grad_norm": 3.8852968215942383, "learning_rate": 3.8866666666666665e-05, "loss": 2.0197, "step": 167000 }, { "epoch": 0.67, "grad_norm": 3.944096326828003, "learning_rate": 3.883333333333333e-05, "loss": 1.9839, "step": 167500 }, { "epoch": 0.672, "grad_norm": 3.3165063858032227, "learning_rate": 3.88e-05, "loss": 2.0727, "step": 168000 }, { "epoch": 0.674, "grad_norm": 1.9157897233963013, "learning_rate": 3.876666666666667e-05, "loss": 2.0726, "step": 168500 }, { "epoch": 0.676, "grad_norm": 3.022778034210205, "learning_rate": 3.873333333333333e-05, "loss": 2.1037, "step": 169000 }, { "epoch": 0.678, "grad_norm": 4.450779914855957, "learning_rate": 3.8700000000000006e-05, "loss": 2.0933, "step": 169500 }, { "epoch": 0.68, "grad_norm": 2.4837646484375, "learning_rate": 3.866666666666667e-05, "loss": 2.0606, "step": 170000 }, { "epoch": 0.682, "grad_norm": 4.857231616973877, "learning_rate": 3.8633333333333335e-05, "loss": 2.0332, "step": 170500 }, { "epoch": 0.684, "grad_norm": 2.8678693771362305, "learning_rate": 3.86e-05, "loss": 1.9745, "step": 171000 }, { "epoch": 0.686, "grad_norm": 5.499651908874512, "learning_rate": 3.8566666666666664e-05, "loss": 2.0567, "step": 171500 }, { "epoch": 0.688, "grad_norm": 2.0079879760742188, "learning_rate": 3.853333333333334e-05, "loss": 1.9684, "step": 172000 }, { "epoch": 0.69, "grad_norm": 2.0177042484283447, "learning_rate": 3.85e-05, "loss": 2.1217, "step": 172500 }, { "epoch": 0.692, "grad_norm": 5.115923881530762, "learning_rate": 3.846666666666667e-05, "loss": 2.0093, "step": 173000 }, { "epoch": 0.694, "grad_norm": 3.7766571044921875, "learning_rate": 3.843333333333334e-05, "loss": 2.0359, "step": 173500 }, { "epoch": 0.696, "grad_norm": 2.047942638397217, "learning_rate": 3.8400000000000005e-05, "loss": 2.0344, "step": 174000 }, { "epoch": 0.698, "grad_norm": 3.307086229324341, "learning_rate": 3.8366666666666666e-05, "loss": 2.0404, "step": 174500 }, { "epoch": 0.7, "grad_norm": 2.840266704559326, "learning_rate": 3.8333333333333334e-05, "loss": 2.0766, "step": 175000 }, { "epoch": 0.702, "grad_norm": 3.1452879905700684, "learning_rate": 3.83e-05, "loss": 2.0492, "step": 175500 }, { "epoch": 0.704, "grad_norm": 3.49600887298584, "learning_rate": 3.8266666666666664e-05, "loss": 2.0102, "step": 176000 }, { "epoch": 0.706, "grad_norm": 4.95923376083374, "learning_rate": 3.823333333333334e-05, "loss": 2.0691, "step": 176500 }, { "epoch": 0.708, "grad_norm": 2.7085061073303223, "learning_rate": 3.82e-05, "loss": 1.9888, "step": 177000 }, { "epoch": 0.71, "grad_norm": 3.8144969940185547, "learning_rate": 3.816666666666667e-05, "loss": 2.0206, "step": 177500 }, { "epoch": 0.712, "grad_norm": 4.484845161437988, "learning_rate": 3.8133333333333336e-05, "loss": 2.0543, "step": 178000 }, { "epoch": 0.714, "grad_norm": 3.1691911220550537, "learning_rate": 3.8100000000000005e-05, "loss": 2.0377, "step": 178500 }, { "epoch": 0.716, "grad_norm": 3.4520392417907715, "learning_rate": 3.8066666666666666e-05, "loss": 2.0044, "step": 179000 }, { "epoch": 0.718, "grad_norm": 3.3601908683776855, "learning_rate": 3.803333333333334e-05, "loss": 2.0651, "step": 179500 }, { "epoch": 0.72, "grad_norm": 3.411925792694092, "learning_rate": 3.8e-05, "loss": 2.0288, "step": 180000 }, { "epoch": 0.722, "grad_norm": 3.8035693168640137, "learning_rate": 3.796666666666667e-05, "loss": 2.0361, "step": 180500 }, { "epoch": 0.724, "grad_norm": 2.7599313259124756, "learning_rate": 3.793333333333334e-05, "loss": 2.0456, "step": 181000 }, { "epoch": 0.726, "grad_norm": 2.216534376144409, "learning_rate": 3.79e-05, "loss": 2.0082, "step": 181500 }, { "epoch": 0.728, "grad_norm": 3.6396164894104004, "learning_rate": 3.786666666666667e-05, "loss": 2.0084, "step": 182000 }, { "epoch": 0.73, "grad_norm": 4.180398464202881, "learning_rate": 3.7833333333333336e-05, "loss": 2.0389, "step": 182500 }, { "epoch": 0.732, "grad_norm": 3.7922286987304688, "learning_rate": 3.7800000000000004e-05, "loss": 2.0179, "step": 183000 }, { "epoch": 0.734, "grad_norm": 2.810511827468872, "learning_rate": 3.7766666666666665e-05, "loss": 2.0514, "step": 183500 }, { "epoch": 0.736, "grad_norm": 4.541322708129883, "learning_rate": 3.773333333333334e-05, "loss": 2.0042, "step": 184000 }, { "epoch": 0.738, "grad_norm": 4.0907464027404785, "learning_rate": 3.77e-05, "loss": 2.0381, "step": 184500 }, { "epoch": 0.74, "grad_norm": 3.044689893722534, "learning_rate": 3.766666666666667e-05, "loss": 1.98, "step": 185000 }, { "epoch": 0.742, "grad_norm": 3.764763593673706, "learning_rate": 3.763333333333334e-05, "loss": 2.0708, "step": 185500 }, { "epoch": 0.744, "grad_norm": 2.8387868404388428, "learning_rate": 3.76e-05, "loss": 2.0284, "step": 186000 }, { "epoch": 0.746, "grad_norm": 3.0459678173065186, "learning_rate": 3.756666666666667e-05, "loss": 2.0759, "step": 186500 }, { "epoch": 0.748, "grad_norm": 3.9302046298980713, "learning_rate": 3.7533333333333335e-05, "loss": 1.9959, "step": 187000 }, { "epoch": 0.75, "grad_norm": 3.901703119277954, "learning_rate": 3.7500000000000003e-05, "loss": 2.0327, "step": 187500 }, { "epoch": 0.752, "grad_norm": 2.5649538040161133, "learning_rate": 3.7466666666666665e-05, "loss": 2.0695, "step": 188000 }, { "epoch": 0.754, "grad_norm": 3.121854066848755, "learning_rate": 3.743333333333334e-05, "loss": 2.005, "step": 188500 }, { "epoch": 0.756, "grad_norm": 3.9959986209869385, "learning_rate": 3.74e-05, "loss": 1.9709, "step": 189000 }, { "epoch": 0.758, "grad_norm": 2.3672749996185303, "learning_rate": 3.736666666666667e-05, "loss": 2.017, "step": 189500 }, { "epoch": 0.76, "grad_norm": 2.247828483581543, "learning_rate": 3.733333333333334e-05, "loss": 2.0144, "step": 190000 }, { "epoch": 0.762, "grad_norm": 3.7833261489868164, "learning_rate": 3.73e-05, "loss": 2.0452, "step": 190500 }, { "epoch": 0.764, "grad_norm": 2.969160795211792, "learning_rate": 3.726666666666667e-05, "loss": 2.072, "step": 191000 }, { "epoch": 0.766, "grad_norm": 3.3136720657348633, "learning_rate": 3.7233333333333335e-05, "loss": 2.0299, "step": 191500 }, { "epoch": 0.768, "grad_norm": 3.0349690914154053, "learning_rate": 3.72e-05, "loss": 2.0142, "step": 192000 }, { "epoch": 0.77, "grad_norm": 3.991732597351074, "learning_rate": 3.7166666666666664e-05, "loss": 2.0271, "step": 192500 }, { "epoch": 0.772, "grad_norm": 9.109725952148438, "learning_rate": 3.713333333333334e-05, "loss": 2.0119, "step": 193000 }, { "epoch": 0.774, "grad_norm": 3.485161542892456, "learning_rate": 3.71e-05, "loss": 2.0165, "step": 193500 }, { "epoch": 0.776, "grad_norm": 2.7301113605499268, "learning_rate": 3.706666666666667e-05, "loss": 2.0534, "step": 194000 }, { "epoch": 0.778, "grad_norm": 3.1116385459899902, "learning_rate": 3.703333333333334e-05, "loss": 2.0406, "step": 194500 }, { "epoch": 0.78, "grad_norm": 3.623192071914673, "learning_rate": 3.7e-05, "loss": 2.0708, "step": 195000 }, { "epoch": 0.782, "grad_norm": 2.810889720916748, "learning_rate": 3.6966666666666666e-05, "loss": 2.0517, "step": 195500 }, { "epoch": 0.784, "grad_norm": 3.8478283882141113, "learning_rate": 3.6933333333333334e-05, "loss": 2.0147, "step": 196000 }, { "epoch": 0.786, "grad_norm": 3.1300742626190186, "learning_rate": 3.69e-05, "loss": 2.0125, "step": 196500 }, { "epoch": 0.788, "grad_norm": 5.76196813583374, "learning_rate": 3.6866666666666664e-05, "loss": 2.0579, "step": 197000 }, { "epoch": 0.79, "grad_norm": 3.5048184394836426, "learning_rate": 3.683333333333334e-05, "loss": 2.0092, "step": 197500 }, { "epoch": 0.792, "grad_norm": 2.922041177749634, "learning_rate": 3.68e-05, "loss": 2.0052, "step": 198000 }, { "epoch": 0.794, "grad_norm": 2.5056612491607666, "learning_rate": 3.676666666666667e-05, "loss": 2.0202, "step": 198500 }, { "epoch": 0.796, "grad_norm": 3.1135616302490234, "learning_rate": 3.6733333333333336e-05, "loss": 2.0354, "step": 199000 }, { "epoch": 0.798, "grad_norm": 4.489212989807129, "learning_rate": 3.6700000000000004e-05, "loss": 1.9958, "step": 199500 }, { "epoch": 0.8, "grad_norm": 3.027749538421631, "learning_rate": 3.6666666666666666e-05, "loss": 2.0489, "step": 200000 }, { "epoch": 0.802, "grad_norm": 4.058797836303711, "learning_rate": 3.6633333333333334e-05, "loss": 2.0437, "step": 200500 }, { "epoch": 0.804, "grad_norm": 2.8988873958587646, "learning_rate": 3.66e-05, "loss": 2.021, "step": 201000 }, { "epoch": 0.806, "grad_norm": 3.1798198223114014, "learning_rate": 3.656666666666666e-05, "loss": 1.969, "step": 201500 }, { "epoch": 0.808, "grad_norm": 2.8060543537139893, "learning_rate": 3.653333333333334e-05, "loss": 2.0367, "step": 202000 }, { "epoch": 0.81, "grad_norm": 4.770681381225586, "learning_rate": 3.65e-05, "loss": 2.0055, "step": 202500 }, { "epoch": 0.812, "grad_norm": 4.299195289611816, "learning_rate": 3.646666666666667e-05, "loss": 2.0018, "step": 203000 }, { "epoch": 0.814, "grad_norm": 2.6850523948669434, "learning_rate": 3.6433333333333336e-05, "loss": 2.0712, "step": 203500 }, { "epoch": 0.816, "grad_norm": 5.222832679748535, "learning_rate": 3.6400000000000004e-05, "loss": 1.9887, "step": 204000 }, { "epoch": 0.818, "grad_norm": 1.5856728553771973, "learning_rate": 3.636666666666667e-05, "loss": 1.985, "step": 204500 }, { "epoch": 0.82, "grad_norm": 2.768526554107666, "learning_rate": 3.633333333333333e-05, "loss": 2.0219, "step": 205000 }, { "epoch": 0.822, "grad_norm": 3.7961578369140625, "learning_rate": 3.63e-05, "loss": 1.9997, "step": 205500 }, { "epoch": 0.824, "grad_norm": 4.291576385498047, "learning_rate": 3.626666666666667e-05, "loss": 2.0073, "step": 206000 }, { "epoch": 0.826, "grad_norm": 3.5727875232696533, "learning_rate": 3.623333333333334e-05, "loss": 2.0515, "step": 206500 }, { "epoch": 0.828, "grad_norm": 2.564605236053467, "learning_rate": 3.62e-05, "loss": 1.98, "step": 207000 }, { "epoch": 0.83, "grad_norm": 6.970737934112549, "learning_rate": 3.6166666666666674e-05, "loss": 1.9978, "step": 207500 }, { "epoch": 0.832, "grad_norm": 4.531256675720215, "learning_rate": 3.6133333333333335e-05, "loss": 2.0149, "step": 208000 }, { "epoch": 0.834, "grad_norm": 3.8876969814300537, "learning_rate": 3.61e-05, "loss": 2.0041, "step": 208500 }, { "epoch": 0.836, "grad_norm": 2.57814359664917, "learning_rate": 3.606666666666667e-05, "loss": 2.0239, "step": 209000 }, { "epoch": 0.838, "grad_norm": 4.07957649230957, "learning_rate": 3.603333333333333e-05, "loss": 1.9832, "step": 209500 }, { "epoch": 0.84, "grad_norm": 3.2439143657684326, "learning_rate": 3.6e-05, "loss": 2.0308, "step": 210000 }, { "epoch": 0.842, "grad_norm": 3.726674795150757, "learning_rate": 3.596666666666667e-05, "loss": 2.0384, "step": 210500 }, { "epoch": 0.844, "grad_norm": 4.029228687286377, "learning_rate": 3.593333333333334e-05, "loss": 2.0201, "step": 211000 }, { "epoch": 0.846, "grad_norm": 3.6475327014923096, "learning_rate": 3.59e-05, "loss": 2.0273, "step": 211500 }, { "epoch": 0.848, "grad_norm": 3.280093193054199, "learning_rate": 3.586666666666667e-05, "loss": 2.0265, "step": 212000 }, { "epoch": 0.85, "grad_norm": 3.7539923191070557, "learning_rate": 3.5833333333333335e-05, "loss": 1.9668, "step": 212500 }, { "epoch": 0.852, "grad_norm": 2.8362836837768555, "learning_rate": 3.58e-05, "loss": 2.0024, "step": 213000 }, { "epoch": 0.854, "grad_norm": 2.5496578216552734, "learning_rate": 3.576666666666667e-05, "loss": 2.0336, "step": 213500 }, { "epoch": 0.856, "grad_norm": 2.3501594066619873, "learning_rate": 3.573333333333333e-05, "loss": 1.9949, "step": 214000 }, { "epoch": 0.858, "grad_norm": 3.0411014556884766, "learning_rate": 3.57e-05, "loss": 2.0541, "step": 214500 }, { "epoch": 0.86, "grad_norm": 2.0441277027130127, "learning_rate": 3.566666666666667e-05, "loss": 1.9775, "step": 215000 }, { "epoch": 0.862, "grad_norm": 3.871142864227295, "learning_rate": 3.563333333333334e-05, "loss": 2.0222, "step": 215500 }, { "epoch": 0.864, "grad_norm": 4.2942681312561035, "learning_rate": 3.56e-05, "loss": 2.0236, "step": 216000 }, { "epoch": 0.866, "grad_norm": 2.8449583053588867, "learning_rate": 3.556666666666667e-05, "loss": 1.9874, "step": 216500 }, { "epoch": 0.868, "grad_norm": 2.9076645374298096, "learning_rate": 3.5533333333333334e-05, "loss": 2.0187, "step": 217000 }, { "epoch": 0.87, "grad_norm": 2.323218584060669, "learning_rate": 3.55e-05, "loss": 1.9891, "step": 217500 }, { "epoch": 0.872, "grad_norm": 4.182117938995361, "learning_rate": 3.546666666666667e-05, "loss": 2.0188, "step": 218000 }, { "epoch": 0.874, "grad_norm": 2.033358573913574, "learning_rate": 3.543333333333333e-05, "loss": 1.9769, "step": 218500 }, { "epoch": 0.876, "grad_norm": 2.572456121444702, "learning_rate": 3.54e-05, "loss": 2.0148, "step": 219000 }, { "epoch": 0.878, "grad_norm": 3.266324520111084, "learning_rate": 3.536666666666667e-05, "loss": 2.005, "step": 219500 }, { "epoch": 0.88, "grad_norm": 4.314316272735596, "learning_rate": 3.5333333333333336e-05, "loss": 2.0426, "step": 220000 }, { "epoch": 0.882, "grad_norm": 3.1086277961730957, "learning_rate": 3.53e-05, "loss": 2.039, "step": 220500 }, { "epoch": 0.884, "grad_norm": 2.5646815299987793, "learning_rate": 3.526666666666667e-05, "loss": 2.005, "step": 221000 }, { "epoch": 0.886, "grad_norm": 3.548635721206665, "learning_rate": 3.5233333333333334e-05, "loss": 1.9444, "step": 221500 }, { "epoch": 0.888, "grad_norm": 3.8797554969787598, "learning_rate": 3.52e-05, "loss": 1.9985, "step": 222000 }, { "epoch": 0.89, "grad_norm": 5.387217998504639, "learning_rate": 3.516666666666667e-05, "loss": 2.0176, "step": 222500 }, { "epoch": 0.892, "grad_norm": 2.7053544521331787, "learning_rate": 3.513333333333334e-05, "loss": 2.0576, "step": 223000 }, { "epoch": 0.894, "grad_norm": 3.1920294761657715, "learning_rate": 3.51e-05, "loss": 2.0648, "step": 223500 }, { "epoch": 0.896, "grad_norm": 3.1956534385681152, "learning_rate": 3.506666666666667e-05, "loss": 1.9883, "step": 224000 }, { "epoch": 0.898, "grad_norm": 5.129436492919922, "learning_rate": 3.5033333333333336e-05, "loss": 2.0399, "step": 224500 }, { "epoch": 0.9, "grad_norm": 3.581359624862671, "learning_rate": 3.5e-05, "loss": 2.0282, "step": 225000 }, { "epoch": 0.902, "grad_norm": 5.721236705780029, "learning_rate": 3.496666666666667e-05, "loss": 1.9926, "step": 225500 }, { "epoch": 0.904, "grad_norm": 3.101463794708252, "learning_rate": 3.493333333333333e-05, "loss": 2.0188, "step": 226000 }, { "epoch": 0.906, "grad_norm": 4.087904930114746, "learning_rate": 3.49e-05, "loss": 2.0416, "step": 226500 }, { "epoch": 0.908, "grad_norm": 3.628141403198242, "learning_rate": 3.486666666666667e-05, "loss": 2.0289, "step": 227000 }, { "epoch": 0.91, "grad_norm": 2.313952922821045, "learning_rate": 3.483333333333334e-05, "loss": 2.0119, "step": 227500 }, { "epoch": 0.912, "grad_norm": 3.634509801864624, "learning_rate": 3.48e-05, "loss": 2.0395, "step": 228000 }, { "epoch": 0.914, "grad_norm": 4.622471332550049, "learning_rate": 3.476666666666667e-05, "loss": 2.0134, "step": 228500 }, { "epoch": 0.916, "grad_norm": 3.440319538116455, "learning_rate": 3.4733333333333335e-05, "loss": 2.0852, "step": 229000 }, { "epoch": 0.918, "grad_norm": 2.6960558891296387, "learning_rate": 3.4699999999999996e-05, "loss": 2.0298, "step": 229500 }, { "epoch": 0.92, "grad_norm": 1.829918622970581, "learning_rate": 3.466666666666667e-05, "loss": 1.9915, "step": 230000 }, { "epoch": 0.922, "grad_norm": 3.5196449756622314, "learning_rate": 3.463333333333333e-05, "loss": 1.982, "step": 230500 }, { "epoch": 0.924, "grad_norm": 2.8546199798583984, "learning_rate": 3.46e-05, "loss": 2.0097, "step": 231000 }, { "epoch": 0.926, "grad_norm": 2.301971197128296, "learning_rate": 3.456666666666667e-05, "loss": 2.0415, "step": 231500 }, { "epoch": 0.928, "grad_norm": 3.687763214111328, "learning_rate": 3.453333333333334e-05, "loss": 1.9564, "step": 232000 }, { "epoch": 0.93, "grad_norm": 3.731511354446411, "learning_rate": 3.45e-05, "loss": 2.0516, "step": 232500 }, { "epoch": 0.932, "grad_norm": 4.483029365539551, "learning_rate": 3.4466666666666666e-05, "loss": 2.0385, "step": 233000 }, { "epoch": 0.934, "grad_norm": 3.008272409439087, "learning_rate": 3.4433333333333335e-05, "loss": 2.034, "step": 233500 }, { "epoch": 0.936, "grad_norm": 2.278749942779541, "learning_rate": 3.4399999999999996e-05, "loss": 1.9857, "step": 234000 }, { "epoch": 0.938, "grad_norm": 2.739610195159912, "learning_rate": 3.436666666666667e-05, "loss": 1.9976, "step": 234500 }, { "epoch": 0.94, "grad_norm": 3.2660326957702637, "learning_rate": 3.433333333333333e-05, "loss": 2.0563, "step": 235000 }, { "epoch": 0.942, "grad_norm": 3.092320203781128, "learning_rate": 3.430000000000001e-05, "loss": 2.0053, "step": 235500 }, { "epoch": 0.944, "grad_norm": 2.2529335021972656, "learning_rate": 3.426666666666667e-05, "loss": 2.0104, "step": 236000 }, { "epoch": 0.946, "grad_norm": 2.7059290409088135, "learning_rate": 3.4233333333333336e-05, "loss": 1.9848, "step": 236500 }, { "epoch": 0.948, "grad_norm": 2.823878526687622, "learning_rate": 3.4200000000000005e-05, "loss": 2.0381, "step": 237000 }, { "epoch": 0.95, "grad_norm": 4.369820594787598, "learning_rate": 3.4166666666666666e-05, "loss": 1.9899, "step": 237500 }, { "epoch": 0.952, "grad_norm": 4.533642292022705, "learning_rate": 3.4133333333333334e-05, "loss": 2.0017, "step": 238000 }, { "epoch": 0.954, "grad_norm": 3.950101375579834, "learning_rate": 3.41e-05, "loss": 1.9672, "step": 238500 }, { "epoch": 0.956, "grad_norm": 2.77771258354187, "learning_rate": 3.406666666666667e-05, "loss": 1.992, "step": 239000 }, { "epoch": 0.958, "grad_norm": 2.934579849243164, "learning_rate": 3.403333333333333e-05, "loss": 2.0151, "step": 239500 }, { "epoch": 0.96, "grad_norm": 3.074580430984497, "learning_rate": 3.4000000000000007e-05, "loss": 2.0646, "step": 240000 }, { "epoch": 0.962, "grad_norm": 2.964944362640381, "learning_rate": 3.396666666666667e-05, "loss": 1.9509, "step": 240500 }, { "epoch": 0.964, "grad_norm": 4.4962687492370605, "learning_rate": 3.3933333333333336e-05, "loss": 1.9964, "step": 241000 }, { "epoch": 0.966, "grad_norm": 4.716154098510742, "learning_rate": 3.3900000000000004e-05, "loss": 1.9935, "step": 241500 }, { "epoch": 0.968, "grad_norm": 4.54582405090332, "learning_rate": 3.3866666666666665e-05, "loss": 2.0571, "step": 242000 }, { "epoch": 0.97, "grad_norm": 2.189838409423828, "learning_rate": 3.3833333333333334e-05, "loss": 1.9956, "step": 242500 }, { "epoch": 0.972, "grad_norm": 5.158834457397461, "learning_rate": 3.38e-05, "loss": 2.045, "step": 243000 }, { "epoch": 0.974, "grad_norm": 3.4111690521240234, "learning_rate": 3.376666666666667e-05, "loss": 2.0074, "step": 243500 }, { "epoch": 0.976, "grad_norm": 2.365373373031616, "learning_rate": 3.373333333333333e-05, "loss": 1.973, "step": 244000 }, { "epoch": 0.978, "grad_norm": 3.524280548095703, "learning_rate": 3.3700000000000006e-05, "loss": 2.0566, "step": 244500 }, { "epoch": 0.98, "grad_norm": 2.8778977394104004, "learning_rate": 3.366666666666667e-05, "loss": 1.9827, "step": 245000 }, { "epoch": 0.982, "grad_norm": 3.2189018726348877, "learning_rate": 3.3633333333333335e-05, "loss": 1.9813, "step": 245500 }, { "epoch": 0.984, "grad_norm": 2.961458921432495, "learning_rate": 3.3600000000000004e-05, "loss": 1.9986, "step": 246000 }, { "epoch": 0.986, "grad_norm": 2.770312786102295, "learning_rate": 3.356666666666667e-05, "loss": 1.9991, "step": 246500 }, { "epoch": 0.988, "grad_norm": 4.443371295928955, "learning_rate": 3.353333333333333e-05, "loss": 1.9913, "step": 247000 }, { "epoch": 0.99, "grad_norm": 2.6619489192962646, "learning_rate": 3.35e-05, "loss": 1.9642, "step": 247500 }, { "epoch": 0.992, "grad_norm": 5.80720853805542, "learning_rate": 3.346666666666667e-05, "loss": 1.9737, "step": 248000 }, { "epoch": 0.994, "grad_norm": 1.39483642578125, "learning_rate": 3.343333333333333e-05, "loss": 2.0171, "step": 248500 }, { "epoch": 0.996, "grad_norm": 2.9843904972076416, "learning_rate": 3.3400000000000005e-05, "loss": 1.9704, "step": 249000 }, { "epoch": 0.998, "grad_norm": 1.9182007312774658, "learning_rate": 3.336666666666667e-05, "loss": 2.0012, "step": 249500 }, { "epoch": 1.0, "grad_norm": 3.832106113433838, "learning_rate": 3.3333333333333335e-05, "loss": 1.959, "step": 250000 }, { "epoch": 1.002, "grad_norm": 3.529172658920288, "learning_rate": 3.33e-05, "loss": 1.9519, "step": 250500 }, { "epoch": 1.004, "grad_norm": 3.227151870727539, "learning_rate": 3.326666666666667e-05, "loss": 2.0104, "step": 251000 }, { "epoch": 1.006, "grad_norm": 4.671088695526123, "learning_rate": 3.323333333333333e-05, "loss": 1.9652, "step": 251500 }, { "epoch": 1.008, "grad_norm": 5.364327907562256, "learning_rate": 3.32e-05, "loss": 1.9155, "step": 252000 }, { "epoch": 1.01, "grad_norm": 5.8365797996521, "learning_rate": 3.316666666666667e-05, "loss": 1.9725, "step": 252500 }, { "epoch": 1.012, "grad_norm": 3.8017468452453613, "learning_rate": 3.313333333333333e-05, "loss": 2.0161, "step": 253000 }, { "epoch": 1.014, "grad_norm": 2.7072255611419678, "learning_rate": 3.3100000000000005e-05, "loss": 1.9622, "step": 253500 }, { "epoch": 1.016, "grad_norm": 4.904727458953857, "learning_rate": 3.3066666666666666e-05, "loss": 1.9632, "step": 254000 }, { "epoch": 1.018, "grad_norm": 4.010406970977783, "learning_rate": 3.3033333333333334e-05, "loss": 1.9613, "step": 254500 }, { "epoch": 1.02, "grad_norm": 3.1618449687957764, "learning_rate": 3.3e-05, "loss": 1.98, "step": 255000 }, { "epoch": 1.022, "grad_norm": 3.0833239555358887, "learning_rate": 3.296666666666667e-05, "loss": 1.9708, "step": 255500 }, { "epoch": 1.024, "grad_norm": 3.199995756149292, "learning_rate": 3.293333333333333e-05, "loss": 1.9723, "step": 256000 }, { "epoch": 1.026, "grad_norm": 3.322235584259033, "learning_rate": 3.29e-05, "loss": 1.9792, "step": 256500 }, { "epoch": 1.028, "grad_norm": 2.7396552562713623, "learning_rate": 3.286666666666667e-05, "loss": 1.951, "step": 257000 }, { "epoch": 1.03, "grad_norm": 3.056389093399048, "learning_rate": 3.283333333333333e-05, "loss": 1.9421, "step": 257500 }, { "epoch": 1.032, "grad_norm": 2.7470860481262207, "learning_rate": 3.2800000000000004e-05, "loss": 1.9245, "step": 258000 }, { "epoch": 1.034, "grad_norm": 2.7722136974334717, "learning_rate": 3.2766666666666666e-05, "loss": 1.9622, "step": 258500 }, { "epoch": 1.036, "grad_norm": 4.122127056121826, "learning_rate": 3.2733333333333334e-05, "loss": 1.9326, "step": 259000 }, { "epoch": 1.038, "grad_norm": 2.4798827171325684, "learning_rate": 3.27e-05, "loss": 1.9907, "step": 259500 }, { "epoch": 1.04, "grad_norm": 3.258105754852295, "learning_rate": 3.266666666666667e-05, "loss": 1.937, "step": 260000 }, { "epoch": 1.042, "grad_norm": 3.6283533573150635, "learning_rate": 3.263333333333333e-05, "loss": 2.0038, "step": 260500 }, { "epoch": 1.044, "grad_norm": 3.2314536571502686, "learning_rate": 3.26e-05, "loss": 2.0125, "step": 261000 }, { "epoch": 1.046, "grad_norm": 3.685002088546753, "learning_rate": 3.256666666666667e-05, "loss": 1.9459, "step": 261500 }, { "epoch": 1.048, "grad_norm": 3.896249294281006, "learning_rate": 3.253333333333333e-05, "loss": 1.9259, "step": 262000 }, { "epoch": 1.05, "grad_norm": 3.727299690246582, "learning_rate": 3.2500000000000004e-05, "loss": 1.9916, "step": 262500 }, { "epoch": 1.052, "grad_norm": 3.4076099395751953, "learning_rate": 3.2466666666666665e-05, "loss": 1.9669, "step": 263000 }, { "epoch": 1.054, "grad_norm": 4.583504676818848, "learning_rate": 3.243333333333333e-05, "loss": 1.9998, "step": 263500 }, { "epoch": 1.056, "grad_norm": 3.0935134887695312, "learning_rate": 3.24e-05, "loss": 1.9161, "step": 264000 }, { "epoch": 1.058, "grad_norm": 3.6007726192474365, "learning_rate": 3.236666666666667e-05, "loss": 1.9494, "step": 264500 }, { "epoch": 1.06, "grad_norm": 3.0946245193481445, "learning_rate": 3.233333333333333e-05, "loss": 1.9526, "step": 265000 }, { "epoch": 1.062, "grad_norm": 2.779569149017334, "learning_rate": 3.2300000000000006e-05, "loss": 1.9854, "step": 265500 }, { "epoch": 1.064, "grad_norm": 3.2395145893096924, "learning_rate": 3.226666666666667e-05, "loss": 2.0255, "step": 266000 }, { "epoch": 1.066, "grad_norm": 3.470747470855713, "learning_rate": 3.2233333333333335e-05, "loss": 1.9302, "step": 266500 }, { "epoch": 1.068, "grad_norm": 2.9939773082733154, "learning_rate": 3.2200000000000003e-05, "loss": 1.9791, "step": 267000 }, { "epoch": 1.07, "grad_norm": 3.405712127685547, "learning_rate": 3.2166666666666665e-05, "loss": 1.9445, "step": 267500 }, { "epoch": 1.072, "grad_norm": 3.3660807609558105, "learning_rate": 3.213333333333334e-05, "loss": 1.9239, "step": 268000 }, { "epoch": 1.074, "grad_norm": 3.351008176803589, "learning_rate": 3.21e-05, "loss": 1.965, "step": 268500 }, { "epoch": 1.076, "grad_norm": 2.93300724029541, "learning_rate": 3.206666666666667e-05, "loss": 1.9289, "step": 269000 }, { "epoch": 1.078, "grad_norm": 3.768631935119629, "learning_rate": 3.203333333333334e-05, "loss": 1.9255, "step": 269500 }, { "epoch": 1.08, "grad_norm": 2.7596116065979004, "learning_rate": 3.2000000000000005e-05, "loss": 1.9067, "step": 270000 }, { "epoch": 1.082, "grad_norm": 3.4423370361328125, "learning_rate": 3.196666666666667e-05, "loss": 2.0037, "step": 270500 }, { "epoch": 1.084, "grad_norm": 3.480097532272339, "learning_rate": 3.1933333333333335e-05, "loss": 1.964, "step": 271000 }, { "epoch": 1.086, "grad_norm": 2.8090388774871826, "learning_rate": 3.19e-05, "loss": 1.9531, "step": 271500 }, { "epoch": 1.088, "grad_norm": 1.4494075775146484, "learning_rate": 3.1866666666666664e-05, "loss": 1.9398, "step": 272000 }, { "epoch": 1.09, "grad_norm": 7.362401962280273, "learning_rate": 3.183333333333334e-05, "loss": 1.9683, "step": 272500 }, { "epoch": 1.092, "grad_norm": 3.100543737411499, "learning_rate": 3.18e-05, "loss": 1.9526, "step": 273000 }, { "epoch": 1.094, "grad_norm": 2.027784824371338, "learning_rate": 3.176666666666667e-05, "loss": 1.9208, "step": 273500 }, { "epoch": 1.096, "grad_norm": 3.464214324951172, "learning_rate": 3.173333333333334e-05, "loss": 2.0073, "step": 274000 }, { "epoch": 1.098, "grad_norm": 2.7647407054901123, "learning_rate": 3.1700000000000005e-05, "loss": 1.9478, "step": 274500 }, { "epoch": 1.1, "grad_norm": 3.710768222808838, "learning_rate": 3.1666666666666666e-05, "loss": 1.9895, "step": 275000 }, { "epoch": 1.102, "grad_norm": 5.687117099761963, "learning_rate": 3.1633333333333334e-05, "loss": 1.9889, "step": 275500 }, { "epoch": 1.104, "grad_norm": 3.2564468383789062, "learning_rate": 3.16e-05, "loss": 1.9725, "step": 276000 }, { "epoch": 1.106, "grad_norm": 3.0401391983032227, "learning_rate": 3.1566666666666664e-05, "loss": 1.9839, "step": 276500 }, { "epoch": 1.108, "grad_norm": 3.5967485904693604, "learning_rate": 3.153333333333334e-05, "loss": 1.9638, "step": 277000 }, { "epoch": 1.11, "grad_norm": 3.5948970317840576, "learning_rate": 3.15e-05, "loss": 1.9547, "step": 277500 }, { "epoch": 1.112, "grad_norm": 2.420476198196411, "learning_rate": 3.146666666666667e-05, "loss": 1.9521, "step": 278000 }, { "epoch": 1.114, "grad_norm": 2.943868398666382, "learning_rate": 3.1433333333333336e-05, "loss": 1.95, "step": 278500 }, { "epoch": 1.116, "grad_norm": 3.260451555252075, "learning_rate": 3.1400000000000004e-05, "loss": 1.9483, "step": 279000 }, { "epoch": 1.1179999999999999, "grad_norm": 4.045527935028076, "learning_rate": 3.1366666666666666e-05, "loss": 1.971, "step": 279500 }, { "epoch": 1.12, "grad_norm": 3.394606351852417, "learning_rate": 3.1333333333333334e-05, "loss": 1.9192, "step": 280000 }, { "epoch": 1.1219999999999999, "grad_norm": 3.6779961585998535, "learning_rate": 3.13e-05, "loss": 1.966, "step": 280500 }, { "epoch": 1.124, "grad_norm": 2.4559202194213867, "learning_rate": 3.126666666666666e-05, "loss": 1.9586, "step": 281000 }, { "epoch": 1.126, "grad_norm": 3.6582748889923096, "learning_rate": 3.123333333333334e-05, "loss": 1.9806, "step": 281500 }, { "epoch": 1.1280000000000001, "grad_norm": 4.684147357940674, "learning_rate": 3.12e-05, "loss": 1.9257, "step": 282000 }, { "epoch": 1.13, "grad_norm": 3.2761385440826416, "learning_rate": 3.116666666666667e-05, "loss": 1.9436, "step": 282500 }, { "epoch": 1.1320000000000001, "grad_norm": 3.5441782474517822, "learning_rate": 3.1133333333333336e-05, "loss": 1.9869, "step": 283000 }, { "epoch": 1.134, "grad_norm": 3.5346860885620117, "learning_rate": 3.1100000000000004e-05, "loss": 1.9372, "step": 283500 }, { "epoch": 1.1360000000000001, "grad_norm": 2.440453290939331, "learning_rate": 3.1066666666666665e-05, "loss": 1.9658, "step": 284000 }, { "epoch": 1.138, "grad_norm": 5.322811603546143, "learning_rate": 3.103333333333333e-05, "loss": 1.9713, "step": 284500 }, { "epoch": 1.1400000000000001, "grad_norm": 2.808006763458252, "learning_rate": 3.1e-05, "loss": 1.9839, "step": 285000 }, { "epoch": 1.142, "grad_norm": 2.8712430000305176, "learning_rate": 3.096666666666666e-05, "loss": 1.9384, "step": 285500 }, { "epoch": 1.144, "grad_norm": 3.9947776794433594, "learning_rate": 3.093333333333334e-05, "loss": 1.944, "step": 286000 }, { "epoch": 1.146, "grad_norm": 4.884302616119385, "learning_rate": 3.09e-05, "loss": 1.9763, "step": 286500 }, { "epoch": 1.148, "grad_norm": 3.3440279960632324, "learning_rate": 3.086666666666667e-05, "loss": 1.9307, "step": 287000 }, { "epoch": 1.15, "grad_norm": 2.6648025512695312, "learning_rate": 3.0833333333333335e-05, "loss": 2.0214, "step": 287500 }, { "epoch": 1.152, "grad_norm": 4.617626190185547, "learning_rate": 3.08e-05, "loss": 1.9456, "step": 288000 }, { "epoch": 1.154, "grad_norm": 3.55499529838562, "learning_rate": 3.0766666666666665e-05, "loss": 1.9803, "step": 288500 }, { "epoch": 1.156, "grad_norm": 3.234593629837036, "learning_rate": 3.073333333333334e-05, "loss": 1.9191, "step": 289000 }, { "epoch": 1.158, "grad_norm": 2.5377213954925537, "learning_rate": 3.07e-05, "loss": 1.9538, "step": 289500 }, { "epoch": 1.16, "grad_norm": 3.115741491317749, "learning_rate": 3.066666666666667e-05, "loss": 1.9639, "step": 290000 }, { "epoch": 1.162, "grad_norm": 3.1304171085357666, "learning_rate": 3.063333333333334e-05, "loss": 1.9286, "step": 290500 }, { "epoch": 1.164, "grad_norm": 2.4939486980438232, "learning_rate": 3.06e-05, "loss": 1.9397, "step": 291000 }, { "epoch": 1.166, "grad_norm": 3.71409010887146, "learning_rate": 3.0566666666666667e-05, "loss": 2.0122, "step": 291500 }, { "epoch": 1.168, "grad_norm": 2.6886892318725586, "learning_rate": 3.0533333333333335e-05, "loss": 1.9683, "step": 292000 }, { "epoch": 1.17, "grad_norm": 1.988845705986023, "learning_rate": 3.05e-05, "loss": 1.9289, "step": 292500 }, { "epoch": 1.172, "grad_norm": 2.950002431869507, "learning_rate": 3.0466666666666664e-05, "loss": 1.9677, "step": 293000 }, { "epoch": 1.174, "grad_norm": 3.880573034286499, "learning_rate": 3.0433333333333336e-05, "loss": 1.9738, "step": 293500 }, { "epoch": 1.176, "grad_norm": 4.110548496246338, "learning_rate": 3.04e-05, "loss": 1.9293, "step": 294000 }, { "epoch": 1.178, "grad_norm": 2.448448419570923, "learning_rate": 3.0366666666666665e-05, "loss": 1.9623, "step": 294500 }, { "epoch": 1.18, "grad_norm": 2.491990327835083, "learning_rate": 3.0333333333333337e-05, "loss": 1.9821, "step": 295000 }, { "epoch": 1.182, "grad_norm": 3.182067632675171, "learning_rate": 3.03e-05, "loss": 1.9474, "step": 295500 }, { "epoch": 1.184, "grad_norm": 3.369154691696167, "learning_rate": 3.0266666666666666e-05, "loss": 1.9866, "step": 296000 }, { "epoch": 1.186, "grad_norm": 3.41951060295105, "learning_rate": 3.0233333333333334e-05, "loss": 1.9288, "step": 296500 }, { "epoch": 1.188, "grad_norm": 5.4748101234436035, "learning_rate": 3.02e-05, "loss": 1.9657, "step": 297000 }, { "epoch": 1.19, "grad_norm": 4.121461391448975, "learning_rate": 3.016666666666667e-05, "loss": 1.9054, "step": 297500 }, { "epoch": 1.192, "grad_norm": 4.263454437255859, "learning_rate": 3.0133333333333335e-05, "loss": 1.946, "step": 298000 }, { "epoch": 1.194, "grad_norm": 2.8658368587493896, "learning_rate": 3.01e-05, "loss": 1.9306, "step": 298500 }, { "epoch": 1.196, "grad_norm": 3.3679144382476807, "learning_rate": 3.006666666666667e-05, "loss": 1.9949, "step": 299000 }, { "epoch": 1.198, "grad_norm": 3.039523124694824, "learning_rate": 3.0033333333333336e-05, "loss": 1.9905, "step": 299500 }, { "epoch": 1.2, "grad_norm": 1.3373075723648071, "learning_rate": 3e-05, "loss": 1.9708, "step": 300000 }, { "epoch": 1.202, "grad_norm": 2.54362154006958, "learning_rate": 2.9966666666666672e-05, "loss": 1.9249, "step": 300500 }, { "epoch": 1.204, "grad_norm": 4.981725692749023, "learning_rate": 2.9933333333333337e-05, "loss": 1.963, "step": 301000 }, { "epoch": 1.206, "grad_norm": 3.2178914546966553, "learning_rate": 2.9900000000000002e-05, "loss": 2.0233, "step": 301500 }, { "epoch": 1.208, "grad_norm": 4.110596656799316, "learning_rate": 2.986666666666667e-05, "loss": 1.9957, "step": 302000 }, { "epoch": 1.21, "grad_norm": 2.6844451427459717, "learning_rate": 2.9833333333333335e-05, "loss": 1.9797, "step": 302500 }, { "epoch": 1.212, "grad_norm": 2.7491493225097656, "learning_rate": 2.98e-05, "loss": 1.9373, "step": 303000 }, { "epoch": 1.214, "grad_norm": 2.2133188247680664, "learning_rate": 2.976666666666667e-05, "loss": 1.9831, "step": 303500 }, { "epoch": 1.216, "grad_norm": 3.1350815296173096, "learning_rate": 2.9733333333333336e-05, "loss": 1.9739, "step": 304000 }, { "epoch": 1.218, "grad_norm": 4.361825942993164, "learning_rate": 2.97e-05, "loss": 1.9041, "step": 304500 }, { "epoch": 1.22, "grad_norm": 2.5476202964782715, "learning_rate": 2.9666666666666672e-05, "loss": 1.925, "step": 305000 }, { "epoch": 1.222, "grad_norm": 2.9587409496307373, "learning_rate": 2.9633333333333336e-05, "loss": 1.9649, "step": 305500 }, { "epoch": 1.224, "grad_norm": 4.673561096191406, "learning_rate": 2.96e-05, "loss": 1.9441, "step": 306000 }, { "epoch": 1.226, "grad_norm": 4.757534027099609, "learning_rate": 2.956666666666667e-05, "loss": 2.003, "step": 306500 }, { "epoch": 1.228, "grad_norm": 2.7775943279266357, "learning_rate": 2.9533333333333334e-05, "loss": 1.9134, "step": 307000 }, { "epoch": 1.23, "grad_norm": 2.4004340171813965, "learning_rate": 2.95e-05, "loss": 1.9976, "step": 307500 }, { "epoch": 1.232, "grad_norm": 5.399781703948975, "learning_rate": 2.946666666666667e-05, "loss": 1.9294, "step": 308000 }, { "epoch": 1.234, "grad_norm": 1.8388854265213013, "learning_rate": 2.9433333333333335e-05, "loss": 1.9158, "step": 308500 }, { "epoch": 1.236, "grad_norm": 2.5463201999664307, "learning_rate": 2.94e-05, "loss": 2.0071, "step": 309000 }, { "epoch": 1.238, "grad_norm": 2.6961874961853027, "learning_rate": 2.936666666666667e-05, "loss": 1.9348, "step": 309500 }, { "epoch": 1.24, "grad_norm": 1.8212966918945312, "learning_rate": 2.9333333333333336e-05, "loss": 1.9694, "step": 310000 }, { "epoch": 1.242, "grad_norm": 2.46610426902771, "learning_rate": 2.93e-05, "loss": 1.9325, "step": 310500 }, { "epoch": 1.244, "grad_norm": 2.851161241531372, "learning_rate": 2.926666666666667e-05, "loss": 1.9539, "step": 311000 }, { "epoch": 1.246, "grad_norm": 2.508186101913452, "learning_rate": 2.9233333333333334e-05, "loss": 1.9993, "step": 311500 }, { "epoch": 1.248, "grad_norm": 3.743149995803833, "learning_rate": 2.9199999999999998e-05, "loss": 1.9341, "step": 312000 }, { "epoch": 1.25, "grad_norm": 2.6007370948791504, "learning_rate": 2.916666666666667e-05, "loss": 1.9394, "step": 312500 }, { "epoch": 1.252, "grad_norm": 8.935428619384766, "learning_rate": 2.9133333333333334e-05, "loss": 1.9592, "step": 313000 }, { "epoch": 1.254, "grad_norm": 2.37782883644104, "learning_rate": 2.91e-05, "loss": 1.9776, "step": 313500 }, { "epoch": 1.256, "grad_norm": 3.160939931869507, "learning_rate": 2.906666666666667e-05, "loss": 1.9509, "step": 314000 }, { "epoch": 1.258, "grad_norm": 3.2063426971435547, "learning_rate": 2.9033333333333335e-05, "loss": 1.9855, "step": 314500 }, { "epoch": 1.26, "grad_norm": 3.0128235816955566, "learning_rate": 2.9e-05, "loss": 1.9211, "step": 315000 }, { "epoch": 1.262, "grad_norm": 4.047041416168213, "learning_rate": 2.8966666666666668e-05, "loss": 1.9128, "step": 315500 }, { "epoch": 1.264, "grad_norm": 2.325835943222046, "learning_rate": 2.8933333333333333e-05, "loss": 2.0063, "step": 316000 }, { "epoch": 1.266, "grad_norm": 3.5710012912750244, "learning_rate": 2.8899999999999998e-05, "loss": 1.9788, "step": 316500 }, { "epoch": 1.268, "grad_norm": 4.672359943389893, "learning_rate": 2.886666666666667e-05, "loss": 1.9281, "step": 317000 }, { "epoch": 1.27, "grad_norm": 4.793974876403809, "learning_rate": 2.8833333333333334e-05, "loss": 1.968, "step": 317500 }, { "epoch": 1.272, "grad_norm": 1.8592233657836914, "learning_rate": 2.88e-05, "loss": 1.9662, "step": 318000 }, { "epoch": 1.274, "grad_norm": 3.927013397216797, "learning_rate": 2.876666666666667e-05, "loss": 1.9835, "step": 318500 }, { "epoch": 1.276, "grad_norm": 4.40059757232666, "learning_rate": 2.8733333333333335e-05, "loss": 2.007, "step": 319000 }, { "epoch": 1.278, "grad_norm": 3.1267943382263184, "learning_rate": 2.87e-05, "loss": 1.9333, "step": 319500 }, { "epoch": 1.28, "grad_norm": 4.13264799118042, "learning_rate": 2.8666666666666668e-05, "loss": 1.9863, "step": 320000 }, { "epoch": 1.282, "grad_norm": 3.432161569595337, "learning_rate": 2.8633333333333336e-05, "loss": 1.8894, "step": 320500 }, { "epoch": 1.284, "grad_norm": 3.4222466945648193, "learning_rate": 2.86e-05, "loss": 1.9474, "step": 321000 }, { "epoch": 1.286, "grad_norm": 3.0571742057800293, "learning_rate": 2.856666666666667e-05, "loss": 1.9766, "step": 321500 }, { "epoch": 1.288, "grad_norm": 2.558643341064453, "learning_rate": 2.8533333333333333e-05, "loss": 1.9461, "step": 322000 }, { "epoch": 1.29, "grad_norm": 3.561150074005127, "learning_rate": 2.8499999999999998e-05, "loss": 1.9584, "step": 322500 }, { "epoch": 1.292, "grad_norm": 4.499176979064941, "learning_rate": 2.846666666666667e-05, "loss": 1.9395, "step": 323000 }, { "epoch": 1.294, "grad_norm": 3.4617388248443604, "learning_rate": 2.8433333333333334e-05, "loss": 1.9721, "step": 323500 }, { "epoch": 1.296, "grad_norm": 3.8133533000946045, "learning_rate": 2.84e-05, "loss": 1.9494, "step": 324000 }, { "epoch": 1.298, "grad_norm": 2.4999990463256836, "learning_rate": 2.836666666666667e-05, "loss": 1.9296, "step": 324500 }, { "epoch": 1.3, "grad_norm": 3.675123691558838, "learning_rate": 2.8333333333333335e-05, "loss": 1.9677, "step": 325000 }, { "epoch": 1.302, "grad_norm": 4.2841386795043945, "learning_rate": 2.83e-05, "loss": 1.9303, "step": 325500 }, { "epoch": 1.304, "grad_norm": 3.6480119228363037, "learning_rate": 2.8266666666666668e-05, "loss": 1.9121, "step": 326000 }, { "epoch": 1.306, "grad_norm": 2.399094820022583, "learning_rate": 2.8233333333333333e-05, "loss": 1.9808, "step": 326500 }, { "epoch": 1.308, "grad_norm": 3.567394256591797, "learning_rate": 2.8199999999999998e-05, "loss": 1.9368, "step": 327000 }, { "epoch": 1.31, "grad_norm": 3.490063190460205, "learning_rate": 2.816666666666667e-05, "loss": 1.9698, "step": 327500 }, { "epoch": 1.312, "grad_norm": 2.0350863933563232, "learning_rate": 2.8133333333333334e-05, "loss": 1.9752, "step": 328000 }, { "epoch": 1.314, "grad_norm": 2.805644989013672, "learning_rate": 2.8100000000000005e-05, "loss": 1.8955, "step": 328500 }, { "epoch": 1.316, "grad_norm": 2.807559013366699, "learning_rate": 2.806666666666667e-05, "loss": 1.9508, "step": 329000 }, { "epoch": 1.318, "grad_norm": 4.305173397064209, "learning_rate": 2.8033333333333335e-05, "loss": 1.8898, "step": 329500 }, { "epoch": 1.32, "grad_norm": 3.788299560546875, "learning_rate": 2.8000000000000003e-05, "loss": 1.9835, "step": 330000 }, { "epoch": 1.322, "grad_norm": 2.9872121810913086, "learning_rate": 2.7966666666666668e-05, "loss": 1.8811, "step": 330500 }, { "epoch": 1.324, "grad_norm": 4.520979881286621, "learning_rate": 2.7933333333333332e-05, "loss": 1.9734, "step": 331000 }, { "epoch": 1.326, "grad_norm": 4.454957485198975, "learning_rate": 2.7900000000000004e-05, "loss": 1.9085, "step": 331500 }, { "epoch": 1.328, "grad_norm": 2.5593771934509277, "learning_rate": 2.786666666666667e-05, "loss": 1.8897, "step": 332000 }, { "epoch": 1.33, "grad_norm": 3.120297431945801, "learning_rate": 2.7833333333333333e-05, "loss": 1.9646, "step": 332500 }, { "epoch": 1.332, "grad_norm": 2.089595317840576, "learning_rate": 2.7800000000000005e-05, "loss": 1.9754, "step": 333000 }, { "epoch": 1.334, "grad_norm": 3.0772883892059326, "learning_rate": 2.776666666666667e-05, "loss": 1.9736, "step": 333500 }, { "epoch": 1.336, "grad_norm": 3.437891721725464, "learning_rate": 2.7733333333333334e-05, "loss": 1.9182, "step": 334000 }, { "epoch": 1.338, "grad_norm": 3.688281536102295, "learning_rate": 2.7700000000000002e-05, "loss": 1.9581, "step": 334500 }, { "epoch": 1.34, "grad_norm": 2.9639856815338135, "learning_rate": 2.7666666666666667e-05, "loss": 1.952, "step": 335000 }, { "epoch": 1.342, "grad_norm": 2.8647725582122803, "learning_rate": 2.7633333333333332e-05, "loss": 1.9763, "step": 335500 }, { "epoch": 1.3439999999999999, "grad_norm": 3.314138412475586, "learning_rate": 2.7600000000000003e-05, "loss": 1.9759, "step": 336000 }, { "epoch": 1.346, "grad_norm": 4.604184150695801, "learning_rate": 2.7566666666666668e-05, "loss": 1.9265, "step": 336500 }, { "epoch": 1.3479999999999999, "grad_norm": 3.743720531463623, "learning_rate": 2.7533333333333333e-05, "loss": 1.9293, "step": 337000 }, { "epoch": 1.35, "grad_norm": 5.8576130867004395, "learning_rate": 2.7500000000000004e-05, "loss": 1.8839, "step": 337500 }, { "epoch": 1.3519999999999999, "grad_norm": 2.8141660690307617, "learning_rate": 2.746666666666667e-05, "loss": 1.9335, "step": 338000 }, { "epoch": 1.354, "grad_norm": 2.964207887649536, "learning_rate": 2.7433333333333334e-05, "loss": 1.9472, "step": 338500 }, { "epoch": 1.3559999999999999, "grad_norm": 2.9222464561462402, "learning_rate": 2.7400000000000002e-05, "loss": 1.9207, "step": 339000 }, { "epoch": 1.358, "grad_norm": 2.14105486869812, "learning_rate": 2.7366666666666667e-05, "loss": 1.9598, "step": 339500 }, { "epoch": 1.3599999999999999, "grad_norm": 4.700246334075928, "learning_rate": 2.733333333333333e-05, "loss": 1.9482, "step": 340000 }, { "epoch": 1.362, "grad_norm": 2.867978811264038, "learning_rate": 2.7300000000000003e-05, "loss": 1.9142, "step": 340500 }, { "epoch": 1.3639999999999999, "grad_norm": 4.173141956329346, "learning_rate": 2.7266666666666668e-05, "loss": 1.9375, "step": 341000 }, { "epoch": 1.366, "grad_norm": 3.5684845447540283, "learning_rate": 2.7233333333333332e-05, "loss": 1.9163, "step": 341500 }, { "epoch": 1.3679999999999999, "grad_norm": 2.9499728679656982, "learning_rate": 2.7200000000000004e-05, "loss": 1.9405, "step": 342000 }, { "epoch": 1.37, "grad_norm": 3.1491172313690186, "learning_rate": 2.716666666666667e-05, "loss": 1.8542, "step": 342500 }, { "epoch": 1.3719999999999999, "grad_norm": 2.936821699142456, "learning_rate": 2.7133333333333333e-05, "loss": 1.9541, "step": 343000 }, { "epoch": 1.374, "grad_norm": 3.2853519916534424, "learning_rate": 2.7100000000000005e-05, "loss": 1.9577, "step": 343500 }, { "epoch": 1.376, "grad_norm": 2.245823383331299, "learning_rate": 2.706666666666667e-05, "loss": 1.9285, "step": 344000 }, { "epoch": 1.3780000000000001, "grad_norm": 2.8352787494659424, "learning_rate": 2.7033333333333334e-05, "loss": 1.9186, "step": 344500 }, { "epoch": 1.38, "grad_norm": 4.069087505340576, "learning_rate": 2.7000000000000002e-05, "loss": 1.9573, "step": 345000 }, { "epoch": 1.3820000000000001, "grad_norm": 3.304542303085327, "learning_rate": 2.6966666666666667e-05, "loss": 1.9355, "step": 345500 }, { "epoch": 1.384, "grad_norm": 2.1801648139953613, "learning_rate": 2.6933333333333332e-05, "loss": 1.9079, "step": 346000 }, { "epoch": 1.3860000000000001, "grad_norm": 3.3709545135498047, "learning_rate": 2.6900000000000003e-05, "loss": 1.9793, "step": 346500 }, { "epoch": 1.388, "grad_norm": 3.504084825515747, "learning_rate": 2.6866666666666668e-05, "loss": 1.9197, "step": 347000 }, { "epoch": 1.3900000000000001, "grad_norm": 2.0547022819519043, "learning_rate": 2.6833333333333333e-05, "loss": 1.9099, "step": 347500 }, { "epoch": 1.392, "grad_norm": 1.8306704759597778, "learning_rate": 2.6800000000000004e-05, "loss": 1.9424, "step": 348000 }, { "epoch": 1.3940000000000001, "grad_norm": 4.02212381362915, "learning_rate": 2.676666666666667e-05, "loss": 2.0033, "step": 348500 }, { "epoch": 1.396, "grad_norm": 1.6803699731826782, "learning_rate": 2.6733333333333334e-05, "loss": 1.9181, "step": 349000 }, { "epoch": 1.3980000000000001, "grad_norm": 4.2084059715271, "learning_rate": 2.6700000000000002e-05, "loss": 1.9311, "step": 349500 }, { "epoch": 1.4, "grad_norm": 3.3669347763061523, "learning_rate": 2.6666666666666667e-05, "loss": 1.9072, "step": 350000 }, { "epoch": 1.4020000000000001, "grad_norm": 3.185051441192627, "learning_rate": 2.663333333333333e-05, "loss": 1.9342, "step": 350500 }, { "epoch": 1.404, "grad_norm": 2.6800904273986816, "learning_rate": 2.6600000000000003e-05, "loss": 2.0068, "step": 351000 }, { "epoch": 1.4060000000000001, "grad_norm": 3.8787059783935547, "learning_rate": 2.6566666666666668e-05, "loss": 1.9726, "step": 351500 }, { "epoch": 1.408, "grad_norm": 3.4934422969818115, "learning_rate": 2.6533333333333332e-05, "loss": 1.9318, "step": 352000 }, { "epoch": 1.41, "grad_norm": 2.6452531814575195, "learning_rate": 2.6500000000000004e-05, "loss": 1.9746, "step": 352500 }, { "epoch": 1.412, "grad_norm": 2.4151275157928467, "learning_rate": 2.646666666666667e-05, "loss": 1.895, "step": 353000 }, { "epoch": 1.414, "grad_norm": 3.3392443656921387, "learning_rate": 2.6433333333333333e-05, "loss": 1.9206, "step": 353500 }, { "epoch": 1.416, "grad_norm": 3.3407106399536133, "learning_rate": 2.64e-05, "loss": 1.9167, "step": 354000 }, { "epoch": 1.418, "grad_norm": 2.2099573612213135, "learning_rate": 2.6366666666666666e-05, "loss": 1.9366, "step": 354500 }, { "epoch": 1.42, "grad_norm": 2.664048433303833, "learning_rate": 2.633333333333333e-05, "loss": 1.9466, "step": 355000 }, { "epoch": 1.422, "grad_norm": 3.3587818145751953, "learning_rate": 2.6300000000000002e-05, "loss": 1.9178, "step": 355500 }, { "epoch": 1.424, "grad_norm": 3.2821812629699707, "learning_rate": 2.6266666666666667e-05, "loss": 1.9028, "step": 356000 }, { "epoch": 1.426, "grad_norm": 4.078558444976807, "learning_rate": 2.6233333333333332e-05, "loss": 1.9448, "step": 356500 }, { "epoch": 1.428, "grad_norm": 3.0505146980285645, "learning_rate": 2.6200000000000003e-05, "loss": 1.9064, "step": 357000 }, { "epoch": 1.43, "grad_norm": 3.850769281387329, "learning_rate": 2.6166666666666668e-05, "loss": 1.9225, "step": 357500 }, { "epoch": 1.432, "grad_norm": 3.470407485961914, "learning_rate": 2.6133333333333333e-05, "loss": 1.9643, "step": 358000 }, { "epoch": 1.434, "grad_norm": 4.019693374633789, "learning_rate": 2.61e-05, "loss": 1.9883, "step": 358500 }, { "epoch": 1.436, "grad_norm": 2.8907523155212402, "learning_rate": 2.6066666666666666e-05, "loss": 1.9508, "step": 359000 }, { "epoch": 1.438, "grad_norm": 3.7923696041107178, "learning_rate": 2.6033333333333337e-05, "loss": 1.9239, "step": 359500 }, { "epoch": 1.44, "grad_norm": 3.8597493171691895, "learning_rate": 2.6000000000000002e-05, "loss": 1.9362, "step": 360000 }, { "epoch": 1.442, "grad_norm": 3.4547104835510254, "learning_rate": 2.5966666666666667e-05, "loss": 1.9351, "step": 360500 }, { "epoch": 1.444, "grad_norm": 4.025310039520264, "learning_rate": 2.5933333333333338e-05, "loss": 1.9289, "step": 361000 }, { "epoch": 1.446, "grad_norm": 4.879772663116455, "learning_rate": 2.5900000000000003e-05, "loss": 1.9901, "step": 361500 }, { "epoch": 1.448, "grad_norm": 2.230199098587036, "learning_rate": 2.5866666666666667e-05, "loss": 1.9696, "step": 362000 }, { "epoch": 1.45, "grad_norm": 2.6082305908203125, "learning_rate": 2.5833333333333336e-05, "loss": 1.9478, "step": 362500 }, { "epoch": 1.452, "grad_norm": 3.0089962482452393, "learning_rate": 2.58e-05, "loss": 1.9212, "step": 363000 }, { "epoch": 1.454, "grad_norm": 2.923159122467041, "learning_rate": 2.5766666666666665e-05, "loss": 1.9708, "step": 363500 }, { "epoch": 1.456, "grad_norm": 3.1495614051818848, "learning_rate": 2.5733333333333337e-05, "loss": 1.9587, "step": 364000 }, { "epoch": 1.458, "grad_norm": 3.246243476867676, "learning_rate": 2.57e-05, "loss": 1.9605, "step": 364500 }, { "epoch": 1.46, "grad_norm": 3.223666191101074, "learning_rate": 2.5666666666666666e-05, "loss": 1.9245, "step": 365000 }, { "epoch": 1.462, "grad_norm": 3.237511157989502, "learning_rate": 2.5633333333333338e-05, "loss": 1.9382, "step": 365500 }, { "epoch": 1.464, "grad_norm": 3.490596055984497, "learning_rate": 2.5600000000000002e-05, "loss": 1.8842, "step": 366000 }, { "epoch": 1.466, "grad_norm": 2.6978297233581543, "learning_rate": 2.5566666666666667e-05, "loss": 1.9508, "step": 366500 }, { "epoch": 1.468, "grad_norm": 2.619743824005127, "learning_rate": 2.553333333333334e-05, "loss": 1.9715, "step": 367000 }, { "epoch": 1.47, "grad_norm": 3.37778377532959, "learning_rate": 2.5500000000000003e-05, "loss": 1.929, "step": 367500 }, { "epoch": 1.472, "grad_norm": 3.4646658897399902, "learning_rate": 2.5466666666666668e-05, "loss": 1.9261, "step": 368000 }, { "epoch": 1.474, "grad_norm": 3.0174248218536377, "learning_rate": 2.5433333333333336e-05, "loss": 1.9276, "step": 368500 }, { "epoch": 1.476, "grad_norm": 3.012357473373413, "learning_rate": 2.54e-05, "loss": 1.9175, "step": 369000 }, { "epoch": 1.478, "grad_norm": 3.678093433380127, "learning_rate": 2.5366666666666665e-05, "loss": 1.9499, "step": 369500 }, { "epoch": 1.48, "grad_norm": 5.938042640686035, "learning_rate": 2.5333333333333337e-05, "loss": 1.9167, "step": 370000 }, { "epoch": 1.482, "grad_norm": 2.5942413806915283, "learning_rate": 2.5300000000000002e-05, "loss": 1.9544, "step": 370500 }, { "epoch": 1.484, "grad_norm": 3.5059385299682617, "learning_rate": 2.5266666666666666e-05, "loss": 1.9381, "step": 371000 }, { "epoch": 1.486, "grad_norm": 2.4190146923065186, "learning_rate": 2.5233333333333338e-05, "loss": 1.8837, "step": 371500 }, { "epoch": 1.488, "grad_norm": 3.440899610519409, "learning_rate": 2.5200000000000003e-05, "loss": 1.9224, "step": 372000 }, { "epoch": 1.49, "grad_norm": 2.267256736755371, "learning_rate": 2.5166666666666667e-05, "loss": 1.9666, "step": 372500 }, { "epoch": 1.492, "grad_norm": 3.44594669342041, "learning_rate": 2.5133333333333336e-05, "loss": 1.9257, "step": 373000 }, { "epoch": 1.494, "grad_norm": 3.7082021236419678, "learning_rate": 2.51e-05, "loss": 1.9857, "step": 373500 }, { "epoch": 1.496, "grad_norm": 3.378018856048584, "learning_rate": 2.5066666666666665e-05, "loss": 1.9248, "step": 374000 }, { "epoch": 1.498, "grad_norm": 3.2708401679992676, "learning_rate": 2.5033333333333336e-05, "loss": 1.9328, "step": 374500 }, { "epoch": 1.5, "grad_norm": 3.076033592224121, "learning_rate": 2.5e-05, "loss": 1.8765, "step": 375000 }, { "epoch": 1.502, "grad_norm": 2.799485921859741, "learning_rate": 2.496666666666667e-05, "loss": 1.9374, "step": 375500 }, { "epoch": 1.504, "grad_norm": 2.7775092124938965, "learning_rate": 2.4933333333333334e-05, "loss": 1.9935, "step": 376000 }, { "epoch": 1.506, "grad_norm": 3.209745168685913, "learning_rate": 2.4900000000000002e-05, "loss": 1.9675, "step": 376500 }, { "epoch": 1.508, "grad_norm": 2.625767230987549, "learning_rate": 2.486666666666667e-05, "loss": 1.9351, "step": 377000 }, { "epoch": 1.51, "grad_norm": 2.3749732971191406, "learning_rate": 2.4833333333333335e-05, "loss": 1.9686, "step": 377500 }, { "epoch": 1.512, "grad_norm": 3.2491095066070557, "learning_rate": 2.48e-05, "loss": 1.9175, "step": 378000 }, { "epoch": 1.514, "grad_norm": 3.3169057369232178, "learning_rate": 2.4766666666666668e-05, "loss": 1.912, "step": 378500 }, { "epoch": 1.516, "grad_norm": 2.665933847427368, "learning_rate": 2.4733333333333333e-05, "loss": 1.9495, "step": 379000 }, { "epoch": 1.518, "grad_norm": 3.2926623821258545, "learning_rate": 2.47e-05, "loss": 1.9063, "step": 379500 }, { "epoch": 1.52, "grad_norm": 4.455011367797852, "learning_rate": 2.466666666666667e-05, "loss": 1.9446, "step": 380000 }, { "epoch": 1.522, "grad_norm": 3.1576755046844482, "learning_rate": 2.4633333333333334e-05, "loss": 1.9727, "step": 380500 }, { "epoch": 1.524, "grad_norm": 2.488983392715454, "learning_rate": 2.46e-05, "loss": 1.9032, "step": 381000 }, { "epoch": 1.526, "grad_norm": 3.984022378921509, "learning_rate": 2.456666666666667e-05, "loss": 1.96, "step": 381500 }, { "epoch": 1.528, "grad_norm": 3.8776423931121826, "learning_rate": 2.4533333333333334e-05, "loss": 1.9868, "step": 382000 }, { "epoch": 1.53, "grad_norm": 4.296087265014648, "learning_rate": 2.45e-05, "loss": 1.8783, "step": 382500 }, { "epoch": 1.532, "grad_norm": 4.618283748626709, "learning_rate": 2.4466666666666667e-05, "loss": 1.949, "step": 383000 }, { "epoch": 1.534, "grad_norm": 6.0405964851379395, "learning_rate": 2.4433333333333335e-05, "loss": 1.9301, "step": 383500 }, { "epoch": 1.536, "grad_norm": 2.9348373413085938, "learning_rate": 2.44e-05, "loss": 1.9798, "step": 384000 }, { "epoch": 1.538, "grad_norm": 3.9813971519470215, "learning_rate": 2.4366666666666668e-05, "loss": 1.9274, "step": 384500 }, { "epoch": 1.54, "grad_norm": 2.8931353092193604, "learning_rate": 2.4333333333333336e-05, "loss": 1.948, "step": 385000 }, { "epoch": 1.542, "grad_norm": 6.178744316101074, "learning_rate": 2.43e-05, "loss": 1.8994, "step": 385500 }, { "epoch": 1.544, "grad_norm": 3.171900749206543, "learning_rate": 2.426666666666667e-05, "loss": 1.9392, "step": 386000 }, { "epoch": 1.546, "grad_norm": 2.611449956893921, "learning_rate": 2.4233333333333337e-05, "loss": 1.9093, "step": 386500 }, { "epoch": 1.548, "grad_norm": 3.3204538822174072, "learning_rate": 2.4200000000000002e-05, "loss": 1.9131, "step": 387000 }, { "epoch": 1.55, "grad_norm": 5.410957336425781, "learning_rate": 2.4166666666666667e-05, "loss": 1.9213, "step": 387500 }, { "epoch": 1.552, "grad_norm": 3.4421000480651855, "learning_rate": 2.4133333333333335e-05, "loss": 2.0055, "step": 388000 }, { "epoch": 1.554, "grad_norm": 2.8660736083984375, "learning_rate": 2.41e-05, "loss": 1.9366, "step": 388500 }, { "epoch": 1.556, "grad_norm": 1.9283561706542969, "learning_rate": 2.4066666666666668e-05, "loss": 1.9643, "step": 389000 }, { "epoch": 1.558, "grad_norm": 3.334333658218384, "learning_rate": 2.4033333333333336e-05, "loss": 1.9114, "step": 389500 }, { "epoch": 1.56, "grad_norm": 2.810943126678467, "learning_rate": 2.4e-05, "loss": 1.9396, "step": 390000 }, { "epoch": 1.562, "grad_norm": 1.7711280584335327, "learning_rate": 2.396666666666667e-05, "loss": 1.9947, "step": 390500 }, { "epoch": 1.564, "grad_norm": 2.992372751235962, "learning_rate": 2.3933333333333337e-05, "loss": 1.9469, "step": 391000 }, { "epoch": 1.5659999999999998, "grad_norm": 4.435489177703857, "learning_rate": 2.39e-05, "loss": 1.9853, "step": 391500 }, { "epoch": 1.568, "grad_norm": 3.219182252883911, "learning_rate": 2.3866666666666666e-05, "loss": 1.909, "step": 392000 }, { "epoch": 1.5699999999999998, "grad_norm": 2.1483545303344727, "learning_rate": 2.3833333333333334e-05, "loss": 1.9778, "step": 392500 }, { "epoch": 1.572, "grad_norm": 3.510859489440918, "learning_rate": 2.38e-05, "loss": 1.9053, "step": 393000 }, { "epoch": 1.5739999999999998, "grad_norm": 5.1270222663879395, "learning_rate": 2.3766666666666667e-05, "loss": 1.9781, "step": 393500 }, { "epoch": 1.576, "grad_norm": 2.5209779739379883, "learning_rate": 2.3733333333333335e-05, "loss": 1.9793, "step": 394000 }, { "epoch": 1.5779999999999998, "grad_norm": 3.370201349258423, "learning_rate": 2.37e-05, "loss": 1.9202, "step": 394500 }, { "epoch": 1.58, "grad_norm": 2.933300495147705, "learning_rate": 2.3666666666666668e-05, "loss": 1.9601, "step": 395000 }, { "epoch": 1.5819999999999999, "grad_norm": 3.4246957302093506, "learning_rate": 2.3633333333333336e-05, "loss": 1.9644, "step": 395500 }, { "epoch": 1.584, "grad_norm": 5.153846263885498, "learning_rate": 2.36e-05, "loss": 1.9268, "step": 396000 }, { "epoch": 1.5859999999999999, "grad_norm": 3.2302634716033936, "learning_rate": 2.3566666666666666e-05, "loss": 1.8953, "step": 396500 }, { "epoch": 1.588, "grad_norm": 2.646941661834717, "learning_rate": 2.3533333333333334e-05, "loss": 1.901, "step": 397000 }, { "epoch": 1.5899999999999999, "grad_norm": 3.758988618850708, "learning_rate": 2.35e-05, "loss": 1.8888, "step": 397500 }, { "epoch": 1.592, "grad_norm": 5.059525966644287, "learning_rate": 2.3466666666666667e-05, "loss": 1.9675, "step": 398000 }, { "epoch": 1.5939999999999999, "grad_norm": 3.5756661891937256, "learning_rate": 2.3433333333333335e-05, "loss": 1.9416, "step": 398500 }, { "epoch": 1.596, "grad_norm": 2.9694342613220215, "learning_rate": 2.3400000000000003e-05, "loss": 1.9383, "step": 399000 }, { "epoch": 1.5979999999999999, "grad_norm": 2.9568989276885986, "learning_rate": 2.3366666666666668e-05, "loss": 1.9001, "step": 399500 }, { "epoch": 1.6, "grad_norm": 3.1025218963623047, "learning_rate": 2.3333333333333336e-05, "loss": 1.8966, "step": 400000 }, { "epoch": 1.6019999999999999, "grad_norm": 3.721906900405884, "learning_rate": 2.3300000000000004e-05, "loss": 1.9514, "step": 400500 }, { "epoch": 1.604, "grad_norm": 2.4749765396118164, "learning_rate": 2.326666666666667e-05, "loss": 1.9496, "step": 401000 }, { "epoch": 1.6059999999999999, "grad_norm": 2.983774423599243, "learning_rate": 2.3233333333333333e-05, "loss": 1.9398, "step": 401500 }, { "epoch": 1.608, "grad_norm": 4.208621978759766, "learning_rate": 2.32e-05, "loss": 1.9826, "step": 402000 }, { "epoch": 1.6099999999999999, "grad_norm": 3.238241195678711, "learning_rate": 2.3166666666666666e-05, "loss": 1.9313, "step": 402500 }, { "epoch": 1.612, "grad_norm": 3.130443811416626, "learning_rate": 2.3133333333333334e-05, "loss": 1.9445, "step": 403000 }, { "epoch": 1.6139999999999999, "grad_norm": 4.063137531280518, "learning_rate": 2.3100000000000002e-05, "loss": 1.9255, "step": 403500 }, { "epoch": 1.616, "grad_norm": 4.2964558601379395, "learning_rate": 2.3066666666666667e-05, "loss": 1.9336, "step": 404000 }, { "epoch": 1.6179999999999999, "grad_norm": 2.6687209606170654, "learning_rate": 2.3033333333333335e-05, "loss": 1.9325, "step": 404500 }, { "epoch": 1.62, "grad_norm": 4.380516052246094, "learning_rate": 2.3000000000000003e-05, "loss": 1.9764, "step": 405000 }, { "epoch": 1.6219999999999999, "grad_norm": 5.203883647918701, "learning_rate": 2.2966666666666668e-05, "loss": 1.9431, "step": 405500 }, { "epoch": 1.624, "grad_norm": 4.030825138092041, "learning_rate": 2.2933333333333333e-05, "loss": 1.9116, "step": 406000 }, { "epoch": 1.626, "grad_norm": 4.258131504058838, "learning_rate": 2.29e-05, "loss": 1.9386, "step": 406500 }, { "epoch": 1.6280000000000001, "grad_norm": 2.3082876205444336, "learning_rate": 2.2866666666666666e-05, "loss": 1.8925, "step": 407000 }, { "epoch": 1.63, "grad_norm": 2.6121292114257812, "learning_rate": 2.2833333333333334e-05, "loss": 1.9199, "step": 407500 }, { "epoch": 1.6320000000000001, "grad_norm": 3.0361194610595703, "learning_rate": 2.2800000000000002e-05, "loss": 1.9182, "step": 408000 }, { "epoch": 1.634, "grad_norm": 3.141012668609619, "learning_rate": 2.2766666666666667e-05, "loss": 1.9183, "step": 408500 }, { "epoch": 1.6360000000000001, "grad_norm": 2.518684148788452, "learning_rate": 2.2733333333333335e-05, "loss": 1.9084, "step": 409000 }, { "epoch": 1.638, "grad_norm": 3.1415364742279053, "learning_rate": 2.2700000000000003e-05, "loss": 1.917, "step": 409500 }, { "epoch": 1.6400000000000001, "grad_norm": 3.0325417518615723, "learning_rate": 2.2666666666666668e-05, "loss": 1.9427, "step": 410000 }, { "epoch": 1.642, "grad_norm": 5.173191547393799, "learning_rate": 2.2633333333333336e-05, "loss": 1.917, "step": 410500 }, { "epoch": 1.6440000000000001, "grad_norm": 2.372633218765259, "learning_rate": 2.26e-05, "loss": 1.9792, "step": 411000 }, { "epoch": 1.646, "grad_norm": 1.6606264114379883, "learning_rate": 2.2566666666666665e-05, "loss": 1.8753, "step": 411500 }, { "epoch": 1.6480000000000001, "grad_norm": 2.6684279441833496, "learning_rate": 2.2533333333333333e-05, "loss": 1.9233, "step": 412000 }, { "epoch": 1.65, "grad_norm": 3.7809250354766846, "learning_rate": 2.25e-05, "loss": 1.9915, "step": 412500 }, { "epoch": 1.6520000000000001, "grad_norm": 2.4720022678375244, "learning_rate": 2.2466666666666666e-05, "loss": 1.9192, "step": 413000 }, { "epoch": 1.654, "grad_norm": 3.4547295570373535, "learning_rate": 2.2433333333333334e-05, "loss": 1.9234, "step": 413500 }, { "epoch": 1.6560000000000001, "grad_norm": 1.382089614868164, "learning_rate": 2.2400000000000002e-05, "loss": 1.9395, "step": 414000 }, { "epoch": 1.658, "grad_norm": 2.934108257293701, "learning_rate": 2.236666666666667e-05, "loss": 1.9058, "step": 414500 }, { "epoch": 1.6600000000000001, "grad_norm": 3.9861598014831543, "learning_rate": 2.2333333333333335e-05, "loss": 1.9716, "step": 415000 }, { "epoch": 1.662, "grad_norm": 3.44126033782959, "learning_rate": 2.23e-05, "loss": 1.9689, "step": 415500 }, { "epoch": 1.6640000000000001, "grad_norm": 3.3755643367767334, "learning_rate": 2.2266666666666668e-05, "loss": 1.9328, "step": 416000 }, { "epoch": 1.666, "grad_norm": 2.6279067993164062, "learning_rate": 2.2233333333333333e-05, "loss": 1.9265, "step": 416500 }, { "epoch": 1.6680000000000001, "grad_norm": 4.753332138061523, "learning_rate": 2.22e-05, "loss": 1.9296, "step": 417000 }, { "epoch": 1.67, "grad_norm": 3.099449634552002, "learning_rate": 2.216666666666667e-05, "loss": 1.9148, "step": 417500 }, { "epoch": 1.6720000000000002, "grad_norm": 3.0518150329589844, "learning_rate": 2.2133333333333334e-05, "loss": 1.8784, "step": 418000 }, { "epoch": 1.674, "grad_norm": 3.0889222621917725, "learning_rate": 2.2100000000000002e-05, "loss": 1.9786, "step": 418500 }, { "epoch": 1.6760000000000002, "grad_norm": 2.642021894454956, "learning_rate": 2.206666666666667e-05, "loss": 1.8791, "step": 419000 }, { "epoch": 1.678, "grad_norm": 3.9760305881500244, "learning_rate": 2.2033333333333335e-05, "loss": 1.9599, "step": 419500 }, { "epoch": 1.6800000000000002, "grad_norm": 3.1071484088897705, "learning_rate": 2.2000000000000003e-05, "loss": 1.9407, "step": 420000 }, { "epoch": 1.682, "grad_norm": 3.741133689880371, "learning_rate": 2.1966666666666668e-05, "loss": 1.9729, "step": 420500 }, { "epoch": 1.6840000000000002, "grad_norm": 3.7305397987365723, "learning_rate": 2.1933333333333332e-05, "loss": 1.9332, "step": 421000 }, { "epoch": 1.686, "grad_norm": 3.7074167728424072, "learning_rate": 2.19e-05, "loss": 1.9677, "step": 421500 }, { "epoch": 1.688, "grad_norm": 2.668675661087036, "learning_rate": 2.186666666666667e-05, "loss": 1.9697, "step": 422000 }, { "epoch": 1.69, "grad_norm": 3.2775230407714844, "learning_rate": 2.1833333333333333e-05, "loss": 1.8848, "step": 422500 }, { "epoch": 1.692, "grad_norm": 2.878530979156494, "learning_rate": 2.18e-05, "loss": 1.9991, "step": 423000 }, { "epoch": 1.694, "grad_norm": 4.312577247619629, "learning_rate": 2.176666666666667e-05, "loss": 1.9181, "step": 423500 }, { "epoch": 1.696, "grad_norm": 2.9347195625305176, "learning_rate": 2.1733333333333334e-05, "loss": 1.8913, "step": 424000 }, { "epoch": 1.698, "grad_norm": 2.45108699798584, "learning_rate": 2.1700000000000002e-05, "loss": 1.9078, "step": 424500 }, { "epoch": 1.7, "grad_norm": 5.436616897583008, "learning_rate": 2.1666666666666667e-05, "loss": 1.9352, "step": 425000 }, { "epoch": 1.702, "grad_norm": 2.882488250732422, "learning_rate": 2.1633333333333332e-05, "loss": 1.9747, "step": 425500 }, { "epoch": 1.704, "grad_norm": 3.8497514724731445, "learning_rate": 2.16e-05, "loss": 1.9085, "step": 426000 }, { "epoch": 1.706, "grad_norm": 2.8580403327941895, "learning_rate": 2.1566666666666668e-05, "loss": 1.9231, "step": 426500 }, { "epoch": 1.708, "grad_norm": 3.8605587482452393, "learning_rate": 2.1533333333333333e-05, "loss": 1.9148, "step": 427000 }, { "epoch": 1.71, "grad_norm": 2.743581533432007, "learning_rate": 2.15e-05, "loss": 1.9138, "step": 427500 }, { "epoch": 1.712, "grad_norm": 3.476142406463623, "learning_rate": 2.146666666666667e-05, "loss": 1.8806, "step": 428000 }, { "epoch": 1.714, "grad_norm": 3.239506483078003, "learning_rate": 2.1433333333333334e-05, "loss": 1.9722, "step": 428500 }, { "epoch": 1.716, "grad_norm": 3.1536738872528076, "learning_rate": 2.1400000000000002e-05, "loss": 1.9762, "step": 429000 }, { "epoch": 1.718, "grad_norm": 3.4705638885498047, "learning_rate": 2.1366666666666667e-05, "loss": 1.908, "step": 429500 }, { "epoch": 1.72, "grad_norm": 3.0438194274902344, "learning_rate": 2.1333333333333335e-05, "loss": 1.9374, "step": 430000 }, { "epoch": 1.722, "grad_norm": 2.8619210720062256, "learning_rate": 2.13e-05, "loss": 1.9054, "step": 430500 }, { "epoch": 1.724, "grad_norm": 3.936366319656372, "learning_rate": 2.1266666666666667e-05, "loss": 1.9911, "step": 431000 }, { "epoch": 1.726, "grad_norm": 3.868184804916382, "learning_rate": 2.1233333333333336e-05, "loss": 1.9126, "step": 431500 }, { "epoch": 1.728, "grad_norm": 3.1653971672058105, "learning_rate": 2.12e-05, "loss": 1.9632, "step": 432000 }, { "epoch": 1.73, "grad_norm": 4.440386772155762, "learning_rate": 2.116666666666667e-05, "loss": 1.8954, "step": 432500 }, { "epoch": 1.732, "grad_norm": 3.320260524749756, "learning_rate": 2.1133333333333337e-05, "loss": 1.9161, "step": 433000 }, { "epoch": 1.734, "grad_norm": 3.6116676330566406, "learning_rate": 2.11e-05, "loss": 1.9107, "step": 433500 }, { "epoch": 1.736, "grad_norm": 2.696512460708618, "learning_rate": 2.106666666666667e-05, "loss": 1.9168, "step": 434000 }, { "epoch": 1.738, "grad_norm": 2.7827653884887695, "learning_rate": 2.1033333333333334e-05, "loss": 1.8904, "step": 434500 }, { "epoch": 1.74, "grad_norm": 2.947371006011963, "learning_rate": 2.1e-05, "loss": 1.9016, "step": 435000 }, { "epoch": 1.742, "grad_norm": 4.626327037811279, "learning_rate": 2.0966666666666667e-05, "loss": 1.9066, "step": 435500 }, { "epoch": 1.744, "grad_norm": 3.5825893878936768, "learning_rate": 2.0933333333333335e-05, "loss": 1.9514, "step": 436000 }, { "epoch": 1.746, "grad_norm": 4.205458641052246, "learning_rate": 2.09e-05, "loss": 1.9369, "step": 436500 }, { "epoch": 1.748, "grad_norm": 3.084803819656372, "learning_rate": 2.0866666666666668e-05, "loss": 1.9283, "step": 437000 }, { "epoch": 1.75, "grad_norm": 3.3208982944488525, "learning_rate": 2.0833333333333336e-05, "loss": 1.9233, "step": 437500 }, { "epoch": 1.752, "grad_norm": 3.270139694213867, "learning_rate": 2.08e-05, "loss": 1.939, "step": 438000 }, { "epoch": 1.754, "grad_norm": 4.778740406036377, "learning_rate": 2.076666666666667e-05, "loss": 1.9674, "step": 438500 }, { "epoch": 1.756, "grad_norm": 5.207311630249023, "learning_rate": 2.0733333333333334e-05, "loss": 1.9133, "step": 439000 }, { "epoch": 1.758, "grad_norm": 2.929720401763916, "learning_rate": 2.07e-05, "loss": 1.9142, "step": 439500 }, { "epoch": 1.76, "grad_norm": 3.3526523113250732, "learning_rate": 2.0666666666666666e-05, "loss": 1.934, "step": 440000 }, { "epoch": 1.762, "grad_norm": 3.6016769409179688, "learning_rate": 2.0633333333333335e-05, "loss": 1.9077, "step": 440500 }, { "epoch": 1.764, "grad_norm": 3.197774648666382, "learning_rate": 2.06e-05, "loss": 1.8532, "step": 441000 }, { "epoch": 1.766, "grad_norm": 3.8975322246551514, "learning_rate": 2.0566666666666667e-05, "loss": 1.9767, "step": 441500 }, { "epoch": 1.768, "grad_norm": 3.488940477371216, "learning_rate": 2.0533333333333336e-05, "loss": 1.8531, "step": 442000 }, { "epoch": 1.77, "grad_norm": 4.04154109954834, "learning_rate": 2.05e-05, "loss": 1.9166, "step": 442500 }, { "epoch": 1.772, "grad_norm": 3.363910436630249, "learning_rate": 2.046666666666667e-05, "loss": 1.8636, "step": 443000 }, { "epoch": 1.774, "grad_norm": 3.8854823112487793, "learning_rate": 2.0433333333333336e-05, "loss": 1.8861, "step": 443500 }, { "epoch": 1.776, "grad_norm": 5.251601696014404, "learning_rate": 2.04e-05, "loss": 1.8962, "step": 444000 }, { "epoch": 1.778, "grad_norm": 5.260472774505615, "learning_rate": 2.0366666666666666e-05, "loss": 1.9711, "step": 444500 }, { "epoch": 1.78, "grad_norm": 5.123081684112549, "learning_rate": 2.0333333333333334e-05, "loss": 1.9124, "step": 445000 }, { "epoch": 1.782, "grad_norm": 1.2691650390625, "learning_rate": 2.0300000000000002e-05, "loss": 1.9353, "step": 445500 }, { "epoch": 1.784, "grad_norm": 4.626059532165527, "learning_rate": 2.0266666666666667e-05, "loss": 1.9753, "step": 446000 }, { "epoch": 1.786, "grad_norm": 3.9657695293426514, "learning_rate": 2.0233333333333335e-05, "loss": 1.9422, "step": 446500 }, { "epoch": 1.788, "grad_norm": 3.382976770401001, "learning_rate": 2.0200000000000003e-05, "loss": 1.9348, "step": 447000 }, { "epoch": 1.79, "grad_norm": 3.3544819355010986, "learning_rate": 2.0166666666666668e-05, "loss": 1.9643, "step": 447500 }, { "epoch": 1.792, "grad_norm": 2.7417047023773193, "learning_rate": 2.0133333333333336e-05, "loss": 1.9228, "step": 448000 }, { "epoch": 1.794, "grad_norm": 4.532870292663574, "learning_rate": 2.01e-05, "loss": 1.9616, "step": 448500 }, { "epoch": 1.796, "grad_norm": 2.7241365909576416, "learning_rate": 2.0066666666666665e-05, "loss": 1.9295, "step": 449000 }, { "epoch": 1.798, "grad_norm": 3.696352958679199, "learning_rate": 2.0033333333333334e-05, "loss": 1.9934, "step": 449500 }, { "epoch": 1.8, "grad_norm": 3.4224777221679688, "learning_rate": 2e-05, "loss": 1.9546, "step": 450000 }, { "epoch": 1.802, "grad_norm": 4.845315456390381, "learning_rate": 1.9966666666666666e-05, "loss": 1.9355, "step": 450500 }, { "epoch": 1.804, "grad_norm": 4.044910907745361, "learning_rate": 1.9933333333333334e-05, "loss": 1.9407, "step": 451000 }, { "epoch": 1.806, "grad_norm": 2.890526056289673, "learning_rate": 1.9900000000000003e-05, "loss": 1.944, "step": 451500 }, { "epoch": 1.808, "grad_norm": 3.2103819847106934, "learning_rate": 1.9866666666666667e-05, "loss": 1.9371, "step": 452000 }, { "epoch": 1.81, "grad_norm": 1.7022625207901, "learning_rate": 1.9833333333333335e-05, "loss": 1.9236, "step": 452500 }, { "epoch": 1.812, "grad_norm": 4.029776096343994, "learning_rate": 1.9800000000000004e-05, "loss": 1.9205, "step": 453000 }, { "epoch": 1.814, "grad_norm": 3.312782049179077, "learning_rate": 1.9766666666666668e-05, "loss": 1.9365, "step": 453500 }, { "epoch": 1.8159999999999998, "grad_norm": 3.0180747509002686, "learning_rate": 1.9733333333333333e-05, "loss": 1.9685, "step": 454000 }, { "epoch": 1.818, "grad_norm": 2.507460355758667, "learning_rate": 1.97e-05, "loss": 1.9416, "step": 454500 }, { "epoch": 1.8199999999999998, "grad_norm": 3.9633641242980957, "learning_rate": 1.9666666666666666e-05, "loss": 1.9297, "step": 455000 }, { "epoch": 1.822, "grad_norm": 3.120065927505493, "learning_rate": 1.9633333333333334e-05, "loss": 1.9313, "step": 455500 }, { "epoch": 1.8239999999999998, "grad_norm": 2.927708864212036, "learning_rate": 1.9600000000000002e-05, "loss": 1.9414, "step": 456000 }, { "epoch": 1.826, "grad_norm": 4.327637195587158, "learning_rate": 1.9566666666666667e-05, "loss": 1.9294, "step": 456500 }, { "epoch": 1.8279999999999998, "grad_norm": 2.902700662612915, "learning_rate": 1.9533333333333335e-05, "loss": 1.9924, "step": 457000 }, { "epoch": 1.83, "grad_norm": 3.670992136001587, "learning_rate": 1.9500000000000003e-05, "loss": 1.9314, "step": 457500 }, { "epoch": 1.8319999999999999, "grad_norm": 2.3672289848327637, "learning_rate": 1.9466666666666668e-05, "loss": 1.9235, "step": 458000 }, { "epoch": 1.834, "grad_norm": 4.721717357635498, "learning_rate": 1.9433333333333332e-05, "loss": 1.8869, "step": 458500 }, { "epoch": 1.8359999999999999, "grad_norm": 3.915574073791504, "learning_rate": 1.94e-05, "loss": 1.9474, "step": 459000 }, { "epoch": 1.838, "grad_norm": 3.4359326362609863, "learning_rate": 1.9366666666666665e-05, "loss": 1.9029, "step": 459500 }, { "epoch": 1.8399999999999999, "grad_norm": 3.5459322929382324, "learning_rate": 1.9333333333333333e-05, "loss": 1.9173, "step": 460000 }, { "epoch": 1.842, "grad_norm": 3.6038920879364014, "learning_rate": 1.93e-05, "loss": 1.9139, "step": 460500 }, { "epoch": 1.8439999999999999, "grad_norm": 4.2726898193359375, "learning_rate": 1.926666666666667e-05, "loss": 1.8639, "step": 461000 }, { "epoch": 1.846, "grad_norm": 2.9363956451416016, "learning_rate": 1.9233333333333334e-05, "loss": 1.9039, "step": 461500 }, { "epoch": 1.8479999999999999, "grad_norm": 3.254714250564575, "learning_rate": 1.9200000000000003e-05, "loss": 1.9238, "step": 462000 }, { "epoch": 1.85, "grad_norm": 5.399760723114014, "learning_rate": 1.9166666666666667e-05, "loss": 1.8977, "step": 462500 }, { "epoch": 1.8519999999999999, "grad_norm": 4.284369468688965, "learning_rate": 1.9133333333333332e-05, "loss": 1.8972, "step": 463000 }, { "epoch": 1.854, "grad_norm": 3.318804979324341, "learning_rate": 1.91e-05, "loss": 1.8872, "step": 463500 }, { "epoch": 1.8559999999999999, "grad_norm": 2.4969356060028076, "learning_rate": 1.9066666666666668e-05, "loss": 1.876, "step": 464000 }, { "epoch": 1.858, "grad_norm": 4.2779998779296875, "learning_rate": 1.9033333333333333e-05, "loss": 1.8645, "step": 464500 }, { "epoch": 1.8599999999999999, "grad_norm": 3.9311721324920654, "learning_rate": 1.9e-05, "loss": 1.955, "step": 465000 }, { "epoch": 1.862, "grad_norm": 5.360598564147949, "learning_rate": 1.896666666666667e-05, "loss": 1.9189, "step": 465500 }, { "epoch": 1.8639999999999999, "grad_norm": 4.165648937225342, "learning_rate": 1.8933333333333334e-05, "loss": 1.9643, "step": 466000 }, { "epoch": 1.866, "grad_norm": 3.3789327144622803, "learning_rate": 1.8900000000000002e-05, "loss": 1.9457, "step": 466500 }, { "epoch": 1.8679999999999999, "grad_norm": 2.632772922515869, "learning_rate": 1.886666666666667e-05, "loss": 1.9538, "step": 467000 }, { "epoch": 1.87, "grad_norm": 2.74198842048645, "learning_rate": 1.8833333333333335e-05, "loss": 1.9059, "step": 467500 }, { "epoch": 1.8719999999999999, "grad_norm": 3.201322555541992, "learning_rate": 1.88e-05, "loss": 1.9677, "step": 468000 }, { "epoch": 1.874, "grad_norm": 3.470842123031616, "learning_rate": 1.8766666666666668e-05, "loss": 1.8851, "step": 468500 }, { "epoch": 1.876, "grad_norm": 2.5852577686309814, "learning_rate": 1.8733333333333332e-05, "loss": 1.9228, "step": 469000 }, { "epoch": 1.8780000000000001, "grad_norm": 4.127476692199707, "learning_rate": 1.87e-05, "loss": 1.9099, "step": 469500 }, { "epoch": 1.88, "grad_norm": 3.2494888305664062, "learning_rate": 1.866666666666667e-05, "loss": 1.9128, "step": 470000 }, { "epoch": 1.8820000000000001, "grad_norm": 3.6338748931884766, "learning_rate": 1.8633333333333333e-05, "loss": 1.8728, "step": 470500 }, { "epoch": 1.884, "grad_norm": 3.7255539894104004, "learning_rate": 1.86e-05, "loss": 1.9554, "step": 471000 }, { "epoch": 1.8860000000000001, "grad_norm": 3.644660234451294, "learning_rate": 1.856666666666667e-05, "loss": 1.9264, "step": 471500 }, { "epoch": 1.888, "grad_norm": 2.7023730278015137, "learning_rate": 1.8533333333333334e-05, "loss": 1.8853, "step": 472000 }, { "epoch": 1.8900000000000001, "grad_norm": 2.7731287479400635, "learning_rate": 1.85e-05, "loss": 1.9345, "step": 472500 }, { "epoch": 1.892, "grad_norm": 3.208306074142456, "learning_rate": 1.8466666666666667e-05, "loss": 1.9623, "step": 473000 }, { "epoch": 1.8940000000000001, "grad_norm": 3.389620780944824, "learning_rate": 1.8433333333333332e-05, "loss": 1.958, "step": 473500 }, { "epoch": 1.896, "grad_norm": 4.9747724533081055, "learning_rate": 1.84e-05, "loss": 1.9203, "step": 474000 }, { "epoch": 1.8980000000000001, "grad_norm": 3.4500491619110107, "learning_rate": 1.8366666666666668e-05, "loss": 1.8884, "step": 474500 }, { "epoch": 1.9, "grad_norm": 3.523895502090454, "learning_rate": 1.8333333333333333e-05, "loss": 1.9645, "step": 475000 }, { "epoch": 1.9020000000000001, "grad_norm": 3.284940242767334, "learning_rate": 1.83e-05, "loss": 1.9552, "step": 475500 }, { "epoch": 1.904, "grad_norm": 3.399803400039673, "learning_rate": 1.826666666666667e-05, "loss": 1.9005, "step": 476000 }, { "epoch": 1.9060000000000001, "grad_norm": 4.672763347625732, "learning_rate": 1.8233333333333334e-05, "loss": 1.8722, "step": 476500 }, { "epoch": 1.908, "grad_norm": 2.5503244400024414, "learning_rate": 1.8200000000000002e-05, "loss": 1.9488, "step": 477000 }, { "epoch": 1.9100000000000001, "grad_norm": 3.6954541206359863, "learning_rate": 1.8166666666666667e-05, "loss": 1.9132, "step": 477500 }, { "epoch": 1.912, "grad_norm": 3.0261995792388916, "learning_rate": 1.8133333333333335e-05, "loss": 1.9014, "step": 478000 }, { "epoch": 1.9140000000000001, "grad_norm": 2.897448778152466, "learning_rate": 1.81e-05, "loss": 1.9485, "step": 478500 }, { "epoch": 1.916, "grad_norm": 4.201462268829346, "learning_rate": 1.8066666666666668e-05, "loss": 1.9614, "step": 479000 }, { "epoch": 1.9180000000000001, "grad_norm": 2.8987390995025635, "learning_rate": 1.8033333333333336e-05, "loss": 1.858, "step": 479500 }, { "epoch": 1.92, "grad_norm": 2.299197196960449, "learning_rate": 1.8e-05, "loss": 1.9101, "step": 480000 }, { "epoch": 1.9220000000000002, "grad_norm": 3.8119993209838867, "learning_rate": 1.796666666666667e-05, "loss": 1.9533, "step": 480500 }, { "epoch": 1.924, "grad_norm": 3.0587425231933594, "learning_rate": 1.7933333333333337e-05, "loss": 1.9387, "step": 481000 }, { "epoch": 1.9260000000000002, "grad_norm": 2.6371004581451416, "learning_rate": 1.79e-05, "loss": 1.9034, "step": 481500 }, { "epoch": 1.928, "grad_norm": 2.8021397590637207, "learning_rate": 1.7866666666666666e-05, "loss": 1.9347, "step": 482000 }, { "epoch": 1.9300000000000002, "grad_norm": 5.199395656585693, "learning_rate": 1.7833333333333334e-05, "loss": 1.8959, "step": 482500 }, { "epoch": 1.932, "grad_norm": 4.500895977020264, "learning_rate": 1.78e-05, "loss": 1.9165, "step": 483000 }, { "epoch": 1.9340000000000002, "grad_norm": 4.193163871765137, "learning_rate": 1.7766666666666667e-05, "loss": 1.9305, "step": 483500 }, { "epoch": 1.936, "grad_norm": 4.5656585693359375, "learning_rate": 1.7733333333333335e-05, "loss": 1.9732, "step": 484000 }, { "epoch": 1.938, "grad_norm": 4.961602210998535, "learning_rate": 1.77e-05, "loss": 1.9507, "step": 484500 }, { "epoch": 1.94, "grad_norm": 2.8561315536499023, "learning_rate": 1.7666666666666668e-05, "loss": 1.8744, "step": 485000 }, { "epoch": 1.942, "grad_norm": 3.1731960773468018, "learning_rate": 1.7633333333333336e-05, "loss": 1.9143, "step": 485500 }, { "epoch": 1.944, "grad_norm": 2.702399969100952, "learning_rate": 1.76e-05, "loss": 1.9142, "step": 486000 }, { "epoch": 1.946, "grad_norm": 2.8238747119903564, "learning_rate": 1.756666666666667e-05, "loss": 1.9085, "step": 486500 }, { "epoch": 1.948, "grad_norm": 3.7742156982421875, "learning_rate": 1.7533333333333334e-05, "loss": 1.961, "step": 487000 }, { "epoch": 1.95, "grad_norm": 3.195427179336548, "learning_rate": 1.75e-05, "loss": 1.8293, "step": 487500 }, { "epoch": 1.952, "grad_norm": 2.2018630504608154, "learning_rate": 1.7466666666666667e-05, "loss": 1.9127, "step": 488000 }, { "epoch": 1.954, "grad_norm": 4.2638092041015625, "learning_rate": 1.7433333333333335e-05, "loss": 1.8868, "step": 488500 }, { "epoch": 1.956, "grad_norm": 3.522920608520508, "learning_rate": 1.74e-05, "loss": 1.8576, "step": 489000 }, { "epoch": 1.958, "grad_norm": 3.4361538887023926, "learning_rate": 1.7366666666666668e-05, "loss": 1.9602, "step": 489500 }, { "epoch": 1.96, "grad_norm": 2.6690571308135986, "learning_rate": 1.7333333333333336e-05, "loss": 1.9257, "step": 490000 }, { "epoch": 1.962, "grad_norm": 3.4189460277557373, "learning_rate": 1.73e-05, "loss": 1.9053, "step": 490500 }, { "epoch": 1.964, "grad_norm": 3.2636494636535645, "learning_rate": 1.726666666666667e-05, "loss": 1.9066, "step": 491000 }, { "epoch": 1.966, "grad_norm": 2.9824066162109375, "learning_rate": 1.7233333333333333e-05, "loss": 1.9618, "step": 491500 }, { "epoch": 1.968, "grad_norm": 3.5257973670959473, "learning_rate": 1.7199999999999998e-05, "loss": 1.8851, "step": 492000 }, { "epoch": 1.97, "grad_norm": 1.9112154245376587, "learning_rate": 1.7166666666666666e-05, "loss": 1.9247, "step": 492500 }, { "epoch": 1.972, "grad_norm": 3.0634167194366455, "learning_rate": 1.7133333333333334e-05, "loss": 1.9762, "step": 493000 }, { "epoch": 1.974, "grad_norm": 2.112546920776367, "learning_rate": 1.7100000000000002e-05, "loss": 1.9128, "step": 493500 }, { "epoch": 1.976, "grad_norm": 2.6833152770996094, "learning_rate": 1.7066666666666667e-05, "loss": 1.9312, "step": 494000 }, { "epoch": 1.978, "grad_norm": 3.0724921226501465, "learning_rate": 1.7033333333333335e-05, "loss": 1.9515, "step": 494500 }, { "epoch": 1.98, "grad_norm": 2.273602247238159, "learning_rate": 1.7000000000000003e-05, "loss": 1.9258, "step": 495000 }, { "epoch": 1.982, "grad_norm": 2.6353919506073, "learning_rate": 1.6966666666666668e-05, "loss": 1.9377, "step": 495500 }, { "epoch": 1.984, "grad_norm": 2.9519219398498535, "learning_rate": 1.6933333333333333e-05, "loss": 1.9656, "step": 496000 }, { "epoch": 1.986, "grad_norm": 3.816542387008667, "learning_rate": 1.69e-05, "loss": 1.8408, "step": 496500 }, { "epoch": 1.988, "grad_norm": 3.413533926010132, "learning_rate": 1.6866666666666666e-05, "loss": 1.9059, "step": 497000 }, { "epoch": 1.99, "grad_norm": 4.297741413116455, "learning_rate": 1.6833333333333334e-05, "loss": 1.8856, "step": 497500 }, { "epoch": 1.992, "grad_norm": 2.428008556365967, "learning_rate": 1.6800000000000002e-05, "loss": 1.8678, "step": 498000 }, { "epoch": 1.994, "grad_norm": 3.6683671474456787, "learning_rate": 1.6766666666666667e-05, "loss": 1.938, "step": 498500 }, { "epoch": 1.996, "grad_norm": 3.5515244007110596, "learning_rate": 1.6733333333333335e-05, "loss": 1.9577, "step": 499000 }, { "epoch": 1.998, "grad_norm": 2.1118688583374023, "learning_rate": 1.6700000000000003e-05, "loss": 1.91, "step": 499500 }, { "epoch": 2.0, "grad_norm": 4.061803817749023, "learning_rate": 1.6666666666666667e-05, "loss": 1.9263, "step": 500000 }, { "epoch": 2.002, "grad_norm": 7.516952037811279, "learning_rate": 1.6633333333333336e-05, "loss": 1.8706, "step": 500500 }, { "epoch": 2.004, "grad_norm": 1.99518883228302, "learning_rate": 1.66e-05, "loss": 1.8827, "step": 501000 }, { "epoch": 2.006, "grad_norm": 2.8842196464538574, "learning_rate": 1.6566666666666665e-05, "loss": 1.9248, "step": 501500 }, { "epoch": 2.008, "grad_norm": 3.3798069953918457, "learning_rate": 1.6533333333333333e-05, "loss": 1.9396, "step": 502000 }, { "epoch": 2.01, "grad_norm": 2.733304023742676, "learning_rate": 1.65e-05, "loss": 1.968, "step": 502500 }, { "epoch": 2.012, "grad_norm": 3.890256404876709, "learning_rate": 1.6466666666666666e-05, "loss": 1.9008, "step": 503000 }, { "epoch": 2.014, "grad_norm": 2.991520404815674, "learning_rate": 1.6433333333333334e-05, "loss": 1.9079, "step": 503500 }, { "epoch": 2.016, "grad_norm": 4.143782138824463, "learning_rate": 1.6400000000000002e-05, "loss": 1.8297, "step": 504000 }, { "epoch": 2.018, "grad_norm": 2.547020673751831, "learning_rate": 1.6366666666666667e-05, "loss": 1.9209, "step": 504500 }, { "epoch": 2.02, "grad_norm": 2.988551139831543, "learning_rate": 1.6333333333333335e-05, "loss": 1.8811, "step": 505000 }, { "epoch": 2.022, "grad_norm": 2.994225025177002, "learning_rate": 1.63e-05, "loss": 1.8975, "step": 505500 }, { "epoch": 2.024, "grad_norm": 3.2524096965789795, "learning_rate": 1.6266666666666665e-05, "loss": 1.9288, "step": 506000 }, { "epoch": 2.026, "grad_norm": 3.9552001953125, "learning_rate": 1.6233333333333333e-05, "loss": 1.8949, "step": 506500 }, { "epoch": 2.028, "grad_norm": 3.5442562103271484, "learning_rate": 1.62e-05, "loss": 1.8644, "step": 507000 }, { "epoch": 2.03, "grad_norm": 3.977022409439087, "learning_rate": 1.6166666666666665e-05, "loss": 1.8287, "step": 507500 }, { "epoch": 2.032, "grad_norm": 3.1233479976654053, "learning_rate": 1.6133333333333334e-05, "loss": 1.8862, "step": 508000 }, { "epoch": 2.034, "grad_norm": 3.709524393081665, "learning_rate": 1.6100000000000002e-05, "loss": 1.8659, "step": 508500 }, { "epoch": 2.036, "grad_norm": 3.5073769092559814, "learning_rate": 1.606666666666667e-05, "loss": 1.9096, "step": 509000 }, { "epoch": 2.038, "grad_norm": 3.7665152549743652, "learning_rate": 1.6033333333333335e-05, "loss": 1.8907, "step": 509500 }, { "epoch": 2.04, "grad_norm": 4.603018283843994, "learning_rate": 1.6000000000000003e-05, "loss": 1.8886, "step": 510000 }, { "epoch": 2.042, "grad_norm": 4.710312843322754, "learning_rate": 1.5966666666666667e-05, "loss": 1.9498, "step": 510500 }, { "epoch": 2.044, "grad_norm": 3.4907758235931396, "learning_rate": 1.5933333333333332e-05, "loss": 1.9231, "step": 511000 }, { "epoch": 2.046, "grad_norm": 2.5031802654266357, "learning_rate": 1.59e-05, "loss": 1.8835, "step": 511500 }, { "epoch": 2.048, "grad_norm": 3.5436174869537354, "learning_rate": 1.586666666666667e-05, "loss": 1.9235, "step": 512000 }, { "epoch": 2.05, "grad_norm": 3.064300060272217, "learning_rate": 1.5833333333333333e-05, "loss": 1.8486, "step": 512500 }, { "epoch": 2.052, "grad_norm": 4.113504409790039, "learning_rate": 1.58e-05, "loss": 1.8788, "step": 513000 }, { "epoch": 2.054, "grad_norm": 2.2760467529296875, "learning_rate": 1.576666666666667e-05, "loss": 1.9129, "step": 513500 }, { "epoch": 2.056, "grad_norm": 3.8424925804138184, "learning_rate": 1.5733333333333334e-05, "loss": 1.9266, "step": 514000 }, { "epoch": 2.058, "grad_norm": 3.4564108848571777, "learning_rate": 1.5700000000000002e-05, "loss": 1.885, "step": 514500 }, { "epoch": 2.06, "grad_norm": 3.039109945297241, "learning_rate": 1.5666666666666667e-05, "loss": 1.907, "step": 515000 }, { "epoch": 2.062, "grad_norm": 2.940662145614624, "learning_rate": 1.563333333333333e-05, "loss": 1.9565, "step": 515500 }, { "epoch": 2.064, "grad_norm": 4.041988849639893, "learning_rate": 1.56e-05, "loss": 1.8616, "step": 516000 }, { "epoch": 2.066, "grad_norm": 2.848482608795166, "learning_rate": 1.5566666666666668e-05, "loss": 1.9008, "step": 516500 }, { "epoch": 2.068, "grad_norm": 2.872119665145874, "learning_rate": 1.5533333333333333e-05, "loss": 1.883, "step": 517000 }, { "epoch": 2.07, "grad_norm": 3.5374927520751953, "learning_rate": 1.55e-05, "loss": 1.9051, "step": 517500 }, { "epoch": 2.072, "grad_norm": 3.942072629928589, "learning_rate": 1.546666666666667e-05, "loss": 1.8929, "step": 518000 }, { "epoch": 2.074, "grad_norm": 2.7304999828338623, "learning_rate": 1.5433333333333334e-05, "loss": 1.8927, "step": 518500 }, { "epoch": 2.076, "grad_norm": 3.5837740898132324, "learning_rate": 1.54e-05, "loss": 1.891, "step": 519000 }, { "epoch": 2.078, "grad_norm": 2.614603281021118, "learning_rate": 1.536666666666667e-05, "loss": 1.9218, "step": 519500 }, { "epoch": 2.08, "grad_norm": 2.8395819664001465, "learning_rate": 1.5333333333333334e-05, "loss": 1.9042, "step": 520000 }, { "epoch": 2.082, "grad_norm": 3.220353364944458, "learning_rate": 1.53e-05, "loss": 1.91, "step": 520500 }, { "epoch": 2.084, "grad_norm": 3.600212574005127, "learning_rate": 1.5266666666666667e-05, "loss": 1.9439, "step": 521000 }, { "epoch": 2.086, "grad_norm": 3.132828950881958, "learning_rate": 1.5233333333333332e-05, "loss": 1.8983, "step": 521500 }, { "epoch": 2.088, "grad_norm": 3.937420129776001, "learning_rate": 1.52e-05, "loss": 1.8759, "step": 522000 }, { "epoch": 2.09, "grad_norm": 2.952033042907715, "learning_rate": 1.5166666666666668e-05, "loss": 1.9049, "step": 522500 }, { "epoch": 2.092, "grad_norm": 2.5694615840911865, "learning_rate": 1.5133333333333333e-05, "loss": 1.9664, "step": 523000 }, { "epoch": 2.094, "grad_norm": 3.440437078475952, "learning_rate": 1.51e-05, "loss": 1.8997, "step": 523500 }, { "epoch": 2.096, "grad_norm": 2.9814558029174805, "learning_rate": 1.5066666666666668e-05, "loss": 1.9387, "step": 524000 }, { "epoch": 2.098, "grad_norm": 4.388236999511719, "learning_rate": 1.5033333333333336e-05, "loss": 1.8811, "step": 524500 }, { "epoch": 2.1, "grad_norm": 5.515291213989258, "learning_rate": 1.5e-05, "loss": 1.8794, "step": 525000 }, { "epoch": 2.102, "grad_norm": 3.57409930229187, "learning_rate": 1.4966666666666668e-05, "loss": 1.9401, "step": 525500 }, { "epoch": 2.104, "grad_norm": 2.788435935974121, "learning_rate": 1.4933333333333335e-05, "loss": 1.9224, "step": 526000 }, { "epoch": 2.106, "grad_norm": 3.6159706115722656, "learning_rate": 1.49e-05, "loss": 1.8863, "step": 526500 }, { "epoch": 2.108, "grad_norm": 3.8776602745056152, "learning_rate": 1.4866666666666668e-05, "loss": 1.8946, "step": 527000 }, { "epoch": 2.11, "grad_norm": 3.5020999908447266, "learning_rate": 1.4833333333333336e-05, "loss": 1.9351, "step": 527500 }, { "epoch": 2.112, "grad_norm": 4.156538486480713, "learning_rate": 1.48e-05, "loss": 1.9466, "step": 528000 }, { "epoch": 2.114, "grad_norm": 3.4934823513031006, "learning_rate": 1.4766666666666667e-05, "loss": 1.8991, "step": 528500 }, { "epoch": 2.116, "grad_norm": 3.538376808166504, "learning_rate": 1.4733333333333335e-05, "loss": 1.8784, "step": 529000 }, { "epoch": 2.118, "grad_norm": 4.742537975311279, "learning_rate": 1.47e-05, "loss": 1.901, "step": 529500 }, { "epoch": 2.12, "grad_norm": 2.6691787242889404, "learning_rate": 1.4666666666666668e-05, "loss": 1.8687, "step": 530000 }, { "epoch": 2.122, "grad_norm": 3.3258254528045654, "learning_rate": 1.4633333333333334e-05, "loss": 1.9045, "step": 530500 }, { "epoch": 2.124, "grad_norm": 2.6713833808898926, "learning_rate": 1.4599999999999999e-05, "loss": 1.8878, "step": 531000 }, { "epoch": 2.126, "grad_norm": 3.0347344875335693, "learning_rate": 1.4566666666666667e-05, "loss": 1.8862, "step": 531500 }, { "epoch": 2.128, "grad_norm": 2.6107699871063232, "learning_rate": 1.4533333333333335e-05, "loss": 1.897, "step": 532000 }, { "epoch": 2.13, "grad_norm": 2.6980161666870117, "learning_rate": 1.45e-05, "loss": 1.901, "step": 532500 }, { "epoch": 2.132, "grad_norm": 2.668734550476074, "learning_rate": 1.4466666666666667e-05, "loss": 1.8761, "step": 533000 }, { "epoch": 2.134, "grad_norm": 4.179068088531494, "learning_rate": 1.4433333333333335e-05, "loss": 1.8778, "step": 533500 }, { "epoch": 2.136, "grad_norm": 2.7158665657043457, "learning_rate": 1.44e-05, "loss": 1.8767, "step": 534000 }, { "epoch": 2.138, "grad_norm": 3.4450862407684326, "learning_rate": 1.4366666666666667e-05, "loss": 1.8997, "step": 534500 }, { "epoch": 2.14, "grad_norm": 2.5921220779418945, "learning_rate": 1.4333333333333334e-05, "loss": 1.9043, "step": 535000 }, { "epoch": 2.142, "grad_norm": 2.932007312774658, "learning_rate": 1.43e-05, "loss": 1.9328, "step": 535500 }, { "epoch": 2.144, "grad_norm": 3.7363457679748535, "learning_rate": 1.4266666666666667e-05, "loss": 1.8865, "step": 536000 }, { "epoch": 2.146, "grad_norm": 2.9383416175842285, "learning_rate": 1.4233333333333335e-05, "loss": 1.9289, "step": 536500 }, { "epoch": 2.148, "grad_norm": 5.275363445281982, "learning_rate": 1.42e-05, "loss": 1.9072, "step": 537000 }, { "epoch": 2.15, "grad_norm": 4.390030860900879, "learning_rate": 1.4166666666666668e-05, "loss": 1.9127, "step": 537500 }, { "epoch": 2.152, "grad_norm": 3.8136355876922607, "learning_rate": 1.4133333333333334e-05, "loss": 1.9097, "step": 538000 }, { "epoch": 2.154, "grad_norm": 2.7460992336273193, "learning_rate": 1.4099999999999999e-05, "loss": 1.8847, "step": 538500 }, { "epoch": 2.156, "grad_norm": 2.7037174701690674, "learning_rate": 1.4066666666666667e-05, "loss": 1.8886, "step": 539000 }, { "epoch": 2.158, "grad_norm": 3.254654884338379, "learning_rate": 1.4033333333333335e-05, "loss": 1.86, "step": 539500 }, { "epoch": 2.16, "grad_norm": 0.9252458214759827, "learning_rate": 1.4000000000000001e-05, "loss": 1.8845, "step": 540000 }, { "epoch": 2.162, "grad_norm": 2.2878942489624023, "learning_rate": 1.3966666666666666e-05, "loss": 1.9081, "step": 540500 }, { "epoch": 2.164, "grad_norm": 3.7458975315093994, "learning_rate": 1.3933333333333334e-05, "loss": 1.8792, "step": 541000 }, { "epoch": 2.166, "grad_norm": 1.9481960535049438, "learning_rate": 1.3900000000000002e-05, "loss": 1.9414, "step": 541500 }, { "epoch": 2.168, "grad_norm": 3.8123795986175537, "learning_rate": 1.3866666666666667e-05, "loss": 1.8878, "step": 542000 }, { "epoch": 2.17, "grad_norm": 3.0898687839508057, "learning_rate": 1.3833333333333334e-05, "loss": 1.9291, "step": 542500 }, { "epoch": 2.172, "grad_norm": 3.913783550262451, "learning_rate": 1.3800000000000002e-05, "loss": 1.866, "step": 543000 }, { "epoch": 2.174, "grad_norm": 4.678142547607422, "learning_rate": 1.3766666666666666e-05, "loss": 1.8901, "step": 543500 }, { "epoch": 2.176, "grad_norm": 4.407011985778809, "learning_rate": 1.3733333333333335e-05, "loss": 1.9181, "step": 544000 }, { "epoch": 2.178, "grad_norm": 3.8431427478790283, "learning_rate": 1.3700000000000001e-05, "loss": 1.8872, "step": 544500 }, { "epoch": 2.18, "grad_norm": 5.471756458282471, "learning_rate": 1.3666666666666666e-05, "loss": 1.8523, "step": 545000 }, { "epoch": 2.182, "grad_norm": 4.193549633026123, "learning_rate": 1.3633333333333334e-05, "loss": 1.9087, "step": 545500 }, { "epoch": 2.184, "grad_norm": 6.040940284729004, "learning_rate": 1.3600000000000002e-05, "loss": 1.904, "step": 546000 }, { "epoch": 2.186, "grad_norm": 4.958623886108398, "learning_rate": 1.3566666666666667e-05, "loss": 1.8872, "step": 546500 }, { "epoch": 2.188, "grad_norm": 3.5732219219207764, "learning_rate": 1.3533333333333335e-05, "loss": 1.8854, "step": 547000 }, { "epoch": 2.19, "grad_norm": 2.6640355587005615, "learning_rate": 1.3500000000000001e-05, "loss": 1.9091, "step": 547500 }, { "epoch": 2.192, "grad_norm": 2.6168007850646973, "learning_rate": 1.3466666666666666e-05, "loss": 1.9159, "step": 548000 }, { "epoch": 2.194, "grad_norm": 3.4819018840789795, "learning_rate": 1.3433333333333334e-05, "loss": 1.9258, "step": 548500 }, { "epoch": 2.196, "grad_norm": 4.565124034881592, "learning_rate": 1.3400000000000002e-05, "loss": 1.8849, "step": 549000 }, { "epoch": 2.198, "grad_norm": 3.159424304962158, "learning_rate": 1.3366666666666667e-05, "loss": 1.9123, "step": 549500 }, { "epoch": 2.2, "grad_norm": 2.9942736625671387, "learning_rate": 1.3333333333333333e-05, "loss": 1.9404, "step": 550000 }, { "epoch": 2.202, "grad_norm": 2.966594934463501, "learning_rate": 1.3300000000000001e-05, "loss": 1.8928, "step": 550500 }, { "epoch": 2.204, "grad_norm": 2.156978130340576, "learning_rate": 1.3266666666666666e-05, "loss": 1.8976, "step": 551000 }, { "epoch": 2.206, "grad_norm": 2.2983994483947754, "learning_rate": 1.3233333333333334e-05, "loss": 1.8812, "step": 551500 }, { "epoch": 2.208, "grad_norm": 3.509923219680786, "learning_rate": 1.32e-05, "loss": 1.864, "step": 552000 }, { "epoch": 2.21, "grad_norm": 5.821509838104248, "learning_rate": 1.3166666666666665e-05, "loss": 1.8775, "step": 552500 }, { "epoch": 2.212, "grad_norm": 2.919370174407959, "learning_rate": 1.3133333333333334e-05, "loss": 1.942, "step": 553000 }, { "epoch": 2.214, "grad_norm": 1.576897144317627, "learning_rate": 1.3100000000000002e-05, "loss": 1.8807, "step": 553500 }, { "epoch": 2.216, "grad_norm": 1.7386987209320068, "learning_rate": 1.3066666666666666e-05, "loss": 1.8703, "step": 554000 }, { "epoch": 2.218, "grad_norm": 5.212026119232178, "learning_rate": 1.3033333333333333e-05, "loss": 1.9167, "step": 554500 }, { "epoch": 2.22, "grad_norm": 2.764861583709717, "learning_rate": 1.3000000000000001e-05, "loss": 1.8782, "step": 555000 }, { "epoch": 2.222, "grad_norm": 3.53177809715271, "learning_rate": 1.2966666666666669e-05, "loss": 1.8982, "step": 555500 }, { "epoch": 2.224, "grad_norm": 3.263517379760742, "learning_rate": 1.2933333333333334e-05, "loss": 1.8831, "step": 556000 }, { "epoch": 2.226, "grad_norm": 3.6698548793792725, "learning_rate": 1.29e-05, "loss": 1.9103, "step": 556500 }, { "epoch": 2.228, "grad_norm": 2.7414796352386475, "learning_rate": 1.2866666666666668e-05, "loss": 1.9035, "step": 557000 }, { "epoch": 2.23, "grad_norm": 2.726566791534424, "learning_rate": 1.2833333333333333e-05, "loss": 1.8897, "step": 557500 }, { "epoch": 2.232, "grad_norm": 2.6382150650024414, "learning_rate": 1.2800000000000001e-05, "loss": 1.9157, "step": 558000 }, { "epoch": 2.234, "grad_norm": 5.427677631378174, "learning_rate": 1.276666666666667e-05, "loss": 1.8836, "step": 558500 }, { "epoch": 2.2359999999999998, "grad_norm": 3.0854194164276123, "learning_rate": 1.2733333333333334e-05, "loss": 1.9062, "step": 559000 }, { "epoch": 2.238, "grad_norm": 5.310868740081787, "learning_rate": 1.27e-05, "loss": 1.8599, "step": 559500 }, { "epoch": 2.24, "grad_norm": 2.9961390495300293, "learning_rate": 1.2666666666666668e-05, "loss": 1.8811, "step": 560000 }, { "epoch": 2.242, "grad_norm": 2.962911367416382, "learning_rate": 1.2633333333333333e-05, "loss": 1.8505, "step": 560500 }, { "epoch": 2.2439999999999998, "grad_norm": 2.7005624771118164, "learning_rate": 1.2600000000000001e-05, "loss": 1.8509, "step": 561000 }, { "epoch": 2.246, "grad_norm": 3.6591291427612305, "learning_rate": 1.2566666666666668e-05, "loss": 1.9609, "step": 561500 }, { "epoch": 2.248, "grad_norm": 4.7681565284729, "learning_rate": 1.2533333333333332e-05, "loss": 1.913, "step": 562000 }, { "epoch": 2.25, "grad_norm": 1.7412201166152954, "learning_rate": 1.25e-05, "loss": 1.8559, "step": 562500 }, { "epoch": 2.252, "grad_norm": 2.5334091186523438, "learning_rate": 1.2466666666666667e-05, "loss": 1.8927, "step": 563000 }, { "epoch": 2.254, "grad_norm": 3.22037935256958, "learning_rate": 1.2433333333333335e-05, "loss": 1.8908, "step": 563500 }, { "epoch": 2.2560000000000002, "grad_norm": 2.89141845703125, "learning_rate": 1.24e-05, "loss": 1.9244, "step": 564000 }, { "epoch": 2.258, "grad_norm": 4.080277442932129, "learning_rate": 1.2366666666666666e-05, "loss": 1.8939, "step": 564500 }, { "epoch": 2.26, "grad_norm": 4.0698442459106445, "learning_rate": 1.2333333333333334e-05, "loss": 1.8698, "step": 565000 }, { "epoch": 2.262, "grad_norm": 5.503513813018799, "learning_rate": 1.23e-05, "loss": 1.9065, "step": 565500 }, { "epoch": 2.2640000000000002, "grad_norm": 2.9533393383026123, "learning_rate": 1.2266666666666667e-05, "loss": 1.862, "step": 566000 }, { "epoch": 2.266, "grad_norm": 3.555912733078003, "learning_rate": 1.2233333333333334e-05, "loss": 1.8454, "step": 566500 }, { "epoch": 2.268, "grad_norm": 2.3965213298797607, "learning_rate": 1.22e-05, "loss": 1.8947, "step": 567000 }, { "epoch": 2.27, "grad_norm": 3.87776255607605, "learning_rate": 1.2166666666666668e-05, "loss": 1.8961, "step": 567500 }, { "epoch": 2.2720000000000002, "grad_norm": 3.0097196102142334, "learning_rate": 1.2133333333333335e-05, "loss": 1.9398, "step": 568000 }, { "epoch": 2.274, "grad_norm": 2.555629014968872, "learning_rate": 1.2100000000000001e-05, "loss": 1.8943, "step": 568500 }, { "epoch": 2.276, "grad_norm": 3.1103897094726562, "learning_rate": 1.2066666666666667e-05, "loss": 1.9077, "step": 569000 }, { "epoch": 2.278, "grad_norm": 2.6799404621124268, "learning_rate": 1.2033333333333334e-05, "loss": 1.8463, "step": 569500 }, { "epoch": 2.2800000000000002, "grad_norm": 2.889711380004883, "learning_rate": 1.2e-05, "loss": 1.8218, "step": 570000 }, { "epoch": 2.282, "grad_norm": 2.04535174369812, "learning_rate": 1.1966666666666668e-05, "loss": 1.8976, "step": 570500 }, { "epoch": 2.284, "grad_norm": 2.933461904525757, "learning_rate": 1.1933333333333333e-05, "loss": 1.9186, "step": 571000 }, { "epoch": 2.286, "grad_norm": 3.440293550491333, "learning_rate": 1.19e-05, "loss": 1.9146, "step": 571500 }, { "epoch": 2.288, "grad_norm": 4.65705680847168, "learning_rate": 1.1866666666666668e-05, "loss": 1.9066, "step": 572000 }, { "epoch": 2.29, "grad_norm": 4.189986705780029, "learning_rate": 1.1833333333333334e-05, "loss": 1.9129, "step": 572500 }, { "epoch": 2.292, "grad_norm": 3.0416994094848633, "learning_rate": 1.18e-05, "loss": 1.874, "step": 573000 }, { "epoch": 2.294, "grad_norm": 2.981658697128296, "learning_rate": 1.1766666666666667e-05, "loss": 1.8945, "step": 573500 }, { "epoch": 2.296, "grad_norm": 2.5901129245758057, "learning_rate": 1.1733333333333333e-05, "loss": 1.9399, "step": 574000 }, { "epoch": 2.298, "grad_norm": 1.855245590209961, "learning_rate": 1.1700000000000001e-05, "loss": 1.8979, "step": 574500 }, { "epoch": 2.3, "grad_norm": 5.531369209289551, "learning_rate": 1.1666666666666668e-05, "loss": 1.8559, "step": 575000 }, { "epoch": 2.302, "grad_norm": 2.6655666828155518, "learning_rate": 1.1633333333333334e-05, "loss": 1.8883, "step": 575500 }, { "epoch": 2.304, "grad_norm": 3.288712501525879, "learning_rate": 1.16e-05, "loss": 1.8703, "step": 576000 }, { "epoch": 2.306, "grad_norm": 3.378002405166626, "learning_rate": 1.1566666666666667e-05, "loss": 1.9143, "step": 576500 }, { "epoch": 2.308, "grad_norm": 2.586623430252075, "learning_rate": 1.1533333333333334e-05, "loss": 1.8799, "step": 577000 }, { "epoch": 2.31, "grad_norm": 2.1906540393829346, "learning_rate": 1.1500000000000002e-05, "loss": 1.8487, "step": 577500 }, { "epoch": 2.312, "grad_norm": 2.9062159061431885, "learning_rate": 1.1466666666666666e-05, "loss": 1.8397, "step": 578000 }, { "epoch": 2.314, "grad_norm": 3.4913947582244873, "learning_rate": 1.1433333333333333e-05, "loss": 1.9508, "step": 578500 }, { "epoch": 2.316, "grad_norm": 5.257672309875488, "learning_rate": 1.1400000000000001e-05, "loss": 1.8991, "step": 579000 }, { "epoch": 2.318, "grad_norm": 3.3229730129241943, "learning_rate": 1.1366666666666667e-05, "loss": 1.8936, "step": 579500 }, { "epoch": 2.32, "grad_norm": 2.4324612617492676, "learning_rate": 1.1333333333333334e-05, "loss": 1.895, "step": 580000 }, { "epoch": 2.322, "grad_norm": 3.121965169906616, "learning_rate": 1.13e-05, "loss": 1.9267, "step": 580500 }, { "epoch": 2.324, "grad_norm": 2.727795362472534, "learning_rate": 1.1266666666666667e-05, "loss": 1.8442, "step": 581000 }, { "epoch": 2.326, "grad_norm": 3.414295196533203, "learning_rate": 1.1233333333333333e-05, "loss": 1.9144, "step": 581500 }, { "epoch": 2.328, "grad_norm": 3.7727465629577637, "learning_rate": 1.1200000000000001e-05, "loss": 1.9024, "step": 582000 }, { "epoch": 2.33, "grad_norm": 2.759531259536743, "learning_rate": 1.1166666666666668e-05, "loss": 1.9023, "step": 582500 }, { "epoch": 2.332, "grad_norm": 2.8397293090820312, "learning_rate": 1.1133333333333334e-05, "loss": 1.9022, "step": 583000 }, { "epoch": 2.334, "grad_norm": 3.569690227508545, "learning_rate": 1.11e-05, "loss": 1.9019, "step": 583500 }, { "epoch": 2.336, "grad_norm": 3.554769277572632, "learning_rate": 1.1066666666666667e-05, "loss": 1.8686, "step": 584000 }, { "epoch": 2.338, "grad_norm": 3.0585317611694336, "learning_rate": 1.1033333333333335e-05, "loss": 1.8991, "step": 584500 }, { "epoch": 2.34, "grad_norm": 4.547719955444336, "learning_rate": 1.1000000000000001e-05, "loss": 1.8881, "step": 585000 }, { "epoch": 2.342, "grad_norm": 2.882516384124756, "learning_rate": 1.0966666666666666e-05, "loss": 1.8466, "step": 585500 }, { "epoch": 2.344, "grad_norm": 2.5705254077911377, "learning_rate": 1.0933333333333334e-05, "loss": 1.9461, "step": 586000 }, { "epoch": 2.346, "grad_norm": 4.421859264373779, "learning_rate": 1.09e-05, "loss": 1.9265, "step": 586500 }, { "epoch": 2.348, "grad_norm": 2.880268096923828, "learning_rate": 1.0866666666666667e-05, "loss": 1.8919, "step": 587000 }, { "epoch": 2.35, "grad_norm": 4.9404191970825195, "learning_rate": 1.0833333333333334e-05, "loss": 1.888, "step": 587500 }, { "epoch": 2.352, "grad_norm": 3.3267626762390137, "learning_rate": 1.08e-05, "loss": 1.9035, "step": 588000 }, { "epoch": 2.354, "grad_norm": 3.39530611038208, "learning_rate": 1.0766666666666666e-05, "loss": 1.9084, "step": 588500 }, { "epoch": 2.356, "grad_norm": 2.8372628688812256, "learning_rate": 1.0733333333333334e-05, "loss": 1.9451, "step": 589000 }, { "epoch": 2.358, "grad_norm": 2.246088981628418, "learning_rate": 1.0700000000000001e-05, "loss": 1.8733, "step": 589500 }, { "epoch": 2.36, "grad_norm": 3.605590343475342, "learning_rate": 1.0666666666666667e-05, "loss": 1.8825, "step": 590000 }, { "epoch": 2.362, "grad_norm": 4.215860366821289, "learning_rate": 1.0633333333333334e-05, "loss": 1.8785, "step": 590500 }, { "epoch": 2.364, "grad_norm": 3.2889246940612793, "learning_rate": 1.06e-05, "loss": 1.8804, "step": 591000 }, { "epoch": 2.366, "grad_norm": 3.1713948249816895, "learning_rate": 1.0566666666666668e-05, "loss": 1.917, "step": 591500 }, { "epoch": 2.368, "grad_norm": 3.532456159591675, "learning_rate": 1.0533333333333335e-05, "loss": 1.8703, "step": 592000 }, { "epoch": 2.37, "grad_norm": 3.9838836193084717, "learning_rate": 1.05e-05, "loss": 1.8841, "step": 592500 }, { "epoch": 2.372, "grad_norm": 7.132261753082275, "learning_rate": 1.0466666666666668e-05, "loss": 1.9091, "step": 593000 }, { "epoch": 2.374, "grad_norm": 3.121617317199707, "learning_rate": 1.0433333333333334e-05, "loss": 1.8464, "step": 593500 }, { "epoch": 2.376, "grad_norm": 3.3648314476013184, "learning_rate": 1.04e-05, "loss": 1.8886, "step": 594000 }, { "epoch": 2.378, "grad_norm": 4.1274285316467285, "learning_rate": 1.0366666666666667e-05, "loss": 1.8994, "step": 594500 }, { "epoch": 2.38, "grad_norm": 2.946350574493408, "learning_rate": 1.0333333333333333e-05, "loss": 1.9031, "step": 595000 }, { "epoch": 2.382, "grad_norm": 2.427210569381714, "learning_rate": 1.03e-05, "loss": 1.866, "step": 595500 }, { "epoch": 2.384, "grad_norm": 3.5120413303375244, "learning_rate": 1.0266666666666668e-05, "loss": 1.8928, "step": 596000 }, { "epoch": 2.386, "grad_norm": 4.003697395324707, "learning_rate": 1.0233333333333334e-05, "loss": 1.8438, "step": 596500 }, { "epoch": 2.388, "grad_norm": 3.2927663326263428, "learning_rate": 1.02e-05, "loss": 1.9155, "step": 597000 }, { "epoch": 2.39, "grad_norm": 3.4086220264434814, "learning_rate": 1.0166666666666667e-05, "loss": 1.8742, "step": 597500 }, { "epoch": 2.392, "grad_norm": 2.480473756790161, "learning_rate": 1.0133333333333333e-05, "loss": 1.8541, "step": 598000 }, { "epoch": 2.394, "grad_norm": 3.448462963104248, "learning_rate": 1.0100000000000002e-05, "loss": 1.846, "step": 598500 }, { "epoch": 2.396, "grad_norm": 2.509504556655884, "learning_rate": 1.0066666666666668e-05, "loss": 1.919, "step": 599000 }, { "epoch": 2.398, "grad_norm": 3.439053535461426, "learning_rate": 1.0033333333333333e-05, "loss": 1.8858, "step": 599500 }, { "epoch": 2.4, "grad_norm": 3.9890522956848145, "learning_rate": 1e-05, "loss": 1.8591, "step": 600000 }, { "epoch": 2.402, "grad_norm": 4.084634780883789, "learning_rate": 9.966666666666667e-06, "loss": 1.8489, "step": 600500 }, { "epoch": 2.404, "grad_norm": 3.9349868297576904, "learning_rate": 9.933333333333334e-06, "loss": 1.9189, "step": 601000 }, { "epoch": 2.406, "grad_norm": 2.616210460662842, "learning_rate": 9.900000000000002e-06, "loss": 1.8826, "step": 601500 }, { "epoch": 2.408, "grad_norm": 2.397810935974121, "learning_rate": 9.866666666666667e-06, "loss": 1.8374, "step": 602000 }, { "epoch": 2.41, "grad_norm": 2.768425226211548, "learning_rate": 9.833333333333333e-06, "loss": 1.8738, "step": 602500 }, { "epoch": 2.412, "grad_norm": 2.4304420948028564, "learning_rate": 9.800000000000001e-06, "loss": 1.886, "step": 603000 }, { "epoch": 2.414, "grad_norm": 3.587301015853882, "learning_rate": 9.766666666666667e-06, "loss": 1.8647, "step": 603500 }, { "epoch": 2.416, "grad_norm": 4.408061981201172, "learning_rate": 9.733333333333334e-06, "loss": 1.8166, "step": 604000 }, { "epoch": 2.418, "grad_norm": 3.5019145011901855, "learning_rate": 9.7e-06, "loss": 1.8832, "step": 604500 }, { "epoch": 2.42, "grad_norm": 3.0120651721954346, "learning_rate": 9.666666666666667e-06, "loss": 1.9178, "step": 605000 }, { "epoch": 2.422, "grad_norm": 2.9974324703216553, "learning_rate": 9.633333333333335e-06, "loss": 1.889, "step": 605500 }, { "epoch": 2.424, "grad_norm": 3.556570053100586, "learning_rate": 9.600000000000001e-06, "loss": 1.8461, "step": 606000 }, { "epoch": 2.426, "grad_norm": 2.4842612743377686, "learning_rate": 9.566666666666666e-06, "loss": 1.9208, "step": 606500 }, { "epoch": 2.428, "grad_norm": 2.987746000289917, "learning_rate": 9.533333333333334e-06, "loss": 1.8918, "step": 607000 }, { "epoch": 2.43, "grad_norm": 2.7800424098968506, "learning_rate": 9.5e-06, "loss": 1.9339, "step": 607500 }, { "epoch": 2.432, "grad_norm": 2.9803011417388916, "learning_rate": 9.466666666666667e-06, "loss": 1.8775, "step": 608000 }, { "epoch": 2.434, "grad_norm": 4.389027118682861, "learning_rate": 9.433333333333335e-06, "loss": 1.8805, "step": 608500 }, { "epoch": 2.436, "grad_norm": 3.4128823280334473, "learning_rate": 9.4e-06, "loss": 1.8729, "step": 609000 }, { "epoch": 2.438, "grad_norm": 2.8874900341033936, "learning_rate": 9.366666666666666e-06, "loss": 1.8718, "step": 609500 }, { "epoch": 2.44, "grad_norm": 3.416203260421753, "learning_rate": 9.333333333333334e-06, "loss": 1.9095, "step": 610000 }, { "epoch": 2.442, "grad_norm": 4.16544246673584, "learning_rate": 9.3e-06, "loss": 1.8894, "step": 610500 }, { "epoch": 2.444, "grad_norm": 3.1699767112731934, "learning_rate": 9.266666666666667e-06, "loss": 1.8726, "step": 611000 }, { "epoch": 2.446, "grad_norm": 2.9980835914611816, "learning_rate": 9.233333333333334e-06, "loss": 1.847, "step": 611500 }, { "epoch": 2.448, "grad_norm": 7.348918914794922, "learning_rate": 9.2e-06, "loss": 1.8976, "step": 612000 }, { "epoch": 2.45, "grad_norm": 3.5759294033050537, "learning_rate": 9.166666666666666e-06, "loss": 1.9164, "step": 612500 }, { "epoch": 2.452, "grad_norm": 2.815521001815796, "learning_rate": 9.133333333333335e-06, "loss": 1.8361, "step": 613000 }, { "epoch": 2.454, "grad_norm": 5.427938938140869, "learning_rate": 9.100000000000001e-06, "loss": 1.9235, "step": 613500 }, { "epoch": 2.456, "grad_norm": 3.424795150756836, "learning_rate": 9.066666666666667e-06, "loss": 1.874, "step": 614000 }, { "epoch": 2.458, "grad_norm": 2.8467607498168945, "learning_rate": 9.033333333333334e-06, "loss": 1.8536, "step": 614500 }, { "epoch": 2.46, "grad_norm": 2.978062868118286, "learning_rate": 9e-06, "loss": 1.8803, "step": 615000 }, { "epoch": 2.462, "grad_norm": 5.436339855194092, "learning_rate": 8.966666666666668e-06, "loss": 1.8785, "step": 615500 }, { "epoch": 2.464, "grad_norm": 1.8794487714767456, "learning_rate": 8.933333333333333e-06, "loss": 1.8593, "step": 616000 }, { "epoch": 2.466, "grad_norm": 3.4503533840179443, "learning_rate": 8.9e-06, "loss": 1.867, "step": 616500 }, { "epoch": 2.468, "grad_norm": 2.631411552429199, "learning_rate": 8.866666666666668e-06, "loss": 1.8725, "step": 617000 }, { "epoch": 2.4699999999999998, "grad_norm": 6.06883430480957, "learning_rate": 8.833333333333334e-06, "loss": 1.8865, "step": 617500 }, { "epoch": 2.472, "grad_norm": 3.6540019512176514, "learning_rate": 8.8e-06, "loss": 1.9046, "step": 618000 }, { "epoch": 2.474, "grad_norm": 2.980518341064453, "learning_rate": 8.766666666666667e-06, "loss": 1.8854, "step": 618500 }, { "epoch": 2.476, "grad_norm": 2.0326669216156006, "learning_rate": 8.733333333333333e-06, "loss": 1.832, "step": 619000 }, { "epoch": 2.4779999999999998, "grad_norm": 2.8870391845703125, "learning_rate": 8.7e-06, "loss": 1.8247, "step": 619500 }, { "epoch": 2.48, "grad_norm": 4.120845317840576, "learning_rate": 8.666666666666668e-06, "loss": 1.8905, "step": 620000 }, { "epoch": 2.482, "grad_norm": 4.375402450561523, "learning_rate": 8.633333333333334e-06, "loss": 1.8321, "step": 620500 }, { "epoch": 2.484, "grad_norm": 2.3824880123138428, "learning_rate": 8.599999999999999e-06, "loss": 1.9073, "step": 621000 }, { "epoch": 2.4859999999999998, "grad_norm": 2.720569372177124, "learning_rate": 8.566666666666667e-06, "loss": 1.8597, "step": 621500 }, { "epoch": 2.488, "grad_norm": 2.6215107440948486, "learning_rate": 8.533333333333334e-06, "loss": 1.9298, "step": 622000 }, { "epoch": 2.49, "grad_norm": 3.2964539527893066, "learning_rate": 8.500000000000002e-06, "loss": 1.862, "step": 622500 }, { "epoch": 2.492, "grad_norm": 3.0264010429382324, "learning_rate": 8.466666666666666e-06, "loss": 1.8335, "step": 623000 }, { "epoch": 2.4939999999999998, "grad_norm": 3.0339627265930176, "learning_rate": 8.433333333333333e-06, "loss": 1.8592, "step": 623500 }, { "epoch": 2.496, "grad_norm": 2.6013669967651367, "learning_rate": 8.400000000000001e-06, "loss": 1.9027, "step": 624000 }, { "epoch": 2.498, "grad_norm": 2.994971752166748, "learning_rate": 8.366666666666667e-06, "loss": 1.8922, "step": 624500 }, { "epoch": 2.5, "grad_norm": 2.7267160415649414, "learning_rate": 8.333333333333334e-06, "loss": 1.868, "step": 625000 }, { "epoch": 2.502, "grad_norm": 4.416297435760498, "learning_rate": 8.3e-06, "loss": 1.8751, "step": 625500 }, { "epoch": 2.504, "grad_norm": 3.436997652053833, "learning_rate": 8.266666666666667e-06, "loss": 1.889, "step": 626000 }, { "epoch": 2.5060000000000002, "grad_norm": 3.987461566925049, "learning_rate": 8.233333333333333e-06, "loss": 1.9109, "step": 626500 }, { "epoch": 2.508, "grad_norm": 3.127805233001709, "learning_rate": 8.200000000000001e-06, "loss": 1.8472, "step": 627000 }, { "epoch": 2.51, "grad_norm": 3.108248472213745, "learning_rate": 8.166666666666668e-06, "loss": 1.9126, "step": 627500 }, { "epoch": 2.512, "grad_norm": 2.689952850341797, "learning_rate": 8.133333333333332e-06, "loss": 1.8856, "step": 628000 }, { "epoch": 2.5140000000000002, "grad_norm": 4.6352033615112305, "learning_rate": 8.1e-06, "loss": 1.8516, "step": 628500 }, { "epoch": 2.516, "grad_norm": 3.287313222885132, "learning_rate": 8.066666666666667e-06, "loss": 1.9164, "step": 629000 }, { "epoch": 2.518, "grad_norm": 4.914368629455566, "learning_rate": 8.033333333333335e-06, "loss": 1.8996, "step": 629500 }, { "epoch": 2.52, "grad_norm": 2.392132043838501, "learning_rate": 8.000000000000001e-06, "loss": 1.8622, "step": 630000 }, { "epoch": 2.5220000000000002, "grad_norm": 3.10549259185791, "learning_rate": 7.966666666666666e-06, "loss": 1.9089, "step": 630500 }, { "epoch": 2.524, "grad_norm": 3.105255126953125, "learning_rate": 7.933333333333334e-06, "loss": 1.8842, "step": 631000 }, { "epoch": 2.526, "grad_norm": 4.36549186706543, "learning_rate": 7.9e-06, "loss": 1.8433, "step": 631500 }, { "epoch": 2.528, "grad_norm": 4.413882255554199, "learning_rate": 7.866666666666667e-06, "loss": 1.8941, "step": 632000 }, { "epoch": 2.5300000000000002, "grad_norm": 1.928449273109436, "learning_rate": 7.833333333333333e-06, "loss": 1.8648, "step": 632500 }, { "epoch": 2.532, "grad_norm": 4.413303852081299, "learning_rate": 7.8e-06, "loss": 1.8699, "step": 633000 }, { "epoch": 2.534, "grad_norm": 3.7028002738952637, "learning_rate": 7.766666666666666e-06, "loss": 1.892, "step": 633500 }, { "epoch": 2.536, "grad_norm": 2.7936835289001465, "learning_rate": 7.733333333333334e-06, "loss": 1.8817, "step": 634000 }, { "epoch": 2.5380000000000003, "grad_norm": 3.6933412551879883, "learning_rate": 7.7e-06, "loss": 1.8423, "step": 634500 }, { "epoch": 2.54, "grad_norm": 3.0467052459716797, "learning_rate": 7.666666666666667e-06, "loss": 1.8422, "step": 635000 }, { "epoch": 2.542, "grad_norm": 1.9489444494247437, "learning_rate": 7.633333333333334e-06, "loss": 1.8713, "step": 635500 }, { "epoch": 2.544, "grad_norm": 2.9168665409088135, "learning_rate": 7.6e-06, "loss": 1.8741, "step": 636000 }, { "epoch": 2.5460000000000003, "grad_norm": 3.4203386306762695, "learning_rate": 7.5666666666666665e-06, "loss": 1.8308, "step": 636500 }, { "epoch": 2.548, "grad_norm": 2.8358335494995117, "learning_rate": 7.533333333333334e-06, "loss": 1.8909, "step": 637000 }, { "epoch": 2.55, "grad_norm": 3.406254291534424, "learning_rate": 7.5e-06, "loss": 1.8564, "step": 637500 }, { "epoch": 2.552, "grad_norm": 2.576655387878418, "learning_rate": 7.4666666666666675e-06, "loss": 1.8583, "step": 638000 }, { "epoch": 2.5540000000000003, "grad_norm": 4.063394069671631, "learning_rate": 7.433333333333334e-06, "loss": 1.8913, "step": 638500 }, { "epoch": 2.556, "grad_norm": 2.8183672428131104, "learning_rate": 7.4e-06, "loss": 1.9312, "step": 639000 }, { "epoch": 2.558, "grad_norm": 3.0902271270751953, "learning_rate": 7.3666666666666676e-06, "loss": 1.9171, "step": 639500 }, { "epoch": 2.56, "grad_norm": 3.2803256511688232, "learning_rate": 7.333333333333334e-06, "loss": 1.9173, "step": 640000 }, { "epoch": 2.5620000000000003, "grad_norm": 2.6414859294891357, "learning_rate": 7.2999999999999996e-06, "loss": 1.84, "step": 640500 }, { "epoch": 2.564, "grad_norm": 3.431950569152832, "learning_rate": 7.266666666666668e-06, "loss": 1.8935, "step": 641000 }, { "epoch": 2.566, "grad_norm": 3.556243419647217, "learning_rate": 7.233333333333333e-06, "loss": 1.8872, "step": 641500 }, { "epoch": 2.568, "grad_norm": 2.9917585849761963, "learning_rate": 7.2e-06, "loss": 1.8785, "step": 642000 }, { "epoch": 2.57, "grad_norm": 2.0157723426818848, "learning_rate": 7.166666666666667e-06, "loss": 1.9314, "step": 642500 }, { "epoch": 2.572, "grad_norm": 3.5743918418884277, "learning_rate": 7.133333333333333e-06, "loss": 1.8509, "step": 643000 }, { "epoch": 2.574, "grad_norm": 3.145385980606079, "learning_rate": 7.1e-06, "loss": 1.8937, "step": 643500 }, { "epoch": 2.576, "grad_norm": 5.946051120758057, "learning_rate": 7.066666666666667e-06, "loss": 1.8461, "step": 644000 }, { "epoch": 2.578, "grad_norm": 4.228523254394531, "learning_rate": 7.0333333333333335e-06, "loss": 1.8707, "step": 644500 }, { "epoch": 2.58, "grad_norm": 3.083113670349121, "learning_rate": 7.000000000000001e-06, "loss": 1.8774, "step": 645000 }, { "epoch": 2.582, "grad_norm": 3.1056864261627197, "learning_rate": 6.966666666666667e-06, "loss": 1.8693, "step": 645500 }, { "epoch": 2.584, "grad_norm": 4.9116621017456055, "learning_rate": 6.933333333333334e-06, "loss": 1.8742, "step": 646000 }, { "epoch": 2.586, "grad_norm": 2.5638844966888428, "learning_rate": 6.900000000000001e-06, "loss": 1.8612, "step": 646500 }, { "epoch": 2.588, "grad_norm": 3.8515875339508057, "learning_rate": 6.866666666666667e-06, "loss": 1.8663, "step": 647000 }, { "epoch": 2.59, "grad_norm": 5.321290493011475, "learning_rate": 6.833333333333333e-06, "loss": 1.8763, "step": 647500 }, { "epoch": 2.592, "grad_norm": 2.7012779712677, "learning_rate": 6.800000000000001e-06, "loss": 1.9116, "step": 648000 }, { "epoch": 2.594, "grad_norm": 2.7859761714935303, "learning_rate": 6.766666666666667e-06, "loss": 1.8571, "step": 648500 }, { "epoch": 2.596, "grad_norm": 3.347858428955078, "learning_rate": 6.733333333333333e-06, "loss": 1.907, "step": 649000 }, { "epoch": 2.598, "grad_norm": 3.5790727138519287, "learning_rate": 6.700000000000001e-06, "loss": 1.9023, "step": 649500 }, { "epoch": 2.6, "grad_norm": 4.641330242156982, "learning_rate": 6.666666666666667e-06, "loss": 1.9167, "step": 650000 }, { "epoch": 2.602, "grad_norm": 5.059780597686768, "learning_rate": 6.633333333333333e-06, "loss": 1.9566, "step": 650500 }, { "epoch": 2.604, "grad_norm": 2.7773430347442627, "learning_rate": 6.6e-06, "loss": 1.8656, "step": 651000 }, { "epoch": 2.606, "grad_norm": 3.263288736343384, "learning_rate": 6.566666666666667e-06, "loss": 1.872, "step": 651500 }, { "epoch": 2.608, "grad_norm": 3.293905258178711, "learning_rate": 6.533333333333333e-06, "loss": 1.8372, "step": 652000 }, { "epoch": 2.61, "grad_norm": 3.077204942703247, "learning_rate": 6.5000000000000004e-06, "loss": 1.8536, "step": 652500 }, { "epoch": 2.612, "grad_norm": 3.416551351547241, "learning_rate": 6.466666666666667e-06, "loss": 1.8844, "step": 653000 }, { "epoch": 2.614, "grad_norm": 4.306375026702881, "learning_rate": 6.433333333333334e-06, "loss": 1.9029, "step": 653500 }, { "epoch": 2.616, "grad_norm": 2.501620292663574, "learning_rate": 6.4000000000000006e-06, "loss": 1.8938, "step": 654000 }, { "epoch": 2.618, "grad_norm": 2.192352771759033, "learning_rate": 6.366666666666667e-06, "loss": 1.8985, "step": 654500 }, { "epoch": 2.62, "grad_norm": 5.223537921905518, "learning_rate": 6.333333333333334e-06, "loss": 1.8473, "step": 655000 }, { "epoch": 2.622, "grad_norm": 3.3766655921936035, "learning_rate": 6.300000000000001e-06, "loss": 1.8564, "step": 655500 }, { "epoch": 2.624, "grad_norm": 4.073780536651611, "learning_rate": 6.266666666666666e-06, "loss": 1.8498, "step": 656000 }, { "epoch": 2.626, "grad_norm": 2.6815459728240967, "learning_rate": 6.2333333333333335e-06, "loss": 1.8989, "step": 656500 }, { "epoch": 2.628, "grad_norm": 3.543757915496826, "learning_rate": 6.2e-06, "loss": 1.871, "step": 657000 }, { "epoch": 2.63, "grad_norm": 3.6465091705322266, "learning_rate": 6.166666666666667e-06, "loss": 1.9044, "step": 657500 }, { "epoch": 2.632, "grad_norm": 3.619927167892456, "learning_rate": 6.133333333333334e-06, "loss": 1.8821, "step": 658000 }, { "epoch": 2.634, "grad_norm": 3.724942207336426, "learning_rate": 6.1e-06, "loss": 1.8779, "step": 658500 }, { "epoch": 2.636, "grad_norm": 4.038952827453613, "learning_rate": 6.066666666666667e-06, "loss": 1.9313, "step": 659000 }, { "epoch": 2.638, "grad_norm": 2.9567649364471436, "learning_rate": 6.033333333333334e-06, "loss": 1.8617, "step": 659500 }, { "epoch": 2.64, "grad_norm": 5.773310661315918, "learning_rate": 6e-06, "loss": 1.9206, "step": 660000 }, { "epoch": 2.642, "grad_norm": 2.9293549060821533, "learning_rate": 5.9666666666666666e-06, "loss": 1.8501, "step": 660500 }, { "epoch": 2.644, "grad_norm": 2.4616734981536865, "learning_rate": 5.933333333333334e-06, "loss": 1.8543, "step": 661000 }, { "epoch": 2.646, "grad_norm": 2.237765073776245, "learning_rate": 5.9e-06, "loss": 1.9431, "step": 661500 }, { "epoch": 2.648, "grad_norm": 2.2172420024871826, "learning_rate": 5.866666666666667e-06, "loss": 1.893, "step": 662000 }, { "epoch": 2.65, "grad_norm": 3.7040140628814697, "learning_rate": 5.833333333333334e-06, "loss": 1.8742, "step": 662500 }, { "epoch": 2.652, "grad_norm": 3.914787530899048, "learning_rate": 5.8e-06, "loss": 1.9271, "step": 663000 }, { "epoch": 2.654, "grad_norm": 4.496729850769043, "learning_rate": 5.766666666666667e-06, "loss": 1.9143, "step": 663500 }, { "epoch": 2.656, "grad_norm": 3.6321325302124023, "learning_rate": 5.733333333333333e-06, "loss": 1.8792, "step": 664000 }, { "epoch": 2.658, "grad_norm": 2.219710350036621, "learning_rate": 5.7000000000000005e-06, "loss": 1.8786, "step": 664500 }, { "epoch": 2.66, "grad_norm": 3.3534481525421143, "learning_rate": 5.666666666666667e-06, "loss": 1.8897, "step": 665000 }, { "epoch": 2.662, "grad_norm": 2.505182981491089, "learning_rate": 5.633333333333333e-06, "loss": 1.8787, "step": 665500 }, { "epoch": 2.664, "grad_norm": 2.429156541824341, "learning_rate": 5.600000000000001e-06, "loss": 1.9101, "step": 666000 }, { "epoch": 2.666, "grad_norm": 2.7629823684692383, "learning_rate": 5.566666666666667e-06, "loss": 1.8969, "step": 666500 }, { "epoch": 2.668, "grad_norm": 2.949223279953003, "learning_rate": 5.5333333333333334e-06, "loss": 1.9275, "step": 667000 }, { "epoch": 2.67, "grad_norm": 2.6248672008514404, "learning_rate": 5.500000000000001e-06, "loss": 1.931, "step": 667500 }, { "epoch": 2.672, "grad_norm": 2.91471529006958, "learning_rate": 5.466666666666667e-06, "loss": 1.8849, "step": 668000 }, { "epoch": 2.674, "grad_norm": 3.159327983856201, "learning_rate": 5.4333333333333335e-06, "loss": 1.8682, "step": 668500 }, { "epoch": 2.676, "grad_norm": 4.286912441253662, "learning_rate": 5.4e-06, "loss": 1.892, "step": 669000 }, { "epoch": 2.678, "grad_norm": 5.190775394439697, "learning_rate": 5.366666666666667e-06, "loss": 1.8521, "step": 669500 }, { "epoch": 2.68, "grad_norm": 2.9026002883911133, "learning_rate": 5.333333333333334e-06, "loss": 1.9133, "step": 670000 }, { "epoch": 2.682, "grad_norm": 3.2781126499176025, "learning_rate": 5.3e-06, "loss": 1.8533, "step": 670500 }, { "epoch": 2.684, "grad_norm": 2.569183349609375, "learning_rate": 5.266666666666667e-06, "loss": 1.8538, "step": 671000 }, { "epoch": 2.686, "grad_norm": 3.1960971355438232, "learning_rate": 5.233333333333334e-06, "loss": 1.9273, "step": 671500 }, { "epoch": 2.6879999999999997, "grad_norm": 4.6884870529174805, "learning_rate": 5.2e-06, "loss": 1.8714, "step": 672000 }, { "epoch": 2.69, "grad_norm": 2.3329176902770996, "learning_rate": 5.166666666666667e-06, "loss": 1.8797, "step": 672500 }, { "epoch": 2.692, "grad_norm": 2.7218334674835205, "learning_rate": 5.133333333333334e-06, "loss": 1.8643, "step": 673000 }, { "epoch": 2.694, "grad_norm": 3.568103313446045, "learning_rate": 5.1e-06, "loss": 1.9037, "step": 673500 }, { "epoch": 2.6959999999999997, "grad_norm": 3.6968801021575928, "learning_rate": 5.066666666666667e-06, "loss": 1.9357, "step": 674000 }, { "epoch": 2.698, "grad_norm": 3.1816065311431885, "learning_rate": 5.033333333333334e-06, "loss": 2.0061, "step": 674500 }, { "epoch": 2.7, "grad_norm": 2.1746315956115723, "learning_rate": 5e-06, "loss": 1.8365, "step": 675000 }, { "epoch": 2.702, "grad_norm": 2.9095511436462402, "learning_rate": 4.966666666666667e-06, "loss": 1.8734, "step": 675500 }, { "epoch": 2.7039999999999997, "grad_norm": 2.8963634967803955, "learning_rate": 4.933333333333333e-06, "loss": 1.8695, "step": 676000 }, { "epoch": 2.706, "grad_norm": 2.6536638736724854, "learning_rate": 4.9000000000000005e-06, "loss": 1.8506, "step": 676500 }, { "epoch": 2.708, "grad_norm": 3.057424783706665, "learning_rate": 4.866666666666667e-06, "loss": 1.9007, "step": 677000 }, { "epoch": 2.71, "grad_norm": 2.339240550994873, "learning_rate": 4.833333333333333e-06, "loss": 1.9088, "step": 677500 }, { "epoch": 2.7119999999999997, "grad_norm": 4.8444671630859375, "learning_rate": 4.800000000000001e-06, "loss": 1.8862, "step": 678000 }, { "epoch": 2.714, "grad_norm": 4.375866413116455, "learning_rate": 4.766666666666667e-06, "loss": 1.8701, "step": 678500 }, { "epoch": 2.716, "grad_norm": 3.7420687675476074, "learning_rate": 4.7333333333333335e-06, "loss": 1.9296, "step": 679000 }, { "epoch": 2.718, "grad_norm": 1.8531460762023926, "learning_rate": 4.7e-06, "loss": 1.895, "step": 679500 }, { "epoch": 2.7199999999999998, "grad_norm": 3.4381535053253174, "learning_rate": 4.666666666666667e-06, "loss": 1.8961, "step": 680000 }, { "epoch": 2.722, "grad_norm": 3.2771215438842773, "learning_rate": 4.633333333333334e-06, "loss": 1.8786, "step": 680500 }, { "epoch": 2.724, "grad_norm": 3.374859094619751, "learning_rate": 4.6e-06, "loss": 1.9132, "step": 681000 }, { "epoch": 2.726, "grad_norm": 2.9684982299804688, "learning_rate": 4.566666666666667e-06, "loss": 1.8955, "step": 681500 }, { "epoch": 2.7279999999999998, "grad_norm": 2.923057794570923, "learning_rate": 4.533333333333334e-06, "loss": 1.8509, "step": 682000 }, { "epoch": 2.73, "grad_norm": 3.275190830230713, "learning_rate": 4.5e-06, "loss": 1.8985, "step": 682500 }, { "epoch": 2.732, "grad_norm": 3.1415112018585205, "learning_rate": 4.4666666666666665e-06, "loss": 1.8938, "step": 683000 }, { "epoch": 2.734, "grad_norm": 4.726484298706055, "learning_rate": 4.433333333333334e-06, "loss": 1.894, "step": 683500 }, { "epoch": 2.7359999999999998, "grad_norm": 3.5498578548431396, "learning_rate": 4.4e-06, "loss": 1.8895, "step": 684000 }, { "epoch": 2.738, "grad_norm": 4.273956775665283, "learning_rate": 4.366666666666667e-06, "loss": 1.9009, "step": 684500 }, { "epoch": 2.74, "grad_norm": 3.276571273803711, "learning_rate": 4.333333333333334e-06, "loss": 1.8943, "step": 685000 }, { "epoch": 2.742, "grad_norm": 3.2255356311798096, "learning_rate": 4.2999999999999995e-06, "loss": 1.924, "step": 685500 }, { "epoch": 2.7439999999999998, "grad_norm": 3.6334052085876465, "learning_rate": 4.266666666666667e-06, "loss": 1.8437, "step": 686000 }, { "epoch": 2.746, "grad_norm": 2.3026280403137207, "learning_rate": 4.233333333333333e-06, "loss": 1.9063, "step": 686500 }, { "epoch": 2.748, "grad_norm": 2.8906328678131104, "learning_rate": 4.2000000000000004e-06, "loss": 1.8796, "step": 687000 }, { "epoch": 2.75, "grad_norm": 3.116187334060669, "learning_rate": 4.166666666666667e-06, "loss": 1.9125, "step": 687500 }, { "epoch": 2.752, "grad_norm": 2.7661359310150146, "learning_rate": 4.133333333333333e-06, "loss": 1.9462, "step": 688000 }, { "epoch": 2.754, "grad_norm": 3.3297812938690186, "learning_rate": 4.1000000000000006e-06, "loss": 1.8935, "step": 688500 }, { "epoch": 2.7560000000000002, "grad_norm": 2.6931254863739014, "learning_rate": 4.066666666666666e-06, "loss": 1.8205, "step": 689000 }, { "epoch": 2.758, "grad_norm": 2.2474148273468018, "learning_rate": 4.033333333333333e-06, "loss": 1.9069, "step": 689500 }, { "epoch": 2.76, "grad_norm": 1.9933154582977295, "learning_rate": 4.000000000000001e-06, "loss": 1.8686, "step": 690000 }, { "epoch": 2.762, "grad_norm": 2.461827516555786, "learning_rate": 3.966666666666667e-06, "loss": 1.8009, "step": 690500 }, { "epoch": 2.7640000000000002, "grad_norm": 3.75205397605896, "learning_rate": 3.9333333333333335e-06, "loss": 1.8483, "step": 691000 }, { "epoch": 2.766, "grad_norm": 3.3759922981262207, "learning_rate": 3.9e-06, "loss": 1.8769, "step": 691500 }, { "epoch": 2.768, "grad_norm": 4.364626884460449, "learning_rate": 3.866666666666667e-06, "loss": 1.8619, "step": 692000 }, { "epoch": 2.77, "grad_norm": 4.0554633140563965, "learning_rate": 3.833333333333334e-06, "loss": 1.872, "step": 692500 }, { "epoch": 2.7720000000000002, "grad_norm": 3.803511381149292, "learning_rate": 3.8e-06, "loss": 1.8582, "step": 693000 }, { "epoch": 2.774, "grad_norm": 2.885103464126587, "learning_rate": 3.766666666666667e-06, "loss": 1.9041, "step": 693500 }, { "epoch": 2.776, "grad_norm": 5.55342435836792, "learning_rate": 3.7333333333333337e-06, "loss": 1.8881, "step": 694000 }, { "epoch": 2.778, "grad_norm": 3.852508306503296, "learning_rate": 3.7e-06, "loss": 1.9092, "step": 694500 }, { "epoch": 2.7800000000000002, "grad_norm": 3.4544615745544434, "learning_rate": 3.666666666666667e-06, "loss": 1.8667, "step": 695000 }, { "epoch": 2.782, "grad_norm": 3.607158660888672, "learning_rate": 3.633333333333334e-06, "loss": 1.8646, "step": 695500 }, { "epoch": 2.784, "grad_norm": 4.708215236663818, "learning_rate": 3.6e-06, "loss": 1.9006, "step": 696000 }, { "epoch": 2.786, "grad_norm": 3.173060655593872, "learning_rate": 3.5666666666666667e-06, "loss": 1.8191, "step": 696500 }, { "epoch": 2.7880000000000003, "grad_norm": 3.328235387802124, "learning_rate": 3.5333333333333335e-06, "loss": 1.8772, "step": 697000 }, { "epoch": 2.79, "grad_norm": 4.168435096740723, "learning_rate": 3.5000000000000004e-06, "loss": 1.8957, "step": 697500 }, { "epoch": 2.792, "grad_norm": 1.336233377456665, "learning_rate": 3.466666666666667e-06, "loss": 1.8777, "step": 698000 }, { "epoch": 2.794, "grad_norm": 3.9781460762023926, "learning_rate": 3.4333333333333336e-06, "loss": 1.8889, "step": 698500 }, { "epoch": 2.7960000000000003, "grad_norm": 3.8768365383148193, "learning_rate": 3.4000000000000005e-06, "loss": 1.8395, "step": 699000 }, { "epoch": 2.798, "grad_norm": 2.8166561126708984, "learning_rate": 3.3666666666666665e-06, "loss": 1.8927, "step": 699500 }, { "epoch": 2.8, "grad_norm": 3.0701918601989746, "learning_rate": 3.3333333333333333e-06, "loss": 1.8829, "step": 700000 }, { "epoch": 2.802, "grad_norm": 4.882094860076904, "learning_rate": 3.3e-06, "loss": 1.872, "step": 700500 }, { "epoch": 2.8040000000000003, "grad_norm": 3.2382917404174805, "learning_rate": 3.2666666666666666e-06, "loss": 1.806, "step": 701000 }, { "epoch": 2.806, "grad_norm": 3.6363778114318848, "learning_rate": 3.2333333333333334e-06, "loss": 1.9015, "step": 701500 }, { "epoch": 2.808, "grad_norm": 3.6446800231933594, "learning_rate": 3.2000000000000003e-06, "loss": 1.8551, "step": 702000 }, { "epoch": 2.81, "grad_norm": 2.472050189971924, "learning_rate": 3.166666666666667e-06, "loss": 1.8831, "step": 702500 }, { "epoch": 2.8120000000000003, "grad_norm": 1.4477039575576782, "learning_rate": 3.133333333333333e-06, "loss": 1.8571, "step": 703000 }, { "epoch": 2.814, "grad_norm": 3.0914952754974365, "learning_rate": 3.1e-06, "loss": 1.8771, "step": 703500 }, { "epoch": 2.816, "grad_norm": 3.063697099685669, "learning_rate": 3.066666666666667e-06, "loss": 1.8898, "step": 704000 }, { "epoch": 2.818, "grad_norm": 3.131847858428955, "learning_rate": 3.0333333333333337e-06, "loss": 1.8933, "step": 704500 }, { "epoch": 2.82, "grad_norm": 3.0374350547790527, "learning_rate": 3e-06, "loss": 1.8895, "step": 705000 }, { "epoch": 2.822, "grad_norm": 3.479525327682495, "learning_rate": 2.966666666666667e-06, "loss": 1.8629, "step": 705500 }, { "epoch": 2.824, "grad_norm": 3.781367301940918, "learning_rate": 2.9333333333333333e-06, "loss": 1.865, "step": 706000 }, { "epoch": 2.826, "grad_norm": 3.139104127883911, "learning_rate": 2.9e-06, "loss": 1.8914, "step": 706500 }, { "epoch": 2.828, "grad_norm": 2.448465585708618, "learning_rate": 2.8666666666666666e-06, "loss": 1.9189, "step": 707000 }, { "epoch": 2.83, "grad_norm": 2.543330192565918, "learning_rate": 2.8333333333333335e-06, "loss": 1.8773, "step": 707500 }, { "epoch": 2.832, "grad_norm": 2.5747554302215576, "learning_rate": 2.8000000000000003e-06, "loss": 1.8879, "step": 708000 }, { "epoch": 2.834, "grad_norm": 3.935971975326538, "learning_rate": 2.7666666666666667e-06, "loss": 1.8781, "step": 708500 }, { "epoch": 2.836, "grad_norm": 5.765059947967529, "learning_rate": 2.7333333333333336e-06, "loss": 1.9233, "step": 709000 }, { "epoch": 2.838, "grad_norm": 2.88075852394104, "learning_rate": 2.7e-06, "loss": 1.8694, "step": 709500 }, { "epoch": 2.84, "grad_norm": 3.8271071910858154, "learning_rate": 2.666666666666667e-06, "loss": 1.9014, "step": 710000 }, { "epoch": 2.842, "grad_norm": 3.081481695175171, "learning_rate": 2.6333333333333337e-06, "loss": 1.8843, "step": 710500 }, { "epoch": 2.844, "grad_norm": 4.267486572265625, "learning_rate": 2.6e-06, "loss": 1.9062, "step": 711000 }, { "epoch": 2.846, "grad_norm": 2.9984750747680664, "learning_rate": 2.566666666666667e-06, "loss": 1.9176, "step": 711500 }, { "epoch": 2.848, "grad_norm": 4.184579372406006, "learning_rate": 2.5333333333333334e-06, "loss": 1.9378, "step": 712000 }, { "epoch": 2.85, "grad_norm": 5.722200393676758, "learning_rate": 2.5e-06, "loss": 1.9227, "step": 712500 }, { "epoch": 2.852, "grad_norm": 4.274919033050537, "learning_rate": 2.4666666666666666e-06, "loss": 1.924, "step": 713000 }, { "epoch": 2.854, "grad_norm": 4.337162494659424, "learning_rate": 2.4333333333333335e-06, "loss": 1.9143, "step": 713500 }, { "epoch": 2.856, "grad_norm": 2.632171392440796, "learning_rate": 2.4000000000000003e-06, "loss": 1.858, "step": 714000 }, { "epoch": 2.858, "grad_norm": 3.834346294403076, "learning_rate": 2.3666666666666667e-06, "loss": 1.8872, "step": 714500 }, { "epoch": 2.86, "grad_norm": 2.2637805938720703, "learning_rate": 2.3333333333333336e-06, "loss": 1.8588, "step": 715000 }, { "epoch": 2.862, "grad_norm": 4.327826976776123, "learning_rate": 2.3e-06, "loss": 1.8092, "step": 715500 }, { "epoch": 2.864, "grad_norm": 2.888615369796753, "learning_rate": 2.266666666666667e-06, "loss": 1.8602, "step": 716000 }, { "epoch": 2.866, "grad_norm": 4.713193416595459, "learning_rate": 2.2333333333333333e-06, "loss": 1.8584, "step": 716500 }, { "epoch": 2.868, "grad_norm": 3.606935501098633, "learning_rate": 2.2e-06, "loss": 1.8967, "step": 717000 }, { "epoch": 2.87, "grad_norm": 2.1838111877441406, "learning_rate": 2.166666666666667e-06, "loss": 1.8946, "step": 717500 }, { "epoch": 2.872, "grad_norm": 3.7687795162200928, "learning_rate": 2.1333333333333334e-06, "loss": 1.9139, "step": 718000 }, { "epoch": 2.874, "grad_norm": 7.575896739959717, "learning_rate": 2.1000000000000002e-06, "loss": 1.8402, "step": 718500 }, { "epoch": 2.876, "grad_norm": 5.441267967224121, "learning_rate": 2.0666666666666666e-06, "loss": 1.8831, "step": 719000 }, { "epoch": 2.878, "grad_norm": 3.8765416145324707, "learning_rate": 2.033333333333333e-06, "loss": 1.8554, "step": 719500 }, { "epoch": 2.88, "grad_norm": 3.4756643772125244, "learning_rate": 2.0000000000000003e-06, "loss": 1.8842, "step": 720000 }, { "epoch": 2.882, "grad_norm": 2.9635679721832275, "learning_rate": 1.9666666666666668e-06, "loss": 1.9283, "step": 720500 }, { "epoch": 2.884, "grad_norm": 2.5824897289276123, "learning_rate": 1.9333333333333336e-06, "loss": 1.9019, "step": 721000 }, { "epoch": 2.886, "grad_norm": 3.4831085205078125, "learning_rate": 1.9e-06, "loss": 1.8591, "step": 721500 }, { "epoch": 2.888, "grad_norm": 3.385176181793213, "learning_rate": 1.8666666666666669e-06, "loss": 1.9048, "step": 722000 }, { "epoch": 2.89, "grad_norm": 3.2539241313934326, "learning_rate": 1.8333333333333335e-06, "loss": 1.895, "step": 722500 }, { "epoch": 2.892, "grad_norm": 5.749492645263672, "learning_rate": 1.8e-06, "loss": 1.9309, "step": 723000 }, { "epoch": 2.894, "grad_norm": 2.7174322605133057, "learning_rate": 1.7666666666666668e-06, "loss": 1.8445, "step": 723500 }, { "epoch": 2.896, "grad_norm": 2.7712209224700928, "learning_rate": 1.7333333333333334e-06, "loss": 1.9178, "step": 724000 }, { "epoch": 2.898, "grad_norm": 1.3377387523651123, "learning_rate": 1.7000000000000002e-06, "loss": 1.8638, "step": 724500 }, { "epoch": 2.9, "grad_norm": 3.467402935028076, "learning_rate": 1.6666666666666667e-06, "loss": 1.9449, "step": 725000 }, { "epoch": 2.902, "grad_norm": 3.3706672191619873, "learning_rate": 1.6333333333333333e-06, "loss": 1.9124, "step": 725500 }, { "epoch": 2.904, "grad_norm": 3.8773839473724365, "learning_rate": 1.6000000000000001e-06, "loss": 1.9136, "step": 726000 }, { "epoch": 2.906, "grad_norm": 4.234633445739746, "learning_rate": 1.5666666666666666e-06, "loss": 1.9176, "step": 726500 }, { "epoch": 2.908, "grad_norm": 5.16817569732666, "learning_rate": 1.5333333333333334e-06, "loss": 1.8742, "step": 727000 }, { "epoch": 2.91, "grad_norm": 3.343552827835083, "learning_rate": 1.5e-06, "loss": 1.863, "step": 727500 }, { "epoch": 2.912, "grad_norm": 2.861416816711426, "learning_rate": 1.4666666666666667e-06, "loss": 1.8693, "step": 728000 }, { "epoch": 2.914, "grad_norm": 3.7512595653533936, "learning_rate": 1.4333333333333333e-06, "loss": 1.9071, "step": 728500 }, { "epoch": 2.916, "grad_norm": 2.6083507537841797, "learning_rate": 1.4000000000000001e-06, "loss": 1.8977, "step": 729000 }, { "epoch": 2.918, "grad_norm": 3.132286548614502, "learning_rate": 1.3666666666666668e-06, "loss": 1.9353, "step": 729500 }, { "epoch": 2.92, "grad_norm": 3.0331499576568604, "learning_rate": 1.3333333333333334e-06, "loss": 1.8482, "step": 730000 }, { "epoch": 2.922, "grad_norm": 3.1883797645568848, "learning_rate": 1.3e-06, "loss": 1.8904, "step": 730500 }, { "epoch": 2.924, "grad_norm": 3.809069871902466, "learning_rate": 1.2666666666666667e-06, "loss": 1.8232, "step": 731000 }, { "epoch": 2.926, "grad_norm": 2.1572530269622803, "learning_rate": 1.2333333333333333e-06, "loss": 1.8619, "step": 731500 }, { "epoch": 2.928, "grad_norm": 3.737730026245117, "learning_rate": 1.2000000000000002e-06, "loss": 1.8671, "step": 732000 }, { "epoch": 2.93, "grad_norm": 3.6985459327697754, "learning_rate": 1.1666666666666668e-06, "loss": 1.8908, "step": 732500 }, { "epoch": 2.932, "grad_norm": 3.3398325443267822, "learning_rate": 1.1333333333333334e-06, "loss": 1.8751, "step": 733000 }, { "epoch": 2.934, "grad_norm": 3.314117908477783, "learning_rate": 1.1e-06, "loss": 1.832, "step": 733500 }, { "epoch": 2.936, "grad_norm": 2.206191062927246, "learning_rate": 1.0666666666666667e-06, "loss": 1.8902, "step": 734000 }, { "epoch": 2.9379999999999997, "grad_norm": 4.159761905670166, "learning_rate": 1.0333333333333333e-06, "loss": 1.8915, "step": 734500 }, { "epoch": 2.94, "grad_norm": 2.5982918739318848, "learning_rate": 1.0000000000000002e-06, "loss": 1.9171, "step": 735000 }, { "epoch": 2.942, "grad_norm": 2.9663453102111816, "learning_rate": 9.666666666666668e-07, "loss": 1.9466, "step": 735500 }, { "epoch": 2.944, "grad_norm": 2.447366952896118, "learning_rate": 9.333333333333334e-07, "loss": 1.8575, "step": 736000 }, { "epoch": 2.9459999999999997, "grad_norm": 1.9691654443740845, "learning_rate": 9e-07, "loss": 1.86, "step": 736500 }, { "epoch": 2.948, "grad_norm": 4.8213934898376465, "learning_rate": 8.666666666666667e-07, "loss": 1.9459, "step": 737000 }, { "epoch": 2.95, "grad_norm": 5.141754627227783, "learning_rate": 8.333333333333333e-07, "loss": 1.8701, "step": 737500 }, { "epoch": 2.952, "grad_norm": 3.454430103302002, "learning_rate": 8.000000000000001e-07, "loss": 1.8754, "step": 738000 }, { "epoch": 2.9539999999999997, "grad_norm": 2.3353068828582764, "learning_rate": 7.666666666666667e-07, "loss": 1.9119, "step": 738500 }, { "epoch": 2.956, "grad_norm": 2.3898520469665527, "learning_rate": 7.333333333333333e-07, "loss": 1.8981, "step": 739000 }, { "epoch": 2.958, "grad_norm": 4.047188758850098, "learning_rate": 7.000000000000001e-07, "loss": 1.8586, "step": 739500 }, { "epoch": 2.96, "grad_norm": 3.5045583248138428, "learning_rate": 6.666666666666667e-07, "loss": 1.9015, "step": 740000 }, { "epoch": 2.9619999999999997, "grad_norm": 3.017232656478882, "learning_rate": 6.333333333333333e-07, "loss": 1.8759, "step": 740500 }, { "epoch": 2.964, "grad_norm": 3.38450026512146, "learning_rate": 6.000000000000001e-07, "loss": 1.8671, "step": 741000 }, { "epoch": 2.966, "grad_norm": 2.8586947917938232, "learning_rate": 5.666666666666667e-07, "loss": 1.8921, "step": 741500 }, { "epoch": 2.968, "grad_norm": 4.179366588592529, "learning_rate": 5.333333333333333e-07, "loss": 1.8749, "step": 742000 }, { "epoch": 2.9699999999999998, "grad_norm": 3.9916365146636963, "learning_rate": 5.000000000000001e-07, "loss": 1.843, "step": 742500 }, { "epoch": 2.972, "grad_norm": 3.4197537899017334, "learning_rate": 4.666666666666667e-07, "loss": 1.8876, "step": 743000 }, { "epoch": 2.974, "grad_norm": 3.2435264587402344, "learning_rate": 4.3333333333333335e-07, "loss": 1.8799, "step": 743500 }, { "epoch": 2.976, "grad_norm": 2.610262870788574, "learning_rate": 4.0000000000000003e-07, "loss": 1.8933, "step": 744000 }, { "epoch": 2.9779999999999998, "grad_norm": 1.8669228553771973, "learning_rate": 3.6666666666666667e-07, "loss": 1.9472, "step": 744500 }, { "epoch": 2.98, "grad_norm": 2.308610677719116, "learning_rate": 3.3333333333333335e-07, "loss": 1.9156, "step": 745000 }, { "epoch": 2.982, "grad_norm": 3.980257987976074, "learning_rate": 3.0000000000000004e-07, "loss": 1.8542, "step": 745500 }, { "epoch": 2.984, "grad_norm": 2.6206302642822266, "learning_rate": 2.6666666666666667e-07, "loss": 1.9556, "step": 746000 }, { "epoch": 2.9859999999999998, "grad_norm": 3.8740410804748535, "learning_rate": 2.3333333333333336e-07, "loss": 1.8761, "step": 746500 }, { "epoch": 2.988, "grad_norm": 4.097892761230469, "learning_rate": 2.0000000000000002e-07, "loss": 1.8767, "step": 747000 }, { "epoch": 2.99, "grad_norm": 3.058565855026245, "learning_rate": 1.6666666666666668e-07, "loss": 1.8983, "step": 747500 }, { "epoch": 2.992, "grad_norm": 3.231644630432129, "learning_rate": 1.3333333333333334e-07, "loss": 1.8433, "step": 748000 }, { "epoch": 2.9939999999999998, "grad_norm": 3.1899635791778564, "learning_rate": 1.0000000000000001e-07, "loss": 1.9081, "step": 748500 }, { "epoch": 2.996, "grad_norm": 4.22212553024292, "learning_rate": 6.666666666666667e-08, "loss": 1.8689, "step": 749000 }, { "epoch": 2.998, "grad_norm": 3.6926040649414062, "learning_rate": 3.3333333333333334e-08, "loss": 1.8267, "step": 749500 }, { "epoch": 3.0, "grad_norm": 2.948345184326172, "learning_rate": 0.0, "loss": 1.8743, "step": 750000 }, { "epoch": 3.0, "step": 750000, "total_flos": 4.05331819977769e+16, "train_loss": 0.04026198291015625, "train_runtime": 1412.1214, "train_samples_per_second": 2124.463, "train_steps_per_second": 531.116 } ], "logging_steps": 500, "max_steps": 750000, "num_input_tokens_seen": 0, "num_train_epochs": 3, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 4.05331819977769e+16, "train_batch_size": 4, "trial_name": null, "trial_params": null }