{ "best_metric": 9.188591686749389, "best_model_checkpoint": "./checkpoint-8000", "epoch": 1.21775, "global_step": 8000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0, "learning_rate": 4.4e-07, "loss": 1.3639, "step": 25 }, { "epoch": 0.01, "learning_rate": 9.400000000000001e-07, "loss": 1.236, "step": 50 }, { "epoch": 0.01, "learning_rate": 1.44e-06, "loss": 0.9697, "step": 75 }, { "epoch": 0.01, "learning_rate": 1.94e-06, "loss": 0.738, "step": 100 }, { "epoch": 0.02, "learning_rate": 2.4400000000000004e-06, "loss": 0.6628, "step": 125 }, { "epoch": 0.02, "learning_rate": 2.9400000000000002e-06, "loss": 0.6145, "step": 150 }, { "epoch": 0.02, "learning_rate": 3.44e-06, "loss": 0.6136, "step": 175 }, { "epoch": 0.03, "learning_rate": 3.94e-06, "loss": 0.5953, "step": 200 }, { "epoch": 0.03, "learning_rate": 4.440000000000001e-06, "loss": 0.555, "step": 225 }, { "epoch": 0.03, "learning_rate": 4.94e-06, "loss": 0.5698, "step": 250 }, { "epoch": 0.03, "learning_rate": 5.4400000000000004e-06, "loss": 0.5822, "step": 275 }, { "epoch": 0.04, "learning_rate": 5.94e-06, "loss": 0.5853, "step": 300 }, { "epoch": 0.04, "learning_rate": 6.440000000000001e-06, "loss": 0.519, "step": 325 }, { "epoch": 0.04, "learning_rate": 6.9400000000000005e-06, "loss": 0.5191, "step": 350 }, { "epoch": 0.05, "learning_rate": 7.440000000000001e-06, "loss": 0.4598, "step": 375 }, { "epoch": 0.05, "learning_rate": 7.94e-06, "loss": 0.4241, "step": 400 }, { "epoch": 0.05, "learning_rate": 8.44e-06, "loss": 0.4775, "step": 425 }, { "epoch": 0.06, "learning_rate": 8.94e-06, "loss": 0.5065, "step": 450 }, { "epoch": 0.06, "learning_rate": 9.440000000000001e-06, "loss": 0.508, "step": 475 }, { "epoch": 0.06, "learning_rate": 9.940000000000001e-06, "loss": 0.4647, "step": 500 }, { "epoch": 0.06, "eval_loss": 0.4529259502887726, "eval_runtime": 3329.2866, "eval_samples_per_second": 3.759, "eval_steps_per_second": 0.47, "eval_wer": 34.21398554044096, "step": 500 }, { "epoch": 0.07, "learning_rate": 9.970666666666668e-06, "loss": 0.4087, "step": 525 }, { "epoch": 0.07, "learning_rate": 9.937333333333334e-06, "loss": 0.4787, "step": 550 }, { "epoch": 0.07, "learning_rate": 9.904e-06, "loss": 0.4892, "step": 575 }, { "epoch": 0.07, "learning_rate": 9.870666666666667e-06, "loss": 0.3942, "step": 600 }, { "epoch": 0.08, "learning_rate": 9.837333333333335e-06, "loss": 0.3465, "step": 625 }, { "epoch": 0.08, "learning_rate": 9.804000000000001e-06, "loss": 0.4254, "step": 650 }, { "epoch": 0.08, "learning_rate": 9.770666666666668e-06, "loss": 0.4092, "step": 675 }, { "epoch": 0.09, "learning_rate": 9.737333333333334e-06, "loss": 0.3829, "step": 700 }, { "epoch": 0.09, "learning_rate": 9.704e-06, "loss": 0.4054, "step": 725 }, { "epoch": 0.09, "learning_rate": 9.670666666666667e-06, "loss": 0.3684, "step": 750 }, { "epoch": 0.1, "learning_rate": 9.637333333333333e-06, "loss": 0.357, "step": 775 }, { "epoch": 0.1, "learning_rate": 9.604000000000002e-06, "loss": 0.4327, "step": 800 }, { "epoch": 0.1, "learning_rate": 9.572000000000001e-06, "loss": 0.4048, "step": 825 }, { "epoch": 0.11, "learning_rate": 9.538666666666667e-06, "loss": 0.4062, "step": 850 }, { "epoch": 0.11, "learning_rate": 9.505333333333334e-06, "loss": 0.4098, "step": 875 }, { "epoch": 0.11, "learning_rate": 9.472000000000002e-06, "loss": 0.338, "step": 900 }, { "epoch": 0.12, "learning_rate": 9.438666666666667e-06, "loss": 0.3389, "step": 925 }, { "epoch": 0.12, "learning_rate": 9.405333333333335e-06, "loss": 0.3298, "step": 950 }, { "epoch": 0.12, "learning_rate": 9.372000000000001e-06, "loss": 0.353, "step": 975 }, { "epoch": 0.12, "learning_rate": 9.338666666666667e-06, "loss": 0.3163, "step": 1000 }, { "epoch": 0.12, "eval_loss": 0.3516156077384949, "eval_runtime": 3323.4129, "eval_samples_per_second": 3.766, "eval_steps_per_second": 0.471, "eval_wer": 26.02322292816029, "step": 1000 }, { "epoch": 0.13, "learning_rate": 9.305333333333334e-06, "loss": 0.3638, "step": 1025 }, { "epoch": 0.13, "learning_rate": 9.272e-06, "loss": 0.3595, "step": 1050 }, { "epoch": 0.13, "learning_rate": 9.238666666666667e-06, "loss": 0.3488, "step": 1075 }, { "epoch": 0.14, "learning_rate": 9.205333333333333e-06, "loss": 0.351, "step": 1100 }, { "epoch": 0.14, "learning_rate": 9.172000000000001e-06, "loss": 0.3676, "step": 1125 }, { "epoch": 0.14, "learning_rate": 9.138666666666668e-06, "loss": 0.3005, "step": 1150 }, { "epoch": 0.15, "learning_rate": 9.105333333333334e-06, "loss": 0.3119, "step": 1175 }, { "epoch": 0.15, "learning_rate": 9.072e-06, "loss": 0.3612, "step": 1200 }, { "epoch": 0.15, "learning_rate": 9.038666666666667e-06, "loss": 0.3515, "step": 1225 }, { "epoch": 0.16, "learning_rate": 9.005333333333333e-06, "loss": 0.3318, "step": 1250 }, { "epoch": 0.16, "learning_rate": 8.972000000000002e-06, "loss": 0.2935, "step": 1275 }, { "epoch": 0.16, "learning_rate": 8.938666666666668e-06, "loss": 0.2934, "step": 1300 }, { "epoch": 0.17, "learning_rate": 8.905333333333334e-06, "loss": 0.3221, "step": 1325 }, { "epoch": 0.17, "learning_rate": 8.872e-06, "loss": 0.2943, "step": 1350 }, { "epoch": 0.17, "learning_rate": 8.838666666666667e-06, "loss": 0.2951, "step": 1375 }, { "epoch": 0.17, "learning_rate": 8.805333333333334e-06, "loss": 0.3143, "step": 1400 }, { "epoch": 0.18, "learning_rate": 8.772e-06, "loss": 0.3435, "step": 1425 }, { "epoch": 0.18, "learning_rate": 8.738666666666668e-06, "loss": 0.2893, "step": 1450 }, { "epoch": 0.18, "learning_rate": 8.705333333333335e-06, "loss": 0.3155, "step": 1475 }, { "epoch": 0.19, "learning_rate": 8.672000000000001e-06, "loss": 0.3232, "step": 1500 }, { "epoch": 0.19, "eval_loss": 0.29963329434394836, "eval_runtime": 3353.8745, "eval_samples_per_second": 3.732, "eval_steps_per_second": 0.467, "eval_wer": 21.182457328367423, "step": 1500 }, { "epoch": 0.19, "learning_rate": 8.638666666666667e-06, "loss": 0.3055, "step": 1525 }, { "epoch": 0.19, "learning_rate": 8.605333333333334e-06, "loss": 0.2964, "step": 1550 }, { "epoch": 0.2, "learning_rate": 8.572e-06, "loss": 0.2702, "step": 1575 }, { "epoch": 0.2, "learning_rate": 8.538666666666667e-06, "loss": 0.2622, "step": 1600 }, { "epoch": 0.2, "learning_rate": 8.505333333333335e-06, "loss": 0.3048, "step": 1625 }, { "epoch": 0.21, "learning_rate": 8.472e-06, "loss": 0.2816, "step": 1650 }, { "epoch": 0.21, "learning_rate": 8.438666666666668e-06, "loss": 0.2776, "step": 1675 }, { "epoch": 0.21, "learning_rate": 8.405333333333334e-06, "loss": 0.252, "step": 1700 }, { "epoch": 0.22, "learning_rate": 8.372e-06, "loss": 0.2983, "step": 1725 }, { "epoch": 0.22, "learning_rate": 8.338666666666667e-06, "loss": 0.3161, "step": 1750 }, { "epoch": 0.22, "learning_rate": 8.305333333333333e-06, "loss": 0.2659, "step": 1775 }, { "epoch": 0.23, "learning_rate": 8.272000000000001e-06, "loss": 0.302, "step": 1800 }, { "epoch": 0.23, "learning_rate": 8.238666666666668e-06, "loss": 0.2609, "step": 1825 }, { "epoch": 0.23, "learning_rate": 8.205333333333334e-06, "loss": 0.2239, "step": 1850 }, { "epoch": 0.23, "learning_rate": 8.172e-06, "loss": 0.2722, "step": 1875 }, { "epoch": 0.24, "learning_rate": 8.138666666666667e-06, "loss": 0.2554, "step": 1900 }, { "epoch": 0.24, "learning_rate": 8.105333333333334e-06, "loss": 0.2439, "step": 1925 }, { "epoch": 0.24, "learning_rate": 8.072000000000002e-06, "loss": 0.281, "step": 1950 }, { "epoch": 0.25, "learning_rate": 8.038666666666666e-06, "loss": 0.3073, "step": 1975 }, { "epoch": 0.25, "learning_rate": 8.005333333333335e-06, "loss": 0.266, "step": 2000 }, { "epoch": 0.25, "eval_loss": 0.2686236798763275, "eval_runtime": 3329.6296, "eval_samples_per_second": 3.759, "eval_steps_per_second": 0.47, "eval_wer": 18.512617259853812, "step": 2000 }, { "epoch": 0.25, "learning_rate": 7.972000000000001e-06, "loss": 0.2607, "step": 2025 }, { "epoch": 0.26, "learning_rate": 7.938666666666667e-06, "loss": 0.2272, "step": 2050 }, { "epoch": 0.26, "learning_rate": 7.905333333333334e-06, "loss": 0.2522, "step": 2075 }, { "epoch": 0.26, "learning_rate": 7.872e-06, "loss": 0.2749, "step": 2100 }, { "epoch": 0.27, "learning_rate": 7.838666666666668e-06, "loss": 0.2354, "step": 2125 }, { "epoch": 0.27, "learning_rate": 7.805333333333333e-06, "loss": 0.246, "step": 2150 }, { "epoch": 0.27, "learning_rate": 7.772000000000001e-06, "loss": 0.295, "step": 2175 }, { "epoch": 0.28, "learning_rate": 7.738666666666668e-06, "loss": 0.2672, "step": 2200 }, { "epoch": 0.28, "learning_rate": 7.705333333333334e-06, "loss": 0.2779, "step": 2225 }, { "epoch": 0.28, "learning_rate": 7.672e-06, "loss": 0.3284, "step": 2250 }, { "epoch": 0.28, "learning_rate": 7.638666666666667e-06, "loss": 0.2481, "step": 2275 }, { "epoch": 0.29, "learning_rate": 7.605333333333333e-06, "loss": 0.2249, "step": 2300 }, { "epoch": 0.29, "learning_rate": 7.5720000000000005e-06, "loss": 0.2653, "step": 2325 }, { "epoch": 0.29, "learning_rate": 7.538666666666668e-06, "loss": 0.2598, "step": 2350 }, { "epoch": 0.3, "learning_rate": 7.505333333333334e-06, "loss": 0.2372, "step": 2375 }, { "epoch": 0.3, "learning_rate": 7.472000000000001e-06, "loss": 0.2495, "step": 2400 }, { "epoch": 0.3, "learning_rate": 7.438666666666667e-06, "loss": 0.2553, "step": 2425 }, { "epoch": 0.31, "learning_rate": 7.405333333333334e-06, "loss": 0.2501, "step": 2450 }, { "epoch": 0.31, "learning_rate": 7.372e-06, "loss": 0.2461, "step": 2475 }, { "epoch": 0.31, "learning_rate": 7.338666666666667e-06, "loss": 0.2383, "step": 2500 }, { "epoch": 0.31, "eval_loss": 0.2489350140094757, "eval_runtime": 3323.7931, "eval_samples_per_second": 3.765, "eval_steps_per_second": 0.471, "eval_wer": 16.94118584317553, "step": 2500 }, { "epoch": 0.32, "learning_rate": 7.3053333333333344e-06, "loss": 0.2605, "step": 2525 }, { "epoch": 0.32, "learning_rate": 7.272e-06, "loss": 0.2511, "step": 2550 }, { "epoch": 0.32, "learning_rate": 7.238666666666667e-06, "loss": 0.291, "step": 2575 }, { "epoch": 0.33, "learning_rate": 7.2053333333333345e-06, "loss": 0.2511, "step": 2600 }, { "epoch": 0.33, "learning_rate": 7.172e-06, "loss": 0.2554, "step": 2625 }, { "epoch": 0.33, "learning_rate": 7.138666666666667e-06, "loss": 0.2098, "step": 2650 }, { "epoch": 0.33, "learning_rate": 7.105333333333334e-06, "loss": 0.2104, "step": 2675 }, { "epoch": 0.34, "learning_rate": 7.072000000000001e-06, "loss": 0.2166, "step": 2700 }, { "epoch": 0.34, "learning_rate": 7.038666666666667e-06, "loss": 0.2676, "step": 2725 }, { "epoch": 0.34, "learning_rate": 7.005333333333334e-06, "loss": 0.2106, "step": 2750 }, { "epoch": 0.35, "learning_rate": 6.972000000000001e-06, "loss": 0.2181, "step": 2775 }, { "epoch": 0.35, "learning_rate": 6.938666666666667e-06, "loss": 0.2665, "step": 2800 }, { "epoch": 0.35, "learning_rate": 6.905333333333334e-06, "loss": 0.2499, "step": 2825 }, { "epoch": 0.36, "learning_rate": 6.872000000000001e-06, "loss": 0.25, "step": 2850 }, { "epoch": 0.36, "learning_rate": 6.838666666666667e-06, "loss": 0.2383, "step": 2875 }, { "epoch": 0.36, "learning_rate": 6.805333333333334e-06, "loss": 0.2358, "step": 2900 }, { "epoch": 0.37, "learning_rate": 6.7720000000000006e-06, "loss": 0.2393, "step": 2925 }, { "epoch": 0.37, "learning_rate": 6.738666666666667e-06, "loss": 0.2805, "step": 2950 }, { "epoch": 0.37, "learning_rate": 6.705333333333333e-06, "loss": 0.2236, "step": 2975 }, { "epoch": 0.38, "learning_rate": 6.672000000000001e-06, "loss": 0.1916, "step": 3000 }, { "epoch": 0.38, "eval_loss": 0.2232765406370163, "eval_runtime": 3320.9028, "eval_samples_per_second": 3.769, "eval_steps_per_second": 0.471, "eval_wer": 15.283116572726005, "step": 3000 }, { "epoch": 0.38, "learning_rate": 6.638666666666668e-06, "loss": 0.2244, "step": 3025 }, { "epoch": 0.38, "learning_rate": 6.6053333333333335e-06, "loss": 0.1758, "step": 3050 }, { "epoch": 0.38, "learning_rate": 6.572000000000001e-06, "loss": 0.2088, "step": 3075 }, { "epoch": 0.39, "learning_rate": 6.538666666666667e-06, "loss": 0.2062, "step": 3100 }, { "epoch": 0.39, "learning_rate": 6.505333333333334e-06, "loss": 0.203, "step": 3125 }, { "epoch": 0.39, "learning_rate": 6.472000000000001e-06, "loss": 0.2325, "step": 3150 }, { "epoch": 0.4, "learning_rate": 6.438666666666667e-06, "loss": 0.2017, "step": 3175 }, { "epoch": 0.4, "learning_rate": 6.405333333333334e-06, "loss": 0.2164, "step": 3200 }, { "epoch": 0.4, "learning_rate": 6.372e-06, "loss": 0.2082, "step": 3225 }, { "epoch": 0.41, "learning_rate": 6.338666666666667e-06, "loss": 0.2174, "step": 3250 }, { "epoch": 0.41, "learning_rate": 6.305333333333333e-06, "loss": 0.2214, "step": 3275 }, { "epoch": 0.41, "learning_rate": 6.272e-06, "loss": 0.2266, "step": 3300 }, { "epoch": 0.42, "learning_rate": 6.2386666666666675e-06, "loss": 0.2207, "step": 3325 }, { "epoch": 0.42, "learning_rate": 6.205333333333334e-06, "loss": 0.2103, "step": 3350 }, { "epoch": 0.42, "learning_rate": 6.172e-06, "loss": 0.1985, "step": 3375 }, { "epoch": 0.42, "learning_rate": 6.138666666666668e-06, "loss": 0.2457, "step": 3400 }, { "epoch": 0.43, "learning_rate": 6.105333333333334e-06, "loss": 0.2165, "step": 3425 }, { "epoch": 0.43, "learning_rate": 6.0720000000000005e-06, "loss": 0.2096, "step": 3450 }, { "epoch": 0.43, "learning_rate": 6.038666666666667e-06, "loss": 0.2265, "step": 3475 }, { "epoch": 0.44, "learning_rate": 6.005333333333334e-06, "loss": 0.2009, "step": 3500 }, { "epoch": 0.44, "eval_loss": 0.21342946588993073, "eval_runtime": 3316.3031, "eval_samples_per_second": 3.774, "eval_steps_per_second": 0.472, "eval_wer": 14.141886912704893, "step": 3500 }, { "epoch": 0.44, "learning_rate": 5.972e-06, "loss": 0.1848, "step": 3525 }, { "epoch": 0.44, "learning_rate": 5.938666666666667e-06, "loss": 0.211, "step": 3550 }, { "epoch": 0.45, "learning_rate": 5.905333333333334e-06, "loss": 0.2098, "step": 3575 }, { "epoch": 0.45, "learning_rate": 5.872000000000001e-06, "loss": 0.1881, "step": 3600 }, { "epoch": 0.45, "learning_rate": 5.838666666666667e-06, "loss": 0.2239, "step": 3625 }, { "epoch": 0.46, "learning_rate": 5.8053333333333335e-06, "loss": 0.174, "step": 3650 }, { "epoch": 0.46, "learning_rate": 5.772000000000001e-06, "loss": 0.1689, "step": 3675 }, { "epoch": 0.46, "learning_rate": 5.738666666666667e-06, "loss": 0.1808, "step": 3700 }, { "epoch": 0.47, "learning_rate": 5.705333333333334e-06, "loss": 0.1944, "step": 3725 }, { "epoch": 0.47, "learning_rate": 5.672000000000001e-06, "loss": 0.1629, "step": 3750 }, { "epoch": 0.47, "learning_rate": 5.6386666666666665e-06, "loss": 0.1916, "step": 3775 }, { "epoch": 0.47, "learning_rate": 5.605333333333334e-06, "loss": 0.1757, "step": 3800 }, { "epoch": 0.48, "learning_rate": 5.572000000000001e-06, "loss": 0.1737, "step": 3825 }, { "epoch": 0.48, "learning_rate": 5.538666666666667e-06, "loss": 0.2059, "step": 3850 }, { "epoch": 0.48, "learning_rate": 5.505333333333334e-06, "loss": 0.204, "step": 3875 }, { "epoch": 0.49, "learning_rate": 5.472e-06, "loss": 0.1792, "step": 3900 }, { "epoch": 0.49, "learning_rate": 5.4386666666666676e-06, "loss": 0.1647, "step": 3925 }, { "epoch": 0.49, "learning_rate": 5.405333333333333e-06, "loss": 0.1769, "step": 3950 }, { "epoch": 0.5, "learning_rate": 5.372e-06, "loss": 0.1794, "step": 3975 }, { "epoch": 0.5, "learning_rate": 5.338666666666668e-06, "loss": 0.2014, "step": 4000 }, { "epoch": 0.5, "eval_loss": 0.20149476826190948, "eval_runtime": 3320.3757, "eval_samples_per_second": 3.769, "eval_steps_per_second": 0.471, "eval_wer": 13.657909936465574, "step": 4000 }, { "epoch": 0.5, "learning_rate": 5.305333333333333e-06, "loss": 0.18, "step": 4025 }, { "epoch": 0.51, "learning_rate": 5.2720000000000005e-06, "loss": 0.1964, "step": 4050 }, { "epoch": 0.51, "learning_rate": 5.238666666666668e-06, "loss": 0.1922, "step": 4075 }, { "epoch": 0.51, "learning_rate": 5.205333333333333e-06, "loss": 0.1392, "step": 4100 }, { "epoch": 0.52, "learning_rate": 5.172000000000001e-06, "loss": 0.1832, "step": 4125 }, { "epoch": 0.52, "learning_rate": 5.138666666666667e-06, "loss": 0.2205, "step": 4150 }, { "epoch": 0.52, "learning_rate": 5.1053333333333335e-06, "loss": 0.1943, "step": 4175 }, { "epoch": 0.53, "learning_rate": 5.072e-06, "loss": 0.2042, "step": 4200 }, { "epoch": 0.53, "learning_rate": 5.038666666666667e-06, "loss": 0.185, "step": 4225 }, { "epoch": 0.53, "learning_rate": 5.0053333333333344e-06, "loss": 0.1826, "step": 4250 }, { "epoch": 0.53, "learning_rate": 4.972e-06, "loss": 0.1791, "step": 4275 }, { "epoch": 0.54, "learning_rate": 4.938666666666667e-06, "loss": 0.186, "step": 4300 }, { "epoch": 0.54, "learning_rate": 4.905333333333334e-06, "loss": 0.1592, "step": 4325 }, { "epoch": 0.54, "learning_rate": 4.872000000000001e-06, "loss": 0.1738, "step": 4350 }, { "epoch": 0.55, "learning_rate": 4.838666666666667e-06, "loss": 0.1623, "step": 4375 }, { "epoch": 0.55, "learning_rate": 4.805333333333334e-06, "loss": 0.1726, "step": 4400 }, { "epoch": 0.55, "learning_rate": 4.772e-06, "loss": 0.1762, "step": 4425 }, { "epoch": 0.56, "learning_rate": 4.738666666666667e-06, "loss": 0.1759, "step": 4450 }, { "epoch": 0.56, "learning_rate": 4.705333333333334e-06, "loss": 0.1989, "step": 4475 }, { "epoch": 0.56, "learning_rate": 4.672e-06, "loss": 0.1964, "step": 4500 }, { "epoch": 0.56, "eval_loss": 0.1852688044309616, "eval_runtime": 3333.8587, "eval_samples_per_second": 3.754, "eval_steps_per_second": 0.469, "eval_wer": 12.01975741400944, "step": 4500 }, { "epoch": 0.57, "learning_rate": 4.638666666666667e-06, "loss": 0.1765, "step": 4525 }, { "epoch": 0.57, "learning_rate": 4.605333333333334e-06, "loss": 0.1653, "step": 4550 }, { "epoch": 0.57, "learning_rate": 4.5720000000000004e-06, "loss": 0.1883, "step": 4575 }, { "epoch": 0.57, "learning_rate": 4.538666666666667e-06, "loss": 0.1939, "step": 4600 }, { "epoch": 0.58, "learning_rate": 4.505333333333334e-06, "loss": 0.2085, "step": 4625 }, { "epoch": 0.58, "learning_rate": 4.4720000000000006e-06, "loss": 0.2141, "step": 4650 }, { "epoch": 0.58, "learning_rate": 4.438666666666667e-06, "loss": 0.1711, "step": 4675 }, { "epoch": 0.59, "learning_rate": 4.405333333333333e-06, "loss": 0.2193, "step": 4700 }, { "epoch": 0.59, "learning_rate": 4.372e-06, "loss": 0.2125, "step": 4725 }, { "epoch": 0.59, "learning_rate": 4.338666666666667e-06, "loss": 0.1798, "step": 4750 }, { "epoch": 0.6, "learning_rate": 4.3053333333333335e-06, "loss": 0.1768, "step": 4775 }, { "epoch": 0.6, "learning_rate": 4.272000000000001e-06, "loss": 0.1966, "step": 4800 }, { "epoch": 0.6, "learning_rate": 4.238666666666667e-06, "loss": 0.184, "step": 4825 }, { "epoch": 0.61, "learning_rate": 4.205333333333334e-06, "loss": 0.1613, "step": 4850 }, { "epoch": 0.61, "learning_rate": 4.173333333333334e-06, "loss": 0.1796, "step": 4875 }, { "epoch": 0.61, "learning_rate": 4.14e-06, "loss": 0.1846, "step": 4900 }, { "epoch": 0.62, "learning_rate": 4.1066666666666674e-06, "loss": 0.1478, "step": 4925 }, { "epoch": 0.62, "learning_rate": 4.073333333333334e-06, "loss": 0.1774, "step": 4950 }, { "epoch": 0.62, "learning_rate": 4.04e-06, "loss": 0.1715, "step": 4975 }, { "epoch": 0.62, "learning_rate": 4.006666666666667e-06, "loss": 0.1758, "step": 5000 }, { "epoch": 0.62, "eval_loss": 0.17962510883808136, "eval_runtime": 3334.4979, "eval_samples_per_second": 3.753, "eval_steps_per_second": 0.469, "eval_wer": 11.465075982393595, "step": 5000 }, { "epoch": 0.63, "learning_rate": 3.973333333333333e-06, "loss": 0.1796, "step": 5025 }, { "epoch": 0.63, "learning_rate": 3.94e-06, "loss": 0.1438, "step": 5050 }, { "epoch": 0.63, "learning_rate": 3.906666666666667e-06, "loss": 0.1234, "step": 5075 }, { "epoch": 0.64, "learning_rate": 3.873333333333333e-06, "loss": 0.1468, "step": 5100 }, { "epoch": 0.64, "learning_rate": 3.8400000000000005e-06, "loss": 0.1617, "step": 5125 }, { "epoch": 0.64, "learning_rate": 3.806666666666667e-06, "loss": 0.1658, "step": 5150 }, { "epoch": 0.65, "learning_rate": 3.7733333333333338e-06, "loss": 0.1731, "step": 5175 }, { "epoch": 0.65, "learning_rate": 3.74e-06, "loss": 0.179, "step": 5200 }, { "epoch": 0.65, "learning_rate": 3.7066666666666666e-06, "loss": 0.1393, "step": 5225 }, { "epoch": 0.66, "learning_rate": 3.673333333333334e-06, "loss": 0.1495, "step": 5250 }, { "epoch": 0.66, "learning_rate": 3.6400000000000003e-06, "loss": 0.1542, "step": 5275 }, { "epoch": 0.66, "learning_rate": 3.606666666666667e-06, "loss": 0.2375, "step": 5300 }, { "epoch": 0.67, "learning_rate": 3.574666666666667e-06, "loss": 0.3725, "step": 5325 }, { "epoch": 0.67, "learning_rate": 3.5413333333333337e-06, "loss": 0.2577, "step": 5350 }, { "epoch": 0.67, "learning_rate": 3.508e-06, "loss": 0.1703, "step": 5375 }, { "epoch": 0.68, "learning_rate": 3.4746666666666665e-06, "loss": 0.2592, "step": 5400 }, { "epoch": 0.68, "learning_rate": 3.441333333333334e-06, "loss": 0.1457, "step": 5425 }, { "epoch": 0.68, "learning_rate": 3.4080000000000002e-06, "loss": 0.3386, "step": 5450 }, { "epoch": 0.68, "learning_rate": 3.374666666666667e-06, "loss": 0.1799, "step": 5475 }, { "epoch": 0.69, "learning_rate": 3.3413333333333335e-06, "loss": 0.2067, "step": 5500 }, { "epoch": 0.69, "eval_loss": 0.1678764820098877, "eval_runtime": 3328.8844, "eval_samples_per_second": 3.76, "eval_steps_per_second": 0.47, "eval_wer": 10.798860762014778, "step": 5500 }, { "epoch": 0.69, "learning_rate": 3.308e-06, "loss": 0.1286, "step": 5525 }, { "epoch": 0.69, "learning_rate": 3.274666666666667e-06, "loss": 0.1846, "step": 5550 }, { "epoch": 0.7, "learning_rate": 3.2413333333333336e-06, "loss": 0.2227, "step": 5575 }, { "epoch": 0.7, "learning_rate": 3.208e-06, "loss": 0.1749, "step": 5600 }, { "epoch": 0.7, "learning_rate": 3.174666666666667e-06, "loss": 0.1783, "step": 5625 }, { "epoch": 0.71, "learning_rate": 3.1413333333333333e-06, "loss": 0.1497, "step": 5650 }, { "epoch": 0.71, "learning_rate": 3.1080000000000006e-06, "loss": 0.1604, "step": 5675 }, { "epoch": 0.71, "learning_rate": 3.074666666666667e-06, "loss": 0.1525, "step": 5700 }, { "epoch": 0.72, "learning_rate": 3.0413333333333334e-06, "loss": 0.1675, "step": 5725 }, { "epoch": 0.72, "learning_rate": 3.0080000000000003e-06, "loss": 0.1463, "step": 5750 }, { "epoch": 0.72, "learning_rate": 2.9746666666666667e-06, "loss": 0.1432, "step": 5775 }, { "epoch": 0.72, "learning_rate": 2.941333333333334e-06, "loss": 0.1619, "step": 5800 }, { "epoch": 0.73, "learning_rate": 2.9080000000000004e-06, "loss": 0.1569, "step": 5825 }, { "epoch": 0.73, "learning_rate": 2.8746666666666668e-06, "loss": 0.1494, "step": 5850 }, { "epoch": 0.73, "learning_rate": 2.8413333333333336e-06, "loss": 0.1582, "step": 5875 }, { "epoch": 0.74, "learning_rate": 2.808e-06, "loss": 0.1521, "step": 5900 }, { "epoch": 0.74, "learning_rate": 2.7746666666666665e-06, "loss": 0.1552, "step": 5925 }, { "epoch": 0.74, "learning_rate": 2.7413333333333337e-06, "loss": 0.1522, "step": 5950 }, { "epoch": 0.75, "learning_rate": 2.708e-06, "loss": 0.1506, "step": 5975 }, { "epoch": 0.75, "learning_rate": 2.674666666666667e-06, "loss": 0.213, "step": 6000 }, { "epoch": 0.75, "eval_loss": 0.1617831289768219, "eval_runtime": 3314.2578, "eval_samples_per_second": 3.776, "eval_steps_per_second": 0.472, "eval_wer": 10.31388794837579, "step": 6000 }, { "epoch": 0.75, "learning_rate": 2.6413333333333334e-06, "loss": 0.1562, "step": 6025 }, { "epoch": 0.76, "learning_rate": 2.608e-06, "loss": 0.1477, "step": 6050 }, { "epoch": 0.76, "learning_rate": 2.574666666666667e-06, "loss": 0.1455, "step": 6075 }, { "epoch": 0.76, "learning_rate": 2.5413333333333335e-06, "loss": 0.2236, "step": 6100 }, { "epoch": 0.77, "learning_rate": 2.5080000000000004e-06, "loss": 0.1652, "step": 6125 }, { "epoch": 0.77, "learning_rate": 2.474666666666667e-06, "loss": 0.1631, "step": 6150 }, { "epoch": 0.77, "learning_rate": 2.4413333333333336e-06, "loss": 0.1451, "step": 6175 }, { "epoch": 0.78, "learning_rate": 2.408e-06, "loss": 0.2085, "step": 6200 }, { "epoch": 0.78, "learning_rate": 2.374666666666667e-06, "loss": 0.2082, "step": 6225 }, { "epoch": 0.78, "learning_rate": 2.3413333333333333e-06, "loss": 0.1651, "step": 6250 }, { "epoch": 1.0, "learning_rate": 2.308e-06, "loss": 0.139, "step": 6275 }, { "epoch": 1.01, "learning_rate": 2.274666666666667e-06, "loss": 0.1151, "step": 6300 }, { "epoch": 1.01, "learning_rate": 2.2413333333333334e-06, "loss": 0.1152, "step": 6325 }, { "epoch": 1.01, "learning_rate": 2.2080000000000003e-06, "loss": 0.1198, "step": 6350 }, { "epoch": 1.01, "learning_rate": 2.1746666666666667e-06, "loss": 0.1503, "step": 6375 }, { "epoch": 1.02, "learning_rate": 2.1413333333333336e-06, "loss": 0.1159, "step": 6400 }, { "epoch": 1.02, "learning_rate": 2.108e-06, "loss": 0.1244, "step": 6425 }, { "epoch": 1.02, "learning_rate": 2.074666666666667e-06, "loss": 0.1137, "step": 6450 }, { "epoch": 1.03, "learning_rate": 2.0413333333333337e-06, "loss": 0.1431, "step": 6475 }, { "epoch": 1.03, "learning_rate": 2.008e-06, "loss": 0.1272, "step": 6500 }, { "epoch": 1.03, "eval_loss": 0.15506044030189514, "eval_runtime": 3328.4728, "eval_samples_per_second": 3.76, "eval_steps_per_second": 0.47, "eval_wer": 9.868748630723575, "step": 6500 }, { "epoch": 1.03, "learning_rate": 1.974666666666667e-06, "loss": 0.1147, "step": 6525 }, { "epoch": 1.04, "learning_rate": 1.9413333333333334e-06, "loss": 0.1085, "step": 6550 }, { "epoch": 1.04, "learning_rate": 1.908e-06, "loss": 0.1201, "step": 6575 }, { "epoch": 1.04, "learning_rate": 1.8746666666666668e-06, "loss": 0.0979, "step": 6600 }, { "epoch": 1.05, "learning_rate": 1.8413333333333337e-06, "loss": 0.1025, "step": 6625 }, { "epoch": 1.05, "learning_rate": 1.808e-06, "loss": 0.0848, "step": 6650 }, { "epoch": 1.05, "learning_rate": 1.7746666666666667e-06, "loss": 0.0941, "step": 6675 }, { "epoch": 1.06, "learning_rate": 1.7413333333333336e-06, "loss": 0.0979, "step": 6700 }, { "epoch": 1.06, "learning_rate": 1.7080000000000002e-06, "loss": 0.1006, "step": 6725 }, { "epoch": 1.06, "learning_rate": 1.6746666666666668e-06, "loss": 0.0948, "step": 6750 }, { "epoch": 1.06, "learning_rate": 1.6413333333333335e-06, "loss": 0.0891, "step": 6775 }, { "epoch": 1.07, "learning_rate": 1.608e-06, "loss": 0.1119, "step": 6800 }, { "epoch": 1.07, "learning_rate": 1.5746666666666667e-06, "loss": 0.1002, "step": 6825 }, { "epoch": 1.07, "learning_rate": 1.5413333333333336e-06, "loss": 0.088, "step": 6850 }, { "epoch": 1.08, "learning_rate": 1.508e-06, "loss": 0.0871, "step": 6875 }, { "epoch": 1.08, "learning_rate": 1.4746666666666668e-06, "loss": 0.0796, "step": 6900 }, { "epoch": 1.08, "learning_rate": 1.4413333333333335e-06, "loss": 0.0669, "step": 6925 }, { "epoch": 1.09, "learning_rate": 1.4080000000000001e-06, "loss": 0.082, "step": 6950 }, { "epoch": 1.09, "learning_rate": 1.3746666666666667e-06, "loss": 0.0581, "step": 6975 }, { "epoch": 1.09, "learning_rate": 1.3413333333333334e-06, "loss": 0.0744, "step": 7000 }, { "epoch": 1.09, "eval_loss": 0.15340346097946167, "eval_runtime": 3332.489, "eval_samples_per_second": 3.755, "eval_steps_per_second": 0.47, "eval_wer": 9.517218028640285, "step": 7000 }, { "epoch": 1.1, "learning_rate": 1.308e-06, "loss": 0.0732, "step": 7025 }, { "epoch": 1.1, "learning_rate": 1.2746666666666669e-06, "loss": 0.0809, "step": 7050 }, { "epoch": 1.1, "learning_rate": 1.2413333333333335e-06, "loss": 0.0786, "step": 7075 }, { "epoch": 1.11, "learning_rate": 1.2080000000000001e-06, "loss": 0.0641, "step": 7100 }, { "epoch": 1.11, "learning_rate": 1.1746666666666668e-06, "loss": 0.08, "step": 7125 }, { "epoch": 1.11, "learning_rate": 1.1413333333333334e-06, "loss": 0.0732, "step": 7150 }, { "epoch": 1.11, "learning_rate": 1.108e-06, "loss": 0.0752, "step": 7175 }, { "epoch": 1.12, "learning_rate": 1.0746666666666669e-06, "loss": 0.0657, "step": 7200 }, { "epoch": 1.12, "learning_rate": 1.0413333333333333e-06, "loss": 0.0713, "step": 7225 }, { "epoch": 1.12, "learning_rate": 1.0080000000000001e-06, "loss": 0.0676, "step": 7250 }, { "epoch": 1.13, "learning_rate": 9.746666666666668e-07, "loss": 0.0748, "step": 7275 }, { "epoch": 1.13, "learning_rate": 9.413333333333334e-07, "loss": 0.0617, "step": 7300 }, { "epoch": 1.13, "learning_rate": 9.080000000000001e-07, "loss": 0.0545, "step": 7325 }, { "epoch": 1.14, "learning_rate": 8.746666666666668e-07, "loss": 0.0718, "step": 7350 }, { "epoch": 1.14, "learning_rate": 8.413333333333334e-07, "loss": 0.0502, "step": 7375 }, { "epoch": 1.14, "learning_rate": 8.08e-07, "loss": 0.0611, "step": 7400 }, { "epoch": 1.15, "learning_rate": 7.746666666666668e-07, "loss": 0.0547, "step": 7425 }, { "epoch": 1.15, "learning_rate": 7.413333333333333e-07, "loss": 0.0605, "step": 7450 }, { "epoch": 1.15, "learning_rate": 7.08e-07, "loss": 0.0735, "step": 7475 }, { "epoch": 1.16, "learning_rate": 6.746666666666667e-07, "loss": 0.0726, "step": 7500 }, { "epoch": 1.16, "eval_loss": 0.1517735719680786, "eval_runtime": 3337.7248, "eval_samples_per_second": 3.75, "eval_steps_per_second": 0.469, "eval_wer": 9.324025573104423, "step": 7500 }, { "epoch": 1.16, "learning_rate": 6.413333333333334e-07, "loss": 0.0558, "step": 7525 }, { "epoch": 1.16, "learning_rate": 6.08e-07, "loss": 0.071, "step": 7550 }, { "epoch": 1.16, "learning_rate": 5.746666666666667e-07, "loss": 0.0473, "step": 7575 }, { "epoch": 1.17, "learning_rate": 5.413333333333334e-07, "loss": 0.0571, "step": 7600 }, { "epoch": 1.17, "learning_rate": 5.08e-07, "loss": 0.0625, "step": 7625 }, { "epoch": 1.17, "learning_rate": 4.746666666666667e-07, "loss": 0.0577, "step": 7650 }, { "epoch": 1.18, "learning_rate": 4.413333333333333e-07, "loss": 0.0582, "step": 7675 }, { "epoch": 1.18, "learning_rate": 4.0800000000000005e-07, "loss": 0.0515, "step": 7700 }, { "epoch": 1.18, "learning_rate": 3.7466666666666674e-07, "loss": 0.0597, "step": 7725 }, { "epoch": 1.19, "learning_rate": 3.4133333333333337e-07, "loss": 0.0574, "step": 7750 }, { "epoch": 1.19, "learning_rate": 3.0800000000000006e-07, "loss": 0.0582, "step": 7775 }, { "epoch": 1.19, "learning_rate": 2.746666666666667e-07, "loss": 0.0537, "step": 7800 }, { "epoch": 1.2, "learning_rate": 2.413333333333333e-07, "loss": 0.0486, "step": 7825 }, { "epoch": 1.2, "learning_rate": 2.08e-07, "loss": 0.0624, "step": 7850 }, { "epoch": 1.2, "learning_rate": 1.7466666666666667e-07, "loss": 0.0601, "step": 7875 }, { "epoch": 1.21, "learning_rate": 1.4133333333333333e-07, "loss": 0.0532, "step": 7900 }, { "epoch": 1.21, "learning_rate": 1.0800000000000001e-07, "loss": 0.0512, "step": 7925 }, { "epoch": 1.21, "learning_rate": 7.466666666666667e-08, "loss": 0.0502, "step": 7950 }, { "epoch": 1.21, "learning_rate": 4.133333333333334e-08, "loss": 0.0613, "step": 7975 }, { "epoch": 1.22, "learning_rate": 8e-09, "loss": 0.0627, "step": 8000 }, { "epoch": 1.22, "eval_loss": 0.1502576321363449, "eval_runtime": 3330.0534, "eval_samples_per_second": 3.758, "eval_steps_per_second": 0.47, "eval_wer": 9.188591686749389, "step": 8000 }, { "epoch": 1.22, "step": 8000, "total_flos": 3.265731583082496e+19, "train_loss": 0.22703151334822178, "train_runtime": 64728.0354, "train_samples_per_second": 0.494, "train_steps_per_second": 0.124 } ], "max_steps": 8000, "num_train_epochs": 9223372036854775807, "total_flos": 3.265731583082496e+19, "trial_name": null, "trial_params": null }