{ "best_metric": 21.07783761623465, "best_model_checkpoint": "./Whisper-Small-architecture-change\\checkpoint-60000", "epoch": 24.0, "eval_steps": 3750, "global_step": 90000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.006666666666666667, "grad_norm": 111.48564910888672, "learning_rate": 5.866666666666667e-08, "loss": 11.682, "step": 25 }, { "epoch": 0.013333333333333334, "grad_norm": 70.53641510009766, "learning_rate": 1.2533333333333334e-07, "loss": 11.357, "step": 50 }, { "epoch": 0.02, "grad_norm": 66.43780517578125, "learning_rate": 1.92e-07, "loss": 10.3396, "step": 75 }, { "epoch": 0.02666666666666667, "grad_norm": 55.84492111206055, "learning_rate": 2.586666666666667e-07, "loss": 8.69, "step": 100 }, { "epoch": 0.03333333333333333, "grad_norm": 36.73503112792969, "learning_rate": 3.2533333333333333e-07, "loss": 7.0021, "step": 125 }, { "epoch": 0.04, "grad_norm": 25.967117309570312, "learning_rate": 3.92e-07, "loss": 5.9662, "step": 150 }, { "epoch": 0.04666666666666667, "grad_norm": 27.77681541442871, "learning_rate": 4.586666666666667e-07, "loss": 5.4988, "step": 175 }, { "epoch": 0.05333333333333334, "grad_norm": 29.157243728637695, "learning_rate": 5.253333333333334e-07, "loss": 5.0856, "step": 200 }, { "epoch": 0.06, "grad_norm": 31.2855224609375, "learning_rate": 5.920000000000001e-07, "loss": 4.8222, "step": 225 }, { "epoch": 0.06666666666666667, "grad_norm": 36.7702522277832, "learning_rate": 6.586666666666667e-07, "loss": 4.5603, "step": 250 }, { "epoch": 0.07333333333333333, "grad_norm": 27.600358963012695, "learning_rate": 7.253333333333335e-07, "loss": 4.3621, "step": 275 }, { "epoch": 0.08, "grad_norm": 29.353242874145508, "learning_rate": 7.920000000000001e-07, "loss": 4.2272, "step": 300 }, { "epoch": 0.08666666666666667, "grad_norm": 35.09225082397461, "learning_rate": 8.586666666666666e-07, "loss": 4.0234, "step": 325 }, { "epoch": 0.09333333333333334, "grad_norm": 30.688486099243164, "learning_rate": 9.253333333333334e-07, "loss": 3.8953, "step": 350 }, { "epoch": 0.1, "grad_norm": 29.1451473236084, "learning_rate": 9.92e-07, "loss": 3.7163, "step": 375 }, { "epoch": 0.10666666666666667, "grad_norm": 32.318363189697266, "learning_rate": 1.0586666666666667e-06, "loss": 3.6545, "step": 400 }, { "epoch": 0.11333333333333333, "grad_norm": 29.515954971313477, "learning_rate": 1.1253333333333335e-06, "loss": 3.5914, "step": 425 }, { "epoch": 0.12, "grad_norm": 31.179685592651367, "learning_rate": 1.1920000000000002e-06, "loss": 3.5222, "step": 450 }, { "epoch": 0.12666666666666668, "grad_norm": 28.281299591064453, "learning_rate": 1.2586666666666667e-06, "loss": 3.4666, "step": 475 }, { "epoch": 0.13333333333333333, "grad_norm": 32.45530319213867, "learning_rate": 1.3253333333333334e-06, "loss": 3.4865, "step": 500 }, { "epoch": 0.14, "grad_norm": 27.48408317565918, "learning_rate": 1.392e-06, "loss": 3.4875, "step": 525 }, { "epoch": 0.14666666666666667, "grad_norm": 29.316692352294922, "learning_rate": 1.458666666666667e-06, "loss": 3.3615, "step": 550 }, { "epoch": 0.15333333333333332, "grad_norm": 28.037925720214844, "learning_rate": 1.5253333333333334e-06, "loss": 3.4014, "step": 575 }, { "epoch": 0.16, "grad_norm": 29.64125633239746, "learning_rate": 1.5920000000000002e-06, "loss": 3.3759, "step": 600 }, { "epoch": 0.16666666666666666, "grad_norm": 27.532228469848633, "learning_rate": 1.6586666666666667e-06, "loss": 3.3535, "step": 625 }, { "epoch": 0.17333333333333334, "grad_norm": 28.19093894958496, "learning_rate": 1.7253333333333336e-06, "loss": 3.4183, "step": 650 }, { "epoch": 0.18, "grad_norm": 27.835262298583984, "learning_rate": 1.7920000000000002e-06, "loss": 3.3644, "step": 675 }, { "epoch": 0.18666666666666668, "grad_norm": 26.126815795898438, "learning_rate": 1.858666666666667e-06, "loss": 3.304, "step": 700 }, { "epoch": 0.19333333333333333, "grad_norm": 27.21718978881836, "learning_rate": 1.9253333333333334e-06, "loss": 3.3469, "step": 725 }, { "epoch": 0.2, "grad_norm": 27.204692840576172, "learning_rate": 1.992e-06, "loss": 3.3089, "step": 750 }, { "epoch": 0.20666666666666667, "grad_norm": 25.531513214111328, "learning_rate": 2.058666666666667e-06, "loss": 3.2543, "step": 775 }, { "epoch": 0.21333333333333335, "grad_norm": 26.769859313964844, "learning_rate": 2.1253333333333336e-06, "loss": 3.2017, "step": 800 }, { "epoch": 0.22, "grad_norm": 26.984683990478516, "learning_rate": 2.1920000000000004e-06, "loss": 3.3159, "step": 825 }, { "epoch": 0.22666666666666666, "grad_norm": 25.557384490966797, "learning_rate": 2.2586666666666667e-06, "loss": 3.2851, "step": 850 }, { "epoch": 0.23333333333333334, "grad_norm": 27.59333610534668, "learning_rate": 2.3253333333333334e-06, "loss": 3.2598, "step": 875 }, { "epoch": 0.24, "grad_norm": 28.09088897705078, "learning_rate": 2.392e-06, "loss": 3.2606, "step": 900 }, { "epoch": 0.24666666666666667, "grad_norm": 28.59324073791504, "learning_rate": 2.458666666666667e-06, "loss": 3.2862, "step": 925 }, { "epoch": 0.25333333333333335, "grad_norm": 27.096912384033203, "learning_rate": 2.5253333333333336e-06, "loss": 3.28, "step": 950 }, { "epoch": 0.26, "grad_norm": 27.33795166015625, "learning_rate": 2.592e-06, "loss": 3.2637, "step": 975 }, { "epoch": 0.26666666666666666, "grad_norm": 29.362424850463867, "learning_rate": 2.6586666666666667e-06, "loss": 3.2364, "step": 1000 }, { "epoch": 0.2733333333333333, "grad_norm": 26.813495635986328, "learning_rate": 2.725333333333334e-06, "loss": 3.2548, "step": 1025 }, { "epoch": 0.28, "grad_norm": 26.827274322509766, "learning_rate": 2.792e-06, "loss": 3.2008, "step": 1050 }, { "epoch": 0.2866666666666667, "grad_norm": 28.96709632873535, "learning_rate": 2.858666666666667e-06, "loss": 3.1766, "step": 1075 }, { "epoch": 0.29333333333333333, "grad_norm": 24.097309112548828, "learning_rate": 2.925333333333333e-06, "loss": 3.2034, "step": 1100 }, { "epoch": 0.3, "grad_norm": 25.107149124145508, "learning_rate": 2.9920000000000003e-06, "loss": 3.2556, "step": 1125 }, { "epoch": 0.30666666666666664, "grad_norm": 25.05257225036621, "learning_rate": 3.058666666666667e-06, "loss": 3.229, "step": 1150 }, { "epoch": 0.31333333333333335, "grad_norm": 22.934017181396484, "learning_rate": 3.1253333333333334e-06, "loss": 3.2092, "step": 1175 }, { "epoch": 0.32, "grad_norm": 23.711837768554688, "learning_rate": 3.192e-06, "loss": 3.2183, "step": 1200 }, { "epoch": 0.32666666666666666, "grad_norm": 28.421186447143555, "learning_rate": 3.2586666666666673e-06, "loss": 3.1794, "step": 1225 }, { "epoch": 0.3333333333333333, "grad_norm": 26.12969398498535, "learning_rate": 3.3253333333333336e-06, "loss": 3.1654, "step": 1250 }, { "epoch": 0.34, "grad_norm": 22.965322494506836, "learning_rate": 3.3920000000000003e-06, "loss": 3.2029, "step": 1275 }, { "epoch": 0.3466666666666667, "grad_norm": 23.11631965637207, "learning_rate": 3.458666666666667e-06, "loss": 3.1933, "step": 1300 }, { "epoch": 0.35333333333333333, "grad_norm": 24.940004348754883, "learning_rate": 3.5253333333333333e-06, "loss": 3.1478, "step": 1325 }, { "epoch": 0.36, "grad_norm": 24.57161521911621, "learning_rate": 3.5893333333333335e-06, "loss": 3.1821, "step": 1350 }, { "epoch": 0.36666666666666664, "grad_norm": 23.25406837463379, "learning_rate": 3.6560000000000002e-06, "loss": 3.2012, "step": 1375 }, { "epoch": 0.37333333333333335, "grad_norm": 26.07965850830078, "learning_rate": 3.7226666666666674e-06, "loss": 3.1545, "step": 1400 }, { "epoch": 0.38, "grad_norm": 22.703157424926758, "learning_rate": 3.7893333333333337e-06, "loss": 3.1155, "step": 1425 }, { "epoch": 0.38666666666666666, "grad_norm": 22.670724868774414, "learning_rate": 3.856e-06, "loss": 3.1663, "step": 1450 }, { "epoch": 0.3933333333333333, "grad_norm": 25.008970260620117, "learning_rate": 3.922666666666667e-06, "loss": 3.1335, "step": 1475 }, { "epoch": 0.4, "grad_norm": 22.752229690551758, "learning_rate": 3.9893333333333335e-06, "loss": 3.1391, "step": 1500 }, { "epoch": 0.4066666666666667, "grad_norm": 23.52843475341797, "learning_rate": 4.056000000000001e-06, "loss": 3.1677, "step": 1525 }, { "epoch": 0.41333333333333333, "grad_norm": 22.564254760742188, "learning_rate": 4.122666666666667e-06, "loss": 3.1197, "step": 1550 }, { "epoch": 0.42, "grad_norm": 20.294986724853516, "learning_rate": 4.189333333333333e-06, "loss": 3.1053, "step": 1575 }, { "epoch": 0.4266666666666667, "grad_norm": 19.375429153442383, "learning_rate": 4.256e-06, "loss": 3.1476, "step": 1600 }, { "epoch": 0.43333333333333335, "grad_norm": 21.38226318359375, "learning_rate": 4.3226666666666676e-06, "loss": 3.1562, "step": 1625 }, { "epoch": 0.44, "grad_norm": 22.087488174438477, "learning_rate": 4.389333333333334e-06, "loss": 3.0819, "step": 1650 }, { "epoch": 0.44666666666666666, "grad_norm": 19.804174423217773, "learning_rate": 4.456e-06, "loss": 3.079, "step": 1675 }, { "epoch": 0.4533333333333333, "grad_norm": 26.955942153930664, "learning_rate": 4.5226666666666665e-06, "loss": 3.1223, "step": 1700 }, { "epoch": 0.46, "grad_norm": 20.12558937072754, "learning_rate": 4.589333333333334e-06, "loss": 3.1378, "step": 1725 }, { "epoch": 0.4666666666666667, "grad_norm": 23.122295379638672, "learning_rate": 4.656000000000001e-06, "loss": 3.0952, "step": 1750 }, { "epoch": 0.47333333333333333, "grad_norm": 19.772171020507812, "learning_rate": 4.722666666666667e-06, "loss": 3.0767, "step": 1775 }, { "epoch": 0.48, "grad_norm": 20.289064407348633, "learning_rate": 4.7893333333333334e-06, "loss": 3.1164, "step": 1800 }, { "epoch": 0.4866666666666667, "grad_norm": 23.849220275878906, "learning_rate": 4.856e-06, "loss": 3.1302, "step": 1825 }, { "epoch": 0.49333333333333335, "grad_norm": 23.756196975708008, "learning_rate": 4.922666666666667e-06, "loss": 3.0519, "step": 1850 }, { "epoch": 0.5, "grad_norm": 20.326499938964844, "learning_rate": 4.989333333333334e-06, "loss": 3.0346, "step": 1875 }, { "epoch": 0.5066666666666667, "grad_norm": 19.785266876220703, "learning_rate": 5.056000000000001e-06, "loss": 3.0875, "step": 1900 }, { "epoch": 0.5133333333333333, "grad_norm": 21.80754852294922, "learning_rate": 5.122666666666667e-06, "loss": 3.0901, "step": 1925 }, { "epoch": 0.52, "grad_norm": 22.199064254760742, "learning_rate": 5.189333333333334e-06, "loss": 3.0576, "step": 1950 }, { "epoch": 0.5266666666666666, "grad_norm": 20.962785720825195, "learning_rate": 5.256e-06, "loss": 3.0939, "step": 1975 }, { "epoch": 0.5333333333333333, "grad_norm": 21.406068801879883, "learning_rate": 5.322666666666667e-06, "loss": 3.0872, "step": 2000 }, { "epoch": 0.54, "grad_norm": 19.208545684814453, "learning_rate": 5.3893333333333345e-06, "loss": 3.0632, "step": 2025 }, { "epoch": 0.5466666666666666, "grad_norm": 20.200136184692383, "learning_rate": 5.456e-06, "loss": 3.0991, "step": 2050 }, { "epoch": 0.5533333333333333, "grad_norm": 20.082595825195312, "learning_rate": 5.522666666666667e-06, "loss": 3.0377, "step": 2075 }, { "epoch": 0.56, "grad_norm": 20.546627044677734, "learning_rate": 5.589333333333333e-06, "loss": 3.0294, "step": 2100 }, { "epoch": 0.5666666666666667, "grad_norm": 20.757875442504883, "learning_rate": 5.6560000000000006e-06, "loss": 3.0606, "step": 2125 }, { "epoch": 0.5733333333333334, "grad_norm": 19.23548698425293, "learning_rate": 5.722666666666668e-06, "loss": 3.0345, "step": 2150 }, { "epoch": 0.58, "grad_norm": 19.413265228271484, "learning_rate": 5.789333333333333e-06, "loss": 3.0132, "step": 2175 }, { "epoch": 0.5866666666666667, "grad_norm": 19.276395797729492, "learning_rate": 5.856e-06, "loss": 3.0395, "step": 2200 }, { "epoch": 0.5933333333333334, "grad_norm": 18.55997085571289, "learning_rate": 5.9226666666666675e-06, "loss": 3.0303, "step": 2225 }, { "epoch": 0.6, "grad_norm": 19.048141479492188, "learning_rate": 5.989333333333334e-06, "loss": 3.0591, "step": 2250 }, { "epoch": 0.6066666666666667, "grad_norm": 19.092100143432617, "learning_rate": 6.056000000000001e-06, "loss": 3.0814, "step": 2275 }, { "epoch": 0.6133333333333333, "grad_norm": 17.920061111450195, "learning_rate": 6.1226666666666664e-06, "loss": 3.0183, "step": 2300 }, { "epoch": 0.62, "grad_norm": 21.999868392944336, "learning_rate": 6.189333333333334e-06, "loss": 3.0487, "step": 2325 }, { "epoch": 0.6266666666666667, "grad_norm": 19.58065414428711, "learning_rate": 6.256000000000001e-06, "loss": 3.0316, "step": 2350 }, { "epoch": 0.6333333333333333, "grad_norm": 19.273319244384766, "learning_rate": 6.322666666666667e-06, "loss": 3.107, "step": 2375 }, { "epoch": 0.64, "grad_norm": 21.751789093017578, "learning_rate": 6.389333333333334e-06, "loss": 3.0655, "step": 2400 }, { "epoch": 0.6466666666666666, "grad_norm": 18.95050811767578, "learning_rate": 6.456e-06, "loss": 3.0196, "step": 2425 }, { "epoch": 0.6533333333333333, "grad_norm": 20.24399185180664, "learning_rate": 6.522666666666667e-06, "loss": 3.0047, "step": 2450 }, { "epoch": 0.66, "grad_norm": 18.038652420043945, "learning_rate": 6.589333333333334e-06, "loss": 3.0014, "step": 2475 }, { "epoch": 0.6666666666666666, "grad_norm": 19.818687438964844, "learning_rate": 6.656e-06, "loss": 3.0015, "step": 2500 }, { "epoch": 0.6733333333333333, "grad_norm": 19.446958541870117, "learning_rate": 6.7226666666666675e-06, "loss": 3.0302, "step": 2525 }, { "epoch": 0.68, "grad_norm": 18.2159481048584, "learning_rate": 6.789333333333335e-06, "loss": 3.0402, "step": 2550 }, { "epoch": 0.6866666666666666, "grad_norm": 20.23403549194336, "learning_rate": 6.856e-06, "loss": 3.0522, "step": 2575 }, { "epoch": 0.6933333333333334, "grad_norm": 18.617311477661133, "learning_rate": 6.922666666666667e-06, "loss": 3.0055, "step": 2600 }, { "epoch": 0.7, "grad_norm": 18.315711975097656, "learning_rate": 6.9893333333333336e-06, "loss": 3.0419, "step": 2625 }, { "epoch": 0.7066666666666667, "grad_norm": 17.747783660888672, "learning_rate": 7.056000000000001e-06, "loss": 3.0155, "step": 2650 }, { "epoch": 0.7133333333333334, "grad_norm": 19.420833587646484, "learning_rate": 7.122666666666668e-06, "loss": 3.0207, "step": 2675 }, { "epoch": 0.72, "grad_norm": 18.187541961669922, "learning_rate": 7.189333333333333e-06, "loss": 3.0186, "step": 2700 }, { "epoch": 0.7266666666666667, "grad_norm": 19.88573455810547, "learning_rate": 7.2560000000000005e-06, "loss": 2.9839, "step": 2725 }, { "epoch": 0.7333333333333333, "grad_norm": 19.29829216003418, "learning_rate": 7.322666666666667e-06, "loss": 2.9943, "step": 2750 }, { "epoch": 0.74, "grad_norm": 16.37192726135254, "learning_rate": 7.389333333333334e-06, "loss": 2.9936, "step": 2775 }, { "epoch": 0.7466666666666667, "grad_norm": 18.42452621459961, "learning_rate": 7.456000000000001e-06, "loss": 2.9943, "step": 2800 }, { "epoch": 0.7533333333333333, "grad_norm": 17.694307327270508, "learning_rate": 7.522666666666667e-06, "loss": 2.9651, "step": 2825 }, { "epoch": 0.76, "grad_norm": 19.521467208862305, "learning_rate": 7.589333333333334e-06, "loss": 2.9594, "step": 2850 }, { "epoch": 0.7666666666666667, "grad_norm": 21.28176498413086, "learning_rate": 7.656000000000001e-06, "loss": 3.0112, "step": 2875 }, { "epoch": 0.7733333333333333, "grad_norm": 18.655025482177734, "learning_rate": 7.722666666666666e-06, "loss": 2.9992, "step": 2900 }, { "epoch": 0.78, "grad_norm": 19.628299713134766, "learning_rate": 7.789333333333334e-06, "loss": 3.0332, "step": 2925 }, { "epoch": 0.7866666666666666, "grad_norm": 18.892627716064453, "learning_rate": 7.856e-06, "loss": 3.033, "step": 2950 }, { "epoch": 0.7933333333333333, "grad_norm": 18.027875900268555, "learning_rate": 7.922666666666668e-06, "loss": 3.0662, "step": 2975 }, { "epoch": 0.8, "grad_norm": 16.78729820251465, "learning_rate": 7.989333333333335e-06, "loss": 2.9422, "step": 3000 }, { "epoch": 0.8066666666666666, "grad_norm": 19.803417205810547, "learning_rate": 8.056e-06, "loss": 3.0041, "step": 3025 }, { "epoch": 0.8133333333333334, "grad_norm": 17.857236862182617, "learning_rate": 8.122666666666668e-06, "loss": 3.0055, "step": 3050 }, { "epoch": 0.82, "grad_norm": 19.325098037719727, "learning_rate": 8.189333333333333e-06, "loss": 2.9538, "step": 3075 }, { "epoch": 0.8266666666666667, "grad_norm": 20.034204483032227, "learning_rate": 8.256e-06, "loss": 2.9951, "step": 3100 }, { "epoch": 0.8333333333333334, "grad_norm": 17.219974517822266, "learning_rate": 8.322666666666667e-06, "loss": 3.0008, "step": 3125 }, { "epoch": 0.84, "grad_norm": 16.875280380249023, "learning_rate": 8.389333333333335e-06, "loss": 2.9735, "step": 3150 }, { "epoch": 0.8466666666666667, "grad_norm": 16.129375457763672, "learning_rate": 8.456000000000002e-06, "loss": 2.9973, "step": 3175 }, { "epoch": 0.8533333333333334, "grad_norm": 17.611738204956055, "learning_rate": 8.522666666666667e-06, "loss": 2.9945, "step": 3200 }, { "epoch": 0.86, "grad_norm": 16.94667625427246, "learning_rate": 8.589333333333334e-06, "loss": 2.9704, "step": 3225 }, { "epoch": 0.8666666666666667, "grad_norm": 17.554040908813477, "learning_rate": 8.656000000000001e-06, "loss": 2.9767, "step": 3250 }, { "epoch": 0.8733333333333333, "grad_norm": 16.486339569091797, "learning_rate": 8.722666666666667e-06, "loss": 2.934, "step": 3275 }, { "epoch": 0.88, "grad_norm": 18.204835891723633, "learning_rate": 8.789333333333334e-06, "loss": 3.0116, "step": 3300 }, { "epoch": 0.8866666666666667, "grad_norm": 17.847763061523438, "learning_rate": 8.856000000000001e-06, "loss": 3.003, "step": 3325 }, { "epoch": 0.8933333333333333, "grad_norm": 17.01093864440918, "learning_rate": 8.922666666666667e-06, "loss": 3.0009, "step": 3350 }, { "epoch": 0.9, "grad_norm": 15.349688529968262, "learning_rate": 8.989333333333334e-06, "loss": 3.0568, "step": 3375 }, { "epoch": 0.9066666666666666, "grad_norm": 16.00149917602539, "learning_rate": 9.056000000000001e-06, "loss": 2.9492, "step": 3400 }, { "epoch": 0.9133333333333333, "grad_norm": 16.562292098999023, "learning_rate": 9.122666666666668e-06, "loss": 2.9516, "step": 3425 }, { "epoch": 0.92, "grad_norm": 18.691375732421875, "learning_rate": 9.189333333333335e-06, "loss": 2.9599, "step": 3450 }, { "epoch": 0.9266666666666666, "grad_norm": 17.743772506713867, "learning_rate": 9.256e-06, "loss": 2.9765, "step": 3475 }, { "epoch": 0.9333333333333333, "grad_norm": 21.564847946166992, "learning_rate": 9.322666666666668e-06, "loss": 3.0141, "step": 3500 }, { "epoch": 0.94, "grad_norm": 17.750629425048828, "learning_rate": 9.389333333333333e-06, "loss": 2.9307, "step": 3525 }, { "epoch": 0.9466666666666667, "grad_norm": 17.04627227783203, "learning_rate": 9.456e-06, "loss": 2.9817, "step": 3550 }, { "epoch": 0.9533333333333334, "grad_norm": 17.68846321105957, "learning_rate": 9.522666666666668e-06, "loss": 2.9943, "step": 3575 }, { "epoch": 0.96, "grad_norm": 19.70555305480957, "learning_rate": 9.589333333333333e-06, "loss": 2.9401, "step": 3600 }, { "epoch": 0.9666666666666667, "grad_norm": 16.034330368041992, "learning_rate": 9.656e-06, "loss": 2.9802, "step": 3625 }, { "epoch": 0.9733333333333334, "grad_norm": 17.18195343017578, "learning_rate": 9.722666666666668e-06, "loss": 2.891, "step": 3650 }, { "epoch": 0.98, "grad_norm": 16.968229293823242, "learning_rate": 9.789333333333335e-06, "loss": 2.9233, "step": 3675 }, { "epoch": 0.9866666666666667, "grad_norm": 16.523271560668945, "learning_rate": 9.856000000000002e-06, "loss": 2.9439, "step": 3700 }, { "epoch": 0.9933333333333333, "grad_norm": 17.706613540649414, "learning_rate": 9.922666666666667e-06, "loss": 2.9929, "step": 3725 }, { "epoch": 1.0, "grad_norm": 18.36431121826172, "learning_rate": 9.989333333333334e-06, "loss": 2.9532, "step": 3750 }, { "epoch": 1.0, "eval_cer": 103.21823230158583, "eval_loss": 2.960142135620117, "eval_runtime": 1315.0175, "eval_samples_per_second": 3.802, "eval_steps_per_second": 0.475, "step": 3750 }, { "epoch": 1.0066666666666666, "grad_norm": 16.86143684387207, "learning_rate": 9.992e-06, "loss": 2.8764, "step": 3775 }, { "epoch": 1.0133333333333334, "grad_norm": 16.526630401611328, "learning_rate": 9.982476190476191e-06, "loss": 2.8755, "step": 3800 }, { "epoch": 1.02, "grad_norm": 16.470598220825195, "learning_rate": 9.972952380952382e-06, "loss": 2.8863, "step": 3825 }, { "epoch": 1.0266666666666666, "grad_norm": 17.210840225219727, "learning_rate": 9.963428571428572e-06, "loss": 2.8091, "step": 3850 }, { "epoch": 1.0333333333333334, "grad_norm": 16.355356216430664, "learning_rate": 9.953904761904763e-06, "loss": 2.905, "step": 3875 }, { "epoch": 1.04, "grad_norm": 16.987756729125977, "learning_rate": 9.944380952380953e-06, "loss": 2.9418, "step": 3900 }, { "epoch": 1.0466666666666666, "grad_norm": 16.835289001464844, "learning_rate": 9.934857142857144e-06, "loss": 2.8697, "step": 3925 }, { "epoch": 1.0533333333333332, "grad_norm": 20.176651000976562, "learning_rate": 9.925333333333335e-06, "loss": 2.8888, "step": 3950 }, { "epoch": 1.06, "grad_norm": 16.105083465576172, "learning_rate": 9.915809523809524e-06, "loss": 2.8688, "step": 3975 }, { "epoch": 1.0666666666666667, "grad_norm": 16.42608642578125, "learning_rate": 9.906285714285714e-06, "loss": 2.835, "step": 4000 }, { "epoch": 1.0733333333333333, "grad_norm": 16.13795280456543, "learning_rate": 9.896761904761905e-06, "loss": 2.8282, "step": 4025 }, { "epoch": 1.08, "grad_norm": 17.976585388183594, "learning_rate": 9.887238095238096e-06, "loss": 2.8036, "step": 4050 }, { "epoch": 1.0866666666666667, "grad_norm": 15.21644115447998, "learning_rate": 9.877714285714286e-06, "loss": 2.8241, "step": 4075 }, { "epoch": 1.0933333333333333, "grad_norm": 17.24576187133789, "learning_rate": 9.868190476190477e-06, "loss": 2.8368, "step": 4100 }, { "epoch": 1.1, "grad_norm": 16.4899959564209, "learning_rate": 9.858666666666668e-06, "loss": 2.8454, "step": 4125 }, { "epoch": 1.1066666666666667, "grad_norm": 16.6475887298584, "learning_rate": 9.849142857142858e-06, "loss": 2.8345, "step": 4150 }, { "epoch": 1.1133333333333333, "grad_norm": 18.639892578125, "learning_rate": 9.839619047619049e-06, "loss": 2.8544, "step": 4175 }, { "epoch": 1.12, "grad_norm": 15.45373821258545, "learning_rate": 9.830095238095238e-06, "loss": 2.836, "step": 4200 }, { "epoch": 1.1266666666666667, "grad_norm": 15.225053787231445, "learning_rate": 9.820571428571428e-06, "loss": 2.8233, "step": 4225 }, { "epoch": 1.1333333333333333, "grad_norm": 17.045175552368164, "learning_rate": 9.81104761904762e-06, "loss": 2.8206, "step": 4250 }, { "epoch": 1.1400000000000001, "grad_norm": 15.073892593383789, "learning_rate": 9.801523809523811e-06, "loss": 2.874, "step": 4275 }, { "epoch": 1.1466666666666667, "grad_norm": 14.833466529846191, "learning_rate": 9.792e-06, "loss": 2.9101, "step": 4300 }, { "epoch": 1.1533333333333333, "grad_norm": 16.14146614074707, "learning_rate": 9.782476190476191e-06, "loss": 2.8401, "step": 4325 }, { "epoch": 1.16, "grad_norm": 17.003978729248047, "learning_rate": 9.772952380952382e-06, "loss": 2.8505, "step": 4350 }, { "epoch": 1.1666666666666667, "grad_norm": 16.63850212097168, "learning_rate": 9.763428571428572e-06, "loss": 2.8401, "step": 4375 }, { "epoch": 1.1733333333333333, "grad_norm": 15.833580017089844, "learning_rate": 9.753904761904763e-06, "loss": 2.7945, "step": 4400 }, { "epoch": 1.18, "grad_norm": 17.91555404663086, "learning_rate": 9.744380952380954e-06, "loss": 2.8364, "step": 4425 }, { "epoch": 1.1866666666666668, "grad_norm": 14.741762161254883, "learning_rate": 9.734857142857144e-06, "loss": 2.8555, "step": 4450 }, { "epoch": 1.1933333333333334, "grad_norm": 16.537681579589844, "learning_rate": 9.725333333333335e-06, "loss": 2.7999, "step": 4475 }, { "epoch": 1.2, "grad_norm": 15.487943649291992, "learning_rate": 9.715809523809526e-06, "loss": 2.8063, "step": 4500 }, { "epoch": 1.2066666666666666, "grad_norm": 17.870975494384766, "learning_rate": 9.706285714285715e-06, "loss": 2.862, "step": 4525 }, { "epoch": 1.2133333333333334, "grad_norm": 15.674758911132812, "learning_rate": 9.696761904761905e-06, "loss": 2.8499, "step": 4550 }, { "epoch": 1.22, "grad_norm": 14.353854179382324, "learning_rate": 9.687238095238096e-06, "loss": 2.8117, "step": 4575 }, { "epoch": 1.2266666666666666, "grad_norm": 16.09757423400879, "learning_rate": 9.677714285714287e-06, "loss": 2.8722, "step": 4600 }, { "epoch": 1.2333333333333334, "grad_norm": 16.111276626586914, "learning_rate": 9.668190476190477e-06, "loss": 2.8234, "step": 4625 }, { "epoch": 1.24, "grad_norm": 15.41041374206543, "learning_rate": 9.658666666666668e-06, "loss": 2.8748, "step": 4650 }, { "epoch": 1.2466666666666666, "grad_norm": 16.559385299682617, "learning_rate": 9.649142857142858e-06, "loss": 2.8521, "step": 4675 }, { "epoch": 1.2533333333333334, "grad_norm": 17.43706512451172, "learning_rate": 9.639619047619049e-06, "loss": 2.818, "step": 4700 }, { "epoch": 1.26, "grad_norm": 18.602733612060547, "learning_rate": 9.630095238095238e-06, "loss": 2.774, "step": 4725 }, { "epoch": 1.2666666666666666, "grad_norm": 16.89970588684082, "learning_rate": 9.620571428571429e-06, "loss": 2.8309, "step": 4750 }, { "epoch": 1.2733333333333334, "grad_norm": 15.543070793151855, "learning_rate": 9.61104761904762e-06, "loss": 2.8626, "step": 4775 }, { "epoch": 1.28, "grad_norm": 16.7642765045166, "learning_rate": 9.60152380952381e-06, "loss": 2.8077, "step": 4800 }, { "epoch": 1.2866666666666666, "grad_norm": 16.84261703491211, "learning_rate": 9.592e-06, "loss": 2.7793, "step": 4825 }, { "epoch": 1.2933333333333334, "grad_norm": 15.863155364990234, "learning_rate": 9.582476190476191e-06, "loss": 2.7991, "step": 4850 }, { "epoch": 1.3, "grad_norm": 16.32493019104004, "learning_rate": 9.572952380952382e-06, "loss": 2.8647, "step": 4875 }, { "epoch": 1.3066666666666666, "grad_norm": 16.1169490814209, "learning_rate": 9.563428571428573e-06, "loss": 2.8024, "step": 4900 }, { "epoch": 1.3133333333333335, "grad_norm": 15.698304176330566, "learning_rate": 9.553904761904763e-06, "loss": 2.8291, "step": 4925 }, { "epoch": 1.32, "grad_norm": 16.78399658203125, "learning_rate": 9.544380952380952e-06, "loss": 2.8109, "step": 4950 }, { "epoch": 1.3266666666666667, "grad_norm": 15.595823287963867, "learning_rate": 9.534857142857143e-06, "loss": 2.7796, "step": 4975 }, { "epoch": 1.3333333333333333, "grad_norm": 15.49462890625, "learning_rate": 9.525333333333334e-06, "loss": 2.8492, "step": 5000 }, { "epoch": 1.34, "grad_norm": 16.262239456176758, "learning_rate": 9.515809523809524e-06, "loss": 2.7838, "step": 5025 }, { "epoch": 1.3466666666666667, "grad_norm": 16.063838958740234, "learning_rate": 9.506285714285715e-06, "loss": 2.7818, "step": 5050 }, { "epoch": 1.3533333333333333, "grad_norm": 15.840378761291504, "learning_rate": 9.496761904761905e-06, "loss": 2.8316, "step": 5075 }, { "epoch": 1.3599999999999999, "grad_norm": 16.031455993652344, "learning_rate": 9.487238095238096e-06, "loss": 2.7822, "step": 5100 }, { "epoch": 1.3666666666666667, "grad_norm": 14.828582763671875, "learning_rate": 9.477714285714287e-06, "loss": 2.7917, "step": 5125 }, { "epoch": 1.3733333333333333, "grad_norm": 15.370686531066895, "learning_rate": 9.468190476190477e-06, "loss": 2.7656, "step": 5150 }, { "epoch": 1.38, "grad_norm": 15.491660118103027, "learning_rate": 9.458666666666666e-06, "loss": 2.8148, "step": 5175 }, { "epoch": 1.3866666666666667, "grad_norm": 14.682394027709961, "learning_rate": 9.449142857142859e-06, "loss": 2.8132, "step": 5200 }, { "epoch": 1.3933333333333333, "grad_norm": 14.761981964111328, "learning_rate": 9.43961904761905e-06, "loss": 2.833, "step": 5225 }, { "epoch": 1.4, "grad_norm": 14.941573143005371, "learning_rate": 9.43009523809524e-06, "loss": 2.7797, "step": 5250 }, { "epoch": 1.4066666666666667, "grad_norm": 15.968378067016602, "learning_rate": 9.420571428571429e-06, "loss": 2.8002, "step": 5275 }, { "epoch": 1.4133333333333333, "grad_norm": 17.502164840698242, "learning_rate": 9.41104761904762e-06, "loss": 2.8625, "step": 5300 }, { "epoch": 1.42, "grad_norm": 15.159065246582031, "learning_rate": 9.40152380952381e-06, "loss": 2.9231, "step": 5325 }, { "epoch": 1.4266666666666667, "grad_norm": 16.222482681274414, "learning_rate": 9.392000000000001e-06, "loss": 2.8064, "step": 5350 }, { "epoch": 1.4333333333333333, "grad_norm": 15.661250114440918, "learning_rate": 9.382476190476192e-06, "loss": 2.8015, "step": 5375 }, { "epoch": 1.44, "grad_norm": 15.376479148864746, "learning_rate": 9.372952380952382e-06, "loss": 2.7789, "step": 5400 }, { "epoch": 1.4466666666666668, "grad_norm": 15.666557312011719, "learning_rate": 9.363428571428573e-06, "loss": 2.8137, "step": 5425 }, { "epoch": 1.4533333333333334, "grad_norm": 14.985384941101074, "learning_rate": 9.353904761904763e-06, "loss": 2.8204, "step": 5450 }, { "epoch": 1.46, "grad_norm": 15.255988121032715, "learning_rate": 9.344380952380954e-06, "loss": 2.8177, "step": 5475 }, { "epoch": 1.4666666666666668, "grad_norm": 15.279163360595703, "learning_rate": 9.334857142857143e-06, "loss": 2.7809, "step": 5500 }, { "epoch": 1.4733333333333334, "grad_norm": 15.758094787597656, "learning_rate": 9.325333333333334e-06, "loss": 2.7721, "step": 5525 }, { "epoch": 1.48, "grad_norm": 15.303472518920898, "learning_rate": 9.315809523809524e-06, "loss": 2.7369, "step": 5550 }, { "epoch": 1.4866666666666668, "grad_norm": 14.12653636932373, "learning_rate": 9.306666666666667e-06, "loss": 2.8046, "step": 5575 }, { "epoch": 1.4933333333333334, "grad_norm": 16.355955123901367, "learning_rate": 9.297142857142857e-06, "loss": 2.7826, "step": 5600 }, { "epoch": 1.5, "grad_norm": 15.703051567077637, "learning_rate": 9.287619047619048e-06, "loss": 2.764, "step": 5625 }, { "epoch": 1.5066666666666668, "grad_norm": 14.937501907348633, "learning_rate": 9.278095238095239e-06, "loss": 2.7853, "step": 5650 }, { "epoch": 1.5133333333333332, "grad_norm": 15.161550521850586, "learning_rate": 9.26857142857143e-06, "loss": 2.8154, "step": 5675 }, { "epoch": 1.52, "grad_norm": 13.784395217895508, "learning_rate": 9.25904761904762e-06, "loss": 2.8277, "step": 5700 }, { "epoch": 1.5266666666666666, "grad_norm": 16.851037979125977, "learning_rate": 9.24952380952381e-06, "loss": 2.7976, "step": 5725 }, { "epoch": 1.5333333333333332, "grad_norm": 15.013668060302734, "learning_rate": 9.240000000000001e-06, "loss": 2.7789, "step": 5750 }, { "epoch": 1.54, "grad_norm": 14.692750930786133, "learning_rate": 9.23047619047619e-06, "loss": 2.8157, "step": 5775 }, { "epoch": 1.5466666666666666, "grad_norm": 16.002431869506836, "learning_rate": 9.220952380952381e-06, "loss": 2.7956, "step": 5800 }, { "epoch": 1.5533333333333332, "grad_norm": 15.191936492919922, "learning_rate": 9.211428571428572e-06, "loss": 2.7354, "step": 5825 }, { "epoch": 1.56, "grad_norm": 16.137405395507812, "learning_rate": 9.201904761904762e-06, "loss": 2.7609, "step": 5850 }, { "epoch": 1.5666666666666667, "grad_norm": 15.041069030761719, "learning_rate": 9.192380952380953e-06, "loss": 2.7189, "step": 5875 }, { "epoch": 1.5733333333333333, "grad_norm": 15.292970657348633, "learning_rate": 9.182857142857144e-06, "loss": 2.726, "step": 5900 }, { "epoch": 1.58, "grad_norm": 16.371871948242188, "learning_rate": 9.173333333333334e-06, "loss": 2.72, "step": 5925 }, { "epoch": 1.5866666666666667, "grad_norm": 14.895946502685547, "learning_rate": 9.163809523809525e-06, "loss": 2.7343, "step": 5950 }, { "epoch": 1.5933333333333333, "grad_norm": 14.624077796936035, "learning_rate": 9.154285714285715e-06, "loss": 2.7201, "step": 5975 }, { "epoch": 1.6, "grad_norm": 13.526437759399414, "learning_rate": 9.144761904761904e-06, "loss": 2.7043, "step": 6000 }, { "epoch": 1.6066666666666667, "grad_norm": 15.214587211608887, "learning_rate": 9.135238095238095e-06, "loss": 2.7114, "step": 6025 }, { "epoch": 1.6133333333333333, "grad_norm": 15.652507781982422, "learning_rate": 9.125714285714287e-06, "loss": 2.7045, "step": 6050 }, { "epoch": 1.62, "grad_norm": 15.320863723754883, "learning_rate": 9.116190476190478e-06, "loss": 2.7613, "step": 6075 }, { "epoch": 1.6266666666666667, "grad_norm": 14.970831871032715, "learning_rate": 9.106666666666667e-06, "loss": 2.6921, "step": 6100 }, { "epoch": 1.6333333333333333, "grad_norm": 14.515832901000977, "learning_rate": 9.097142857142858e-06, "loss": 2.6593, "step": 6125 }, { "epoch": 1.6400000000000001, "grad_norm": 16.8050479888916, "learning_rate": 9.087619047619048e-06, "loss": 2.6954, "step": 6150 }, { "epoch": 1.6466666666666665, "grad_norm": 14.855195999145508, "learning_rate": 9.078095238095239e-06, "loss": 2.663, "step": 6175 }, { "epoch": 1.6533333333333333, "grad_norm": 16.569271087646484, "learning_rate": 9.06857142857143e-06, "loss": 2.7177, "step": 6200 }, { "epoch": 1.6600000000000001, "grad_norm": 16.916584014892578, "learning_rate": 9.05904761904762e-06, "loss": 2.6909, "step": 6225 }, { "epoch": 1.6666666666666665, "grad_norm": 16.045894622802734, "learning_rate": 9.049523809523811e-06, "loss": 2.6489, "step": 6250 }, { "epoch": 1.6733333333333333, "grad_norm": 15.664050102233887, "learning_rate": 9.040000000000002e-06, "loss": 2.6834, "step": 6275 }, { "epoch": 1.6800000000000002, "grad_norm": 16.403032302856445, "learning_rate": 9.030476190476192e-06, "loss": 2.6482, "step": 6300 }, { "epoch": 1.6866666666666665, "grad_norm": 15.071056365966797, "learning_rate": 9.020952380952381e-06, "loss": 2.7023, "step": 6325 }, { "epoch": 1.6933333333333334, "grad_norm": 16.039731979370117, "learning_rate": 9.011428571428572e-06, "loss": 2.6596, "step": 6350 }, { "epoch": 1.7, "grad_norm": 15.66250991821289, "learning_rate": 9.001904761904762e-06, "loss": 2.6826, "step": 6375 }, { "epoch": 1.7066666666666666, "grad_norm": 15.58034896850586, "learning_rate": 8.992380952380953e-06, "loss": 2.6642, "step": 6400 }, { "epoch": 1.7133333333333334, "grad_norm": 15.05388355255127, "learning_rate": 8.982857142857144e-06, "loss": 2.6539, "step": 6425 }, { "epoch": 1.72, "grad_norm": 15.941282272338867, "learning_rate": 8.973333333333334e-06, "loss": 2.6797, "step": 6450 }, { "epoch": 1.7266666666666666, "grad_norm": 15.509122848510742, "learning_rate": 8.963809523809525e-06, "loss": 2.601, "step": 6475 }, { "epoch": 1.7333333333333334, "grad_norm": 15.685277938842773, "learning_rate": 8.954285714285716e-06, "loss": 2.6114, "step": 6500 }, { "epoch": 1.74, "grad_norm": 15.550046920776367, "learning_rate": 8.944761904761905e-06, "loss": 2.5971, "step": 6525 }, { "epoch": 1.7466666666666666, "grad_norm": 17.410724639892578, "learning_rate": 8.935238095238095e-06, "loss": 2.5952, "step": 6550 }, { "epoch": 1.7533333333333334, "grad_norm": 21.167373657226562, "learning_rate": 8.925714285714286e-06, "loss": 2.6197, "step": 6575 }, { "epoch": 1.76, "grad_norm": 17.370641708374023, "learning_rate": 8.916190476190477e-06, "loss": 2.6445, "step": 6600 }, { "epoch": 1.7666666666666666, "grad_norm": 15.973102569580078, "learning_rate": 8.906666666666667e-06, "loss": 2.5955, "step": 6625 }, { "epoch": 1.7733333333333334, "grad_norm": 17.871570587158203, "learning_rate": 8.897142857142858e-06, "loss": 2.5929, "step": 6650 }, { "epoch": 1.78, "grad_norm": 19.134374618530273, "learning_rate": 8.887619047619049e-06, "loss": 2.6007, "step": 6675 }, { "epoch": 1.7866666666666666, "grad_norm": 17.541624069213867, "learning_rate": 8.87809523809524e-06, "loss": 2.5544, "step": 6700 }, { "epoch": 1.7933333333333334, "grad_norm": 17.06918716430664, "learning_rate": 8.86857142857143e-06, "loss": 2.5859, "step": 6725 }, { "epoch": 1.8, "grad_norm": 19.87891960144043, "learning_rate": 8.859047619047619e-06, "loss": 2.5388, "step": 6750 }, { "epoch": 1.8066666666666666, "grad_norm": 19.734249114990234, "learning_rate": 8.84952380952381e-06, "loss": 2.5038, "step": 6775 }, { "epoch": 1.8133333333333335, "grad_norm": 17.624277114868164, "learning_rate": 8.84e-06, "loss": 2.5568, "step": 6800 }, { "epoch": 1.8199999999999998, "grad_norm": 21.498424530029297, "learning_rate": 8.83047619047619e-06, "loss": 2.451, "step": 6825 }, { "epoch": 1.8266666666666667, "grad_norm": 20.936748504638672, "learning_rate": 8.820952380952381e-06, "loss": 2.4753, "step": 6850 }, { "epoch": 1.8333333333333335, "grad_norm": 18.459327697753906, "learning_rate": 8.811428571428572e-06, "loss": 2.4602, "step": 6875 }, { "epoch": 1.8399999999999999, "grad_norm": 20.695613861083984, "learning_rate": 8.801904761904763e-06, "loss": 2.4295, "step": 6900 }, { "epoch": 1.8466666666666667, "grad_norm": 20.679420471191406, "learning_rate": 8.792380952380953e-06, "loss": 2.4032, "step": 6925 }, { "epoch": 1.8533333333333335, "grad_norm": 26.248443603515625, "learning_rate": 8.782857142857144e-06, "loss": 2.3623, "step": 6950 }, { "epoch": 1.8599999999999999, "grad_norm": 21.446977615356445, "learning_rate": 8.773333333333333e-06, "loss": 2.2945, "step": 6975 }, { "epoch": 1.8666666666666667, "grad_norm": 21.89762306213379, "learning_rate": 8.763809523809525e-06, "loss": 2.2713, "step": 7000 }, { "epoch": 1.8733333333333333, "grad_norm": 19.259815216064453, "learning_rate": 8.754285714285716e-06, "loss": 2.2296, "step": 7025 }, { "epoch": 1.88, "grad_norm": 22.30799102783203, "learning_rate": 8.744761904761907e-06, "loss": 2.1756, "step": 7050 }, { "epoch": 1.8866666666666667, "grad_norm": 20.378265380859375, "learning_rate": 8.735238095238096e-06, "loss": 2.141, "step": 7075 }, { "epoch": 1.8933333333333333, "grad_norm": 21.271697998046875, "learning_rate": 8.725714285714286e-06, "loss": 2.1482, "step": 7100 }, { "epoch": 1.9, "grad_norm": 22.79062843322754, "learning_rate": 8.716190476190477e-06, "loss": 2.0361, "step": 7125 }, { "epoch": 1.9066666666666667, "grad_norm": 22.83106231689453, "learning_rate": 8.706666666666667e-06, "loss": 2.0958, "step": 7150 }, { "epoch": 1.9133333333333333, "grad_norm": 25.06936264038086, "learning_rate": 8.697142857142858e-06, "loss": 2.0034, "step": 7175 }, { "epoch": 1.92, "grad_norm": 22.417844772338867, "learning_rate": 8.687619047619049e-06, "loss": 1.9433, "step": 7200 }, { "epoch": 1.9266666666666667, "grad_norm": 25.733739852905273, "learning_rate": 8.67809523809524e-06, "loss": 1.9085, "step": 7225 }, { "epoch": 1.9333333333333333, "grad_norm": 24.351856231689453, "learning_rate": 8.66857142857143e-06, "loss": 1.9861, "step": 7250 }, { "epoch": 1.94, "grad_norm": 24.161588668823242, "learning_rate": 8.65904761904762e-06, "loss": 1.8781, "step": 7275 }, { "epoch": 1.9466666666666668, "grad_norm": 20.81451988220215, "learning_rate": 8.64952380952381e-06, "loss": 1.8516, "step": 7300 }, { "epoch": 1.9533333333333334, "grad_norm": 20.2042179107666, "learning_rate": 8.64e-06, "loss": 1.8246, "step": 7325 }, { "epoch": 1.96, "grad_norm": 23.346105575561523, "learning_rate": 8.630476190476191e-06, "loss": 1.7781, "step": 7350 }, { "epoch": 1.9666666666666668, "grad_norm": 21.258525848388672, "learning_rate": 8.620952380952382e-06, "loss": 1.7837, "step": 7375 }, { "epoch": 1.9733333333333334, "grad_norm": 22.178951263427734, "learning_rate": 8.611428571428572e-06, "loss": 1.8009, "step": 7400 }, { "epoch": 1.98, "grad_norm": 20.251590728759766, "learning_rate": 8.601904761904763e-06, "loss": 1.6948, "step": 7425 }, { "epoch": 1.9866666666666668, "grad_norm": 20.13874053955078, "learning_rate": 8.592380952380954e-06, "loss": 1.7138, "step": 7450 }, { "epoch": 1.9933333333333332, "grad_norm": 24.59872817993164, "learning_rate": 8.582857142857144e-06, "loss": 1.724, "step": 7475 }, { "epoch": 2.0, "grad_norm": 22.774494171142578, "learning_rate": 8.573333333333333e-06, "loss": 1.6561, "step": 7500 }, { "epoch": 2.0, "eval_cer": 85.20582151575573, "eval_loss": 1.6430472135543823, "eval_runtime": 1291.754, "eval_samples_per_second": 3.871, "eval_steps_per_second": 0.484, "step": 7500 }, { "epoch": 2.006666666666667, "grad_norm": 21.72251319885254, "learning_rate": 8.563809523809524e-06, "loss": 1.5521, "step": 7525 }, { "epoch": 2.013333333333333, "grad_norm": 24.857545852661133, "learning_rate": 8.554285714285714e-06, "loss": 1.5048, "step": 7550 }, { "epoch": 2.02, "grad_norm": 23.742414474487305, "learning_rate": 8.544761904761905e-06, "loss": 1.4929, "step": 7575 }, { "epoch": 2.026666666666667, "grad_norm": 20.280258178710938, "learning_rate": 8.535238095238096e-06, "loss": 1.5143, "step": 7600 }, { "epoch": 2.033333333333333, "grad_norm": 18.471202850341797, "learning_rate": 8.525714285714286e-06, "loss": 1.4439, "step": 7625 }, { "epoch": 2.04, "grad_norm": 20.669151306152344, "learning_rate": 8.516190476190477e-06, "loss": 1.4326, "step": 7650 }, { "epoch": 2.046666666666667, "grad_norm": 21.649410247802734, "learning_rate": 8.506666666666668e-06, "loss": 1.4183, "step": 7675 }, { "epoch": 2.0533333333333332, "grad_norm": 20.03469467163086, "learning_rate": 8.497142857142858e-06, "loss": 1.3939, "step": 7700 }, { "epoch": 2.06, "grad_norm": 18.327260971069336, "learning_rate": 8.487619047619047e-06, "loss": 1.4366, "step": 7725 }, { "epoch": 2.066666666666667, "grad_norm": 20.764211654663086, "learning_rate": 8.478095238095238e-06, "loss": 1.3813, "step": 7750 }, { "epoch": 2.0733333333333333, "grad_norm": 21.005420684814453, "learning_rate": 8.468571428571429e-06, "loss": 1.3773, "step": 7775 }, { "epoch": 2.08, "grad_norm": 19.39113426208496, "learning_rate": 8.459047619047621e-06, "loss": 1.3926, "step": 7800 }, { "epoch": 2.086666666666667, "grad_norm": 19.63152313232422, "learning_rate": 8.44952380952381e-06, "loss": 1.3411, "step": 7825 }, { "epoch": 2.0933333333333333, "grad_norm": 27.191076278686523, "learning_rate": 8.44e-06, "loss": 1.3435, "step": 7850 }, { "epoch": 2.1, "grad_norm": 22.037803649902344, "learning_rate": 8.430476190476191e-06, "loss": 1.3049, "step": 7875 }, { "epoch": 2.1066666666666665, "grad_norm": 17.387529373168945, "learning_rate": 8.420952380952382e-06, "loss": 1.3189, "step": 7900 }, { "epoch": 2.1133333333333333, "grad_norm": 20.002685546875, "learning_rate": 8.411428571428572e-06, "loss": 1.3441, "step": 7925 }, { "epoch": 2.12, "grad_norm": 21.194976806640625, "learning_rate": 8.401904761904761e-06, "loss": 1.297, "step": 7950 }, { "epoch": 2.1266666666666665, "grad_norm": 23.783538818359375, "learning_rate": 8.392380952380954e-06, "loss": 1.3094, "step": 7975 }, { "epoch": 2.1333333333333333, "grad_norm": 17.75897789001465, "learning_rate": 8.382857142857144e-06, "loss": 1.3079, "step": 8000 }, { "epoch": 2.14, "grad_norm": 19.98157501220703, "learning_rate": 8.373333333333335e-06, "loss": 1.2982, "step": 8025 }, { "epoch": 2.1466666666666665, "grad_norm": 19.64179229736328, "learning_rate": 8.363809523809524e-06, "loss": 1.2991, "step": 8050 }, { "epoch": 2.1533333333333333, "grad_norm": 19.64181137084961, "learning_rate": 8.354285714285715e-06, "loss": 1.2627, "step": 8075 }, { "epoch": 2.16, "grad_norm": 19.46495246887207, "learning_rate": 8.344761904761905e-06, "loss": 1.2232, "step": 8100 }, { "epoch": 2.1666666666666665, "grad_norm": 18.559446334838867, "learning_rate": 8.335238095238096e-06, "loss": 1.2437, "step": 8125 }, { "epoch": 2.1733333333333333, "grad_norm": 20.764720916748047, "learning_rate": 8.325714285714287e-06, "loss": 1.1861, "step": 8150 }, { "epoch": 2.18, "grad_norm": 17.579256057739258, "learning_rate": 8.316190476190477e-06, "loss": 1.211, "step": 8175 }, { "epoch": 2.1866666666666665, "grad_norm": 19.332504272460938, "learning_rate": 8.306666666666668e-06, "loss": 1.1416, "step": 8200 }, { "epoch": 2.1933333333333334, "grad_norm": 16.559499740600586, "learning_rate": 8.297142857142859e-06, "loss": 1.1602, "step": 8225 }, { "epoch": 2.2, "grad_norm": 24.26013946533203, "learning_rate": 8.28761904761905e-06, "loss": 1.1544, "step": 8250 }, { "epoch": 2.2066666666666666, "grad_norm": 19.228870391845703, "learning_rate": 8.278095238095238e-06, "loss": 1.1855, "step": 8275 }, { "epoch": 2.2133333333333334, "grad_norm": 18.647602081298828, "learning_rate": 8.268571428571429e-06, "loss": 1.1813, "step": 8300 }, { "epoch": 2.22, "grad_norm": 23.611543655395508, "learning_rate": 8.25904761904762e-06, "loss": 1.1737, "step": 8325 }, { "epoch": 2.2266666666666666, "grad_norm": 17.465181350708008, "learning_rate": 8.24952380952381e-06, "loss": 1.1235, "step": 8350 }, { "epoch": 2.2333333333333334, "grad_norm": 18.548580169677734, "learning_rate": 8.24e-06, "loss": 1.1738, "step": 8375 }, { "epoch": 2.24, "grad_norm": 17.74598503112793, "learning_rate": 8.230476190476191e-06, "loss": 1.1135, "step": 8400 }, { "epoch": 2.2466666666666666, "grad_norm": 16.659486770629883, "learning_rate": 8.220952380952382e-06, "loss": 1.1527, "step": 8425 }, { "epoch": 2.2533333333333334, "grad_norm": 19.308677673339844, "learning_rate": 8.211428571428573e-06, "loss": 1.1049, "step": 8450 }, { "epoch": 2.26, "grad_norm": 21.255720138549805, "learning_rate": 8.201904761904762e-06, "loss": 1.1592, "step": 8475 }, { "epoch": 2.2666666666666666, "grad_norm": 21.499372482299805, "learning_rate": 8.192380952380952e-06, "loss": 1.128, "step": 8500 }, { "epoch": 2.2733333333333334, "grad_norm": 15.15613079071045, "learning_rate": 8.182857142857143e-06, "loss": 1.0719, "step": 8525 }, { "epoch": 2.2800000000000002, "grad_norm": 26.03957176208496, "learning_rate": 8.173333333333334e-06, "loss": 1.0468, "step": 8550 }, { "epoch": 2.2866666666666666, "grad_norm": 19.44180679321289, "learning_rate": 8.163809523809524e-06, "loss": 1.0982, "step": 8575 }, { "epoch": 2.2933333333333334, "grad_norm": 17.035982131958008, "learning_rate": 8.154285714285715e-06, "loss": 1.0192, "step": 8600 }, { "epoch": 2.3, "grad_norm": 16.08663558959961, "learning_rate": 8.144761904761906e-06, "loss": 1.0695, "step": 8625 }, { "epoch": 2.3066666666666666, "grad_norm": 16.432701110839844, "learning_rate": 8.135238095238096e-06, "loss": 1.0477, "step": 8650 }, { "epoch": 2.3133333333333335, "grad_norm": 17.620851516723633, "learning_rate": 8.125714285714287e-06, "loss": 1.067, "step": 8675 }, { "epoch": 2.32, "grad_norm": 16.07837677001953, "learning_rate": 8.116190476190476e-06, "loss": 1.0353, "step": 8700 }, { "epoch": 2.3266666666666667, "grad_norm": 18.566041946411133, "learning_rate": 8.106666666666666e-06, "loss": 1.0356, "step": 8725 }, { "epoch": 2.3333333333333335, "grad_norm": 16.481660842895508, "learning_rate": 8.097142857142857e-06, "loss": 1.0434, "step": 8750 }, { "epoch": 2.34, "grad_norm": 19.292743682861328, "learning_rate": 8.08761904761905e-06, "loss": 1.0818, "step": 8775 }, { "epoch": 2.3466666666666667, "grad_norm": 16.750276565551758, "learning_rate": 8.078095238095238e-06, "loss": 1.0227, "step": 8800 }, { "epoch": 2.3533333333333335, "grad_norm": 17.977874755859375, "learning_rate": 8.068571428571429e-06, "loss": 1.0197, "step": 8825 }, { "epoch": 2.36, "grad_norm": 12.541670799255371, "learning_rate": 8.05904761904762e-06, "loss": 0.9321, "step": 8850 }, { "epoch": 2.3666666666666667, "grad_norm": 15.856850624084473, "learning_rate": 8.04952380952381e-06, "loss": 0.9868, "step": 8875 }, { "epoch": 2.3733333333333335, "grad_norm": 18.700733184814453, "learning_rate": 8.040000000000001e-06, "loss": 0.987, "step": 8900 }, { "epoch": 2.38, "grad_norm": 18.325159072875977, "learning_rate": 8.030476190476192e-06, "loss": 0.9587, "step": 8925 }, { "epoch": 2.3866666666666667, "grad_norm": 16.789459228515625, "learning_rate": 8.020952380952382e-06, "loss": 0.9676, "step": 8950 }, { "epoch": 2.3933333333333335, "grad_norm": 36.371524810791016, "learning_rate": 8.011428571428573e-06, "loss": 0.9658, "step": 8975 }, { "epoch": 2.4, "grad_norm": 13.31936264038086, "learning_rate": 8.001904761904764e-06, "loss": 0.9534, "step": 9000 }, { "epoch": 2.4066666666666667, "grad_norm": 19.60676383972168, "learning_rate": 7.992380952380952e-06, "loss": 0.9555, "step": 9025 }, { "epoch": 2.413333333333333, "grad_norm": 19.781579971313477, "learning_rate": 7.982857142857143e-06, "loss": 0.9623, "step": 9050 }, { "epoch": 2.42, "grad_norm": 21.647706985473633, "learning_rate": 7.973333333333334e-06, "loss": 0.9373, "step": 9075 }, { "epoch": 2.4266666666666667, "grad_norm": 15.396468162536621, "learning_rate": 7.963809523809524e-06, "loss": 0.9939, "step": 9100 }, { "epoch": 2.4333333333333336, "grad_norm": 17.388202667236328, "learning_rate": 7.954285714285715e-06, "loss": 0.9188, "step": 9125 }, { "epoch": 2.44, "grad_norm": 14.921174049377441, "learning_rate": 7.944761904761906e-06, "loss": 0.9327, "step": 9150 }, { "epoch": 2.4466666666666668, "grad_norm": 14.29991626739502, "learning_rate": 7.935238095238096e-06, "loss": 0.9467, "step": 9175 }, { "epoch": 2.453333333333333, "grad_norm": 13.538517951965332, "learning_rate": 7.925714285714287e-06, "loss": 0.9375, "step": 9200 }, { "epoch": 2.46, "grad_norm": 19.90230369567871, "learning_rate": 7.916190476190478e-06, "loss": 0.9452, "step": 9225 }, { "epoch": 2.466666666666667, "grad_norm": 20.52109146118164, "learning_rate": 7.906666666666667e-06, "loss": 0.9066, "step": 9250 }, { "epoch": 2.473333333333333, "grad_norm": 16.991846084594727, "learning_rate": 7.897142857142857e-06, "loss": 0.9738, "step": 9275 }, { "epoch": 2.48, "grad_norm": 16.660017013549805, "learning_rate": 7.887619047619048e-06, "loss": 0.9679, "step": 9300 }, { "epoch": 2.486666666666667, "grad_norm": 15.083931922912598, "learning_rate": 7.878095238095239e-06, "loss": 0.9257, "step": 9325 }, { "epoch": 2.493333333333333, "grad_norm": 16.560958862304688, "learning_rate": 7.86857142857143e-06, "loss": 0.9328, "step": 9350 }, { "epoch": 2.5, "grad_norm": 15.985716819763184, "learning_rate": 7.85904761904762e-06, "loss": 0.915, "step": 9375 }, { "epoch": 2.506666666666667, "grad_norm": 17.66083335876465, "learning_rate": 7.84952380952381e-06, "loss": 0.8828, "step": 9400 }, { "epoch": 2.513333333333333, "grad_norm": 14.97205924987793, "learning_rate": 7.840000000000001e-06, "loss": 0.9245, "step": 9425 }, { "epoch": 2.52, "grad_norm": 18.706052780151367, "learning_rate": 7.83047619047619e-06, "loss": 0.8524, "step": 9450 }, { "epoch": 2.5266666666666664, "grad_norm": 16.212459564208984, "learning_rate": 7.82095238095238e-06, "loss": 0.8586, "step": 9475 }, { "epoch": 2.533333333333333, "grad_norm": 24.34148597717285, "learning_rate": 7.811428571428571e-06, "loss": 0.8614, "step": 9500 }, { "epoch": 2.54, "grad_norm": 18.911888122558594, "learning_rate": 7.801904761904762e-06, "loss": 0.8959, "step": 9525 }, { "epoch": 2.546666666666667, "grad_norm": 18.964923858642578, "learning_rate": 7.792380952380953e-06, "loss": 0.8687, "step": 9550 }, { "epoch": 2.5533333333333332, "grad_norm": 20.443340301513672, "learning_rate": 7.782857142857143e-06, "loss": 0.9284, "step": 9575 }, { "epoch": 2.56, "grad_norm": 22.8977108001709, "learning_rate": 7.773333333333334e-06, "loss": 0.8521, "step": 9600 }, { "epoch": 2.5666666666666664, "grad_norm": 16.601375579833984, "learning_rate": 7.763809523809525e-06, "loss": 0.8617, "step": 9625 }, { "epoch": 2.5733333333333333, "grad_norm": 18.812374114990234, "learning_rate": 7.754285714285715e-06, "loss": 0.8362, "step": 9650 }, { "epoch": 2.58, "grad_norm": 15.763120651245117, "learning_rate": 7.744761904761904e-06, "loss": 0.9069, "step": 9675 }, { "epoch": 2.586666666666667, "grad_norm": 14.80455493927002, "learning_rate": 7.735238095238095e-06, "loss": 0.8381, "step": 9700 }, { "epoch": 2.5933333333333333, "grad_norm": 15.583468437194824, "learning_rate": 7.725714285714286e-06, "loss": 0.8232, "step": 9725 }, { "epoch": 2.6, "grad_norm": 16.805784225463867, "learning_rate": 7.716190476190478e-06, "loss": 0.8718, "step": 9750 }, { "epoch": 2.6066666666666665, "grad_norm": 17.254684448242188, "learning_rate": 7.70704761904762e-06, "loss": 0.8173, "step": 9775 }, { "epoch": 2.6133333333333333, "grad_norm": 17.339216232299805, "learning_rate": 7.697523809523811e-06, "loss": 0.8544, "step": 9800 }, { "epoch": 2.62, "grad_norm": 16.181737899780273, "learning_rate": 7.688000000000002e-06, "loss": 0.8496, "step": 9825 }, { "epoch": 2.626666666666667, "grad_norm": 23.451120376586914, "learning_rate": 7.67847619047619e-06, "loss": 0.8601, "step": 9850 }, { "epoch": 2.6333333333333333, "grad_norm": 17.556760787963867, "learning_rate": 7.668952380952381e-06, "loss": 0.8073, "step": 9875 }, { "epoch": 2.64, "grad_norm": 13.397366523742676, "learning_rate": 7.659428571428572e-06, "loss": 0.7708, "step": 9900 }, { "epoch": 2.6466666666666665, "grad_norm": 15.331355094909668, "learning_rate": 7.649904761904763e-06, "loss": 0.8678, "step": 9925 }, { "epoch": 2.6533333333333333, "grad_norm": 22.748388290405273, "learning_rate": 7.640380952380953e-06, "loss": 0.8321, "step": 9950 }, { "epoch": 2.66, "grad_norm": 14.289133071899414, "learning_rate": 7.630857142857144e-06, "loss": 0.8364, "step": 9975 }, { "epoch": 2.6666666666666665, "grad_norm": 14.232532501220703, "learning_rate": 7.621333333333334e-06, "loss": 0.8152, "step": 10000 }, { "epoch": 2.6733333333333333, "grad_norm": 18.901473999023438, "learning_rate": 7.611809523809524e-06, "loss": 0.8256, "step": 10025 }, { "epoch": 2.68, "grad_norm": 14.100142478942871, "learning_rate": 7.602285714285716e-06, "loss": 0.8257, "step": 10050 }, { "epoch": 2.6866666666666665, "grad_norm": 23.852811813354492, "learning_rate": 7.592761904761905e-06, "loss": 0.804, "step": 10075 }, { "epoch": 2.6933333333333334, "grad_norm": 14.610326766967773, "learning_rate": 7.583238095238095e-06, "loss": 0.8265, "step": 10100 }, { "epoch": 2.7, "grad_norm": 16.519493103027344, "learning_rate": 7.573714285714287e-06, "loss": 0.7969, "step": 10125 }, { "epoch": 2.7066666666666666, "grad_norm": 13.103989601135254, "learning_rate": 7.5641904761904775e-06, "loss": 0.7824, "step": 10150 }, { "epoch": 2.7133333333333334, "grad_norm": 16.233348846435547, "learning_rate": 7.5546666666666664e-06, "loss": 0.7781, "step": 10175 }, { "epoch": 2.7199999999999998, "grad_norm": 14.265790939331055, "learning_rate": 7.545142857142858e-06, "loss": 0.8042, "step": 10200 }, { "epoch": 2.7266666666666666, "grad_norm": 15.835118293762207, "learning_rate": 7.535619047619049e-06, "loss": 0.778, "step": 10225 }, { "epoch": 2.7333333333333334, "grad_norm": 11.902713775634766, "learning_rate": 7.526095238095239e-06, "loss": 0.774, "step": 10250 }, { "epoch": 2.74, "grad_norm": 14.61591911315918, "learning_rate": 7.51657142857143e-06, "loss": 0.7286, "step": 10275 }, { "epoch": 2.7466666666666666, "grad_norm": 13.630928993225098, "learning_rate": 7.50704761904762e-06, "loss": 0.788, "step": 10300 }, { "epoch": 2.7533333333333334, "grad_norm": 12.521477699279785, "learning_rate": 7.49752380952381e-06, "loss": 0.7951, "step": 10325 }, { "epoch": 2.76, "grad_norm": 14.075329780578613, "learning_rate": 7.488000000000001e-06, "loss": 0.7652, "step": 10350 }, { "epoch": 2.7666666666666666, "grad_norm": 16.04081916809082, "learning_rate": 7.478476190476192e-06, "loss": 0.8195, "step": 10375 }, { "epoch": 2.7733333333333334, "grad_norm": 15.245556831359863, "learning_rate": 7.4689523809523814e-06, "loss": 0.7909, "step": 10400 }, { "epoch": 2.7800000000000002, "grad_norm": 12.039647102355957, "learning_rate": 7.459428571428572e-06, "loss": 0.759, "step": 10425 }, { "epoch": 2.7866666666666666, "grad_norm": 17.73645782470703, "learning_rate": 7.449904761904763e-06, "loss": 0.7309, "step": 10450 }, { "epoch": 2.7933333333333334, "grad_norm": 14.004542350769043, "learning_rate": 7.440380952380953e-06, "loss": 0.7602, "step": 10475 }, { "epoch": 2.8, "grad_norm": 21.14010238647461, "learning_rate": 7.430857142857143e-06, "loss": 0.7763, "step": 10500 }, { "epoch": 2.8066666666666666, "grad_norm": 12.930566787719727, "learning_rate": 7.421333333333334e-06, "loss": 0.7934, "step": 10525 }, { "epoch": 2.8133333333333335, "grad_norm": 16.246450424194336, "learning_rate": 7.4118095238095245e-06, "loss": 0.8018, "step": 10550 }, { "epoch": 2.82, "grad_norm": 13.830098152160645, "learning_rate": 7.402285714285715e-06, "loss": 0.7506, "step": 10575 }, { "epoch": 2.8266666666666667, "grad_norm": 14.244074821472168, "learning_rate": 7.392761904761906e-06, "loss": 0.721, "step": 10600 }, { "epoch": 2.8333333333333335, "grad_norm": 15.578310012817383, "learning_rate": 7.3832380952380956e-06, "loss": 0.7496, "step": 10625 }, { "epoch": 2.84, "grad_norm": 12.770796775817871, "learning_rate": 7.373714285714286e-06, "loss": 0.7456, "step": 10650 }, { "epoch": 2.8466666666666667, "grad_norm": 11.505680084228516, "learning_rate": 7.364190476190477e-06, "loss": 0.7252, "step": 10675 }, { "epoch": 2.8533333333333335, "grad_norm": 12.899063110351562, "learning_rate": 7.3546666666666675e-06, "loss": 0.7547, "step": 10700 }, { "epoch": 2.86, "grad_norm": 14.14664077758789, "learning_rate": 7.345142857142857e-06, "loss": 0.7067, "step": 10725 }, { "epoch": 2.8666666666666667, "grad_norm": 14.525100708007812, "learning_rate": 7.335619047619048e-06, "loss": 0.7731, "step": 10750 }, { "epoch": 2.873333333333333, "grad_norm": 14.24284553527832, "learning_rate": 7.326095238095239e-06, "loss": 0.7254, "step": 10775 }, { "epoch": 2.88, "grad_norm": 36.18721389770508, "learning_rate": 7.316571428571429e-06, "loss": 0.7324, "step": 10800 }, { "epoch": 2.8866666666666667, "grad_norm": 14.527095794677734, "learning_rate": 7.307047619047619e-06, "loss": 0.6897, "step": 10825 }, { "epoch": 2.8933333333333335, "grad_norm": 13.494621276855469, "learning_rate": 7.29752380952381e-06, "loss": 0.7254, "step": 10850 }, { "epoch": 2.9, "grad_norm": 15.90636920928955, "learning_rate": 7.288e-06, "loss": 0.744, "step": 10875 }, { "epoch": 2.9066666666666667, "grad_norm": 13.090533256530762, "learning_rate": 7.278476190476191e-06, "loss": 0.7289, "step": 10900 }, { "epoch": 2.913333333333333, "grad_norm": 13.988637924194336, "learning_rate": 7.2689523809523825e-06, "loss": 0.7299, "step": 10925 }, { "epoch": 2.92, "grad_norm": 11.810433387756348, "learning_rate": 7.2594285714285715e-06, "loss": 0.6893, "step": 10950 }, { "epoch": 2.9266666666666667, "grad_norm": 13.123891830444336, "learning_rate": 7.249904761904762e-06, "loss": 0.7279, "step": 10975 }, { "epoch": 2.9333333333333336, "grad_norm": 11.19420337677002, "learning_rate": 7.240380952380954e-06, "loss": 0.7008, "step": 11000 }, { "epoch": 2.94, "grad_norm": 14.414654731750488, "learning_rate": 7.230857142857144e-06, "loss": 0.6872, "step": 11025 }, { "epoch": 2.9466666666666668, "grad_norm": 12.047042846679688, "learning_rate": 7.221333333333333e-06, "loss": 0.7461, "step": 11050 }, { "epoch": 2.953333333333333, "grad_norm": 13.584476470947266, "learning_rate": 7.211809523809524e-06, "loss": 0.7226, "step": 11075 }, { "epoch": 2.96, "grad_norm": 12.409360885620117, "learning_rate": 7.202285714285715e-06, "loss": 0.741, "step": 11100 }, { "epoch": 2.966666666666667, "grad_norm": 13.979641914367676, "learning_rate": 7.192761904761906e-06, "loss": 0.7314, "step": 11125 }, { "epoch": 2.9733333333333336, "grad_norm": 14.536526679992676, "learning_rate": 7.183238095238095e-06, "loss": 0.7159, "step": 11150 }, { "epoch": 2.98, "grad_norm": 13.338594436645508, "learning_rate": 7.1737142857142864e-06, "loss": 0.7088, "step": 11175 }, { "epoch": 2.986666666666667, "grad_norm": 12.788614273071289, "learning_rate": 7.164190476190477e-06, "loss": 0.6995, "step": 11200 }, { "epoch": 2.993333333333333, "grad_norm": 13.434025764465332, "learning_rate": 7.154666666666668e-06, "loss": 0.7147, "step": 11225 }, { "epoch": 3.0, "grad_norm": 13.347412109375, "learning_rate": 7.145142857142858e-06, "loss": 0.6747, "step": 11250 }, { "epoch": 3.0, "eval_cer": 43.907347706986194, "eval_loss": 0.7232913970947266, "eval_runtime": 1261.505, "eval_samples_per_second": 3.964, "eval_steps_per_second": 0.495, "step": 11250 }, { "epoch": 3.006666666666667, "grad_norm": 10.932097434997559, "learning_rate": 7.135619047619048e-06, "loss": 0.5704, "step": 11275 }, { "epoch": 3.013333333333333, "grad_norm": 23.27174949645996, "learning_rate": 7.126095238095239e-06, "loss": 0.5769, "step": 11300 }, { "epoch": 3.02, "grad_norm": 12.363672256469727, "learning_rate": 7.1165714285714295e-06, "loss": 0.6197, "step": 11325 }, { "epoch": 3.026666666666667, "grad_norm": 12.380434036254883, "learning_rate": 7.10704761904762e-06, "loss": 0.5568, "step": 11350 }, { "epoch": 3.033333333333333, "grad_norm": 13.766298294067383, "learning_rate": 7.09752380952381e-06, "loss": 0.5933, "step": 11375 }, { "epoch": 3.04, "grad_norm": 13.553096771240234, "learning_rate": 7.088000000000001e-06, "loss": 0.5799, "step": 11400 }, { "epoch": 3.046666666666667, "grad_norm": 12.548795700073242, "learning_rate": 7.078476190476191e-06, "loss": 0.5507, "step": 11425 }, { "epoch": 3.0533333333333332, "grad_norm": 11.907742500305176, "learning_rate": 7.068952380952382e-06, "loss": 0.5613, "step": 11450 }, { "epoch": 3.06, "grad_norm": 12.945084571838379, "learning_rate": 7.059428571428572e-06, "loss": 0.5787, "step": 11475 }, { "epoch": 3.066666666666667, "grad_norm": 14.367377281188965, "learning_rate": 7.049904761904762e-06, "loss": 0.5677, "step": 11500 }, { "epoch": 3.0733333333333333, "grad_norm": 11.337150573730469, "learning_rate": 7.040380952380953e-06, "loss": 0.5532, "step": 11525 }, { "epoch": 3.08, "grad_norm": 13.593541145324707, "learning_rate": 7.030857142857144e-06, "loss": 0.5492, "step": 11550 }, { "epoch": 3.086666666666667, "grad_norm": 10.055680274963379, "learning_rate": 7.021333333333334e-06, "loss": 0.5865, "step": 11575 }, { "epoch": 3.0933333333333333, "grad_norm": 11.944361686706543, "learning_rate": 7.011809523809524e-06, "loss": 0.5468, "step": 11600 }, { "epoch": 3.1, "grad_norm": 13.907061576843262, "learning_rate": 7.002285714285715e-06, "loss": 0.5504, "step": 11625 }, { "epoch": 3.1066666666666665, "grad_norm": 14.123797416687012, "learning_rate": 6.992761904761905e-06, "loss": 0.5492, "step": 11650 }, { "epoch": 3.1133333333333333, "grad_norm": 13.510729789733887, "learning_rate": 6.983238095238096e-06, "loss": 0.5583, "step": 11675 }, { "epoch": 3.12, "grad_norm": 13.51006031036377, "learning_rate": 6.973714285714286e-06, "loss": 0.5617, "step": 11700 }, { "epoch": 3.1266666666666665, "grad_norm": 13.439215660095215, "learning_rate": 6.9641904761904765e-06, "loss": 0.6103, "step": 11725 }, { "epoch": 3.1333333333333333, "grad_norm": 11.902543067932129, "learning_rate": 6.954666666666667e-06, "loss": 0.5653, "step": 11750 }, { "epoch": 3.14, "grad_norm": 12.016777038574219, "learning_rate": 6.945142857142858e-06, "loss": 0.5509, "step": 11775 }, { "epoch": 3.1466666666666665, "grad_norm": 34.347877502441406, "learning_rate": 6.9356190476190476e-06, "loss": 0.5588, "step": 11800 }, { "epoch": 3.1533333333333333, "grad_norm": 11.136969566345215, "learning_rate": 6.926095238095238e-06, "loss": 0.5664, "step": 11825 }, { "epoch": 3.16, "grad_norm": 11.413399696350098, "learning_rate": 6.916571428571429e-06, "loss": 0.555, "step": 11850 }, { "epoch": 3.1666666666666665, "grad_norm": 12.507035255432129, "learning_rate": 6.9070476190476195e-06, "loss": 0.5678, "step": 11875 }, { "epoch": 3.1733333333333333, "grad_norm": 11.85084056854248, "learning_rate": 6.897523809523811e-06, "loss": 0.5321, "step": 11900 }, { "epoch": 3.18, "grad_norm": 13.369975090026855, "learning_rate": 6.888e-06, "loss": 0.5406, "step": 11925 }, { "epoch": 3.1866666666666665, "grad_norm": 13.31795883178711, "learning_rate": 6.878476190476191e-06, "loss": 0.5596, "step": 11950 }, { "epoch": 3.1933333333333334, "grad_norm": 10.989060401916504, "learning_rate": 6.868952380952382e-06, "loss": 0.5254, "step": 11975 }, { "epoch": 3.2, "grad_norm": 10.762794494628906, "learning_rate": 6.859428571428573e-06, "loss": 0.5777, "step": 12000 }, { "epoch": 3.2066666666666666, "grad_norm": 9.50446605682373, "learning_rate": 6.849904761904762e-06, "loss": 0.5715, "step": 12025 }, { "epoch": 3.2133333333333334, "grad_norm": 11.490256309509277, "learning_rate": 6.840380952380953e-06, "loss": 0.5705, "step": 12050 }, { "epoch": 3.22, "grad_norm": 11.831136703491211, "learning_rate": 6.830857142857144e-06, "loss": 0.5495, "step": 12075 }, { "epoch": 3.2266666666666666, "grad_norm": 13.110748291015625, "learning_rate": 6.8213333333333345e-06, "loss": 0.5425, "step": 12100 }, { "epoch": 3.2333333333333334, "grad_norm": 9.745580673217773, "learning_rate": 6.811809523809524e-06, "loss": 0.5554, "step": 12125 }, { "epoch": 3.24, "grad_norm": 15.12016773223877, "learning_rate": 6.802285714285715e-06, "loss": 0.5716, "step": 12150 }, { "epoch": 3.2466666666666666, "grad_norm": 10.956692695617676, "learning_rate": 6.792761904761906e-06, "loss": 0.541, "step": 12175 }, { "epoch": 3.2533333333333334, "grad_norm": 11.631577491760254, "learning_rate": 6.783238095238096e-06, "loss": 0.5504, "step": 12200 }, { "epoch": 3.26, "grad_norm": 12.644004821777344, "learning_rate": 6.773714285714287e-06, "loss": 0.5182, "step": 12225 }, { "epoch": 3.2666666666666666, "grad_norm": 11.689079284667969, "learning_rate": 6.764190476190477e-06, "loss": 0.5606, "step": 12250 }, { "epoch": 3.2733333333333334, "grad_norm": 10.723401069641113, "learning_rate": 6.754666666666667e-06, "loss": 0.5584, "step": 12275 }, { "epoch": 3.2800000000000002, "grad_norm": 11.894420623779297, "learning_rate": 6.745142857142858e-06, "loss": 0.5621, "step": 12300 }, { "epoch": 3.2866666666666666, "grad_norm": 10.916996955871582, "learning_rate": 6.735619047619049e-06, "loss": 0.532, "step": 12325 }, { "epoch": 3.2933333333333334, "grad_norm": 12.169909477233887, "learning_rate": 6.7260952380952384e-06, "loss": 0.53, "step": 12350 }, { "epoch": 3.3, "grad_norm": 12.034927368164062, "learning_rate": 6.716571428571429e-06, "loss": 0.5134, "step": 12375 }, { "epoch": 3.3066666666666666, "grad_norm": 13.085915565490723, "learning_rate": 6.70704761904762e-06, "loss": 0.543, "step": 12400 }, { "epoch": 3.3133333333333335, "grad_norm": 9.608105659484863, "learning_rate": 6.69752380952381e-06, "loss": 0.536, "step": 12425 }, { "epoch": 3.32, "grad_norm": 11.812207221984863, "learning_rate": 6.688e-06, "loss": 0.5241, "step": 12450 }, { "epoch": 3.3266666666666667, "grad_norm": 11.860315322875977, "learning_rate": 6.678476190476191e-06, "loss": 0.5448, "step": 12475 }, { "epoch": 3.3333333333333335, "grad_norm": 13.083221435546875, "learning_rate": 6.6689523809523815e-06, "loss": 0.5246, "step": 12500 }, { "epoch": 3.34, "grad_norm": 11.197969436645508, "learning_rate": 6.659428571428572e-06, "loss": 0.5247, "step": 12525 }, { "epoch": 3.3466666666666667, "grad_norm": 11.330422401428223, "learning_rate": 6.649904761904763e-06, "loss": 0.4951, "step": 12550 }, { "epoch": 3.3533333333333335, "grad_norm": 11.400931358337402, "learning_rate": 6.6403809523809526e-06, "loss": 0.5143, "step": 12575 }, { "epoch": 3.36, "grad_norm": 15.868789672851562, "learning_rate": 6.630857142857143e-06, "loss": 0.5361, "step": 12600 }, { "epoch": 3.3666666666666667, "grad_norm": 11.142887115478516, "learning_rate": 6.621333333333334e-06, "loss": 0.5195, "step": 12625 }, { "epoch": 3.3733333333333335, "grad_norm": 14.552379608154297, "learning_rate": 6.6118095238095245e-06, "loss": 0.5345, "step": 12650 }, { "epoch": 3.38, "grad_norm": 10.292083740234375, "learning_rate": 6.602285714285714e-06, "loss": 0.495, "step": 12675 }, { "epoch": 3.3866666666666667, "grad_norm": 11.48479175567627, "learning_rate": 6.592761904761905e-06, "loss": 0.521, "step": 12700 }, { "epoch": 3.3933333333333335, "grad_norm": 10.349550247192383, "learning_rate": 6.583238095238096e-06, "loss": 0.5652, "step": 12725 }, { "epoch": 3.4, "grad_norm": 11.152642250061035, "learning_rate": 6.573714285714286e-06, "loss": 0.5156, "step": 12750 }, { "epoch": 3.4066666666666667, "grad_norm": 11.198227882385254, "learning_rate": 6.564190476190476e-06, "loss": 0.507, "step": 12775 }, { "epoch": 3.413333333333333, "grad_norm": 14.284601211547852, "learning_rate": 6.55504761904762e-06, "loss": 0.5406, "step": 12800 }, { "epoch": 3.42, "grad_norm": 11.75892448425293, "learning_rate": 6.545523809523811e-06, "loss": 0.5071, "step": 12825 }, { "epoch": 3.4266666666666667, "grad_norm": 11.717904090881348, "learning_rate": 6.536e-06, "loss": 0.5075, "step": 12850 }, { "epoch": 3.4333333333333336, "grad_norm": 10.479820251464844, "learning_rate": 6.526476190476191e-06, "loss": 0.5224, "step": 12875 }, { "epoch": 3.44, "grad_norm": 10.502706527709961, "learning_rate": 6.516952380952382e-06, "loss": 0.5349, "step": 12900 }, { "epoch": 3.4466666666666668, "grad_norm": 10.940844535827637, "learning_rate": 6.5074285714285726e-06, "loss": 0.5182, "step": 12925 }, { "epoch": 3.453333333333333, "grad_norm": 11.730142593383789, "learning_rate": 6.497904761904762e-06, "loss": 0.5174, "step": 12950 }, { "epoch": 3.46, "grad_norm": 11.502971649169922, "learning_rate": 6.488380952380953e-06, "loss": 0.5076, "step": 12975 }, { "epoch": 3.466666666666667, "grad_norm": 10.579625129699707, "learning_rate": 6.478857142857144e-06, "loss": 0.4995, "step": 13000 }, { "epoch": 3.473333333333333, "grad_norm": 14.331236839294434, "learning_rate": 6.469333333333334e-06, "loss": 0.5019, "step": 13025 }, { "epoch": 3.48, "grad_norm": 15.147961616516113, "learning_rate": 6.459809523809525e-06, "loss": 0.5331, "step": 13050 }, { "epoch": 3.486666666666667, "grad_norm": 11.135954856872559, "learning_rate": 6.450285714285715e-06, "loss": 0.5133, "step": 13075 }, { "epoch": 3.493333333333333, "grad_norm": 11.029053688049316, "learning_rate": 6.440761904761905e-06, "loss": 0.5043, "step": 13100 }, { "epoch": 3.5, "grad_norm": 13.372457504272461, "learning_rate": 6.431238095238096e-06, "loss": 0.5215, "step": 13125 }, { "epoch": 3.506666666666667, "grad_norm": 12.920971870422363, "learning_rate": 6.421714285714287e-06, "loss": 0.5409, "step": 13150 }, { "epoch": 3.513333333333333, "grad_norm": 12.396445274353027, "learning_rate": 6.4121904761904765e-06, "loss": 0.5121, "step": 13175 }, { "epoch": 3.52, "grad_norm": 14.535351753234863, "learning_rate": 6.402666666666667e-06, "loss": 0.5263, "step": 13200 }, { "epoch": 3.5266666666666664, "grad_norm": 11.163121223449707, "learning_rate": 6.393142857142858e-06, "loss": 0.4883, "step": 13225 }, { "epoch": 3.533333333333333, "grad_norm": 12.310348510742188, "learning_rate": 6.3836190476190484e-06, "loss": 0.5027, "step": 13250 }, { "epoch": 3.54, "grad_norm": 13.119027137756348, "learning_rate": 6.374095238095238e-06, "loss": 0.5299, "step": 13275 }, { "epoch": 3.546666666666667, "grad_norm": 13.820847511291504, "learning_rate": 6.364571428571429e-06, "loss": 0.486, "step": 13300 }, { "epoch": 3.5533333333333332, "grad_norm": 12.355692863464355, "learning_rate": 6.3550476190476195e-06, "loss": 0.5124, "step": 13325 }, { "epoch": 3.56, "grad_norm": 10.519250869750977, "learning_rate": 6.34552380952381e-06, "loss": 0.4806, "step": 13350 }, { "epoch": 3.5666666666666664, "grad_norm": 10.427045822143555, "learning_rate": 6.336000000000001e-06, "loss": 0.5154, "step": 13375 }, { "epoch": 3.5733333333333333, "grad_norm": 12.476083755493164, "learning_rate": 6.326476190476191e-06, "loss": 0.4707, "step": 13400 }, { "epoch": 3.58, "grad_norm": 11.014037132263184, "learning_rate": 6.316952380952381e-06, "loss": 0.5078, "step": 13425 }, { "epoch": 3.586666666666667, "grad_norm": 10.495945930480957, "learning_rate": 6.307428571428572e-06, "loss": 0.4907, "step": 13450 }, { "epoch": 3.5933333333333333, "grad_norm": 11.77230453491211, "learning_rate": 6.297904761904763e-06, "loss": 0.5098, "step": 13475 }, { "epoch": 3.6, "grad_norm": 10.596220970153809, "learning_rate": 6.288380952380952e-06, "loss": 0.5193, "step": 13500 }, { "epoch": 3.6066666666666665, "grad_norm": 12.374215126037598, "learning_rate": 6.278857142857143e-06, "loss": 0.4922, "step": 13525 }, { "epoch": 3.6133333333333333, "grad_norm": 11.395530700683594, "learning_rate": 6.269333333333334e-06, "loss": 0.514, "step": 13550 }, { "epoch": 3.62, "grad_norm": 10.823199272155762, "learning_rate": 6.259809523809524e-06, "loss": 0.4819, "step": 13575 }, { "epoch": 3.626666666666667, "grad_norm": 12.32775592803955, "learning_rate": 6.250285714285714e-06, "loss": 0.4897, "step": 13600 }, { "epoch": 3.6333333333333333, "grad_norm": 12.072946548461914, "learning_rate": 6.240761904761905e-06, "loss": 0.4899, "step": 13625 }, { "epoch": 3.64, "grad_norm": 13.337030410766602, "learning_rate": 6.231238095238095e-06, "loss": 0.5288, "step": 13650 }, { "epoch": 3.6466666666666665, "grad_norm": 10.64185619354248, "learning_rate": 6.221714285714286e-06, "loss": 0.5094, "step": 13675 }, { "epoch": 3.6533333333333333, "grad_norm": 11.200193405151367, "learning_rate": 6.2121904761904776e-06, "loss": 0.5017, "step": 13700 }, { "epoch": 3.66, "grad_norm": 13.038727760314941, "learning_rate": 6.2026666666666665e-06, "loss": 0.5039, "step": 13725 }, { "epoch": 3.6666666666666665, "grad_norm": 12.320549011230469, "learning_rate": 6.193142857142857e-06, "loss": 0.4907, "step": 13750 }, { "epoch": 3.6733333333333333, "grad_norm": 10.324662208557129, "learning_rate": 6.183619047619049e-06, "loss": 0.4969, "step": 13775 }, { "epoch": 3.68, "grad_norm": 11.40976333618164, "learning_rate": 6.174095238095239e-06, "loss": 0.4982, "step": 13800 }, { "epoch": 3.6866666666666665, "grad_norm": 10.542742729187012, "learning_rate": 6.164571428571428e-06, "loss": 0.4791, "step": 13825 }, { "epoch": 3.6933333333333334, "grad_norm": 11.336045265197754, "learning_rate": 6.15504761904762e-06, "loss": 0.4948, "step": 13850 }, { "epoch": 3.7, "grad_norm": 12.214569091796875, "learning_rate": 6.14552380952381e-06, "loss": 0.4778, "step": 13875 }, { "epoch": 3.7066666666666666, "grad_norm": 10.73265266418457, "learning_rate": 6.136000000000001e-06, "loss": 0.4897, "step": 13900 }, { "epoch": 3.7133333333333334, "grad_norm": 11.6783447265625, "learning_rate": 6.126476190476191e-06, "loss": 0.4874, "step": 13925 }, { "epoch": 3.7199999999999998, "grad_norm": 8.937400817871094, "learning_rate": 6.1169523809523815e-06, "loss": 0.4621, "step": 13950 }, { "epoch": 3.7266666666666666, "grad_norm": 12.113076210021973, "learning_rate": 6.107428571428572e-06, "loss": 0.4686, "step": 13975 }, { "epoch": 3.7333333333333334, "grad_norm": 15.019814491271973, "learning_rate": 6.097904761904763e-06, "loss": 0.481, "step": 14000 }, { "epoch": 3.74, "grad_norm": 12.371440887451172, "learning_rate": 6.0883809523809534e-06, "loss": 0.4915, "step": 14025 }, { "epoch": 3.7466666666666666, "grad_norm": 10.398106575012207, "learning_rate": 6.078857142857143e-06, "loss": 0.5042, "step": 14050 }, { "epoch": 3.7533333333333334, "grad_norm": 11.10268497467041, "learning_rate": 6.069333333333334e-06, "loss": 0.4763, "step": 14075 }, { "epoch": 3.76, "grad_norm": 10.485678672790527, "learning_rate": 6.0598095238095245e-06, "loss": 0.4797, "step": 14100 }, { "epoch": 3.7666666666666666, "grad_norm": 12.032885551452637, "learning_rate": 6.050285714285715e-06, "loss": 0.4591, "step": 14125 }, { "epoch": 3.7733333333333334, "grad_norm": 12.153024673461914, "learning_rate": 6.040761904761905e-06, "loss": 0.4944, "step": 14150 }, { "epoch": 3.7800000000000002, "grad_norm": 9.65706729888916, "learning_rate": 6.031238095238096e-06, "loss": 0.4769, "step": 14175 }, { "epoch": 3.7866666666666666, "grad_norm": 11.248978614807129, "learning_rate": 6.021714285714286e-06, "loss": 0.4717, "step": 14200 }, { "epoch": 3.7933333333333334, "grad_norm": 12.238466262817383, "learning_rate": 6.012190476190477e-06, "loss": 0.4792, "step": 14225 }, { "epoch": 3.8, "grad_norm": 13.040369033813477, "learning_rate": 6.002666666666667e-06, "loss": 0.4728, "step": 14250 }, { "epoch": 3.8066666666666666, "grad_norm": 11.722098350524902, "learning_rate": 5.993142857142857e-06, "loss": 0.5055, "step": 14275 }, { "epoch": 3.8133333333333335, "grad_norm": 10.523857116699219, "learning_rate": 5.983619047619048e-06, "loss": 0.4793, "step": 14300 }, { "epoch": 3.82, "grad_norm": 15.409428596496582, "learning_rate": 5.974095238095239e-06, "loss": 0.5128, "step": 14325 }, { "epoch": 3.8266666666666667, "grad_norm": 11.067243576049805, "learning_rate": 5.964571428571429e-06, "loss": 0.4821, "step": 14350 }, { "epoch": 3.8333333333333335, "grad_norm": 9.8215970993042, "learning_rate": 5.955047619047619e-06, "loss": 0.47, "step": 14375 }, { "epoch": 3.84, "grad_norm": 11.842226028442383, "learning_rate": 5.94552380952381e-06, "loss": 0.4898, "step": 14400 }, { "epoch": 3.8466666666666667, "grad_norm": 12.511898040771484, "learning_rate": 5.9360000000000004e-06, "loss": 0.4527, "step": 14425 }, { "epoch": 3.8533333333333335, "grad_norm": 11.72033977508545, "learning_rate": 5.926476190476191e-06, "loss": 0.5078, "step": 14450 }, { "epoch": 3.86, "grad_norm": 9.815460205078125, "learning_rate": 5.916952380952381e-06, "loss": 0.4786, "step": 14475 }, { "epoch": 3.8666666666666667, "grad_norm": 10.460406303405762, "learning_rate": 5.9074285714285715e-06, "loss": 0.4909, "step": 14500 }, { "epoch": 3.873333333333333, "grad_norm": 11.34770679473877, "learning_rate": 5.897904761904762e-06, "loss": 0.461, "step": 14525 }, { "epoch": 3.88, "grad_norm": 12.759461402893066, "learning_rate": 5.888380952380953e-06, "loss": 0.4795, "step": 14550 }, { "epoch": 3.8866666666666667, "grad_norm": 14.732769012451172, "learning_rate": 5.878857142857143e-06, "loss": 0.4531, "step": 14575 }, { "epoch": 3.8933333333333335, "grad_norm": 16.737995147705078, "learning_rate": 5.869333333333333e-06, "loss": 0.5104, "step": 14600 }, { "epoch": 3.9, "grad_norm": 11.765470504760742, "learning_rate": 5.859809523809524e-06, "loss": 0.4788, "step": 14625 }, { "epoch": 3.9066666666666667, "grad_norm": 13.556835174560547, "learning_rate": 5.850285714285715e-06, "loss": 0.461, "step": 14650 }, { "epoch": 3.913333333333333, "grad_norm": 12.839192390441895, "learning_rate": 5.840761904761906e-06, "loss": 0.4824, "step": 14675 }, { "epoch": 3.92, "grad_norm": 10.269786834716797, "learning_rate": 5.831238095238095e-06, "loss": 0.4418, "step": 14700 }, { "epoch": 3.9266666666666667, "grad_norm": 11.563702583312988, "learning_rate": 5.8217142857142865e-06, "loss": 0.4548, "step": 14725 }, { "epoch": 3.9333333333333336, "grad_norm": 11.265905380249023, "learning_rate": 5.812190476190477e-06, "loss": 0.4163, "step": 14750 }, { "epoch": 3.94, "grad_norm": 9.697981834411621, "learning_rate": 5.802666666666668e-06, "loss": 0.4126, "step": 14775 }, { "epoch": 3.9466666666666668, "grad_norm": 8.353290557861328, "learning_rate": 5.793142857142857e-06, "loss": 0.4493, "step": 14800 }, { "epoch": 3.953333333333333, "grad_norm": 10.805832862854004, "learning_rate": 5.783619047619048e-06, "loss": 0.444, "step": 14825 }, { "epoch": 3.96, "grad_norm": 11.774195671081543, "learning_rate": 5.774095238095239e-06, "loss": 0.4581, "step": 14850 }, { "epoch": 3.966666666666667, "grad_norm": 10.860061645507812, "learning_rate": 5.7645714285714295e-06, "loss": 0.4233, "step": 14875 }, { "epoch": 3.9733333333333336, "grad_norm": 10.355900764465332, "learning_rate": 5.755047619047619e-06, "loss": 0.452, "step": 14900 }, { "epoch": 3.98, "grad_norm": 12.542693138122559, "learning_rate": 5.74552380952381e-06, "loss": 0.4892, "step": 14925 }, { "epoch": 3.986666666666667, "grad_norm": 12.843132019042969, "learning_rate": 5.736000000000001e-06, "loss": 0.4359, "step": 14950 }, { "epoch": 3.993333333333333, "grad_norm": 9.022924423217773, "learning_rate": 5.726476190476191e-06, "loss": 0.4677, "step": 14975 }, { "epoch": 4.0, "grad_norm": 10.443975448608398, "learning_rate": 5.716952380952382e-06, "loss": 0.4521, "step": 15000 }, { "epoch": 4.0, "eval_cer": 33.88181801241078, "eval_loss": 0.5573098659515381, "eval_runtime": 1261.013, "eval_samples_per_second": 3.965, "eval_steps_per_second": 0.496, "step": 15000 }, { "epoch": 4.006666666666667, "grad_norm": 9.445164680480957, "learning_rate": 5.707428571428572e-06, "loss": 0.366, "step": 15025 }, { "epoch": 4.013333333333334, "grad_norm": 9.402217864990234, "learning_rate": 5.697904761904762e-06, "loss": 0.3798, "step": 15050 }, { "epoch": 4.02, "grad_norm": 9.331457138061523, "learning_rate": 5.688380952380953e-06, "loss": 0.3136, "step": 15075 }, { "epoch": 4.026666666666666, "grad_norm": 9.040196418762207, "learning_rate": 5.678857142857144e-06, "loss": 0.3262, "step": 15100 }, { "epoch": 4.033333333333333, "grad_norm": 10.669482231140137, "learning_rate": 5.6693333333333335e-06, "loss": 0.3469, "step": 15125 }, { "epoch": 4.04, "grad_norm": 10.913322448730469, "learning_rate": 5.659809523809524e-06, "loss": 0.3507, "step": 15150 }, { "epoch": 4.046666666666667, "grad_norm": 9.36578369140625, "learning_rate": 5.650285714285715e-06, "loss": 0.3495, "step": 15175 }, { "epoch": 4.053333333333334, "grad_norm": 9.06477165222168, "learning_rate": 5.6407619047619054e-06, "loss": 0.3749, "step": 15200 }, { "epoch": 4.06, "grad_norm": 8.698920249938965, "learning_rate": 5.631238095238095e-06, "loss": 0.3468, "step": 15225 }, { "epoch": 4.066666666666666, "grad_norm": 7.987102508544922, "learning_rate": 5.621714285714286e-06, "loss": 0.3629, "step": 15250 }, { "epoch": 4.073333333333333, "grad_norm": 10.632536888122559, "learning_rate": 5.6121904761904765e-06, "loss": 0.3624, "step": 15275 }, { "epoch": 4.08, "grad_norm": 10.345257759094238, "learning_rate": 5.602666666666667e-06, "loss": 0.32, "step": 15300 }, { "epoch": 4.086666666666667, "grad_norm": 9.80545711517334, "learning_rate": 5.593142857142858e-06, "loss": 0.3598, "step": 15325 }, { "epoch": 4.093333333333334, "grad_norm": 9.145305633544922, "learning_rate": 5.583619047619048e-06, "loss": 0.3472, "step": 15350 }, { "epoch": 4.1, "grad_norm": 9.643187522888184, "learning_rate": 5.574095238095238e-06, "loss": 0.3397, "step": 15375 }, { "epoch": 4.1066666666666665, "grad_norm": 11.995478630065918, "learning_rate": 5.564571428571429e-06, "loss": 0.3374, "step": 15400 }, { "epoch": 4.113333333333333, "grad_norm": 9.014826774597168, "learning_rate": 5.5550476190476196e-06, "loss": 0.3488, "step": 15425 }, { "epoch": 4.12, "grad_norm": 7.399957180023193, "learning_rate": 5.545904761904762e-06, "loss": 0.3388, "step": 15450 }, { "epoch": 4.126666666666667, "grad_norm": 8.365823745727539, "learning_rate": 5.5363809523809535e-06, "loss": 0.332, "step": 15475 }, { "epoch": 4.133333333333334, "grad_norm": 10.73659610748291, "learning_rate": 5.526857142857144e-06, "loss": 0.3441, "step": 15500 }, { "epoch": 4.14, "grad_norm": 9.721994400024414, "learning_rate": 5.517333333333333e-06, "loss": 0.3569, "step": 15525 }, { "epoch": 4.1466666666666665, "grad_norm": 10.341387748718262, "learning_rate": 5.5078095238095246e-06, "loss": 0.3559, "step": 15550 }, { "epoch": 4.153333333333333, "grad_norm": 9.839953422546387, "learning_rate": 5.498285714285715e-06, "loss": 0.335, "step": 15575 }, { "epoch": 4.16, "grad_norm": 11.246467590332031, "learning_rate": 5.488761904761906e-06, "loss": 0.3297, "step": 15600 }, { "epoch": 4.166666666666667, "grad_norm": 10.399515151977539, "learning_rate": 5.479238095238095e-06, "loss": 0.3318, "step": 15625 }, { "epoch": 4.173333333333334, "grad_norm": 7.989744663238525, "learning_rate": 5.469714285714286e-06, "loss": 0.3369, "step": 15650 }, { "epoch": 4.18, "grad_norm": 11.904905319213867, "learning_rate": 5.460190476190477e-06, "loss": 0.34, "step": 15675 }, { "epoch": 4.1866666666666665, "grad_norm": 9.765145301818848, "learning_rate": 5.450666666666668e-06, "loss": 0.349, "step": 15700 }, { "epoch": 4.193333333333333, "grad_norm": 9.736760139465332, "learning_rate": 5.441142857142857e-06, "loss": 0.3305, "step": 15725 }, { "epoch": 4.2, "grad_norm": 9.07405948638916, "learning_rate": 5.431619047619048e-06, "loss": 0.34, "step": 15750 }, { "epoch": 4.206666666666667, "grad_norm": 10.817412376403809, "learning_rate": 5.422095238095239e-06, "loss": 0.3574, "step": 15775 }, { "epoch": 4.213333333333333, "grad_norm": 9.08163833618164, "learning_rate": 5.412571428571429e-06, "loss": 0.3235, "step": 15800 }, { "epoch": 4.22, "grad_norm": 10.415016174316406, "learning_rate": 5.40304761904762e-06, "loss": 0.3625, "step": 15825 }, { "epoch": 4.226666666666667, "grad_norm": 21.206327438354492, "learning_rate": 5.39352380952381e-06, "loss": 0.3399, "step": 15850 }, { "epoch": 4.233333333333333, "grad_norm": 11.360039710998535, "learning_rate": 5.3840000000000005e-06, "loss": 0.3278, "step": 15875 }, { "epoch": 4.24, "grad_norm": 9.03994369506836, "learning_rate": 5.374476190476191e-06, "loss": 0.3046, "step": 15900 }, { "epoch": 4.246666666666667, "grad_norm": 9.927104949951172, "learning_rate": 5.364952380952382e-06, "loss": 0.3395, "step": 15925 }, { "epoch": 4.253333333333333, "grad_norm": 10.980711936950684, "learning_rate": 5.3554285714285716e-06, "loss": 0.3479, "step": 15950 }, { "epoch": 4.26, "grad_norm": 9.69042682647705, "learning_rate": 5.345904761904762e-06, "loss": 0.3293, "step": 15975 }, { "epoch": 4.266666666666667, "grad_norm": 12.465404510498047, "learning_rate": 5.336380952380953e-06, "loss": 0.3359, "step": 16000 }, { "epoch": 4.273333333333333, "grad_norm": 7.957159519195557, "learning_rate": 5.3268571428571435e-06, "loss": 0.3607, "step": 16025 }, { "epoch": 4.28, "grad_norm": 12.110877990722656, "learning_rate": 5.317333333333333e-06, "loss": 0.3375, "step": 16050 }, { "epoch": 4.286666666666667, "grad_norm": 11.495512962341309, "learning_rate": 5.307809523809524e-06, "loss": 0.3655, "step": 16075 }, { "epoch": 4.293333333333333, "grad_norm": 10.100930213928223, "learning_rate": 5.298285714285715e-06, "loss": 0.3186, "step": 16100 }, { "epoch": 4.3, "grad_norm": 10.262569427490234, "learning_rate": 5.288761904761905e-06, "loss": 0.3458, "step": 16125 }, { "epoch": 4.306666666666667, "grad_norm": 10.507874488830566, "learning_rate": 5.279238095238096e-06, "loss": 0.3475, "step": 16150 }, { "epoch": 4.3133333333333335, "grad_norm": 11.506072998046875, "learning_rate": 5.269714285714286e-06, "loss": 0.3389, "step": 16175 }, { "epoch": 4.32, "grad_norm": 8.714264869689941, "learning_rate": 5.260190476190476e-06, "loss": 0.3454, "step": 16200 }, { "epoch": 4.326666666666666, "grad_norm": 8.31139087677002, "learning_rate": 5.250666666666667e-06, "loss": 0.3268, "step": 16225 }, { "epoch": 4.333333333333333, "grad_norm": 7.935983180999756, "learning_rate": 5.241142857142858e-06, "loss": 0.3413, "step": 16250 }, { "epoch": 4.34, "grad_norm": 9.739823341369629, "learning_rate": 5.2316190476190474e-06, "loss": 0.3264, "step": 16275 }, { "epoch": 4.346666666666667, "grad_norm": 8.532427787780762, "learning_rate": 5.222095238095238e-06, "loss": 0.3225, "step": 16300 }, { "epoch": 4.3533333333333335, "grad_norm": 11.38673210144043, "learning_rate": 5.212571428571429e-06, "loss": 0.36, "step": 16325 }, { "epoch": 4.36, "grad_norm": 9.791930198669434, "learning_rate": 5.203047619047619e-06, "loss": 0.3269, "step": 16350 }, { "epoch": 4.366666666666666, "grad_norm": 9.696223258972168, "learning_rate": 5.193523809523809e-06, "loss": 0.3507, "step": 16375 }, { "epoch": 4.373333333333333, "grad_norm": 10.962854385375977, "learning_rate": 5.184e-06, "loss": 0.3492, "step": 16400 }, { "epoch": 4.38, "grad_norm": 11.839250564575195, "learning_rate": 5.1744761904761905e-06, "loss": 0.3223, "step": 16425 }, { "epoch": 4.386666666666667, "grad_norm": 8.038477897644043, "learning_rate": 5.164952380952382e-06, "loss": 0.3479, "step": 16450 }, { "epoch": 4.3933333333333335, "grad_norm": 11.09113597869873, "learning_rate": 5.155428571428573e-06, "loss": 0.3345, "step": 16475 }, { "epoch": 4.4, "grad_norm": 10.491676330566406, "learning_rate": 5.145904761904762e-06, "loss": 0.3693, "step": 16500 }, { "epoch": 4.406666666666666, "grad_norm": 10.282910346984863, "learning_rate": 5.136380952380953e-06, "loss": 0.3376, "step": 16525 }, { "epoch": 4.413333333333333, "grad_norm": 10.462335586547852, "learning_rate": 5.126857142857144e-06, "loss": 0.3178, "step": 16550 }, { "epoch": 4.42, "grad_norm": 8.816498756408691, "learning_rate": 5.117333333333334e-06, "loss": 0.33, "step": 16575 }, { "epoch": 4.426666666666667, "grad_norm": 9.41983699798584, "learning_rate": 5.107809523809524e-06, "loss": 0.3253, "step": 16600 }, { "epoch": 4.433333333333334, "grad_norm": 9.63511848449707, "learning_rate": 5.098285714285715e-06, "loss": 0.346, "step": 16625 }, { "epoch": 4.44, "grad_norm": 10.567623138427734, "learning_rate": 5.0887619047619055e-06, "loss": 0.3568, "step": 16650 }, { "epoch": 4.446666666666666, "grad_norm": 8.900635719299316, "learning_rate": 5.079238095238096e-06, "loss": 0.3494, "step": 16675 }, { "epoch": 4.453333333333333, "grad_norm": 8.828140258789062, "learning_rate": 5.069714285714286e-06, "loss": 0.3195, "step": 16700 }, { "epoch": 4.46, "grad_norm": 12.608842849731445, "learning_rate": 5.0601904761904766e-06, "loss": 0.3206, "step": 16725 }, { "epoch": 4.466666666666667, "grad_norm": 9.525917053222656, "learning_rate": 5.050666666666667e-06, "loss": 0.3427, "step": 16750 }, { "epoch": 4.473333333333334, "grad_norm": 9.24260139465332, "learning_rate": 5.041142857142858e-06, "loss": 0.3335, "step": 16775 }, { "epoch": 4.48, "grad_norm": 8.608335494995117, "learning_rate": 5.0316190476190485e-06, "loss": 0.3099, "step": 16800 }, { "epoch": 4.486666666666666, "grad_norm": 9.50597095489502, "learning_rate": 5.022095238095238e-06, "loss": 0.3405, "step": 16825 }, { "epoch": 4.493333333333333, "grad_norm": 11.631133079528809, "learning_rate": 5.012571428571429e-06, "loss": 0.342, "step": 16850 }, { "epoch": 4.5, "grad_norm": 11.48204517364502, "learning_rate": 5.00304761904762e-06, "loss": 0.328, "step": 16875 }, { "epoch": 4.506666666666667, "grad_norm": 8.959137916564941, "learning_rate": 4.993523809523809e-06, "loss": 0.3389, "step": 16900 }, { "epoch": 4.513333333333334, "grad_norm": 12.473030090332031, "learning_rate": 4.984000000000001e-06, "loss": 0.3203, "step": 16925 }, { "epoch": 4.52, "grad_norm": 10.308365821838379, "learning_rate": 4.974476190476191e-06, "loss": 0.3254, "step": 16950 }, { "epoch": 4.526666666666666, "grad_norm": 7.606795310974121, "learning_rate": 4.964952380952381e-06, "loss": 0.319, "step": 16975 }, { "epoch": 4.533333333333333, "grad_norm": 9.314900398254395, "learning_rate": 4.955428571428572e-06, "loss": 0.3179, "step": 17000 }, { "epoch": 4.54, "grad_norm": 9.84424877166748, "learning_rate": 4.945904761904763e-06, "loss": 0.3433, "step": 17025 }, { "epoch": 4.546666666666667, "grad_norm": 9.398674964904785, "learning_rate": 4.936380952380953e-06, "loss": 0.3281, "step": 17050 }, { "epoch": 4.553333333333334, "grad_norm": 20.751062393188477, "learning_rate": 4.926857142857143e-06, "loss": 0.3377, "step": 17075 }, { "epoch": 4.5600000000000005, "grad_norm": 21.263397216796875, "learning_rate": 4.917333333333334e-06, "loss": 0.3408, "step": 17100 }, { "epoch": 4.566666666666666, "grad_norm": 10.58082103729248, "learning_rate": 4.907809523809524e-06, "loss": 0.3295, "step": 17125 }, { "epoch": 4.573333333333333, "grad_norm": 9.26357650756836, "learning_rate": 4.898285714285715e-06, "loss": 0.338, "step": 17150 }, { "epoch": 4.58, "grad_norm": 10.471427917480469, "learning_rate": 4.888761904761905e-06, "loss": 0.3342, "step": 17175 }, { "epoch": 4.586666666666667, "grad_norm": 10.399324417114258, "learning_rate": 4.8792380952380955e-06, "loss": 0.3462, "step": 17200 }, { "epoch": 4.593333333333334, "grad_norm": 9.083370208740234, "learning_rate": 4.869714285714286e-06, "loss": 0.3259, "step": 17225 }, { "epoch": 4.6, "grad_norm": 9.401577949523926, "learning_rate": 4.860190476190477e-06, "loss": 0.329, "step": 17250 }, { "epoch": 4.6066666666666665, "grad_norm": 10.30981731414795, "learning_rate": 4.850666666666667e-06, "loss": 0.3553, "step": 17275 }, { "epoch": 4.613333333333333, "grad_norm": 8.079058647155762, "learning_rate": 4.841142857142857e-06, "loss": 0.3299, "step": 17300 }, { "epoch": 4.62, "grad_norm": 9.01292896270752, "learning_rate": 4.831619047619048e-06, "loss": 0.3565, "step": 17325 }, { "epoch": 4.626666666666667, "grad_norm": 10.41326904296875, "learning_rate": 4.8220952380952385e-06, "loss": 0.3016, "step": 17350 }, { "epoch": 4.633333333333333, "grad_norm": 7.626286029815674, "learning_rate": 4.812571428571429e-06, "loss": 0.2994, "step": 17375 }, { "epoch": 4.64, "grad_norm": 8.95495891571045, "learning_rate": 4.80304761904762e-06, "loss": 0.3383, "step": 17400 }, { "epoch": 4.6466666666666665, "grad_norm": 10.129595756530762, "learning_rate": 4.7935238095238105e-06, "loss": 0.3124, "step": 17425 }, { "epoch": 4.653333333333333, "grad_norm": 9.169564247131348, "learning_rate": 4.784e-06, "loss": 0.3419, "step": 17450 }, { "epoch": 4.66, "grad_norm": 9.020630836486816, "learning_rate": 4.774476190476191e-06, "loss": 0.3052, "step": 17475 }, { "epoch": 4.666666666666667, "grad_norm": 8.045998573303223, "learning_rate": 4.7649523809523816e-06, "loss": 0.3085, "step": 17500 }, { "epoch": 4.673333333333334, "grad_norm": 9.238438606262207, "learning_rate": 4.755428571428572e-06, "loss": 0.337, "step": 17525 }, { "epoch": 4.68, "grad_norm": 9.60799503326416, "learning_rate": 4.745904761904762e-06, "loss": 0.3197, "step": 17550 }, { "epoch": 4.6866666666666665, "grad_norm": 8.405088424682617, "learning_rate": 4.736380952380953e-06, "loss": 0.318, "step": 17575 }, { "epoch": 4.693333333333333, "grad_norm": 10.617300987243652, "learning_rate": 4.726857142857143e-06, "loss": 0.3193, "step": 17600 }, { "epoch": 4.7, "grad_norm": 11.77807331085205, "learning_rate": 4.717333333333334e-06, "loss": 0.3434, "step": 17625 }, { "epoch": 4.706666666666667, "grad_norm": 11.168408393859863, "learning_rate": 4.707809523809524e-06, "loss": 0.319, "step": 17650 }, { "epoch": 4.713333333333333, "grad_norm": 10.417842864990234, "learning_rate": 4.698666666666667e-06, "loss": 0.3178, "step": 17675 }, { "epoch": 4.72, "grad_norm": 8.813197135925293, "learning_rate": 4.689142857142858e-06, "loss": 0.3186, "step": 17700 }, { "epoch": 4.726666666666667, "grad_norm": 7.759131908416748, "learning_rate": 4.6796190476190475e-06, "loss": 0.3216, "step": 17725 }, { "epoch": 4.733333333333333, "grad_norm": 10.083597183227539, "learning_rate": 4.670095238095239e-06, "loss": 0.3103, "step": 17750 }, { "epoch": 4.74, "grad_norm": 9.475998878479004, "learning_rate": 4.660571428571429e-06, "loss": 0.324, "step": 17775 }, { "epoch": 4.746666666666667, "grad_norm": 8.86322021484375, "learning_rate": 4.651047619047619e-06, "loss": 0.3316, "step": 17800 }, { "epoch": 4.753333333333333, "grad_norm": 9.054226875305176, "learning_rate": 4.64152380952381e-06, "loss": 0.3253, "step": 17825 }, { "epoch": 4.76, "grad_norm": 13.359445571899414, "learning_rate": 4.632000000000001e-06, "loss": 0.3221, "step": 17850 }, { "epoch": 4.766666666666667, "grad_norm": 7.5922746658325195, "learning_rate": 4.622476190476191e-06, "loss": 0.3359, "step": 17875 }, { "epoch": 4.773333333333333, "grad_norm": 10.745287895202637, "learning_rate": 4.612952380952381e-06, "loss": 0.3317, "step": 17900 }, { "epoch": 4.78, "grad_norm": 11.20903491973877, "learning_rate": 4.603428571428572e-06, "loss": 0.3317, "step": 17925 }, { "epoch": 4.786666666666667, "grad_norm": 8.53608226776123, "learning_rate": 4.5939047619047625e-06, "loss": 0.3236, "step": 17950 }, { "epoch": 4.793333333333333, "grad_norm": 8.845032691955566, "learning_rate": 4.584380952380953e-06, "loss": 0.3126, "step": 17975 }, { "epoch": 4.8, "grad_norm": 8.912800788879395, "learning_rate": 4.574857142857143e-06, "loss": 0.357, "step": 18000 }, { "epoch": 4.806666666666667, "grad_norm": 10.331573486328125, "learning_rate": 4.5653333333333336e-06, "loss": 0.324, "step": 18025 }, { "epoch": 4.8133333333333335, "grad_norm": 8.298504829406738, "learning_rate": 4.555809523809524e-06, "loss": 0.3047, "step": 18050 }, { "epoch": 4.82, "grad_norm": 24.478620529174805, "learning_rate": 4.546285714285715e-06, "loss": 0.3336, "step": 18075 }, { "epoch": 4.826666666666666, "grad_norm": 12.858133316040039, "learning_rate": 4.536761904761905e-06, "loss": 0.3215, "step": 18100 }, { "epoch": 4.833333333333333, "grad_norm": 10.333330154418945, "learning_rate": 4.527238095238095e-06, "loss": 0.308, "step": 18125 }, { "epoch": 4.84, "grad_norm": 9.631719589233398, "learning_rate": 4.517714285714286e-06, "loss": 0.3194, "step": 18150 }, { "epoch": 4.846666666666667, "grad_norm": 7.289853096008301, "learning_rate": 4.508190476190477e-06, "loss": 0.3333, "step": 18175 }, { "epoch": 4.8533333333333335, "grad_norm": 9.735225677490234, "learning_rate": 4.498666666666667e-06, "loss": 0.3199, "step": 18200 }, { "epoch": 4.86, "grad_norm": 8.678450584411621, "learning_rate": 4.489142857142857e-06, "loss": 0.3053, "step": 18225 }, { "epoch": 4.866666666666667, "grad_norm": 9.917527198791504, "learning_rate": 4.4796190476190485e-06, "loss": 0.2988, "step": 18250 }, { "epoch": 4.873333333333333, "grad_norm": 9.572203636169434, "learning_rate": 4.470095238095238e-06, "loss": 0.3168, "step": 18275 }, { "epoch": 4.88, "grad_norm": 9.202919960021973, "learning_rate": 4.460571428571429e-06, "loss": 0.3494, "step": 18300 }, { "epoch": 4.886666666666667, "grad_norm": 8.96101188659668, "learning_rate": 4.45104761904762e-06, "loss": 0.3269, "step": 18325 }, { "epoch": 4.8933333333333335, "grad_norm": 8.443532943725586, "learning_rate": 4.44152380952381e-06, "loss": 0.328, "step": 18350 }, { "epoch": 4.9, "grad_norm": 8.190359115600586, "learning_rate": 4.432e-06, "loss": 0.314, "step": 18375 }, { "epoch": 4.906666666666666, "grad_norm": 15.69275188446045, "learning_rate": 4.422476190476191e-06, "loss": 0.3029, "step": 18400 }, { "epoch": 4.913333333333333, "grad_norm": 10.510639190673828, "learning_rate": 4.412952380952381e-06, "loss": 0.3393, "step": 18425 }, { "epoch": 4.92, "grad_norm": 8.462637901306152, "learning_rate": 4.403428571428572e-06, "loss": 0.3179, "step": 18450 }, { "epoch": 4.926666666666667, "grad_norm": 8.102010726928711, "learning_rate": 4.393904761904762e-06, "loss": 0.3538, "step": 18475 }, { "epoch": 4.933333333333334, "grad_norm": 12.163732528686523, "learning_rate": 4.3843809523809525e-06, "loss": 0.3263, "step": 18500 }, { "epoch": 4.9399999999999995, "grad_norm": 10.210678100585938, "learning_rate": 4.374857142857143e-06, "loss": 0.3391, "step": 18525 }, { "epoch": 4.946666666666666, "grad_norm": 9.2230806350708, "learning_rate": 4.365333333333334e-06, "loss": 0.321, "step": 18550 }, { "epoch": 4.953333333333333, "grad_norm": 8.812457084655762, "learning_rate": 4.3558095238095244e-06, "loss": 0.2849, "step": 18575 }, { "epoch": 4.96, "grad_norm": 10.65733528137207, "learning_rate": 4.346285714285714e-06, "loss": 0.3244, "step": 18600 }, { "epoch": 4.966666666666667, "grad_norm": 7.578824996948242, "learning_rate": 4.336761904761905e-06, "loss": 0.3231, "step": 18625 }, { "epoch": 4.973333333333334, "grad_norm": 9.401844024658203, "learning_rate": 4.3272380952380955e-06, "loss": 0.3057, "step": 18650 }, { "epoch": 4.98, "grad_norm": 10.009161949157715, "learning_rate": 4.317714285714286e-06, "loss": 0.3292, "step": 18675 }, { "epoch": 4.986666666666666, "grad_norm": 9.332976341247559, "learning_rate": 4.308190476190476e-06, "loss": 0.3417, "step": 18700 }, { "epoch": 4.993333333333333, "grad_norm": 8.199204444885254, "learning_rate": 4.2986666666666675e-06, "loss": 0.3133, "step": 18725 }, { "epoch": 5.0, "grad_norm": 11.205020904541016, "learning_rate": 4.289142857142857e-06, "loss": 0.3412, "step": 18750 }, { "epoch": 5.0, "eval_cer": 29.73929895831392, "eval_loss": 0.4956792891025543, "eval_runtime": 1294.5821, "eval_samples_per_second": 3.862, "eval_steps_per_second": 0.483, "step": 18750 }, { "epoch": 5.006666666666667, "grad_norm": 7.74131441116333, "learning_rate": 4.279619047619048e-06, "loss": 0.2035, "step": 18775 }, { "epoch": 5.013333333333334, "grad_norm": 9.658544540405273, "learning_rate": 4.2700952380952386e-06, "loss": 0.2163, "step": 18800 }, { "epoch": 5.02, "grad_norm": 8.518534660339355, "learning_rate": 4.260571428571429e-06, "loss": 0.2081, "step": 18825 }, { "epoch": 5.026666666666666, "grad_norm": 7.484743118286133, "learning_rate": 4.25104761904762e-06, "loss": 0.2315, "step": 18850 }, { "epoch": 5.033333333333333, "grad_norm": 8.67628288269043, "learning_rate": 4.24152380952381e-06, "loss": 0.2214, "step": 18875 }, { "epoch": 5.04, "grad_norm": 7.7671051025390625, "learning_rate": 4.232e-06, "loss": 0.2193, "step": 18900 }, { "epoch": 5.046666666666667, "grad_norm": 8.292099952697754, "learning_rate": 4.222476190476191e-06, "loss": 0.2346, "step": 18925 }, { "epoch": 5.053333333333334, "grad_norm": 6.942380428314209, "learning_rate": 4.212952380952382e-06, "loss": 0.2267, "step": 18950 }, { "epoch": 5.06, "grad_norm": 8.356648445129395, "learning_rate": 4.203428571428571e-06, "loss": 0.2135, "step": 18975 }, { "epoch": 5.066666666666666, "grad_norm": 11.144806861877441, "learning_rate": 4.193904761904762e-06, "loss": 0.2289, "step": 19000 }, { "epoch": 5.073333333333333, "grad_norm": 7.804592132568359, "learning_rate": 4.184380952380953e-06, "loss": 0.2227, "step": 19025 }, { "epoch": 5.08, "grad_norm": 7.889078140258789, "learning_rate": 4.174857142857143e-06, "loss": 0.2453, "step": 19050 }, { "epoch": 5.086666666666667, "grad_norm": 5.879745006561279, "learning_rate": 4.165333333333333e-06, "loss": 0.2117, "step": 19075 }, { "epoch": 5.093333333333334, "grad_norm": 6.181926250457764, "learning_rate": 4.155809523809524e-06, "loss": 0.2071, "step": 19100 }, { "epoch": 5.1, "grad_norm": 6.737381458282471, "learning_rate": 4.1462857142857144e-06, "loss": 0.2302, "step": 19125 }, { "epoch": 5.1066666666666665, "grad_norm": 8.002670288085938, "learning_rate": 4.136761904761905e-06, "loss": 0.2181, "step": 19150 }, { "epoch": 5.113333333333333, "grad_norm": 7.453000545501709, "learning_rate": 4.127238095238096e-06, "loss": 0.216, "step": 19175 }, { "epoch": 5.12, "grad_norm": 9.276750564575195, "learning_rate": 4.117714285714286e-06, "loss": 0.2296, "step": 19200 }, { "epoch": 5.126666666666667, "grad_norm": 8.332562446594238, "learning_rate": 4.108190476190477e-06, "loss": 0.2385, "step": 19225 }, { "epoch": 5.133333333333334, "grad_norm": 7.754110813140869, "learning_rate": 4.098666666666667e-06, "loss": 0.2252, "step": 19250 }, { "epoch": 5.14, "grad_norm": 8.075357437133789, "learning_rate": 4.0891428571428575e-06, "loss": 0.2386, "step": 19275 }, { "epoch": 5.1466666666666665, "grad_norm": 13.4313325881958, "learning_rate": 4.079619047619048e-06, "loss": 0.2407, "step": 19300 }, { "epoch": 5.153333333333333, "grad_norm": 8.01067066192627, "learning_rate": 4.070095238095239e-06, "loss": 0.2211, "step": 19325 }, { "epoch": 5.16, "grad_norm": 8.232911109924316, "learning_rate": 4.060571428571429e-06, "loss": 0.2099, "step": 19350 }, { "epoch": 5.166666666666667, "grad_norm": 8.286017417907715, "learning_rate": 4.051047619047619e-06, "loss": 0.2141, "step": 19375 }, { "epoch": 5.173333333333334, "grad_norm": 8.53003978729248, "learning_rate": 4.04152380952381e-06, "loss": 0.22, "step": 19400 }, { "epoch": 5.18, "grad_norm": 9.463700294494629, "learning_rate": 4.0320000000000005e-06, "loss": 0.2365, "step": 19425 }, { "epoch": 5.1866666666666665, "grad_norm": 9.513010025024414, "learning_rate": 4.02247619047619e-06, "loss": 0.2135, "step": 19450 }, { "epoch": 5.193333333333333, "grad_norm": 8.491543769836426, "learning_rate": 4.012952380952381e-06, "loss": 0.2246, "step": 19475 }, { "epoch": 5.2, "grad_norm": 9.591778755187988, "learning_rate": 4.003428571428572e-06, "loss": 0.2561, "step": 19500 }, { "epoch": 5.206666666666667, "grad_norm": 7.991750240325928, "learning_rate": 3.993904761904762e-06, "loss": 0.2267, "step": 19525 }, { "epoch": 5.213333333333333, "grad_norm": 9.437651634216309, "learning_rate": 3.984380952380953e-06, "loss": 0.2403, "step": 19550 }, { "epoch": 5.22, "grad_norm": 7.928285598754883, "learning_rate": 3.974857142857143e-06, "loss": 0.2208, "step": 19575 }, { "epoch": 5.226666666666667, "grad_norm": 6.756811618804932, "learning_rate": 3.965333333333334e-06, "loss": 0.2157, "step": 19600 }, { "epoch": 5.233333333333333, "grad_norm": 6.515092372894287, "learning_rate": 3.955809523809524e-06, "loss": 0.2306, "step": 19625 }, { "epoch": 5.24, "grad_norm": 7.373777866363525, "learning_rate": 3.946285714285715e-06, "loss": 0.2404, "step": 19650 }, { "epoch": 5.246666666666667, "grad_norm": 9.353462219238281, "learning_rate": 3.936761904761905e-06, "loss": 0.2254, "step": 19675 }, { "epoch": 5.253333333333333, "grad_norm": 7.703023433685303, "learning_rate": 3.927238095238096e-06, "loss": 0.2017, "step": 19700 }, { "epoch": 5.26, "grad_norm": 8.477394104003906, "learning_rate": 3.917714285714286e-06, "loss": 0.2143, "step": 19725 }, { "epoch": 5.266666666666667, "grad_norm": 7.199848651885986, "learning_rate": 3.908190476190476e-06, "loss": 0.2468, "step": 19750 }, { "epoch": 5.273333333333333, "grad_norm": 7.2001800537109375, "learning_rate": 3.898666666666667e-06, "loss": 0.2329, "step": 19775 }, { "epoch": 5.28, "grad_norm": 9.821074485778809, "learning_rate": 3.889142857142858e-06, "loss": 0.2159, "step": 19800 }, { "epoch": 5.286666666666667, "grad_norm": 7.706233978271484, "learning_rate": 3.879619047619048e-06, "loss": 0.2297, "step": 19825 }, { "epoch": 5.293333333333333, "grad_norm": 8.717984199523926, "learning_rate": 3.870095238095238e-06, "loss": 0.2079, "step": 19850 }, { "epoch": 5.3, "grad_norm": 12.714797973632812, "learning_rate": 3.860571428571429e-06, "loss": 0.2169, "step": 19875 }, { "epoch": 5.306666666666667, "grad_norm": 7.085634231567383, "learning_rate": 3.8510476190476195e-06, "loss": 0.2252, "step": 19900 }, { "epoch": 5.3133333333333335, "grad_norm": 7.455596923828125, "learning_rate": 3.84152380952381e-06, "loss": 0.2249, "step": 19925 }, { "epoch": 5.32, "grad_norm": 8.231857299804688, "learning_rate": 3.832e-06, "loss": 0.1883, "step": 19950 }, { "epoch": 5.326666666666666, "grad_norm": 6.074817657470703, "learning_rate": 3.8224761904761906e-06, "loss": 0.223, "step": 19975 }, { "epoch": 5.333333333333333, "grad_norm": 6.696928977966309, "learning_rate": 3.812952380952381e-06, "loss": 0.2054, "step": 20000 }, { "epoch": 5.34, "grad_norm": 7.785407066345215, "learning_rate": 3.803428571428572e-06, "loss": 0.2199, "step": 20025 }, { "epoch": 5.346666666666667, "grad_norm": 8.944208145141602, "learning_rate": 3.793904761904762e-06, "loss": 0.22, "step": 20050 }, { "epoch": 5.3533333333333335, "grad_norm": 9.503300666809082, "learning_rate": 3.7843809523809527e-06, "loss": 0.2286, "step": 20075 }, { "epoch": 5.36, "grad_norm": 8.379419326782227, "learning_rate": 3.7748571428571434e-06, "loss": 0.207, "step": 20100 }, { "epoch": 5.366666666666666, "grad_norm": 8.356283187866211, "learning_rate": 3.7653333333333336e-06, "loss": 0.2269, "step": 20125 }, { "epoch": 5.373333333333333, "grad_norm": 7.839999198913574, "learning_rate": 3.7558095238095242e-06, "loss": 0.2178, "step": 20150 }, { "epoch": 5.38, "grad_norm": 8.93282699584961, "learning_rate": 3.7462857142857145e-06, "loss": 0.2305, "step": 20175 }, { "epoch": 5.386666666666667, "grad_norm": 8.482865333557129, "learning_rate": 3.736761904761905e-06, "loss": 0.2205, "step": 20200 }, { "epoch": 5.3933333333333335, "grad_norm": 6.62850284576416, "learning_rate": 3.7272380952380953e-06, "loss": 0.217, "step": 20225 }, { "epoch": 5.4, "grad_norm": 8.247754096984863, "learning_rate": 3.717714285714286e-06, "loss": 0.2116, "step": 20250 }, { "epoch": 5.406666666666666, "grad_norm": 8.520336151123047, "learning_rate": 3.708190476190476e-06, "loss": 0.2195, "step": 20275 }, { "epoch": 5.413333333333333, "grad_norm": 7.342014789581299, "learning_rate": 3.6986666666666673e-06, "loss": 0.2142, "step": 20300 }, { "epoch": 5.42, "grad_norm": 6.80022668838501, "learning_rate": 3.689142857142857e-06, "loss": 0.2004, "step": 20325 }, { "epoch": 5.426666666666667, "grad_norm": 8.62631607055664, "learning_rate": 3.679619047619048e-06, "loss": 0.2461, "step": 20350 }, { "epoch": 5.433333333333334, "grad_norm": 10.956358909606934, "learning_rate": 3.670095238095238e-06, "loss": 0.21, "step": 20375 }, { "epoch": 5.44, "grad_norm": 7.769155025482178, "learning_rate": 3.660571428571429e-06, "loss": 0.2297, "step": 20400 }, { "epoch": 5.446666666666666, "grad_norm": 8.335783004760742, "learning_rate": 3.6510476190476197e-06, "loss": 0.2209, "step": 20425 }, { "epoch": 5.453333333333333, "grad_norm": 8.794885635375977, "learning_rate": 3.64152380952381e-06, "loss": 0.2203, "step": 20450 }, { "epoch": 5.46, "grad_norm": 7.390929222106934, "learning_rate": 3.6320000000000005e-06, "loss": 0.2412, "step": 20475 }, { "epoch": 5.466666666666667, "grad_norm": 7.433413028717041, "learning_rate": 3.6224761904761908e-06, "loss": 0.2146, "step": 20500 }, { "epoch": 5.473333333333334, "grad_norm": 10.663132667541504, "learning_rate": 3.6129523809523814e-06, "loss": 0.2265, "step": 20525 }, { "epoch": 5.48, "grad_norm": 7.273309230804443, "learning_rate": 3.6034285714285716e-06, "loss": 0.2178, "step": 20550 }, { "epoch": 5.486666666666666, "grad_norm": 8.934584617614746, "learning_rate": 3.5939047619047623e-06, "loss": 0.2256, "step": 20575 }, { "epoch": 5.493333333333333, "grad_norm": 6.844413757324219, "learning_rate": 3.5843809523809525e-06, "loss": 0.2257, "step": 20600 }, { "epoch": 5.5, "grad_norm": 11.51134204864502, "learning_rate": 3.574857142857143e-06, "loss": 0.2417, "step": 20625 }, { "epoch": 5.506666666666667, "grad_norm": 9.157442092895508, "learning_rate": 3.5653333333333334e-06, "loss": 0.2411, "step": 20650 }, { "epoch": 5.513333333333334, "grad_norm": 7.7640533447265625, "learning_rate": 3.555809523809524e-06, "loss": 0.2155, "step": 20675 }, { "epoch": 5.52, "grad_norm": 7.435049057006836, "learning_rate": 3.5462857142857143e-06, "loss": 0.2201, "step": 20700 }, { "epoch": 5.526666666666666, "grad_norm": 9.660971641540527, "learning_rate": 3.536761904761905e-06, "loss": 0.2116, "step": 20725 }, { "epoch": 5.533333333333333, "grad_norm": 8.51267147064209, "learning_rate": 3.527238095238096e-06, "loss": 0.2296, "step": 20750 }, { "epoch": 5.54, "grad_norm": 6.644988059997559, "learning_rate": 3.5177142857142858e-06, "loss": 0.2146, "step": 20775 }, { "epoch": 5.546666666666667, "grad_norm": 6.6448588371276855, "learning_rate": 3.508190476190477e-06, "loss": 0.2083, "step": 20800 }, { "epoch": 5.553333333333334, "grad_norm": 9.105034828186035, "learning_rate": 3.498666666666667e-06, "loss": 0.2245, "step": 20825 }, { "epoch": 5.5600000000000005, "grad_norm": 8.7272310256958, "learning_rate": 3.4891428571428577e-06, "loss": 0.24, "step": 20850 }, { "epoch": 5.566666666666666, "grad_norm": 10.38683795928955, "learning_rate": 3.479619047619048e-06, "loss": 0.2182, "step": 20875 }, { "epoch": 5.573333333333333, "grad_norm": 8.37644100189209, "learning_rate": 3.4700952380952386e-06, "loss": 0.2374, "step": 20900 }, { "epoch": 5.58, "grad_norm": 8.403351783752441, "learning_rate": 3.460571428571429e-06, "loss": 0.2212, "step": 20925 }, { "epoch": 5.586666666666667, "grad_norm": 9.713714599609375, "learning_rate": 3.4510476190476195e-06, "loss": 0.2045, "step": 20950 }, { "epoch": 5.593333333333334, "grad_norm": 10.12519645690918, "learning_rate": 3.4415238095238097e-06, "loss": 0.2249, "step": 20975 }, { "epoch": 5.6, "grad_norm": 8.807016372680664, "learning_rate": 3.4320000000000003e-06, "loss": 0.2096, "step": 21000 }, { "epoch": 5.6066666666666665, "grad_norm": 10.7708101272583, "learning_rate": 3.4224761904761906e-06, "loss": 0.2298, "step": 21025 }, { "epoch": 5.613333333333333, "grad_norm": 8.356566429138184, "learning_rate": 3.4129523809523812e-06, "loss": 0.2252, "step": 21050 }, { "epoch": 5.62, "grad_norm": 7.751272678375244, "learning_rate": 3.403428571428572e-06, "loss": 0.2296, "step": 21075 }, { "epoch": 5.626666666666667, "grad_norm": 9.154892921447754, "learning_rate": 3.393904761904762e-06, "loss": 0.2082, "step": 21100 }, { "epoch": 5.633333333333333, "grad_norm": 8.852538108825684, "learning_rate": 3.3843809523809527e-06, "loss": 0.2389, "step": 21125 }, { "epoch": 5.64, "grad_norm": 8.03395938873291, "learning_rate": 3.374857142857143e-06, "loss": 0.2358, "step": 21150 }, { "epoch": 5.6466666666666665, "grad_norm": 9.868317604064941, "learning_rate": 3.3653333333333336e-06, "loss": 0.2357, "step": 21175 }, { "epoch": 5.653333333333333, "grad_norm": 10.349991798400879, "learning_rate": 3.355809523809524e-06, "loss": 0.2282, "step": 21200 }, { "epoch": 5.66, "grad_norm": 10.350552558898926, "learning_rate": 3.3462857142857145e-06, "loss": 0.2106, "step": 21225 }, { "epoch": 5.666666666666667, "grad_norm": 8.718181610107422, "learning_rate": 3.3367619047619047e-06, "loss": 0.2298, "step": 21250 }, { "epoch": 5.673333333333334, "grad_norm": 8.100804328918457, "learning_rate": 3.3272380952380958e-06, "loss": 0.2303, "step": 21275 }, { "epoch": 5.68, "grad_norm": 8.061356544494629, "learning_rate": 3.3177142857142856e-06, "loss": 0.2123, "step": 21300 }, { "epoch": 5.6866666666666665, "grad_norm": 8.893597602844238, "learning_rate": 3.3081904761904767e-06, "loss": 0.2185, "step": 21325 }, { "epoch": 5.693333333333333, "grad_norm": 8.45853328704834, "learning_rate": 3.298666666666667e-06, "loss": 0.2064, "step": 21350 }, { "epoch": 5.7, "grad_norm": 10.843313217163086, "learning_rate": 3.2891428571428575e-06, "loss": 0.2194, "step": 21375 }, { "epoch": 5.706666666666667, "grad_norm": 8.22525691986084, "learning_rate": 3.279619047619048e-06, "loss": 0.2149, "step": 21400 }, { "epoch": 5.713333333333333, "grad_norm": 7.29123592376709, "learning_rate": 3.2700952380952384e-06, "loss": 0.2043, "step": 21425 }, { "epoch": 5.72, "grad_norm": 8.707810401916504, "learning_rate": 3.260571428571429e-06, "loss": 0.2153, "step": 21450 }, { "epoch": 5.726666666666667, "grad_norm": 8.674860000610352, "learning_rate": 3.2510476190476193e-06, "loss": 0.2523, "step": 21475 }, { "epoch": 5.733333333333333, "grad_norm": 8.436385154724121, "learning_rate": 3.24152380952381e-06, "loss": 0.2172, "step": 21500 }, { "epoch": 5.74, "grad_norm": 8.723784446716309, "learning_rate": 3.232e-06, "loss": 0.2092, "step": 21525 }, { "epoch": 5.746666666666667, "grad_norm": 8.389568328857422, "learning_rate": 3.222476190476191e-06, "loss": 0.233, "step": 21550 }, { "epoch": 5.753333333333333, "grad_norm": 8.911355972290039, "learning_rate": 3.212952380952381e-06, "loss": 0.2149, "step": 21575 }, { "epoch": 5.76, "grad_norm": 11.683385848999023, "learning_rate": 3.2034285714285717e-06, "loss": 0.2454, "step": 21600 }, { "epoch": 5.766666666666667, "grad_norm": 7.494990825653076, "learning_rate": 3.193904761904762e-06, "loss": 0.2193, "step": 21625 }, { "epoch": 5.773333333333333, "grad_norm": 9.690966606140137, "learning_rate": 3.1843809523809525e-06, "loss": 0.2187, "step": 21650 }, { "epoch": 5.78, "grad_norm": 7.515288829803467, "learning_rate": 3.1748571428571428e-06, "loss": 0.2312, "step": 21675 }, { "epoch": 5.786666666666667, "grad_norm": 10.707686424255371, "learning_rate": 3.1653333333333334e-06, "loss": 0.2356, "step": 21700 }, { "epoch": 5.793333333333333, "grad_norm": 9.02081298828125, "learning_rate": 3.1558095238095245e-06, "loss": 0.2282, "step": 21725 }, { "epoch": 5.8, "grad_norm": 8.740599632263184, "learning_rate": 3.1462857142857147e-06, "loss": 0.202, "step": 21750 }, { "epoch": 5.806666666666667, "grad_norm": 9.082036972045898, "learning_rate": 3.1367619047619054e-06, "loss": 0.2193, "step": 21775 }, { "epoch": 5.8133333333333335, "grad_norm": 6.804386615753174, "learning_rate": 3.1272380952380956e-06, "loss": 0.2249, "step": 21800 }, { "epoch": 5.82, "grad_norm": 8.412642478942871, "learning_rate": 3.1177142857142862e-06, "loss": 0.2233, "step": 21825 }, { "epoch": 5.826666666666666, "grad_norm": 7.969455242156982, "learning_rate": 3.1081904761904764e-06, "loss": 0.2218, "step": 21850 }, { "epoch": 5.833333333333333, "grad_norm": 8.209216117858887, "learning_rate": 3.098666666666667e-06, "loss": 0.2215, "step": 21875 }, { "epoch": 5.84, "grad_norm": 9.645548820495605, "learning_rate": 3.0891428571428573e-06, "loss": 0.2243, "step": 21900 }, { "epoch": 5.846666666666667, "grad_norm": 8.559307098388672, "learning_rate": 3.08e-06, "loss": 0.2393, "step": 21925 }, { "epoch": 5.8533333333333335, "grad_norm": 6.619805812835693, "learning_rate": 3.070476190476191e-06, "loss": 0.224, "step": 21950 }, { "epoch": 5.86, "grad_norm": 7.507440567016602, "learning_rate": 3.060952380952381e-06, "loss": 0.2416, "step": 21975 }, { "epoch": 5.866666666666667, "grad_norm": 7.9469218254089355, "learning_rate": 3.0514285714285717e-06, "loss": 0.211, "step": 22000 }, { "epoch": 5.873333333333333, "grad_norm": 7.1132097244262695, "learning_rate": 3.041904761904762e-06, "loss": 0.2181, "step": 22025 }, { "epoch": 5.88, "grad_norm": 8.419143676757812, "learning_rate": 3.0323809523809526e-06, "loss": 0.2121, "step": 22050 }, { "epoch": 5.886666666666667, "grad_norm": 7.826694011688232, "learning_rate": 3.0228571428571428e-06, "loss": 0.2142, "step": 22075 }, { "epoch": 5.8933333333333335, "grad_norm": 8.576140403747559, "learning_rate": 3.013333333333334e-06, "loss": 0.2112, "step": 22100 }, { "epoch": 5.9, "grad_norm": 7.193573951721191, "learning_rate": 3.0038095238095236e-06, "loss": 0.2269, "step": 22125 }, { "epoch": 5.906666666666666, "grad_norm": 9.3181791305542, "learning_rate": 2.9942857142857147e-06, "loss": 0.2099, "step": 22150 }, { "epoch": 5.913333333333333, "grad_norm": 8.334545135498047, "learning_rate": 2.984761904761905e-06, "loss": 0.2084, "step": 22175 }, { "epoch": 5.92, "grad_norm": 8.288956642150879, "learning_rate": 2.9752380952380956e-06, "loss": 0.2507, "step": 22200 }, { "epoch": 5.926666666666667, "grad_norm": 8.775572776794434, "learning_rate": 2.9657142857142862e-06, "loss": 0.2209, "step": 22225 }, { "epoch": 5.933333333333334, "grad_norm": 7.785128116607666, "learning_rate": 2.9561904761904765e-06, "loss": 0.2161, "step": 22250 }, { "epoch": 5.9399999999999995, "grad_norm": 7.6399006843566895, "learning_rate": 2.946666666666667e-06, "loss": 0.2188, "step": 22275 }, { "epoch": 5.946666666666666, "grad_norm": 7.668445587158203, "learning_rate": 2.9371428571428573e-06, "loss": 0.2061, "step": 22300 }, { "epoch": 5.953333333333333, "grad_norm": 8.001508712768555, "learning_rate": 2.927619047619048e-06, "loss": 0.214, "step": 22325 }, { "epoch": 5.96, "grad_norm": 7.862168312072754, "learning_rate": 2.918095238095238e-06, "loss": 0.2133, "step": 22350 }, { "epoch": 5.966666666666667, "grad_norm": 8.718120574951172, "learning_rate": 2.908571428571429e-06, "loss": 0.2083, "step": 22375 }, { "epoch": 5.973333333333334, "grad_norm": 7.742615699768066, "learning_rate": 2.899047619047619e-06, "loss": 0.2075, "step": 22400 }, { "epoch": 5.98, "grad_norm": 9.678330421447754, "learning_rate": 2.8895238095238097e-06, "loss": 0.2024, "step": 22425 }, { "epoch": 5.986666666666666, "grad_norm": 8.428861618041992, "learning_rate": 2.88e-06, "loss": 0.2231, "step": 22450 }, { "epoch": 5.993333333333333, "grad_norm": 11.3363676071167, "learning_rate": 2.8704761904761906e-06, "loss": 0.2373, "step": 22475 }, { "epoch": 6.0, "grad_norm": 9.848246574401855, "learning_rate": 2.860952380952381e-06, "loss": 0.2109, "step": 22500 }, { "epoch": 6.0, "eval_cer": 27.698786873637328, "eval_loss": 0.4639749526977539, "eval_runtime": 1307.7658, "eval_samples_per_second": 3.823, "eval_steps_per_second": 0.478, "step": 22500 }, { "epoch": 6.006666666666667, "grad_norm": 6.828606605529785, "learning_rate": 2.8514285714285715e-06, "loss": 0.1473, "step": 22525 }, { "epoch": 6.013333333333334, "grad_norm": 7.583554744720459, "learning_rate": 2.8419047619047625e-06, "loss": 0.1592, "step": 22550 }, { "epoch": 6.02, "grad_norm": 6.629754066467285, "learning_rate": 2.8323809523809528e-06, "loss": 0.1451, "step": 22575 }, { "epoch": 6.026666666666666, "grad_norm": 6.695368766784668, "learning_rate": 2.8228571428571434e-06, "loss": 0.1481, "step": 22600 }, { "epoch": 6.033333333333333, "grad_norm": 10.695497512817383, "learning_rate": 2.8133333333333336e-06, "loss": 0.1608, "step": 22625 }, { "epoch": 6.04, "grad_norm": 5.901602745056152, "learning_rate": 2.8038095238095243e-06, "loss": 0.1475, "step": 22650 }, { "epoch": 6.046666666666667, "grad_norm": 6.500913619995117, "learning_rate": 2.7942857142857145e-06, "loss": 0.153, "step": 22675 }, { "epoch": 6.053333333333334, "grad_norm": 7.448944091796875, "learning_rate": 2.784761904761905e-06, "loss": 0.1548, "step": 22700 }, { "epoch": 6.06, "grad_norm": 8.235268592834473, "learning_rate": 2.7752380952380954e-06, "loss": 0.1372, "step": 22725 }, { "epoch": 6.066666666666666, "grad_norm": 7.33930778503418, "learning_rate": 2.765714285714286e-06, "loss": 0.1515, "step": 22750 }, { "epoch": 6.073333333333333, "grad_norm": 6.65372371673584, "learning_rate": 2.7561904761904763e-06, "loss": 0.159, "step": 22775 }, { "epoch": 6.08, "grad_norm": 5.619322776794434, "learning_rate": 2.746666666666667e-06, "loss": 0.1475, "step": 22800 }, { "epoch": 6.086666666666667, "grad_norm": 5.636999607086182, "learning_rate": 2.737142857142857e-06, "loss": 0.1402, "step": 22825 }, { "epoch": 6.093333333333334, "grad_norm": 6.258646488189697, "learning_rate": 2.7276190476190478e-06, "loss": 0.1313, "step": 22850 }, { "epoch": 6.1, "grad_norm": 6.453850269317627, "learning_rate": 2.7180952380952384e-06, "loss": 0.1502, "step": 22875 }, { "epoch": 6.1066666666666665, "grad_norm": 7.0990495681762695, "learning_rate": 2.7085714285714287e-06, "loss": 0.1439, "step": 22900 }, { "epoch": 6.113333333333333, "grad_norm": 4.959884166717529, "learning_rate": 2.6990476190476193e-06, "loss": 0.1408, "step": 22925 }, { "epoch": 6.12, "grad_norm": 8.31031608581543, "learning_rate": 2.6895238095238095e-06, "loss": 0.1454, "step": 22950 }, { "epoch": 6.126666666666667, "grad_norm": 6.5111823081970215, "learning_rate": 2.68e-06, "loss": 0.1499, "step": 22975 }, { "epoch": 6.133333333333334, "grad_norm": 7.66798734664917, "learning_rate": 2.6704761904761904e-06, "loss": 0.1501, "step": 23000 }, { "epoch": 6.14, "grad_norm": 7.889300346374512, "learning_rate": 2.6609523809523815e-06, "loss": 0.1553, "step": 23025 }, { "epoch": 6.1466666666666665, "grad_norm": 6.296180248260498, "learning_rate": 2.6514285714285713e-06, "loss": 0.1524, "step": 23050 }, { "epoch": 6.153333333333333, "grad_norm": 6.24880838394165, "learning_rate": 2.6419047619047623e-06, "loss": 0.1571, "step": 23075 }, { "epoch": 6.16, "grad_norm": 8.156044006347656, "learning_rate": 2.6323809523809526e-06, "loss": 0.1504, "step": 23100 }, { "epoch": 6.166666666666667, "grad_norm": 9.630953788757324, "learning_rate": 2.6228571428571432e-06, "loss": 0.1466, "step": 23125 }, { "epoch": 6.173333333333334, "grad_norm": 6.756717681884766, "learning_rate": 2.6133333333333334e-06, "loss": 0.1369, "step": 23150 }, { "epoch": 6.18, "grad_norm": 8.016380310058594, "learning_rate": 2.603809523809524e-06, "loss": 0.1661, "step": 23175 }, { "epoch": 6.1866666666666665, "grad_norm": 6.940490245819092, "learning_rate": 2.5942857142857147e-06, "loss": 0.149, "step": 23200 }, { "epoch": 6.193333333333333, "grad_norm": 6.749453067779541, "learning_rate": 2.584761904761905e-06, "loss": 0.1478, "step": 23225 }, { "epoch": 6.2, "grad_norm": 7.48594856262207, "learning_rate": 2.5752380952380956e-06, "loss": 0.1498, "step": 23250 }, { "epoch": 6.206666666666667, "grad_norm": 7.766091823577881, "learning_rate": 2.565714285714286e-06, "loss": 0.157, "step": 23275 }, { "epoch": 6.213333333333333, "grad_norm": 7.474206447601318, "learning_rate": 2.5561904761904765e-06, "loss": 0.1438, "step": 23300 }, { "epoch": 6.22, "grad_norm": 6.5319037437438965, "learning_rate": 2.5466666666666667e-06, "loss": 0.1489, "step": 23325 }, { "epoch": 6.226666666666667, "grad_norm": 5.990884304046631, "learning_rate": 2.5371428571428574e-06, "loss": 0.1459, "step": 23350 }, { "epoch": 6.233333333333333, "grad_norm": 6.066216468811035, "learning_rate": 2.5276190476190476e-06, "loss": 0.1373, "step": 23375 }, { "epoch": 6.24, "grad_norm": 7.586083889007568, "learning_rate": 2.5180952380952382e-06, "loss": 0.1544, "step": 23400 }, { "epoch": 6.246666666666667, "grad_norm": 7.357358455657959, "learning_rate": 2.5085714285714285e-06, "loss": 0.1603, "step": 23425 }, { "epoch": 6.253333333333333, "grad_norm": 9.465551376342773, "learning_rate": 2.499047619047619e-06, "loss": 0.1519, "step": 23450 }, { "epoch": 6.26, "grad_norm": 8.907388687133789, "learning_rate": 2.4895238095238097e-06, "loss": 0.1489, "step": 23475 }, { "epoch": 6.266666666666667, "grad_norm": 6.6086506843566895, "learning_rate": 2.4800000000000004e-06, "loss": 0.1368, "step": 23500 }, { "epoch": 6.273333333333333, "grad_norm": 15.552327156066895, "learning_rate": 2.4704761904761906e-06, "loss": 0.1527, "step": 23525 }, { "epoch": 6.28, "grad_norm": 5.629271507263184, "learning_rate": 2.4609523809523813e-06, "loss": 0.1603, "step": 23550 }, { "epoch": 6.286666666666667, "grad_norm": 6.879458904266357, "learning_rate": 2.4514285714285715e-06, "loss": 0.1506, "step": 23575 }, { "epoch": 6.293333333333333, "grad_norm": 7.445820331573486, "learning_rate": 2.441904761904762e-06, "loss": 0.1383, "step": 23600 }, { "epoch": 6.3, "grad_norm": 6.346275806427002, "learning_rate": 2.4323809523809524e-06, "loss": 0.1517, "step": 23625 }, { "epoch": 6.306666666666667, "grad_norm": 6.801636695861816, "learning_rate": 2.422857142857143e-06, "loss": 0.1553, "step": 23650 }, { "epoch": 6.3133333333333335, "grad_norm": 7.590903282165527, "learning_rate": 2.4133333333333337e-06, "loss": 0.1485, "step": 23675 }, { "epoch": 6.32, "grad_norm": 7.595372200012207, "learning_rate": 2.403809523809524e-06, "loss": 0.1408, "step": 23700 }, { "epoch": 6.326666666666666, "grad_norm": 5.52703332901001, "learning_rate": 2.3942857142857145e-06, "loss": 0.1464, "step": 23725 }, { "epoch": 6.333333333333333, "grad_norm": 7.950026035308838, "learning_rate": 2.384761904761905e-06, "loss": 0.1528, "step": 23750 }, { "epoch": 6.34, "grad_norm": 7.044869422912598, "learning_rate": 2.3752380952380954e-06, "loss": 0.1481, "step": 23775 }, { "epoch": 6.346666666666667, "grad_norm": 7.870743751525879, "learning_rate": 2.365714285714286e-06, "loss": 0.1435, "step": 23800 }, { "epoch": 6.3533333333333335, "grad_norm": 5.728346824645996, "learning_rate": 2.3561904761904763e-06, "loss": 0.1507, "step": 23825 }, { "epoch": 6.36, "grad_norm": 5.97953987121582, "learning_rate": 2.346666666666667e-06, "loss": 0.1581, "step": 23850 }, { "epoch": 6.366666666666666, "grad_norm": 7.527473449707031, "learning_rate": 2.337142857142857e-06, "loss": 0.1445, "step": 23875 }, { "epoch": 6.373333333333333, "grad_norm": 8.50522518157959, "learning_rate": 2.327619047619048e-06, "loss": 0.1406, "step": 23900 }, { "epoch": 6.38, "grad_norm": 7.471935272216797, "learning_rate": 2.318095238095238e-06, "loss": 0.1489, "step": 23925 }, { "epoch": 6.386666666666667, "grad_norm": 6.81733512878418, "learning_rate": 2.3085714285714287e-06, "loss": 0.1455, "step": 23950 }, { "epoch": 6.3933333333333335, "grad_norm": 8.549968719482422, "learning_rate": 2.2990476190476193e-06, "loss": 0.1516, "step": 23975 }, { "epoch": 6.4, "grad_norm": 5.8337082862854, "learning_rate": 2.28952380952381e-06, "loss": 0.1393, "step": 24000 }, { "epoch": 6.406666666666666, "grad_norm": 7.259616851806641, "learning_rate": 2.28e-06, "loss": 0.1537, "step": 24025 }, { "epoch": 6.413333333333333, "grad_norm": 7.572646617889404, "learning_rate": 2.270476190476191e-06, "loss": 0.1534, "step": 24050 }, { "epoch": 6.42, "grad_norm": 7.032924175262451, "learning_rate": 2.260952380952381e-06, "loss": 0.1521, "step": 24075 }, { "epoch": 6.426666666666667, "grad_norm": 6.181640625, "learning_rate": 2.2514285714285717e-06, "loss": 0.1553, "step": 24100 }, { "epoch": 6.433333333333334, "grad_norm": 7.344717025756836, "learning_rate": 2.241904761904762e-06, "loss": 0.1525, "step": 24125 }, { "epoch": 6.44, "grad_norm": 7.782438278198242, "learning_rate": 2.2323809523809526e-06, "loss": 0.1447, "step": 24150 }, { "epoch": 6.446666666666666, "grad_norm": 7.844809532165527, "learning_rate": 2.222857142857143e-06, "loss": 0.1517, "step": 24175 }, { "epoch": 6.453333333333333, "grad_norm": 5.486522674560547, "learning_rate": 2.2133333333333335e-06, "loss": 0.1588, "step": 24200 }, { "epoch": 6.46, "grad_norm": 6.44978141784668, "learning_rate": 2.203809523809524e-06, "loss": 0.1512, "step": 24225 }, { "epoch": 6.466666666666667, "grad_norm": 7.095521450042725, "learning_rate": 2.1942857142857143e-06, "loss": 0.1522, "step": 24250 }, { "epoch": 6.473333333333334, "grad_norm": 7.050187587738037, "learning_rate": 2.184761904761905e-06, "loss": 0.149, "step": 24275 }, { "epoch": 6.48, "grad_norm": 8.001523971557617, "learning_rate": 2.1752380952380956e-06, "loss": 0.1534, "step": 24300 }, { "epoch": 6.486666666666666, "grad_norm": 6.425968170166016, "learning_rate": 2.165714285714286e-06, "loss": 0.1422, "step": 24325 }, { "epoch": 6.493333333333333, "grad_norm": 8.42577838897705, "learning_rate": 2.1561904761904765e-06, "loss": 0.1549, "step": 24350 }, { "epoch": 6.5, "grad_norm": 7.254266262054443, "learning_rate": 2.1466666666666667e-06, "loss": 0.1552, "step": 24375 }, { "epoch": 6.506666666666667, "grad_norm": 7.857077598571777, "learning_rate": 2.1371428571428574e-06, "loss": 0.1574, "step": 24400 }, { "epoch": 6.513333333333334, "grad_norm": 5.6290602684021, "learning_rate": 2.1276190476190476e-06, "loss": 0.1557, "step": 24425 }, { "epoch": 6.52, "grad_norm": 5.486408233642578, "learning_rate": 2.1180952380952382e-06, "loss": 0.1451, "step": 24450 }, { "epoch": 6.526666666666666, "grad_norm": 8.579984664916992, "learning_rate": 2.108571428571429e-06, "loss": 0.1665, "step": 24475 }, { "epoch": 6.533333333333333, "grad_norm": 6.072978973388672, "learning_rate": 2.099047619047619e-06, "loss": 0.141, "step": 24500 }, { "epoch": 6.54, "grad_norm": 7.539400100708008, "learning_rate": 2.0895238095238098e-06, "loss": 0.1372, "step": 24525 }, { "epoch": 6.546666666666667, "grad_norm": 5.659696102142334, "learning_rate": 2.08e-06, "loss": 0.1553, "step": 24550 }, { "epoch": 6.553333333333334, "grad_norm": 7.039005279541016, "learning_rate": 2.0704761904761906e-06, "loss": 0.1572, "step": 24575 }, { "epoch": 6.5600000000000005, "grad_norm": 7.570683002471924, "learning_rate": 2.0609523809523813e-06, "loss": 0.1545, "step": 24600 }, { "epoch": 6.566666666666666, "grad_norm": 10.776747703552246, "learning_rate": 2.0514285714285715e-06, "loss": 0.1612, "step": 24625 }, { "epoch": 6.573333333333333, "grad_norm": 7.837728500366211, "learning_rate": 2.041904761904762e-06, "loss": 0.1301, "step": 24650 }, { "epoch": 6.58, "grad_norm": 6.640161514282227, "learning_rate": 2.032380952380953e-06, "loss": 0.1422, "step": 24675 }, { "epoch": 6.586666666666667, "grad_norm": 7.3035383224487305, "learning_rate": 2.022857142857143e-06, "loss": 0.1492, "step": 24700 }, { "epoch": 6.593333333333334, "grad_norm": 5.845125198364258, "learning_rate": 2.0133333333333337e-06, "loss": 0.1442, "step": 24725 }, { "epoch": 6.6, "grad_norm": 6.5024237632751465, "learning_rate": 2.003809523809524e-06, "loss": 0.1427, "step": 24750 }, { "epoch": 6.6066666666666665, "grad_norm": 6.098844051361084, "learning_rate": 1.9942857142857146e-06, "loss": 0.1439, "step": 24775 }, { "epoch": 6.613333333333333, "grad_norm": 6.284074783325195, "learning_rate": 1.9847619047619048e-06, "loss": 0.1557, "step": 24800 }, { "epoch": 6.62, "grad_norm": 6.099598407745361, "learning_rate": 1.9752380952380954e-06, "loss": 0.1473, "step": 24825 }, { "epoch": 6.626666666666667, "grad_norm": 5.94622278213501, "learning_rate": 1.9657142857142856e-06, "loss": 0.1451, "step": 24850 }, { "epoch": 6.633333333333333, "grad_norm": 6.440552711486816, "learning_rate": 1.9561904761904763e-06, "loss": 0.1441, "step": 24875 }, { "epoch": 6.64, "grad_norm": 7.378450870513916, "learning_rate": 1.9466666666666665e-06, "loss": 0.1486, "step": 24900 }, { "epoch": 6.6466666666666665, "grad_norm": 7.62071418762207, "learning_rate": 1.9371428571428576e-06, "loss": 0.1568, "step": 24925 }, { "epoch": 6.653333333333333, "grad_norm": 5.293549060821533, "learning_rate": 1.927619047619048e-06, "loss": 0.1478, "step": 24950 }, { "epoch": 6.66, "grad_norm": 5.74029541015625, "learning_rate": 1.9180952380952385e-06, "loss": 0.1403, "step": 24975 }, { "epoch": 6.666666666666667, "grad_norm": 7.335737228393555, "learning_rate": 1.9085714285714287e-06, "loss": 0.1571, "step": 25000 }, { "epoch": 6.673333333333334, "grad_norm": 8.554529190063477, "learning_rate": 1.8990476190476193e-06, "loss": 0.1423, "step": 25025 }, { "epoch": 6.68, "grad_norm": 6.431390762329102, "learning_rate": 1.8895238095238098e-06, "loss": 0.1486, "step": 25050 }, { "epoch": 6.6866666666666665, "grad_norm": 6.33029317855835, "learning_rate": 1.8800000000000002e-06, "loss": 0.1409, "step": 25075 }, { "epoch": 6.693333333333333, "grad_norm": 7.478055477142334, "learning_rate": 1.8704761904761906e-06, "loss": 0.1561, "step": 25100 }, { "epoch": 6.7, "grad_norm": 7.617250442504883, "learning_rate": 1.860952380952381e-06, "loss": 0.1436, "step": 25125 }, { "epoch": 6.706666666666667, "grad_norm": 7.979248523712158, "learning_rate": 1.8514285714285715e-06, "loss": 0.1536, "step": 25150 }, { "epoch": 6.713333333333333, "grad_norm": 6.918525218963623, "learning_rate": 1.841904761904762e-06, "loss": 0.1484, "step": 25175 }, { "epoch": 6.72, "grad_norm": 7.713553428649902, "learning_rate": 1.8323809523809524e-06, "loss": 0.147, "step": 25200 }, { "epoch": 6.726666666666667, "grad_norm": 4.918476104736328, "learning_rate": 1.8228571428571428e-06, "loss": 0.1449, "step": 25225 }, { "epoch": 6.733333333333333, "grad_norm": 8.247567176818848, "learning_rate": 1.8133333333333337e-06, "loss": 0.1404, "step": 25250 }, { "epoch": 6.74, "grad_norm": 7.025756359100342, "learning_rate": 1.8038095238095241e-06, "loss": 0.1416, "step": 25275 }, { "epoch": 6.746666666666667, "grad_norm": 7.044239521026611, "learning_rate": 1.7942857142857146e-06, "loss": 0.1404, "step": 25300 }, { "epoch": 6.753333333333333, "grad_norm": 7.16432523727417, "learning_rate": 1.784761904761905e-06, "loss": 0.1643, "step": 25325 }, { "epoch": 6.76, "grad_norm": 6.541103363037109, "learning_rate": 1.7752380952380954e-06, "loss": 0.1437, "step": 25350 }, { "epoch": 6.766666666666667, "grad_norm": 7.754510402679443, "learning_rate": 1.7657142857142859e-06, "loss": 0.1383, "step": 25375 }, { "epoch": 6.773333333333333, "grad_norm": 4.995385646820068, "learning_rate": 1.7561904761904763e-06, "loss": 0.1434, "step": 25400 }, { "epoch": 6.78, "grad_norm": 6.967080116271973, "learning_rate": 1.7466666666666667e-06, "loss": 0.1267, "step": 25425 }, { "epoch": 6.786666666666667, "grad_norm": 8.100417137145996, "learning_rate": 1.7371428571428572e-06, "loss": 0.1486, "step": 25450 }, { "epoch": 6.793333333333333, "grad_norm": 7.859476089477539, "learning_rate": 1.7276190476190476e-06, "loss": 0.1512, "step": 25475 }, { "epoch": 6.8, "grad_norm": 7.195878028869629, "learning_rate": 1.718095238095238e-06, "loss": 0.1714, "step": 25500 }, { "epoch": 6.806666666666667, "grad_norm": 5.059131622314453, "learning_rate": 1.7085714285714287e-06, "loss": 0.1378, "step": 25525 }, { "epoch": 6.8133333333333335, "grad_norm": 5.0146284103393555, "learning_rate": 1.6990476190476191e-06, "loss": 0.1359, "step": 25550 }, { "epoch": 6.82, "grad_norm": 6.338350296020508, "learning_rate": 1.6895238095238098e-06, "loss": 0.1483, "step": 25575 }, { "epoch": 6.826666666666666, "grad_norm": 6.440115928649902, "learning_rate": 1.6800000000000002e-06, "loss": 0.1437, "step": 25600 }, { "epoch": 6.833333333333333, "grad_norm": 5.382914066314697, "learning_rate": 1.6704761904761907e-06, "loss": 0.1508, "step": 25625 }, { "epoch": 6.84, "grad_norm": 9.502314567565918, "learning_rate": 1.660952380952381e-06, "loss": 0.1522, "step": 25650 }, { "epoch": 6.846666666666667, "grad_norm": 6.808150768280029, "learning_rate": 1.6514285714285715e-06, "loss": 0.1455, "step": 25675 }, { "epoch": 6.8533333333333335, "grad_norm": 6.782390594482422, "learning_rate": 1.641904761904762e-06, "loss": 0.1654, "step": 25700 }, { "epoch": 6.86, "grad_norm": 7.033082485198975, "learning_rate": 1.6323809523809526e-06, "loss": 0.1476, "step": 25725 }, { "epoch": 6.866666666666667, "grad_norm": 6.357869625091553, "learning_rate": 1.6232380952380954e-06, "loss": 0.1491, "step": 25750 }, { "epoch": 6.873333333333333, "grad_norm": 8.880083084106445, "learning_rate": 1.6137142857142859e-06, "loss": 0.1449, "step": 25775 }, { "epoch": 6.88, "grad_norm": 6.306439399719238, "learning_rate": 1.6041904761904763e-06, "loss": 0.1362, "step": 25800 }, { "epoch": 6.886666666666667, "grad_norm": 6.350951194763184, "learning_rate": 1.5946666666666668e-06, "loss": 0.1413, "step": 25825 }, { "epoch": 6.8933333333333335, "grad_norm": 7.2438435554504395, "learning_rate": 1.5851428571428574e-06, "loss": 0.1372, "step": 25850 }, { "epoch": 6.9, "grad_norm": 4.662027359008789, "learning_rate": 1.5756190476190478e-06, "loss": 0.1309, "step": 25875 }, { "epoch": 6.906666666666666, "grad_norm": 7.620100975036621, "learning_rate": 1.5660952380952383e-06, "loss": 0.1444, "step": 25900 }, { "epoch": 6.913333333333333, "grad_norm": 5.725461483001709, "learning_rate": 1.5565714285714287e-06, "loss": 0.1377, "step": 25925 }, { "epoch": 6.92, "grad_norm": 6.3645124435424805, "learning_rate": 1.5470476190476192e-06, "loss": 0.1427, "step": 25950 }, { "epoch": 6.926666666666667, "grad_norm": 6.6142578125, "learning_rate": 1.5375238095238096e-06, "loss": 0.1484, "step": 25975 }, { "epoch": 6.933333333333334, "grad_norm": 5.590566635131836, "learning_rate": 1.528e-06, "loss": 0.1515, "step": 26000 }, { "epoch": 6.9399999999999995, "grad_norm": 8.096341133117676, "learning_rate": 1.5184761904761905e-06, "loss": 0.1612, "step": 26025 }, { "epoch": 6.946666666666666, "grad_norm": 7.329565048217773, "learning_rate": 1.508952380952381e-06, "loss": 0.147, "step": 26050 }, { "epoch": 6.953333333333333, "grad_norm": 7.864452838897705, "learning_rate": 1.4994285714285718e-06, "loss": 0.1439, "step": 26075 }, { "epoch": 6.96, "grad_norm": 7.4006757736206055, "learning_rate": 1.4899047619047622e-06, "loss": 0.1389, "step": 26100 }, { "epoch": 6.966666666666667, "grad_norm": 8.068634033203125, "learning_rate": 1.4803809523809526e-06, "loss": 0.1426, "step": 26125 }, { "epoch": 6.973333333333334, "grad_norm": 8.207915306091309, "learning_rate": 1.470857142857143e-06, "loss": 0.1472, "step": 26150 }, { "epoch": 6.98, "grad_norm": 6.367456912994385, "learning_rate": 1.4613333333333335e-06, "loss": 0.158, "step": 26175 }, { "epoch": 6.986666666666666, "grad_norm": 7.144924640655518, "learning_rate": 1.451809523809524e-06, "loss": 0.1463, "step": 26200 }, { "epoch": 6.993333333333333, "grad_norm": 6.264813423156738, "learning_rate": 1.4422857142857144e-06, "loss": 0.1485, "step": 26225 }, { "epoch": 7.0, "grad_norm": 5.573395729064941, "learning_rate": 1.4327619047619048e-06, "loss": 0.1365, "step": 26250 }, { "epoch": 7.0, "eval_cer": 27.534800514320857, "eval_loss": 0.4580024778842926, "eval_runtime": 1338.6568, "eval_samples_per_second": 3.735, "eval_steps_per_second": 0.467, "step": 26250 }, { "epoch": 7.006666666666667, "grad_norm": 4.8557047843933105, "learning_rate": 1.4232380952380952e-06, "loss": 0.1028, "step": 26275 }, { "epoch": 7.013333333333334, "grad_norm": 6.244855880737305, "learning_rate": 1.4137142857142857e-06, "loss": 0.107, "step": 26300 }, { "epoch": 7.02, "grad_norm": 5.331733703613281, "learning_rate": 1.4041904761904761e-06, "loss": 0.1076, "step": 26325 }, { "epoch": 7.026666666666666, "grad_norm": 5.44589376449585, "learning_rate": 1.3946666666666668e-06, "loss": 0.1086, "step": 26350 }, { "epoch": 7.033333333333333, "grad_norm": 5.141024589538574, "learning_rate": 1.3851428571428572e-06, "loss": 0.0957, "step": 26375 }, { "epoch": 7.04, "grad_norm": 5.1319661140441895, "learning_rate": 1.3756190476190479e-06, "loss": 0.1088, "step": 26400 }, { "epoch": 7.046666666666667, "grad_norm": 5.781662940979004, "learning_rate": 1.3660952380952383e-06, "loss": 0.0979, "step": 26425 }, { "epoch": 7.053333333333334, "grad_norm": 5.630579948425293, "learning_rate": 1.3565714285714287e-06, "loss": 0.1095, "step": 26450 }, { "epoch": 7.06, "grad_norm": 5.394562244415283, "learning_rate": 1.3474285714285716e-06, "loss": 0.1106, "step": 26475 }, { "epoch": 7.066666666666666, "grad_norm": 7.5741472244262695, "learning_rate": 1.337904761904762e-06, "loss": 0.112, "step": 26500 }, { "epoch": 7.073333333333333, "grad_norm": 6.137536525726318, "learning_rate": 1.3283809523809524e-06, "loss": 0.097, "step": 26525 }, { "epoch": 7.08, "grad_norm": 6.371441841125488, "learning_rate": 1.3188571428571429e-06, "loss": 0.0992, "step": 26550 }, { "epoch": 7.086666666666667, "grad_norm": 4.742753982543945, "learning_rate": 1.3093333333333335e-06, "loss": 0.0947, "step": 26575 }, { "epoch": 7.093333333333334, "grad_norm": 5.5496087074279785, "learning_rate": 1.299809523809524e-06, "loss": 0.0985, "step": 26600 }, { "epoch": 7.1, "grad_norm": 4.753469467163086, "learning_rate": 1.2902857142857144e-06, "loss": 0.0988, "step": 26625 }, { "epoch": 7.1066666666666665, "grad_norm": 6.021629810333252, "learning_rate": 1.2807619047619048e-06, "loss": 0.1083, "step": 26650 }, { "epoch": 7.113333333333333, "grad_norm": 5.6006293296813965, "learning_rate": 1.2712380952380955e-06, "loss": 0.0983, "step": 26675 }, { "epoch": 7.12, "grad_norm": 5.76764440536499, "learning_rate": 1.261714285714286e-06, "loss": 0.1042, "step": 26700 }, { "epoch": 7.126666666666667, "grad_norm": 4.539541244506836, "learning_rate": 1.2521904761904763e-06, "loss": 0.0986, "step": 26725 }, { "epoch": 7.133333333333334, "grad_norm": 8.18603801727295, "learning_rate": 1.2426666666666668e-06, "loss": 0.1025, "step": 26750 }, { "epoch": 7.14, "grad_norm": 6.612101078033447, "learning_rate": 1.2331428571428572e-06, "loss": 0.1126, "step": 26775 }, { "epoch": 7.1466666666666665, "grad_norm": 6.408851146697998, "learning_rate": 1.2236190476190477e-06, "loss": 0.1035, "step": 26800 }, { "epoch": 7.153333333333333, "grad_norm": 4.530457973480225, "learning_rate": 1.2140952380952383e-06, "loss": 0.0948, "step": 26825 }, { "epoch": 7.16, "grad_norm": 5.168616771697998, "learning_rate": 1.2045714285714287e-06, "loss": 0.1114, "step": 26850 }, { "epoch": 7.166666666666667, "grad_norm": 5.781617641448975, "learning_rate": 1.1950476190476192e-06, "loss": 0.1057, "step": 26875 }, { "epoch": 7.173333333333334, "grad_norm": 6.417967319488525, "learning_rate": 1.1855238095238096e-06, "loss": 0.1025, "step": 26900 }, { "epoch": 7.18, "grad_norm": 6.54949951171875, "learning_rate": 1.176e-06, "loss": 0.1047, "step": 26925 }, { "epoch": 7.1866666666666665, "grad_norm": 5.456335544586182, "learning_rate": 1.1664761904761905e-06, "loss": 0.0958, "step": 26950 }, { "epoch": 7.193333333333333, "grad_norm": 7.107601642608643, "learning_rate": 1.1569523809523811e-06, "loss": 0.1016, "step": 26975 }, { "epoch": 7.2, "grad_norm": 6.972559452056885, "learning_rate": 1.1474285714285716e-06, "loss": 0.1116, "step": 27000 }, { "epoch": 7.206666666666667, "grad_norm": 5.878302574157715, "learning_rate": 1.137904761904762e-06, "loss": 0.096, "step": 27025 }, { "epoch": 7.213333333333333, "grad_norm": 4.095868110656738, "learning_rate": 1.1283809523809524e-06, "loss": 0.093, "step": 27050 }, { "epoch": 7.22, "grad_norm": 3.9919233322143555, "learning_rate": 1.1188571428571429e-06, "loss": 0.105, "step": 27075 }, { "epoch": 7.226666666666667, "grad_norm": 6.411441326141357, "learning_rate": 1.1093333333333333e-06, "loss": 0.0995, "step": 27100 }, { "epoch": 7.233333333333333, "grad_norm": 4.915976524353027, "learning_rate": 1.099809523809524e-06, "loss": 0.0932, "step": 27125 }, { "epoch": 7.24, "grad_norm": 5.091182231903076, "learning_rate": 1.0902857142857144e-06, "loss": 0.1018, "step": 27150 }, { "epoch": 7.246666666666667, "grad_norm": 6.451296329498291, "learning_rate": 1.0807619047619048e-06, "loss": 0.1081, "step": 27175 }, { "epoch": 7.253333333333333, "grad_norm": 5.426690578460693, "learning_rate": 1.0712380952380953e-06, "loss": 0.1009, "step": 27200 }, { "epoch": 7.26, "grad_norm": 5.850121021270752, "learning_rate": 1.0617142857142857e-06, "loss": 0.1092, "step": 27225 }, { "epoch": 7.266666666666667, "grad_norm": 4.60863733291626, "learning_rate": 1.0521904761904761e-06, "loss": 0.109, "step": 27250 }, { "epoch": 7.273333333333333, "grad_norm": 5.995533466339111, "learning_rate": 1.0426666666666668e-06, "loss": 0.0977, "step": 27275 }, { "epoch": 7.28, "grad_norm": 5.610628604888916, "learning_rate": 1.0331428571428572e-06, "loss": 0.0953, "step": 27300 }, { "epoch": 7.286666666666667, "grad_norm": 6.171587944030762, "learning_rate": 1.0236190476190477e-06, "loss": 0.1036, "step": 27325 }, { "epoch": 7.293333333333333, "grad_norm": 5.549402713775635, "learning_rate": 1.014095238095238e-06, "loss": 0.1091, "step": 27350 }, { "epoch": 7.3, "grad_norm": 6.277771472930908, "learning_rate": 1.0045714285714285e-06, "loss": 0.1237, "step": 27375 }, { "epoch": 7.306666666666667, "grad_norm": 6.155930042266846, "learning_rate": 9.950476190476192e-07, "loss": 0.1112, "step": 27400 }, { "epoch": 7.3133333333333335, "grad_norm": 6.675112247467041, "learning_rate": 9.855238095238096e-07, "loss": 0.1047, "step": 27425 }, { "epoch": 7.32, "grad_norm": 5.316192626953125, "learning_rate": 9.76e-07, "loss": 0.1081, "step": 27450 }, { "epoch": 7.326666666666666, "grad_norm": 5.340700149536133, "learning_rate": 9.664761904761905e-07, "loss": 0.1119, "step": 27475 }, { "epoch": 7.333333333333333, "grad_norm": 4.614721775054932, "learning_rate": 9.569523809523811e-07, "loss": 0.0961, "step": 27500 }, { "epoch": 7.34, "grad_norm": 6.0804123878479, "learning_rate": 9.474285714285715e-07, "loss": 0.1124, "step": 27525 }, { "epoch": 7.346666666666667, "grad_norm": 5.796234130859375, "learning_rate": 9.379047619047619e-07, "loss": 0.0876, "step": 27550 }, { "epoch": 7.3533333333333335, "grad_norm": 5.168522357940674, "learning_rate": 9.283809523809525e-07, "loss": 0.0883, "step": 27575 }, { "epoch": 7.36, "grad_norm": 4.981782913208008, "learning_rate": 9.188571428571429e-07, "loss": 0.093, "step": 27600 }, { "epoch": 7.366666666666666, "grad_norm": 3.9571640491485596, "learning_rate": 9.093333333333334e-07, "loss": 0.1187, "step": 27625 }, { "epoch": 7.373333333333333, "grad_norm": 5.296597957611084, "learning_rate": 8.998095238095239e-07, "loss": 0.1025, "step": 27650 }, { "epoch": 7.38, "grad_norm": 5.612768650054932, "learning_rate": 8.902857142857144e-07, "loss": 0.1125, "step": 27675 }, { "epoch": 7.386666666666667, "grad_norm": 6.152787685394287, "learning_rate": 8.807619047619048e-07, "loss": 0.1079, "step": 27700 }, { "epoch": 7.3933333333333335, "grad_norm": 4.864405155181885, "learning_rate": 8.712380952380953e-07, "loss": 0.1044, "step": 27725 }, { "epoch": 7.4, "grad_norm": 4.57480001449585, "learning_rate": 8.617142857142857e-07, "loss": 0.0965, "step": 27750 }, { "epoch": 7.406666666666666, "grad_norm": 6.288766384124756, "learning_rate": 8.521904761904764e-07, "loss": 0.1052, "step": 27775 }, { "epoch": 7.413333333333333, "grad_norm": 6.1317338943481445, "learning_rate": 8.426666666666668e-07, "loss": 0.1015, "step": 27800 }, { "epoch": 7.42, "grad_norm": 5.133846759796143, "learning_rate": 8.331428571428572e-07, "loss": 0.1, "step": 27825 }, { "epoch": 7.426666666666667, "grad_norm": 5.88638162612915, "learning_rate": 8.236190476190477e-07, "loss": 0.1146, "step": 27850 }, { "epoch": 7.433333333333334, "grad_norm": 5.488973140716553, "learning_rate": 8.140952380952381e-07, "loss": 0.1, "step": 27875 }, { "epoch": 7.44, "grad_norm": 6.180425643920898, "learning_rate": 8.045714285714285e-07, "loss": 0.1117, "step": 27900 }, { "epoch": 7.446666666666666, "grad_norm": 6.80849027633667, "learning_rate": 7.950476190476192e-07, "loss": 0.102, "step": 27925 }, { "epoch": 7.453333333333333, "grad_norm": 3.8493120670318604, "learning_rate": 7.855238095238096e-07, "loss": 0.0964, "step": 27950 }, { "epoch": 7.46, "grad_norm": 4.781039714813232, "learning_rate": 7.760000000000001e-07, "loss": 0.1052, "step": 27975 }, { "epoch": 7.466666666666667, "grad_norm": 3.6695716381073, "learning_rate": 7.664761904761905e-07, "loss": 0.086, "step": 28000 }, { "epoch": 7.473333333333334, "grad_norm": 5.77593994140625, "learning_rate": 7.56952380952381e-07, "loss": 0.0985, "step": 28025 }, { "epoch": 7.48, "grad_norm": 5.14320182800293, "learning_rate": 7.474285714285715e-07, "loss": 0.1008, "step": 28050 }, { "epoch": 7.486666666666666, "grad_norm": 7.023684978485107, "learning_rate": 7.379047619047619e-07, "loss": 0.1025, "step": 28075 }, { "epoch": 7.493333333333333, "grad_norm": 8.001739501953125, "learning_rate": 7.283809523809525e-07, "loss": 0.106, "step": 28100 }, { "epoch": 7.5, "grad_norm": 4.784168243408203, "learning_rate": 7.188571428571429e-07, "loss": 0.106, "step": 28125 }, { "epoch": 7.506666666666667, "grad_norm": 4.666459560394287, "learning_rate": 7.093333333333334e-07, "loss": 0.1021, "step": 28150 }, { "epoch": 7.513333333333334, "grad_norm": 6.073111057281494, "learning_rate": 6.998095238095239e-07, "loss": 0.0946, "step": 28175 }, { "epoch": 7.52, "grad_norm": 5.129397869110107, "learning_rate": 6.902857142857143e-07, "loss": 0.0972, "step": 28200 }, { "epoch": 7.526666666666666, "grad_norm": 5.264807224273682, "learning_rate": 6.807619047619047e-07, "loss": 0.1025, "step": 28225 }, { "epoch": 7.533333333333333, "grad_norm": 5.123986721038818, "learning_rate": 6.712380952380954e-07, "loss": 0.1007, "step": 28250 }, { "epoch": 7.54, "grad_norm": 4.7044219970703125, "learning_rate": 6.617142857142858e-07, "loss": 0.1068, "step": 28275 }, { "epoch": 7.546666666666667, "grad_norm": 5.224925518035889, "learning_rate": 6.521904761904763e-07, "loss": 0.0888, "step": 28300 }, { "epoch": 7.553333333333334, "grad_norm": 6.2229905128479, "learning_rate": 6.426666666666667e-07, "loss": 0.1049, "step": 28325 }, { "epoch": 7.5600000000000005, "grad_norm": 5.250560283660889, "learning_rate": 6.331428571428571e-07, "loss": 0.1119, "step": 28350 }, { "epoch": 7.566666666666666, "grad_norm": 5.204071998596191, "learning_rate": 6.236190476190477e-07, "loss": 0.0925, "step": 28375 }, { "epoch": 7.573333333333333, "grad_norm": 5.91623067855835, "learning_rate": 6.140952380952381e-07, "loss": 0.1067, "step": 28400 }, { "epoch": 7.58, "grad_norm": 5.126018047332764, "learning_rate": 6.045714285714286e-07, "loss": 0.1049, "step": 28425 }, { "epoch": 7.586666666666667, "grad_norm": 5.5662150382995605, "learning_rate": 5.950476190476191e-07, "loss": 0.1055, "step": 28450 }, { "epoch": 7.593333333333334, "grad_norm": 4.561946392059326, "learning_rate": 5.855238095238095e-07, "loss": 0.1117, "step": 28475 }, { "epoch": 7.6, "grad_norm": 4.936454772949219, "learning_rate": 5.760000000000001e-07, "loss": 0.0903, "step": 28500 }, { "epoch": 7.6066666666666665, "grad_norm": 4.698706150054932, "learning_rate": 5.664761904761905e-07, "loss": 0.1065, "step": 28525 }, { "epoch": 7.613333333333333, "grad_norm": 5.614552021026611, "learning_rate": 5.569523809523811e-07, "loss": 0.1058, "step": 28550 }, { "epoch": 7.62, "grad_norm": 4.720293998718262, "learning_rate": 5.474285714285715e-07, "loss": 0.1038, "step": 28575 }, { "epoch": 7.626666666666667, "grad_norm": 7.08539342880249, "learning_rate": 5.379047619047619e-07, "loss": 0.1084, "step": 28600 }, { "epoch": 7.633333333333333, "grad_norm": 6.104120254516602, "learning_rate": 5.283809523809525e-07, "loss": 0.0877, "step": 28625 }, { "epoch": 7.64, "grad_norm": 3.7994754314422607, "learning_rate": 5.188571428571429e-07, "loss": 0.0865, "step": 28650 }, { "epoch": 7.6466666666666665, "grad_norm": 5.859673023223877, "learning_rate": 5.093333333333333e-07, "loss": 0.0996, "step": 28675 }, { "epoch": 7.653333333333333, "grad_norm": 6.445855617523193, "learning_rate": 4.998095238095239e-07, "loss": 0.1107, "step": 28700 }, { "epoch": 7.66, "grad_norm": 5.001009941101074, "learning_rate": 4.902857142857143e-07, "loss": 0.1175, "step": 28725 }, { "epoch": 7.666666666666667, "grad_norm": 5.675832748413086, "learning_rate": 4.807619047619048e-07, "loss": 0.1059, "step": 28750 }, { "epoch": 7.673333333333334, "grad_norm": 4.962488651275635, "learning_rate": 4.712380952380953e-07, "loss": 0.1042, "step": 28775 }, { "epoch": 7.68, "grad_norm": 5.561017990112305, "learning_rate": 4.6171428571428573e-07, "loss": 0.1056, "step": 28800 }, { "epoch": 7.6866666666666665, "grad_norm": 5.013485908508301, "learning_rate": 4.521904761904762e-07, "loss": 0.0956, "step": 28825 }, { "epoch": 7.693333333333333, "grad_norm": 4.603240013122559, "learning_rate": 4.426666666666667e-07, "loss": 0.1054, "step": 28850 }, { "epoch": 7.7, "grad_norm": 4.981840133666992, "learning_rate": 4.331428571428572e-07, "loss": 0.0966, "step": 28875 }, { "epoch": 7.706666666666667, "grad_norm": 6.092499256134033, "learning_rate": 4.2361904761904764e-07, "loss": 0.0936, "step": 28900 }, { "epoch": 7.713333333333333, "grad_norm": 5.377251148223877, "learning_rate": 4.140952380952382e-07, "loss": 0.1041, "step": 28925 }, { "epoch": 7.72, "grad_norm": 5.544815540313721, "learning_rate": 4.045714285714286e-07, "loss": 0.1019, "step": 28950 }, { "epoch": 7.726666666666667, "grad_norm": 4.959236145019531, "learning_rate": 3.9504761904761905e-07, "loss": 0.1031, "step": 28975 }, { "epoch": 7.733333333333333, "grad_norm": 6.397305965423584, "learning_rate": 3.8552380952380954e-07, "loss": 0.1041, "step": 29000 }, { "epoch": 7.74, "grad_norm": 4.410436630249023, "learning_rate": 3.7600000000000003e-07, "loss": 0.1025, "step": 29025 }, { "epoch": 7.746666666666667, "grad_norm": 6.567444324493408, "learning_rate": 3.664761904761905e-07, "loss": 0.1131, "step": 29050 }, { "epoch": 7.753333333333333, "grad_norm": 7.953134536743164, "learning_rate": 3.5695238095238096e-07, "loss": 0.0916, "step": 29075 }, { "epoch": 7.76, "grad_norm": 5.282848834991455, "learning_rate": 3.474285714285715e-07, "loss": 0.0943, "step": 29100 }, { "epoch": 7.766666666666667, "grad_norm": 5.088173866271973, "learning_rate": 3.3790476190476194e-07, "loss": 0.0993, "step": 29125 }, { "epoch": 7.773333333333333, "grad_norm": 4.999279499053955, "learning_rate": 3.2838095238095237e-07, "loss": 0.1042, "step": 29150 }, { "epoch": 7.78, "grad_norm": 3.6545777320861816, "learning_rate": 3.188571428571429e-07, "loss": 0.1055, "step": 29175 }, { "epoch": 7.786666666666667, "grad_norm": 5.851073741912842, "learning_rate": 3.0933333333333335e-07, "loss": 0.1051, "step": 29200 }, { "epoch": 7.793333333333333, "grad_norm": 5.099207401275635, "learning_rate": 2.9980952380952384e-07, "loss": 0.0952, "step": 29225 }, { "epoch": 7.8, "grad_norm": 5.112496376037598, "learning_rate": 2.9028571428571433e-07, "loss": 0.098, "step": 29250 }, { "epoch": 7.806666666666667, "grad_norm": 4.881762981414795, "learning_rate": 2.8076190476190477e-07, "loss": 0.1027, "step": 29275 }, { "epoch": 7.8133333333333335, "grad_norm": 5.365390300750732, "learning_rate": 2.7123809523809525e-07, "loss": 0.1013, "step": 29300 }, { "epoch": 7.82, "grad_norm": 5.105774879455566, "learning_rate": 2.6171428571428574e-07, "loss": 0.0984, "step": 29325 }, { "epoch": 7.826666666666666, "grad_norm": 5.303748607635498, "learning_rate": 2.5219047619047623e-07, "loss": 0.0946, "step": 29350 }, { "epoch": 7.833333333333333, "grad_norm": 5.642498016357422, "learning_rate": 2.4266666666666667e-07, "loss": 0.1138, "step": 29375 }, { "epoch": 7.84, "grad_norm": 4.858274936676025, "learning_rate": 2.3314285714285716e-07, "loss": 0.0923, "step": 29400 }, { "epoch": 7.846666666666667, "grad_norm": 4.104814529418945, "learning_rate": 2.2361904761904765e-07, "loss": 0.0921, "step": 29425 }, { "epoch": 7.8533333333333335, "grad_norm": 5.990296840667725, "learning_rate": 2.140952380952381e-07, "loss": 0.1011, "step": 29450 }, { "epoch": 7.86, "grad_norm": 6.096645832061768, "learning_rate": 2.045714285714286e-07, "loss": 0.1089, "step": 29475 }, { "epoch": 7.866666666666667, "grad_norm": 7.12993860244751, "learning_rate": 1.9504761904761904e-07, "loss": 0.1067, "step": 29500 }, { "epoch": 7.873333333333333, "grad_norm": 6.076792240142822, "learning_rate": 1.8552380952380953e-07, "loss": 0.103, "step": 29525 }, { "epoch": 7.88, "grad_norm": 6.502140045166016, "learning_rate": 1.7600000000000001e-07, "loss": 0.1036, "step": 29550 }, { "epoch": 7.886666666666667, "grad_norm": 7.23534631729126, "learning_rate": 1.6647619047619048e-07, "loss": 0.1069, "step": 29575 }, { "epoch": 7.8933333333333335, "grad_norm": 5.285584449768066, "learning_rate": 1.5695238095238097e-07, "loss": 0.1096, "step": 29600 }, { "epoch": 7.9, "grad_norm": 6.062516212463379, "learning_rate": 1.4742857142857143e-07, "loss": 0.098, "step": 29625 }, { "epoch": 7.906666666666666, "grad_norm": 5.228450298309326, "learning_rate": 1.3790476190476192e-07, "loss": 0.1106, "step": 29650 }, { "epoch": 7.913333333333333, "grad_norm": 5.914242267608643, "learning_rate": 1.283809523809524e-07, "loss": 0.0919, "step": 29675 }, { "epoch": 7.92, "grad_norm": 6.222010612487793, "learning_rate": 1.1885714285714287e-07, "loss": 0.0964, "step": 29700 }, { "epoch": 7.926666666666667, "grad_norm": 4.014278411865234, "learning_rate": 1.0933333333333335e-07, "loss": 0.1085, "step": 29725 }, { "epoch": 7.933333333333334, "grad_norm": 6.637640953063965, "learning_rate": 9.980952380952381e-08, "loss": 0.1221, "step": 29750 }, { "epoch": 7.9399999999999995, "grad_norm": 5.568607330322266, "learning_rate": 9.02857142857143e-08, "loss": 0.0947, "step": 29775 }, { "epoch": 7.946666666666666, "grad_norm": 4.651712894439697, "learning_rate": 8.076190476190477e-08, "loss": 0.1002, "step": 29800 }, { "epoch": 7.953333333333333, "grad_norm": 6.018585681915283, "learning_rate": 7.123809523809524e-08, "loss": 0.1046, "step": 29825 }, { "epoch": 7.96, "grad_norm": 6.500985145568848, "learning_rate": 6.171428571428573e-08, "loss": 0.0946, "step": 29850 }, { "epoch": 7.966666666666667, "grad_norm": 10.400946617126465, "learning_rate": 5.2190476190476196e-08, "loss": 0.0963, "step": 29875 }, { "epoch": 7.973333333333334, "grad_norm": 5.860899448394775, "learning_rate": 4.266666666666667e-08, "loss": 0.0974, "step": 29900 }, { "epoch": 7.98, "grad_norm": 4.525150299072266, "learning_rate": 3.314285714285715e-08, "loss": 0.1018, "step": 29925 }, { "epoch": 7.986666666666666, "grad_norm": 5.598081588745117, "learning_rate": 2.3619047619047624e-08, "loss": 0.1103, "step": 29950 }, { "epoch": 7.993333333333333, "grad_norm": 4.0639495849609375, "learning_rate": 1.4095238095238096e-08, "loss": 0.1016, "step": 29975 }, { "epoch": 8.0, "grad_norm": 6.061055660247803, "learning_rate": 4.571428571428571e-09, "loss": 0.105, "step": 30000 }, { "epoch": 8.0, "eval_cer": 27.23478001602594, "eval_loss": 0.45709970593452454, "eval_runtime": 1263.0383, "eval_samples_per_second": 3.959, "eval_steps_per_second": 0.495, "step": 30000 }, { "epoch": 8.006666666666666, "grad_norm": 15.80374813079834, "learning_rate": 5.331022222222223e-06, "loss": 0.7179, "step": 30025 }, { "epoch": 8.013333333333334, "grad_norm": 20.2119083404541, "learning_rate": 5.326755555555556e-06, "loss": 0.7249, "step": 30050 }, { "epoch": 8.02, "grad_norm": 12.324047088623047, "learning_rate": 5.322311111111111e-06, "loss": 0.6666, "step": 30075 }, { "epoch": 8.026666666666667, "grad_norm": 12.786880493164062, "learning_rate": 5.317866666666667e-06, "loss": 0.6729, "step": 30100 }, { "epoch": 8.033333333333333, "grad_norm": 15.034636497497559, "learning_rate": 5.3134222222222235e-06, "loss": 0.7112, "step": 30125 }, { "epoch": 8.04, "grad_norm": 14.4805269241333, "learning_rate": 5.308977777777778e-06, "loss": 0.7044, "step": 30150 }, { "epoch": 8.046666666666667, "grad_norm": 15.920146942138672, "learning_rate": 5.304533333333334e-06, "loss": 0.631, "step": 30175 }, { "epoch": 8.053333333333333, "grad_norm": 14.741226196289062, "learning_rate": 5.300088888888889e-06, "loss": 0.6033, "step": 30200 }, { "epoch": 8.06, "grad_norm": 13.328174591064453, "learning_rate": 5.2956444444444446e-06, "loss": 0.6503, "step": 30225 }, { "epoch": 8.066666666666666, "grad_norm": 15.260951042175293, "learning_rate": 5.291200000000001e-06, "loss": 0.6839, "step": 30250 }, { "epoch": 8.073333333333334, "grad_norm": 15.764543533325195, "learning_rate": 5.286755555555556e-06, "loss": 0.6598, "step": 30275 }, { "epoch": 8.08, "grad_norm": 13.079901695251465, "learning_rate": 5.282311111111112e-06, "loss": 0.6545, "step": 30300 }, { "epoch": 8.086666666666666, "grad_norm": 17.601470947265625, "learning_rate": 5.2778666666666665e-06, "loss": 0.6527, "step": 30325 }, { "epoch": 8.093333333333334, "grad_norm": 15.077278137207031, "learning_rate": 5.273422222222223e-06, "loss": 0.6344, "step": 30350 }, { "epoch": 8.1, "grad_norm": 16.498008728027344, "learning_rate": 5.269155555555556e-06, "loss": 0.6072, "step": 30375 }, { "epoch": 8.106666666666667, "grad_norm": 13.190762519836426, "learning_rate": 5.264711111111111e-06, "loss": 0.6207, "step": 30400 }, { "epoch": 8.113333333333333, "grad_norm": 12.650928497314453, "learning_rate": 5.260266666666667e-06, "loss": 0.6242, "step": 30425 }, { "epoch": 8.12, "grad_norm": 15.672072410583496, "learning_rate": 5.2558222222222226e-06, "loss": 0.6522, "step": 30450 }, { "epoch": 8.126666666666667, "grad_norm": 16.408472061157227, "learning_rate": 5.251377777777778e-06, "loss": 0.619, "step": 30475 }, { "epoch": 8.133333333333333, "grad_norm": 12.948939323425293, "learning_rate": 5.246933333333334e-06, "loss": 0.6064, "step": 30500 }, { "epoch": 8.14, "grad_norm": 13.54633617401123, "learning_rate": 5.242488888888889e-06, "loss": 0.6184, "step": 30525 }, { "epoch": 8.146666666666667, "grad_norm": 13.567835807800293, "learning_rate": 5.2380444444444445e-06, "loss": 0.6005, "step": 30550 }, { "epoch": 8.153333333333332, "grad_norm": 16.201248168945312, "learning_rate": 5.233600000000001e-06, "loss": 0.596, "step": 30575 }, { "epoch": 8.16, "grad_norm": 15.499818801879883, "learning_rate": 5.229155555555556e-06, "loss": 0.5632, "step": 30600 }, { "epoch": 8.166666666666666, "grad_norm": 13.230591773986816, "learning_rate": 5.2247111111111116e-06, "loss": 0.5647, "step": 30625 }, { "epoch": 8.173333333333334, "grad_norm": 17.013526916503906, "learning_rate": 5.220266666666666e-06, "loss": 0.5813, "step": 30650 }, { "epoch": 8.18, "grad_norm": 11.080538749694824, "learning_rate": 5.215822222222222e-06, "loss": 0.5658, "step": 30675 }, { "epoch": 8.186666666666667, "grad_norm": 16.584476470947266, "learning_rate": 5.211377777777779e-06, "loss": 0.5646, "step": 30700 }, { "epoch": 8.193333333333333, "grad_norm": 11.669316291809082, "learning_rate": 5.2069333333333335e-06, "loss": 0.5735, "step": 30725 }, { "epoch": 8.2, "grad_norm": 12.094216346740723, "learning_rate": 5.202488888888889e-06, "loss": 0.5528, "step": 30750 }, { "epoch": 8.206666666666667, "grad_norm": 13.14426040649414, "learning_rate": 5.198044444444445e-06, "loss": 0.5256, "step": 30775 }, { "epoch": 8.213333333333333, "grad_norm": 10.807392120361328, "learning_rate": 5.1936000000000006e-06, "loss": 0.557, "step": 30800 }, { "epoch": 8.22, "grad_norm": 15.564530372619629, "learning_rate": 5.189155555555556e-06, "loss": 0.5777, "step": 30825 }, { "epoch": 8.226666666666667, "grad_norm": 12.651592254638672, "learning_rate": 5.184711111111111e-06, "loss": 0.5681, "step": 30850 }, { "epoch": 8.233333333333333, "grad_norm": 12.719521522521973, "learning_rate": 5.180266666666667e-06, "loss": 0.5963, "step": 30875 }, { "epoch": 8.24, "grad_norm": 15.006736755371094, "learning_rate": 5.175822222222223e-06, "loss": 0.575, "step": 30900 }, { "epoch": 8.246666666666666, "grad_norm": 13.512928009033203, "learning_rate": 5.171377777777778e-06, "loss": 0.5952, "step": 30925 }, { "epoch": 8.253333333333334, "grad_norm": 12.170061111450195, "learning_rate": 5.166933333333334e-06, "loss": 0.517, "step": 30950 }, { "epoch": 8.26, "grad_norm": 10.90804386138916, "learning_rate": 5.162488888888889e-06, "loss": 0.5673, "step": 30975 }, { "epoch": 8.266666666666667, "grad_norm": 13.123577117919922, "learning_rate": 5.158044444444444e-06, "loss": 0.5272, "step": 31000 }, { "epoch": 8.273333333333333, "grad_norm": 17.114822387695312, "learning_rate": 5.153600000000001e-06, "loss": 0.555, "step": 31025 }, { "epoch": 8.28, "grad_norm": 23.58224868774414, "learning_rate": 5.149155555555556e-06, "loss": 0.5209, "step": 31050 }, { "epoch": 8.286666666666667, "grad_norm": 14.041379928588867, "learning_rate": 5.1447111111111115e-06, "loss": 0.5724, "step": 31075 }, { "epoch": 8.293333333333333, "grad_norm": 14.041072845458984, "learning_rate": 5.140266666666666e-06, "loss": 0.5713, "step": 31100 }, { "epoch": 8.3, "grad_norm": 17.312397003173828, "learning_rate": 5.135822222222223e-06, "loss": 0.584, "step": 31125 }, { "epoch": 8.306666666666667, "grad_norm": 12.423078536987305, "learning_rate": 5.1313777777777786e-06, "loss": 0.5441, "step": 31150 }, { "epoch": 8.313333333333333, "grad_norm": 14.337580680847168, "learning_rate": 5.126933333333333e-06, "loss": 0.4991, "step": 31175 }, { "epoch": 8.32, "grad_norm": 14.055214881896973, "learning_rate": 5.122488888888889e-06, "loss": 0.5525, "step": 31200 }, { "epoch": 8.326666666666666, "grad_norm": 15.051172256469727, "learning_rate": 5.118044444444445e-06, "loss": 0.546, "step": 31225 }, { "epoch": 8.333333333333334, "grad_norm": 10.422541618347168, "learning_rate": 5.1136000000000005e-06, "loss": 0.5238, "step": 31250 }, { "epoch": 8.34, "grad_norm": 14.514918327331543, "learning_rate": 5.109155555555556e-06, "loss": 0.5389, "step": 31275 }, { "epoch": 8.346666666666668, "grad_norm": 13.189994812011719, "learning_rate": 5.104711111111111e-06, "loss": 0.5166, "step": 31300 }, { "epoch": 8.353333333333333, "grad_norm": 10.180733680725098, "learning_rate": 5.100266666666667e-06, "loss": 0.5159, "step": 31325 }, { "epoch": 8.36, "grad_norm": 14.720268249511719, "learning_rate": 5.095822222222223e-06, "loss": 0.5476, "step": 31350 }, { "epoch": 8.366666666666667, "grad_norm": 12.236518859863281, "learning_rate": 5.091377777777778e-06, "loss": 0.5644, "step": 31375 }, { "epoch": 8.373333333333333, "grad_norm": 12.985857963562012, "learning_rate": 5.086933333333334e-06, "loss": 0.5636, "step": 31400 }, { "epoch": 8.38, "grad_norm": 12.396551132202148, "learning_rate": 5.082488888888889e-06, "loss": 0.558, "step": 31425 }, { "epoch": 8.386666666666667, "grad_norm": 17.774967193603516, "learning_rate": 5.078044444444444e-06, "loss": 0.5455, "step": 31450 }, { "epoch": 8.393333333333333, "grad_norm": 19.243282318115234, "learning_rate": 5.073600000000001e-06, "loss": 0.5056, "step": 31475 }, { "epoch": 8.4, "grad_norm": 11.600284576416016, "learning_rate": 5.069155555555556e-06, "loss": 0.5382, "step": 31500 }, { "epoch": 8.406666666666666, "grad_norm": 11.02953052520752, "learning_rate": 5.064711111111111e-06, "loss": 0.5357, "step": 31525 }, { "epoch": 8.413333333333334, "grad_norm": 14.33912467956543, "learning_rate": 5.060266666666666e-06, "loss": 0.5045, "step": 31550 }, { "epoch": 8.42, "grad_norm": 11.844728469848633, "learning_rate": 5.055822222222223e-06, "loss": 0.5114, "step": 31575 }, { "epoch": 8.426666666666666, "grad_norm": 11.443325996398926, "learning_rate": 5.0513777777777785e-06, "loss": 0.5072, "step": 31600 }, { "epoch": 8.433333333333334, "grad_norm": 14.4727783203125, "learning_rate": 5.046933333333333e-06, "loss": 0.5143, "step": 31625 }, { "epoch": 8.44, "grad_norm": 13.60036849975586, "learning_rate": 5.042488888888889e-06, "loss": 0.5408, "step": 31650 }, { "epoch": 8.446666666666667, "grad_norm": 13.365395545959473, "learning_rate": 5.0380444444444455e-06, "loss": 0.5238, "step": 31675 }, { "epoch": 8.453333333333333, "grad_norm": 17.21660804748535, "learning_rate": 5.0336e-06, "loss": 0.4764, "step": 31700 }, { "epoch": 8.46, "grad_norm": 11.677000999450684, "learning_rate": 5.029155555555556e-06, "loss": 0.5208, "step": 31725 }, { "epoch": 8.466666666666667, "grad_norm": 15.142614364624023, "learning_rate": 5.024711111111111e-06, "loss": 0.5603, "step": 31750 }, { "epoch": 8.473333333333333, "grad_norm": 10.802978515625, "learning_rate": 5.020266666666667e-06, "loss": 0.5114, "step": 31775 }, { "epoch": 8.48, "grad_norm": 14.347644805908203, "learning_rate": 5.015822222222223e-06, "loss": 0.5164, "step": 31800 }, { "epoch": 8.486666666666666, "grad_norm": 12.433709144592285, "learning_rate": 5.011377777777778e-06, "loss": 0.48, "step": 31825 }, { "epoch": 8.493333333333334, "grad_norm": 13.292276382446289, "learning_rate": 5.006933333333334e-06, "loss": 0.5002, "step": 31850 }, { "epoch": 8.5, "grad_norm": 20.11451530456543, "learning_rate": 5.0024888888888885e-06, "loss": 0.4764, "step": 31875 }, { "epoch": 8.506666666666666, "grad_norm": 12.3352632522583, "learning_rate": 4.998044444444445e-06, "loss": 0.5438, "step": 31900 }, { "epoch": 8.513333333333334, "grad_norm": 13.328998565673828, "learning_rate": 4.993600000000001e-06, "loss": 0.5146, "step": 31925 }, { "epoch": 8.52, "grad_norm": 10.108626365661621, "learning_rate": 4.989155555555556e-06, "loss": 0.5074, "step": 31950 }, { "epoch": 8.526666666666667, "grad_norm": 10.93980598449707, "learning_rate": 4.984711111111111e-06, "loss": 0.5005, "step": 31975 }, { "epoch": 8.533333333333333, "grad_norm": 12.719639778137207, "learning_rate": 4.980266666666667e-06, "loss": 0.5063, "step": 32000 }, { "epoch": 8.54, "grad_norm": 14.156594276428223, "learning_rate": 4.975822222222223e-06, "loss": 0.4966, "step": 32025 }, { "epoch": 8.546666666666667, "grad_norm": 10.686470031738281, "learning_rate": 4.971377777777778e-06, "loss": 0.4942, "step": 32050 }, { "epoch": 8.553333333333333, "grad_norm": 10.045855522155762, "learning_rate": 4.966933333333333e-06, "loss": 0.46, "step": 32075 }, { "epoch": 8.56, "grad_norm": 8.282904624938965, "learning_rate": 4.96248888888889e-06, "loss": 0.4804, "step": 32100 }, { "epoch": 8.566666666666666, "grad_norm": 11.303102493286133, "learning_rate": 4.958044444444445e-06, "loss": 0.4988, "step": 32125 }, { "epoch": 8.573333333333334, "grad_norm": 14.834006309509277, "learning_rate": 4.9536e-06, "loss": 0.5257, "step": 32150 }, { "epoch": 8.58, "grad_norm": 12.149236679077148, "learning_rate": 4.949155555555556e-06, "loss": 0.5367, "step": 32175 }, { "epoch": 8.586666666666666, "grad_norm": 11.291731834411621, "learning_rate": 4.944711111111111e-06, "loss": 0.4624, "step": 32200 }, { "epoch": 8.593333333333334, "grad_norm": 12.41955852508545, "learning_rate": 4.940266666666667e-06, "loss": 0.4929, "step": 32225 }, { "epoch": 8.6, "grad_norm": 9.702630996704102, "learning_rate": 4.935822222222222e-06, "loss": 0.4583, "step": 32250 }, { "epoch": 8.606666666666667, "grad_norm": 15.796161651611328, "learning_rate": 4.931377777777778e-06, "loss": 0.5434, "step": 32275 }, { "epoch": 8.613333333333333, "grad_norm": 16.67508888244629, "learning_rate": 4.926933333333334e-06, "loss": 0.5211, "step": 32300 }, { "epoch": 8.62, "grad_norm": 13.740802764892578, "learning_rate": 4.922488888888889e-06, "loss": 0.5036, "step": 32325 }, { "epoch": 8.626666666666667, "grad_norm": 11.061367988586426, "learning_rate": 4.918044444444445e-06, "loss": 0.489, "step": 32350 }, { "epoch": 8.633333333333333, "grad_norm": 11.625699996948242, "learning_rate": 4.913600000000001e-06, "loss": 0.5394, "step": 32375 }, { "epoch": 8.64, "grad_norm": 13.057181358337402, "learning_rate": 4.9091555555555555e-06, "loss": 0.5342, "step": 32400 }, { "epoch": 8.646666666666667, "grad_norm": 11.509431838989258, "learning_rate": 4.904711111111112e-06, "loss": 0.4867, "step": 32425 }, { "epoch": 8.653333333333332, "grad_norm": 9.424930572509766, "learning_rate": 4.900266666666667e-06, "loss": 0.4916, "step": 32450 }, { "epoch": 8.66, "grad_norm": 13.79210090637207, "learning_rate": 4.895822222222223e-06, "loss": 0.5017, "step": 32475 }, { "epoch": 8.666666666666666, "grad_norm": 11.146204948425293, "learning_rate": 4.891377777777778e-06, "loss": 0.5317, "step": 32500 }, { "epoch": 8.673333333333334, "grad_norm": 9.553141593933105, "learning_rate": 4.886933333333333e-06, "loss": 0.5028, "step": 32525 }, { "epoch": 8.68, "grad_norm": 13.987290382385254, "learning_rate": 4.88248888888889e-06, "loss": 0.4695, "step": 32550 }, { "epoch": 8.686666666666667, "grad_norm": 11.986979484558105, "learning_rate": 4.8780444444444445e-06, "loss": 0.5068, "step": 32575 }, { "epoch": 8.693333333333333, "grad_norm": 14.555952072143555, "learning_rate": 4.8736e-06, "loss": 0.4879, "step": 32600 }, { "epoch": 8.7, "grad_norm": 12.733412742614746, "learning_rate": 4.869155555555556e-06, "loss": 0.4905, "step": 32625 }, { "epoch": 8.706666666666667, "grad_norm": 13.12674617767334, "learning_rate": 4.864711111111112e-06, "loss": 0.4703, "step": 32650 }, { "epoch": 8.713333333333333, "grad_norm": 11.539085388183594, "learning_rate": 4.860266666666667e-06, "loss": 0.4744, "step": 32675 }, { "epoch": 8.72, "grad_norm": 15.483597755432129, "learning_rate": 4.855822222222223e-06, "loss": 0.5056, "step": 32700 }, { "epoch": 8.726666666666667, "grad_norm": 11.974453926086426, "learning_rate": 4.851377777777778e-06, "loss": 0.4711, "step": 32725 }, { "epoch": 8.733333333333333, "grad_norm": 15.715641975402832, "learning_rate": 4.8469333333333335e-06, "loss": 0.4964, "step": 32750 }, { "epoch": 8.74, "grad_norm": 9.375343322753906, "learning_rate": 4.842488888888889e-06, "loss": 0.459, "step": 32775 }, { "epoch": 8.746666666666666, "grad_norm": 12.408119201660156, "learning_rate": 4.838044444444445e-06, "loss": 0.5092, "step": 32800 }, { "epoch": 8.753333333333334, "grad_norm": 11.146902084350586, "learning_rate": 4.833600000000001e-06, "loss": 0.5103, "step": 32825 }, { "epoch": 8.76, "grad_norm": 11.347001075744629, "learning_rate": 4.8291555555555555e-06, "loss": 0.473, "step": 32850 }, { "epoch": 8.766666666666667, "grad_norm": 12.580114364624023, "learning_rate": 4.824711111111112e-06, "loss": 0.5194, "step": 32875 }, { "epoch": 8.773333333333333, "grad_norm": 11.773902893066406, "learning_rate": 4.820266666666667e-06, "loss": 0.5115, "step": 32900 }, { "epoch": 8.78, "grad_norm": 13.046738624572754, "learning_rate": 4.8158222222222225e-06, "loss": 0.4838, "step": 32925 }, { "epoch": 8.786666666666667, "grad_norm": 14.553537368774414, "learning_rate": 4.811377777777778e-06, "loss": 0.5103, "step": 32950 }, { "epoch": 8.793333333333333, "grad_norm": 10.34900188446045, "learning_rate": 4.806933333333333e-06, "loss": 0.499, "step": 32975 }, { "epoch": 8.8, "grad_norm": 9.839581489562988, "learning_rate": 4.80248888888889e-06, "loss": 0.5089, "step": 33000 }, { "epoch": 8.806666666666667, "grad_norm": 14.305429458618164, "learning_rate": 4.7980444444444445e-06, "loss": 0.4886, "step": 33025 }, { "epoch": 8.813333333333333, "grad_norm": 9.823822975158691, "learning_rate": 4.793777777777779e-06, "loss": 0.465, "step": 33050 }, { "epoch": 8.82, "grad_norm": 12.233610153198242, "learning_rate": 4.7893333333333334e-06, "loss": 0.4563, "step": 33075 }, { "epoch": 8.826666666666666, "grad_norm": 11.392786979675293, "learning_rate": 4.784888888888889e-06, "loss": 0.5034, "step": 33100 }, { "epoch": 8.833333333333334, "grad_norm": 9.950662612915039, "learning_rate": 4.780444444444445e-06, "loss": 0.4678, "step": 33125 }, { "epoch": 8.84, "grad_norm": 12.0476655960083, "learning_rate": 4.7760000000000005e-06, "loss": 0.4945, "step": 33150 }, { "epoch": 8.846666666666668, "grad_norm": 11.386184692382812, "learning_rate": 4.771555555555556e-06, "loss": 0.4701, "step": 33175 }, { "epoch": 8.853333333333333, "grad_norm": 9.53287410736084, "learning_rate": 4.767111111111111e-06, "loss": 0.4798, "step": 33200 }, { "epoch": 8.86, "grad_norm": 15.69239330291748, "learning_rate": 4.762666666666667e-06, "loss": 0.4823, "step": 33225 }, { "epoch": 8.866666666666667, "grad_norm": 15.845943450927734, "learning_rate": 4.7582222222222224e-06, "loss": 0.4468, "step": 33250 }, { "epoch": 8.873333333333333, "grad_norm": 12.242185592651367, "learning_rate": 4.753777777777778e-06, "loss": 0.5141, "step": 33275 }, { "epoch": 8.88, "grad_norm": 13.35010814666748, "learning_rate": 4.749333333333334e-06, "loss": 0.4573, "step": 33300 }, { "epoch": 8.886666666666667, "grad_norm": 14.321089744567871, "learning_rate": 4.7448888888888895e-06, "loss": 0.4406, "step": 33325 }, { "epoch": 8.893333333333333, "grad_norm": 12.45971393585205, "learning_rate": 4.740444444444444e-06, "loss": 0.4789, "step": 33350 }, { "epoch": 8.9, "grad_norm": 9.136942863464355, "learning_rate": 4.736000000000001e-06, "loss": 0.4933, "step": 33375 }, { "epoch": 8.906666666666666, "grad_norm": 9.76571273803711, "learning_rate": 4.731555555555556e-06, "loss": 0.492, "step": 33400 }, { "epoch": 8.913333333333334, "grad_norm": 12.74725341796875, "learning_rate": 4.7271111111111114e-06, "loss": 0.5055, "step": 33425 }, { "epoch": 8.92, "grad_norm": 12.514827728271484, "learning_rate": 4.722666666666667e-06, "loss": 0.4719, "step": 33450 }, { "epoch": 8.926666666666666, "grad_norm": 11.866357803344727, "learning_rate": 4.718222222222222e-06, "loss": 0.4546, "step": 33475 }, { "epoch": 8.933333333333334, "grad_norm": 17.848072052001953, "learning_rate": 4.7137777777777785e-06, "loss": 0.4668, "step": 33500 }, { "epoch": 8.94, "grad_norm": 10.857246398925781, "learning_rate": 4.709333333333333e-06, "loss": 0.4618, "step": 33525 }, { "epoch": 8.946666666666667, "grad_norm": 11.174782752990723, "learning_rate": 4.704888888888889e-06, "loss": 0.452, "step": 33550 }, { "epoch": 8.953333333333333, "grad_norm": 14.46779727935791, "learning_rate": 4.700444444444445e-06, "loss": 0.431, "step": 33575 }, { "epoch": 8.96, "grad_norm": 10.424922943115234, "learning_rate": 4.6960000000000004e-06, "loss": 0.4413, "step": 33600 }, { "epoch": 8.966666666666667, "grad_norm": 12.33443832397461, "learning_rate": 4.691555555555556e-06, "loss": 0.4774, "step": 33625 }, { "epoch": 8.973333333333333, "grad_norm": 10.95026683807373, "learning_rate": 4.687111111111112e-06, "loss": 0.4959, "step": 33650 }, { "epoch": 8.98, "grad_norm": 10.43690013885498, "learning_rate": 4.682666666666667e-06, "loss": 0.4705, "step": 33675 }, { "epoch": 8.986666666666666, "grad_norm": 20.128585815429688, "learning_rate": 4.678222222222222e-06, "loss": 0.4301, "step": 33700 }, { "epoch": 8.993333333333334, "grad_norm": 10.086228370666504, "learning_rate": 4.673777777777778e-06, "loss": 0.477, "step": 33725 }, { "epoch": 9.0, "grad_norm": 11.254966735839844, "learning_rate": 4.669333333333334e-06, "loss": 0.4959, "step": 33750 }, { "epoch": 9.0, "eval_cer": 24.234575033076794, "eval_loss": 0.4090717136859894, "eval_runtime": 1255.9889, "eval_samples_per_second": 3.981, "eval_steps_per_second": 0.498, "step": 33750 }, { "epoch": 9.006666666666666, "grad_norm": 10.11557674407959, "learning_rate": 4.6648888888888894e-06, "loss": 0.3553, "step": 33775 }, { "epoch": 9.013333333333334, "grad_norm": 12.940801620483398, "learning_rate": 4.660444444444444e-06, "loss": 0.3454, "step": 33800 }, { "epoch": 9.02, "grad_norm": 9.192853927612305, "learning_rate": 4.656000000000001e-06, "loss": 0.3691, "step": 33825 }, { "epoch": 9.026666666666667, "grad_norm": 8.88289737701416, "learning_rate": 4.651555555555556e-06, "loss": 0.3233, "step": 33850 }, { "epoch": 9.033333333333333, "grad_norm": 12.61011028289795, "learning_rate": 4.647111111111111e-06, "loss": 0.3496, "step": 33875 }, { "epoch": 9.04, "grad_norm": 10.894960403442383, "learning_rate": 4.642666666666667e-06, "loss": 0.326, "step": 33900 }, { "epoch": 9.046666666666667, "grad_norm": 8.874565124511719, "learning_rate": 4.638222222222223e-06, "loss": 0.3527, "step": 33925 }, { "epoch": 9.053333333333333, "grad_norm": 9.445497512817383, "learning_rate": 4.6337777777777784e-06, "loss": 0.3502, "step": 33950 }, { "epoch": 9.06, "grad_norm": 8.409317016601562, "learning_rate": 4.629333333333333e-06, "loss": 0.3408, "step": 33975 }, { "epoch": 9.066666666666666, "grad_norm": 10.905598640441895, "learning_rate": 4.624888888888889e-06, "loss": 0.3497, "step": 34000 }, { "epoch": 9.073333333333334, "grad_norm": 9.52714729309082, "learning_rate": 4.620444444444445e-06, "loss": 0.3327, "step": 34025 }, { "epoch": 9.08, "grad_norm": 9.130328178405762, "learning_rate": 4.616e-06, "loss": 0.3715, "step": 34050 }, { "epoch": 9.086666666666666, "grad_norm": 12.132153511047363, "learning_rate": 4.611555555555556e-06, "loss": 0.3389, "step": 34075 }, { "epoch": 9.093333333333334, "grad_norm": 10.206671714782715, "learning_rate": 4.607111111111112e-06, "loss": 0.3392, "step": 34100 }, { "epoch": 9.1, "grad_norm": 14.072588920593262, "learning_rate": 4.602666666666667e-06, "loss": 0.3228, "step": 34125 }, { "epoch": 9.106666666666667, "grad_norm": 10.743828773498535, "learning_rate": 4.598222222222223e-06, "loss": 0.3613, "step": 34150 }, { "epoch": 9.113333333333333, "grad_norm": 10.789471626281738, "learning_rate": 4.593777777777778e-06, "loss": 0.369, "step": 34175 }, { "epoch": 9.12, "grad_norm": 10.623641014099121, "learning_rate": 4.589333333333334e-06, "loss": 0.337, "step": 34200 }, { "epoch": 9.126666666666667, "grad_norm": 9.121771812438965, "learning_rate": 4.584888888888889e-06, "loss": 0.3569, "step": 34225 }, { "epoch": 9.133333333333333, "grad_norm": 10.439199447631836, "learning_rate": 4.580444444444444e-06, "loss": 0.3505, "step": 34250 }, { "epoch": 9.14, "grad_norm": 13.690264701843262, "learning_rate": 4.576000000000001e-06, "loss": 0.3591, "step": 34275 }, { "epoch": 9.146666666666667, "grad_norm": 11.073456764221191, "learning_rate": 4.571555555555556e-06, "loss": 0.3273, "step": 34300 }, { "epoch": 9.153333333333332, "grad_norm": 10.056150436401367, "learning_rate": 4.567111111111111e-06, "loss": 0.3433, "step": 34325 }, { "epoch": 9.16, "grad_norm": 9.77181339263916, "learning_rate": 4.562666666666667e-06, "loss": 0.3561, "step": 34350 }, { "epoch": 9.166666666666666, "grad_norm": 9.7757568359375, "learning_rate": 4.558222222222223e-06, "loss": 0.3554, "step": 34375 }, { "epoch": 9.173333333333334, "grad_norm": 7.904925346374512, "learning_rate": 4.553777777777778e-06, "loss": 0.3211, "step": 34400 }, { "epoch": 9.18, "grad_norm": 11.968832015991211, "learning_rate": 4.549333333333334e-06, "loss": 0.3574, "step": 34425 }, { "epoch": 9.186666666666667, "grad_norm": 10.871935844421387, "learning_rate": 4.544888888888889e-06, "loss": 0.3579, "step": 34450 }, { "epoch": 9.193333333333333, "grad_norm": 9.157028198242188, "learning_rate": 4.540444444444445e-06, "loss": 0.3499, "step": 34475 }, { "epoch": 9.2, "grad_norm": 9.274045944213867, "learning_rate": 4.536e-06, "loss": 0.3251, "step": 34500 }, { "epoch": 9.206666666666667, "grad_norm": 10.203022956848145, "learning_rate": 4.531555555555556e-06, "loss": 0.3303, "step": 34525 }, { "epoch": 9.213333333333333, "grad_norm": 10.831838607788086, "learning_rate": 4.527111111111112e-06, "loss": 0.369, "step": 34550 }, { "epoch": 9.22, "grad_norm": 11.920370101928711, "learning_rate": 4.5226666666666665e-06, "loss": 0.3375, "step": 34575 }, { "epoch": 9.226666666666667, "grad_norm": 8.628372192382812, "learning_rate": 4.518222222222223e-06, "loss": 0.344, "step": 34600 }, { "epoch": 9.233333333333333, "grad_norm": 14.706621170043945, "learning_rate": 4.513777777777778e-06, "loss": 0.3387, "step": 34625 }, { "epoch": 9.24, "grad_norm": 9.265653610229492, "learning_rate": 4.509333333333334e-06, "loss": 0.3342, "step": 34650 }, { "epoch": 9.246666666666666, "grad_norm": 8.710384368896484, "learning_rate": 4.504888888888889e-06, "loss": 0.3482, "step": 34675 }, { "epoch": 9.253333333333334, "grad_norm": 9.941553115844727, "learning_rate": 4.500444444444445e-06, "loss": 0.3259, "step": 34700 }, { "epoch": 9.26, "grad_norm": 11.050932884216309, "learning_rate": 4.496000000000001e-06, "loss": 0.3678, "step": 34725 }, { "epoch": 9.266666666666667, "grad_norm": 9.38405990600586, "learning_rate": 4.4915555555555555e-06, "loss": 0.3312, "step": 34750 }, { "epoch": 9.273333333333333, "grad_norm": 9.29322338104248, "learning_rate": 4.487111111111111e-06, "loss": 0.352, "step": 34775 }, { "epoch": 9.28, "grad_norm": 8.986920356750488, "learning_rate": 4.482666666666667e-06, "loss": 0.3279, "step": 34800 }, { "epoch": 9.286666666666667, "grad_norm": 10.60477352142334, "learning_rate": 4.478222222222223e-06, "loss": 0.39, "step": 34825 }, { "epoch": 9.293333333333333, "grad_norm": 8.482513427734375, "learning_rate": 4.473777777777778e-06, "loss": 0.3226, "step": 34850 }, { "epoch": 9.3, "grad_norm": 12.348125457763672, "learning_rate": 4.469333333333334e-06, "loss": 0.3283, "step": 34875 }, { "epoch": 9.306666666666667, "grad_norm": 8.38575267791748, "learning_rate": 4.464888888888889e-06, "loss": 0.3555, "step": 34900 }, { "epoch": 9.313333333333333, "grad_norm": 8.496597290039062, "learning_rate": 4.460444444444445e-06, "loss": 0.3502, "step": 34925 }, { "epoch": 9.32, "grad_norm": 10.244653701782227, "learning_rate": 4.456e-06, "loss": 0.3245, "step": 34950 }, { "epoch": 9.326666666666666, "grad_norm": 23.67559242248535, "learning_rate": 4.451555555555556e-06, "loss": 0.353, "step": 34975 }, { "epoch": 9.333333333333334, "grad_norm": 10.752251625061035, "learning_rate": 4.447111111111112e-06, "loss": 0.3517, "step": 35000 }, { "epoch": 9.34, "grad_norm": 10.62810230255127, "learning_rate": 4.4426666666666664e-06, "loss": 0.358, "step": 35025 }, { "epoch": 9.346666666666668, "grad_norm": 10.231162071228027, "learning_rate": 4.438222222222223e-06, "loss": 0.3383, "step": 35050 }, { "epoch": 9.353333333333333, "grad_norm": 10.774444580078125, "learning_rate": 4.433777777777778e-06, "loss": 0.3721, "step": 35075 }, { "epoch": 9.36, "grad_norm": 12.464393615722656, "learning_rate": 4.4293333333333335e-06, "loss": 0.3534, "step": 35100 }, { "epoch": 9.366666666666667, "grad_norm": 8.397354125976562, "learning_rate": 4.424888888888889e-06, "loss": 0.3031, "step": 35125 }, { "epoch": 9.373333333333333, "grad_norm": 13.816272735595703, "learning_rate": 4.420444444444445e-06, "loss": 0.3633, "step": 35150 }, { "epoch": 9.38, "grad_norm": 10.438294410705566, "learning_rate": 4.416000000000001e-06, "loss": 0.3351, "step": 35175 }, { "epoch": 9.386666666666667, "grad_norm": 9.590514183044434, "learning_rate": 4.411555555555556e-06, "loss": 0.3619, "step": 35200 }, { "epoch": 9.393333333333333, "grad_norm": 9.937920570373535, "learning_rate": 4.407111111111111e-06, "loss": 0.373, "step": 35225 }, { "epoch": 9.4, "grad_norm": 9.590747833251953, "learning_rate": 4.402666666666667e-06, "loss": 0.3516, "step": 35250 }, { "epoch": 9.406666666666666, "grad_norm": 10.481921195983887, "learning_rate": 4.3982222222222225e-06, "loss": 0.3494, "step": 35275 }, { "epoch": 9.413333333333334, "grad_norm": 11.772513389587402, "learning_rate": 4.393777777777778e-06, "loss": 0.3481, "step": 35300 }, { "epoch": 9.42, "grad_norm": 9.011194229125977, "learning_rate": 4.389333333333334e-06, "loss": 0.3373, "step": 35325 }, { "epoch": 9.426666666666666, "grad_norm": 8.643670082092285, "learning_rate": 4.384888888888889e-06, "loss": 0.3464, "step": 35350 }, { "epoch": 9.433333333333334, "grad_norm": 11.981375694274902, "learning_rate": 4.380444444444445e-06, "loss": 0.3604, "step": 35375 }, { "epoch": 9.44, "grad_norm": 9.139182090759277, "learning_rate": 4.376e-06, "loss": 0.3547, "step": 35400 }, { "epoch": 9.446666666666667, "grad_norm": 10.317281723022461, "learning_rate": 4.371555555555556e-06, "loss": 0.3483, "step": 35425 }, { "epoch": 9.453333333333333, "grad_norm": 9.872893333435059, "learning_rate": 4.3671111111111115e-06, "loss": 0.3404, "step": 35450 }, { "epoch": 9.46, "grad_norm": 9.7171630859375, "learning_rate": 4.362666666666667e-06, "loss": 0.3491, "step": 35475 }, { "epoch": 9.466666666666667, "grad_norm": 12.536483764648438, "learning_rate": 4.358222222222223e-06, "loss": 0.3394, "step": 35500 }, { "epoch": 9.473333333333333, "grad_norm": 9.933024406433105, "learning_rate": 4.353777777777778e-06, "loss": 0.3313, "step": 35525 }, { "epoch": 9.48, "grad_norm": 11.771892547607422, "learning_rate": 4.349333333333333e-06, "loss": 0.3692, "step": 35550 }, { "epoch": 9.486666666666666, "grad_norm": 12.44875431060791, "learning_rate": 4.344888888888889e-06, "loss": 0.3394, "step": 35575 }, { "epoch": 9.493333333333334, "grad_norm": 8.591221809387207, "learning_rate": 4.340444444444445e-06, "loss": 0.3451, "step": 35600 }, { "epoch": 9.5, "grad_norm": 10.657934188842773, "learning_rate": 4.3360000000000005e-06, "loss": 0.3321, "step": 35625 }, { "epoch": 9.506666666666666, "grad_norm": 9.954078674316406, "learning_rate": 4.331555555555556e-06, "loss": 0.3217, "step": 35650 }, { "epoch": 9.513333333333334, "grad_norm": 9.394120216369629, "learning_rate": 4.327111111111111e-06, "loss": 0.3718, "step": 35675 }, { "epoch": 9.52, "grad_norm": 10.306083679199219, "learning_rate": 4.3226666666666676e-06, "loss": 0.3732, "step": 35700 }, { "epoch": 9.526666666666667, "grad_norm": 12.087364196777344, "learning_rate": 4.318222222222222e-06, "loss": 0.3695, "step": 35725 }, { "epoch": 9.533333333333333, "grad_norm": 7.4300761222839355, "learning_rate": 4.313777777777778e-06, "loss": 0.3141, "step": 35750 }, { "epoch": 9.54, "grad_norm": 8.573589324951172, "learning_rate": 4.309333333333334e-06, "loss": 0.3253, "step": 35775 }, { "epoch": 9.546666666666667, "grad_norm": 10.528483390808105, "learning_rate": 4.304888888888889e-06, "loss": 0.3598, "step": 35800 }, { "epoch": 9.553333333333333, "grad_norm": 9.712965965270996, "learning_rate": 4.300444444444445e-06, "loss": 0.3402, "step": 35825 }, { "epoch": 9.56, "grad_norm": 14.885126113891602, "learning_rate": 4.296e-06, "loss": 0.3349, "step": 35850 }, { "epoch": 9.566666666666666, "grad_norm": 7.876286029815674, "learning_rate": 4.291555555555556e-06, "loss": 0.3336, "step": 35875 }, { "epoch": 9.573333333333334, "grad_norm": 10.813725471496582, "learning_rate": 4.287111111111111e-06, "loss": 0.35, "step": 35900 }, { "epoch": 9.58, "grad_norm": 9.924881935119629, "learning_rate": 4.282666666666667e-06, "loss": 0.3333, "step": 35925 }, { "epoch": 9.586666666666666, "grad_norm": 9.119810104370117, "learning_rate": 4.278222222222223e-06, "loss": 0.3187, "step": 35950 }, { "epoch": 9.593333333333334, "grad_norm": 9.314329147338867, "learning_rate": 4.2737777777777785e-06, "loss": 0.3269, "step": 35975 }, { "epoch": 9.6, "grad_norm": 9.639461517333984, "learning_rate": 4.269333333333333e-06, "loss": 0.3157, "step": 36000 }, { "epoch": 9.606666666666667, "grad_norm": 12.941357612609863, "learning_rate": 4.264888888888889e-06, "loss": 0.3508, "step": 36025 }, { "epoch": 9.613333333333333, "grad_norm": 12.282689094543457, "learning_rate": 4.260444444444445e-06, "loss": 0.3545, "step": 36050 }, { "epoch": 9.62, "grad_norm": 10.10659122467041, "learning_rate": 4.256e-06, "loss": 0.3392, "step": 36075 }, { "epoch": 9.626666666666667, "grad_norm": 8.702566146850586, "learning_rate": 4.251555555555556e-06, "loss": 0.3379, "step": 36100 }, { "epoch": 9.633333333333333, "grad_norm": 11.22544002532959, "learning_rate": 4.247111111111111e-06, "loss": 0.3262, "step": 36125 }, { "epoch": 9.64, "grad_norm": 9.37992000579834, "learning_rate": 4.2426666666666675e-06, "loss": 0.3376, "step": 36150 }, { "epoch": 9.646666666666667, "grad_norm": 9.332904815673828, "learning_rate": 4.238222222222222e-06, "loss": 0.386, "step": 36175 }, { "epoch": 9.653333333333332, "grad_norm": 12.347487449645996, "learning_rate": 4.233777777777778e-06, "loss": 0.3384, "step": 36200 }, { "epoch": 9.66, "grad_norm": 11.64198112487793, "learning_rate": 4.229333333333334e-06, "loss": 0.328, "step": 36225 }, { "epoch": 9.666666666666666, "grad_norm": 14.132842063903809, "learning_rate": 4.224888888888889e-06, "loss": 0.3159, "step": 36250 }, { "epoch": 9.673333333333334, "grad_norm": 9.662797927856445, "learning_rate": 4.220444444444445e-06, "loss": 0.354, "step": 36275 }, { "epoch": 9.68, "grad_norm": 11.378888130187988, "learning_rate": 4.216e-06, "loss": 0.3357, "step": 36300 }, { "epoch": 9.686666666666667, "grad_norm": 11.64136791229248, "learning_rate": 4.211555555555556e-06, "loss": 0.3523, "step": 36325 }, { "epoch": 9.693333333333333, "grad_norm": 10.792970657348633, "learning_rate": 4.207111111111111e-06, "loss": 0.3283, "step": 36350 }, { "epoch": 9.7, "grad_norm": 9.809748649597168, "learning_rate": 4.202666666666667e-06, "loss": 0.3216, "step": 36375 }, { "epoch": 9.706666666666667, "grad_norm": 10.850343704223633, "learning_rate": 4.198222222222223e-06, "loss": 0.3392, "step": 36400 }, { "epoch": 9.713333333333333, "grad_norm": 9.709590911865234, "learning_rate": 4.193777777777778e-06, "loss": 0.3355, "step": 36425 }, { "epoch": 9.72, "grad_norm": 10.08993911743164, "learning_rate": 4.189333333333333e-06, "loss": 0.345, "step": 36450 }, { "epoch": 9.726666666666667, "grad_norm": 15.187000274658203, "learning_rate": 4.18488888888889e-06, "loss": 0.3442, "step": 36475 }, { "epoch": 9.733333333333333, "grad_norm": 9.159509658813477, "learning_rate": 4.180444444444445e-06, "loss": 0.3346, "step": 36500 }, { "epoch": 9.74, "grad_norm": 9.653117179870605, "learning_rate": 4.176e-06, "loss": 0.3617, "step": 36525 }, { "epoch": 9.746666666666666, "grad_norm": 8.625654220581055, "learning_rate": 4.171555555555556e-06, "loss": 0.3615, "step": 36550 }, { "epoch": 9.753333333333334, "grad_norm": 9.38110637664795, "learning_rate": 4.167288888888889e-06, "loss": 0.3253, "step": 36575 }, { "epoch": 9.76, "grad_norm": 8.553905487060547, "learning_rate": 4.162844444444445e-06, "loss": 0.318, "step": 36600 }, { "epoch": 9.766666666666667, "grad_norm": 10.48200798034668, "learning_rate": 4.1584e-06, "loss": 0.3318, "step": 36625 }, { "epoch": 9.773333333333333, "grad_norm": 9.281062126159668, "learning_rate": 4.153955555555556e-06, "loss": 0.2969, "step": 36650 }, { "epoch": 9.78, "grad_norm": 10.971168518066406, "learning_rate": 4.149511111111111e-06, "loss": 0.3457, "step": 36675 }, { "epoch": 9.786666666666667, "grad_norm": 10.231289863586426, "learning_rate": 4.145066666666667e-06, "loss": 0.3312, "step": 36700 }, { "epoch": 9.793333333333333, "grad_norm": 13.543068885803223, "learning_rate": 4.140622222222223e-06, "loss": 0.3041, "step": 36725 }, { "epoch": 9.8, "grad_norm": 10.372688293457031, "learning_rate": 4.1361777777777775e-06, "loss": 0.3195, "step": 36750 }, { "epoch": 9.806666666666667, "grad_norm": 13.946479797363281, "learning_rate": 4.131733333333334e-06, "loss": 0.348, "step": 36775 }, { "epoch": 9.813333333333333, "grad_norm": 10.281474113464355, "learning_rate": 4.127288888888889e-06, "loss": 0.3356, "step": 36800 }, { "epoch": 9.82, "grad_norm": 9.529401779174805, "learning_rate": 4.1228444444444446e-06, "loss": 0.3236, "step": 36825 }, { "epoch": 9.826666666666666, "grad_norm": 12.562028884887695, "learning_rate": 4.1184e-06, "loss": 0.3083, "step": 36850 }, { "epoch": 9.833333333333334, "grad_norm": 9.874996185302734, "learning_rate": 4.113955555555556e-06, "loss": 0.3324, "step": 36875 }, { "epoch": 9.84, "grad_norm": 18.471567153930664, "learning_rate": 4.109511111111112e-06, "loss": 0.3496, "step": 36900 }, { "epoch": 9.846666666666668, "grad_norm": 8.63660717010498, "learning_rate": 4.105066666666667e-06, "loss": 0.3072, "step": 36925 }, { "epoch": 9.853333333333333, "grad_norm": 10.181352615356445, "learning_rate": 4.100622222222222e-06, "loss": 0.3554, "step": 36950 }, { "epoch": 9.86, "grad_norm": 9.928740501403809, "learning_rate": 4.096177777777779e-06, "loss": 0.3186, "step": 36975 }, { "epoch": 9.866666666666667, "grad_norm": 9.93317699432373, "learning_rate": 4.0917333333333336e-06, "loss": 0.321, "step": 37000 }, { "epoch": 9.873333333333333, "grad_norm": 10.438316345214844, "learning_rate": 4.087288888888889e-06, "loss": 0.3328, "step": 37025 }, { "epoch": 9.88, "grad_norm": 10.06196117401123, "learning_rate": 4.082844444444445e-06, "loss": 0.3296, "step": 37050 }, { "epoch": 9.886666666666667, "grad_norm": 8.571534156799316, "learning_rate": 4.0784e-06, "loss": 0.3246, "step": 37075 }, { "epoch": 9.893333333333333, "grad_norm": 12.260832786560059, "learning_rate": 4.073955555555556e-06, "loss": 0.3422, "step": 37100 }, { "epoch": 9.9, "grad_norm": 10.398480415344238, "learning_rate": 4.069511111111111e-06, "loss": 0.3187, "step": 37125 }, { "epoch": 9.906666666666666, "grad_norm": 8.824198722839355, "learning_rate": 4.065066666666667e-06, "loss": 0.3049, "step": 37150 }, { "epoch": 9.913333333333334, "grad_norm": 11.912688255310059, "learning_rate": 4.0606222222222225e-06, "loss": 0.3502, "step": 37175 }, { "epoch": 9.92, "grad_norm": 12.143152236938477, "learning_rate": 4.056177777777778e-06, "loss": 0.3005, "step": 37200 }, { "epoch": 9.926666666666666, "grad_norm": 11.386625289916992, "learning_rate": 4.051733333333334e-06, "loss": 0.298, "step": 37225 }, { "epoch": 9.933333333333334, "grad_norm": 9.724151611328125, "learning_rate": 4.04728888888889e-06, "loss": 0.3253, "step": 37250 }, { "epoch": 9.94, "grad_norm": 9.658347129821777, "learning_rate": 4.0428444444444445e-06, "loss": 0.3184, "step": 37275 }, { "epoch": 9.946666666666667, "grad_norm": 11.305619239807129, "learning_rate": 4.0384e-06, "loss": 0.3176, "step": 37300 }, { "epoch": 9.953333333333333, "grad_norm": 12.631924629211426, "learning_rate": 4.033955555555556e-06, "loss": 0.3091, "step": 37325 }, { "epoch": 9.96, "grad_norm": 15.758787155151367, "learning_rate": 4.0295111111111115e-06, "loss": 0.363, "step": 37350 }, { "epoch": 9.966666666666667, "grad_norm": 11.23168659210205, "learning_rate": 4.025066666666667e-06, "loss": 0.3137, "step": 37375 }, { "epoch": 9.973333333333333, "grad_norm": 8.826949119567871, "learning_rate": 4.020622222222222e-06, "loss": 0.307, "step": 37400 }, { "epoch": 9.98, "grad_norm": 10.01839542388916, "learning_rate": 4.016177777777779e-06, "loss": 0.3425, "step": 37425 }, { "epoch": 9.986666666666666, "grad_norm": 9.207571983337402, "learning_rate": 4.0117333333333335e-06, "loss": 0.3147, "step": 37450 }, { "epoch": 9.993333333333334, "grad_norm": 12.09560489654541, "learning_rate": 4.007288888888889e-06, "loss": 0.3431, "step": 37475 }, { "epoch": 10.0, "grad_norm": 9.818669319152832, "learning_rate": 4.002844444444445e-06, "loss": 0.344, "step": 37500 }, { "epoch": 10.0, "eval_cer": 22.31332575517582, "eval_loss": 0.38006341457366943, "eval_runtime": 1242.2202, "eval_samples_per_second": 4.025, "eval_steps_per_second": 0.503, "step": 37500 }, { "epoch": 10.006666666666666, "grad_norm": 6.96783971786499, "learning_rate": 3.9984e-06, "loss": 0.2348, "step": 37525 }, { "epoch": 10.013333333333334, "grad_norm": 7.892404556274414, "learning_rate": 3.993955555555556e-06, "loss": 0.2298, "step": 37550 }, { "epoch": 10.02, "grad_norm": 6.321427822113037, "learning_rate": 3.989511111111111e-06, "loss": 0.2172, "step": 37575 }, { "epoch": 10.026666666666667, "grad_norm": 6.531167507171631, "learning_rate": 3.985066666666667e-06, "loss": 0.2371, "step": 37600 }, { "epoch": 10.033333333333333, "grad_norm": 5.7036919593811035, "learning_rate": 3.9806222222222225e-06, "loss": 0.2225, "step": 37625 }, { "epoch": 10.04, "grad_norm": 8.722405433654785, "learning_rate": 3.976177777777778e-06, "loss": 0.2257, "step": 37650 }, { "epoch": 10.046666666666667, "grad_norm": 8.29419231414795, "learning_rate": 3.971733333333334e-06, "loss": 0.2388, "step": 37675 }, { "epoch": 10.053333333333333, "grad_norm": 11.844887733459473, "learning_rate": 3.9672888888888895e-06, "loss": 0.2326, "step": 37700 }, { "epoch": 10.06, "grad_norm": 6.820853233337402, "learning_rate": 3.962844444444444e-06, "loss": 0.2306, "step": 37725 }, { "epoch": 10.066666666666666, "grad_norm": 9.080801010131836, "learning_rate": 3.958400000000001e-06, "loss": 0.2469, "step": 37750 }, { "epoch": 10.073333333333334, "grad_norm": 9.323078155517578, "learning_rate": 3.953955555555556e-06, "loss": 0.2294, "step": 37775 }, { "epoch": 10.08, "grad_norm": 8.412330627441406, "learning_rate": 3.9495111111111115e-06, "loss": 0.2444, "step": 37800 }, { "epoch": 10.086666666666666, "grad_norm": 8.495828628540039, "learning_rate": 3.945066666666667e-06, "loss": 0.2266, "step": 37825 }, { "epoch": 10.093333333333334, "grad_norm": 8.200389862060547, "learning_rate": 3.940622222222222e-06, "loss": 0.2576, "step": 37850 }, { "epoch": 10.1, "grad_norm": 6.118553161621094, "learning_rate": 3.9361777777777785e-06, "loss": 0.2464, "step": 37875 }, { "epoch": 10.106666666666667, "grad_norm": 9.211953163146973, "learning_rate": 3.931733333333333e-06, "loss": 0.2264, "step": 37900 }, { "epoch": 10.113333333333333, "grad_norm": 8.123000144958496, "learning_rate": 3.927288888888889e-06, "loss": 0.255, "step": 37925 }, { "epoch": 10.12, "grad_norm": 8.521992683410645, "learning_rate": 3.922844444444445e-06, "loss": 0.2326, "step": 37950 }, { "epoch": 10.126666666666667, "grad_norm": 7.896209239959717, "learning_rate": 3.9184000000000005e-06, "loss": 0.2358, "step": 37975 }, { "epoch": 10.133333333333333, "grad_norm": 7.910315990447998, "learning_rate": 3.913955555555556e-06, "loss": 0.22, "step": 38000 }, { "epoch": 10.14, "grad_norm": 7.148990631103516, "learning_rate": 3.909511111111112e-06, "loss": 0.2301, "step": 38025 }, { "epoch": 10.146666666666667, "grad_norm": 8.734615325927734, "learning_rate": 3.905066666666667e-06, "loss": 0.2423, "step": 38050 }, { "epoch": 10.153333333333332, "grad_norm": 7.900934219360352, "learning_rate": 3.900622222222222e-06, "loss": 0.2288, "step": 38075 }, { "epoch": 10.16, "grad_norm": 9.342535018920898, "learning_rate": 3.896177777777778e-06, "loss": 0.2392, "step": 38100 }, { "epoch": 10.166666666666666, "grad_norm": 7.215909957885742, "learning_rate": 3.891733333333334e-06, "loss": 0.2207, "step": 38125 }, { "epoch": 10.173333333333334, "grad_norm": 9.116720199584961, "learning_rate": 3.8872888888888895e-06, "loss": 0.2305, "step": 38150 }, { "epoch": 10.18, "grad_norm": 7.835118770599365, "learning_rate": 3.882844444444444e-06, "loss": 0.2334, "step": 38175 }, { "epoch": 10.186666666666667, "grad_norm": 7.831537246704102, "learning_rate": 3.878400000000001e-06, "loss": 0.2584, "step": 38200 }, { "epoch": 10.193333333333333, "grad_norm": 7.800407886505127, "learning_rate": 3.873955555555556e-06, "loss": 0.2242, "step": 38225 }, { "epoch": 10.2, "grad_norm": 10.364270210266113, "learning_rate": 3.869511111111111e-06, "loss": 0.2634, "step": 38250 }, { "epoch": 10.206666666666667, "grad_norm": 8.485258102416992, "learning_rate": 3.865066666666667e-06, "loss": 0.2165, "step": 38275 }, { "epoch": 10.213333333333333, "grad_norm": 9.955810546875, "learning_rate": 3.860622222222222e-06, "loss": 0.2303, "step": 38300 }, { "epoch": 10.22, "grad_norm": 23.201406478881836, "learning_rate": 3.8561777777777785e-06, "loss": 0.2335, "step": 38325 }, { "epoch": 10.226666666666667, "grad_norm": 8.114459037780762, "learning_rate": 3.851733333333333e-06, "loss": 0.2543, "step": 38350 }, { "epoch": 10.233333333333333, "grad_norm": 9.595904350280762, "learning_rate": 3.847288888888889e-06, "loss": 0.2265, "step": 38375 }, { "epoch": 10.24, "grad_norm": 9.234641075134277, "learning_rate": 3.842844444444445e-06, "loss": 0.236, "step": 38400 }, { "epoch": 10.246666666666666, "grad_norm": 9.777807235717773, "learning_rate": 3.8384e-06, "loss": 0.2393, "step": 38425 }, { "epoch": 10.253333333333334, "grad_norm": 8.86673355102539, "learning_rate": 3.833955555555556e-06, "loss": 0.2275, "step": 38450 }, { "epoch": 10.26, "grad_norm": 10.553226470947266, "learning_rate": 3.829511111111112e-06, "loss": 0.2285, "step": 38475 }, { "epoch": 10.266666666666667, "grad_norm": 8.132725715637207, "learning_rate": 3.825066666666667e-06, "loss": 0.2278, "step": 38500 }, { "epoch": 10.273333333333333, "grad_norm": 9.407454490661621, "learning_rate": 3.820622222222223e-06, "loss": 0.2222, "step": 38525 }, { "epoch": 10.28, "grad_norm": 6.8985443115234375, "learning_rate": 3.816177777777778e-06, "loss": 0.2302, "step": 38550 }, { "epoch": 10.286666666666667, "grad_norm": 8.54443073272705, "learning_rate": 3.8117333333333333e-06, "loss": 0.26, "step": 38575 }, { "epoch": 10.293333333333333, "grad_norm": 8.41584587097168, "learning_rate": 3.8072888888888894e-06, "loss": 0.2315, "step": 38600 }, { "epoch": 10.3, "grad_norm": 8.32362174987793, "learning_rate": 3.8028444444444447e-06, "loss": 0.2339, "step": 38625 }, { "epoch": 10.306666666666667, "grad_norm": 6.777981758117676, "learning_rate": 3.7984000000000003e-06, "loss": 0.2195, "step": 38650 }, { "epoch": 10.313333333333333, "grad_norm": 8.673516273498535, "learning_rate": 3.7939555555555556e-06, "loss": 0.2141, "step": 38675 }, { "epoch": 10.32, "grad_norm": 6.866688251495361, "learning_rate": 3.7895111111111117e-06, "loss": 0.2191, "step": 38700 }, { "epoch": 10.326666666666666, "grad_norm": 8.10189151763916, "learning_rate": 3.785066666666667e-06, "loss": 0.2265, "step": 38725 }, { "epoch": 10.333333333333334, "grad_norm": 8.146675109863281, "learning_rate": 3.7806222222222227e-06, "loss": 0.2202, "step": 38750 }, { "epoch": 10.34, "grad_norm": 11.224204063415527, "learning_rate": 3.776177777777778e-06, "loss": 0.2336, "step": 38775 }, { "epoch": 10.346666666666668, "grad_norm": 7.394009590148926, "learning_rate": 3.771733333333334e-06, "loss": 0.2469, "step": 38800 }, { "epoch": 10.353333333333333, "grad_norm": 11.235764503479004, "learning_rate": 3.7672888888888893e-06, "loss": 0.2084, "step": 38825 }, { "epoch": 10.36, "grad_norm": 6.991292953491211, "learning_rate": 3.7628444444444446e-06, "loss": 0.2482, "step": 38850 }, { "epoch": 10.366666666666667, "grad_norm": Infinity, "learning_rate": 3.7585777777777783e-06, "loss": 0.2426, "step": 38875 }, { "epoch": 10.373333333333333, "grad_norm": 8.380146026611328, "learning_rate": 3.7541333333333336e-06, "loss": 0.2577, "step": 38900 }, { "epoch": 10.38, "grad_norm": 8.758688926696777, "learning_rate": 3.7496888888888893e-06, "loss": 0.2475, "step": 38925 }, { "epoch": 10.386666666666667, "grad_norm": 8.96335220336914, "learning_rate": 3.7452444444444446e-06, "loss": 0.2193, "step": 38950 }, { "epoch": 10.393333333333333, "grad_norm": 8.01783561706543, "learning_rate": 3.7408000000000007e-06, "loss": 0.2677, "step": 38975 }, { "epoch": 10.4, "grad_norm": 10.75273323059082, "learning_rate": 3.736355555555556e-06, "loss": 0.2278, "step": 39000 }, { "epoch": 10.406666666666666, "grad_norm": 8.649537086486816, "learning_rate": 3.7319111111111112e-06, "loss": 0.2179, "step": 39025 }, { "epoch": 10.413333333333334, "grad_norm": 7.566893577575684, "learning_rate": 3.727466666666667e-06, "loss": 0.2348, "step": 39050 }, { "epoch": 10.42, "grad_norm": 13.354811668395996, "learning_rate": 3.723022222222222e-06, "loss": 0.2541, "step": 39075 }, { "epoch": 10.426666666666666, "grad_norm": 7.850353240966797, "learning_rate": 3.7185777777777783e-06, "loss": 0.2295, "step": 39100 }, { "epoch": 10.433333333333334, "grad_norm": 7.839790344238281, "learning_rate": 3.7141333333333336e-06, "loss": 0.2242, "step": 39125 }, { "epoch": 10.44, "grad_norm": 8.050643920898438, "learning_rate": 3.7096888888888892e-06, "loss": 0.2398, "step": 39150 }, { "epoch": 10.446666666666667, "grad_norm": 8.47515869140625, "learning_rate": 3.7052444444444445e-06, "loss": 0.2347, "step": 39175 }, { "epoch": 10.453333333333333, "grad_norm": 7.492109298706055, "learning_rate": 3.7008000000000006e-06, "loss": 0.2259, "step": 39200 }, { "epoch": 10.46, "grad_norm": 9.7221097946167, "learning_rate": 3.696355555555556e-06, "loss": 0.2225, "step": 39225 }, { "epoch": 10.466666666666667, "grad_norm": 7.6934099197387695, "learning_rate": 3.6919111111111116e-06, "loss": 0.2376, "step": 39250 }, { "epoch": 10.473333333333333, "grad_norm": 9.416120529174805, "learning_rate": 3.687466666666667e-06, "loss": 0.255, "step": 39275 }, { "epoch": 10.48, "grad_norm": 9.342997550964355, "learning_rate": 3.683022222222222e-06, "loss": 0.2261, "step": 39300 }, { "epoch": 10.486666666666666, "grad_norm": 8.977670669555664, "learning_rate": 3.6785777777777782e-06, "loss": 0.2382, "step": 39325 }, { "epoch": 10.493333333333334, "grad_norm": 8.782371520996094, "learning_rate": 3.6741333333333335e-06, "loss": 0.2174, "step": 39350 }, { "epoch": 10.5, "grad_norm": 8.136134147644043, "learning_rate": 3.669688888888889e-06, "loss": 0.2444, "step": 39375 }, { "epoch": 10.506666666666666, "grad_norm": 8.964178085327148, "learning_rate": 3.6652444444444445e-06, "loss": 0.2277, "step": 39400 }, { "epoch": 10.513333333333334, "grad_norm": 8.009521484375, "learning_rate": 3.6608000000000006e-06, "loss": 0.2562, "step": 39425 }, { "epoch": 10.52, "grad_norm": 9.212867736816406, "learning_rate": 3.656355555555556e-06, "loss": 0.2524, "step": 39450 }, { "epoch": 10.526666666666667, "grad_norm": 10.157148361206055, "learning_rate": 3.6519111111111116e-06, "loss": 0.2322, "step": 39475 }, { "epoch": 10.533333333333333, "grad_norm": 8.433455467224121, "learning_rate": 3.647466666666667e-06, "loss": 0.2427, "step": 39500 }, { "epoch": 10.54, "grad_norm": 10.004878997802734, "learning_rate": 3.643022222222223e-06, "loss": 0.2343, "step": 39525 }, { "epoch": 10.546666666666667, "grad_norm": 8.350175857543945, "learning_rate": 3.638577777777778e-06, "loss": 0.2336, "step": 39550 }, { "epoch": 10.553333333333333, "grad_norm": 7.086070537567139, "learning_rate": 3.6341333333333335e-06, "loss": 0.2279, "step": 39575 }, { "epoch": 10.56, "grad_norm": 6.564724922180176, "learning_rate": 3.629688888888889e-06, "loss": 0.2505, "step": 39600 }, { "epoch": 10.566666666666666, "grad_norm": 9.80459976196289, "learning_rate": 3.6252444444444444e-06, "loss": 0.2502, "step": 39625 }, { "epoch": 10.573333333333334, "grad_norm": 8.433406829833984, "learning_rate": 3.6208000000000006e-06, "loss": 0.2242, "step": 39650 }, { "epoch": 10.58, "grad_norm": 8.566139221191406, "learning_rate": 3.616355555555556e-06, "loss": 0.2421, "step": 39675 }, { "epoch": 10.586666666666666, "grad_norm": 7.994068622589111, "learning_rate": 3.6119111111111115e-06, "loss": 0.2316, "step": 39700 }, { "epoch": 10.593333333333334, "grad_norm": 9.410627365112305, "learning_rate": 3.6074666666666668e-06, "loss": 0.2137, "step": 39725 }, { "epoch": 10.6, "grad_norm": 7.6290106773376465, "learning_rate": 3.603022222222223e-06, "loss": 0.2373, "step": 39750 }, { "epoch": 10.606666666666667, "grad_norm": 8.88478946685791, "learning_rate": 3.598577777777778e-06, "loss": 0.2269, "step": 39775 }, { "epoch": 10.613333333333333, "grad_norm": 9.702497482299805, "learning_rate": 3.5941333333333334e-06, "loss": 0.2259, "step": 39800 }, { "epoch": 10.62, "grad_norm": 8.029433250427246, "learning_rate": 3.589688888888889e-06, "loss": 0.2606, "step": 39825 }, { "epoch": 10.626666666666667, "grad_norm": 7.80323600769043, "learning_rate": 3.5852444444444444e-06, "loss": 0.2383, "step": 39850 }, { "epoch": 10.633333333333333, "grad_norm": 8.392340660095215, "learning_rate": 3.5808000000000005e-06, "loss": 0.2427, "step": 39875 }, { "epoch": 10.64, "grad_norm": 12.616775512695312, "learning_rate": 3.5763555555555558e-06, "loss": 0.2403, "step": 39900 }, { "epoch": 10.646666666666667, "grad_norm": 8.686854362487793, "learning_rate": 3.5719111111111115e-06, "loss": 0.2355, "step": 39925 }, { "epoch": 10.653333333333332, "grad_norm": 7.003011703491211, "learning_rate": 3.5674666666666667e-06, "loss": 0.2337, "step": 39950 }, { "epoch": 10.66, "grad_norm": 8.846282005310059, "learning_rate": 3.563022222222223e-06, "loss": 0.2376, "step": 39975 }, { "epoch": 10.666666666666666, "grad_norm": 15.992740631103516, "learning_rate": 3.558577777777778e-06, "loss": 0.2132, "step": 40000 }, { "epoch": 10.673333333333334, "grad_norm": 9.388334274291992, "learning_rate": 3.554133333333334e-06, "loss": 0.2355, "step": 40025 }, { "epoch": 10.68, "grad_norm": 6.5406670570373535, "learning_rate": 3.549688888888889e-06, "loss": 0.2419, "step": 40050 }, { "epoch": 10.686666666666667, "grad_norm": 5.696641445159912, "learning_rate": 3.5452444444444444e-06, "loss": 0.2338, "step": 40075 }, { "epoch": 10.693333333333333, "grad_norm": 6.915182590484619, "learning_rate": 3.5408000000000005e-06, "loss": 0.2352, "step": 40100 }, { "epoch": 10.7, "grad_norm": 9.815244674682617, "learning_rate": 3.5363555555555557e-06, "loss": 0.2457, "step": 40125 }, { "epoch": 10.706666666666667, "grad_norm": 7.23432731628418, "learning_rate": 3.5319111111111114e-06, "loss": 0.2485, "step": 40150 }, { "epoch": 10.713333333333333, "grad_norm": 8.103955268859863, "learning_rate": 3.5274666666666667e-06, "loss": 0.221, "step": 40175 }, { "epoch": 10.72, "grad_norm": 7.607647895812988, "learning_rate": 3.523022222222223e-06, "loss": 0.2355, "step": 40200 }, { "epoch": 10.726666666666667, "grad_norm": 6.96151065826416, "learning_rate": 3.518577777777778e-06, "loss": 0.2225, "step": 40225 }, { "epoch": 10.733333333333333, "grad_norm": 8.827876091003418, "learning_rate": 3.5141333333333338e-06, "loss": 0.2436, "step": 40250 }, { "epoch": 10.74, "grad_norm": 8.841526985168457, "learning_rate": 3.509688888888889e-06, "loss": 0.2217, "step": 40275 }, { "epoch": 10.746666666666666, "grad_norm": 8.114385604858398, "learning_rate": 3.505244444444445e-06, "loss": 0.2137, "step": 40300 }, { "epoch": 10.753333333333334, "grad_norm": 8.819375038146973, "learning_rate": 3.5008000000000004e-06, "loss": 0.2328, "step": 40325 }, { "epoch": 10.76, "grad_norm": 8.241307258605957, "learning_rate": 3.4963555555555557e-06, "loss": 0.2209, "step": 40350 }, { "epoch": 10.766666666666667, "grad_norm": 8.196920394897461, "learning_rate": 3.4919111111111114e-06, "loss": 0.2296, "step": 40375 }, { "epoch": 10.773333333333333, "grad_norm": 6.8775200843811035, "learning_rate": 3.4874666666666667e-06, "loss": 0.2349, "step": 40400 }, { "epoch": 10.78, "grad_norm": 7.79805326461792, "learning_rate": 3.4830222222222228e-06, "loss": 0.2224, "step": 40425 }, { "epoch": 10.786666666666667, "grad_norm": 7.873829364776611, "learning_rate": 3.478577777777778e-06, "loss": 0.2319, "step": 40450 }, { "epoch": 10.793333333333333, "grad_norm": 7.550902843475342, "learning_rate": 3.4741333333333337e-06, "loss": 0.2335, "step": 40475 }, { "epoch": 10.8, "grad_norm": 9.668993949890137, "learning_rate": 3.469688888888889e-06, "loss": 0.2341, "step": 40500 }, { "epoch": 10.806666666666667, "grad_norm": 11.424470901489258, "learning_rate": 3.465244444444445e-06, "loss": 0.23, "step": 40525 }, { "epoch": 10.813333333333333, "grad_norm": 7.24432897567749, "learning_rate": 3.4608000000000004e-06, "loss": 0.2282, "step": 40550 }, { "epoch": 10.82, "grad_norm": 7.254228591918945, "learning_rate": 3.4563555555555557e-06, "loss": 0.2512, "step": 40575 }, { "epoch": 10.826666666666666, "grad_norm": 9.873424530029297, "learning_rate": 3.4519111111111114e-06, "loss": 0.2072, "step": 40600 }, { "epoch": 10.833333333333334, "grad_norm": 8.332048416137695, "learning_rate": 3.4474666666666666e-06, "loss": 0.2313, "step": 40625 }, { "epoch": 10.84, "grad_norm": 9.065515518188477, "learning_rate": 3.4430222222222227e-06, "loss": 0.2498, "step": 40650 }, { "epoch": 10.846666666666668, "grad_norm": 8.45325756072998, "learning_rate": 3.438577777777778e-06, "loss": 0.2406, "step": 40675 }, { "epoch": 10.853333333333333, "grad_norm": 9.508902549743652, "learning_rate": 3.4341333333333337e-06, "loss": 0.2358, "step": 40700 }, { "epoch": 10.86, "grad_norm": 8.935314178466797, "learning_rate": 3.429688888888889e-06, "loss": 0.2237, "step": 40725 }, { "epoch": 10.866666666666667, "grad_norm": 7.9802350997924805, "learning_rate": 3.425244444444445e-06, "loss": 0.2502, "step": 40750 }, { "epoch": 10.873333333333333, "grad_norm": 8.224103927612305, "learning_rate": 3.4208000000000004e-06, "loss": 0.2672, "step": 40775 }, { "epoch": 10.88, "grad_norm": 9.206069946289062, "learning_rate": 3.416355555555556e-06, "loss": 0.2321, "step": 40800 }, { "epoch": 10.886666666666667, "grad_norm": 6.7599711418151855, "learning_rate": 3.4119111111111113e-06, "loss": 0.2215, "step": 40825 }, { "epoch": 10.893333333333333, "grad_norm": 10.13789176940918, "learning_rate": 3.4074666666666666e-06, "loss": 0.2526, "step": 40850 }, { "epoch": 10.9, "grad_norm": 10.29374885559082, "learning_rate": 3.4030222222222227e-06, "loss": 0.2508, "step": 40875 }, { "epoch": 10.906666666666666, "grad_norm": 10.223416328430176, "learning_rate": 3.398577777777778e-06, "loss": 0.2434, "step": 40900 }, { "epoch": 10.913333333333334, "grad_norm": 11.14451789855957, "learning_rate": 3.3941333333333337e-06, "loss": 0.2222, "step": 40925 }, { "epoch": 10.92, "grad_norm": 12.089435577392578, "learning_rate": 3.389688888888889e-06, "loss": 0.2515, "step": 40950 }, { "epoch": 10.926666666666666, "grad_norm": 12.798824310302734, "learning_rate": 3.385244444444445e-06, "loss": 0.2302, "step": 40975 }, { "epoch": 10.933333333333334, "grad_norm": 6.642827033996582, "learning_rate": 3.3808000000000003e-06, "loss": 0.2106, "step": 41000 }, { "epoch": 10.94, "grad_norm": 9.76341438293457, "learning_rate": 3.376355555555556e-06, "loss": 0.255, "step": 41025 }, { "epoch": 10.946666666666667, "grad_norm": 7.670187473297119, "learning_rate": 3.3719111111111113e-06, "loss": 0.2283, "step": 41050 }, { "epoch": 10.953333333333333, "grad_norm": 9.368205070495605, "learning_rate": 3.3674666666666674e-06, "loss": 0.267, "step": 41075 }, { "epoch": 10.96, "grad_norm": 8.09643840789795, "learning_rate": 3.3630222222222227e-06, "loss": 0.2339, "step": 41100 }, { "epoch": 10.966666666666667, "grad_norm": 10.153895378112793, "learning_rate": 3.358577777777778e-06, "loss": 0.2436, "step": 41125 }, { "epoch": 10.973333333333333, "grad_norm": 10.069945335388184, "learning_rate": 3.3541333333333336e-06, "loss": 0.2381, "step": 41150 }, { "epoch": 10.98, "grad_norm": 8.237937927246094, "learning_rate": 3.349688888888889e-06, "loss": 0.2267, "step": 41175 }, { "epoch": 10.986666666666666, "grad_norm": 8.594280242919922, "learning_rate": 3.345244444444445e-06, "loss": 0.2255, "step": 41200 }, { "epoch": 10.993333333333334, "grad_norm": 7.229711055755615, "learning_rate": 3.3408000000000003e-06, "loss": 0.2439, "step": 41225 }, { "epoch": 11.0, "grad_norm": 15.4478178024292, "learning_rate": 3.336355555555556e-06, "loss": 0.2431, "step": 41250 }, { "epoch": 11.0, "eval_cer": 21.36667722639435, "eval_loss": 0.36675572395324707, "eval_runtime": 1257.9926, "eval_samples_per_second": 3.975, "eval_steps_per_second": 0.497, "step": 41250 }, { "epoch": 11.006666666666666, "grad_norm": 6.3628644943237305, "learning_rate": 3.3319111111111112e-06, "loss": 0.1718, "step": 41275 }, { "epoch": 11.013333333333334, "grad_norm": 6.844697952270508, "learning_rate": 3.3274666666666673e-06, "loss": 0.1726, "step": 41300 }, { "epoch": 11.02, "grad_norm": 6.7650933265686035, "learning_rate": 3.3230222222222226e-06, "loss": 0.1626, "step": 41325 }, { "epoch": 11.026666666666667, "grad_norm": 4.5490312576293945, "learning_rate": 3.318577777777778e-06, "loss": 0.1456, "step": 41350 }, { "epoch": 11.033333333333333, "grad_norm": 8.177011489868164, "learning_rate": 3.3141333333333336e-06, "loss": 0.1683, "step": 41375 }, { "epoch": 11.04, "grad_norm": 6.149026393890381, "learning_rate": 3.309688888888889e-06, "loss": 0.1627, "step": 41400 }, { "epoch": 11.046666666666667, "grad_norm": 10.45779037475586, "learning_rate": 3.305244444444445e-06, "loss": 0.156, "step": 41425 }, { "epoch": 11.053333333333333, "grad_norm": 5.955918312072754, "learning_rate": 3.3008000000000002e-06, "loss": 0.1597, "step": 41450 }, { "epoch": 11.06, "grad_norm": 6.060828685760498, "learning_rate": 3.296355555555556e-06, "loss": 0.1597, "step": 41475 }, { "epoch": 11.066666666666666, "grad_norm": 4.5837602615356445, "learning_rate": 3.291911111111111e-06, "loss": 0.153, "step": 41500 }, { "epoch": 11.073333333333334, "grad_norm": 6.804620265960693, "learning_rate": 3.2874666666666673e-06, "loss": 0.1727, "step": 41525 }, { "epoch": 11.08, "grad_norm": 7.577788829803467, "learning_rate": 3.2830222222222226e-06, "loss": 0.1615, "step": 41550 }, { "epoch": 11.086666666666666, "grad_norm": 7.483352184295654, "learning_rate": 3.2785777777777783e-06, "loss": 0.168, "step": 41575 }, { "epoch": 11.093333333333334, "grad_norm": 7.8912577629089355, "learning_rate": 3.2741333333333335e-06, "loss": 0.1689, "step": 41600 }, { "epoch": 11.1, "grad_norm": 6.864776134490967, "learning_rate": 3.269688888888889e-06, "loss": 0.1653, "step": 41625 }, { "epoch": 11.106666666666667, "grad_norm": 6.279836177825928, "learning_rate": 3.265244444444445e-06, "loss": 0.1663, "step": 41650 }, { "epoch": 11.113333333333333, "grad_norm": 7.304124355316162, "learning_rate": 3.2608e-06, "loss": 0.1509, "step": 41675 }, { "epoch": 11.12, "grad_norm": 8.196307182312012, "learning_rate": 3.256355555555556e-06, "loss": 0.1532, "step": 41700 }, { "epoch": 11.126666666666667, "grad_norm": 6.886493682861328, "learning_rate": 3.251911111111111e-06, "loss": 0.1644, "step": 41725 }, { "epoch": 11.133333333333333, "grad_norm": 7.93499755859375, "learning_rate": 3.2474666666666673e-06, "loss": 0.1763, "step": 41750 }, { "epoch": 11.14, "grad_norm": 8.721900939941406, "learning_rate": 3.2430222222222225e-06, "loss": 0.1496, "step": 41775 }, { "epoch": 11.146666666666667, "grad_norm": 28.207721710205078, "learning_rate": 3.2385777777777782e-06, "loss": 0.1548, "step": 41800 }, { "epoch": 11.153333333333332, "grad_norm": 6.728294372558594, "learning_rate": 3.2341333333333335e-06, "loss": 0.1613, "step": 41825 }, { "epoch": 11.16, "grad_norm": 7.302453994750977, "learning_rate": 3.2296888888888896e-06, "loss": 0.1723, "step": 41850 }, { "epoch": 11.166666666666666, "grad_norm": 7.666321277618408, "learning_rate": 3.225244444444445e-06, "loss": 0.1693, "step": 41875 }, { "epoch": 11.173333333333334, "grad_norm": 3.938662052154541, "learning_rate": 3.2208e-06, "loss": 0.1753, "step": 41900 }, { "epoch": 11.18, "grad_norm": 9.284903526306152, "learning_rate": 3.216355555555556e-06, "loss": 0.1763, "step": 41925 }, { "epoch": 11.186666666666667, "grad_norm": 7.702326774597168, "learning_rate": 3.211911111111111e-06, "loss": 0.1638, "step": 41950 }, { "epoch": 11.193333333333333, "grad_norm": 7.848499774932861, "learning_rate": 3.2074666666666672e-06, "loss": 0.1442, "step": 41975 }, { "epoch": 11.2, "grad_norm": 7.467278957366943, "learning_rate": 3.2030222222222225e-06, "loss": 0.1359, "step": 42000 }, { "epoch": 11.206666666666667, "grad_norm": 8.6646146774292, "learning_rate": 3.198577777777778e-06, "loss": 0.1711, "step": 42025 }, { "epoch": 11.213333333333333, "grad_norm": 7.0978169441223145, "learning_rate": 3.1941333333333335e-06, "loss": 0.1618, "step": 42050 }, { "epoch": 11.22, "grad_norm": 7.236456871032715, "learning_rate": 3.1896888888888896e-06, "loss": 0.159, "step": 42075 }, { "epoch": 11.226666666666667, "grad_norm": 5.769096374511719, "learning_rate": 3.185244444444445e-06, "loss": 0.1579, "step": 42100 }, { "epoch": 11.233333333333333, "grad_norm": 6.503199577331543, "learning_rate": 3.1808e-06, "loss": 0.1556, "step": 42125 }, { "epoch": 11.24, "grad_norm": 7.2549920082092285, "learning_rate": 3.176355555555556e-06, "loss": 0.1534, "step": 42150 }, { "epoch": 11.246666666666666, "grad_norm": 6.054853916168213, "learning_rate": 3.171911111111111e-06, "loss": 0.1523, "step": 42175 }, { "epoch": 11.253333333333334, "grad_norm": 7.935262680053711, "learning_rate": 3.167466666666667e-06, "loss": 0.1583, "step": 42200 }, { "epoch": 11.26, "grad_norm": 4.899887561798096, "learning_rate": 3.1630222222222225e-06, "loss": 0.1635, "step": 42225 }, { "epoch": 11.266666666666667, "grad_norm": 7.979632377624512, "learning_rate": 3.158577777777778e-06, "loss": 0.1629, "step": 42250 }, { "epoch": 11.273333333333333, "grad_norm": 12.075186729431152, "learning_rate": 3.1541333333333334e-06, "loss": 0.1461, "step": 42275 }, { "epoch": 11.28, "grad_norm": 6.796260356903076, "learning_rate": 3.1496888888888895e-06, "loss": 0.1651, "step": 42300 }, { "epoch": 11.286666666666667, "grad_norm": 6.811568737030029, "learning_rate": 3.145244444444445e-06, "loss": 0.1592, "step": 42325 }, { "epoch": 11.293333333333333, "grad_norm": 7.536212921142578, "learning_rate": 3.1408000000000005e-06, "loss": 0.1632, "step": 42350 }, { "epoch": 11.3, "grad_norm": 7.072963714599609, "learning_rate": 3.1363555555555558e-06, "loss": 0.1553, "step": 42375 }, { "epoch": 11.306666666666667, "grad_norm": 6.330763816833496, "learning_rate": 3.131911111111111e-06, "loss": 0.1555, "step": 42400 }, { "epoch": 11.313333333333333, "grad_norm": 6.611195087432861, "learning_rate": 3.127466666666667e-06, "loss": 0.1377, "step": 42425 }, { "epoch": 11.32, "grad_norm": 7.172667980194092, "learning_rate": 3.1230222222222224e-06, "loss": 0.1566, "step": 42450 }, { "epoch": 11.326666666666666, "grad_norm": 7.799119472503662, "learning_rate": 3.118577777777778e-06, "loss": 0.1568, "step": 42475 }, { "epoch": 11.333333333333334, "grad_norm": 9.881580352783203, "learning_rate": 3.1141333333333334e-06, "loss": 0.1556, "step": 42500 }, { "epoch": 11.34, "grad_norm": 7.408784866333008, "learning_rate": 3.1096888888888895e-06, "loss": 0.1628, "step": 42525 }, { "epoch": 11.346666666666668, "grad_norm": 6.879770278930664, "learning_rate": 3.1052444444444448e-06, "loss": 0.1652, "step": 42550 }, { "epoch": 11.353333333333333, "grad_norm": 6.7888078689575195, "learning_rate": 3.1008000000000004e-06, "loss": 0.1489, "step": 42575 }, { "epoch": 11.36, "grad_norm": 6.286257266998291, "learning_rate": 3.0963555555555557e-06, "loss": 0.1558, "step": 42600 }, { "epoch": 11.366666666666667, "grad_norm": 6.920025825500488, "learning_rate": 3.091911111111112e-06, "loss": 0.1527, "step": 42625 }, { "epoch": 11.373333333333333, "grad_norm": 10.460956573486328, "learning_rate": 3.087466666666667e-06, "loss": 0.1549, "step": 42650 }, { "epoch": 11.38, "grad_norm": 5.21718168258667, "learning_rate": 3.0830222222222224e-06, "loss": 0.1563, "step": 42675 }, { "epoch": 11.386666666666667, "grad_norm": 6.587711334228516, "learning_rate": 3.078577777777778e-06, "loss": 0.1448, "step": 42700 }, { "epoch": 11.393333333333333, "grad_norm": 8.322205543518066, "learning_rate": 3.0741333333333333e-06, "loss": 0.1638, "step": 42725 }, { "epoch": 11.4, "grad_norm": 7.457234859466553, "learning_rate": 3.0696888888888894e-06, "loss": 0.1574, "step": 42750 }, { "epoch": 11.406666666666666, "grad_norm": 8.703605651855469, "learning_rate": 3.0652444444444447e-06, "loss": 0.1574, "step": 42775 }, { "epoch": 11.413333333333334, "grad_norm": 8.813858032226562, "learning_rate": 3.0608000000000004e-06, "loss": 0.1615, "step": 42800 }, { "epoch": 11.42, "grad_norm": 12.151554107666016, "learning_rate": 3.0563555555555557e-06, "loss": 0.1683, "step": 42825 }, { "epoch": 11.426666666666666, "grad_norm": 7.090645790100098, "learning_rate": 3.051911111111112e-06, "loss": 0.1569, "step": 42850 }, { "epoch": 11.433333333333334, "grad_norm": 7.7591023445129395, "learning_rate": 3.047466666666667e-06, "loss": 0.1609, "step": 42875 }, { "epoch": 11.44, "grad_norm": 8.268049240112305, "learning_rate": 3.0430222222222223e-06, "loss": 0.1626, "step": 42900 }, { "epoch": 11.446666666666667, "grad_norm": 9.041934967041016, "learning_rate": 3.038577777777778e-06, "loss": 0.1608, "step": 42925 }, { "epoch": 11.453333333333333, "grad_norm": 8.045859336853027, "learning_rate": 3.0341333333333333e-06, "loss": 0.1642, "step": 42950 }, { "epoch": 11.46, "grad_norm": 5.7819108963012695, "learning_rate": 3.0296888888888894e-06, "loss": 0.1607, "step": 42975 }, { "epoch": 11.466666666666667, "grad_norm": 6.2671685218811035, "learning_rate": 3.0252444444444447e-06, "loss": 0.1823, "step": 43000 }, { "epoch": 11.473333333333333, "grad_norm": 5.5133233070373535, "learning_rate": 3.0208000000000004e-06, "loss": 0.1628, "step": 43025 }, { "epoch": 11.48, "grad_norm": 6.429490089416504, "learning_rate": 3.0163555555555556e-06, "loss": 0.1577, "step": 43050 }, { "epoch": 11.486666666666666, "grad_norm": 9.206454277038574, "learning_rate": 3.0119111111111118e-06, "loss": 0.1688, "step": 43075 }, { "epoch": 11.493333333333334, "grad_norm": 7.725639343261719, "learning_rate": 3.007466666666667e-06, "loss": 0.1577, "step": 43100 }, { "epoch": 11.5, "grad_norm": 7.453863620758057, "learning_rate": 3.0030222222222227e-06, "loss": 0.1637, "step": 43125 }, { "epoch": 11.506666666666666, "grad_norm": 6.8215718269348145, "learning_rate": 2.998577777777778e-06, "loss": 0.1692, "step": 43150 }, { "epoch": 11.513333333333334, "grad_norm": 7.308427333831787, "learning_rate": 2.9941333333333333e-06, "loss": 0.1634, "step": 43175 }, { "epoch": 11.52, "grad_norm": 6.2880682945251465, "learning_rate": 2.9896888888888894e-06, "loss": 0.1526, "step": 43200 }, { "epoch": 11.526666666666667, "grad_norm": 4.966390609741211, "learning_rate": 2.9852444444444446e-06, "loss": 0.1764, "step": 43225 }, { "epoch": 11.533333333333333, "grad_norm": 5.655823707580566, "learning_rate": 2.9808000000000003e-06, "loss": 0.1631, "step": 43250 }, { "epoch": 11.54, "grad_norm": 7.042474269866943, "learning_rate": 2.9765333333333336e-06, "loss": 0.1778, "step": 43275 }, { "epoch": 11.546666666666667, "grad_norm": 6.356965065002441, "learning_rate": 2.9720888888888893e-06, "loss": 0.154, "step": 43300 }, { "epoch": 11.553333333333333, "grad_norm": 5.6261725425720215, "learning_rate": 2.9676444444444446e-06, "loss": 0.1695, "step": 43325 }, { "epoch": 11.56, "grad_norm": 6.94989538192749, "learning_rate": 2.9632e-06, "loss": 0.1615, "step": 43350 }, { "epoch": 11.566666666666666, "grad_norm": 6.815896511077881, "learning_rate": 2.958755555555556e-06, "loss": 0.1614, "step": 43375 }, { "epoch": 11.573333333333334, "grad_norm": 11.365934371948242, "learning_rate": 2.9543111111111112e-06, "loss": 0.1764, "step": 43400 }, { "epoch": 11.58, "grad_norm": 6.6333417892456055, "learning_rate": 2.949866666666667e-06, "loss": 0.1783, "step": 43425 }, { "epoch": 11.586666666666666, "grad_norm": 8.714364051818848, "learning_rate": 2.945422222222222e-06, "loss": 0.1451, "step": 43450 }, { "epoch": 11.593333333333334, "grad_norm": 5.899602890014648, "learning_rate": 2.9409777777777783e-06, "loss": 0.1651, "step": 43475 }, { "epoch": 11.6, "grad_norm": 8.710065841674805, "learning_rate": 2.9365333333333336e-06, "loss": 0.1854, "step": 43500 }, { "epoch": 11.606666666666667, "grad_norm": 7.695793628692627, "learning_rate": 2.9320888888888893e-06, "loss": 0.1618, "step": 43525 }, { "epoch": 11.613333333333333, "grad_norm": 8.160514831542969, "learning_rate": 2.9276444444444445e-06, "loss": 0.1705, "step": 43550 }, { "epoch": 11.62, "grad_norm": 6.306259632110596, "learning_rate": 2.9232000000000007e-06, "loss": 0.1599, "step": 43575 }, { "epoch": 11.626666666666667, "grad_norm": 6.527724266052246, "learning_rate": 2.918755555555556e-06, "loss": 0.1681, "step": 43600 }, { "epoch": 11.633333333333333, "grad_norm": 7.496762752532959, "learning_rate": 2.914311111111111e-06, "loss": 0.1637, "step": 43625 }, { "epoch": 11.64, "grad_norm": 6.889701843261719, "learning_rate": 2.909866666666667e-06, "loss": 0.163, "step": 43650 }, { "epoch": 11.646666666666667, "grad_norm": 6.160928249359131, "learning_rate": 2.905422222222222e-06, "loss": 0.1669, "step": 43675 }, { "epoch": 11.653333333333332, "grad_norm": 6.133251190185547, "learning_rate": 2.9009777777777783e-06, "loss": 0.1605, "step": 43700 }, { "epoch": 11.66, "grad_norm": 6.154083728790283, "learning_rate": 2.8965333333333335e-06, "loss": 0.1742, "step": 43725 }, { "epoch": 11.666666666666666, "grad_norm": 7.724209308624268, "learning_rate": 2.8920888888888892e-06, "loss": 0.1604, "step": 43750 }, { "epoch": 11.673333333333334, "grad_norm": 7.598250865936279, "learning_rate": 2.8876444444444445e-06, "loss": 0.1514, "step": 43775 }, { "epoch": 11.68, "grad_norm": 6.024491786956787, "learning_rate": 2.8832000000000006e-06, "loss": 0.1552, "step": 43800 }, { "epoch": 11.686666666666667, "grad_norm": 6.694376468658447, "learning_rate": 2.878755555555556e-06, "loss": 0.1671, "step": 43825 }, { "epoch": 11.693333333333333, "grad_norm": 7.225961685180664, "learning_rate": 2.8743111111111116e-06, "loss": 0.156, "step": 43850 }, { "epoch": 11.7, "grad_norm": 5.572283744812012, "learning_rate": 2.869866666666667e-06, "loss": 0.165, "step": 43875 }, { "epoch": 11.706666666666667, "grad_norm": 12.434906959533691, "learning_rate": 2.865422222222222e-06, "loss": 0.1604, "step": 43900 }, { "epoch": 11.713333333333333, "grad_norm": 6.743670463562012, "learning_rate": 2.8609777777777782e-06, "loss": 0.1604, "step": 43925 }, { "epoch": 11.72, "grad_norm": 7.860291957855225, "learning_rate": 2.8565333333333335e-06, "loss": 0.1686, "step": 43950 }, { "epoch": 11.726666666666667, "grad_norm": 8.041913986206055, "learning_rate": 2.852088888888889e-06, "loss": 0.1649, "step": 43975 }, { "epoch": 11.733333333333333, "grad_norm": 7.016563415527344, "learning_rate": 2.8476444444444445e-06, "loss": 0.1455, "step": 44000 }, { "epoch": 11.74, "grad_norm": 6.9571943283081055, "learning_rate": 2.8432000000000006e-06, "loss": 0.1652, "step": 44025 }, { "epoch": 11.746666666666666, "grad_norm": 7.71449613571167, "learning_rate": 2.838755555555556e-06, "loss": 0.1708, "step": 44050 }, { "epoch": 11.753333333333334, "grad_norm": 7.536164283752441, "learning_rate": 2.8343111111111115e-06, "loss": 0.1691, "step": 44075 }, { "epoch": 11.76, "grad_norm": 6.653366565704346, "learning_rate": 2.829866666666667e-06, "loss": 0.1728, "step": 44100 }, { "epoch": 11.766666666666667, "grad_norm": 6.220523834228516, "learning_rate": 2.825422222222222e-06, "loss": 0.1624, "step": 44125 }, { "epoch": 11.773333333333333, "grad_norm": 7.1974287033081055, "learning_rate": 2.820977777777778e-06, "loss": 0.1646, "step": 44150 }, { "epoch": 11.78, "grad_norm": 8.09290885925293, "learning_rate": 2.8165333333333335e-06, "loss": 0.1708, "step": 44175 }, { "epoch": 11.786666666666667, "grad_norm": 7.7516703605651855, "learning_rate": 2.812088888888889e-06, "loss": 0.1682, "step": 44200 }, { "epoch": 11.793333333333333, "grad_norm": 6.236737251281738, "learning_rate": 2.8076444444444444e-06, "loss": 0.1606, "step": 44225 }, { "epoch": 11.8, "grad_norm": 8.02682113647461, "learning_rate": 2.8032000000000005e-06, "loss": 0.1553, "step": 44250 }, { "epoch": 11.806666666666667, "grad_norm": 8.237582206726074, "learning_rate": 2.798755555555556e-06, "loss": 0.1662, "step": 44275 }, { "epoch": 11.813333333333333, "grad_norm": 8.354368209838867, "learning_rate": 2.7943111111111115e-06, "loss": 0.1754, "step": 44300 }, { "epoch": 11.82, "grad_norm": 11.57107162475586, "learning_rate": 2.7898666666666668e-06, "loss": 0.1607, "step": 44325 }, { "epoch": 11.826666666666666, "grad_norm": 7.293022632598877, "learning_rate": 2.785422222222223e-06, "loss": 0.1581, "step": 44350 }, { "epoch": 11.833333333333334, "grad_norm": 6.748603343963623, "learning_rate": 2.780977777777778e-06, "loss": 0.1655, "step": 44375 }, { "epoch": 11.84, "grad_norm": 7.552708148956299, "learning_rate": 2.7765333333333334e-06, "loss": 0.1757, "step": 44400 }, { "epoch": 11.846666666666668, "grad_norm": 6.9047088623046875, "learning_rate": 2.772088888888889e-06, "loss": 0.1774, "step": 44425 }, { "epoch": 11.853333333333333, "grad_norm": 5.5212721824646, "learning_rate": 2.7676444444444444e-06, "loss": 0.1447, "step": 44450 }, { "epoch": 11.86, "grad_norm": 7.8570146560668945, "learning_rate": 2.7632000000000005e-06, "loss": 0.1679, "step": 44475 }, { "epoch": 11.866666666666667, "grad_norm": 5.39455509185791, "learning_rate": 2.7587555555555558e-06, "loss": 0.1438, "step": 44500 }, { "epoch": 11.873333333333333, "grad_norm": 8.914227485656738, "learning_rate": 2.7543111111111115e-06, "loss": 0.1733, "step": 44525 }, { "epoch": 11.88, "grad_norm": 3.8751020431518555, "learning_rate": 2.7498666666666667e-06, "loss": 0.1541, "step": 44550 }, { "epoch": 11.886666666666667, "grad_norm": 6.996160507202148, "learning_rate": 2.745422222222223e-06, "loss": 0.1558, "step": 44575 }, { "epoch": 11.893333333333333, "grad_norm": 7.936846733093262, "learning_rate": 2.740977777777778e-06, "loss": 0.1625, "step": 44600 }, { "epoch": 11.9, "grad_norm": 7.681167125701904, "learning_rate": 2.736533333333334e-06, "loss": 0.1605, "step": 44625 }, { "epoch": 11.906666666666666, "grad_norm": 7.636104583740234, "learning_rate": 2.732088888888889e-06, "loss": 0.1579, "step": 44650 }, { "epoch": 11.913333333333334, "grad_norm": 8.562803268432617, "learning_rate": 2.7276444444444443e-06, "loss": 0.1667, "step": 44675 }, { "epoch": 11.92, "grad_norm": 10.122127532958984, "learning_rate": 2.7232000000000005e-06, "loss": 0.1732, "step": 44700 }, { "epoch": 11.926666666666666, "grad_norm": 6.210834980010986, "learning_rate": 2.7187555555555557e-06, "loss": 0.1598, "step": 44725 }, { "epoch": 11.933333333333334, "grad_norm": 7.604787349700928, "learning_rate": 2.7143111111111114e-06, "loss": 0.1526, "step": 44750 }, { "epoch": 11.94, "grad_norm": 6.259129047393799, "learning_rate": 2.7098666666666667e-06, "loss": 0.1672, "step": 44775 }, { "epoch": 11.946666666666667, "grad_norm": 6.751676559448242, "learning_rate": 2.705422222222223e-06, "loss": 0.1599, "step": 44800 }, { "epoch": 11.953333333333333, "grad_norm": 6.466487884521484, "learning_rate": 2.700977777777778e-06, "loss": 0.1639, "step": 44825 }, { "epoch": 11.96, "grad_norm": 5.768514156341553, "learning_rate": 2.6965333333333338e-06, "loss": 0.166, "step": 44850 }, { "epoch": 11.966666666666667, "grad_norm": 9.191773414611816, "learning_rate": 2.692088888888889e-06, "loss": 0.1527, "step": 44875 }, { "epoch": 11.973333333333333, "grad_norm": 6.189751625061035, "learning_rate": 2.6876444444444443e-06, "loss": 0.1551, "step": 44900 }, { "epoch": 11.98, "grad_norm": 7.363156795501709, "learning_rate": 2.6832000000000004e-06, "loss": 0.1707, "step": 44925 }, { "epoch": 11.986666666666666, "grad_norm": 10.990365028381348, "learning_rate": 2.6787555555555557e-06, "loss": 0.1562, "step": 44950 }, { "epoch": 11.993333333333334, "grad_norm": 7.541445255279541, "learning_rate": 2.6743111111111114e-06, "loss": 0.1575, "step": 44975 }, { "epoch": 12.0, "grad_norm": 9.411133766174316, "learning_rate": 2.6698666666666666e-06, "loss": 0.1569, "step": 45000 }, { "epoch": 12.0, "eval_cer": 21.120697687419636, "eval_loss": 0.3665392994880676, "eval_runtime": 1265.3387, "eval_samples_per_second": 3.952, "eval_steps_per_second": 0.494, "step": 45000 }, { "epoch": 12.006666666666666, "grad_norm": 6.493170738220215, "learning_rate": 2.6654222222222228e-06, "loss": 0.1071, "step": 45025 }, { "epoch": 12.013333333333334, "grad_norm": 10.314104080200195, "learning_rate": 2.660977777777778e-06, "loss": 0.1043, "step": 45050 }, { "epoch": 12.02, "grad_norm": 6.124871730804443, "learning_rate": 2.6565333333333337e-06, "loss": 0.0992, "step": 45075 }, { "epoch": 12.026666666666667, "grad_norm": 5.535056114196777, "learning_rate": 2.652088888888889e-06, "loss": 0.0998, "step": 45100 }, { "epoch": 12.033333333333333, "grad_norm": 6.459754943847656, "learning_rate": 2.647644444444445e-06, "loss": 0.0987, "step": 45125 }, { "epoch": 12.04, "grad_norm": 6.8807454109191895, "learning_rate": 2.6432000000000004e-06, "loss": 0.118, "step": 45150 }, { "epoch": 12.046666666666667, "grad_norm": 4.843288898468018, "learning_rate": 2.6387555555555556e-06, "loss": 0.1118, "step": 45175 }, { "epoch": 12.053333333333333, "grad_norm": 5.548996448516846, "learning_rate": 2.6343111111111113e-06, "loss": 0.1067, "step": 45200 }, { "epoch": 12.06, "grad_norm": 5.271174430847168, "learning_rate": 2.6298666666666666e-06, "loss": 0.1014, "step": 45225 }, { "epoch": 12.066666666666666, "grad_norm": 5.70526123046875, "learning_rate": 2.6254222222222227e-06, "loss": 0.1073, "step": 45250 }, { "epoch": 12.073333333333334, "grad_norm": 6.070753574371338, "learning_rate": 2.620977777777778e-06, "loss": 0.1134, "step": 45275 }, { "epoch": 12.08, "grad_norm": 7.236232280731201, "learning_rate": 2.6167111111111117e-06, "loss": 0.0989, "step": 45300 }, { "epoch": 12.086666666666666, "grad_norm": 5.581538677215576, "learning_rate": 2.612266666666667e-06, "loss": 0.097, "step": 45325 }, { "epoch": 12.093333333333334, "grad_norm": 5.171026706695557, "learning_rate": 2.6078222222222227e-06, "loss": 0.1044, "step": 45350 }, { "epoch": 12.1, "grad_norm": 5.284248352050781, "learning_rate": 2.603377777777778e-06, "loss": 0.1175, "step": 45375 }, { "epoch": 12.106666666666667, "grad_norm": 3.9932315349578857, "learning_rate": 2.598933333333333e-06, "loss": 0.1121, "step": 45400 }, { "epoch": 12.113333333333333, "grad_norm": 7.705107688903809, "learning_rate": 2.5944888888888893e-06, "loss": 0.1139, "step": 45425 }, { "epoch": 12.12, "grad_norm": 3.4822449684143066, "learning_rate": 2.5900444444444446e-06, "loss": 0.11, "step": 45450 }, { "epoch": 12.126666666666667, "grad_norm": 4.920461654663086, "learning_rate": 2.5856000000000003e-06, "loss": 0.1192, "step": 45475 }, { "epoch": 12.133333333333333, "grad_norm": 6.56243371963501, "learning_rate": 2.5811555555555556e-06, "loss": 0.106, "step": 45500 }, { "epoch": 12.14, "grad_norm": 4.58997917175293, "learning_rate": 2.5767111111111117e-06, "loss": 0.1067, "step": 45525 }, { "epoch": 12.146666666666667, "grad_norm": 4.741954803466797, "learning_rate": 2.572266666666667e-06, "loss": 0.1066, "step": 45550 }, { "epoch": 12.153333333333332, "grad_norm": 5.841648101806641, "learning_rate": 2.5678222222222226e-06, "loss": 0.1132, "step": 45575 }, { "epoch": 12.16, "grad_norm": 5.91623592376709, "learning_rate": 2.563377777777778e-06, "loss": 0.1072, "step": 45600 }, { "epoch": 12.166666666666666, "grad_norm": 6.038606643676758, "learning_rate": 2.558933333333333e-06, "loss": 0.1146, "step": 45625 }, { "epoch": 12.173333333333334, "grad_norm": 5.838025093078613, "learning_rate": 2.5544888888888893e-06, "loss": 0.1068, "step": 45650 }, { "epoch": 12.18, "grad_norm": 5.339217662811279, "learning_rate": 2.5500444444444446e-06, "loss": 0.1255, "step": 45675 }, { "epoch": 12.186666666666667, "grad_norm": 5.239312648773193, "learning_rate": 2.5456000000000002e-06, "loss": 0.098, "step": 45700 }, { "epoch": 12.193333333333333, "grad_norm": 4.9372382164001465, "learning_rate": 2.5411555555555555e-06, "loss": 0.1008, "step": 45725 }, { "epoch": 12.2, "grad_norm": 4.120527744293213, "learning_rate": 2.5367111111111116e-06, "loss": 0.1109, "step": 45750 }, { "epoch": 12.206666666666667, "grad_norm": 5.289470672607422, "learning_rate": 2.532266666666667e-06, "loss": 0.1136, "step": 45775 }, { "epoch": 12.213333333333333, "grad_norm": 4.822832107543945, "learning_rate": 2.5278222222222226e-06, "loss": 0.1067, "step": 45800 }, { "epoch": 12.22, "grad_norm": 7.32331657409668, "learning_rate": 2.523377777777778e-06, "loss": 0.1158, "step": 45825 }, { "epoch": 12.226666666666667, "grad_norm": 6.071128845214844, "learning_rate": 2.518933333333334e-06, "loss": 0.0997, "step": 45850 }, { "epoch": 12.233333333333333, "grad_norm": 4.41969108581543, "learning_rate": 2.5144888888888892e-06, "loss": 0.0947, "step": 45875 }, { "epoch": 12.24, "grad_norm": 4.822566032409668, "learning_rate": 2.5100444444444445e-06, "loss": 0.1123, "step": 45900 }, { "epoch": 12.246666666666666, "grad_norm": 6.816233158111572, "learning_rate": 2.5056e-06, "loss": 0.1126, "step": 45925 }, { "epoch": 12.253333333333334, "grad_norm": 6.76645565032959, "learning_rate": 2.5011555555555555e-06, "loss": 0.1046, "step": 45950 }, { "epoch": 12.26, "grad_norm": 8.95752239227295, "learning_rate": 2.4967111111111116e-06, "loss": 0.1008, "step": 45975 }, { "epoch": 12.266666666666667, "grad_norm": 6.107155799865723, "learning_rate": 2.492266666666667e-06, "loss": 0.1111, "step": 46000 }, { "epoch": 12.273333333333333, "grad_norm": 3.781000852584839, "learning_rate": 2.487822222222222e-06, "loss": 0.1064, "step": 46025 }, { "epoch": 12.28, "grad_norm": 3.926968812942505, "learning_rate": 2.483377777777778e-06, "loss": 0.1165, "step": 46050 }, { "epoch": 12.286666666666667, "grad_norm": 6.012359619140625, "learning_rate": 2.4789333333333335e-06, "loss": 0.1014, "step": 46075 }, { "epoch": 12.293333333333333, "grad_norm": 4.382100582122803, "learning_rate": 2.474488888888889e-06, "loss": 0.1066, "step": 46100 }, { "epoch": 12.3, "grad_norm": 8.183173179626465, "learning_rate": 2.4700444444444445e-06, "loss": 0.1002, "step": 46125 }, { "epoch": 12.306666666666667, "grad_norm": 4.687697410583496, "learning_rate": 2.4656e-06, "loss": 0.1025, "step": 46150 }, { "epoch": 12.313333333333333, "grad_norm": 5.97998571395874, "learning_rate": 2.461155555555556e-06, "loss": 0.1024, "step": 46175 }, { "epoch": 12.32, "grad_norm": 6.169867992401123, "learning_rate": 2.4567111111111115e-06, "loss": 0.111, "step": 46200 }, { "epoch": 12.326666666666666, "grad_norm": 4.921481609344482, "learning_rate": 2.452266666666667e-06, "loss": 0.0939, "step": 46225 }, { "epoch": 12.333333333333334, "grad_norm": 6.268850803375244, "learning_rate": 2.4478222222222225e-06, "loss": 0.1063, "step": 46250 }, { "epoch": 12.34, "grad_norm": 7.1681623458862305, "learning_rate": 2.4433777777777778e-06, "loss": 0.1227, "step": 46275 }, { "epoch": 12.346666666666668, "grad_norm": 5.602593898773193, "learning_rate": 2.4389333333333335e-06, "loss": 0.0999, "step": 46300 }, { "epoch": 12.353333333333333, "grad_norm": 8.58749008178711, "learning_rate": 2.434488888888889e-06, "loss": 0.1098, "step": 46325 }, { "epoch": 12.36, "grad_norm": 5.607008457183838, "learning_rate": 2.4300444444444444e-06, "loss": 0.1063, "step": 46350 }, { "epoch": 12.366666666666667, "grad_norm": 5.294493675231934, "learning_rate": 2.4256e-06, "loss": 0.1066, "step": 46375 }, { "epoch": 12.373333333333333, "grad_norm": 5.545394420623779, "learning_rate": 2.421155555555556e-06, "loss": 0.112, "step": 46400 }, { "epoch": 12.38, "grad_norm": 5.3336591720581055, "learning_rate": 2.4167111111111115e-06, "loss": 0.1196, "step": 46425 }, { "epoch": 12.386666666666667, "grad_norm": 6.006252765655518, "learning_rate": 2.4122666666666668e-06, "loss": 0.1118, "step": 46450 }, { "epoch": 12.393333333333333, "grad_norm": 5.7660393714904785, "learning_rate": 2.4078222222222225e-06, "loss": 0.1065, "step": 46475 }, { "epoch": 12.4, "grad_norm": 7.009937286376953, "learning_rate": 2.403377777777778e-06, "loss": 0.1117, "step": 46500 }, { "epoch": 12.406666666666666, "grad_norm": 6.59313440322876, "learning_rate": 2.3989333333333334e-06, "loss": 0.1065, "step": 46525 }, { "epoch": 12.413333333333334, "grad_norm": 6.663754940032959, "learning_rate": 2.394488888888889e-06, "loss": 0.1176, "step": 46550 }, { "epoch": 12.42, "grad_norm": 6.973970413208008, "learning_rate": 2.3900444444444444e-06, "loss": 0.1143, "step": 46575 }, { "epoch": 12.426666666666666, "grad_norm": 5.902155876159668, "learning_rate": 2.3856e-06, "loss": 0.1082, "step": 46600 }, { "epoch": 12.433333333333334, "grad_norm": 5.6085076332092285, "learning_rate": 2.3811555555555558e-06, "loss": 0.1033, "step": 46625 }, { "epoch": 12.44, "grad_norm": 8.836973190307617, "learning_rate": 2.3767111111111115e-06, "loss": 0.1058, "step": 46650 }, { "epoch": 12.446666666666667, "grad_norm": 5.662825107574463, "learning_rate": 2.3722666666666667e-06, "loss": 0.1205, "step": 46675 }, { "epoch": 12.453333333333333, "grad_norm": 6.6187005043029785, "learning_rate": 2.3678222222222224e-06, "loss": 0.1079, "step": 46700 }, { "epoch": 12.46, "grad_norm": 6.474920272827148, "learning_rate": 2.363377777777778e-06, "loss": 0.108, "step": 46725 }, { "epoch": 12.466666666666667, "grad_norm": 5.7897443771362305, "learning_rate": 2.358933333333334e-06, "loss": 0.1169, "step": 46750 }, { "epoch": 12.473333333333333, "grad_norm": 7.804737567901611, "learning_rate": 2.354488888888889e-06, "loss": 0.1119, "step": 46775 }, { "epoch": 12.48, "grad_norm": 5.0531134605407715, "learning_rate": 2.3500444444444443e-06, "loss": 0.1055, "step": 46800 }, { "epoch": 12.486666666666666, "grad_norm": 7.218482971191406, "learning_rate": 2.3456e-06, "loss": 0.1169, "step": 46825 }, { "epoch": 12.493333333333334, "grad_norm": 4.715880870819092, "learning_rate": 2.3411555555555557e-06, "loss": 0.1145, "step": 46850 }, { "epoch": 12.5, "grad_norm": 6.150249004364014, "learning_rate": 2.3367111111111114e-06, "loss": 0.1119, "step": 46875 }, { "epoch": 12.506666666666666, "grad_norm": 6.566578388214111, "learning_rate": 2.3322666666666667e-06, "loss": 0.1076, "step": 46900 }, { "epoch": 12.513333333333334, "grad_norm": 7.012685775756836, "learning_rate": 2.3278222222222224e-06, "loss": 0.1034, "step": 46925 }, { "epoch": 12.52, "grad_norm": 6.218094825744629, "learning_rate": 2.323377777777778e-06, "loss": 0.1188, "step": 46950 }, { "epoch": 12.526666666666667, "grad_norm": 6.20350456237793, "learning_rate": 2.3189333333333338e-06, "loss": 0.1059, "step": 46975 }, { "epoch": 12.533333333333333, "grad_norm": 8.562267303466797, "learning_rate": 2.314488888888889e-06, "loss": 0.1141, "step": 47000 }, { "epoch": 12.54, "grad_norm": 7.270572662353516, "learning_rate": 2.3100444444444447e-06, "loss": 0.1162, "step": 47025 }, { "epoch": 12.546666666666667, "grad_norm": 6.470387935638428, "learning_rate": 2.3056e-06, "loss": 0.1023, "step": 47050 }, { "epoch": 12.553333333333333, "grad_norm": 6.274166107177734, "learning_rate": 2.3011555555555557e-06, "loss": 0.1103, "step": 47075 }, { "epoch": 12.56, "grad_norm": 5.862270355224609, "learning_rate": 2.2967111111111114e-06, "loss": 0.1219, "step": 47100 }, { "epoch": 12.566666666666666, "grad_norm": 4.768299579620361, "learning_rate": 2.2922666666666667e-06, "loss": 0.1038, "step": 47125 }, { "epoch": 12.573333333333334, "grad_norm": 5.534469127655029, "learning_rate": 2.2878222222222223e-06, "loss": 0.1004, "step": 47150 }, { "epoch": 12.58, "grad_norm": 4.763548851013184, "learning_rate": 2.283377777777778e-06, "loss": 0.1232, "step": 47175 }, { "epoch": 12.586666666666666, "grad_norm": 8.450883865356445, "learning_rate": 2.2789333333333337e-06, "loss": 0.1142, "step": 47200 }, { "epoch": 12.593333333333334, "grad_norm": 5.303816795349121, "learning_rate": 2.274488888888889e-06, "loss": 0.1041, "step": 47225 }, { "epoch": 12.6, "grad_norm": 5.323181629180908, "learning_rate": 2.2700444444444447e-06, "loss": 0.1048, "step": 47250 }, { "epoch": 12.606666666666667, "grad_norm": 6.1729254722595215, "learning_rate": 2.2656000000000004e-06, "loss": 0.1122, "step": 47275 }, { "epoch": 12.613333333333333, "grad_norm": 5.479588985443115, "learning_rate": 2.2611555555555557e-06, "loss": 0.1208, "step": 47300 }, { "epoch": 12.62, "grad_norm": 5.543934345245361, "learning_rate": 2.2567111111111113e-06, "loss": 0.1007, "step": 47325 }, { "epoch": 12.626666666666667, "grad_norm": 5.356732368469238, "learning_rate": 2.2522666666666666e-06, "loss": 0.1091, "step": 47350 }, { "epoch": 12.633333333333333, "grad_norm": 5.259866237640381, "learning_rate": 2.2478222222222223e-06, "loss": 0.1033, "step": 47375 }, { "epoch": 12.64, "grad_norm": 6.847537517547607, "learning_rate": 2.243377777777778e-06, "loss": 0.1058, "step": 47400 }, { "epoch": 12.646666666666667, "grad_norm": 5.360149383544922, "learning_rate": 2.2389333333333337e-06, "loss": 0.106, "step": 47425 }, { "epoch": 12.653333333333332, "grad_norm": 6.420960426330566, "learning_rate": 2.234488888888889e-06, "loss": 0.1149, "step": 47450 }, { "epoch": 12.66, "grad_norm": 5.0199384689331055, "learning_rate": 2.2300444444444446e-06, "loss": 0.103, "step": 47475 }, { "epoch": 12.666666666666666, "grad_norm": 5.2378249168396, "learning_rate": 2.2256000000000003e-06, "loss": 0.1047, "step": 47500 }, { "epoch": 12.673333333333334, "grad_norm": 6.056905269622803, "learning_rate": 2.221155555555556e-06, "loss": 0.1197, "step": 47525 }, { "epoch": 12.68, "grad_norm": 7.7821173667907715, "learning_rate": 2.2167111111111113e-06, "loss": 0.1173, "step": 47550 }, { "epoch": 12.686666666666667, "grad_norm": 6.077167987823486, "learning_rate": 2.2122666666666666e-06, "loss": 0.1064, "step": 47575 }, { "epoch": 12.693333333333333, "grad_norm": 5.484776973724365, "learning_rate": 2.2078222222222223e-06, "loss": 0.1105, "step": 47600 }, { "epoch": 12.7, "grad_norm": 6.277669906616211, "learning_rate": 2.203377777777778e-06, "loss": 0.1065, "step": 47625 }, { "epoch": 12.706666666666667, "grad_norm": 7.27718448638916, "learning_rate": 2.1989333333333336e-06, "loss": 0.1105, "step": 47650 }, { "epoch": 12.713333333333333, "grad_norm": 5.045402526855469, "learning_rate": 2.194488888888889e-06, "loss": 0.1058, "step": 47675 }, { "epoch": 12.72, "grad_norm": 4.938896179199219, "learning_rate": 2.1902222222222226e-06, "loss": 0.1105, "step": 47700 }, { "epoch": 12.726666666666667, "grad_norm": 5.8608269691467285, "learning_rate": 2.185777777777778e-06, "loss": 0.1258, "step": 47725 }, { "epoch": 12.733333333333333, "grad_norm": 4.68363618850708, "learning_rate": 2.1813333333333336e-06, "loss": 0.0997, "step": 47750 }, { "epoch": 12.74, "grad_norm": 6.591302394866943, "learning_rate": 2.176888888888889e-06, "loss": 0.1081, "step": 47775 }, { "epoch": 12.746666666666666, "grad_norm": 7.082460880279541, "learning_rate": 2.1724444444444446e-06, "loss": 0.1108, "step": 47800 }, { "epoch": 12.753333333333334, "grad_norm": 7.704886436462402, "learning_rate": 2.1680000000000002e-06, "loss": 0.1093, "step": 47825 }, { "epoch": 12.76, "grad_norm": 5.565296649932861, "learning_rate": 2.1635555555555555e-06, "loss": 0.1124, "step": 47850 }, { "epoch": 12.766666666666667, "grad_norm": 7.612327575683594, "learning_rate": 2.159111111111111e-06, "loss": 0.1193, "step": 47875 }, { "epoch": 12.773333333333333, "grad_norm": 5.163200378417969, "learning_rate": 2.154666666666667e-06, "loss": 0.1082, "step": 47900 }, { "epoch": 12.78, "grad_norm": 5.453884124755859, "learning_rate": 2.1502222222222226e-06, "loss": 0.101, "step": 47925 }, { "epoch": 12.786666666666667, "grad_norm": 6.850915908813477, "learning_rate": 2.145777777777778e-06, "loss": 0.1078, "step": 47950 }, { "epoch": 12.793333333333333, "grad_norm": 7.943562030792236, "learning_rate": 2.1413333333333336e-06, "loss": 0.1137, "step": 47975 }, { "epoch": 12.8, "grad_norm": 6.475844860076904, "learning_rate": 2.1368888888888892e-06, "loss": 0.1144, "step": 48000 }, { "epoch": 12.806666666666667, "grad_norm": 4.7059006690979, "learning_rate": 2.1324444444444445e-06, "loss": 0.1062, "step": 48025 }, { "epoch": 12.813333333333333, "grad_norm": 5.344225883483887, "learning_rate": 2.128e-06, "loss": 0.1071, "step": 48050 }, { "epoch": 12.82, "grad_norm": 5.982877254486084, "learning_rate": 2.1235555555555555e-06, "loss": 0.1108, "step": 48075 }, { "epoch": 12.826666666666666, "grad_norm": 7.366219997406006, "learning_rate": 2.119111111111111e-06, "loss": 0.101, "step": 48100 }, { "epoch": 12.833333333333334, "grad_norm": 3.7109286785125732, "learning_rate": 2.114666666666667e-06, "loss": 0.1103, "step": 48125 }, { "epoch": 12.84, "grad_norm": 6.917268753051758, "learning_rate": 2.1102222222222226e-06, "loss": 0.1214, "step": 48150 }, { "epoch": 12.846666666666668, "grad_norm": 6.948658466339111, "learning_rate": 2.105777777777778e-06, "loss": 0.0991, "step": 48175 }, { "epoch": 12.853333333333333, "grad_norm": 6.243878364562988, "learning_rate": 2.1013333333333335e-06, "loss": 0.1177, "step": 48200 }, { "epoch": 12.86, "grad_norm": 7.587082862854004, "learning_rate": 2.096888888888889e-06, "loss": 0.1124, "step": 48225 }, { "epoch": 12.866666666666667, "grad_norm": 6.985424041748047, "learning_rate": 2.092444444444445e-06, "loss": 0.106, "step": 48250 }, { "epoch": 12.873333333333333, "grad_norm": 6.592808246612549, "learning_rate": 2.088e-06, "loss": 0.1247, "step": 48275 }, { "epoch": 12.88, "grad_norm": 5.634211540222168, "learning_rate": 2.0835555555555554e-06, "loss": 0.0999, "step": 48300 }, { "epoch": 12.886666666666667, "grad_norm": 4.8037567138671875, "learning_rate": 2.079111111111111e-06, "loss": 0.1166, "step": 48325 }, { "epoch": 12.893333333333333, "grad_norm": 6.124323844909668, "learning_rate": 2.074666666666667e-06, "loss": 0.0977, "step": 48350 }, { "epoch": 12.9, "grad_norm": 7.983600616455078, "learning_rate": 2.0702222222222225e-06, "loss": 0.106, "step": 48375 }, { "epoch": 12.906666666666666, "grad_norm": 6.559160232543945, "learning_rate": 2.0657777777777778e-06, "loss": 0.1187, "step": 48400 }, { "epoch": 12.913333333333334, "grad_norm": 8.193538665771484, "learning_rate": 2.0613333333333335e-06, "loss": 0.1203, "step": 48425 }, { "epoch": 12.92, "grad_norm": 6.677972793579102, "learning_rate": 2.056888888888889e-06, "loss": 0.1242, "step": 48450 }, { "epoch": 12.926666666666666, "grad_norm": 8.824485778808594, "learning_rate": 2.052444444444445e-06, "loss": 0.1006, "step": 48475 }, { "epoch": 12.933333333333334, "grad_norm": 6.2802863121032715, "learning_rate": 2.048e-06, "loss": 0.1098, "step": 48500 }, { "epoch": 12.94, "grad_norm": 5.579257965087891, "learning_rate": 2.043555555555556e-06, "loss": 0.1027, "step": 48525 }, { "epoch": 12.946666666666667, "grad_norm": 6.418622970581055, "learning_rate": 2.039111111111111e-06, "loss": 0.1086, "step": 48550 }, { "epoch": 12.953333333333333, "grad_norm": 5.020949840545654, "learning_rate": 2.0346666666666668e-06, "loss": 0.114, "step": 48575 }, { "epoch": 12.96, "grad_norm": 6.410282611846924, "learning_rate": 2.0302222222222225e-06, "loss": 0.1058, "step": 48600 }, { "epoch": 12.966666666666667, "grad_norm": 7.423671245574951, "learning_rate": 2.0257777777777777e-06, "loss": 0.1129, "step": 48625 }, { "epoch": 12.973333333333333, "grad_norm": 4.838792324066162, "learning_rate": 2.0213333333333334e-06, "loss": 0.1139, "step": 48650 }, { "epoch": 12.98, "grad_norm": 7.466505527496338, "learning_rate": 2.016888888888889e-06, "loss": 0.116, "step": 48675 }, { "epoch": 12.986666666666666, "grad_norm": 5.467660903930664, "learning_rate": 2.012444444444445e-06, "loss": 0.1133, "step": 48700 }, { "epoch": 12.993333333333334, "grad_norm": 5.013683319091797, "learning_rate": 2.008e-06, "loss": 0.116, "step": 48725 }, { "epoch": 13.0, "grad_norm": 9.961708068847656, "learning_rate": 2.0035555555555558e-06, "loss": 0.112, "step": 48750 }, { "epoch": 13.0, "eval_cer": 21.116970724707897, "eval_loss": 0.3701510727405548, "eval_runtime": 1274.9292, "eval_samples_per_second": 3.922, "eval_steps_per_second": 0.49, "step": 48750 }, { "epoch": 13.006666666666666, "grad_norm": 5.622351169586182, "learning_rate": 1.9991111111111115e-06, "loss": 0.073, "step": 48775 }, { "epoch": 13.013333333333334, "grad_norm": 4.620367050170898, "learning_rate": 1.9946666666666667e-06, "loss": 0.0712, "step": 48800 }, { "epoch": 13.02, "grad_norm": 2.9448187351226807, "learning_rate": 1.9902222222222224e-06, "loss": 0.0672, "step": 48825 }, { "epoch": 13.026666666666667, "grad_norm": 3.295442819595337, "learning_rate": 1.9857777777777777e-06, "loss": 0.062, "step": 48850 }, { "epoch": 13.033333333333333, "grad_norm": 4.014532089233398, "learning_rate": 1.9813333333333334e-06, "loss": 0.069, "step": 48875 }, { "epoch": 13.04, "grad_norm": 6.512493133544922, "learning_rate": 1.976888888888889e-06, "loss": 0.0685, "step": 48900 }, { "epoch": 13.046666666666667, "grad_norm": 4.543283939361572, "learning_rate": 1.9724444444444448e-06, "loss": 0.0723, "step": 48925 }, { "epoch": 13.053333333333333, "grad_norm": 5.153681755065918, "learning_rate": 1.968e-06, "loss": 0.0702, "step": 48950 }, { "epoch": 13.06, "grad_norm": 4.637246131896973, "learning_rate": 1.9635555555555557e-06, "loss": 0.0731, "step": 48975 }, { "epoch": 13.066666666666666, "grad_norm": 5.574101448059082, "learning_rate": 1.9591111111111114e-06, "loss": 0.0732, "step": 49000 }, { "epoch": 13.073333333333334, "grad_norm": 3.951002359390259, "learning_rate": 1.954666666666667e-06, "loss": 0.0708, "step": 49025 }, { "epoch": 13.08, "grad_norm": 3.7893869876861572, "learning_rate": 1.9502222222222224e-06, "loss": 0.0678, "step": 49050 }, { "epoch": 13.086666666666666, "grad_norm": 5.214609146118164, "learning_rate": 1.9457777777777777e-06, "loss": 0.0752, "step": 49075 }, { "epoch": 13.093333333333334, "grad_norm": 3.270291805267334, "learning_rate": 1.9413333333333334e-06, "loss": 0.073, "step": 49100 }, { "epoch": 13.1, "grad_norm": 5.782220363616943, "learning_rate": 1.936888888888889e-06, "loss": 0.0786, "step": 49125 }, { "epoch": 13.106666666666667, "grad_norm": 4.796205997467041, "learning_rate": 1.9324444444444447e-06, "loss": 0.0715, "step": 49150 }, { "epoch": 13.113333333333333, "grad_norm": 4.687405109405518, "learning_rate": 1.928e-06, "loss": 0.0752, "step": 49175 }, { "epoch": 13.12, "grad_norm": 4.880829334259033, "learning_rate": 1.9235555555555557e-06, "loss": 0.0697, "step": 49200 }, { "epoch": 13.126666666666667, "grad_norm": 5.48293399810791, "learning_rate": 1.9191111111111114e-06, "loss": 0.0749, "step": 49225 }, { "epoch": 13.133333333333333, "grad_norm": 5.155721664428711, "learning_rate": 1.914666666666667e-06, "loss": 0.078, "step": 49250 }, { "epoch": 13.14, "grad_norm": 3.983116626739502, "learning_rate": 1.9102222222222224e-06, "loss": 0.0726, "step": 49275 }, { "epoch": 13.146666666666667, "grad_norm": 5.757419586181641, "learning_rate": 1.905777777777778e-06, "loss": 0.067, "step": 49300 }, { "epoch": 13.153333333333332, "grad_norm": 5.3086090087890625, "learning_rate": 1.9013333333333333e-06, "loss": 0.0761, "step": 49325 }, { "epoch": 13.16, "grad_norm": 6.292516708374023, "learning_rate": 1.896888888888889e-06, "loss": 0.0719, "step": 49350 }, { "epoch": 13.166666666666666, "grad_norm": 5.925360202789307, "learning_rate": 1.8924444444444445e-06, "loss": 0.0752, "step": 49375 }, { "epoch": 13.173333333333334, "grad_norm": 4.0699992179870605, "learning_rate": 1.8880000000000002e-06, "loss": 0.0657, "step": 49400 }, { "epoch": 13.18, "grad_norm": 4.260977268218994, "learning_rate": 1.8835555555555557e-06, "loss": 0.0695, "step": 49425 }, { "epoch": 13.186666666666667, "grad_norm": 3.3656084537506104, "learning_rate": 1.8791111111111113e-06, "loss": 0.0749, "step": 49450 }, { "epoch": 13.193333333333333, "grad_norm": 4.433594226837158, "learning_rate": 1.8746666666666668e-06, "loss": 0.0673, "step": 49475 }, { "epoch": 13.2, "grad_norm": 4.636645793914795, "learning_rate": 1.8702222222222225e-06, "loss": 0.0778, "step": 49500 }, { "epoch": 13.206666666666667, "grad_norm": 4.563504695892334, "learning_rate": 1.865777777777778e-06, "loss": 0.0649, "step": 49525 }, { "epoch": 13.213333333333333, "grad_norm": 4.235064506530762, "learning_rate": 1.8613333333333337e-06, "loss": 0.0706, "step": 49550 }, { "epoch": 13.22, "grad_norm": 4.921514511108398, "learning_rate": 1.856888888888889e-06, "loss": 0.0694, "step": 49575 }, { "epoch": 13.226666666666667, "grad_norm": 4.738955020904541, "learning_rate": 1.8524444444444444e-06, "loss": 0.0668, "step": 49600 }, { "epoch": 13.233333333333333, "grad_norm": 5.060573101043701, "learning_rate": 1.8480000000000001e-06, "loss": 0.0683, "step": 49625 }, { "epoch": 13.24, "grad_norm": 4.408626556396484, "learning_rate": 1.8435555555555556e-06, "loss": 0.0727, "step": 49650 }, { "epoch": 13.246666666666666, "grad_norm": 4.45327091217041, "learning_rate": 1.8391111111111113e-06, "loss": 0.0666, "step": 49675 }, { "epoch": 13.253333333333334, "grad_norm": 5.215404510498047, "learning_rate": 1.8346666666666668e-06, "loss": 0.0834, "step": 49700 }, { "epoch": 13.26, "grad_norm": 4.692080974578857, "learning_rate": 1.8302222222222225e-06, "loss": 0.0725, "step": 49725 }, { "epoch": 13.266666666666667, "grad_norm": 3.9876694679260254, "learning_rate": 1.825777777777778e-06, "loss": 0.0672, "step": 49750 }, { "epoch": 13.273333333333333, "grad_norm": 3.875887870788574, "learning_rate": 1.8213333333333337e-06, "loss": 0.0688, "step": 49775 }, { "epoch": 13.28, "grad_norm": 6.395846843719482, "learning_rate": 1.8168888888888891e-06, "loss": 0.0754, "step": 49800 }, { "epoch": 13.286666666666667, "grad_norm": 5.104362964630127, "learning_rate": 1.8124444444444448e-06, "loss": 0.0761, "step": 49825 }, { "epoch": 13.293333333333333, "grad_norm": 3.312028169631958, "learning_rate": 1.808e-06, "loss": 0.0764, "step": 49850 }, { "epoch": 13.3, "grad_norm": 3.243084192276001, "learning_rate": 1.8035555555555556e-06, "loss": 0.0689, "step": 49875 }, { "epoch": 13.306666666666667, "grad_norm": 16.645023345947266, "learning_rate": 1.7991111111111113e-06, "loss": 0.0755, "step": 49900 }, { "epoch": 13.313333333333333, "grad_norm": 4.282712459564209, "learning_rate": 1.7946666666666667e-06, "loss": 0.0839, "step": 49925 }, { "epoch": 13.32, "grad_norm": 5.756045818328857, "learning_rate": 1.7902222222222224e-06, "loss": 0.0723, "step": 49950 }, { "epoch": 13.326666666666666, "grad_norm": 3.6419270038604736, "learning_rate": 1.785777777777778e-06, "loss": 0.0798, "step": 49975 }, { "epoch": 13.333333333333334, "grad_norm": 4.594815731048584, "learning_rate": 1.7813333333333336e-06, "loss": 0.0785, "step": 50000 }, { "epoch": 13.34, "grad_norm": 3.3779661655426025, "learning_rate": 1.776888888888889e-06, "loss": 0.0705, "step": 50025 }, { "epoch": 13.346666666666668, "grad_norm": 5.138673305511475, "learning_rate": 1.7724444444444448e-06, "loss": 0.0785, "step": 50050 }, { "epoch": 13.353333333333333, "grad_norm": 3.6062915325164795, "learning_rate": 1.7680000000000003e-06, "loss": 0.0776, "step": 50075 }, { "epoch": 13.36, "grad_norm": 4.437643051147461, "learning_rate": 1.7635555555555555e-06, "loss": 0.0688, "step": 50100 }, { "epoch": 13.366666666666667, "grad_norm": 3.849740505218506, "learning_rate": 1.7591111111111112e-06, "loss": 0.0736, "step": 50125 }, { "epoch": 13.373333333333333, "grad_norm": 5.022838115692139, "learning_rate": 1.7546666666666667e-06, "loss": 0.0676, "step": 50150 }, { "epoch": 13.38, "grad_norm": 4.474266529083252, "learning_rate": 1.7502222222222224e-06, "loss": 0.0765, "step": 50175 }, { "epoch": 13.386666666666667, "grad_norm": 4.083851337432861, "learning_rate": 1.7457777777777779e-06, "loss": 0.0758, "step": 50200 }, { "epoch": 13.393333333333333, "grad_norm": 5.189428329467773, "learning_rate": 1.7413333333333336e-06, "loss": 0.0682, "step": 50225 }, { "epoch": 13.4, "grad_norm": 3.807460308074951, "learning_rate": 1.736888888888889e-06, "loss": 0.0683, "step": 50250 }, { "epoch": 13.406666666666666, "grad_norm": 7.0135722160339355, "learning_rate": 1.7326222222222226e-06, "loss": 0.0694, "step": 50275 }, { "epoch": 13.413333333333334, "grad_norm": 4.803097724914551, "learning_rate": 1.7281777777777778e-06, "loss": 0.0754, "step": 50300 }, { "epoch": 13.42, "grad_norm": 4.446489334106445, "learning_rate": 1.7237333333333333e-06, "loss": 0.0729, "step": 50325 }, { "epoch": 13.426666666666666, "grad_norm": 4.843291282653809, "learning_rate": 1.719288888888889e-06, "loss": 0.0745, "step": 50350 }, { "epoch": 13.433333333333334, "grad_norm": 5.550344944000244, "learning_rate": 1.7148444444444445e-06, "loss": 0.0708, "step": 50375 }, { "epoch": 13.44, "grad_norm": 5.481566429138184, "learning_rate": 1.7104000000000002e-06, "loss": 0.0753, "step": 50400 }, { "epoch": 13.446666666666667, "grad_norm": 6.462749481201172, "learning_rate": 1.7059555555555557e-06, "loss": 0.0749, "step": 50425 }, { "epoch": 13.453333333333333, "grad_norm": 3.3947927951812744, "learning_rate": 1.7015111111111113e-06, "loss": 0.0722, "step": 50450 }, { "epoch": 13.46, "grad_norm": 5.069024085998535, "learning_rate": 1.6970666666666668e-06, "loss": 0.0731, "step": 50475 }, { "epoch": 13.466666666666667, "grad_norm": 4.766073226928711, "learning_rate": 1.6926222222222225e-06, "loss": 0.0781, "step": 50500 }, { "epoch": 13.473333333333333, "grad_norm": 4.522984504699707, "learning_rate": 1.688177777777778e-06, "loss": 0.0656, "step": 50525 }, { "epoch": 13.48, "grad_norm": 4.569211006164551, "learning_rate": 1.6837333333333337e-06, "loss": 0.0709, "step": 50550 }, { "epoch": 13.486666666666666, "grad_norm": 4.393730163574219, "learning_rate": 1.679288888888889e-06, "loss": 0.0752, "step": 50575 }, { "epoch": 13.493333333333334, "grad_norm": 5.141506671905518, "learning_rate": 1.6748444444444444e-06, "loss": 0.0764, "step": 50600 }, { "epoch": 13.5, "grad_norm": 5.949735641479492, "learning_rate": 1.6704000000000001e-06, "loss": 0.0753, "step": 50625 }, { "epoch": 13.506666666666666, "grad_norm": 4.400526523590088, "learning_rate": 1.6659555555555556e-06, "loss": 0.0699, "step": 50650 }, { "epoch": 13.513333333333334, "grad_norm": 3.5882327556610107, "learning_rate": 1.6615111111111113e-06, "loss": 0.0744, "step": 50675 }, { "epoch": 13.52, "grad_norm": 3.8289997577667236, "learning_rate": 1.6570666666666668e-06, "loss": 0.0806, "step": 50700 }, { "epoch": 13.526666666666667, "grad_norm": 5.415486812591553, "learning_rate": 1.6526222222222225e-06, "loss": 0.073, "step": 50725 }, { "epoch": 13.533333333333333, "grad_norm": 5.754875659942627, "learning_rate": 1.648177777777778e-06, "loss": 0.0682, "step": 50750 }, { "epoch": 13.54, "grad_norm": 4.864412784576416, "learning_rate": 1.6437333333333337e-06, "loss": 0.073, "step": 50775 }, { "epoch": 13.546666666666667, "grad_norm": 5.655688285827637, "learning_rate": 1.6392888888888891e-06, "loss": 0.0795, "step": 50800 }, { "epoch": 13.553333333333333, "grad_norm": 5.5406813621521, "learning_rate": 1.6348444444444444e-06, "loss": 0.0678, "step": 50825 }, { "epoch": 13.56, "grad_norm": 4.054455280303955, "learning_rate": 1.6304e-06, "loss": 0.0677, "step": 50850 }, { "epoch": 13.566666666666666, "grad_norm": 7.001787185668945, "learning_rate": 1.6259555555555556e-06, "loss": 0.0724, "step": 50875 }, { "epoch": 13.573333333333334, "grad_norm": 4.548781394958496, "learning_rate": 1.6215111111111113e-06, "loss": 0.0792, "step": 50900 }, { "epoch": 13.58, "grad_norm": 5.362614631652832, "learning_rate": 1.6170666666666667e-06, "loss": 0.0718, "step": 50925 }, { "epoch": 13.586666666666666, "grad_norm": 5.573884963989258, "learning_rate": 1.6126222222222224e-06, "loss": 0.0706, "step": 50950 }, { "epoch": 13.593333333333334, "grad_norm": 3.8761532306671143, "learning_rate": 1.608177777777778e-06, "loss": 0.0765, "step": 50975 }, { "epoch": 13.6, "grad_norm": 4.242030620574951, "learning_rate": 1.6037333333333336e-06, "loss": 0.0705, "step": 51000 }, { "epoch": 13.606666666666667, "grad_norm": 4.413914680480957, "learning_rate": 1.599288888888889e-06, "loss": 0.0754, "step": 51025 }, { "epoch": 13.613333333333333, "grad_norm": 4.841075897216797, "learning_rate": 1.5948444444444448e-06, "loss": 0.0796, "step": 51050 }, { "epoch": 13.62, "grad_norm": 6.9934210777282715, "learning_rate": 1.5904e-06, "loss": 0.0839, "step": 51075 }, { "epoch": 13.626666666666667, "grad_norm": 5.5658721923828125, "learning_rate": 1.5859555555555555e-06, "loss": 0.0788, "step": 51100 }, { "epoch": 13.633333333333333, "grad_norm": 4.997589111328125, "learning_rate": 1.5815111111111112e-06, "loss": 0.0876, "step": 51125 }, { "epoch": 13.64, "grad_norm": 4.557096004486084, "learning_rate": 1.5770666666666667e-06, "loss": 0.0789, "step": 51150 }, { "epoch": 13.646666666666667, "grad_norm": 4.078949928283691, "learning_rate": 1.5726222222222224e-06, "loss": 0.076, "step": 51175 }, { "epoch": 13.653333333333332, "grad_norm": 5.252168655395508, "learning_rate": 1.5681777777777779e-06, "loss": 0.0736, "step": 51200 }, { "epoch": 13.66, "grad_norm": 6.454425811767578, "learning_rate": 1.5637333333333336e-06, "loss": 0.0855, "step": 51225 }, { "epoch": 13.666666666666666, "grad_norm": 4.683918476104736, "learning_rate": 1.559288888888889e-06, "loss": 0.0851, "step": 51250 }, { "epoch": 13.673333333333334, "grad_norm": 4.571911811828613, "learning_rate": 1.5548444444444447e-06, "loss": 0.0747, "step": 51275 }, { "epoch": 13.68, "grad_norm": 3.8478519916534424, "learning_rate": 1.5504000000000002e-06, "loss": 0.0807, "step": 51300 }, { "epoch": 13.686666666666667, "grad_norm": 6.604455947875977, "learning_rate": 1.545955555555556e-06, "loss": 0.078, "step": 51325 }, { "epoch": 13.693333333333333, "grad_norm": 4.801009654998779, "learning_rate": 1.5415111111111112e-06, "loss": 0.0698, "step": 51350 }, { "epoch": 13.7, "grad_norm": 6.524123191833496, "learning_rate": 1.5370666666666667e-06, "loss": 0.0832, "step": 51375 }, { "epoch": 13.706666666666667, "grad_norm": 6.038280963897705, "learning_rate": 1.5326222222222224e-06, "loss": 0.0726, "step": 51400 }, { "epoch": 13.713333333333333, "grad_norm": 5.431887626647949, "learning_rate": 1.5281777777777778e-06, "loss": 0.0827, "step": 51425 }, { "epoch": 13.72, "grad_norm": 6.024564743041992, "learning_rate": 1.5237333333333335e-06, "loss": 0.074, "step": 51450 }, { "epoch": 13.726666666666667, "grad_norm": 5.318210124969482, "learning_rate": 1.519288888888889e-06, "loss": 0.0852, "step": 51475 }, { "epoch": 13.733333333333333, "grad_norm": 4.762639045715332, "learning_rate": 1.5148444444444447e-06, "loss": 0.0714, "step": 51500 }, { "epoch": 13.74, "grad_norm": 5.492698669433594, "learning_rate": 1.5104000000000002e-06, "loss": 0.0763, "step": 51525 }, { "epoch": 13.746666666666666, "grad_norm": 5.453211307525635, "learning_rate": 1.5059555555555559e-06, "loss": 0.0724, "step": 51550 }, { "epoch": 13.753333333333334, "grad_norm": 5.461216449737549, "learning_rate": 1.5015111111111114e-06, "loss": 0.0736, "step": 51575 }, { "epoch": 13.76, "grad_norm": 5.858949184417725, "learning_rate": 1.4970666666666666e-06, "loss": 0.0763, "step": 51600 }, { "epoch": 13.766666666666667, "grad_norm": 3.7733099460601807, "learning_rate": 1.4926222222222223e-06, "loss": 0.0702, "step": 51625 }, { "epoch": 13.773333333333333, "grad_norm": 5.055445194244385, "learning_rate": 1.4881777777777778e-06, "loss": 0.0734, "step": 51650 }, { "epoch": 13.78, "grad_norm": 4.995844841003418, "learning_rate": 1.4837333333333335e-06, "loss": 0.0667, "step": 51675 }, { "epoch": 13.786666666666667, "grad_norm": 5.348880767822266, "learning_rate": 1.479288888888889e-06, "loss": 0.0755, "step": 51700 }, { "epoch": 13.793333333333333, "grad_norm": 5.208152770996094, "learning_rate": 1.4748444444444447e-06, "loss": 0.0733, "step": 51725 }, { "epoch": 13.8, "grad_norm": 4.70478630065918, "learning_rate": 1.4704000000000001e-06, "loss": 0.0723, "step": 51750 }, { "epoch": 13.806666666666667, "grad_norm": 4.627460956573486, "learning_rate": 1.4659555555555558e-06, "loss": 0.0698, "step": 51775 }, { "epoch": 13.813333333333333, "grad_norm": 5.104433059692383, "learning_rate": 1.4615111111111113e-06, "loss": 0.0716, "step": 51800 }, { "epoch": 13.82, "grad_norm": 5.321831703186035, "learning_rate": 1.457066666666667e-06, "loss": 0.0753, "step": 51825 }, { "epoch": 13.826666666666666, "grad_norm": 3.5546035766601562, "learning_rate": 1.4526222222222223e-06, "loss": 0.0832, "step": 51850 }, { "epoch": 13.833333333333334, "grad_norm": 5.400938510894775, "learning_rate": 1.4481777777777778e-06, "loss": 0.0781, "step": 51875 }, { "epoch": 13.84, "grad_norm": 5.633108139038086, "learning_rate": 1.4437333333333334e-06, "loss": 0.0693, "step": 51900 }, { "epoch": 13.846666666666668, "grad_norm": 5.472427845001221, "learning_rate": 1.439288888888889e-06, "loss": 0.0729, "step": 51925 }, { "epoch": 13.853333333333333, "grad_norm": 5.6105637550354, "learning_rate": 1.4348444444444446e-06, "loss": 0.0703, "step": 51950 }, { "epoch": 13.86, "grad_norm": 5.882650375366211, "learning_rate": 1.4304e-06, "loss": 0.0731, "step": 51975 }, { "epoch": 13.866666666666667, "grad_norm": 4.3986921310424805, "learning_rate": 1.4259555555555558e-06, "loss": 0.082, "step": 52000 }, { "epoch": 13.873333333333333, "grad_norm": 4.459896087646484, "learning_rate": 1.4215111111111113e-06, "loss": 0.0767, "step": 52025 }, { "epoch": 13.88, "grad_norm": 5.145157337188721, "learning_rate": 1.417066666666667e-06, "loss": 0.0781, "step": 52050 }, { "epoch": 13.886666666666667, "grad_norm": 6.3479084968566895, "learning_rate": 1.4126222222222224e-06, "loss": 0.0783, "step": 52075 }, { "epoch": 13.893333333333333, "grad_norm": 7.261753082275391, "learning_rate": 1.4081777777777777e-06, "loss": 0.0752, "step": 52100 }, { "epoch": 13.9, "grad_norm": 3.9048378467559814, "learning_rate": 1.4037333333333334e-06, "loss": 0.0742, "step": 52125 }, { "epoch": 13.906666666666666, "grad_norm": 6.975226879119873, "learning_rate": 1.3992888888888889e-06, "loss": 0.0718, "step": 52150 }, { "epoch": 13.913333333333334, "grad_norm": 3.704474925994873, "learning_rate": 1.3948444444444446e-06, "loss": 0.0747, "step": 52175 }, { "epoch": 13.92, "grad_norm": 4.597527027130127, "learning_rate": 1.3904e-06, "loss": 0.0656, "step": 52200 }, { "epoch": 13.926666666666666, "grad_norm": 4.371330738067627, "learning_rate": 1.3859555555555558e-06, "loss": 0.0656, "step": 52225 }, { "epoch": 13.933333333333334, "grad_norm": 6.0362725257873535, "learning_rate": 1.3815111111111112e-06, "loss": 0.0827, "step": 52250 }, { "epoch": 13.94, "grad_norm": 5.935553550720215, "learning_rate": 1.377066666666667e-06, "loss": 0.0759, "step": 52275 }, { "epoch": 13.946666666666667, "grad_norm": 7.34261417388916, "learning_rate": 1.3726222222222224e-06, "loss": 0.079, "step": 52300 }, { "epoch": 13.953333333333333, "grad_norm": 3.7362871170043945, "learning_rate": 1.3681777777777779e-06, "loss": 0.0724, "step": 52325 }, { "epoch": 13.96, "grad_norm": 5.213724136352539, "learning_rate": 1.3637333333333336e-06, "loss": 0.0672, "step": 52350 }, { "epoch": 13.966666666666667, "grad_norm": 4.475199222564697, "learning_rate": 1.3592888888888888e-06, "loss": 0.0683, "step": 52375 }, { "epoch": 13.973333333333333, "grad_norm": 5.3463029861450195, "learning_rate": 1.3548444444444445e-06, "loss": 0.0815, "step": 52400 }, { "epoch": 13.98, "grad_norm": 3.803253650665283, "learning_rate": 1.3504e-06, "loss": 0.0745, "step": 52425 }, { "epoch": 13.986666666666666, "grad_norm": 3.9818623065948486, "learning_rate": 1.3459555555555557e-06, "loss": 0.0724, "step": 52450 }, { "epoch": 13.993333333333334, "grad_norm": 6.807934284210205, "learning_rate": 1.3415111111111112e-06, "loss": 0.0662, "step": 52475 }, { "epoch": 14.0, "grad_norm": 4.154113292694092, "learning_rate": 1.3370666666666669e-06, "loss": 0.0716, "step": 52500 }, { "epoch": 14.0, "eval_cer": 21.126288131487243, "eval_loss": 0.3761049509048462, "eval_runtime": 1231.2523, "eval_samples_per_second": 4.061, "eval_steps_per_second": 0.508, "step": 52500 }, { "epoch": 14.006666666666666, "grad_norm": 2.511601209640503, "learning_rate": 1.3326222222222224e-06, "loss": 0.048, "step": 52525 }, { "epoch": 14.013333333333334, "grad_norm": 4.37282657623291, "learning_rate": 1.328177777777778e-06, "loss": 0.0554, "step": 52550 }, { "epoch": 14.02, "grad_norm": 3.1976640224456787, "learning_rate": 1.3237333333333335e-06, "loss": 0.0493, "step": 52575 }, { "epoch": 14.026666666666667, "grad_norm": 3.915569543838501, "learning_rate": 1.319288888888889e-06, "loss": 0.0479, "step": 52600 }, { "epoch": 14.033333333333333, "grad_norm": 4.439314365386963, "learning_rate": 1.3148444444444445e-06, "loss": 0.0486, "step": 52625 }, { "epoch": 14.04, "grad_norm": 4.465267181396484, "learning_rate": 1.3104e-06, "loss": 0.0484, "step": 52650 }, { "epoch": 14.046666666666667, "grad_norm": 3.871236562728882, "learning_rate": 1.3059555555555557e-06, "loss": 0.0561, "step": 52675 }, { "epoch": 14.053333333333333, "grad_norm": 2.7384116649627686, "learning_rate": 1.3015111111111112e-06, "loss": 0.0494, "step": 52700 }, { "epoch": 14.06, "grad_norm": 4.386533737182617, "learning_rate": 1.2970666666666668e-06, "loss": 0.0458, "step": 52725 }, { "epoch": 14.066666666666666, "grad_norm": 3.547750473022461, "learning_rate": 1.2926222222222223e-06, "loss": 0.045, "step": 52750 }, { "epoch": 14.073333333333334, "grad_norm": 5.4930853843688965, "learning_rate": 1.288177777777778e-06, "loss": 0.0467, "step": 52775 }, { "epoch": 14.08, "grad_norm": 4.281717777252197, "learning_rate": 1.2837333333333335e-06, "loss": 0.0543, "step": 52800 }, { "epoch": 14.086666666666666, "grad_norm": 3.261850595474243, "learning_rate": 1.279288888888889e-06, "loss": 0.0506, "step": 52825 }, { "epoch": 14.093333333333334, "grad_norm": 3.276442050933838, "learning_rate": 1.2748444444444447e-06, "loss": 0.0503, "step": 52850 }, { "epoch": 14.1, "grad_norm": 4.682911396026611, "learning_rate": 1.2704e-06, "loss": 0.0586, "step": 52875 }, { "epoch": 14.106666666666667, "grad_norm": 6.137394905090332, "learning_rate": 1.2659555555555556e-06, "loss": 0.0504, "step": 52900 }, { "epoch": 14.113333333333333, "grad_norm": 3.387152910232544, "learning_rate": 1.2615111111111111e-06, "loss": 0.054, "step": 52925 }, { "epoch": 14.12, "grad_norm": 4.370669841766357, "learning_rate": 1.2570666666666668e-06, "loss": 0.0504, "step": 52950 }, { "epoch": 14.126666666666667, "grad_norm": 3.4092986583709717, "learning_rate": 1.2526222222222223e-06, "loss": 0.049, "step": 52975 }, { "epoch": 14.133333333333333, "grad_norm": 4.103923797607422, "learning_rate": 1.248177777777778e-06, "loss": 0.0523, "step": 53000 }, { "epoch": 14.14, "grad_norm": 5.404548645019531, "learning_rate": 1.2437333333333335e-06, "loss": 0.0543, "step": 53025 }, { "epoch": 14.146666666666667, "grad_norm": 6.26508903503418, "learning_rate": 1.239288888888889e-06, "loss": 0.0499, "step": 53050 }, { "epoch": 14.153333333333332, "grad_norm": 3.175922393798828, "learning_rate": 1.2348444444444444e-06, "loss": 0.0562, "step": 53075 }, { "epoch": 14.16, "grad_norm": 3.7458386421203613, "learning_rate": 1.2304000000000001e-06, "loss": 0.0479, "step": 53100 }, { "epoch": 14.166666666666666, "grad_norm": 5.165560722351074, "learning_rate": 1.2259555555555556e-06, "loss": 0.0517, "step": 53125 }, { "epoch": 14.173333333333334, "grad_norm": 3.5799591541290283, "learning_rate": 1.2215111111111113e-06, "loss": 0.05, "step": 53150 }, { "epoch": 14.18, "grad_norm": 2.709050416946411, "learning_rate": 1.2170666666666668e-06, "loss": 0.049, "step": 53175 }, { "epoch": 14.186666666666667, "grad_norm": 4.002528667449951, "learning_rate": 1.2126222222222222e-06, "loss": 0.0531, "step": 53200 }, { "epoch": 14.193333333333333, "grad_norm": 2.38199520111084, "learning_rate": 1.208177777777778e-06, "loss": 0.0493, "step": 53225 }, { "epoch": 14.2, "grad_norm": 4.183856964111328, "learning_rate": 1.2037333333333334e-06, "loss": 0.052, "step": 53250 }, { "epoch": 14.206666666666667, "grad_norm": 3.8171675205230713, "learning_rate": 1.199288888888889e-06, "loss": 0.0556, "step": 53275 }, { "epoch": 14.213333333333333, "grad_norm": 4.330394744873047, "learning_rate": 1.1948444444444446e-06, "loss": 0.055, "step": 53300 }, { "epoch": 14.22, "grad_norm": 4.10926628112793, "learning_rate": 1.1904e-06, "loss": 0.0497, "step": 53325 }, { "epoch": 14.226666666666667, "grad_norm": 4.827149868011475, "learning_rate": 1.1859555555555556e-06, "loss": 0.0459, "step": 53350 }, { "epoch": 14.233333333333333, "grad_norm": 3.9351627826690674, "learning_rate": 1.1815111111111112e-06, "loss": 0.0546, "step": 53375 }, { "epoch": 14.24, "grad_norm": 3.7546730041503906, "learning_rate": 1.1770666666666667e-06, "loss": 0.0559, "step": 53400 }, { "epoch": 14.246666666666666, "grad_norm": 3.5639142990112305, "learning_rate": 1.1726222222222224e-06, "loss": 0.0439, "step": 53425 }, { "epoch": 14.253333333333334, "grad_norm": 4.376165390014648, "learning_rate": 1.168177777777778e-06, "loss": 0.0521, "step": 53450 }, { "epoch": 14.26, "grad_norm": 3.6240880489349365, "learning_rate": 1.1637333333333334e-06, "loss": 0.0516, "step": 53475 }, { "epoch": 14.266666666666667, "grad_norm": 5.383458614349365, "learning_rate": 1.1592888888888889e-06, "loss": 0.0491, "step": 53500 }, { "epoch": 14.273333333333333, "grad_norm": 3.4979617595672607, "learning_rate": 1.1548444444444446e-06, "loss": 0.0453, "step": 53525 }, { "epoch": 14.28, "grad_norm": 4.769947052001953, "learning_rate": 1.1504e-06, "loss": 0.0424, "step": 53550 }, { "epoch": 14.286666666666667, "grad_norm": 4.069387912750244, "learning_rate": 1.1459555555555557e-06, "loss": 0.049, "step": 53575 }, { "epoch": 14.293333333333333, "grad_norm": 3.9347150325775146, "learning_rate": 1.1415111111111112e-06, "loss": 0.047, "step": 53600 }, { "epoch": 14.3, "grad_norm": 3.5731167793273926, "learning_rate": 1.1370666666666667e-06, "loss": 0.049, "step": 53625 }, { "epoch": 14.306666666666667, "grad_norm": 3.5513360500335693, "learning_rate": 1.1326222222222224e-06, "loss": 0.0535, "step": 53650 }, { "epoch": 14.313333333333333, "grad_norm": 4.981029033660889, "learning_rate": 1.1281777777777779e-06, "loss": 0.0461, "step": 53675 }, { "epoch": 14.32, "grad_norm": 3.597111701965332, "learning_rate": 1.1237333333333335e-06, "loss": 0.0517, "step": 53700 }, { "epoch": 14.326666666666666, "grad_norm": 4.880976676940918, "learning_rate": 1.119288888888889e-06, "loss": 0.0468, "step": 53725 }, { "epoch": 14.333333333333334, "grad_norm": 4.088090419769287, "learning_rate": 1.1148444444444445e-06, "loss": 0.0519, "step": 53750 }, { "epoch": 14.34, "grad_norm": 3.2150065898895264, "learning_rate": 1.1104e-06, "loss": 0.0531, "step": 53775 }, { "epoch": 14.346666666666668, "grad_norm": 2.6329903602600098, "learning_rate": 1.1059555555555557e-06, "loss": 0.0512, "step": 53800 }, { "epoch": 14.353333333333333, "grad_norm": 5.744917869567871, "learning_rate": 1.1015111111111112e-06, "loss": 0.0493, "step": 53825 }, { "epoch": 14.36, "grad_norm": 4.317261695861816, "learning_rate": 1.0970666666666666e-06, "loss": 0.0547, "step": 53850 }, { "epoch": 14.366666666666667, "grad_norm": 2.9774224758148193, "learning_rate": 1.0926222222222223e-06, "loss": 0.0486, "step": 53875 }, { "epoch": 14.373333333333333, "grad_norm": 3.343986988067627, "learning_rate": 1.0881777777777778e-06, "loss": 0.0476, "step": 53900 }, { "epoch": 14.38, "grad_norm": 5.955545902252197, "learning_rate": 1.0837333333333335e-06, "loss": 0.0498, "step": 53925 }, { "epoch": 14.386666666666667, "grad_norm": 3.4925169944763184, "learning_rate": 1.079288888888889e-06, "loss": 0.0525, "step": 53950 }, { "epoch": 14.393333333333333, "grad_norm": 3.1490190029144287, "learning_rate": 1.0748444444444445e-06, "loss": 0.0577, "step": 53975 }, { "epoch": 14.4, "grad_norm": 3.9418387413024902, "learning_rate": 1.0704e-06, "loss": 0.0498, "step": 54000 }, { "epoch": 14.406666666666666, "grad_norm": 3.7234323024749756, "learning_rate": 1.0659555555555556e-06, "loss": 0.0551, "step": 54025 }, { "epoch": 14.413333333333334, "grad_norm": 4.227156639099121, "learning_rate": 1.0615111111111111e-06, "loss": 0.0533, "step": 54050 }, { "epoch": 14.42, "grad_norm": 3.598093271255493, "learning_rate": 1.0570666666666668e-06, "loss": 0.0549, "step": 54075 }, { "epoch": 14.426666666666666, "grad_norm": 4.07535457611084, "learning_rate": 1.0526222222222223e-06, "loss": 0.0588, "step": 54100 }, { "epoch": 14.433333333333334, "grad_norm": 3.258436441421509, "learning_rate": 1.0481777777777778e-06, "loss": 0.0617, "step": 54125 }, { "epoch": 14.44, "grad_norm": 1.908854603767395, "learning_rate": 1.0437333333333335e-06, "loss": 0.0483, "step": 54150 }, { "epoch": 14.446666666666667, "grad_norm": 3.9834799766540527, "learning_rate": 1.039288888888889e-06, "loss": 0.05, "step": 54175 }, { "epoch": 14.453333333333333, "grad_norm": 4.584743499755859, "learning_rate": 1.0348444444444446e-06, "loss": 0.0611, "step": 54200 }, { "epoch": 14.46, "grad_norm": 4.237573146820068, "learning_rate": 1.0304000000000001e-06, "loss": 0.0518, "step": 54225 }, { "epoch": 14.466666666666667, "grad_norm": 3.4706881046295166, "learning_rate": 1.0259555555555556e-06, "loss": 0.052, "step": 54250 }, { "epoch": 14.473333333333333, "grad_norm": 3.947627067565918, "learning_rate": 1.021511111111111e-06, "loss": 0.0466, "step": 54275 }, { "epoch": 14.48, "grad_norm": 3.0643858909606934, "learning_rate": 1.0170666666666668e-06, "loss": 0.0441, "step": 54300 }, { "epoch": 14.486666666666666, "grad_norm": 2.669238567352295, "learning_rate": 1.0126222222222223e-06, "loss": 0.0508, "step": 54325 }, { "epoch": 14.493333333333334, "grad_norm": 5.497490882873535, "learning_rate": 1.008177777777778e-06, "loss": 0.0481, "step": 54350 }, { "epoch": 14.5, "grad_norm": 4.581981658935547, "learning_rate": 1.0037333333333334e-06, "loss": 0.0451, "step": 54375 }, { "epoch": 14.506666666666666, "grad_norm": 4.398919105529785, "learning_rate": 9.99288888888889e-07, "loss": 0.0609, "step": 54400 }, { "epoch": 14.513333333333334, "grad_norm": 3.6276612281799316, "learning_rate": 9.948444444444446e-07, "loss": 0.0481, "step": 54425 }, { "epoch": 14.52, "grad_norm": 3.4535512924194336, "learning_rate": 9.904e-07, "loss": 0.0469, "step": 54450 }, { "epoch": 14.526666666666667, "grad_norm": 4.12789249420166, "learning_rate": 9.861333333333334e-07, "loss": 0.0546, "step": 54475 }, { "epoch": 14.533333333333333, "grad_norm": 2.7449920177459717, "learning_rate": 9.81688888888889e-07, "loss": 0.048, "step": 54500 }, { "epoch": 14.54, "grad_norm": 6.136411190032959, "learning_rate": 9.772444444444445e-07, "loss": 0.0537, "step": 54525 }, { "epoch": 14.546666666666667, "grad_norm": 5.178431987762451, "learning_rate": 9.728e-07, "loss": 0.0459, "step": 54550 }, { "epoch": 14.553333333333333, "grad_norm": 2.6209218502044678, "learning_rate": 9.683555555555555e-07, "loss": 0.0475, "step": 54575 }, { "epoch": 14.56, "grad_norm": 4.398605823516846, "learning_rate": 9.639111111111112e-07, "loss": 0.0545, "step": 54600 }, { "epoch": 14.566666666666666, "grad_norm": 3.6953680515289307, "learning_rate": 9.594666666666667e-07, "loss": 0.0499, "step": 54625 }, { "epoch": 14.573333333333334, "grad_norm": 4.473062038421631, "learning_rate": 9.550222222222224e-07, "loss": 0.0596, "step": 54650 }, { "epoch": 14.58, "grad_norm": 3.745427131652832, "learning_rate": 9.505777777777779e-07, "loss": 0.048, "step": 54675 }, { "epoch": 14.586666666666666, "grad_norm": 4.922022819519043, "learning_rate": 9.461333333333333e-07, "loss": 0.0561, "step": 54700 }, { "epoch": 14.593333333333334, "grad_norm": 3.210239887237549, "learning_rate": 9.416888888888889e-07, "loss": 0.0495, "step": 54725 }, { "epoch": 14.6, "grad_norm": 4.6359992027282715, "learning_rate": 9.372444444444445e-07, "loss": 0.0522, "step": 54750 }, { "epoch": 14.606666666666667, "grad_norm": 3.23698353767395, "learning_rate": 9.328000000000001e-07, "loss": 0.0503, "step": 54775 }, { "epoch": 14.613333333333333, "grad_norm": 4.698474407196045, "learning_rate": 9.283555555555557e-07, "loss": 0.0527, "step": 54800 }, { "epoch": 14.62, "grad_norm": 4.001100540161133, "learning_rate": 9.239111111111112e-07, "loss": 0.0473, "step": 54825 }, { "epoch": 14.626666666666667, "grad_norm": 4.27857780456543, "learning_rate": 9.194666666666667e-07, "loss": 0.0486, "step": 54850 }, { "epoch": 14.633333333333333, "grad_norm": 3.206892967224121, "learning_rate": 9.150222222222223e-07, "loss": 0.0499, "step": 54875 }, { "epoch": 14.64, "grad_norm": 4.4712677001953125, "learning_rate": 9.105777777777778e-07, "loss": 0.0508, "step": 54900 }, { "epoch": 14.646666666666667, "grad_norm": 4.528389930725098, "learning_rate": 9.061333333333334e-07, "loss": 0.0551, "step": 54925 }, { "epoch": 14.653333333333332, "grad_norm": 4.706644535064697, "learning_rate": 9.01688888888889e-07, "loss": 0.0561, "step": 54950 }, { "epoch": 14.66, "grad_norm": 5.914303779602051, "learning_rate": 8.972444444444445e-07, "loss": 0.0465, "step": 54975 }, { "epoch": 14.666666666666666, "grad_norm": 4.699190616607666, "learning_rate": 8.928000000000001e-07, "loss": 0.0518, "step": 55000 }, { "epoch": 14.673333333333334, "grad_norm": 3.036041259765625, "learning_rate": 8.883555555555556e-07, "loss": 0.0448, "step": 55025 }, { "epoch": 14.68, "grad_norm": 3.7143850326538086, "learning_rate": 8.839111111111112e-07, "loss": 0.0472, "step": 55050 }, { "epoch": 14.686666666666667, "grad_norm": 5.02278470993042, "learning_rate": 8.794666666666668e-07, "loss": 0.0522, "step": 55075 }, { "epoch": 14.693333333333333, "grad_norm": 3.3270909786224365, "learning_rate": 8.750222222222223e-07, "loss": 0.0493, "step": 55100 }, { "epoch": 14.7, "grad_norm": 4.276947975158691, "learning_rate": 8.705777777777779e-07, "loss": 0.046, "step": 55125 }, { "epoch": 14.706666666666667, "grad_norm": 2.790639638900757, "learning_rate": 8.661333333333334e-07, "loss": 0.0539, "step": 55150 }, { "epoch": 14.713333333333333, "grad_norm": 2.523202419281006, "learning_rate": 8.616888888888889e-07, "loss": 0.0567, "step": 55175 }, { "epoch": 14.72, "grad_norm": 4.1561126708984375, "learning_rate": 8.572444444444445e-07, "loss": 0.0487, "step": 55200 }, { "epoch": 14.726666666666667, "grad_norm": 6.204878807067871, "learning_rate": 8.528e-07, "loss": 0.0449, "step": 55225 }, { "epoch": 14.733333333333333, "grad_norm": 2.5746982097625732, "learning_rate": 8.483555555555556e-07, "loss": 0.0528, "step": 55250 }, { "epoch": 14.74, "grad_norm": 3.893643856048584, "learning_rate": 8.439111111111112e-07, "loss": 0.051, "step": 55275 }, { "epoch": 14.746666666666666, "grad_norm": 3.1998512744903564, "learning_rate": 8.394666666666668e-07, "loss": 0.047, "step": 55300 }, { "epoch": 14.753333333333334, "grad_norm": 3.3848798274993896, "learning_rate": 8.350222222222224e-07, "loss": 0.0439, "step": 55325 }, { "epoch": 14.76, "grad_norm": 2.4238150119781494, "learning_rate": 8.305777777777778e-07, "loss": 0.0511, "step": 55350 }, { "epoch": 14.766666666666667, "grad_norm": 3.8833956718444824, "learning_rate": 8.261333333333333e-07, "loss": 0.0511, "step": 55375 }, { "epoch": 14.773333333333333, "grad_norm": 2.1876776218414307, "learning_rate": 8.216888888888889e-07, "loss": 0.0502, "step": 55400 }, { "epoch": 14.78, "grad_norm": 3.353861093521118, "learning_rate": 8.172444444444445e-07, "loss": 0.0498, "step": 55425 }, { "epoch": 14.786666666666667, "grad_norm": 4.793560028076172, "learning_rate": 8.128000000000001e-07, "loss": 0.0478, "step": 55450 }, { "epoch": 14.793333333333333, "grad_norm": 3.017418146133423, "learning_rate": 8.083555555555556e-07, "loss": 0.0531, "step": 55475 }, { "epoch": 14.8, "grad_norm": 4.54094123840332, "learning_rate": 8.039111111111111e-07, "loss": 0.0481, "step": 55500 }, { "epoch": 14.806666666666667, "grad_norm": 4.010063648223877, "learning_rate": 7.994666666666667e-07, "loss": 0.0476, "step": 55525 }, { "epoch": 14.813333333333333, "grad_norm": 3.588308095932007, "learning_rate": 7.950222222222223e-07, "loss": 0.0513, "step": 55550 }, { "epoch": 14.82, "grad_norm": 3.695631504058838, "learning_rate": 7.905777777777779e-07, "loss": 0.0485, "step": 55575 }, { "epoch": 14.826666666666666, "grad_norm": 3.524763584136963, "learning_rate": 7.861333333333333e-07, "loss": 0.045, "step": 55600 }, { "epoch": 14.833333333333334, "grad_norm": 3.0630452632904053, "learning_rate": 7.816888888888889e-07, "loss": 0.0462, "step": 55625 }, { "epoch": 14.84, "grad_norm": 3.2019824981689453, "learning_rate": 7.772444444444445e-07, "loss": 0.0537, "step": 55650 }, { "epoch": 14.846666666666668, "grad_norm": 4.231189250946045, "learning_rate": 7.728e-07, "loss": 0.0469, "step": 55675 }, { "epoch": 14.853333333333333, "grad_norm": 4.678059101104736, "learning_rate": 7.683555555555556e-07, "loss": 0.0528, "step": 55700 }, { "epoch": 14.86, "grad_norm": 5.045527935028076, "learning_rate": 7.639111111111112e-07, "loss": 0.0547, "step": 55725 }, { "epoch": 14.866666666666667, "grad_norm": 3.8671278953552246, "learning_rate": 7.594666666666667e-07, "loss": 0.0509, "step": 55750 }, { "epoch": 14.873333333333333, "grad_norm": 3.0082952976226807, "learning_rate": 7.550222222222223e-07, "loss": 0.0443, "step": 55775 }, { "epoch": 14.88, "grad_norm": 2.718233823776245, "learning_rate": 7.505777777777779e-07, "loss": 0.0517, "step": 55800 }, { "epoch": 14.886666666666667, "grad_norm": 4.321046829223633, "learning_rate": 7.461333333333335e-07, "loss": 0.0497, "step": 55825 }, { "epoch": 14.893333333333333, "grad_norm": 4.6865434646606445, "learning_rate": 7.41688888888889e-07, "loss": 0.0497, "step": 55850 }, { "epoch": 14.9, "grad_norm": 2.637352466583252, "learning_rate": 7.372444444444444e-07, "loss": 0.0522, "step": 55875 }, { "epoch": 14.906666666666666, "grad_norm": 6.383835792541504, "learning_rate": 7.328e-07, "loss": 0.06, "step": 55900 }, { "epoch": 14.913333333333334, "grad_norm": 5.151569843292236, "learning_rate": 7.283555555555556e-07, "loss": 0.0496, "step": 55925 }, { "epoch": 14.92, "grad_norm": 3.0789265632629395, "learning_rate": 7.239111111111112e-07, "loss": 0.0479, "step": 55950 }, { "epoch": 14.926666666666666, "grad_norm": 3.3531296253204346, "learning_rate": 7.194666666666668e-07, "loss": 0.0423, "step": 55975 }, { "epoch": 14.933333333333334, "grad_norm": 4.941739082336426, "learning_rate": 7.150222222222222e-07, "loss": 0.0516, "step": 56000 }, { "epoch": 14.94, "grad_norm": 4.100013256072998, "learning_rate": 7.105777777777778e-07, "loss": 0.0538, "step": 56025 }, { "epoch": 14.946666666666667, "grad_norm": 2.654566764831543, "learning_rate": 7.061333333333334e-07, "loss": 0.049, "step": 56050 }, { "epoch": 14.953333333333333, "grad_norm": 5.69033670425415, "learning_rate": 7.01688888888889e-07, "loss": 0.0502, "step": 56075 }, { "epoch": 14.96, "grad_norm": 4.089710235595703, "learning_rate": 6.972444444444446e-07, "loss": 0.0485, "step": 56100 }, { "epoch": 14.966666666666667, "grad_norm": 5.177222728729248, "learning_rate": 6.928e-07, "loss": 0.045, "step": 56125 }, { "epoch": 14.973333333333333, "grad_norm": 3.208003282546997, "learning_rate": 6.883555555555555e-07, "loss": 0.049, "step": 56150 }, { "epoch": 14.98, "grad_norm": 4.124612808227539, "learning_rate": 6.839111111111111e-07, "loss": 0.0535, "step": 56175 }, { "epoch": 14.986666666666666, "grad_norm": 4.6906208992004395, "learning_rate": 6.794666666666667e-07, "loss": 0.0534, "step": 56200 }, { "epoch": 14.993333333333334, "grad_norm": 4.804418087005615, "learning_rate": 6.750222222222223e-07, "loss": 0.0587, "step": 56225 }, { "epoch": 15.0, "grad_norm": 3.7263681888580322, "learning_rate": 6.705777777777778e-07, "loss": 0.052, "step": 56250 }, { "epoch": 15.0, "eval_cer": 21.182192572163316, "eval_loss": 0.3802435100078583, "eval_runtime": 1285.9976, "eval_samples_per_second": 3.888, "eval_steps_per_second": 0.486, "step": 56250 }, { "epoch": 15.006666666666666, "grad_norm": 1.838929533958435, "learning_rate": 6.661333333333334e-07, "loss": 0.0307, "step": 56275 }, { "epoch": 15.013333333333334, "grad_norm": 1.9618338346481323, "learning_rate": 6.61688888888889e-07, "loss": 0.0386, "step": 56300 }, { "epoch": 15.02, "grad_norm": 3.0752675533294678, "learning_rate": 6.572444444444445e-07, "loss": 0.0392, "step": 56325 }, { "epoch": 15.026666666666667, "grad_norm": 2.691783905029297, "learning_rate": 6.528000000000001e-07, "loss": 0.0413, "step": 56350 }, { "epoch": 15.033333333333333, "grad_norm": 2.8088836669921875, "learning_rate": 6.483555555555555e-07, "loss": 0.0375, "step": 56375 }, { "epoch": 15.04, "grad_norm": 3.7183916568756104, "learning_rate": 6.439111111111111e-07, "loss": 0.0366, "step": 56400 }, { "epoch": 15.046666666666667, "grad_norm": 3.9821486473083496, "learning_rate": 6.394666666666667e-07, "loss": 0.0349, "step": 56425 }, { "epoch": 15.053333333333333, "grad_norm": 3.8157825469970703, "learning_rate": 6.350222222222223e-07, "loss": 0.034, "step": 56450 }, { "epoch": 15.06, "grad_norm": 3.0053462982177734, "learning_rate": 6.305777777777778e-07, "loss": 0.0352, "step": 56475 }, { "epoch": 15.066666666666666, "grad_norm": 2.731395721435547, "learning_rate": 6.261333333333333e-07, "loss": 0.0325, "step": 56500 }, { "epoch": 15.073333333333334, "grad_norm": 3.052091360092163, "learning_rate": 6.216888888888889e-07, "loss": 0.0389, "step": 56525 }, { "epoch": 15.08, "grad_norm": 2.358778476715088, "learning_rate": 6.172444444444445e-07, "loss": 0.0343, "step": 56550 }, { "epoch": 15.086666666666666, "grad_norm": 2.469191551208496, "learning_rate": 6.128000000000001e-07, "loss": 0.0348, "step": 56575 }, { "epoch": 15.093333333333334, "grad_norm": 3.969801902770996, "learning_rate": 6.083555555555556e-07, "loss": 0.0338, "step": 56600 }, { "epoch": 15.1, "grad_norm": 3.5160794258117676, "learning_rate": 6.04088888888889e-07, "loss": 0.0351, "step": 56625 }, { "epoch": 15.106666666666667, "grad_norm": 2.6702451705932617, "learning_rate": 5.996444444444444e-07, "loss": 0.0386, "step": 56650 }, { "epoch": 15.113333333333333, "grad_norm": 3.524094581604004, "learning_rate": 5.952e-07, "loss": 0.0387, "step": 56675 }, { "epoch": 15.12, "grad_norm": 3.372159481048584, "learning_rate": 5.907555555555556e-07, "loss": 0.0454, "step": 56700 }, { "epoch": 15.126666666666667, "grad_norm": 3.5445916652679443, "learning_rate": 5.863111111111112e-07, "loss": 0.0401, "step": 56725 }, { "epoch": 15.133333333333333, "grad_norm": 2.9958269596099854, "learning_rate": 5.818666666666667e-07, "loss": 0.0444, "step": 56750 }, { "epoch": 15.14, "grad_norm": 4.554872512817383, "learning_rate": 5.774222222222223e-07, "loss": 0.0369, "step": 56775 }, { "epoch": 15.146666666666667, "grad_norm": 2.3896119594573975, "learning_rate": 5.729777777777779e-07, "loss": 0.0347, "step": 56800 }, { "epoch": 15.153333333333332, "grad_norm": 3.3367373943328857, "learning_rate": 5.685333333333333e-07, "loss": 0.0357, "step": 56825 }, { "epoch": 15.16, "grad_norm": 2.996647596359253, "learning_rate": 5.640888888888889e-07, "loss": 0.0385, "step": 56850 }, { "epoch": 15.166666666666666, "grad_norm": 2.599026918411255, "learning_rate": 5.596444444444445e-07, "loss": 0.0338, "step": 56875 }, { "epoch": 15.173333333333334, "grad_norm": 3.295255661010742, "learning_rate": 5.552e-07, "loss": 0.039, "step": 56900 }, { "epoch": 15.18, "grad_norm": 3.190220594406128, "learning_rate": 5.507555555555556e-07, "loss": 0.0362, "step": 56925 }, { "epoch": 15.186666666666667, "grad_norm": 3.2409563064575195, "learning_rate": 5.463111111111112e-07, "loss": 0.034, "step": 56950 }, { "epoch": 15.193333333333333, "grad_norm": 5.110193252563477, "learning_rate": 5.418666666666668e-07, "loss": 0.0417, "step": 56975 }, { "epoch": 15.2, "grad_norm": 3.605032205581665, "learning_rate": 5.374222222222222e-07, "loss": 0.0417, "step": 57000 }, { "epoch": 15.206666666666667, "grad_norm": 2.6368558406829834, "learning_rate": 5.329777777777778e-07, "loss": 0.0429, "step": 57025 }, { "epoch": 15.213333333333333, "grad_norm": 2.783950090408325, "learning_rate": 5.285333333333334e-07, "loss": 0.0353, "step": 57050 }, { "epoch": 15.22, "grad_norm": 3.500230550765991, "learning_rate": 5.240888888888889e-07, "loss": 0.0415, "step": 57075 }, { "epoch": 15.226666666666667, "grad_norm": 2.3080856800079346, "learning_rate": 5.196444444444445e-07, "loss": 0.0411, "step": 57100 }, { "epoch": 15.233333333333333, "grad_norm": 2.2162585258483887, "learning_rate": 5.152000000000001e-07, "loss": 0.0378, "step": 57125 }, { "epoch": 15.24, "grad_norm": 3.035564661026001, "learning_rate": 5.107555555555555e-07, "loss": 0.0401, "step": 57150 }, { "epoch": 15.246666666666666, "grad_norm": 2.7669639587402344, "learning_rate": 5.063111111111111e-07, "loss": 0.0353, "step": 57175 }, { "epoch": 15.253333333333334, "grad_norm": 3.5300302505493164, "learning_rate": 5.018666666666667e-07, "loss": 0.0382, "step": 57200 }, { "epoch": 15.26, "grad_norm": 2.900111198425293, "learning_rate": 4.974222222222223e-07, "loss": 0.0336, "step": 57225 }, { "epoch": 15.266666666666667, "grad_norm": 3.187019109725952, "learning_rate": 4.929777777777779e-07, "loss": 0.0372, "step": 57250 }, { "epoch": 15.273333333333333, "grad_norm": 2.764500856399536, "learning_rate": 4.885333333333334e-07, "loss": 0.0388, "step": 57275 }, { "epoch": 15.28, "grad_norm": 3.1630499362945557, "learning_rate": 4.84088888888889e-07, "loss": 0.0358, "step": 57300 }, { "epoch": 15.286666666666667, "grad_norm": 5.675130844116211, "learning_rate": 4.796444444444444e-07, "loss": 0.0446, "step": 57325 }, { "epoch": 15.293333333333333, "grad_norm": 3.349416732788086, "learning_rate": 4.752e-07, "loss": 0.0341, "step": 57350 }, { "epoch": 15.3, "grad_norm": 3.169968843460083, "learning_rate": 4.707555555555556e-07, "loss": 0.037, "step": 57375 }, { "epoch": 15.306666666666667, "grad_norm": 4.1329569816589355, "learning_rate": 4.6631111111111114e-07, "loss": 0.035, "step": 57400 }, { "epoch": 15.313333333333333, "grad_norm": 3.9645655155181885, "learning_rate": 4.618666666666667e-07, "loss": 0.0322, "step": 57425 }, { "epoch": 15.32, "grad_norm": 2.657388925552368, "learning_rate": 4.574222222222222e-07, "loss": 0.0384, "step": 57450 }, { "epoch": 15.326666666666666, "grad_norm": 3.0640854835510254, "learning_rate": 4.529777777777778e-07, "loss": 0.0326, "step": 57475 }, { "epoch": 15.333333333333334, "grad_norm": 1.9626290798187256, "learning_rate": 4.485333333333334e-07, "loss": 0.0343, "step": 57500 }, { "epoch": 15.34, "grad_norm": 1.908691167831421, "learning_rate": 4.440888888888889e-07, "loss": 0.0413, "step": 57525 }, { "epoch": 15.346666666666668, "grad_norm": 2.651705026626587, "learning_rate": 4.396444444444445e-07, "loss": 0.0415, "step": 57550 }, { "epoch": 15.353333333333333, "grad_norm": 3.378845453262329, "learning_rate": 4.352000000000001e-07, "loss": 0.0423, "step": 57575 }, { "epoch": 15.36, "grad_norm": 2.521993398666382, "learning_rate": 4.3075555555555557e-07, "loss": 0.0385, "step": 57600 }, { "epoch": 15.366666666666667, "grad_norm": 4.695323467254639, "learning_rate": 4.2631111111111115e-07, "loss": 0.0409, "step": 57625 }, { "epoch": 15.373333333333333, "grad_norm": 2.082139730453491, "learning_rate": 4.218666666666667e-07, "loss": 0.0365, "step": 57650 }, { "epoch": 15.38, "grad_norm": 3.0150341987609863, "learning_rate": 4.1742222222222227e-07, "loss": 0.0401, "step": 57675 }, { "epoch": 15.386666666666667, "grad_norm": 2.8115482330322266, "learning_rate": 4.1297777777777786e-07, "loss": 0.0349, "step": 57700 }, { "epoch": 15.393333333333333, "grad_norm": 3.0568573474884033, "learning_rate": 4.0853333333333334e-07, "loss": 0.0313, "step": 57725 }, { "epoch": 15.4, "grad_norm": 2.1599583625793457, "learning_rate": 4.040888888888889e-07, "loss": 0.0332, "step": 57750 }, { "epoch": 15.406666666666666, "grad_norm": 4.2348175048828125, "learning_rate": 3.9964444444444446e-07, "loss": 0.0389, "step": 57775 }, { "epoch": 15.413333333333334, "grad_norm": 3.0446994304656982, "learning_rate": 3.9520000000000004e-07, "loss": 0.0395, "step": 57800 }, { "epoch": 15.42, "grad_norm": 3.0902209281921387, "learning_rate": 3.9075555555555563e-07, "loss": 0.0387, "step": 57825 }, { "epoch": 15.426666666666666, "grad_norm": 3.263892412185669, "learning_rate": 3.863111111111111e-07, "loss": 0.0472, "step": 57850 }, { "epoch": 15.433333333333334, "grad_norm": 3.7055680751800537, "learning_rate": 3.818666666666667e-07, "loss": 0.0343, "step": 57875 }, { "epoch": 15.44, "grad_norm": 4.108326435089111, "learning_rate": 3.774222222222223e-07, "loss": 0.0399, "step": 57900 }, { "epoch": 15.446666666666667, "grad_norm": 3.4727985858917236, "learning_rate": 3.729777777777778e-07, "loss": 0.0372, "step": 57925 }, { "epoch": 15.453333333333333, "grad_norm": 3.0012502670288086, "learning_rate": 3.685333333333334e-07, "loss": 0.0317, "step": 57950 }, { "epoch": 15.46, "grad_norm": 3.411458969116211, "learning_rate": 3.640888888888889e-07, "loss": 0.0372, "step": 57975 }, { "epoch": 15.466666666666667, "grad_norm": 3.2532289028167725, "learning_rate": 3.5964444444444447e-07, "loss": 0.0341, "step": 58000 }, { "epoch": 15.473333333333333, "grad_norm": 2.243187189102173, "learning_rate": 3.5520000000000006e-07, "loss": 0.0357, "step": 58025 }, { "epoch": 15.48, "grad_norm": 2.780473470687866, "learning_rate": 3.507555555555556e-07, "loss": 0.0392, "step": 58050 }, { "epoch": 15.486666666666666, "grad_norm": 2.5097646713256836, "learning_rate": 3.463111111111112e-07, "loss": 0.0408, "step": 58075 }, { "epoch": 15.493333333333334, "grad_norm": 2.0093581676483154, "learning_rate": 3.4186666666666666e-07, "loss": 0.0348, "step": 58100 }, { "epoch": 15.5, "grad_norm": 3.888518810272217, "learning_rate": 3.3742222222222224e-07, "loss": 0.0361, "step": 58125 }, { "epoch": 15.506666666666666, "grad_norm": 3.7178258895874023, "learning_rate": 3.3297777777777783e-07, "loss": 0.0407, "step": 58150 }, { "epoch": 15.513333333333334, "grad_norm": 1.5835930109024048, "learning_rate": 3.2853333333333336e-07, "loss": 0.036, "step": 58175 }, { "epoch": 15.52, "grad_norm": 3.087141990661621, "learning_rate": 3.2408888888888895e-07, "loss": 0.0397, "step": 58200 }, { "epoch": 15.526666666666667, "grad_norm": 3.023496389389038, "learning_rate": 3.1964444444444443e-07, "loss": 0.0325, "step": 58225 }, { "epoch": 15.533333333333333, "grad_norm": 3.0285911560058594, "learning_rate": 3.152e-07, "loss": 0.0426, "step": 58250 }, { "epoch": 15.54, "grad_norm": 2.8964972496032715, "learning_rate": 3.1075555555555555e-07, "loss": 0.0342, "step": 58275 }, { "epoch": 15.546666666666667, "grad_norm": 2.9374606609344482, "learning_rate": 3.0631111111111114e-07, "loss": 0.0354, "step": 58300 }, { "epoch": 15.553333333333333, "grad_norm": 2.496340274810791, "learning_rate": 3.018666666666667e-07, "loss": 0.0372, "step": 58325 }, { "epoch": 15.56, "grad_norm": 3.469555616378784, "learning_rate": 2.9742222222222226e-07, "loss": 0.0358, "step": 58350 }, { "epoch": 15.566666666666666, "grad_norm": 2.0063796043395996, "learning_rate": 2.929777777777778e-07, "loss": 0.0378, "step": 58375 }, { "epoch": 15.573333333333334, "grad_norm": 2.95000958442688, "learning_rate": 2.885333333333334e-07, "loss": 0.0361, "step": 58400 }, { "epoch": 15.58, "grad_norm": 2.76594614982605, "learning_rate": 2.840888888888889e-07, "loss": 0.0331, "step": 58425 }, { "epoch": 15.586666666666666, "grad_norm": 2.244518518447876, "learning_rate": 2.7982222222222226e-07, "loss": 0.0391, "step": 58450 }, { "epoch": 15.593333333333334, "grad_norm": 3.0868637561798096, "learning_rate": 2.753777777777778e-07, "loss": 0.0418, "step": 58475 }, { "epoch": 15.6, "grad_norm": 4.045677185058594, "learning_rate": 2.709333333333334e-07, "loss": 0.0363, "step": 58500 }, { "epoch": 15.606666666666667, "grad_norm": 3.383727788925171, "learning_rate": 2.664888888888889e-07, "loss": 0.039, "step": 58525 }, { "epoch": 15.613333333333333, "grad_norm": 4.226437568664551, "learning_rate": 2.6204444444444444e-07, "loss": 0.0387, "step": 58550 }, { "epoch": 15.62, "grad_norm": 3.6787514686584473, "learning_rate": 2.5760000000000003e-07, "loss": 0.0377, "step": 58575 }, { "epoch": 15.626666666666667, "grad_norm": 4.334747314453125, "learning_rate": 2.5315555555555556e-07, "loss": 0.0393, "step": 58600 }, { "epoch": 15.633333333333333, "grad_norm": 2.344055652618408, "learning_rate": 2.4871111111111115e-07, "loss": 0.0351, "step": 58625 }, { "epoch": 15.64, "grad_norm": 2.0210814476013184, "learning_rate": 2.442666666666667e-07, "loss": 0.0407, "step": 58650 }, { "epoch": 15.646666666666667, "grad_norm": 2.6171045303344727, "learning_rate": 2.398222222222222e-07, "loss": 0.0387, "step": 58675 }, { "epoch": 15.653333333333332, "grad_norm": 6.022252559661865, "learning_rate": 2.353777777777778e-07, "loss": 0.0391, "step": 58700 }, { "epoch": 15.66, "grad_norm": 2.860677719116211, "learning_rate": 2.3093333333333336e-07, "loss": 0.0377, "step": 58725 }, { "epoch": 15.666666666666666, "grad_norm": 2.693474292755127, "learning_rate": 2.264888888888889e-07, "loss": 0.0375, "step": 58750 }, { "epoch": 15.673333333333334, "grad_norm": 2.5033092498779297, "learning_rate": 2.2204444444444446e-07, "loss": 0.0316, "step": 58775 }, { "epoch": 15.68, "grad_norm": 3.7641522884368896, "learning_rate": 2.1760000000000004e-07, "loss": 0.043, "step": 58800 }, { "epoch": 15.686666666666667, "grad_norm": 3.6431069374084473, "learning_rate": 2.1315555555555558e-07, "loss": 0.0343, "step": 58825 }, { "epoch": 15.693333333333333, "grad_norm": 1.9255081415176392, "learning_rate": 2.0871111111111114e-07, "loss": 0.0388, "step": 58850 }, { "epoch": 15.7, "grad_norm": 2.9782581329345703, "learning_rate": 2.0426666666666667e-07, "loss": 0.0325, "step": 58875 }, { "epoch": 15.706666666666667, "grad_norm": 3.2513091564178467, "learning_rate": 1.9982222222222223e-07, "loss": 0.0307, "step": 58900 }, { "epoch": 15.713333333333333, "grad_norm": 3.41194224357605, "learning_rate": 1.9537777777777782e-07, "loss": 0.0391, "step": 58925 }, { "epoch": 15.72, "grad_norm": 3.1003313064575195, "learning_rate": 1.9093333333333335e-07, "loss": 0.0349, "step": 58950 }, { "epoch": 15.726666666666667, "grad_norm": 2.3903234004974365, "learning_rate": 1.864888888888889e-07, "loss": 0.0322, "step": 58975 }, { "epoch": 15.733333333333333, "grad_norm": 2.266721248626709, "learning_rate": 1.8204444444444444e-07, "loss": 0.0447, "step": 59000 }, { "epoch": 15.74, "grad_norm": 1.739495038986206, "learning_rate": 1.7760000000000003e-07, "loss": 0.0385, "step": 59025 }, { "epoch": 15.746666666666666, "grad_norm": 3.737060785293579, "learning_rate": 1.731555555555556e-07, "loss": 0.0305, "step": 59050 }, { "epoch": 15.753333333333334, "grad_norm": 4.032593250274658, "learning_rate": 1.6871111111111112e-07, "loss": 0.0306, "step": 59075 }, { "epoch": 15.76, "grad_norm": 2.2543482780456543, "learning_rate": 1.6426666666666668e-07, "loss": 0.0353, "step": 59100 }, { "epoch": 15.766666666666667, "grad_norm": 2.286637306213379, "learning_rate": 1.5982222222222222e-07, "loss": 0.0346, "step": 59125 }, { "epoch": 15.773333333333333, "grad_norm": 2.854501485824585, "learning_rate": 1.5537777777777778e-07, "loss": 0.0345, "step": 59150 }, { "epoch": 15.78, "grad_norm": 2.9841978549957275, "learning_rate": 1.5093333333333336e-07, "loss": 0.0375, "step": 59175 }, { "epoch": 15.786666666666667, "grad_norm": 2.9846794605255127, "learning_rate": 1.464888888888889e-07, "loss": 0.034, "step": 59200 }, { "epoch": 15.793333333333333, "grad_norm": 2.7999162673950195, "learning_rate": 1.4204444444444445e-07, "loss": 0.0364, "step": 59225 }, { "epoch": 15.8, "grad_norm": 3.1734230518341064, "learning_rate": 1.3760000000000001e-07, "loss": 0.0396, "step": 59250 }, { "epoch": 15.806666666666667, "grad_norm": 3.432774305343628, "learning_rate": 1.3315555555555557e-07, "loss": 0.0332, "step": 59275 }, { "epoch": 15.813333333333333, "grad_norm": 1.361435890197754, "learning_rate": 1.287111111111111e-07, "loss": 0.0432, "step": 59300 }, { "epoch": 15.82, "grad_norm": 3.266693592071533, "learning_rate": 1.242666666666667e-07, "loss": 0.0433, "step": 59325 }, { "epoch": 15.826666666666666, "grad_norm": 3.4269139766693115, "learning_rate": 1.1982222222222223e-07, "loss": 0.0422, "step": 59350 }, { "epoch": 15.833333333333334, "grad_norm": 2.903153896331787, "learning_rate": 1.1537777777777777e-07, "loss": 0.0395, "step": 59375 }, { "epoch": 15.84, "grad_norm": 2.6565680503845215, "learning_rate": 1.1093333333333335e-07, "loss": 0.0404, "step": 59400 }, { "epoch": 15.846666666666668, "grad_norm": 4.2612409591674805, "learning_rate": 1.064888888888889e-07, "loss": 0.0414, "step": 59425 }, { "epoch": 15.853333333333333, "grad_norm": 3.7936782836914062, "learning_rate": 1.0204444444444445e-07, "loss": 0.039, "step": 59450 }, { "epoch": 15.86, "grad_norm": 3.2231805324554443, "learning_rate": 9.76e-08, "loss": 0.0385, "step": 59475 }, { "epoch": 15.866666666666667, "grad_norm": 3.027538537979126, "learning_rate": 9.315555555555557e-08, "loss": 0.0352, "step": 59500 }, { "epoch": 15.873333333333333, "grad_norm": 3.179180383682251, "learning_rate": 8.871111111111112e-08, "loss": 0.0371, "step": 59525 }, { "epoch": 15.88, "grad_norm": 2.4724042415618896, "learning_rate": 8.426666666666668e-08, "loss": 0.0358, "step": 59550 }, { "epoch": 15.886666666666667, "grad_norm": 3.2249667644500732, "learning_rate": 7.982222222222223e-08, "loss": 0.0329, "step": 59575 }, { "epoch": 15.893333333333333, "grad_norm": 4.364688396453857, "learning_rate": 7.537777777777779e-08, "loss": 0.0374, "step": 59600 }, { "epoch": 15.9, "grad_norm": 3.3513317108154297, "learning_rate": 7.093333333333335e-08, "loss": 0.0339, "step": 59625 }, { "epoch": 15.906666666666666, "grad_norm": 2.2454986572265625, "learning_rate": 6.648888888888889e-08, "loss": 0.0363, "step": 59650 }, { "epoch": 15.913333333333334, "grad_norm": 2.985152006149292, "learning_rate": 6.204444444444445e-08, "loss": 0.0406, "step": 59675 }, { "epoch": 15.92, "grad_norm": 2.2764267921447754, "learning_rate": 5.7600000000000006e-08, "loss": 0.0375, "step": 59700 }, { "epoch": 15.926666666666666, "grad_norm": 3.7787699699401855, "learning_rate": 5.315555555555555e-08, "loss": 0.0394, "step": 59725 }, { "epoch": 15.933333333333334, "grad_norm": 3.6438229084014893, "learning_rate": 4.871111111111111e-08, "loss": 0.0415, "step": 59750 }, { "epoch": 15.94, "grad_norm": 3.1182456016540527, "learning_rate": 4.4266666666666666e-08, "loss": 0.0364, "step": 59775 }, { "epoch": 15.946666666666667, "grad_norm": 2.949204206466675, "learning_rate": 3.9822222222222226e-08, "loss": 0.0343, "step": 59800 }, { "epoch": 15.953333333333333, "grad_norm": 2.3892364501953125, "learning_rate": 3.537777777777778e-08, "loss": 0.0356, "step": 59825 }, { "epoch": 15.96, "grad_norm": 3.385406970977783, "learning_rate": 3.093333333333334e-08, "loss": 0.038, "step": 59850 }, { "epoch": 15.966666666666667, "grad_norm": 3.301732063293457, "learning_rate": 2.6488888888888892e-08, "loss": 0.0373, "step": 59875 }, { "epoch": 15.973333333333333, "grad_norm": 3.0632410049438477, "learning_rate": 2.204444444444445e-08, "loss": 0.0344, "step": 59900 }, { "epoch": 15.98, "grad_norm": 2.698199510574341, "learning_rate": 1.7600000000000002e-08, "loss": 0.0371, "step": 59925 }, { "epoch": 15.986666666666666, "grad_norm": 2.582430839538574, "learning_rate": 1.3155555555555555e-08, "loss": 0.0404, "step": 59950 }, { "epoch": 15.993333333333334, "grad_norm": 2.3595690727233887, "learning_rate": 8.711111111111112e-09, "loss": 0.0423, "step": 59975 }, { "epoch": 16.0, "grad_norm": 2.91009521484375, "learning_rate": 4.266666666666667e-09, "loss": 0.038, "step": 60000 }, { "epoch": 16.0, "eval_cer": 21.07783761623465, "eval_loss": 0.38334381580352783, "eval_runtime": 1226.94, "eval_samples_per_second": 4.075, "eval_steps_per_second": 0.509, "step": 60000 }, { "epoch": 16.006666666666668, "grad_norm": 12.603191375732422, "learning_rate": 3.4782608695652175e-06, "loss": 0.5, "step": 60025 }, { "epoch": 16.013333333333332, "grad_norm": 26.220277786254883, "learning_rate": 3.4754782608695652e-06, "loss": 0.4588, "step": 60050 }, { "epoch": 16.02, "grad_norm": 24.006074905395508, "learning_rate": 3.4725797101449276e-06, "loss": 0.4449, "step": 60075 }, { "epoch": 16.026666666666667, "grad_norm": 15.412711143493652, "learning_rate": 3.46968115942029e-06, "loss": 0.4292, "step": 60100 }, { "epoch": 16.033333333333335, "grad_norm": 15.089048385620117, "learning_rate": 3.4667826086956525e-06, "loss": 0.4623, "step": 60125 }, { "epoch": 16.04, "grad_norm": 19.64060401916504, "learning_rate": 3.463884057971015e-06, "loss": 0.4593, "step": 60150 }, { "epoch": 16.046666666666667, "grad_norm": 15.460622787475586, "learning_rate": 3.4609855072463774e-06, "loss": 0.4709, "step": 60175 }, { "epoch": 16.053333333333335, "grad_norm": 14.530417442321777, "learning_rate": 3.4580869565217394e-06, "loss": 0.4067, "step": 60200 }, { "epoch": 16.06, "grad_norm": 13.560270309448242, "learning_rate": 3.4551884057971018e-06, "loss": 0.4259, "step": 60225 }, { "epoch": 16.066666666666666, "grad_norm": 13.378826141357422, "learning_rate": 3.452289855072464e-06, "loss": 0.4839, "step": 60250 }, { "epoch": 16.073333333333334, "grad_norm": 13.305537223815918, "learning_rate": 3.449507246376812e-06, "loss": 0.4474, "step": 60275 }, { "epoch": 16.08, "grad_norm": 11.625415802001953, "learning_rate": 3.4466086956521743e-06, "loss": 0.4448, "step": 60300 }, { "epoch": 16.086666666666666, "grad_norm": 13.676776885986328, "learning_rate": 3.4437101449275368e-06, "loss": 0.4286, "step": 60325 }, { "epoch": 16.093333333333334, "grad_norm": 14.197468757629395, "learning_rate": 3.4408115942028988e-06, "loss": 0.4488, "step": 60350 }, { "epoch": 16.1, "grad_norm": 13.289754867553711, "learning_rate": 3.4379130434782608e-06, "loss": 0.4191, "step": 60375 }, { "epoch": 16.106666666666666, "grad_norm": 11.833756446838379, "learning_rate": 3.435014492753623e-06, "loss": 0.3994, "step": 60400 }, { "epoch": 16.113333333333333, "grad_norm": 11.341776847839355, "learning_rate": 3.4321159420289856e-06, "loss": 0.4087, "step": 60425 }, { "epoch": 16.12, "grad_norm": 30.375852584838867, "learning_rate": 3.429217391304348e-06, "loss": 0.4317, "step": 60450 }, { "epoch": 16.126666666666665, "grad_norm": 12.533149719238281, "learning_rate": 3.4263188405797105e-06, "loss": 0.4085, "step": 60475 }, { "epoch": 16.133333333333333, "grad_norm": 15.141462326049805, "learning_rate": 3.423420289855073e-06, "loss": 0.3808, "step": 60500 }, { "epoch": 16.14, "grad_norm": 9.886086463928223, "learning_rate": 3.4205217391304353e-06, "loss": 0.3661, "step": 60525 }, { "epoch": 16.14666666666667, "grad_norm": 13.388113021850586, "learning_rate": 3.4176231884057973e-06, "loss": 0.4375, "step": 60550 }, { "epoch": 16.153333333333332, "grad_norm": 11.778800964355469, "learning_rate": 3.4147246376811598e-06, "loss": 0.4166, "step": 60575 }, { "epoch": 16.16, "grad_norm": 11.43904972076416, "learning_rate": 3.411826086956522e-06, "loss": 0.4401, "step": 60600 }, { "epoch": 16.166666666666668, "grad_norm": 10.76333999633789, "learning_rate": 3.408927536231884e-06, "loss": 0.4142, "step": 60625 }, { "epoch": 16.173333333333332, "grad_norm": 12.096492767333984, "learning_rate": 3.4060289855072466e-06, "loss": 0.4, "step": 60650 }, { "epoch": 16.18, "grad_norm": 10.213093757629395, "learning_rate": 3.403130434782609e-06, "loss": 0.4028, "step": 60675 }, { "epoch": 16.186666666666667, "grad_norm": 15.104924201965332, "learning_rate": 3.400231884057971e-06, "loss": 0.3961, "step": 60700 }, { "epoch": 16.19333333333333, "grad_norm": 17.408031463623047, "learning_rate": 3.3973333333333335e-06, "loss": 0.4458, "step": 60725 }, { "epoch": 16.2, "grad_norm": 12.529021263122559, "learning_rate": 3.394434782608696e-06, "loss": 0.3788, "step": 60750 }, { "epoch": 16.206666666666667, "grad_norm": 19.521671295166016, "learning_rate": 3.3915362318840583e-06, "loss": 0.3706, "step": 60775 }, { "epoch": 16.213333333333335, "grad_norm": 15.33114242553711, "learning_rate": 3.3886376811594208e-06, "loss": 0.3836, "step": 60800 }, { "epoch": 16.22, "grad_norm": 14.57197380065918, "learning_rate": 3.385739130434783e-06, "loss": 0.365, "step": 60825 }, { "epoch": 16.226666666666667, "grad_norm": 10.647160530090332, "learning_rate": 3.3828405797101456e-06, "loss": 0.3181, "step": 60850 }, { "epoch": 16.233333333333334, "grad_norm": 11.68134880065918, "learning_rate": 3.379942028985507e-06, "loss": 0.3923, "step": 60875 }, { "epoch": 16.24, "grad_norm": 12.588714599609375, "learning_rate": 3.3770434782608696e-06, "loss": 0.3867, "step": 60900 }, { "epoch": 16.246666666666666, "grad_norm": 13.96943473815918, "learning_rate": 3.374144927536232e-06, "loss": 0.39, "step": 60925 }, { "epoch": 16.253333333333334, "grad_norm": 15.239232063293457, "learning_rate": 3.3712463768115945e-06, "loss": 0.3881, "step": 60950 }, { "epoch": 16.26, "grad_norm": 15.105223655700684, "learning_rate": 3.368347826086957e-06, "loss": 0.3904, "step": 60975 }, { "epoch": 16.266666666666666, "grad_norm": 16.979522705078125, "learning_rate": 3.3654492753623193e-06, "loss": 0.3921, "step": 61000 }, { "epoch": 16.273333333333333, "grad_norm": 13.737335205078125, "learning_rate": 3.3625507246376813e-06, "loss": 0.3795, "step": 61025 }, { "epoch": 16.28, "grad_norm": 13.865876197814941, "learning_rate": 3.3596521739130437e-06, "loss": 0.3694, "step": 61050 }, { "epoch": 16.286666666666665, "grad_norm": 9.503486633300781, "learning_rate": 3.356753623188406e-06, "loss": 0.3816, "step": 61075 }, { "epoch": 16.293333333333333, "grad_norm": 10.314881324768066, "learning_rate": 3.3538550724637686e-06, "loss": 0.3521, "step": 61100 }, { "epoch": 16.3, "grad_norm": 19.382801055908203, "learning_rate": 3.3509565217391306e-06, "loss": 0.3904, "step": 61125 }, { "epoch": 16.306666666666665, "grad_norm": 11.228890419006348, "learning_rate": 3.3480579710144926e-06, "loss": 0.3624, "step": 61150 }, { "epoch": 16.313333333333333, "grad_norm": 10.856505393981934, "learning_rate": 3.345159420289855e-06, "loss": 0.3473, "step": 61175 }, { "epoch": 16.32, "grad_norm": 8.088674545288086, "learning_rate": 3.3422608695652175e-06, "loss": 0.3823, "step": 61200 }, { "epoch": 16.326666666666668, "grad_norm": 25.739543914794922, "learning_rate": 3.33936231884058e-06, "loss": 0.3467, "step": 61225 }, { "epoch": 16.333333333333332, "grad_norm": 11.205744743347168, "learning_rate": 3.3364637681159423e-06, "loss": 0.389, "step": 61250 }, { "epoch": 16.34, "grad_norm": 9.588461875915527, "learning_rate": 3.3335652173913047e-06, "loss": 0.3608, "step": 61275 }, { "epoch": 16.346666666666668, "grad_norm": 15.739933967590332, "learning_rate": 3.330666666666667e-06, "loss": 0.362, "step": 61300 }, { "epoch": 16.35333333333333, "grad_norm": 12.671658515930176, "learning_rate": 3.3277681159420296e-06, "loss": 0.3982, "step": 61325 }, { "epoch": 16.36, "grad_norm": 12.803893089294434, "learning_rate": 3.3248695652173916e-06, "loss": 0.3558, "step": 61350 }, { "epoch": 16.366666666666667, "grad_norm": 11.233647346496582, "learning_rate": 3.321971014492754e-06, "loss": 0.3706, "step": 61375 }, { "epoch": 16.373333333333335, "grad_norm": 12.1945219039917, "learning_rate": 3.319072463768116e-06, "loss": 0.3497, "step": 61400 }, { "epoch": 16.38, "grad_norm": 15.96575927734375, "learning_rate": 3.3161739130434784e-06, "loss": 0.3799, "step": 61425 }, { "epoch": 16.386666666666667, "grad_norm": 10.433449745178223, "learning_rate": 3.313275362318841e-06, "loss": 0.3633, "step": 61450 }, { "epoch": 16.393333333333334, "grad_norm": 9.822397232055664, "learning_rate": 3.3103768115942033e-06, "loss": 0.3637, "step": 61475 }, { "epoch": 16.4, "grad_norm": 22.88064193725586, "learning_rate": 3.3074782608695653e-06, "loss": 0.3795, "step": 61500 }, { "epoch": 16.406666666666666, "grad_norm": 20.568777084350586, "learning_rate": 3.3045797101449277e-06, "loss": 0.3499, "step": 61525 }, { "epoch": 16.413333333333334, "grad_norm": 13.736906051635742, "learning_rate": 3.30168115942029e-06, "loss": 0.3448, "step": 61550 }, { "epoch": 16.42, "grad_norm": 12.84239673614502, "learning_rate": 3.2987826086956526e-06, "loss": 0.3102, "step": 61575 }, { "epoch": 16.426666666666666, "grad_norm": 12.846684455871582, "learning_rate": 3.295884057971015e-06, "loss": 0.3363, "step": 61600 }, { "epoch": 16.433333333333334, "grad_norm": 22.667129516601562, "learning_rate": 3.2929855072463774e-06, "loss": 0.3572, "step": 61625 }, { "epoch": 16.44, "grad_norm": 10.809124946594238, "learning_rate": 3.290086956521739e-06, "loss": 0.3791, "step": 61650 }, { "epoch": 16.446666666666665, "grad_norm": 12.235489845275879, "learning_rate": 3.2871884057971014e-06, "loss": 0.3219, "step": 61675 }, { "epoch": 16.453333333333333, "grad_norm": 12.96630573272705, "learning_rate": 3.284289855072464e-06, "loss": 0.3294, "step": 61700 }, { "epoch": 16.46, "grad_norm": 8.809037208557129, "learning_rate": 3.2813913043478263e-06, "loss": 0.3499, "step": 61725 }, { "epoch": 16.466666666666665, "grad_norm": 11.357975959777832, "learning_rate": 3.2784927536231887e-06, "loss": 0.3773, "step": 61750 }, { "epoch": 16.473333333333333, "grad_norm": 17.697307586669922, "learning_rate": 3.275594202898551e-06, "loss": 0.3806, "step": 61775 }, { "epoch": 16.48, "grad_norm": 12.84277057647705, "learning_rate": 3.2726956521739136e-06, "loss": 0.3623, "step": 61800 }, { "epoch": 16.486666666666668, "grad_norm": 11.642999649047852, "learning_rate": 3.2697971014492756e-06, "loss": 0.3343, "step": 61825 }, { "epoch": 16.493333333333332, "grad_norm": 10.458476066589355, "learning_rate": 3.266898550724638e-06, "loss": 0.3176, "step": 61850 }, { "epoch": 16.5, "grad_norm": 6.160272121429443, "learning_rate": 3.2640000000000004e-06, "loss": 0.3523, "step": 61875 }, { "epoch": 16.506666666666668, "grad_norm": 10.667886734008789, "learning_rate": 3.2611014492753624e-06, "loss": 0.3269, "step": 61900 }, { "epoch": 16.513333333333332, "grad_norm": 11.422414779663086, "learning_rate": 3.258202898550725e-06, "loss": 0.3509, "step": 61925 }, { "epoch": 16.52, "grad_norm": 18.388748168945312, "learning_rate": 3.255304347826087e-06, "loss": 0.362, "step": 61950 }, { "epoch": 16.526666666666667, "grad_norm": 9.321861267089844, "learning_rate": 3.2524057971014493e-06, "loss": 0.3421, "step": 61975 }, { "epoch": 16.533333333333335, "grad_norm": 9.263145446777344, "learning_rate": 3.2495072463768117e-06, "loss": 0.3289, "step": 62000 }, { "epoch": 16.54, "grad_norm": 12.675254821777344, "learning_rate": 3.246608695652174e-06, "loss": 0.3386, "step": 62025 }, { "epoch": 16.546666666666667, "grad_norm": 18.207435607910156, "learning_rate": 3.2437101449275366e-06, "loss": 0.3266, "step": 62050 }, { "epoch": 16.553333333333335, "grad_norm": 10.457033157348633, "learning_rate": 3.240811594202899e-06, "loss": 0.3805, "step": 62075 }, { "epoch": 16.56, "grad_norm": 12.5867338180542, "learning_rate": 3.2379130434782614e-06, "loss": 0.3303, "step": 62100 }, { "epoch": 16.566666666666666, "grad_norm": 7.7618536949157715, "learning_rate": 3.235014492753624e-06, "loss": 0.3431, "step": 62125 }, { "epoch": 16.573333333333334, "grad_norm": 12.355062484741211, "learning_rate": 3.232115942028986e-06, "loss": 0.3618, "step": 62150 }, { "epoch": 16.58, "grad_norm": 14.622355461120605, "learning_rate": 3.229217391304348e-06, "loss": 0.358, "step": 62175 }, { "epoch": 16.586666666666666, "grad_norm": 12.969122886657715, "learning_rate": 3.2263188405797103e-06, "loss": 0.3296, "step": 62200 }, { "epoch": 16.593333333333334, "grad_norm": 11.245667457580566, "learning_rate": 3.2234202898550727e-06, "loss": 0.3529, "step": 62225 }, { "epoch": 16.6, "grad_norm": 14.432270050048828, "learning_rate": 3.220521739130435e-06, "loss": 0.29, "step": 62250 }, { "epoch": 16.606666666666666, "grad_norm": 12.276623725891113, "learning_rate": 3.2176231884057976e-06, "loss": 0.3434, "step": 62275 }, { "epoch": 16.613333333333333, "grad_norm": 11.258403778076172, "learning_rate": 3.2147246376811596e-06, "loss": 0.3449, "step": 62300 }, { "epoch": 16.62, "grad_norm": 8.316500663757324, "learning_rate": 3.211826086956522e-06, "loss": 0.3066, "step": 62325 }, { "epoch": 16.626666666666665, "grad_norm": 11.204299926757812, "learning_rate": 3.2089275362318844e-06, "loss": 0.3299, "step": 62350 }, { "epoch": 16.633333333333333, "grad_norm": 11.092000961303711, "learning_rate": 3.206028985507247e-06, "loss": 0.3474, "step": 62375 }, { "epoch": 16.64, "grad_norm": 12.317147254943848, "learning_rate": 3.2031304347826093e-06, "loss": 0.3539, "step": 62400 }, { "epoch": 16.64666666666667, "grad_norm": 11.110230445861816, "learning_rate": 3.200231884057971e-06, "loss": 0.3501, "step": 62425 }, { "epoch": 16.653333333333332, "grad_norm": 8.013381004333496, "learning_rate": 3.1973333333333333e-06, "loss": 0.315, "step": 62450 }, { "epoch": 16.66, "grad_norm": 8.12808895111084, "learning_rate": 3.1944347826086957e-06, "loss": 0.3756, "step": 62475 }, { "epoch": 16.666666666666668, "grad_norm": 8.59846305847168, "learning_rate": 3.191536231884058e-06, "loss": 0.3323, "step": 62500 }, { "epoch": 16.673333333333332, "grad_norm": 12.345532417297363, "learning_rate": 3.1886376811594205e-06, "loss": 0.3577, "step": 62525 }, { "epoch": 16.68, "grad_norm": 13.48918342590332, "learning_rate": 3.185739130434783e-06, "loss": 0.3364, "step": 62550 }, { "epoch": 16.686666666666667, "grad_norm": 10.469870567321777, "learning_rate": 3.1828405797101454e-06, "loss": 0.3488, "step": 62575 }, { "epoch": 16.693333333333335, "grad_norm": 11.428979873657227, "learning_rate": 3.179942028985508e-06, "loss": 0.3158, "step": 62600 }, { "epoch": 16.7, "grad_norm": 8.1561861038208, "learning_rate": 3.17704347826087e-06, "loss": 0.2837, "step": 62625 }, { "epoch": 16.706666666666667, "grad_norm": 13.835701942443848, "learning_rate": 3.1741449275362323e-06, "loss": 0.3434, "step": 62650 }, { "epoch": 16.713333333333335, "grad_norm": 14.294336318969727, "learning_rate": 3.1712463768115943e-06, "loss": 0.3247, "step": 62675 }, { "epoch": 16.72, "grad_norm": 12.452777862548828, "learning_rate": 3.1683478260869567e-06, "loss": 0.3107, "step": 62700 }, { "epoch": 16.726666666666667, "grad_norm": 9.689085960388184, "learning_rate": 3.165449275362319e-06, "loss": 0.3389, "step": 62725 }, { "epoch": 16.733333333333334, "grad_norm": 10.694991111755371, "learning_rate": 3.162550724637681e-06, "loss": 0.3387, "step": 62750 }, { "epoch": 16.74, "grad_norm": 10.326107025146484, "learning_rate": 3.1596521739130435e-06, "loss": 0.3012, "step": 62775 }, { "epoch": 16.746666666666666, "grad_norm": 11.417766571044922, "learning_rate": 3.156753623188406e-06, "loss": 0.3293, "step": 62800 }, { "epoch": 16.753333333333334, "grad_norm": 8.904004096984863, "learning_rate": 3.1538550724637684e-06, "loss": 0.3049, "step": 62825 }, { "epoch": 16.76, "grad_norm": 8.257163047790527, "learning_rate": 3.150956521739131e-06, "loss": 0.3083, "step": 62850 }, { "epoch": 16.766666666666666, "grad_norm": 9.609798431396484, "learning_rate": 3.1480579710144932e-06, "loss": 0.3199, "step": 62875 }, { "epoch": 16.773333333333333, "grad_norm": 12.220376014709473, "learning_rate": 3.1451594202898557e-06, "loss": 0.3389, "step": 62900 }, { "epoch": 16.78, "grad_norm": 7.976347923278809, "learning_rate": 3.142260869565218e-06, "loss": 0.375, "step": 62925 }, { "epoch": 16.786666666666665, "grad_norm": 12.805871963500977, "learning_rate": 3.1393623188405797e-06, "loss": 0.3178, "step": 62950 }, { "epoch": 16.793333333333333, "grad_norm": 11.532859802246094, "learning_rate": 3.136463768115942e-06, "loss": 0.3446, "step": 62975 }, { "epoch": 16.8, "grad_norm": 9.740991592407227, "learning_rate": 3.1335652173913045e-06, "loss": 0.3185, "step": 63000 }, { "epoch": 16.806666666666665, "grad_norm": 21.959545135498047, "learning_rate": 3.130666666666667e-06, "loss": 0.3487, "step": 63025 }, { "epoch": 16.813333333333333, "grad_norm": 9.925387382507324, "learning_rate": 3.1277681159420294e-06, "loss": 0.3047, "step": 63050 }, { "epoch": 16.82, "grad_norm": 8.374371528625488, "learning_rate": 3.1248695652173914e-06, "loss": 0.3077, "step": 63075 }, { "epoch": 16.826666666666668, "grad_norm": 9.607650756835938, "learning_rate": 3.121971014492754e-06, "loss": 0.3344, "step": 63100 }, { "epoch": 16.833333333333332, "grad_norm": 11.315743446350098, "learning_rate": 3.1190724637681162e-06, "loss": 0.3238, "step": 63125 }, { "epoch": 16.84, "grad_norm": 10.685150146484375, "learning_rate": 3.1161739130434787e-06, "loss": 0.3304, "step": 63150 }, { "epoch": 16.846666666666668, "grad_norm": 8.275846481323242, "learning_rate": 3.113275362318841e-06, "loss": 0.3169, "step": 63175 }, { "epoch": 16.85333333333333, "grad_norm": 11.317325592041016, "learning_rate": 3.110376811594203e-06, "loss": 0.2968, "step": 63200 }, { "epoch": 16.86, "grad_norm": 9.074248313903809, "learning_rate": 3.107478260869565e-06, "loss": 0.274, "step": 63225 }, { "epoch": 16.866666666666667, "grad_norm": 11.76094913482666, "learning_rate": 3.1045797101449275e-06, "loss": 0.336, "step": 63250 }, { "epoch": 16.873333333333335, "grad_norm": 15.182976722717285, "learning_rate": 3.10168115942029e-06, "loss": 0.3478, "step": 63275 }, { "epoch": 16.88, "grad_norm": 10.89766788482666, "learning_rate": 3.0987826086956524e-06, "loss": 0.334, "step": 63300 }, { "epoch": 16.886666666666667, "grad_norm": 17.47209358215332, "learning_rate": 3.095884057971015e-06, "loss": 0.2966, "step": 63325 }, { "epoch": 16.893333333333334, "grad_norm": 8.01124095916748, "learning_rate": 3.0929855072463772e-06, "loss": 0.2854, "step": 63350 }, { "epoch": 16.9, "grad_norm": 6.976848125457764, "learning_rate": 3.0900869565217397e-06, "loss": 0.3193, "step": 63375 }, { "epoch": 16.906666666666666, "grad_norm": 8.727556228637695, "learning_rate": 3.087188405797102e-06, "loss": 0.3312, "step": 63400 }, { "epoch": 16.913333333333334, "grad_norm": 10.189740180969238, "learning_rate": 3.084289855072464e-06, "loss": 0.3118, "step": 63425 }, { "epoch": 16.92, "grad_norm": 9.633515357971191, "learning_rate": 3.081391304347826e-06, "loss": 0.2931, "step": 63450 }, { "epoch": 16.926666666666666, "grad_norm": 11.828194618225098, "learning_rate": 3.0784927536231885e-06, "loss": 0.2941, "step": 63475 }, { "epoch": 16.933333333333334, "grad_norm": 9.940781593322754, "learning_rate": 3.075594202898551e-06, "loss": 0.333, "step": 63500 }, { "epoch": 16.94, "grad_norm": 8.846120834350586, "learning_rate": 3.0726956521739134e-06, "loss": 0.3155, "step": 63525 }, { "epoch": 16.946666666666665, "grad_norm": 11.141220092773438, "learning_rate": 3.0697971014492754e-06, "loss": 0.3233, "step": 63550 }, { "epoch": 16.953333333333333, "grad_norm": 10.505654335021973, "learning_rate": 3.066898550724638e-06, "loss": 0.2894, "step": 63575 }, { "epoch": 16.96, "grad_norm": 14.999916076660156, "learning_rate": 3.0640000000000002e-06, "loss": 0.2953, "step": 63600 }, { "epoch": 16.966666666666665, "grad_norm": 9.499774932861328, "learning_rate": 3.0611014492753627e-06, "loss": 0.3284, "step": 63625 }, { "epoch": 16.973333333333333, "grad_norm": 8.670576095581055, "learning_rate": 3.058202898550725e-06, "loss": 0.314, "step": 63650 }, { "epoch": 16.98, "grad_norm": 7.442385673522949, "learning_rate": 3.0553043478260875e-06, "loss": 0.3041, "step": 63675 }, { "epoch": 16.986666666666668, "grad_norm": 9.814099311828613, "learning_rate": 3.05240579710145e-06, "loss": 0.3122, "step": 63700 }, { "epoch": 16.993333333333332, "grad_norm": 8.100800514221191, "learning_rate": 3.0495072463768115e-06, "loss": 0.3177, "step": 63725 }, { "epoch": 17.0, "grad_norm": 9.731995582580566, "learning_rate": 3.046608695652174e-06, "loss": 0.2982, "step": 63750 }, { "epoch": 17.0, "eval_cer": 24.521551161880627, "eval_loss": 0.41889092326164246, "eval_runtime": 1316.6077, "eval_samples_per_second": 3.798, "eval_steps_per_second": 0.475, "step": 63750 }, { "epoch": 17.006666666666668, "grad_norm": 7.4149017333984375, "learning_rate": 3.0437101449275364e-06, "loss": 0.2232, "step": 63775 }, { "epoch": 17.013333333333332, "grad_norm": 6.084530353546143, "learning_rate": 3.040811594202899e-06, "loss": 0.2205, "step": 63800 }, { "epoch": 17.02, "grad_norm": 8.940268516540527, "learning_rate": 3.0379130434782612e-06, "loss": 0.2388, "step": 63825 }, { "epoch": 17.026666666666667, "grad_norm": 9.40827751159668, "learning_rate": 3.0350144927536236e-06, "loss": 0.2481, "step": 63850 }, { "epoch": 17.033333333333335, "grad_norm": 9.871691703796387, "learning_rate": 3.0321159420289856e-06, "loss": 0.2511, "step": 63875 }, { "epoch": 17.04, "grad_norm": 8.332009315490723, "learning_rate": 3.029217391304348e-06, "loss": 0.2379, "step": 63900 }, { "epoch": 17.046666666666667, "grad_norm": 9.083428382873535, "learning_rate": 3.0263188405797105e-06, "loss": 0.2043, "step": 63925 }, { "epoch": 17.053333333333335, "grad_norm": 8.448373794555664, "learning_rate": 3.023420289855073e-06, "loss": 0.2595, "step": 63950 }, { "epoch": 17.06, "grad_norm": 6.862173557281494, "learning_rate": 3.020521739130435e-06, "loss": 0.2339, "step": 63975 }, { "epoch": 17.066666666666666, "grad_norm": 9.637371063232422, "learning_rate": 3.0176231884057974e-06, "loss": 0.2288, "step": 64000 }, { "epoch": 17.073333333333334, "grad_norm": 7.632717609405518, "learning_rate": 3.0147246376811594e-06, "loss": 0.247, "step": 64025 }, { "epoch": 17.08, "grad_norm": 6.939701557159424, "learning_rate": 3.0118260869565218e-06, "loss": 0.2218, "step": 64050 }, { "epoch": 17.086666666666666, "grad_norm": 7.217219352722168, "learning_rate": 3.008927536231884e-06, "loss": 0.2295, "step": 64075 }, { "epoch": 17.093333333333334, "grad_norm": 6.429445266723633, "learning_rate": 3.0060289855072466e-06, "loss": 0.2365, "step": 64100 }, { "epoch": 17.1, "grad_norm": 10.018956184387207, "learning_rate": 3.003130434782609e-06, "loss": 0.2089, "step": 64125 }, { "epoch": 17.106666666666666, "grad_norm": 7.571047782897949, "learning_rate": 3.0002318840579715e-06, "loss": 0.2138, "step": 64150 }, { "epoch": 17.113333333333333, "grad_norm": 6.286115646362305, "learning_rate": 2.997333333333334e-06, "loss": 0.2094, "step": 64175 }, { "epoch": 17.12, "grad_norm": 6.882582664489746, "learning_rate": 2.9944347826086963e-06, "loss": 0.2349, "step": 64200 }, { "epoch": 17.126666666666665, "grad_norm": 7.788807392120361, "learning_rate": 2.991536231884058e-06, "loss": 0.2427, "step": 64225 }, { "epoch": 17.133333333333333, "grad_norm": 8.124650001525879, "learning_rate": 2.9886376811594203e-06, "loss": 0.2534, "step": 64250 }, { "epoch": 17.14, "grad_norm": 9.512497901916504, "learning_rate": 2.9857391304347828e-06, "loss": 0.2503, "step": 64275 }, { "epoch": 17.14666666666667, "grad_norm": 9.255049705505371, "learning_rate": 2.982840579710145e-06, "loss": 0.2274, "step": 64300 }, { "epoch": 17.153333333333332, "grad_norm": 9.28785228729248, "learning_rate": 2.9799420289855076e-06, "loss": 0.2281, "step": 64325 }, { "epoch": 17.16, "grad_norm": 11.223349571228027, "learning_rate": 2.9770434782608696e-06, "loss": 0.2395, "step": 64350 }, { "epoch": 17.166666666666668, "grad_norm": 9.348434448242188, "learning_rate": 2.9742608695652173e-06, "loss": 0.2437, "step": 64375 }, { "epoch": 17.173333333333332, "grad_norm": 8.23086929321289, "learning_rate": 2.9713623188405798e-06, "loss": 0.2077, "step": 64400 }, { "epoch": 17.18, "grad_norm": 6.546560287475586, "learning_rate": 2.968463768115942e-06, "loss": 0.2083, "step": 64425 }, { "epoch": 17.186666666666667, "grad_norm": 9.441903114318848, "learning_rate": 2.9655652173913046e-06, "loss": 0.2313, "step": 64450 }, { "epoch": 17.19333333333333, "grad_norm": 8.3627290725708, "learning_rate": 2.962666666666667e-06, "loss": 0.2416, "step": 64475 }, { "epoch": 17.2, "grad_norm": 14.613240242004395, "learning_rate": 2.9597681159420295e-06, "loss": 0.2418, "step": 64500 }, { "epoch": 17.206666666666667, "grad_norm": 8.646759986877441, "learning_rate": 2.956869565217392e-06, "loss": 0.2136, "step": 64525 }, { "epoch": 17.213333333333335, "grad_norm": 7.347033500671387, "learning_rate": 2.9539710144927543e-06, "loss": 0.2221, "step": 64550 }, { "epoch": 17.22, "grad_norm": 10.52723503112793, "learning_rate": 2.951072463768116e-06, "loss": 0.2252, "step": 64575 }, { "epoch": 17.226666666666667, "grad_norm": 9.034078598022461, "learning_rate": 2.9481739130434783e-06, "loss": 0.2419, "step": 64600 }, { "epoch": 17.233333333333334, "grad_norm": 8.091407775878906, "learning_rate": 2.9452753623188408e-06, "loss": 0.2136, "step": 64625 }, { "epoch": 17.24, "grad_norm": 6.951664447784424, "learning_rate": 2.942376811594203e-06, "loss": 0.2132, "step": 64650 }, { "epoch": 17.246666666666666, "grad_norm": 8.208170890808105, "learning_rate": 2.9394782608695656e-06, "loss": 0.2443, "step": 64675 }, { "epoch": 17.253333333333334, "grad_norm": 8.68701171875, "learning_rate": 2.9365797101449276e-06, "loss": 0.2287, "step": 64700 }, { "epoch": 17.26, "grad_norm": 21.894014358520508, "learning_rate": 2.93368115942029e-06, "loss": 0.2133, "step": 64725 }, { "epoch": 17.266666666666666, "grad_norm": 7.384157180786133, "learning_rate": 2.9307826086956525e-06, "loss": 0.2254, "step": 64750 }, { "epoch": 17.273333333333333, "grad_norm": 14.327505111694336, "learning_rate": 2.927884057971015e-06, "loss": 0.2263, "step": 64775 }, { "epoch": 17.28, "grad_norm": 10.773615837097168, "learning_rate": 2.9249855072463773e-06, "loss": 0.2175, "step": 64800 }, { "epoch": 17.286666666666665, "grad_norm": 8.418234825134277, "learning_rate": 2.9220869565217393e-06, "loss": 0.2326, "step": 64825 }, { "epoch": 17.293333333333333, "grad_norm": 9.19333553314209, "learning_rate": 2.9191884057971013e-06, "loss": 0.2183, "step": 64850 }, { "epoch": 17.3, "grad_norm": 9.392754554748535, "learning_rate": 2.9162898550724637e-06, "loss": 0.2326, "step": 64875 }, { "epoch": 17.306666666666665, "grad_norm": 12.090206146240234, "learning_rate": 2.913391304347826e-06, "loss": 0.2421, "step": 64900 }, { "epoch": 17.313333333333333, "grad_norm": 8.299599647521973, "learning_rate": 2.9104927536231886e-06, "loss": 0.223, "step": 64925 }, { "epoch": 17.32, "grad_norm": 6.74159049987793, "learning_rate": 2.907594202898551e-06, "loss": 0.2502, "step": 64950 }, { "epoch": 17.326666666666668, "grad_norm": 8.792173385620117, "learning_rate": 2.9046956521739135e-06, "loss": 0.2279, "step": 64975 }, { "epoch": 17.333333333333332, "grad_norm": 9.128717422485352, "learning_rate": 2.901797101449276e-06, "loss": 0.2226, "step": 65000 }, { "epoch": 17.34, "grad_norm": 9.718344688415527, "learning_rate": 2.8988985507246383e-06, "loss": 0.2337, "step": 65025 }, { "epoch": 17.346666666666668, "grad_norm": 9.39022159576416, "learning_rate": 2.8960000000000003e-06, "loss": 0.2111, "step": 65050 }, { "epoch": 17.35333333333333, "grad_norm": 7.802210807800293, "learning_rate": 2.8931014492753623e-06, "loss": 0.2178, "step": 65075 }, { "epoch": 17.36, "grad_norm": 9.154411315917969, "learning_rate": 2.8902028985507247e-06, "loss": 0.2535, "step": 65100 }, { "epoch": 17.366666666666667, "grad_norm": 10.073277473449707, "learning_rate": 2.887304347826087e-06, "loss": 0.2148, "step": 65125 }, { "epoch": 17.373333333333335, "grad_norm": 10.998878479003906, "learning_rate": 2.8844057971014496e-06, "loss": 0.2277, "step": 65150 }, { "epoch": 17.38, "grad_norm": 9.394332885742188, "learning_rate": 2.8815072463768116e-06, "loss": 0.2289, "step": 65175 }, { "epoch": 17.386666666666667, "grad_norm": 8.00401496887207, "learning_rate": 2.878608695652174e-06, "loss": 0.2065, "step": 65200 }, { "epoch": 17.393333333333334, "grad_norm": 9.364763259887695, "learning_rate": 2.8757101449275364e-06, "loss": 0.2193, "step": 65225 }, { "epoch": 17.4, "grad_norm": 7.654721736907959, "learning_rate": 2.872811594202899e-06, "loss": 0.231, "step": 65250 }, { "epoch": 17.406666666666666, "grad_norm": 6.514430999755859, "learning_rate": 2.8699130434782613e-06, "loss": 0.2571, "step": 65275 }, { "epoch": 17.413333333333334, "grad_norm": 8.727154731750488, "learning_rate": 2.8670144927536237e-06, "loss": 0.228, "step": 65300 }, { "epoch": 17.42, "grad_norm": 7.328795909881592, "learning_rate": 2.864115942028986e-06, "loss": 0.2221, "step": 65325 }, { "epoch": 17.426666666666666, "grad_norm": 7.450443744659424, "learning_rate": 2.8612173913043477e-06, "loss": 0.2434, "step": 65350 }, { "epoch": 17.433333333333334, "grad_norm": 8.849776268005371, "learning_rate": 2.85831884057971e-06, "loss": 0.2281, "step": 65375 }, { "epoch": 17.44, "grad_norm": 12.384866714477539, "learning_rate": 2.8554202898550726e-06, "loss": 0.2372, "step": 65400 }, { "epoch": 17.446666666666665, "grad_norm": 11.37934398651123, "learning_rate": 2.852521739130435e-06, "loss": 0.215, "step": 65425 }, { "epoch": 17.453333333333333, "grad_norm": 8.190671920776367, "learning_rate": 2.8496231884057974e-06, "loss": 0.213, "step": 65450 }, { "epoch": 17.46, "grad_norm": 9.186762809753418, "learning_rate": 2.84672463768116e-06, "loss": 0.2436, "step": 65475 }, { "epoch": 17.466666666666665, "grad_norm": 8.525147438049316, "learning_rate": 2.843826086956522e-06, "loss": 0.2517, "step": 65500 }, { "epoch": 17.473333333333333, "grad_norm": 8.515225410461426, "learning_rate": 2.8409275362318843e-06, "loss": 0.2396, "step": 65525 }, { "epoch": 17.48, "grad_norm": 9.37739372253418, "learning_rate": 2.8380289855072467e-06, "loss": 0.2231, "step": 65550 }, { "epoch": 17.486666666666668, "grad_norm": 6.061899185180664, "learning_rate": 2.835130434782609e-06, "loss": 0.2118, "step": 65575 }, { "epoch": 17.493333333333332, "grad_norm": 8.390501022338867, "learning_rate": 2.832231884057971e-06, "loss": 0.1912, "step": 65600 }, { "epoch": 17.5, "grad_norm": 9.888509750366211, "learning_rate": 2.8293333333333336e-06, "loss": 0.2381, "step": 65625 }, { "epoch": 17.506666666666668, "grad_norm": 8.435935020446777, "learning_rate": 2.8264347826086956e-06, "loss": 0.2299, "step": 65650 }, { "epoch": 17.513333333333332, "grad_norm": 8.045064926147461, "learning_rate": 2.823536231884058e-06, "loss": 0.2268, "step": 65675 }, { "epoch": 17.52, "grad_norm": 8.329983711242676, "learning_rate": 2.8206376811594204e-06, "loss": 0.1981, "step": 65700 }, { "epoch": 17.526666666666667, "grad_norm": 9.55882453918457, "learning_rate": 2.817739130434783e-06, "loss": 0.224, "step": 65725 }, { "epoch": 17.533333333333335, "grad_norm": 8.156045913696289, "learning_rate": 2.8148405797101453e-06, "loss": 0.2319, "step": 65750 }, { "epoch": 17.54, "grad_norm": 8.719740867614746, "learning_rate": 2.8119420289855077e-06, "loss": 0.2281, "step": 65775 }, { "epoch": 17.546666666666667, "grad_norm": 7.793760299682617, "learning_rate": 2.80904347826087e-06, "loss": 0.2191, "step": 65800 }, { "epoch": 17.553333333333335, "grad_norm": 8.177311897277832, "learning_rate": 2.8061449275362326e-06, "loss": 0.2019, "step": 65825 }, { "epoch": 17.56, "grad_norm": 8.62492847442627, "learning_rate": 2.803246376811594e-06, "loss": 0.2208, "step": 65850 }, { "epoch": 17.566666666666666, "grad_norm": 12.408682823181152, "learning_rate": 2.8003478260869566e-06, "loss": 0.2249, "step": 65875 }, { "epoch": 17.573333333333334, "grad_norm": 7.58404016494751, "learning_rate": 2.797449275362319e-06, "loss": 0.2478, "step": 65900 }, { "epoch": 17.58, "grad_norm": 8.284804344177246, "learning_rate": 2.7945507246376814e-06, "loss": 0.2315, "step": 65925 }, { "epoch": 17.586666666666666, "grad_norm": 7.525731086730957, "learning_rate": 2.791652173913044e-06, "loss": 0.2527, "step": 65950 }, { "epoch": 17.593333333333334, "grad_norm": 7.1953654289245605, "learning_rate": 2.788753623188406e-06, "loss": 0.2458, "step": 65975 }, { "epoch": 17.6, "grad_norm": 7.869349479675293, "learning_rate": 2.7858550724637683e-06, "loss": 0.2282, "step": 66000 }, { "epoch": 17.606666666666666, "grad_norm": 5.570988178253174, "learning_rate": 2.7829565217391307e-06, "loss": 0.1929, "step": 66025 }, { "epoch": 17.613333333333333, "grad_norm": 7.634885311126709, "learning_rate": 2.780057971014493e-06, "loss": 0.2035, "step": 66050 }, { "epoch": 17.62, "grad_norm": 7.965935707092285, "learning_rate": 2.7771594202898556e-06, "loss": 0.1995, "step": 66075 }, { "epoch": 17.626666666666665, "grad_norm": 8.703192710876465, "learning_rate": 2.774260869565218e-06, "loss": 0.2122, "step": 66100 }, { "epoch": 17.633333333333333, "grad_norm": 8.442756652832031, "learning_rate": 2.7713623188405796e-06, "loss": 0.2192, "step": 66125 }, { "epoch": 17.64, "grad_norm": 11.146180152893066, "learning_rate": 2.768463768115942e-06, "loss": 0.2253, "step": 66150 }, { "epoch": 17.64666666666667, "grad_norm": 7.330039978027344, "learning_rate": 2.7655652173913044e-06, "loss": 0.2225, "step": 66175 }, { "epoch": 17.653333333333332, "grad_norm": 8.690984725952148, "learning_rate": 2.762666666666667e-06, "loss": 0.2325, "step": 66200 }, { "epoch": 17.66, "grad_norm": 11.292533874511719, "learning_rate": 2.7597681159420293e-06, "loss": 0.2128, "step": 66225 }, { "epoch": 17.666666666666668, "grad_norm": 8.63046646118164, "learning_rate": 2.7568695652173917e-06, "loss": 0.227, "step": 66250 }, { "epoch": 17.673333333333332, "grad_norm": 10.479477882385254, "learning_rate": 2.753971014492754e-06, "loss": 0.2454, "step": 66275 }, { "epoch": 17.68, "grad_norm": 9.853337287902832, "learning_rate": 2.751072463768116e-06, "loss": 0.2304, "step": 66300 }, { "epoch": 17.686666666666667, "grad_norm": 8.546442031860352, "learning_rate": 2.7481739130434785e-06, "loss": 0.2057, "step": 66325 }, { "epoch": 17.693333333333335, "grad_norm": 7.8675761222839355, "learning_rate": 2.745275362318841e-06, "loss": 0.2304, "step": 66350 }, { "epoch": 17.7, "grad_norm": 6.994541645050049, "learning_rate": 2.742376811594203e-06, "loss": 0.2008, "step": 66375 }, { "epoch": 17.706666666666667, "grad_norm": 12.96716022491455, "learning_rate": 2.7394782608695654e-06, "loss": 0.233, "step": 66400 }, { "epoch": 17.713333333333335, "grad_norm": 8.323466300964355, "learning_rate": 2.736579710144928e-06, "loss": 0.2238, "step": 66425 }, { "epoch": 17.72, "grad_norm": 10.07583236694336, "learning_rate": 2.73368115942029e-06, "loss": 0.2056, "step": 66450 }, { "epoch": 17.726666666666667, "grad_norm": 6.935333251953125, "learning_rate": 2.7307826086956523e-06, "loss": 0.2025, "step": 66475 }, { "epoch": 17.733333333333334, "grad_norm": 10.15418815612793, "learning_rate": 2.7278840579710147e-06, "loss": 0.2197, "step": 66500 }, { "epoch": 17.74, "grad_norm": 7.850531101226807, "learning_rate": 2.724985507246377e-06, "loss": 0.2142, "step": 66525 }, { "epoch": 17.746666666666666, "grad_norm": 9.524252891540527, "learning_rate": 2.7220869565217395e-06, "loss": 0.2043, "step": 66550 }, { "epoch": 17.753333333333334, "grad_norm": 7.896855354309082, "learning_rate": 2.719188405797102e-06, "loss": 0.201, "step": 66575 }, { "epoch": 17.76, "grad_norm": 7.949673175811768, "learning_rate": 2.7162898550724644e-06, "loss": 0.2324, "step": 66600 }, { "epoch": 17.766666666666666, "grad_norm": 8.009665489196777, "learning_rate": 2.713391304347826e-06, "loss": 0.2329, "step": 66625 }, { "epoch": 17.773333333333333, "grad_norm": 8.919403076171875, "learning_rate": 2.7104927536231884e-06, "loss": 0.197, "step": 66650 }, { "epoch": 17.78, "grad_norm": 7.466032981872559, "learning_rate": 2.707594202898551e-06, "loss": 0.2294, "step": 66675 }, { "epoch": 17.786666666666665, "grad_norm": 6.954080104827881, "learning_rate": 2.7046956521739133e-06, "loss": 0.225, "step": 66700 }, { "epoch": 17.793333333333333, "grad_norm": 7.897799968719482, "learning_rate": 2.7017971014492757e-06, "loss": 0.2158, "step": 66725 }, { "epoch": 17.8, "grad_norm": 9.875950813293457, "learning_rate": 2.698898550724638e-06, "loss": 0.2194, "step": 66750 }, { "epoch": 17.806666666666665, "grad_norm": 7.291459560394287, "learning_rate": 2.696e-06, "loss": 0.2181, "step": 66775 }, { "epoch": 17.813333333333333, "grad_norm": 6.752727031707764, "learning_rate": 2.6931014492753625e-06, "loss": 0.2064, "step": 66800 }, { "epoch": 17.82, "grad_norm": 7.446840286254883, "learning_rate": 2.690202898550725e-06, "loss": 0.2315, "step": 66825 }, { "epoch": 17.826666666666668, "grad_norm": 7.7749481201171875, "learning_rate": 2.6873043478260874e-06, "loss": 0.2062, "step": 66850 }, { "epoch": 17.833333333333332, "grad_norm": 9.417501449584961, "learning_rate": 2.6844057971014494e-06, "loss": 0.2269, "step": 66875 }, { "epoch": 17.84, "grad_norm": 7.812014102935791, "learning_rate": 2.6815072463768114e-06, "loss": 0.229, "step": 66900 }, { "epoch": 17.846666666666668, "grad_norm": 10.452413558959961, "learning_rate": 2.678608695652174e-06, "loss": 0.2177, "step": 66925 }, { "epoch": 17.85333333333333, "grad_norm": 9.752570152282715, "learning_rate": 2.6757101449275362e-06, "loss": 0.2163, "step": 66950 }, { "epoch": 17.86, "grad_norm": 12.008381843566895, "learning_rate": 2.6728115942028987e-06, "loss": 0.2387, "step": 66975 }, { "epoch": 17.866666666666667, "grad_norm": 8.598251342773438, "learning_rate": 2.669913043478261e-06, "loss": 0.2204, "step": 67000 }, { "epoch": 17.873333333333335, "grad_norm": 9.206136703491211, "learning_rate": 2.6670144927536235e-06, "loss": 0.2093, "step": 67025 }, { "epoch": 17.88, "grad_norm": 9.254606246948242, "learning_rate": 2.664115942028986e-06, "loss": 0.2209, "step": 67050 }, { "epoch": 17.886666666666667, "grad_norm": 9.355473518371582, "learning_rate": 2.6612173913043484e-06, "loss": 0.2002, "step": 67075 }, { "epoch": 17.893333333333334, "grad_norm": 8.406131744384766, "learning_rate": 2.6583188405797104e-06, "loss": 0.2014, "step": 67100 }, { "epoch": 17.9, "grad_norm": 9.464492797851562, "learning_rate": 2.655420289855073e-06, "loss": 0.2077, "step": 67125 }, { "epoch": 17.906666666666666, "grad_norm": 10.519820213317871, "learning_rate": 2.652521739130435e-06, "loss": 0.1984, "step": 67150 }, { "epoch": 17.913333333333334, "grad_norm": 7.635274887084961, "learning_rate": 2.6496231884057972e-06, "loss": 0.2388, "step": 67175 }, { "epoch": 17.92, "grad_norm": 7.9000349044799805, "learning_rate": 2.6467246376811597e-06, "loss": 0.2343, "step": 67200 }, { "epoch": 17.926666666666666, "grad_norm": 10.25567626953125, "learning_rate": 2.6438260869565217e-06, "loss": 0.2209, "step": 67225 }, { "epoch": 17.933333333333334, "grad_norm": 7.598330974578857, "learning_rate": 2.640927536231884e-06, "loss": 0.1992, "step": 67250 }, { "epoch": 17.94, "grad_norm": 29.0931453704834, "learning_rate": 2.6380289855072465e-06, "loss": 0.2205, "step": 67275 }, { "epoch": 17.946666666666665, "grad_norm": 8.144192695617676, "learning_rate": 2.635130434782609e-06, "loss": 0.1903, "step": 67300 }, { "epoch": 17.953333333333333, "grad_norm": 9.990599632263184, "learning_rate": 2.6322318840579714e-06, "loss": 0.2304, "step": 67325 }, { "epoch": 17.96, "grad_norm": 8.771063804626465, "learning_rate": 2.629333333333334e-06, "loss": 0.2343, "step": 67350 }, { "epoch": 17.966666666666665, "grad_norm": 7.401108741760254, "learning_rate": 2.6264347826086962e-06, "loss": 0.2434, "step": 67375 }, { "epoch": 17.973333333333333, "grad_norm": 11.699095726013184, "learning_rate": 2.623536231884058e-06, "loss": 0.1901, "step": 67400 }, { "epoch": 17.98, "grad_norm": 7.599838733673096, "learning_rate": 2.6206376811594202e-06, "loss": 0.1825, "step": 67425 }, { "epoch": 17.986666666666668, "grad_norm": 9.90185546875, "learning_rate": 2.6177391304347827e-06, "loss": 0.2276, "step": 67450 }, { "epoch": 17.993333333333332, "grad_norm": 10.198087692260742, "learning_rate": 2.614840579710145e-06, "loss": 0.2324, "step": 67475 }, { "epoch": 18.0, "grad_norm": 8.349268913269043, "learning_rate": 2.6119420289855075e-06, "loss": 0.1896, "step": 67500 }, { "epoch": 18.0, "eval_cer": 24.66876618899428, "eval_loss": 0.4228520393371582, "eval_runtime": 1215.6531, "eval_samples_per_second": 4.113, "eval_steps_per_second": 0.514, "step": 67500 }, { "epoch": 18.006666666666668, "grad_norm": 6.01772928237915, "learning_rate": 2.60904347826087e-06, "loss": 0.1257, "step": 67525 }, { "epoch": 18.013333333333332, "grad_norm": 7.325315475463867, "learning_rate": 2.6061449275362324e-06, "loss": 0.1666, "step": 67550 }, { "epoch": 18.02, "grad_norm": 6.677702903747559, "learning_rate": 2.6032463768115944e-06, "loss": 0.1528, "step": 67575 }, { "epoch": 18.026666666666667, "grad_norm": 6.949586868286133, "learning_rate": 2.600347826086957e-06, "loss": 0.1759, "step": 67600 }, { "epoch": 18.033333333333335, "grad_norm": 5.087902545928955, "learning_rate": 2.5974492753623192e-06, "loss": 0.1613, "step": 67625 }, { "epoch": 18.04, "grad_norm": 7.466290473937988, "learning_rate": 2.5945507246376812e-06, "loss": 0.1476, "step": 67650 }, { "epoch": 18.046666666666667, "grad_norm": 7.917932033538818, "learning_rate": 2.5916521739130436e-06, "loss": 0.1268, "step": 67675 }, { "epoch": 18.053333333333335, "grad_norm": 6.953451633453369, "learning_rate": 2.5887536231884056e-06, "loss": 0.1555, "step": 67700 }, { "epoch": 18.06, "grad_norm": 7.053425312042236, "learning_rate": 2.585855072463768e-06, "loss": 0.1394, "step": 67725 }, { "epoch": 18.066666666666666, "grad_norm": 11.298839569091797, "learning_rate": 2.5829565217391305e-06, "loss": 0.1377, "step": 67750 }, { "epoch": 18.073333333333334, "grad_norm": 7.689300060272217, "learning_rate": 2.580057971014493e-06, "loss": 0.1387, "step": 67775 }, { "epoch": 18.08, "grad_norm": 5.51444149017334, "learning_rate": 2.5771594202898554e-06, "loss": 0.1475, "step": 67800 }, { "epoch": 18.086666666666666, "grad_norm": 6.126021862030029, "learning_rate": 2.5742608695652178e-06, "loss": 0.1453, "step": 67825 }, { "epoch": 18.093333333333334, "grad_norm": 7.228414058685303, "learning_rate": 2.57136231884058e-06, "loss": 0.1598, "step": 67850 }, { "epoch": 18.1, "grad_norm": 5.671976089477539, "learning_rate": 2.5684637681159426e-06, "loss": 0.1523, "step": 67875 }, { "epoch": 18.106666666666666, "grad_norm": 6.718015670776367, "learning_rate": 2.5655652173913046e-06, "loss": 0.1454, "step": 67900 }, { "epoch": 18.113333333333333, "grad_norm": 7.08750057220459, "learning_rate": 2.5626666666666666e-06, "loss": 0.1363, "step": 67925 }, { "epoch": 18.12, "grad_norm": 5.920500755310059, "learning_rate": 2.559768115942029e-06, "loss": 0.1587, "step": 67950 }, { "epoch": 18.126666666666665, "grad_norm": 8.253193855285645, "learning_rate": 2.5568695652173915e-06, "loss": 0.1632, "step": 67975 }, { "epoch": 18.133333333333333, "grad_norm": 4.929494857788086, "learning_rate": 2.553971014492754e-06, "loss": 0.1523, "step": 68000 }, { "epoch": 18.14, "grad_norm": 7.685841083526611, "learning_rate": 2.551072463768116e-06, "loss": 0.136, "step": 68025 }, { "epoch": 18.14666666666667, "grad_norm": 6.61921501159668, "learning_rate": 2.5481739130434783e-06, "loss": 0.1332, "step": 68050 }, { "epoch": 18.153333333333332, "grad_norm": 7.440988540649414, "learning_rate": 2.5452753623188408e-06, "loss": 0.1465, "step": 68075 }, { "epoch": 18.16, "grad_norm": 5.942384243011475, "learning_rate": 2.542376811594203e-06, "loss": 0.1447, "step": 68100 }, { "epoch": 18.166666666666668, "grad_norm": 8.045618057250977, "learning_rate": 2.5394782608695656e-06, "loss": 0.1446, "step": 68125 }, { "epoch": 18.173333333333332, "grad_norm": 6.733611583709717, "learning_rate": 2.536579710144928e-06, "loss": 0.1428, "step": 68150 }, { "epoch": 18.18, "grad_norm": 5.5115275382995605, "learning_rate": 2.5336811594202896e-06, "loss": 0.1434, "step": 68175 }, { "epoch": 18.186666666666667, "grad_norm": 7.358239650726318, "learning_rate": 2.530782608695652e-06, "loss": 0.1646, "step": 68200 }, { "epoch": 18.19333333333333, "grad_norm": 4.872328281402588, "learning_rate": 2.5278840579710145e-06, "loss": 0.1476, "step": 68225 }, { "epoch": 18.2, "grad_norm": 6.254954814910889, "learning_rate": 2.524985507246377e-06, "loss": 0.1513, "step": 68250 }, { "epoch": 18.206666666666667, "grad_norm": 5.432345390319824, "learning_rate": 2.5220869565217393e-06, "loss": 0.1535, "step": 68275 }, { "epoch": 18.213333333333335, "grad_norm": 5.20021390914917, "learning_rate": 2.5191884057971018e-06, "loss": 0.1849, "step": 68300 }, { "epoch": 18.22, "grad_norm": 5.813321113586426, "learning_rate": 2.516289855072464e-06, "loss": 0.1461, "step": 68325 }, { "epoch": 18.226666666666667, "grad_norm": 7.384959697723389, "learning_rate": 2.5133913043478266e-06, "loss": 0.1386, "step": 68350 }, { "epoch": 18.233333333333334, "grad_norm": 7.65921688079834, "learning_rate": 2.5104927536231886e-06, "loss": 0.1638, "step": 68375 }, { "epoch": 18.24, "grad_norm": 7.059927463531494, "learning_rate": 2.507594202898551e-06, "loss": 0.1442, "step": 68400 }, { "epoch": 18.246666666666666, "grad_norm": 9.086822509765625, "learning_rate": 2.504695652173913e-06, "loss": 0.1597, "step": 68425 }, { "epoch": 18.253333333333334, "grad_norm": 5.127740859985352, "learning_rate": 2.5017971014492755e-06, "loss": 0.1337, "step": 68450 }, { "epoch": 18.26, "grad_norm": 5.937685489654541, "learning_rate": 2.498898550724638e-06, "loss": 0.1553, "step": 68475 }, { "epoch": 18.266666666666666, "grad_norm": 5.7225775718688965, "learning_rate": 2.496e-06, "loss": 0.1576, "step": 68500 }, { "epoch": 18.273333333333333, "grad_norm": 5.88946008682251, "learning_rate": 2.4931014492753623e-06, "loss": 0.1692, "step": 68525 }, { "epoch": 18.28, "grad_norm": 7.9569411277771, "learning_rate": 2.4903188405797105e-06, "loss": 0.1516, "step": 68550 }, { "epoch": 18.286666666666665, "grad_norm": 5.725513935089111, "learning_rate": 2.4874202898550725e-06, "loss": 0.1601, "step": 68575 }, { "epoch": 18.293333333333333, "grad_norm": 6.353059768676758, "learning_rate": 2.484521739130435e-06, "loss": 0.1508, "step": 68600 }, { "epoch": 18.3, "grad_norm": 8.028318405151367, "learning_rate": 2.4816231884057973e-06, "loss": 0.1538, "step": 68625 }, { "epoch": 18.306666666666665, "grad_norm": 6.196845531463623, "learning_rate": 2.4787246376811597e-06, "loss": 0.1742, "step": 68650 }, { "epoch": 18.313333333333333, "grad_norm": 8.58578109741211, "learning_rate": 2.475826086956522e-06, "loss": 0.1433, "step": 68675 }, { "epoch": 18.32, "grad_norm": 7.623652458190918, "learning_rate": 2.472927536231884e-06, "loss": 0.1683, "step": 68700 }, { "epoch": 18.326666666666668, "grad_norm": 6.193671703338623, "learning_rate": 2.4700289855072466e-06, "loss": 0.1378, "step": 68725 }, { "epoch": 18.333333333333332, "grad_norm": 5.358505725860596, "learning_rate": 2.467130434782609e-06, "loss": 0.1373, "step": 68750 }, { "epoch": 18.34, "grad_norm": 8.604788780212402, "learning_rate": 2.4642318840579715e-06, "loss": 0.157, "step": 68775 }, { "epoch": 18.346666666666668, "grad_norm": 7.323215961456299, "learning_rate": 2.4613333333333335e-06, "loss": 0.1631, "step": 68800 }, { "epoch": 18.35333333333333, "grad_norm": 6.7893500328063965, "learning_rate": 2.458434782608696e-06, "loss": 0.1491, "step": 68825 }, { "epoch": 18.36, "grad_norm": 5.784399509429932, "learning_rate": 2.455536231884058e-06, "loss": 0.1635, "step": 68850 }, { "epoch": 18.366666666666667, "grad_norm": 7.1416192054748535, "learning_rate": 2.4526376811594203e-06, "loss": 0.1632, "step": 68875 }, { "epoch": 18.373333333333335, "grad_norm": 7.909371376037598, "learning_rate": 2.4497391304347827e-06, "loss": 0.1493, "step": 68900 }, { "epoch": 18.38, "grad_norm": 8.66400146484375, "learning_rate": 2.446840579710145e-06, "loss": 0.1537, "step": 68925 }, { "epoch": 18.386666666666667, "grad_norm": 6.246345520019531, "learning_rate": 2.443942028985507e-06, "loss": 0.1689, "step": 68950 }, { "epoch": 18.393333333333334, "grad_norm": 6.435629844665527, "learning_rate": 2.4410434782608696e-06, "loss": 0.1476, "step": 68975 }, { "epoch": 18.4, "grad_norm": 9.530854225158691, "learning_rate": 2.438144927536232e-06, "loss": 0.1443, "step": 69000 }, { "epoch": 18.406666666666666, "grad_norm": 6.850388050079346, "learning_rate": 2.4352463768115944e-06, "loss": 0.1719, "step": 69025 }, { "epoch": 18.413333333333334, "grad_norm": 8.283392906188965, "learning_rate": 2.432347826086957e-06, "loss": 0.1396, "step": 69050 }, { "epoch": 18.42, "grad_norm": 8.952546119689941, "learning_rate": 2.4294492753623193e-06, "loss": 0.1569, "step": 69075 }, { "epoch": 18.426666666666666, "grad_norm": 6.610381603240967, "learning_rate": 2.4265507246376813e-06, "loss": 0.1433, "step": 69100 }, { "epoch": 18.433333333333334, "grad_norm": 6.613919734954834, "learning_rate": 2.4236521739130437e-06, "loss": 0.1508, "step": 69125 }, { "epoch": 18.44, "grad_norm": 7.836382865905762, "learning_rate": 2.420753623188406e-06, "loss": 0.1634, "step": 69150 }, { "epoch": 18.446666666666665, "grad_norm": 6.699350357055664, "learning_rate": 2.4178550724637686e-06, "loss": 0.1371, "step": 69175 }, { "epoch": 18.453333333333333, "grad_norm": 6.211468696594238, "learning_rate": 2.4149565217391306e-06, "loss": 0.1386, "step": 69200 }, { "epoch": 18.46, "grad_norm": 7.529922008514404, "learning_rate": 2.412057971014493e-06, "loss": 0.1622, "step": 69225 }, { "epoch": 18.466666666666665, "grad_norm": 6.675513744354248, "learning_rate": 2.409159420289855e-06, "loss": 0.1454, "step": 69250 }, { "epoch": 18.473333333333333, "grad_norm": 6.992852687835693, "learning_rate": 2.4062608695652174e-06, "loss": 0.1509, "step": 69275 }, { "epoch": 18.48, "grad_norm": 6.201621055603027, "learning_rate": 2.40336231884058e-06, "loss": 0.1631, "step": 69300 }, { "epoch": 18.486666666666668, "grad_norm": 6.642437934875488, "learning_rate": 2.4004637681159423e-06, "loss": 0.1621, "step": 69325 }, { "epoch": 18.493333333333332, "grad_norm": 5.833384990692139, "learning_rate": 2.3975652173913043e-06, "loss": 0.167, "step": 69350 }, { "epoch": 18.5, "grad_norm": 6.270913124084473, "learning_rate": 2.3946666666666667e-06, "loss": 0.1577, "step": 69375 }, { "epoch": 18.506666666666668, "grad_norm": 7.176599979400635, "learning_rate": 2.391768115942029e-06, "loss": 0.1265, "step": 69400 }, { "epoch": 18.513333333333332, "grad_norm": 6.275597095489502, "learning_rate": 2.3888695652173916e-06, "loss": 0.1497, "step": 69425 }, { "epoch": 18.52, "grad_norm": 19.429767608642578, "learning_rate": 2.385971014492754e-06, "loss": 0.1527, "step": 69450 }, { "epoch": 18.526666666666667, "grad_norm": 6.7337751388549805, "learning_rate": 2.383072463768116e-06, "loss": 0.1548, "step": 69475 }, { "epoch": 18.533333333333335, "grad_norm": 7.699949741363525, "learning_rate": 2.3801739130434784e-06, "loss": 0.1422, "step": 69500 }, { "epoch": 18.54, "grad_norm": 8.577682495117188, "learning_rate": 2.377275362318841e-06, "loss": 0.1428, "step": 69525 }, { "epoch": 18.546666666666667, "grad_norm": 7.721391201019287, "learning_rate": 2.3743768115942033e-06, "loss": 0.1535, "step": 69550 }, { "epoch": 18.553333333333335, "grad_norm": 9.168580055236816, "learning_rate": 2.3714782608695657e-06, "loss": 0.1605, "step": 69575 }, { "epoch": 18.56, "grad_norm": 7.069909572601318, "learning_rate": 2.3685797101449277e-06, "loss": 0.155, "step": 69600 }, { "epoch": 18.566666666666666, "grad_norm": 9.579375267028809, "learning_rate": 2.36568115942029e-06, "loss": 0.1356, "step": 69625 }, { "epoch": 18.573333333333334, "grad_norm": 5.118478298187256, "learning_rate": 2.362782608695652e-06, "loss": 0.1572, "step": 69650 }, { "epoch": 18.58, "grad_norm": 7.700621128082275, "learning_rate": 2.3598840579710146e-06, "loss": 0.1607, "step": 69675 }, { "epoch": 18.586666666666666, "grad_norm": 10.147714614868164, "learning_rate": 2.356985507246377e-06, "loss": 0.1824, "step": 69700 }, { "epoch": 18.593333333333334, "grad_norm": 8.384702682495117, "learning_rate": 2.354086956521739e-06, "loss": 0.1802, "step": 69725 }, { "epoch": 18.6, "grad_norm": 6.407967567443848, "learning_rate": 2.3511884057971014e-06, "loss": 0.1485, "step": 69750 }, { "epoch": 18.606666666666666, "grad_norm": 6.897902488708496, "learning_rate": 2.348289855072464e-06, "loss": 0.1373, "step": 69775 }, { "epoch": 18.613333333333333, "grad_norm": 3.93000864982605, "learning_rate": 2.3453913043478263e-06, "loss": 0.1516, "step": 69800 }, { "epoch": 18.62, "grad_norm": 5.577243804931641, "learning_rate": 2.3424927536231887e-06, "loss": 0.1684, "step": 69825 }, { "epoch": 18.626666666666665, "grad_norm": 7.96088171005249, "learning_rate": 2.339594202898551e-06, "loss": 0.1634, "step": 69850 }, { "epoch": 18.633333333333333, "grad_norm": 8.152421951293945, "learning_rate": 2.336695652173913e-06, "loss": 0.1502, "step": 69875 }, { "epoch": 18.64, "grad_norm": 5.9807820320129395, "learning_rate": 2.3337971014492756e-06, "loss": 0.1432, "step": 69900 }, { "epoch": 18.64666666666667, "grad_norm": 9.36793327331543, "learning_rate": 2.330898550724638e-06, "loss": 0.1468, "step": 69925 }, { "epoch": 18.653333333333332, "grad_norm": 8.440128326416016, "learning_rate": 2.3280000000000004e-06, "loss": 0.1709, "step": 69950 }, { "epoch": 18.66, "grad_norm": 6.836984157562256, "learning_rate": 2.325101449275363e-06, "loss": 0.1548, "step": 69975 }, { "epoch": 18.666666666666668, "grad_norm": 5.4992594718933105, "learning_rate": 2.322202898550725e-06, "loss": 0.1445, "step": 70000 }, { "epoch": 18.673333333333332, "grad_norm": 7.337496280670166, "learning_rate": 2.3193043478260873e-06, "loss": 0.1621, "step": 70025 }, { "epoch": 18.68, "grad_norm": 6.2944512367248535, "learning_rate": 2.3164057971014493e-06, "loss": 0.1354, "step": 70050 }, { "epoch": 18.686666666666667, "grad_norm": 7.438060760498047, "learning_rate": 2.3135072463768117e-06, "loss": 0.1537, "step": 70075 }, { "epoch": 18.693333333333335, "grad_norm": 4.022197246551514, "learning_rate": 2.310608695652174e-06, "loss": 0.1428, "step": 70100 }, { "epoch": 18.7, "grad_norm": 10.642065048217773, "learning_rate": 2.307710144927536e-06, "loss": 0.152, "step": 70125 }, { "epoch": 18.706666666666667, "grad_norm": 6.652579307556152, "learning_rate": 2.3048115942028986e-06, "loss": 0.1572, "step": 70150 }, { "epoch": 18.713333333333335, "grad_norm": 8.735214233398438, "learning_rate": 2.301913043478261e-06, "loss": 0.1352, "step": 70175 }, { "epoch": 18.72, "grad_norm": 8.009881019592285, "learning_rate": 2.2990144927536234e-06, "loss": 0.1556, "step": 70200 }, { "epoch": 18.726666666666667, "grad_norm": 5.827996730804443, "learning_rate": 2.296115942028986e-06, "loss": 0.1327, "step": 70225 }, { "epoch": 18.733333333333334, "grad_norm": 6.475606441497803, "learning_rate": 2.293217391304348e-06, "loss": 0.1802, "step": 70250 }, { "epoch": 18.74, "grad_norm": 10.839892387390137, "learning_rate": 2.2903188405797103e-06, "loss": 0.1635, "step": 70275 }, { "epoch": 18.746666666666666, "grad_norm": 7.246858596801758, "learning_rate": 2.2874202898550727e-06, "loss": 0.1793, "step": 70300 }, { "epoch": 18.753333333333334, "grad_norm": 7.256247043609619, "learning_rate": 2.284521739130435e-06, "loss": 0.1533, "step": 70325 }, { "epoch": 18.76, "grad_norm": 9.10037612915039, "learning_rate": 2.2816231884057975e-06, "loss": 0.1501, "step": 70350 }, { "epoch": 18.766666666666666, "grad_norm": 7.829658508300781, "learning_rate": 2.2788405797101452e-06, "loss": 0.158, "step": 70375 }, { "epoch": 18.773333333333333, "grad_norm": 5.928768634796143, "learning_rate": 2.2759420289855077e-06, "loss": 0.1606, "step": 70400 }, { "epoch": 18.78, "grad_norm": 6.513625621795654, "learning_rate": 2.2730434782608697e-06, "loss": 0.1543, "step": 70425 }, { "epoch": 18.786666666666665, "grad_norm": 7.939873695373535, "learning_rate": 2.270144927536232e-06, "loss": 0.1596, "step": 70450 }, { "epoch": 18.793333333333333, "grad_norm": 7.286437034606934, "learning_rate": 2.267246376811594e-06, "loss": 0.1291, "step": 70475 }, { "epoch": 18.8, "grad_norm": 5.455666542053223, "learning_rate": 2.2643478260869565e-06, "loss": 0.1438, "step": 70500 }, { "epoch": 18.806666666666665, "grad_norm": 8.667654991149902, "learning_rate": 2.261449275362319e-06, "loss": 0.1511, "step": 70525 }, { "epoch": 18.813333333333333, "grad_norm": 5.138819694519043, "learning_rate": 2.2585507246376814e-06, "loss": 0.1639, "step": 70550 }, { "epoch": 18.82, "grad_norm": 5.677332878112793, "learning_rate": 2.2556521739130434e-06, "loss": 0.1377, "step": 70575 }, { "epoch": 18.826666666666668, "grad_norm": 7.6517744064331055, "learning_rate": 2.252753623188406e-06, "loss": 0.1665, "step": 70600 }, { "epoch": 18.833333333333332, "grad_norm": 6.434638977050781, "learning_rate": 2.2498550724637682e-06, "loss": 0.1533, "step": 70625 }, { "epoch": 18.84, "grad_norm": 5.443459510803223, "learning_rate": 2.2469565217391307e-06, "loss": 0.1486, "step": 70650 }, { "epoch": 18.846666666666668, "grad_norm": 5.946639537811279, "learning_rate": 2.244057971014493e-06, "loss": 0.1712, "step": 70675 }, { "epoch": 18.85333333333333, "grad_norm": 7.612644672393799, "learning_rate": 2.2411594202898555e-06, "loss": 0.1521, "step": 70700 }, { "epoch": 18.86, "grad_norm": 10.080349922180176, "learning_rate": 2.2382608695652175e-06, "loss": 0.1428, "step": 70725 }, { "epoch": 18.866666666666667, "grad_norm": 7.273410320281982, "learning_rate": 2.23536231884058e-06, "loss": 0.1604, "step": 70750 }, { "epoch": 18.873333333333335, "grad_norm": 6.912008285522461, "learning_rate": 2.2324637681159424e-06, "loss": 0.1403, "step": 70775 }, { "epoch": 18.88, "grad_norm": 16.17671012878418, "learning_rate": 2.229565217391305e-06, "loss": 0.1627, "step": 70800 }, { "epoch": 18.886666666666667, "grad_norm": 8.159416198730469, "learning_rate": 2.226666666666667e-06, "loss": 0.1652, "step": 70825 }, { "epoch": 18.893333333333334, "grad_norm": 6.099381923675537, "learning_rate": 2.2237681159420292e-06, "loss": 0.1506, "step": 70850 }, { "epoch": 18.9, "grad_norm": 7.79564905166626, "learning_rate": 2.2208695652173912e-06, "loss": 0.1605, "step": 70875 }, { "epoch": 18.906666666666666, "grad_norm": 6.98323917388916, "learning_rate": 2.2179710144927537e-06, "loss": 0.1628, "step": 70900 }, { "epoch": 18.913333333333334, "grad_norm": 8.81930923461914, "learning_rate": 2.215072463768116e-06, "loss": 0.1531, "step": 70925 }, { "epoch": 18.92, "grad_norm": 7.505843639373779, "learning_rate": 2.2121739130434785e-06, "loss": 0.1513, "step": 70950 }, { "epoch": 18.926666666666666, "grad_norm": 6.870680809020996, "learning_rate": 2.2092753623188405e-06, "loss": 0.149, "step": 70975 }, { "epoch": 18.933333333333334, "grad_norm": 5.970832347869873, "learning_rate": 2.206376811594203e-06, "loss": 0.1411, "step": 71000 }, { "epoch": 18.94, "grad_norm": 6.562996864318848, "learning_rate": 2.2034782608695654e-06, "loss": 0.1452, "step": 71025 }, { "epoch": 18.946666666666665, "grad_norm": 7.61350679397583, "learning_rate": 2.200579710144928e-06, "loss": 0.1659, "step": 71050 }, { "epoch": 18.953333333333333, "grad_norm": 8.182543754577637, "learning_rate": 2.1976811594202902e-06, "loss": 0.1314, "step": 71075 }, { "epoch": 18.96, "grad_norm": 6.932231426239014, "learning_rate": 2.1947826086956522e-06, "loss": 0.1571, "step": 71100 }, { "epoch": 18.966666666666665, "grad_norm": 7.585521697998047, "learning_rate": 2.1918840579710147e-06, "loss": 0.1588, "step": 71125 }, { "epoch": 18.973333333333333, "grad_norm": 5.4349141120910645, "learning_rate": 2.188985507246377e-06, "loss": 0.147, "step": 71150 }, { "epoch": 18.98, "grad_norm": 9.688536643981934, "learning_rate": 2.1860869565217395e-06, "loss": 0.1585, "step": 71175 }, { "epoch": 18.986666666666668, "grad_norm": 7.782441139221191, "learning_rate": 2.183188405797102e-06, "loss": 0.1438, "step": 71200 }, { "epoch": 18.993333333333332, "grad_norm": 4.594372749328613, "learning_rate": 2.180289855072464e-06, "loss": 0.1471, "step": 71225 }, { "epoch": 19.0, "grad_norm": 5.970113277435303, "learning_rate": 2.1773913043478264e-06, "loss": 0.155, "step": 71250 }, { "epoch": 19.0, "eval_cer": 25.915435216070666, "eval_loss": 0.43754246830940247, "eval_runtime": 1217.4329, "eval_samples_per_second": 4.107, "eval_steps_per_second": 0.513, "step": 71250 }, { "epoch": 19.006666666666668, "grad_norm": 5.675690650939941, "learning_rate": 2.1744927536231884e-06, "loss": 0.1042, "step": 71275 }, { "epoch": 19.013333333333332, "grad_norm": 4.985854148864746, "learning_rate": 2.171594202898551e-06, "loss": 0.1052, "step": 71300 }, { "epoch": 19.02, "grad_norm": 7.79216194152832, "learning_rate": 2.1686956521739132e-06, "loss": 0.1038, "step": 71325 }, { "epoch": 19.026666666666667, "grad_norm": 7.168084144592285, "learning_rate": 2.1657971014492752e-06, "loss": 0.1001, "step": 71350 }, { "epoch": 19.033333333333335, "grad_norm": 8.945808410644531, "learning_rate": 2.1628985507246376e-06, "loss": 0.0997, "step": 71375 }, { "epoch": 19.04, "grad_norm": 6.32921838760376, "learning_rate": 2.16e-06, "loss": 0.1072, "step": 71400 }, { "epoch": 19.046666666666667, "grad_norm": 5.901066303253174, "learning_rate": 2.1571014492753625e-06, "loss": 0.0982, "step": 71425 }, { "epoch": 19.053333333333335, "grad_norm": 4.490105152130127, "learning_rate": 2.154202898550725e-06, "loss": 0.1028, "step": 71450 }, { "epoch": 19.06, "grad_norm": 4.834918022155762, "learning_rate": 2.1513043478260874e-06, "loss": 0.0971, "step": 71475 }, { "epoch": 19.066666666666666, "grad_norm": 7.109931468963623, "learning_rate": 2.1484057971014494e-06, "loss": 0.1195, "step": 71500 }, { "epoch": 19.073333333333334, "grad_norm": 5.809897422790527, "learning_rate": 2.1455072463768118e-06, "loss": 0.0992, "step": 71525 }, { "epoch": 19.08, "grad_norm": 6.085440635681152, "learning_rate": 2.142608695652174e-06, "loss": 0.1066, "step": 71550 }, { "epoch": 19.086666666666666, "grad_norm": 6.77327823638916, "learning_rate": 2.1397101449275366e-06, "loss": 0.0894, "step": 71575 }, { "epoch": 19.093333333333334, "grad_norm": 5.9065728187561035, "learning_rate": 2.136811594202899e-06, "loss": 0.1117, "step": 71600 }, { "epoch": 19.1, "grad_norm": 7.122445106506348, "learning_rate": 2.133913043478261e-06, "loss": 0.1037, "step": 71625 }, { "epoch": 19.106666666666666, "grad_norm": 3.03509783744812, "learning_rate": 2.1310144927536235e-06, "loss": 0.103, "step": 71650 }, { "epoch": 19.113333333333333, "grad_norm": 8.701093673706055, "learning_rate": 2.1281159420289855e-06, "loss": 0.111, "step": 71675 }, { "epoch": 19.12, "grad_norm": 6.689864635467529, "learning_rate": 2.125217391304348e-06, "loss": 0.1229, "step": 71700 }, { "epoch": 19.126666666666665, "grad_norm": 5.8076910972595215, "learning_rate": 2.1223188405797103e-06, "loss": 0.0992, "step": 71725 }, { "epoch": 19.133333333333333, "grad_norm": 7.868796348571777, "learning_rate": 2.1194202898550723e-06, "loss": 0.1033, "step": 71750 }, { "epoch": 19.14, "grad_norm": 32.1546745300293, "learning_rate": 2.1165217391304348e-06, "loss": 0.1102, "step": 71775 }, { "epoch": 19.14666666666667, "grad_norm": 4.970939636230469, "learning_rate": 2.113623188405797e-06, "loss": 0.0969, "step": 71800 }, { "epoch": 19.153333333333332, "grad_norm": 5.401374816894531, "learning_rate": 2.1107246376811596e-06, "loss": 0.0948, "step": 71825 }, { "epoch": 19.16, "grad_norm": 10.725092887878418, "learning_rate": 2.107826086956522e-06, "loss": 0.1005, "step": 71850 }, { "epoch": 19.166666666666668, "grad_norm": 6.413119316101074, "learning_rate": 2.104927536231884e-06, "loss": 0.1084, "step": 71875 }, { "epoch": 19.173333333333332, "grad_norm": 6.414632320404053, "learning_rate": 2.1020289855072465e-06, "loss": 0.1051, "step": 71900 }, { "epoch": 19.18, "grad_norm": 7.66240930557251, "learning_rate": 2.099130434782609e-06, "loss": 0.1135, "step": 71925 }, { "epoch": 19.186666666666667, "grad_norm": 5.339526653289795, "learning_rate": 2.0962318840579713e-06, "loss": 0.0993, "step": 71950 }, { "epoch": 19.19333333333333, "grad_norm": 6.042700290679932, "learning_rate": 2.0933333333333338e-06, "loss": 0.1011, "step": 71975 }, { "epoch": 19.2, "grad_norm": 7.16769552230835, "learning_rate": 2.0904347826086958e-06, "loss": 0.096, "step": 72000 }, { "epoch": 19.206666666666667, "grad_norm": 5.751241207122803, "learning_rate": 2.087536231884058e-06, "loss": 0.1077, "step": 72025 }, { "epoch": 19.213333333333335, "grad_norm": 7.560470104217529, "learning_rate": 2.0846376811594206e-06, "loss": 0.1023, "step": 72050 }, { "epoch": 19.22, "grad_norm": 4.091994285583496, "learning_rate": 2.0817391304347826e-06, "loss": 0.0918, "step": 72075 }, { "epoch": 19.226666666666667, "grad_norm": 4.7149529457092285, "learning_rate": 2.078840579710145e-06, "loss": 0.1085, "step": 72100 }, { "epoch": 19.233333333333334, "grad_norm": 4.598756790161133, "learning_rate": 2.0759420289855075e-06, "loss": 0.1007, "step": 72125 }, { "epoch": 19.24, "grad_norm": 10.273158073425293, "learning_rate": 2.0730434782608695e-06, "loss": 0.0981, "step": 72150 }, { "epoch": 19.246666666666666, "grad_norm": 6.455600261688232, "learning_rate": 2.070144927536232e-06, "loss": 0.1138, "step": 72175 }, { "epoch": 19.253333333333334, "grad_norm": 3.8777518272399902, "learning_rate": 2.0672463768115943e-06, "loss": 0.1001, "step": 72200 }, { "epoch": 19.26, "grad_norm": 5.472908973693848, "learning_rate": 2.0643478260869568e-06, "loss": 0.1001, "step": 72225 }, { "epoch": 19.266666666666666, "grad_norm": 4.104804515838623, "learning_rate": 2.061449275362319e-06, "loss": 0.1156, "step": 72250 }, { "epoch": 19.273333333333333, "grad_norm": 5.611487865447998, "learning_rate": 2.058550724637681e-06, "loss": 0.12, "step": 72275 }, { "epoch": 19.28, "grad_norm": 6.500185966491699, "learning_rate": 2.0556521739130436e-06, "loss": 0.0947, "step": 72300 }, { "epoch": 19.286666666666665, "grad_norm": 5.745716571807861, "learning_rate": 2.052753623188406e-06, "loss": 0.0909, "step": 72325 }, { "epoch": 19.293333333333333, "grad_norm": 6.714460849761963, "learning_rate": 2.0498550724637685e-06, "loss": 0.096, "step": 72350 }, { "epoch": 19.3, "grad_norm": 6.3296918869018555, "learning_rate": 2.046956521739131e-06, "loss": 0.0979, "step": 72375 }, { "epoch": 19.306666666666665, "grad_norm": 5.162728786468506, "learning_rate": 2.044057971014493e-06, "loss": 0.103, "step": 72400 }, { "epoch": 19.313333333333333, "grad_norm": 7.584059238433838, "learning_rate": 2.0411594202898553e-06, "loss": 0.1094, "step": 72425 }, { "epoch": 19.32, "grad_norm": 5.767916202545166, "learning_rate": 2.0382608695652177e-06, "loss": 0.1015, "step": 72450 }, { "epoch": 19.326666666666668, "grad_norm": 5.698000907897949, "learning_rate": 2.0353623188405797e-06, "loss": 0.1061, "step": 72475 }, { "epoch": 19.333333333333332, "grad_norm": 5.757930278778076, "learning_rate": 2.032463768115942e-06, "loss": 0.0958, "step": 72500 }, { "epoch": 19.34, "grad_norm": 6.200931549072266, "learning_rate": 2.0295652173913046e-06, "loss": 0.113, "step": 72525 }, { "epoch": 19.346666666666668, "grad_norm": 6.3699212074279785, "learning_rate": 2.0266666666666666e-06, "loss": 0.1063, "step": 72550 }, { "epoch": 19.35333333333333, "grad_norm": 6.707023620605469, "learning_rate": 2.023768115942029e-06, "loss": 0.0914, "step": 72575 }, { "epoch": 19.36, "grad_norm": 5.265618324279785, "learning_rate": 2.0208695652173915e-06, "loss": 0.1052, "step": 72600 }, { "epoch": 19.366666666666667, "grad_norm": 6.9856648445129395, "learning_rate": 2.017971014492754e-06, "loss": 0.1101, "step": 72625 }, { "epoch": 19.373333333333335, "grad_norm": 4.685873985290527, "learning_rate": 2.015072463768116e-06, "loss": 0.1016, "step": 72650 }, { "epoch": 19.38, "grad_norm": 6.5311479568481445, "learning_rate": 2.0121739130434783e-06, "loss": 0.1063, "step": 72675 }, { "epoch": 19.386666666666667, "grad_norm": 5.9873480796813965, "learning_rate": 2.0092753623188407e-06, "loss": 0.1057, "step": 72700 }, { "epoch": 19.393333333333334, "grad_norm": 3.5599958896636963, "learning_rate": 2.006376811594203e-06, "loss": 0.0986, "step": 72725 }, { "epoch": 19.4, "grad_norm": 4.90258264541626, "learning_rate": 2.0034782608695656e-06, "loss": 0.1069, "step": 72750 }, { "epoch": 19.406666666666666, "grad_norm": 6.426035404205322, "learning_rate": 2.0005797101449276e-06, "loss": 0.097, "step": 72775 }, { "epoch": 19.413333333333334, "grad_norm": 4.893563747406006, "learning_rate": 1.99768115942029e-06, "loss": 0.1133, "step": 72800 }, { "epoch": 19.42, "grad_norm": 7.264616012573242, "learning_rate": 1.9947826086956524e-06, "loss": 0.1088, "step": 72825 }, { "epoch": 19.426666666666666, "grad_norm": 7.400001525878906, "learning_rate": 1.991884057971015e-06, "loss": 0.1129, "step": 72850 }, { "epoch": 19.433333333333334, "grad_norm": 6.674353122711182, "learning_rate": 1.988985507246377e-06, "loss": 0.1024, "step": 72875 }, { "epoch": 19.44, "grad_norm": 6.827143669128418, "learning_rate": 1.9860869565217393e-06, "loss": 0.1033, "step": 72900 }, { "epoch": 19.446666666666665, "grad_norm": 8.582805633544922, "learning_rate": 1.9831884057971017e-06, "loss": 0.0975, "step": 72925 }, { "epoch": 19.453333333333333, "grad_norm": 2.806917667388916, "learning_rate": 1.9802898550724637e-06, "loss": 0.0885, "step": 72950 }, { "epoch": 19.46, "grad_norm": 5.491762638092041, "learning_rate": 1.977391304347826e-06, "loss": 0.1058, "step": 72975 }, { "epoch": 19.466666666666665, "grad_norm": 5.8324480056762695, "learning_rate": 1.9744927536231886e-06, "loss": 0.0961, "step": 73000 }, { "epoch": 19.473333333333333, "grad_norm": 7.181924343109131, "learning_rate": 1.971594202898551e-06, "loss": 0.1226, "step": 73025 }, { "epoch": 19.48, "grad_norm": 6.861168384552002, "learning_rate": 1.968695652173913e-06, "loss": 0.1096, "step": 73050 }, { "epoch": 19.486666666666668, "grad_norm": 5.565661430358887, "learning_rate": 1.9657971014492754e-06, "loss": 0.1087, "step": 73075 }, { "epoch": 19.493333333333332, "grad_norm": 6.833733558654785, "learning_rate": 1.962898550724638e-06, "loss": 0.0914, "step": 73100 }, { "epoch": 19.5, "grad_norm": 6.7026848793029785, "learning_rate": 1.9600000000000003e-06, "loss": 0.0912, "step": 73125 }, { "epoch": 19.506666666666668, "grad_norm": 7.694760799407959, "learning_rate": 1.9571014492753627e-06, "loss": 0.1257, "step": 73150 }, { "epoch": 19.513333333333332, "grad_norm": 7.0611891746521, "learning_rate": 1.9542028985507247e-06, "loss": 0.1031, "step": 73175 }, { "epoch": 19.52, "grad_norm": 6.779341697692871, "learning_rate": 1.951304347826087e-06, "loss": 0.101, "step": 73200 }, { "epoch": 19.526666666666667, "grad_norm": 8.409144401550293, "learning_rate": 1.9484057971014496e-06, "loss": 0.1003, "step": 73225 }, { "epoch": 19.533333333333335, "grad_norm": 5.4090962409973145, "learning_rate": 1.945507246376812e-06, "loss": 0.1118, "step": 73250 }, { "epoch": 19.54, "grad_norm": 6.318526744842529, "learning_rate": 1.942608695652174e-06, "loss": 0.1214, "step": 73275 }, { "epoch": 19.546666666666667, "grad_norm": 7.044856071472168, "learning_rate": 1.9397101449275364e-06, "loss": 0.1134, "step": 73300 }, { "epoch": 19.553333333333335, "grad_norm": 5.211507797241211, "learning_rate": 1.936811594202899e-06, "loss": 0.1067, "step": 73325 }, { "epoch": 19.56, "grad_norm": 7.758440017700195, "learning_rate": 1.933913043478261e-06, "loss": 0.1042, "step": 73350 }, { "epoch": 19.566666666666666, "grad_norm": 5.49399471282959, "learning_rate": 1.9310144927536233e-06, "loss": 0.1067, "step": 73375 }, { "epoch": 19.573333333333334, "grad_norm": 7.937626838684082, "learning_rate": 1.9281159420289857e-06, "loss": 0.0974, "step": 73400 }, { "epoch": 19.58, "grad_norm": 4.581347942352295, "learning_rate": 1.9252173913043477e-06, "loss": 0.111, "step": 73425 }, { "epoch": 19.586666666666666, "grad_norm": 7.882979869842529, "learning_rate": 1.92231884057971e-06, "loss": 0.1113, "step": 73450 }, { "epoch": 19.593333333333334, "grad_norm": 4.568634986877441, "learning_rate": 1.9194202898550726e-06, "loss": 0.1079, "step": 73475 }, { "epoch": 19.6, "grad_norm": 4.902348041534424, "learning_rate": 1.916521739130435e-06, "loss": 0.1024, "step": 73500 }, { "epoch": 19.606666666666666, "grad_norm": 6.77340030670166, "learning_rate": 1.9136231884057974e-06, "loss": 0.112, "step": 73525 }, { "epoch": 19.613333333333333, "grad_norm": 6.117516040802002, "learning_rate": 1.9107246376811594e-06, "loss": 0.1097, "step": 73550 }, { "epoch": 19.62, "grad_norm": 5.719534397125244, "learning_rate": 1.907826086956522e-06, "loss": 0.1081, "step": 73575 }, { "epoch": 19.626666666666665, "grad_norm": 7.758967399597168, "learning_rate": 1.9049275362318843e-06, "loss": 0.11, "step": 73600 }, { "epoch": 19.633333333333333, "grad_norm": 6.258488655090332, "learning_rate": 1.9020289855072465e-06, "loss": 0.0972, "step": 73625 }, { "epoch": 19.64, "grad_norm": 6.037124156951904, "learning_rate": 1.899130434782609e-06, "loss": 0.1133, "step": 73650 }, { "epoch": 19.64666666666667, "grad_norm": 8.396228790283203, "learning_rate": 1.8962318840579711e-06, "loss": 0.122, "step": 73675 }, { "epoch": 19.653333333333332, "grad_norm": 6.9182610511779785, "learning_rate": 1.8933333333333333e-06, "loss": 0.1046, "step": 73700 }, { "epoch": 19.66, "grad_norm": 5.528317928314209, "learning_rate": 1.8904347826086958e-06, "loss": 0.1101, "step": 73725 }, { "epoch": 19.666666666666668, "grad_norm": 4.2495927810668945, "learning_rate": 1.8875362318840582e-06, "loss": 0.0991, "step": 73750 }, { "epoch": 19.673333333333332, "grad_norm": 5.310347080230713, "learning_rate": 1.8846376811594206e-06, "loss": 0.1056, "step": 73775 }, { "epoch": 19.68, "grad_norm": 6.118180274963379, "learning_rate": 1.8817391304347828e-06, "loss": 0.1199, "step": 73800 }, { "epoch": 19.686666666666667, "grad_norm": 5.611172199249268, "learning_rate": 1.878840579710145e-06, "loss": 0.1099, "step": 73825 }, { "epoch": 19.693333333333335, "grad_norm": 8.030683517456055, "learning_rate": 1.8759420289855073e-06, "loss": 0.1091, "step": 73850 }, { "epoch": 19.7, "grad_norm": 4.744989395141602, "learning_rate": 1.8730434782608697e-06, "loss": 0.0993, "step": 73875 }, { "epoch": 19.706666666666667, "grad_norm": 9.242466926574707, "learning_rate": 1.8701449275362321e-06, "loss": 0.1059, "step": 73900 }, { "epoch": 19.713333333333335, "grad_norm": 7.4035563468933105, "learning_rate": 1.8672463768115945e-06, "loss": 0.0941, "step": 73925 }, { "epoch": 19.72, "grad_norm": 7.084167003631592, "learning_rate": 1.8643478260869566e-06, "loss": 0.1127, "step": 73950 }, { "epoch": 19.726666666666667, "grad_norm": 4.477767467498779, "learning_rate": 1.861449275362319e-06, "loss": 0.1012, "step": 73975 }, { "epoch": 19.733333333333334, "grad_norm": 6.554209232330322, "learning_rate": 1.8585507246376814e-06, "loss": 0.1117, "step": 74000 }, { "epoch": 19.74, "grad_norm": 7.57942008972168, "learning_rate": 1.8556521739130436e-06, "loss": 0.1051, "step": 74025 }, { "epoch": 19.746666666666666, "grad_norm": 3.630720376968384, "learning_rate": 1.852753623188406e-06, "loss": 0.1116, "step": 74050 }, { "epoch": 19.753333333333334, "grad_norm": 7.469941139221191, "learning_rate": 1.8498550724637683e-06, "loss": 0.1058, "step": 74075 }, { "epoch": 19.76, "grad_norm": 6.942729949951172, "learning_rate": 1.8469565217391305e-06, "loss": 0.1033, "step": 74100 }, { "epoch": 19.766666666666666, "grad_norm": 5.364857196807861, "learning_rate": 1.844057971014493e-06, "loss": 0.105, "step": 74125 }, { "epoch": 19.773333333333333, "grad_norm": 6.311131477355957, "learning_rate": 1.8411594202898553e-06, "loss": 0.1112, "step": 74150 }, { "epoch": 19.78, "grad_norm": 7.07230806350708, "learning_rate": 1.8382608695652178e-06, "loss": 0.1102, "step": 74175 }, { "epoch": 19.786666666666665, "grad_norm": 6.101632595062256, "learning_rate": 1.8353623188405798e-06, "loss": 0.1064, "step": 74200 }, { "epoch": 19.793333333333333, "grad_norm": 5.362085342407227, "learning_rate": 1.8324637681159422e-06, "loss": 0.0991, "step": 74225 }, { "epoch": 19.8, "grad_norm": 5.258087158203125, "learning_rate": 1.8295652173913044e-06, "loss": 0.1143, "step": 74250 }, { "epoch": 19.806666666666665, "grad_norm": 5.154257774353027, "learning_rate": 1.8266666666666668e-06, "loss": 0.0962, "step": 74275 }, { "epoch": 19.813333333333333, "grad_norm": 6.176241397857666, "learning_rate": 1.8237681159420293e-06, "loss": 0.1145, "step": 74300 }, { "epoch": 19.82, "grad_norm": 6.273054599761963, "learning_rate": 1.8208695652173913e-06, "loss": 0.0988, "step": 74325 }, { "epoch": 19.826666666666668, "grad_norm": 7.13528299331665, "learning_rate": 1.8179710144927537e-06, "loss": 0.0987, "step": 74350 }, { "epoch": 19.833333333333332, "grad_norm": 4.914234638214111, "learning_rate": 1.8150724637681161e-06, "loss": 0.1202, "step": 74375 }, { "epoch": 19.84, "grad_norm": 4.843100070953369, "learning_rate": 1.8121739130434785e-06, "loss": 0.0996, "step": 74400 }, { "epoch": 19.846666666666668, "grad_norm": 5.404711723327637, "learning_rate": 1.8092753623188407e-06, "loss": 0.1126, "step": 74425 }, { "epoch": 19.85333333333333, "grad_norm": 12.03441047668457, "learning_rate": 1.806376811594203e-06, "loss": 0.1106, "step": 74450 }, { "epoch": 19.86, "grad_norm": 5.760793209075928, "learning_rate": 1.8034782608695654e-06, "loss": 0.114, "step": 74475 }, { "epoch": 19.866666666666667, "grad_norm": 6.3341546058654785, "learning_rate": 1.8005797101449276e-06, "loss": 0.1057, "step": 74500 }, { "epoch": 19.873333333333335, "grad_norm": 5.52339506149292, "learning_rate": 1.79768115942029e-06, "loss": 0.0991, "step": 74525 }, { "epoch": 19.88, "grad_norm": 5.70100736618042, "learning_rate": 1.7947826086956525e-06, "loss": 0.1103, "step": 74550 }, { "epoch": 19.886666666666667, "grad_norm": 7.601683616638184, "learning_rate": 1.7918840579710145e-06, "loss": 0.0993, "step": 74575 }, { "epoch": 19.893333333333334, "grad_norm": 8.634716033935547, "learning_rate": 1.7889855072463769e-06, "loss": 0.1073, "step": 74600 }, { "epoch": 19.9, "grad_norm": 5.04727840423584, "learning_rate": 1.7862028985507248e-06, "loss": 0.0925, "step": 74625 }, { "epoch": 19.906666666666666, "grad_norm": 5.042563438415527, "learning_rate": 1.783304347826087e-06, "loss": 0.1008, "step": 74650 }, { "epoch": 19.913333333333334, "grad_norm": 7.035580635070801, "learning_rate": 1.7804057971014492e-06, "loss": 0.1024, "step": 74675 }, { "epoch": 19.92, "grad_norm": 4.874089241027832, "learning_rate": 1.7775072463768117e-06, "loss": 0.1005, "step": 74700 }, { "epoch": 19.926666666666666, "grad_norm": 6.329769611358643, "learning_rate": 1.774608695652174e-06, "loss": 0.1065, "step": 74725 }, { "epoch": 19.933333333333334, "grad_norm": 4.987755298614502, "learning_rate": 1.7717101449275365e-06, "loss": 0.1128, "step": 74750 }, { "epoch": 19.94, "grad_norm": 6.387165546417236, "learning_rate": 1.7688115942028987e-06, "loss": 0.1071, "step": 74775 }, { "epoch": 19.946666666666665, "grad_norm": 4.52731466293335, "learning_rate": 1.765913043478261e-06, "loss": 0.1027, "step": 74800 }, { "epoch": 19.953333333333333, "grad_norm": 5.432816982269287, "learning_rate": 1.7630144927536234e-06, "loss": 0.1073, "step": 74825 }, { "epoch": 19.96, "grad_norm": 5.270857810974121, "learning_rate": 1.7601159420289856e-06, "loss": 0.1077, "step": 74850 }, { "epoch": 19.966666666666665, "grad_norm": 5.242100715637207, "learning_rate": 1.757217391304348e-06, "loss": 0.104, "step": 74875 }, { "epoch": 19.973333333333333, "grad_norm": 6.794275283813477, "learning_rate": 1.7543188405797104e-06, "loss": 0.109, "step": 74900 }, { "epoch": 19.98, "grad_norm": 7.934667110443115, "learning_rate": 1.7514202898550724e-06, "loss": 0.0989, "step": 74925 }, { "epoch": 19.986666666666668, "grad_norm": 6.383999824523926, "learning_rate": 1.7485217391304349e-06, "loss": 0.0981, "step": 74950 }, { "epoch": 19.993333333333332, "grad_norm": 5.112396240234375, "learning_rate": 1.7456231884057973e-06, "loss": 0.105, "step": 74975 }, { "epoch": 20.0, "grad_norm": 5.979816913604736, "learning_rate": 1.7427246376811597e-06, "loss": 0.1105, "step": 75000 }, { "epoch": 20.0, "eval_cer": 26.13718949741908, "eval_loss": 0.44764193892478943, "eval_runtime": 1216.298, "eval_samples_per_second": 4.111, "eval_steps_per_second": 0.514, "step": 75000 }, { "epoch": 20.006666666666668, "grad_norm": 4.499136447906494, "learning_rate": 1.739826086956522e-06, "loss": 0.0633, "step": 75025 }, { "epoch": 20.013333333333332, "grad_norm": 4.518321514129639, "learning_rate": 1.7369275362318841e-06, "loss": 0.0738, "step": 75050 }, { "epoch": 20.02, "grad_norm": 4.743485450744629, "learning_rate": 1.7340289855072464e-06, "loss": 0.0651, "step": 75075 }, { "epoch": 20.026666666666667, "grad_norm": 3.816793441772461, "learning_rate": 1.7311304347826088e-06, "loss": 0.0664, "step": 75100 }, { "epoch": 20.033333333333335, "grad_norm": 4.108447074890137, "learning_rate": 1.7282318840579712e-06, "loss": 0.0706, "step": 75125 }, { "epoch": 20.04, "grad_norm": 4.854064464569092, "learning_rate": 1.7253333333333336e-06, "loss": 0.0738, "step": 75150 }, { "epoch": 20.046666666666667, "grad_norm": 3.181431770324707, "learning_rate": 1.7224347826086956e-06, "loss": 0.075, "step": 75175 }, { "epoch": 20.053333333333335, "grad_norm": 4.232985973358154, "learning_rate": 1.719536231884058e-06, "loss": 0.0759, "step": 75200 }, { "epoch": 20.06, "grad_norm": 4.824986934661865, "learning_rate": 1.7166376811594205e-06, "loss": 0.064, "step": 75225 }, { "epoch": 20.066666666666666, "grad_norm": 4.280178070068359, "learning_rate": 1.7137391304347827e-06, "loss": 0.0769, "step": 75250 }, { "epoch": 20.073333333333334, "grad_norm": 3.2775228023529053, "learning_rate": 1.7108405797101451e-06, "loss": 0.0726, "step": 75275 }, { "epoch": 20.08, "grad_norm": 4.344793319702148, "learning_rate": 1.7079420289855074e-06, "loss": 0.0675, "step": 75300 }, { "epoch": 20.086666666666666, "grad_norm": 3.863401174545288, "learning_rate": 1.7050434782608696e-06, "loss": 0.0578, "step": 75325 }, { "epoch": 20.093333333333334, "grad_norm": 4.356742858886719, "learning_rate": 1.702144927536232e-06, "loss": 0.0672, "step": 75350 }, { "epoch": 20.1, "grad_norm": 4.02724552154541, "learning_rate": 1.6992463768115944e-06, "loss": 0.0711, "step": 75375 }, { "epoch": 20.106666666666666, "grad_norm": 3.321028470993042, "learning_rate": 1.6963478260869568e-06, "loss": 0.0764, "step": 75400 }, { "epoch": 20.113333333333333, "grad_norm": 3.4327545166015625, "learning_rate": 1.6935652173913046e-06, "loss": 0.0801, "step": 75425 }, { "epoch": 20.12, "grad_norm": 4.2873406410217285, "learning_rate": 1.6906666666666668e-06, "loss": 0.0767, "step": 75450 }, { "epoch": 20.126666666666665, "grad_norm": 6.9325690269470215, "learning_rate": 1.6877681159420292e-06, "loss": 0.0808, "step": 75475 }, { "epoch": 20.133333333333333, "grad_norm": 2.933109760284424, "learning_rate": 1.6848695652173914e-06, "loss": 0.0684, "step": 75500 }, { "epoch": 20.14, "grad_norm": 3.982273817062378, "learning_rate": 1.6819710144927536e-06, "loss": 0.0672, "step": 75525 }, { "epoch": 20.14666666666667, "grad_norm": 5.87224817276001, "learning_rate": 1.679072463768116e-06, "loss": 0.0793, "step": 75550 }, { "epoch": 20.153333333333332, "grad_norm": 4.324000358581543, "learning_rate": 1.6761739130434785e-06, "loss": 0.0728, "step": 75575 }, { "epoch": 20.16, "grad_norm": 5.7561564445495605, "learning_rate": 1.673275362318841e-06, "loss": 0.0731, "step": 75600 }, { "epoch": 20.166666666666668, "grad_norm": 4.172159194946289, "learning_rate": 1.6703768115942031e-06, "loss": 0.0749, "step": 75625 }, { "epoch": 20.173333333333332, "grad_norm": 4.149765968322754, "learning_rate": 1.6674782608695653e-06, "loss": 0.08, "step": 75650 }, { "epoch": 20.18, "grad_norm": 4.817747116088867, "learning_rate": 1.6645797101449275e-06, "loss": 0.0784, "step": 75675 }, { "epoch": 20.186666666666667, "grad_norm": 4.184149742126465, "learning_rate": 1.66168115942029e-06, "loss": 0.0675, "step": 75700 }, { "epoch": 20.19333333333333, "grad_norm": 4.695830345153809, "learning_rate": 1.6587826086956524e-06, "loss": 0.0709, "step": 75725 }, { "epoch": 20.2, "grad_norm": 4.580868244171143, "learning_rate": 1.6558840579710148e-06, "loss": 0.0725, "step": 75750 }, { "epoch": 20.206666666666667, "grad_norm": 4.904492378234863, "learning_rate": 1.6529855072463768e-06, "loss": 0.0787, "step": 75775 }, { "epoch": 20.213333333333335, "grad_norm": 6.0179290771484375, "learning_rate": 1.6500869565217393e-06, "loss": 0.075, "step": 75800 }, { "epoch": 20.22, "grad_norm": 4.801059722900391, "learning_rate": 1.6471884057971017e-06, "loss": 0.0747, "step": 75825 }, { "epoch": 20.226666666666667, "grad_norm": 4.179539203643799, "learning_rate": 1.644289855072464e-06, "loss": 0.0765, "step": 75850 }, { "epoch": 20.233333333333334, "grad_norm": 10.801098823547363, "learning_rate": 1.6413913043478263e-06, "loss": 0.0763, "step": 75875 }, { "epoch": 20.24, "grad_norm": 4.626479625701904, "learning_rate": 1.6384927536231885e-06, "loss": 0.086, "step": 75900 }, { "epoch": 20.246666666666666, "grad_norm": 3.506195068359375, "learning_rate": 1.6355942028985508e-06, "loss": 0.0646, "step": 75925 }, { "epoch": 20.253333333333334, "grad_norm": 4.889527320861816, "learning_rate": 1.6326956521739132e-06, "loss": 0.0694, "step": 75950 }, { "epoch": 20.26, "grad_norm": 5.531268119812012, "learning_rate": 1.6297971014492756e-06, "loss": 0.0695, "step": 75975 }, { "epoch": 20.266666666666666, "grad_norm": 5.063387870788574, "learning_rate": 1.6268985507246378e-06, "loss": 0.0753, "step": 76000 }, { "epoch": 20.273333333333333, "grad_norm": 5.102461338043213, "learning_rate": 1.624e-06, "loss": 0.0756, "step": 76025 }, { "epoch": 20.28, "grad_norm": 4.763950347900391, "learning_rate": 1.6211014492753625e-06, "loss": 0.0661, "step": 76050 }, { "epoch": 20.286666666666665, "grad_norm": 5.345441818237305, "learning_rate": 1.6182028985507247e-06, "loss": 0.0887, "step": 76075 }, { "epoch": 20.293333333333333, "grad_norm": 3.838231325149536, "learning_rate": 1.615304347826087e-06, "loss": 0.0709, "step": 76100 }, { "epoch": 20.3, "grad_norm": 5.875848770141602, "learning_rate": 1.6124057971014495e-06, "loss": 0.0571, "step": 76125 }, { "epoch": 20.306666666666665, "grad_norm": 4.8940653800964355, "learning_rate": 1.6095072463768115e-06, "loss": 0.0715, "step": 76150 }, { "epoch": 20.313333333333333, "grad_norm": 4.76296854019165, "learning_rate": 1.606608695652174e-06, "loss": 0.0759, "step": 76175 }, { "epoch": 20.32, "grad_norm": 6.766254901885986, "learning_rate": 1.6037101449275364e-06, "loss": 0.0877, "step": 76200 }, { "epoch": 20.326666666666668, "grad_norm": 7.053617477416992, "learning_rate": 1.6008115942028988e-06, "loss": 0.0755, "step": 76225 }, { "epoch": 20.333333333333332, "grad_norm": 4.824756145477295, "learning_rate": 1.597913043478261e-06, "loss": 0.0758, "step": 76250 }, { "epoch": 20.34, "grad_norm": 5.201979160308838, "learning_rate": 1.5950144927536232e-06, "loss": 0.0657, "step": 76275 }, { "epoch": 20.346666666666668, "grad_norm": 4.739941596984863, "learning_rate": 1.5921159420289855e-06, "loss": 0.084, "step": 76300 }, { "epoch": 20.35333333333333, "grad_norm": 6.158890247344971, "learning_rate": 1.5892173913043479e-06, "loss": 0.0861, "step": 76325 }, { "epoch": 20.36, "grad_norm": 3.9498066902160645, "learning_rate": 1.5863188405797103e-06, "loss": 0.0681, "step": 76350 }, { "epoch": 20.366666666666667, "grad_norm": 4.284798622131348, "learning_rate": 1.5834202898550727e-06, "loss": 0.0665, "step": 76375 }, { "epoch": 20.373333333333335, "grad_norm": 5.49983549118042, "learning_rate": 1.5805217391304347e-06, "loss": 0.0736, "step": 76400 }, { "epoch": 20.38, "grad_norm": 5.810794830322266, "learning_rate": 1.5776231884057972e-06, "loss": 0.0837, "step": 76425 }, { "epoch": 20.386666666666667, "grad_norm": 4.6355299949646, "learning_rate": 1.5747246376811596e-06, "loss": 0.0822, "step": 76450 }, { "epoch": 20.393333333333334, "grad_norm": 5.165829181671143, "learning_rate": 1.5718260869565218e-06, "loss": 0.0684, "step": 76475 }, { "epoch": 20.4, "grad_norm": 4.030656337738037, "learning_rate": 1.5689275362318842e-06, "loss": 0.0694, "step": 76500 }, { "epoch": 20.406666666666666, "grad_norm": 5.022584438323975, "learning_rate": 1.5660289855072467e-06, "loss": 0.0689, "step": 76525 }, { "epoch": 20.413333333333334, "grad_norm": 5.976170063018799, "learning_rate": 1.5631304347826087e-06, "loss": 0.075, "step": 76550 }, { "epoch": 20.42, "grad_norm": 4.599714279174805, "learning_rate": 1.560231884057971e-06, "loss": 0.069, "step": 76575 }, { "epoch": 20.426666666666666, "grad_norm": 4.868023872375488, "learning_rate": 1.5573333333333335e-06, "loss": 0.0693, "step": 76600 }, { "epoch": 20.433333333333334, "grad_norm": 7.023025035858154, "learning_rate": 1.554434782608696e-06, "loss": 0.0724, "step": 76625 }, { "epoch": 20.44, "grad_norm": 3.7071945667266846, "learning_rate": 1.5515362318840582e-06, "loss": 0.0682, "step": 76650 }, { "epoch": 20.446666666666665, "grad_norm": 3.822779417037964, "learning_rate": 1.5486376811594204e-06, "loss": 0.0719, "step": 76675 }, { "epoch": 20.453333333333333, "grad_norm": 5.279562950134277, "learning_rate": 1.5457391304347826e-06, "loss": 0.0658, "step": 76700 }, { "epoch": 20.46, "grad_norm": 3.039698600769043, "learning_rate": 1.542840579710145e-06, "loss": 0.0812, "step": 76725 }, { "epoch": 20.466666666666665, "grad_norm": 3.8948378562927246, "learning_rate": 1.5399420289855074e-06, "loss": 0.0648, "step": 76750 }, { "epoch": 20.473333333333333, "grad_norm": 5.547417640686035, "learning_rate": 1.5370434782608699e-06, "loss": 0.0641, "step": 76775 }, { "epoch": 20.48, "grad_norm": 5.27263069152832, "learning_rate": 1.5341449275362319e-06, "loss": 0.0726, "step": 76800 }, { "epoch": 20.486666666666668, "grad_norm": 4.628249168395996, "learning_rate": 1.5312463768115943e-06, "loss": 0.0734, "step": 76825 }, { "epoch": 20.493333333333332, "grad_norm": 5.884029388427734, "learning_rate": 1.5283478260869567e-06, "loss": 0.0817, "step": 76850 }, { "epoch": 20.5, "grad_norm": 5.112502098083496, "learning_rate": 1.525449275362319e-06, "loss": 0.0861, "step": 76875 }, { "epoch": 20.506666666666668, "grad_norm": 3.8692290782928467, "learning_rate": 1.5225507246376814e-06, "loss": 0.076, "step": 76900 }, { "epoch": 20.513333333333332, "grad_norm": 5.756317615509033, "learning_rate": 1.5196521739130436e-06, "loss": 0.0692, "step": 76925 }, { "epoch": 20.52, "grad_norm": 3.3247487545013428, "learning_rate": 1.5167536231884058e-06, "loss": 0.0727, "step": 76950 }, { "epoch": 20.526666666666667, "grad_norm": 5.139090061187744, "learning_rate": 1.5138550724637682e-06, "loss": 0.072, "step": 76975 }, { "epoch": 20.533333333333335, "grad_norm": 5.207798004150391, "learning_rate": 1.5109565217391306e-06, "loss": 0.0791, "step": 77000 }, { "epoch": 20.54, "grad_norm": 6.053536415100098, "learning_rate": 1.508057971014493e-06, "loss": 0.0708, "step": 77025 }, { "epoch": 20.546666666666667, "grad_norm": 6.476953506469727, "learning_rate": 1.505159420289855e-06, "loss": 0.0675, "step": 77050 }, { "epoch": 20.553333333333335, "grad_norm": 5.789118766784668, "learning_rate": 1.5022608695652175e-06, "loss": 0.0791, "step": 77075 }, { "epoch": 20.56, "grad_norm": 4.146660327911377, "learning_rate": 1.4993623188405797e-06, "loss": 0.0783, "step": 77100 }, { "epoch": 20.566666666666666, "grad_norm": 6.2716217041015625, "learning_rate": 1.4964637681159421e-06, "loss": 0.0673, "step": 77125 }, { "epoch": 20.573333333333334, "grad_norm": 7.181680679321289, "learning_rate": 1.4935652173913046e-06, "loss": 0.0867, "step": 77150 }, { "epoch": 20.58, "grad_norm": 5.028200149536133, "learning_rate": 1.4906666666666666e-06, "loss": 0.0761, "step": 77175 }, { "epoch": 20.586666666666666, "grad_norm": 6.20355749130249, "learning_rate": 1.487768115942029e-06, "loss": 0.0774, "step": 77200 }, { "epoch": 20.593333333333334, "grad_norm": 4.135786533355713, "learning_rate": 1.4848695652173914e-06, "loss": 0.0804, "step": 77225 }, { "epoch": 20.6, "grad_norm": 5.373288631439209, "learning_rate": 1.4819710144927538e-06, "loss": 0.0723, "step": 77250 }, { "epoch": 20.606666666666666, "grad_norm": 5.709471225738525, "learning_rate": 1.479072463768116e-06, "loss": 0.0739, "step": 77275 }, { "epoch": 20.613333333333333, "grad_norm": 3.691180944442749, "learning_rate": 1.4761739130434785e-06, "loss": 0.0688, "step": 77300 }, { "epoch": 20.62, "grad_norm": 5.0291829109191895, "learning_rate": 1.4732753623188407e-06, "loss": 0.0652, "step": 77325 }, { "epoch": 20.626666666666665, "grad_norm": 5.817631721496582, "learning_rate": 1.470376811594203e-06, "loss": 0.0751, "step": 77350 }, { "epoch": 20.633333333333333, "grad_norm": 5.407247066497803, "learning_rate": 1.4674782608695653e-06, "loss": 0.0833, "step": 77375 }, { "epoch": 20.64, "grad_norm": 5.1858229637146, "learning_rate": 1.4645797101449278e-06, "loss": 0.0669, "step": 77400 }, { "epoch": 20.64666666666667, "grad_norm": 5.523839950561523, "learning_rate": 1.4616811594202902e-06, "loss": 0.0648, "step": 77425 }, { "epoch": 20.653333333333332, "grad_norm": 4.935458660125732, "learning_rate": 1.4587826086956522e-06, "loss": 0.0766, "step": 77450 }, { "epoch": 20.66, "grad_norm": 6.145004749298096, "learning_rate": 1.4558840579710146e-06, "loss": 0.0755, "step": 77475 }, { "epoch": 20.666666666666668, "grad_norm": 4.056277275085449, "learning_rate": 1.4529855072463768e-06, "loss": 0.0673, "step": 77500 }, { "epoch": 20.673333333333332, "grad_norm": 6.305373191833496, "learning_rate": 1.4500869565217393e-06, "loss": 0.0851, "step": 77525 }, { "epoch": 20.68, "grad_norm": 3.589618682861328, "learning_rate": 1.4471884057971017e-06, "loss": 0.0784, "step": 77550 }, { "epoch": 20.686666666666667, "grad_norm": 4.370749473571777, "learning_rate": 1.4442898550724637e-06, "loss": 0.0789, "step": 77575 }, { "epoch": 20.693333333333335, "grad_norm": 3.3122658729553223, "learning_rate": 1.4413913043478261e-06, "loss": 0.0765, "step": 77600 }, { "epoch": 20.7, "grad_norm": 5.424559593200684, "learning_rate": 1.4384927536231885e-06, "loss": 0.0704, "step": 77625 }, { "epoch": 20.706666666666667, "grad_norm": 3.866323232650757, "learning_rate": 1.435594202898551e-06, "loss": 0.0833, "step": 77650 }, { "epoch": 20.713333333333335, "grad_norm": 3.519435405731201, "learning_rate": 1.4326956521739132e-06, "loss": 0.0706, "step": 77675 }, { "epoch": 20.72, "grad_norm": 5.917109966278076, "learning_rate": 1.4297971014492754e-06, "loss": 0.0628, "step": 77700 }, { "epoch": 20.726666666666667, "grad_norm": 3.2331559658050537, "learning_rate": 1.4268985507246378e-06, "loss": 0.0789, "step": 77725 }, { "epoch": 20.733333333333334, "grad_norm": 5.447463512420654, "learning_rate": 1.424e-06, "loss": 0.0639, "step": 77750 }, { "epoch": 20.74, "grad_norm": 3.689227819442749, "learning_rate": 1.4211014492753625e-06, "loss": 0.0742, "step": 77775 }, { "epoch": 20.746666666666666, "grad_norm": 5.718482971191406, "learning_rate": 1.418202898550725e-06, "loss": 0.0747, "step": 77800 }, { "epoch": 20.753333333333334, "grad_norm": 3.6985857486724854, "learning_rate": 1.415304347826087e-06, "loss": 0.0711, "step": 77825 }, { "epoch": 20.76, "grad_norm": 5.335108757019043, "learning_rate": 1.4124057971014493e-06, "loss": 0.0673, "step": 77850 }, { "epoch": 20.766666666666666, "grad_norm": 4.746745586395264, "learning_rate": 1.4095072463768118e-06, "loss": 0.0662, "step": 77875 }, { "epoch": 20.773333333333333, "grad_norm": 4.86131477355957, "learning_rate": 1.406608695652174e-06, "loss": 0.0816, "step": 77900 }, { "epoch": 20.78, "grad_norm": 3.6159462928771973, "learning_rate": 1.4037101449275364e-06, "loss": 0.0672, "step": 77925 }, { "epoch": 20.786666666666665, "grad_norm": 6.308316707611084, "learning_rate": 1.4008115942028986e-06, "loss": 0.0715, "step": 77950 }, { "epoch": 20.793333333333333, "grad_norm": 3.595933437347412, "learning_rate": 1.3979130434782608e-06, "loss": 0.0717, "step": 77975 }, { "epoch": 20.8, "grad_norm": 3.2236249446868896, "learning_rate": 1.3950144927536233e-06, "loss": 0.0685, "step": 78000 }, { "epoch": 20.806666666666665, "grad_norm": 4.263754367828369, "learning_rate": 1.3921159420289857e-06, "loss": 0.0687, "step": 78025 }, { "epoch": 20.813333333333333, "grad_norm": 10.392674446105957, "learning_rate": 1.389217391304348e-06, "loss": 0.066, "step": 78050 }, { "epoch": 20.82, "grad_norm": 5.208818435668945, "learning_rate": 1.3863188405797103e-06, "loss": 0.0636, "step": 78075 }, { "epoch": 20.826666666666668, "grad_norm": 5.746772289276123, "learning_rate": 1.3834202898550725e-06, "loss": 0.07, "step": 78100 }, { "epoch": 20.833333333333332, "grad_norm": 5.387279510498047, "learning_rate": 1.380521739130435e-06, "loss": 0.0733, "step": 78125 }, { "epoch": 20.84, "grad_norm": 4.193782329559326, "learning_rate": 1.3776231884057972e-06, "loss": 0.0802, "step": 78150 }, { "epoch": 20.846666666666668, "grad_norm": 5.029154300689697, "learning_rate": 1.3747246376811596e-06, "loss": 0.0728, "step": 78175 }, { "epoch": 20.85333333333333, "grad_norm": 4.8937859535217285, "learning_rate": 1.371826086956522e-06, "loss": 0.0734, "step": 78200 }, { "epoch": 20.86, "grad_norm": 3.9081664085388184, "learning_rate": 1.368927536231884e-06, "loss": 0.0775, "step": 78225 }, { "epoch": 20.866666666666667, "grad_norm": 4.772598743438721, "learning_rate": 1.3660289855072465e-06, "loss": 0.064, "step": 78250 }, { "epoch": 20.873333333333335, "grad_norm": 4.318708419799805, "learning_rate": 1.3631304347826089e-06, "loss": 0.0707, "step": 78275 }, { "epoch": 20.88, "grad_norm": 5.498206615447998, "learning_rate": 1.360231884057971e-06, "loss": 0.0796, "step": 78300 }, { "epoch": 20.886666666666667, "grad_norm": 7.614238739013672, "learning_rate": 1.3573333333333335e-06, "loss": 0.0765, "step": 78325 }, { "epoch": 20.893333333333334, "grad_norm": 2.9194176197052, "learning_rate": 1.3544347826086957e-06, "loss": 0.0639, "step": 78350 }, { "epoch": 20.9, "grad_norm": 4.066681385040283, "learning_rate": 1.351536231884058e-06, "loss": 0.0655, "step": 78375 }, { "epoch": 20.906666666666666, "grad_norm": 4.048862934112549, "learning_rate": 1.3486376811594204e-06, "loss": 0.0613, "step": 78400 }, { "epoch": 20.913333333333334, "grad_norm": 4.944583892822266, "learning_rate": 1.345855072463768e-06, "loss": 0.0711, "step": 78425 }, { "epoch": 20.92, "grad_norm": 5.077404022216797, "learning_rate": 1.3429565217391305e-06, "loss": 0.077, "step": 78450 }, { "epoch": 20.926666666666666, "grad_norm": 8.38245677947998, "learning_rate": 1.340057971014493e-06, "loss": 0.0733, "step": 78475 }, { "epoch": 20.933333333333334, "grad_norm": 3.5818517208099365, "learning_rate": 1.3371594202898552e-06, "loss": 0.0615, "step": 78500 }, { "epoch": 20.94, "grad_norm": 6.56728458404541, "learning_rate": 1.3342608695652176e-06, "loss": 0.0643, "step": 78525 }, { "epoch": 20.946666666666665, "grad_norm": 3.9139792919158936, "learning_rate": 1.3313623188405798e-06, "loss": 0.075, "step": 78550 }, { "epoch": 20.953333333333333, "grad_norm": 5.715031623840332, "learning_rate": 1.328463768115942e-06, "loss": 0.0775, "step": 78575 }, { "epoch": 20.96, "grad_norm": 6.830034255981445, "learning_rate": 1.3255652173913044e-06, "loss": 0.0685, "step": 78600 }, { "epoch": 20.966666666666665, "grad_norm": 5.490087032318115, "learning_rate": 1.3226666666666669e-06, "loss": 0.0701, "step": 78625 }, { "epoch": 20.973333333333333, "grad_norm": 4.977914333343506, "learning_rate": 1.3197681159420293e-06, "loss": 0.0682, "step": 78650 }, { "epoch": 20.98, "grad_norm": 7.904953479766846, "learning_rate": 1.3168695652173913e-06, "loss": 0.0818, "step": 78675 }, { "epoch": 20.986666666666668, "grad_norm": 3.612443685531616, "learning_rate": 1.3139710144927537e-06, "loss": 0.0606, "step": 78700 }, { "epoch": 20.993333333333332, "grad_norm": 5.730360507965088, "learning_rate": 1.311072463768116e-06, "loss": 0.066, "step": 78725 }, { "epoch": 21.0, "grad_norm": 4.647276401519775, "learning_rate": 1.3081739130434784e-06, "loss": 0.0727, "step": 78750 }, { "epoch": 21.0, "eval_cer": 26.90867077874886, "eval_loss": 0.46371427178382874, "eval_runtime": 1276.8016, "eval_samples_per_second": 3.916, "eval_steps_per_second": 0.49, "step": 78750 }, { "epoch": 21.006666666666668, "grad_norm": 3.2614426612854004, "learning_rate": 1.3052753623188408e-06, "loss": 0.0425, "step": 78775 }, { "epoch": 21.013333333333332, "grad_norm": 3.771847724914551, "learning_rate": 1.3023768115942028e-06, "loss": 0.0525, "step": 78800 }, { "epoch": 21.02, "grad_norm": 3.5614168643951416, "learning_rate": 1.299594202898551e-06, "loss": 0.0514, "step": 78825 }, { "epoch": 21.026666666666667, "grad_norm": 4.356940269470215, "learning_rate": 1.2966956521739133e-06, "loss": 0.0494, "step": 78850 }, { "epoch": 21.033333333333335, "grad_norm": 3.918349027633667, "learning_rate": 1.2937971014492754e-06, "loss": 0.0515, "step": 78875 }, { "epoch": 21.04, "grad_norm": 4.2152180671691895, "learning_rate": 1.2908985507246378e-06, "loss": 0.0495, "step": 78900 }, { "epoch": 21.046666666666667, "grad_norm": 3.488832473754883, "learning_rate": 1.288e-06, "loss": 0.0505, "step": 78925 }, { "epoch": 21.053333333333335, "grad_norm": 3.187856912612915, "learning_rate": 1.2851014492753624e-06, "loss": 0.0494, "step": 78950 }, { "epoch": 21.06, "grad_norm": 3.947246551513672, "learning_rate": 1.2822028985507248e-06, "loss": 0.0556, "step": 78975 }, { "epoch": 21.066666666666666, "grad_norm": 2.9545559883117676, "learning_rate": 1.2794202898550726e-06, "loss": 0.0456, "step": 79000 }, { "epoch": 21.073333333333334, "grad_norm": 4.610477447509766, "learning_rate": 1.276521739130435e-06, "loss": 0.0508, "step": 79025 }, { "epoch": 21.08, "grad_norm": 5.002377986907959, "learning_rate": 1.2736231884057972e-06, "loss": 0.0514, "step": 79050 }, { "epoch": 21.086666666666666, "grad_norm": 2.899893045425415, "learning_rate": 1.2707246376811594e-06, "loss": 0.0452, "step": 79075 }, { "epoch": 21.093333333333334, "grad_norm": 3.5620481967926025, "learning_rate": 1.2678260869565218e-06, "loss": 0.0511, "step": 79100 }, { "epoch": 21.1, "grad_norm": 3.8475894927978516, "learning_rate": 1.264927536231884e-06, "loss": 0.0502, "step": 79125 }, { "epoch": 21.106666666666666, "grad_norm": 4.942131042480469, "learning_rate": 1.2620289855072465e-06, "loss": 0.0493, "step": 79150 }, { "epoch": 21.113333333333333, "grad_norm": 4.001091003417969, "learning_rate": 1.259130434782609e-06, "loss": 0.0526, "step": 79175 }, { "epoch": 21.12, "grad_norm": 3.0272939205169678, "learning_rate": 1.2562318840579713e-06, "loss": 0.0494, "step": 79200 }, { "epoch": 21.126666666666665, "grad_norm": 3.961594343185425, "learning_rate": 1.2533333333333333e-06, "loss": 0.0506, "step": 79225 }, { "epoch": 21.133333333333333, "grad_norm": 4.368195533752441, "learning_rate": 1.2504347826086958e-06, "loss": 0.0457, "step": 79250 }, { "epoch": 21.14, "grad_norm": 2.238495111465454, "learning_rate": 1.2475362318840582e-06, "loss": 0.0456, "step": 79275 }, { "epoch": 21.14666666666667, "grad_norm": 3.884432792663574, "learning_rate": 1.2446376811594204e-06, "loss": 0.0515, "step": 79300 }, { "epoch": 21.153333333333332, "grad_norm": 4.020179748535156, "learning_rate": 1.2417391304347826e-06, "loss": 0.0479, "step": 79325 }, { "epoch": 21.16, "grad_norm": 3.6704483032226562, "learning_rate": 1.238840579710145e-06, "loss": 0.0451, "step": 79350 }, { "epoch": 21.166666666666668, "grad_norm": 3.1316659450531006, "learning_rate": 1.2359420289855073e-06, "loss": 0.0489, "step": 79375 }, { "epoch": 21.173333333333332, "grad_norm": 3.6279454231262207, "learning_rate": 1.2330434782608697e-06, "loss": 0.0463, "step": 79400 }, { "epoch": 21.18, "grad_norm": 2.0750138759613037, "learning_rate": 1.2301449275362321e-06, "loss": 0.0489, "step": 79425 }, { "epoch": 21.186666666666667, "grad_norm": 4.704820156097412, "learning_rate": 1.2272463768115943e-06, "loss": 0.0477, "step": 79450 }, { "epoch": 21.19333333333333, "grad_norm": 4.388314247131348, "learning_rate": 1.2243478260869567e-06, "loss": 0.0541, "step": 79475 }, { "epoch": 21.2, "grad_norm": 5.7774248123168945, "learning_rate": 1.221449275362319e-06, "loss": 0.0448, "step": 79500 }, { "epoch": 21.206666666666667, "grad_norm": 4.47971773147583, "learning_rate": 1.2185507246376812e-06, "loss": 0.0526, "step": 79525 }, { "epoch": 21.213333333333335, "grad_norm": 4.446244716644287, "learning_rate": 1.2156521739130436e-06, "loss": 0.0516, "step": 79550 }, { "epoch": 21.22, "grad_norm": 1.9114357233047485, "learning_rate": 1.2127536231884058e-06, "loss": 0.0491, "step": 79575 }, { "epoch": 21.226666666666667, "grad_norm": 4.885392665863037, "learning_rate": 1.2098550724637682e-06, "loss": 0.0431, "step": 79600 }, { "epoch": 21.233333333333334, "grad_norm": 3.358412027359009, "learning_rate": 1.2069565217391305e-06, "loss": 0.0563, "step": 79625 }, { "epoch": 21.24, "grad_norm": 4.772251129150391, "learning_rate": 1.2040579710144929e-06, "loss": 0.0561, "step": 79650 }, { "epoch": 21.246666666666666, "grad_norm": 4.841070652008057, "learning_rate": 1.2011594202898553e-06, "loss": 0.0595, "step": 79675 }, { "epoch": 21.253333333333334, "grad_norm": 6.100193977355957, "learning_rate": 1.1982608695652175e-06, "loss": 0.0453, "step": 79700 }, { "epoch": 21.26, "grad_norm": 3.792578935623169, "learning_rate": 1.1953623188405797e-06, "loss": 0.0481, "step": 79725 }, { "epoch": 21.266666666666666, "grad_norm": 6.724049091339111, "learning_rate": 1.1924637681159422e-06, "loss": 0.0478, "step": 79750 }, { "epoch": 21.273333333333333, "grad_norm": 5.722999572753906, "learning_rate": 1.1895652173913044e-06, "loss": 0.0547, "step": 79775 }, { "epoch": 21.28, "grad_norm": 4.037215709686279, "learning_rate": 1.1866666666666668e-06, "loss": 0.053, "step": 79800 }, { "epoch": 21.286666666666665, "grad_norm": 3.5269250869750977, "learning_rate": 1.183768115942029e-06, "loss": 0.0533, "step": 79825 }, { "epoch": 21.293333333333333, "grad_norm": 2.092538356781006, "learning_rate": 1.1808695652173915e-06, "loss": 0.0506, "step": 79850 }, { "epoch": 21.3, "grad_norm": 4.747567176818848, "learning_rate": 1.1779710144927539e-06, "loss": 0.0519, "step": 79875 }, { "epoch": 21.306666666666665, "grad_norm": 3.7989540100097656, "learning_rate": 1.175072463768116e-06, "loss": 0.0477, "step": 79900 }, { "epoch": 21.313333333333333, "grad_norm": 3.3993515968322754, "learning_rate": 1.1721739130434783e-06, "loss": 0.0471, "step": 79925 }, { "epoch": 21.32, "grad_norm": 3.052028179168701, "learning_rate": 1.1692753623188405e-06, "loss": 0.0476, "step": 79950 }, { "epoch": 21.326666666666668, "grad_norm": 4.270429611206055, "learning_rate": 1.166376811594203e-06, "loss": 0.0464, "step": 79975 }, { "epoch": 21.333333333333332, "grad_norm": 4.169071197509766, "learning_rate": 1.1634782608695654e-06, "loss": 0.0511, "step": 80000 }, { "epoch": 21.34, "grad_norm": 4.950501918792725, "learning_rate": 1.1605797101449276e-06, "loss": 0.0503, "step": 80025 }, { "epoch": 21.346666666666668, "grad_norm": 4.771484375, "learning_rate": 1.15768115942029e-06, "loss": 0.053, "step": 80050 }, { "epoch": 21.35333333333333, "grad_norm": 3.404331684112549, "learning_rate": 1.1547826086956522e-06, "loss": 0.0476, "step": 80075 }, { "epoch": 21.36, "grad_norm": 5.113729476928711, "learning_rate": 1.1518840579710147e-06, "loss": 0.0534, "step": 80100 }, { "epoch": 21.366666666666667, "grad_norm": 3.8690383434295654, "learning_rate": 1.1489855072463769e-06, "loss": 0.0491, "step": 80125 }, { "epoch": 21.373333333333335, "grad_norm": 2.068136215209961, "learning_rate": 1.146086956521739e-06, "loss": 0.0487, "step": 80150 }, { "epoch": 21.38, "grad_norm": 4.343874931335449, "learning_rate": 1.1431884057971015e-06, "loss": 0.0489, "step": 80175 }, { "epoch": 21.386666666666667, "grad_norm": 3.1237571239471436, "learning_rate": 1.140289855072464e-06, "loss": 0.0524, "step": 80200 }, { "epoch": 21.393333333333334, "grad_norm": 3.6920406818389893, "learning_rate": 1.1373913043478262e-06, "loss": 0.0478, "step": 80225 }, { "epoch": 21.4, "grad_norm": 4.447538375854492, "learning_rate": 1.1344927536231886e-06, "loss": 0.0489, "step": 80250 }, { "epoch": 21.406666666666666, "grad_norm": 3.8326332569122314, "learning_rate": 1.1315942028985508e-06, "loss": 0.0436, "step": 80275 }, { "epoch": 21.413333333333334, "grad_norm": 4.491021156311035, "learning_rate": 1.1286956521739132e-06, "loss": 0.0441, "step": 80300 }, { "epoch": 21.42, "grad_norm": 4.208890438079834, "learning_rate": 1.1257971014492754e-06, "loss": 0.0511, "step": 80325 }, { "epoch": 21.426666666666666, "grad_norm": 4.915008544921875, "learning_rate": 1.1228985507246376e-06, "loss": 0.0701, "step": 80350 }, { "epoch": 21.433333333333334, "grad_norm": 3.1620287895202637, "learning_rate": 1.12e-06, "loss": 0.0499, "step": 80375 }, { "epoch": 21.44, "grad_norm": 5.336302280426025, "learning_rate": 1.1171014492753623e-06, "loss": 0.0553, "step": 80400 }, { "epoch": 21.446666666666665, "grad_norm": 5.298799514770508, "learning_rate": 1.1142028985507247e-06, "loss": 0.0482, "step": 80425 }, { "epoch": 21.453333333333333, "grad_norm": 3.950234889984131, "learning_rate": 1.1113043478260871e-06, "loss": 0.05, "step": 80450 }, { "epoch": 21.46, "grad_norm": 4.097681522369385, "learning_rate": 1.1084057971014494e-06, "loss": 0.0494, "step": 80475 }, { "epoch": 21.466666666666665, "grad_norm": 4.4974188804626465, "learning_rate": 1.1055072463768118e-06, "loss": 0.0571, "step": 80500 }, { "epoch": 21.473333333333333, "grad_norm": 3.4579737186431885, "learning_rate": 1.102608695652174e-06, "loss": 0.0491, "step": 80525 }, { "epoch": 21.48, "grad_norm": 3.6873416900634766, "learning_rate": 1.0997101449275362e-06, "loss": 0.0458, "step": 80550 }, { "epoch": 21.486666666666668, "grad_norm": 4.258474826812744, "learning_rate": 1.0968115942028986e-06, "loss": 0.0531, "step": 80575 }, { "epoch": 21.493333333333332, "grad_norm": 3.425936698913574, "learning_rate": 1.0939130434782609e-06, "loss": 0.0535, "step": 80600 }, { "epoch": 21.5, "grad_norm": 4.516186237335205, "learning_rate": 1.0910144927536233e-06, "loss": 0.0542, "step": 80625 }, { "epoch": 21.506666666666668, "grad_norm": 4.727997779846191, "learning_rate": 1.0881159420289857e-06, "loss": 0.0521, "step": 80650 }, { "epoch": 21.513333333333332, "grad_norm": 4.647358417510986, "learning_rate": 1.085217391304348e-06, "loss": 0.05, "step": 80675 }, { "epoch": 21.52, "grad_norm": 4.480920791625977, "learning_rate": 1.0823188405797103e-06, "loss": 0.0627, "step": 80700 }, { "epoch": 21.526666666666667, "grad_norm": 4.677448749542236, "learning_rate": 1.0794202898550726e-06, "loss": 0.0586, "step": 80725 }, { "epoch": 21.533333333333335, "grad_norm": 4.446163654327393, "learning_rate": 1.0765217391304348e-06, "loss": 0.0535, "step": 80750 }, { "epoch": 21.54, "grad_norm": 3.1634902954101562, "learning_rate": 1.0736231884057972e-06, "loss": 0.0575, "step": 80775 }, { "epoch": 21.546666666666667, "grad_norm": 2.723113775253296, "learning_rate": 1.0707246376811594e-06, "loss": 0.0519, "step": 80800 }, { "epoch": 21.553333333333335, "grad_norm": 3.7900519371032715, "learning_rate": 1.0678260869565218e-06, "loss": 0.0501, "step": 80825 }, { "epoch": 21.56, "grad_norm": 4.046792507171631, "learning_rate": 1.064927536231884e-06, "loss": 0.0517, "step": 80850 }, { "epoch": 21.566666666666666, "grad_norm": 4.413103103637695, "learning_rate": 1.0620289855072465e-06, "loss": 0.0504, "step": 80875 }, { "epoch": 21.573333333333334, "grad_norm": 4.499053955078125, "learning_rate": 1.059130434782609e-06, "loss": 0.0589, "step": 80900 }, { "epoch": 21.58, "grad_norm": 4.1777777671813965, "learning_rate": 1.0562318840579711e-06, "loss": 0.0506, "step": 80925 }, { "epoch": 21.586666666666666, "grad_norm": 3.405369997024536, "learning_rate": 1.0533333333333333e-06, "loss": 0.051, "step": 80950 }, { "epoch": 21.593333333333334, "grad_norm": 6.297543525695801, "learning_rate": 1.0504347826086958e-06, "loss": 0.049, "step": 80975 }, { "epoch": 21.6, "grad_norm": 14.914164543151855, "learning_rate": 1.047536231884058e-06, "loss": 0.0583, "step": 81000 }, { "epoch": 21.606666666666666, "grad_norm": 5.00319766998291, "learning_rate": 1.0446376811594204e-06, "loss": 0.0582, "step": 81025 }, { "epoch": 21.613333333333333, "grad_norm": 2.895887613296509, "learning_rate": 1.0417391304347826e-06, "loss": 0.0501, "step": 81050 }, { "epoch": 21.62, "grad_norm": 4.367408752441406, "learning_rate": 1.038840579710145e-06, "loss": 0.0531, "step": 81075 }, { "epoch": 21.626666666666665, "grad_norm": 3.333562135696411, "learning_rate": 1.0359420289855075e-06, "loss": 0.0545, "step": 81100 }, { "epoch": 21.633333333333333, "grad_norm": 5.34510612487793, "learning_rate": 1.0330434782608697e-06, "loss": 0.0513, "step": 81125 }, { "epoch": 21.64, "grad_norm": 5.3908185958862305, "learning_rate": 1.030144927536232e-06, "loss": 0.0538, "step": 81150 }, { "epoch": 21.64666666666667, "grad_norm": 3.7106716632843018, "learning_rate": 1.0272463768115941e-06, "loss": 0.0472, "step": 81175 }, { "epoch": 21.653333333333332, "grad_norm": 3.2045698165893555, "learning_rate": 1.0243478260869565e-06, "loss": 0.0469, "step": 81200 }, { "epoch": 21.66, "grad_norm": 3.032815456390381, "learning_rate": 1.021449275362319e-06, "loss": 0.0473, "step": 81225 }, { "epoch": 21.666666666666668, "grad_norm": 4.412717819213867, "learning_rate": 1.0185507246376812e-06, "loss": 0.0524, "step": 81250 }, { "epoch": 21.673333333333332, "grad_norm": 3.4914329051971436, "learning_rate": 1.0156521739130436e-06, "loss": 0.0532, "step": 81275 }, { "epoch": 21.68, "grad_norm": 3.735934257507324, "learning_rate": 1.012753623188406e-06, "loss": 0.0458, "step": 81300 }, { "epoch": 21.686666666666667, "grad_norm": 3.8040499687194824, "learning_rate": 1.0098550724637683e-06, "loss": 0.0523, "step": 81325 }, { "epoch": 21.693333333333335, "grad_norm": 2.6163992881774902, "learning_rate": 1.0069565217391305e-06, "loss": 0.0501, "step": 81350 }, { "epoch": 21.7, "grad_norm": 6.509655475616455, "learning_rate": 1.0040579710144927e-06, "loss": 0.0524, "step": 81375 }, { "epoch": 21.706666666666667, "grad_norm": 4.658596515655518, "learning_rate": 1.0011594202898551e-06, "loss": 0.0549, "step": 81400 }, { "epoch": 21.713333333333335, "grad_norm": 3.058148145675659, "learning_rate": 9.982608695652175e-07, "loss": 0.0432, "step": 81425 }, { "epoch": 21.72, "grad_norm": 5.574088096618652, "learning_rate": 9.953623188405798e-07, "loss": 0.048, "step": 81450 }, { "epoch": 21.726666666666667, "grad_norm": 5.232772350311279, "learning_rate": 9.924637681159422e-07, "loss": 0.0462, "step": 81475 }, { "epoch": 21.733333333333334, "grad_norm": 4.889127731323242, "learning_rate": 9.895652173913044e-07, "loss": 0.0636, "step": 81500 }, { "epoch": 21.74, "grad_norm": 5.316771030426025, "learning_rate": 9.866666666666668e-07, "loss": 0.0497, "step": 81525 }, { "epoch": 21.746666666666666, "grad_norm": 3.9566116333007812, "learning_rate": 9.83768115942029e-07, "loss": 0.0514, "step": 81550 }, { "epoch": 21.753333333333334, "grad_norm": 4.237748146057129, "learning_rate": 9.808695652173912e-07, "loss": 0.0516, "step": 81575 }, { "epoch": 21.76, "grad_norm": 4.051946640014648, "learning_rate": 9.779710144927537e-07, "loss": 0.0546, "step": 81600 }, { "epoch": 21.766666666666666, "grad_norm": 4.6419172286987305, "learning_rate": 9.750724637681159e-07, "loss": 0.053, "step": 81625 }, { "epoch": 21.773333333333333, "grad_norm": 4.831100940704346, "learning_rate": 9.721739130434783e-07, "loss": 0.0565, "step": 81650 }, { "epoch": 21.78, "grad_norm": 6.725473403930664, "learning_rate": 9.692753623188407e-07, "loss": 0.057, "step": 81675 }, { "epoch": 21.786666666666665, "grad_norm": 2.9072093963623047, "learning_rate": 9.66376811594203e-07, "loss": 0.0505, "step": 81700 }, { "epoch": 21.793333333333333, "grad_norm": 3.0993294715881348, "learning_rate": 9.634782608695654e-07, "loss": 0.0657, "step": 81725 }, { "epoch": 21.8, "grad_norm": 3.620633363723755, "learning_rate": 9.605797101449276e-07, "loss": 0.0523, "step": 81750 }, { "epoch": 21.806666666666665, "grad_norm": 3.985637664794922, "learning_rate": 9.576811594202898e-07, "loss": 0.0505, "step": 81775 }, { "epoch": 21.813333333333333, "grad_norm": 3.8418915271759033, "learning_rate": 9.547826086956522e-07, "loss": 0.0569, "step": 81800 }, { "epoch": 21.82, "grad_norm": 4.005939483642578, "learning_rate": 9.518840579710146e-07, "loss": 0.0495, "step": 81825 }, { "epoch": 21.826666666666668, "grad_norm": 1.2963860034942627, "learning_rate": 9.489855072463769e-07, "loss": 0.0478, "step": 81850 }, { "epoch": 21.833333333333332, "grad_norm": 2.0069146156311035, "learning_rate": 9.460869565217393e-07, "loss": 0.0415, "step": 81875 }, { "epoch": 21.84, "grad_norm": 4.756258010864258, "learning_rate": 9.431884057971015e-07, "loss": 0.057, "step": 81900 }, { "epoch": 21.846666666666668, "grad_norm": 2.139573335647583, "learning_rate": 9.402898550724638e-07, "loss": 0.0471, "step": 81925 }, { "epoch": 21.85333333333333, "grad_norm": 4.590767860412598, "learning_rate": 9.373913043478261e-07, "loss": 0.0453, "step": 81950 }, { "epoch": 21.86, "grad_norm": 4.460538864135742, "learning_rate": 9.344927536231885e-07, "loss": 0.0514, "step": 81975 }, { "epoch": 21.866666666666667, "grad_norm": 4.2640838623046875, "learning_rate": 9.315942028985508e-07, "loss": 0.0459, "step": 82000 }, { "epoch": 21.873333333333335, "grad_norm": 5.219174861907959, "learning_rate": 9.288115942028986e-07, "loss": 0.0559, "step": 82025 }, { "epoch": 21.88, "grad_norm": 2.7232158184051514, "learning_rate": 9.259130434782609e-07, "loss": 0.0518, "step": 82050 }, { "epoch": 21.886666666666667, "grad_norm": 3.276869058609009, "learning_rate": 9.230144927536234e-07, "loss": 0.0505, "step": 82075 }, { "epoch": 21.893333333333334, "grad_norm": 4.569640636444092, "learning_rate": 9.201159420289856e-07, "loss": 0.0545, "step": 82100 }, { "epoch": 21.9, "grad_norm": 3.8777434825897217, "learning_rate": 9.172173913043479e-07, "loss": 0.0467, "step": 82125 }, { "epoch": 21.906666666666666, "grad_norm": 4.1096038818359375, "learning_rate": 9.143188405797101e-07, "loss": 0.0523, "step": 82150 }, { "epoch": 21.913333333333334, "grad_norm": 5.095638751983643, "learning_rate": 9.114202898550725e-07, "loss": 0.0545, "step": 82175 }, { "epoch": 21.92, "grad_norm": 3.907194137573242, "learning_rate": 9.085217391304349e-07, "loss": 0.0606, "step": 82200 }, { "epoch": 21.926666666666666, "grad_norm": 5.413092136383057, "learning_rate": 9.056231884057972e-07, "loss": 0.0538, "step": 82225 }, { "epoch": 21.933333333333334, "grad_norm": 4.094711780548096, "learning_rate": 9.027246376811595e-07, "loss": 0.0561, "step": 82250 }, { "epoch": 21.94, "grad_norm": 5.101634979248047, "learning_rate": 8.998260869565219e-07, "loss": 0.045, "step": 82275 }, { "epoch": 21.946666666666665, "grad_norm": 4.765960693359375, "learning_rate": 8.969275362318841e-07, "loss": 0.0481, "step": 82300 }, { "epoch": 21.953333333333333, "grad_norm": 6.723452091217041, "learning_rate": 8.940289855072465e-07, "loss": 0.066, "step": 82325 }, { "epoch": 21.96, "grad_norm": 3.888334274291992, "learning_rate": 8.911304347826087e-07, "loss": 0.0517, "step": 82350 }, { "epoch": 21.966666666666665, "grad_norm": 5.774191379547119, "learning_rate": 8.882318840579711e-07, "loss": 0.0531, "step": 82375 }, { "epoch": 21.973333333333333, "grad_norm": 3.310410499572754, "learning_rate": 8.853333333333334e-07, "loss": 0.0513, "step": 82400 }, { "epoch": 21.98, "grad_norm": 4.767726898193359, "learning_rate": 8.824347826086957e-07, "loss": 0.0626, "step": 82425 }, { "epoch": 21.986666666666668, "grad_norm": 2.953578233718872, "learning_rate": 8.795362318840581e-07, "loss": 0.0495, "step": 82450 }, { "epoch": 21.993333333333332, "grad_norm": 7.545501708984375, "learning_rate": 8.766376811594203e-07, "loss": 0.0448, "step": 82475 }, { "epoch": 22.0, "grad_norm": 3.461822509765625, "learning_rate": 8.737391304347827e-07, "loss": 0.0511, "step": 82500 }, { "epoch": 22.0, "eval_cer": 26.78940797197324, "eval_loss": 0.47058379650115967, "eval_runtime": 1333.0732, "eval_samples_per_second": 3.751, "eval_steps_per_second": 0.469, "step": 82500 }, { "epoch": 22.006666666666668, "grad_norm": 3.527639627456665, "learning_rate": 8.70840579710145e-07, "loss": 0.0372, "step": 82525 }, { "epoch": 22.013333333333332, "grad_norm": 3.600360870361328, "learning_rate": 8.679420289855072e-07, "loss": 0.0434, "step": 82550 }, { "epoch": 22.02, "grad_norm": 3.604182243347168, "learning_rate": 8.650434782608697e-07, "loss": 0.0353, "step": 82575 }, { "epoch": 22.026666666666667, "grad_norm": 2.78688383102417, "learning_rate": 8.62144927536232e-07, "loss": 0.0346, "step": 82600 }, { "epoch": 22.033333333333335, "grad_norm": 2.189281940460205, "learning_rate": 8.592463768115942e-07, "loss": 0.0294, "step": 82625 }, { "epoch": 22.04, "grad_norm": 3.8288350105285645, "learning_rate": 8.563478260869566e-07, "loss": 0.0325, "step": 82650 }, { "epoch": 22.046666666666667, "grad_norm": 2.8446877002716064, "learning_rate": 8.534492753623188e-07, "loss": 0.0331, "step": 82675 }, { "epoch": 22.053333333333335, "grad_norm": 3.543058156967163, "learning_rate": 8.505507246376813e-07, "loss": 0.0426, "step": 82700 }, { "epoch": 22.06, "grad_norm": 3.4398000240325928, "learning_rate": 8.476521739130436e-07, "loss": 0.0398, "step": 82725 }, { "epoch": 22.066666666666666, "grad_norm": 2.9219024181365967, "learning_rate": 8.447536231884058e-07, "loss": 0.0367, "step": 82750 }, { "epoch": 22.073333333333334, "grad_norm": 1.8178918361663818, "learning_rate": 8.418550724637682e-07, "loss": 0.0343, "step": 82775 }, { "epoch": 22.08, "grad_norm": 3.41963529586792, "learning_rate": 8.389565217391304e-07, "loss": 0.0407, "step": 82800 }, { "epoch": 22.086666666666666, "grad_norm": 3.3104095458984375, "learning_rate": 8.360579710144928e-07, "loss": 0.0331, "step": 82825 }, { "epoch": 22.093333333333334, "grad_norm": 2.9931042194366455, "learning_rate": 8.331594202898552e-07, "loss": 0.0395, "step": 82850 }, { "epoch": 22.1, "grad_norm": 2.6901681423187256, "learning_rate": 8.302608695652174e-07, "loss": 0.0302, "step": 82875 }, { "epoch": 22.106666666666666, "grad_norm": 2.1979377269744873, "learning_rate": 8.273623188405798e-07, "loss": 0.0314, "step": 82900 }, { "epoch": 22.113333333333333, "grad_norm": 2.756830930709839, "learning_rate": 8.24463768115942e-07, "loss": 0.0362, "step": 82925 }, { "epoch": 22.12, "grad_norm": 2.418299436569214, "learning_rate": 8.215652173913044e-07, "loss": 0.0317, "step": 82950 }, { "epoch": 22.126666666666665, "grad_norm": 4.652231216430664, "learning_rate": 8.186666666666668e-07, "loss": 0.0402, "step": 82975 }, { "epoch": 22.133333333333333, "grad_norm": 3.2298150062561035, "learning_rate": 8.15768115942029e-07, "loss": 0.0375, "step": 83000 }, { "epoch": 22.14, "grad_norm": 4.716547012329102, "learning_rate": 8.128695652173913e-07, "loss": 0.0409, "step": 83025 }, { "epoch": 22.14666666666667, "grad_norm": 5.120155334472656, "learning_rate": 8.099710144927538e-07, "loss": 0.0402, "step": 83050 }, { "epoch": 22.153333333333332, "grad_norm": 3.3838396072387695, "learning_rate": 8.07072463768116e-07, "loss": 0.0346, "step": 83075 }, { "epoch": 22.16, "grad_norm": 3.2001793384552, "learning_rate": 8.041739130434784e-07, "loss": 0.0414, "step": 83100 }, { "epoch": 22.166666666666668, "grad_norm": 3.0348541736602783, "learning_rate": 8.012753623188406e-07, "loss": 0.0371, "step": 83125 }, { "epoch": 22.173333333333332, "grad_norm": 3.9027488231658936, "learning_rate": 7.983768115942029e-07, "loss": 0.04, "step": 83150 }, { "epoch": 22.18, "grad_norm": 2.818445920944214, "learning_rate": 7.954782608695654e-07, "loss": 0.038, "step": 83175 }, { "epoch": 22.186666666666667, "grad_norm": 3.0124361515045166, "learning_rate": 7.925797101449276e-07, "loss": 0.034, "step": 83200 }, { "epoch": 22.19333333333333, "grad_norm": 2.59118390083313, "learning_rate": 7.896811594202899e-07, "loss": 0.0409, "step": 83225 }, { "epoch": 22.2, "grad_norm": 3.1293716430664062, "learning_rate": 7.867826086956522e-07, "loss": 0.0307, "step": 83250 }, { "epoch": 22.206666666666667, "grad_norm": 2.4342546463012695, "learning_rate": 7.838840579710145e-07, "loss": 0.0403, "step": 83275 }, { "epoch": 22.213333333333335, "grad_norm": 2.915640354156494, "learning_rate": 7.80985507246377e-07, "loss": 0.0417, "step": 83300 }, { "epoch": 22.22, "grad_norm": 3.1447854042053223, "learning_rate": 7.780869565217392e-07, "loss": 0.0405, "step": 83325 }, { "epoch": 22.226666666666667, "grad_norm": 3.1166768074035645, "learning_rate": 7.751884057971015e-07, "loss": 0.038, "step": 83350 }, { "epoch": 22.233333333333334, "grad_norm": 2.13798189163208, "learning_rate": 7.722898550724637e-07, "loss": 0.0383, "step": 83375 }, { "epoch": 22.24, "grad_norm": 3.0128445625305176, "learning_rate": 7.693913043478261e-07, "loss": 0.0373, "step": 83400 }, { "epoch": 22.246666666666666, "grad_norm": 3.2883059978485107, "learning_rate": 7.664927536231885e-07, "loss": 0.0372, "step": 83425 }, { "epoch": 22.253333333333334, "grad_norm": 4.137071132659912, "learning_rate": 7.635942028985508e-07, "loss": 0.0373, "step": 83450 }, { "epoch": 22.26, "grad_norm": 3.9458670616149902, "learning_rate": 7.606956521739131e-07, "loss": 0.038, "step": 83475 }, { "epoch": 22.266666666666666, "grad_norm": 3.8901772499084473, "learning_rate": 7.577971014492755e-07, "loss": 0.0381, "step": 83500 }, { "epoch": 22.273333333333333, "grad_norm": 1.8447846174240112, "learning_rate": 7.548985507246377e-07, "loss": 0.0437, "step": 83525 }, { "epoch": 22.28, "grad_norm": 2.5594024658203125, "learning_rate": 7.520000000000001e-07, "loss": 0.0338, "step": 83550 }, { "epoch": 22.286666666666665, "grad_norm": 3.9092135429382324, "learning_rate": 7.491014492753623e-07, "loss": 0.0363, "step": 83575 }, { "epoch": 22.293333333333333, "grad_norm": 3.5477864742279053, "learning_rate": 7.462028985507247e-07, "loss": 0.0413, "step": 83600 }, { "epoch": 22.3, "grad_norm": 2.618335008621216, "learning_rate": 7.43304347826087e-07, "loss": 0.0325, "step": 83625 }, { "epoch": 22.306666666666665, "grad_norm": 3.031073570251465, "learning_rate": 7.404057971014493e-07, "loss": 0.0383, "step": 83650 }, { "epoch": 22.313333333333333, "grad_norm": 2.503845453262329, "learning_rate": 7.375072463768117e-07, "loss": 0.0347, "step": 83675 }, { "epoch": 22.32, "grad_norm": 2.046858549118042, "learning_rate": 7.346086956521739e-07, "loss": 0.0379, "step": 83700 }, { "epoch": 22.326666666666668, "grad_norm": 3.6692633628845215, "learning_rate": 7.317101449275363e-07, "loss": 0.0426, "step": 83725 }, { "epoch": 22.333333333333332, "grad_norm": 2.001286506652832, "learning_rate": 7.288115942028986e-07, "loss": 0.0358, "step": 83750 }, { "epoch": 22.34, "grad_norm": 3.1849629878997803, "learning_rate": 7.259130434782608e-07, "loss": 0.0363, "step": 83775 }, { "epoch": 22.346666666666668, "grad_norm": 3.7715375423431396, "learning_rate": 7.230144927536233e-07, "loss": 0.035, "step": 83800 }, { "epoch": 22.35333333333333, "grad_norm": 2.3341026306152344, "learning_rate": 7.201159420289856e-07, "loss": 0.0356, "step": 83825 }, { "epoch": 22.36, "grad_norm": 2.8382840156555176, "learning_rate": 7.172173913043479e-07, "loss": 0.0423, "step": 83850 }, { "epoch": 22.366666666666667, "grad_norm": 2.241521120071411, "learning_rate": 7.143188405797102e-07, "loss": 0.037, "step": 83875 }, { "epoch": 22.373333333333335, "grad_norm": 4.411045551300049, "learning_rate": 7.114202898550724e-07, "loss": 0.0412, "step": 83900 }, { "epoch": 22.38, "grad_norm": 3.522968292236328, "learning_rate": 7.085217391304349e-07, "loss": 0.0431, "step": 83925 }, { "epoch": 22.386666666666667, "grad_norm": 5.336874485015869, "learning_rate": 7.056231884057972e-07, "loss": 0.0396, "step": 83950 }, { "epoch": 22.393333333333334, "grad_norm": 4.491713523864746, "learning_rate": 7.027246376811594e-07, "loss": 0.0332, "step": 83975 }, { "epoch": 22.4, "grad_norm": 7.271119594573975, "learning_rate": 6.998260869565218e-07, "loss": 0.0404, "step": 84000 }, { "epoch": 22.406666666666666, "grad_norm": 3.450390338897705, "learning_rate": 6.96927536231884e-07, "loss": 0.0411, "step": 84025 }, { "epoch": 22.413333333333334, "grad_norm": 2.78592586517334, "learning_rate": 6.940289855072465e-07, "loss": 0.0422, "step": 84050 }, { "epoch": 22.42, "grad_norm": 4.311175346374512, "learning_rate": 6.911304347826088e-07, "loss": 0.0327, "step": 84075 }, { "epoch": 22.426666666666666, "grad_norm": 4.38082218170166, "learning_rate": 6.88231884057971e-07, "loss": 0.0353, "step": 84100 }, { "epoch": 22.433333333333334, "grad_norm": 4.330105304718018, "learning_rate": 6.853333333333334e-07, "loss": 0.0428, "step": 84125 }, { "epoch": 22.44, "grad_norm": 4.0047993659973145, "learning_rate": 6.824347826086956e-07, "loss": 0.036, "step": 84150 }, { "epoch": 22.446666666666665, "grad_norm": 2.180568218231201, "learning_rate": 6.79536231884058e-07, "loss": 0.0378, "step": 84175 }, { "epoch": 22.453333333333333, "grad_norm": 3.237239122390747, "learning_rate": 6.766376811594204e-07, "loss": 0.0327, "step": 84200 }, { "epoch": 22.46, "grad_norm": 3.858114242553711, "learning_rate": 6.737391304347826e-07, "loss": 0.0368, "step": 84225 }, { "epoch": 22.466666666666665, "grad_norm": 4.072370529174805, "learning_rate": 6.70840579710145e-07, "loss": 0.039, "step": 84250 }, { "epoch": 22.473333333333333, "grad_norm": 4.314769744873047, "learning_rate": 6.679420289855074e-07, "loss": 0.0377, "step": 84275 }, { "epoch": 22.48, "grad_norm": 4.516617298126221, "learning_rate": 6.650434782608696e-07, "loss": 0.0358, "step": 84300 }, { "epoch": 22.486666666666668, "grad_norm": 3.6439104080200195, "learning_rate": 6.62144927536232e-07, "loss": 0.032, "step": 84325 }, { "epoch": 22.493333333333332, "grad_norm": 2.2669339179992676, "learning_rate": 6.592463768115942e-07, "loss": 0.0376, "step": 84350 }, { "epoch": 22.5, "grad_norm": 2.1503312587738037, "learning_rate": 6.563478260869565e-07, "loss": 0.0356, "step": 84375 }, { "epoch": 22.506666666666668, "grad_norm": 2.3803460597991943, "learning_rate": 6.53449275362319e-07, "loss": 0.0411, "step": 84400 }, { "epoch": 22.513333333333332, "grad_norm": 3.406337022781372, "learning_rate": 6.505507246376812e-07, "loss": 0.0412, "step": 84425 }, { "epoch": 22.52, "grad_norm": 3.711212158203125, "learning_rate": 6.476521739130436e-07, "loss": 0.0375, "step": 84450 }, { "epoch": 22.526666666666667, "grad_norm": 2.315436840057373, "learning_rate": 6.447536231884058e-07, "loss": 0.032, "step": 84475 }, { "epoch": 22.533333333333335, "grad_norm": 2.912299633026123, "learning_rate": 6.418550724637681e-07, "loss": 0.0367, "step": 84500 }, { "epoch": 22.54, "grad_norm": 5.336888790130615, "learning_rate": 6.389565217391306e-07, "loss": 0.0376, "step": 84525 }, { "epoch": 22.546666666666667, "grad_norm": 5.645318031311035, "learning_rate": 6.360579710144928e-07, "loss": 0.042, "step": 84550 }, { "epoch": 22.553333333333335, "grad_norm": 1.759434461593628, "learning_rate": 6.331594202898551e-07, "loss": 0.0378, "step": 84575 }, { "epoch": 22.56, "grad_norm": 5.61391544342041, "learning_rate": 6.302608695652175e-07, "loss": 0.0388, "step": 84600 }, { "epoch": 22.566666666666666, "grad_norm": 4.751680850982666, "learning_rate": 6.273623188405797e-07, "loss": 0.0365, "step": 84625 }, { "epoch": 22.573333333333334, "grad_norm": 2.562037944793701, "learning_rate": 6.244637681159421e-07, "loss": 0.0331, "step": 84650 }, { "epoch": 22.58, "grad_norm": 4.1953654289245605, "learning_rate": 6.215652173913044e-07, "loss": 0.0379, "step": 84675 }, { "epoch": 22.586666666666666, "grad_norm": 2.0694494247436523, "learning_rate": 6.186666666666667e-07, "loss": 0.032, "step": 84700 }, { "epoch": 22.593333333333334, "grad_norm": 3.8001856803894043, "learning_rate": 6.15768115942029e-07, "loss": 0.0503, "step": 84725 }, { "epoch": 22.6, "grad_norm": 2.4351816177368164, "learning_rate": 6.128695652173913e-07, "loss": 0.0378, "step": 84750 }, { "epoch": 22.606666666666666, "grad_norm": 3.405139446258545, "learning_rate": 6.099710144927537e-07, "loss": 0.0325, "step": 84775 }, { "epoch": 22.613333333333333, "grad_norm": 5.402697563171387, "learning_rate": 6.07072463768116e-07, "loss": 0.0448, "step": 84800 }, { "epoch": 22.62, "grad_norm": 1.8109861612319946, "learning_rate": 6.041739130434783e-07, "loss": 0.0332, "step": 84825 }, { "epoch": 22.626666666666665, "grad_norm": 2.8002371788024902, "learning_rate": 6.012753623188406e-07, "loss": 0.0345, "step": 84850 }, { "epoch": 22.633333333333333, "grad_norm": 2.7167341709136963, "learning_rate": 5.983768115942029e-07, "loss": 0.0366, "step": 84875 }, { "epoch": 22.64, "grad_norm": 1.6046448945999146, "learning_rate": 5.954782608695653e-07, "loss": 0.0328, "step": 84900 }, { "epoch": 22.64666666666667, "grad_norm": 4.553689002990723, "learning_rate": 5.925797101449276e-07, "loss": 0.0361, "step": 84925 }, { "epoch": 22.653333333333332, "grad_norm": 2.693063735961914, "learning_rate": 5.896811594202899e-07, "loss": 0.0338, "step": 84950 }, { "epoch": 22.66, "grad_norm": 2.2913594245910645, "learning_rate": 5.867826086956522e-07, "loss": 0.0405, "step": 84975 }, { "epoch": 22.666666666666668, "grad_norm": 1.7116106748580933, "learning_rate": 5.838840579710145e-07, "loss": 0.0435, "step": 85000 }, { "epoch": 22.673333333333332, "grad_norm": 4.259124755859375, "learning_rate": 5.809855072463769e-07, "loss": 0.0416, "step": 85025 }, { "epoch": 22.68, "grad_norm": 3.162153959274292, "learning_rate": 5.780869565217392e-07, "loss": 0.0395, "step": 85050 }, { "epoch": 22.686666666666667, "grad_norm": 3.8797547817230225, "learning_rate": 5.751884057971015e-07, "loss": 0.0393, "step": 85075 }, { "epoch": 22.693333333333335, "grad_norm": 3.722416400909424, "learning_rate": 5.722898550724638e-07, "loss": 0.0386, "step": 85100 }, { "epoch": 22.7, "grad_norm": 3.9307820796966553, "learning_rate": 5.693913043478261e-07, "loss": 0.0386, "step": 85125 }, { "epoch": 22.706666666666667, "grad_norm": 2.079188823699951, "learning_rate": 5.664927536231885e-07, "loss": 0.0346, "step": 85150 }, { "epoch": 22.713333333333335, "grad_norm": 2.6980020999908447, "learning_rate": 5.635942028985508e-07, "loss": 0.0356, "step": 85175 }, { "epoch": 22.72, "grad_norm": 2.810744524002075, "learning_rate": 5.60695652173913e-07, "loss": 0.0418, "step": 85200 }, { "epoch": 22.726666666666667, "grad_norm": 3.821526527404785, "learning_rate": 5.577971014492754e-07, "loss": 0.0349, "step": 85225 }, { "epoch": 22.733333333333334, "grad_norm": 2.432990312576294, "learning_rate": 5.548985507246378e-07, "loss": 0.0367, "step": 85250 }, { "epoch": 22.74, "grad_norm": 2.326436758041382, "learning_rate": 5.520000000000001e-07, "loss": 0.0323, "step": 85275 }, { "epoch": 22.746666666666666, "grad_norm": 3.9422476291656494, "learning_rate": 5.491014492753623e-07, "loss": 0.0372, "step": 85300 }, { "epoch": 22.753333333333334, "grad_norm": 2.8975844383239746, "learning_rate": 5.462028985507247e-07, "loss": 0.0405, "step": 85325 }, { "epoch": 22.76, "grad_norm": 3.1272504329681396, "learning_rate": 5.43304347826087e-07, "loss": 0.0349, "step": 85350 }, { "epoch": 22.766666666666666, "grad_norm": 3.7101078033447266, "learning_rate": 5.404057971014494e-07, "loss": 0.0343, "step": 85375 }, { "epoch": 22.773333333333333, "grad_norm": 3.5152785778045654, "learning_rate": 5.375072463768116e-07, "loss": 0.0327, "step": 85400 }, { "epoch": 22.78, "grad_norm": 2.71075701713562, "learning_rate": 5.346086956521739e-07, "loss": 0.0387, "step": 85425 }, { "epoch": 22.786666666666665, "grad_norm": 3.4422922134399414, "learning_rate": 5.317101449275363e-07, "loss": 0.0398, "step": 85450 }, { "epoch": 22.793333333333333, "grad_norm": 2.917841911315918, "learning_rate": 5.288115942028986e-07, "loss": 0.0339, "step": 85475 }, { "epoch": 22.8, "grad_norm": 3.0675907135009766, "learning_rate": 5.259130434782609e-07, "loss": 0.0398, "step": 85500 }, { "epoch": 22.806666666666665, "grad_norm": 3.0457651615142822, "learning_rate": 5.230144927536232e-07, "loss": 0.0448, "step": 85525 }, { "epoch": 22.813333333333333, "grad_norm": 2.8356781005859375, "learning_rate": 5.201159420289856e-07, "loss": 0.031, "step": 85550 }, { "epoch": 22.82, "grad_norm": 3.7630763053894043, "learning_rate": 5.172173913043479e-07, "loss": 0.0427, "step": 85575 }, { "epoch": 22.826666666666668, "grad_norm": 4.08357572555542, "learning_rate": 5.143188405797101e-07, "loss": 0.0398, "step": 85600 }, { "epoch": 22.833333333333332, "grad_norm": 1.7627347707748413, "learning_rate": 5.114202898550725e-07, "loss": 0.0286, "step": 85625 }, { "epoch": 22.84, "grad_norm": 2.492527961730957, "learning_rate": 5.085217391304349e-07, "loss": 0.0419, "step": 85650 }, { "epoch": 22.846666666666668, "grad_norm": 3.9639198780059814, "learning_rate": 5.056231884057972e-07, "loss": 0.0334, "step": 85675 }, { "epoch": 22.85333333333333, "grad_norm": 1.7615610361099243, "learning_rate": 5.027246376811594e-07, "loss": 0.039, "step": 85700 }, { "epoch": 22.86, "grad_norm": 3.373290777206421, "learning_rate": 4.998260869565217e-07, "loss": 0.0371, "step": 85725 }, { "epoch": 22.866666666666667, "grad_norm": 2.9584901332855225, "learning_rate": 4.969275362318841e-07, "loss": 0.0378, "step": 85750 }, { "epoch": 22.873333333333335, "grad_norm": 1.335859775543213, "learning_rate": 4.940289855072465e-07, "loss": 0.0356, "step": 85775 }, { "epoch": 22.88, "grad_norm": 4.139045715332031, "learning_rate": 4.911304347826087e-07, "loss": 0.0409, "step": 85800 }, { "epoch": 22.886666666666667, "grad_norm": 1.900292158126831, "learning_rate": 4.88231884057971e-07, "loss": 0.0385, "step": 85825 }, { "epoch": 22.893333333333334, "grad_norm": 4.888641834259033, "learning_rate": 4.853333333333333e-07, "loss": 0.0355, "step": 85850 }, { "epoch": 22.9, "grad_norm": 4.644174575805664, "learning_rate": 4.824347826086958e-07, "loss": 0.0369, "step": 85875 }, { "epoch": 22.906666666666666, "grad_norm": 2.99847412109375, "learning_rate": 4.79536231884058e-07, "loss": 0.0468, "step": 85900 }, { "epoch": 22.913333333333334, "grad_norm": 3.2762467861175537, "learning_rate": 4.7663768115942035e-07, "loss": 0.0388, "step": 85925 }, { "epoch": 22.92, "grad_norm": 2.2245073318481445, "learning_rate": 4.737391304347826e-07, "loss": 0.0318, "step": 85950 }, { "epoch": 22.926666666666666, "grad_norm": 3.0564818382263184, "learning_rate": 4.7084057971014494e-07, "loss": 0.0405, "step": 85975 }, { "epoch": 22.933333333333334, "grad_norm": 3.735011339187622, "learning_rate": 4.679420289855073e-07, "loss": 0.0335, "step": 86000 }, { "epoch": 22.94, "grad_norm": 2.014892578125, "learning_rate": 4.6504347826086963e-07, "loss": 0.0303, "step": 86025 }, { "epoch": 22.946666666666665, "grad_norm": 4.561203479766846, "learning_rate": 4.621449275362319e-07, "loss": 0.0439, "step": 86050 }, { "epoch": 22.953333333333333, "grad_norm": 3.8732964992523193, "learning_rate": 4.592463768115942e-07, "loss": 0.0374, "step": 86075 }, { "epoch": 22.96, "grad_norm": 3.1296074390411377, "learning_rate": 4.563478260869566e-07, "loss": 0.0383, "step": 86100 }, { "epoch": 22.966666666666665, "grad_norm": 4.266874313354492, "learning_rate": 4.534492753623189e-07, "loss": 0.0316, "step": 86125 }, { "epoch": 22.973333333333333, "grad_norm": 1.8083511590957642, "learning_rate": 4.505507246376812e-07, "loss": 0.0359, "step": 86150 }, { "epoch": 22.98, "grad_norm": 2.2063167095184326, "learning_rate": 4.476521739130435e-07, "loss": 0.04, "step": 86175 }, { "epoch": 22.986666666666668, "grad_norm": 3.6366355419158936, "learning_rate": 4.447536231884058e-07, "loss": 0.0348, "step": 86200 }, { "epoch": 22.993333333333332, "grad_norm": 4.350730895996094, "learning_rate": 4.418550724637682e-07, "loss": 0.042, "step": 86225 }, { "epoch": 23.0, "grad_norm": 3.835423469543457, "learning_rate": 4.3895652173913047e-07, "loss": 0.033, "step": 86250 }, { "epoch": 23.0, "eval_cer": 27.21800868382312, "eval_loss": 0.4808299243450165, "eval_runtime": 1248.2154, "eval_samples_per_second": 4.006, "eval_steps_per_second": 0.501, "step": 86250 }, { "epoch": 23.006666666666668, "grad_norm": 3.75209379196167, "learning_rate": 4.360579710144928e-07, "loss": 0.0336, "step": 86275 }, { "epoch": 23.013333333333332, "grad_norm": 1.0917595624923706, "learning_rate": 4.331594202898551e-07, "loss": 0.0275, "step": 86300 }, { "epoch": 23.02, "grad_norm": 1.6432405710220337, "learning_rate": 4.3026086956521743e-07, "loss": 0.033, "step": 86325 }, { "epoch": 23.026666666666667, "grad_norm": 2.674813747406006, "learning_rate": 4.2736231884057975e-07, "loss": 0.0324, "step": 86350 }, { "epoch": 23.033333333333335, "grad_norm": 4.493582725524902, "learning_rate": 4.2446376811594207e-07, "loss": 0.03, "step": 86375 }, { "epoch": 23.04, "grad_norm": 1.9340102672576904, "learning_rate": 4.2156521739130434e-07, "loss": 0.0299, "step": 86400 }, { "epoch": 23.046666666666667, "grad_norm": 2.185920000076294, "learning_rate": 4.186666666666667e-07, "loss": 0.0312, "step": 86425 }, { "epoch": 23.053333333333335, "grad_norm": 4.078496932983398, "learning_rate": 4.1576811594202903e-07, "loss": 0.0332, "step": 86450 }, { "epoch": 23.06, "grad_norm": 3.2141835689544678, "learning_rate": 4.1286956521739135e-07, "loss": 0.0335, "step": 86475 }, { "epoch": 23.066666666666666, "grad_norm": 1.859055995941162, "learning_rate": 4.099710144927536e-07, "loss": 0.0269, "step": 86500 }, { "epoch": 23.073333333333334, "grad_norm": 2.0694878101348877, "learning_rate": 4.0707246376811594e-07, "loss": 0.0307, "step": 86525 }, { "epoch": 23.08, "grad_norm": 3.3557677268981934, "learning_rate": 4.041739130434783e-07, "loss": 0.0347, "step": 86550 }, { "epoch": 23.086666666666666, "grad_norm": 1.794830083847046, "learning_rate": 4.0127536231884063e-07, "loss": 0.0256, "step": 86575 }, { "epoch": 23.093333333333334, "grad_norm": 2.3154051303863525, "learning_rate": 3.983768115942029e-07, "loss": 0.0279, "step": 86600 }, { "epoch": 23.1, "grad_norm": 4.146401882171631, "learning_rate": 3.954782608695652e-07, "loss": 0.0364, "step": 86625 }, { "epoch": 23.106666666666666, "grad_norm": 2.3566553592681885, "learning_rate": 3.925797101449276e-07, "loss": 0.0274, "step": 86650 }, { "epoch": 23.113333333333333, "grad_norm": 4.269131183624268, "learning_rate": 3.896811594202899e-07, "loss": 0.035, "step": 86675 }, { "epoch": 23.12, "grad_norm": 2.6557271480560303, "learning_rate": 3.867826086956522e-07, "loss": 0.0274, "step": 86700 }, { "epoch": 23.126666666666665, "grad_norm": 1.785995602607727, "learning_rate": 3.838840579710145e-07, "loss": 0.0265, "step": 86725 }, { "epoch": 23.133333333333333, "grad_norm": 3.1406092643737793, "learning_rate": 3.809855072463768e-07, "loss": 0.0273, "step": 86750 }, { "epoch": 23.14, "grad_norm": 2.091327428817749, "learning_rate": 3.780869565217392e-07, "loss": 0.0265, "step": 86775 }, { "epoch": 23.14666666666667, "grad_norm": 3.178323745727539, "learning_rate": 3.7518840579710146e-07, "loss": 0.0225, "step": 86800 }, { "epoch": 23.153333333333332, "grad_norm": 3.3188352584838867, "learning_rate": 3.722898550724638e-07, "loss": 0.0279, "step": 86825 }, { "epoch": 23.16, "grad_norm": 3.8155200481414795, "learning_rate": 3.693913043478261e-07, "loss": 0.0321, "step": 86850 }, { "epoch": 23.166666666666668, "grad_norm": 2.829983711242676, "learning_rate": 3.664927536231885e-07, "loss": 0.0257, "step": 86875 }, { "epoch": 23.173333333333332, "grad_norm": 3.3911383152008057, "learning_rate": 3.6359420289855075e-07, "loss": 0.0317, "step": 86900 }, { "epoch": 23.18, "grad_norm": 6.012027263641357, "learning_rate": 3.6069565217391307e-07, "loss": 0.0303, "step": 86925 }, { "epoch": 23.186666666666667, "grad_norm": 1.703455924987793, "learning_rate": 3.577971014492754e-07, "loss": 0.0276, "step": 86950 }, { "epoch": 23.19333333333333, "grad_norm": 2.4399778842926025, "learning_rate": 3.5489855072463766e-07, "loss": 0.0275, "step": 86975 }, { "epoch": 23.2, "grad_norm": 2.8326165676116943, "learning_rate": 3.5200000000000003e-07, "loss": 0.0263, "step": 87000 }, { "epoch": 23.206666666666667, "grad_norm": 2.4543075561523438, "learning_rate": 3.4910144927536235e-07, "loss": 0.0311, "step": 87025 }, { "epoch": 23.213333333333335, "grad_norm": 1.8871670961380005, "learning_rate": 3.4620289855072467e-07, "loss": 0.0221, "step": 87050 }, { "epoch": 23.22, "grad_norm": 1.9997212886810303, "learning_rate": 3.4330434782608694e-07, "loss": 0.0247, "step": 87075 }, { "epoch": 23.226666666666667, "grad_norm": 1.7936090230941772, "learning_rate": 3.404057971014493e-07, "loss": 0.0257, "step": 87100 }, { "epoch": 23.233333333333334, "grad_norm": 3.9044885635375977, "learning_rate": 3.3750724637681163e-07, "loss": 0.0315, "step": 87125 }, { "epoch": 23.24, "grad_norm": 3.671440601348877, "learning_rate": 3.3460869565217395e-07, "loss": 0.0259, "step": 87150 }, { "epoch": 23.246666666666666, "grad_norm": 1.8804306983947754, "learning_rate": 3.317101449275362e-07, "loss": 0.0272, "step": 87175 }, { "epoch": 23.253333333333334, "grad_norm": 2.0187463760375977, "learning_rate": 3.2881159420289854e-07, "loss": 0.0311, "step": 87200 }, { "epoch": 23.26, "grad_norm": 3.094573974609375, "learning_rate": 3.259130434782609e-07, "loss": 0.0299, "step": 87225 }, { "epoch": 23.266666666666666, "grad_norm": 3.7559797763824463, "learning_rate": 3.2301449275362323e-07, "loss": 0.0326, "step": 87250 }, { "epoch": 23.273333333333333, "grad_norm": 2.0531182289123535, "learning_rate": 3.201159420289855e-07, "loss": 0.0258, "step": 87275 }, { "epoch": 23.28, "grad_norm": 2.922579765319824, "learning_rate": 3.172173913043478e-07, "loss": 0.0332, "step": 87300 }, { "epoch": 23.286666666666665, "grad_norm": 3.3157379627227783, "learning_rate": 3.143188405797102e-07, "loss": 0.0294, "step": 87325 }, { "epoch": 23.293333333333333, "grad_norm": 2.740126371383667, "learning_rate": 3.114202898550725e-07, "loss": 0.0325, "step": 87350 }, { "epoch": 23.3, "grad_norm": 3.6041243076324463, "learning_rate": 3.085217391304348e-07, "loss": 0.0259, "step": 87375 }, { "epoch": 23.306666666666665, "grad_norm": 2.6902015209198, "learning_rate": 3.0562318840579716e-07, "loss": 0.0273, "step": 87400 }, { "epoch": 23.313333333333333, "grad_norm": 1.3474433422088623, "learning_rate": 3.027246376811594e-07, "loss": 0.0278, "step": 87425 }, { "epoch": 23.32, "grad_norm": 2.32612943649292, "learning_rate": 2.998260869565218e-07, "loss": 0.0265, "step": 87450 }, { "epoch": 23.326666666666668, "grad_norm": 2.5414633750915527, "learning_rate": 2.9692753623188407e-07, "loss": 0.0288, "step": 87475 }, { "epoch": 23.333333333333332, "grad_norm": 1.6184791326522827, "learning_rate": 2.940289855072464e-07, "loss": 0.0337, "step": 87500 }, { "epoch": 23.34, "grad_norm": 3.5194363594055176, "learning_rate": 2.911304347826087e-07, "loss": 0.0274, "step": 87525 }, { "epoch": 23.346666666666668, "grad_norm": 2.896280288696289, "learning_rate": 2.8823188405797103e-07, "loss": 0.0326, "step": 87550 }, { "epoch": 23.35333333333333, "grad_norm": 1.7762919664382935, "learning_rate": 2.8533333333333335e-07, "loss": 0.0268, "step": 87575 }, { "epoch": 23.36, "grad_norm": 1.6219533681869507, "learning_rate": 2.8243478260869567e-07, "loss": 0.0314, "step": 87600 }, { "epoch": 23.366666666666667, "grad_norm": 1.7434478998184204, "learning_rate": 2.79536231884058e-07, "loss": 0.03, "step": 87625 }, { "epoch": 23.373333333333335, "grad_norm": 2.0803048610687256, "learning_rate": 2.766376811594203e-07, "loss": 0.0354, "step": 87650 }, { "epoch": 23.38, "grad_norm": 2.44313907623291, "learning_rate": 2.7373913043478263e-07, "loss": 0.0236, "step": 87675 }, { "epoch": 23.386666666666667, "grad_norm": 2.524430274963379, "learning_rate": 2.7084057971014495e-07, "loss": 0.028, "step": 87700 }, { "epoch": 23.393333333333334, "grad_norm": 1.7740840911865234, "learning_rate": 2.6794202898550727e-07, "loss": 0.0284, "step": 87725 }, { "epoch": 23.4, "grad_norm": 2.9143285751342773, "learning_rate": 2.650434782608696e-07, "loss": 0.0278, "step": 87750 }, { "epoch": 23.406666666666666, "grad_norm": 1.7068109512329102, "learning_rate": 2.621449275362319e-07, "loss": 0.0275, "step": 87775 }, { "epoch": 23.413333333333334, "grad_norm": 2.760962724685669, "learning_rate": 2.5924637681159423e-07, "loss": 0.0281, "step": 87800 }, { "epoch": 23.42, "grad_norm": 3.2597496509552, "learning_rate": 2.5634782608695655e-07, "loss": 0.033, "step": 87825 }, { "epoch": 23.426666666666666, "grad_norm": 1.3798930644989014, "learning_rate": 2.5344927536231887e-07, "loss": 0.0299, "step": 87850 }, { "epoch": 23.433333333333334, "grad_norm": 2.0416111946105957, "learning_rate": 2.505507246376812e-07, "loss": 0.0293, "step": 87875 }, { "epoch": 23.44, "grad_norm": 2.6519546508789062, "learning_rate": 2.476521739130435e-07, "loss": 0.0269, "step": 87900 }, { "epoch": 23.446666666666665, "grad_norm": 2.5692148208618164, "learning_rate": 2.4475362318840583e-07, "loss": 0.0304, "step": 87925 }, { "epoch": 23.453333333333333, "grad_norm": 1.5911401510238647, "learning_rate": 2.4185507246376815e-07, "loss": 0.0288, "step": 87950 }, { "epoch": 23.46, "grad_norm": 4.213504791259766, "learning_rate": 2.389565217391305e-07, "loss": 0.0255, "step": 87975 }, { "epoch": 23.466666666666665, "grad_norm": 2.9067282676696777, "learning_rate": 2.3605797101449277e-07, "loss": 0.0258, "step": 88000 }, { "epoch": 23.473333333333333, "grad_norm": 1.600407600402832, "learning_rate": 2.331594202898551e-07, "loss": 0.0266, "step": 88025 }, { "epoch": 23.48, "grad_norm": 2.3964803218841553, "learning_rate": 2.3037681159420293e-07, "loss": 0.0322, "step": 88050 }, { "epoch": 23.486666666666668, "grad_norm": 1.4229989051818848, "learning_rate": 2.2747826086956523e-07, "loss": 0.0287, "step": 88075 }, { "epoch": 23.493333333333332, "grad_norm": 3.236924886703491, "learning_rate": 2.2457971014492757e-07, "loss": 0.0276, "step": 88100 }, { "epoch": 23.5, "grad_norm": 3.679145336151123, "learning_rate": 2.2168115942028987e-07, "loss": 0.0311, "step": 88125 }, { "epoch": 23.506666666666668, "grad_norm": 1.804474115371704, "learning_rate": 2.1878260869565221e-07, "loss": 0.0319, "step": 88150 }, { "epoch": 23.513333333333332, "grad_norm": 2.1955983638763428, "learning_rate": 2.158840579710145e-07, "loss": 0.027, "step": 88175 }, { "epoch": 23.52, "grad_norm": 1.9524568319320679, "learning_rate": 2.1298550724637685e-07, "loss": 0.0324, "step": 88200 }, { "epoch": 23.526666666666667, "grad_norm": 1.9826020002365112, "learning_rate": 2.1008695652173915e-07, "loss": 0.0288, "step": 88225 }, { "epoch": 23.533333333333335, "grad_norm": 2.1737821102142334, "learning_rate": 2.0718840579710144e-07, "loss": 0.0297, "step": 88250 }, { "epoch": 23.54, "grad_norm": 2.9982199668884277, "learning_rate": 2.042898550724638e-07, "loss": 0.0289, "step": 88275 }, { "epoch": 23.546666666666667, "grad_norm": 3.354403257369995, "learning_rate": 2.0139130434782608e-07, "loss": 0.0291, "step": 88300 }, { "epoch": 23.553333333333335, "grad_norm": 2.3260855674743652, "learning_rate": 1.9849275362318843e-07, "loss": 0.0297, "step": 88325 }, { "epoch": 23.56, "grad_norm": 2.571603775024414, "learning_rate": 1.9559420289855072e-07, "loss": 0.0325, "step": 88350 }, { "epoch": 23.566666666666666, "grad_norm": 3.0394904613494873, "learning_rate": 1.9269565217391307e-07, "loss": 0.0271, "step": 88375 }, { "epoch": 23.573333333333334, "grad_norm": 1.9405574798583984, "learning_rate": 1.8979710144927537e-07, "loss": 0.0293, "step": 88400 }, { "epoch": 23.58, "grad_norm": 1.7598881721496582, "learning_rate": 1.868985507246377e-07, "loss": 0.0262, "step": 88425 }, { "epoch": 23.586666666666666, "grad_norm": 3.817025661468506, "learning_rate": 1.84e-07, "loss": 0.0323, "step": 88450 }, { "epoch": 23.593333333333334, "grad_norm": 2.816018581390381, "learning_rate": 1.8110144927536235e-07, "loss": 0.0259, "step": 88475 }, { "epoch": 23.6, "grad_norm": 2.2510440349578857, "learning_rate": 1.7820289855072465e-07, "loss": 0.0286, "step": 88500 }, { "epoch": 23.606666666666666, "grad_norm": 1.3691303730010986, "learning_rate": 1.7530434782608697e-07, "loss": 0.0279, "step": 88525 }, { "epoch": 23.613333333333333, "grad_norm": 3.4103550910949707, "learning_rate": 1.724057971014493e-07, "loss": 0.0279, "step": 88550 }, { "epoch": 23.62, "grad_norm": 2.5083539485931396, "learning_rate": 1.695072463768116e-07, "loss": 0.0306, "step": 88575 }, { "epoch": 23.626666666666665, "grad_norm": 2.122925043106079, "learning_rate": 1.6660869565217393e-07, "loss": 0.0296, "step": 88600 }, { "epoch": 23.633333333333333, "grad_norm": 2.2412173748016357, "learning_rate": 1.6371014492753622e-07, "loss": 0.0412, "step": 88625 }, { "epoch": 23.64, "grad_norm": 2.751408576965332, "learning_rate": 1.6081159420289857e-07, "loss": 0.0267, "step": 88650 }, { "epoch": 23.64666666666667, "grad_norm": 2.2319908142089844, "learning_rate": 1.5791304347826086e-07, "loss": 0.0401, "step": 88675 }, { "epoch": 23.653333333333332, "grad_norm": 3.476234197616577, "learning_rate": 1.5501449275362319e-07, "loss": 0.0285, "step": 88700 }, { "epoch": 23.66, "grad_norm": 2.4999637603759766, "learning_rate": 1.521159420289855e-07, "loss": 0.0279, "step": 88725 }, { "epoch": 23.666666666666668, "grad_norm": 1.7887122631072998, "learning_rate": 1.4921739130434783e-07, "loss": 0.0351, "step": 88750 }, { "epoch": 23.673333333333332, "grad_norm": 1.7299681901931763, "learning_rate": 1.4631884057971015e-07, "loss": 0.0319, "step": 88775 }, { "epoch": 23.68, "grad_norm": 3.2381272315979004, "learning_rate": 1.4342028985507247e-07, "loss": 0.0267, "step": 88800 }, { "epoch": 23.686666666666667, "grad_norm": 1.7936351299285889, "learning_rate": 1.405217391304348e-07, "loss": 0.0252, "step": 88825 }, { "epoch": 23.693333333333335, "grad_norm": 3.5541443824768066, "learning_rate": 1.376231884057971e-07, "loss": 0.0254, "step": 88850 }, { "epoch": 23.7, "grad_norm": 2.5744376182556152, "learning_rate": 1.3472463768115943e-07, "loss": 0.0329, "step": 88875 }, { "epoch": 23.706666666666667, "grad_norm": 1.5909851789474487, "learning_rate": 1.3182608695652175e-07, "loss": 0.0298, "step": 88900 }, { "epoch": 23.713333333333335, "grad_norm": 2.0300636291503906, "learning_rate": 1.2892753623188407e-07, "loss": 0.0344, "step": 88925 }, { "epoch": 23.72, "grad_norm": 3.118055582046509, "learning_rate": 1.260289855072464e-07, "loss": 0.0289, "step": 88950 }, { "epoch": 23.726666666666667, "grad_norm": 1.9312667846679688, "learning_rate": 1.231304347826087e-07, "loss": 0.0301, "step": 88975 }, { "epoch": 23.733333333333334, "grad_norm": 3.133845090866089, "learning_rate": 1.2023188405797103e-07, "loss": 0.0297, "step": 89000 }, { "epoch": 23.74, "grad_norm": 1.878815770149231, "learning_rate": 1.1733333333333334e-07, "loss": 0.0316, "step": 89025 }, { "epoch": 23.746666666666666, "grad_norm": 2.282459020614624, "learning_rate": 1.1443478260869566e-07, "loss": 0.0248, "step": 89050 }, { "epoch": 23.753333333333334, "grad_norm": 2.480971097946167, "learning_rate": 1.1153623188405798e-07, "loss": 0.0238, "step": 89075 }, { "epoch": 23.76, "grad_norm": 1.5586977005004883, "learning_rate": 1.086376811594203e-07, "loss": 0.0352, "step": 89100 }, { "epoch": 23.766666666666666, "grad_norm": 1.5966615676879883, "learning_rate": 1.0573913043478262e-07, "loss": 0.0238, "step": 89125 }, { "epoch": 23.773333333333333, "grad_norm": 1.6441916227340698, "learning_rate": 1.0284057971014493e-07, "loss": 0.0286, "step": 89150 }, { "epoch": 23.78, "grad_norm": 2.066863775253296, "learning_rate": 9.994202898550725e-08, "loss": 0.0307, "step": 89175 }, { "epoch": 23.786666666666665, "grad_norm": 2.500751256942749, "learning_rate": 9.704347826086957e-08, "loss": 0.0288, "step": 89200 }, { "epoch": 23.793333333333333, "grad_norm": 2.0922982692718506, "learning_rate": 9.414492753623189e-08, "loss": 0.0283, "step": 89225 }, { "epoch": 23.8, "grad_norm": 3.230250597000122, "learning_rate": 9.124637681159421e-08, "loss": 0.0304, "step": 89250 }, { "epoch": 23.806666666666665, "grad_norm": 2.869513988494873, "learning_rate": 8.834782608695653e-08, "loss": 0.0307, "step": 89275 }, { "epoch": 23.813333333333333, "grad_norm": 1.8881789445877075, "learning_rate": 8.544927536231885e-08, "loss": 0.027, "step": 89300 }, { "epoch": 23.82, "grad_norm": 2.827970027923584, "learning_rate": 8.255072463768117e-08, "loss": 0.0278, "step": 89325 }, { "epoch": 23.826666666666668, "grad_norm": 2.2660083770751953, "learning_rate": 7.965217391304349e-08, "loss": 0.0307, "step": 89350 }, { "epoch": 23.833333333333332, "grad_norm": 2.6119751930236816, "learning_rate": 7.67536231884058e-08, "loss": 0.0285, "step": 89375 }, { "epoch": 23.84, "grad_norm": 3.0055792331695557, "learning_rate": 7.385507246376812e-08, "loss": 0.0356, "step": 89400 }, { "epoch": 23.846666666666668, "grad_norm": 2.1064021587371826, "learning_rate": 7.095652173913044e-08, "loss": 0.0293, "step": 89425 }, { "epoch": 23.85333333333333, "grad_norm": 2.038336753845215, "learning_rate": 6.805797101449276e-08, "loss": 0.029, "step": 89450 }, { "epoch": 23.86, "grad_norm": 2.7755637168884277, "learning_rate": 6.515942028985508e-08, "loss": 0.0274, "step": 89475 }, { "epoch": 23.866666666666667, "grad_norm": 1.921222448348999, "learning_rate": 6.22608695652174e-08, "loss": 0.0264, "step": 89500 }, { "epoch": 23.873333333333335, "grad_norm": 3.2594549655914307, "learning_rate": 5.9362318840579715e-08, "loss": 0.0312, "step": 89525 }, { "epoch": 23.88, "grad_norm": 2.190986156463623, "learning_rate": 5.6463768115942036e-08, "loss": 0.0255, "step": 89550 }, { "epoch": 23.886666666666667, "grad_norm": 2.4186477661132812, "learning_rate": 5.3565217391304356e-08, "loss": 0.0295, "step": 89575 }, { "epoch": 23.893333333333334, "grad_norm": 1.6297377347946167, "learning_rate": 5.066666666666667e-08, "loss": 0.0291, "step": 89600 }, { "epoch": 23.9, "grad_norm": 2.3415348529815674, "learning_rate": 4.776811594202899e-08, "loss": 0.0328, "step": 89625 }, { "epoch": 23.906666666666666, "grad_norm": 1.2611383199691772, "learning_rate": 4.486956521739131e-08, "loss": 0.0302, "step": 89650 }, { "epoch": 23.913333333333334, "grad_norm": 2.8900885581970215, "learning_rate": 4.197101449275363e-08, "loss": 0.029, "step": 89675 }, { "epoch": 23.92, "grad_norm": 3.1534862518310547, "learning_rate": 3.9072463768115946e-08, "loss": 0.0285, "step": 89700 }, { "epoch": 23.926666666666666, "grad_norm": 3.6497862339019775, "learning_rate": 3.6173913043478266e-08, "loss": 0.0285, "step": 89725 }, { "epoch": 23.933333333333334, "grad_norm": 2.3068413734436035, "learning_rate": 3.327536231884058e-08, "loss": 0.0247, "step": 89750 }, { "epoch": 23.94, "grad_norm": 4.4477152824401855, "learning_rate": 3.03768115942029e-08, "loss": 0.0354, "step": 89775 }, { "epoch": 23.946666666666665, "grad_norm": 3.6700408458709717, "learning_rate": 2.747826086956522e-08, "loss": 0.0261, "step": 89800 }, { "epoch": 23.953333333333333, "grad_norm": 2.0132315158843994, "learning_rate": 2.457971014492754e-08, "loss": 0.0279, "step": 89825 }, { "epoch": 23.96, "grad_norm": 3.046682596206665, "learning_rate": 2.168115942028986e-08, "loss": 0.0293, "step": 89850 }, { "epoch": 23.966666666666665, "grad_norm": 1.7281802892684937, "learning_rate": 1.8782608695652176e-08, "loss": 0.0316, "step": 89875 }, { "epoch": 23.973333333333333, "grad_norm": 4.612863063812256, "learning_rate": 1.5884057971014493e-08, "loss": 0.0373, "step": 89900 }, { "epoch": 23.98, "grad_norm": 2.3713760375976562, "learning_rate": 1.2985507246376812e-08, "loss": 0.0324, "step": 89925 }, { "epoch": 23.986666666666668, "grad_norm": 2.9625465869903564, "learning_rate": 1.0086956521739131e-08, "loss": 0.0271, "step": 89950 }, { "epoch": 23.993333333333332, "grad_norm": 2.51481294631958, "learning_rate": 7.18840579710145e-09, "loss": 0.0284, "step": 89975 }, { "epoch": 24.0, "grad_norm": 1.4979883432388306, "learning_rate": 4.289855072463768e-09, "loss": 0.0246, "step": 90000 }, { "epoch": 24.0, "eval_cer": 27.286957493990272, "eval_loss": 0.4839632213115692, "eval_runtime": 1222.7134, "eval_samples_per_second": 4.089, "eval_steps_per_second": 0.511, "step": 90000 }, { "epoch": 24.0, "step": 90000, "total_flos": 5.836810420224e+20, "train_loss": 0.0049157760812176595, "train_runtime": 56359.3571, "train_samples_per_second": 25.55, "train_steps_per_second": 1.597 } ], "logging_steps": 25, "max_steps": 90000, "num_input_tokens_seen": 0, "num_train_epochs": 24, "save_steps": 3750, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 5.836810420224e+20, "train_batch_size": 16, "trial_name": null, "trial_params": null }