{ "best_metric": 21.07783761623465, "best_model_checkpoint": "./Whisper-Small-architecture-change\\checkpoint-60000", "epoch": 16.0, "eval_steps": 3750, "global_step": 60000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.006666666666666667, "grad_norm": 111.48564910888672, "learning_rate": 5.866666666666667e-08, "loss": 11.682, "step": 25 }, { "epoch": 0.013333333333333334, "grad_norm": 70.53641510009766, "learning_rate": 1.2533333333333334e-07, "loss": 11.357, "step": 50 }, { "epoch": 0.02, "grad_norm": 66.43780517578125, "learning_rate": 1.92e-07, "loss": 10.3396, "step": 75 }, { "epoch": 0.02666666666666667, "grad_norm": 55.84492111206055, "learning_rate": 2.586666666666667e-07, "loss": 8.69, "step": 100 }, { "epoch": 0.03333333333333333, "grad_norm": 36.73503112792969, "learning_rate": 3.2533333333333333e-07, "loss": 7.0021, "step": 125 }, { "epoch": 0.04, "grad_norm": 25.967117309570312, "learning_rate": 3.92e-07, "loss": 5.9662, "step": 150 }, { "epoch": 0.04666666666666667, "grad_norm": 27.77681541442871, "learning_rate": 4.586666666666667e-07, "loss": 5.4988, "step": 175 }, { "epoch": 0.05333333333333334, "grad_norm": 29.157243728637695, "learning_rate": 5.253333333333334e-07, "loss": 5.0856, "step": 200 }, { "epoch": 0.06, "grad_norm": 31.2855224609375, "learning_rate": 5.920000000000001e-07, "loss": 4.8222, "step": 225 }, { "epoch": 0.06666666666666667, "grad_norm": 36.7702522277832, "learning_rate": 6.586666666666667e-07, "loss": 4.5603, "step": 250 }, { "epoch": 0.07333333333333333, "grad_norm": 27.600358963012695, "learning_rate": 7.253333333333335e-07, "loss": 4.3621, "step": 275 }, { "epoch": 0.08, "grad_norm": 29.353242874145508, "learning_rate": 7.920000000000001e-07, "loss": 4.2272, "step": 300 }, { "epoch": 0.08666666666666667, "grad_norm": 35.09225082397461, "learning_rate": 8.586666666666666e-07, "loss": 4.0234, "step": 325 }, { "epoch": 0.09333333333333334, "grad_norm": 30.688486099243164, "learning_rate": 9.253333333333334e-07, "loss": 3.8953, "step": 350 }, { "epoch": 0.1, "grad_norm": 29.1451473236084, "learning_rate": 9.92e-07, "loss": 3.7163, "step": 375 }, { "epoch": 0.10666666666666667, "grad_norm": 32.318363189697266, "learning_rate": 1.0586666666666667e-06, "loss": 3.6545, "step": 400 }, { "epoch": 0.11333333333333333, "grad_norm": 29.515954971313477, "learning_rate": 1.1253333333333335e-06, "loss": 3.5914, "step": 425 }, { "epoch": 0.12, "grad_norm": 31.179685592651367, "learning_rate": 1.1920000000000002e-06, "loss": 3.5222, "step": 450 }, { "epoch": 0.12666666666666668, "grad_norm": 28.281299591064453, "learning_rate": 1.2586666666666667e-06, "loss": 3.4666, "step": 475 }, { "epoch": 0.13333333333333333, "grad_norm": 32.45530319213867, "learning_rate": 1.3253333333333334e-06, "loss": 3.4865, "step": 500 }, { "epoch": 0.14, "grad_norm": 27.48408317565918, "learning_rate": 1.392e-06, "loss": 3.4875, "step": 525 }, { "epoch": 0.14666666666666667, "grad_norm": 29.316692352294922, "learning_rate": 1.458666666666667e-06, "loss": 3.3615, "step": 550 }, { "epoch": 0.15333333333333332, "grad_norm": 28.037925720214844, "learning_rate": 1.5253333333333334e-06, "loss": 3.4014, "step": 575 }, { "epoch": 0.16, "grad_norm": 29.64125633239746, "learning_rate": 1.5920000000000002e-06, "loss": 3.3759, "step": 600 }, { "epoch": 0.16666666666666666, "grad_norm": 27.532228469848633, "learning_rate": 1.6586666666666667e-06, "loss": 3.3535, "step": 625 }, { "epoch": 0.17333333333333334, "grad_norm": 28.19093894958496, "learning_rate": 1.7253333333333336e-06, "loss": 3.4183, "step": 650 }, { "epoch": 0.18, "grad_norm": 27.835262298583984, "learning_rate": 1.7920000000000002e-06, "loss": 3.3644, "step": 675 }, { "epoch": 0.18666666666666668, "grad_norm": 26.126815795898438, "learning_rate": 1.858666666666667e-06, "loss": 3.304, "step": 700 }, { "epoch": 0.19333333333333333, "grad_norm": 27.21718978881836, "learning_rate": 1.9253333333333334e-06, "loss": 3.3469, "step": 725 }, { "epoch": 0.2, "grad_norm": 27.204692840576172, "learning_rate": 1.992e-06, "loss": 3.3089, "step": 750 }, { "epoch": 0.20666666666666667, "grad_norm": 25.531513214111328, "learning_rate": 2.058666666666667e-06, "loss": 3.2543, "step": 775 }, { "epoch": 0.21333333333333335, "grad_norm": 26.769859313964844, "learning_rate": 2.1253333333333336e-06, "loss": 3.2017, "step": 800 }, { "epoch": 0.22, "grad_norm": 26.984683990478516, "learning_rate": 2.1920000000000004e-06, "loss": 3.3159, "step": 825 }, { "epoch": 0.22666666666666666, "grad_norm": 25.557384490966797, "learning_rate": 2.2586666666666667e-06, "loss": 3.2851, "step": 850 }, { "epoch": 0.23333333333333334, "grad_norm": 27.59333610534668, "learning_rate": 2.3253333333333334e-06, "loss": 3.2598, "step": 875 }, { "epoch": 0.24, "grad_norm": 28.09088897705078, "learning_rate": 2.392e-06, "loss": 3.2606, "step": 900 }, { "epoch": 0.24666666666666667, "grad_norm": 28.59324073791504, "learning_rate": 2.458666666666667e-06, "loss": 3.2862, "step": 925 }, { "epoch": 0.25333333333333335, "grad_norm": 27.096912384033203, "learning_rate": 2.5253333333333336e-06, "loss": 3.28, "step": 950 }, { "epoch": 0.26, "grad_norm": 27.33795166015625, "learning_rate": 2.592e-06, "loss": 3.2637, "step": 975 }, { "epoch": 0.26666666666666666, "grad_norm": 29.362424850463867, "learning_rate": 2.6586666666666667e-06, "loss": 3.2364, "step": 1000 }, { "epoch": 0.2733333333333333, "grad_norm": 26.813495635986328, "learning_rate": 2.725333333333334e-06, "loss": 3.2548, "step": 1025 }, { "epoch": 0.28, "grad_norm": 26.827274322509766, "learning_rate": 2.792e-06, "loss": 3.2008, "step": 1050 }, { "epoch": 0.2866666666666667, "grad_norm": 28.96709632873535, "learning_rate": 2.858666666666667e-06, "loss": 3.1766, "step": 1075 }, { "epoch": 0.29333333333333333, "grad_norm": 24.097309112548828, "learning_rate": 2.925333333333333e-06, "loss": 3.2034, "step": 1100 }, { "epoch": 0.3, "grad_norm": 25.107149124145508, "learning_rate": 2.9920000000000003e-06, "loss": 3.2556, "step": 1125 }, { "epoch": 0.30666666666666664, "grad_norm": 25.05257225036621, "learning_rate": 3.058666666666667e-06, "loss": 3.229, "step": 1150 }, { "epoch": 0.31333333333333335, "grad_norm": 22.934017181396484, "learning_rate": 3.1253333333333334e-06, "loss": 3.2092, "step": 1175 }, { "epoch": 0.32, "grad_norm": 23.711837768554688, "learning_rate": 3.192e-06, "loss": 3.2183, "step": 1200 }, { "epoch": 0.32666666666666666, "grad_norm": 28.421186447143555, "learning_rate": 3.2586666666666673e-06, "loss": 3.1794, "step": 1225 }, { "epoch": 0.3333333333333333, "grad_norm": 26.12969398498535, "learning_rate": 3.3253333333333336e-06, "loss": 3.1654, "step": 1250 }, { "epoch": 0.34, "grad_norm": 22.965322494506836, "learning_rate": 3.3920000000000003e-06, "loss": 3.2029, "step": 1275 }, { "epoch": 0.3466666666666667, "grad_norm": 23.11631965637207, "learning_rate": 3.458666666666667e-06, "loss": 3.1933, "step": 1300 }, { "epoch": 0.35333333333333333, "grad_norm": 24.940004348754883, "learning_rate": 3.5253333333333333e-06, "loss": 3.1478, "step": 1325 }, { "epoch": 0.36, "grad_norm": 24.57161521911621, "learning_rate": 3.5893333333333335e-06, "loss": 3.1821, "step": 1350 }, { "epoch": 0.36666666666666664, "grad_norm": 23.25406837463379, "learning_rate": 3.6560000000000002e-06, "loss": 3.2012, "step": 1375 }, { "epoch": 0.37333333333333335, "grad_norm": 26.07965850830078, "learning_rate": 3.7226666666666674e-06, "loss": 3.1545, "step": 1400 }, { "epoch": 0.38, "grad_norm": 22.703157424926758, "learning_rate": 3.7893333333333337e-06, "loss": 3.1155, "step": 1425 }, { "epoch": 0.38666666666666666, "grad_norm": 22.670724868774414, "learning_rate": 3.856e-06, "loss": 3.1663, "step": 1450 }, { "epoch": 0.3933333333333333, "grad_norm": 25.008970260620117, "learning_rate": 3.922666666666667e-06, "loss": 3.1335, "step": 1475 }, { "epoch": 0.4, "grad_norm": 22.752229690551758, "learning_rate": 3.9893333333333335e-06, "loss": 3.1391, "step": 1500 }, { "epoch": 0.4066666666666667, "grad_norm": 23.52843475341797, "learning_rate": 4.056000000000001e-06, "loss": 3.1677, "step": 1525 }, { "epoch": 0.41333333333333333, "grad_norm": 22.564254760742188, "learning_rate": 4.122666666666667e-06, "loss": 3.1197, "step": 1550 }, { "epoch": 0.42, "grad_norm": 20.294986724853516, "learning_rate": 4.189333333333333e-06, "loss": 3.1053, "step": 1575 }, { "epoch": 0.4266666666666667, "grad_norm": 19.375429153442383, "learning_rate": 4.256e-06, "loss": 3.1476, "step": 1600 }, { "epoch": 0.43333333333333335, "grad_norm": 21.38226318359375, "learning_rate": 4.3226666666666676e-06, "loss": 3.1562, "step": 1625 }, { "epoch": 0.44, "grad_norm": 22.087488174438477, "learning_rate": 4.389333333333334e-06, "loss": 3.0819, "step": 1650 }, { "epoch": 0.44666666666666666, "grad_norm": 19.804174423217773, "learning_rate": 4.456e-06, "loss": 3.079, "step": 1675 }, { "epoch": 0.4533333333333333, "grad_norm": 26.955942153930664, "learning_rate": 4.5226666666666665e-06, "loss": 3.1223, "step": 1700 }, { "epoch": 0.46, "grad_norm": 20.12558937072754, "learning_rate": 4.589333333333334e-06, "loss": 3.1378, "step": 1725 }, { "epoch": 0.4666666666666667, "grad_norm": 23.122295379638672, "learning_rate": 4.656000000000001e-06, "loss": 3.0952, "step": 1750 }, { "epoch": 0.47333333333333333, "grad_norm": 19.772171020507812, "learning_rate": 4.722666666666667e-06, "loss": 3.0767, "step": 1775 }, { "epoch": 0.48, "grad_norm": 20.289064407348633, "learning_rate": 4.7893333333333334e-06, "loss": 3.1164, "step": 1800 }, { "epoch": 0.4866666666666667, "grad_norm": 23.849220275878906, "learning_rate": 4.856e-06, "loss": 3.1302, "step": 1825 }, { "epoch": 0.49333333333333335, "grad_norm": 23.756196975708008, "learning_rate": 4.922666666666667e-06, "loss": 3.0519, "step": 1850 }, { "epoch": 0.5, "grad_norm": 20.326499938964844, "learning_rate": 4.989333333333334e-06, "loss": 3.0346, "step": 1875 }, { "epoch": 0.5066666666666667, "grad_norm": 19.785266876220703, "learning_rate": 5.056000000000001e-06, "loss": 3.0875, "step": 1900 }, { "epoch": 0.5133333333333333, "grad_norm": 21.80754852294922, "learning_rate": 5.122666666666667e-06, "loss": 3.0901, "step": 1925 }, { "epoch": 0.52, "grad_norm": 22.199064254760742, "learning_rate": 5.189333333333334e-06, "loss": 3.0576, "step": 1950 }, { "epoch": 0.5266666666666666, "grad_norm": 20.962785720825195, "learning_rate": 5.256e-06, "loss": 3.0939, "step": 1975 }, { "epoch": 0.5333333333333333, "grad_norm": 21.406068801879883, "learning_rate": 5.322666666666667e-06, "loss": 3.0872, "step": 2000 }, { "epoch": 0.54, "grad_norm": 19.208545684814453, "learning_rate": 5.3893333333333345e-06, "loss": 3.0632, "step": 2025 }, { "epoch": 0.5466666666666666, "grad_norm": 20.200136184692383, "learning_rate": 5.456e-06, "loss": 3.0991, "step": 2050 }, { "epoch": 0.5533333333333333, "grad_norm": 20.082595825195312, "learning_rate": 5.522666666666667e-06, "loss": 3.0377, "step": 2075 }, { "epoch": 0.56, "grad_norm": 20.546627044677734, "learning_rate": 5.589333333333333e-06, "loss": 3.0294, "step": 2100 }, { "epoch": 0.5666666666666667, "grad_norm": 20.757875442504883, "learning_rate": 5.6560000000000006e-06, "loss": 3.0606, "step": 2125 }, { "epoch": 0.5733333333333334, "grad_norm": 19.23548698425293, "learning_rate": 5.722666666666668e-06, "loss": 3.0345, "step": 2150 }, { "epoch": 0.58, "grad_norm": 19.413265228271484, "learning_rate": 5.789333333333333e-06, "loss": 3.0132, "step": 2175 }, { "epoch": 0.5866666666666667, "grad_norm": 19.276395797729492, "learning_rate": 5.856e-06, "loss": 3.0395, "step": 2200 }, { "epoch": 0.5933333333333334, "grad_norm": 18.55997085571289, "learning_rate": 5.9226666666666675e-06, "loss": 3.0303, "step": 2225 }, { "epoch": 0.6, "grad_norm": 19.048141479492188, "learning_rate": 5.989333333333334e-06, "loss": 3.0591, "step": 2250 }, { "epoch": 0.6066666666666667, "grad_norm": 19.092100143432617, "learning_rate": 6.056000000000001e-06, "loss": 3.0814, "step": 2275 }, { "epoch": 0.6133333333333333, "grad_norm": 17.920061111450195, "learning_rate": 6.1226666666666664e-06, "loss": 3.0183, "step": 2300 }, { "epoch": 0.62, "grad_norm": 21.999868392944336, "learning_rate": 6.189333333333334e-06, "loss": 3.0487, "step": 2325 }, { "epoch": 0.6266666666666667, "grad_norm": 19.58065414428711, "learning_rate": 6.256000000000001e-06, "loss": 3.0316, "step": 2350 }, { "epoch": 0.6333333333333333, "grad_norm": 19.273319244384766, "learning_rate": 6.322666666666667e-06, "loss": 3.107, "step": 2375 }, { "epoch": 0.64, "grad_norm": 21.751789093017578, "learning_rate": 6.389333333333334e-06, "loss": 3.0655, "step": 2400 }, { "epoch": 0.6466666666666666, "grad_norm": 18.95050811767578, "learning_rate": 6.456e-06, "loss": 3.0196, "step": 2425 }, { "epoch": 0.6533333333333333, "grad_norm": 20.24399185180664, "learning_rate": 6.522666666666667e-06, "loss": 3.0047, "step": 2450 }, { "epoch": 0.66, "grad_norm": 18.038652420043945, "learning_rate": 6.589333333333334e-06, "loss": 3.0014, "step": 2475 }, { "epoch": 0.6666666666666666, "grad_norm": 19.818687438964844, "learning_rate": 6.656e-06, "loss": 3.0015, "step": 2500 }, { "epoch": 0.6733333333333333, "grad_norm": 19.446958541870117, "learning_rate": 6.7226666666666675e-06, "loss": 3.0302, "step": 2525 }, { "epoch": 0.68, "grad_norm": 18.2159481048584, "learning_rate": 6.789333333333335e-06, "loss": 3.0402, "step": 2550 }, { "epoch": 0.6866666666666666, "grad_norm": 20.23403549194336, "learning_rate": 6.856e-06, "loss": 3.0522, "step": 2575 }, { "epoch": 0.6933333333333334, "grad_norm": 18.617311477661133, "learning_rate": 6.922666666666667e-06, "loss": 3.0055, "step": 2600 }, { "epoch": 0.7, "grad_norm": 18.315711975097656, "learning_rate": 6.9893333333333336e-06, "loss": 3.0419, "step": 2625 }, { "epoch": 0.7066666666666667, "grad_norm": 17.747783660888672, "learning_rate": 7.056000000000001e-06, "loss": 3.0155, "step": 2650 }, { "epoch": 0.7133333333333334, "grad_norm": 19.420833587646484, "learning_rate": 7.122666666666668e-06, "loss": 3.0207, "step": 2675 }, { "epoch": 0.72, "grad_norm": 18.187541961669922, "learning_rate": 7.189333333333333e-06, "loss": 3.0186, "step": 2700 }, { "epoch": 0.7266666666666667, "grad_norm": 19.88573455810547, "learning_rate": 7.2560000000000005e-06, "loss": 2.9839, "step": 2725 }, { "epoch": 0.7333333333333333, "grad_norm": 19.29829216003418, "learning_rate": 7.322666666666667e-06, "loss": 2.9943, "step": 2750 }, { "epoch": 0.74, "grad_norm": 16.37192726135254, "learning_rate": 7.389333333333334e-06, "loss": 2.9936, "step": 2775 }, { "epoch": 0.7466666666666667, "grad_norm": 18.42452621459961, "learning_rate": 7.456000000000001e-06, "loss": 2.9943, "step": 2800 }, { "epoch": 0.7533333333333333, "grad_norm": 17.694307327270508, "learning_rate": 7.522666666666667e-06, "loss": 2.9651, "step": 2825 }, { "epoch": 0.76, "grad_norm": 19.521467208862305, "learning_rate": 7.589333333333334e-06, "loss": 2.9594, "step": 2850 }, { "epoch": 0.7666666666666667, "grad_norm": 21.28176498413086, "learning_rate": 7.656000000000001e-06, "loss": 3.0112, "step": 2875 }, { "epoch": 0.7733333333333333, "grad_norm": 18.655025482177734, "learning_rate": 7.722666666666666e-06, "loss": 2.9992, "step": 2900 }, { "epoch": 0.78, "grad_norm": 19.628299713134766, "learning_rate": 7.789333333333334e-06, "loss": 3.0332, "step": 2925 }, { "epoch": 0.7866666666666666, "grad_norm": 18.892627716064453, "learning_rate": 7.856e-06, "loss": 3.033, "step": 2950 }, { "epoch": 0.7933333333333333, "grad_norm": 18.027875900268555, "learning_rate": 7.922666666666668e-06, "loss": 3.0662, "step": 2975 }, { "epoch": 0.8, "grad_norm": 16.78729820251465, "learning_rate": 7.989333333333335e-06, "loss": 2.9422, "step": 3000 }, { "epoch": 0.8066666666666666, "grad_norm": 19.803417205810547, "learning_rate": 8.056e-06, "loss": 3.0041, "step": 3025 }, { "epoch": 0.8133333333333334, "grad_norm": 17.857236862182617, "learning_rate": 8.122666666666668e-06, "loss": 3.0055, "step": 3050 }, { "epoch": 0.82, "grad_norm": 19.325098037719727, "learning_rate": 8.189333333333333e-06, "loss": 2.9538, "step": 3075 }, { "epoch": 0.8266666666666667, "grad_norm": 20.034204483032227, "learning_rate": 8.256e-06, "loss": 2.9951, "step": 3100 }, { "epoch": 0.8333333333333334, "grad_norm": 17.219974517822266, "learning_rate": 8.322666666666667e-06, "loss": 3.0008, "step": 3125 }, { "epoch": 0.84, "grad_norm": 16.875280380249023, "learning_rate": 8.389333333333335e-06, "loss": 2.9735, "step": 3150 }, { "epoch": 0.8466666666666667, "grad_norm": 16.129375457763672, "learning_rate": 8.456000000000002e-06, "loss": 2.9973, "step": 3175 }, { "epoch": 0.8533333333333334, "grad_norm": 17.611738204956055, "learning_rate": 8.522666666666667e-06, "loss": 2.9945, "step": 3200 }, { "epoch": 0.86, "grad_norm": 16.94667625427246, "learning_rate": 8.589333333333334e-06, "loss": 2.9704, "step": 3225 }, { "epoch": 0.8666666666666667, "grad_norm": 17.554040908813477, "learning_rate": 8.656000000000001e-06, "loss": 2.9767, "step": 3250 }, { "epoch": 0.8733333333333333, "grad_norm": 16.486339569091797, "learning_rate": 8.722666666666667e-06, "loss": 2.934, "step": 3275 }, { "epoch": 0.88, "grad_norm": 18.204835891723633, "learning_rate": 8.789333333333334e-06, "loss": 3.0116, "step": 3300 }, { "epoch": 0.8866666666666667, "grad_norm": 17.847763061523438, "learning_rate": 8.856000000000001e-06, "loss": 3.003, "step": 3325 }, { "epoch": 0.8933333333333333, "grad_norm": 17.01093864440918, "learning_rate": 8.922666666666667e-06, "loss": 3.0009, "step": 3350 }, { "epoch": 0.9, "grad_norm": 15.349688529968262, "learning_rate": 8.989333333333334e-06, "loss": 3.0568, "step": 3375 }, { "epoch": 0.9066666666666666, "grad_norm": 16.00149917602539, "learning_rate": 9.056000000000001e-06, "loss": 2.9492, "step": 3400 }, { "epoch": 0.9133333333333333, "grad_norm": 16.562292098999023, "learning_rate": 9.122666666666668e-06, "loss": 2.9516, "step": 3425 }, { "epoch": 0.92, "grad_norm": 18.691375732421875, "learning_rate": 9.189333333333335e-06, "loss": 2.9599, "step": 3450 }, { "epoch": 0.9266666666666666, "grad_norm": 17.743772506713867, "learning_rate": 9.256e-06, "loss": 2.9765, "step": 3475 }, { "epoch": 0.9333333333333333, "grad_norm": 21.564847946166992, "learning_rate": 9.322666666666668e-06, "loss": 3.0141, "step": 3500 }, { "epoch": 0.94, "grad_norm": 17.750629425048828, "learning_rate": 9.389333333333333e-06, "loss": 2.9307, "step": 3525 }, { "epoch": 0.9466666666666667, "grad_norm": 17.04627227783203, "learning_rate": 9.456e-06, "loss": 2.9817, "step": 3550 }, { "epoch": 0.9533333333333334, "grad_norm": 17.68846321105957, "learning_rate": 9.522666666666668e-06, "loss": 2.9943, "step": 3575 }, { "epoch": 0.96, "grad_norm": 19.70555305480957, "learning_rate": 9.589333333333333e-06, "loss": 2.9401, "step": 3600 }, { "epoch": 0.9666666666666667, "grad_norm": 16.034330368041992, "learning_rate": 9.656e-06, "loss": 2.9802, "step": 3625 }, { "epoch": 0.9733333333333334, "grad_norm": 17.18195343017578, "learning_rate": 9.722666666666668e-06, "loss": 2.891, "step": 3650 }, { "epoch": 0.98, "grad_norm": 16.968229293823242, "learning_rate": 9.789333333333335e-06, "loss": 2.9233, "step": 3675 }, { "epoch": 0.9866666666666667, "grad_norm": 16.523271560668945, "learning_rate": 9.856000000000002e-06, "loss": 2.9439, "step": 3700 }, { "epoch": 0.9933333333333333, "grad_norm": 17.706613540649414, "learning_rate": 9.922666666666667e-06, "loss": 2.9929, "step": 3725 }, { "epoch": 1.0, "grad_norm": 18.36431121826172, "learning_rate": 9.989333333333334e-06, "loss": 2.9532, "step": 3750 }, { "epoch": 1.0, "eval_cer": 103.21823230158583, "eval_loss": 2.960142135620117, "eval_runtime": 1315.0175, "eval_samples_per_second": 3.802, "eval_steps_per_second": 0.475, "step": 3750 }, { "epoch": 1.0066666666666666, "grad_norm": 16.86143684387207, "learning_rate": 9.992e-06, "loss": 2.8764, "step": 3775 }, { "epoch": 1.0133333333333334, "grad_norm": 16.526630401611328, "learning_rate": 9.982476190476191e-06, "loss": 2.8755, "step": 3800 }, { "epoch": 1.02, "grad_norm": 16.470598220825195, "learning_rate": 9.972952380952382e-06, "loss": 2.8863, "step": 3825 }, { "epoch": 1.0266666666666666, "grad_norm": 17.210840225219727, "learning_rate": 9.963428571428572e-06, "loss": 2.8091, "step": 3850 }, { "epoch": 1.0333333333333334, "grad_norm": 16.355356216430664, "learning_rate": 9.953904761904763e-06, "loss": 2.905, "step": 3875 }, { "epoch": 1.04, "grad_norm": 16.987756729125977, "learning_rate": 9.944380952380953e-06, "loss": 2.9418, "step": 3900 }, { "epoch": 1.0466666666666666, "grad_norm": 16.835289001464844, "learning_rate": 9.934857142857144e-06, "loss": 2.8697, "step": 3925 }, { "epoch": 1.0533333333333332, "grad_norm": 20.176651000976562, "learning_rate": 9.925333333333335e-06, "loss": 2.8888, "step": 3950 }, { "epoch": 1.06, "grad_norm": 16.105083465576172, "learning_rate": 9.915809523809524e-06, "loss": 2.8688, "step": 3975 }, { "epoch": 1.0666666666666667, "grad_norm": 16.42608642578125, "learning_rate": 9.906285714285714e-06, "loss": 2.835, "step": 4000 }, { "epoch": 1.0733333333333333, "grad_norm": 16.13795280456543, "learning_rate": 9.896761904761905e-06, "loss": 2.8282, "step": 4025 }, { "epoch": 1.08, "grad_norm": 17.976585388183594, "learning_rate": 9.887238095238096e-06, "loss": 2.8036, "step": 4050 }, { "epoch": 1.0866666666666667, "grad_norm": 15.21644115447998, "learning_rate": 9.877714285714286e-06, "loss": 2.8241, "step": 4075 }, { "epoch": 1.0933333333333333, "grad_norm": 17.24576187133789, "learning_rate": 9.868190476190477e-06, "loss": 2.8368, "step": 4100 }, { "epoch": 1.1, "grad_norm": 16.4899959564209, "learning_rate": 9.858666666666668e-06, "loss": 2.8454, "step": 4125 }, { "epoch": 1.1066666666666667, "grad_norm": 16.6475887298584, "learning_rate": 9.849142857142858e-06, "loss": 2.8345, "step": 4150 }, { "epoch": 1.1133333333333333, "grad_norm": 18.639892578125, "learning_rate": 9.839619047619049e-06, "loss": 2.8544, "step": 4175 }, { "epoch": 1.12, "grad_norm": 15.45373821258545, "learning_rate": 9.830095238095238e-06, "loss": 2.836, "step": 4200 }, { "epoch": 1.1266666666666667, "grad_norm": 15.225053787231445, "learning_rate": 9.820571428571428e-06, "loss": 2.8233, "step": 4225 }, { "epoch": 1.1333333333333333, "grad_norm": 17.045175552368164, "learning_rate": 9.81104761904762e-06, "loss": 2.8206, "step": 4250 }, { "epoch": 1.1400000000000001, "grad_norm": 15.073892593383789, "learning_rate": 9.801523809523811e-06, "loss": 2.874, "step": 4275 }, { "epoch": 1.1466666666666667, "grad_norm": 14.833466529846191, "learning_rate": 9.792e-06, "loss": 2.9101, "step": 4300 }, { "epoch": 1.1533333333333333, "grad_norm": 16.14146614074707, "learning_rate": 9.782476190476191e-06, "loss": 2.8401, "step": 4325 }, { "epoch": 1.16, "grad_norm": 17.003978729248047, "learning_rate": 9.772952380952382e-06, "loss": 2.8505, "step": 4350 }, { "epoch": 1.1666666666666667, "grad_norm": 16.63850212097168, "learning_rate": 9.763428571428572e-06, "loss": 2.8401, "step": 4375 }, { "epoch": 1.1733333333333333, "grad_norm": 15.833580017089844, "learning_rate": 9.753904761904763e-06, "loss": 2.7945, "step": 4400 }, { "epoch": 1.18, "grad_norm": 17.91555404663086, "learning_rate": 9.744380952380954e-06, "loss": 2.8364, "step": 4425 }, { "epoch": 1.1866666666666668, "grad_norm": 14.741762161254883, "learning_rate": 9.734857142857144e-06, "loss": 2.8555, "step": 4450 }, { "epoch": 1.1933333333333334, "grad_norm": 16.537681579589844, "learning_rate": 9.725333333333335e-06, "loss": 2.7999, "step": 4475 }, { "epoch": 1.2, "grad_norm": 15.487943649291992, "learning_rate": 9.715809523809526e-06, "loss": 2.8063, "step": 4500 }, { "epoch": 1.2066666666666666, "grad_norm": 17.870975494384766, "learning_rate": 9.706285714285715e-06, "loss": 2.862, "step": 4525 }, { "epoch": 1.2133333333333334, "grad_norm": 15.674758911132812, "learning_rate": 9.696761904761905e-06, "loss": 2.8499, "step": 4550 }, { "epoch": 1.22, "grad_norm": 14.353854179382324, "learning_rate": 9.687238095238096e-06, "loss": 2.8117, "step": 4575 }, { "epoch": 1.2266666666666666, "grad_norm": 16.09757423400879, "learning_rate": 9.677714285714287e-06, "loss": 2.8722, "step": 4600 }, { "epoch": 1.2333333333333334, "grad_norm": 16.111276626586914, "learning_rate": 9.668190476190477e-06, "loss": 2.8234, "step": 4625 }, { "epoch": 1.24, "grad_norm": 15.41041374206543, "learning_rate": 9.658666666666668e-06, "loss": 2.8748, "step": 4650 }, { "epoch": 1.2466666666666666, "grad_norm": 16.559385299682617, "learning_rate": 9.649142857142858e-06, "loss": 2.8521, "step": 4675 }, { "epoch": 1.2533333333333334, "grad_norm": 17.43706512451172, "learning_rate": 9.639619047619049e-06, "loss": 2.818, "step": 4700 }, { "epoch": 1.26, "grad_norm": 18.602733612060547, "learning_rate": 9.630095238095238e-06, "loss": 2.774, "step": 4725 }, { "epoch": 1.2666666666666666, "grad_norm": 16.89970588684082, "learning_rate": 9.620571428571429e-06, "loss": 2.8309, "step": 4750 }, { "epoch": 1.2733333333333334, "grad_norm": 15.543070793151855, "learning_rate": 9.61104761904762e-06, "loss": 2.8626, "step": 4775 }, { "epoch": 1.28, "grad_norm": 16.7642765045166, "learning_rate": 9.60152380952381e-06, "loss": 2.8077, "step": 4800 }, { "epoch": 1.2866666666666666, "grad_norm": 16.84261703491211, "learning_rate": 9.592e-06, "loss": 2.7793, "step": 4825 }, { "epoch": 1.2933333333333334, "grad_norm": 15.863155364990234, "learning_rate": 9.582476190476191e-06, "loss": 2.7991, "step": 4850 }, { "epoch": 1.3, "grad_norm": 16.32493019104004, "learning_rate": 9.572952380952382e-06, "loss": 2.8647, "step": 4875 }, { "epoch": 1.3066666666666666, "grad_norm": 16.1169490814209, "learning_rate": 9.563428571428573e-06, "loss": 2.8024, "step": 4900 }, { "epoch": 1.3133333333333335, "grad_norm": 15.698304176330566, "learning_rate": 9.553904761904763e-06, "loss": 2.8291, "step": 4925 }, { "epoch": 1.32, "grad_norm": 16.78399658203125, "learning_rate": 9.544380952380952e-06, "loss": 2.8109, "step": 4950 }, { "epoch": 1.3266666666666667, "grad_norm": 15.595823287963867, "learning_rate": 9.534857142857143e-06, "loss": 2.7796, "step": 4975 }, { "epoch": 1.3333333333333333, "grad_norm": 15.49462890625, "learning_rate": 9.525333333333334e-06, "loss": 2.8492, "step": 5000 }, { "epoch": 1.34, "grad_norm": 16.262239456176758, "learning_rate": 9.515809523809524e-06, "loss": 2.7838, "step": 5025 }, { "epoch": 1.3466666666666667, "grad_norm": 16.063838958740234, "learning_rate": 9.506285714285715e-06, "loss": 2.7818, "step": 5050 }, { "epoch": 1.3533333333333333, "grad_norm": 15.840378761291504, "learning_rate": 9.496761904761905e-06, "loss": 2.8316, "step": 5075 }, { "epoch": 1.3599999999999999, "grad_norm": 16.031455993652344, "learning_rate": 9.487238095238096e-06, "loss": 2.7822, "step": 5100 }, { "epoch": 1.3666666666666667, "grad_norm": 14.828582763671875, "learning_rate": 9.477714285714287e-06, "loss": 2.7917, "step": 5125 }, { "epoch": 1.3733333333333333, "grad_norm": 15.370686531066895, "learning_rate": 9.468190476190477e-06, "loss": 2.7656, "step": 5150 }, { "epoch": 1.38, "grad_norm": 15.491660118103027, "learning_rate": 9.458666666666666e-06, "loss": 2.8148, "step": 5175 }, { "epoch": 1.3866666666666667, "grad_norm": 14.682394027709961, "learning_rate": 9.449142857142859e-06, "loss": 2.8132, "step": 5200 }, { "epoch": 1.3933333333333333, "grad_norm": 14.761981964111328, "learning_rate": 9.43961904761905e-06, "loss": 2.833, "step": 5225 }, { "epoch": 1.4, "grad_norm": 14.941573143005371, "learning_rate": 9.43009523809524e-06, "loss": 2.7797, "step": 5250 }, { "epoch": 1.4066666666666667, "grad_norm": 15.968378067016602, "learning_rate": 9.420571428571429e-06, "loss": 2.8002, "step": 5275 }, { "epoch": 1.4133333333333333, "grad_norm": 17.502164840698242, "learning_rate": 9.41104761904762e-06, "loss": 2.8625, "step": 5300 }, { "epoch": 1.42, "grad_norm": 15.159065246582031, "learning_rate": 9.40152380952381e-06, "loss": 2.9231, "step": 5325 }, { "epoch": 1.4266666666666667, "grad_norm": 16.222482681274414, "learning_rate": 9.392000000000001e-06, "loss": 2.8064, "step": 5350 }, { "epoch": 1.4333333333333333, "grad_norm": 15.661250114440918, "learning_rate": 9.382476190476192e-06, "loss": 2.8015, "step": 5375 }, { "epoch": 1.44, "grad_norm": 15.376479148864746, "learning_rate": 9.372952380952382e-06, "loss": 2.7789, "step": 5400 }, { "epoch": 1.4466666666666668, "grad_norm": 15.666557312011719, "learning_rate": 9.363428571428573e-06, "loss": 2.8137, "step": 5425 }, { "epoch": 1.4533333333333334, "grad_norm": 14.985384941101074, "learning_rate": 9.353904761904763e-06, "loss": 2.8204, "step": 5450 }, { "epoch": 1.46, "grad_norm": 15.255988121032715, "learning_rate": 9.344380952380954e-06, "loss": 2.8177, "step": 5475 }, { "epoch": 1.4666666666666668, "grad_norm": 15.279163360595703, "learning_rate": 9.334857142857143e-06, "loss": 2.7809, "step": 5500 }, { "epoch": 1.4733333333333334, "grad_norm": 15.758094787597656, "learning_rate": 9.325333333333334e-06, "loss": 2.7721, "step": 5525 }, { "epoch": 1.48, "grad_norm": 15.303472518920898, "learning_rate": 9.315809523809524e-06, "loss": 2.7369, "step": 5550 }, { "epoch": 1.4866666666666668, "grad_norm": 14.12653636932373, "learning_rate": 9.306666666666667e-06, "loss": 2.8046, "step": 5575 }, { "epoch": 1.4933333333333334, "grad_norm": 16.355955123901367, "learning_rate": 9.297142857142857e-06, "loss": 2.7826, "step": 5600 }, { "epoch": 1.5, "grad_norm": 15.703051567077637, "learning_rate": 9.287619047619048e-06, "loss": 2.764, "step": 5625 }, { "epoch": 1.5066666666666668, "grad_norm": 14.937501907348633, "learning_rate": 9.278095238095239e-06, "loss": 2.7853, "step": 5650 }, { "epoch": 1.5133333333333332, "grad_norm": 15.161550521850586, "learning_rate": 9.26857142857143e-06, "loss": 2.8154, "step": 5675 }, { "epoch": 1.52, "grad_norm": 13.784395217895508, "learning_rate": 9.25904761904762e-06, "loss": 2.8277, "step": 5700 }, { "epoch": 1.5266666666666666, "grad_norm": 16.851037979125977, "learning_rate": 9.24952380952381e-06, "loss": 2.7976, "step": 5725 }, { "epoch": 1.5333333333333332, "grad_norm": 15.013668060302734, "learning_rate": 9.240000000000001e-06, "loss": 2.7789, "step": 5750 }, { "epoch": 1.54, "grad_norm": 14.692750930786133, "learning_rate": 9.23047619047619e-06, "loss": 2.8157, "step": 5775 }, { "epoch": 1.5466666666666666, "grad_norm": 16.002431869506836, "learning_rate": 9.220952380952381e-06, "loss": 2.7956, "step": 5800 }, { "epoch": 1.5533333333333332, "grad_norm": 15.191936492919922, "learning_rate": 9.211428571428572e-06, "loss": 2.7354, "step": 5825 }, { "epoch": 1.56, "grad_norm": 16.137405395507812, "learning_rate": 9.201904761904762e-06, "loss": 2.7609, "step": 5850 }, { "epoch": 1.5666666666666667, "grad_norm": 15.041069030761719, "learning_rate": 9.192380952380953e-06, "loss": 2.7189, "step": 5875 }, { "epoch": 1.5733333333333333, "grad_norm": 15.292970657348633, "learning_rate": 9.182857142857144e-06, "loss": 2.726, "step": 5900 }, { "epoch": 1.58, "grad_norm": 16.371871948242188, "learning_rate": 9.173333333333334e-06, "loss": 2.72, "step": 5925 }, { "epoch": 1.5866666666666667, "grad_norm": 14.895946502685547, "learning_rate": 9.163809523809525e-06, "loss": 2.7343, "step": 5950 }, { "epoch": 1.5933333333333333, "grad_norm": 14.624077796936035, "learning_rate": 9.154285714285715e-06, "loss": 2.7201, "step": 5975 }, { "epoch": 1.6, "grad_norm": 13.526437759399414, "learning_rate": 9.144761904761904e-06, "loss": 2.7043, "step": 6000 }, { "epoch": 1.6066666666666667, "grad_norm": 15.214587211608887, "learning_rate": 9.135238095238095e-06, "loss": 2.7114, "step": 6025 }, { "epoch": 1.6133333333333333, "grad_norm": 15.652507781982422, "learning_rate": 9.125714285714287e-06, "loss": 2.7045, "step": 6050 }, { "epoch": 1.62, "grad_norm": 15.320863723754883, "learning_rate": 9.116190476190478e-06, "loss": 2.7613, "step": 6075 }, { "epoch": 1.6266666666666667, "grad_norm": 14.970831871032715, "learning_rate": 9.106666666666667e-06, "loss": 2.6921, "step": 6100 }, { "epoch": 1.6333333333333333, "grad_norm": 14.515832901000977, "learning_rate": 9.097142857142858e-06, "loss": 2.6593, "step": 6125 }, { "epoch": 1.6400000000000001, "grad_norm": 16.8050479888916, "learning_rate": 9.087619047619048e-06, "loss": 2.6954, "step": 6150 }, { "epoch": 1.6466666666666665, "grad_norm": 14.855195999145508, "learning_rate": 9.078095238095239e-06, "loss": 2.663, "step": 6175 }, { "epoch": 1.6533333333333333, "grad_norm": 16.569271087646484, "learning_rate": 9.06857142857143e-06, "loss": 2.7177, "step": 6200 }, { "epoch": 1.6600000000000001, "grad_norm": 16.916584014892578, "learning_rate": 9.05904761904762e-06, "loss": 2.6909, "step": 6225 }, { "epoch": 1.6666666666666665, "grad_norm": 16.045894622802734, "learning_rate": 9.049523809523811e-06, "loss": 2.6489, "step": 6250 }, { "epoch": 1.6733333333333333, "grad_norm": 15.664050102233887, "learning_rate": 9.040000000000002e-06, "loss": 2.6834, "step": 6275 }, { "epoch": 1.6800000000000002, "grad_norm": 16.403032302856445, "learning_rate": 9.030476190476192e-06, "loss": 2.6482, "step": 6300 }, { "epoch": 1.6866666666666665, "grad_norm": 15.071056365966797, "learning_rate": 9.020952380952381e-06, "loss": 2.7023, "step": 6325 }, { "epoch": 1.6933333333333334, "grad_norm": 16.039731979370117, "learning_rate": 9.011428571428572e-06, "loss": 2.6596, "step": 6350 }, { "epoch": 1.7, "grad_norm": 15.66250991821289, "learning_rate": 9.001904761904762e-06, "loss": 2.6826, "step": 6375 }, { "epoch": 1.7066666666666666, "grad_norm": 15.58034896850586, "learning_rate": 8.992380952380953e-06, "loss": 2.6642, "step": 6400 }, { "epoch": 1.7133333333333334, "grad_norm": 15.05388355255127, "learning_rate": 8.982857142857144e-06, "loss": 2.6539, "step": 6425 }, { "epoch": 1.72, "grad_norm": 15.941282272338867, "learning_rate": 8.973333333333334e-06, "loss": 2.6797, "step": 6450 }, { "epoch": 1.7266666666666666, "grad_norm": 15.509122848510742, "learning_rate": 8.963809523809525e-06, "loss": 2.601, "step": 6475 }, { "epoch": 1.7333333333333334, "grad_norm": 15.685277938842773, "learning_rate": 8.954285714285716e-06, "loss": 2.6114, "step": 6500 }, { "epoch": 1.74, "grad_norm": 15.550046920776367, "learning_rate": 8.944761904761905e-06, "loss": 2.5971, "step": 6525 }, { "epoch": 1.7466666666666666, "grad_norm": 17.410724639892578, "learning_rate": 8.935238095238095e-06, "loss": 2.5952, "step": 6550 }, { "epoch": 1.7533333333333334, "grad_norm": 21.167373657226562, "learning_rate": 8.925714285714286e-06, "loss": 2.6197, "step": 6575 }, { "epoch": 1.76, "grad_norm": 17.370641708374023, "learning_rate": 8.916190476190477e-06, "loss": 2.6445, "step": 6600 }, { "epoch": 1.7666666666666666, "grad_norm": 15.973102569580078, "learning_rate": 8.906666666666667e-06, "loss": 2.5955, "step": 6625 }, { "epoch": 1.7733333333333334, "grad_norm": 17.871570587158203, "learning_rate": 8.897142857142858e-06, "loss": 2.5929, "step": 6650 }, { "epoch": 1.78, "grad_norm": 19.134374618530273, "learning_rate": 8.887619047619049e-06, "loss": 2.6007, "step": 6675 }, { "epoch": 1.7866666666666666, "grad_norm": 17.541624069213867, "learning_rate": 8.87809523809524e-06, "loss": 2.5544, "step": 6700 }, { "epoch": 1.7933333333333334, "grad_norm": 17.06918716430664, "learning_rate": 8.86857142857143e-06, "loss": 2.5859, "step": 6725 }, { "epoch": 1.8, "grad_norm": 19.87891960144043, "learning_rate": 8.859047619047619e-06, "loss": 2.5388, "step": 6750 }, { "epoch": 1.8066666666666666, "grad_norm": 19.734249114990234, "learning_rate": 8.84952380952381e-06, "loss": 2.5038, "step": 6775 }, { "epoch": 1.8133333333333335, "grad_norm": 17.624277114868164, "learning_rate": 8.84e-06, "loss": 2.5568, "step": 6800 }, { "epoch": 1.8199999999999998, "grad_norm": 21.498424530029297, "learning_rate": 8.83047619047619e-06, "loss": 2.451, "step": 6825 }, { "epoch": 1.8266666666666667, "grad_norm": 20.936748504638672, "learning_rate": 8.820952380952381e-06, "loss": 2.4753, "step": 6850 }, { "epoch": 1.8333333333333335, "grad_norm": 18.459327697753906, "learning_rate": 8.811428571428572e-06, "loss": 2.4602, "step": 6875 }, { "epoch": 1.8399999999999999, "grad_norm": 20.695613861083984, "learning_rate": 8.801904761904763e-06, "loss": 2.4295, "step": 6900 }, { "epoch": 1.8466666666666667, "grad_norm": 20.679420471191406, "learning_rate": 8.792380952380953e-06, "loss": 2.4032, "step": 6925 }, { "epoch": 1.8533333333333335, "grad_norm": 26.248443603515625, "learning_rate": 8.782857142857144e-06, "loss": 2.3623, "step": 6950 }, { "epoch": 1.8599999999999999, "grad_norm": 21.446977615356445, "learning_rate": 8.773333333333333e-06, "loss": 2.2945, "step": 6975 }, { "epoch": 1.8666666666666667, "grad_norm": 21.89762306213379, "learning_rate": 8.763809523809525e-06, "loss": 2.2713, "step": 7000 }, { "epoch": 1.8733333333333333, "grad_norm": 19.259815216064453, "learning_rate": 8.754285714285716e-06, "loss": 2.2296, "step": 7025 }, { "epoch": 1.88, "grad_norm": 22.30799102783203, "learning_rate": 8.744761904761907e-06, "loss": 2.1756, "step": 7050 }, { "epoch": 1.8866666666666667, "grad_norm": 20.378265380859375, "learning_rate": 8.735238095238096e-06, "loss": 2.141, "step": 7075 }, { "epoch": 1.8933333333333333, "grad_norm": 21.271697998046875, "learning_rate": 8.725714285714286e-06, "loss": 2.1482, "step": 7100 }, { "epoch": 1.9, "grad_norm": 22.79062843322754, "learning_rate": 8.716190476190477e-06, "loss": 2.0361, "step": 7125 }, { "epoch": 1.9066666666666667, "grad_norm": 22.83106231689453, "learning_rate": 8.706666666666667e-06, "loss": 2.0958, "step": 7150 }, { "epoch": 1.9133333333333333, "grad_norm": 25.06936264038086, "learning_rate": 8.697142857142858e-06, "loss": 2.0034, "step": 7175 }, { "epoch": 1.92, "grad_norm": 22.417844772338867, "learning_rate": 8.687619047619049e-06, "loss": 1.9433, "step": 7200 }, { "epoch": 1.9266666666666667, "grad_norm": 25.733739852905273, "learning_rate": 8.67809523809524e-06, "loss": 1.9085, "step": 7225 }, { "epoch": 1.9333333333333333, "grad_norm": 24.351856231689453, "learning_rate": 8.66857142857143e-06, "loss": 1.9861, "step": 7250 }, { "epoch": 1.94, "grad_norm": 24.161588668823242, "learning_rate": 8.65904761904762e-06, "loss": 1.8781, "step": 7275 }, { "epoch": 1.9466666666666668, "grad_norm": 20.81451988220215, "learning_rate": 8.64952380952381e-06, "loss": 1.8516, "step": 7300 }, { "epoch": 1.9533333333333334, "grad_norm": 20.2042179107666, "learning_rate": 8.64e-06, "loss": 1.8246, "step": 7325 }, { "epoch": 1.96, "grad_norm": 23.346105575561523, "learning_rate": 8.630476190476191e-06, "loss": 1.7781, "step": 7350 }, { "epoch": 1.9666666666666668, "grad_norm": 21.258525848388672, "learning_rate": 8.620952380952382e-06, "loss": 1.7837, "step": 7375 }, { "epoch": 1.9733333333333334, "grad_norm": 22.178951263427734, "learning_rate": 8.611428571428572e-06, "loss": 1.8009, "step": 7400 }, { "epoch": 1.98, "grad_norm": 20.251590728759766, "learning_rate": 8.601904761904763e-06, "loss": 1.6948, "step": 7425 }, { "epoch": 1.9866666666666668, "grad_norm": 20.13874053955078, "learning_rate": 8.592380952380954e-06, "loss": 1.7138, "step": 7450 }, { "epoch": 1.9933333333333332, "grad_norm": 24.59872817993164, "learning_rate": 8.582857142857144e-06, "loss": 1.724, "step": 7475 }, { "epoch": 2.0, "grad_norm": 22.774494171142578, "learning_rate": 8.573333333333333e-06, "loss": 1.6561, "step": 7500 }, { "epoch": 2.0, "eval_cer": 85.20582151575573, "eval_loss": 1.6430472135543823, "eval_runtime": 1291.754, "eval_samples_per_second": 3.871, "eval_steps_per_second": 0.484, "step": 7500 }, { "epoch": 2.006666666666667, "grad_norm": 21.72251319885254, "learning_rate": 8.563809523809524e-06, "loss": 1.5521, "step": 7525 }, { "epoch": 2.013333333333333, "grad_norm": 24.857545852661133, "learning_rate": 8.554285714285714e-06, "loss": 1.5048, "step": 7550 }, { "epoch": 2.02, "grad_norm": 23.742414474487305, "learning_rate": 8.544761904761905e-06, "loss": 1.4929, "step": 7575 }, { "epoch": 2.026666666666667, "grad_norm": 20.280258178710938, "learning_rate": 8.535238095238096e-06, "loss": 1.5143, "step": 7600 }, { "epoch": 2.033333333333333, "grad_norm": 18.471202850341797, "learning_rate": 8.525714285714286e-06, "loss": 1.4439, "step": 7625 }, { "epoch": 2.04, "grad_norm": 20.669151306152344, "learning_rate": 8.516190476190477e-06, "loss": 1.4326, "step": 7650 }, { "epoch": 2.046666666666667, "grad_norm": 21.649410247802734, "learning_rate": 8.506666666666668e-06, "loss": 1.4183, "step": 7675 }, { "epoch": 2.0533333333333332, "grad_norm": 20.03469467163086, "learning_rate": 8.497142857142858e-06, "loss": 1.3939, "step": 7700 }, { "epoch": 2.06, "grad_norm": 18.327260971069336, "learning_rate": 8.487619047619047e-06, "loss": 1.4366, "step": 7725 }, { "epoch": 2.066666666666667, "grad_norm": 20.764211654663086, "learning_rate": 8.478095238095238e-06, "loss": 1.3813, "step": 7750 }, { "epoch": 2.0733333333333333, "grad_norm": 21.005420684814453, "learning_rate": 8.468571428571429e-06, "loss": 1.3773, "step": 7775 }, { "epoch": 2.08, "grad_norm": 19.39113426208496, "learning_rate": 8.459047619047621e-06, "loss": 1.3926, "step": 7800 }, { "epoch": 2.086666666666667, "grad_norm": 19.63152313232422, "learning_rate": 8.44952380952381e-06, "loss": 1.3411, "step": 7825 }, { "epoch": 2.0933333333333333, "grad_norm": 27.191076278686523, "learning_rate": 8.44e-06, "loss": 1.3435, "step": 7850 }, { "epoch": 2.1, "grad_norm": 22.037803649902344, "learning_rate": 8.430476190476191e-06, "loss": 1.3049, "step": 7875 }, { "epoch": 2.1066666666666665, "grad_norm": 17.387529373168945, "learning_rate": 8.420952380952382e-06, "loss": 1.3189, "step": 7900 }, { "epoch": 2.1133333333333333, "grad_norm": 20.002685546875, "learning_rate": 8.411428571428572e-06, "loss": 1.3441, "step": 7925 }, { "epoch": 2.12, "grad_norm": 21.194976806640625, "learning_rate": 8.401904761904761e-06, "loss": 1.297, "step": 7950 }, { "epoch": 2.1266666666666665, "grad_norm": 23.783538818359375, "learning_rate": 8.392380952380954e-06, "loss": 1.3094, "step": 7975 }, { "epoch": 2.1333333333333333, "grad_norm": 17.75897789001465, "learning_rate": 8.382857142857144e-06, "loss": 1.3079, "step": 8000 }, { "epoch": 2.14, "grad_norm": 19.98157501220703, "learning_rate": 8.373333333333335e-06, "loss": 1.2982, "step": 8025 }, { "epoch": 2.1466666666666665, "grad_norm": 19.64179229736328, "learning_rate": 8.363809523809524e-06, "loss": 1.2991, "step": 8050 }, { "epoch": 2.1533333333333333, "grad_norm": 19.64181137084961, "learning_rate": 8.354285714285715e-06, "loss": 1.2627, "step": 8075 }, { "epoch": 2.16, "grad_norm": 19.46495246887207, "learning_rate": 8.344761904761905e-06, "loss": 1.2232, "step": 8100 }, { "epoch": 2.1666666666666665, "grad_norm": 18.559446334838867, "learning_rate": 8.335238095238096e-06, "loss": 1.2437, "step": 8125 }, { "epoch": 2.1733333333333333, "grad_norm": 20.764720916748047, "learning_rate": 8.325714285714287e-06, "loss": 1.1861, "step": 8150 }, { "epoch": 2.18, "grad_norm": 17.579256057739258, "learning_rate": 8.316190476190477e-06, "loss": 1.211, "step": 8175 }, { "epoch": 2.1866666666666665, "grad_norm": 19.332504272460938, "learning_rate": 8.306666666666668e-06, "loss": 1.1416, "step": 8200 }, { "epoch": 2.1933333333333334, "grad_norm": 16.559499740600586, "learning_rate": 8.297142857142859e-06, "loss": 1.1602, "step": 8225 }, { "epoch": 2.2, "grad_norm": 24.26013946533203, "learning_rate": 8.28761904761905e-06, "loss": 1.1544, "step": 8250 }, { "epoch": 2.2066666666666666, "grad_norm": 19.228870391845703, "learning_rate": 8.278095238095238e-06, "loss": 1.1855, "step": 8275 }, { "epoch": 2.2133333333333334, "grad_norm": 18.647602081298828, "learning_rate": 8.268571428571429e-06, "loss": 1.1813, "step": 8300 }, { "epoch": 2.22, "grad_norm": 23.611543655395508, "learning_rate": 8.25904761904762e-06, "loss": 1.1737, "step": 8325 }, { "epoch": 2.2266666666666666, "grad_norm": 17.465181350708008, "learning_rate": 8.24952380952381e-06, "loss": 1.1235, "step": 8350 }, { "epoch": 2.2333333333333334, "grad_norm": 18.548580169677734, "learning_rate": 8.24e-06, "loss": 1.1738, "step": 8375 }, { "epoch": 2.24, "grad_norm": 17.74598503112793, "learning_rate": 8.230476190476191e-06, "loss": 1.1135, "step": 8400 }, { "epoch": 2.2466666666666666, "grad_norm": 16.659486770629883, "learning_rate": 8.220952380952382e-06, "loss": 1.1527, "step": 8425 }, { "epoch": 2.2533333333333334, "grad_norm": 19.308677673339844, "learning_rate": 8.211428571428573e-06, "loss": 1.1049, "step": 8450 }, { "epoch": 2.26, "grad_norm": 21.255720138549805, "learning_rate": 8.201904761904762e-06, "loss": 1.1592, "step": 8475 }, { "epoch": 2.2666666666666666, "grad_norm": 21.499372482299805, "learning_rate": 8.192380952380952e-06, "loss": 1.128, "step": 8500 }, { "epoch": 2.2733333333333334, "grad_norm": 15.15613079071045, "learning_rate": 8.182857142857143e-06, "loss": 1.0719, "step": 8525 }, { "epoch": 2.2800000000000002, "grad_norm": 26.03957176208496, "learning_rate": 8.173333333333334e-06, "loss": 1.0468, "step": 8550 }, { "epoch": 2.2866666666666666, "grad_norm": 19.44180679321289, "learning_rate": 8.163809523809524e-06, "loss": 1.0982, "step": 8575 }, { "epoch": 2.2933333333333334, "grad_norm": 17.035982131958008, "learning_rate": 8.154285714285715e-06, "loss": 1.0192, "step": 8600 }, { "epoch": 2.3, "grad_norm": 16.08663558959961, "learning_rate": 8.144761904761906e-06, "loss": 1.0695, "step": 8625 }, { "epoch": 2.3066666666666666, "grad_norm": 16.432701110839844, "learning_rate": 8.135238095238096e-06, "loss": 1.0477, "step": 8650 }, { "epoch": 2.3133333333333335, "grad_norm": 17.620851516723633, "learning_rate": 8.125714285714287e-06, "loss": 1.067, "step": 8675 }, { "epoch": 2.32, "grad_norm": 16.07837677001953, "learning_rate": 8.116190476190476e-06, "loss": 1.0353, "step": 8700 }, { "epoch": 2.3266666666666667, "grad_norm": 18.566041946411133, "learning_rate": 8.106666666666666e-06, "loss": 1.0356, "step": 8725 }, { "epoch": 2.3333333333333335, "grad_norm": 16.481660842895508, "learning_rate": 8.097142857142857e-06, "loss": 1.0434, "step": 8750 }, { "epoch": 2.34, "grad_norm": 19.292743682861328, "learning_rate": 8.08761904761905e-06, "loss": 1.0818, "step": 8775 }, { "epoch": 2.3466666666666667, "grad_norm": 16.750276565551758, "learning_rate": 8.078095238095238e-06, "loss": 1.0227, "step": 8800 }, { "epoch": 2.3533333333333335, "grad_norm": 17.977874755859375, "learning_rate": 8.068571428571429e-06, "loss": 1.0197, "step": 8825 }, { "epoch": 2.36, "grad_norm": 12.541670799255371, "learning_rate": 8.05904761904762e-06, "loss": 0.9321, "step": 8850 }, { "epoch": 2.3666666666666667, "grad_norm": 15.856850624084473, "learning_rate": 8.04952380952381e-06, "loss": 0.9868, "step": 8875 }, { "epoch": 2.3733333333333335, "grad_norm": 18.700733184814453, "learning_rate": 8.040000000000001e-06, "loss": 0.987, "step": 8900 }, { "epoch": 2.38, "grad_norm": 18.325159072875977, "learning_rate": 8.030476190476192e-06, "loss": 0.9587, "step": 8925 }, { "epoch": 2.3866666666666667, "grad_norm": 16.789459228515625, "learning_rate": 8.020952380952382e-06, "loss": 0.9676, "step": 8950 }, { "epoch": 2.3933333333333335, "grad_norm": 36.371524810791016, "learning_rate": 8.011428571428573e-06, "loss": 0.9658, "step": 8975 }, { "epoch": 2.4, "grad_norm": 13.31936264038086, "learning_rate": 8.001904761904764e-06, "loss": 0.9534, "step": 9000 }, { "epoch": 2.4066666666666667, "grad_norm": 19.60676383972168, "learning_rate": 7.992380952380952e-06, "loss": 0.9555, "step": 9025 }, { "epoch": 2.413333333333333, "grad_norm": 19.781579971313477, "learning_rate": 7.982857142857143e-06, "loss": 0.9623, "step": 9050 }, { "epoch": 2.42, "grad_norm": 21.647706985473633, "learning_rate": 7.973333333333334e-06, "loss": 0.9373, "step": 9075 }, { "epoch": 2.4266666666666667, "grad_norm": 15.396468162536621, "learning_rate": 7.963809523809524e-06, "loss": 0.9939, "step": 9100 }, { "epoch": 2.4333333333333336, "grad_norm": 17.388202667236328, "learning_rate": 7.954285714285715e-06, "loss": 0.9188, "step": 9125 }, { "epoch": 2.44, "grad_norm": 14.921174049377441, "learning_rate": 7.944761904761906e-06, "loss": 0.9327, "step": 9150 }, { "epoch": 2.4466666666666668, "grad_norm": 14.29991626739502, "learning_rate": 7.935238095238096e-06, "loss": 0.9467, "step": 9175 }, { "epoch": 2.453333333333333, "grad_norm": 13.538517951965332, "learning_rate": 7.925714285714287e-06, "loss": 0.9375, "step": 9200 }, { "epoch": 2.46, "grad_norm": 19.90230369567871, "learning_rate": 7.916190476190478e-06, "loss": 0.9452, "step": 9225 }, { "epoch": 2.466666666666667, "grad_norm": 20.52109146118164, "learning_rate": 7.906666666666667e-06, "loss": 0.9066, "step": 9250 }, { "epoch": 2.473333333333333, "grad_norm": 16.991846084594727, "learning_rate": 7.897142857142857e-06, "loss": 0.9738, "step": 9275 }, { "epoch": 2.48, "grad_norm": 16.660017013549805, "learning_rate": 7.887619047619048e-06, "loss": 0.9679, "step": 9300 }, { "epoch": 2.486666666666667, "grad_norm": 15.083931922912598, "learning_rate": 7.878095238095239e-06, "loss": 0.9257, "step": 9325 }, { "epoch": 2.493333333333333, "grad_norm": 16.560958862304688, "learning_rate": 7.86857142857143e-06, "loss": 0.9328, "step": 9350 }, { "epoch": 2.5, "grad_norm": 15.985716819763184, "learning_rate": 7.85904761904762e-06, "loss": 0.915, "step": 9375 }, { "epoch": 2.506666666666667, "grad_norm": 17.66083335876465, "learning_rate": 7.84952380952381e-06, "loss": 0.8828, "step": 9400 }, { "epoch": 2.513333333333333, "grad_norm": 14.97205924987793, "learning_rate": 7.840000000000001e-06, "loss": 0.9245, "step": 9425 }, { "epoch": 2.52, "grad_norm": 18.706052780151367, "learning_rate": 7.83047619047619e-06, "loss": 0.8524, "step": 9450 }, { "epoch": 2.5266666666666664, "grad_norm": 16.212459564208984, "learning_rate": 7.82095238095238e-06, "loss": 0.8586, "step": 9475 }, { "epoch": 2.533333333333333, "grad_norm": 24.34148597717285, "learning_rate": 7.811428571428571e-06, "loss": 0.8614, "step": 9500 }, { "epoch": 2.54, "grad_norm": 18.911888122558594, "learning_rate": 7.801904761904762e-06, "loss": 0.8959, "step": 9525 }, { "epoch": 2.546666666666667, "grad_norm": 18.964923858642578, "learning_rate": 7.792380952380953e-06, "loss": 0.8687, "step": 9550 }, { "epoch": 2.5533333333333332, "grad_norm": 20.443340301513672, "learning_rate": 7.782857142857143e-06, "loss": 0.9284, "step": 9575 }, { "epoch": 2.56, "grad_norm": 22.8977108001709, "learning_rate": 7.773333333333334e-06, "loss": 0.8521, "step": 9600 }, { "epoch": 2.5666666666666664, "grad_norm": 16.601375579833984, "learning_rate": 7.763809523809525e-06, "loss": 0.8617, "step": 9625 }, { "epoch": 2.5733333333333333, "grad_norm": 18.812374114990234, "learning_rate": 7.754285714285715e-06, "loss": 0.8362, "step": 9650 }, { "epoch": 2.58, "grad_norm": 15.763120651245117, "learning_rate": 7.744761904761904e-06, "loss": 0.9069, "step": 9675 }, { "epoch": 2.586666666666667, "grad_norm": 14.80455493927002, "learning_rate": 7.735238095238095e-06, "loss": 0.8381, "step": 9700 }, { "epoch": 2.5933333333333333, "grad_norm": 15.583468437194824, "learning_rate": 7.725714285714286e-06, "loss": 0.8232, "step": 9725 }, { "epoch": 2.6, "grad_norm": 16.805784225463867, "learning_rate": 7.716190476190478e-06, "loss": 0.8718, "step": 9750 }, { "epoch": 2.6066666666666665, "grad_norm": 17.254684448242188, "learning_rate": 7.70704761904762e-06, "loss": 0.8173, "step": 9775 }, { "epoch": 2.6133333333333333, "grad_norm": 17.339216232299805, "learning_rate": 7.697523809523811e-06, "loss": 0.8544, "step": 9800 }, { "epoch": 2.62, "grad_norm": 16.181737899780273, "learning_rate": 7.688000000000002e-06, "loss": 0.8496, "step": 9825 }, { "epoch": 2.626666666666667, "grad_norm": 23.451120376586914, "learning_rate": 7.67847619047619e-06, "loss": 0.8601, "step": 9850 }, { "epoch": 2.6333333333333333, "grad_norm": 17.556760787963867, "learning_rate": 7.668952380952381e-06, "loss": 0.8073, "step": 9875 }, { "epoch": 2.64, "grad_norm": 13.397366523742676, "learning_rate": 7.659428571428572e-06, "loss": 0.7708, "step": 9900 }, { "epoch": 2.6466666666666665, "grad_norm": 15.331355094909668, "learning_rate": 7.649904761904763e-06, "loss": 0.8678, "step": 9925 }, { "epoch": 2.6533333333333333, "grad_norm": 22.748388290405273, "learning_rate": 7.640380952380953e-06, "loss": 0.8321, "step": 9950 }, { "epoch": 2.66, "grad_norm": 14.289133071899414, "learning_rate": 7.630857142857144e-06, "loss": 0.8364, "step": 9975 }, { "epoch": 2.6666666666666665, "grad_norm": 14.232532501220703, "learning_rate": 7.621333333333334e-06, "loss": 0.8152, "step": 10000 }, { "epoch": 2.6733333333333333, "grad_norm": 18.901473999023438, "learning_rate": 7.611809523809524e-06, "loss": 0.8256, "step": 10025 }, { "epoch": 2.68, "grad_norm": 14.100142478942871, "learning_rate": 7.602285714285716e-06, "loss": 0.8257, "step": 10050 }, { "epoch": 2.6866666666666665, "grad_norm": 23.852811813354492, "learning_rate": 7.592761904761905e-06, "loss": 0.804, "step": 10075 }, { "epoch": 2.6933333333333334, "grad_norm": 14.610326766967773, "learning_rate": 7.583238095238095e-06, "loss": 0.8265, "step": 10100 }, { "epoch": 2.7, "grad_norm": 16.519493103027344, "learning_rate": 7.573714285714287e-06, "loss": 0.7969, "step": 10125 }, { "epoch": 2.7066666666666666, "grad_norm": 13.103989601135254, "learning_rate": 7.5641904761904775e-06, "loss": 0.7824, "step": 10150 }, { "epoch": 2.7133333333333334, "grad_norm": 16.233348846435547, "learning_rate": 7.5546666666666664e-06, "loss": 0.7781, "step": 10175 }, { "epoch": 2.7199999999999998, "grad_norm": 14.265790939331055, "learning_rate": 7.545142857142858e-06, "loss": 0.8042, "step": 10200 }, { "epoch": 2.7266666666666666, "grad_norm": 15.835118293762207, "learning_rate": 7.535619047619049e-06, "loss": 0.778, "step": 10225 }, { "epoch": 2.7333333333333334, "grad_norm": 11.902713775634766, "learning_rate": 7.526095238095239e-06, "loss": 0.774, "step": 10250 }, { "epoch": 2.74, "grad_norm": 14.61591911315918, "learning_rate": 7.51657142857143e-06, "loss": 0.7286, "step": 10275 }, { "epoch": 2.7466666666666666, "grad_norm": 13.630928993225098, "learning_rate": 7.50704761904762e-06, "loss": 0.788, "step": 10300 }, { "epoch": 2.7533333333333334, "grad_norm": 12.521477699279785, "learning_rate": 7.49752380952381e-06, "loss": 0.7951, "step": 10325 }, { "epoch": 2.76, "grad_norm": 14.075329780578613, "learning_rate": 7.488000000000001e-06, "loss": 0.7652, "step": 10350 }, { "epoch": 2.7666666666666666, "grad_norm": 16.04081916809082, "learning_rate": 7.478476190476192e-06, "loss": 0.8195, "step": 10375 }, { "epoch": 2.7733333333333334, "grad_norm": 15.245556831359863, "learning_rate": 7.4689523809523814e-06, "loss": 0.7909, "step": 10400 }, { "epoch": 2.7800000000000002, "grad_norm": 12.039647102355957, "learning_rate": 7.459428571428572e-06, "loss": 0.759, "step": 10425 }, { "epoch": 2.7866666666666666, "grad_norm": 17.73645782470703, "learning_rate": 7.449904761904763e-06, "loss": 0.7309, "step": 10450 }, { "epoch": 2.7933333333333334, "grad_norm": 14.004542350769043, "learning_rate": 7.440380952380953e-06, "loss": 0.7602, "step": 10475 }, { "epoch": 2.8, "grad_norm": 21.14010238647461, "learning_rate": 7.430857142857143e-06, "loss": 0.7763, "step": 10500 }, { "epoch": 2.8066666666666666, "grad_norm": 12.930566787719727, "learning_rate": 7.421333333333334e-06, "loss": 0.7934, "step": 10525 }, { "epoch": 2.8133333333333335, "grad_norm": 16.246450424194336, "learning_rate": 7.4118095238095245e-06, "loss": 0.8018, "step": 10550 }, { "epoch": 2.82, "grad_norm": 13.830098152160645, "learning_rate": 7.402285714285715e-06, "loss": 0.7506, "step": 10575 }, { "epoch": 2.8266666666666667, "grad_norm": 14.244074821472168, "learning_rate": 7.392761904761906e-06, "loss": 0.721, "step": 10600 }, { "epoch": 2.8333333333333335, "grad_norm": 15.578310012817383, "learning_rate": 7.3832380952380956e-06, "loss": 0.7496, "step": 10625 }, { "epoch": 2.84, "grad_norm": 12.770796775817871, "learning_rate": 7.373714285714286e-06, "loss": 0.7456, "step": 10650 }, { "epoch": 2.8466666666666667, "grad_norm": 11.505680084228516, "learning_rate": 7.364190476190477e-06, "loss": 0.7252, "step": 10675 }, { "epoch": 2.8533333333333335, "grad_norm": 12.899063110351562, "learning_rate": 7.3546666666666675e-06, "loss": 0.7547, "step": 10700 }, { "epoch": 2.86, "grad_norm": 14.14664077758789, "learning_rate": 7.345142857142857e-06, "loss": 0.7067, "step": 10725 }, { "epoch": 2.8666666666666667, "grad_norm": 14.525100708007812, "learning_rate": 7.335619047619048e-06, "loss": 0.7731, "step": 10750 }, { "epoch": 2.873333333333333, "grad_norm": 14.24284553527832, "learning_rate": 7.326095238095239e-06, "loss": 0.7254, "step": 10775 }, { "epoch": 2.88, "grad_norm": 36.18721389770508, "learning_rate": 7.316571428571429e-06, "loss": 0.7324, "step": 10800 }, { "epoch": 2.8866666666666667, "grad_norm": 14.527095794677734, "learning_rate": 7.307047619047619e-06, "loss": 0.6897, "step": 10825 }, { "epoch": 2.8933333333333335, "grad_norm": 13.494621276855469, "learning_rate": 7.29752380952381e-06, "loss": 0.7254, "step": 10850 }, { "epoch": 2.9, "grad_norm": 15.90636920928955, "learning_rate": 7.288e-06, "loss": 0.744, "step": 10875 }, { "epoch": 2.9066666666666667, "grad_norm": 13.090533256530762, "learning_rate": 7.278476190476191e-06, "loss": 0.7289, "step": 10900 }, { "epoch": 2.913333333333333, "grad_norm": 13.988637924194336, "learning_rate": 7.2689523809523825e-06, "loss": 0.7299, "step": 10925 }, { "epoch": 2.92, "grad_norm": 11.810433387756348, "learning_rate": 7.2594285714285715e-06, "loss": 0.6893, "step": 10950 }, { "epoch": 2.9266666666666667, "grad_norm": 13.123891830444336, "learning_rate": 7.249904761904762e-06, "loss": 0.7279, "step": 10975 }, { "epoch": 2.9333333333333336, "grad_norm": 11.19420337677002, "learning_rate": 7.240380952380954e-06, "loss": 0.7008, "step": 11000 }, { "epoch": 2.94, "grad_norm": 14.414654731750488, "learning_rate": 7.230857142857144e-06, "loss": 0.6872, "step": 11025 }, { "epoch": 2.9466666666666668, "grad_norm": 12.047042846679688, "learning_rate": 7.221333333333333e-06, "loss": 0.7461, "step": 11050 }, { "epoch": 2.953333333333333, "grad_norm": 13.584476470947266, "learning_rate": 7.211809523809524e-06, "loss": 0.7226, "step": 11075 }, { "epoch": 2.96, "grad_norm": 12.409360885620117, "learning_rate": 7.202285714285715e-06, "loss": 0.741, "step": 11100 }, { "epoch": 2.966666666666667, "grad_norm": 13.979641914367676, "learning_rate": 7.192761904761906e-06, "loss": 0.7314, "step": 11125 }, { "epoch": 2.9733333333333336, "grad_norm": 14.536526679992676, "learning_rate": 7.183238095238095e-06, "loss": 0.7159, "step": 11150 }, { "epoch": 2.98, "grad_norm": 13.338594436645508, "learning_rate": 7.1737142857142864e-06, "loss": 0.7088, "step": 11175 }, { "epoch": 2.986666666666667, "grad_norm": 12.788614273071289, "learning_rate": 7.164190476190477e-06, "loss": 0.6995, "step": 11200 }, { "epoch": 2.993333333333333, "grad_norm": 13.434025764465332, "learning_rate": 7.154666666666668e-06, "loss": 0.7147, "step": 11225 }, { "epoch": 3.0, "grad_norm": 13.347412109375, "learning_rate": 7.145142857142858e-06, "loss": 0.6747, "step": 11250 }, { "epoch": 3.0, "eval_cer": 43.907347706986194, "eval_loss": 0.7232913970947266, "eval_runtime": 1261.505, "eval_samples_per_second": 3.964, "eval_steps_per_second": 0.495, "step": 11250 }, { "epoch": 3.006666666666667, "grad_norm": 10.932097434997559, "learning_rate": 7.135619047619048e-06, "loss": 0.5704, "step": 11275 }, { "epoch": 3.013333333333333, "grad_norm": 23.27174949645996, "learning_rate": 7.126095238095239e-06, "loss": 0.5769, "step": 11300 }, { "epoch": 3.02, "grad_norm": 12.363672256469727, "learning_rate": 7.1165714285714295e-06, "loss": 0.6197, "step": 11325 }, { "epoch": 3.026666666666667, "grad_norm": 12.380434036254883, "learning_rate": 7.10704761904762e-06, "loss": 0.5568, "step": 11350 }, { "epoch": 3.033333333333333, "grad_norm": 13.766298294067383, "learning_rate": 7.09752380952381e-06, "loss": 0.5933, "step": 11375 }, { "epoch": 3.04, "grad_norm": 13.553096771240234, "learning_rate": 7.088000000000001e-06, "loss": 0.5799, "step": 11400 }, { "epoch": 3.046666666666667, "grad_norm": 12.548795700073242, "learning_rate": 7.078476190476191e-06, "loss": 0.5507, "step": 11425 }, { "epoch": 3.0533333333333332, "grad_norm": 11.907742500305176, "learning_rate": 7.068952380952382e-06, "loss": 0.5613, "step": 11450 }, { "epoch": 3.06, "grad_norm": 12.945084571838379, "learning_rate": 7.059428571428572e-06, "loss": 0.5787, "step": 11475 }, { "epoch": 3.066666666666667, "grad_norm": 14.367377281188965, "learning_rate": 7.049904761904762e-06, "loss": 0.5677, "step": 11500 }, { "epoch": 3.0733333333333333, "grad_norm": 11.337150573730469, "learning_rate": 7.040380952380953e-06, "loss": 0.5532, "step": 11525 }, { "epoch": 3.08, "grad_norm": 13.593541145324707, "learning_rate": 7.030857142857144e-06, "loss": 0.5492, "step": 11550 }, { "epoch": 3.086666666666667, "grad_norm": 10.055680274963379, "learning_rate": 7.021333333333334e-06, "loss": 0.5865, "step": 11575 }, { "epoch": 3.0933333333333333, "grad_norm": 11.944361686706543, "learning_rate": 7.011809523809524e-06, "loss": 0.5468, "step": 11600 }, { "epoch": 3.1, "grad_norm": 13.907061576843262, "learning_rate": 7.002285714285715e-06, "loss": 0.5504, "step": 11625 }, { "epoch": 3.1066666666666665, "grad_norm": 14.123797416687012, "learning_rate": 6.992761904761905e-06, "loss": 0.5492, "step": 11650 }, { "epoch": 3.1133333333333333, "grad_norm": 13.510729789733887, "learning_rate": 6.983238095238096e-06, "loss": 0.5583, "step": 11675 }, { "epoch": 3.12, "grad_norm": 13.51006031036377, "learning_rate": 6.973714285714286e-06, "loss": 0.5617, "step": 11700 }, { "epoch": 3.1266666666666665, "grad_norm": 13.439215660095215, "learning_rate": 6.9641904761904765e-06, "loss": 0.6103, "step": 11725 }, { "epoch": 3.1333333333333333, "grad_norm": 11.902543067932129, "learning_rate": 6.954666666666667e-06, "loss": 0.5653, "step": 11750 }, { "epoch": 3.14, "grad_norm": 12.016777038574219, "learning_rate": 6.945142857142858e-06, "loss": 0.5509, "step": 11775 }, { "epoch": 3.1466666666666665, "grad_norm": 34.347877502441406, "learning_rate": 6.9356190476190476e-06, "loss": 0.5588, "step": 11800 }, { "epoch": 3.1533333333333333, "grad_norm": 11.136969566345215, "learning_rate": 6.926095238095238e-06, "loss": 0.5664, "step": 11825 }, { "epoch": 3.16, "grad_norm": 11.413399696350098, "learning_rate": 6.916571428571429e-06, "loss": 0.555, "step": 11850 }, { "epoch": 3.1666666666666665, "grad_norm": 12.507035255432129, "learning_rate": 6.9070476190476195e-06, "loss": 0.5678, "step": 11875 }, { "epoch": 3.1733333333333333, "grad_norm": 11.85084056854248, "learning_rate": 6.897523809523811e-06, "loss": 0.5321, "step": 11900 }, { "epoch": 3.18, "grad_norm": 13.369975090026855, "learning_rate": 6.888e-06, "loss": 0.5406, "step": 11925 }, { "epoch": 3.1866666666666665, "grad_norm": 13.31795883178711, "learning_rate": 6.878476190476191e-06, "loss": 0.5596, "step": 11950 }, { "epoch": 3.1933333333333334, "grad_norm": 10.989060401916504, "learning_rate": 6.868952380952382e-06, "loss": 0.5254, "step": 11975 }, { "epoch": 3.2, "grad_norm": 10.762794494628906, "learning_rate": 6.859428571428573e-06, "loss": 0.5777, "step": 12000 }, { "epoch": 3.2066666666666666, "grad_norm": 9.50446605682373, "learning_rate": 6.849904761904762e-06, "loss": 0.5715, "step": 12025 }, { "epoch": 3.2133333333333334, "grad_norm": 11.490256309509277, "learning_rate": 6.840380952380953e-06, "loss": 0.5705, "step": 12050 }, { "epoch": 3.22, "grad_norm": 11.831136703491211, "learning_rate": 6.830857142857144e-06, "loss": 0.5495, "step": 12075 }, { "epoch": 3.2266666666666666, "grad_norm": 13.110748291015625, "learning_rate": 6.8213333333333345e-06, "loss": 0.5425, "step": 12100 }, { "epoch": 3.2333333333333334, "grad_norm": 9.745580673217773, "learning_rate": 6.811809523809524e-06, "loss": 0.5554, "step": 12125 }, { "epoch": 3.24, "grad_norm": 15.12016773223877, "learning_rate": 6.802285714285715e-06, "loss": 0.5716, "step": 12150 }, { "epoch": 3.2466666666666666, "grad_norm": 10.956692695617676, "learning_rate": 6.792761904761906e-06, "loss": 0.541, "step": 12175 }, { "epoch": 3.2533333333333334, "grad_norm": 11.631577491760254, "learning_rate": 6.783238095238096e-06, "loss": 0.5504, "step": 12200 }, { "epoch": 3.26, "grad_norm": 12.644004821777344, "learning_rate": 6.773714285714287e-06, "loss": 0.5182, "step": 12225 }, { "epoch": 3.2666666666666666, "grad_norm": 11.689079284667969, "learning_rate": 6.764190476190477e-06, "loss": 0.5606, "step": 12250 }, { "epoch": 3.2733333333333334, "grad_norm": 10.723401069641113, "learning_rate": 6.754666666666667e-06, "loss": 0.5584, "step": 12275 }, { "epoch": 3.2800000000000002, "grad_norm": 11.894420623779297, "learning_rate": 6.745142857142858e-06, "loss": 0.5621, "step": 12300 }, { "epoch": 3.2866666666666666, "grad_norm": 10.916996955871582, "learning_rate": 6.735619047619049e-06, "loss": 0.532, "step": 12325 }, { "epoch": 3.2933333333333334, "grad_norm": 12.169909477233887, "learning_rate": 6.7260952380952384e-06, "loss": 0.53, "step": 12350 }, { "epoch": 3.3, "grad_norm": 12.034927368164062, "learning_rate": 6.716571428571429e-06, "loss": 0.5134, "step": 12375 }, { "epoch": 3.3066666666666666, "grad_norm": 13.085915565490723, "learning_rate": 6.70704761904762e-06, "loss": 0.543, "step": 12400 }, { "epoch": 3.3133333333333335, "grad_norm": 9.608105659484863, "learning_rate": 6.69752380952381e-06, "loss": 0.536, "step": 12425 }, { "epoch": 3.32, "grad_norm": 11.812207221984863, "learning_rate": 6.688e-06, "loss": 0.5241, "step": 12450 }, { "epoch": 3.3266666666666667, "grad_norm": 11.860315322875977, "learning_rate": 6.678476190476191e-06, "loss": 0.5448, "step": 12475 }, { "epoch": 3.3333333333333335, "grad_norm": 13.083221435546875, "learning_rate": 6.6689523809523815e-06, "loss": 0.5246, "step": 12500 }, { "epoch": 3.34, "grad_norm": 11.197969436645508, "learning_rate": 6.659428571428572e-06, "loss": 0.5247, "step": 12525 }, { "epoch": 3.3466666666666667, "grad_norm": 11.330422401428223, "learning_rate": 6.649904761904763e-06, "loss": 0.4951, "step": 12550 }, { "epoch": 3.3533333333333335, "grad_norm": 11.400931358337402, "learning_rate": 6.6403809523809526e-06, "loss": 0.5143, "step": 12575 }, { "epoch": 3.36, "grad_norm": 15.868789672851562, "learning_rate": 6.630857142857143e-06, "loss": 0.5361, "step": 12600 }, { "epoch": 3.3666666666666667, "grad_norm": 11.142887115478516, "learning_rate": 6.621333333333334e-06, "loss": 0.5195, "step": 12625 }, { "epoch": 3.3733333333333335, "grad_norm": 14.552379608154297, "learning_rate": 6.6118095238095245e-06, "loss": 0.5345, "step": 12650 }, { "epoch": 3.38, "grad_norm": 10.292083740234375, "learning_rate": 6.602285714285714e-06, "loss": 0.495, "step": 12675 }, { "epoch": 3.3866666666666667, "grad_norm": 11.48479175567627, "learning_rate": 6.592761904761905e-06, "loss": 0.521, "step": 12700 }, { "epoch": 3.3933333333333335, "grad_norm": 10.349550247192383, "learning_rate": 6.583238095238096e-06, "loss": 0.5652, "step": 12725 }, { "epoch": 3.4, "grad_norm": 11.152642250061035, "learning_rate": 6.573714285714286e-06, "loss": 0.5156, "step": 12750 }, { "epoch": 3.4066666666666667, "grad_norm": 11.198227882385254, "learning_rate": 6.564190476190476e-06, "loss": 0.507, "step": 12775 }, { "epoch": 3.413333333333333, "grad_norm": 14.284601211547852, "learning_rate": 6.55504761904762e-06, "loss": 0.5406, "step": 12800 }, { "epoch": 3.42, "grad_norm": 11.75892448425293, "learning_rate": 6.545523809523811e-06, "loss": 0.5071, "step": 12825 }, { "epoch": 3.4266666666666667, "grad_norm": 11.717904090881348, "learning_rate": 6.536e-06, "loss": 0.5075, "step": 12850 }, { "epoch": 3.4333333333333336, "grad_norm": 10.479820251464844, "learning_rate": 6.526476190476191e-06, "loss": 0.5224, "step": 12875 }, { "epoch": 3.44, "grad_norm": 10.502706527709961, "learning_rate": 6.516952380952382e-06, "loss": 0.5349, "step": 12900 }, { "epoch": 3.4466666666666668, "grad_norm": 10.940844535827637, "learning_rate": 6.5074285714285726e-06, "loss": 0.5182, "step": 12925 }, { "epoch": 3.453333333333333, "grad_norm": 11.730142593383789, "learning_rate": 6.497904761904762e-06, "loss": 0.5174, "step": 12950 }, { "epoch": 3.46, "grad_norm": 11.502971649169922, "learning_rate": 6.488380952380953e-06, "loss": 0.5076, "step": 12975 }, { "epoch": 3.466666666666667, "grad_norm": 10.579625129699707, "learning_rate": 6.478857142857144e-06, "loss": 0.4995, "step": 13000 }, { "epoch": 3.473333333333333, "grad_norm": 14.331236839294434, "learning_rate": 6.469333333333334e-06, "loss": 0.5019, "step": 13025 }, { "epoch": 3.48, "grad_norm": 15.147961616516113, "learning_rate": 6.459809523809525e-06, "loss": 0.5331, "step": 13050 }, { "epoch": 3.486666666666667, "grad_norm": 11.135954856872559, "learning_rate": 6.450285714285715e-06, "loss": 0.5133, "step": 13075 }, { "epoch": 3.493333333333333, "grad_norm": 11.029053688049316, "learning_rate": 6.440761904761905e-06, "loss": 0.5043, "step": 13100 }, { "epoch": 3.5, "grad_norm": 13.372457504272461, "learning_rate": 6.431238095238096e-06, "loss": 0.5215, "step": 13125 }, { "epoch": 3.506666666666667, "grad_norm": 12.920971870422363, "learning_rate": 6.421714285714287e-06, "loss": 0.5409, "step": 13150 }, { "epoch": 3.513333333333333, "grad_norm": 12.396445274353027, "learning_rate": 6.4121904761904765e-06, "loss": 0.5121, "step": 13175 }, { "epoch": 3.52, "grad_norm": 14.535351753234863, "learning_rate": 6.402666666666667e-06, "loss": 0.5263, "step": 13200 }, { "epoch": 3.5266666666666664, "grad_norm": 11.163121223449707, "learning_rate": 6.393142857142858e-06, "loss": 0.4883, "step": 13225 }, { "epoch": 3.533333333333333, "grad_norm": 12.310348510742188, "learning_rate": 6.3836190476190484e-06, "loss": 0.5027, "step": 13250 }, { "epoch": 3.54, "grad_norm": 13.119027137756348, "learning_rate": 6.374095238095238e-06, "loss": 0.5299, "step": 13275 }, { "epoch": 3.546666666666667, "grad_norm": 13.820847511291504, "learning_rate": 6.364571428571429e-06, "loss": 0.486, "step": 13300 }, { "epoch": 3.5533333333333332, "grad_norm": 12.355692863464355, "learning_rate": 6.3550476190476195e-06, "loss": 0.5124, "step": 13325 }, { "epoch": 3.56, "grad_norm": 10.519250869750977, "learning_rate": 6.34552380952381e-06, "loss": 0.4806, "step": 13350 }, { "epoch": 3.5666666666666664, "grad_norm": 10.427045822143555, "learning_rate": 6.336000000000001e-06, "loss": 0.5154, "step": 13375 }, { "epoch": 3.5733333333333333, "grad_norm": 12.476083755493164, "learning_rate": 6.326476190476191e-06, "loss": 0.4707, "step": 13400 }, { "epoch": 3.58, "grad_norm": 11.014037132263184, "learning_rate": 6.316952380952381e-06, "loss": 0.5078, "step": 13425 }, { "epoch": 3.586666666666667, "grad_norm": 10.495945930480957, "learning_rate": 6.307428571428572e-06, "loss": 0.4907, "step": 13450 }, { "epoch": 3.5933333333333333, "grad_norm": 11.77230453491211, "learning_rate": 6.297904761904763e-06, "loss": 0.5098, "step": 13475 }, { "epoch": 3.6, "grad_norm": 10.596220970153809, "learning_rate": 6.288380952380952e-06, "loss": 0.5193, "step": 13500 }, { "epoch": 3.6066666666666665, "grad_norm": 12.374215126037598, "learning_rate": 6.278857142857143e-06, "loss": 0.4922, "step": 13525 }, { "epoch": 3.6133333333333333, "grad_norm": 11.395530700683594, "learning_rate": 6.269333333333334e-06, "loss": 0.514, "step": 13550 }, { "epoch": 3.62, "grad_norm": 10.823199272155762, "learning_rate": 6.259809523809524e-06, "loss": 0.4819, "step": 13575 }, { "epoch": 3.626666666666667, "grad_norm": 12.32775592803955, "learning_rate": 6.250285714285714e-06, "loss": 0.4897, "step": 13600 }, { "epoch": 3.6333333333333333, "grad_norm": 12.072946548461914, "learning_rate": 6.240761904761905e-06, "loss": 0.4899, "step": 13625 }, { "epoch": 3.64, "grad_norm": 13.337030410766602, "learning_rate": 6.231238095238095e-06, "loss": 0.5288, "step": 13650 }, { "epoch": 3.6466666666666665, "grad_norm": 10.64185619354248, "learning_rate": 6.221714285714286e-06, "loss": 0.5094, "step": 13675 }, { "epoch": 3.6533333333333333, "grad_norm": 11.200193405151367, "learning_rate": 6.2121904761904776e-06, "loss": 0.5017, "step": 13700 }, { "epoch": 3.66, "grad_norm": 13.038727760314941, "learning_rate": 6.2026666666666665e-06, "loss": 0.5039, "step": 13725 }, { "epoch": 3.6666666666666665, "grad_norm": 12.320549011230469, "learning_rate": 6.193142857142857e-06, "loss": 0.4907, "step": 13750 }, { "epoch": 3.6733333333333333, "grad_norm": 10.324662208557129, "learning_rate": 6.183619047619049e-06, "loss": 0.4969, "step": 13775 }, { "epoch": 3.68, "grad_norm": 11.40976333618164, "learning_rate": 6.174095238095239e-06, "loss": 0.4982, "step": 13800 }, { "epoch": 3.6866666666666665, "grad_norm": 10.542742729187012, "learning_rate": 6.164571428571428e-06, "loss": 0.4791, "step": 13825 }, { "epoch": 3.6933333333333334, "grad_norm": 11.336045265197754, "learning_rate": 6.15504761904762e-06, "loss": 0.4948, "step": 13850 }, { "epoch": 3.7, "grad_norm": 12.214569091796875, "learning_rate": 6.14552380952381e-06, "loss": 0.4778, "step": 13875 }, { "epoch": 3.7066666666666666, "grad_norm": 10.73265266418457, "learning_rate": 6.136000000000001e-06, "loss": 0.4897, "step": 13900 }, { "epoch": 3.7133333333333334, "grad_norm": 11.6783447265625, "learning_rate": 6.126476190476191e-06, "loss": 0.4874, "step": 13925 }, { "epoch": 3.7199999999999998, "grad_norm": 8.937400817871094, "learning_rate": 6.1169523809523815e-06, "loss": 0.4621, "step": 13950 }, { "epoch": 3.7266666666666666, "grad_norm": 12.113076210021973, "learning_rate": 6.107428571428572e-06, "loss": 0.4686, "step": 13975 }, { "epoch": 3.7333333333333334, "grad_norm": 15.019814491271973, "learning_rate": 6.097904761904763e-06, "loss": 0.481, "step": 14000 }, { "epoch": 3.74, "grad_norm": 12.371440887451172, "learning_rate": 6.0883809523809534e-06, "loss": 0.4915, "step": 14025 }, { "epoch": 3.7466666666666666, "grad_norm": 10.398106575012207, "learning_rate": 6.078857142857143e-06, "loss": 0.5042, "step": 14050 }, { "epoch": 3.7533333333333334, "grad_norm": 11.10268497467041, "learning_rate": 6.069333333333334e-06, "loss": 0.4763, "step": 14075 }, { "epoch": 3.76, "grad_norm": 10.485678672790527, "learning_rate": 6.0598095238095245e-06, "loss": 0.4797, "step": 14100 }, { "epoch": 3.7666666666666666, "grad_norm": 12.032885551452637, "learning_rate": 6.050285714285715e-06, "loss": 0.4591, "step": 14125 }, { "epoch": 3.7733333333333334, "grad_norm": 12.153024673461914, "learning_rate": 6.040761904761905e-06, "loss": 0.4944, "step": 14150 }, { "epoch": 3.7800000000000002, "grad_norm": 9.65706729888916, "learning_rate": 6.031238095238096e-06, "loss": 0.4769, "step": 14175 }, { "epoch": 3.7866666666666666, "grad_norm": 11.248978614807129, "learning_rate": 6.021714285714286e-06, "loss": 0.4717, "step": 14200 }, { "epoch": 3.7933333333333334, "grad_norm": 12.238466262817383, "learning_rate": 6.012190476190477e-06, "loss": 0.4792, "step": 14225 }, { "epoch": 3.8, "grad_norm": 13.040369033813477, "learning_rate": 6.002666666666667e-06, "loss": 0.4728, "step": 14250 }, { "epoch": 3.8066666666666666, "grad_norm": 11.722098350524902, "learning_rate": 5.993142857142857e-06, "loss": 0.5055, "step": 14275 }, { "epoch": 3.8133333333333335, "grad_norm": 10.523857116699219, "learning_rate": 5.983619047619048e-06, "loss": 0.4793, "step": 14300 }, { "epoch": 3.82, "grad_norm": 15.409428596496582, "learning_rate": 5.974095238095239e-06, "loss": 0.5128, "step": 14325 }, { "epoch": 3.8266666666666667, "grad_norm": 11.067243576049805, "learning_rate": 5.964571428571429e-06, "loss": 0.4821, "step": 14350 }, { "epoch": 3.8333333333333335, "grad_norm": 9.8215970993042, "learning_rate": 5.955047619047619e-06, "loss": 0.47, "step": 14375 }, { "epoch": 3.84, "grad_norm": 11.842226028442383, "learning_rate": 5.94552380952381e-06, "loss": 0.4898, "step": 14400 }, { "epoch": 3.8466666666666667, "grad_norm": 12.511898040771484, "learning_rate": 5.9360000000000004e-06, "loss": 0.4527, "step": 14425 }, { "epoch": 3.8533333333333335, "grad_norm": 11.72033977508545, "learning_rate": 5.926476190476191e-06, "loss": 0.5078, "step": 14450 }, { "epoch": 3.86, "grad_norm": 9.815460205078125, "learning_rate": 5.916952380952381e-06, "loss": 0.4786, "step": 14475 }, { "epoch": 3.8666666666666667, "grad_norm": 10.460406303405762, "learning_rate": 5.9074285714285715e-06, "loss": 0.4909, "step": 14500 }, { "epoch": 3.873333333333333, "grad_norm": 11.34770679473877, "learning_rate": 5.897904761904762e-06, "loss": 0.461, "step": 14525 }, { "epoch": 3.88, "grad_norm": 12.759461402893066, "learning_rate": 5.888380952380953e-06, "loss": 0.4795, "step": 14550 }, { "epoch": 3.8866666666666667, "grad_norm": 14.732769012451172, "learning_rate": 5.878857142857143e-06, "loss": 0.4531, "step": 14575 }, { "epoch": 3.8933333333333335, "grad_norm": 16.737995147705078, "learning_rate": 5.869333333333333e-06, "loss": 0.5104, "step": 14600 }, { "epoch": 3.9, "grad_norm": 11.765470504760742, "learning_rate": 5.859809523809524e-06, "loss": 0.4788, "step": 14625 }, { "epoch": 3.9066666666666667, "grad_norm": 13.556835174560547, "learning_rate": 5.850285714285715e-06, "loss": 0.461, "step": 14650 }, { "epoch": 3.913333333333333, "grad_norm": 12.839192390441895, "learning_rate": 5.840761904761906e-06, "loss": 0.4824, "step": 14675 }, { "epoch": 3.92, "grad_norm": 10.269786834716797, "learning_rate": 5.831238095238095e-06, "loss": 0.4418, "step": 14700 }, { "epoch": 3.9266666666666667, "grad_norm": 11.563702583312988, "learning_rate": 5.8217142857142865e-06, "loss": 0.4548, "step": 14725 }, { "epoch": 3.9333333333333336, "grad_norm": 11.265905380249023, "learning_rate": 5.812190476190477e-06, "loss": 0.4163, "step": 14750 }, { "epoch": 3.94, "grad_norm": 9.697981834411621, "learning_rate": 5.802666666666668e-06, "loss": 0.4126, "step": 14775 }, { "epoch": 3.9466666666666668, "grad_norm": 8.353290557861328, "learning_rate": 5.793142857142857e-06, "loss": 0.4493, "step": 14800 }, { "epoch": 3.953333333333333, "grad_norm": 10.805832862854004, "learning_rate": 5.783619047619048e-06, "loss": 0.444, "step": 14825 }, { "epoch": 3.96, "grad_norm": 11.774195671081543, "learning_rate": 5.774095238095239e-06, "loss": 0.4581, "step": 14850 }, { "epoch": 3.966666666666667, "grad_norm": 10.860061645507812, "learning_rate": 5.7645714285714295e-06, "loss": 0.4233, "step": 14875 }, { "epoch": 3.9733333333333336, "grad_norm": 10.355900764465332, "learning_rate": 5.755047619047619e-06, "loss": 0.452, "step": 14900 }, { "epoch": 3.98, "grad_norm": 12.542693138122559, "learning_rate": 5.74552380952381e-06, "loss": 0.4892, "step": 14925 }, { "epoch": 3.986666666666667, "grad_norm": 12.843132019042969, "learning_rate": 5.736000000000001e-06, "loss": 0.4359, "step": 14950 }, { "epoch": 3.993333333333333, "grad_norm": 9.022924423217773, "learning_rate": 5.726476190476191e-06, "loss": 0.4677, "step": 14975 }, { "epoch": 4.0, "grad_norm": 10.443975448608398, "learning_rate": 5.716952380952382e-06, "loss": 0.4521, "step": 15000 }, { "epoch": 4.0, "eval_cer": 33.88181801241078, "eval_loss": 0.5573098659515381, "eval_runtime": 1261.013, "eval_samples_per_second": 3.965, "eval_steps_per_second": 0.496, "step": 15000 }, { "epoch": 4.006666666666667, "grad_norm": 9.445164680480957, "learning_rate": 5.707428571428572e-06, "loss": 0.366, "step": 15025 }, { "epoch": 4.013333333333334, "grad_norm": 9.402217864990234, "learning_rate": 5.697904761904762e-06, "loss": 0.3798, "step": 15050 }, { "epoch": 4.02, "grad_norm": 9.331457138061523, "learning_rate": 5.688380952380953e-06, "loss": 0.3136, "step": 15075 }, { "epoch": 4.026666666666666, "grad_norm": 9.040196418762207, "learning_rate": 5.678857142857144e-06, "loss": 0.3262, "step": 15100 }, { "epoch": 4.033333333333333, "grad_norm": 10.669482231140137, "learning_rate": 5.6693333333333335e-06, "loss": 0.3469, "step": 15125 }, { "epoch": 4.04, "grad_norm": 10.913322448730469, "learning_rate": 5.659809523809524e-06, "loss": 0.3507, "step": 15150 }, { "epoch": 4.046666666666667, "grad_norm": 9.36578369140625, "learning_rate": 5.650285714285715e-06, "loss": 0.3495, "step": 15175 }, { "epoch": 4.053333333333334, "grad_norm": 9.06477165222168, "learning_rate": 5.6407619047619054e-06, "loss": 0.3749, "step": 15200 }, { "epoch": 4.06, "grad_norm": 8.698920249938965, "learning_rate": 5.631238095238095e-06, "loss": 0.3468, "step": 15225 }, { "epoch": 4.066666666666666, "grad_norm": 7.987102508544922, "learning_rate": 5.621714285714286e-06, "loss": 0.3629, "step": 15250 }, { "epoch": 4.073333333333333, "grad_norm": 10.632536888122559, "learning_rate": 5.6121904761904765e-06, "loss": 0.3624, "step": 15275 }, { "epoch": 4.08, "grad_norm": 10.345257759094238, "learning_rate": 5.602666666666667e-06, "loss": 0.32, "step": 15300 }, { "epoch": 4.086666666666667, "grad_norm": 9.80545711517334, "learning_rate": 5.593142857142858e-06, "loss": 0.3598, "step": 15325 }, { "epoch": 4.093333333333334, "grad_norm": 9.145305633544922, "learning_rate": 5.583619047619048e-06, "loss": 0.3472, "step": 15350 }, { "epoch": 4.1, "grad_norm": 9.643187522888184, "learning_rate": 5.574095238095238e-06, "loss": 0.3397, "step": 15375 }, { "epoch": 4.1066666666666665, "grad_norm": 11.995478630065918, "learning_rate": 5.564571428571429e-06, "loss": 0.3374, "step": 15400 }, { "epoch": 4.113333333333333, "grad_norm": 9.014826774597168, "learning_rate": 5.5550476190476196e-06, "loss": 0.3488, "step": 15425 }, { "epoch": 4.12, "grad_norm": 7.399957180023193, "learning_rate": 5.545904761904762e-06, "loss": 0.3388, "step": 15450 }, { "epoch": 4.126666666666667, "grad_norm": 8.365823745727539, "learning_rate": 5.5363809523809535e-06, "loss": 0.332, "step": 15475 }, { "epoch": 4.133333333333334, "grad_norm": 10.73659610748291, "learning_rate": 5.526857142857144e-06, "loss": 0.3441, "step": 15500 }, { "epoch": 4.14, "grad_norm": 9.721994400024414, "learning_rate": 5.517333333333333e-06, "loss": 0.3569, "step": 15525 }, { "epoch": 4.1466666666666665, "grad_norm": 10.341387748718262, "learning_rate": 5.5078095238095246e-06, "loss": 0.3559, "step": 15550 }, { "epoch": 4.153333333333333, "grad_norm": 9.839953422546387, "learning_rate": 5.498285714285715e-06, "loss": 0.335, "step": 15575 }, { "epoch": 4.16, "grad_norm": 11.246467590332031, "learning_rate": 5.488761904761906e-06, "loss": 0.3297, "step": 15600 }, { "epoch": 4.166666666666667, "grad_norm": 10.399515151977539, "learning_rate": 5.479238095238095e-06, "loss": 0.3318, "step": 15625 }, { "epoch": 4.173333333333334, "grad_norm": 7.989744663238525, "learning_rate": 5.469714285714286e-06, "loss": 0.3369, "step": 15650 }, { "epoch": 4.18, "grad_norm": 11.904905319213867, "learning_rate": 5.460190476190477e-06, "loss": 0.34, "step": 15675 }, { "epoch": 4.1866666666666665, "grad_norm": 9.765145301818848, "learning_rate": 5.450666666666668e-06, "loss": 0.349, "step": 15700 }, { "epoch": 4.193333333333333, "grad_norm": 9.736760139465332, "learning_rate": 5.441142857142857e-06, "loss": 0.3305, "step": 15725 }, { "epoch": 4.2, "grad_norm": 9.07405948638916, "learning_rate": 5.431619047619048e-06, "loss": 0.34, "step": 15750 }, { "epoch": 4.206666666666667, "grad_norm": 10.817412376403809, "learning_rate": 5.422095238095239e-06, "loss": 0.3574, "step": 15775 }, { "epoch": 4.213333333333333, "grad_norm": 9.08163833618164, "learning_rate": 5.412571428571429e-06, "loss": 0.3235, "step": 15800 }, { "epoch": 4.22, "grad_norm": 10.415016174316406, "learning_rate": 5.40304761904762e-06, "loss": 0.3625, "step": 15825 }, { "epoch": 4.226666666666667, "grad_norm": 21.206327438354492, "learning_rate": 5.39352380952381e-06, "loss": 0.3399, "step": 15850 }, { "epoch": 4.233333333333333, "grad_norm": 11.360039710998535, "learning_rate": 5.3840000000000005e-06, "loss": 0.3278, "step": 15875 }, { "epoch": 4.24, "grad_norm": 9.03994369506836, "learning_rate": 5.374476190476191e-06, "loss": 0.3046, "step": 15900 }, { "epoch": 4.246666666666667, "grad_norm": 9.927104949951172, "learning_rate": 5.364952380952382e-06, "loss": 0.3395, "step": 15925 }, { "epoch": 4.253333333333333, "grad_norm": 10.980711936950684, "learning_rate": 5.3554285714285716e-06, "loss": 0.3479, "step": 15950 }, { "epoch": 4.26, "grad_norm": 9.69042682647705, "learning_rate": 5.345904761904762e-06, "loss": 0.3293, "step": 15975 }, { "epoch": 4.266666666666667, "grad_norm": 12.465404510498047, "learning_rate": 5.336380952380953e-06, "loss": 0.3359, "step": 16000 }, { "epoch": 4.273333333333333, "grad_norm": 7.957159519195557, "learning_rate": 5.3268571428571435e-06, "loss": 0.3607, "step": 16025 }, { "epoch": 4.28, "grad_norm": 12.110877990722656, "learning_rate": 5.317333333333333e-06, "loss": 0.3375, "step": 16050 }, { "epoch": 4.286666666666667, "grad_norm": 11.495512962341309, "learning_rate": 5.307809523809524e-06, "loss": 0.3655, "step": 16075 }, { "epoch": 4.293333333333333, "grad_norm": 10.100930213928223, "learning_rate": 5.298285714285715e-06, "loss": 0.3186, "step": 16100 }, { "epoch": 4.3, "grad_norm": 10.262569427490234, "learning_rate": 5.288761904761905e-06, "loss": 0.3458, "step": 16125 }, { "epoch": 4.306666666666667, "grad_norm": 10.507874488830566, "learning_rate": 5.279238095238096e-06, "loss": 0.3475, "step": 16150 }, { "epoch": 4.3133333333333335, "grad_norm": 11.506072998046875, "learning_rate": 5.269714285714286e-06, "loss": 0.3389, "step": 16175 }, { "epoch": 4.32, "grad_norm": 8.714264869689941, "learning_rate": 5.260190476190476e-06, "loss": 0.3454, "step": 16200 }, { "epoch": 4.326666666666666, "grad_norm": 8.31139087677002, "learning_rate": 5.250666666666667e-06, "loss": 0.3268, "step": 16225 }, { "epoch": 4.333333333333333, "grad_norm": 7.935983180999756, "learning_rate": 5.241142857142858e-06, "loss": 0.3413, "step": 16250 }, { "epoch": 4.34, "grad_norm": 9.739823341369629, "learning_rate": 5.2316190476190474e-06, "loss": 0.3264, "step": 16275 }, { "epoch": 4.346666666666667, "grad_norm": 8.532427787780762, "learning_rate": 5.222095238095238e-06, "loss": 0.3225, "step": 16300 }, { "epoch": 4.3533333333333335, "grad_norm": 11.38673210144043, "learning_rate": 5.212571428571429e-06, "loss": 0.36, "step": 16325 }, { "epoch": 4.36, "grad_norm": 9.791930198669434, "learning_rate": 5.203047619047619e-06, "loss": 0.3269, "step": 16350 }, { "epoch": 4.366666666666666, "grad_norm": 9.696223258972168, "learning_rate": 5.193523809523809e-06, "loss": 0.3507, "step": 16375 }, { "epoch": 4.373333333333333, "grad_norm": 10.962854385375977, "learning_rate": 5.184e-06, "loss": 0.3492, "step": 16400 }, { "epoch": 4.38, "grad_norm": 11.839250564575195, "learning_rate": 5.1744761904761905e-06, "loss": 0.3223, "step": 16425 }, { "epoch": 4.386666666666667, "grad_norm": 8.038477897644043, "learning_rate": 5.164952380952382e-06, "loss": 0.3479, "step": 16450 }, { "epoch": 4.3933333333333335, "grad_norm": 11.09113597869873, "learning_rate": 5.155428571428573e-06, "loss": 0.3345, "step": 16475 }, { "epoch": 4.4, "grad_norm": 10.491676330566406, "learning_rate": 5.145904761904762e-06, "loss": 0.3693, "step": 16500 }, { "epoch": 4.406666666666666, "grad_norm": 10.282910346984863, "learning_rate": 5.136380952380953e-06, "loss": 0.3376, "step": 16525 }, { "epoch": 4.413333333333333, "grad_norm": 10.462335586547852, "learning_rate": 5.126857142857144e-06, "loss": 0.3178, "step": 16550 }, { "epoch": 4.42, "grad_norm": 8.816498756408691, "learning_rate": 5.117333333333334e-06, "loss": 0.33, "step": 16575 }, { "epoch": 4.426666666666667, "grad_norm": 9.41983699798584, "learning_rate": 5.107809523809524e-06, "loss": 0.3253, "step": 16600 }, { "epoch": 4.433333333333334, "grad_norm": 9.63511848449707, "learning_rate": 5.098285714285715e-06, "loss": 0.346, "step": 16625 }, { "epoch": 4.44, "grad_norm": 10.567623138427734, "learning_rate": 5.0887619047619055e-06, "loss": 0.3568, "step": 16650 }, { "epoch": 4.446666666666666, "grad_norm": 8.900635719299316, "learning_rate": 5.079238095238096e-06, "loss": 0.3494, "step": 16675 }, { "epoch": 4.453333333333333, "grad_norm": 8.828140258789062, "learning_rate": 5.069714285714286e-06, "loss": 0.3195, "step": 16700 }, { "epoch": 4.46, "grad_norm": 12.608842849731445, "learning_rate": 5.0601904761904766e-06, "loss": 0.3206, "step": 16725 }, { "epoch": 4.466666666666667, "grad_norm": 9.525917053222656, "learning_rate": 5.050666666666667e-06, "loss": 0.3427, "step": 16750 }, { "epoch": 4.473333333333334, "grad_norm": 9.24260139465332, "learning_rate": 5.041142857142858e-06, "loss": 0.3335, "step": 16775 }, { "epoch": 4.48, "grad_norm": 8.608335494995117, "learning_rate": 5.0316190476190485e-06, "loss": 0.3099, "step": 16800 }, { "epoch": 4.486666666666666, "grad_norm": 9.50597095489502, "learning_rate": 5.022095238095238e-06, "loss": 0.3405, "step": 16825 }, { "epoch": 4.493333333333333, "grad_norm": 11.631133079528809, "learning_rate": 5.012571428571429e-06, "loss": 0.342, "step": 16850 }, { "epoch": 4.5, "grad_norm": 11.48204517364502, "learning_rate": 5.00304761904762e-06, "loss": 0.328, "step": 16875 }, { "epoch": 4.506666666666667, "grad_norm": 8.959137916564941, "learning_rate": 4.993523809523809e-06, "loss": 0.3389, "step": 16900 }, { "epoch": 4.513333333333334, "grad_norm": 12.473030090332031, "learning_rate": 4.984000000000001e-06, "loss": 0.3203, "step": 16925 }, { "epoch": 4.52, "grad_norm": 10.308365821838379, "learning_rate": 4.974476190476191e-06, "loss": 0.3254, "step": 16950 }, { "epoch": 4.526666666666666, "grad_norm": 7.606795310974121, "learning_rate": 4.964952380952381e-06, "loss": 0.319, "step": 16975 }, { "epoch": 4.533333333333333, "grad_norm": 9.314900398254395, "learning_rate": 4.955428571428572e-06, "loss": 0.3179, "step": 17000 }, { "epoch": 4.54, "grad_norm": 9.84424877166748, "learning_rate": 4.945904761904763e-06, "loss": 0.3433, "step": 17025 }, { "epoch": 4.546666666666667, "grad_norm": 9.398674964904785, "learning_rate": 4.936380952380953e-06, "loss": 0.3281, "step": 17050 }, { "epoch": 4.553333333333334, "grad_norm": 20.751062393188477, "learning_rate": 4.926857142857143e-06, "loss": 0.3377, "step": 17075 }, { "epoch": 4.5600000000000005, "grad_norm": 21.263397216796875, "learning_rate": 4.917333333333334e-06, "loss": 0.3408, "step": 17100 }, { "epoch": 4.566666666666666, "grad_norm": 10.58082103729248, "learning_rate": 4.907809523809524e-06, "loss": 0.3295, "step": 17125 }, { "epoch": 4.573333333333333, "grad_norm": 9.26357650756836, "learning_rate": 4.898285714285715e-06, "loss": 0.338, "step": 17150 }, { "epoch": 4.58, "grad_norm": 10.471427917480469, "learning_rate": 4.888761904761905e-06, "loss": 0.3342, "step": 17175 }, { "epoch": 4.586666666666667, "grad_norm": 10.399324417114258, "learning_rate": 4.8792380952380955e-06, "loss": 0.3462, "step": 17200 }, { "epoch": 4.593333333333334, "grad_norm": 9.083370208740234, "learning_rate": 4.869714285714286e-06, "loss": 0.3259, "step": 17225 }, { "epoch": 4.6, "grad_norm": 9.401577949523926, "learning_rate": 4.860190476190477e-06, "loss": 0.329, "step": 17250 }, { "epoch": 4.6066666666666665, "grad_norm": 10.30981731414795, "learning_rate": 4.850666666666667e-06, "loss": 0.3553, "step": 17275 }, { "epoch": 4.613333333333333, "grad_norm": 8.079058647155762, "learning_rate": 4.841142857142857e-06, "loss": 0.3299, "step": 17300 }, { "epoch": 4.62, "grad_norm": 9.01292896270752, "learning_rate": 4.831619047619048e-06, "loss": 0.3565, "step": 17325 }, { "epoch": 4.626666666666667, "grad_norm": 10.41326904296875, "learning_rate": 4.8220952380952385e-06, "loss": 0.3016, "step": 17350 }, { "epoch": 4.633333333333333, "grad_norm": 7.626286029815674, "learning_rate": 4.812571428571429e-06, "loss": 0.2994, "step": 17375 }, { "epoch": 4.64, "grad_norm": 8.95495891571045, "learning_rate": 4.80304761904762e-06, "loss": 0.3383, "step": 17400 }, { "epoch": 4.6466666666666665, "grad_norm": 10.129595756530762, "learning_rate": 4.7935238095238105e-06, "loss": 0.3124, "step": 17425 }, { "epoch": 4.653333333333333, "grad_norm": 9.169564247131348, "learning_rate": 4.784e-06, "loss": 0.3419, "step": 17450 }, { "epoch": 4.66, "grad_norm": 9.020630836486816, "learning_rate": 4.774476190476191e-06, "loss": 0.3052, "step": 17475 }, { "epoch": 4.666666666666667, "grad_norm": 8.045998573303223, "learning_rate": 4.7649523809523816e-06, "loss": 0.3085, "step": 17500 }, { "epoch": 4.673333333333334, "grad_norm": 9.238438606262207, "learning_rate": 4.755428571428572e-06, "loss": 0.337, "step": 17525 }, { "epoch": 4.68, "grad_norm": 9.60799503326416, "learning_rate": 4.745904761904762e-06, "loss": 0.3197, "step": 17550 }, { "epoch": 4.6866666666666665, "grad_norm": 8.405088424682617, "learning_rate": 4.736380952380953e-06, "loss": 0.318, "step": 17575 }, { "epoch": 4.693333333333333, "grad_norm": 10.617300987243652, "learning_rate": 4.726857142857143e-06, "loss": 0.3193, "step": 17600 }, { "epoch": 4.7, "grad_norm": 11.77807331085205, "learning_rate": 4.717333333333334e-06, "loss": 0.3434, "step": 17625 }, { "epoch": 4.706666666666667, "grad_norm": 11.168408393859863, "learning_rate": 4.707809523809524e-06, "loss": 0.319, "step": 17650 }, { "epoch": 4.713333333333333, "grad_norm": 10.417842864990234, "learning_rate": 4.698666666666667e-06, "loss": 0.3178, "step": 17675 }, { "epoch": 4.72, "grad_norm": 8.813197135925293, "learning_rate": 4.689142857142858e-06, "loss": 0.3186, "step": 17700 }, { "epoch": 4.726666666666667, "grad_norm": 7.759131908416748, "learning_rate": 4.6796190476190475e-06, "loss": 0.3216, "step": 17725 }, { "epoch": 4.733333333333333, "grad_norm": 10.083597183227539, "learning_rate": 4.670095238095239e-06, "loss": 0.3103, "step": 17750 }, { "epoch": 4.74, "grad_norm": 9.475998878479004, "learning_rate": 4.660571428571429e-06, "loss": 0.324, "step": 17775 }, { "epoch": 4.746666666666667, "grad_norm": 8.86322021484375, "learning_rate": 4.651047619047619e-06, "loss": 0.3316, "step": 17800 }, { "epoch": 4.753333333333333, "grad_norm": 9.054226875305176, "learning_rate": 4.64152380952381e-06, "loss": 0.3253, "step": 17825 }, { "epoch": 4.76, "grad_norm": 13.359445571899414, "learning_rate": 4.632000000000001e-06, "loss": 0.3221, "step": 17850 }, { "epoch": 4.766666666666667, "grad_norm": 7.5922746658325195, "learning_rate": 4.622476190476191e-06, "loss": 0.3359, "step": 17875 }, { "epoch": 4.773333333333333, "grad_norm": 10.745287895202637, "learning_rate": 4.612952380952381e-06, "loss": 0.3317, "step": 17900 }, { "epoch": 4.78, "grad_norm": 11.20903491973877, "learning_rate": 4.603428571428572e-06, "loss": 0.3317, "step": 17925 }, { "epoch": 4.786666666666667, "grad_norm": 8.53608226776123, "learning_rate": 4.5939047619047625e-06, "loss": 0.3236, "step": 17950 }, { "epoch": 4.793333333333333, "grad_norm": 8.845032691955566, "learning_rate": 4.584380952380953e-06, "loss": 0.3126, "step": 17975 }, { "epoch": 4.8, "grad_norm": 8.912800788879395, "learning_rate": 4.574857142857143e-06, "loss": 0.357, "step": 18000 }, { "epoch": 4.806666666666667, "grad_norm": 10.331573486328125, "learning_rate": 4.5653333333333336e-06, "loss": 0.324, "step": 18025 }, { "epoch": 4.8133333333333335, "grad_norm": 8.298504829406738, "learning_rate": 4.555809523809524e-06, "loss": 0.3047, "step": 18050 }, { "epoch": 4.82, "grad_norm": 24.478620529174805, "learning_rate": 4.546285714285715e-06, "loss": 0.3336, "step": 18075 }, { "epoch": 4.826666666666666, "grad_norm": 12.858133316040039, "learning_rate": 4.536761904761905e-06, "loss": 0.3215, "step": 18100 }, { "epoch": 4.833333333333333, "grad_norm": 10.333330154418945, "learning_rate": 4.527238095238095e-06, "loss": 0.308, "step": 18125 }, { "epoch": 4.84, "grad_norm": 9.631719589233398, "learning_rate": 4.517714285714286e-06, "loss": 0.3194, "step": 18150 }, { "epoch": 4.846666666666667, "grad_norm": 7.289853096008301, "learning_rate": 4.508190476190477e-06, "loss": 0.3333, "step": 18175 }, { "epoch": 4.8533333333333335, "grad_norm": 9.735225677490234, "learning_rate": 4.498666666666667e-06, "loss": 0.3199, "step": 18200 }, { "epoch": 4.86, "grad_norm": 8.678450584411621, "learning_rate": 4.489142857142857e-06, "loss": 0.3053, "step": 18225 }, { "epoch": 4.866666666666667, "grad_norm": 9.917527198791504, "learning_rate": 4.4796190476190485e-06, "loss": 0.2988, "step": 18250 }, { "epoch": 4.873333333333333, "grad_norm": 9.572203636169434, "learning_rate": 4.470095238095238e-06, "loss": 0.3168, "step": 18275 }, { "epoch": 4.88, "grad_norm": 9.202919960021973, "learning_rate": 4.460571428571429e-06, "loss": 0.3494, "step": 18300 }, { "epoch": 4.886666666666667, "grad_norm": 8.96101188659668, "learning_rate": 4.45104761904762e-06, "loss": 0.3269, "step": 18325 }, { "epoch": 4.8933333333333335, "grad_norm": 8.443532943725586, "learning_rate": 4.44152380952381e-06, "loss": 0.328, "step": 18350 }, { "epoch": 4.9, "grad_norm": 8.190359115600586, "learning_rate": 4.432e-06, "loss": 0.314, "step": 18375 }, { "epoch": 4.906666666666666, "grad_norm": 15.69275188446045, "learning_rate": 4.422476190476191e-06, "loss": 0.3029, "step": 18400 }, { "epoch": 4.913333333333333, "grad_norm": 10.510639190673828, "learning_rate": 4.412952380952381e-06, "loss": 0.3393, "step": 18425 }, { "epoch": 4.92, "grad_norm": 8.462637901306152, "learning_rate": 4.403428571428572e-06, "loss": 0.3179, "step": 18450 }, { "epoch": 4.926666666666667, "grad_norm": 8.102010726928711, "learning_rate": 4.393904761904762e-06, "loss": 0.3538, "step": 18475 }, { "epoch": 4.933333333333334, "grad_norm": 12.163732528686523, "learning_rate": 4.3843809523809525e-06, "loss": 0.3263, "step": 18500 }, { "epoch": 4.9399999999999995, "grad_norm": 10.210678100585938, "learning_rate": 4.374857142857143e-06, "loss": 0.3391, "step": 18525 }, { "epoch": 4.946666666666666, "grad_norm": 9.2230806350708, "learning_rate": 4.365333333333334e-06, "loss": 0.321, "step": 18550 }, { "epoch": 4.953333333333333, "grad_norm": 8.812457084655762, "learning_rate": 4.3558095238095244e-06, "loss": 0.2849, "step": 18575 }, { "epoch": 4.96, "grad_norm": 10.65733528137207, "learning_rate": 4.346285714285714e-06, "loss": 0.3244, "step": 18600 }, { "epoch": 4.966666666666667, "grad_norm": 7.578824996948242, "learning_rate": 4.336761904761905e-06, "loss": 0.3231, "step": 18625 }, { "epoch": 4.973333333333334, "grad_norm": 9.401844024658203, "learning_rate": 4.3272380952380955e-06, "loss": 0.3057, "step": 18650 }, { "epoch": 4.98, "grad_norm": 10.009161949157715, "learning_rate": 4.317714285714286e-06, "loss": 0.3292, "step": 18675 }, { "epoch": 4.986666666666666, "grad_norm": 9.332976341247559, "learning_rate": 4.308190476190476e-06, "loss": 0.3417, "step": 18700 }, { "epoch": 4.993333333333333, "grad_norm": 8.199204444885254, "learning_rate": 4.2986666666666675e-06, "loss": 0.3133, "step": 18725 }, { "epoch": 5.0, "grad_norm": 11.205020904541016, "learning_rate": 4.289142857142857e-06, "loss": 0.3412, "step": 18750 }, { "epoch": 5.0, "eval_cer": 29.73929895831392, "eval_loss": 0.4956792891025543, "eval_runtime": 1294.5821, "eval_samples_per_second": 3.862, "eval_steps_per_second": 0.483, "step": 18750 }, { "epoch": 5.006666666666667, "grad_norm": 7.74131441116333, "learning_rate": 4.279619047619048e-06, "loss": 0.2035, "step": 18775 }, { "epoch": 5.013333333333334, "grad_norm": 9.658544540405273, "learning_rate": 4.2700952380952386e-06, "loss": 0.2163, "step": 18800 }, { "epoch": 5.02, "grad_norm": 8.518534660339355, "learning_rate": 4.260571428571429e-06, "loss": 0.2081, "step": 18825 }, { "epoch": 5.026666666666666, "grad_norm": 7.484743118286133, "learning_rate": 4.25104761904762e-06, "loss": 0.2315, "step": 18850 }, { "epoch": 5.033333333333333, "grad_norm": 8.67628288269043, "learning_rate": 4.24152380952381e-06, "loss": 0.2214, "step": 18875 }, { "epoch": 5.04, "grad_norm": 7.7671051025390625, "learning_rate": 4.232e-06, "loss": 0.2193, "step": 18900 }, { "epoch": 5.046666666666667, "grad_norm": 8.292099952697754, "learning_rate": 4.222476190476191e-06, "loss": 0.2346, "step": 18925 }, { "epoch": 5.053333333333334, "grad_norm": 6.942380428314209, "learning_rate": 4.212952380952382e-06, "loss": 0.2267, "step": 18950 }, { "epoch": 5.06, "grad_norm": 8.356648445129395, "learning_rate": 4.203428571428571e-06, "loss": 0.2135, "step": 18975 }, { "epoch": 5.066666666666666, "grad_norm": 11.144806861877441, "learning_rate": 4.193904761904762e-06, "loss": 0.2289, "step": 19000 }, { "epoch": 5.073333333333333, "grad_norm": 7.804592132568359, "learning_rate": 4.184380952380953e-06, "loss": 0.2227, "step": 19025 }, { "epoch": 5.08, "grad_norm": 7.889078140258789, "learning_rate": 4.174857142857143e-06, "loss": 0.2453, "step": 19050 }, { "epoch": 5.086666666666667, "grad_norm": 5.879745006561279, "learning_rate": 4.165333333333333e-06, "loss": 0.2117, "step": 19075 }, { "epoch": 5.093333333333334, "grad_norm": 6.181926250457764, "learning_rate": 4.155809523809524e-06, "loss": 0.2071, "step": 19100 }, { "epoch": 5.1, "grad_norm": 6.737381458282471, "learning_rate": 4.1462857142857144e-06, "loss": 0.2302, "step": 19125 }, { "epoch": 5.1066666666666665, "grad_norm": 8.002670288085938, "learning_rate": 4.136761904761905e-06, "loss": 0.2181, "step": 19150 }, { "epoch": 5.113333333333333, "grad_norm": 7.453000545501709, "learning_rate": 4.127238095238096e-06, "loss": 0.216, "step": 19175 }, { "epoch": 5.12, "grad_norm": 9.276750564575195, "learning_rate": 4.117714285714286e-06, "loss": 0.2296, "step": 19200 }, { "epoch": 5.126666666666667, "grad_norm": 8.332562446594238, "learning_rate": 4.108190476190477e-06, "loss": 0.2385, "step": 19225 }, { "epoch": 5.133333333333334, "grad_norm": 7.754110813140869, "learning_rate": 4.098666666666667e-06, "loss": 0.2252, "step": 19250 }, { "epoch": 5.14, "grad_norm": 8.075357437133789, "learning_rate": 4.0891428571428575e-06, "loss": 0.2386, "step": 19275 }, { "epoch": 5.1466666666666665, "grad_norm": 13.4313325881958, "learning_rate": 4.079619047619048e-06, "loss": 0.2407, "step": 19300 }, { "epoch": 5.153333333333333, "grad_norm": 8.01067066192627, "learning_rate": 4.070095238095239e-06, "loss": 0.2211, "step": 19325 }, { "epoch": 5.16, "grad_norm": 8.232911109924316, "learning_rate": 4.060571428571429e-06, "loss": 0.2099, "step": 19350 }, { "epoch": 5.166666666666667, "grad_norm": 8.286017417907715, "learning_rate": 4.051047619047619e-06, "loss": 0.2141, "step": 19375 }, { "epoch": 5.173333333333334, "grad_norm": 8.53003978729248, "learning_rate": 4.04152380952381e-06, "loss": 0.22, "step": 19400 }, { "epoch": 5.18, "grad_norm": 9.463700294494629, "learning_rate": 4.0320000000000005e-06, "loss": 0.2365, "step": 19425 }, { "epoch": 5.1866666666666665, "grad_norm": 9.513010025024414, "learning_rate": 4.02247619047619e-06, "loss": 0.2135, "step": 19450 }, { "epoch": 5.193333333333333, "grad_norm": 8.491543769836426, "learning_rate": 4.012952380952381e-06, "loss": 0.2246, "step": 19475 }, { "epoch": 5.2, "grad_norm": 9.591778755187988, "learning_rate": 4.003428571428572e-06, "loss": 0.2561, "step": 19500 }, { "epoch": 5.206666666666667, "grad_norm": 7.991750240325928, "learning_rate": 3.993904761904762e-06, "loss": 0.2267, "step": 19525 }, { "epoch": 5.213333333333333, "grad_norm": 9.437651634216309, "learning_rate": 3.984380952380953e-06, "loss": 0.2403, "step": 19550 }, { "epoch": 5.22, "grad_norm": 7.928285598754883, "learning_rate": 3.974857142857143e-06, "loss": 0.2208, "step": 19575 }, { "epoch": 5.226666666666667, "grad_norm": 6.756811618804932, "learning_rate": 3.965333333333334e-06, "loss": 0.2157, "step": 19600 }, { "epoch": 5.233333333333333, "grad_norm": 6.515092372894287, "learning_rate": 3.955809523809524e-06, "loss": 0.2306, "step": 19625 }, { "epoch": 5.24, "grad_norm": 7.373777866363525, "learning_rate": 3.946285714285715e-06, "loss": 0.2404, "step": 19650 }, { "epoch": 5.246666666666667, "grad_norm": 9.353462219238281, "learning_rate": 3.936761904761905e-06, "loss": 0.2254, "step": 19675 }, { "epoch": 5.253333333333333, "grad_norm": 7.703023433685303, "learning_rate": 3.927238095238096e-06, "loss": 0.2017, "step": 19700 }, { "epoch": 5.26, "grad_norm": 8.477394104003906, "learning_rate": 3.917714285714286e-06, "loss": 0.2143, "step": 19725 }, { "epoch": 5.266666666666667, "grad_norm": 7.199848651885986, "learning_rate": 3.908190476190476e-06, "loss": 0.2468, "step": 19750 }, { "epoch": 5.273333333333333, "grad_norm": 7.2001800537109375, "learning_rate": 3.898666666666667e-06, "loss": 0.2329, "step": 19775 }, { "epoch": 5.28, "grad_norm": 9.821074485778809, "learning_rate": 3.889142857142858e-06, "loss": 0.2159, "step": 19800 }, { "epoch": 5.286666666666667, "grad_norm": 7.706233978271484, "learning_rate": 3.879619047619048e-06, "loss": 0.2297, "step": 19825 }, { "epoch": 5.293333333333333, "grad_norm": 8.717984199523926, "learning_rate": 3.870095238095238e-06, "loss": 0.2079, "step": 19850 }, { "epoch": 5.3, "grad_norm": 12.714797973632812, "learning_rate": 3.860571428571429e-06, "loss": 0.2169, "step": 19875 }, { "epoch": 5.306666666666667, "grad_norm": 7.085634231567383, "learning_rate": 3.8510476190476195e-06, "loss": 0.2252, "step": 19900 }, { "epoch": 5.3133333333333335, "grad_norm": 7.455596923828125, "learning_rate": 3.84152380952381e-06, "loss": 0.2249, "step": 19925 }, { "epoch": 5.32, "grad_norm": 8.231857299804688, "learning_rate": 3.832e-06, "loss": 0.1883, "step": 19950 }, { "epoch": 5.326666666666666, "grad_norm": 6.074817657470703, "learning_rate": 3.8224761904761906e-06, "loss": 0.223, "step": 19975 }, { "epoch": 5.333333333333333, "grad_norm": 6.696928977966309, "learning_rate": 3.812952380952381e-06, "loss": 0.2054, "step": 20000 }, { "epoch": 5.34, "grad_norm": 7.785407066345215, "learning_rate": 3.803428571428572e-06, "loss": 0.2199, "step": 20025 }, { "epoch": 5.346666666666667, "grad_norm": 8.944208145141602, "learning_rate": 3.793904761904762e-06, "loss": 0.22, "step": 20050 }, { "epoch": 5.3533333333333335, "grad_norm": 9.503300666809082, "learning_rate": 3.7843809523809527e-06, "loss": 0.2286, "step": 20075 }, { "epoch": 5.36, "grad_norm": 8.379419326782227, "learning_rate": 3.7748571428571434e-06, "loss": 0.207, "step": 20100 }, { "epoch": 5.366666666666666, "grad_norm": 8.356283187866211, "learning_rate": 3.7653333333333336e-06, "loss": 0.2269, "step": 20125 }, { "epoch": 5.373333333333333, "grad_norm": 7.839999198913574, "learning_rate": 3.7558095238095242e-06, "loss": 0.2178, "step": 20150 }, { "epoch": 5.38, "grad_norm": 8.93282699584961, "learning_rate": 3.7462857142857145e-06, "loss": 0.2305, "step": 20175 }, { "epoch": 5.386666666666667, "grad_norm": 8.482865333557129, "learning_rate": 3.736761904761905e-06, "loss": 0.2205, "step": 20200 }, { "epoch": 5.3933333333333335, "grad_norm": 6.62850284576416, "learning_rate": 3.7272380952380953e-06, "loss": 0.217, "step": 20225 }, { "epoch": 5.4, "grad_norm": 8.247754096984863, "learning_rate": 3.717714285714286e-06, "loss": 0.2116, "step": 20250 }, { "epoch": 5.406666666666666, "grad_norm": 8.520336151123047, "learning_rate": 3.708190476190476e-06, "loss": 0.2195, "step": 20275 }, { "epoch": 5.413333333333333, "grad_norm": 7.342014789581299, "learning_rate": 3.6986666666666673e-06, "loss": 0.2142, "step": 20300 }, { "epoch": 5.42, "grad_norm": 6.80022668838501, "learning_rate": 3.689142857142857e-06, "loss": 0.2004, "step": 20325 }, { "epoch": 5.426666666666667, "grad_norm": 8.62631607055664, "learning_rate": 3.679619047619048e-06, "loss": 0.2461, "step": 20350 }, { "epoch": 5.433333333333334, "grad_norm": 10.956358909606934, "learning_rate": 3.670095238095238e-06, "loss": 0.21, "step": 20375 }, { "epoch": 5.44, "grad_norm": 7.769155025482178, "learning_rate": 3.660571428571429e-06, "loss": 0.2297, "step": 20400 }, { "epoch": 5.446666666666666, "grad_norm": 8.335783004760742, "learning_rate": 3.6510476190476197e-06, "loss": 0.2209, "step": 20425 }, { "epoch": 5.453333333333333, "grad_norm": 8.794885635375977, "learning_rate": 3.64152380952381e-06, "loss": 0.2203, "step": 20450 }, { "epoch": 5.46, "grad_norm": 7.390929222106934, "learning_rate": 3.6320000000000005e-06, "loss": 0.2412, "step": 20475 }, { "epoch": 5.466666666666667, "grad_norm": 7.433413028717041, "learning_rate": 3.6224761904761908e-06, "loss": 0.2146, "step": 20500 }, { "epoch": 5.473333333333334, "grad_norm": 10.663132667541504, "learning_rate": 3.6129523809523814e-06, "loss": 0.2265, "step": 20525 }, { "epoch": 5.48, "grad_norm": 7.273309230804443, "learning_rate": 3.6034285714285716e-06, "loss": 0.2178, "step": 20550 }, { "epoch": 5.486666666666666, "grad_norm": 8.934584617614746, "learning_rate": 3.5939047619047623e-06, "loss": 0.2256, "step": 20575 }, { "epoch": 5.493333333333333, "grad_norm": 6.844413757324219, "learning_rate": 3.5843809523809525e-06, "loss": 0.2257, "step": 20600 }, { "epoch": 5.5, "grad_norm": 11.51134204864502, "learning_rate": 3.574857142857143e-06, "loss": 0.2417, "step": 20625 }, { "epoch": 5.506666666666667, "grad_norm": 9.157442092895508, "learning_rate": 3.5653333333333334e-06, "loss": 0.2411, "step": 20650 }, { "epoch": 5.513333333333334, "grad_norm": 7.7640533447265625, "learning_rate": 3.555809523809524e-06, "loss": 0.2155, "step": 20675 }, { "epoch": 5.52, "grad_norm": 7.435049057006836, "learning_rate": 3.5462857142857143e-06, "loss": 0.2201, "step": 20700 }, { "epoch": 5.526666666666666, "grad_norm": 9.660971641540527, "learning_rate": 3.536761904761905e-06, "loss": 0.2116, "step": 20725 }, { "epoch": 5.533333333333333, "grad_norm": 8.51267147064209, "learning_rate": 3.527238095238096e-06, "loss": 0.2296, "step": 20750 }, { "epoch": 5.54, "grad_norm": 6.644988059997559, "learning_rate": 3.5177142857142858e-06, "loss": 0.2146, "step": 20775 }, { "epoch": 5.546666666666667, "grad_norm": 6.6448588371276855, "learning_rate": 3.508190476190477e-06, "loss": 0.2083, "step": 20800 }, { "epoch": 5.553333333333334, "grad_norm": 9.105034828186035, "learning_rate": 3.498666666666667e-06, "loss": 0.2245, "step": 20825 }, { "epoch": 5.5600000000000005, "grad_norm": 8.7272310256958, "learning_rate": 3.4891428571428577e-06, "loss": 0.24, "step": 20850 }, { "epoch": 5.566666666666666, "grad_norm": 10.38683795928955, "learning_rate": 3.479619047619048e-06, "loss": 0.2182, "step": 20875 }, { "epoch": 5.573333333333333, "grad_norm": 8.37644100189209, "learning_rate": 3.4700952380952386e-06, "loss": 0.2374, "step": 20900 }, { "epoch": 5.58, "grad_norm": 8.403351783752441, "learning_rate": 3.460571428571429e-06, "loss": 0.2212, "step": 20925 }, { "epoch": 5.586666666666667, "grad_norm": 9.713714599609375, "learning_rate": 3.4510476190476195e-06, "loss": 0.2045, "step": 20950 }, { "epoch": 5.593333333333334, "grad_norm": 10.12519645690918, "learning_rate": 3.4415238095238097e-06, "loss": 0.2249, "step": 20975 }, { "epoch": 5.6, "grad_norm": 8.807016372680664, "learning_rate": 3.4320000000000003e-06, "loss": 0.2096, "step": 21000 }, { "epoch": 5.6066666666666665, "grad_norm": 10.7708101272583, "learning_rate": 3.4224761904761906e-06, "loss": 0.2298, "step": 21025 }, { "epoch": 5.613333333333333, "grad_norm": 8.356566429138184, "learning_rate": 3.4129523809523812e-06, "loss": 0.2252, "step": 21050 }, { "epoch": 5.62, "grad_norm": 7.751272678375244, "learning_rate": 3.403428571428572e-06, "loss": 0.2296, "step": 21075 }, { "epoch": 5.626666666666667, "grad_norm": 9.154892921447754, "learning_rate": 3.393904761904762e-06, "loss": 0.2082, "step": 21100 }, { "epoch": 5.633333333333333, "grad_norm": 8.852538108825684, "learning_rate": 3.3843809523809527e-06, "loss": 0.2389, "step": 21125 }, { "epoch": 5.64, "grad_norm": 8.03395938873291, "learning_rate": 3.374857142857143e-06, "loss": 0.2358, "step": 21150 }, { "epoch": 5.6466666666666665, "grad_norm": 9.868317604064941, "learning_rate": 3.3653333333333336e-06, "loss": 0.2357, "step": 21175 }, { "epoch": 5.653333333333333, "grad_norm": 10.349991798400879, "learning_rate": 3.355809523809524e-06, "loss": 0.2282, "step": 21200 }, { "epoch": 5.66, "grad_norm": 10.350552558898926, "learning_rate": 3.3462857142857145e-06, "loss": 0.2106, "step": 21225 }, { "epoch": 5.666666666666667, "grad_norm": 8.718181610107422, "learning_rate": 3.3367619047619047e-06, "loss": 0.2298, "step": 21250 }, { "epoch": 5.673333333333334, "grad_norm": 8.100804328918457, "learning_rate": 3.3272380952380958e-06, "loss": 0.2303, "step": 21275 }, { "epoch": 5.68, "grad_norm": 8.061356544494629, "learning_rate": 3.3177142857142856e-06, "loss": 0.2123, "step": 21300 }, { "epoch": 5.6866666666666665, "grad_norm": 8.893597602844238, "learning_rate": 3.3081904761904767e-06, "loss": 0.2185, "step": 21325 }, { "epoch": 5.693333333333333, "grad_norm": 8.45853328704834, "learning_rate": 3.298666666666667e-06, "loss": 0.2064, "step": 21350 }, { "epoch": 5.7, "grad_norm": 10.843313217163086, "learning_rate": 3.2891428571428575e-06, "loss": 0.2194, "step": 21375 }, { "epoch": 5.706666666666667, "grad_norm": 8.22525691986084, "learning_rate": 3.279619047619048e-06, "loss": 0.2149, "step": 21400 }, { "epoch": 5.713333333333333, "grad_norm": 7.29123592376709, "learning_rate": 3.2700952380952384e-06, "loss": 0.2043, "step": 21425 }, { "epoch": 5.72, "grad_norm": 8.707810401916504, "learning_rate": 3.260571428571429e-06, "loss": 0.2153, "step": 21450 }, { "epoch": 5.726666666666667, "grad_norm": 8.674860000610352, "learning_rate": 3.2510476190476193e-06, "loss": 0.2523, "step": 21475 }, { "epoch": 5.733333333333333, "grad_norm": 8.436385154724121, "learning_rate": 3.24152380952381e-06, "loss": 0.2172, "step": 21500 }, { "epoch": 5.74, "grad_norm": 8.723784446716309, "learning_rate": 3.232e-06, "loss": 0.2092, "step": 21525 }, { "epoch": 5.746666666666667, "grad_norm": 8.389568328857422, "learning_rate": 3.222476190476191e-06, "loss": 0.233, "step": 21550 }, { "epoch": 5.753333333333333, "grad_norm": 8.911355972290039, "learning_rate": 3.212952380952381e-06, "loss": 0.2149, "step": 21575 }, { "epoch": 5.76, "grad_norm": 11.683385848999023, "learning_rate": 3.2034285714285717e-06, "loss": 0.2454, "step": 21600 }, { "epoch": 5.766666666666667, "grad_norm": 7.494990825653076, "learning_rate": 3.193904761904762e-06, "loss": 0.2193, "step": 21625 }, { "epoch": 5.773333333333333, "grad_norm": 9.690966606140137, "learning_rate": 3.1843809523809525e-06, "loss": 0.2187, "step": 21650 }, { "epoch": 5.78, "grad_norm": 7.515288829803467, "learning_rate": 3.1748571428571428e-06, "loss": 0.2312, "step": 21675 }, { "epoch": 5.786666666666667, "grad_norm": 10.707686424255371, "learning_rate": 3.1653333333333334e-06, "loss": 0.2356, "step": 21700 }, { "epoch": 5.793333333333333, "grad_norm": 9.02081298828125, "learning_rate": 3.1558095238095245e-06, "loss": 0.2282, "step": 21725 }, { "epoch": 5.8, "grad_norm": 8.740599632263184, "learning_rate": 3.1462857142857147e-06, "loss": 0.202, "step": 21750 }, { "epoch": 5.806666666666667, "grad_norm": 9.082036972045898, "learning_rate": 3.1367619047619054e-06, "loss": 0.2193, "step": 21775 }, { "epoch": 5.8133333333333335, "grad_norm": 6.804386615753174, "learning_rate": 3.1272380952380956e-06, "loss": 0.2249, "step": 21800 }, { "epoch": 5.82, "grad_norm": 8.412642478942871, "learning_rate": 3.1177142857142862e-06, "loss": 0.2233, "step": 21825 }, { "epoch": 5.826666666666666, "grad_norm": 7.969455242156982, "learning_rate": 3.1081904761904764e-06, "loss": 0.2218, "step": 21850 }, { "epoch": 5.833333333333333, "grad_norm": 8.209216117858887, "learning_rate": 3.098666666666667e-06, "loss": 0.2215, "step": 21875 }, { "epoch": 5.84, "grad_norm": 9.645548820495605, "learning_rate": 3.0891428571428573e-06, "loss": 0.2243, "step": 21900 }, { "epoch": 5.846666666666667, "grad_norm": 8.559307098388672, "learning_rate": 3.08e-06, "loss": 0.2393, "step": 21925 }, { "epoch": 5.8533333333333335, "grad_norm": 6.619805812835693, "learning_rate": 3.070476190476191e-06, "loss": 0.224, "step": 21950 }, { "epoch": 5.86, "grad_norm": 7.507440567016602, "learning_rate": 3.060952380952381e-06, "loss": 0.2416, "step": 21975 }, { "epoch": 5.866666666666667, "grad_norm": 7.9469218254089355, "learning_rate": 3.0514285714285717e-06, "loss": 0.211, "step": 22000 }, { "epoch": 5.873333333333333, "grad_norm": 7.1132097244262695, "learning_rate": 3.041904761904762e-06, "loss": 0.2181, "step": 22025 }, { "epoch": 5.88, "grad_norm": 8.419143676757812, "learning_rate": 3.0323809523809526e-06, "loss": 0.2121, "step": 22050 }, { "epoch": 5.886666666666667, "grad_norm": 7.826694011688232, "learning_rate": 3.0228571428571428e-06, "loss": 0.2142, "step": 22075 }, { "epoch": 5.8933333333333335, "grad_norm": 8.576140403747559, "learning_rate": 3.013333333333334e-06, "loss": 0.2112, "step": 22100 }, { "epoch": 5.9, "grad_norm": 7.193573951721191, "learning_rate": 3.0038095238095236e-06, "loss": 0.2269, "step": 22125 }, { "epoch": 5.906666666666666, "grad_norm": 9.3181791305542, "learning_rate": 2.9942857142857147e-06, "loss": 0.2099, "step": 22150 }, { "epoch": 5.913333333333333, "grad_norm": 8.334545135498047, "learning_rate": 2.984761904761905e-06, "loss": 0.2084, "step": 22175 }, { "epoch": 5.92, "grad_norm": 8.288956642150879, "learning_rate": 2.9752380952380956e-06, "loss": 0.2507, "step": 22200 }, { "epoch": 5.926666666666667, "grad_norm": 8.775572776794434, "learning_rate": 2.9657142857142862e-06, "loss": 0.2209, "step": 22225 }, { "epoch": 5.933333333333334, "grad_norm": 7.785128116607666, "learning_rate": 2.9561904761904765e-06, "loss": 0.2161, "step": 22250 }, { "epoch": 5.9399999999999995, "grad_norm": 7.6399006843566895, "learning_rate": 2.946666666666667e-06, "loss": 0.2188, "step": 22275 }, { "epoch": 5.946666666666666, "grad_norm": 7.668445587158203, "learning_rate": 2.9371428571428573e-06, "loss": 0.2061, "step": 22300 }, { "epoch": 5.953333333333333, "grad_norm": 8.001508712768555, "learning_rate": 2.927619047619048e-06, "loss": 0.214, "step": 22325 }, { "epoch": 5.96, "grad_norm": 7.862168312072754, "learning_rate": 2.918095238095238e-06, "loss": 0.2133, "step": 22350 }, { "epoch": 5.966666666666667, "grad_norm": 8.718120574951172, "learning_rate": 2.908571428571429e-06, "loss": 0.2083, "step": 22375 }, { "epoch": 5.973333333333334, "grad_norm": 7.742615699768066, "learning_rate": 2.899047619047619e-06, "loss": 0.2075, "step": 22400 }, { "epoch": 5.98, "grad_norm": 9.678330421447754, "learning_rate": 2.8895238095238097e-06, "loss": 0.2024, "step": 22425 }, { "epoch": 5.986666666666666, "grad_norm": 8.428861618041992, "learning_rate": 2.88e-06, "loss": 0.2231, "step": 22450 }, { "epoch": 5.993333333333333, "grad_norm": 11.3363676071167, "learning_rate": 2.8704761904761906e-06, "loss": 0.2373, "step": 22475 }, { "epoch": 6.0, "grad_norm": 9.848246574401855, "learning_rate": 2.860952380952381e-06, "loss": 0.2109, "step": 22500 }, { "epoch": 6.0, "eval_cer": 27.698786873637328, "eval_loss": 0.4639749526977539, "eval_runtime": 1307.7658, "eval_samples_per_second": 3.823, "eval_steps_per_second": 0.478, "step": 22500 }, { "epoch": 6.006666666666667, "grad_norm": 6.828606605529785, "learning_rate": 2.8514285714285715e-06, "loss": 0.1473, "step": 22525 }, { "epoch": 6.013333333333334, "grad_norm": 7.583554744720459, "learning_rate": 2.8419047619047625e-06, "loss": 0.1592, "step": 22550 }, { "epoch": 6.02, "grad_norm": 6.629754066467285, "learning_rate": 2.8323809523809528e-06, "loss": 0.1451, "step": 22575 }, { "epoch": 6.026666666666666, "grad_norm": 6.695368766784668, "learning_rate": 2.8228571428571434e-06, "loss": 0.1481, "step": 22600 }, { "epoch": 6.033333333333333, "grad_norm": 10.695497512817383, "learning_rate": 2.8133333333333336e-06, "loss": 0.1608, "step": 22625 }, { "epoch": 6.04, "grad_norm": 5.901602745056152, "learning_rate": 2.8038095238095243e-06, "loss": 0.1475, "step": 22650 }, { "epoch": 6.046666666666667, "grad_norm": 6.500913619995117, "learning_rate": 2.7942857142857145e-06, "loss": 0.153, "step": 22675 }, { "epoch": 6.053333333333334, "grad_norm": 7.448944091796875, "learning_rate": 2.784761904761905e-06, "loss": 0.1548, "step": 22700 }, { "epoch": 6.06, "grad_norm": 8.235268592834473, "learning_rate": 2.7752380952380954e-06, "loss": 0.1372, "step": 22725 }, { "epoch": 6.066666666666666, "grad_norm": 7.33930778503418, "learning_rate": 2.765714285714286e-06, "loss": 0.1515, "step": 22750 }, { "epoch": 6.073333333333333, "grad_norm": 6.65372371673584, "learning_rate": 2.7561904761904763e-06, "loss": 0.159, "step": 22775 }, { "epoch": 6.08, "grad_norm": 5.619322776794434, "learning_rate": 2.746666666666667e-06, "loss": 0.1475, "step": 22800 }, { "epoch": 6.086666666666667, "grad_norm": 5.636999607086182, "learning_rate": 2.737142857142857e-06, "loss": 0.1402, "step": 22825 }, { "epoch": 6.093333333333334, "grad_norm": 6.258646488189697, "learning_rate": 2.7276190476190478e-06, "loss": 0.1313, "step": 22850 }, { "epoch": 6.1, "grad_norm": 6.453850269317627, "learning_rate": 2.7180952380952384e-06, "loss": 0.1502, "step": 22875 }, { "epoch": 6.1066666666666665, "grad_norm": 7.0990495681762695, "learning_rate": 2.7085714285714287e-06, "loss": 0.1439, "step": 22900 }, { "epoch": 6.113333333333333, "grad_norm": 4.959884166717529, "learning_rate": 2.6990476190476193e-06, "loss": 0.1408, "step": 22925 }, { "epoch": 6.12, "grad_norm": 8.31031608581543, "learning_rate": 2.6895238095238095e-06, "loss": 0.1454, "step": 22950 }, { "epoch": 6.126666666666667, "grad_norm": 6.5111823081970215, "learning_rate": 2.68e-06, "loss": 0.1499, "step": 22975 }, { "epoch": 6.133333333333334, "grad_norm": 7.66798734664917, "learning_rate": 2.6704761904761904e-06, "loss": 0.1501, "step": 23000 }, { "epoch": 6.14, "grad_norm": 7.889300346374512, "learning_rate": 2.6609523809523815e-06, "loss": 0.1553, "step": 23025 }, { "epoch": 6.1466666666666665, "grad_norm": 6.296180248260498, "learning_rate": 2.6514285714285713e-06, "loss": 0.1524, "step": 23050 }, { "epoch": 6.153333333333333, "grad_norm": 6.24880838394165, "learning_rate": 2.6419047619047623e-06, "loss": 0.1571, "step": 23075 }, { "epoch": 6.16, "grad_norm": 8.156044006347656, "learning_rate": 2.6323809523809526e-06, "loss": 0.1504, "step": 23100 }, { "epoch": 6.166666666666667, "grad_norm": 9.630953788757324, "learning_rate": 2.6228571428571432e-06, "loss": 0.1466, "step": 23125 }, { "epoch": 6.173333333333334, "grad_norm": 6.756717681884766, "learning_rate": 2.6133333333333334e-06, "loss": 0.1369, "step": 23150 }, { "epoch": 6.18, "grad_norm": 8.016380310058594, "learning_rate": 2.603809523809524e-06, "loss": 0.1661, "step": 23175 }, { "epoch": 6.1866666666666665, "grad_norm": 6.940490245819092, "learning_rate": 2.5942857142857147e-06, "loss": 0.149, "step": 23200 }, { "epoch": 6.193333333333333, "grad_norm": 6.749453067779541, "learning_rate": 2.584761904761905e-06, "loss": 0.1478, "step": 23225 }, { "epoch": 6.2, "grad_norm": 7.48594856262207, "learning_rate": 2.5752380952380956e-06, "loss": 0.1498, "step": 23250 }, { "epoch": 6.206666666666667, "grad_norm": 7.766091823577881, "learning_rate": 2.565714285714286e-06, "loss": 0.157, "step": 23275 }, { "epoch": 6.213333333333333, "grad_norm": 7.474206447601318, "learning_rate": 2.5561904761904765e-06, "loss": 0.1438, "step": 23300 }, { "epoch": 6.22, "grad_norm": 6.5319037437438965, "learning_rate": 2.5466666666666667e-06, "loss": 0.1489, "step": 23325 }, { "epoch": 6.226666666666667, "grad_norm": 5.990884304046631, "learning_rate": 2.5371428571428574e-06, "loss": 0.1459, "step": 23350 }, { "epoch": 6.233333333333333, "grad_norm": 6.066216468811035, "learning_rate": 2.5276190476190476e-06, "loss": 0.1373, "step": 23375 }, { "epoch": 6.24, "grad_norm": 7.586083889007568, "learning_rate": 2.5180952380952382e-06, "loss": 0.1544, "step": 23400 }, { "epoch": 6.246666666666667, "grad_norm": 7.357358455657959, "learning_rate": 2.5085714285714285e-06, "loss": 0.1603, "step": 23425 }, { "epoch": 6.253333333333333, "grad_norm": 9.465551376342773, "learning_rate": 2.499047619047619e-06, "loss": 0.1519, "step": 23450 }, { "epoch": 6.26, "grad_norm": 8.907388687133789, "learning_rate": 2.4895238095238097e-06, "loss": 0.1489, "step": 23475 }, { "epoch": 6.266666666666667, "grad_norm": 6.6086506843566895, "learning_rate": 2.4800000000000004e-06, "loss": 0.1368, "step": 23500 }, { "epoch": 6.273333333333333, "grad_norm": 15.552327156066895, "learning_rate": 2.4704761904761906e-06, "loss": 0.1527, "step": 23525 }, { "epoch": 6.28, "grad_norm": 5.629271507263184, "learning_rate": 2.4609523809523813e-06, "loss": 0.1603, "step": 23550 }, { "epoch": 6.286666666666667, "grad_norm": 6.879458904266357, "learning_rate": 2.4514285714285715e-06, "loss": 0.1506, "step": 23575 }, { "epoch": 6.293333333333333, "grad_norm": 7.445820331573486, "learning_rate": 2.441904761904762e-06, "loss": 0.1383, "step": 23600 }, { "epoch": 6.3, "grad_norm": 6.346275806427002, "learning_rate": 2.4323809523809524e-06, "loss": 0.1517, "step": 23625 }, { "epoch": 6.306666666666667, "grad_norm": 6.801636695861816, "learning_rate": 2.422857142857143e-06, "loss": 0.1553, "step": 23650 }, { "epoch": 6.3133333333333335, "grad_norm": 7.590903282165527, "learning_rate": 2.4133333333333337e-06, "loss": 0.1485, "step": 23675 }, { "epoch": 6.32, "grad_norm": 7.595372200012207, "learning_rate": 2.403809523809524e-06, "loss": 0.1408, "step": 23700 }, { "epoch": 6.326666666666666, "grad_norm": 5.52703332901001, "learning_rate": 2.3942857142857145e-06, "loss": 0.1464, "step": 23725 }, { "epoch": 6.333333333333333, "grad_norm": 7.950026035308838, "learning_rate": 2.384761904761905e-06, "loss": 0.1528, "step": 23750 }, { "epoch": 6.34, "grad_norm": 7.044869422912598, "learning_rate": 2.3752380952380954e-06, "loss": 0.1481, "step": 23775 }, { "epoch": 6.346666666666667, "grad_norm": 7.870743751525879, "learning_rate": 2.365714285714286e-06, "loss": 0.1435, "step": 23800 }, { "epoch": 6.3533333333333335, "grad_norm": 5.728346824645996, "learning_rate": 2.3561904761904763e-06, "loss": 0.1507, "step": 23825 }, { "epoch": 6.36, "grad_norm": 5.97953987121582, "learning_rate": 2.346666666666667e-06, "loss": 0.1581, "step": 23850 }, { "epoch": 6.366666666666666, "grad_norm": 7.527473449707031, "learning_rate": 2.337142857142857e-06, "loss": 0.1445, "step": 23875 }, { "epoch": 6.373333333333333, "grad_norm": 8.50522518157959, "learning_rate": 2.327619047619048e-06, "loss": 0.1406, "step": 23900 }, { "epoch": 6.38, "grad_norm": 7.471935272216797, "learning_rate": 2.318095238095238e-06, "loss": 0.1489, "step": 23925 }, { "epoch": 6.386666666666667, "grad_norm": 6.81733512878418, "learning_rate": 2.3085714285714287e-06, "loss": 0.1455, "step": 23950 }, { "epoch": 6.3933333333333335, "grad_norm": 8.549968719482422, "learning_rate": 2.2990476190476193e-06, "loss": 0.1516, "step": 23975 }, { "epoch": 6.4, "grad_norm": 5.8337082862854, "learning_rate": 2.28952380952381e-06, "loss": 0.1393, "step": 24000 }, { "epoch": 6.406666666666666, "grad_norm": 7.259616851806641, "learning_rate": 2.28e-06, "loss": 0.1537, "step": 24025 }, { "epoch": 6.413333333333333, "grad_norm": 7.572646617889404, "learning_rate": 2.270476190476191e-06, "loss": 0.1534, "step": 24050 }, { "epoch": 6.42, "grad_norm": 7.032924175262451, "learning_rate": 2.260952380952381e-06, "loss": 0.1521, "step": 24075 }, { "epoch": 6.426666666666667, "grad_norm": 6.181640625, "learning_rate": 2.2514285714285717e-06, "loss": 0.1553, "step": 24100 }, { "epoch": 6.433333333333334, "grad_norm": 7.344717025756836, "learning_rate": 2.241904761904762e-06, "loss": 0.1525, "step": 24125 }, { "epoch": 6.44, "grad_norm": 7.782438278198242, "learning_rate": 2.2323809523809526e-06, "loss": 0.1447, "step": 24150 }, { "epoch": 6.446666666666666, "grad_norm": 7.844809532165527, "learning_rate": 2.222857142857143e-06, "loss": 0.1517, "step": 24175 }, { "epoch": 6.453333333333333, "grad_norm": 5.486522674560547, "learning_rate": 2.2133333333333335e-06, "loss": 0.1588, "step": 24200 }, { "epoch": 6.46, "grad_norm": 6.44978141784668, "learning_rate": 2.203809523809524e-06, "loss": 0.1512, "step": 24225 }, { "epoch": 6.466666666666667, "grad_norm": 7.095521450042725, "learning_rate": 2.1942857142857143e-06, "loss": 0.1522, "step": 24250 }, { "epoch": 6.473333333333334, "grad_norm": 7.050187587738037, "learning_rate": 2.184761904761905e-06, "loss": 0.149, "step": 24275 }, { "epoch": 6.48, "grad_norm": 8.001523971557617, "learning_rate": 2.1752380952380956e-06, "loss": 0.1534, "step": 24300 }, { "epoch": 6.486666666666666, "grad_norm": 6.425968170166016, "learning_rate": 2.165714285714286e-06, "loss": 0.1422, "step": 24325 }, { "epoch": 6.493333333333333, "grad_norm": 8.42577838897705, "learning_rate": 2.1561904761904765e-06, "loss": 0.1549, "step": 24350 }, { "epoch": 6.5, "grad_norm": 7.254266262054443, "learning_rate": 2.1466666666666667e-06, "loss": 0.1552, "step": 24375 }, { "epoch": 6.506666666666667, "grad_norm": 7.857077598571777, "learning_rate": 2.1371428571428574e-06, "loss": 0.1574, "step": 24400 }, { "epoch": 6.513333333333334, "grad_norm": 5.6290602684021, "learning_rate": 2.1276190476190476e-06, "loss": 0.1557, "step": 24425 }, { "epoch": 6.52, "grad_norm": 5.486408233642578, "learning_rate": 2.1180952380952382e-06, "loss": 0.1451, "step": 24450 }, { "epoch": 6.526666666666666, "grad_norm": 8.579984664916992, "learning_rate": 2.108571428571429e-06, "loss": 0.1665, "step": 24475 }, { "epoch": 6.533333333333333, "grad_norm": 6.072978973388672, "learning_rate": 2.099047619047619e-06, "loss": 0.141, "step": 24500 }, { "epoch": 6.54, "grad_norm": 7.539400100708008, "learning_rate": 2.0895238095238098e-06, "loss": 0.1372, "step": 24525 }, { "epoch": 6.546666666666667, "grad_norm": 5.659696102142334, "learning_rate": 2.08e-06, "loss": 0.1553, "step": 24550 }, { "epoch": 6.553333333333334, "grad_norm": 7.039005279541016, "learning_rate": 2.0704761904761906e-06, "loss": 0.1572, "step": 24575 }, { "epoch": 6.5600000000000005, "grad_norm": 7.570683002471924, "learning_rate": 2.0609523809523813e-06, "loss": 0.1545, "step": 24600 }, { "epoch": 6.566666666666666, "grad_norm": 10.776747703552246, "learning_rate": 2.0514285714285715e-06, "loss": 0.1612, "step": 24625 }, { "epoch": 6.573333333333333, "grad_norm": 7.837728500366211, "learning_rate": 2.041904761904762e-06, "loss": 0.1301, "step": 24650 }, { "epoch": 6.58, "grad_norm": 6.640161514282227, "learning_rate": 2.032380952380953e-06, "loss": 0.1422, "step": 24675 }, { "epoch": 6.586666666666667, "grad_norm": 7.3035383224487305, "learning_rate": 2.022857142857143e-06, "loss": 0.1492, "step": 24700 }, { "epoch": 6.593333333333334, "grad_norm": 5.845125198364258, "learning_rate": 2.0133333333333337e-06, "loss": 0.1442, "step": 24725 }, { "epoch": 6.6, "grad_norm": 6.5024237632751465, "learning_rate": 2.003809523809524e-06, "loss": 0.1427, "step": 24750 }, { "epoch": 6.6066666666666665, "grad_norm": 6.098844051361084, "learning_rate": 1.9942857142857146e-06, "loss": 0.1439, "step": 24775 }, { "epoch": 6.613333333333333, "grad_norm": 6.284074783325195, "learning_rate": 1.9847619047619048e-06, "loss": 0.1557, "step": 24800 }, { "epoch": 6.62, "grad_norm": 6.099598407745361, "learning_rate": 1.9752380952380954e-06, "loss": 0.1473, "step": 24825 }, { "epoch": 6.626666666666667, "grad_norm": 5.94622278213501, "learning_rate": 1.9657142857142856e-06, "loss": 0.1451, "step": 24850 }, { "epoch": 6.633333333333333, "grad_norm": 6.440552711486816, "learning_rate": 1.9561904761904763e-06, "loss": 0.1441, "step": 24875 }, { "epoch": 6.64, "grad_norm": 7.378450870513916, "learning_rate": 1.9466666666666665e-06, "loss": 0.1486, "step": 24900 }, { "epoch": 6.6466666666666665, "grad_norm": 7.62071418762207, "learning_rate": 1.9371428571428576e-06, "loss": 0.1568, "step": 24925 }, { "epoch": 6.653333333333333, "grad_norm": 5.293549060821533, "learning_rate": 1.927619047619048e-06, "loss": 0.1478, "step": 24950 }, { "epoch": 6.66, "grad_norm": 5.74029541015625, "learning_rate": 1.9180952380952385e-06, "loss": 0.1403, "step": 24975 }, { "epoch": 6.666666666666667, "grad_norm": 7.335737228393555, "learning_rate": 1.9085714285714287e-06, "loss": 0.1571, "step": 25000 }, { "epoch": 6.673333333333334, "grad_norm": 8.554529190063477, "learning_rate": 1.8990476190476193e-06, "loss": 0.1423, "step": 25025 }, { "epoch": 6.68, "grad_norm": 6.431390762329102, "learning_rate": 1.8895238095238098e-06, "loss": 0.1486, "step": 25050 }, { "epoch": 6.6866666666666665, "grad_norm": 6.33029317855835, "learning_rate": 1.8800000000000002e-06, "loss": 0.1409, "step": 25075 }, { "epoch": 6.693333333333333, "grad_norm": 7.478055477142334, "learning_rate": 1.8704761904761906e-06, "loss": 0.1561, "step": 25100 }, { "epoch": 6.7, "grad_norm": 7.617250442504883, "learning_rate": 1.860952380952381e-06, "loss": 0.1436, "step": 25125 }, { "epoch": 6.706666666666667, "grad_norm": 7.979248523712158, "learning_rate": 1.8514285714285715e-06, "loss": 0.1536, "step": 25150 }, { "epoch": 6.713333333333333, "grad_norm": 6.918525218963623, "learning_rate": 1.841904761904762e-06, "loss": 0.1484, "step": 25175 }, { "epoch": 6.72, "grad_norm": 7.713553428649902, "learning_rate": 1.8323809523809524e-06, "loss": 0.147, "step": 25200 }, { "epoch": 6.726666666666667, "grad_norm": 4.918476104736328, "learning_rate": 1.8228571428571428e-06, "loss": 0.1449, "step": 25225 }, { "epoch": 6.733333333333333, "grad_norm": 8.247567176818848, "learning_rate": 1.8133333333333337e-06, "loss": 0.1404, "step": 25250 }, { "epoch": 6.74, "grad_norm": 7.025756359100342, "learning_rate": 1.8038095238095241e-06, "loss": 0.1416, "step": 25275 }, { "epoch": 6.746666666666667, "grad_norm": 7.044239521026611, "learning_rate": 1.7942857142857146e-06, "loss": 0.1404, "step": 25300 }, { "epoch": 6.753333333333333, "grad_norm": 7.16432523727417, "learning_rate": 1.784761904761905e-06, "loss": 0.1643, "step": 25325 }, { "epoch": 6.76, "grad_norm": 6.541103363037109, "learning_rate": 1.7752380952380954e-06, "loss": 0.1437, "step": 25350 }, { "epoch": 6.766666666666667, "grad_norm": 7.754510402679443, "learning_rate": 1.7657142857142859e-06, "loss": 0.1383, "step": 25375 }, { "epoch": 6.773333333333333, "grad_norm": 4.995385646820068, "learning_rate": 1.7561904761904763e-06, "loss": 0.1434, "step": 25400 }, { "epoch": 6.78, "grad_norm": 6.967080116271973, "learning_rate": 1.7466666666666667e-06, "loss": 0.1267, "step": 25425 }, { "epoch": 6.786666666666667, "grad_norm": 8.100417137145996, "learning_rate": 1.7371428571428572e-06, "loss": 0.1486, "step": 25450 }, { "epoch": 6.793333333333333, "grad_norm": 7.859476089477539, "learning_rate": 1.7276190476190476e-06, "loss": 0.1512, "step": 25475 }, { "epoch": 6.8, "grad_norm": 7.195878028869629, "learning_rate": 1.718095238095238e-06, "loss": 0.1714, "step": 25500 }, { "epoch": 6.806666666666667, "grad_norm": 5.059131622314453, "learning_rate": 1.7085714285714287e-06, "loss": 0.1378, "step": 25525 }, { "epoch": 6.8133333333333335, "grad_norm": 5.0146284103393555, "learning_rate": 1.6990476190476191e-06, "loss": 0.1359, "step": 25550 }, { "epoch": 6.82, "grad_norm": 6.338350296020508, "learning_rate": 1.6895238095238098e-06, "loss": 0.1483, "step": 25575 }, { "epoch": 6.826666666666666, "grad_norm": 6.440115928649902, "learning_rate": 1.6800000000000002e-06, "loss": 0.1437, "step": 25600 }, { "epoch": 6.833333333333333, "grad_norm": 5.382914066314697, "learning_rate": 1.6704761904761907e-06, "loss": 0.1508, "step": 25625 }, { "epoch": 6.84, "grad_norm": 9.502314567565918, "learning_rate": 1.660952380952381e-06, "loss": 0.1522, "step": 25650 }, { "epoch": 6.846666666666667, "grad_norm": 6.808150768280029, "learning_rate": 1.6514285714285715e-06, "loss": 0.1455, "step": 25675 }, { "epoch": 6.8533333333333335, "grad_norm": 6.782390594482422, "learning_rate": 1.641904761904762e-06, "loss": 0.1654, "step": 25700 }, { "epoch": 6.86, "grad_norm": 7.033082485198975, "learning_rate": 1.6323809523809526e-06, "loss": 0.1476, "step": 25725 }, { "epoch": 6.866666666666667, "grad_norm": 6.357869625091553, "learning_rate": 1.6232380952380954e-06, "loss": 0.1491, "step": 25750 }, { "epoch": 6.873333333333333, "grad_norm": 8.880083084106445, "learning_rate": 1.6137142857142859e-06, "loss": 0.1449, "step": 25775 }, { "epoch": 6.88, "grad_norm": 6.306439399719238, "learning_rate": 1.6041904761904763e-06, "loss": 0.1362, "step": 25800 }, { "epoch": 6.886666666666667, "grad_norm": 6.350951194763184, "learning_rate": 1.5946666666666668e-06, "loss": 0.1413, "step": 25825 }, { "epoch": 6.8933333333333335, "grad_norm": 7.2438435554504395, "learning_rate": 1.5851428571428574e-06, "loss": 0.1372, "step": 25850 }, { "epoch": 6.9, "grad_norm": 4.662027359008789, "learning_rate": 1.5756190476190478e-06, "loss": 0.1309, "step": 25875 }, { "epoch": 6.906666666666666, "grad_norm": 7.620100975036621, "learning_rate": 1.5660952380952383e-06, "loss": 0.1444, "step": 25900 }, { "epoch": 6.913333333333333, "grad_norm": 5.725461483001709, "learning_rate": 1.5565714285714287e-06, "loss": 0.1377, "step": 25925 }, { "epoch": 6.92, "grad_norm": 6.3645124435424805, "learning_rate": 1.5470476190476192e-06, "loss": 0.1427, "step": 25950 }, { "epoch": 6.926666666666667, "grad_norm": 6.6142578125, "learning_rate": 1.5375238095238096e-06, "loss": 0.1484, "step": 25975 }, { "epoch": 6.933333333333334, "grad_norm": 5.590566635131836, "learning_rate": 1.528e-06, "loss": 0.1515, "step": 26000 }, { "epoch": 6.9399999999999995, "grad_norm": 8.096341133117676, "learning_rate": 1.5184761904761905e-06, "loss": 0.1612, "step": 26025 }, { "epoch": 6.946666666666666, "grad_norm": 7.329565048217773, "learning_rate": 1.508952380952381e-06, "loss": 0.147, "step": 26050 }, { "epoch": 6.953333333333333, "grad_norm": 7.864452838897705, "learning_rate": 1.4994285714285718e-06, "loss": 0.1439, "step": 26075 }, { "epoch": 6.96, "grad_norm": 7.4006757736206055, "learning_rate": 1.4899047619047622e-06, "loss": 0.1389, "step": 26100 }, { "epoch": 6.966666666666667, "grad_norm": 8.068634033203125, "learning_rate": 1.4803809523809526e-06, "loss": 0.1426, "step": 26125 }, { "epoch": 6.973333333333334, "grad_norm": 8.207915306091309, "learning_rate": 1.470857142857143e-06, "loss": 0.1472, "step": 26150 }, { "epoch": 6.98, "grad_norm": 6.367456912994385, "learning_rate": 1.4613333333333335e-06, "loss": 0.158, "step": 26175 }, { "epoch": 6.986666666666666, "grad_norm": 7.144924640655518, "learning_rate": 1.451809523809524e-06, "loss": 0.1463, "step": 26200 }, { "epoch": 6.993333333333333, "grad_norm": 6.264813423156738, "learning_rate": 1.4422857142857144e-06, "loss": 0.1485, "step": 26225 }, { "epoch": 7.0, "grad_norm": 5.573395729064941, "learning_rate": 1.4327619047619048e-06, "loss": 0.1365, "step": 26250 }, { "epoch": 7.0, "eval_cer": 27.534800514320857, "eval_loss": 0.4580024778842926, "eval_runtime": 1338.6568, "eval_samples_per_second": 3.735, "eval_steps_per_second": 0.467, "step": 26250 }, { "epoch": 7.006666666666667, "grad_norm": 4.8557047843933105, "learning_rate": 1.4232380952380952e-06, "loss": 0.1028, "step": 26275 }, { "epoch": 7.013333333333334, "grad_norm": 6.244855880737305, "learning_rate": 1.4137142857142857e-06, "loss": 0.107, "step": 26300 }, { "epoch": 7.02, "grad_norm": 5.331733703613281, "learning_rate": 1.4041904761904761e-06, "loss": 0.1076, "step": 26325 }, { "epoch": 7.026666666666666, "grad_norm": 5.44589376449585, "learning_rate": 1.3946666666666668e-06, "loss": 0.1086, "step": 26350 }, { "epoch": 7.033333333333333, "grad_norm": 5.141024589538574, "learning_rate": 1.3851428571428572e-06, "loss": 0.0957, "step": 26375 }, { "epoch": 7.04, "grad_norm": 5.1319661140441895, "learning_rate": 1.3756190476190479e-06, "loss": 0.1088, "step": 26400 }, { "epoch": 7.046666666666667, "grad_norm": 5.781662940979004, "learning_rate": 1.3660952380952383e-06, "loss": 0.0979, "step": 26425 }, { "epoch": 7.053333333333334, "grad_norm": 5.630579948425293, "learning_rate": 1.3565714285714287e-06, "loss": 0.1095, "step": 26450 }, { "epoch": 7.06, "grad_norm": 5.394562244415283, "learning_rate": 1.3474285714285716e-06, "loss": 0.1106, "step": 26475 }, { "epoch": 7.066666666666666, "grad_norm": 7.5741472244262695, "learning_rate": 1.337904761904762e-06, "loss": 0.112, "step": 26500 }, { "epoch": 7.073333333333333, "grad_norm": 6.137536525726318, "learning_rate": 1.3283809523809524e-06, "loss": 0.097, "step": 26525 }, { "epoch": 7.08, "grad_norm": 6.371441841125488, "learning_rate": 1.3188571428571429e-06, "loss": 0.0992, "step": 26550 }, { "epoch": 7.086666666666667, "grad_norm": 4.742753982543945, "learning_rate": 1.3093333333333335e-06, "loss": 0.0947, "step": 26575 }, { "epoch": 7.093333333333334, "grad_norm": 5.5496087074279785, "learning_rate": 1.299809523809524e-06, "loss": 0.0985, "step": 26600 }, { "epoch": 7.1, "grad_norm": 4.753469467163086, "learning_rate": 1.2902857142857144e-06, "loss": 0.0988, "step": 26625 }, { "epoch": 7.1066666666666665, "grad_norm": 6.021629810333252, "learning_rate": 1.2807619047619048e-06, "loss": 0.1083, "step": 26650 }, { "epoch": 7.113333333333333, "grad_norm": 5.6006293296813965, "learning_rate": 1.2712380952380955e-06, "loss": 0.0983, "step": 26675 }, { "epoch": 7.12, "grad_norm": 5.76764440536499, "learning_rate": 1.261714285714286e-06, "loss": 0.1042, "step": 26700 }, { "epoch": 7.126666666666667, "grad_norm": 4.539541244506836, "learning_rate": 1.2521904761904763e-06, "loss": 0.0986, "step": 26725 }, { "epoch": 7.133333333333334, "grad_norm": 8.18603801727295, "learning_rate": 1.2426666666666668e-06, "loss": 0.1025, "step": 26750 }, { "epoch": 7.14, "grad_norm": 6.612101078033447, "learning_rate": 1.2331428571428572e-06, "loss": 0.1126, "step": 26775 }, { "epoch": 7.1466666666666665, "grad_norm": 6.408851146697998, "learning_rate": 1.2236190476190477e-06, "loss": 0.1035, "step": 26800 }, { "epoch": 7.153333333333333, "grad_norm": 4.530457973480225, "learning_rate": 1.2140952380952383e-06, "loss": 0.0948, "step": 26825 }, { "epoch": 7.16, "grad_norm": 5.168616771697998, "learning_rate": 1.2045714285714287e-06, "loss": 0.1114, "step": 26850 }, { "epoch": 7.166666666666667, "grad_norm": 5.781617641448975, "learning_rate": 1.1950476190476192e-06, "loss": 0.1057, "step": 26875 }, { "epoch": 7.173333333333334, "grad_norm": 6.417967319488525, "learning_rate": 1.1855238095238096e-06, "loss": 0.1025, "step": 26900 }, { "epoch": 7.18, "grad_norm": 6.54949951171875, "learning_rate": 1.176e-06, "loss": 0.1047, "step": 26925 }, { "epoch": 7.1866666666666665, "grad_norm": 5.456335544586182, "learning_rate": 1.1664761904761905e-06, "loss": 0.0958, "step": 26950 }, { "epoch": 7.193333333333333, "grad_norm": 7.107601642608643, "learning_rate": 1.1569523809523811e-06, "loss": 0.1016, "step": 26975 }, { "epoch": 7.2, "grad_norm": 6.972559452056885, "learning_rate": 1.1474285714285716e-06, "loss": 0.1116, "step": 27000 }, { "epoch": 7.206666666666667, "grad_norm": 5.878302574157715, "learning_rate": 1.137904761904762e-06, "loss": 0.096, "step": 27025 }, { "epoch": 7.213333333333333, "grad_norm": 4.095868110656738, "learning_rate": 1.1283809523809524e-06, "loss": 0.093, "step": 27050 }, { "epoch": 7.22, "grad_norm": 3.9919233322143555, "learning_rate": 1.1188571428571429e-06, "loss": 0.105, "step": 27075 }, { "epoch": 7.226666666666667, "grad_norm": 6.411441326141357, "learning_rate": 1.1093333333333333e-06, "loss": 0.0995, "step": 27100 }, { "epoch": 7.233333333333333, "grad_norm": 4.915976524353027, "learning_rate": 1.099809523809524e-06, "loss": 0.0932, "step": 27125 }, { "epoch": 7.24, "grad_norm": 5.091182231903076, "learning_rate": 1.0902857142857144e-06, "loss": 0.1018, "step": 27150 }, { "epoch": 7.246666666666667, "grad_norm": 6.451296329498291, "learning_rate": 1.0807619047619048e-06, "loss": 0.1081, "step": 27175 }, { "epoch": 7.253333333333333, "grad_norm": 5.426690578460693, "learning_rate": 1.0712380952380953e-06, "loss": 0.1009, "step": 27200 }, { "epoch": 7.26, "grad_norm": 5.850121021270752, "learning_rate": 1.0617142857142857e-06, "loss": 0.1092, "step": 27225 }, { "epoch": 7.266666666666667, "grad_norm": 4.60863733291626, "learning_rate": 1.0521904761904761e-06, "loss": 0.109, "step": 27250 }, { "epoch": 7.273333333333333, "grad_norm": 5.995533466339111, "learning_rate": 1.0426666666666668e-06, "loss": 0.0977, "step": 27275 }, { "epoch": 7.28, "grad_norm": 5.610628604888916, "learning_rate": 1.0331428571428572e-06, "loss": 0.0953, "step": 27300 }, { "epoch": 7.286666666666667, "grad_norm": 6.171587944030762, "learning_rate": 1.0236190476190477e-06, "loss": 0.1036, "step": 27325 }, { "epoch": 7.293333333333333, "grad_norm": 5.549402713775635, "learning_rate": 1.014095238095238e-06, "loss": 0.1091, "step": 27350 }, { "epoch": 7.3, "grad_norm": 6.277771472930908, "learning_rate": 1.0045714285714285e-06, "loss": 0.1237, "step": 27375 }, { "epoch": 7.306666666666667, "grad_norm": 6.155930042266846, "learning_rate": 9.950476190476192e-07, "loss": 0.1112, "step": 27400 }, { "epoch": 7.3133333333333335, "grad_norm": 6.675112247467041, "learning_rate": 9.855238095238096e-07, "loss": 0.1047, "step": 27425 }, { "epoch": 7.32, "grad_norm": 5.316192626953125, "learning_rate": 9.76e-07, "loss": 0.1081, "step": 27450 }, { "epoch": 7.326666666666666, "grad_norm": 5.340700149536133, "learning_rate": 9.664761904761905e-07, "loss": 0.1119, "step": 27475 }, { "epoch": 7.333333333333333, "grad_norm": 4.614721775054932, "learning_rate": 9.569523809523811e-07, "loss": 0.0961, "step": 27500 }, { "epoch": 7.34, "grad_norm": 6.0804123878479, "learning_rate": 9.474285714285715e-07, "loss": 0.1124, "step": 27525 }, { "epoch": 7.346666666666667, "grad_norm": 5.796234130859375, "learning_rate": 9.379047619047619e-07, "loss": 0.0876, "step": 27550 }, { "epoch": 7.3533333333333335, "grad_norm": 5.168522357940674, "learning_rate": 9.283809523809525e-07, "loss": 0.0883, "step": 27575 }, { "epoch": 7.36, "grad_norm": 4.981782913208008, "learning_rate": 9.188571428571429e-07, "loss": 0.093, "step": 27600 }, { "epoch": 7.366666666666666, "grad_norm": 3.9571640491485596, "learning_rate": 9.093333333333334e-07, "loss": 0.1187, "step": 27625 }, { "epoch": 7.373333333333333, "grad_norm": 5.296597957611084, "learning_rate": 8.998095238095239e-07, "loss": 0.1025, "step": 27650 }, { "epoch": 7.38, "grad_norm": 5.612768650054932, "learning_rate": 8.902857142857144e-07, "loss": 0.1125, "step": 27675 }, { "epoch": 7.386666666666667, "grad_norm": 6.152787685394287, "learning_rate": 8.807619047619048e-07, "loss": 0.1079, "step": 27700 }, { "epoch": 7.3933333333333335, "grad_norm": 4.864405155181885, "learning_rate": 8.712380952380953e-07, "loss": 0.1044, "step": 27725 }, { "epoch": 7.4, "grad_norm": 4.57480001449585, "learning_rate": 8.617142857142857e-07, "loss": 0.0965, "step": 27750 }, { "epoch": 7.406666666666666, "grad_norm": 6.288766384124756, "learning_rate": 8.521904761904764e-07, "loss": 0.1052, "step": 27775 }, { "epoch": 7.413333333333333, "grad_norm": 6.1317338943481445, "learning_rate": 8.426666666666668e-07, "loss": 0.1015, "step": 27800 }, { "epoch": 7.42, "grad_norm": 5.133846759796143, "learning_rate": 8.331428571428572e-07, "loss": 0.1, "step": 27825 }, { "epoch": 7.426666666666667, "grad_norm": 5.88638162612915, "learning_rate": 8.236190476190477e-07, "loss": 0.1146, "step": 27850 }, { "epoch": 7.433333333333334, "grad_norm": 5.488973140716553, "learning_rate": 8.140952380952381e-07, "loss": 0.1, "step": 27875 }, { "epoch": 7.44, "grad_norm": 6.180425643920898, "learning_rate": 8.045714285714285e-07, "loss": 0.1117, "step": 27900 }, { "epoch": 7.446666666666666, "grad_norm": 6.80849027633667, "learning_rate": 7.950476190476192e-07, "loss": 0.102, "step": 27925 }, { "epoch": 7.453333333333333, "grad_norm": 3.8493120670318604, "learning_rate": 7.855238095238096e-07, "loss": 0.0964, "step": 27950 }, { "epoch": 7.46, "grad_norm": 4.781039714813232, "learning_rate": 7.760000000000001e-07, "loss": 0.1052, "step": 27975 }, { "epoch": 7.466666666666667, "grad_norm": 3.6695716381073, "learning_rate": 7.664761904761905e-07, "loss": 0.086, "step": 28000 }, { "epoch": 7.473333333333334, "grad_norm": 5.77593994140625, "learning_rate": 7.56952380952381e-07, "loss": 0.0985, "step": 28025 }, { "epoch": 7.48, "grad_norm": 5.14320182800293, "learning_rate": 7.474285714285715e-07, "loss": 0.1008, "step": 28050 }, { "epoch": 7.486666666666666, "grad_norm": 7.023684978485107, "learning_rate": 7.379047619047619e-07, "loss": 0.1025, "step": 28075 }, { "epoch": 7.493333333333333, "grad_norm": 8.001739501953125, "learning_rate": 7.283809523809525e-07, "loss": 0.106, "step": 28100 }, { "epoch": 7.5, "grad_norm": 4.784168243408203, "learning_rate": 7.188571428571429e-07, "loss": 0.106, "step": 28125 }, { "epoch": 7.506666666666667, "grad_norm": 4.666459560394287, "learning_rate": 7.093333333333334e-07, "loss": 0.1021, "step": 28150 }, { "epoch": 7.513333333333334, "grad_norm": 6.073111057281494, "learning_rate": 6.998095238095239e-07, "loss": 0.0946, "step": 28175 }, { "epoch": 7.52, "grad_norm": 5.129397869110107, "learning_rate": 6.902857142857143e-07, "loss": 0.0972, "step": 28200 }, { "epoch": 7.526666666666666, "grad_norm": 5.264807224273682, "learning_rate": 6.807619047619047e-07, "loss": 0.1025, "step": 28225 }, { "epoch": 7.533333333333333, "grad_norm": 5.123986721038818, "learning_rate": 6.712380952380954e-07, "loss": 0.1007, "step": 28250 }, { "epoch": 7.54, "grad_norm": 4.7044219970703125, "learning_rate": 6.617142857142858e-07, "loss": 0.1068, "step": 28275 }, { "epoch": 7.546666666666667, "grad_norm": 5.224925518035889, "learning_rate": 6.521904761904763e-07, "loss": 0.0888, "step": 28300 }, { "epoch": 7.553333333333334, "grad_norm": 6.2229905128479, "learning_rate": 6.426666666666667e-07, "loss": 0.1049, "step": 28325 }, { "epoch": 7.5600000000000005, "grad_norm": 5.250560283660889, "learning_rate": 6.331428571428571e-07, "loss": 0.1119, "step": 28350 }, { "epoch": 7.566666666666666, "grad_norm": 5.204071998596191, "learning_rate": 6.236190476190477e-07, "loss": 0.0925, "step": 28375 }, { "epoch": 7.573333333333333, "grad_norm": 5.91623067855835, "learning_rate": 6.140952380952381e-07, "loss": 0.1067, "step": 28400 }, { "epoch": 7.58, "grad_norm": 5.126018047332764, "learning_rate": 6.045714285714286e-07, "loss": 0.1049, "step": 28425 }, { "epoch": 7.586666666666667, "grad_norm": 5.5662150382995605, "learning_rate": 5.950476190476191e-07, "loss": 0.1055, "step": 28450 }, { "epoch": 7.593333333333334, "grad_norm": 4.561946392059326, "learning_rate": 5.855238095238095e-07, "loss": 0.1117, "step": 28475 }, { "epoch": 7.6, "grad_norm": 4.936454772949219, "learning_rate": 5.760000000000001e-07, "loss": 0.0903, "step": 28500 }, { "epoch": 7.6066666666666665, "grad_norm": 4.698706150054932, "learning_rate": 5.664761904761905e-07, "loss": 0.1065, "step": 28525 }, { "epoch": 7.613333333333333, "grad_norm": 5.614552021026611, "learning_rate": 5.569523809523811e-07, "loss": 0.1058, "step": 28550 }, { "epoch": 7.62, "grad_norm": 4.720293998718262, "learning_rate": 5.474285714285715e-07, "loss": 0.1038, "step": 28575 }, { "epoch": 7.626666666666667, "grad_norm": 7.08539342880249, "learning_rate": 5.379047619047619e-07, "loss": 0.1084, "step": 28600 }, { "epoch": 7.633333333333333, "grad_norm": 6.104120254516602, "learning_rate": 5.283809523809525e-07, "loss": 0.0877, "step": 28625 }, { "epoch": 7.64, "grad_norm": 3.7994754314422607, "learning_rate": 5.188571428571429e-07, "loss": 0.0865, "step": 28650 }, { "epoch": 7.6466666666666665, "grad_norm": 5.859673023223877, "learning_rate": 5.093333333333333e-07, "loss": 0.0996, "step": 28675 }, { "epoch": 7.653333333333333, "grad_norm": 6.445855617523193, "learning_rate": 4.998095238095239e-07, "loss": 0.1107, "step": 28700 }, { "epoch": 7.66, "grad_norm": 5.001009941101074, "learning_rate": 4.902857142857143e-07, "loss": 0.1175, "step": 28725 }, { "epoch": 7.666666666666667, "grad_norm": 5.675832748413086, "learning_rate": 4.807619047619048e-07, "loss": 0.1059, "step": 28750 }, { "epoch": 7.673333333333334, "grad_norm": 4.962488651275635, "learning_rate": 4.712380952380953e-07, "loss": 0.1042, "step": 28775 }, { "epoch": 7.68, "grad_norm": 5.561017990112305, "learning_rate": 4.6171428571428573e-07, "loss": 0.1056, "step": 28800 }, { "epoch": 7.6866666666666665, "grad_norm": 5.013485908508301, "learning_rate": 4.521904761904762e-07, "loss": 0.0956, "step": 28825 }, { "epoch": 7.693333333333333, "grad_norm": 4.603240013122559, "learning_rate": 4.426666666666667e-07, "loss": 0.1054, "step": 28850 }, { "epoch": 7.7, "grad_norm": 4.981840133666992, "learning_rate": 4.331428571428572e-07, "loss": 0.0966, "step": 28875 }, { "epoch": 7.706666666666667, "grad_norm": 6.092499256134033, "learning_rate": 4.2361904761904764e-07, "loss": 0.0936, "step": 28900 }, { "epoch": 7.713333333333333, "grad_norm": 5.377251148223877, "learning_rate": 4.140952380952382e-07, "loss": 0.1041, "step": 28925 }, { "epoch": 7.72, "grad_norm": 5.544815540313721, "learning_rate": 4.045714285714286e-07, "loss": 0.1019, "step": 28950 }, { "epoch": 7.726666666666667, "grad_norm": 4.959236145019531, "learning_rate": 3.9504761904761905e-07, "loss": 0.1031, "step": 28975 }, { "epoch": 7.733333333333333, "grad_norm": 6.397305965423584, "learning_rate": 3.8552380952380954e-07, "loss": 0.1041, "step": 29000 }, { "epoch": 7.74, "grad_norm": 4.410436630249023, "learning_rate": 3.7600000000000003e-07, "loss": 0.1025, "step": 29025 }, { "epoch": 7.746666666666667, "grad_norm": 6.567444324493408, "learning_rate": 3.664761904761905e-07, "loss": 0.1131, "step": 29050 }, { "epoch": 7.753333333333333, "grad_norm": 7.953134536743164, "learning_rate": 3.5695238095238096e-07, "loss": 0.0916, "step": 29075 }, { "epoch": 7.76, "grad_norm": 5.282848834991455, "learning_rate": 3.474285714285715e-07, "loss": 0.0943, "step": 29100 }, { "epoch": 7.766666666666667, "grad_norm": 5.088173866271973, "learning_rate": 3.3790476190476194e-07, "loss": 0.0993, "step": 29125 }, { "epoch": 7.773333333333333, "grad_norm": 4.999279499053955, "learning_rate": 3.2838095238095237e-07, "loss": 0.1042, "step": 29150 }, { "epoch": 7.78, "grad_norm": 3.6545777320861816, "learning_rate": 3.188571428571429e-07, "loss": 0.1055, "step": 29175 }, { "epoch": 7.786666666666667, "grad_norm": 5.851073741912842, "learning_rate": 3.0933333333333335e-07, "loss": 0.1051, "step": 29200 }, { "epoch": 7.793333333333333, "grad_norm": 5.099207401275635, "learning_rate": 2.9980952380952384e-07, "loss": 0.0952, "step": 29225 }, { "epoch": 7.8, "grad_norm": 5.112496376037598, "learning_rate": 2.9028571428571433e-07, "loss": 0.098, "step": 29250 }, { "epoch": 7.806666666666667, "grad_norm": 4.881762981414795, "learning_rate": 2.8076190476190477e-07, "loss": 0.1027, "step": 29275 }, { "epoch": 7.8133333333333335, "grad_norm": 5.365390300750732, "learning_rate": 2.7123809523809525e-07, "loss": 0.1013, "step": 29300 }, { "epoch": 7.82, "grad_norm": 5.105774879455566, "learning_rate": 2.6171428571428574e-07, "loss": 0.0984, "step": 29325 }, { "epoch": 7.826666666666666, "grad_norm": 5.303748607635498, "learning_rate": 2.5219047619047623e-07, "loss": 0.0946, "step": 29350 }, { "epoch": 7.833333333333333, "grad_norm": 5.642498016357422, "learning_rate": 2.4266666666666667e-07, "loss": 0.1138, "step": 29375 }, { "epoch": 7.84, "grad_norm": 4.858274936676025, "learning_rate": 2.3314285714285716e-07, "loss": 0.0923, "step": 29400 }, { "epoch": 7.846666666666667, "grad_norm": 4.104814529418945, "learning_rate": 2.2361904761904765e-07, "loss": 0.0921, "step": 29425 }, { "epoch": 7.8533333333333335, "grad_norm": 5.990296840667725, "learning_rate": 2.140952380952381e-07, "loss": 0.1011, "step": 29450 }, { "epoch": 7.86, "grad_norm": 6.096645832061768, "learning_rate": 2.045714285714286e-07, "loss": 0.1089, "step": 29475 }, { "epoch": 7.866666666666667, "grad_norm": 7.12993860244751, "learning_rate": 1.9504761904761904e-07, "loss": 0.1067, "step": 29500 }, { "epoch": 7.873333333333333, "grad_norm": 6.076792240142822, "learning_rate": 1.8552380952380953e-07, "loss": 0.103, "step": 29525 }, { "epoch": 7.88, "grad_norm": 6.502140045166016, "learning_rate": 1.7600000000000001e-07, "loss": 0.1036, "step": 29550 }, { "epoch": 7.886666666666667, "grad_norm": 7.23534631729126, "learning_rate": 1.6647619047619048e-07, "loss": 0.1069, "step": 29575 }, { "epoch": 7.8933333333333335, "grad_norm": 5.285584449768066, "learning_rate": 1.5695238095238097e-07, "loss": 0.1096, "step": 29600 }, { "epoch": 7.9, "grad_norm": 6.062516212463379, "learning_rate": 1.4742857142857143e-07, "loss": 0.098, "step": 29625 }, { "epoch": 7.906666666666666, "grad_norm": 5.228450298309326, "learning_rate": 1.3790476190476192e-07, "loss": 0.1106, "step": 29650 }, { "epoch": 7.913333333333333, "grad_norm": 5.914242267608643, "learning_rate": 1.283809523809524e-07, "loss": 0.0919, "step": 29675 }, { "epoch": 7.92, "grad_norm": 6.222010612487793, "learning_rate": 1.1885714285714287e-07, "loss": 0.0964, "step": 29700 }, { "epoch": 7.926666666666667, "grad_norm": 4.014278411865234, "learning_rate": 1.0933333333333335e-07, "loss": 0.1085, "step": 29725 }, { "epoch": 7.933333333333334, "grad_norm": 6.637640953063965, "learning_rate": 9.980952380952381e-08, "loss": 0.1221, "step": 29750 }, { "epoch": 7.9399999999999995, "grad_norm": 5.568607330322266, "learning_rate": 9.02857142857143e-08, "loss": 0.0947, "step": 29775 }, { "epoch": 7.946666666666666, "grad_norm": 4.651712894439697, "learning_rate": 8.076190476190477e-08, "loss": 0.1002, "step": 29800 }, { "epoch": 7.953333333333333, "grad_norm": 6.018585681915283, "learning_rate": 7.123809523809524e-08, "loss": 0.1046, "step": 29825 }, { "epoch": 7.96, "grad_norm": 6.500985145568848, "learning_rate": 6.171428571428573e-08, "loss": 0.0946, "step": 29850 }, { "epoch": 7.966666666666667, "grad_norm": 10.400946617126465, "learning_rate": 5.2190476190476196e-08, "loss": 0.0963, "step": 29875 }, { "epoch": 7.973333333333334, "grad_norm": 5.860899448394775, "learning_rate": 4.266666666666667e-08, "loss": 0.0974, "step": 29900 }, { "epoch": 7.98, "grad_norm": 4.525150299072266, "learning_rate": 3.314285714285715e-08, "loss": 0.1018, "step": 29925 }, { "epoch": 7.986666666666666, "grad_norm": 5.598081588745117, "learning_rate": 2.3619047619047624e-08, "loss": 0.1103, "step": 29950 }, { "epoch": 7.993333333333333, "grad_norm": 4.0639495849609375, "learning_rate": 1.4095238095238096e-08, "loss": 0.1016, "step": 29975 }, { "epoch": 8.0, "grad_norm": 6.061055660247803, "learning_rate": 4.571428571428571e-09, "loss": 0.105, "step": 30000 }, { "epoch": 8.0, "eval_cer": 27.23478001602594, "eval_loss": 0.45709970593452454, "eval_runtime": 1263.0383, "eval_samples_per_second": 3.959, "eval_steps_per_second": 0.495, "step": 30000 }, { "epoch": 8.006666666666666, "grad_norm": 15.80374813079834, "learning_rate": 5.331022222222223e-06, "loss": 0.7179, "step": 30025 }, { "epoch": 8.013333333333334, "grad_norm": 20.2119083404541, "learning_rate": 5.326755555555556e-06, "loss": 0.7249, "step": 30050 }, { "epoch": 8.02, "grad_norm": 12.324047088623047, "learning_rate": 5.322311111111111e-06, "loss": 0.6666, "step": 30075 }, { "epoch": 8.026666666666667, "grad_norm": 12.786880493164062, "learning_rate": 5.317866666666667e-06, "loss": 0.6729, "step": 30100 }, { "epoch": 8.033333333333333, "grad_norm": 15.034636497497559, "learning_rate": 5.3134222222222235e-06, "loss": 0.7112, "step": 30125 }, { "epoch": 8.04, "grad_norm": 14.4805269241333, "learning_rate": 5.308977777777778e-06, "loss": 0.7044, "step": 30150 }, { "epoch": 8.046666666666667, "grad_norm": 15.920146942138672, "learning_rate": 5.304533333333334e-06, "loss": 0.631, "step": 30175 }, { "epoch": 8.053333333333333, "grad_norm": 14.741226196289062, "learning_rate": 5.300088888888889e-06, "loss": 0.6033, "step": 30200 }, { "epoch": 8.06, "grad_norm": 13.328174591064453, "learning_rate": 5.2956444444444446e-06, "loss": 0.6503, "step": 30225 }, { "epoch": 8.066666666666666, "grad_norm": 15.260951042175293, "learning_rate": 5.291200000000001e-06, "loss": 0.6839, "step": 30250 }, { "epoch": 8.073333333333334, "grad_norm": 15.764543533325195, "learning_rate": 5.286755555555556e-06, "loss": 0.6598, "step": 30275 }, { "epoch": 8.08, "grad_norm": 13.079901695251465, "learning_rate": 5.282311111111112e-06, "loss": 0.6545, "step": 30300 }, { "epoch": 8.086666666666666, "grad_norm": 17.601470947265625, "learning_rate": 5.2778666666666665e-06, "loss": 0.6527, "step": 30325 }, { "epoch": 8.093333333333334, "grad_norm": 15.077278137207031, "learning_rate": 5.273422222222223e-06, "loss": 0.6344, "step": 30350 }, { "epoch": 8.1, "grad_norm": 16.498008728027344, "learning_rate": 5.269155555555556e-06, "loss": 0.6072, "step": 30375 }, { "epoch": 8.106666666666667, "grad_norm": 13.190762519836426, "learning_rate": 5.264711111111111e-06, "loss": 0.6207, "step": 30400 }, { "epoch": 8.113333333333333, "grad_norm": 12.650928497314453, "learning_rate": 5.260266666666667e-06, "loss": 0.6242, "step": 30425 }, { "epoch": 8.12, "grad_norm": 15.672072410583496, "learning_rate": 5.2558222222222226e-06, "loss": 0.6522, "step": 30450 }, { "epoch": 8.126666666666667, "grad_norm": 16.408472061157227, "learning_rate": 5.251377777777778e-06, "loss": 0.619, "step": 30475 }, { "epoch": 8.133333333333333, "grad_norm": 12.948939323425293, "learning_rate": 5.246933333333334e-06, "loss": 0.6064, "step": 30500 }, { "epoch": 8.14, "grad_norm": 13.54633617401123, "learning_rate": 5.242488888888889e-06, "loss": 0.6184, "step": 30525 }, { "epoch": 8.146666666666667, "grad_norm": 13.567835807800293, "learning_rate": 5.2380444444444445e-06, "loss": 0.6005, "step": 30550 }, { "epoch": 8.153333333333332, "grad_norm": 16.201248168945312, "learning_rate": 5.233600000000001e-06, "loss": 0.596, "step": 30575 }, { "epoch": 8.16, "grad_norm": 15.499818801879883, "learning_rate": 5.229155555555556e-06, "loss": 0.5632, "step": 30600 }, { "epoch": 8.166666666666666, "grad_norm": 13.230591773986816, "learning_rate": 5.2247111111111116e-06, "loss": 0.5647, "step": 30625 }, { "epoch": 8.173333333333334, "grad_norm": 17.013526916503906, "learning_rate": 5.220266666666666e-06, "loss": 0.5813, "step": 30650 }, { "epoch": 8.18, "grad_norm": 11.080538749694824, "learning_rate": 5.215822222222222e-06, "loss": 0.5658, "step": 30675 }, { "epoch": 8.186666666666667, "grad_norm": 16.584476470947266, "learning_rate": 5.211377777777779e-06, "loss": 0.5646, "step": 30700 }, { "epoch": 8.193333333333333, "grad_norm": 11.669316291809082, "learning_rate": 5.2069333333333335e-06, "loss": 0.5735, "step": 30725 }, { "epoch": 8.2, "grad_norm": 12.094216346740723, "learning_rate": 5.202488888888889e-06, "loss": 0.5528, "step": 30750 }, { "epoch": 8.206666666666667, "grad_norm": 13.14426040649414, "learning_rate": 5.198044444444445e-06, "loss": 0.5256, "step": 30775 }, { "epoch": 8.213333333333333, "grad_norm": 10.807392120361328, "learning_rate": 5.1936000000000006e-06, "loss": 0.557, "step": 30800 }, { "epoch": 8.22, "grad_norm": 15.564530372619629, "learning_rate": 5.189155555555556e-06, "loss": 0.5777, "step": 30825 }, { "epoch": 8.226666666666667, "grad_norm": 12.651592254638672, "learning_rate": 5.184711111111111e-06, "loss": 0.5681, "step": 30850 }, { "epoch": 8.233333333333333, "grad_norm": 12.719521522521973, "learning_rate": 5.180266666666667e-06, "loss": 0.5963, "step": 30875 }, { "epoch": 8.24, "grad_norm": 15.006736755371094, "learning_rate": 5.175822222222223e-06, "loss": 0.575, "step": 30900 }, { "epoch": 8.246666666666666, "grad_norm": 13.512928009033203, "learning_rate": 5.171377777777778e-06, "loss": 0.5952, "step": 30925 }, { "epoch": 8.253333333333334, "grad_norm": 12.170061111450195, "learning_rate": 5.166933333333334e-06, "loss": 0.517, "step": 30950 }, { "epoch": 8.26, "grad_norm": 10.90804386138916, "learning_rate": 5.162488888888889e-06, "loss": 0.5673, "step": 30975 }, { "epoch": 8.266666666666667, "grad_norm": 13.123577117919922, "learning_rate": 5.158044444444444e-06, "loss": 0.5272, "step": 31000 }, { "epoch": 8.273333333333333, "grad_norm": 17.114822387695312, "learning_rate": 5.153600000000001e-06, "loss": 0.555, "step": 31025 }, { "epoch": 8.28, "grad_norm": 23.58224868774414, "learning_rate": 5.149155555555556e-06, "loss": 0.5209, "step": 31050 }, { "epoch": 8.286666666666667, "grad_norm": 14.041379928588867, "learning_rate": 5.1447111111111115e-06, "loss": 0.5724, "step": 31075 }, { "epoch": 8.293333333333333, "grad_norm": 14.041072845458984, "learning_rate": 5.140266666666666e-06, "loss": 0.5713, "step": 31100 }, { "epoch": 8.3, "grad_norm": 17.312397003173828, "learning_rate": 5.135822222222223e-06, "loss": 0.584, "step": 31125 }, { "epoch": 8.306666666666667, "grad_norm": 12.423078536987305, "learning_rate": 5.1313777777777786e-06, "loss": 0.5441, "step": 31150 }, { "epoch": 8.313333333333333, "grad_norm": 14.337580680847168, "learning_rate": 5.126933333333333e-06, "loss": 0.4991, "step": 31175 }, { "epoch": 8.32, "grad_norm": 14.055214881896973, "learning_rate": 5.122488888888889e-06, "loss": 0.5525, "step": 31200 }, { "epoch": 8.326666666666666, "grad_norm": 15.051172256469727, "learning_rate": 5.118044444444445e-06, "loss": 0.546, "step": 31225 }, { "epoch": 8.333333333333334, "grad_norm": 10.422541618347168, "learning_rate": 5.1136000000000005e-06, "loss": 0.5238, "step": 31250 }, { "epoch": 8.34, "grad_norm": 14.514918327331543, "learning_rate": 5.109155555555556e-06, "loss": 0.5389, "step": 31275 }, { "epoch": 8.346666666666668, "grad_norm": 13.189994812011719, "learning_rate": 5.104711111111111e-06, "loss": 0.5166, "step": 31300 }, { "epoch": 8.353333333333333, "grad_norm": 10.180733680725098, "learning_rate": 5.100266666666667e-06, "loss": 0.5159, "step": 31325 }, { "epoch": 8.36, "grad_norm": 14.720268249511719, "learning_rate": 5.095822222222223e-06, "loss": 0.5476, "step": 31350 }, { "epoch": 8.366666666666667, "grad_norm": 12.236518859863281, "learning_rate": 5.091377777777778e-06, "loss": 0.5644, "step": 31375 }, { "epoch": 8.373333333333333, "grad_norm": 12.985857963562012, "learning_rate": 5.086933333333334e-06, "loss": 0.5636, "step": 31400 }, { "epoch": 8.38, "grad_norm": 12.396551132202148, "learning_rate": 5.082488888888889e-06, "loss": 0.558, "step": 31425 }, { "epoch": 8.386666666666667, "grad_norm": 17.774967193603516, "learning_rate": 5.078044444444444e-06, "loss": 0.5455, "step": 31450 }, { "epoch": 8.393333333333333, "grad_norm": 19.243282318115234, "learning_rate": 5.073600000000001e-06, "loss": 0.5056, "step": 31475 }, { "epoch": 8.4, "grad_norm": 11.600284576416016, "learning_rate": 5.069155555555556e-06, "loss": 0.5382, "step": 31500 }, { "epoch": 8.406666666666666, "grad_norm": 11.02953052520752, "learning_rate": 5.064711111111111e-06, "loss": 0.5357, "step": 31525 }, { "epoch": 8.413333333333334, "grad_norm": 14.33912467956543, "learning_rate": 5.060266666666666e-06, "loss": 0.5045, "step": 31550 }, { "epoch": 8.42, "grad_norm": 11.844728469848633, "learning_rate": 5.055822222222223e-06, "loss": 0.5114, "step": 31575 }, { "epoch": 8.426666666666666, "grad_norm": 11.443325996398926, "learning_rate": 5.0513777777777785e-06, "loss": 0.5072, "step": 31600 }, { "epoch": 8.433333333333334, "grad_norm": 14.4727783203125, "learning_rate": 5.046933333333333e-06, "loss": 0.5143, "step": 31625 }, { "epoch": 8.44, "grad_norm": 13.60036849975586, "learning_rate": 5.042488888888889e-06, "loss": 0.5408, "step": 31650 }, { "epoch": 8.446666666666667, "grad_norm": 13.365395545959473, "learning_rate": 5.0380444444444455e-06, "loss": 0.5238, "step": 31675 }, { "epoch": 8.453333333333333, "grad_norm": 17.21660804748535, "learning_rate": 5.0336e-06, "loss": 0.4764, "step": 31700 }, { "epoch": 8.46, "grad_norm": 11.677000999450684, "learning_rate": 5.029155555555556e-06, "loss": 0.5208, "step": 31725 }, { "epoch": 8.466666666666667, "grad_norm": 15.142614364624023, "learning_rate": 5.024711111111111e-06, "loss": 0.5603, "step": 31750 }, { "epoch": 8.473333333333333, "grad_norm": 10.802978515625, "learning_rate": 5.020266666666667e-06, "loss": 0.5114, "step": 31775 }, { "epoch": 8.48, "grad_norm": 14.347644805908203, "learning_rate": 5.015822222222223e-06, "loss": 0.5164, "step": 31800 }, { "epoch": 8.486666666666666, "grad_norm": 12.433709144592285, "learning_rate": 5.011377777777778e-06, "loss": 0.48, "step": 31825 }, { "epoch": 8.493333333333334, "grad_norm": 13.292276382446289, "learning_rate": 5.006933333333334e-06, "loss": 0.5002, "step": 31850 }, { "epoch": 8.5, "grad_norm": 20.11451530456543, "learning_rate": 5.0024888888888885e-06, "loss": 0.4764, "step": 31875 }, { "epoch": 8.506666666666666, "grad_norm": 12.3352632522583, "learning_rate": 4.998044444444445e-06, "loss": 0.5438, "step": 31900 }, { "epoch": 8.513333333333334, "grad_norm": 13.328998565673828, "learning_rate": 4.993600000000001e-06, "loss": 0.5146, "step": 31925 }, { "epoch": 8.52, "grad_norm": 10.108626365661621, "learning_rate": 4.989155555555556e-06, "loss": 0.5074, "step": 31950 }, { "epoch": 8.526666666666667, "grad_norm": 10.93980598449707, "learning_rate": 4.984711111111111e-06, "loss": 0.5005, "step": 31975 }, { "epoch": 8.533333333333333, "grad_norm": 12.719639778137207, "learning_rate": 4.980266666666667e-06, "loss": 0.5063, "step": 32000 }, { "epoch": 8.54, "grad_norm": 14.156594276428223, "learning_rate": 4.975822222222223e-06, "loss": 0.4966, "step": 32025 }, { "epoch": 8.546666666666667, "grad_norm": 10.686470031738281, "learning_rate": 4.971377777777778e-06, "loss": 0.4942, "step": 32050 }, { "epoch": 8.553333333333333, "grad_norm": 10.045855522155762, "learning_rate": 4.966933333333333e-06, "loss": 0.46, "step": 32075 }, { "epoch": 8.56, "grad_norm": 8.282904624938965, "learning_rate": 4.96248888888889e-06, "loss": 0.4804, "step": 32100 }, { "epoch": 8.566666666666666, "grad_norm": 11.303102493286133, "learning_rate": 4.958044444444445e-06, "loss": 0.4988, "step": 32125 }, { "epoch": 8.573333333333334, "grad_norm": 14.834006309509277, "learning_rate": 4.9536e-06, "loss": 0.5257, "step": 32150 }, { "epoch": 8.58, "grad_norm": 12.149236679077148, "learning_rate": 4.949155555555556e-06, "loss": 0.5367, "step": 32175 }, { "epoch": 8.586666666666666, "grad_norm": 11.291731834411621, "learning_rate": 4.944711111111111e-06, "loss": 0.4624, "step": 32200 }, { "epoch": 8.593333333333334, "grad_norm": 12.41955852508545, "learning_rate": 4.940266666666667e-06, "loss": 0.4929, "step": 32225 }, { "epoch": 8.6, "grad_norm": 9.702630996704102, "learning_rate": 4.935822222222222e-06, "loss": 0.4583, "step": 32250 }, { "epoch": 8.606666666666667, "grad_norm": 15.796161651611328, "learning_rate": 4.931377777777778e-06, "loss": 0.5434, "step": 32275 }, { "epoch": 8.613333333333333, "grad_norm": 16.67508888244629, "learning_rate": 4.926933333333334e-06, "loss": 0.5211, "step": 32300 }, { "epoch": 8.62, "grad_norm": 13.740802764892578, "learning_rate": 4.922488888888889e-06, "loss": 0.5036, "step": 32325 }, { "epoch": 8.626666666666667, "grad_norm": 11.061367988586426, "learning_rate": 4.918044444444445e-06, "loss": 0.489, "step": 32350 }, { "epoch": 8.633333333333333, "grad_norm": 11.625699996948242, "learning_rate": 4.913600000000001e-06, "loss": 0.5394, "step": 32375 }, { "epoch": 8.64, "grad_norm": 13.057181358337402, "learning_rate": 4.9091555555555555e-06, "loss": 0.5342, "step": 32400 }, { "epoch": 8.646666666666667, "grad_norm": 11.509431838989258, "learning_rate": 4.904711111111112e-06, "loss": 0.4867, "step": 32425 }, { "epoch": 8.653333333333332, "grad_norm": 9.424930572509766, "learning_rate": 4.900266666666667e-06, "loss": 0.4916, "step": 32450 }, { "epoch": 8.66, "grad_norm": 13.79210090637207, "learning_rate": 4.895822222222223e-06, "loss": 0.5017, "step": 32475 }, { "epoch": 8.666666666666666, "grad_norm": 11.146204948425293, "learning_rate": 4.891377777777778e-06, "loss": 0.5317, "step": 32500 }, { "epoch": 8.673333333333334, "grad_norm": 9.553141593933105, "learning_rate": 4.886933333333333e-06, "loss": 0.5028, "step": 32525 }, { "epoch": 8.68, "grad_norm": 13.987290382385254, "learning_rate": 4.88248888888889e-06, "loss": 0.4695, "step": 32550 }, { "epoch": 8.686666666666667, "grad_norm": 11.986979484558105, "learning_rate": 4.8780444444444445e-06, "loss": 0.5068, "step": 32575 }, { "epoch": 8.693333333333333, "grad_norm": 14.555952072143555, "learning_rate": 4.8736e-06, "loss": 0.4879, "step": 32600 }, { "epoch": 8.7, "grad_norm": 12.733412742614746, "learning_rate": 4.869155555555556e-06, "loss": 0.4905, "step": 32625 }, { "epoch": 8.706666666666667, "grad_norm": 13.12674617767334, "learning_rate": 4.864711111111112e-06, "loss": 0.4703, "step": 32650 }, { "epoch": 8.713333333333333, "grad_norm": 11.539085388183594, "learning_rate": 4.860266666666667e-06, "loss": 0.4744, "step": 32675 }, { "epoch": 8.72, "grad_norm": 15.483597755432129, "learning_rate": 4.855822222222223e-06, "loss": 0.5056, "step": 32700 }, { "epoch": 8.726666666666667, "grad_norm": 11.974453926086426, "learning_rate": 4.851377777777778e-06, "loss": 0.4711, "step": 32725 }, { "epoch": 8.733333333333333, "grad_norm": 15.715641975402832, "learning_rate": 4.8469333333333335e-06, "loss": 0.4964, "step": 32750 }, { "epoch": 8.74, "grad_norm": 9.375343322753906, "learning_rate": 4.842488888888889e-06, "loss": 0.459, "step": 32775 }, { "epoch": 8.746666666666666, "grad_norm": 12.408119201660156, "learning_rate": 4.838044444444445e-06, "loss": 0.5092, "step": 32800 }, { "epoch": 8.753333333333334, "grad_norm": 11.146902084350586, "learning_rate": 4.833600000000001e-06, "loss": 0.5103, "step": 32825 }, { "epoch": 8.76, "grad_norm": 11.347001075744629, "learning_rate": 4.8291555555555555e-06, "loss": 0.473, "step": 32850 }, { "epoch": 8.766666666666667, "grad_norm": 12.580114364624023, "learning_rate": 4.824711111111112e-06, "loss": 0.5194, "step": 32875 }, { "epoch": 8.773333333333333, "grad_norm": 11.773902893066406, "learning_rate": 4.820266666666667e-06, "loss": 0.5115, "step": 32900 }, { "epoch": 8.78, "grad_norm": 13.046738624572754, "learning_rate": 4.8158222222222225e-06, "loss": 0.4838, "step": 32925 }, { "epoch": 8.786666666666667, "grad_norm": 14.553537368774414, "learning_rate": 4.811377777777778e-06, "loss": 0.5103, "step": 32950 }, { "epoch": 8.793333333333333, "grad_norm": 10.34900188446045, "learning_rate": 4.806933333333333e-06, "loss": 0.499, "step": 32975 }, { "epoch": 8.8, "grad_norm": 9.839581489562988, "learning_rate": 4.80248888888889e-06, "loss": 0.5089, "step": 33000 }, { "epoch": 8.806666666666667, "grad_norm": 14.305429458618164, "learning_rate": 4.7980444444444445e-06, "loss": 0.4886, "step": 33025 }, { "epoch": 8.813333333333333, "grad_norm": 9.823822975158691, "learning_rate": 4.793777777777779e-06, "loss": 0.465, "step": 33050 }, { "epoch": 8.82, "grad_norm": 12.233610153198242, "learning_rate": 4.7893333333333334e-06, "loss": 0.4563, "step": 33075 }, { "epoch": 8.826666666666666, "grad_norm": 11.392786979675293, "learning_rate": 4.784888888888889e-06, "loss": 0.5034, "step": 33100 }, { "epoch": 8.833333333333334, "grad_norm": 9.950662612915039, "learning_rate": 4.780444444444445e-06, "loss": 0.4678, "step": 33125 }, { "epoch": 8.84, "grad_norm": 12.0476655960083, "learning_rate": 4.7760000000000005e-06, "loss": 0.4945, "step": 33150 }, { "epoch": 8.846666666666668, "grad_norm": 11.386184692382812, "learning_rate": 4.771555555555556e-06, "loss": 0.4701, "step": 33175 }, { "epoch": 8.853333333333333, "grad_norm": 9.53287410736084, "learning_rate": 4.767111111111111e-06, "loss": 0.4798, "step": 33200 }, { "epoch": 8.86, "grad_norm": 15.69239330291748, "learning_rate": 4.762666666666667e-06, "loss": 0.4823, "step": 33225 }, { "epoch": 8.866666666666667, "grad_norm": 15.845943450927734, "learning_rate": 4.7582222222222224e-06, "loss": 0.4468, "step": 33250 }, { "epoch": 8.873333333333333, "grad_norm": 12.242185592651367, "learning_rate": 4.753777777777778e-06, "loss": 0.5141, "step": 33275 }, { "epoch": 8.88, "grad_norm": 13.35010814666748, "learning_rate": 4.749333333333334e-06, "loss": 0.4573, "step": 33300 }, { "epoch": 8.886666666666667, "grad_norm": 14.321089744567871, "learning_rate": 4.7448888888888895e-06, "loss": 0.4406, "step": 33325 }, { "epoch": 8.893333333333333, "grad_norm": 12.45971393585205, "learning_rate": 4.740444444444444e-06, "loss": 0.4789, "step": 33350 }, { "epoch": 8.9, "grad_norm": 9.136942863464355, "learning_rate": 4.736000000000001e-06, "loss": 0.4933, "step": 33375 }, { "epoch": 8.906666666666666, "grad_norm": 9.76571273803711, "learning_rate": 4.731555555555556e-06, "loss": 0.492, "step": 33400 }, { "epoch": 8.913333333333334, "grad_norm": 12.74725341796875, "learning_rate": 4.7271111111111114e-06, "loss": 0.5055, "step": 33425 }, { "epoch": 8.92, "grad_norm": 12.514827728271484, "learning_rate": 4.722666666666667e-06, "loss": 0.4719, "step": 33450 }, { "epoch": 8.926666666666666, "grad_norm": 11.866357803344727, "learning_rate": 4.718222222222222e-06, "loss": 0.4546, "step": 33475 }, { "epoch": 8.933333333333334, "grad_norm": 17.848072052001953, "learning_rate": 4.7137777777777785e-06, "loss": 0.4668, "step": 33500 }, { "epoch": 8.94, "grad_norm": 10.857246398925781, "learning_rate": 4.709333333333333e-06, "loss": 0.4618, "step": 33525 }, { "epoch": 8.946666666666667, "grad_norm": 11.174782752990723, "learning_rate": 4.704888888888889e-06, "loss": 0.452, "step": 33550 }, { "epoch": 8.953333333333333, "grad_norm": 14.46779727935791, "learning_rate": 4.700444444444445e-06, "loss": 0.431, "step": 33575 }, { "epoch": 8.96, "grad_norm": 10.424922943115234, "learning_rate": 4.6960000000000004e-06, "loss": 0.4413, "step": 33600 }, { "epoch": 8.966666666666667, "grad_norm": 12.33443832397461, "learning_rate": 4.691555555555556e-06, "loss": 0.4774, "step": 33625 }, { "epoch": 8.973333333333333, "grad_norm": 10.95026683807373, "learning_rate": 4.687111111111112e-06, "loss": 0.4959, "step": 33650 }, { "epoch": 8.98, "grad_norm": 10.43690013885498, "learning_rate": 4.682666666666667e-06, "loss": 0.4705, "step": 33675 }, { "epoch": 8.986666666666666, "grad_norm": 20.128585815429688, "learning_rate": 4.678222222222222e-06, "loss": 0.4301, "step": 33700 }, { "epoch": 8.993333333333334, "grad_norm": 10.086228370666504, "learning_rate": 4.673777777777778e-06, "loss": 0.477, "step": 33725 }, { "epoch": 9.0, "grad_norm": 11.254966735839844, "learning_rate": 4.669333333333334e-06, "loss": 0.4959, "step": 33750 }, { "epoch": 9.0, "eval_cer": 24.234575033076794, "eval_loss": 0.4090717136859894, "eval_runtime": 1255.9889, "eval_samples_per_second": 3.981, "eval_steps_per_second": 0.498, "step": 33750 }, { "epoch": 9.006666666666666, "grad_norm": 10.11557674407959, "learning_rate": 4.6648888888888894e-06, "loss": 0.3553, "step": 33775 }, { "epoch": 9.013333333333334, "grad_norm": 12.940801620483398, "learning_rate": 4.660444444444444e-06, "loss": 0.3454, "step": 33800 }, { "epoch": 9.02, "grad_norm": 9.192853927612305, "learning_rate": 4.656000000000001e-06, "loss": 0.3691, "step": 33825 }, { "epoch": 9.026666666666667, "grad_norm": 8.88289737701416, "learning_rate": 4.651555555555556e-06, "loss": 0.3233, "step": 33850 }, { "epoch": 9.033333333333333, "grad_norm": 12.61011028289795, "learning_rate": 4.647111111111111e-06, "loss": 0.3496, "step": 33875 }, { "epoch": 9.04, "grad_norm": 10.894960403442383, "learning_rate": 4.642666666666667e-06, "loss": 0.326, "step": 33900 }, { "epoch": 9.046666666666667, "grad_norm": 8.874565124511719, "learning_rate": 4.638222222222223e-06, "loss": 0.3527, "step": 33925 }, { "epoch": 9.053333333333333, "grad_norm": 9.445497512817383, "learning_rate": 4.6337777777777784e-06, "loss": 0.3502, "step": 33950 }, { "epoch": 9.06, "grad_norm": 8.409317016601562, "learning_rate": 4.629333333333333e-06, "loss": 0.3408, "step": 33975 }, { "epoch": 9.066666666666666, "grad_norm": 10.905598640441895, "learning_rate": 4.624888888888889e-06, "loss": 0.3497, "step": 34000 }, { "epoch": 9.073333333333334, "grad_norm": 9.52714729309082, "learning_rate": 4.620444444444445e-06, "loss": 0.3327, "step": 34025 }, { "epoch": 9.08, "grad_norm": 9.130328178405762, "learning_rate": 4.616e-06, "loss": 0.3715, "step": 34050 }, { "epoch": 9.086666666666666, "grad_norm": 12.132153511047363, "learning_rate": 4.611555555555556e-06, "loss": 0.3389, "step": 34075 }, { "epoch": 9.093333333333334, "grad_norm": 10.206671714782715, "learning_rate": 4.607111111111112e-06, "loss": 0.3392, "step": 34100 }, { "epoch": 9.1, "grad_norm": 14.072588920593262, "learning_rate": 4.602666666666667e-06, "loss": 0.3228, "step": 34125 }, { "epoch": 9.106666666666667, "grad_norm": 10.743828773498535, "learning_rate": 4.598222222222223e-06, "loss": 0.3613, "step": 34150 }, { "epoch": 9.113333333333333, "grad_norm": 10.789471626281738, "learning_rate": 4.593777777777778e-06, "loss": 0.369, "step": 34175 }, { "epoch": 9.12, "grad_norm": 10.623641014099121, "learning_rate": 4.589333333333334e-06, "loss": 0.337, "step": 34200 }, { "epoch": 9.126666666666667, "grad_norm": 9.121771812438965, "learning_rate": 4.584888888888889e-06, "loss": 0.3569, "step": 34225 }, { "epoch": 9.133333333333333, "grad_norm": 10.439199447631836, "learning_rate": 4.580444444444444e-06, "loss": 0.3505, "step": 34250 }, { "epoch": 9.14, "grad_norm": 13.690264701843262, "learning_rate": 4.576000000000001e-06, "loss": 0.3591, "step": 34275 }, { "epoch": 9.146666666666667, "grad_norm": 11.073456764221191, "learning_rate": 4.571555555555556e-06, "loss": 0.3273, "step": 34300 }, { "epoch": 9.153333333333332, "grad_norm": 10.056150436401367, "learning_rate": 4.567111111111111e-06, "loss": 0.3433, "step": 34325 }, { "epoch": 9.16, "grad_norm": 9.77181339263916, "learning_rate": 4.562666666666667e-06, "loss": 0.3561, "step": 34350 }, { "epoch": 9.166666666666666, "grad_norm": 9.7757568359375, "learning_rate": 4.558222222222223e-06, "loss": 0.3554, "step": 34375 }, { "epoch": 9.173333333333334, "grad_norm": 7.904925346374512, "learning_rate": 4.553777777777778e-06, "loss": 0.3211, "step": 34400 }, { "epoch": 9.18, "grad_norm": 11.968832015991211, "learning_rate": 4.549333333333334e-06, "loss": 0.3574, "step": 34425 }, { "epoch": 9.186666666666667, "grad_norm": 10.871935844421387, "learning_rate": 4.544888888888889e-06, "loss": 0.3579, "step": 34450 }, { "epoch": 9.193333333333333, "grad_norm": 9.157028198242188, "learning_rate": 4.540444444444445e-06, "loss": 0.3499, "step": 34475 }, { "epoch": 9.2, "grad_norm": 9.274045944213867, "learning_rate": 4.536e-06, "loss": 0.3251, "step": 34500 }, { "epoch": 9.206666666666667, "grad_norm": 10.203022956848145, "learning_rate": 4.531555555555556e-06, "loss": 0.3303, "step": 34525 }, { "epoch": 9.213333333333333, "grad_norm": 10.831838607788086, "learning_rate": 4.527111111111112e-06, "loss": 0.369, "step": 34550 }, { "epoch": 9.22, "grad_norm": 11.920370101928711, "learning_rate": 4.5226666666666665e-06, "loss": 0.3375, "step": 34575 }, { "epoch": 9.226666666666667, "grad_norm": 8.628372192382812, "learning_rate": 4.518222222222223e-06, "loss": 0.344, "step": 34600 }, { "epoch": 9.233333333333333, "grad_norm": 14.706621170043945, "learning_rate": 4.513777777777778e-06, "loss": 0.3387, "step": 34625 }, { "epoch": 9.24, "grad_norm": 9.265653610229492, "learning_rate": 4.509333333333334e-06, "loss": 0.3342, "step": 34650 }, { "epoch": 9.246666666666666, "grad_norm": 8.710384368896484, "learning_rate": 4.504888888888889e-06, "loss": 0.3482, "step": 34675 }, { "epoch": 9.253333333333334, "grad_norm": 9.941553115844727, "learning_rate": 4.500444444444445e-06, "loss": 0.3259, "step": 34700 }, { "epoch": 9.26, "grad_norm": 11.050932884216309, "learning_rate": 4.496000000000001e-06, "loss": 0.3678, "step": 34725 }, { "epoch": 9.266666666666667, "grad_norm": 9.38405990600586, "learning_rate": 4.4915555555555555e-06, "loss": 0.3312, "step": 34750 }, { "epoch": 9.273333333333333, "grad_norm": 9.29322338104248, "learning_rate": 4.487111111111111e-06, "loss": 0.352, "step": 34775 }, { "epoch": 9.28, "grad_norm": 8.986920356750488, "learning_rate": 4.482666666666667e-06, "loss": 0.3279, "step": 34800 }, { "epoch": 9.286666666666667, "grad_norm": 10.60477352142334, "learning_rate": 4.478222222222223e-06, "loss": 0.39, "step": 34825 }, { "epoch": 9.293333333333333, "grad_norm": 8.482513427734375, "learning_rate": 4.473777777777778e-06, "loss": 0.3226, "step": 34850 }, { "epoch": 9.3, "grad_norm": 12.348125457763672, "learning_rate": 4.469333333333334e-06, "loss": 0.3283, "step": 34875 }, { "epoch": 9.306666666666667, "grad_norm": 8.38575267791748, "learning_rate": 4.464888888888889e-06, "loss": 0.3555, "step": 34900 }, { "epoch": 9.313333333333333, "grad_norm": 8.496597290039062, "learning_rate": 4.460444444444445e-06, "loss": 0.3502, "step": 34925 }, { "epoch": 9.32, "grad_norm": 10.244653701782227, "learning_rate": 4.456e-06, "loss": 0.3245, "step": 34950 }, { "epoch": 9.326666666666666, "grad_norm": 23.67559242248535, "learning_rate": 4.451555555555556e-06, "loss": 0.353, "step": 34975 }, { "epoch": 9.333333333333334, "grad_norm": 10.752251625061035, "learning_rate": 4.447111111111112e-06, "loss": 0.3517, "step": 35000 }, { "epoch": 9.34, "grad_norm": 10.62810230255127, "learning_rate": 4.4426666666666664e-06, "loss": 0.358, "step": 35025 }, { "epoch": 9.346666666666668, "grad_norm": 10.231162071228027, "learning_rate": 4.438222222222223e-06, "loss": 0.3383, "step": 35050 }, { "epoch": 9.353333333333333, "grad_norm": 10.774444580078125, "learning_rate": 4.433777777777778e-06, "loss": 0.3721, "step": 35075 }, { "epoch": 9.36, "grad_norm": 12.464393615722656, "learning_rate": 4.4293333333333335e-06, "loss": 0.3534, "step": 35100 }, { "epoch": 9.366666666666667, "grad_norm": 8.397354125976562, "learning_rate": 4.424888888888889e-06, "loss": 0.3031, "step": 35125 }, { "epoch": 9.373333333333333, "grad_norm": 13.816272735595703, "learning_rate": 4.420444444444445e-06, "loss": 0.3633, "step": 35150 }, { "epoch": 9.38, "grad_norm": 10.438294410705566, "learning_rate": 4.416000000000001e-06, "loss": 0.3351, "step": 35175 }, { "epoch": 9.386666666666667, "grad_norm": 9.590514183044434, "learning_rate": 4.411555555555556e-06, "loss": 0.3619, "step": 35200 }, { "epoch": 9.393333333333333, "grad_norm": 9.937920570373535, "learning_rate": 4.407111111111111e-06, "loss": 0.373, "step": 35225 }, { "epoch": 9.4, "grad_norm": 9.590747833251953, "learning_rate": 4.402666666666667e-06, "loss": 0.3516, "step": 35250 }, { "epoch": 9.406666666666666, "grad_norm": 10.481921195983887, "learning_rate": 4.3982222222222225e-06, "loss": 0.3494, "step": 35275 }, { "epoch": 9.413333333333334, "grad_norm": 11.772513389587402, "learning_rate": 4.393777777777778e-06, "loss": 0.3481, "step": 35300 }, { "epoch": 9.42, "grad_norm": 9.011194229125977, "learning_rate": 4.389333333333334e-06, "loss": 0.3373, "step": 35325 }, { "epoch": 9.426666666666666, "grad_norm": 8.643670082092285, "learning_rate": 4.384888888888889e-06, "loss": 0.3464, "step": 35350 }, { "epoch": 9.433333333333334, "grad_norm": 11.981375694274902, "learning_rate": 4.380444444444445e-06, "loss": 0.3604, "step": 35375 }, { "epoch": 9.44, "grad_norm": 9.139182090759277, "learning_rate": 4.376e-06, "loss": 0.3547, "step": 35400 }, { "epoch": 9.446666666666667, "grad_norm": 10.317281723022461, "learning_rate": 4.371555555555556e-06, "loss": 0.3483, "step": 35425 }, { "epoch": 9.453333333333333, "grad_norm": 9.872893333435059, "learning_rate": 4.3671111111111115e-06, "loss": 0.3404, "step": 35450 }, { "epoch": 9.46, "grad_norm": 9.7171630859375, "learning_rate": 4.362666666666667e-06, "loss": 0.3491, "step": 35475 }, { "epoch": 9.466666666666667, "grad_norm": 12.536483764648438, "learning_rate": 4.358222222222223e-06, "loss": 0.3394, "step": 35500 }, { "epoch": 9.473333333333333, "grad_norm": 9.933024406433105, "learning_rate": 4.353777777777778e-06, "loss": 0.3313, "step": 35525 }, { "epoch": 9.48, "grad_norm": 11.771892547607422, "learning_rate": 4.349333333333333e-06, "loss": 0.3692, "step": 35550 }, { "epoch": 9.486666666666666, "grad_norm": 12.44875431060791, "learning_rate": 4.344888888888889e-06, "loss": 0.3394, "step": 35575 }, { "epoch": 9.493333333333334, "grad_norm": 8.591221809387207, "learning_rate": 4.340444444444445e-06, "loss": 0.3451, "step": 35600 }, { "epoch": 9.5, "grad_norm": 10.657934188842773, "learning_rate": 4.3360000000000005e-06, "loss": 0.3321, "step": 35625 }, { "epoch": 9.506666666666666, "grad_norm": 9.954078674316406, "learning_rate": 4.331555555555556e-06, "loss": 0.3217, "step": 35650 }, { "epoch": 9.513333333333334, "grad_norm": 9.394120216369629, "learning_rate": 4.327111111111111e-06, "loss": 0.3718, "step": 35675 }, { "epoch": 9.52, "grad_norm": 10.306083679199219, "learning_rate": 4.3226666666666676e-06, "loss": 0.3732, "step": 35700 }, { "epoch": 9.526666666666667, "grad_norm": 12.087364196777344, "learning_rate": 4.318222222222222e-06, "loss": 0.3695, "step": 35725 }, { "epoch": 9.533333333333333, "grad_norm": 7.4300761222839355, "learning_rate": 4.313777777777778e-06, "loss": 0.3141, "step": 35750 }, { "epoch": 9.54, "grad_norm": 8.573589324951172, "learning_rate": 4.309333333333334e-06, "loss": 0.3253, "step": 35775 }, { "epoch": 9.546666666666667, "grad_norm": 10.528483390808105, "learning_rate": 4.304888888888889e-06, "loss": 0.3598, "step": 35800 }, { "epoch": 9.553333333333333, "grad_norm": 9.712965965270996, "learning_rate": 4.300444444444445e-06, "loss": 0.3402, "step": 35825 }, { "epoch": 9.56, "grad_norm": 14.885126113891602, "learning_rate": 4.296e-06, "loss": 0.3349, "step": 35850 }, { "epoch": 9.566666666666666, "grad_norm": 7.876286029815674, "learning_rate": 4.291555555555556e-06, "loss": 0.3336, "step": 35875 }, { "epoch": 9.573333333333334, "grad_norm": 10.813725471496582, "learning_rate": 4.287111111111111e-06, "loss": 0.35, "step": 35900 }, { "epoch": 9.58, "grad_norm": 9.924881935119629, "learning_rate": 4.282666666666667e-06, "loss": 0.3333, "step": 35925 }, { "epoch": 9.586666666666666, "grad_norm": 9.119810104370117, "learning_rate": 4.278222222222223e-06, "loss": 0.3187, "step": 35950 }, { "epoch": 9.593333333333334, "grad_norm": 9.314329147338867, "learning_rate": 4.2737777777777785e-06, "loss": 0.3269, "step": 35975 }, { "epoch": 9.6, "grad_norm": 9.639461517333984, "learning_rate": 4.269333333333333e-06, "loss": 0.3157, "step": 36000 }, { "epoch": 9.606666666666667, "grad_norm": 12.941357612609863, "learning_rate": 4.264888888888889e-06, "loss": 0.3508, "step": 36025 }, { "epoch": 9.613333333333333, "grad_norm": 12.282689094543457, "learning_rate": 4.260444444444445e-06, "loss": 0.3545, "step": 36050 }, { "epoch": 9.62, "grad_norm": 10.10659122467041, "learning_rate": 4.256e-06, "loss": 0.3392, "step": 36075 }, { "epoch": 9.626666666666667, "grad_norm": 8.702566146850586, "learning_rate": 4.251555555555556e-06, "loss": 0.3379, "step": 36100 }, { "epoch": 9.633333333333333, "grad_norm": 11.22544002532959, "learning_rate": 4.247111111111111e-06, "loss": 0.3262, "step": 36125 }, { "epoch": 9.64, "grad_norm": 9.37992000579834, "learning_rate": 4.2426666666666675e-06, "loss": 0.3376, "step": 36150 }, { "epoch": 9.646666666666667, "grad_norm": 9.332904815673828, "learning_rate": 4.238222222222222e-06, "loss": 0.386, "step": 36175 }, { "epoch": 9.653333333333332, "grad_norm": 12.347487449645996, "learning_rate": 4.233777777777778e-06, "loss": 0.3384, "step": 36200 }, { "epoch": 9.66, "grad_norm": 11.64198112487793, "learning_rate": 4.229333333333334e-06, "loss": 0.328, "step": 36225 }, { "epoch": 9.666666666666666, "grad_norm": 14.132842063903809, "learning_rate": 4.224888888888889e-06, "loss": 0.3159, "step": 36250 }, { "epoch": 9.673333333333334, "grad_norm": 9.662797927856445, "learning_rate": 4.220444444444445e-06, "loss": 0.354, "step": 36275 }, { "epoch": 9.68, "grad_norm": 11.378888130187988, "learning_rate": 4.216e-06, "loss": 0.3357, "step": 36300 }, { "epoch": 9.686666666666667, "grad_norm": 11.64136791229248, "learning_rate": 4.211555555555556e-06, "loss": 0.3523, "step": 36325 }, { "epoch": 9.693333333333333, "grad_norm": 10.792970657348633, "learning_rate": 4.207111111111111e-06, "loss": 0.3283, "step": 36350 }, { "epoch": 9.7, "grad_norm": 9.809748649597168, "learning_rate": 4.202666666666667e-06, "loss": 0.3216, "step": 36375 }, { "epoch": 9.706666666666667, "grad_norm": 10.850343704223633, "learning_rate": 4.198222222222223e-06, "loss": 0.3392, "step": 36400 }, { "epoch": 9.713333333333333, "grad_norm": 9.709590911865234, "learning_rate": 4.193777777777778e-06, "loss": 0.3355, "step": 36425 }, { "epoch": 9.72, "grad_norm": 10.08993911743164, "learning_rate": 4.189333333333333e-06, "loss": 0.345, "step": 36450 }, { "epoch": 9.726666666666667, "grad_norm": 15.187000274658203, "learning_rate": 4.18488888888889e-06, "loss": 0.3442, "step": 36475 }, { "epoch": 9.733333333333333, "grad_norm": 9.159509658813477, "learning_rate": 4.180444444444445e-06, "loss": 0.3346, "step": 36500 }, { "epoch": 9.74, "grad_norm": 9.653117179870605, "learning_rate": 4.176e-06, "loss": 0.3617, "step": 36525 }, { "epoch": 9.746666666666666, "grad_norm": 8.625654220581055, "learning_rate": 4.171555555555556e-06, "loss": 0.3615, "step": 36550 }, { "epoch": 9.753333333333334, "grad_norm": 9.38110637664795, "learning_rate": 4.167288888888889e-06, "loss": 0.3253, "step": 36575 }, { "epoch": 9.76, "grad_norm": 8.553905487060547, "learning_rate": 4.162844444444445e-06, "loss": 0.318, "step": 36600 }, { "epoch": 9.766666666666667, "grad_norm": 10.48200798034668, "learning_rate": 4.1584e-06, "loss": 0.3318, "step": 36625 }, { "epoch": 9.773333333333333, "grad_norm": 9.281062126159668, "learning_rate": 4.153955555555556e-06, "loss": 0.2969, "step": 36650 }, { "epoch": 9.78, "grad_norm": 10.971168518066406, "learning_rate": 4.149511111111111e-06, "loss": 0.3457, "step": 36675 }, { "epoch": 9.786666666666667, "grad_norm": 10.231289863586426, "learning_rate": 4.145066666666667e-06, "loss": 0.3312, "step": 36700 }, { "epoch": 9.793333333333333, "grad_norm": 13.543068885803223, "learning_rate": 4.140622222222223e-06, "loss": 0.3041, "step": 36725 }, { "epoch": 9.8, "grad_norm": 10.372688293457031, "learning_rate": 4.1361777777777775e-06, "loss": 0.3195, "step": 36750 }, { "epoch": 9.806666666666667, "grad_norm": 13.946479797363281, "learning_rate": 4.131733333333334e-06, "loss": 0.348, "step": 36775 }, { "epoch": 9.813333333333333, "grad_norm": 10.281474113464355, "learning_rate": 4.127288888888889e-06, "loss": 0.3356, "step": 36800 }, { "epoch": 9.82, "grad_norm": 9.529401779174805, "learning_rate": 4.1228444444444446e-06, "loss": 0.3236, "step": 36825 }, { "epoch": 9.826666666666666, "grad_norm": 12.562028884887695, "learning_rate": 4.1184e-06, "loss": 0.3083, "step": 36850 }, { "epoch": 9.833333333333334, "grad_norm": 9.874996185302734, "learning_rate": 4.113955555555556e-06, "loss": 0.3324, "step": 36875 }, { "epoch": 9.84, "grad_norm": 18.471567153930664, "learning_rate": 4.109511111111112e-06, "loss": 0.3496, "step": 36900 }, { "epoch": 9.846666666666668, "grad_norm": 8.63660717010498, "learning_rate": 4.105066666666667e-06, "loss": 0.3072, "step": 36925 }, { "epoch": 9.853333333333333, "grad_norm": 10.181352615356445, "learning_rate": 4.100622222222222e-06, "loss": 0.3554, "step": 36950 }, { "epoch": 9.86, "grad_norm": 9.928740501403809, "learning_rate": 4.096177777777779e-06, "loss": 0.3186, "step": 36975 }, { "epoch": 9.866666666666667, "grad_norm": 9.93317699432373, "learning_rate": 4.0917333333333336e-06, "loss": 0.321, "step": 37000 }, { "epoch": 9.873333333333333, "grad_norm": 10.438316345214844, "learning_rate": 4.087288888888889e-06, "loss": 0.3328, "step": 37025 }, { "epoch": 9.88, "grad_norm": 10.06196117401123, "learning_rate": 4.082844444444445e-06, "loss": 0.3296, "step": 37050 }, { "epoch": 9.886666666666667, "grad_norm": 8.571534156799316, "learning_rate": 4.0784e-06, "loss": 0.3246, "step": 37075 }, { "epoch": 9.893333333333333, "grad_norm": 12.260832786560059, "learning_rate": 4.073955555555556e-06, "loss": 0.3422, "step": 37100 }, { "epoch": 9.9, "grad_norm": 10.398480415344238, "learning_rate": 4.069511111111111e-06, "loss": 0.3187, "step": 37125 }, { "epoch": 9.906666666666666, "grad_norm": 8.824198722839355, "learning_rate": 4.065066666666667e-06, "loss": 0.3049, "step": 37150 }, { "epoch": 9.913333333333334, "grad_norm": 11.912688255310059, "learning_rate": 4.0606222222222225e-06, "loss": 0.3502, "step": 37175 }, { "epoch": 9.92, "grad_norm": 12.143152236938477, "learning_rate": 4.056177777777778e-06, "loss": 0.3005, "step": 37200 }, { "epoch": 9.926666666666666, "grad_norm": 11.386625289916992, "learning_rate": 4.051733333333334e-06, "loss": 0.298, "step": 37225 }, { "epoch": 9.933333333333334, "grad_norm": 9.724151611328125, "learning_rate": 4.04728888888889e-06, "loss": 0.3253, "step": 37250 }, { "epoch": 9.94, "grad_norm": 9.658347129821777, "learning_rate": 4.0428444444444445e-06, "loss": 0.3184, "step": 37275 }, { "epoch": 9.946666666666667, "grad_norm": 11.305619239807129, "learning_rate": 4.0384e-06, "loss": 0.3176, "step": 37300 }, { "epoch": 9.953333333333333, "grad_norm": 12.631924629211426, "learning_rate": 4.033955555555556e-06, "loss": 0.3091, "step": 37325 }, { "epoch": 9.96, "grad_norm": 15.758787155151367, "learning_rate": 4.0295111111111115e-06, "loss": 0.363, "step": 37350 }, { "epoch": 9.966666666666667, "grad_norm": 11.23168659210205, "learning_rate": 4.025066666666667e-06, "loss": 0.3137, "step": 37375 }, { "epoch": 9.973333333333333, "grad_norm": 8.826949119567871, "learning_rate": 4.020622222222222e-06, "loss": 0.307, "step": 37400 }, { "epoch": 9.98, "grad_norm": 10.01839542388916, "learning_rate": 4.016177777777779e-06, "loss": 0.3425, "step": 37425 }, { "epoch": 9.986666666666666, "grad_norm": 9.207571983337402, "learning_rate": 4.0117333333333335e-06, "loss": 0.3147, "step": 37450 }, { "epoch": 9.993333333333334, "grad_norm": 12.09560489654541, "learning_rate": 4.007288888888889e-06, "loss": 0.3431, "step": 37475 }, { "epoch": 10.0, "grad_norm": 9.818669319152832, "learning_rate": 4.002844444444445e-06, "loss": 0.344, "step": 37500 }, { "epoch": 10.0, "eval_cer": 22.31332575517582, "eval_loss": 0.38006341457366943, "eval_runtime": 1242.2202, "eval_samples_per_second": 4.025, "eval_steps_per_second": 0.503, "step": 37500 }, { "epoch": 10.006666666666666, "grad_norm": 6.96783971786499, "learning_rate": 3.9984e-06, "loss": 0.2348, "step": 37525 }, { "epoch": 10.013333333333334, "grad_norm": 7.892404556274414, "learning_rate": 3.993955555555556e-06, "loss": 0.2298, "step": 37550 }, { "epoch": 10.02, "grad_norm": 6.321427822113037, "learning_rate": 3.989511111111111e-06, "loss": 0.2172, "step": 37575 }, { "epoch": 10.026666666666667, "grad_norm": 6.531167507171631, "learning_rate": 3.985066666666667e-06, "loss": 0.2371, "step": 37600 }, { "epoch": 10.033333333333333, "grad_norm": 5.7036919593811035, "learning_rate": 3.9806222222222225e-06, "loss": 0.2225, "step": 37625 }, { "epoch": 10.04, "grad_norm": 8.722405433654785, "learning_rate": 3.976177777777778e-06, "loss": 0.2257, "step": 37650 }, { "epoch": 10.046666666666667, "grad_norm": 8.29419231414795, "learning_rate": 3.971733333333334e-06, "loss": 0.2388, "step": 37675 }, { "epoch": 10.053333333333333, "grad_norm": 11.844887733459473, "learning_rate": 3.9672888888888895e-06, "loss": 0.2326, "step": 37700 }, { "epoch": 10.06, "grad_norm": 6.820853233337402, "learning_rate": 3.962844444444444e-06, "loss": 0.2306, "step": 37725 }, { "epoch": 10.066666666666666, "grad_norm": 9.080801010131836, "learning_rate": 3.958400000000001e-06, "loss": 0.2469, "step": 37750 }, { "epoch": 10.073333333333334, "grad_norm": 9.323078155517578, "learning_rate": 3.953955555555556e-06, "loss": 0.2294, "step": 37775 }, { "epoch": 10.08, "grad_norm": 8.412330627441406, "learning_rate": 3.9495111111111115e-06, "loss": 0.2444, "step": 37800 }, { "epoch": 10.086666666666666, "grad_norm": 8.495828628540039, "learning_rate": 3.945066666666667e-06, "loss": 0.2266, "step": 37825 }, { "epoch": 10.093333333333334, "grad_norm": 8.200389862060547, "learning_rate": 3.940622222222222e-06, "loss": 0.2576, "step": 37850 }, { "epoch": 10.1, "grad_norm": 6.118553161621094, "learning_rate": 3.9361777777777785e-06, "loss": 0.2464, "step": 37875 }, { "epoch": 10.106666666666667, "grad_norm": 9.211953163146973, "learning_rate": 3.931733333333333e-06, "loss": 0.2264, "step": 37900 }, { "epoch": 10.113333333333333, "grad_norm": 8.123000144958496, "learning_rate": 3.927288888888889e-06, "loss": 0.255, "step": 37925 }, { "epoch": 10.12, "grad_norm": 8.521992683410645, "learning_rate": 3.922844444444445e-06, "loss": 0.2326, "step": 37950 }, { "epoch": 10.126666666666667, "grad_norm": 7.896209239959717, "learning_rate": 3.9184000000000005e-06, "loss": 0.2358, "step": 37975 }, { "epoch": 10.133333333333333, "grad_norm": 7.910315990447998, "learning_rate": 3.913955555555556e-06, "loss": 0.22, "step": 38000 }, { "epoch": 10.14, "grad_norm": 7.148990631103516, "learning_rate": 3.909511111111112e-06, "loss": 0.2301, "step": 38025 }, { "epoch": 10.146666666666667, "grad_norm": 8.734615325927734, "learning_rate": 3.905066666666667e-06, "loss": 0.2423, "step": 38050 }, { "epoch": 10.153333333333332, "grad_norm": 7.900934219360352, "learning_rate": 3.900622222222222e-06, "loss": 0.2288, "step": 38075 }, { "epoch": 10.16, "grad_norm": 9.342535018920898, "learning_rate": 3.896177777777778e-06, "loss": 0.2392, "step": 38100 }, { "epoch": 10.166666666666666, "grad_norm": 7.215909957885742, "learning_rate": 3.891733333333334e-06, "loss": 0.2207, "step": 38125 }, { "epoch": 10.173333333333334, "grad_norm": 9.116720199584961, "learning_rate": 3.8872888888888895e-06, "loss": 0.2305, "step": 38150 }, { "epoch": 10.18, "grad_norm": 7.835118770599365, "learning_rate": 3.882844444444444e-06, "loss": 0.2334, "step": 38175 }, { "epoch": 10.186666666666667, "grad_norm": 7.831537246704102, "learning_rate": 3.878400000000001e-06, "loss": 0.2584, "step": 38200 }, { "epoch": 10.193333333333333, "grad_norm": 7.800407886505127, "learning_rate": 3.873955555555556e-06, "loss": 0.2242, "step": 38225 }, { "epoch": 10.2, "grad_norm": 10.364270210266113, "learning_rate": 3.869511111111111e-06, "loss": 0.2634, "step": 38250 }, { "epoch": 10.206666666666667, "grad_norm": 8.485258102416992, "learning_rate": 3.865066666666667e-06, "loss": 0.2165, "step": 38275 }, { "epoch": 10.213333333333333, "grad_norm": 9.955810546875, "learning_rate": 3.860622222222222e-06, "loss": 0.2303, "step": 38300 }, { "epoch": 10.22, "grad_norm": 23.201406478881836, "learning_rate": 3.8561777777777785e-06, "loss": 0.2335, "step": 38325 }, { "epoch": 10.226666666666667, "grad_norm": 8.114459037780762, "learning_rate": 3.851733333333333e-06, "loss": 0.2543, "step": 38350 }, { "epoch": 10.233333333333333, "grad_norm": 9.595904350280762, "learning_rate": 3.847288888888889e-06, "loss": 0.2265, "step": 38375 }, { "epoch": 10.24, "grad_norm": 9.234641075134277, "learning_rate": 3.842844444444445e-06, "loss": 0.236, "step": 38400 }, { "epoch": 10.246666666666666, "grad_norm": 9.777807235717773, "learning_rate": 3.8384e-06, "loss": 0.2393, "step": 38425 }, { "epoch": 10.253333333333334, "grad_norm": 8.86673355102539, "learning_rate": 3.833955555555556e-06, "loss": 0.2275, "step": 38450 }, { "epoch": 10.26, "grad_norm": 10.553226470947266, "learning_rate": 3.829511111111112e-06, "loss": 0.2285, "step": 38475 }, { "epoch": 10.266666666666667, "grad_norm": 8.132725715637207, "learning_rate": 3.825066666666667e-06, "loss": 0.2278, "step": 38500 }, { "epoch": 10.273333333333333, "grad_norm": 9.407454490661621, "learning_rate": 3.820622222222223e-06, "loss": 0.2222, "step": 38525 }, { "epoch": 10.28, "grad_norm": 6.8985443115234375, "learning_rate": 3.816177777777778e-06, "loss": 0.2302, "step": 38550 }, { "epoch": 10.286666666666667, "grad_norm": 8.54443073272705, "learning_rate": 3.8117333333333333e-06, "loss": 0.26, "step": 38575 }, { "epoch": 10.293333333333333, "grad_norm": 8.41584587097168, "learning_rate": 3.8072888888888894e-06, "loss": 0.2315, "step": 38600 }, { "epoch": 10.3, "grad_norm": 8.32362174987793, "learning_rate": 3.8028444444444447e-06, "loss": 0.2339, "step": 38625 }, { "epoch": 10.306666666666667, "grad_norm": 6.777981758117676, "learning_rate": 3.7984000000000003e-06, "loss": 0.2195, "step": 38650 }, { "epoch": 10.313333333333333, "grad_norm": 8.673516273498535, "learning_rate": 3.7939555555555556e-06, "loss": 0.2141, "step": 38675 }, { "epoch": 10.32, "grad_norm": 6.866688251495361, "learning_rate": 3.7895111111111117e-06, "loss": 0.2191, "step": 38700 }, { "epoch": 10.326666666666666, "grad_norm": 8.10189151763916, "learning_rate": 3.785066666666667e-06, "loss": 0.2265, "step": 38725 }, { "epoch": 10.333333333333334, "grad_norm": 8.146675109863281, "learning_rate": 3.7806222222222227e-06, "loss": 0.2202, "step": 38750 }, { "epoch": 10.34, "grad_norm": 11.224204063415527, "learning_rate": 3.776177777777778e-06, "loss": 0.2336, "step": 38775 }, { "epoch": 10.346666666666668, "grad_norm": 7.394009590148926, "learning_rate": 3.771733333333334e-06, "loss": 0.2469, "step": 38800 }, { "epoch": 10.353333333333333, "grad_norm": 11.235764503479004, "learning_rate": 3.7672888888888893e-06, "loss": 0.2084, "step": 38825 }, { "epoch": 10.36, "grad_norm": 6.991292953491211, "learning_rate": 3.7628444444444446e-06, "loss": 0.2482, "step": 38850 }, { "epoch": 10.366666666666667, "grad_norm": Infinity, "learning_rate": 3.7585777777777783e-06, "loss": 0.2426, "step": 38875 }, { "epoch": 10.373333333333333, "grad_norm": 8.380146026611328, "learning_rate": 3.7541333333333336e-06, "loss": 0.2577, "step": 38900 }, { "epoch": 10.38, "grad_norm": 8.758688926696777, "learning_rate": 3.7496888888888893e-06, "loss": 0.2475, "step": 38925 }, { "epoch": 10.386666666666667, "grad_norm": 8.96335220336914, "learning_rate": 3.7452444444444446e-06, "loss": 0.2193, "step": 38950 }, { "epoch": 10.393333333333333, "grad_norm": 8.01783561706543, "learning_rate": 3.7408000000000007e-06, "loss": 0.2677, "step": 38975 }, { "epoch": 10.4, "grad_norm": 10.75273323059082, "learning_rate": 3.736355555555556e-06, "loss": 0.2278, "step": 39000 }, { "epoch": 10.406666666666666, "grad_norm": 8.649537086486816, "learning_rate": 3.7319111111111112e-06, "loss": 0.2179, "step": 39025 }, { "epoch": 10.413333333333334, "grad_norm": 7.566893577575684, "learning_rate": 3.727466666666667e-06, "loss": 0.2348, "step": 39050 }, { "epoch": 10.42, "grad_norm": 13.354811668395996, "learning_rate": 3.723022222222222e-06, "loss": 0.2541, "step": 39075 }, { "epoch": 10.426666666666666, "grad_norm": 7.850353240966797, "learning_rate": 3.7185777777777783e-06, "loss": 0.2295, "step": 39100 }, { "epoch": 10.433333333333334, "grad_norm": 7.839790344238281, "learning_rate": 3.7141333333333336e-06, "loss": 0.2242, "step": 39125 }, { "epoch": 10.44, "grad_norm": 8.050643920898438, "learning_rate": 3.7096888888888892e-06, "loss": 0.2398, "step": 39150 }, { "epoch": 10.446666666666667, "grad_norm": 8.47515869140625, "learning_rate": 3.7052444444444445e-06, "loss": 0.2347, "step": 39175 }, { "epoch": 10.453333333333333, "grad_norm": 7.492109298706055, "learning_rate": 3.7008000000000006e-06, "loss": 0.2259, "step": 39200 }, { "epoch": 10.46, "grad_norm": 9.7221097946167, "learning_rate": 3.696355555555556e-06, "loss": 0.2225, "step": 39225 }, { "epoch": 10.466666666666667, "grad_norm": 7.6934099197387695, "learning_rate": 3.6919111111111116e-06, "loss": 0.2376, "step": 39250 }, { "epoch": 10.473333333333333, "grad_norm": 9.416120529174805, "learning_rate": 3.687466666666667e-06, "loss": 0.255, "step": 39275 }, { "epoch": 10.48, "grad_norm": 9.342997550964355, "learning_rate": 3.683022222222222e-06, "loss": 0.2261, "step": 39300 }, { "epoch": 10.486666666666666, "grad_norm": 8.977670669555664, "learning_rate": 3.6785777777777782e-06, "loss": 0.2382, "step": 39325 }, { "epoch": 10.493333333333334, "grad_norm": 8.782371520996094, "learning_rate": 3.6741333333333335e-06, "loss": 0.2174, "step": 39350 }, { "epoch": 10.5, "grad_norm": 8.136134147644043, "learning_rate": 3.669688888888889e-06, "loss": 0.2444, "step": 39375 }, { "epoch": 10.506666666666666, "grad_norm": 8.964178085327148, "learning_rate": 3.6652444444444445e-06, "loss": 0.2277, "step": 39400 }, { "epoch": 10.513333333333334, "grad_norm": 8.009521484375, "learning_rate": 3.6608000000000006e-06, "loss": 0.2562, "step": 39425 }, { "epoch": 10.52, "grad_norm": 9.212867736816406, "learning_rate": 3.656355555555556e-06, "loss": 0.2524, "step": 39450 }, { "epoch": 10.526666666666667, "grad_norm": 10.157148361206055, "learning_rate": 3.6519111111111116e-06, "loss": 0.2322, "step": 39475 }, { "epoch": 10.533333333333333, "grad_norm": 8.433455467224121, "learning_rate": 3.647466666666667e-06, "loss": 0.2427, "step": 39500 }, { "epoch": 10.54, "grad_norm": 10.004878997802734, "learning_rate": 3.643022222222223e-06, "loss": 0.2343, "step": 39525 }, { "epoch": 10.546666666666667, "grad_norm": 8.350175857543945, "learning_rate": 3.638577777777778e-06, "loss": 0.2336, "step": 39550 }, { "epoch": 10.553333333333333, "grad_norm": 7.086070537567139, "learning_rate": 3.6341333333333335e-06, "loss": 0.2279, "step": 39575 }, { "epoch": 10.56, "grad_norm": 6.564724922180176, "learning_rate": 3.629688888888889e-06, "loss": 0.2505, "step": 39600 }, { "epoch": 10.566666666666666, "grad_norm": 9.80459976196289, "learning_rate": 3.6252444444444444e-06, "loss": 0.2502, "step": 39625 }, { "epoch": 10.573333333333334, "grad_norm": 8.433406829833984, "learning_rate": 3.6208000000000006e-06, "loss": 0.2242, "step": 39650 }, { "epoch": 10.58, "grad_norm": 8.566139221191406, "learning_rate": 3.616355555555556e-06, "loss": 0.2421, "step": 39675 }, { "epoch": 10.586666666666666, "grad_norm": 7.994068622589111, "learning_rate": 3.6119111111111115e-06, "loss": 0.2316, "step": 39700 }, { "epoch": 10.593333333333334, "grad_norm": 9.410627365112305, "learning_rate": 3.6074666666666668e-06, "loss": 0.2137, "step": 39725 }, { "epoch": 10.6, "grad_norm": 7.6290106773376465, "learning_rate": 3.603022222222223e-06, "loss": 0.2373, "step": 39750 }, { "epoch": 10.606666666666667, "grad_norm": 8.88478946685791, "learning_rate": 3.598577777777778e-06, "loss": 0.2269, "step": 39775 }, { "epoch": 10.613333333333333, "grad_norm": 9.702497482299805, "learning_rate": 3.5941333333333334e-06, "loss": 0.2259, "step": 39800 }, { "epoch": 10.62, "grad_norm": 8.029433250427246, "learning_rate": 3.589688888888889e-06, "loss": 0.2606, "step": 39825 }, { "epoch": 10.626666666666667, "grad_norm": 7.80323600769043, "learning_rate": 3.5852444444444444e-06, "loss": 0.2383, "step": 39850 }, { "epoch": 10.633333333333333, "grad_norm": 8.392340660095215, "learning_rate": 3.5808000000000005e-06, "loss": 0.2427, "step": 39875 }, { "epoch": 10.64, "grad_norm": 12.616775512695312, "learning_rate": 3.5763555555555558e-06, "loss": 0.2403, "step": 39900 }, { "epoch": 10.646666666666667, "grad_norm": 8.686854362487793, "learning_rate": 3.5719111111111115e-06, "loss": 0.2355, "step": 39925 }, { "epoch": 10.653333333333332, "grad_norm": 7.003011703491211, "learning_rate": 3.5674666666666667e-06, "loss": 0.2337, "step": 39950 }, { "epoch": 10.66, "grad_norm": 8.846282005310059, "learning_rate": 3.563022222222223e-06, "loss": 0.2376, "step": 39975 }, { "epoch": 10.666666666666666, "grad_norm": 15.992740631103516, "learning_rate": 3.558577777777778e-06, "loss": 0.2132, "step": 40000 }, { "epoch": 10.673333333333334, "grad_norm": 9.388334274291992, "learning_rate": 3.554133333333334e-06, "loss": 0.2355, "step": 40025 }, { "epoch": 10.68, "grad_norm": 6.5406670570373535, "learning_rate": 3.549688888888889e-06, "loss": 0.2419, "step": 40050 }, { "epoch": 10.686666666666667, "grad_norm": 5.696641445159912, "learning_rate": 3.5452444444444444e-06, "loss": 0.2338, "step": 40075 }, { "epoch": 10.693333333333333, "grad_norm": 6.915182590484619, "learning_rate": 3.5408000000000005e-06, "loss": 0.2352, "step": 40100 }, { "epoch": 10.7, "grad_norm": 9.815244674682617, "learning_rate": 3.5363555555555557e-06, "loss": 0.2457, "step": 40125 }, { "epoch": 10.706666666666667, "grad_norm": 7.23432731628418, "learning_rate": 3.5319111111111114e-06, "loss": 0.2485, "step": 40150 }, { "epoch": 10.713333333333333, "grad_norm": 8.103955268859863, "learning_rate": 3.5274666666666667e-06, "loss": 0.221, "step": 40175 }, { "epoch": 10.72, "grad_norm": 7.607647895812988, "learning_rate": 3.523022222222223e-06, "loss": 0.2355, "step": 40200 }, { "epoch": 10.726666666666667, "grad_norm": 6.96151065826416, "learning_rate": 3.518577777777778e-06, "loss": 0.2225, "step": 40225 }, { "epoch": 10.733333333333333, "grad_norm": 8.827876091003418, "learning_rate": 3.5141333333333338e-06, "loss": 0.2436, "step": 40250 }, { "epoch": 10.74, "grad_norm": 8.841526985168457, "learning_rate": 3.509688888888889e-06, "loss": 0.2217, "step": 40275 }, { "epoch": 10.746666666666666, "grad_norm": 8.114385604858398, "learning_rate": 3.505244444444445e-06, "loss": 0.2137, "step": 40300 }, { "epoch": 10.753333333333334, "grad_norm": 8.819375038146973, "learning_rate": 3.5008000000000004e-06, "loss": 0.2328, "step": 40325 }, { "epoch": 10.76, "grad_norm": 8.241307258605957, "learning_rate": 3.4963555555555557e-06, "loss": 0.2209, "step": 40350 }, { "epoch": 10.766666666666667, "grad_norm": 8.196920394897461, "learning_rate": 3.4919111111111114e-06, "loss": 0.2296, "step": 40375 }, { "epoch": 10.773333333333333, "grad_norm": 6.8775200843811035, "learning_rate": 3.4874666666666667e-06, "loss": 0.2349, "step": 40400 }, { "epoch": 10.78, "grad_norm": 7.79805326461792, "learning_rate": 3.4830222222222228e-06, "loss": 0.2224, "step": 40425 }, { "epoch": 10.786666666666667, "grad_norm": 7.873829364776611, "learning_rate": 3.478577777777778e-06, "loss": 0.2319, "step": 40450 }, { "epoch": 10.793333333333333, "grad_norm": 7.550902843475342, "learning_rate": 3.4741333333333337e-06, "loss": 0.2335, "step": 40475 }, { "epoch": 10.8, "grad_norm": 9.668993949890137, "learning_rate": 3.469688888888889e-06, "loss": 0.2341, "step": 40500 }, { "epoch": 10.806666666666667, "grad_norm": 11.424470901489258, "learning_rate": 3.465244444444445e-06, "loss": 0.23, "step": 40525 }, { "epoch": 10.813333333333333, "grad_norm": 7.24432897567749, "learning_rate": 3.4608000000000004e-06, "loss": 0.2282, "step": 40550 }, { "epoch": 10.82, "grad_norm": 7.254228591918945, "learning_rate": 3.4563555555555557e-06, "loss": 0.2512, "step": 40575 }, { "epoch": 10.826666666666666, "grad_norm": 9.873424530029297, "learning_rate": 3.4519111111111114e-06, "loss": 0.2072, "step": 40600 }, { "epoch": 10.833333333333334, "grad_norm": 8.332048416137695, "learning_rate": 3.4474666666666666e-06, "loss": 0.2313, "step": 40625 }, { "epoch": 10.84, "grad_norm": 9.065515518188477, "learning_rate": 3.4430222222222227e-06, "loss": 0.2498, "step": 40650 }, { "epoch": 10.846666666666668, "grad_norm": 8.45325756072998, "learning_rate": 3.438577777777778e-06, "loss": 0.2406, "step": 40675 }, { "epoch": 10.853333333333333, "grad_norm": 9.508902549743652, "learning_rate": 3.4341333333333337e-06, "loss": 0.2358, "step": 40700 }, { "epoch": 10.86, "grad_norm": 8.935314178466797, "learning_rate": 3.429688888888889e-06, "loss": 0.2237, "step": 40725 }, { "epoch": 10.866666666666667, "grad_norm": 7.9802350997924805, "learning_rate": 3.425244444444445e-06, "loss": 0.2502, "step": 40750 }, { "epoch": 10.873333333333333, "grad_norm": 8.224103927612305, "learning_rate": 3.4208000000000004e-06, "loss": 0.2672, "step": 40775 }, { "epoch": 10.88, "grad_norm": 9.206069946289062, "learning_rate": 3.416355555555556e-06, "loss": 0.2321, "step": 40800 }, { "epoch": 10.886666666666667, "grad_norm": 6.7599711418151855, "learning_rate": 3.4119111111111113e-06, "loss": 0.2215, "step": 40825 }, { "epoch": 10.893333333333333, "grad_norm": 10.13789176940918, "learning_rate": 3.4074666666666666e-06, "loss": 0.2526, "step": 40850 }, { "epoch": 10.9, "grad_norm": 10.29374885559082, "learning_rate": 3.4030222222222227e-06, "loss": 0.2508, "step": 40875 }, { "epoch": 10.906666666666666, "grad_norm": 10.223416328430176, "learning_rate": 3.398577777777778e-06, "loss": 0.2434, "step": 40900 }, { "epoch": 10.913333333333334, "grad_norm": 11.14451789855957, "learning_rate": 3.3941333333333337e-06, "loss": 0.2222, "step": 40925 }, { "epoch": 10.92, "grad_norm": 12.089435577392578, "learning_rate": 3.389688888888889e-06, "loss": 0.2515, "step": 40950 }, { "epoch": 10.926666666666666, "grad_norm": 12.798824310302734, "learning_rate": 3.385244444444445e-06, "loss": 0.2302, "step": 40975 }, { "epoch": 10.933333333333334, "grad_norm": 6.642827033996582, "learning_rate": 3.3808000000000003e-06, "loss": 0.2106, "step": 41000 }, { "epoch": 10.94, "grad_norm": 9.76341438293457, "learning_rate": 3.376355555555556e-06, "loss": 0.255, "step": 41025 }, { "epoch": 10.946666666666667, "grad_norm": 7.670187473297119, "learning_rate": 3.3719111111111113e-06, "loss": 0.2283, "step": 41050 }, { "epoch": 10.953333333333333, "grad_norm": 9.368205070495605, "learning_rate": 3.3674666666666674e-06, "loss": 0.267, "step": 41075 }, { "epoch": 10.96, "grad_norm": 8.09643840789795, "learning_rate": 3.3630222222222227e-06, "loss": 0.2339, "step": 41100 }, { "epoch": 10.966666666666667, "grad_norm": 10.153895378112793, "learning_rate": 3.358577777777778e-06, "loss": 0.2436, "step": 41125 }, { "epoch": 10.973333333333333, "grad_norm": 10.069945335388184, "learning_rate": 3.3541333333333336e-06, "loss": 0.2381, "step": 41150 }, { "epoch": 10.98, "grad_norm": 8.237937927246094, "learning_rate": 3.349688888888889e-06, "loss": 0.2267, "step": 41175 }, { "epoch": 10.986666666666666, "grad_norm": 8.594280242919922, "learning_rate": 3.345244444444445e-06, "loss": 0.2255, "step": 41200 }, { "epoch": 10.993333333333334, "grad_norm": 7.229711055755615, "learning_rate": 3.3408000000000003e-06, "loss": 0.2439, "step": 41225 }, { "epoch": 11.0, "grad_norm": 15.4478178024292, "learning_rate": 3.336355555555556e-06, "loss": 0.2431, "step": 41250 }, { "epoch": 11.0, "eval_cer": 21.36667722639435, "eval_loss": 0.36675572395324707, "eval_runtime": 1257.9926, "eval_samples_per_second": 3.975, "eval_steps_per_second": 0.497, "step": 41250 }, { "epoch": 11.006666666666666, "grad_norm": 6.3628644943237305, "learning_rate": 3.3319111111111112e-06, "loss": 0.1718, "step": 41275 }, { "epoch": 11.013333333333334, "grad_norm": 6.844697952270508, "learning_rate": 3.3274666666666673e-06, "loss": 0.1726, "step": 41300 }, { "epoch": 11.02, "grad_norm": 6.7650933265686035, "learning_rate": 3.3230222222222226e-06, "loss": 0.1626, "step": 41325 }, { "epoch": 11.026666666666667, "grad_norm": 4.5490312576293945, "learning_rate": 3.318577777777778e-06, "loss": 0.1456, "step": 41350 }, { "epoch": 11.033333333333333, "grad_norm": 8.177011489868164, "learning_rate": 3.3141333333333336e-06, "loss": 0.1683, "step": 41375 }, { "epoch": 11.04, "grad_norm": 6.149026393890381, "learning_rate": 3.309688888888889e-06, "loss": 0.1627, "step": 41400 }, { "epoch": 11.046666666666667, "grad_norm": 10.45779037475586, "learning_rate": 3.305244444444445e-06, "loss": 0.156, "step": 41425 }, { "epoch": 11.053333333333333, "grad_norm": 5.955918312072754, "learning_rate": 3.3008000000000002e-06, "loss": 0.1597, "step": 41450 }, { "epoch": 11.06, "grad_norm": 6.060828685760498, "learning_rate": 3.296355555555556e-06, "loss": 0.1597, "step": 41475 }, { "epoch": 11.066666666666666, "grad_norm": 4.5837602615356445, "learning_rate": 3.291911111111111e-06, "loss": 0.153, "step": 41500 }, { "epoch": 11.073333333333334, "grad_norm": 6.804620265960693, "learning_rate": 3.2874666666666673e-06, "loss": 0.1727, "step": 41525 }, { "epoch": 11.08, "grad_norm": 7.577788829803467, "learning_rate": 3.2830222222222226e-06, "loss": 0.1615, "step": 41550 }, { "epoch": 11.086666666666666, "grad_norm": 7.483352184295654, "learning_rate": 3.2785777777777783e-06, "loss": 0.168, "step": 41575 }, { "epoch": 11.093333333333334, "grad_norm": 7.8912577629089355, "learning_rate": 3.2741333333333335e-06, "loss": 0.1689, "step": 41600 }, { "epoch": 11.1, "grad_norm": 6.864776134490967, "learning_rate": 3.269688888888889e-06, "loss": 0.1653, "step": 41625 }, { "epoch": 11.106666666666667, "grad_norm": 6.279836177825928, "learning_rate": 3.265244444444445e-06, "loss": 0.1663, "step": 41650 }, { "epoch": 11.113333333333333, "grad_norm": 7.304124355316162, "learning_rate": 3.2608e-06, "loss": 0.1509, "step": 41675 }, { "epoch": 11.12, "grad_norm": 8.196307182312012, "learning_rate": 3.256355555555556e-06, "loss": 0.1532, "step": 41700 }, { "epoch": 11.126666666666667, "grad_norm": 6.886493682861328, "learning_rate": 3.251911111111111e-06, "loss": 0.1644, "step": 41725 }, { "epoch": 11.133333333333333, "grad_norm": 7.93499755859375, "learning_rate": 3.2474666666666673e-06, "loss": 0.1763, "step": 41750 }, { "epoch": 11.14, "grad_norm": 8.721900939941406, "learning_rate": 3.2430222222222225e-06, "loss": 0.1496, "step": 41775 }, { "epoch": 11.146666666666667, "grad_norm": 28.207721710205078, "learning_rate": 3.2385777777777782e-06, "loss": 0.1548, "step": 41800 }, { "epoch": 11.153333333333332, "grad_norm": 6.728294372558594, "learning_rate": 3.2341333333333335e-06, "loss": 0.1613, "step": 41825 }, { "epoch": 11.16, "grad_norm": 7.302453994750977, "learning_rate": 3.2296888888888896e-06, "loss": 0.1723, "step": 41850 }, { "epoch": 11.166666666666666, "grad_norm": 7.666321277618408, "learning_rate": 3.225244444444445e-06, "loss": 0.1693, "step": 41875 }, { "epoch": 11.173333333333334, "grad_norm": 3.938662052154541, "learning_rate": 3.2208e-06, "loss": 0.1753, "step": 41900 }, { "epoch": 11.18, "grad_norm": 9.284903526306152, "learning_rate": 3.216355555555556e-06, "loss": 0.1763, "step": 41925 }, { "epoch": 11.186666666666667, "grad_norm": 7.702326774597168, "learning_rate": 3.211911111111111e-06, "loss": 0.1638, "step": 41950 }, { "epoch": 11.193333333333333, "grad_norm": 7.848499774932861, "learning_rate": 3.2074666666666672e-06, "loss": 0.1442, "step": 41975 }, { "epoch": 11.2, "grad_norm": 7.467278957366943, "learning_rate": 3.2030222222222225e-06, "loss": 0.1359, "step": 42000 }, { "epoch": 11.206666666666667, "grad_norm": 8.6646146774292, "learning_rate": 3.198577777777778e-06, "loss": 0.1711, "step": 42025 }, { "epoch": 11.213333333333333, "grad_norm": 7.0978169441223145, "learning_rate": 3.1941333333333335e-06, "loss": 0.1618, "step": 42050 }, { "epoch": 11.22, "grad_norm": 7.236456871032715, "learning_rate": 3.1896888888888896e-06, "loss": 0.159, "step": 42075 }, { "epoch": 11.226666666666667, "grad_norm": 5.769096374511719, "learning_rate": 3.185244444444445e-06, "loss": 0.1579, "step": 42100 }, { "epoch": 11.233333333333333, "grad_norm": 6.503199577331543, "learning_rate": 3.1808e-06, "loss": 0.1556, "step": 42125 }, { "epoch": 11.24, "grad_norm": 7.2549920082092285, "learning_rate": 3.176355555555556e-06, "loss": 0.1534, "step": 42150 }, { "epoch": 11.246666666666666, "grad_norm": 6.054853916168213, "learning_rate": 3.171911111111111e-06, "loss": 0.1523, "step": 42175 }, { "epoch": 11.253333333333334, "grad_norm": 7.935262680053711, "learning_rate": 3.167466666666667e-06, "loss": 0.1583, "step": 42200 }, { "epoch": 11.26, "grad_norm": 4.899887561798096, "learning_rate": 3.1630222222222225e-06, "loss": 0.1635, "step": 42225 }, { "epoch": 11.266666666666667, "grad_norm": 7.979632377624512, "learning_rate": 3.158577777777778e-06, "loss": 0.1629, "step": 42250 }, { "epoch": 11.273333333333333, "grad_norm": 12.075186729431152, "learning_rate": 3.1541333333333334e-06, "loss": 0.1461, "step": 42275 }, { "epoch": 11.28, "grad_norm": 6.796260356903076, "learning_rate": 3.1496888888888895e-06, "loss": 0.1651, "step": 42300 }, { "epoch": 11.286666666666667, "grad_norm": 6.811568737030029, "learning_rate": 3.145244444444445e-06, "loss": 0.1592, "step": 42325 }, { "epoch": 11.293333333333333, "grad_norm": 7.536212921142578, "learning_rate": 3.1408000000000005e-06, "loss": 0.1632, "step": 42350 }, { "epoch": 11.3, "grad_norm": 7.072963714599609, "learning_rate": 3.1363555555555558e-06, "loss": 0.1553, "step": 42375 }, { "epoch": 11.306666666666667, "grad_norm": 6.330763816833496, "learning_rate": 3.131911111111111e-06, "loss": 0.1555, "step": 42400 }, { "epoch": 11.313333333333333, "grad_norm": 6.611195087432861, "learning_rate": 3.127466666666667e-06, "loss": 0.1377, "step": 42425 }, { "epoch": 11.32, "grad_norm": 7.172667980194092, "learning_rate": 3.1230222222222224e-06, "loss": 0.1566, "step": 42450 }, { "epoch": 11.326666666666666, "grad_norm": 7.799119472503662, "learning_rate": 3.118577777777778e-06, "loss": 0.1568, "step": 42475 }, { "epoch": 11.333333333333334, "grad_norm": 9.881580352783203, "learning_rate": 3.1141333333333334e-06, "loss": 0.1556, "step": 42500 }, { "epoch": 11.34, "grad_norm": 7.408784866333008, "learning_rate": 3.1096888888888895e-06, "loss": 0.1628, "step": 42525 }, { "epoch": 11.346666666666668, "grad_norm": 6.879770278930664, "learning_rate": 3.1052444444444448e-06, "loss": 0.1652, "step": 42550 }, { "epoch": 11.353333333333333, "grad_norm": 6.7888078689575195, "learning_rate": 3.1008000000000004e-06, "loss": 0.1489, "step": 42575 }, { "epoch": 11.36, "grad_norm": 6.286257266998291, "learning_rate": 3.0963555555555557e-06, "loss": 0.1558, "step": 42600 }, { "epoch": 11.366666666666667, "grad_norm": 6.920025825500488, "learning_rate": 3.091911111111112e-06, "loss": 0.1527, "step": 42625 }, { "epoch": 11.373333333333333, "grad_norm": 10.460956573486328, "learning_rate": 3.087466666666667e-06, "loss": 0.1549, "step": 42650 }, { "epoch": 11.38, "grad_norm": 5.21718168258667, "learning_rate": 3.0830222222222224e-06, "loss": 0.1563, "step": 42675 }, { "epoch": 11.386666666666667, "grad_norm": 6.587711334228516, "learning_rate": 3.078577777777778e-06, "loss": 0.1448, "step": 42700 }, { "epoch": 11.393333333333333, "grad_norm": 8.322205543518066, "learning_rate": 3.0741333333333333e-06, "loss": 0.1638, "step": 42725 }, { "epoch": 11.4, "grad_norm": 7.457234859466553, "learning_rate": 3.0696888888888894e-06, "loss": 0.1574, "step": 42750 }, { "epoch": 11.406666666666666, "grad_norm": 8.703605651855469, "learning_rate": 3.0652444444444447e-06, "loss": 0.1574, "step": 42775 }, { "epoch": 11.413333333333334, "grad_norm": 8.813858032226562, "learning_rate": 3.0608000000000004e-06, "loss": 0.1615, "step": 42800 }, { "epoch": 11.42, "grad_norm": 12.151554107666016, "learning_rate": 3.0563555555555557e-06, "loss": 0.1683, "step": 42825 }, { "epoch": 11.426666666666666, "grad_norm": 7.090645790100098, "learning_rate": 3.051911111111112e-06, "loss": 0.1569, "step": 42850 }, { "epoch": 11.433333333333334, "grad_norm": 7.7591023445129395, "learning_rate": 3.047466666666667e-06, "loss": 0.1609, "step": 42875 }, { "epoch": 11.44, "grad_norm": 8.268049240112305, "learning_rate": 3.0430222222222223e-06, "loss": 0.1626, "step": 42900 }, { "epoch": 11.446666666666667, "grad_norm": 9.041934967041016, "learning_rate": 3.038577777777778e-06, "loss": 0.1608, "step": 42925 }, { "epoch": 11.453333333333333, "grad_norm": 8.045859336853027, "learning_rate": 3.0341333333333333e-06, "loss": 0.1642, "step": 42950 }, { "epoch": 11.46, "grad_norm": 5.7819108963012695, "learning_rate": 3.0296888888888894e-06, "loss": 0.1607, "step": 42975 }, { "epoch": 11.466666666666667, "grad_norm": 6.2671685218811035, "learning_rate": 3.0252444444444447e-06, "loss": 0.1823, "step": 43000 }, { "epoch": 11.473333333333333, "grad_norm": 5.5133233070373535, "learning_rate": 3.0208000000000004e-06, "loss": 0.1628, "step": 43025 }, { "epoch": 11.48, "grad_norm": 6.429490089416504, "learning_rate": 3.0163555555555556e-06, "loss": 0.1577, "step": 43050 }, { "epoch": 11.486666666666666, "grad_norm": 9.206454277038574, "learning_rate": 3.0119111111111118e-06, "loss": 0.1688, "step": 43075 }, { "epoch": 11.493333333333334, "grad_norm": 7.725639343261719, "learning_rate": 3.007466666666667e-06, "loss": 0.1577, "step": 43100 }, { "epoch": 11.5, "grad_norm": 7.453863620758057, "learning_rate": 3.0030222222222227e-06, "loss": 0.1637, "step": 43125 }, { "epoch": 11.506666666666666, "grad_norm": 6.8215718269348145, "learning_rate": 2.998577777777778e-06, "loss": 0.1692, "step": 43150 }, { "epoch": 11.513333333333334, "grad_norm": 7.308427333831787, "learning_rate": 2.9941333333333333e-06, "loss": 0.1634, "step": 43175 }, { "epoch": 11.52, "grad_norm": 6.2880682945251465, "learning_rate": 2.9896888888888894e-06, "loss": 0.1526, "step": 43200 }, { "epoch": 11.526666666666667, "grad_norm": 4.966390609741211, "learning_rate": 2.9852444444444446e-06, "loss": 0.1764, "step": 43225 }, { "epoch": 11.533333333333333, "grad_norm": 5.655823707580566, "learning_rate": 2.9808000000000003e-06, "loss": 0.1631, "step": 43250 }, { "epoch": 11.54, "grad_norm": 7.042474269866943, "learning_rate": 2.9765333333333336e-06, "loss": 0.1778, "step": 43275 }, { "epoch": 11.546666666666667, "grad_norm": 6.356965065002441, "learning_rate": 2.9720888888888893e-06, "loss": 0.154, "step": 43300 }, { "epoch": 11.553333333333333, "grad_norm": 5.6261725425720215, "learning_rate": 2.9676444444444446e-06, "loss": 0.1695, "step": 43325 }, { "epoch": 11.56, "grad_norm": 6.94989538192749, "learning_rate": 2.9632e-06, "loss": 0.1615, "step": 43350 }, { "epoch": 11.566666666666666, "grad_norm": 6.815896511077881, "learning_rate": 2.958755555555556e-06, "loss": 0.1614, "step": 43375 }, { "epoch": 11.573333333333334, "grad_norm": 11.365934371948242, "learning_rate": 2.9543111111111112e-06, "loss": 0.1764, "step": 43400 }, { "epoch": 11.58, "grad_norm": 6.6333417892456055, "learning_rate": 2.949866666666667e-06, "loss": 0.1783, "step": 43425 }, { "epoch": 11.586666666666666, "grad_norm": 8.714364051818848, "learning_rate": 2.945422222222222e-06, "loss": 0.1451, "step": 43450 }, { "epoch": 11.593333333333334, "grad_norm": 5.899602890014648, "learning_rate": 2.9409777777777783e-06, "loss": 0.1651, "step": 43475 }, { "epoch": 11.6, "grad_norm": 8.710065841674805, "learning_rate": 2.9365333333333336e-06, "loss": 0.1854, "step": 43500 }, { "epoch": 11.606666666666667, "grad_norm": 7.695793628692627, "learning_rate": 2.9320888888888893e-06, "loss": 0.1618, "step": 43525 }, { "epoch": 11.613333333333333, "grad_norm": 8.160514831542969, "learning_rate": 2.9276444444444445e-06, "loss": 0.1705, "step": 43550 }, { "epoch": 11.62, "grad_norm": 6.306259632110596, "learning_rate": 2.9232000000000007e-06, "loss": 0.1599, "step": 43575 }, { "epoch": 11.626666666666667, "grad_norm": 6.527724266052246, "learning_rate": 2.918755555555556e-06, "loss": 0.1681, "step": 43600 }, { "epoch": 11.633333333333333, "grad_norm": 7.496762752532959, "learning_rate": 2.914311111111111e-06, "loss": 0.1637, "step": 43625 }, { "epoch": 11.64, "grad_norm": 6.889701843261719, "learning_rate": 2.909866666666667e-06, "loss": 0.163, "step": 43650 }, { "epoch": 11.646666666666667, "grad_norm": 6.160928249359131, "learning_rate": 2.905422222222222e-06, "loss": 0.1669, "step": 43675 }, { "epoch": 11.653333333333332, "grad_norm": 6.133251190185547, "learning_rate": 2.9009777777777783e-06, "loss": 0.1605, "step": 43700 }, { "epoch": 11.66, "grad_norm": 6.154083728790283, "learning_rate": 2.8965333333333335e-06, "loss": 0.1742, "step": 43725 }, { "epoch": 11.666666666666666, "grad_norm": 7.724209308624268, "learning_rate": 2.8920888888888892e-06, "loss": 0.1604, "step": 43750 }, { "epoch": 11.673333333333334, "grad_norm": 7.598250865936279, "learning_rate": 2.8876444444444445e-06, "loss": 0.1514, "step": 43775 }, { "epoch": 11.68, "grad_norm": 6.024491786956787, "learning_rate": 2.8832000000000006e-06, "loss": 0.1552, "step": 43800 }, { "epoch": 11.686666666666667, "grad_norm": 6.694376468658447, "learning_rate": 2.878755555555556e-06, "loss": 0.1671, "step": 43825 }, { "epoch": 11.693333333333333, "grad_norm": 7.225961685180664, "learning_rate": 2.8743111111111116e-06, "loss": 0.156, "step": 43850 }, { "epoch": 11.7, "grad_norm": 5.572283744812012, "learning_rate": 2.869866666666667e-06, "loss": 0.165, "step": 43875 }, { "epoch": 11.706666666666667, "grad_norm": 12.434906959533691, "learning_rate": 2.865422222222222e-06, "loss": 0.1604, "step": 43900 }, { "epoch": 11.713333333333333, "grad_norm": 6.743670463562012, "learning_rate": 2.8609777777777782e-06, "loss": 0.1604, "step": 43925 }, { "epoch": 11.72, "grad_norm": 7.860291957855225, "learning_rate": 2.8565333333333335e-06, "loss": 0.1686, "step": 43950 }, { "epoch": 11.726666666666667, "grad_norm": 8.041913986206055, "learning_rate": 2.852088888888889e-06, "loss": 0.1649, "step": 43975 }, { "epoch": 11.733333333333333, "grad_norm": 7.016563415527344, "learning_rate": 2.8476444444444445e-06, "loss": 0.1455, "step": 44000 }, { "epoch": 11.74, "grad_norm": 6.9571943283081055, "learning_rate": 2.8432000000000006e-06, "loss": 0.1652, "step": 44025 }, { "epoch": 11.746666666666666, "grad_norm": 7.71449613571167, "learning_rate": 2.838755555555556e-06, "loss": 0.1708, "step": 44050 }, { "epoch": 11.753333333333334, "grad_norm": 7.536164283752441, "learning_rate": 2.8343111111111115e-06, "loss": 0.1691, "step": 44075 }, { "epoch": 11.76, "grad_norm": 6.653366565704346, "learning_rate": 2.829866666666667e-06, "loss": 0.1728, "step": 44100 }, { "epoch": 11.766666666666667, "grad_norm": 6.220523834228516, "learning_rate": 2.825422222222222e-06, "loss": 0.1624, "step": 44125 }, { "epoch": 11.773333333333333, "grad_norm": 7.1974287033081055, "learning_rate": 2.820977777777778e-06, "loss": 0.1646, "step": 44150 }, { "epoch": 11.78, "grad_norm": 8.09290885925293, "learning_rate": 2.8165333333333335e-06, "loss": 0.1708, "step": 44175 }, { "epoch": 11.786666666666667, "grad_norm": 7.7516703605651855, "learning_rate": 2.812088888888889e-06, "loss": 0.1682, "step": 44200 }, { "epoch": 11.793333333333333, "grad_norm": 6.236737251281738, "learning_rate": 2.8076444444444444e-06, "loss": 0.1606, "step": 44225 }, { "epoch": 11.8, "grad_norm": 8.02682113647461, "learning_rate": 2.8032000000000005e-06, "loss": 0.1553, "step": 44250 }, { "epoch": 11.806666666666667, "grad_norm": 8.237582206726074, "learning_rate": 2.798755555555556e-06, "loss": 0.1662, "step": 44275 }, { "epoch": 11.813333333333333, "grad_norm": 8.354368209838867, "learning_rate": 2.7943111111111115e-06, "loss": 0.1754, "step": 44300 }, { "epoch": 11.82, "grad_norm": 11.57107162475586, "learning_rate": 2.7898666666666668e-06, "loss": 0.1607, "step": 44325 }, { "epoch": 11.826666666666666, "grad_norm": 7.293022632598877, "learning_rate": 2.785422222222223e-06, "loss": 0.1581, "step": 44350 }, { "epoch": 11.833333333333334, "grad_norm": 6.748603343963623, "learning_rate": 2.780977777777778e-06, "loss": 0.1655, "step": 44375 }, { "epoch": 11.84, "grad_norm": 7.552708148956299, "learning_rate": 2.7765333333333334e-06, "loss": 0.1757, "step": 44400 }, { "epoch": 11.846666666666668, "grad_norm": 6.9047088623046875, "learning_rate": 2.772088888888889e-06, "loss": 0.1774, "step": 44425 }, { "epoch": 11.853333333333333, "grad_norm": 5.5212721824646, "learning_rate": 2.7676444444444444e-06, "loss": 0.1447, "step": 44450 }, { "epoch": 11.86, "grad_norm": 7.8570146560668945, "learning_rate": 2.7632000000000005e-06, "loss": 0.1679, "step": 44475 }, { "epoch": 11.866666666666667, "grad_norm": 5.39455509185791, "learning_rate": 2.7587555555555558e-06, "loss": 0.1438, "step": 44500 }, { "epoch": 11.873333333333333, "grad_norm": 8.914227485656738, "learning_rate": 2.7543111111111115e-06, "loss": 0.1733, "step": 44525 }, { "epoch": 11.88, "grad_norm": 3.8751020431518555, "learning_rate": 2.7498666666666667e-06, "loss": 0.1541, "step": 44550 }, { "epoch": 11.886666666666667, "grad_norm": 6.996160507202148, "learning_rate": 2.745422222222223e-06, "loss": 0.1558, "step": 44575 }, { "epoch": 11.893333333333333, "grad_norm": 7.936846733093262, "learning_rate": 2.740977777777778e-06, "loss": 0.1625, "step": 44600 }, { "epoch": 11.9, "grad_norm": 7.681167125701904, "learning_rate": 2.736533333333334e-06, "loss": 0.1605, "step": 44625 }, { "epoch": 11.906666666666666, "grad_norm": 7.636104583740234, "learning_rate": 2.732088888888889e-06, "loss": 0.1579, "step": 44650 }, { "epoch": 11.913333333333334, "grad_norm": 8.562803268432617, "learning_rate": 2.7276444444444443e-06, "loss": 0.1667, "step": 44675 }, { "epoch": 11.92, "grad_norm": 10.122127532958984, "learning_rate": 2.7232000000000005e-06, "loss": 0.1732, "step": 44700 }, { "epoch": 11.926666666666666, "grad_norm": 6.210834980010986, "learning_rate": 2.7187555555555557e-06, "loss": 0.1598, "step": 44725 }, { "epoch": 11.933333333333334, "grad_norm": 7.604787349700928, "learning_rate": 2.7143111111111114e-06, "loss": 0.1526, "step": 44750 }, { "epoch": 11.94, "grad_norm": 6.259129047393799, "learning_rate": 2.7098666666666667e-06, "loss": 0.1672, "step": 44775 }, { "epoch": 11.946666666666667, "grad_norm": 6.751676559448242, "learning_rate": 2.705422222222223e-06, "loss": 0.1599, "step": 44800 }, { "epoch": 11.953333333333333, "grad_norm": 6.466487884521484, "learning_rate": 2.700977777777778e-06, "loss": 0.1639, "step": 44825 }, { "epoch": 11.96, "grad_norm": 5.768514156341553, "learning_rate": 2.6965333333333338e-06, "loss": 0.166, "step": 44850 }, { "epoch": 11.966666666666667, "grad_norm": 9.191773414611816, "learning_rate": 2.692088888888889e-06, "loss": 0.1527, "step": 44875 }, { "epoch": 11.973333333333333, "grad_norm": 6.189751625061035, "learning_rate": 2.6876444444444443e-06, "loss": 0.1551, "step": 44900 }, { "epoch": 11.98, "grad_norm": 7.363156795501709, "learning_rate": 2.6832000000000004e-06, "loss": 0.1707, "step": 44925 }, { "epoch": 11.986666666666666, "grad_norm": 10.990365028381348, "learning_rate": 2.6787555555555557e-06, "loss": 0.1562, "step": 44950 }, { "epoch": 11.993333333333334, "grad_norm": 7.541445255279541, "learning_rate": 2.6743111111111114e-06, "loss": 0.1575, "step": 44975 }, { "epoch": 12.0, "grad_norm": 9.411133766174316, "learning_rate": 2.6698666666666666e-06, "loss": 0.1569, "step": 45000 }, { "epoch": 12.0, "eval_cer": 21.120697687419636, "eval_loss": 0.3665392994880676, "eval_runtime": 1265.3387, "eval_samples_per_second": 3.952, "eval_steps_per_second": 0.494, "step": 45000 }, { "epoch": 12.006666666666666, "grad_norm": 6.493170738220215, "learning_rate": 2.6654222222222228e-06, "loss": 0.1071, "step": 45025 }, { "epoch": 12.013333333333334, "grad_norm": 10.314104080200195, "learning_rate": 2.660977777777778e-06, "loss": 0.1043, "step": 45050 }, { "epoch": 12.02, "grad_norm": 6.124871730804443, "learning_rate": 2.6565333333333337e-06, "loss": 0.0992, "step": 45075 }, { "epoch": 12.026666666666667, "grad_norm": 5.535056114196777, "learning_rate": 2.652088888888889e-06, "loss": 0.0998, "step": 45100 }, { "epoch": 12.033333333333333, "grad_norm": 6.459754943847656, "learning_rate": 2.647644444444445e-06, "loss": 0.0987, "step": 45125 }, { "epoch": 12.04, "grad_norm": 6.8807454109191895, "learning_rate": 2.6432000000000004e-06, "loss": 0.118, "step": 45150 }, { "epoch": 12.046666666666667, "grad_norm": 4.843288898468018, "learning_rate": 2.6387555555555556e-06, "loss": 0.1118, "step": 45175 }, { "epoch": 12.053333333333333, "grad_norm": 5.548996448516846, "learning_rate": 2.6343111111111113e-06, "loss": 0.1067, "step": 45200 }, { "epoch": 12.06, "grad_norm": 5.271174430847168, "learning_rate": 2.6298666666666666e-06, "loss": 0.1014, "step": 45225 }, { "epoch": 12.066666666666666, "grad_norm": 5.70526123046875, "learning_rate": 2.6254222222222227e-06, "loss": 0.1073, "step": 45250 }, { "epoch": 12.073333333333334, "grad_norm": 6.070753574371338, "learning_rate": 2.620977777777778e-06, "loss": 0.1134, "step": 45275 }, { "epoch": 12.08, "grad_norm": 7.236232280731201, "learning_rate": 2.6167111111111117e-06, "loss": 0.0989, "step": 45300 }, { "epoch": 12.086666666666666, "grad_norm": 5.581538677215576, "learning_rate": 2.612266666666667e-06, "loss": 0.097, "step": 45325 }, { "epoch": 12.093333333333334, "grad_norm": 5.171026706695557, "learning_rate": 2.6078222222222227e-06, "loss": 0.1044, "step": 45350 }, { "epoch": 12.1, "grad_norm": 5.284248352050781, "learning_rate": 2.603377777777778e-06, "loss": 0.1175, "step": 45375 }, { "epoch": 12.106666666666667, "grad_norm": 3.9932315349578857, "learning_rate": 2.598933333333333e-06, "loss": 0.1121, "step": 45400 }, { "epoch": 12.113333333333333, "grad_norm": 7.705107688903809, "learning_rate": 2.5944888888888893e-06, "loss": 0.1139, "step": 45425 }, { "epoch": 12.12, "grad_norm": 3.4822449684143066, "learning_rate": 2.5900444444444446e-06, "loss": 0.11, "step": 45450 }, { "epoch": 12.126666666666667, "grad_norm": 4.920461654663086, "learning_rate": 2.5856000000000003e-06, "loss": 0.1192, "step": 45475 }, { "epoch": 12.133333333333333, "grad_norm": 6.56243371963501, "learning_rate": 2.5811555555555556e-06, "loss": 0.106, "step": 45500 }, { "epoch": 12.14, "grad_norm": 4.58997917175293, "learning_rate": 2.5767111111111117e-06, "loss": 0.1067, "step": 45525 }, { "epoch": 12.146666666666667, "grad_norm": 4.741954803466797, "learning_rate": 2.572266666666667e-06, "loss": 0.1066, "step": 45550 }, { "epoch": 12.153333333333332, "grad_norm": 5.841648101806641, "learning_rate": 2.5678222222222226e-06, "loss": 0.1132, "step": 45575 }, { "epoch": 12.16, "grad_norm": 5.91623592376709, "learning_rate": 2.563377777777778e-06, "loss": 0.1072, "step": 45600 }, { "epoch": 12.166666666666666, "grad_norm": 6.038606643676758, "learning_rate": 2.558933333333333e-06, "loss": 0.1146, "step": 45625 }, { "epoch": 12.173333333333334, "grad_norm": 5.838025093078613, "learning_rate": 2.5544888888888893e-06, "loss": 0.1068, "step": 45650 }, { "epoch": 12.18, "grad_norm": 5.339217662811279, "learning_rate": 2.5500444444444446e-06, "loss": 0.1255, "step": 45675 }, { "epoch": 12.186666666666667, "grad_norm": 5.239312648773193, "learning_rate": 2.5456000000000002e-06, "loss": 0.098, "step": 45700 }, { "epoch": 12.193333333333333, "grad_norm": 4.9372382164001465, "learning_rate": 2.5411555555555555e-06, "loss": 0.1008, "step": 45725 }, { "epoch": 12.2, "grad_norm": 4.120527744293213, "learning_rate": 2.5367111111111116e-06, "loss": 0.1109, "step": 45750 }, { "epoch": 12.206666666666667, "grad_norm": 5.289470672607422, "learning_rate": 2.532266666666667e-06, "loss": 0.1136, "step": 45775 }, { "epoch": 12.213333333333333, "grad_norm": 4.822832107543945, "learning_rate": 2.5278222222222226e-06, "loss": 0.1067, "step": 45800 }, { "epoch": 12.22, "grad_norm": 7.32331657409668, "learning_rate": 2.523377777777778e-06, "loss": 0.1158, "step": 45825 }, { "epoch": 12.226666666666667, "grad_norm": 6.071128845214844, "learning_rate": 2.518933333333334e-06, "loss": 0.0997, "step": 45850 }, { "epoch": 12.233333333333333, "grad_norm": 4.41969108581543, "learning_rate": 2.5144888888888892e-06, "loss": 0.0947, "step": 45875 }, { "epoch": 12.24, "grad_norm": 4.822566032409668, "learning_rate": 2.5100444444444445e-06, "loss": 0.1123, "step": 45900 }, { "epoch": 12.246666666666666, "grad_norm": 6.816233158111572, "learning_rate": 2.5056e-06, "loss": 0.1126, "step": 45925 }, { "epoch": 12.253333333333334, "grad_norm": 6.76645565032959, "learning_rate": 2.5011555555555555e-06, "loss": 0.1046, "step": 45950 }, { "epoch": 12.26, "grad_norm": 8.95752239227295, "learning_rate": 2.4967111111111116e-06, "loss": 0.1008, "step": 45975 }, { "epoch": 12.266666666666667, "grad_norm": 6.107155799865723, "learning_rate": 2.492266666666667e-06, "loss": 0.1111, "step": 46000 }, { "epoch": 12.273333333333333, "grad_norm": 3.781000852584839, "learning_rate": 2.487822222222222e-06, "loss": 0.1064, "step": 46025 }, { "epoch": 12.28, "grad_norm": 3.926968812942505, "learning_rate": 2.483377777777778e-06, "loss": 0.1165, "step": 46050 }, { "epoch": 12.286666666666667, "grad_norm": 6.012359619140625, "learning_rate": 2.4789333333333335e-06, "loss": 0.1014, "step": 46075 }, { "epoch": 12.293333333333333, "grad_norm": 4.382100582122803, "learning_rate": 2.474488888888889e-06, "loss": 0.1066, "step": 46100 }, { "epoch": 12.3, "grad_norm": 8.183173179626465, "learning_rate": 2.4700444444444445e-06, "loss": 0.1002, "step": 46125 }, { "epoch": 12.306666666666667, "grad_norm": 4.687697410583496, "learning_rate": 2.4656e-06, "loss": 0.1025, "step": 46150 }, { "epoch": 12.313333333333333, "grad_norm": 5.97998571395874, "learning_rate": 2.461155555555556e-06, "loss": 0.1024, "step": 46175 }, { "epoch": 12.32, "grad_norm": 6.169867992401123, "learning_rate": 2.4567111111111115e-06, "loss": 0.111, "step": 46200 }, { "epoch": 12.326666666666666, "grad_norm": 4.921481609344482, "learning_rate": 2.452266666666667e-06, "loss": 0.0939, "step": 46225 }, { "epoch": 12.333333333333334, "grad_norm": 6.268850803375244, "learning_rate": 2.4478222222222225e-06, "loss": 0.1063, "step": 46250 }, { "epoch": 12.34, "grad_norm": 7.1681623458862305, "learning_rate": 2.4433777777777778e-06, "loss": 0.1227, "step": 46275 }, { "epoch": 12.346666666666668, "grad_norm": 5.602593898773193, "learning_rate": 2.4389333333333335e-06, "loss": 0.0999, "step": 46300 }, { "epoch": 12.353333333333333, "grad_norm": 8.58749008178711, "learning_rate": 2.434488888888889e-06, "loss": 0.1098, "step": 46325 }, { "epoch": 12.36, "grad_norm": 5.607008457183838, "learning_rate": 2.4300444444444444e-06, "loss": 0.1063, "step": 46350 }, { "epoch": 12.366666666666667, "grad_norm": 5.294493675231934, "learning_rate": 2.4256e-06, "loss": 0.1066, "step": 46375 }, { "epoch": 12.373333333333333, "grad_norm": 5.545394420623779, "learning_rate": 2.421155555555556e-06, "loss": 0.112, "step": 46400 }, { "epoch": 12.38, "grad_norm": 5.3336591720581055, "learning_rate": 2.4167111111111115e-06, "loss": 0.1196, "step": 46425 }, { "epoch": 12.386666666666667, "grad_norm": 6.006252765655518, "learning_rate": 2.4122666666666668e-06, "loss": 0.1118, "step": 46450 }, { "epoch": 12.393333333333333, "grad_norm": 5.7660393714904785, "learning_rate": 2.4078222222222225e-06, "loss": 0.1065, "step": 46475 }, { "epoch": 12.4, "grad_norm": 7.009937286376953, "learning_rate": 2.403377777777778e-06, "loss": 0.1117, "step": 46500 }, { "epoch": 12.406666666666666, "grad_norm": 6.59313440322876, "learning_rate": 2.3989333333333334e-06, "loss": 0.1065, "step": 46525 }, { "epoch": 12.413333333333334, "grad_norm": 6.663754940032959, "learning_rate": 2.394488888888889e-06, "loss": 0.1176, "step": 46550 }, { "epoch": 12.42, "grad_norm": 6.973970413208008, "learning_rate": 2.3900444444444444e-06, "loss": 0.1143, "step": 46575 }, { "epoch": 12.426666666666666, "grad_norm": 5.902155876159668, "learning_rate": 2.3856e-06, "loss": 0.1082, "step": 46600 }, { "epoch": 12.433333333333334, "grad_norm": 5.6085076332092285, "learning_rate": 2.3811555555555558e-06, "loss": 0.1033, "step": 46625 }, { "epoch": 12.44, "grad_norm": 8.836973190307617, "learning_rate": 2.3767111111111115e-06, "loss": 0.1058, "step": 46650 }, { "epoch": 12.446666666666667, "grad_norm": 5.662825107574463, "learning_rate": 2.3722666666666667e-06, "loss": 0.1205, "step": 46675 }, { "epoch": 12.453333333333333, "grad_norm": 6.6187005043029785, "learning_rate": 2.3678222222222224e-06, "loss": 0.1079, "step": 46700 }, { "epoch": 12.46, "grad_norm": 6.474920272827148, "learning_rate": 2.363377777777778e-06, "loss": 0.108, "step": 46725 }, { "epoch": 12.466666666666667, "grad_norm": 5.7897443771362305, "learning_rate": 2.358933333333334e-06, "loss": 0.1169, "step": 46750 }, { "epoch": 12.473333333333333, "grad_norm": 7.804737567901611, "learning_rate": 2.354488888888889e-06, "loss": 0.1119, "step": 46775 }, { "epoch": 12.48, "grad_norm": 5.0531134605407715, "learning_rate": 2.3500444444444443e-06, "loss": 0.1055, "step": 46800 }, { "epoch": 12.486666666666666, "grad_norm": 7.218482971191406, "learning_rate": 2.3456e-06, "loss": 0.1169, "step": 46825 }, { "epoch": 12.493333333333334, "grad_norm": 4.715880870819092, "learning_rate": 2.3411555555555557e-06, "loss": 0.1145, "step": 46850 }, { "epoch": 12.5, "grad_norm": 6.150249004364014, "learning_rate": 2.3367111111111114e-06, "loss": 0.1119, "step": 46875 }, { "epoch": 12.506666666666666, "grad_norm": 6.566578388214111, "learning_rate": 2.3322666666666667e-06, "loss": 0.1076, "step": 46900 }, { "epoch": 12.513333333333334, "grad_norm": 7.012685775756836, "learning_rate": 2.3278222222222224e-06, "loss": 0.1034, "step": 46925 }, { "epoch": 12.52, "grad_norm": 6.218094825744629, "learning_rate": 2.323377777777778e-06, "loss": 0.1188, "step": 46950 }, { "epoch": 12.526666666666667, "grad_norm": 6.20350456237793, "learning_rate": 2.3189333333333338e-06, "loss": 0.1059, "step": 46975 }, { "epoch": 12.533333333333333, "grad_norm": 8.562267303466797, "learning_rate": 2.314488888888889e-06, "loss": 0.1141, "step": 47000 }, { "epoch": 12.54, "grad_norm": 7.270572662353516, "learning_rate": 2.3100444444444447e-06, "loss": 0.1162, "step": 47025 }, { "epoch": 12.546666666666667, "grad_norm": 6.470387935638428, "learning_rate": 2.3056e-06, "loss": 0.1023, "step": 47050 }, { "epoch": 12.553333333333333, "grad_norm": 6.274166107177734, "learning_rate": 2.3011555555555557e-06, "loss": 0.1103, "step": 47075 }, { "epoch": 12.56, "grad_norm": 5.862270355224609, "learning_rate": 2.2967111111111114e-06, "loss": 0.1219, "step": 47100 }, { "epoch": 12.566666666666666, "grad_norm": 4.768299579620361, "learning_rate": 2.2922666666666667e-06, "loss": 0.1038, "step": 47125 }, { "epoch": 12.573333333333334, "grad_norm": 5.534469127655029, "learning_rate": 2.2878222222222223e-06, "loss": 0.1004, "step": 47150 }, { "epoch": 12.58, "grad_norm": 4.763548851013184, "learning_rate": 2.283377777777778e-06, "loss": 0.1232, "step": 47175 }, { "epoch": 12.586666666666666, "grad_norm": 8.450883865356445, "learning_rate": 2.2789333333333337e-06, "loss": 0.1142, "step": 47200 }, { "epoch": 12.593333333333334, "grad_norm": 5.303816795349121, "learning_rate": 2.274488888888889e-06, "loss": 0.1041, "step": 47225 }, { "epoch": 12.6, "grad_norm": 5.323181629180908, "learning_rate": 2.2700444444444447e-06, "loss": 0.1048, "step": 47250 }, { "epoch": 12.606666666666667, "grad_norm": 6.1729254722595215, "learning_rate": 2.2656000000000004e-06, "loss": 0.1122, "step": 47275 }, { "epoch": 12.613333333333333, "grad_norm": 5.479588985443115, "learning_rate": 2.2611555555555557e-06, "loss": 0.1208, "step": 47300 }, { "epoch": 12.62, "grad_norm": 5.543934345245361, "learning_rate": 2.2567111111111113e-06, "loss": 0.1007, "step": 47325 }, { "epoch": 12.626666666666667, "grad_norm": 5.356732368469238, "learning_rate": 2.2522666666666666e-06, "loss": 0.1091, "step": 47350 }, { "epoch": 12.633333333333333, "grad_norm": 5.259866237640381, "learning_rate": 2.2478222222222223e-06, "loss": 0.1033, "step": 47375 }, { "epoch": 12.64, "grad_norm": 6.847537517547607, "learning_rate": 2.243377777777778e-06, "loss": 0.1058, "step": 47400 }, { "epoch": 12.646666666666667, "grad_norm": 5.360149383544922, "learning_rate": 2.2389333333333337e-06, "loss": 0.106, "step": 47425 }, { "epoch": 12.653333333333332, "grad_norm": 6.420960426330566, "learning_rate": 2.234488888888889e-06, "loss": 0.1149, "step": 47450 }, { "epoch": 12.66, "grad_norm": 5.0199384689331055, "learning_rate": 2.2300444444444446e-06, "loss": 0.103, "step": 47475 }, { "epoch": 12.666666666666666, "grad_norm": 5.2378249168396, "learning_rate": 2.2256000000000003e-06, "loss": 0.1047, "step": 47500 }, { "epoch": 12.673333333333334, "grad_norm": 6.056905269622803, "learning_rate": 2.221155555555556e-06, "loss": 0.1197, "step": 47525 }, { "epoch": 12.68, "grad_norm": 7.7821173667907715, "learning_rate": 2.2167111111111113e-06, "loss": 0.1173, "step": 47550 }, { "epoch": 12.686666666666667, "grad_norm": 6.077167987823486, "learning_rate": 2.2122666666666666e-06, "loss": 0.1064, "step": 47575 }, { "epoch": 12.693333333333333, "grad_norm": 5.484776973724365, "learning_rate": 2.2078222222222223e-06, "loss": 0.1105, "step": 47600 }, { "epoch": 12.7, "grad_norm": 6.277669906616211, "learning_rate": 2.203377777777778e-06, "loss": 0.1065, "step": 47625 }, { "epoch": 12.706666666666667, "grad_norm": 7.27718448638916, "learning_rate": 2.1989333333333336e-06, "loss": 0.1105, "step": 47650 }, { "epoch": 12.713333333333333, "grad_norm": 5.045402526855469, "learning_rate": 2.194488888888889e-06, "loss": 0.1058, "step": 47675 }, { "epoch": 12.72, "grad_norm": 4.938896179199219, "learning_rate": 2.1902222222222226e-06, "loss": 0.1105, "step": 47700 }, { "epoch": 12.726666666666667, "grad_norm": 5.8608269691467285, "learning_rate": 2.185777777777778e-06, "loss": 0.1258, "step": 47725 }, { "epoch": 12.733333333333333, "grad_norm": 4.68363618850708, "learning_rate": 2.1813333333333336e-06, "loss": 0.0997, "step": 47750 }, { "epoch": 12.74, "grad_norm": 6.591302394866943, "learning_rate": 2.176888888888889e-06, "loss": 0.1081, "step": 47775 }, { "epoch": 12.746666666666666, "grad_norm": 7.082460880279541, "learning_rate": 2.1724444444444446e-06, "loss": 0.1108, "step": 47800 }, { "epoch": 12.753333333333334, "grad_norm": 7.704886436462402, "learning_rate": 2.1680000000000002e-06, "loss": 0.1093, "step": 47825 }, { "epoch": 12.76, "grad_norm": 5.565296649932861, "learning_rate": 2.1635555555555555e-06, "loss": 0.1124, "step": 47850 }, { "epoch": 12.766666666666667, "grad_norm": 7.612327575683594, "learning_rate": 2.159111111111111e-06, "loss": 0.1193, "step": 47875 }, { "epoch": 12.773333333333333, "grad_norm": 5.163200378417969, "learning_rate": 2.154666666666667e-06, "loss": 0.1082, "step": 47900 }, { "epoch": 12.78, "grad_norm": 5.453884124755859, "learning_rate": 2.1502222222222226e-06, "loss": 0.101, "step": 47925 }, { "epoch": 12.786666666666667, "grad_norm": 6.850915908813477, "learning_rate": 2.145777777777778e-06, "loss": 0.1078, "step": 47950 }, { "epoch": 12.793333333333333, "grad_norm": 7.943562030792236, "learning_rate": 2.1413333333333336e-06, "loss": 0.1137, "step": 47975 }, { "epoch": 12.8, "grad_norm": 6.475844860076904, "learning_rate": 2.1368888888888892e-06, "loss": 0.1144, "step": 48000 }, { "epoch": 12.806666666666667, "grad_norm": 4.7059006690979, "learning_rate": 2.1324444444444445e-06, "loss": 0.1062, "step": 48025 }, { "epoch": 12.813333333333333, "grad_norm": 5.344225883483887, "learning_rate": 2.128e-06, "loss": 0.1071, "step": 48050 }, { "epoch": 12.82, "grad_norm": 5.982877254486084, "learning_rate": 2.1235555555555555e-06, "loss": 0.1108, "step": 48075 }, { "epoch": 12.826666666666666, "grad_norm": 7.366219997406006, "learning_rate": 2.119111111111111e-06, "loss": 0.101, "step": 48100 }, { "epoch": 12.833333333333334, "grad_norm": 3.7109286785125732, "learning_rate": 2.114666666666667e-06, "loss": 0.1103, "step": 48125 }, { "epoch": 12.84, "grad_norm": 6.917268753051758, "learning_rate": 2.1102222222222226e-06, "loss": 0.1214, "step": 48150 }, { "epoch": 12.846666666666668, "grad_norm": 6.948658466339111, "learning_rate": 2.105777777777778e-06, "loss": 0.0991, "step": 48175 }, { "epoch": 12.853333333333333, "grad_norm": 6.243878364562988, "learning_rate": 2.1013333333333335e-06, "loss": 0.1177, "step": 48200 }, { "epoch": 12.86, "grad_norm": 7.587082862854004, "learning_rate": 2.096888888888889e-06, "loss": 0.1124, "step": 48225 }, { "epoch": 12.866666666666667, "grad_norm": 6.985424041748047, "learning_rate": 2.092444444444445e-06, "loss": 0.106, "step": 48250 }, { "epoch": 12.873333333333333, "grad_norm": 6.592808246612549, "learning_rate": 2.088e-06, "loss": 0.1247, "step": 48275 }, { "epoch": 12.88, "grad_norm": 5.634211540222168, "learning_rate": 2.0835555555555554e-06, "loss": 0.0999, "step": 48300 }, { "epoch": 12.886666666666667, "grad_norm": 4.8037567138671875, "learning_rate": 2.079111111111111e-06, "loss": 0.1166, "step": 48325 }, { "epoch": 12.893333333333333, "grad_norm": 6.124323844909668, "learning_rate": 2.074666666666667e-06, "loss": 0.0977, "step": 48350 }, { "epoch": 12.9, "grad_norm": 7.983600616455078, "learning_rate": 2.0702222222222225e-06, "loss": 0.106, "step": 48375 }, { "epoch": 12.906666666666666, "grad_norm": 6.559160232543945, "learning_rate": 2.0657777777777778e-06, "loss": 0.1187, "step": 48400 }, { "epoch": 12.913333333333334, "grad_norm": 8.193538665771484, "learning_rate": 2.0613333333333335e-06, "loss": 0.1203, "step": 48425 }, { "epoch": 12.92, "grad_norm": 6.677972793579102, "learning_rate": 2.056888888888889e-06, "loss": 0.1242, "step": 48450 }, { "epoch": 12.926666666666666, "grad_norm": 8.824485778808594, "learning_rate": 2.052444444444445e-06, "loss": 0.1006, "step": 48475 }, { "epoch": 12.933333333333334, "grad_norm": 6.2802863121032715, "learning_rate": 2.048e-06, "loss": 0.1098, "step": 48500 }, { "epoch": 12.94, "grad_norm": 5.579257965087891, "learning_rate": 2.043555555555556e-06, "loss": 0.1027, "step": 48525 }, { "epoch": 12.946666666666667, "grad_norm": 6.418622970581055, "learning_rate": 2.039111111111111e-06, "loss": 0.1086, "step": 48550 }, { "epoch": 12.953333333333333, "grad_norm": 5.020949840545654, "learning_rate": 2.0346666666666668e-06, "loss": 0.114, "step": 48575 }, { "epoch": 12.96, "grad_norm": 6.410282611846924, "learning_rate": 2.0302222222222225e-06, "loss": 0.1058, "step": 48600 }, { "epoch": 12.966666666666667, "grad_norm": 7.423671245574951, "learning_rate": 2.0257777777777777e-06, "loss": 0.1129, "step": 48625 }, { "epoch": 12.973333333333333, "grad_norm": 4.838792324066162, "learning_rate": 2.0213333333333334e-06, "loss": 0.1139, "step": 48650 }, { "epoch": 12.98, "grad_norm": 7.466505527496338, "learning_rate": 2.016888888888889e-06, "loss": 0.116, "step": 48675 }, { "epoch": 12.986666666666666, "grad_norm": 5.467660903930664, "learning_rate": 2.012444444444445e-06, "loss": 0.1133, "step": 48700 }, { "epoch": 12.993333333333334, "grad_norm": 5.013683319091797, "learning_rate": 2.008e-06, "loss": 0.116, "step": 48725 }, { "epoch": 13.0, "grad_norm": 9.961708068847656, "learning_rate": 2.0035555555555558e-06, "loss": 0.112, "step": 48750 }, { "epoch": 13.0, "eval_cer": 21.116970724707897, "eval_loss": 0.3701510727405548, "eval_runtime": 1274.9292, "eval_samples_per_second": 3.922, "eval_steps_per_second": 0.49, "step": 48750 }, { "epoch": 13.006666666666666, "grad_norm": 5.622351169586182, "learning_rate": 1.9991111111111115e-06, "loss": 0.073, "step": 48775 }, { "epoch": 13.013333333333334, "grad_norm": 4.620367050170898, "learning_rate": 1.9946666666666667e-06, "loss": 0.0712, "step": 48800 }, { "epoch": 13.02, "grad_norm": 2.9448187351226807, "learning_rate": 1.9902222222222224e-06, "loss": 0.0672, "step": 48825 }, { "epoch": 13.026666666666667, "grad_norm": 3.295442819595337, "learning_rate": 1.9857777777777777e-06, "loss": 0.062, "step": 48850 }, { "epoch": 13.033333333333333, "grad_norm": 4.014532089233398, "learning_rate": 1.9813333333333334e-06, "loss": 0.069, "step": 48875 }, { "epoch": 13.04, "grad_norm": 6.512493133544922, "learning_rate": 1.976888888888889e-06, "loss": 0.0685, "step": 48900 }, { "epoch": 13.046666666666667, "grad_norm": 4.543283939361572, "learning_rate": 1.9724444444444448e-06, "loss": 0.0723, "step": 48925 }, { "epoch": 13.053333333333333, "grad_norm": 5.153681755065918, "learning_rate": 1.968e-06, "loss": 0.0702, "step": 48950 }, { "epoch": 13.06, "grad_norm": 4.637246131896973, "learning_rate": 1.9635555555555557e-06, "loss": 0.0731, "step": 48975 }, { "epoch": 13.066666666666666, "grad_norm": 5.574101448059082, "learning_rate": 1.9591111111111114e-06, "loss": 0.0732, "step": 49000 }, { "epoch": 13.073333333333334, "grad_norm": 3.951002359390259, "learning_rate": 1.954666666666667e-06, "loss": 0.0708, "step": 49025 }, { "epoch": 13.08, "grad_norm": 3.7893869876861572, "learning_rate": 1.9502222222222224e-06, "loss": 0.0678, "step": 49050 }, { "epoch": 13.086666666666666, "grad_norm": 5.214609146118164, "learning_rate": 1.9457777777777777e-06, "loss": 0.0752, "step": 49075 }, { "epoch": 13.093333333333334, "grad_norm": 3.270291805267334, "learning_rate": 1.9413333333333334e-06, "loss": 0.073, "step": 49100 }, { "epoch": 13.1, "grad_norm": 5.782220363616943, "learning_rate": 1.936888888888889e-06, "loss": 0.0786, "step": 49125 }, { "epoch": 13.106666666666667, "grad_norm": 4.796205997467041, "learning_rate": 1.9324444444444447e-06, "loss": 0.0715, "step": 49150 }, { "epoch": 13.113333333333333, "grad_norm": 4.687405109405518, "learning_rate": 1.928e-06, "loss": 0.0752, "step": 49175 }, { "epoch": 13.12, "grad_norm": 4.880829334259033, "learning_rate": 1.9235555555555557e-06, "loss": 0.0697, "step": 49200 }, { "epoch": 13.126666666666667, "grad_norm": 5.48293399810791, "learning_rate": 1.9191111111111114e-06, "loss": 0.0749, "step": 49225 }, { "epoch": 13.133333333333333, "grad_norm": 5.155721664428711, "learning_rate": 1.914666666666667e-06, "loss": 0.078, "step": 49250 }, { "epoch": 13.14, "grad_norm": 3.983116626739502, "learning_rate": 1.9102222222222224e-06, "loss": 0.0726, "step": 49275 }, { "epoch": 13.146666666666667, "grad_norm": 5.757419586181641, "learning_rate": 1.905777777777778e-06, "loss": 0.067, "step": 49300 }, { "epoch": 13.153333333333332, "grad_norm": 5.3086090087890625, "learning_rate": 1.9013333333333333e-06, "loss": 0.0761, "step": 49325 }, { "epoch": 13.16, "grad_norm": 6.292516708374023, "learning_rate": 1.896888888888889e-06, "loss": 0.0719, "step": 49350 }, { "epoch": 13.166666666666666, "grad_norm": 5.925360202789307, "learning_rate": 1.8924444444444445e-06, "loss": 0.0752, "step": 49375 }, { "epoch": 13.173333333333334, "grad_norm": 4.0699992179870605, "learning_rate": 1.8880000000000002e-06, "loss": 0.0657, "step": 49400 }, { "epoch": 13.18, "grad_norm": 4.260977268218994, "learning_rate": 1.8835555555555557e-06, "loss": 0.0695, "step": 49425 }, { "epoch": 13.186666666666667, "grad_norm": 3.3656084537506104, "learning_rate": 1.8791111111111113e-06, "loss": 0.0749, "step": 49450 }, { "epoch": 13.193333333333333, "grad_norm": 4.433594226837158, "learning_rate": 1.8746666666666668e-06, "loss": 0.0673, "step": 49475 }, { "epoch": 13.2, "grad_norm": 4.636645793914795, "learning_rate": 1.8702222222222225e-06, "loss": 0.0778, "step": 49500 }, { "epoch": 13.206666666666667, "grad_norm": 4.563504695892334, "learning_rate": 1.865777777777778e-06, "loss": 0.0649, "step": 49525 }, { "epoch": 13.213333333333333, "grad_norm": 4.235064506530762, "learning_rate": 1.8613333333333337e-06, "loss": 0.0706, "step": 49550 }, { "epoch": 13.22, "grad_norm": 4.921514511108398, "learning_rate": 1.856888888888889e-06, "loss": 0.0694, "step": 49575 }, { "epoch": 13.226666666666667, "grad_norm": 4.738955020904541, "learning_rate": 1.8524444444444444e-06, "loss": 0.0668, "step": 49600 }, { "epoch": 13.233333333333333, "grad_norm": 5.060573101043701, "learning_rate": 1.8480000000000001e-06, "loss": 0.0683, "step": 49625 }, { "epoch": 13.24, "grad_norm": 4.408626556396484, "learning_rate": 1.8435555555555556e-06, "loss": 0.0727, "step": 49650 }, { "epoch": 13.246666666666666, "grad_norm": 4.45327091217041, "learning_rate": 1.8391111111111113e-06, "loss": 0.0666, "step": 49675 }, { "epoch": 13.253333333333334, "grad_norm": 5.215404510498047, "learning_rate": 1.8346666666666668e-06, "loss": 0.0834, "step": 49700 }, { "epoch": 13.26, "grad_norm": 4.692080974578857, "learning_rate": 1.8302222222222225e-06, "loss": 0.0725, "step": 49725 }, { "epoch": 13.266666666666667, "grad_norm": 3.9876694679260254, "learning_rate": 1.825777777777778e-06, "loss": 0.0672, "step": 49750 }, { "epoch": 13.273333333333333, "grad_norm": 3.875887870788574, "learning_rate": 1.8213333333333337e-06, "loss": 0.0688, "step": 49775 }, { "epoch": 13.28, "grad_norm": 6.395846843719482, "learning_rate": 1.8168888888888891e-06, "loss": 0.0754, "step": 49800 }, { "epoch": 13.286666666666667, "grad_norm": 5.104362964630127, "learning_rate": 1.8124444444444448e-06, "loss": 0.0761, "step": 49825 }, { "epoch": 13.293333333333333, "grad_norm": 3.312028169631958, "learning_rate": 1.808e-06, "loss": 0.0764, "step": 49850 }, { "epoch": 13.3, "grad_norm": 3.243084192276001, "learning_rate": 1.8035555555555556e-06, "loss": 0.0689, "step": 49875 }, { "epoch": 13.306666666666667, "grad_norm": 16.645023345947266, "learning_rate": 1.7991111111111113e-06, "loss": 0.0755, "step": 49900 }, { "epoch": 13.313333333333333, "grad_norm": 4.282712459564209, "learning_rate": 1.7946666666666667e-06, "loss": 0.0839, "step": 49925 }, { "epoch": 13.32, "grad_norm": 5.756045818328857, "learning_rate": 1.7902222222222224e-06, "loss": 0.0723, "step": 49950 }, { "epoch": 13.326666666666666, "grad_norm": 3.6419270038604736, "learning_rate": 1.785777777777778e-06, "loss": 0.0798, "step": 49975 }, { "epoch": 13.333333333333334, "grad_norm": 4.594815731048584, "learning_rate": 1.7813333333333336e-06, "loss": 0.0785, "step": 50000 }, { "epoch": 13.34, "grad_norm": 3.3779661655426025, "learning_rate": 1.776888888888889e-06, "loss": 0.0705, "step": 50025 }, { "epoch": 13.346666666666668, "grad_norm": 5.138673305511475, "learning_rate": 1.7724444444444448e-06, "loss": 0.0785, "step": 50050 }, { "epoch": 13.353333333333333, "grad_norm": 3.6062915325164795, "learning_rate": 1.7680000000000003e-06, "loss": 0.0776, "step": 50075 }, { "epoch": 13.36, "grad_norm": 4.437643051147461, "learning_rate": 1.7635555555555555e-06, "loss": 0.0688, "step": 50100 }, { "epoch": 13.366666666666667, "grad_norm": 3.849740505218506, "learning_rate": 1.7591111111111112e-06, "loss": 0.0736, "step": 50125 }, { "epoch": 13.373333333333333, "grad_norm": 5.022838115692139, "learning_rate": 1.7546666666666667e-06, "loss": 0.0676, "step": 50150 }, { "epoch": 13.38, "grad_norm": 4.474266529083252, "learning_rate": 1.7502222222222224e-06, "loss": 0.0765, "step": 50175 }, { "epoch": 13.386666666666667, "grad_norm": 4.083851337432861, "learning_rate": 1.7457777777777779e-06, "loss": 0.0758, "step": 50200 }, { "epoch": 13.393333333333333, "grad_norm": 5.189428329467773, "learning_rate": 1.7413333333333336e-06, "loss": 0.0682, "step": 50225 }, { "epoch": 13.4, "grad_norm": 3.807460308074951, "learning_rate": 1.736888888888889e-06, "loss": 0.0683, "step": 50250 }, { "epoch": 13.406666666666666, "grad_norm": 7.0135722160339355, "learning_rate": 1.7326222222222226e-06, "loss": 0.0694, "step": 50275 }, { "epoch": 13.413333333333334, "grad_norm": 4.803097724914551, "learning_rate": 1.7281777777777778e-06, "loss": 0.0754, "step": 50300 }, { "epoch": 13.42, "grad_norm": 4.446489334106445, "learning_rate": 1.7237333333333333e-06, "loss": 0.0729, "step": 50325 }, { "epoch": 13.426666666666666, "grad_norm": 4.843291282653809, "learning_rate": 1.719288888888889e-06, "loss": 0.0745, "step": 50350 }, { "epoch": 13.433333333333334, "grad_norm": 5.550344944000244, "learning_rate": 1.7148444444444445e-06, "loss": 0.0708, "step": 50375 }, { "epoch": 13.44, "grad_norm": 5.481566429138184, "learning_rate": 1.7104000000000002e-06, "loss": 0.0753, "step": 50400 }, { "epoch": 13.446666666666667, "grad_norm": 6.462749481201172, "learning_rate": 1.7059555555555557e-06, "loss": 0.0749, "step": 50425 }, { "epoch": 13.453333333333333, "grad_norm": 3.3947927951812744, "learning_rate": 1.7015111111111113e-06, "loss": 0.0722, "step": 50450 }, { "epoch": 13.46, "grad_norm": 5.069024085998535, "learning_rate": 1.6970666666666668e-06, "loss": 0.0731, "step": 50475 }, { "epoch": 13.466666666666667, "grad_norm": 4.766073226928711, "learning_rate": 1.6926222222222225e-06, "loss": 0.0781, "step": 50500 }, { "epoch": 13.473333333333333, "grad_norm": 4.522984504699707, "learning_rate": 1.688177777777778e-06, "loss": 0.0656, "step": 50525 }, { "epoch": 13.48, "grad_norm": 4.569211006164551, "learning_rate": 1.6837333333333337e-06, "loss": 0.0709, "step": 50550 }, { "epoch": 13.486666666666666, "grad_norm": 4.393730163574219, "learning_rate": 1.679288888888889e-06, "loss": 0.0752, "step": 50575 }, { "epoch": 13.493333333333334, "grad_norm": 5.141506671905518, "learning_rate": 1.6748444444444444e-06, "loss": 0.0764, "step": 50600 }, { "epoch": 13.5, "grad_norm": 5.949735641479492, "learning_rate": 1.6704000000000001e-06, "loss": 0.0753, "step": 50625 }, { "epoch": 13.506666666666666, "grad_norm": 4.400526523590088, "learning_rate": 1.6659555555555556e-06, "loss": 0.0699, "step": 50650 }, { "epoch": 13.513333333333334, "grad_norm": 3.5882327556610107, "learning_rate": 1.6615111111111113e-06, "loss": 0.0744, "step": 50675 }, { "epoch": 13.52, "grad_norm": 3.8289997577667236, "learning_rate": 1.6570666666666668e-06, "loss": 0.0806, "step": 50700 }, { "epoch": 13.526666666666667, "grad_norm": 5.415486812591553, "learning_rate": 1.6526222222222225e-06, "loss": 0.073, "step": 50725 }, { "epoch": 13.533333333333333, "grad_norm": 5.754875659942627, "learning_rate": 1.648177777777778e-06, "loss": 0.0682, "step": 50750 }, { "epoch": 13.54, "grad_norm": 4.864412784576416, "learning_rate": 1.6437333333333337e-06, "loss": 0.073, "step": 50775 }, { "epoch": 13.546666666666667, "grad_norm": 5.655688285827637, "learning_rate": 1.6392888888888891e-06, "loss": 0.0795, "step": 50800 }, { "epoch": 13.553333333333333, "grad_norm": 5.5406813621521, "learning_rate": 1.6348444444444444e-06, "loss": 0.0678, "step": 50825 }, { "epoch": 13.56, "grad_norm": 4.054455280303955, "learning_rate": 1.6304e-06, "loss": 0.0677, "step": 50850 }, { "epoch": 13.566666666666666, "grad_norm": 7.001787185668945, "learning_rate": 1.6259555555555556e-06, "loss": 0.0724, "step": 50875 }, { "epoch": 13.573333333333334, "grad_norm": 4.548781394958496, "learning_rate": 1.6215111111111113e-06, "loss": 0.0792, "step": 50900 }, { "epoch": 13.58, "grad_norm": 5.362614631652832, "learning_rate": 1.6170666666666667e-06, "loss": 0.0718, "step": 50925 }, { "epoch": 13.586666666666666, "grad_norm": 5.573884963989258, "learning_rate": 1.6126222222222224e-06, "loss": 0.0706, "step": 50950 }, { "epoch": 13.593333333333334, "grad_norm": 3.8761532306671143, "learning_rate": 1.608177777777778e-06, "loss": 0.0765, "step": 50975 }, { "epoch": 13.6, "grad_norm": 4.242030620574951, "learning_rate": 1.6037333333333336e-06, "loss": 0.0705, "step": 51000 }, { "epoch": 13.606666666666667, "grad_norm": 4.413914680480957, "learning_rate": 1.599288888888889e-06, "loss": 0.0754, "step": 51025 }, { "epoch": 13.613333333333333, "grad_norm": 4.841075897216797, "learning_rate": 1.5948444444444448e-06, "loss": 0.0796, "step": 51050 }, { "epoch": 13.62, "grad_norm": 6.9934210777282715, "learning_rate": 1.5904e-06, "loss": 0.0839, "step": 51075 }, { "epoch": 13.626666666666667, "grad_norm": 5.5658721923828125, "learning_rate": 1.5859555555555555e-06, "loss": 0.0788, "step": 51100 }, { "epoch": 13.633333333333333, "grad_norm": 4.997589111328125, "learning_rate": 1.5815111111111112e-06, "loss": 0.0876, "step": 51125 }, { "epoch": 13.64, "grad_norm": 4.557096004486084, "learning_rate": 1.5770666666666667e-06, "loss": 0.0789, "step": 51150 }, { "epoch": 13.646666666666667, "grad_norm": 4.078949928283691, "learning_rate": 1.5726222222222224e-06, "loss": 0.076, "step": 51175 }, { "epoch": 13.653333333333332, "grad_norm": 5.252168655395508, "learning_rate": 1.5681777777777779e-06, "loss": 0.0736, "step": 51200 }, { "epoch": 13.66, "grad_norm": 6.454425811767578, "learning_rate": 1.5637333333333336e-06, "loss": 0.0855, "step": 51225 }, { "epoch": 13.666666666666666, "grad_norm": 4.683918476104736, "learning_rate": 1.559288888888889e-06, "loss": 0.0851, "step": 51250 }, { "epoch": 13.673333333333334, "grad_norm": 4.571911811828613, "learning_rate": 1.5548444444444447e-06, "loss": 0.0747, "step": 51275 }, { "epoch": 13.68, "grad_norm": 3.8478519916534424, "learning_rate": 1.5504000000000002e-06, "loss": 0.0807, "step": 51300 }, { "epoch": 13.686666666666667, "grad_norm": 6.604455947875977, "learning_rate": 1.545955555555556e-06, "loss": 0.078, "step": 51325 }, { "epoch": 13.693333333333333, "grad_norm": 4.801009654998779, "learning_rate": 1.5415111111111112e-06, "loss": 0.0698, "step": 51350 }, { "epoch": 13.7, "grad_norm": 6.524123191833496, "learning_rate": 1.5370666666666667e-06, "loss": 0.0832, "step": 51375 }, { "epoch": 13.706666666666667, "grad_norm": 6.038280963897705, "learning_rate": 1.5326222222222224e-06, "loss": 0.0726, "step": 51400 }, { "epoch": 13.713333333333333, "grad_norm": 5.431887626647949, "learning_rate": 1.5281777777777778e-06, "loss": 0.0827, "step": 51425 }, { "epoch": 13.72, "grad_norm": 6.024564743041992, "learning_rate": 1.5237333333333335e-06, "loss": 0.074, "step": 51450 }, { "epoch": 13.726666666666667, "grad_norm": 5.318210124969482, "learning_rate": 1.519288888888889e-06, "loss": 0.0852, "step": 51475 }, { "epoch": 13.733333333333333, "grad_norm": 4.762639045715332, "learning_rate": 1.5148444444444447e-06, "loss": 0.0714, "step": 51500 }, { "epoch": 13.74, "grad_norm": 5.492698669433594, "learning_rate": 1.5104000000000002e-06, "loss": 0.0763, "step": 51525 }, { "epoch": 13.746666666666666, "grad_norm": 5.453211307525635, "learning_rate": 1.5059555555555559e-06, "loss": 0.0724, "step": 51550 }, { "epoch": 13.753333333333334, "grad_norm": 5.461216449737549, "learning_rate": 1.5015111111111114e-06, "loss": 0.0736, "step": 51575 }, { "epoch": 13.76, "grad_norm": 5.858949184417725, "learning_rate": 1.4970666666666666e-06, "loss": 0.0763, "step": 51600 }, { "epoch": 13.766666666666667, "grad_norm": 3.7733099460601807, "learning_rate": 1.4926222222222223e-06, "loss": 0.0702, "step": 51625 }, { "epoch": 13.773333333333333, "grad_norm": 5.055445194244385, "learning_rate": 1.4881777777777778e-06, "loss": 0.0734, "step": 51650 }, { "epoch": 13.78, "grad_norm": 4.995844841003418, "learning_rate": 1.4837333333333335e-06, "loss": 0.0667, "step": 51675 }, { "epoch": 13.786666666666667, "grad_norm": 5.348880767822266, "learning_rate": 1.479288888888889e-06, "loss": 0.0755, "step": 51700 }, { "epoch": 13.793333333333333, "grad_norm": 5.208152770996094, "learning_rate": 1.4748444444444447e-06, "loss": 0.0733, "step": 51725 }, { "epoch": 13.8, "grad_norm": 4.70478630065918, "learning_rate": 1.4704000000000001e-06, "loss": 0.0723, "step": 51750 }, { "epoch": 13.806666666666667, "grad_norm": 4.627460956573486, "learning_rate": 1.4659555555555558e-06, "loss": 0.0698, "step": 51775 }, { "epoch": 13.813333333333333, "grad_norm": 5.104433059692383, "learning_rate": 1.4615111111111113e-06, "loss": 0.0716, "step": 51800 }, { "epoch": 13.82, "grad_norm": 5.321831703186035, "learning_rate": 1.457066666666667e-06, "loss": 0.0753, "step": 51825 }, { "epoch": 13.826666666666666, "grad_norm": 3.5546035766601562, "learning_rate": 1.4526222222222223e-06, "loss": 0.0832, "step": 51850 }, { "epoch": 13.833333333333334, "grad_norm": 5.400938510894775, "learning_rate": 1.4481777777777778e-06, "loss": 0.0781, "step": 51875 }, { "epoch": 13.84, "grad_norm": 5.633108139038086, "learning_rate": 1.4437333333333334e-06, "loss": 0.0693, "step": 51900 }, { "epoch": 13.846666666666668, "grad_norm": 5.472427845001221, "learning_rate": 1.439288888888889e-06, "loss": 0.0729, "step": 51925 }, { "epoch": 13.853333333333333, "grad_norm": 5.6105637550354, "learning_rate": 1.4348444444444446e-06, "loss": 0.0703, "step": 51950 }, { "epoch": 13.86, "grad_norm": 5.882650375366211, "learning_rate": 1.4304e-06, "loss": 0.0731, "step": 51975 }, { "epoch": 13.866666666666667, "grad_norm": 4.3986921310424805, "learning_rate": 1.4259555555555558e-06, "loss": 0.082, "step": 52000 }, { "epoch": 13.873333333333333, "grad_norm": 4.459896087646484, "learning_rate": 1.4215111111111113e-06, "loss": 0.0767, "step": 52025 }, { "epoch": 13.88, "grad_norm": 5.145157337188721, "learning_rate": 1.417066666666667e-06, "loss": 0.0781, "step": 52050 }, { "epoch": 13.886666666666667, "grad_norm": 6.3479084968566895, "learning_rate": 1.4126222222222224e-06, "loss": 0.0783, "step": 52075 }, { "epoch": 13.893333333333333, "grad_norm": 7.261753082275391, "learning_rate": 1.4081777777777777e-06, "loss": 0.0752, "step": 52100 }, { "epoch": 13.9, "grad_norm": 3.9048378467559814, "learning_rate": 1.4037333333333334e-06, "loss": 0.0742, "step": 52125 }, { "epoch": 13.906666666666666, "grad_norm": 6.975226879119873, "learning_rate": 1.3992888888888889e-06, "loss": 0.0718, "step": 52150 }, { "epoch": 13.913333333333334, "grad_norm": 3.704474925994873, "learning_rate": 1.3948444444444446e-06, "loss": 0.0747, "step": 52175 }, { "epoch": 13.92, "grad_norm": 4.597527027130127, "learning_rate": 1.3904e-06, "loss": 0.0656, "step": 52200 }, { "epoch": 13.926666666666666, "grad_norm": 4.371330738067627, "learning_rate": 1.3859555555555558e-06, "loss": 0.0656, "step": 52225 }, { "epoch": 13.933333333333334, "grad_norm": 6.0362725257873535, "learning_rate": 1.3815111111111112e-06, "loss": 0.0827, "step": 52250 }, { "epoch": 13.94, "grad_norm": 5.935553550720215, "learning_rate": 1.377066666666667e-06, "loss": 0.0759, "step": 52275 }, { "epoch": 13.946666666666667, "grad_norm": 7.34261417388916, "learning_rate": 1.3726222222222224e-06, "loss": 0.079, "step": 52300 }, { "epoch": 13.953333333333333, "grad_norm": 3.7362871170043945, "learning_rate": 1.3681777777777779e-06, "loss": 0.0724, "step": 52325 }, { "epoch": 13.96, "grad_norm": 5.213724136352539, "learning_rate": 1.3637333333333336e-06, "loss": 0.0672, "step": 52350 }, { "epoch": 13.966666666666667, "grad_norm": 4.475199222564697, "learning_rate": 1.3592888888888888e-06, "loss": 0.0683, "step": 52375 }, { "epoch": 13.973333333333333, "grad_norm": 5.3463029861450195, "learning_rate": 1.3548444444444445e-06, "loss": 0.0815, "step": 52400 }, { "epoch": 13.98, "grad_norm": 3.803253650665283, "learning_rate": 1.3504e-06, "loss": 0.0745, "step": 52425 }, { "epoch": 13.986666666666666, "grad_norm": 3.9818623065948486, "learning_rate": 1.3459555555555557e-06, "loss": 0.0724, "step": 52450 }, { "epoch": 13.993333333333334, "grad_norm": 6.807934284210205, "learning_rate": 1.3415111111111112e-06, "loss": 0.0662, "step": 52475 }, { "epoch": 14.0, "grad_norm": 4.154113292694092, "learning_rate": 1.3370666666666669e-06, "loss": 0.0716, "step": 52500 }, { "epoch": 14.0, "eval_cer": 21.126288131487243, "eval_loss": 0.3761049509048462, "eval_runtime": 1231.2523, "eval_samples_per_second": 4.061, "eval_steps_per_second": 0.508, "step": 52500 }, { "epoch": 14.006666666666666, "grad_norm": 2.511601209640503, "learning_rate": 1.3326222222222224e-06, "loss": 0.048, "step": 52525 }, { "epoch": 14.013333333333334, "grad_norm": 4.37282657623291, "learning_rate": 1.328177777777778e-06, "loss": 0.0554, "step": 52550 }, { "epoch": 14.02, "grad_norm": 3.1976640224456787, "learning_rate": 1.3237333333333335e-06, "loss": 0.0493, "step": 52575 }, { "epoch": 14.026666666666667, "grad_norm": 3.915569543838501, "learning_rate": 1.319288888888889e-06, "loss": 0.0479, "step": 52600 }, { "epoch": 14.033333333333333, "grad_norm": 4.439314365386963, "learning_rate": 1.3148444444444445e-06, "loss": 0.0486, "step": 52625 }, { "epoch": 14.04, "grad_norm": 4.465267181396484, "learning_rate": 1.3104e-06, "loss": 0.0484, "step": 52650 }, { "epoch": 14.046666666666667, "grad_norm": 3.871236562728882, "learning_rate": 1.3059555555555557e-06, "loss": 0.0561, "step": 52675 }, { "epoch": 14.053333333333333, "grad_norm": 2.7384116649627686, "learning_rate": 1.3015111111111112e-06, "loss": 0.0494, "step": 52700 }, { "epoch": 14.06, "grad_norm": 4.386533737182617, "learning_rate": 1.2970666666666668e-06, "loss": 0.0458, "step": 52725 }, { "epoch": 14.066666666666666, "grad_norm": 3.547750473022461, "learning_rate": 1.2926222222222223e-06, "loss": 0.045, "step": 52750 }, { "epoch": 14.073333333333334, "grad_norm": 5.4930853843688965, "learning_rate": 1.288177777777778e-06, "loss": 0.0467, "step": 52775 }, { "epoch": 14.08, "grad_norm": 4.281717777252197, "learning_rate": 1.2837333333333335e-06, "loss": 0.0543, "step": 52800 }, { "epoch": 14.086666666666666, "grad_norm": 3.261850595474243, "learning_rate": 1.279288888888889e-06, "loss": 0.0506, "step": 52825 }, { "epoch": 14.093333333333334, "grad_norm": 3.276442050933838, "learning_rate": 1.2748444444444447e-06, "loss": 0.0503, "step": 52850 }, { "epoch": 14.1, "grad_norm": 4.682911396026611, "learning_rate": 1.2704e-06, "loss": 0.0586, "step": 52875 }, { "epoch": 14.106666666666667, "grad_norm": 6.137394905090332, "learning_rate": 1.2659555555555556e-06, "loss": 0.0504, "step": 52900 }, { "epoch": 14.113333333333333, "grad_norm": 3.387152910232544, "learning_rate": 1.2615111111111111e-06, "loss": 0.054, "step": 52925 }, { "epoch": 14.12, "grad_norm": 4.370669841766357, "learning_rate": 1.2570666666666668e-06, "loss": 0.0504, "step": 52950 }, { "epoch": 14.126666666666667, "grad_norm": 3.4092986583709717, "learning_rate": 1.2526222222222223e-06, "loss": 0.049, "step": 52975 }, { "epoch": 14.133333333333333, "grad_norm": 4.103923797607422, "learning_rate": 1.248177777777778e-06, "loss": 0.0523, "step": 53000 }, { "epoch": 14.14, "grad_norm": 5.404548645019531, "learning_rate": 1.2437333333333335e-06, "loss": 0.0543, "step": 53025 }, { "epoch": 14.146666666666667, "grad_norm": 6.26508903503418, "learning_rate": 1.239288888888889e-06, "loss": 0.0499, "step": 53050 }, { "epoch": 14.153333333333332, "grad_norm": 3.175922393798828, "learning_rate": 1.2348444444444444e-06, "loss": 0.0562, "step": 53075 }, { "epoch": 14.16, "grad_norm": 3.7458386421203613, "learning_rate": 1.2304000000000001e-06, "loss": 0.0479, "step": 53100 }, { "epoch": 14.166666666666666, "grad_norm": 5.165560722351074, "learning_rate": 1.2259555555555556e-06, "loss": 0.0517, "step": 53125 }, { "epoch": 14.173333333333334, "grad_norm": 3.5799591541290283, "learning_rate": 1.2215111111111113e-06, "loss": 0.05, "step": 53150 }, { "epoch": 14.18, "grad_norm": 2.709050416946411, "learning_rate": 1.2170666666666668e-06, "loss": 0.049, "step": 53175 }, { "epoch": 14.186666666666667, "grad_norm": 4.002528667449951, "learning_rate": 1.2126222222222222e-06, "loss": 0.0531, "step": 53200 }, { "epoch": 14.193333333333333, "grad_norm": 2.38199520111084, "learning_rate": 1.208177777777778e-06, "loss": 0.0493, "step": 53225 }, { "epoch": 14.2, "grad_norm": 4.183856964111328, "learning_rate": 1.2037333333333334e-06, "loss": 0.052, "step": 53250 }, { "epoch": 14.206666666666667, "grad_norm": 3.8171675205230713, "learning_rate": 1.199288888888889e-06, "loss": 0.0556, "step": 53275 }, { "epoch": 14.213333333333333, "grad_norm": 4.330394744873047, "learning_rate": 1.1948444444444446e-06, "loss": 0.055, "step": 53300 }, { "epoch": 14.22, "grad_norm": 4.10926628112793, "learning_rate": 1.1904e-06, "loss": 0.0497, "step": 53325 }, { "epoch": 14.226666666666667, "grad_norm": 4.827149868011475, "learning_rate": 1.1859555555555556e-06, "loss": 0.0459, "step": 53350 }, { "epoch": 14.233333333333333, "grad_norm": 3.9351627826690674, "learning_rate": 1.1815111111111112e-06, "loss": 0.0546, "step": 53375 }, { "epoch": 14.24, "grad_norm": 3.7546730041503906, "learning_rate": 1.1770666666666667e-06, "loss": 0.0559, "step": 53400 }, { "epoch": 14.246666666666666, "grad_norm": 3.5639142990112305, "learning_rate": 1.1726222222222224e-06, "loss": 0.0439, "step": 53425 }, { "epoch": 14.253333333333334, "grad_norm": 4.376165390014648, "learning_rate": 1.168177777777778e-06, "loss": 0.0521, "step": 53450 }, { "epoch": 14.26, "grad_norm": 3.6240880489349365, "learning_rate": 1.1637333333333334e-06, "loss": 0.0516, "step": 53475 }, { "epoch": 14.266666666666667, "grad_norm": 5.383458614349365, "learning_rate": 1.1592888888888889e-06, "loss": 0.0491, "step": 53500 }, { "epoch": 14.273333333333333, "grad_norm": 3.4979617595672607, "learning_rate": 1.1548444444444446e-06, "loss": 0.0453, "step": 53525 }, { "epoch": 14.28, "grad_norm": 4.769947052001953, "learning_rate": 1.1504e-06, "loss": 0.0424, "step": 53550 }, { "epoch": 14.286666666666667, "grad_norm": 4.069387912750244, "learning_rate": 1.1459555555555557e-06, "loss": 0.049, "step": 53575 }, { "epoch": 14.293333333333333, "grad_norm": 3.9347150325775146, "learning_rate": 1.1415111111111112e-06, "loss": 0.047, "step": 53600 }, { "epoch": 14.3, "grad_norm": 3.5731167793273926, "learning_rate": 1.1370666666666667e-06, "loss": 0.049, "step": 53625 }, { "epoch": 14.306666666666667, "grad_norm": 3.5513360500335693, "learning_rate": 1.1326222222222224e-06, "loss": 0.0535, "step": 53650 }, { "epoch": 14.313333333333333, "grad_norm": 4.981029033660889, "learning_rate": 1.1281777777777779e-06, "loss": 0.0461, "step": 53675 }, { "epoch": 14.32, "grad_norm": 3.597111701965332, "learning_rate": 1.1237333333333335e-06, "loss": 0.0517, "step": 53700 }, { "epoch": 14.326666666666666, "grad_norm": 4.880976676940918, "learning_rate": 1.119288888888889e-06, "loss": 0.0468, "step": 53725 }, { "epoch": 14.333333333333334, "grad_norm": 4.088090419769287, "learning_rate": 1.1148444444444445e-06, "loss": 0.0519, "step": 53750 }, { "epoch": 14.34, "grad_norm": 3.2150065898895264, "learning_rate": 1.1104e-06, "loss": 0.0531, "step": 53775 }, { "epoch": 14.346666666666668, "grad_norm": 2.6329903602600098, "learning_rate": 1.1059555555555557e-06, "loss": 0.0512, "step": 53800 }, { "epoch": 14.353333333333333, "grad_norm": 5.744917869567871, "learning_rate": 1.1015111111111112e-06, "loss": 0.0493, "step": 53825 }, { "epoch": 14.36, "grad_norm": 4.317261695861816, "learning_rate": 1.0970666666666666e-06, "loss": 0.0547, "step": 53850 }, { "epoch": 14.366666666666667, "grad_norm": 2.9774224758148193, "learning_rate": 1.0926222222222223e-06, "loss": 0.0486, "step": 53875 }, { "epoch": 14.373333333333333, "grad_norm": 3.343986988067627, "learning_rate": 1.0881777777777778e-06, "loss": 0.0476, "step": 53900 }, { "epoch": 14.38, "grad_norm": 5.955545902252197, "learning_rate": 1.0837333333333335e-06, "loss": 0.0498, "step": 53925 }, { "epoch": 14.386666666666667, "grad_norm": 3.4925169944763184, "learning_rate": 1.079288888888889e-06, "loss": 0.0525, "step": 53950 }, { "epoch": 14.393333333333333, "grad_norm": 3.1490190029144287, "learning_rate": 1.0748444444444445e-06, "loss": 0.0577, "step": 53975 }, { "epoch": 14.4, "grad_norm": 3.9418387413024902, "learning_rate": 1.0704e-06, "loss": 0.0498, "step": 54000 }, { "epoch": 14.406666666666666, "grad_norm": 3.7234323024749756, "learning_rate": 1.0659555555555556e-06, "loss": 0.0551, "step": 54025 }, { "epoch": 14.413333333333334, "grad_norm": 4.227156639099121, "learning_rate": 1.0615111111111111e-06, "loss": 0.0533, "step": 54050 }, { "epoch": 14.42, "grad_norm": 3.598093271255493, "learning_rate": 1.0570666666666668e-06, "loss": 0.0549, "step": 54075 }, { "epoch": 14.426666666666666, "grad_norm": 4.07535457611084, "learning_rate": 1.0526222222222223e-06, "loss": 0.0588, "step": 54100 }, { "epoch": 14.433333333333334, "grad_norm": 3.258436441421509, "learning_rate": 1.0481777777777778e-06, "loss": 0.0617, "step": 54125 }, { "epoch": 14.44, "grad_norm": 1.908854603767395, "learning_rate": 1.0437333333333335e-06, "loss": 0.0483, "step": 54150 }, { "epoch": 14.446666666666667, "grad_norm": 3.9834799766540527, "learning_rate": 1.039288888888889e-06, "loss": 0.05, "step": 54175 }, { "epoch": 14.453333333333333, "grad_norm": 4.584743499755859, "learning_rate": 1.0348444444444446e-06, "loss": 0.0611, "step": 54200 }, { "epoch": 14.46, "grad_norm": 4.237573146820068, "learning_rate": 1.0304000000000001e-06, "loss": 0.0518, "step": 54225 }, { "epoch": 14.466666666666667, "grad_norm": 3.4706881046295166, "learning_rate": 1.0259555555555556e-06, "loss": 0.052, "step": 54250 }, { "epoch": 14.473333333333333, "grad_norm": 3.947627067565918, "learning_rate": 1.021511111111111e-06, "loss": 0.0466, "step": 54275 }, { "epoch": 14.48, "grad_norm": 3.0643858909606934, "learning_rate": 1.0170666666666668e-06, "loss": 0.0441, "step": 54300 }, { "epoch": 14.486666666666666, "grad_norm": 2.669238567352295, "learning_rate": 1.0126222222222223e-06, "loss": 0.0508, "step": 54325 }, { "epoch": 14.493333333333334, "grad_norm": 5.497490882873535, "learning_rate": 1.008177777777778e-06, "loss": 0.0481, "step": 54350 }, { "epoch": 14.5, "grad_norm": 4.581981658935547, "learning_rate": 1.0037333333333334e-06, "loss": 0.0451, "step": 54375 }, { "epoch": 14.506666666666666, "grad_norm": 4.398919105529785, "learning_rate": 9.99288888888889e-07, "loss": 0.0609, "step": 54400 }, { "epoch": 14.513333333333334, "grad_norm": 3.6276612281799316, "learning_rate": 9.948444444444446e-07, "loss": 0.0481, "step": 54425 }, { "epoch": 14.52, "grad_norm": 3.4535512924194336, "learning_rate": 9.904e-07, "loss": 0.0469, "step": 54450 }, { "epoch": 14.526666666666667, "grad_norm": 4.12789249420166, "learning_rate": 9.861333333333334e-07, "loss": 0.0546, "step": 54475 }, { "epoch": 14.533333333333333, "grad_norm": 2.7449920177459717, "learning_rate": 9.81688888888889e-07, "loss": 0.048, "step": 54500 }, { "epoch": 14.54, "grad_norm": 6.136411190032959, "learning_rate": 9.772444444444445e-07, "loss": 0.0537, "step": 54525 }, { "epoch": 14.546666666666667, "grad_norm": 5.178431987762451, "learning_rate": 9.728e-07, "loss": 0.0459, "step": 54550 }, { "epoch": 14.553333333333333, "grad_norm": 2.6209218502044678, "learning_rate": 9.683555555555555e-07, "loss": 0.0475, "step": 54575 }, { "epoch": 14.56, "grad_norm": 4.398605823516846, "learning_rate": 9.639111111111112e-07, "loss": 0.0545, "step": 54600 }, { "epoch": 14.566666666666666, "grad_norm": 3.6953680515289307, "learning_rate": 9.594666666666667e-07, "loss": 0.0499, "step": 54625 }, { "epoch": 14.573333333333334, "grad_norm": 4.473062038421631, "learning_rate": 9.550222222222224e-07, "loss": 0.0596, "step": 54650 }, { "epoch": 14.58, "grad_norm": 3.745427131652832, "learning_rate": 9.505777777777779e-07, "loss": 0.048, "step": 54675 }, { "epoch": 14.586666666666666, "grad_norm": 4.922022819519043, "learning_rate": 9.461333333333333e-07, "loss": 0.0561, "step": 54700 }, { "epoch": 14.593333333333334, "grad_norm": 3.210239887237549, "learning_rate": 9.416888888888889e-07, "loss": 0.0495, "step": 54725 }, { "epoch": 14.6, "grad_norm": 4.6359992027282715, "learning_rate": 9.372444444444445e-07, "loss": 0.0522, "step": 54750 }, { "epoch": 14.606666666666667, "grad_norm": 3.23698353767395, "learning_rate": 9.328000000000001e-07, "loss": 0.0503, "step": 54775 }, { "epoch": 14.613333333333333, "grad_norm": 4.698474407196045, "learning_rate": 9.283555555555557e-07, "loss": 0.0527, "step": 54800 }, { "epoch": 14.62, "grad_norm": 4.001100540161133, "learning_rate": 9.239111111111112e-07, "loss": 0.0473, "step": 54825 }, { "epoch": 14.626666666666667, "grad_norm": 4.27857780456543, "learning_rate": 9.194666666666667e-07, "loss": 0.0486, "step": 54850 }, { "epoch": 14.633333333333333, "grad_norm": 3.206892967224121, "learning_rate": 9.150222222222223e-07, "loss": 0.0499, "step": 54875 }, { "epoch": 14.64, "grad_norm": 4.4712677001953125, "learning_rate": 9.105777777777778e-07, "loss": 0.0508, "step": 54900 }, { "epoch": 14.646666666666667, "grad_norm": 4.528389930725098, "learning_rate": 9.061333333333334e-07, "loss": 0.0551, "step": 54925 }, { "epoch": 14.653333333333332, "grad_norm": 4.706644535064697, "learning_rate": 9.01688888888889e-07, "loss": 0.0561, "step": 54950 }, { "epoch": 14.66, "grad_norm": 5.914303779602051, "learning_rate": 8.972444444444445e-07, "loss": 0.0465, "step": 54975 }, { "epoch": 14.666666666666666, "grad_norm": 4.699190616607666, "learning_rate": 8.928000000000001e-07, "loss": 0.0518, "step": 55000 }, { "epoch": 14.673333333333334, "grad_norm": 3.036041259765625, "learning_rate": 8.883555555555556e-07, "loss": 0.0448, "step": 55025 }, { "epoch": 14.68, "grad_norm": 3.7143850326538086, "learning_rate": 8.839111111111112e-07, "loss": 0.0472, "step": 55050 }, { "epoch": 14.686666666666667, "grad_norm": 5.02278470993042, "learning_rate": 8.794666666666668e-07, "loss": 0.0522, "step": 55075 }, { "epoch": 14.693333333333333, "grad_norm": 3.3270909786224365, "learning_rate": 8.750222222222223e-07, "loss": 0.0493, "step": 55100 }, { "epoch": 14.7, "grad_norm": 4.276947975158691, "learning_rate": 8.705777777777779e-07, "loss": 0.046, "step": 55125 }, { "epoch": 14.706666666666667, "grad_norm": 2.790639638900757, "learning_rate": 8.661333333333334e-07, "loss": 0.0539, "step": 55150 }, { "epoch": 14.713333333333333, "grad_norm": 2.523202419281006, "learning_rate": 8.616888888888889e-07, "loss": 0.0567, "step": 55175 }, { "epoch": 14.72, "grad_norm": 4.1561126708984375, "learning_rate": 8.572444444444445e-07, "loss": 0.0487, "step": 55200 }, { "epoch": 14.726666666666667, "grad_norm": 6.204878807067871, "learning_rate": 8.528e-07, "loss": 0.0449, "step": 55225 }, { "epoch": 14.733333333333333, "grad_norm": 2.5746982097625732, "learning_rate": 8.483555555555556e-07, "loss": 0.0528, "step": 55250 }, { "epoch": 14.74, "grad_norm": 3.893643856048584, "learning_rate": 8.439111111111112e-07, "loss": 0.051, "step": 55275 }, { "epoch": 14.746666666666666, "grad_norm": 3.1998512744903564, "learning_rate": 8.394666666666668e-07, "loss": 0.047, "step": 55300 }, { "epoch": 14.753333333333334, "grad_norm": 3.3848798274993896, "learning_rate": 8.350222222222224e-07, "loss": 0.0439, "step": 55325 }, { "epoch": 14.76, "grad_norm": 2.4238150119781494, "learning_rate": 8.305777777777778e-07, "loss": 0.0511, "step": 55350 }, { "epoch": 14.766666666666667, "grad_norm": 3.8833956718444824, "learning_rate": 8.261333333333333e-07, "loss": 0.0511, "step": 55375 }, { "epoch": 14.773333333333333, "grad_norm": 2.1876776218414307, "learning_rate": 8.216888888888889e-07, "loss": 0.0502, "step": 55400 }, { "epoch": 14.78, "grad_norm": 3.353861093521118, "learning_rate": 8.172444444444445e-07, "loss": 0.0498, "step": 55425 }, { "epoch": 14.786666666666667, "grad_norm": 4.793560028076172, "learning_rate": 8.128000000000001e-07, "loss": 0.0478, "step": 55450 }, { "epoch": 14.793333333333333, "grad_norm": 3.017418146133423, "learning_rate": 8.083555555555556e-07, "loss": 0.0531, "step": 55475 }, { "epoch": 14.8, "grad_norm": 4.54094123840332, "learning_rate": 8.039111111111111e-07, "loss": 0.0481, "step": 55500 }, { "epoch": 14.806666666666667, "grad_norm": 4.010063648223877, "learning_rate": 7.994666666666667e-07, "loss": 0.0476, "step": 55525 }, { "epoch": 14.813333333333333, "grad_norm": 3.588308095932007, "learning_rate": 7.950222222222223e-07, "loss": 0.0513, "step": 55550 }, { "epoch": 14.82, "grad_norm": 3.695631504058838, "learning_rate": 7.905777777777779e-07, "loss": 0.0485, "step": 55575 }, { "epoch": 14.826666666666666, "grad_norm": 3.524763584136963, "learning_rate": 7.861333333333333e-07, "loss": 0.045, "step": 55600 }, { "epoch": 14.833333333333334, "grad_norm": 3.0630452632904053, "learning_rate": 7.816888888888889e-07, "loss": 0.0462, "step": 55625 }, { "epoch": 14.84, "grad_norm": 3.2019824981689453, "learning_rate": 7.772444444444445e-07, "loss": 0.0537, "step": 55650 }, { "epoch": 14.846666666666668, "grad_norm": 4.231189250946045, "learning_rate": 7.728e-07, "loss": 0.0469, "step": 55675 }, { "epoch": 14.853333333333333, "grad_norm": 4.678059101104736, "learning_rate": 7.683555555555556e-07, "loss": 0.0528, "step": 55700 }, { "epoch": 14.86, "grad_norm": 5.045527935028076, "learning_rate": 7.639111111111112e-07, "loss": 0.0547, "step": 55725 }, { "epoch": 14.866666666666667, "grad_norm": 3.8671278953552246, "learning_rate": 7.594666666666667e-07, "loss": 0.0509, "step": 55750 }, { "epoch": 14.873333333333333, "grad_norm": 3.0082952976226807, "learning_rate": 7.550222222222223e-07, "loss": 0.0443, "step": 55775 }, { "epoch": 14.88, "grad_norm": 2.718233823776245, "learning_rate": 7.505777777777779e-07, "loss": 0.0517, "step": 55800 }, { "epoch": 14.886666666666667, "grad_norm": 4.321046829223633, "learning_rate": 7.461333333333335e-07, "loss": 0.0497, "step": 55825 }, { "epoch": 14.893333333333333, "grad_norm": 4.6865434646606445, "learning_rate": 7.41688888888889e-07, "loss": 0.0497, "step": 55850 }, { "epoch": 14.9, "grad_norm": 2.637352466583252, "learning_rate": 7.372444444444444e-07, "loss": 0.0522, "step": 55875 }, { "epoch": 14.906666666666666, "grad_norm": 6.383835792541504, "learning_rate": 7.328e-07, "loss": 0.06, "step": 55900 }, { "epoch": 14.913333333333334, "grad_norm": 5.151569843292236, "learning_rate": 7.283555555555556e-07, "loss": 0.0496, "step": 55925 }, { "epoch": 14.92, "grad_norm": 3.0789265632629395, "learning_rate": 7.239111111111112e-07, "loss": 0.0479, "step": 55950 }, { "epoch": 14.926666666666666, "grad_norm": 3.3531296253204346, "learning_rate": 7.194666666666668e-07, "loss": 0.0423, "step": 55975 }, { "epoch": 14.933333333333334, "grad_norm": 4.941739082336426, "learning_rate": 7.150222222222222e-07, "loss": 0.0516, "step": 56000 }, { "epoch": 14.94, "grad_norm": 4.100013256072998, "learning_rate": 7.105777777777778e-07, "loss": 0.0538, "step": 56025 }, { "epoch": 14.946666666666667, "grad_norm": 2.654566764831543, "learning_rate": 7.061333333333334e-07, "loss": 0.049, "step": 56050 }, { "epoch": 14.953333333333333, "grad_norm": 5.69033670425415, "learning_rate": 7.01688888888889e-07, "loss": 0.0502, "step": 56075 }, { "epoch": 14.96, "grad_norm": 4.089710235595703, "learning_rate": 6.972444444444446e-07, "loss": 0.0485, "step": 56100 }, { "epoch": 14.966666666666667, "grad_norm": 5.177222728729248, "learning_rate": 6.928e-07, "loss": 0.045, "step": 56125 }, { "epoch": 14.973333333333333, "grad_norm": 3.208003282546997, "learning_rate": 6.883555555555555e-07, "loss": 0.049, "step": 56150 }, { "epoch": 14.98, "grad_norm": 4.124612808227539, "learning_rate": 6.839111111111111e-07, "loss": 0.0535, "step": 56175 }, { "epoch": 14.986666666666666, "grad_norm": 4.6906208992004395, "learning_rate": 6.794666666666667e-07, "loss": 0.0534, "step": 56200 }, { "epoch": 14.993333333333334, "grad_norm": 4.804418087005615, "learning_rate": 6.750222222222223e-07, "loss": 0.0587, "step": 56225 }, { "epoch": 15.0, "grad_norm": 3.7263681888580322, "learning_rate": 6.705777777777778e-07, "loss": 0.052, "step": 56250 }, { "epoch": 15.0, "eval_cer": 21.182192572163316, "eval_loss": 0.3802435100078583, "eval_runtime": 1285.9976, "eval_samples_per_second": 3.888, "eval_steps_per_second": 0.486, "step": 56250 }, { "epoch": 15.006666666666666, "grad_norm": 1.838929533958435, "learning_rate": 6.661333333333334e-07, "loss": 0.0307, "step": 56275 }, { "epoch": 15.013333333333334, "grad_norm": 1.9618338346481323, "learning_rate": 6.61688888888889e-07, "loss": 0.0386, "step": 56300 }, { "epoch": 15.02, "grad_norm": 3.0752675533294678, "learning_rate": 6.572444444444445e-07, "loss": 0.0392, "step": 56325 }, { "epoch": 15.026666666666667, "grad_norm": 2.691783905029297, "learning_rate": 6.528000000000001e-07, "loss": 0.0413, "step": 56350 }, { "epoch": 15.033333333333333, "grad_norm": 2.8088836669921875, "learning_rate": 6.483555555555555e-07, "loss": 0.0375, "step": 56375 }, { "epoch": 15.04, "grad_norm": 3.7183916568756104, "learning_rate": 6.439111111111111e-07, "loss": 0.0366, "step": 56400 }, { "epoch": 15.046666666666667, "grad_norm": 3.9821486473083496, "learning_rate": 6.394666666666667e-07, "loss": 0.0349, "step": 56425 }, { "epoch": 15.053333333333333, "grad_norm": 3.8157825469970703, "learning_rate": 6.350222222222223e-07, "loss": 0.034, "step": 56450 }, { "epoch": 15.06, "grad_norm": 3.0053462982177734, "learning_rate": 6.305777777777778e-07, "loss": 0.0352, "step": 56475 }, { "epoch": 15.066666666666666, "grad_norm": 2.731395721435547, "learning_rate": 6.261333333333333e-07, "loss": 0.0325, "step": 56500 }, { "epoch": 15.073333333333334, "grad_norm": 3.052091360092163, "learning_rate": 6.216888888888889e-07, "loss": 0.0389, "step": 56525 }, { "epoch": 15.08, "grad_norm": 2.358778476715088, "learning_rate": 6.172444444444445e-07, "loss": 0.0343, "step": 56550 }, { "epoch": 15.086666666666666, "grad_norm": 2.469191551208496, "learning_rate": 6.128000000000001e-07, "loss": 0.0348, "step": 56575 }, { "epoch": 15.093333333333334, "grad_norm": 3.969801902770996, "learning_rate": 6.083555555555556e-07, "loss": 0.0338, "step": 56600 }, { "epoch": 15.1, "grad_norm": 3.5160794258117676, "learning_rate": 6.04088888888889e-07, "loss": 0.0351, "step": 56625 }, { "epoch": 15.106666666666667, "grad_norm": 2.6702451705932617, "learning_rate": 5.996444444444444e-07, "loss": 0.0386, "step": 56650 }, { "epoch": 15.113333333333333, "grad_norm": 3.524094581604004, "learning_rate": 5.952e-07, "loss": 0.0387, "step": 56675 }, { "epoch": 15.12, "grad_norm": 3.372159481048584, "learning_rate": 5.907555555555556e-07, "loss": 0.0454, "step": 56700 }, { "epoch": 15.126666666666667, "grad_norm": 3.5445916652679443, "learning_rate": 5.863111111111112e-07, "loss": 0.0401, "step": 56725 }, { "epoch": 15.133333333333333, "grad_norm": 2.9958269596099854, "learning_rate": 5.818666666666667e-07, "loss": 0.0444, "step": 56750 }, { "epoch": 15.14, "grad_norm": 4.554872512817383, "learning_rate": 5.774222222222223e-07, "loss": 0.0369, "step": 56775 }, { "epoch": 15.146666666666667, "grad_norm": 2.3896119594573975, "learning_rate": 5.729777777777779e-07, "loss": 0.0347, "step": 56800 }, { "epoch": 15.153333333333332, "grad_norm": 3.3367373943328857, "learning_rate": 5.685333333333333e-07, "loss": 0.0357, "step": 56825 }, { "epoch": 15.16, "grad_norm": 2.996647596359253, "learning_rate": 5.640888888888889e-07, "loss": 0.0385, "step": 56850 }, { "epoch": 15.166666666666666, "grad_norm": 2.599026918411255, "learning_rate": 5.596444444444445e-07, "loss": 0.0338, "step": 56875 }, { "epoch": 15.173333333333334, "grad_norm": 3.295255661010742, "learning_rate": 5.552e-07, "loss": 0.039, "step": 56900 }, { "epoch": 15.18, "grad_norm": 3.190220594406128, "learning_rate": 5.507555555555556e-07, "loss": 0.0362, "step": 56925 }, { "epoch": 15.186666666666667, "grad_norm": 3.2409563064575195, "learning_rate": 5.463111111111112e-07, "loss": 0.034, "step": 56950 }, { "epoch": 15.193333333333333, "grad_norm": 5.110193252563477, "learning_rate": 5.418666666666668e-07, "loss": 0.0417, "step": 56975 }, { "epoch": 15.2, "grad_norm": 3.605032205581665, "learning_rate": 5.374222222222222e-07, "loss": 0.0417, "step": 57000 }, { "epoch": 15.206666666666667, "grad_norm": 2.6368558406829834, "learning_rate": 5.329777777777778e-07, "loss": 0.0429, "step": 57025 }, { "epoch": 15.213333333333333, "grad_norm": 2.783950090408325, "learning_rate": 5.285333333333334e-07, "loss": 0.0353, "step": 57050 }, { "epoch": 15.22, "grad_norm": 3.500230550765991, "learning_rate": 5.240888888888889e-07, "loss": 0.0415, "step": 57075 }, { "epoch": 15.226666666666667, "grad_norm": 2.3080856800079346, "learning_rate": 5.196444444444445e-07, "loss": 0.0411, "step": 57100 }, { "epoch": 15.233333333333333, "grad_norm": 2.2162585258483887, "learning_rate": 5.152000000000001e-07, "loss": 0.0378, "step": 57125 }, { "epoch": 15.24, "grad_norm": 3.035564661026001, "learning_rate": 5.107555555555555e-07, "loss": 0.0401, "step": 57150 }, { "epoch": 15.246666666666666, "grad_norm": 2.7669639587402344, "learning_rate": 5.063111111111111e-07, "loss": 0.0353, "step": 57175 }, { "epoch": 15.253333333333334, "grad_norm": 3.5300302505493164, "learning_rate": 5.018666666666667e-07, "loss": 0.0382, "step": 57200 }, { "epoch": 15.26, "grad_norm": 2.900111198425293, "learning_rate": 4.974222222222223e-07, "loss": 0.0336, "step": 57225 }, { "epoch": 15.266666666666667, "grad_norm": 3.187019109725952, "learning_rate": 4.929777777777779e-07, "loss": 0.0372, "step": 57250 }, { "epoch": 15.273333333333333, "grad_norm": 2.764500856399536, "learning_rate": 4.885333333333334e-07, "loss": 0.0388, "step": 57275 }, { "epoch": 15.28, "grad_norm": 3.1630499362945557, "learning_rate": 4.84088888888889e-07, "loss": 0.0358, "step": 57300 }, { "epoch": 15.286666666666667, "grad_norm": 5.675130844116211, "learning_rate": 4.796444444444444e-07, "loss": 0.0446, "step": 57325 }, { "epoch": 15.293333333333333, "grad_norm": 3.349416732788086, "learning_rate": 4.752e-07, "loss": 0.0341, "step": 57350 }, { "epoch": 15.3, "grad_norm": 3.169968843460083, "learning_rate": 4.707555555555556e-07, "loss": 0.037, "step": 57375 }, { "epoch": 15.306666666666667, "grad_norm": 4.1329569816589355, "learning_rate": 4.6631111111111114e-07, "loss": 0.035, "step": 57400 }, { "epoch": 15.313333333333333, "grad_norm": 3.9645655155181885, "learning_rate": 4.618666666666667e-07, "loss": 0.0322, "step": 57425 }, { "epoch": 15.32, "grad_norm": 2.657388925552368, "learning_rate": 4.574222222222222e-07, "loss": 0.0384, "step": 57450 }, { "epoch": 15.326666666666666, "grad_norm": 3.0640854835510254, "learning_rate": 4.529777777777778e-07, "loss": 0.0326, "step": 57475 }, { "epoch": 15.333333333333334, "grad_norm": 1.9626290798187256, "learning_rate": 4.485333333333334e-07, "loss": 0.0343, "step": 57500 }, { "epoch": 15.34, "grad_norm": 1.908691167831421, "learning_rate": 4.440888888888889e-07, "loss": 0.0413, "step": 57525 }, { "epoch": 15.346666666666668, "grad_norm": 2.651705026626587, "learning_rate": 4.396444444444445e-07, "loss": 0.0415, "step": 57550 }, { "epoch": 15.353333333333333, "grad_norm": 3.378845453262329, "learning_rate": 4.352000000000001e-07, "loss": 0.0423, "step": 57575 }, { "epoch": 15.36, "grad_norm": 2.521993398666382, "learning_rate": 4.3075555555555557e-07, "loss": 0.0385, "step": 57600 }, { "epoch": 15.366666666666667, "grad_norm": 4.695323467254639, "learning_rate": 4.2631111111111115e-07, "loss": 0.0409, "step": 57625 }, { "epoch": 15.373333333333333, "grad_norm": 2.082139730453491, "learning_rate": 4.218666666666667e-07, "loss": 0.0365, "step": 57650 }, { "epoch": 15.38, "grad_norm": 3.0150341987609863, "learning_rate": 4.1742222222222227e-07, "loss": 0.0401, "step": 57675 }, { "epoch": 15.386666666666667, "grad_norm": 2.8115482330322266, "learning_rate": 4.1297777777777786e-07, "loss": 0.0349, "step": 57700 }, { "epoch": 15.393333333333333, "grad_norm": 3.0568573474884033, "learning_rate": 4.0853333333333334e-07, "loss": 0.0313, "step": 57725 }, { "epoch": 15.4, "grad_norm": 2.1599583625793457, "learning_rate": 4.040888888888889e-07, "loss": 0.0332, "step": 57750 }, { "epoch": 15.406666666666666, "grad_norm": 4.2348175048828125, "learning_rate": 3.9964444444444446e-07, "loss": 0.0389, "step": 57775 }, { "epoch": 15.413333333333334, "grad_norm": 3.0446994304656982, "learning_rate": 3.9520000000000004e-07, "loss": 0.0395, "step": 57800 }, { "epoch": 15.42, "grad_norm": 3.0902209281921387, "learning_rate": 3.9075555555555563e-07, "loss": 0.0387, "step": 57825 }, { "epoch": 15.426666666666666, "grad_norm": 3.263892412185669, "learning_rate": 3.863111111111111e-07, "loss": 0.0472, "step": 57850 }, { "epoch": 15.433333333333334, "grad_norm": 3.7055680751800537, "learning_rate": 3.818666666666667e-07, "loss": 0.0343, "step": 57875 }, { "epoch": 15.44, "grad_norm": 4.108326435089111, "learning_rate": 3.774222222222223e-07, "loss": 0.0399, "step": 57900 }, { "epoch": 15.446666666666667, "grad_norm": 3.4727985858917236, "learning_rate": 3.729777777777778e-07, "loss": 0.0372, "step": 57925 }, { "epoch": 15.453333333333333, "grad_norm": 3.0012502670288086, "learning_rate": 3.685333333333334e-07, "loss": 0.0317, "step": 57950 }, { "epoch": 15.46, "grad_norm": 3.411458969116211, "learning_rate": 3.640888888888889e-07, "loss": 0.0372, "step": 57975 }, { "epoch": 15.466666666666667, "grad_norm": 3.2532289028167725, "learning_rate": 3.5964444444444447e-07, "loss": 0.0341, "step": 58000 }, { "epoch": 15.473333333333333, "grad_norm": 2.243187189102173, "learning_rate": 3.5520000000000006e-07, "loss": 0.0357, "step": 58025 }, { "epoch": 15.48, "grad_norm": 2.780473470687866, "learning_rate": 3.507555555555556e-07, "loss": 0.0392, "step": 58050 }, { "epoch": 15.486666666666666, "grad_norm": 2.5097646713256836, "learning_rate": 3.463111111111112e-07, "loss": 0.0408, "step": 58075 }, { "epoch": 15.493333333333334, "grad_norm": 2.0093581676483154, "learning_rate": 3.4186666666666666e-07, "loss": 0.0348, "step": 58100 }, { "epoch": 15.5, "grad_norm": 3.888518810272217, "learning_rate": 3.3742222222222224e-07, "loss": 0.0361, "step": 58125 }, { "epoch": 15.506666666666666, "grad_norm": 3.7178258895874023, "learning_rate": 3.3297777777777783e-07, "loss": 0.0407, "step": 58150 }, { "epoch": 15.513333333333334, "grad_norm": 1.5835930109024048, "learning_rate": 3.2853333333333336e-07, "loss": 0.036, "step": 58175 }, { "epoch": 15.52, "grad_norm": 3.087141990661621, "learning_rate": 3.2408888888888895e-07, "loss": 0.0397, "step": 58200 }, { "epoch": 15.526666666666667, "grad_norm": 3.023496389389038, "learning_rate": 3.1964444444444443e-07, "loss": 0.0325, "step": 58225 }, { "epoch": 15.533333333333333, "grad_norm": 3.0285911560058594, "learning_rate": 3.152e-07, "loss": 0.0426, "step": 58250 }, { "epoch": 15.54, "grad_norm": 2.8964972496032715, "learning_rate": 3.1075555555555555e-07, "loss": 0.0342, "step": 58275 }, { "epoch": 15.546666666666667, "grad_norm": 2.9374606609344482, "learning_rate": 3.0631111111111114e-07, "loss": 0.0354, "step": 58300 }, { "epoch": 15.553333333333333, "grad_norm": 2.496340274810791, "learning_rate": 3.018666666666667e-07, "loss": 0.0372, "step": 58325 }, { "epoch": 15.56, "grad_norm": 3.469555616378784, "learning_rate": 2.9742222222222226e-07, "loss": 0.0358, "step": 58350 }, { "epoch": 15.566666666666666, "grad_norm": 2.0063796043395996, "learning_rate": 2.929777777777778e-07, "loss": 0.0378, "step": 58375 }, { "epoch": 15.573333333333334, "grad_norm": 2.95000958442688, "learning_rate": 2.885333333333334e-07, "loss": 0.0361, "step": 58400 }, { "epoch": 15.58, "grad_norm": 2.76594614982605, "learning_rate": 2.840888888888889e-07, "loss": 0.0331, "step": 58425 }, { "epoch": 15.586666666666666, "grad_norm": 2.244518518447876, "learning_rate": 2.7982222222222226e-07, "loss": 0.0391, "step": 58450 }, { "epoch": 15.593333333333334, "grad_norm": 3.0868637561798096, "learning_rate": 2.753777777777778e-07, "loss": 0.0418, "step": 58475 }, { "epoch": 15.6, "grad_norm": 4.045677185058594, "learning_rate": 2.709333333333334e-07, "loss": 0.0363, "step": 58500 }, { "epoch": 15.606666666666667, "grad_norm": 3.383727788925171, "learning_rate": 2.664888888888889e-07, "loss": 0.039, "step": 58525 }, { "epoch": 15.613333333333333, "grad_norm": 4.226437568664551, "learning_rate": 2.6204444444444444e-07, "loss": 0.0387, "step": 58550 }, { "epoch": 15.62, "grad_norm": 3.6787514686584473, "learning_rate": 2.5760000000000003e-07, "loss": 0.0377, "step": 58575 }, { "epoch": 15.626666666666667, "grad_norm": 4.334747314453125, "learning_rate": 2.5315555555555556e-07, "loss": 0.0393, "step": 58600 }, { "epoch": 15.633333333333333, "grad_norm": 2.344055652618408, "learning_rate": 2.4871111111111115e-07, "loss": 0.0351, "step": 58625 }, { "epoch": 15.64, "grad_norm": 2.0210814476013184, "learning_rate": 2.442666666666667e-07, "loss": 0.0407, "step": 58650 }, { "epoch": 15.646666666666667, "grad_norm": 2.6171045303344727, "learning_rate": 2.398222222222222e-07, "loss": 0.0387, "step": 58675 }, { "epoch": 15.653333333333332, "grad_norm": 6.022252559661865, "learning_rate": 2.353777777777778e-07, "loss": 0.0391, "step": 58700 }, { "epoch": 15.66, "grad_norm": 2.860677719116211, "learning_rate": 2.3093333333333336e-07, "loss": 0.0377, "step": 58725 }, { "epoch": 15.666666666666666, "grad_norm": 2.693474292755127, "learning_rate": 2.264888888888889e-07, "loss": 0.0375, "step": 58750 }, { "epoch": 15.673333333333334, "grad_norm": 2.5033092498779297, "learning_rate": 2.2204444444444446e-07, "loss": 0.0316, "step": 58775 }, { "epoch": 15.68, "grad_norm": 3.7641522884368896, "learning_rate": 2.1760000000000004e-07, "loss": 0.043, "step": 58800 }, { "epoch": 15.686666666666667, "grad_norm": 3.6431069374084473, "learning_rate": 2.1315555555555558e-07, "loss": 0.0343, "step": 58825 }, { "epoch": 15.693333333333333, "grad_norm": 1.9255081415176392, "learning_rate": 2.0871111111111114e-07, "loss": 0.0388, "step": 58850 }, { "epoch": 15.7, "grad_norm": 2.9782581329345703, "learning_rate": 2.0426666666666667e-07, "loss": 0.0325, "step": 58875 }, { "epoch": 15.706666666666667, "grad_norm": 3.2513091564178467, "learning_rate": 1.9982222222222223e-07, "loss": 0.0307, "step": 58900 }, { "epoch": 15.713333333333333, "grad_norm": 3.41194224357605, "learning_rate": 1.9537777777777782e-07, "loss": 0.0391, "step": 58925 }, { "epoch": 15.72, "grad_norm": 3.1003313064575195, "learning_rate": 1.9093333333333335e-07, "loss": 0.0349, "step": 58950 }, { "epoch": 15.726666666666667, "grad_norm": 2.3903234004974365, "learning_rate": 1.864888888888889e-07, "loss": 0.0322, "step": 58975 }, { "epoch": 15.733333333333333, "grad_norm": 2.266721248626709, "learning_rate": 1.8204444444444444e-07, "loss": 0.0447, "step": 59000 }, { "epoch": 15.74, "grad_norm": 1.739495038986206, "learning_rate": 1.7760000000000003e-07, "loss": 0.0385, "step": 59025 }, { "epoch": 15.746666666666666, "grad_norm": 3.737060785293579, "learning_rate": 1.731555555555556e-07, "loss": 0.0305, "step": 59050 }, { "epoch": 15.753333333333334, "grad_norm": 4.032593250274658, "learning_rate": 1.6871111111111112e-07, "loss": 0.0306, "step": 59075 }, { "epoch": 15.76, "grad_norm": 2.2543482780456543, "learning_rate": 1.6426666666666668e-07, "loss": 0.0353, "step": 59100 }, { "epoch": 15.766666666666667, "grad_norm": 2.286637306213379, "learning_rate": 1.5982222222222222e-07, "loss": 0.0346, "step": 59125 }, { "epoch": 15.773333333333333, "grad_norm": 2.854501485824585, "learning_rate": 1.5537777777777778e-07, "loss": 0.0345, "step": 59150 }, { "epoch": 15.78, "grad_norm": 2.9841978549957275, "learning_rate": 1.5093333333333336e-07, "loss": 0.0375, "step": 59175 }, { "epoch": 15.786666666666667, "grad_norm": 2.9846794605255127, "learning_rate": 1.464888888888889e-07, "loss": 0.034, "step": 59200 }, { "epoch": 15.793333333333333, "grad_norm": 2.7999162673950195, "learning_rate": 1.4204444444444445e-07, "loss": 0.0364, "step": 59225 }, { "epoch": 15.8, "grad_norm": 3.1734230518341064, "learning_rate": 1.3760000000000001e-07, "loss": 0.0396, "step": 59250 }, { "epoch": 15.806666666666667, "grad_norm": 3.432774305343628, "learning_rate": 1.3315555555555557e-07, "loss": 0.0332, "step": 59275 }, { "epoch": 15.813333333333333, "grad_norm": 1.361435890197754, "learning_rate": 1.287111111111111e-07, "loss": 0.0432, "step": 59300 }, { "epoch": 15.82, "grad_norm": 3.266693592071533, "learning_rate": 1.242666666666667e-07, "loss": 0.0433, "step": 59325 }, { "epoch": 15.826666666666666, "grad_norm": 3.4269139766693115, "learning_rate": 1.1982222222222223e-07, "loss": 0.0422, "step": 59350 }, { "epoch": 15.833333333333334, "grad_norm": 2.903153896331787, "learning_rate": 1.1537777777777777e-07, "loss": 0.0395, "step": 59375 }, { "epoch": 15.84, "grad_norm": 2.6565680503845215, "learning_rate": 1.1093333333333335e-07, "loss": 0.0404, "step": 59400 }, { "epoch": 15.846666666666668, "grad_norm": 4.2612409591674805, "learning_rate": 1.064888888888889e-07, "loss": 0.0414, "step": 59425 }, { "epoch": 15.853333333333333, "grad_norm": 3.7936782836914062, "learning_rate": 1.0204444444444445e-07, "loss": 0.039, "step": 59450 }, { "epoch": 15.86, "grad_norm": 3.2231805324554443, "learning_rate": 9.76e-08, "loss": 0.0385, "step": 59475 }, { "epoch": 15.866666666666667, "grad_norm": 3.027538537979126, "learning_rate": 9.315555555555557e-08, "loss": 0.0352, "step": 59500 }, { "epoch": 15.873333333333333, "grad_norm": 3.179180383682251, "learning_rate": 8.871111111111112e-08, "loss": 0.0371, "step": 59525 }, { "epoch": 15.88, "grad_norm": 2.4724042415618896, "learning_rate": 8.426666666666668e-08, "loss": 0.0358, "step": 59550 }, { "epoch": 15.886666666666667, "grad_norm": 3.2249667644500732, "learning_rate": 7.982222222222223e-08, "loss": 0.0329, "step": 59575 }, { "epoch": 15.893333333333333, "grad_norm": 4.364688396453857, "learning_rate": 7.537777777777779e-08, "loss": 0.0374, "step": 59600 }, { "epoch": 15.9, "grad_norm": 3.3513317108154297, "learning_rate": 7.093333333333335e-08, "loss": 0.0339, "step": 59625 }, { "epoch": 15.906666666666666, "grad_norm": 2.2454986572265625, "learning_rate": 6.648888888888889e-08, "loss": 0.0363, "step": 59650 }, { "epoch": 15.913333333333334, "grad_norm": 2.985152006149292, "learning_rate": 6.204444444444445e-08, "loss": 0.0406, "step": 59675 }, { "epoch": 15.92, "grad_norm": 2.2764267921447754, "learning_rate": 5.7600000000000006e-08, "loss": 0.0375, "step": 59700 }, { "epoch": 15.926666666666666, "grad_norm": 3.7787699699401855, "learning_rate": 5.315555555555555e-08, "loss": 0.0394, "step": 59725 }, { "epoch": 15.933333333333334, "grad_norm": 3.6438229084014893, "learning_rate": 4.871111111111111e-08, "loss": 0.0415, "step": 59750 }, { "epoch": 15.94, "grad_norm": 3.1182456016540527, "learning_rate": 4.4266666666666666e-08, "loss": 0.0364, "step": 59775 }, { "epoch": 15.946666666666667, "grad_norm": 2.949204206466675, "learning_rate": 3.9822222222222226e-08, "loss": 0.0343, "step": 59800 }, { "epoch": 15.953333333333333, "grad_norm": 2.3892364501953125, "learning_rate": 3.537777777777778e-08, "loss": 0.0356, "step": 59825 }, { "epoch": 15.96, "grad_norm": 3.385406970977783, "learning_rate": 3.093333333333334e-08, "loss": 0.038, "step": 59850 }, { "epoch": 15.966666666666667, "grad_norm": 3.301732063293457, "learning_rate": 2.6488888888888892e-08, "loss": 0.0373, "step": 59875 }, { "epoch": 15.973333333333333, "grad_norm": 3.0632410049438477, "learning_rate": 2.204444444444445e-08, "loss": 0.0344, "step": 59900 }, { "epoch": 15.98, "grad_norm": 2.698199510574341, "learning_rate": 1.7600000000000002e-08, "loss": 0.0371, "step": 59925 }, { "epoch": 15.986666666666666, "grad_norm": 2.582430839538574, "learning_rate": 1.3155555555555555e-08, "loss": 0.0404, "step": 59950 }, { "epoch": 15.993333333333334, "grad_norm": 2.3595690727233887, "learning_rate": 8.711111111111112e-09, "loss": 0.0423, "step": 59975 }, { "epoch": 16.0, "grad_norm": 2.91009521484375, "learning_rate": 4.266666666666667e-09, "loss": 0.038, "step": 60000 }, { "epoch": 16.0, "eval_cer": 21.07783761623465, "eval_loss": 0.38334381580352783, "eval_runtime": 1226.94, "eval_samples_per_second": 4.075, "eval_steps_per_second": 0.509, "step": 60000 }, { "epoch": 16.0, "step": 60000, "total_flos": 3.891206946816e+20, "train_loss": 0.09617921240925789, "train_runtime": 150172.9279, "train_samples_per_second": 6.393, "train_steps_per_second": 0.4 } ], "logging_steps": 25, "max_steps": 60000, "num_input_tokens_seen": 0, "num_train_epochs": 16, "save_steps": 3750, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 3.891206946816e+20, "train_batch_size": 16, "trial_name": null, "trial_params": null }