{ "best_metric": 21.07783761623465, "best_model_checkpoint": "./Whisper-Small-architecture-change\\checkpoint-60000", "epoch": 32.0, "eval_steps": 3750, "global_step": 120000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.006666666666666667, "grad_norm": 111.48564910888672, "learning_rate": 5.866666666666667e-08, "loss": 11.682, "step": 25 }, { "epoch": 0.013333333333333334, "grad_norm": 70.53641510009766, "learning_rate": 1.2533333333333334e-07, "loss": 11.357, "step": 50 }, { "epoch": 0.02, "grad_norm": 66.43780517578125, "learning_rate": 1.92e-07, "loss": 10.3396, "step": 75 }, { "epoch": 0.02666666666666667, "grad_norm": 55.84492111206055, "learning_rate": 2.586666666666667e-07, "loss": 8.69, "step": 100 }, { "epoch": 0.03333333333333333, "grad_norm": 36.73503112792969, "learning_rate": 3.2533333333333333e-07, "loss": 7.0021, "step": 125 }, { "epoch": 0.04, "grad_norm": 25.967117309570312, "learning_rate": 3.92e-07, "loss": 5.9662, "step": 150 }, { "epoch": 0.04666666666666667, "grad_norm": 27.77681541442871, "learning_rate": 4.586666666666667e-07, "loss": 5.4988, "step": 175 }, { "epoch": 0.05333333333333334, "grad_norm": 29.157243728637695, "learning_rate": 5.253333333333334e-07, "loss": 5.0856, "step": 200 }, { "epoch": 0.06, "grad_norm": 31.2855224609375, "learning_rate": 5.920000000000001e-07, "loss": 4.8222, "step": 225 }, { "epoch": 0.06666666666666667, "grad_norm": 36.7702522277832, "learning_rate": 6.586666666666667e-07, "loss": 4.5603, "step": 250 }, { "epoch": 0.07333333333333333, "grad_norm": 27.600358963012695, "learning_rate": 7.253333333333335e-07, "loss": 4.3621, "step": 275 }, { "epoch": 0.08, "grad_norm": 29.353242874145508, "learning_rate": 7.920000000000001e-07, "loss": 4.2272, "step": 300 }, { "epoch": 0.08666666666666667, "grad_norm": 35.09225082397461, "learning_rate": 8.586666666666666e-07, "loss": 4.0234, "step": 325 }, { "epoch": 0.09333333333333334, "grad_norm": 30.688486099243164, "learning_rate": 9.253333333333334e-07, "loss": 3.8953, "step": 350 }, { "epoch": 0.1, "grad_norm": 29.1451473236084, "learning_rate": 9.92e-07, "loss": 3.7163, "step": 375 }, { "epoch": 0.10666666666666667, "grad_norm": 32.318363189697266, "learning_rate": 1.0586666666666667e-06, "loss": 3.6545, "step": 400 }, { "epoch": 0.11333333333333333, "grad_norm": 29.515954971313477, "learning_rate": 1.1253333333333335e-06, "loss": 3.5914, "step": 425 }, { "epoch": 0.12, "grad_norm": 31.179685592651367, "learning_rate": 1.1920000000000002e-06, "loss": 3.5222, "step": 450 }, { "epoch": 0.12666666666666668, "grad_norm": 28.281299591064453, "learning_rate": 1.2586666666666667e-06, "loss": 3.4666, "step": 475 }, { "epoch": 0.13333333333333333, "grad_norm": 32.45530319213867, "learning_rate": 1.3253333333333334e-06, "loss": 3.4865, "step": 500 }, { "epoch": 0.14, "grad_norm": 27.48408317565918, "learning_rate": 1.392e-06, "loss": 3.4875, "step": 525 }, { "epoch": 0.14666666666666667, "grad_norm": 29.316692352294922, "learning_rate": 1.458666666666667e-06, "loss": 3.3615, "step": 550 }, { "epoch": 0.15333333333333332, "grad_norm": 28.037925720214844, "learning_rate": 1.5253333333333334e-06, "loss": 3.4014, "step": 575 }, { "epoch": 0.16, "grad_norm": 29.64125633239746, "learning_rate": 1.5920000000000002e-06, "loss": 3.3759, "step": 600 }, { "epoch": 0.16666666666666666, "grad_norm": 27.532228469848633, "learning_rate": 1.6586666666666667e-06, "loss": 3.3535, "step": 625 }, { "epoch": 0.17333333333333334, "grad_norm": 28.19093894958496, "learning_rate": 1.7253333333333336e-06, "loss": 3.4183, "step": 650 }, { "epoch": 0.18, "grad_norm": 27.835262298583984, "learning_rate": 1.7920000000000002e-06, "loss": 3.3644, "step": 675 }, { "epoch": 0.18666666666666668, "grad_norm": 26.126815795898438, "learning_rate": 1.858666666666667e-06, "loss": 3.304, "step": 700 }, { "epoch": 0.19333333333333333, "grad_norm": 27.21718978881836, "learning_rate": 1.9253333333333334e-06, "loss": 3.3469, "step": 725 }, { "epoch": 0.2, "grad_norm": 27.204692840576172, "learning_rate": 1.992e-06, "loss": 3.3089, "step": 750 }, { "epoch": 0.20666666666666667, "grad_norm": 25.531513214111328, "learning_rate": 2.058666666666667e-06, "loss": 3.2543, "step": 775 }, { "epoch": 0.21333333333333335, "grad_norm": 26.769859313964844, "learning_rate": 2.1253333333333336e-06, "loss": 3.2017, "step": 800 }, { "epoch": 0.22, "grad_norm": 26.984683990478516, "learning_rate": 2.1920000000000004e-06, "loss": 3.3159, "step": 825 }, { "epoch": 0.22666666666666666, "grad_norm": 25.557384490966797, "learning_rate": 2.2586666666666667e-06, "loss": 3.2851, "step": 850 }, { "epoch": 0.23333333333333334, "grad_norm": 27.59333610534668, "learning_rate": 2.3253333333333334e-06, "loss": 3.2598, "step": 875 }, { "epoch": 0.24, "grad_norm": 28.09088897705078, "learning_rate": 2.392e-06, "loss": 3.2606, "step": 900 }, { "epoch": 0.24666666666666667, "grad_norm": 28.59324073791504, "learning_rate": 2.458666666666667e-06, "loss": 3.2862, "step": 925 }, { "epoch": 0.25333333333333335, "grad_norm": 27.096912384033203, "learning_rate": 2.5253333333333336e-06, "loss": 3.28, "step": 950 }, { "epoch": 0.26, "grad_norm": 27.33795166015625, "learning_rate": 2.592e-06, "loss": 3.2637, "step": 975 }, { "epoch": 0.26666666666666666, "grad_norm": 29.362424850463867, "learning_rate": 2.6586666666666667e-06, "loss": 3.2364, "step": 1000 }, { "epoch": 0.2733333333333333, "grad_norm": 26.813495635986328, "learning_rate": 2.725333333333334e-06, "loss": 3.2548, "step": 1025 }, { "epoch": 0.28, "grad_norm": 26.827274322509766, "learning_rate": 2.792e-06, "loss": 3.2008, "step": 1050 }, { "epoch": 0.2866666666666667, "grad_norm": 28.96709632873535, "learning_rate": 2.858666666666667e-06, "loss": 3.1766, "step": 1075 }, { "epoch": 0.29333333333333333, "grad_norm": 24.097309112548828, "learning_rate": 2.925333333333333e-06, "loss": 3.2034, "step": 1100 }, { "epoch": 0.3, "grad_norm": 25.107149124145508, "learning_rate": 2.9920000000000003e-06, "loss": 3.2556, "step": 1125 }, { "epoch": 0.30666666666666664, "grad_norm": 25.05257225036621, "learning_rate": 3.058666666666667e-06, "loss": 3.229, "step": 1150 }, { "epoch": 0.31333333333333335, "grad_norm": 22.934017181396484, "learning_rate": 3.1253333333333334e-06, "loss": 3.2092, "step": 1175 }, { "epoch": 0.32, "grad_norm": 23.711837768554688, "learning_rate": 3.192e-06, "loss": 3.2183, "step": 1200 }, { "epoch": 0.32666666666666666, "grad_norm": 28.421186447143555, "learning_rate": 3.2586666666666673e-06, "loss": 3.1794, "step": 1225 }, { "epoch": 0.3333333333333333, "grad_norm": 26.12969398498535, "learning_rate": 3.3253333333333336e-06, "loss": 3.1654, "step": 1250 }, { "epoch": 0.34, "grad_norm": 22.965322494506836, "learning_rate": 3.3920000000000003e-06, "loss": 3.2029, "step": 1275 }, { "epoch": 0.3466666666666667, "grad_norm": 23.11631965637207, "learning_rate": 3.458666666666667e-06, "loss": 3.1933, "step": 1300 }, { "epoch": 0.35333333333333333, "grad_norm": 24.940004348754883, "learning_rate": 3.5253333333333333e-06, "loss": 3.1478, "step": 1325 }, { "epoch": 0.36, "grad_norm": 24.57161521911621, "learning_rate": 3.5893333333333335e-06, "loss": 3.1821, "step": 1350 }, { "epoch": 0.36666666666666664, "grad_norm": 23.25406837463379, "learning_rate": 3.6560000000000002e-06, "loss": 3.2012, "step": 1375 }, { "epoch": 0.37333333333333335, "grad_norm": 26.07965850830078, "learning_rate": 3.7226666666666674e-06, "loss": 3.1545, "step": 1400 }, { "epoch": 0.38, "grad_norm": 22.703157424926758, "learning_rate": 3.7893333333333337e-06, "loss": 3.1155, "step": 1425 }, { "epoch": 0.38666666666666666, "grad_norm": 22.670724868774414, "learning_rate": 3.856e-06, "loss": 3.1663, "step": 1450 }, { "epoch": 0.3933333333333333, "grad_norm": 25.008970260620117, "learning_rate": 3.922666666666667e-06, "loss": 3.1335, "step": 1475 }, { "epoch": 0.4, "grad_norm": 22.752229690551758, "learning_rate": 3.9893333333333335e-06, "loss": 3.1391, "step": 1500 }, { "epoch": 0.4066666666666667, "grad_norm": 23.52843475341797, "learning_rate": 4.056000000000001e-06, "loss": 3.1677, "step": 1525 }, { "epoch": 0.41333333333333333, "grad_norm": 22.564254760742188, "learning_rate": 4.122666666666667e-06, "loss": 3.1197, "step": 1550 }, { "epoch": 0.42, "grad_norm": 20.294986724853516, "learning_rate": 4.189333333333333e-06, "loss": 3.1053, "step": 1575 }, { "epoch": 0.4266666666666667, "grad_norm": 19.375429153442383, "learning_rate": 4.256e-06, "loss": 3.1476, "step": 1600 }, { "epoch": 0.43333333333333335, "grad_norm": 21.38226318359375, "learning_rate": 4.3226666666666676e-06, "loss": 3.1562, "step": 1625 }, { "epoch": 0.44, "grad_norm": 22.087488174438477, "learning_rate": 4.389333333333334e-06, "loss": 3.0819, "step": 1650 }, { "epoch": 0.44666666666666666, "grad_norm": 19.804174423217773, "learning_rate": 4.456e-06, "loss": 3.079, "step": 1675 }, { "epoch": 0.4533333333333333, "grad_norm": 26.955942153930664, "learning_rate": 4.5226666666666665e-06, "loss": 3.1223, "step": 1700 }, { "epoch": 0.46, "grad_norm": 20.12558937072754, "learning_rate": 4.589333333333334e-06, "loss": 3.1378, "step": 1725 }, { "epoch": 0.4666666666666667, "grad_norm": 23.122295379638672, "learning_rate": 4.656000000000001e-06, "loss": 3.0952, "step": 1750 }, { "epoch": 0.47333333333333333, "grad_norm": 19.772171020507812, "learning_rate": 4.722666666666667e-06, "loss": 3.0767, "step": 1775 }, { "epoch": 0.48, "grad_norm": 20.289064407348633, "learning_rate": 4.7893333333333334e-06, "loss": 3.1164, "step": 1800 }, { "epoch": 0.4866666666666667, "grad_norm": 23.849220275878906, "learning_rate": 4.856e-06, "loss": 3.1302, "step": 1825 }, { "epoch": 0.49333333333333335, "grad_norm": 23.756196975708008, "learning_rate": 4.922666666666667e-06, "loss": 3.0519, "step": 1850 }, { "epoch": 0.5, "grad_norm": 20.326499938964844, "learning_rate": 4.989333333333334e-06, "loss": 3.0346, "step": 1875 }, { "epoch": 0.5066666666666667, "grad_norm": 19.785266876220703, "learning_rate": 5.056000000000001e-06, "loss": 3.0875, "step": 1900 }, { "epoch": 0.5133333333333333, "grad_norm": 21.80754852294922, "learning_rate": 5.122666666666667e-06, "loss": 3.0901, "step": 1925 }, { "epoch": 0.52, "grad_norm": 22.199064254760742, "learning_rate": 5.189333333333334e-06, "loss": 3.0576, "step": 1950 }, { "epoch": 0.5266666666666666, "grad_norm": 20.962785720825195, "learning_rate": 5.256e-06, "loss": 3.0939, "step": 1975 }, { "epoch": 0.5333333333333333, "grad_norm": 21.406068801879883, "learning_rate": 5.322666666666667e-06, "loss": 3.0872, "step": 2000 }, { "epoch": 0.54, "grad_norm": 19.208545684814453, "learning_rate": 5.3893333333333345e-06, "loss": 3.0632, "step": 2025 }, { "epoch": 0.5466666666666666, "grad_norm": 20.200136184692383, "learning_rate": 5.456e-06, "loss": 3.0991, "step": 2050 }, { "epoch": 0.5533333333333333, "grad_norm": 20.082595825195312, "learning_rate": 5.522666666666667e-06, "loss": 3.0377, "step": 2075 }, { "epoch": 0.56, "grad_norm": 20.546627044677734, "learning_rate": 5.589333333333333e-06, "loss": 3.0294, "step": 2100 }, { "epoch": 0.5666666666666667, "grad_norm": 20.757875442504883, "learning_rate": 5.6560000000000006e-06, "loss": 3.0606, "step": 2125 }, { "epoch": 0.5733333333333334, "grad_norm": 19.23548698425293, "learning_rate": 5.722666666666668e-06, "loss": 3.0345, "step": 2150 }, { "epoch": 0.58, "grad_norm": 19.413265228271484, "learning_rate": 5.789333333333333e-06, "loss": 3.0132, "step": 2175 }, { "epoch": 0.5866666666666667, "grad_norm": 19.276395797729492, "learning_rate": 5.856e-06, "loss": 3.0395, "step": 2200 }, { "epoch": 0.5933333333333334, "grad_norm": 18.55997085571289, "learning_rate": 5.9226666666666675e-06, "loss": 3.0303, "step": 2225 }, { "epoch": 0.6, "grad_norm": 19.048141479492188, "learning_rate": 5.989333333333334e-06, "loss": 3.0591, "step": 2250 }, { "epoch": 0.6066666666666667, "grad_norm": 19.092100143432617, "learning_rate": 6.056000000000001e-06, "loss": 3.0814, "step": 2275 }, { "epoch": 0.6133333333333333, "grad_norm": 17.920061111450195, "learning_rate": 6.1226666666666664e-06, "loss": 3.0183, "step": 2300 }, { "epoch": 0.62, "grad_norm": 21.999868392944336, "learning_rate": 6.189333333333334e-06, "loss": 3.0487, "step": 2325 }, { "epoch": 0.6266666666666667, "grad_norm": 19.58065414428711, "learning_rate": 6.256000000000001e-06, "loss": 3.0316, "step": 2350 }, { "epoch": 0.6333333333333333, "grad_norm": 19.273319244384766, "learning_rate": 6.322666666666667e-06, "loss": 3.107, "step": 2375 }, { "epoch": 0.64, "grad_norm": 21.751789093017578, "learning_rate": 6.389333333333334e-06, "loss": 3.0655, "step": 2400 }, { "epoch": 0.6466666666666666, "grad_norm": 18.95050811767578, "learning_rate": 6.456e-06, "loss": 3.0196, "step": 2425 }, { "epoch": 0.6533333333333333, "grad_norm": 20.24399185180664, "learning_rate": 6.522666666666667e-06, "loss": 3.0047, "step": 2450 }, { "epoch": 0.66, "grad_norm": 18.038652420043945, "learning_rate": 6.589333333333334e-06, "loss": 3.0014, "step": 2475 }, { "epoch": 0.6666666666666666, "grad_norm": 19.818687438964844, "learning_rate": 6.656e-06, "loss": 3.0015, "step": 2500 }, { "epoch": 0.6733333333333333, "grad_norm": 19.446958541870117, "learning_rate": 6.7226666666666675e-06, "loss": 3.0302, "step": 2525 }, { "epoch": 0.68, "grad_norm": 18.2159481048584, "learning_rate": 6.789333333333335e-06, "loss": 3.0402, "step": 2550 }, { "epoch": 0.6866666666666666, "grad_norm": 20.23403549194336, "learning_rate": 6.856e-06, "loss": 3.0522, "step": 2575 }, { "epoch": 0.6933333333333334, "grad_norm": 18.617311477661133, "learning_rate": 6.922666666666667e-06, "loss": 3.0055, "step": 2600 }, { "epoch": 0.7, "grad_norm": 18.315711975097656, "learning_rate": 6.9893333333333336e-06, "loss": 3.0419, "step": 2625 }, { "epoch": 0.7066666666666667, "grad_norm": 17.747783660888672, "learning_rate": 7.056000000000001e-06, "loss": 3.0155, "step": 2650 }, { "epoch": 0.7133333333333334, "grad_norm": 19.420833587646484, "learning_rate": 7.122666666666668e-06, "loss": 3.0207, "step": 2675 }, { "epoch": 0.72, "grad_norm": 18.187541961669922, "learning_rate": 7.189333333333333e-06, "loss": 3.0186, "step": 2700 }, { "epoch": 0.7266666666666667, "grad_norm": 19.88573455810547, "learning_rate": 7.2560000000000005e-06, "loss": 2.9839, "step": 2725 }, { "epoch": 0.7333333333333333, "grad_norm": 19.29829216003418, "learning_rate": 7.322666666666667e-06, "loss": 2.9943, "step": 2750 }, { "epoch": 0.74, "grad_norm": 16.37192726135254, "learning_rate": 7.389333333333334e-06, "loss": 2.9936, "step": 2775 }, { "epoch": 0.7466666666666667, "grad_norm": 18.42452621459961, "learning_rate": 7.456000000000001e-06, "loss": 2.9943, "step": 2800 }, { "epoch": 0.7533333333333333, "grad_norm": 17.694307327270508, "learning_rate": 7.522666666666667e-06, "loss": 2.9651, "step": 2825 }, { "epoch": 0.76, "grad_norm": 19.521467208862305, "learning_rate": 7.589333333333334e-06, "loss": 2.9594, "step": 2850 }, { "epoch": 0.7666666666666667, "grad_norm": 21.28176498413086, "learning_rate": 7.656000000000001e-06, "loss": 3.0112, "step": 2875 }, { "epoch": 0.7733333333333333, "grad_norm": 18.655025482177734, "learning_rate": 7.722666666666666e-06, "loss": 2.9992, "step": 2900 }, { "epoch": 0.78, "grad_norm": 19.628299713134766, "learning_rate": 7.789333333333334e-06, "loss": 3.0332, "step": 2925 }, { "epoch": 0.7866666666666666, "grad_norm": 18.892627716064453, "learning_rate": 7.856e-06, "loss": 3.033, "step": 2950 }, { "epoch": 0.7933333333333333, "grad_norm": 18.027875900268555, "learning_rate": 7.922666666666668e-06, "loss": 3.0662, "step": 2975 }, { "epoch": 0.8, "grad_norm": 16.78729820251465, "learning_rate": 7.989333333333335e-06, "loss": 2.9422, "step": 3000 }, { "epoch": 0.8066666666666666, "grad_norm": 19.803417205810547, "learning_rate": 8.056e-06, "loss": 3.0041, "step": 3025 }, { "epoch": 0.8133333333333334, "grad_norm": 17.857236862182617, "learning_rate": 8.122666666666668e-06, "loss": 3.0055, "step": 3050 }, { "epoch": 0.82, "grad_norm": 19.325098037719727, "learning_rate": 8.189333333333333e-06, "loss": 2.9538, "step": 3075 }, { "epoch": 0.8266666666666667, "grad_norm": 20.034204483032227, "learning_rate": 8.256e-06, "loss": 2.9951, "step": 3100 }, { "epoch": 0.8333333333333334, "grad_norm": 17.219974517822266, "learning_rate": 8.322666666666667e-06, "loss": 3.0008, "step": 3125 }, { "epoch": 0.84, "grad_norm": 16.875280380249023, "learning_rate": 8.389333333333335e-06, "loss": 2.9735, "step": 3150 }, { "epoch": 0.8466666666666667, "grad_norm": 16.129375457763672, "learning_rate": 8.456000000000002e-06, "loss": 2.9973, "step": 3175 }, { "epoch": 0.8533333333333334, "grad_norm": 17.611738204956055, "learning_rate": 8.522666666666667e-06, "loss": 2.9945, "step": 3200 }, { "epoch": 0.86, "grad_norm": 16.94667625427246, "learning_rate": 8.589333333333334e-06, "loss": 2.9704, "step": 3225 }, { "epoch": 0.8666666666666667, "grad_norm": 17.554040908813477, "learning_rate": 8.656000000000001e-06, "loss": 2.9767, "step": 3250 }, { "epoch": 0.8733333333333333, "grad_norm": 16.486339569091797, "learning_rate": 8.722666666666667e-06, "loss": 2.934, "step": 3275 }, { "epoch": 0.88, "grad_norm": 18.204835891723633, "learning_rate": 8.789333333333334e-06, "loss": 3.0116, "step": 3300 }, { "epoch": 0.8866666666666667, "grad_norm": 17.847763061523438, "learning_rate": 8.856000000000001e-06, "loss": 3.003, "step": 3325 }, { "epoch": 0.8933333333333333, "grad_norm": 17.01093864440918, "learning_rate": 8.922666666666667e-06, "loss": 3.0009, "step": 3350 }, { "epoch": 0.9, "grad_norm": 15.349688529968262, "learning_rate": 8.989333333333334e-06, "loss": 3.0568, "step": 3375 }, { "epoch": 0.9066666666666666, "grad_norm": 16.00149917602539, "learning_rate": 9.056000000000001e-06, "loss": 2.9492, "step": 3400 }, { "epoch": 0.9133333333333333, "grad_norm": 16.562292098999023, "learning_rate": 9.122666666666668e-06, "loss": 2.9516, "step": 3425 }, { "epoch": 0.92, "grad_norm": 18.691375732421875, "learning_rate": 9.189333333333335e-06, "loss": 2.9599, "step": 3450 }, { "epoch": 0.9266666666666666, "grad_norm": 17.743772506713867, "learning_rate": 9.256e-06, "loss": 2.9765, "step": 3475 }, { "epoch": 0.9333333333333333, "grad_norm": 21.564847946166992, "learning_rate": 9.322666666666668e-06, "loss": 3.0141, "step": 3500 }, { "epoch": 0.94, "grad_norm": 17.750629425048828, "learning_rate": 9.389333333333333e-06, "loss": 2.9307, "step": 3525 }, { "epoch": 0.9466666666666667, "grad_norm": 17.04627227783203, "learning_rate": 9.456e-06, "loss": 2.9817, "step": 3550 }, { "epoch": 0.9533333333333334, "grad_norm": 17.68846321105957, "learning_rate": 9.522666666666668e-06, "loss": 2.9943, "step": 3575 }, { "epoch": 0.96, "grad_norm": 19.70555305480957, "learning_rate": 9.589333333333333e-06, "loss": 2.9401, "step": 3600 }, { "epoch": 0.9666666666666667, "grad_norm": 16.034330368041992, "learning_rate": 9.656e-06, "loss": 2.9802, "step": 3625 }, { "epoch": 0.9733333333333334, "grad_norm": 17.18195343017578, "learning_rate": 9.722666666666668e-06, "loss": 2.891, "step": 3650 }, { "epoch": 0.98, "grad_norm": 16.968229293823242, "learning_rate": 9.789333333333335e-06, "loss": 2.9233, "step": 3675 }, { "epoch": 0.9866666666666667, "grad_norm": 16.523271560668945, "learning_rate": 9.856000000000002e-06, "loss": 2.9439, "step": 3700 }, { "epoch": 0.9933333333333333, "grad_norm": 17.706613540649414, "learning_rate": 9.922666666666667e-06, "loss": 2.9929, "step": 3725 }, { "epoch": 1.0, "grad_norm": 18.36431121826172, "learning_rate": 9.989333333333334e-06, "loss": 2.9532, "step": 3750 }, { "epoch": 1.0, "eval_cer": 103.21823230158583, "eval_loss": 2.960142135620117, "eval_runtime": 1315.0175, "eval_samples_per_second": 3.802, "eval_steps_per_second": 0.475, "step": 3750 }, { "epoch": 1.0066666666666666, "grad_norm": 16.86143684387207, "learning_rate": 9.992e-06, "loss": 2.8764, "step": 3775 }, { "epoch": 1.0133333333333334, "grad_norm": 16.526630401611328, "learning_rate": 9.982476190476191e-06, "loss": 2.8755, "step": 3800 }, { "epoch": 1.02, "grad_norm": 16.470598220825195, "learning_rate": 9.972952380952382e-06, "loss": 2.8863, "step": 3825 }, { "epoch": 1.0266666666666666, "grad_norm": 17.210840225219727, "learning_rate": 9.963428571428572e-06, "loss": 2.8091, "step": 3850 }, { "epoch": 1.0333333333333334, "grad_norm": 16.355356216430664, "learning_rate": 9.953904761904763e-06, "loss": 2.905, "step": 3875 }, { "epoch": 1.04, "grad_norm": 16.987756729125977, "learning_rate": 9.944380952380953e-06, "loss": 2.9418, "step": 3900 }, { "epoch": 1.0466666666666666, "grad_norm": 16.835289001464844, "learning_rate": 9.934857142857144e-06, "loss": 2.8697, "step": 3925 }, { "epoch": 1.0533333333333332, "grad_norm": 20.176651000976562, "learning_rate": 9.925333333333335e-06, "loss": 2.8888, "step": 3950 }, { "epoch": 1.06, "grad_norm": 16.105083465576172, "learning_rate": 9.915809523809524e-06, "loss": 2.8688, "step": 3975 }, { "epoch": 1.0666666666666667, "grad_norm": 16.42608642578125, "learning_rate": 9.906285714285714e-06, "loss": 2.835, "step": 4000 }, { "epoch": 1.0733333333333333, "grad_norm": 16.13795280456543, "learning_rate": 9.896761904761905e-06, "loss": 2.8282, "step": 4025 }, { "epoch": 1.08, "grad_norm": 17.976585388183594, "learning_rate": 9.887238095238096e-06, "loss": 2.8036, "step": 4050 }, { "epoch": 1.0866666666666667, "grad_norm": 15.21644115447998, "learning_rate": 9.877714285714286e-06, "loss": 2.8241, "step": 4075 }, { "epoch": 1.0933333333333333, "grad_norm": 17.24576187133789, "learning_rate": 9.868190476190477e-06, "loss": 2.8368, "step": 4100 }, { "epoch": 1.1, "grad_norm": 16.4899959564209, "learning_rate": 9.858666666666668e-06, "loss": 2.8454, "step": 4125 }, { "epoch": 1.1066666666666667, "grad_norm": 16.6475887298584, "learning_rate": 9.849142857142858e-06, "loss": 2.8345, "step": 4150 }, { "epoch": 1.1133333333333333, "grad_norm": 18.639892578125, "learning_rate": 9.839619047619049e-06, "loss": 2.8544, "step": 4175 }, { "epoch": 1.12, "grad_norm": 15.45373821258545, "learning_rate": 9.830095238095238e-06, "loss": 2.836, "step": 4200 }, { "epoch": 1.1266666666666667, "grad_norm": 15.225053787231445, "learning_rate": 9.820571428571428e-06, "loss": 2.8233, "step": 4225 }, { "epoch": 1.1333333333333333, "grad_norm": 17.045175552368164, "learning_rate": 9.81104761904762e-06, "loss": 2.8206, "step": 4250 }, { "epoch": 1.1400000000000001, "grad_norm": 15.073892593383789, "learning_rate": 9.801523809523811e-06, "loss": 2.874, "step": 4275 }, { "epoch": 1.1466666666666667, "grad_norm": 14.833466529846191, "learning_rate": 9.792e-06, "loss": 2.9101, "step": 4300 }, { "epoch": 1.1533333333333333, "grad_norm": 16.14146614074707, "learning_rate": 9.782476190476191e-06, "loss": 2.8401, "step": 4325 }, { "epoch": 1.16, "grad_norm": 17.003978729248047, "learning_rate": 9.772952380952382e-06, "loss": 2.8505, "step": 4350 }, { "epoch": 1.1666666666666667, "grad_norm": 16.63850212097168, "learning_rate": 9.763428571428572e-06, "loss": 2.8401, "step": 4375 }, { "epoch": 1.1733333333333333, "grad_norm": 15.833580017089844, "learning_rate": 9.753904761904763e-06, "loss": 2.7945, "step": 4400 }, { "epoch": 1.18, "grad_norm": 17.91555404663086, "learning_rate": 9.744380952380954e-06, "loss": 2.8364, "step": 4425 }, { "epoch": 1.1866666666666668, "grad_norm": 14.741762161254883, "learning_rate": 9.734857142857144e-06, "loss": 2.8555, "step": 4450 }, { "epoch": 1.1933333333333334, "grad_norm": 16.537681579589844, "learning_rate": 9.725333333333335e-06, "loss": 2.7999, "step": 4475 }, { "epoch": 1.2, "grad_norm": 15.487943649291992, "learning_rate": 9.715809523809526e-06, "loss": 2.8063, "step": 4500 }, { "epoch": 1.2066666666666666, "grad_norm": 17.870975494384766, "learning_rate": 9.706285714285715e-06, "loss": 2.862, "step": 4525 }, { "epoch": 1.2133333333333334, "grad_norm": 15.674758911132812, "learning_rate": 9.696761904761905e-06, "loss": 2.8499, "step": 4550 }, { "epoch": 1.22, "grad_norm": 14.353854179382324, "learning_rate": 9.687238095238096e-06, "loss": 2.8117, "step": 4575 }, { "epoch": 1.2266666666666666, "grad_norm": 16.09757423400879, "learning_rate": 9.677714285714287e-06, "loss": 2.8722, "step": 4600 }, { "epoch": 1.2333333333333334, "grad_norm": 16.111276626586914, "learning_rate": 9.668190476190477e-06, "loss": 2.8234, "step": 4625 }, { "epoch": 1.24, "grad_norm": 15.41041374206543, "learning_rate": 9.658666666666668e-06, "loss": 2.8748, "step": 4650 }, { "epoch": 1.2466666666666666, "grad_norm": 16.559385299682617, "learning_rate": 9.649142857142858e-06, "loss": 2.8521, "step": 4675 }, { "epoch": 1.2533333333333334, "grad_norm": 17.43706512451172, "learning_rate": 9.639619047619049e-06, "loss": 2.818, "step": 4700 }, { "epoch": 1.26, "grad_norm": 18.602733612060547, "learning_rate": 9.630095238095238e-06, "loss": 2.774, "step": 4725 }, { "epoch": 1.2666666666666666, "grad_norm": 16.89970588684082, "learning_rate": 9.620571428571429e-06, "loss": 2.8309, "step": 4750 }, { "epoch": 1.2733333333333334, "grad_norm": 15.543070793151855, "learning_rate": 9.61104761904762e-06, "loss": 2.8626, "step": 4775 }, { "epoch": 1.28, "grad_norm": 16.7642765045166, "learning_rate": 9.60152380952381e-06, "loss": 2.8077, "step": 4800 }, { "epoch": 1.2866666666666666, "grad_norm": 16.84261703491211, "learning_rate": 9.592e-06, "loss": 2.7793, "step": 4825 }, { "epoch": 1.2933333333333334, "grad_norm": 15.863155364990234, "learning_rate": 9.582476190476191e-06, "loss": 2.7991, "step": 4850 }, { "epoch": 1.3, "grad_norm": 16.32493019104004, "learning_rate": 9.572952380952382e-06, "loss": 2.8647, "step": 4875 }, { "epoch": 1.3066666666666666, "grad_norm": 16.1169490814209, "learning_rate": 9.563428571428573e-06, "loss": 2.8024, "step": 4900 }, { "epoch": 1.3133333333333335, "grad_norm": 15.698304176330566, "learning_rate": 9.553904761904763e-06, "loss": 2.8291, "step": 4925 }, { "epoch": 1.32, "grad_norm": 16.78399658203125, "learning_rate": 9.544380952380952e-06, "loss": 2.8109, "step": 4950 }, { "epoch": 1.3266666666666667, "grad_norm": 15.595823287963867, "learning_rate": 9.534857142857143e-06, "loss": 2.7796, "step": 4975 }, { "epoch": 1.3333333333333333, "grad_norm": 15.49462890625, "learning_rate": 9.525333333333334e-06, "loss": 2.8492, "step": 5000 }, { "epoch": 1.34, "grad_norm": 16.262239456176758, "learning_rate": 9.515809523809524e-06, "loss": 2.7838, "step": 5025 }, { "epoch": 1.3466666666666667, "grad_norm": 16.063838958740234, "learning_rate": 9.506285714285715e-06, "loss": 2.7818, "step": 5050 }, { "epoch": 1.3533333333333333, "grad_norm": 15.840378761291504, "learning_rate": 9.496761904761905e-06, "loss": 2.8316, "step": 5075 }, { "epoch": 1.3599999999999999, "grad_norm": 16.031455993652344, "learning_rate": 9.487238095238096e-06, "loss": 2.7822, "step": 5100 }, { "epoch": 1.3666666666666667, "grad_norm": 14.828582763671875, "learning_rate": 9.477714285714287e-06, "loss": 2.7917, "step": 5125 }, { "epoch": 1.3733333333333333, "grad_norm": 15.370686531066895, "learning_rate": 9.468190476190477e-06, "loss": 2.7656, "step": 5150 }, { "epoch": 1.38, "grad_norm": 15.491660118103027, "learning_rate": 9.458666666666666e-06, "loss": 2.8148, "step": 5175 }, { "epoch": 1.3866666666666667, "grad_norm": 14.682394027709961, "learning_rate": 9.449142857142859e-06, "loss": 2.8132, "step": 5200 }, { "epoch": 1.3933333333333333, "grad_norm": 14.761981964111328, "learning_rate": 9.43961904761905e-06, "loss": 2.833, "step": 5225 }, { "epoch": 1.4, "grad_norm": 14.941573143005371, "learning_rate": 9.43009523809524e-06, "loss": 2.7797, "step": 5250 }, { "epoch": 1.4066666666666667, "grad_norm": 15.968378067016602, "learning_rate": 9.420571428571429e-06, "loss": 2.8002, "step": 5275 }, { "epoch": 1.4133333333333333, "grad_norm": 17.502164840698242, "learning_rate": 9.41104761904762e-06, "loss": 2.8625, "step": 5300 }, { "epoch": 1.42, "grad_norm": 15.159065246582031, "learning_rate": 9.40152380952381e-06, "loss": 2.9231, "step": 5325 }, { "epoch": 1.4266666666666667, "grad_norm": 16.222482681274414, "learning_rate": 9.392000000000001e-06, "loss": 2.8064, "step": 5350 }, { "epoch": 1.4333333333333333, "grad_norm": 15.661250114440918, "learning_rate": 9.382476190476192e-06, "loss": 2.8015, "step": 5375 }, { "epoch": 1.44, "grad_norm": 15.376479148864746, "learning_rate": 9.372952380952382e-06, "loss": 2.7789, "step": 5400 }, { "epoch": 1.4466666666666668, "grad_norm": 15.666557312011719, "learning_rate": 9.363428571428573e-06, "loss": 2.8137, "step": 5425 }, { "epoch": 1.4533333333333334, "grad_norm": 14.985384941101074, "learning_rate": 9.353904761904763e-06, "loss": 2.8204, "step": 5450 }, { "epoch": 1.46, "grad_norm": 15.255988121032715, "learning_rate": 9.344380952380954e-06, "loss": 2.8177, "step": 5475 }, { "epoch": 1.4666666666666668, "grad_norm": 15.279163360595703, "learning_rate": 9.334857142857143e-06, "loss": 2.7809, "step": 5500 }, { "epoch": 1.4733333333333334, "grad_norm": 15.758094787597656, "learning_rate": 9.325333333333334e-06, "loss": 2.7721, "step": 5525 }, { "epoch": 1.48, "grad_norm": 15.303472518920898, "learning_rate": 9.315809523809524e-06, "loss": 2.7369, "step": 5550 }, { "epoch": 1.4866666666666668, "grad_norm": 14.12653636932373, "learning_rate": 9.306666666666667e-06, "loss": 2.8046, "step": 5575 }, { "epoch": 1.4933333333333334, "grad_norm": 16.355955123901367, "learning_rate": 9.297142857142857e-06, "loss": 2.7826, "step": 5600 }, { "epoch": 1.5, "grad_norm": 15.703051567077637, "learning_rate": 9.287619047619048e-06, "loss": 2.764, "step": 5625 }, { "epoch": 1.5066666666666668, "grad_norm": 14.937501907348633, "learning_rate": 9.278095238095239e-06, "loss": 2.7853, "step": 5650 }, { "epoch": 1.5133333333333332, "grad_norm": 15.161550521850586, "learning_rate": 9.26857142857143e-06, "loss": 2.8154, "step": 5675 }, { "epoch": 1.52, "grad_norm": 13.784395217895508, "learning_rate": 9.25904761904762e-06, "loss": 2.8277, "step": 5700 }, { "epoch": 1.5266666666666666, "grad_norm": 16.851037979125977, "learning_rate": 9.24952380952381e-06, "loss": 2.7976, "step": 5725 }, { "epoch": 1.5333333333333332, "grad_norm": 15.013668060302734, "learning_rate": 9.240000000000001e-06, "loss": 2.7789, "step": 5750 }, { "epoch": 1.54, "grad_norm": 14.692750930786133, "learning_rate": 9.23047619047619e-06, "loss": 2.8157, "step": 5775 }, { "epoch": 1.5466666666666666, "grad_norm": 16.002431869506836, "learning_rate": 9.220952380952381e-06, "loss": 2.7956, "step": 5800 }, { "epoch": 1.5533333333333332, "grad_norm": 15.191936492919922, "learning_rate": 9.211428571428572e-06, "loss": 2.7354, "step": 5825 }, { "epoch": 1.56, "grad_norm": 16.137405395507812, "learning_rate": 9.201904761904762e-06, "loss": 2.7609, "step": 5850 }, { "epoch": 1.5666666666666667, "grad_norm": 15.041069030761719, "learning_rate": 9.192380952380953e-06, "loss": 2.7189, "step": 5875 }, { "epoch": 1.5733333333333333, "grad_norm": 15.292970657348633, "learning_rate": 9.182857142857144e-06, "loss": 2.726, "step": 5900 }, { "epoch": 1.58, "grad_norm": 16.371871948242188, "learning_rate": 9.173333333333334e-06, "loss": 2.72, "step": 5925 }, { "epoch": 1.5866666666666667, "grad_norm": 14.895946502685547, "learning_rate": 9.163809523809525e-06, "loss": 2.7343, "step": 5950 }, { "epoch": 1.5933333333333333, "grad_norm": 14.624077796936035, "learning_rate": 9.154285714285715e-06, "loss": 2.7201, "step": 5975 }, { "epoch": 1.6, "grad_norm": 13.526437759399414, "learning_rate": 9.144761904761904e-06, "loss": 2.7043, "step": 6000 }, { "epoch": 1.6066666666666667, "grad_norm": 15.214587211608887, "learning_rate": 9.135238095238095e-06, "loss": 2.7114, "step": 6025 }, { "epoch": 1.6133333333333333, "grad_norm": 15.652507781982422, "learning_rate": 9.125714285714287e-06, "loss": 2.7045, "step": 6050 }, { "epoch": 1.62, "grad_norm": 15.320863723754883, "learning_rate": 9.116190476190478e-06, "loss": 2.7613, "step": 6075 }, { "epoch": 1.6266666666666667, "grad_norm": 14.970831871032715, "learning_rate": 9.106666666666667e-06, "loss": 2.6921, "step": 6100 }, { "epoch": 1.6333333333333333, "grad_norm": 14.515832901000977, "learning_rate": 9.097142857142858e-06, "loss": 2.6593, "step": 6125 }, { "epoch": 1.6400000000000001, "grad_norm": 16.8050479888916, "learning_rate": 9.087619047619048e-06, "loss": 2.6954, "step": 6150 }, { "epoch": 1.6466666666666665, "grad_norm": 14.855195999145508, "learning_rate": 9.078095238095239e-06, "loss": 2.663, "step": 6175 }, { "epoch": 1.6533333333333333, "grad_norm": 16.569271087646484, "learning_rate": 9.06857142857143e-06, "loss": 2.7177, "step": 6200 }, { "epoch": 1.6600000000000001, "grad_norm": 16.916584014892578, "learning_rate": 9.05904761904762e-06, "loss": 2.6909, "step": 6225 }, { "epoch": 1.6666666666666665, "grad_norm": 16.045894622802734, "learning_rate": 9.049523809523811e-06, "loss": 2.6489, "step": 6250 }, { "epoch": 1.6733333333333333, "grad_norm": 15.664050102233887, "learning_rate": 9.040000000000002e-06, "loss": 2.6834, "step": 6275 }, { "epoch": 1.6800000000000002, "grad_norm": 16.403032302856445, "learning_rate": 9.030476190476192e-06, "loss": 2.6482, "step": 6300 }, { "epoch": 1.6866666666666665, "grad_norm": 15.071056365966797, "learning_rate": 9.020952380952381e-06, "loss": 2.7023, "step": 6325 }, { "epoch": 1.6933333333333334, "grad_norm": 16.039731979370117, "learning_rate": 9.011428571428572e-06, "loss": 2.6596, "step": 6350 }, { "epoch": 1.7, "grad_norm": 15.66250991821289, "learning_rate": 9.001904761904762e-06, "loss": 2.6826, "step": 6375 }, { "epoch": 1.7066666666666666, "grad_norm": 15.58034896850586, "learning_rate": 8.992380952380953e-06, "loss": 2.6642, "step": 6400 }, { "epoch": 1.7133333333333334, "grad_norm": 15.05388355255127, "learning_rate": 8.982857142857144e-06, "loss": 2.6539, "step": 6425 }, { "epoch": 1.72, "grad_norm": 15.941282272338867, "learning_rate": 8.973333333333334e-06, "loss": 2.6797, "step": 6450 }, { "epoch": 1.7266666666666666, "grad_norm": 15.509122848510742, "learning_rate": 8.963809523809525e-06, "loss": 2.601, "step": 6475 }, { "epoch": 1.7333333333333334, "grad_norm": 15.685277938842773, "learning_rate": 8.954285714285716e-06, "loss": 2.6114, "step": 6500 }, { "epoch": 1.74, "grad_norm": 15.550046920776367, "learning_rate": 8.944761904761905e-06, "loss": 2.5971, "step": 6525 }, { "epoch": 1.7466666666666666, "grad_norm": 17.410724639892578, "learning_rate": 8.935238095238095e-06, "loss": 2.5952, "step": 6550 }, { "epoch": 1.7533333333333334, "grad_norm": 21.167373657226562, "learning_rate": 8.925714285714286e-06, "loss": 2.6197, "step": 6575 }, { "epoch": 1.76, "grad_norm": 17.370641708374023, "learning_rate": 8.916190476190477e-06, "loss": 2.6445, "step": 6600 }, { "epoch": 1.7666666666666666, "grad_norm": 15.973102569580078, "learning_rate": 8.906666666666667e-06, "loss": 2.5955, "step": 6625 }, { "epoch": 1.7733333333333334, "grad_norm": 17.871570587158203, "learning_rate": 8.897142857142858e-06, "loss": 2.5929, "step": 6650 }, { "epoch": 1.78, "grad_norm": 19.134374618530273, "learning_rate": 8.887619047619049e-06, "loss": 2.6007, "step": 6675 }, { "epoch": 1.7866666666666666, "grad_norm": 17.541624069213867, "learning_rate": 8.87809523809524e-06, "loss": 2.5544, "step": 6700 }, { "epoch": 1.7933333333333334, "grad_norm": 17.06918716430664, "learning_rate": 8.86857142857143e-06, "loss": 2.5859, "step": 6725 }, { "epoch": 1.8, "grad_norm": 19.87891960144043, "learning_rate": 8.859047619047619e-06, "loss": 2.5388, "step": 6750 }, { "epoch": 1.8066666666666666, "grad_norm": 19.734249114990234, "learning_rate": 8.84952380952381e-06, "loss": 2.5038, "step": 6775 }, { "epoch": 1.8133333333333335, "grad_norm": 17.624277114868164, "learning_rate": 8.84e-06, "loss": 2.5568, "step": 6800 }, { "epoch": 1.8199999999999998, "grad_norm": 21.498424530029297, "learning_rate": 8.83047619047619e-06, "loss": 2.451, "step": 6825 }, { "epoch": 1.8266666666666667, "grad_norm": 20.936748504638672, "learning_rate": 8.820952380952381e-06, "loss": 2.4753, "step": 6850 }, { "epoch": 1.8333333333333335, "grad_norm": 18.459327697753906, "learning_rate": 8.811428571428572e-06, "loss": 2.4602, "step": 6875 }, { "epoch": 1.8399999999999999, "grad_norm": 20.695613861083984, "learning_rate": 8.801904761904763e-06, "loss": 2.4295, "step": 6900 }, { "epoch": 1.8466666666666667, "grad_norm": 20.679420471191406, "learning_rate": 8.792380952380953e-06, "loss": 2.4032, "step": 6925 }, { "epoch": 1.8533333333333335, "grad_norm": 26.248443603515625, "learning_rate": 8.782857142857144e-06, "loss": 2.3623, "step": 6950 }, { "epoch": 1.8599999999999999, "grad_norm": 21.446977615356445, "learning_rate": 8.773333333333333e-06, "loss": 2.2945, "step": 6975 }, { "epoch": 1.8666666666666667, "grad_norm": 21.89762306213379, "learning_rate": 8.763809523809525e-06, "loss": 2.2713, "step": 7000 }, { "epoch": 1.8733333333333333, "grad_norm": 19.259815216064453, "learning_rate": 8.754285714285716e-06, "loss": 2.2296, "step": 7025 }, { "epoch": 1.88, "grad_norm": 22.30799102783203, "learning_rate": 8.744761904761907e-06, "loss": 2.1756, "step": 7050 }, { "epoch": 1.8866666666666667, "grad_norm": 20.378265380859375, "learning_rate": 8.735238095238096e-06, "loss": 2.141, "step": 7075 }, { "epoch": 1.8933333333333333, "grad_norm": 21.271697998046875, "learning_rate": 8.725714285714286e-06, "loss": 2.1482, "step": 7100 }, { "epoch": 1.9, "grad_norm": 22.79062843322754, "learning_rate": 8.716190476190477e-06, "loss": 2.0361, "step": 7125 }, { "epoch": 1.9066666666666667, "grad_norm": 22.83106231689453, "learning_rate": 8.706666666666667e-06, "loss": 2.0958, "step": 7150 }, { "epoch": 1.9133333333333333, "grad_norm": 25.06936264038086, "learning_rate": 8.697142857142858e-06, "loss": 2.0034, "step": 7175 }, { "epoch": 1.92, "grad_norm": 22.417844772338867, "learning_rate": 8.687619047619049e-06, "loss": 1.9433, "step": 7200 }, { "epoch": 1.9266666666666667, "grad_norm": 25.733739852905273, "learning_rate": 8.67809523809524e-06, "loss": 1.9085, "step": 7225 }, { "epoch": 1.9333333333333333, "grad_norm": 24.351856231689453, "learning_rate": 8.66857142857143e-06, "loss": 1.9861, "step": 7250 }, { "epoch": 1.94, "grad_norm": 24.161588668823242, "learning_rate": 8.65904761904762e-06, "loss": 1.8781, "step": 7275 }, { "epoch": 1.9466666666666668, "grad_norm": 20.81451988220215, "learning_rate": 8.64952380952381e-06, "loss": 1.8516, "step": 7300 }, { "epoch": 1.9533333333333334, "grad_norm": 20.2042179107666, "learning_rate": 8.64e-06, "loss": 1.8246, "step": 7325 }, { "epoch": 1.96, "grad_norm": 23.346105575561523, "learning_rate": 8.630476190476191e-06, "loss": 1.7781, "step": 7350 }, { "epoch": 1.9666666666666668, "grad_norm": 21.258525848388672, "learning_rate": 8.620952380952382e-06, "loss": 1.7837, "step": 7375 }, { "epoch": 1.9733333333333334, "grad_norm": 22.178951263427734, "learning_rate": 8.611428571428572e-06, "loss": 1.8009, "step": 7400 }, { "epoch": 1.98, "grad_norm": 20.251590728759766, "learning_rate": 8.601904761904763e-06, "loss": 1.6948, "step": 7425 }, { "epoch": 1.9866666666666668, "grad_norm": 20.13874053955078, "learning_rate": 8.592380952380954e-06, "loss": 1.7138, "step": 7450 }, { "epoch": 1.9933333333333332, "grad_norm": 24.59872817993164, "learning_rate": 8.582857142857144e-06, "loss": 1.724, "step": 7475 }, { "epoch": 2.0, "grad_norm": 22.774494171142578, "learning_rate": 8.573333333333333e-06, "loss": 1.6561, "step": 7500 }, { "epoch": 2.0, "eval_cer": 85.20582151575573, "eval_loss": 1.6430472135543823, "eval_runtime": 1291.754, "eval_samples_per_second": 3.871, "eval_steps_per_second": 0.484, "step": 7500 }, { "epoch": 2.006666666666667, "grad_norm": 21.72251319885254, "learning_rate": 8.563809523809524e-06, "loss": 1.5521, "step": 7525 }, { "epoch": 2.013333333333333, "grad_norm": 24.857545852661133, "learning_rate": 8.554285714285714e-06, "loss": 1.5048, "step": 7550 }, { "epoch": 2.02, "grad_norm": 23.742414474487305, "learning_rate": 8.544761904761905e-06, "loss": 1.4929, "step": 7575 }, { "epoch": 2.026666666666667, "grad_norm": 20.280258178710938, "learning_rate": 8.535238095238096e-06, "loss": 1.5143, "step": 7600 }, { "epoch": 2.033333333333333, "grad_norm": 18.471202850341797, "learning_rate": 8.525714285714286e-06, "loss": 1.4439, "step": 7625 }, { "epoch": 2.04, "grad_norm": 20.669151306152344, "learning_rate": 8.516190476190477e-06, "loss": 1.4326, "step": 7650 }, { "epoch": 2.046666666666667, "grad_norm": 21.649410247802734, "learning_rate": 8.506666666666668e-06, "loss": 1.4183, "step": 7675 }, { "epoch": 2.0533333333333332, "grad_norm": 20.03469467163086, "learning_rate": 8.497142857142858e-06, "loss": 1.3939, "step": 7700 }, { "epoch": 2.06, "grad_norm": 18.327260971069336, "learning_rate": 8.487619047619047e-06, "loss": 1.4366, "step": 7725 }, { "epoch": 2.066666666666667, "grad_norm": 20.764211654663086, "learning_rate": 8.478095238095238e-06, "loss": 1.3813, "step": 7750 }, { "epoch": 2.0733333333333333, "grad_norm": 21.005420684814453, "learning_rate": 8.468571428571429e-06, "loss": 1.3773, "step": 7775 }, { "epoch": 2.08, "grad_norm": 19.39113426208496, "learning_rate": 8.459047619047621e-06, "loss": 1.3926, "step": 7800 }, { "epoch": 2.086666666666667, "grad_norm": 19.63152313232422, "learning_rate": 8.44952380952381e-06, "loss": 1.3411, "step": 7825 }, { "epoch": 2.0933333333333333, "grad_norm": 27.191076278686523, "learning_rate": 8.44e-06, "loss": 1.3435, "step": 7850 }, { "epoch": 2.1, "grad_norm": 22.037803649902344, "learning_rate": 8.430476190476191e-06, "loss": 1.3049, "step": 7875 }, { "epoch": 2.1066666666666665, "grad_norm": 17.387529373168945, "learning_rate": 8.420952380952382e-06, "loss": 1.3189, "step": 7900 }, { "epoch": 2.1133333333333333, "grad_norm": 20.002685546875, "learning_rate": 8.411428571428572e-06, "loss": 1.3441, "step": 7925 }, { "epoch": 2.12, "grad_norm": 21.194976806640625, "learning_rate": 8.401904761904761e-06, "loss": 1.297, "step": 7950 }, { "epoch": 2.1266666666666665, "grad_norm": 23.783538818359375, "learning_rate": 8.392380952380954e-06, "loss": 1.3094, "step": 7975 }, { "epoch": 2.1333333333333333, "grad_norm": 17.75897789001465, "learning_rate": 8.382857142857144e-06, "loss": 1.3079, "step": 8000 }, { "epoch": 2.14, "grad_norm": 19.98157501220703, "learning_rate": 8.373333333333335e-06, "loss": 1.2982, "step": 8025 }, { "epoch": 2.1466666666666665, "grad_norm": 19.64179229736328, "learning_rate": 8.363809523809524e-06, "loss": 1.2991, "step": 8050 }, { "epoch": 2.1533333333333333, "grad_norm": 19.64181137084961, "learning_rate": 8.354285714285715e-06, "loss": 1.2627, "step": 8075 }, { "epoch": 2.16, "grad_norm": 19.46495246887207, "learning_rate": 8.344761904761905e-06, "loss": 1.2232, "step": 8100 }, { "epoch": 2.1666666666666665, "grad_norm": 18.559446334838867, "learning_rate": 8.335238095238096e-06, "loss": 1.2437, "step": 8125 }, { "epoch": 2.1733333333333333, "grad_norm": 20.764720916748047, "learning_rate": 8.325714285714287e-06, "loss": 1.1861, "step": 8150 }, { "epoch": 2.18, "grad_norm": 17.579256057739258, "learning_rate": 8.316190476190477e-06, "loss": 1.211, "step": 8175 }, { "epoch": 2.1866666666666665, "grad_norm": 19.332504272460938, "learning_rate": 8.306666666666668e-06, "loss": 1.1416, "step": 8200 }, { "epoch": 2.1933333333333334, "grad_norm": 16.559499740600586, "learning_rate": 8.297142857142859e-06, "loss": 1.1602, "step": 8225 }, { "epoch": 2.2, "grad_norm": 24.26013946533203, "learning_rate": 8.28761904761905e-06, "loss": 1.1544, "step": 8250 }, { "epoch": 2.2066666666666666, "grad_norm": 19.228870391845703, "learning_rate": 8.278095238095238e-06, "loss": 1.1855, "step": 8275 }, { "epoch": 2.2133333333333334, "grad_norm": 18.647602081298828, "learning_rate": 8.268571428571429e-06, "loss": 1.1813, "step": 8300 }, { "epoch": 2.22, "grad_norm": 23.611543655395508, "learning_rate": 8.25904761904762e-06, "loss": 1.1737, "step": 8325 }, { "epoch": 2.2266666666666666, "grad_norm": 17.465181350708008, "learning_rate": 8.24952380952381e-06, "loss": 1.1235, "step": 8350 }, { "epoch": 2.2333333333333334, "grad_norm": 18.548580169677734, "learning_rate": 8.24e-06, "loss": 1.1738, "step": 8375 }, { "epoch": 2.24, "grad_norm": 17.74598503112793, "learning_rate": 8.230476190476191e-06, "loss": 1.1135, "step": 8400 }, { "epoch": 2.2466666666666666, "grad_norm": 16.659486770629883, "learning_rate": 8.220952380952382e-06, "loss": 1.1527, "step": 8425 }, { "epoch": 2.2533333333333334, "grad_norm": 19.308677673339844, "learning_rate": 8.211428571428573e-06, "loss": 1.1049, "step": 8450 }, { "epoch": 2.26, "grad_norm": 21.255720138549805, "learning_rate": 8.201904761904762e-06, "loss": 1.1592, "step": 8475 }, { "epoch": 2.2666666666666666, "grad_norm": 21.499372482299805, "learning_rate": 8.192380952380952e-06, "loss": 1.128, "step": 8500 }, { "epoch": 2.2733333333333334, "grad_norm": 15.15613079071045, "learning_rate": 8.182857142857143e-06, "loss": 1.0719, "step": 8525 }, { "epoch": 2.2800000000000002, "grad_norm": 26.03957176208496, "learning_rate": 8.173333333333334e-06, "loss": 1.0468, "step": 8550 }, { "epoch": 2.2866666666666666, "grad_norm": 19.44180679321289, "learning_rate": 8.163809523809524e-06, "loss": 1.0982, "step": 8575 }, { "epoch": 2.2933333333333334, "grad_norm": 17.035982131958008, "learning_rate": 8.154285714285715e-06, "loss": 1.0192, "step": 8600 }, { "epoch": 2.3, "grad_norm": 16.08663558959961, "learning_rate": 8.144761904761906e-06, "loss": 1.0695, "step": 8625 }, { "epoch": 2.3066666666666666, "grad_norm": 16.432701110839844, "learning_rate": 8.135238095238096e-06, "loss": 1.0477, "step": 8650 }, { "epoch": 2.3133333333333335, "grad_norm": 17.620851516723633, "learning_rate": 8.125714285714287e-06, "loss": 1.067, "step": 8675 }, { "epoch": 2.32, "grad_norm": 16.07837677001953, "learning_rate": 8.116190476190476e-06, "loss": 1.0353, "step": 8700 }, { "epoch": 2.3266666666666667, "grad_norm": 18.566041946411133, "learning_rate": 8.106666666666666e-06, "loss": 1.0356, "step": 8725 }, { "epoch": 2.3333333333333335, "grad_norm": 16.481660842895508, "learning_rate": 8.097142857142857e-06, "loss": 1.0434, "step": 8750 }, { "epoch": 2.34, "grad_norm": 19.292743682861328, "learning_rate": 8.08761904761905e-06, "loss": 1.0818, "step": 8775 }, { "epoch": 2.3466666666666667, "grad_norm": 16.750276565551758, "learning_rate": 8.078095238095238e-06, "loss": 1.0227, "step": 8800 }, { "epoch": 2.3533333333333335, "grad_norm": 17.977874755859375, "learning_rate": 8.068571428571429e-06, "loss": 1.0197, "step": 8825 }, { "epoch": 2.36, "grad_norm": 12.541670799255371, "learning_rate": 8.05904761904762e-06, "loss": 0.9321, "step": 8850 }, { "epoch": 2.3666666666666667, "grad_norm": 15.856850624084473, "learning_rate": 8.04952380952381e-06, "loss": 0.9868, "step": 8875 }, { "epoch": 2.3733333333333335, "grad_norm": 18.700733184814453, "learning_rate": 8.040000000000001e-06, "loss": 0.987, "step": 8900 }, { "epoch": 2.38, "grad_norm": 18.325159072875977, "learning_rate": 8.030476190476192e-06, "loss": 0.9587, "step": 8925 }, { "epoch": 2.3866666666666667, "grad_norm": 16.789459228515625, "learning_rate": 8.020952380952382e-06, "loss": 0.9676, "step": 8950 }, { "epoch": 2.3933333333333335, "grad_norm": 36.371524810791016, "learning_rate": 8.011428571428573e-06, "loss": 0.9658, "step": 8975 }, { "epoch": 2.4, "grad_norm": 13.31936264038086, "learning_rate": 8.001904761904764e-06, "loss": 0.9534, "step": 9000 }, { "epoch": 2.4066666666666667, "grad_norm": 19.60676383972168, "learning_rate": 7.992380952380952e-06, "loss": 0.9555, "step": 9025 }, { "epoch": 2.413333333333333, "grad_norm": 19.781579971313477, "learning_rate": 7.982857142857143e-06, "loss": 0.9623, "step": 9050 }, { "epoch": 2.42, "grad_norm": 21.647706985473633, "learning_rate": 7.973333333333334e-06, "loss": 0.9373, "step": 9075 }, { "epoch": 2.4266666666666667, "grad_norm": 15.396468162536621, "learning_rate": 7.963809523809524e-06, "loss": 0.9939, "step": 9100 }, { "epoch": 2.4333333333333336, "grad_norm": 17.388202667236328, "learning_rate": 7.954285714285715e-06, "loss": 0.9188, "step": 9125 }, { "epoch": 2.44, "grad_norm": 14.921174049377441, "learning_rate": 7.944761904761906e-06, "loss": 0.9327, "step": 9150 }, { "epoch": 2.4466666666666668, "grad_norm": 14.29991626739502, "learning_rate": 7.935238095238096e-06, "loss": 0.9467, "step": 9175 }, { "epoch": 2.453333333333333, "grad_norm": 13.538517951965332, "learning_rate": 7.925714285714287e-06, "loss": 0.9375, "step": 9200 }, { "epoch": 2.46, "grad_norm": 19.90230369567871, "learning_rate": 7.916190476190478e-06, "loss": 0.9452, "step": 9225 }, { "epoch": 2.466666666666667, "grad_norm": 20.52109146118164, "learning_rate": 7.906666666666667e-06, "loss": 0.9066, "step": 9250 }, { "epoch": 2.473333333333333, "grad_norm": 16.991846084594727, "learning_rate": 7.897142857142857e-06, "loss": 0.9738, "step": 9275 }, { "epoch": 2.48, "grad_norm": 16.660017013549805, "learning_rate": 7.887619047619048e-06, "loss": 0.9679, "step": 9300 }, { "epoch": 2.486666666666667, "grad_norm": 15.083931922912598, "learning_rate": 7.878095238095239e-06, "loss": 0.9257, "step": 9325 }, { "epoch": 2.493333333333333, "grad_norm": 16.560958862304688, "learning_rate": 7.86857142857143e-06, "loss": 0.9328, "step": 9350 }, { "epoch": 2.5, "grad_norm": 15.985716819763184, "learning_rate": 7.85904761904762e-06, "loss": 0.915, "step": 9375 }, { "epoch": 2.506666666666667, "grad_norm": 17.66083335876465, "learning_rate": 7.84952380952381e-06, "loss": 0.8828, "step": 9400 }, { "epoch": 2.513333333333333, "grad_norm": 14.97205924987793, "learning_rate": 7.840000000000001e-06, "loss": 0.9245, "step": 9425 }, { "epoch": 2.52, "grad_norm": 18.706052780151367, "learning_rate": 7.83047619047619e-06, "loss": 0.8524, "step": 9450 }, { "epoch": 2.5266666666666664, "grad_norm": 16.212459564208984, "learning_rate": 7.82095238095238e-06, "loss": 0.8586, "step": 9475 }, { "epoch": 2.533333333333333, "grad_norm": 24.34148597717285, "learning_rate": 7.811428571428571e-06, "loss": 0.8614, "step": 9500 }, { "epoch": 2.54, "grad_norm": 18.911888122558594, "learning_rate": 7.801904761904762e-06, "loss": 0.8959, "step": 9525 }, { "epoch": 2.546666666666667, "grad_norm": 18.964923858642578, "learning_rate": 7.792380952380953e-06, "loss": 0.8687, "step": 9550 }, { "epoch": 2.5533333333333332, "grad_norm": 20.443340301513672, "learning_rate": 7.782857142857143e-06, "loss": 0.9284, "step": 9575 }, { "epoch": 2.56, "grad_norm": 22.8977108001709, "learning_rate": 7.773333333333334e-06, "loss": 0.8521, "step": 9600 }, { "epoch": 2.5666666666666664, "grad_norm": 16.601375579833984, "learning_rate": 7.763809523809525e-06, "loss": 0.8617, "step": 9625 }, { "epoch": 2.5733333333333333, "grad_norm": 18.812374114990234, "learning_rate": 7.754285714285715e-06, "loss": 0.8362, "step": 9650 }, { "epoch": 2.58, "grad_norm": 15.763120651245117, "learning_rate": 7.744761904761904e-06, "loss": 0.9069, "step": 9675 }, { "epoch": 2.586666666666667, "grad_norm": 14.80455493927002, "learning_rate": 7.735238095238095e-06, "loss": 0.8381, "step": 9700 }, { "epoch": 2.5933333333333333, "grad_norm": 15.583468437194824, "learning_rate": 7.725714285714286e-06, "loss": 0.8232, "step": 9725 }, { "epoch": 2.6, "grad_norm": 16.805784225463867, "learning_rate": 7.716190476190478e-06, "loss": 0.8718, "step": 9750 }, { "epoch": 2.6066666666666665, "grad_norm": 17.254684448242188, "learning_rate": 7.70704761904762e-06, "loss": 0.8173, "step": 9775 }, { "epoch": 2.6133333333333333, "grad_norm": 17.339216232299805, "learning_rate": 7.697523809523811e-06, "loss": 0.8544, "step": 9800 }, { "epoch": 2.62, "grad_norm": 16.181737899780273, "learning_rate": 7.688000000000002e-06, "loss": 0.8496, "step": 9825 }, { "epoch": 2.626666666666667, "grad_norm": 23.451120376586914, "learning_rate": 7.67847619047619e-06, "loss": 0.8601, "step": 9850 }, { "epoch": 2.6333333333333333, "grad_norm": 17.556760787963867, "learning_rate": 7.668952380952381e-06, "loss": 0.8073, "step": 9875 }, { "epoch": 2.64, "grad_norm": 13.397366523742676, "learning_rate": 7.659428571428572e-06, "loss": 0.7708, "step": 9900 }, { "epoch": 2.6466666666666665, "grad_norm": 15.331355094909668, "learning_rate": 7.649904761904763e-06, "loss": 0.8678, "step": 9925 }, { "epoch": 2.6533333333333333, "grad_norm": 22.748388290405273, "learning_rate": 7.640380952380953e-06, "loss": 0.8321, "step": 9950 }, { "epoch": 2.66, "grad_norm": 14.289133071899414, "learning_rate": 7.630857142857144e-06, "loss": 0.8364, "step": 9975 }, { "epoch": 2.6666666666666665, "grad_norm": 14.232532501220703, "learning_rate": 7.621333333333334e-06, "loss": 0.8152, "step": 10000 }, { "epoch": 2.6733333333333333, "grad_norm": 18.901473999023438, "learning_rate": 7.611809523809524e-06, "loss": 0.8256, "step": 10025 }, { "epoch": 2.68, "grad_norm": 14.100142478942871, "learning_rate": 7.602285714285716e-06, "loss": 0.8257, "step": 10050 }, { "epoch": 2.6866666666666665, "grad_norm": 23.852811813354492, "learning_rate": 7.592761904761905e-06, "loss": 0.804, "step": 10075 }, { "epoch": 2.6933333333333334, "grad_norm": 14.610326766967773, "learning_rate": 7.583238095238095e-06, "loss": 0.8265, "step": 10100 }, { "epoch": 2.7, "grad_norm": 16.519493103027344, "learning_rate": 7.573714285714287e-06, "loss": 0.7969, "step": 10125 }, { "epoch": 2.7066666666666666, "grad_norm": 13.103989601135254, "learning_rate": 7.5641904761904775e-06, "loss": 0.7824, "step": 10150 }, { "epoch": 2.7133333333333334, "grad_norm": 16.233348846435547, "learning_rate": 7.5546666666666664e-06, "loss": 0.7781, "step": 10175 }, { "epoch": 2.7199999999999998, "grad_norm": 14.265790939331055, "learning_rate": 7.545142857142858e-06, "loss": 0.8042, "step": 10200 }, { "epoch": 2.7266666666666666, "grad_norm": 15.835118293762207, "learning_rate": 7.535619047619049e-06, "loss": 0.778, "step": 10225 }, { "epoch": 2.7333333333333334, "grad_norm": 11.902713775634766, "learning_rate": 7.526095238095239e-06, "loss": 0.774, "step": 10250 }, { "epoch": 2.74, "grad_norm": 14.61591911315918, "learning_rate": 7.51657142857143e-06, "loss": 0.7286, "step": 10275 }, { "epoch": 2.7466666666666666, "grad_norm": 13.630928993225098, "learning_rate": 7.50704761904762e-06, "loss": 0.788, "step": 10300 }, { "epoch": 2.7533333333333334, "grad_norm": 12.521477699279785, "learning_rate": 7.49752380952381e-06, "loss": 0.7951, "step": 10325 }, { "epoch": 2.76, "grad_norm": 14.075329780578613, "learning_rate": 7.488000000000001e-06, "loss": 0.7652, "step": 10350 }, { "epoch": 2.7666666666666666, "grad_norm": 16.04081916809082, "learning_rate": 7.478476190476192e-06, "loss": 0.8195, "step": 10375 }, { "epoch": 2.7733333333333334, "grad_norm": 15.245556831359863, "learning_rate": 7.4689523809523814e-06, "loss": 0.7909, "step": 10400 }, { "epoch": 2.7800000000000002, "grad_norm": 12.039647102355957, "learning_rate": 7.459428571428572e-06, "loss": 0.759, "step": 10425 }, { "epoch": 2.7866666666666666, "grad_norm": 17.73645782470703, "learning_rate": 7.449904761904763e-06, "loss": 0.7309, "step": 10450 }, { "epoch": 2.7933333333333334, "grad_norm": 14.004542350769043, "learning_rate": 7.440380952380953e-06, "loss": 0.7602, "step": 10475 }, { "epoch": 2.8, "grad_norm": 21.14010238647461, "learning_rate": 7.430857142857143e-06, "loss": 0.7763, "step": 10500 }, { "epoch": 2.8066666666666666, "grad_norm": 12.930566787719727, "learning_rate": 7.421333333333334e-06, "loss": 0.7934, "step": 10525 }, { "epoch": 2.8133333333333335, "grad_norm": 16.246450424194336, "learning_rate": 7.4118095238095245e-06, "loss": 0.8018, "step": 10550 }, { "epoch": 2.82, "grad_norm": 13.830098152160645, "learning_rate": 7.402285714285715e-06, "loss": 0.7506, "step": 10575 }, { "epoch": 2.8266666666666667, "grad_norm": 14.244074821472168, "learning_rate": 7.392761904761906e-06, "loss": 0.721, "step": 10600 }, { "epoch": 2.8333333333333335, "grad_norm": 15.578310012817383, "learning_rate": 7.3832380952380956e-06, "loss": 0.7496, "step": 10625 }, { "epoch": 2.84, "grad_norm": 12.770796775817871, "learning_rate": 7.373714285714286e-06, "loss": 0.7456, "step": 10650 }, { "epoch": 2.8466666666666667, "grad_norm": 11.505680084228516, "learning_rate": 7.364190476190477e-06, "loss": 0.7252, "step": 10675 }, { "epoch": 2.8533333333333335, "grad_norm": 12.899063110351562, "learning_rate": 7.3546666666666675e-06, "loss": 0.7547, "step": 10700 }, { "epoch": 2.86, "grad_norm": 14.14664077758789, "learning_rate": 7.345142857142857e-06, "loss": 0.7067, "step": 10725 }, { "epoch": 2.8666666666666667, "grad_norm": 14.525100708007812, "learning_rate": 7.335619047619048e-06, "loss": 0.7731, "step": 10750 }, { "epoch": 2.873333333333333, "grad_norm": 14.24284553527832, "learning_rate": 7.326095238095239e-06, "loss": 0.7254, "step": 10775 }, { "epoch": 2.88, "grad_norm": 36.18721389770508, "learning_rate": 7.316571428571429e-06, "loss": 0.7324, "step": 10800 }, { "epoch": 2.8866666666666667, "grad_norm": 14.527095794677734, "learning_rate": 7.307047619047619e-06, "loss": 0.6897, "step": 10825 }, { "epoch": 2.8933333333333335, "grad_norm": 13.494621276855469, "learning_rate": 7.29752380952381e-06, "loss": 0.7254, "step": 10850 }, { "epoch": 2.9, "grad_norm": 15.90636920928955, "learning_rate": 7.288e-06, "loss": 0.744, "step": 10875 }, { "epoch": 2.9066666666666667, "grad_norm": 13.090533256530762, "learning_rate": 7.278476190476191e-06, "loss": 0.7289, "step": 10900 }, { "epoch": 2.913333333333333, "grad_norm": 13.988637924194336, "learning_rate": 7.2689523809523825e-06, "loss": 0.7299, "step": 10925 }, { "epoch": 2.92, "grad_norm": 11.810433387756348, "learning_rate": 7.2594285714285715e-06, "loss": 0.6893, "step": 10950 }, { "epoch": 2.9266666666666667, "grad_norm": 13.123891830444336, "learning_rate": 7.249904761904762e-06, "loss": 0.7279, "step": 10975 }, { "epoch": 2.9333333333333336, "grad_norm": 11.19420337677002, "learning_rate": 7.240380952380954e-06, "loss": 0.7008, "step": 11000 }, { "epoch": 2.94, "grad_norm": 14.414654731750488, "learning_rate": 7.230857142857144e-06, "loss": 0.6872, "step": 11025 }, { "epoch": 2.9466666666666668, "grad_norm": 12.047042846679688, "learning_rate": 7.221333333333333e-06, "loss": 0.7461, "step": 11050 }, { "epoch": 2.953333333333333, "grad_norm": 13.584476470947266, "learning_rate": 7.211809523809524e-06, "loss": 0.7226, "step": 11075 }, { "epoch": 2.96, "grad_norm": 12.409360885620117, "learning_rate": 7.202285714285715e-06, "loss": 0.741, "step": 11100 }, { "epoch": 2.966666666666667, "grad_norm": 13.979641914367676, "learning_rate": 7.192761904761906e-06, "loss": 0.7314, "step": 11125 }, { "epoch": 2.9733333333333336, "grad_norm": 14.536526679992676, "learning_rate": 7.183238095238095e-06, "loss": 0.7159, "step": 11150 }, { "epoch": 2.98, "grad_norm": 13.338594436645508, "learning_rate": 7.1737142857142864e-06, "loss": 0.7088, "step": 11175 }, { "epoch": 2.986666666666667, "grad_norm": 12.788614273071289, "learning_rate": 7.164190476190477e-06, "loss": 0.6995, "step": 11200 }, { "epoch": 2.993333333333333, "grad_norm": 13.434025764465332, "learning_rate": 7.154666666666668e-06, "loss": 0.7147, "step": 11225 }, { "epoch": 3.0, "grad_norm": 13.347412109375, "learning_rate": 7.145142857142858e-06, "loss": 0.6747, "step": 11250 }, { "epoch": 3.0, "eval_cer": 43.907347706986194, "eval_loss": 0.7232913970947266, "eval_runtime": 1261.505, "eval_samples_per_second": 3.964, "eval_steps_per_second": 0.495, "step": 11250 }, { "epoch": 3.006666666666667, "grad_norm": 10.932097434997559, "learning_rate": 7.135619047619048e-06, "loss": 0.5704, "step": 11275 }, { "epoch": 3.013333333333333, "grad_norm": 23.27174949645996, "learning_rate": 7.126095238095239e-06, "loss": 0.5769, "step": 11300 }, { "epoch": 3.02, "grad_norm": 12.363672256469727, "learning_rate": 7.1165714285714295e-06, "loss": 0.6197, "step": 11325 }, { "epoch": 3.026666666666667, "grad_norm": 12.380434036254883, "learning_rate": 7.10704761904762e-06, "loss": 0.5568, "step": 11350 }, { "epoch": 3.033333333333333, "grad_norm": 13.766298294067383, "learning_rate": 7.09752380952381e-06, "loss": 0.5933, "step": 11375 }, { "epoch": 3.04, "grad_norm": 13.553096771240234, "learning_rate": 7.088000000000001e-06, "loss": 0.5799, "step": 11400 }, { "epoch": 3.046666666666667, "grad_norm": 12.548795700073242, "learning_rate": 7.078476190476191e-06, "loss": 0.5507, "step": 11425 }, { "epoch": 3.0533333333333332, "grad_norm": 11.907742500305176, "learning_rate": 7.068952380952382e-06, "loss": 0.5613, "step": 11450 }, { "epoch": 3.06, "grad_norm": 12.945084571838379, "learning_rate": 7.059428571428572e-06, "loss": 0.5787, "step": 11475 }, { "epoch": 3.066666666666667, "grad_norm": 14.367377281188965, "learning_rate": 7.049904761904762e-06, "loss": 0.5677, "step": 11500 }, { "epoch": 3.0733333333333333, "grad_norm": 11.337150573730469, "learning_rate": 7.040380952380953e-06, "loss": 0.5532, "step": 11525 }, { "epoch": 3.08, "grad_norm": 13.593541145324707, "learning_rate": 7.030857142857144e-06, "loss": 0.5492, "step": 11550 }, { "epoch": 3.086666666666667, "grad_norm": 10.055680274963379, "learning_rate": 7.021333333333334e-06, "loss": 0.5865, "step": 11575 }, { "epoch": 3.0933333333333333, "grad_norm": 11.944361686706543, "learning_rate": 7.011809523809524e-06, "loss": 0.5468, "step": 11600 }, { "epoch": 3.1, "grad_norm": 13.907061576843262, "learning_rate": 7.002285714285715e-06, "loss": 0.5504, "step": 11625 }, { "epoch": 3.1066666666666665, "grad_norm": 14.123797416687012, "learning_rate": 6.992761904761905e-06, "loss": 0.5492, "step": 11650 }, { "epoch": 3.1133333333333333, "grad_norm": 13.510729789733887, "learning_rate": 6.983238095238096e-06, "loss": 0.5583, "step": 11675 }, { "epoch": 3.12, "grad_norm": 13.51006031036377, "learning_rate": 6.973714285714286e-06, "loss": 0.5617, "step": 11700 }, { "epoch": 3.1266666666666665, "grad_norm": 13.439215660095215, "learning_rate": 6.9641904761904765e-06, "loss": 0.6103, "step": 11725 }, { "epoch": 3.1333333333333333, "grad_norm": 11.902543067932129, "learning_rate": 6.954666666666667e-06, "loss": 0.5653, "step": 11750 }, { "epoch": 3.14, "grad_norm": 12.016777038574219, "learning_rate": 6.945142857142858e-06, "loss": 0.5509, "step": 11775 }, { "epoch": 3.1466666666666665, "grad_norm": 34.347877502441406, "learning_rate": 6.9356190476190476e-06, "loss": 0.5588, "step": 11800 }, { "epoch": 3.1533333333333333, "grad_norm": 11.136969566345215, "learning_rate": 6.926095238095238e-06, "loss": 0.5664, "step": 11825 }, { "epoch": 3.16, "grad_norm": 11.413399696350098, "learning_rate": 6.916571428571429e-06, "loss": 0.555, "step": 11850 }, { "epoch": 3.1666666666666665, "grad_norm": 12.507035255432129, "learning_rate": 6.9070476190476195e-06, "loss": 0.5678, "step": 11875 }, { "epoch": 3.1733333333333333, "grad_norm": 11.85084056854248, "learning_rate": 6.897523809523811e-06, "loss": 0.5321, "step": 11900 }, { "epoch": 3.18, "grad_norm": 13.369975090026855, "learning_rate": 6.888e-06, "loss": 0.5406, "step": 11925 }, { "epoch": 3.1866666666666665, "grad_norm": 13.31795883178711, "learning_rate": 6.878476190476191e-06, "loss": 0.5596, "step": 11950 }, { "epoch": 3.1933333333333334, "grad_norm": 10.989060401916504, "learning_rate": 6.868952380952382e-06, "loss": 0.5254, "step": 11975 }, { "epoch": 3.2, "grad_norm": 10.762794494628906, "learning_rate": 6.859428571428573e-06, "loss": 0.5777, "step": 12000 }, { "epoch": 3.2066666666666666, "grad_norm": 9.50446605682373, "learning_rate": 6.849904761904762e-06, "loss": 0.5715, "step": 12025 }, { "epoch": 3.2133333333333334, "grad_norm": 11.490256309509277, "learning_rate": 6.840380952380953e-06, "loss": 0.5705, "step": 12050 }, { "epoch": 3.22, "grad_norm": 11.831136703491211, "learning_rate": 6.830857142857144e-06, "loss": 0.5495, "step": 12075 }, { "epoch": 3.2266666666666666, "grad_norm": 13.110748291015625, "learning_rate": 6.8213333333333345e-06, "loss": 0.5425, "step": 12100 }, { "epoch": 3.2333333333333334, "grad_norm": 9.745580673217773, "learning_rate": 6.811809523809524e-06, "loss": 0.5554, "step": 12125 }, { "epoch": 3.24, "grad_norm": 15.12016773223877, "learning_rate": 6.802285714285715e-06, "loss": 0.5716, "step": 12150 }, { "epoch": 3.2466666666666666, "grad_norm": 10.956692695617676, "learning_rate": 6.792761904761906e-06, "loss": 0.541, "step": 12175 }, { "epoch": 3.2533333333333334, "grad_norm": 11.631577491760254, "learning_rate": 6.783238095238096e-06, "loss": 0.5504, "step": 12200 }, { "epoch": 3.26, "grad_norm": 12.644004821777344, "learning_rate": 6.773714285714287e-06, "loss": 0.5182, "step": 12225 }, { "epoch": 3.2666666666666666, "grad_norm": 11.689079284667969, "learning_rate": 6.764190476190477e-06, "loss": 0.5606, "step": 12250 }, { "epoch": 3.2733333333333334, "grad_norm": 10.723401069641113, "learning_rate": 6.754666666666667e-06, "loss": 0.5584, "step": 12275 }, { "epoch": 3.2800000000000002, "grad_norm": 11.894420623779297, "learning_rate": 6.745142857142858e-06, "loss": 0.5621, "step": 12300 }, { "epoch": 3.2866666666666666, "grad_norm": 10.916996955871582, "learning_rate": 6.735619047619049e-06, "loss": 0.532, "step": 12325 }, { "epoch": 3.2933333333333334, "grad_norm": 12.169909477233887, "learning_rate": 6.7260952380952384e-06, "loss": 0.53, "step": 12350 }, { "epoch": 3.3, "grad_norm": 12.034927368164062, "learning_rate": 6.716571428571429e-06, "loss": 0.5134, "step": 12375 }, { "epoch": 3.3066666666666666, "grad_norm": 13.085915565490723, "learning_rate": 6.70704761904762e-06, "loss": 0.543, "step": 12400 }, { "epoch": 3.3133333333333335, "grad_norm": 9.608105659484863, "learning_rate": 6.69752380952381e-06, "loss": 0.536, "step": 12425 }, { "epoch": 3.32, "grad_norm": 11.812207221984863, "learning_rate": 6.688e-06, "loss": 0.5241, "step": 12450 }, { "epoch": 3.3266666666666667, "grad_norm": 11.860315322875977, "learning_rate": 6.678476190476191e-06, "loss": 0.5448, "step": 12475 }, { "epoch": 3.3333333333333335, "grad_norm": 13.083221435546875, "learning_rate": 6.6689523809523815e-06, "loss": 0.5246, "step": 12500 }, { "epoch": 3.34, "grad_norm": 11.197969436645508, "learning_rate": 6.659428571428572e-06, "loss": 0.5247, "step": 12525 }, { "epoch": 3.3466666666666667, "grad_norm": 11.330422401428223, "learning_rate": 6.649904761904763e-06, "loss": 0.4951, "step": 12550 }, { "epoch": 3.3533333333333335, "grad_norm": 11.400931358337402, "learning_rate": 6.6403809523809526e-06, "loss": 0.5143, "step": 12575 }, { "epoch": 3.36, "grad_norm": 15.868789672851562, "learning_rate": 6.630857142857143e-06, "loss": 0.5361, "step": 12600 }, { "epoch": 3.3666666666666667, "grad_norm": 11.142887115478516, "learning_rate": 6.621333333333334e-06, "loss": 0.5195, "step": 12625 }, { "epoch": 3.3733333333333335, "grad_norm": 14.552379608154297, "learning_rate": 6.6118095238095245e-06, "loss": 0.5345, "step": 12650 }, { "epoch": 3.38, "grad_norm": 10.292083740234375, "learning_rate": 6.602285714285714e-06, "loss": 0.495, "step": 12675 }, { "epoch": 3.3866666666666667, "grad_norm": 11.48479175567627, "learning_rate": 6.592761904761905e-06, "loss": 0.521, "step": 12700 }, { "epoch": 3.3933333333333335, "grad_norm": 10.349550247192383, "learning_rate": 6.583238095238096e-06, "loss": 0.5652, "step": 12725 }, { "epoch": 3.4, "grad_norm": 11.152642250061035, "learning_rate": 6.573714285714286e-06, "loss": 0.5156, "step": 12750 }, { "epoch": 3.4066666666666667, "grad_norm": 11.198227882385254, "learning_rate": 6.564190476190476e-06, "loss": 0.507, "step": 12775 }, { "epoch": 3.413333333333333, "grad_norm": 14.284601211547852, "learning_rate": 6.55504761904762e-06, "loss": 0.5406, "step": 12800 }, { "epoch": 3.42, "grad_norm": 11.75892448425293, "learning_rate": 6.545523809523811e-06, "loss": 0.5071, "step": 12825 }, { "epoch": 3.4266666666666667, "grad_norm": 11.717904090881348, "learning_rate": 6.536e-06, "loss": 0.5075, "step": 12850 }, { "epoch": 3.4333333333333336, "grad_norm": 10.479820251464844, "learning_rate": 6.526476190476191e-06, "loss": 0.5224, "step": 12875 }, { "epoch": 3.44, "grad_norm": 10.502706527709961, "learning_rate": 6.516952380952382e-06, "loss": 0.5349, "step": 12900 }, { "epoch": 3.4466666666666668, "grad_norm": 10.940844535827637, "learning_rate": 6.5074285714285726e-06, "loss": 0.5182, "step": 12925 }, { "epoch": 3.453333333333333, "grad_norm": 11.730142593383789, "learning_rate": 6.497904761904762e-06, "loss": 0.5174, "step": 12950 }, { "epoch": 3.46, "grad_norm": 11.502971649169922, "learning_rate": 6.488380952380953e-06, "loss": 0.5076, "step": 12975 }, { "epoch": 3.466666666666667, "grad_norm": 10.579625129699707, "learning_rate": 6.478857142857144e-06, "loss": 0.4995, "step": 13000 }, { "epoch": 3.473333333333333, "grad_norm": 14.331236839294434, "learning_rate": 6.469333333333334e-06, "loss": 0.5019, "step": 13025 }, { "epoch": 3.48, "grad_norm": 15.147961616516113, "learning_rate": 6.459809523809525e-06, "loss": 0.5331, "step": 13050 }, { "epoch": 3.486666666666667, "grad_norm": 11.135954856872559, "learning_rate": 6.450285714285715e-06, "loss": 0.5133, "step": 13075 }, { "epoch": 3.493333333333333, "grad_norm": 11.029053688049316, "learning_rate": 6.440761904761905e-06, "loss": 0.5043, "step": 13100 }, { "epoch": 3.5, "grad_norm": 13.372457504272461, "learning_rate": 6.431238095238096e-06, "loss": 0.5215, "step": 13125 }, { "epoch": 3.506666666666667, "grad_norm": 12.920971870422363, "learning_rate": 6.421714285714287e-06, "loss": 0.5409, "step": 13150 }, { "epoch": 3.513333333333333, "grad_norm": 12.396445274353027, "learning_rate": 6.4121904761904765e-06, "loss": 0.5121, "step": 13175 }, { "epoch": 3.52, "grad_norm": 14.535351753234863, "learning_rate": 6.402666666666667e-06, "loss": 0.5263, "step": 13200 }, { "epoch": 3.5266666666666664, "grad_norm": 11.163121223449707, "learning_rate": 6.393142857142858e-06, "loss": 0.4883, "step": 13225 }, { "epoch": 3.533333333333333, "grad_norm": 12.310348510742188, "learning_rate": 6.3836190476190484e-06, "loss": 0.5027, "step": 13250 }, { "epoch": 3.54, "grad_norm": 13.119027137756348, "learning_rate": 6.374095238095238e-06, "loss": 0.5299, "step": 13275 }, { "epoch": 3.546666666666667, "grad_norm": 13.820847511291504, "learning_rate": 6.364571428571429e-06, "loss": 0.486, "step": 13300 }, { "epoch": 3.5533333333333332, "grad_norm": 12.355692863464355, "learning_rate": 6.3550476190476195e-06, "loss": 0.5124, "step": 13325 }, { "epoch": 3.56, "grad_norm": 10.519250869750977, "learning_rate": 6.34552380952381e-06, "loss": 0.4806, "step": 13350 }, { "epoch": 3.5666666666666664, "grad_norm": 10.427045822143555, "learning_rate": 6.336000000000001e-06, "loss": 0.5154, "step": 13375 }, { "epoch": 3.5733333333333333, "grad_norm": 12.476083755493164, "learning_rate": 6.326476190476191e-06, "loss": 0.4707, "step": 13400 }, { "epoch": 3.58, "grad_norm": 11.014037132263184, "learning_rate": 6.316952380952381e-06, "loss": 0.5078, "step": 13425 }, { "epoch": 3.586666666666667, "grad_norm": 10.495945930480957, "learning_rate": 6.307428571428572e-06, "loss": 0.4907, "step": 13450 }, { "epoch": 3.5933333333333333, "grad_norm": 11.77230453491211, "learning_rate": 6.297904761904763e-06, "loss": 0.5098, "step": 13475 }, { "epoch": 3.6, "grad_norm": 10.596220970153809, "learning_rate": 6.288380952380952e-06, "loss": 0.5193, "step": 13500 }, { "epoch": 3.6066666666666665, "grad_norm": 12.374215126037598, "learning_rate": 6.278857142857143e-06, "loss": 0.4922, "step": 13525 }, { "epoch": 3.6133333333333333, "grad_norm": 11.395530700683594, "learning_rate": 6.269333333333334e-06, "loss": 0.514, "step": 13550 }, { "epoch": 3.62, "grad_norm": 10.823199272155762, "learning_rate": 6.259809523809524e-06, "loss": 0.4819, "step": 13575 }, { "epoch": 3.626666666666667, "grad_norm": 12.32775592803955, "learning_rate": 6.250285714285714e-06, "loss": 0.4897, "step": 13600 }, { "epoch": 3.6333333333333333, "grad_norm": 12.072946548461914, "learning_rate": 6.240761904761905e-06, "loss": 0.4899, "step": 13625 }, { "epoch": 3.64, "grad_norm": 13.337030410766602, "learning_rate": 6.231238095238095e-06, "loss": 0.5288, "step": 13650 }, { "epoch": 3.6466666666666665, "grad_norm": 10.64185619354248, "learning_rate": 6.221714285714286e-06, "loss": 0.5094, "step": 13675 }, { "epoch": 3.6533333333333333, "grad_norm": 11.200193405151367, "learning_rate": 6.2121904761904776e-06, "loss": 0.5017, "step": 13700 }, { "epoch": 3.66, "grad_norm": 13.038727760314941, "learning_rate": 6.2026666666666665e-06, "loss": 0.5039, "step": 13725 }, { "epoch": 3.6666666666666665, "grad_norm": 12.320549011230469, "learning_rate": 6.193142857142857e-06, "loss": 0.4907, "step": 13750 }, { "epoch": 3.6733333333333333, "grad_norm": 10.324662208557129, "learning_rate": 6.183619047619049e-06, "loss": 0.4969, "step": 13775 }, { "epoch": 3.68, "grad_norm": 11.40976333618164, "learning_rate": 6.174095238095239e-06, "loss": 0.4982, "step": 13800 }, { "epoch": 3.6866666666666665, "grad_norm": 10.542742729187012, "learning_rate": 6.164571428571428e-06, "loss": 0.4791, "step": 13825 }, { "epoch": 3.6933333333333334, "grad_norm": 11.336045265197754, "learning_rate": 6.15504761904762e-06, "loss": 0.4948, "step": 13850 }, { "epoch": 3.7, "grad_norm": 12.214569091796875, "learning_rate": 6.14552380952381e-06, "loss": 0.4778, "step": 13875 }, { "epoch": 3.7066666666666666, "grad_norm": 10.73265266418457, "learning_rate": 6.136000000000001e-06, "loss": 0.4897, "step": 13900 }, { "epoch": 3.7133333333333334, "grad_norm": 11.6783447265625, "learning_rate": 6.126476190476191e-06, "loss": 0.4874, "step": 13925 }, { "epoch": 3.7199999999999998, "grad_norm": 8.937400817871094, "learning_rate": 6.1169523809523815e-06, "loss": 0.4621, "step": 13950 }, { "epoch": 3.7266666666666666, "grad_norm": 12.113076210021973, "learning_rate": 6.107428571428572e-06, "loss": 0.4686, "step": 13975 }, { "epoch": 3.7333333333333334, "grad_norm": 15.019814491271973, "learning_rate": 6.097904761904763e-06, "loss": 0.481, "step": 14000 }, { "epoch": 3.74, "grad_norm": 12.371440887451172, "learning_rate": 6.0883809523809534e-06, "loss": 0.4915, "step": 14025 }, { "epoch": 3.7466666666666666, "grad_norm": 10.398106575012207, "learning_rate": 6.078857142857143e-06, "loss": 0.5042, "step": 14050 }, { "epoch": 3.7533333333333334, "grad_norm": 11.10268497467041, "learning_rate": 6.069333333333334e-06, "loss": 0.4763, "step": 14075 }, { "epoch": 3.76, "grad_norm": 10.485678672790527, "learning_rate": 6.0598095238095245e-06, "loss": 0.4797, "step": 14100 }, { "epoch": 3.7666666666666666, "grad_norm": 12.032885551452637, "learning_rate": 6.050285714285715e-06, "loss": 0.4591, "step": 14125 }, { "epoch": 3.7733333333333334, "grad_norm": 12.153024673461914, "learning_rate": 6.040761904761905e-06, "loss": 0.4944, "step": 14150 }, { "epoch": 3.7800000000000002, "grad_norm": 9.65706729888916, "learning_rate": 6.031238095238096e-06, "loss": 0.4769, "step": 14175 }, { "epoch": 3.7866666666666666, "grad_norm": 11.248978614807129, "learning_rate": 6.021714285714286e-06, "loss": 0.4717, "step": 14200 }, { "epoch": 3.7933333333333334, "grad_norm": 12.238466262817383, "learning_rate": 6.012190476190477e-06, "loss": 0.4792, "step": 14225 }, { "epoch": 3.8, "grad_norm": 13.040369033813477, "learning_rate": 6.002666666666667e-06, "loss": 0.4728, "step": 14250 }, { "epoch": 3.8066666666666666, "grad_norm": 11.722098350524902, "learning_rate": 5.993142857142857e-06, "loss": 0.5055, "step": 14275 }, { "epoch": 3.8133333333333335, "grad_norm": 10.523857116699219, "learning_rate": 5.983619047619048e-06, "loss": 0.4793, "step": 14300 }, { "epoch": 3.82, "grad_norm": 15.409428596496582, "learning_rate": 5.974095238095239e-06, "loss": 0.5128, "step": 14325 }, { "epoch": 3.8266666666666667, "grad_norm": 11.067243576049805, "learning_rate": 5.964571428571429e-06, "loss": 0.4821, "step": 14350 }, { "epoch": 3.8333333333333335, "grad_norm": 9.8215970993042, "learning_rate": 5.955047619047619e-06, "loss": 0.47, "step": 14375 }, { "epoch": 3.84, "grad_norm": 11.842226028442383, "learning_rate": 5.94552380952381e-06, "loss": 0.4898, "step": 14400 }, { "epoch": 3.8466666666666667, "grad_norm": 12.511898040771484, "learning_rate": 5.9360000000000004e-06, "loss": 0.4527, "step": 14425 }, { "epoch": 3.8533333333333335, "grad_norm": 11.72033977508545, "learning_rate": 5.926476190476191e-06, "loss": 0.5078, "step": 14450 }, { "epoch": 3.86, "grad_norm": 9.815460205078125, "learning_rate": 5.916952380952381e-06, "loss": 0.4786, "step": 14475 }, { "epoch": 3.8666666666666667, "grad_norm": 10.460406303405762, "learning_rate": 5.9074285714285715e-06, "loss": 0.4909, "step": 14500 }, { "epoch": 3.873333333333333, "grad_norm": 11.34770679473877, "learning_rate": 5.897904761904762e-06, "loss": 0.461, "step": 14525 }, { "epoch": 3.88, "grad_norm": 12.759461402893066, "learning_rate": 5.888380952380953e-06, "loss": 0.4795, "step": 14550 }, { "epoch": 3.8866666666666667, "grad_norm": 14.732769012451172, "learning_rate": 5.878857142857143e-06, "loss": 0.4531, "step": 14575 }, { "epoch": 3.8933333333333335, "grad_norm": 16.737995147705078, "learning_rate": 5.869333333333333e-06, "loss": 0.5104, "step": 14600 }, { "epoch": 3.9, "grad_norm": 11.765470504760742, "learning_rate": 5.859809523809524e-06, "loss": 0.4788, "step": 14625 }, { "epoch": 3.9066666666666667, "grad_norm": 13.556835174560547, "learning_rate": 5.850285714285715e-06, "loss": 0.461, "step": 14650 }, { "epoch": 3.913333333333333, "grad_norm": 12.839192390441895, "learning_rate": 5.840761904761906e-06, "loss": 0.4824, "step": 14675 }, { "epoch": 3.92, "grad_norm": 10.269786834716797, "learning_rate": 5.831238095238095e-06, "loss": 0.4418, "step": 14700 }, { "epoch": 3.9266666666666667, "grad_norm": 11.563702583312988, "learning_rate": 5.8217142857142865e-06, "loss": 0.4548, "step": 14725 }, { "epoch": 3.9333333333333336, "grad_norm": 11.265905380249023, "learning_rate": 5.812190476190477e-06, "loss": 0.4163, "step": 14750 }, { "epoch": 3.94, "grad_norm": 9.697981834411621, "learning_rate": 5.802666666666668e-06, "loss": 0.4126, "step": 14775 }, { "epoch": 3.9466666666666668, "grad_norm": 8.353290557861328, "learning_rate": 5.793142857142857e-06, "loss": 0.4493, "step": 14800 }, { "epoch": 3.953333333333333, "grad_norm": 10.805832862854004, "learning_rate": 5.783619047619048e-06, "loss": 0.444, "step": 14825 }, { "epoch": 3.96, "grad_norm": 11.774195671081543, "learning_rate": 5.774095238095239e-06, "loss": 0.4581, "step": 14850 }, { "epoch": 3.966666666666667, "grad_norm": 10.860061645507812, "learning_rate": 5.7645714285714295e-06, "loss": 0.4233, "step": 14875 }, { "epoch": 3.9733333333333336, "grad_norm": 10.355900764465332, "learning_rate": 5.755047619047619e-06, "loss": 0.452, "step": 14900 }, { "epoch": 3.98, "grad_norm": 12.542693138122559, "learning_rate": 5.74552380952381e-06, "loss": 0.4892, "step": 14925 }, { "epoch": 3.986666666666667, "grad_norm": 12.843132019042969, "learning_rate": 5.736000000000001e-06, "loss": 0.4359, "step": 14950 }, { "epoch": 3.993333333333333, "grad_norm": 9.022924423217773, "learning_rate": 5.726476190476191e-06, "loss": 0.4677, "step": 14975 }, { "epoch": 4.0, "grad_norm": 10.443975448608398, "learning_rate": 5.716952380952382e-06, "loss": 0.4521, "step": 15000 }, { "epoch": 4.0, "eval_cer": 33.88181801241078, "eval_loss": 0.5573098659515381, "eval_runtime": 1261.013, "eval_samples_per_second": 3.965, "eval_steps_per_second": 0.496, "step": 15000 }, { "epoch": 4.006666666666667, "grad_norm": 9.445164680480957, "learning_rate": 5.707428571428572e-06, "loss": 0.366, "step": 15025 }, { "epoch": 4.013333333333334, "grad_norm": 9.402217864990234, "learning_rate": 5.697904761904762e-06, "loss": 0.3798, "step": 15050 }, { "epoch": 4.02, "grad_norm": 9.331457138061523, "learning_rate": 5.688380952380953e-06, "loss": 0.3136, "step": 15075 }, { "epoch": 4.026666666666666, "grad_norm": 9.040196418762207, "learning_rate": 5.678857142857144e-06, "loss": 0.3262, "step": 15100 }, { "epoch": 4.033333333333333, "grad_norm": 10.669482231140137, "learning_rate": 5.6693333333333335e-06, "loss": 0.3469, "step": 15125 }, { "epoch": 4.04, "grad_norm": 10.913322448730469, "learning_rate": 5.659809523809524e-06, "loss": 0.3507, "step": 15150 }, { "epoch": 4.046666666666667, "grad_norm": 9.36578369140625, "learning_rate": 5.650285714285715e-06, "loss": 0.3495, "step": 15175 }, { "epoch": 4.053333333333334, "grad_norm": 9.06477165222168, "learning_rate": 5.6407619047619054e-06, "loss": 0.3749, "step": 15200 }, { "epoch": 4.06, "grad_norm": 8.698920249938965, "learning_rate": 5.631238095238095e-06, "loss": 0.3468, "step": 15225 }, { "epoch": 4.066666666666666, "grad_norm": 7.987102508544922, "learning_rate": 5.621714285714286e-06, "loss": 0.3629, "step": 15250 }, { "epoch": 4.073333333333333, "grad_norm": 10.632536888122559, "learning_rate": 5.6121904761904765e-06, "loss": 0.3624, "step": 15275 }, { "epoch": 4.08, "grad_norm": 10.345257759094238, "learning_rate": 5.602666666666667e-06, "loss": 0.32, "step": 15300 }, { "epoch": 4.086666666666667, "grad_norm": 9.80545711517334, "learning_rate": 5.593142857142858e-06, "loss": 0.3598, "step": 15325 }, { "epoch": 4.093333333333334, "grad_norm": 9.145305633544922, "learning_rate": 5.583619047619048e-06, "loss": 0.3472, "step": 15350 }, { "epoch": 4.1, "grad_norm": 9.643187522888184, "learning_rate": 5.574095238095238e-06, "loss": 0.3397, "step": 15375 }, { "epoch": 4.1066666666666665, "grad_norm": 11.995478630065918, "learning_rate": 5.564571428571429e-06, "loss": 0.3374, "step": 15400 }, { "epoch": 4.113333333333333, "grad_norm": 9.014826774597168, "learning_rate": 5.5550476190476196e-06, "loss": 0.3488, "step": 15425 }, { "epoch": 4.12, "grad_norm": 7.399957180023193, "learning_rate": 5.545904761904762e-06, "loss": 0.3388, "step": 15450 }, { "epoch": 4.126666666666667, "grad_norm": 8.365823745727539, "learning_rate": 5.5363809523809535e-06, "loss": 0.332, "step": 15475 }, { "epoch": 4.133333333333334, "grad_norm": 10.73659610748291, "learning_rate": 5.526857142857144e-06, "loss": 0.3441, "step": 15500 }, { "epoch": 4.14, "grad_norm": 9.721994400024414, "learning_rate": 5.517333333333333e-06, "loss": 0.3569, "step": 15525 }, { "epoch": 4.1466666666666665, "grad_norm": 10.341387748718262, "learning_rate": 5.5078095238095246e-06, "loss": 0.3559, "step": 15550 }, { "epoch": 4.153333333333333, "grad_norm": 9.839953422546387, "learning_rate": 5.498285714285715e-06, "loss": 0.335, "step": 15575 }, { "epoch": 4.16, "grad_norm": 11.246467590332031, "learning_rate": 5.488761904761906e-06, "loss": 0.3297, "step": 15600 }, { "epoch": 4.166666666666667, "grad_norm": 10.399515151977539, "learning_rate": 5.479238095238095e-06, "loss": 0.3318, "step": 15625 }, { "epoch": 4.173333333333334, "grad_norm": 7.989744663238525, "learning_rate": 5.469714285714286e-06, "loss": 0.3369, "step": 15650 }, { "epoch": 4.18, "grad_norm": 11.904905319213867, "learning_rate": 5.460190476190477e-06, "loss": 0.34, "step": 15675 }, { "epoch": 4.1866666666666665, "grad_norm": 9.765145301818848, "learning_rate": 5.450666666666668e-06, "loss": 0.349, "step": 15700 }, { "epoch": 4.193333333333333, "grad_norm": 9.736760139465332, "learning_rate": 5.441142857142857e-06, "loss": 0.3305, "step": 15725 }, { "epoch": 4.2, "grad_norm": 9.07405948638916, "learning_rate": 5.431619047619048e-06, "loss": 0.34, "step": 15750 }, { "epoch": 4.206666666666667, "grad_norm": 10.817412376403809, "learning_rate": 5.422095238095239e-06, "loss": 0.3574, "step": 15775 }, { "epoch": 4.213333333333333, "grad_norm": 9.08163833618164, "learning_rate": 5.412571428571429e-06, "loss": 0.3235, "step": 15800 }, { "epoch": 4.22, "grad_norm": 10.415016174316406, "learning_rate": 5.40304761904762e-06, "loss": 0.3625, "step": 15825 }, { "epoch": 4.226666666666667, "grad_norm": 21.206327438354492, "learning_rate": 5.39352380952381e-06, "loss": 0.3399, "step": 15850 }, { "epoch": 4.233333333333333, "grad_norm": 11.360039710998535, "learning_rate": 5.3840000000000005e-06, "loss": 0.3278, "step": 15875 }, { "epoch": 4.24, "grad_norm": 9.03994369506836, "learning_rate": 5.374476190476191e-06, "loss": 0.3046, "step": 15900 }, { "epoch": 4.246666666666667, "grad_norm": 9.927104949951172, "learning_rate": 5.364952380952382e-06, "loss": 0.3395, "step": 15925 }, { "epoch": 4.253333333333333, "grad_norm": 10.980711936950684, "learning_rate": 5.3554285714285716e-06, "loss": 0.3479, "step": 15950 }, { "epoch": 4.26, "grad_norm": 9.69042682647705, "learning_rate": 5.345904761904762e-06, "loss": 0.3293, "step": 15975 }, { "epoch": 4.266666666666667, "grad_norm": 12.465404510498047, "learning_rate": 5.336380952380953e-06, "loss": 0.3359, "step": 16000 }, { "epoch": 4.273333333333333, "grad_norm": 7.957159519195557, "learning_rate": 5.3268571428571435e-06, "loss": 0.3607, "step": 16025 }, { "epoch": 4.28, "grad_norm": 12.110877990722656, "learning_rate": 5.317333333333333e-06, "loss": 0.3375, "step": 16050 }, { "epoch": 4.286666666666667, "grad_norm": 11.495512962341309, "learning_rate": 5.307809523809524e-06, "loss": 0.3655, "step": 16075 }, { "epoch": 4.293333333333333, "grad_norm": 10.100930213928223, "learning_rate": 5.298285714285715e-06, "loss": 0.3186, "step": 16100 }, { "epoch": 4.3, "grad_norm": 10.262569427490234, "learning_rate": 5.288761904761905e-06, "loss": 0.3458, "step": 16125 }, { "epoch": 4.306666666666667, "grad_norm": 10.507874488830566, "learning_rate": 5.279238095238096e-06, "loss": 0.3475, "step": 16150 }, { "epoch": 4.3133333333333335, "grad_norm": 11.506072998046875, "learning_rate": 5.269714285714286e-06, "loss": 0.3389, "step": 16175 }, { "epoch": 4.32, "grad_norm": 8.714264869689941, "learning_rate": 5.260190476190476e-06, "loss": 0.3454, "step": 16200 }, { "epoch": 4.326666666666666, "grad_norm": 8.31139087677002, "learning_rate": 5.250666666666667e-06, "loss": 0.3268, "step": 16225 }, { "epoch": 4.333333333333333, "grad_norm": 7.935983180999756, "learning_rate": 5.241142857142858e-06, "loss": 0.3413, "step": 16250 }, { "epoch": 4.34, "grad_norm": 9.739823341369629, "learning_rate": 5.2316190476190474e-06, "loss": 0.3264, "step": 16275 }, { "epoch": 4.346666666666667, "grad_norm": 8.532427787780762, "learning_rate": 5.222095238095238e-06, "loss": 0.3225, "step": 16300 }, { "epoch": 4.3533333333333335, "grad_norm": 11.38673210144043, "learning_rate": 5.212571428571429e-06, "loss": 0.36, "step": 16325 }, { "epoch": 4.36, "grad_norm": 9.791930198669434, "learning_rate": 5.203047619047619e-06, "loss": 0.3269, "step": 16350 }, { "epoch": 4.366666666666666, "grad_norm": 9.696223258972168, "learning_rate": 5.193523809523809e-06, "loss": 0.3507, "step": 16375 }, { "epoch": 4.373333333333333, "grad_norm": 10.962854385375977, "learning_rate": 5.184e-06, "loss": 0.3492, "step": 16400 }, { "epoch": 4.38, "grad_norm": 11.839250564575195, "learning_rate": 5.1744761904761905e-06, "loss": 0.3223, "step": 16425 }, { "epoch": 4.386666666666667, "grad_norm": 8.038477897644043, "learning_rate": 5.164952380952382e-06, "loss": 0.3479, "step": 16450 }, { "epoch": 4.3933333333333335, "grad_norm": 11.09113597869873, "learning_rate": 5.155428571428573e-06, "loss": 0.3345, "step": 16475 }, { "epoch": 4.4, "grad_norm": 10.491676330566406, "learning_rate": 5.145904761904762e-06, "loss": 0.3693, "step": 16500 }, { "epoch": 4.406666666666666, "grad_norm": 10.282910346984863, "learning_rate": 5.136380952380953e-06, "loss": 0.3376, "step": 16525 }, { "epoch": 4.413333333333333, "grad_norm": 10.462335586547852, "learning_rate": 5.126857142857144e-06, "loss": 0.3178, "step": 16550 }, { "epoch": 4.42, "grad_norm": 8.816498756408691, "learning_rate": 5.117333333333334e-06, "loss": 0.33, "step": 16575 }, { "epoch": 4.426666666666667, "grad_norm": 9.41983699798584, "learning_rate": 5.107809523809524e-06, "loss": 0.3253, "step": 16600 }, { "epoch": 4.433333333333334, "grad_norm": 9.63511848449707, "learning_rate": 5.098285714285715e-06, "loss": 0.346, "step": 16625 }, { "epoch": 4.44, "grad_norm": 10.567623138427734, "learning_rate": 5.0887619047619055e-06, "loss": 0.3568, "step": 16650 }, { "epoch": 4.446666666666666, "grad_norm": 8.900635719299316, "learning_rate": 5.079238095238096e-06, "loss": 0.3494, "step": 16675 }, { "epoch": 4.453333333333333, "grad_norm": 8.828140258789062, "learning_rate": 5.069714285714286e-06, "loss": 0.3195, "step": 16700 }, { "epoch": 4.46, "grad_norm": 12.608842849731445, "learning_rate": 5.0601904761904766e-06, "loss": 0.3206, "step": 16725 }, { "epoch": 4.466666666666667, "grad_norm": 9.525917053222656, "learning_rate": 5.050666666666667e-06, "loss": 0.3427, "step": 16750 }, { "epoch": 4.473333333333334, "grad_norm": 9.24260139465332, "learning_rate": 5.041142857142858e-06, "loss": 0.3335, "step": 16775 }, { "epoch": 4.48, "grad_norm": 8.608335494995117, "learning_rate": 5.0316190476190485e-06, "loss": 0.3099, "step": 16800 }, { "epoch": 4.486666666666666, "grad_norm": 9.50597095489502, "learning_rate": 5.022095238095238e-06, "loss": 0.3405, "step": 16825 }, { "epoch": 4.493333333333333, "grad_norm": 11.631133079528809, "learning_rate": 5.012571428571429e-06, "loss": 0.342, "step": 16850 }, { "epoch": 4.5, "grad_norm": 11.48204517364502, "learning_rate": 5.00304761904762e-06, "loss": 0.328, "step": 16875 }, { "epoch": 4.506666666666667, "grad_norm": 8.959137916564941, "learning_rate": 4.993523809523809e-06, "loss": 0.3389, "step": 16900 }, { "epoch": 4.513333333333334, "grad_norm": 12.473030090332031, "learning_rate": 4.984000000000001e-06, "loss": 0.3203, "step": 16925 }, { "epoch": 4.52, "grad_norm": 10.308365821838379, "learning_rate": 4.974476190476191e-06, "loss": 0.3254, "step": 16950 }, { "epoch": 4.526666666666666, "grad_norm": 7.606795310974121, "learning_rate": 4.964952380952381e-06, "loss": 0.319, "step": 16975 }, { "epoch": 4.533333333333333, "grad_norm": 9.314900398254395, "learning_rate": 4.955428571428572e-06, "loss": 0.3179, "step": 17000 }, { "epoch": 4.54, "grad_norm": 9.84424877166748, "learning_rate": 4.945904761904763e-06, "loss": 0.3433, "step": 17025 }, { "epoch": 4.546666666666667, "grad_norm": 9.398674964904785, "learning_rate": 4.936380952380953e-06, "loss": 0.3281, "step": 17050 }, { "epoch": 4.553333333333334, "grad_norm": 20.751062393188477, "learning_rate": 4.926857142857143e-06, "loss": 0.3377, "step": 17075 }, { "epoch": 4.5600000000000005, "grad_norm": 21.263397216796875, "learning_rate": 4.917333333333334e-06, "loss": 0.3408, "step": 17100 }, { "epoch": 4.566666666666666, "grad_norm": 10.58082103729248, "learning_rate": 4.907809523809524e-06, "loss": 0.3295, "step": 17125 }, { "epoch": 4.573333333333333, "grad_norm": 9.26357650756836, "learning_rate": 4.898285714285715e-06, "loss": 0.338, "step": 17150 }, { "epoch": 4.58, "grad_norm": 10.471427917480469, "learning_rate": 4.888761904761905e-06, "loss": 0.3342, "step": 17175 }, { "epoch": 4.586666666666667, "grad_norm": 10.399324417114258, "learning_rate": 4.8792380952380955e-06, "loss": 0.3462, "step": 17200 }, { "epoch": 4.593333333333334, "grad_norm": 9.083370208740234, "learning_rate": 4.869714285714286e-06, "loss": 0.3259, "step": 17225 }, { "epoch": 4.6, "grad_norm": 9.401577949523926, "learning_rate": 4.860190476190477e-06, "loss": 0.329, "step": 17250 }, { "epoch": 4.6066666666666665, "grad_norm": 10.30981731414795, "learning_rate": 4.850666666666667e-06, "loss": 0.3553, "step": 17275 }, { "epoch": 4.613333333333333, "grad_norm": 8.079058647155762, "learning_rate": 4.841142857142857e-06, "loss": 0.3299, "step": 17300 }, { "epoch": 4.62, "grad_norm": 9.01292896270752, "learning_rate": 4.831619047619048e-06, "loss": 0.3565, "step": 17325 }, { "epoch": 4.626666666666667, "grad_norm": 10.41326904296875, "learning_rate": 4.8220952380952385e-06, "loss": 0.3016, "step": 17350 }, { "epoch": 4.633333333333333, "grad_norm": 7.626286029815674, "learning_rate": 4.812571428571429e-06, "loss": 0.2994, "step": 17375 }, { "epoch": 4.64, "grad_norm": 8.95495891571045, "learning_rate": 4.80304761904762e-06, "loss": 0.3383, "step": 17400 }, { "epoch": 4.6466666666666665, "grad_norm": 10.129595756530762, "learning_rate": 4.7935238095238105e-06, "loss": 0.3124, "step": 17425 }, { "epoch": 4.653333333333333, "grad_norm": 9.169564247131348, "learning_rate": 4.784e-06, "loss": 0.3419, "step": 17450 }, { "epoch": 4.66, "grad_norm": 9.020630836486816, "learning_rate": 4.774476190476191e-06, "loss": 0.3052, "step": 17475 }, { "epoch": 4.666666666666667, "grad_norm": 8.045998573303223, "learning_rate": 4.7649523809523816e-06, "loss": 0.3085, "step": 17500 }, { "epoch": 4.673333333333334, "grad_norm": 9.238438606262207, "learning_rate": 4.755428571428572e-06, "loss": 0.337, "step": 17525 }, { "epoch": 4.68, "grad_norm": 9.60799503326416, "learning_rate": 4.745904761904762e-06, "loss": 0.3197, "step": 17550 }, { "epoch": 4.6866666666666665, "grad_norm": 8.405088424682617, "learning_rate": 4.736380952380953e-06, "loss": 0.318, "step": 17575 }, { "epoch": 4.693333333333333, "grad_norm": 10.617300987243652, "learning_rate": 4.726857142857143e-06, "loss": 0.3193, "step": 17600 }, { "epoch": 4.7, "grad_norm": 11.77807331085205, "learning_rate": 4.717333333333334e-06, "loss": 0.3434, "step": 17625 }, { "epoch": 4.706666666666667, "grad_norm": 11.168408393859863, "learning_rate": 4.707809523809524e-06, "loss": 0.319, "step": 17650 }, { "epoch": 4.713333333333333, "grad_norm": 10.417842864990234, "learning_rate": 4.698666666666667e-06, "loss": 0.3178, "step": 17675 }, { "epoch": 4.72, "grad_norm": 8.813197135925293, "learning_rate": 4.689142857142858e-06, "loss": 0.3186, "step": 17700 }, { "epoch": 4.726666666666667, "grad_norm": 7.759131908416748, "learning_rate": 4.6796190476190475e-06, "loss": 0.3216, "step": 17725 }, { "epoch": 4.733333333333333, "grad_norm": 10.083597183227539, "learning_rate": 4.670095238095239e-06, "loss": 0.3103, "step": 17750 }, { "epoch": 4.74, "grad_norm": 9.475998878479004, "learning_rate": 4.660571428571429e-06, "loss": 0.324, "step": 17775 }, { "epoch": 4.746666666666667, "grad_norm": 8.86322021484375, "learning_rate": 4.651047619047619e-06, "loss": 0.3316, "step": 17800 }, { "epoch": 4.753333333333333, "grad_norm": 9.054226875305176, "learning_rate": 4.64152380952381e-06, "loss": 0.3253, "step": 17825 }, { "epoch": 4.76, "grad_norm": 13.359445571899414, "learning_rate": 4.632000000000001e-06, "loss": 0.3221, "step": 17850 }, { "epoch": 4.766666666666667, "grad_norm": 7.5922746658325195, "learning_rate": 4.622476190476191e-06, "loss": 0.3359, "step": 17875 }, { "epoch": 4.773333333333333, "grad_norm": 10.745287895202637, "learning_rate": 4.612952380952381e-06, "loss": 0.3317, "step": 17900 }, { "epoch": 4.78, "grad_norm": 11.20903491973877, "learning_rate": 4.603428571428572e-06, "loss": 0.3317, "step": 17925 }, { "epoch": 4.786666666666667, "grad_norm": 8.53608226776123, "learning_rate": 4.5939047619047625e-06, "loss": 0.3236, "step": 17950 }, { "epoch": 4.793333333333333, "grad_norm": 8.845032691955566, "learning_rate": 4.584380952380953e-06, "loss": 0.3126, "step": 17975 }, { "epoch": 4.8, "grad_norm": 8.912800788879395, "learning_rate": 4.574857142857143e-06, "loss": 0.357, "step": 18000 }, { "epoch": 4.806666666666667, "grad_norm": 10.331573486328125, "learning_rate": 4.5653333333333336e-06, "loss": 0.324, "step": 18025 }, { "epoch": 4.8133333333333335, "grad_norm": 8.298504829406738, "learning_rate": 4.555809523809524e-06, "loss": 0.3047, "step": 18050 }, { "epoch": 4.82, "grad_norm": 24.478620529174805, "learning_rate": 4.546285714285715e-06, "loss": 0.3336, "step": 18075 }, { "epoch": 4.826666666666666, "grad_norm": 12.858133316040039, "learning_rate": 4.536761904761905e-06, "loss": 0.3215, "step": 18100 }, { "epoch": 4.833333333333333, "grad_norm": 10.333330154418945, "learning_rate": 4.527238095238095e-06, "loss": 0.308, "step": 18125 }, { "epoch": 4.84, "grad_norm": 9.631719589233398, "learning_rate": 4.517714285714286e-06, "loss": 0.3194, "step": 18150 }, { "epoch": 4.846666666666667, "grad_norm": 7.289853096008301, "learning_rate": 4.508190476190477e-06, "loss": 0.3333, "step": 18175 }, { "epoch": 4.8533333333333335, "grad_norm": 9.735225677490234, "learning_rate": 4.498666666666667e-06, "loss": 0.3199, "step": 18200 }, { "epoch": 4.86, "grad_norm": 8.678450584411621, "learning_rate": 4.489142857142857e-06, "loss": 0.3053, "step": 18225 }, { "epoch": 4.866666666666667, "grad_norm": 9.917527198791504, "learning_rate": 4.4796190476190485e-06, "loss": 0.2988, "step": 18250 }, { "epoch": 4.873333333333333, "grad_norm": 9.572203636169434, "learning_rate": 4.470095238095238e-06, "loss": 0.3168, "step": 18275 }, { "epoch": 4.88, "grad_norm": 9.202919960021973, "learning_rate": 4.460571428571429e-06, "loss": 0.3494, "step": 18300 }, { "epoch": 4.886666666666667, "grad_norm": 8.96101188659668, "learning_rate": 4.45104761904762e-06, "loss": 0.3269, "step": 18325 }, { "epoch": 4.8933333333333335, "grad_norm": 8.443532943725586, "learning_rate": 4.44152380952381e-06, "loss": 0.328, "step": 18350 }, { "epoch": 4.9, "grad_norm": 8.190359115600586, "learning_rate": 4.432e-06, "loss": 0.314, "step": 18375 }, { "epoch": 4.906666666666666, "grad_norm": 15.69275188446045, "learning_rate": 4.422476190476191e-06, "loss": 0.3029, "step": 18400 }, { "epoch": 4.913333333333333, "grad_norm": 10.510639190673828, "learning_rate": 4.412952380952381e-06, "loss": 0.3393, "step": 18425 }, { "epoch": 4.92, "grad_norm": 8.462637901306152, "learning_rate": 4.403428571428572e-06, "loss": 0.3179, "step": 18450 }, { "epoch": 4.926666666666667, "grad_norm": 8.102010726928711, "learning_rate": 4.393904761904762e-06, "loss": 0.3538, "step": 18475 }, { "epoch": 4.933333333333334, "grad_norm": 12.163732528686523, "learning_rate": 4.3843809523809525e-06, "loss": 0.3263, "step": 18500 }, { "epoch": 4.9399999999999995, "grad_norm": 10.210678100585938, "learning_rate": 4.374857142857143e-06, "loss": 0.3391, "step": 18525 }, { "epoch": 4.946666666666666, "grad_norm": 9.2230806350708, "learning_rate": 4.365333333333334e-06, "loss": 0.321, "step": 18550 }, { "epoch": 4.953333333333333, "grad_norm": 8.812457084655762, "learning_rate": 4.3558095238095244e-06, "loss": 0.2849, "step": 18575 }, { "epoch": 4.96, "grad_norm": 10.65733528137207, "learning_rate": 4.346285714285714e-06, "loss": 0.3244, "step": 18600 }, { "epoch": 4.966666666666667, "grad_norm": 7.578824996948242, "learning_rate": 4.336761904761905e-06, "loss": 0.3231, "step": 18625 }, { "epoch": 4.973333333333334, "grad_norm": 9.401844024658203, "learning_rate": 4.3272380952380955e-06, "loss": 0.3057, "step": 18650 }, { "epoch": 4.98, "grad_norm": 10.009161949157715, "learning_rate": 4.317714285714286e-06, "loss": 0.3292, "step": 18675 }, { "epoch": 4.986666666666666, "grad_norm": 9.332976341247559, "learning_rate": 4.308190476190476e-06, "loss": 0.3417, "step": 18700 }, { "epoch": 4.993333333333333, "grad_norm": 8.199204444885254, "learning_rate": 4.2986666666666675e-06, "loss": 0.3133, "step": 18725 }, { "epoch": 5.0, "grad_norm": 11.205020904541016, "learning_rate": 4.289142857142857e-06, "loss": 0.3412, "step": 18750 }, { "epoch": 5.0, "eval_cer": 29.73929895831392, "eval_loss": 0.4956792891025543, "eval_runtime": 1294.5821, "eval_samples_per_second": 3.862, "eval_steps_per_second": 0.483, "step": 18750 }, { "epoch": 5.006666666666667, "grad_norm": 7.74131441116333, "learning_rate": 4.279619047619048e-06, "loss": 0.2035, "step": 18775 }, { "epoch": 5.013333333333334, "grad_norm": 9.658544540405273, "learning_rate": 4.2700952380952386e-06, "loss": 0.2163, "step": 18800 }, { "epoch": 5.02, "grad_norm": 8.518534660339355, "learning_rate": 4.260571428571429e-06, "loss": 0.2081, "step": 18825 }, { "epoch": 5.026666666666666, "grad_norm": 7.484743118286133, "learning_rate": 4.25104761904762e-06, "loss": 0.2315, "step": 18850 }, { "epoch": 5.033333333333333, "grad_norm": 8.67628288269043, "learning_rate": 4.24152380952381e-06, "loss": 0.2214, "step": 18875 }, { "epoch": 5.04, "grad_norm": 7.7671051025390625, "learning_rate": 4.232e-06, "loss": 0.2193, "step": 18900 }, { "epoch": 5.046666666666667, "grad_norm": 8.292099952697754, "learning_rate": 4.222476190476191e-06, "loss": 0.2346, "step": 18925 }, { "epoch": 5.053333333333334, "grad_norm": 6.942380428314209, "learning_rate": 4.212952380952382e-06, "loss": 0.2267, "step": 18950 }, { "epoch": 5.06, "grad_norm": 8.356648445129395, "learning_rate": 4.203428571428571e-06, "loss": 0.2135, "step": 18975 }, { "epoch": 5.066666666666666, "grad_norm": 11.144806861877441, "learning_rate": 4.193904761904762e-06, "loss": 0.2289, "step": 19000 }, { "epoch": 5.073333333333333, "grad_norm": 7.804592132568359, "learning_rate": 4.184380952380953e-06, "loss": 0.2227, "step": 19025 }, { "epoch": 5.08, "grad_norm": 7.889078140258789, "learning_rate": 4.174857142857143e-06, "loss": 0.2453, "step": 19050 }, { "epoch": 5.086666666666667, "grad_norm": 5.879745006561279, "learning_rate": 4.165333333333333e-06, "loss": 0.2117, "step": 19075 }, { "epoch": 5.093333333333334, "grad_norm": 6.181926250457764, "learning_rate": 4.155809523809524e-06, "loss": 0.2071, "step": 19100 }, { "epoch": 5.1, "grad_norm": 6.737381458282471, "learning_rate": 4.1462857142857144e-06, "loss": 0.2302, "step": 19125 }, { "epoch": 5.1066666666666665, "grad_norm": 8.002670288085938, "learning_rate": 4.136761904761905e-06, "loss": 0.2181, "step": 19150 }, { "epoch": 5.113333333333333, "grad_norm": 7.453000545501709, "learning_rate": 4.127238095238096e-06, "loss": 0.216, "step": 19175 }, { "epoch": 5.12, "grad_norm": 9.276750564575195, "learning_rate": 4.117714285714286e-06, "loss": 0.2296, "step": 19200 }, { "epoch": 5.126666666666667, "grad_norm": 8.332562446594238, "learning_rate": 4.108190476190477e-06, "loss": 0.2385, "step": 19225 }, { "epoch": 5.133333333333334, "grad_norm": 7.754110813140869, "learning_rate": 4.098666666666667e-06, "loss": 0.2252, "step": 19250 }, { "epoch": 5.14, "grad_norm": 8.075357437133789, "learning_rate": 4.0891428571428575e-06, "loss": 0.2386, "step": 19275 }, { "epoch": 5.1466666666666665, "grad_norm": 13.4313325881958, "learning_rate": 4.079619047619048e-06, "loss": 0.2407, "step": 19300 }, { "epoch": 5.153333333333333, "grad_norm": 8.01067066192627, "learning_rate": 4.070095238095239e-06, "loss": 0.2211, "step": 19325 }, { "epoch": 5.16, "grad_norm": 8.232911109924316, "learning_rate": 4.060571428571429e-06, "loss": 0.2099, "step": 19350 }, { "epoch": 5.166666666666667, "grad_norm": 8.286017417907715, "learning_rate": 4.051047619047619e-06, "loss": 0.2141, "step": 19375 }, { "epoch": 5.173333333333334, "grad_norm": 8.53003978729248, "learning_rate": 4.04152380952381e-06, "loss": 0.22, "step": 19400 }, { "epoch": 5.18, "grad_norm": 9.463700294494629, "learning_rate": 4.0320000000000005e-06, "loss": 0.2365, "step": 19425 }, { "epoch": 5.1866666666666665, "grad_norm": 9.513010025024414, "learning_rate": 4.02247619047619e-06, "loss": 0.2135, "step": 19450 }, { "epoch": 5.193333333333333, "grad_norm": 8.491543769836426, "learning_rate": 4.012952380952381e-06, "loss": 0.2246, "step": 19475 }, { "epoch": 5.2, "grad_norm": 9.591778755187988, "learning_rate": 4.003428571428572e-06, "loss": 0.2561, "step": 19500 }, { "epoch": 5.206666666666667, "grad_norm": 7.991750240325928, "learning_rate": 3.993904761904762e-06, "loss": 0.2267, "step": 19525 }, { "epoch": 5.213333333333333, "grad_norm": 9.437651634216309, "learning_rate": 3.984380952380953e-06, "loss": 0.2403, "step": 19550 }, { "epoch": 5.22, "grad_norm": 7.928285598754883, "learning_rate": 3.974857142857143e-06, "loss": 0.2208, "step": 19575 }, { "epoch": 5.226666666666667, "grad_norm": 6.756811618804932, "learning_rate": 3.965333333333334e-06, "loss": 0.2157, "step": 19600 }, { "epoch": 5.233333333333333, "grad_norm": 6.515092372894287, "learning_rate": 3.955809523809524e-06, "loss": 0.2306, "step": 19625 }, { "epoch": 5.24, "grad_norm": 7.373777866363525, "learning_rate": 3.946285714285715e-06, "loss": 0.2404, "step": 19650 }, { "epoch": 5.246666666666667, "grad_norm": 9.353462219238281, "learning_rate": 3.936761904761905e-06, "loss": 0.2254, "step": 19675 }, { "epoch": 5.253333333333333, "grad_norm": 7.703023433685303, "learning_rate": 3.927238095238096e-06, "loss": 0.2017, "step": 19700 }, { "epoch": 5.26, "grad_norm": 8.477394104003906, "learning_rate": 3.917714285714286e-06, "loss": 0.2143, "step": 19725 }, { "epoch": 5.266666666666667, "grad_norm": 7.199848651885986, "learning_rate": 3.908190476190476e-06, "loss": 0.2468, "step": 19750 }, { "epoch": 5.273333333333333, "grad_norm": 7.2001800537109375, "learning_rate": 3.898666666666667e-06, "loss": 0.2329, "step": 19775 }, { "epoch": 5.28, "grad_norm": 9.821074485778809, "learning_rate": 3.889142857142858e-06, "loss": 0.2159, "step": 19800 }, { "epoch": 5.286666666666667, "grad_norm": 7.706233978271484, "learning_rate": 3.879619047619048e-06, "loss": 0.2297, "step": 19825 }, { "epoch": 5.293333333333333, "grad_norm": 8.717984199523926, "learning_rate": 3.870095238095238e-06, "loss": 0.2079, "step": 19850 }, { "epoch": 5.3, "grad_norm": 12.714797973632812, "learning_rate": 3.860571428571429e-06, "loss": 0.2169, "step": 19875 }, { "epoch": 5.306666666666667, "grad_norm": 7.085634231567383, "learning_rate": 3.8510476190476195e-06, "loss": 0.2252, "step": 19900 }, { "epoch": 5.3133333333333335, "grad_norm": 7.455596923828125, "learning_rate": 3.84152380952381e-06, "loss": 0.2249, "step": 19925 }, { "epoch": 5.32, "grad_norm": 8.231857299804688, "learning_rate": 3.832e-06, "loss": 0.1883, "step": 19950 }, { "epoch": 5.326666666666666, "grad_norm": 6.074817657470703, "learning_rate": 3.8224761904761906e-06, "loss": 0.223, "step": 19975 }, { "epoch": 5.333333333333333, "grad_norm": 6.696928977966309, "learning_rate": 3.812952380952381e-06, "loss": 0.2054, "step": 20000 }, { "epoch": 5.34, "grad_norm": 7.785407066345215, "learning_rate": 3.803428571428572e-06, "loss": 0.2199, "step": 20025 }, { "epoch": 5.346666666666667, "grad_norm": 8.944208145141602, "learning_rate": 3.793904761904762e-06, "loss": 0.22, "step": 20050 }, { "epoch": 5.3533333333333335, "grad_norm": 9.503300666809082, "learning_rate": 3.7843809523809527e-06, "loss": 0.2286, "step": 20075 }, { "epoch": 5.36, "grad_norm": 8.379419326782227, "learning_rate": 3.7748571428571434e-06, "loss": 0.207, "step": 20100 }, { "epoch": 5.366666666666666, "grad_norm": 8.356283187866211, "learning_rate": 3.7653333333333336e-06, "loss": 0.2269, "step": 20125 }, { "epoch": 5.373333333333333, "grad_norm": 7.839999198913574, "learning_rate": 3.7558095238095242e-06, "loss": 0.2178, "step": 20150 }, { "epoch": 5.38, "grad_norm": 8.93282699584961, "learning_rate": 3.7462857142857145e-06, "loss": 0.2305, "step": 20175 }, { "epoch": 5.386666666666667, "grad_norm": 8.482865333557129, "learning_rate": 3.736761904761905e-06, "loss": 0.2205, "step": 20200 }, { "epoch": 5.3933333333333335, "grad_norm": 6.62850284576416, "learning_rate": 3.7272380952380953e-06, "loss": 0.217, "step": 20225 }, { "epoch": 5.4, "grad_norm": 8.247754096984863, "learning_rate": 3.717714285714286e-06, "loss": 0.2116, "step": 20250 }, { "epoch": 5.406666666666666, "grad_norm": 8.520336151123047, "learning_rate": 3.708190476190476e-06, "loss": 0.2195, "step": 20275 }, { "epoch": 5.413333333333333, "grad_norm": 7.342014789581299, "learning_rate": 3.6986666666666673e-06, "loss": 0.2142, "step": 20300 }, { "epoch": 5.42, "grad_norm": 6.80022668838501, "learning_rate": 3.689142857142857e-06, "loss": 0.2004, "step": 20325 }, { "epoch": 5.426666666666667, "grad_norm": 8.62631607055664, "learning_rate": 3.679619047619048e-06, "loss": 0.2461, "step": 20350 }, { "epoch": 5.433333333333334, "grad_norm": 10.956358909606934, "learning_rate": 3.670095238095238e-06, "loss": 0.21, "step": 20375 }, { "epoch": 5.44, "grad_norm": 7.769155025482178, "learning_rate": 3.660571428571429e-06, "loss": 0.2297, "step": 20400 }, { "epoch": 5.446666666666666, "grad_norm": 8.335783004760742, "learning_rate": 3.6510476190476197e-06, "loss": 0.2209, "step": 20425 }, { "epoch": 5.453333333333333, "grad_norm": 8.794885635375977, "learning_rate": 3.64152380952381e-06, "loss": 0.2203, "step": 20450 }, { "epoch": 5.46, "grad_norm": 7.390929222106934, "learning_rate": 3.6320000000000005e-06, "loss": 0.2412, "step": 20475 }, { "epoch": 5.466666666666667, "grad_norm": 7.433413028717041, "learning_rate": 3.6224761904761908e-06, "loss": 0.2146, "step": 20500 }, { "epoch": 5.473333333333334, "grad_norm": 10.663132667541504, "learning_rate": 3.6129523809523814e-06, "loss": 0.2265, "step": 20525 }, { "epoch": 5.48, "grad_norm": 7.273309230804443, "learning_rate": 3.6034285714285716e-06, "loss": 0.2178, "step": 20550 }, { "epoch": 5.486666666666666, "grad_norm": 8.934584617614746, "learning_rate": 3.5939047619047623e-06, "loss": 0.2256, "step": 20575 }, { "epoch": 5.493333333333333, "grad_norm": 6.844413757324219, "learning_rate": 3.5843809523809525e-06, "loss": 0.2257, "step": 20600 }, { "epoch": 5.5, "grad_norm": 11.51134204864502, "learning_rate": 3.574857142857143e-06, "loss": 0.2417, "step": 20625 }, { "epoch": 5.506666666666667, "grad_norm": 9.157442092895508, "learning_rate": 3.5653333333333334e-06, "loss": 0.2411, "step": 20650 }, { "epoch": 5.513333333333334, "grad_norm": 7.7640533447265625, "learning_rate": 3.555809523809524e-06, "loss": 0.2155, "step": 20675 }, { "epoch": 5.52, "grad_norm": 7.435049057006836, "learning_rate": 3.5462857142857143e-06, "loss": 0.2201, "step": 20700 }, { "epoch": 5.526666666666666, "grad_norm": 9.660971641540527, "learning_rate": 3.536761904761905e-06, "loss": 0.2116, "step": 20725 }, { "epoch": 5.533333333333333, "grad_norm": 8.51267147064209, "learning_rate": 3.527238095238096e-06, "loss": 0.2296, "step": 20750 }, { "epoch": 5.54, "grad_norm": 6.644988059997559, "learning_rate": 3.5177142857142858e-06, "loss": 0.2146, "step": 20775 }, { "epoch": 5.546666666666667, "grad_norm": 6.6448588371276855, "learning_rate": 3.508190476190477e-06, "loss": 0.2083, "step": 20800 }, { "epoch": 5.553333333333334, "grad_norm": 9.105034828186035, "learning_rate": 3.498666666666667e-06, "loss": 0.2245, "step": 20825 }, { "epoch": 5.5600000000000005, "grad_norm": 8.7272310256958, "learning_rate": 3.4891428571428577e-06, "loss": 0.24, "step": 20850 }, { "epoch": 5.566666666666666, "grad_norm": 10.38683795928955, "learning_rate": 3.479619047619048e-06, "loss": 0.2182, "step": 20875 }, { "epoch": 5.573333333333333, "grad_norm": 8.37644100189209, "learning_rate": 3.4700952380952386e-06, "loss": 0.2374, "step": 20900 }, { "epoch": 5.58, "grad_norm": 8.403351783752441, "learning_rate": 3.460571428571429e-06, "loss": 0.2212, "step": 20925 }, { "epoch": 5.586666666666667, "grad_norm": 9.713714599609375, "learning_rate": 3.4510476190476195e-06, "loss": 0.2045, "step": 20950 }, { "epoch": 5.593333333333334, "grad_norm": 10.12519645690918, "learning_rate": 3.4415238095238097e-06, "loss": 0.2249, "step": 20975 }, { "epoch": 5.6, "grad_norm": 8.807016372680664, "learning_rate": 3.4320000000000003e-06, "loss": 0.2096, "step": 21000 }, { "epoch": 5.6066666666666665, "grad_norm": 10.7708101272583, "learning_rate": 3.4224761904761906e-06, "loss": 0.2298, "step": 21025 }, { "epoch": 5.613333333333333, "grad_norm": 8.356566429138184, "learning_rate": 3.4129523809523812e-06, "loss": 0.2252, "step": 21050 }, { "epoch": 5.62, "grad_norm": 7.751272678375244, "learning_rate": 3.403428571428572e-06, "loss": 0.2296, "step": 21075 }, { "epoch": 5.626666666666667, "grad_norm": 9.154892921447754, "learning_rate": 3.393904761904762e-06, "loss": 0.2082, "step": 21100 }, { "epoch": 5.633333333333333, "grad_norm": 8.852538108825684, "learning_rate": 3.3843809523809527e-06, "loss": 0.2389, "step": 21125 }, { "epoch": 5.64, "grad_norm": 8.03395938873291, "learning_rate": 3.374857142857143e-06, "loss": 0.2358, "step": 21150 }, { "epoch": 5.6466666666666665, "grad_norm": 9.868317604064941, "learning_rate": 3.3653333333333336e-06, "loss": 0.2357, "step": 21175 }, { "epoch": 5.653333333333333, "grad_norm": 10.349991798400879, "learning_rate": 3.355809523809524e-06, "loss": 0.2282, "step": 21200 }, { "epoch": 5.66, "grad_norm": 10.350552558898926, "learning_rate": 3.3462857142857145e-06, "loss": 0.2106, "step": 21225 }, { "epoch": 5.666666666666667, "grad_norm": 8.718181610107422, "learning_rate": 3.3367619047619047e-06, "loss": 0.2298, "step": 21250 }, { "epoch": 5.673333333333334, "grad_norm": 8.100804328918457, "learning_rate": 3.3272380952380958e-06, "loss": 0.2303, "step": 21275 }, { "epoch": 5.68, "grad_norm": 8.061356544494629, "learning_rate": 3.3177142857142856e-06, "loss": 0.2123, "step": 21300 }, { "epoch": 5.6866666666666665, "grad_norm": 8.893597602844238, "learning_rate": 3.3081904761904767e-06, "loss": 0.2185, "step": 21325 }, { "epoch": 5.693333333333333, "grad_norm": 8.45853328704834, "learning_rate": 3.298666666666667e-06, "loss": 0.2064, "step": 21350 }, { "epoch": 5.7, "grad_norm": 10.843313217163086, "learning_rate": 3.2891428571428575e-06, "loss": 0.2194, "step": 21375 }, { "epoch": 5.706666666666667, "grad_norm": 8.22525691986084, "learning_rate": 3.279619047619048e-06, "loss": 0.2149, "step": 21400 }, { "epoch": 5.713333333333333, "grad_norm": 7.29123592376709, "learning_rate": 3.2700952380952384e-06, "loss": 0.2043, "step": 21425 }, { "epoch": 5.72, "grad_norm": 8.707810401916504, "learning_rate": 3.260571428571429e-06, "loss": 0.2153, "step": 21450 }, { "epoch": 5.726666666666667, "grad_norm": 8.674860000610352, "learning_rate": 3.2510476190476193e-06, "loss": 0.2523, "step": 21475 }, { "epoch": 5.733333333333333, "grad_norm": 8.436385154724121, "learning_rate": 3.24152380952381e-06, "loss": 0.2172, "step": 21500 }, { "epoch": 5.74, "grad_norm": 8.723784446716309, "learning_rate": 3.232e-06, "loss": 0.2092, "step": 21525 }, { "epoch": 5.746666666666667, "grad_norm": 8.389568328857422, "learning_rate": 3.222476190476191e-06, "loss": 0.233, "step": 21550 }, { "epoch": 5.753333333333333, "grad_norm": 8.911355972290039, "learning_rate": 3.212952380952381e-06, "loss": 0.2149, "step": 21575 }, { "epoch": 5.76, "grad_norm": 11.683385848999023, "learning_rate": 3.2034285714285717e-06, "loss": 0.2454, "step": 21600 }, { "epoch": 5.766666666666667, "grad_norm": 7.494990825653076, "learning_rate": 3.193904761904762e-06, "loss": 0.2193, "step": 21625 }, { "epoch": 5.773333333333333, "grad_norm": 9.690966606140137, "learning_rate": 3.1843809523809525e-06, "loss": 0.2187, "step": 21650 }, { "epoch": 5.78, "grad_norm": 7.515288829803467, "learning_rate": 3.1748571428571428e-06, "loss": 0.2312, "step": 21675 }, { "epoch": 5.786666666666667, "grad_norm": 10.707686424255371, "learning_rate": 3.1653333333333334e-06, "loss": 0.2356, "step": 21700 }, { "epoch": 5.793333333333333, "grad_norm": 9.02081298828125, "learning_rate": 3.1558095238095245e-06, "loss": 0.2282, "step": 21725 }, { "epoch": 5.8, "grad_norm": 8.740599632263184, "learning_rate": 3.1462857142857147e-06, "loss": 0.202, "step": 21750 }, { "epoch": 5.806666666666667, "grad_norm": 9.082036972045898, "learning_rate": 3.1367619047619054e-06, "loss": 0.2193, "step": 21775 }, { "epoch": 5.8133333333333335, "grad_norm": 6.804386615753174, "learning_rate": 3.1272380952380956e-06, "loss": 0.2249, "step": 21800 }, { "epoch": 5.82, "grad_norm": 8.412642478942871, "learning_rate": 3.1177142857142862e-06, "loss": 0.2233, "step": 21825 }, { "epoch": 5.826666666666666, "grad_norm": 7.969455242156982, "learning_rate": 3.1081904761904764e-06, "loss": 0.2218, "step": 21850 }, { "epoch": 5.833333333333333, "grad_norm": 8.209216117858887, "learning_rate": 3.098666666666667e-06, "loss": 0.2215, "step": 21875 }, { "epoch": 5.84, "grad_norm": 9.645548820495605, "learning_rate": 3.0891428571428573e-06, "loss": 0.2243, "step": 21900 }, { "epoch": 5.846666666666667, "grad_norm": 8.559307098388672, "learning_rate": 3.08e-06, "loss": 0.2393, "step": 21925 }, { "epoch": 5.8533333333333335, "grad_norm": 6.619805812835693, "learning_rate": 3.070476190476191e-06, "loss": 0.224, "step": 21950 }, { "epoch": 5.86, "grad_norm": 7.507440567016602, "learning_rate": 3.060952380952381e-06, "loss": 0.2416, "step": 21975 }, { "epoch": 5.866666666666667, "grad_norm": 7.9469218254089355, "learning_rate": 3.0514285714285717e-06, "loss": 0.211, "step": 22000 }, { "epoch": 5.873333333333333, "grad_norm": 7.1132097244262695, "learning_rate": 3.041904761904762e-06, "loss": 0.2181, "step": 22025 }, { "epoch": 5.88, "grad_norm": 8.419143676757812, "learning_rate": 3.0323809523809526e-06, "loss": 0.2121, "step": 22050 }, { "epoch": 5.886666666666667, "grad_norm": 7.826694011688232, "learning_rate": 3.0228571428571428e-06, "loss": 0.2142, "step": 22075 }, { "epoch": 5.8933333333333335, "grad_norm": 8.576140403747559, "learning_rate": 3.013333333333334e-06, "loss": 0.2112, "step": 22100 }, { "epoch": 5.9, "grad_norm": 7.193573951721191, "learning_rate": 3.0038095238095236e-06, "loss": 0.2269, "step": 22125 }, { "epoch": 5.906666666666666, "grad_norm": 9.3181791305542, "learning_rate": 2.9942857142857147e-06, "loss": 0.2099, "step": 22150 }, { "epoch": 5.913333333333333, "grad_norm": 8.334545135498047, "learning_rate": 2.984761904761905e-06, "loss": 0.2084, "step": 22175 }, { "epoch": 5.92, "grad_norm": 8.288956642150879, "learning_rate": 2.9752380952380956e-06, "loss": 0.2507, "step": 22200 }, { "epoch": 5.926666666666667, "grad_norm": 8.775572776794434, "learning_rate": 2.9657142857142862e-06, "loss": 0.2209, "step": 22225 }, { "epoch": 5.933333333333334, "grad_norm": 7.785128116607666, "learning_rate": 2.9561904761904765e-06, "loss": 0.2161, "step": 22250 }, { "epoch": 5.9399999999999995, "grad_norm": 7.6399006843566895, "learning_rate": 2.946666666666667e-06, "loss": 0.2188, "step": 22275 }, { "epoch": 5.946666666666666, "grad_norm": 7.668445587158203, "learning_rate": 2.9371428571428573e-06, "loss": 0.2061, "step": 22300 }, { "epoch": 5.953333333333333, "grad_norm": 8.001508712768555, "learning_rate": 2.927619047619048e-06, "loss": 0.214, "step": 22325 }, { "epoch": 5.96, "grad_norm": 7.862168312072754, "learning_rate": 2.918095238095238e-06, "loss": 0.2133, "step": 22350 }, { "epoch": 5.966666666666667, "grad_norm": 8.718120574951172, "learning_rate": 2.908571428571429e-06, "loss": 0.2083, "step": 22375 }, { "epoch": 5.973333333333334, "grad_norm": 7.742615699768066, "learning_rate": 2.899047619047619e-06, "loss": 0.2075, "step": 22400 }, { "epoch": 5.98, "grad_norm": 9.678330421447754, "learning_rate": 2.8895238095238097e-06, "loss": 0.2024, "step": 22425 }, { "epoch": 5.986666666666666, "grad_norm": 8.428861618041992, "learning_rate": 2.88e-06, "loss": 0.2231, "step": 22450 }, { "epoch": 5.993333333333333, "grad_norm": 11.3363676071167, "learning_rate": 2.8704761904761906e-06, "loss": 0.2373, "step": 22475 }, { "epoch": 6.0, "grad_norm": 9.848246574401855, "learning_rate": 2.860952380952381e-06, "loss": 0.2109, "step": 22500 }, { "epoch": 6.0, "eval_cer": 27.698786873637328, "eval_loss": 0.4639749526977539, "eval_runtime": 1307.7658, "eval_samples_per_second": 3.823, "eval_steps_per_second": 0.478, "step": 22500 }, { "epoch": 6.006666666666667, "grad_norm": 6.828606605529785, "learning_rate": 2.8514285714285715e-06, "loss": 0.1473, "step": 22525 }, { "epoch": 6.013333333333334, "grad_norm": 7.583554744720459, "learning_rate": 2.8419047619047625e-06, "loss": 0.1592, "step": 22550 }, { "epoch": 6.02, "grad_norm": 6.629754066467285, "learning_rate": 2.8323809523809528e-06, "loss": 0.1451, "step": 22575 }, { "epoch": 6.026666666666666, "grad_norm": 6.695368766784668, "learning_rate": 2.8228571428571434e-06, "loss": 0.1481, "step": 22600 }, { "epoch": 6.033333333333333, "grad_norm": 10.695497512817383, "learning_rate": 2.8133333333333336e-06, "loss": 0.1608, "step": 22625 }, { "epoch": 6.04, "grad_norm": 5.901602745056152, "learning_rate": 2.8038095238095243e-06, "loss": 0.1475, "step": 22650 }, { "epoch": 6.046666666666667, "grad_norm": 6.500913619995117, "learning_rate": 2.7942857142857145e-06, "loss": 0.153, "step": 22675 }, { "epoch": 6.053333333333334, "grad_norm": 7.448944091796875, "learning_rate": 2.784761904761905e-06, "loss": 0.1548, "step": 22700 }, { "epoch": 6.06, "grad_norm": 8.235268592834473, "learning_rate": 2.7752380952380954e-06, "loss": 0.1372, "step": 22725 }, { "epoch": 6.066666666666666, "grad_norm": 7.33930778503418, "learning_rate": 2.765714285714286e-06, "loss": 0.1515, "step": 22750 }, { "epoch": 6.073333333333333, "grad_norm": 6.65372371673584, "learning_rate": 2.7561904761904763e-06, "loss": 0.159, "step": 22775 }, { "epoch": 6.08, "grad_norm": 5.619322776794434, "learning_rate": 2.746666666666667e-06, "loss": 0.1475, "step": 22800 }, { "epoch": 6.086666666666667, "grad_norm": 5.636999607086182, "learning_rate": 2.737142857142857e-06, "loss": 0.1402, "step": 22825 }, { "epoch": 6.093333333333334, "grad_norm": 6.258646488189697, "learning_rate": 2.7276190476190478e-06, "loss": 0.1313, "step": 22850 }, { "epoch": 6.1, "grad_norm": 6.453850269317627, "learning_rate": 2.7180952380952384e-06, "loss": 0.1502, "step": 22875 }, { "epoch": 6.1066666666666665, "grad_norm": 7.0990495681762695, "learning_rate": 2.7085714285714287e-06, "loss": 0.1439, "step": 22900 }, { "epoch": 6.113333333333333, "grad_norm": 4.959884166717529, "learning_rate": 2.6990476190476193e-06, "loss": 0.1408, "step": 22925 }, { "epoch": 6.12, "grad_norm": 8.31031608581543, "learning_rate": 2.6895238095238095e-06, "loss": 0.1454, "step": 22950 }, { "epoch": 6.126666666666667, "grad_norm": 6.5111823081970215, "learning_rate": 2.68e-06, "loss": 0.1499, "step": 22975 }, { "epoch": 6.133333333333334, "grad_norm": 7.66798734664917, "learning_rate": 2.6704761904761904e-06, "loss": 0.1501, "step": 23000 }, { "epoch": 6.14, "grad_norm": 7.889300346374512, "learning_rate": 2.6609523809523815e-06, "loss": 0.1553, "step": 23025 }, { "epoch": 6.1466666666666665, "grad_norm": 6.296180248260498, "learning_rate": 2.6514285714285713e-06, "loss": 0.1524, "step": 23050 }, { "epoch": 6.153333333333333, "grad_norm": 6.24880838394165, "learning_rate": 2.6419047619047623e-06, "loss": 0.1571, "step": 23075 }, { "epoch": 6.16, "grad_norm": 8.156044006347656, "learning_rate": 2.6323809523809526e-06, "loss": 0.1504, "step": 23100 }, { "epoch": 6.166666666666667, "grad_norm": 9.630953788757324, "learning_rate": 2.6228571428571432e-06, "loss": 0.1466, "step": 23125 }, { "epoch": 6.173333333333334, "grad_norm": 6.756717681884766, "learning_rate": 2.6133333333333334e-06, "loss": 0.1369, "step": 23150 }, { "epoch": 6.18, "grad_norm": 8.016380310058594, "learning_rate": 2.603809523809524e-06, "loss": 0.1661, "step": 23175 }, { "epoch": 6.1866666666666665, "grad_norm": 6.940490245819092, "learning_rate": 2.5942857142857147e-06, "loss": 0.149, "step": 23200 }, { "epoch": 6.193333333333333, "grad_norm": 6.749453067779541, "learning_rate": 2.584761904761905e-06, "loss": 0.1478, "step": 23225 }, { "epoch": 6.2, "grad_norm": 7.48594856262207, "learning_rate": 2.5752380952380956e-06, "loss": 0.1498, "step": 23250 }, { "epoch": 6.206666666666667, "grad_norm": 7.766091823577881, "learning_rate": 2.565714285714286e-06, "loss": 0.157, "step": 23275 }, { "epoch": 6.213333333333333, "grad_norm": 7.474206447601318, "learning_rate": 2.5561904761904765e-06, "loss": 0.1438, "step": 23300 }, { "epoch": 6.22, "grad_norm": 6.5319037437438965, "learning_rate": 2.5466666666666667e-06, "loss": 0.1489, "step": 23325 }, { "epoch": 6.226666666666667, "grad_norm": 5.990884304046631, "learning_rate": 2.5371428571428574e-06, "loss": 0.1459, "step": 23350 }, { "epoch": 6.233333333333333, "grad_norm": 6.066216468811035, "learning_rate": 2.5276190476190476e-06, "loss": 0.1373, "step": 23375 }, { "epoch": 6.24, "grad_norm": 7.586083889007568, "learning_rate": 2.5180952380952382e-06, "loss": 0.1544, "step": 23400 }, { "epoch": 6.246666666666667, "grad_norm": 7.357358455657959, "learning_rate": 2.5085714285714285e-06, "loss": 0.1603, "step": 23425 }, { "epoch": 6.253333333333333, "grad_norm": 9.465551376342773, "learning_rate": 2.499047619047619e-06, "loss": 0.1519, "step": 23450 }, { "epoch": 6.26, "grad_norm": 8.907388687133789, "learning_rate": 2.4895238095238097e-06, "loss": 0.1489, "step": 23475 }, { "epoch": 6.266666666666667, "grad_norm": 6.6086506843566895, "learning_rate": 2.4800000000000004e-06, "loss": 0.1368, "step": 23500 }, { "epoch": 6.273333333333333, "grad_norm": 15.552327156066895, "learning_rate": 2.4704761904761906e-06, "loss": 0.1527, "step": 23525 }, { "epoch": 6.28, "grad_norm": 5.629271507263184, "learning_rate": 2.4609523809523813e-06, "loss": 0.1603, "step": 23550 }, { "epoch": 6.286666666666667, "grad_norm": 6.879458904266357, "learning_rate": 2.4514285714285715e-06, "loss": 0.1506, "step": 23575 }, { "epoch": 6.293333333333333, "grad_norm": 7.445820331573486, "learning_rate": 2.441904761904762e-06, "loss": 0.1383, "step": 23600 }, { "epoch": 6.3, "grad_norm": 6.346275806427002, "learning_rate": 2.4323809523809524e-06, "loss": 0.1517, "step": 23625 }, { "epoch": 6.306666666666667, "grad_norm": 6.801636695861816, "learning_rate": 2.422857142857143e-06, "loss": 0.1553, "step": 23650 }, { "epoch": 6.3133333333333335, "grad_norm": 7.590903282165527, "learning_rate": 2.4133333333333337e-06, "loss": 0.1485, "step": 23675 }, { "epoch": 6.32, "grad_norm": 7.595372200012207, "learning_rate": 2.403809523809524e-06, "loss": 0.1408, "step": 23700 }, { "epoch": 6.326666666666666, "grad_norm": 5.52703332901001, "learning_rate": 2.3942857142857145e-06, "loss": 0.1464, "step": 23725 }, { "epoch": 6.333333333333333, "grad_norm": 7.950026035308838, "learning_rate": 2.384761904761905e-06, "loss": 0.1528, "step": 23750 }, { "epoch": 6.34, "grad_norm": 7.044869422912598, "learning_rate": 2.3752380952380954e-06, "loss": 0.1481, "step": 23775 }, { "epoch": 6.346666666666667, "grad_norm": 7.870743751525879, "learning_rate": 2.365714285714286e-06, "loss": 0.1435, "step": 23800 }, { "epoch": 6.3533333333333335, "grad_norm": 5.728346824645996, "learning_rate": 2.3561904761904763e-06, "loss": 0.1507, "step": 23825 }, { "epoch": 6.36, "grad_norm": 5.97953987121582, "learning_rate": 2.346666666666667e-06, "loss": 0.1581, "step": 23850 }, { "epoch": 6.366666666666666, "grad_norm": 7.527473449707031, "learning_rate": 2.337142857142857e-06, "loss": 0.1445, "step": 23875 }, { "epoch": 6.373333333333333, "grad_norm": 8.50522518157959, "learning_rate": 2.327619047619048e-06, "loss": 0.1406, "step": 23900 }, { "epoch": 6.38, "grad_norm": 7.471935272216797, "learning_rate": 2.318095238095238e-06, "loss": 0.1489, "step": 23925 }, { "epoch": 6.386666666666667, "grad_norm": 6.81733512878418, "learning_rate": 2.3085714285714287e-06, "loss": 0.1455, "step": 23950 }, { "epoch": 6.3933333333333335, "grad_norm": 8.549968719482422, "learning_rate": 2.2990476190476193e-06, "loss": 0.1516, "step": 23975 }, { "epoch": 6.4, "grad_norm": 5.8337082862854, "learning_rate": 2.28952380952381e-06, "loss": 0.1393, "step": 24000 }, { "epoch": 6.406666666666666, "grad_norm": 7.259616851806641, "learning_rate": 2.28e-06, "loss": 0.1537, "step": 24025 }, { "epoch": 6.413333333333333, "grad_norm": 7.572646617889404, "learning_rate": 2.270476190476191e-06, "loss": 0.1534, "step": 24050 }, { "epoch": 6.42, "grad_norm": 7.032924175262451, "learning_rate": 2.260952380952381e-06, "loss": 0.1521, "step": 24075 }, { "epoch": 6.426666666666667, "grad_norm": 6.181640625, "learning_rate": 2.2514285714285717e-06, "loss": 0.1553, "step": 24100 }, { "epoch": 6.433333333333334, "grad_norm": 7.344717025756836, "learning_rate": 2.241904761904762e-06, "loss": 0.1525, "step": 24125 }, { "epoch": 6.44, "grad_norm": 7.782438278198242, "learning_rate": 2.2323809523809526e-06, "loss": 0.1447, "step": 24150 }, { "epoch": 6.446666666666666, "grad_norm": 7.844809532165527, "learning_rate": 2.222857142857143e-06, "loss": 0.1517, "step": 24175 }, { "epoch": 6.453333333333333, "grad_norm": 5.486522674560547, "learning_rate": 2.2133333333333335e-06, "loss": 0.1588, "step": 24200 }, { "epoch": 6.46, "grad_norm": 6.44978141784668, "learning_rate": 2.203809523809524e-06, "loss": 0.1512, "step": 24225 }, { "epoch": 6.466666666666667, "grad_norm": 7.095521450042725, "learning_rate": 2.1942857142857143e-06, "loss": 0.1522, "step": 24250 }, { "epoch": 6.473333333333334, "grad_norm": 7.050187587738037, "learning_rate": 2.184761904761905e-06, "loss": 0.149, "step": 24275 }, { "epoch": 6.48, "grad_norm": 8.001523971557617, "learning_rate": 2.1752380952380956e-06, "loss": 0.1534, "step": 24300 }, { "epoch": 6.486666666666666, "grad_norm": 6.425968170166016, "learning_rate": 2.165714285714286e-06, "loss": 0.1422, "step": 24325 }, { "epoch": 6.493333333333333, "grad_norm": 8.42577838897705, "learning_rate": 2.1561904761904765e-06, "loss": 0.1549, "step": 24350 }, { "epoch": 6.5, "grad_norm": 7.254266262054443, "learning_rate": 2.1466666666666667e-06, "loss": 0.1552, "step": 24375 }, { "epoch": 6.506666666666667, "grad_norm": 7.857077598571777, "learning_rate": 2.1371428571428574e-06, "loss": 0.1574, "step": 24400 }, { "epoch": 6.513333333333334, "grad_norm": 5.6290602684021, "learning_rate": 2.1276190476190476e-06, "loss": 0.1557, "step": 24425 }, { "epoch": 6.52, "grad_norm": 5.486408233642578, "learning_rate": 2.1180952380952382e-06, "loss": 0.1451, "step": 24450 }, { "epoch": 6.526666666666666, "grad_norm": 8.579984664916992, "learning_rate": 2.108571428571429e-06, "loss": 0.1665, "step": 24475 }, { "epoch": 6.533333333333333, "grad_norm": 6.072978973388672, "learning_rate": 2.099047619047619e-06, "loss": 0.141, "step": 24500 }, { "epoch": 6.54, "grad_norm": 7.539400100708008, "learning_rate": 2.0895238095238098e-06, "loss": 0.1372, "step": 24525 }, { "epoch": 6.546666666666667, "grad_norm": 5.659696102142334, "learning_rate": 2.08e-06, "loss": 0.1553, "step": 24550 }, { "epoch": 6.553333333333334, "grad_norm": 7.039005279541016, "learning_rate": 2.0704761904761906e-06, "loss": 0.1572, "step": 24575 }, { "epoch": 6.5600000000000005, "grad_norm": 7.570683002471924, "learning_rate": 2.0609523809523813e-06, "loss": 0.1545, "step": 24600 }, { "epoch": 6.566666666666666, "grad_norm": 10.776747703552246, "learning_rate": 2.0514285714285715e-06, "loss": 0.1612, "step": 24625 }, { "epoch": 6.573333333333333, "grad_norm": 7.837728500366211, "learning_rate": 2.041904761904762e-06, "loss": 0.1301, "step": 24650 }, { "epoch": 6.58, "grad_norm": 6.640161514282227, "learning_rate": 2.032380952380953e-06, "loss": 0.1422, "step": 24675 }, { "epoch": 6.586666666666667, "grad_norm": 7.3035383224487305, "learning_rate": 2.022857142857143e-06, "loss": 0.1492, "step": 24700 }, { "epoch": 6.593333333333334, "grad_norm": 5.845125198364258, "learning_rate": 2.0133333333333337e-06, "loss": 0.1442, "step": 24725 }, { "epoch": 6.6, "grad_norm": 6.5024237632751465, "learning_rate": 2.003809523809524e-06, "loss": 0.1427, "step": 24750 }, { "epoch": 6.6066666666666665, "grad_norm": 6.098844051361084, "learning_rate": 1.9942857142857146e-06, "loss": 0.1439, "step": 24775 }, { "epoch": 6.613333333333333, "grad_norm": 6.284074783325195, "learning_rate": 1.9847619047619048e-06, "loss": 0.1557, "step": 24800 }, { "epoch": 6.62, "grad_norm": 6.099598407745361, "learning_rate": 1.9752380952380954e-06, "loss": 0.1473, "step": 24825 }, { "epoch": 6.626666666666667, "grad_norm": 5.94622278213501, "learning_rate": 1.9657142857142856e-06, "loss": 0.1451, "step": 24850 }, { "epoch": 6.633333333333333, "grad_norm": 6.440552711486816, "learning_rate": 1.9561904761904763e-06, "loss": 0.1441, "step": 24875 }, { "epoch": 6.64, "grad_norm": 7.378450870513916, "learning_rate": 1.9466666666666665e-06, "loss": 0.1486, "step": 24900 }, { "epoch": 6.6466666666666665, "grad_norm": 7.62071418762207, "learning_rate": 1.9371428571428576e-06, "loss": 0.1568, "step": 24925 }, { "epoch": 6.653333333333333, "grad_norm": 5.293549060821533, "learning_rate": 1.927619047619048e-06, "loss": 0.1478, "step": 24950 }, { "epoch": 6.66, "grad_norm": 5.74029541015625, "learning_rate": 1.9180952380952385e-06, "loss": 0.1403, "step": 24975 }, { "epoch": 6.666666666666667, "grad_norm": 7.335737228393555, "learning_rate": 1.9085714285714287e-06, "loss": 0.1571, "step": 25000 }, { "epoch": 6.673333333333334, "grad_norm": 8.554529190063477, "learning_rate": 1.8990476190476193e-06, "loss": 0.1423, "step": 25025 }, { "epoch": 6.68, "grad_norm": 6.431390762329102, "learning_rate": 1.8895238095238098e-06, "loss": 0.1486, "step": 25050 }, { "epoch": 6.6866666666666665, "grad_norm": 6.33029317855835, "learning_rate": 1.8800000000000002e-06, "loss": 0.1409, "step": 25075 }, { "epoch": 6.693333333333333, "grad_norm": 7.478055477142334, "learning_rate": 1.8704761904761906e-06, "loss": 0.1561, "step": 25100 }, { "epoch": 6.7, "grad_norm": 7.617250442504883, "learning_rate": 1.860952380952381e-06, "loss": 0.1436, "step": 25125 }, { "epoch": 6.706666666666667, "grad_norm": 7.979248523712158, "learning_rate": 1.8514285714285715e-06, "loss": 0.1536, "step": 25150 }, { "epoch": 6.713333333333333, "grad_norm": 6.918525218963623, "learning_rate": 1.841904761904762e-06, "loss": 0.1484, "step": 25175 }, { "epoch": 6.72, "grad_norm": 7.713553428649902, "learning_rate": 1.8323809523809524e-06, "loss": 0.147, "step": 25200 }, { "epoch": 6.726666666666667, "grad_norm": 4.918476104736328, "learning_rate": 1.8228571428571428e-06, "loss": 0.1449, "step": 25225 }, { "epoch": 6.733333333333333, "grad_norm": 8.247567176818848, "learning_rate": 1.8133333333333337e-06, "loss": 0.1404, "step": 25250 }, { "epoch": 6.74, "grad_norm": 7.025756359100342, "learning_rate": 1.8038095238095241e-06, "loss": 0.1416, "step": 25275 }, { "epoch": 6.746666666666667, "grad_norm": 7.044239521026611, "learning_rate": 1.7942857142857146e-06, "loss": 0.1404, "step": 25300 }, { "epoch": 6.753333333333333, "grad_norm": 7.16432523727417, "learning_rate": 1.784761904761905e-06, "loss": 0.1643, "step": 25325 }, { "epoch": 6.76, "grad_norm": 6.541103363037109, "learning_rate": 1.7752380952380954e-06, "loss": 0.1437, "step": 25350 }, { "epoch": 6.766666666666667, "grad_norm": 7.754510402679443, "learning_rate": 1.7657142857142859e-06, "loss": 0.1383, "step": 25375 }, { "epoch": 6.773333333333333, "grad_norm": 4.995385646820068, "learning_rate": 1.7561904761904763e-06, "loss": 0.1434, "step": 25400 }, { "epoch": 6.78, "grad_norm": 6.967080116271973, "learning_rate": 1.7466666666666667e-06, "loss": 0.1267, "step": 25425 }, { "epoch": 6.786666666666667, "grad_norm": 8.100417137145996, "learning_rate": 1.7371428571428572e-06, "loss": 0.1486, "step": 25450 }, { "epoch": 6.793333333333333, "grad_norm": 7.859476089477539, "learning_rate": 1.7276190476190476e-06, "loss": 0.1512, "step": 25475 }, { "epoch": 6.8, "grad_norm": 7.195878028869629, "learning_rate": 1.718095238095238e-06, "loss": 0.1714, "step": 25500 }, { "epoch": 6.806666666666667, "grad_norm": 5.059131622314453, "learning_rate": 1.7085714285714287e-06, "loss": 0.1378, "step": 25525 }, { "epoch": 6.8133333333333335, "grad_norm": 5.0146284103393555, "learning_rate": 1.6990476190476191e-06, "loss": 0.1359, "step": 25550 }, { "epoch": 6.82, "grad_norm": 6.338350296020508, "learning_rate": 1.6895238095238098e-06, "loss": 0.1483, "step": 25575 }, { "epoch": 6.826666666666666, "grad_norm": 6.440115928649902, "learning_rate": 1.6800000000000002e-06, "loss": 0.1437, "step": 25600 }, { "epoch": 6.833333333333333, "grad_norm": 5.382914066314697, "learning_rate": 1.6704761904761907e-06, "loss": 0.1508, "step": 25625 }, { "epoch": 6.84, "grad_norm": 9.502314567565918, "learning_rate": 1.660952380952381e-06, "loss": 0.1522, "step": 25650 }, { "epoch": 6.846666666666667, "grad_norm": 6.808150768280029, "learning_rate": 1.6514285714285715e-06, "loss": 0.1455, "step": 25675 }, { "epoch": 6.8533333333333335, "grad_norm": 6.782390594482422, "learning_rate": 1.641904761904762e-06, "loss": 0.1654, "step": 25700 }, { "epoch": 6.86, "grad_norm": 7.033082485198975, "learning_rate": 1.6323809523809526e-06, "loss": 0.1476, "step": 25725 }, { "epoch": 6.866666666666667, "grad_norm": 6.357869625091553, "learning_rate": 1.6232380952380954e-06, "loss": 0.1491, "step": 25750 }, { "epoch": 6.873333333333333, "grad_norm": 8.880083084106445, "learning_rate": 1.6137142857142859e-06, "loss": 0.1449, "step": 25775 }, { "epoch": 6.88, "grad_norm": 6.306439399719238, "learning_rate": 1.6041904761904763e-06, "loss": 0.1362, "step": 25800 }, { "epoch": 6.886666666666667, "grad_norm": 6.350951194763184, "learning_rate": 1.5946666666666668e-06, "loss": 0.1413, "step": 25825 }, { "epoch": 6.8933333333333335, "grad_norm": 7.2438435554504395, "learning_rate": 1.5851428571428574e-06, "loss": 0.1372, "step": 25850 }, { "epoch": 6.9, "grad_norm": 4.662027359008789, "learning_rate": 1.5756190476190478e-06, "loss": 0.1309, "step": 25875 }, { "epoch": 6.906666666666666, "grad_norm": 7.620100975036621, "learning_rate": 1.5660952380952383e-06, "loss": 0.1444, "step": 25900 }, { "epoch": 6.913333333333333, "grad_norm": 5.725461483001709, "learning_rate": 1.5565714285714287e-06, "loss": 0.1377, "step": 25925 }, { "epoch": 6.92, "grad_norm": 6.3645124435424805, "learning_rate": 1.5470476190476192e-06, "loss": 0.1427, "step": 25950 }, { "epoch": 6.926666666666667, "grad_norm": 6.6142578125, "learning_rate": 1.5375238095238096e-06, "loss": 0.1484, "step": 25975 }, { "epoch": 6.933333333333334, "grad_norm": 5.590566635131836, "learning_rate": 1.528e-06, "loss": 0.1515, "step": 26000 }, { "epoch": 6.9399999999999995, "grad_norm": 8.096341133117676, "learning_rate": 1.5184761904761905e-06, "loss": 0.1612, "step": 26025 }, { "epoch": 6.946666666666666, "grad_norm": 7.329565048217773, "learning_rate": 1.508952380952381e-06, "loss": 0.147, "step": 26050 }, { "epoch": 6.953333333333333, "grad_norm": 7.864452838897705, "learning_rate": 1.4994285714285718e-06, "loss": 0.1439, "step": 26075 }, { "epoch": 6.96, "grad_norm": 7.4006757736206055, "learning_rate": 1.4899047619047622e-06, "loss": 0.1389, "step": 26100 }, { "epoch": 6.966666666666667, "grad_norm": 8.068634033203125, "learning_rate": 1.4803809523809526e-06, "loss": 0.1426, "step": 26125 }, { "epoch": 6.973333333333334, "grad_norm": 8.207915306091309, "learning_rate": 1.470857142857143e-06, "loss": 0.1472, "step": 26150 }, { "epoch": 6.98, "grad_norm": 6.367456912994385, "learning_rate": 1.4613333333333335e-06, "loss": 0.158, "step": 26175 }, { "epoch": 6.986666666666666, "grad_norm": 7.144924640655518, "learning_rate": 1.451809523809524e-06, "loss": 0.1463, "step": 26200 }, { "epoch": 6.993333333333333, "grad_norm": 6.264813423156738, "learning_rate": 1.4422857142857144e-06, "loss": 0.1485, "step": 26225 }, { "epoch": 7.0, "grad_norm": 5.573395729064941, "learning_rate": 1.4327619047619048e-06, "loss": 0.1365, "step": 26250 }, { "epoch": 7.0, "eval_cer": 27.534800514320857, "eval_loss": 0.4580024778842926, "eval_runtime": 1338.6568, "eval_samples_per_second": 3.735, "eval_steps_per_second": 0.467, "step": 26250 }, { "epoch": 7.006666666666667, "grad_norm": 4.8557047843933105, "learning_rate": 1.4232380952380952e-06, "loss": 0.1028, "step": 26275 }, { "epoch": 7.013333333333334, "grad_norm": 6.244855880737305, "learning_rate": 1.4137142857142857e-06, "loss": 0.107, "step": 26300 }, { "epoch": 7.02, "grad_norm": 5.331733703613281, "learning_rate": 1.4041904761904761e-06, "loss": 0.1076, "step": 26325 }, { "epoch": 7.026666666666666, "grad_norm": 5.44589376449585, "learning_rate": 1.3946666666666668e-06, "loss": 0.1086, "step": 26350 }, { "epoch": 7.033333333333333, "grad_norm": 5.141024589538574, "learning_rate": 1.3851428571428572e-06, "loss": 0.0957, "step": 26375 }, { "epoch": 7.04, "grad_norm": 5.1319661140441895, "learning_rate": 1.3756190476190479e-06, "loss": 0.1088, "step": 26400 }, { "epoch": 7.046666666666667, "grad_norm": 5.781662940979004, "learning_rate": 1.3660952380952383e-06, "loss": 0.0979, "step": 26425 }, { "epoch": 7.053333333333334, "grad_norm": 5.630579948425293, "learning_rate": 1.3565714285714287e-06, "loss": 0.1095, "step": 26450 }, { "epoch": 7.06, "grad_norm": 5.394562244415283, "learning_rate": 1.3474285714285716e-06, "loss": 0.1106, "step": 26475 }, { "epoch": 7.066666666666666, "grad_norm": 7.5741472244262695, "learning_rate": 1.337904761904762e-06, "loss": 0.112, "step": 26500 }, { "epoch": 7.073333333333333, "grad_norm": 6.137536525726318, "learning_rate": 1.3283809523809524e-06, "loss": 0.097, "step": 26525 }, { "epoch": 7.08, "grad_norm": 6.371441841125488, "learning_rate": 1.3188571428571429e-06, "loss": 0.0992, "step": 26550 }, { "epoch": 7.086666666666667, "grad_norm": 4.742753982543945, "learning_rate": 1.3093333333333335e-06, "loss": 0.0947, "step": 26575 }, { "epoch": 7.093333333333334, "grad_norm": 5.5496087074279785, "learning_rate": 1.299809523809524e-06, "loss": 0.0985, "step": 26600 }, { "epoch": 7.1, "grad_norm": 4.753469467163086, "learning_rate": 1.2902857142857144e-06, "loss": 0.0988, "step": 26625 }, { "epoch": 7.1066666666666665, "grad_norm": 6.021629810333252, "learning_rate": 1.2807619047619048e-06, "loss": 0.1083, "step": 26650 }, { "epoch": 7.113333333333333, "grad_norm": 5.6006293296813965, "learning_rate": 1.2712380952380955e-06, "loss": 0.0983, "step": 26675 }, { "epoch": 7.12, "grad_norm": 5.76764440536499, "learning_rate": 1.261714285714286e-06, "loss": 0.1042, "step": 26700 }, { "epoch": 7.126666666666667, "grad_norm": 4.539541244506836, "learning_rate": 1.2521904761904763e-06, "loss": 0.0986, "step": 26725 }, { "epoch": 7.133333333333334, "grad_norm": 8.18603801727295, "learning_rate": 1.2426666666666668e-06, "loss": 0.1025, "step": 26750 }, { "epoch": 7.14, "grad_norm": 6.612101078033447, "learning_rate": 1.2331428571428572e-06, "loss": 0.1126, "step": 26775 }, { "epoch": 7.1466666666666665, "grad_norm": 6.408851146697998, "learning_rate": 1.2236190476190477e-06, "loss": 0.1035, "step": 26800 }, { "epoch": 7.153333333333333, "grad_norm": 4.530457973480225, "learning_rate": 1.2140952380952383e-06, "loss": 0.0948, "step": 26825 }, { "epoch": 7.16, "grad_norm": 5.168616771697998, "learning_rate": 1.2045714285714287e-06, "loss": 0.1114, "step": 26850 }, { "epoch": 7.166666666666667, "grad_norm": 5.781617641448975, "learning_rate": 1.1950476190476192e-06, "loss": 0.1057, "step": 26875 }, { "epoch": 7.173333333333334, "grad_norm": 6.417967319488525, "learning_rate": 1.1855238095238096e-06, "loss": 0.1025, "step": 26900 }, { "epoch": 7.18, "grad_norm": 6.54949951171875, "learning_rate": 1.176e-06, "loss": 0.1047, "step": 26925 }, { "epoch": 7.1866666666666665, "grad_norm": 5.456335544586182, "learning_rate": 1.1664761904761905e-06, "loss": 0.0958, "step": 26950 }, { "epoch": 7.193333333333333, "grad_norm": 7.107601642608643, "learning_rate": 1.1569523809523811e-06, "loss": 0.1016, "step": 26975 }, { "epoch": 7.2, "grad_norm": 6.972559452056885, "learning_rate": 1.1474285714285716e-06, "loss": 0.1116, "step": 27000 }, { "epoch": 7.206666666666667, "grad_norm": 5.878302574157715, "learning_rate": 1.137904761904762e-06, "loss": 0.096, "step": 27025 }, { "epoch": 7.213333333333333, "grad_norm": 4.095868110656738, "learning_rate": 1.1283809523809524e-06, "loss": 0.093, "step": 27050 }, { "epoch": 7.22, "grad_norm": 3.9919233322143555, "learning_rate": 1.1188571428571429e-06, "loss": 0.105, "step": 27075 }, { "epoch": 7.226666666666667, "grad_norm": 6.411441326141357, "learning_rate": 1.1093333333333333e-06, "loss": 0.0995, "step": 27100 }, { "epoch": 7.233333333333333, "grad_norm": 4.915976524353027, "learning_rate": 1.099809523809524e-06, "loss": 0.0932, "step": 27125 }, { "epoch": 7.24, "grad_norm": 5.091182231903076, "learning_rate": 1.0902857142857144e-06, "loss": 0.1018, "step": 27150 }, { "epoch": 7.246666666666667, "grad_norm": 6.451296329498291, "learning_rate": 1.0807619047619048e-06, "loss": 0.1081, "step": 27175 }, { "epoch": 7.253333333333333, "grad_norm": 5.426690578460693, "learning_rate": 1.0712380952380953e-06, "loss": 0.1009, "step": 27200 }, { "epoch": 7.26, "grad_norm": 5.850121021270752, "learning_rate": 1.0617142857142857e-06, "loss": 0.1092, "step": 27225 }, { "epoch": 7.266666666666667, "grad_norm": 4.60863733291626, "learning_rate": 1.0521904761904761e-06, "loss": 0.109, "step": 27250 }, { "epoch": 7.273333333333333, "grad_norm": 5.995533466339111, "learning_rate": 1.0426666666666668e-06, "loss": 0.0977, "step": 27275 }, { "epoch": 7.28, "grad_norm": 5.610628604888916, "learning_rate": 1.0331428571428572e-06, "loss": 0.0953, "step": 27300 }, { "epoch": 7.286666666666667, "grad_norm": 6.171587944030762, "learning_rate": 1.0236190476190477e-06, "loss": 0.1036, "step": 27325 }, { "epoch": 7.293333333333333, "grad_norm": 5.549402713775635, "learning_rate": 1.014095238095238e-06, "loss": 0.1091, "step": 27350 }, { "epoch": 7.3, "grad_norm": 6.277771472930908, "learning_rate": 1.0045714285714285e-06, "loss": 0.1237, "step": 27375 }, { "epoch": 7.306666666666667, "grad_norm": 6.155930042266846, "learning_rate": 9.950476190476192e-07, "loss": 0.1112, "step": 27400 }, { "epoch": 7.3133333333333335, "grad_norm": 6.675112247467041, "learning_rate": 9.855238095238096e-07, "loss": 0.1047, "step": 27425 }, { "epoch": 7.32, "grad_norm": 5.316192626953125, "learning_rate": 9.76e-07, "loss": 0.1081, "step": 27450 }, { "epoch": 7.326666666666666, "grad_norm": 5.340700149536133, "learning_rate": 9.664761904761905e-07, "loss": 0.1119, "step": 27475 }, { "epoch": 7.333333333333333, "grad_norm": 4.614721775054932, "learning_rate": 9.569523809523811e-07, "loss": 0.0961, "step": 27500 }, { "epoch": 7.34, "grad_norm": 6.0804123878479, "learning_rate": 9.474285714285715e-07, "loss": 0.1124, "step": 27525 }, { "epoch": 7.346666666666667, "grad_norm": 5.796234130859375, "learning_rate": 9.379047619047619e-07, "loss": 0.0876, "step": 27550 }, { "epoch": 7.3533333333333335, "grad_norm": 5.168522357940674, "learning_rate": 9.283809523809525e-07, "loss": 0.0883, "step": 27575 }, { "epoch": 7.36, "grad_norm": 4.981782913208008, "learning_rate": 9.188571428571429e-07, "loss": 0.093, "step": 27600 }, { "epoch": 7.366666666666666, "grad_norm": 3.9571640491485596, "learning_rate": 9.093333333333334e-07, "loss": 0.1187, "step": 27625 }, { "epoch": 7.373333333333333, "grad_norm": 5.296597957611084, "learning_rate": 8.998095238095239e-07, "loss": 0.1025, "step": 27650 }, { "epoch": 7.38, "grad_norm": 5.612768650054932, "learning_rate": 8.902857142857144e-07, "loss": 0.1125, "step": 27675 }, { "epoch": 7.386666666666667, "grad_norm": 6.152787685394287, "learning_rate": 8.807619047619048e-07, "loss": 0.1079, "step": 27700 }, { "epoch": 7.3933333333333335, "grad_norm": 4.864405155181885, "learning_rate": 8.712380952380953e-07, "loss": 0.1044, "step": 27725 }, { "epoch": 7.4, "grad_norm": 4.57480001449585, "learning_rate": 8.617142857142857e-07, "loss": 0.0965, "step": 27750 }, { "epoch": 7.406666666666666, "grad_norm": 6.288766384124756, "learning_rate": 8.521904761904764e-07, "loss": 0.1052, "step": 27775 }, { "epoch": 7.413333333333333, "grad_norm": 6.1317338943481445, "learning_rate": 8.426666666666668e-07, "loss": 0.1015, "step": 27800 }, { "epoch": 7.42, "grad_norm": 5.133846759796143, "learning_rate": 8.331428571428572e-07, "loss": 0.1, "step": 27825 }, { "epoch": 7.426666666666667, "grad_norm": 5.88638162612915, "learning_rate": 8.236190476190477e-07, "loss": 0.1146, "step": 27850 }, { "epoch": 7.433333333333334, "grad_norm": 5.488973140716553, "learning_rate": 8.140952380952381e-07, "loss": 0.1, "step": 27875 }, { "epoch": 7.44, "grad_norm": 6.180425643920898, "learning_rate": 8.045714285714285e-07, "loss": 0.1117, "step": 27900 }, { "epoch": 7.446666666666666, "grad_norm": 6.80849027633667, "learning_rate": 7.950476190476192e-07, "loss": 0.102, "step": 27925 }, { "epoch": 7.453333333333333, "grad_norm": 3.8493120670318604, "learning_rate": 7.855238095238096e-07, "loss": 0.0964, "step": 27950 }, { "epoch": 7.46, "grad_norm": 4.781039714813232, "learning_rate": 7.760000000000001e-07, "loss": 0.1052, "step": 27975 }, { "epoch": 7.466666666666667, "grad_norm": 3.6695716381073, "learning_rate": 7.664761904761905e-07, "loss": 0.086, "step": 28000 }, { "epoch": 7.473333333333334, "grad_norm": 5.77593994140625, "learning_rate": 7.56952380952381e-07, "loss": 0.0985, "step": 28025 }, { "epoch": 7.48, "grad_norm": 5.14320182800293, "learning_rate": 7.474285714285715e-07, "loss": 0.1008, "step": 28050 }, { "epoch": 7.486666666666666, "grad_norm": 7.023684978485107, "learning_rate": 7.379047619047619e-07, "loss": 0.1025, "step": 28075 }, { "epoch": 7.493333333333333, "grad_norm": 8.001739501953125, "learning_rate": 7.283809523809525e-07, "loss": 0.106, "step": 28100 }, { "epoch": 7.5, "grad_norm": 4.784168243408203, "learning_rate": 7.188571428571429e-07, "loss": 0.106, "step": 28125 }, { "epoch": 7.506666666666667, "grad_norm": 4.666459560394287, "learning_rate": 7.093333333333334e-07, "loss": 0.1021, "step": 28150 }, { "epoch": 7.513333333333334, "grad_norm": 6.073111057281494, "learning_rate": 6.998095238095239e-07, "loss": 0.0946, "step": 28175 }, { "epoch": 7.52, "grad_norm": 5.129397869110107, "learning_rate": 6.902857142857143e-07, "loss": 0.0972, "step": 28200 }, { "epoch": 7.526666666666666, "grad_norm": 5.264807224273682, "learning_rate": 6.807619047619047e-07, "loss": 0.1025, "step": 28225 }, { "epoch": 7.533333333333333, "grad_norm": 5.123986721038818, "learning_rate": 6.712380952380954e-07, "loss": 0.1007, "step": 28250 }, { "epoch": 7.54, "grad_norm": 4.7044219970703125, "learning_rate": 6.617142857142858e-07, "loss": 0.1068, "step": 28275 }, { "epoch": 7.546666666666667, "grad_norm": 5.224925518035889, "learning_rate": 6.521904761904763e-07, "loss": 0.0888, "step": 28300 }, { "epoch": 7.553333333333334, "grad_norm": 6.2229905128479, "learning_rate": 6.426666666666667e-07, "loss": 0.1049, "step": 28325 }, { "epoch": 7.5600000000000005, "grad_norm": 5.250560283660889, "learning_rate": 6.331428571428571e-07, "loss": 0.1119, "step": 28350 }, { "epoch": 7.566666666666666, "grad_norm": 5.204071998596191, "learning_rate": 6.236190476190477e-07, "loss": 0.0925, "step": 28375 }, { "epoch": 7.573333333333333, "grad_norm": 5.91623067855835, "learning_rate": 6.140952380952381e-07, "loss": 0.1067, "step": 28400 }, { "epoch": 7.58, "grad_norm": 5.126018047332764, "learning_rate": 6.045714285714286e-07, "loss": 0.1049, "step": 28425 }, { "epoch": 7.586666666666667, "grad_norm": 5.5662150382995605, "learning_rate": 5.950476190476191e-07, "loss": 0.1055, "step": 28450 }, { "epoch": 7.593333333333334, "grad_norm": 4.561946392059326, "learning_rate": 5.855238095238095e-07, "loss": 0.1117, "step": 28475 }, { "epoch": 7.6, "grad_norm": 4.936454772949219, "learning_rate": 5.760000000000001e-07, "loss": 0.0903, "step": 28500 }, { "epoch": 7.6066666666666665, "grad_norm": 4.698706150054932, "learning_rate": 5.664761904761905e-07, "loss": 0.1065, "step": 28525 }, { "epoch": 7.613333333333333, "grad_norm": 5.614552021026611, "learning_rate": 5.569523809523811e-07, "loss": 0.1058, "step": 28550 }, { "epoch": 7.62, "grad_norm": 4.720293998718262, "learning_rate": 5.474285714285715e-07, "loss": 0.1038, "step": 28575 }, { "epoch": 7.626666666666667, "grad_norm": 7.08539342880249, "learning_rate": 5.379047619047619e-07, "loss": 0.1084, "step": 28600 }, { "epoch": 7.633333333333333, "grad_norm": 6.104120254516602, "learning_rate": 5.283809523809525e-07, "loss": 0.0877, "step": 28625 }, { "epoch": 7.64, "grad_norm": 3.7994754314422607, "learning_rate": 5.188571428571429e-07, "loss": 0.0865, "step": 28650 }, { "epoch": 7.6466666666666665, "grad_norm": 5.859673023223877, "learning_rate": 5.093333333333333e-07, "loss": 0.0996, "step": 28675 }, { "epoch": 7.653333333333333, "grad_norm": 6.445855617523193, "learning_rate": 4.998095238095239e-07, "loss": 0.1107, "step": 28700 }, { "epoch": 7.66, "grad_norm": 5.001009941101074, "learning_rate": 4.902857142857143e-07, "loss": 0.1175, "step": 28725 }, { "epoch": 7.666666666666667, "grad_norm": 5.675832748413086, "learning_rate": 4.807619047619048e-07, "loss": 0.1059, "step": 28750 }, { "epoch": 7.673333333333334, "grad_norm": 4.962488651275635, "learning_rate": 4.712380952380953e-07, "loss": 0.1042, "step": 28775 }, { "epoch": 7.68, "grad_norm": 5.561017990112305, "learning_rate": 4.6171428571428573e-07, "loss": 0.1056, "step": 28800 }, { "epoch": 7.6866666666666665, "grad_norm": 5.013485908508301, "learning_rate": 4.521904761904762e-07, "loss": 0.0956, "step": 28825 }, { "epoch": 7.693333333333333, "grad_norm": 4.603240013122559, "learning_rate": 4.426666666666667e-07, "loss": 0.1054, "step": 28850 }, { "epoch": 7.7, "grad_norm": 4.981840133666992, "learning_rate": 4.331428571428572e-07, "loss": 0.0966, "step": 28875 }, { "epoch": 7.706666666666667, "grad_norm": 6.092499256134033, "learning_rate": 4.2361904761904764e-07, "loss": 0.0936, "step": 28900 }, { "epoch": 7.713333333333333, "grad_norm": 5.377251148223877, "learning_rate": 4.140952380952382e-07, "loss": 0.1041, "step": 28925 }, { "epoch": 7.72, "grad_norm": 5.544815540313721, "learning_rate": 4.045714285714286e-07, "loss": 0.1019, "step": 28950 }, { "epoch": 7.726666666666667, "grad_norm": 4.959236145019531, "learning_rate": 3.9504761904761905e-07, "loss": 0.1031, "step": 28975 }, { "epoch": 7.733333333333333, "grad_norm": 6.397305965423584, "learning_rate": 3.8552380952380954e-07, "loss": 0.1041, "step": 29000 }, { "epoch": 7.74, "grad_norm": 4.410436630249023, "learning_rate": 3.7600000000000003e-07, "loss": 0.1025, "step": 29025 }, { "epoch": 7.746666666666667, "grad_norm": 6.567444324493408, "learning_rate": 3.664761904761905e-07, "loss": 0.1131, "step": 29050 }, { "epoch": 7.753333333333333, "grad_norm": 7.953134536743164, "learning_rate": 3.5695238095238096e-07, "loss": 0.0916, "step": 29075 }, { "epoch": 7.76, "grad_norm": 5.282848834991455, "learning_rate": 3.474285714285715e-07, "loss": 0.0943, "step": 29100 }, { "epoch": 7.766666666666667, "grad_norm": 5.088173866271973, "learning_rate": 3.3790476190476194e-07, "loss": 0.0993, "step": 29125 }, { "epoch": 7.773333333333333, "grad_norm": 4.999279499053955, "learning_rate": 3.2838095238095237e-07, "loss": 0.1042, "step": 29150 }, { "epoch": 7.78, "grad_norm": 3.6545777320861816, "learning_rate": 3.188571428571429e-07, "loss": 0.1055, "step": 29175 }, { "epoch": 7.786666666666667, "grad_norm": 5.851073741912842, "learning_rate": 3.0933333333333335e-07, "loss": 0.1051, "step": 29200 }, { "epoch": 7.793333333333333, "grad_norm": 5.099207401275635, "learning_rate": 2.9980952380952384e-07, "loss": 0.0952, "step": 29225 }, { "epoch": 7.8, "grad_norm": 5.112496376037598, "learning_rate": 2.9028571428571433e-07, "loss": 0.098, "step": 29250 }, { "epoch": 7.806666666666667, "grad_norm": 4.881762981414795, "learning_rate": 2.8076190476190477e-07, "loss": 0.1027, "step": 29275 }, { "epoch": 7.8133333333333335, "grad_norm": 5.365390300750732, "learning_rate": 2.7123809523809525e-07, "loss": 0.1013, "step": 29300 }, { "epoch": 7.82, "grad_norm": 5.105774879455566, "learning_rate": 2.6171428571428574e-07, "loss": 0.0984, "step": 29325 }, { "epoch": 7.826666666666666, "grad_norm": 5.303748607635498, "learning_rate": 2.5219047619047623e-07, "loss": 0.0946, "step": 29350 }, { "epoch": 7.833333333333333, "grad_norm": 5.642498016357422, "learning_rate": 2.4266666666666667e-07, "loss": 0.1138, "step": 29375 }, { "epoch": 7.84, "grad_norm": 4.858274936676025, "learning_rate": 2.3314285714285716e-07, "loss": 0.0923, "step": 29400 }, { "epoch": 7.846666666666667, "grad_norm": 4.104814529418945, "learning_rate": 2.2361904761904765e-07, "loss": 0.0921, "step": 29425 }, { "epoch": 7.8533333333333335, "grad_norm": 5.990296840667725, "learning_rate": 2.140952380952381e-07, "loss": 0.1011, "step": 29450 }, { "epoch": 7.86, "grad_norm": 6.096645832061768, "learning_rate": 2.045714285714286e-07, "loss": 0.1089, "step": 29475 }, { "epoch": 7.866666666666667, "grad_norm": 7.12993860244751, "learning_rate": 1.9504761904761904e-07, "loss": 0.1067, "step": 29500 }, { "epoch": 7.873333333333333, "grad_norm": 6.076792240142822, "learning_rate": 1.8552380952380953e-07, "loss": 0.103, "step": 29525 }, { "epoch": 7.88, "grad_norm": 6.502140045166016, "learning_rate": 1.7600000000000001e-07, "loss": 0.1036, "step": 29550 }, { "epoch": 7.886666666666667, "grad_norm": 7.23534631729126, "learning_rate": 1.6647619047619048e-07, "loss": 0.1069, "step": 29575 }, { "epoch": 7.8933333333333335, "grad_norm": 5.285584449768066, "learning_rate": 1.5695238095238097e-07, "loss": 0.1096, "step": 29600 }, { "epoch": 7.9, "grad_norm": 6.062516212463379, "learning_rate": 1.4742857142857143e-07, "loss": 0.098, "step": 29625 }, { "epoch": 7.906666666666666, "grad_norm": 5.228450298309326, "learning_rate": 1.3790476190476192e-07, "loss": 0.1106, "step": 29650 }, { "epoch": 7.913333333333333, "grad_norm": 5.914242267608643, "learning_rate": 1.283809523809524e-07, "loss": 0.0919, "step": 29675 }, { "epoch": 7.92, "grad_norm": 6.222010612487793, "learning_rate": 1.1885714285714287e-07, "loss": 0.0964, "step": 29700 }, { "epoch": 7.926666666666667, "grad_norm": 4.014278411865234, "learning_rate": 1.0933333333333335e-07, "loss": 0.1085, "step": 29725 }, { "epoch": 7.933333333333334, "grad_norm": 6.637640953063965, "learning_rate": 9.980952380952381e-08, "loss": 0.1221, "step": 29750 }, { "epoch": 7.9399999999999995, "grad_norm": 5.568607330322266, "learning_rate": 9.02857142857143e-08, "loss": 0.0947, "step": 29775 }, { "epoch": 7.946666666666666, "grad_norm": 4.651712894439697, "learning_rate": 8.076190476190477e-08, "loss": 0.1002, "step": 29800 }, { "epoch": 7.953333333333333, "grad_norm": 6.018585681915283, "learning_rate": 7.123809523809524e-08, "loss": 0.1046, "step": 29825 }, { "epoch": 7.96, "grad_norm": 6.500985145568848, "learning_rate": 6.171428571428573e-08, "loss": 0.0946, "step": 29850 }, { "epoch": 7.966666666666667, "grad_norm": 10.400946617126465, "learning_rate": 5.2190476190476196e-08, "loss": 0.0963, "step": 29875 }, { "epoch": 7.973333333333334, "grad_norm": 5.860899448394775, "learning_rate": 4.266666666666667e-08, "loss": 0.0974, "step": 29900 }, { "epoch": 7.98, "grad_norm": 4.525150299072266, "learning_rate": 3.314285714285715e-08, "loss": 0.1018, "step": 29925 }, { "epoch": 7.986666666666666, "grad_norm": 5.598081588745117, "learning_rate": 2.3619047619047624e-08, "loss": 0.1103, "step": 29950 }, { "epoch": 7.993333333333333, "grad_norm": 4.0639495849609375, "learning_rate": 1.4095238095238096e-08, "loss": 0.1016, "step": 29975 }, { "epoch": 8.0, "grad_norm": 6.061055660247803, "learning_rate": 4.571428571428571e-09, "loss": 0.105, "step": 30000 }, { "epoch": 8.0, "eval_cer": 27.23478001602594, "eval_loss": 0.45709970593452454, "eval_runtime": 1263.0383, "eval_samples_per_second": 3.959, "eval_steps_per_second": 0.495, "step": 30000 }, { "epoch": 8.006666666666666, "grad_norm": 15.80374813079834, "learning_rate": 5.331022222222223e-06, "loss": 0.7179, "step": 30025 }, { "epoch": 8.013333333333334, "grad_norm": 20.2119083404541, "learning_rate": 5.326755555555556e-06, "loss": 0.7249, "step": 30050 }, { "epoch": 8.02, "grad_norm": 12.324047088623047, "learning_rate": 5.322311111111111e-06, "loss": 0.6666, "step": 30075 }, { "epoch": 8.026666666666667, "grad_norm": 12.786880493164062, "learning_rate": 5.317866666666667e-06, "loss": 0.6729, "step": 30100 }, { "epoch": 8.033333333333333, "grad_norm": 15.034636497497559, "learning_rate": 5.3134222222222235e-06, "loss": 0.7112, "step": 30125 }, { "epoch": 8.04, "grad_norm": 14.4805269241333, "learning_rate": 5.308977777777778e-06, "loss": 0.7044, "step": 30150 }, { "epoch": 8.046666666666667, "grad_norm": 15.920146942138672, "learning_rate": 5.304533333333334e-06, "loss": 0.631, "step": 30175 }, { "epoch": 8.053333333333333, "grad_norm": 14.741226196289062, "learning_rate": 5.300088888888889e-06, "loss": 0.6033, "step": 30200 }, { "epoch": 8.06, "grad_norm": 13.328174591064453, "learning_rate": 5.2956444444444446e-06, "loss": 0.6503, "step": 30225 }, { "epoch": 8.066666666666666, "grad_norm": 15.260951042175293, "learning_rate": 5.291200000000001e-06, "loss": 0.6839, "step": 30250 }, { "epoch": 8.073333333333334, "grad_norm": 15.764543533325195, "learning_rate": 5.286755555555556e-06, "loss": 0.6598, "step": 30275 }, { "epoch": 8.08, "grad_norm": 13.079901695251465, "learning_rate": 5.282311111111112e-06, "loss": 0.6545, "step": 30300 }, { "epoch": 8.086666666666666, "grad_norm": 17.601470947265625, "learning_rate": 5.2778666666666665e-06, "loss": 0.6527, "step": 30325 }, { "epoch": 8.093333333333334, "grad_norm": 15.077278137207031, "learning_rate": 5.273422222222223e-06, "loss": 0.6344, "step": 30350 }, { "epoch": 8.1, "grad_norm": 16.498008728027344, "learning_rate": 5.269155555555556e-06, "loss": 0.6072, "step": 30375 }, { "epoch": 8.106666666666667, "grad_norm": 13.190762519836426, "learning_rate": 5.264711111111111e-06, "loss": 0.6207, "step": 30400 }, { "epoch": 8.113333333333333, "grad_norm": 12.650928497314453, "learning_rate": 5.260266666666667e-06, "loss": 0.6242, "step": 30425 }, { "epoch": 8.12, "grad_norm": 15.672072410583496, "learning_rate": 5.2558222222222226e-06, "loss": 0.6522, "step": 30450 }, { "epoch": 8.126666666666667, "grad_norm": 16.408472061157227, "learning_rate": 5.251377777777778e-06, "loss": 0.619, "step": 30475 }, { "epoch": 8.133333333333333, "grad_norm": 12.948939323425293, "learning_rate": 5.246933333333334e-06, "loss": 0.6064, "step": 30500 }, { "epoch": 8.14, "grad_norm": 13.54633617401123, "learning_rate": 5.242488888888889e-06, "loss": 0.6184, "step": 30525 }, { "epoch": 8.146666666666667, "grad_norm": 13.567835807800293, "learning_rate": 5.2380444444444445e-06, "loss": 0.6005, "step": 30550 }, { "epoch": 8.153333333333332, "grad_norm": 16.201248168945312, "learning_rate": 5.233600000000001e-06, "loss": 0.596, "step": 30575 }, { "epoch": 8.16, "grad_norm": 15.499818801879883, "learning_rate": 5.229155555555556e-06, "loss": 0.5632, "step": 30600 }, { "epoch": 8.166666666666666, "grad_norm": 13.230591773986816, "learning_rate": 5.2247111111111116e-06, "loss": 0.5647, "step": 30625 }, { "epoch": 8.173333333333334, "grad_norm": 17.013526916503906, "learning_rate": 5.220266666666666e-06, "loss": 0.5813, "step": 30650 }, { "epoch": 8.18, "grad_norm": 11.080538749694824, "learning_rate": 5.215822222222222e-06, "loss": 0.5658, "step": 30675 }, { "epoch": 8.186666666666667, "grad_norm": 16.584476470947266, "learning_rate": 5.211377777777779e-06, "loss": 0.5646, "step": 30700 }, { "epoch": 8.193333333333333, "grad_norm": 11.669316291809082, "learning_rate": 5.2069333333333335e-06, "loss": 0.5735, "step": 30725 }, { "epoch": 8.2, "grad_norm": 12.094216346740723, "learning_rate": 5.202488888888889e-06, "loss": 0.5528, "step": 30750 }, { "epoch": 8.206666666666667, "grad_norm": 13.14426040649414, "learning_rate": 5.198044444444445e-06, "loss": 0.5256, "step": 30775 }, { "epoch": 8.213333333333333, "grad_norm": 10.807392120361328, "learning_rate": 5.1936000000000006e-06, "loss": 0.557, "step": 30800 }, { "epoch": 8.22, "grad_norm": 15.564530372619629, "learning_rate": 5.189155555555556e-06, "loss": 0.5777, "step": 30825 }, { "epoch": 8.226666666666667, "grad_norm": 12.651592254638672, "learning_rate": 5.184711111111111e-06, "loss": 0.5681, "step": 30850 }, { "epoch": 8.233333333333333, "grad_norm": 12.719521522521973, "learning_rate": 5.180266666666667e-06, "loss": 0.5963, "step": 30875 }, { "epoch": 8.24, "grad_norm": 15.006736755371094, "learning_rate": 5.175822222222223e-06, "loss": 0.575, "step": 30900 }, { "epoch": 8.246666666666666, "grad_norm": 13.512928009033203, "learning_rate": 5.171377777777778e-06, "loss": 0.5952, "step": 30925 }, { "epoch": 8.253333333333334, "grad_norm": 12.170061111450195, "learning_rate": 5.166933333333334e-06, "loss": 0.517, "step": 30950 }, { "epoch": 8.26, "grad_norm": 10.90804386138916, "learning_rate": 5.162488888888889e-06, "loss": 0.5673, "step": 30975 }, { "epoch": 8.266666666666667, "grad_norm": 13.123577117919922, "learning_rate": 5.158044444444444e-06, "loss": 0.5272, "step": 31000 }, { "epoch": 8.273333333333333, "grad_norm": 17.114822387695312, "learning_rate": 5.153600000000001e-06, "loss": 0.555, "step": 31025 }, { "epoch": 8.28, "grad_norm": 23.58224868774414, "learning_rate": 5.149155555555556e-06, "loss": 0.5209, "step": 31050 }, { "epoch": 8.286666666666667, "grad_norm": 14.041379928588867, "learning_rate": 5.1447111111111115e-06, "loss": 0.5724, "step": 31075 }, { "epoch": 8.293333333333333, "grad_norm": 14.041072845458984, "learning_rate": 5.140266666666666e-06, "loss": 0.5713, "step": 31100 }, { "epoch": 8.3, "grad_norm": 17.312397003173828, "learning_rate": 5.135822222222223e-06, "loss": 0.584, "step": 31125 }, { "epoch": 8.306666666666667, "grad_norm": 12.423078536987305, "learning_rate": 5.1313777777777786e-06, "loss": 0.5441, "step": 31150 }, { "epoch": 8.313333333333333, "grad_norm": 14.337580680847168, "learning_rate": 5.126933333333333e-06, "loss": 0.4991, "step": 31175 }, { "epoch": 8.32, "grad_norm": 14.055214881896973, "learning_rate": 5.122488888888889e-06, "loss": 0.5525, "step": 31200 }, { "epoch": 8.326666666666666, "grad_norm": 15.051172256469727, "learning_rate": 5.118044444444445e-06, "loss": 0.546, "step": 31225 }, { "epoch": 8.333333333333334, "grad_norm": 10.422541618347168, "learning_rate": 5.1136000000000005e-06, "loss": 0.5238, "step": 31250 }, { "epoch": 8.34, "grad_norm": 14.514918327331543, "learning_rate": 5.109155555555556e-06, "loss": 0.5389, "step": 31275 }, { "epoch": 8.346666666666668, "grad_norm": 13.189994812011719, "learning_rate": 5.104711111111111e-06, "loss": 0.5166, "step": 31300 }, { "epoch": 8.353333333333333, "grad_norm": 10.180733680725098, "learning_rate": 5.100266666666667e-06, "loss": 0.5159, "step": 31325 }, { "epoch": 8.36, "grad_norm": 14.720268249511719, "learning_rate": 5.095822222222223e-06, "loss": 0.5476, "step": 31350 }, { "epoch": 8.366666666666667, "grad_norm": 12.236518859863281, "learning_rate": 5.091377777777778e-06, "loss": 0.5644, "step": 31375 }, { "epoch": 8.373333333333333, "grad_norm": 12.985857963562012, "learning_rate": 5.086933333333334e-06, "loss": 0.5636, "step": 31400 }, { "epoch": 8.38, "grad_norm": 12.396551132202148, "learning_rate": 5.082488888888889e-06, "loss": 0.558, "step": 31425 }, { "epoch": 8.386666666666667, "grad_norm": 17.774967193603516, "learning_rate": 5.078044444444444e-06, "loss": 0.5455, "step": 31450 }, { "epoch": 8.393333333333333, "grad_norm": 19.243282318115234, "learning_rate": 5.073600000000001e-06, "loss": 0.5056, "step": 31475 }, { "epoch": 8.4, "grad_norm": 11.600284576416016, "learning_rate": 5.069155555555556e-06, "loss": 0.5382, "step": 31500 }, { "epoch": 8.406666666666666, "grad_norm": 11.02953052520752, "learning_rate": 5.064711111111111e-06, "loss": 0.5357, "step": 31525 }, { "epoch": 8.413333333333334, "grad_norm": 14.33912467956543, "learning_rate": 5.060266666666666e-06, "loss": 0.5045, "step": 31550 }, { "epoch": 8.42, "grad_norm": 11.844728469848633, "learning_rate": 5.055822222222223e-06, "loss": 0.5114, "step": 31575 }, { "epoch": 8.426666666666666, "grad_norm": 11.443325996398926, "learning_rate": 5.0513777777777785e-06, "loss": 0.5072, "step": 31600 }, { "epoch": 8.433333333333334, "grad_norm": 14.4727783203125, "learning_rate": 5.046933333333333e-06, "loss": 0.5143, "step": 31625 }, { "epoch": 8.44, "grad_norm": 13.60036849975586, "learning_rate": 5.042488888888889e-06, "loss": 0.5408, "step": 31650 }, { "epoch": 8.446666666666667, "grad_norm": 13.365395545959473, "learning_rate": 5.0380444444444455e-06, "loss": 0.5238, "step": 31675 }, { "epoch": 8.453333333333333, "grad_norm": 17.21660804748535, "learning_rate": 5.0336e-06, "loss": 0.4764, "step": 31700 }, { "epoch": 8.46, "grad_norm": 11.677000999450684, "learning_rate": 5.029155555555556e-06, "loss": 0.5208, "step": 31725 }, { "epoch": 8.466666666666667, "grad_norm": 15.142614364624023, "learning_rate": 5.024711111111111e-06, "loss": 0.5603, "step": 31750 }, { "epoch": 8.473333333333333, "grad_norm": 10.802978515625, "learning_rate": 5.020266666666667e-06, "loss": 0.5114, "step": 31775 }, { "epoch": 8.48, "grad_norm": 14.347644805908203, "learning_rate": 5.015822222222223e-06, "loss": 0.5164, "step": 31800 }, { "epoch": 8.486666666666666, "grad_norm": 12.433709144592285, "learning_rate": 5.011377777777778e-06, "loss": 0.48, "step": 31825 }, { "epoch": 8.493333333333334, "grad_norm": 13.292276382446289, "learning_rate": 5.006933333333334e-06, "loss": 0.5002, "step": 31850 }, { "epoch": 8.5, "grad_norm": 20.11451530456543, "learning_rate": 5.0024888888888885e-06, "loss": 0.4764, "step": 31875 }, { "epoch": 8.506666666666666, "grad_norm": 12.3352632522583, "learning_rate": 4.998044444444445e-06, "loss": 0.5438, "step": 31900 }, { "epoch": 8.513333333333334, "grad_norm": 13.328998565673828, "learning_rate": 4.993600000000001e-06, "loss": 0.5146, "step": 31925 }, { "epoch": 8.52, "grad_norm": 10.108626365661621, "learning_rate": 4.989155555555556e-06, "loss": 0.5074, "step": 31950 }, { "epoch": 8.526666666666667, "grad_norm": 10.93980598449707, "learning_rate": 4.984711111111111e-06, "loss": 0.5005, "step": 31975 }, { "epoch": 8.533333333333333, "grad_norm": 12.719639778137207, "learning_rate": 4.980266666666667e-06, "loss": 0.5063, "step": 32000 }, { "epoch": 8.54, "grad_norm": 14.156594276428223, "learning_rate": 4.975822222222223e-06, "loss": 0.4966, "step": 32025 }, { "epoch": 8.546666666666667, "grad_norm": 10.686470031738281, "learning_rate": 4.971377777777778e-06, "loss": 0.4942, "step": 32050 }, { "epoch": 8.553333333333333, "grad_norm": 10.045855522155762, "learning_rate": 4.966933333333333e-06, "loss": 0.46, "step": 32075 }, { "epoch": 8.56, "grad_norm": 8.282904624938965, "learning_rate": 4.96248888888889e-06, "loss": 0.4804, "step": 32100 }, { "epoch": 8.566666666666666, "grad_norm": 11.303102493286133, "learning_rate": 4.958044444444445e-06, "loss": 0.4988, "step": 32125 }, { "epoch": 8.573333333333334, "grad_norm": 14.834006309509277, "learning_rate": 4.9536e-06, "loss": 0.5257, "step": 32150 }, { "epoch": 8.58, "grad_norm": 12.149236679077148, "learning_rate": 4.949155555555556e-06, "loss": 0.5367, "step": 32175 }, { "epoch": 8.586666666666666, "grad_norm": 11.291731834411621, "learning_rate": 4.944711111111111e-06, "loss": 0.4624, "step": 32200 }, { "epoch": 8.593333333333334, "grad_norm": 12.41955852508545, "learning_rate": 4.940266666666667e-06, "loss": 0.4929, "step": 32225 }, { "epoch": 8.6, "grad_norm": 9.702630996704102, "learning_rate": 4.935822222222222e-06, "loss": 0.4583, "step": 32250 }, { "epoch": 8.606666666666667, "grad_norm": 15.796161651611328, "learning_rate": 4.931377777777778e-06, "loss": 0.5434, "step": 32275 }, { "epoch": 8.613333333333333, "grad_norm": 16.67508888244629, "learning_rate": 4.926933333333334e-06, "loss": 0.5211, "step": 32300 }, { "epoch": 8.62, "grad_norm": 13.740802764892578, "learning_rate": 4.922488888888889e-06, "loss": 0.5036, "step": 32325 }, { "epoch": 8.626666666666667, "grad_norm": 11.061367988586426, "learning_rate": 4.918044444444445e-06, "loss": 0.489, "step": 32350 }, { "epoch": 8.633333333333333, "grad_norm": 11.625699996948242, "learning_rate": 4.913600000000001e-06, "loss": 0.5394, "step": 32375 }, { "epoch": 8.64, "grad_norm": 13.057181358337402, "learning_rate": 4.9091555555555555e-06, "loss": 0.5342, "step": 32400 }, { "epoch": 8.646666666666667, "grad_norm": 11.509431838989258, "learning_rate": 4.904711111111112e-06, "loss": 0.4867, "step": 32425 }, { "epoch": 8.653333333333332, "grad_norm": 9.424930572509766, "learning_rate": 4.900266666666667e-06, "loss": 0.4916, "step": 32450 }, { "epoch": 8.66, "grad_norm": 13.79210090637207, "learning_rate": 4.895822222222223e-06, "loss": 0.5017, "step": 32475 }, { "epoch": 8.666666666666666, "grad_norm": 11.146204948425293, "learning_rate": 4.891377777777778e-06, "loss": 0.5317, "step": 32500 }, { "epoch": 8.673333333333334, "grad_norm": 9.553141593933105, "learning_rate": 4.886933333333333e-06, "loss": 0.5028, "step": 32525 }, { "epoch": 8.68, "grad_norm": 13.987290382385254, "learning_rate": 4.88248888888889e-06, "loss": 0.4695, "step": 32550 }, { "epoch": 8.686666666666667, "grad_norm": 11.986979484558105, "learning_rate": 4.8780444444444445e-06, "loss": 0.5068, "step": 32575 }, { "epoch": 8.693333333333333, "grad_norm": 14.555952072143555, "learning_rate": 4.8736e-06, "loss": 0.4879, "step": 32600 }, { "epoch": 8.7, "grad_norm": 12.733412742614746, "learning_rate": 4.869155555555556e-06, "loss": 0.4905, "step": 32625 }, { "epoch": 8.706666666666667, "grad_norm": 13.12674617767334, "learning_rate": 4.864711111111112e-06, "loss": 0.4703, "step": 32650 }, { "epoch": 8.713333333333333, "grad_norm": 11.539085388183594, "learning_rate": 4.860266666666667e-06, "loss": 0.4744, "step": 32675 }, { "epoch": 8.72, "grad_norm": 15.483597755432129, "learning_rate": 4.855822222222223e-06, "loss": 0.5056, "step": 32700 }, { "epoch": 8.726666666666667, "grad_norm": 11.974453926086426, "learning_rate": 4.851377777777778e-06, "loss": 0.4711, "step": 32725 }, { "epoch": 8.733333333333333, "grad_norm": 15.715641975402832, "learning_rate": 4.8469333333333335e-06, "loss": 0.4964, "step": 32750 }, { "epoch": 8.74, "grad_norm": 9.375343322753906, "learning_rate": 4.842488888888889e-06, "loss": 0.459, "step": 32775 }, { "epoch": 8.746666666666666, "grad_norm": 12.408119201660156, "learning_rate": 4.838044444444445e-06, "loss": 0.5092, "step": 32800 }, { "epoch": 8.753333333333334, "grad_norm": 11.146902084350586, "learning_rate": 4.833600000000001e-06, "loss": 0.5103, "step": 32825 }, { "epoch": 8.76, "grad_norm": 11.347001075744629, "learning_rate": 4.8291555555555555e-06, "loss": 0.473, "step": 32850 }, { "epoch": 8.766666666666667, "grad_norm": 12.580114364624023, "learning_rate": 4.824711111111112e-06, "loss": 0.5194, "step": 32875 }, { "epoch": 8.773333333333333, "grad_norm": 11.773902893066406, "learning_rate": 4.820266666666667e-06, "loss": 0.5115, "step": 32900 }, { "epoch": 8.78, "grad_norm": 13.046738624572754, "learning_rate": 4.8158222222222225e-06, "loss": 0.4838, "step": 32925 }, { "epoch": 8.786666666666667, "grad_norm": 14.553537368774414, "learning_rate": 4.811377777777778e-06, "loss": 0.5103, "step": 32950 }, { "epoch": 8.793333333333333, "grad_norm": 10.34900188446045, "learning_rate": 4.806933333333333e-06, "loss": 0.499, "step": 32975 }, { "epoch": 8.8, "grad_norm": 9.839581489562988, "learning_rate": 4.80248888888889e-06, "loss": 0.5089, "step": 33000 }, { "epoch": 8.806666666666667, "grad_norm": 14.305429458618164, "learning_rate": 4.7980444444444445e-06, "loss": 0.4886, "step": 33025 }, { "epoch": 8.813333333333333, "grad_norm": 9.823822975158691, "learning_rate": 4.793777777777779e-06, "loss": 0.465, "step": 33050 }, { "epoch": 8.82, "grad_norm": 12.233610153198242, "learning_rate": 4.7893333333333334e-06, "loss": 0.4563, "step": 33075 }, { "epoch": 8.826666666666666, "grad_norm": 11.392786979675293, "learning_rate": 4.784888888888889e-06, "loss": 0.5034, "step": 33100 }, { "epoch": 8.833333333333334, "grad_norm": 9.950662612915039, "learning_rate": 4.780444444444445e-06, "loss": 0.4678, "step": 33125 }, { "epoch": 8.84, "grad_norm": 12.0476655960083, "learning_rate": 4.7760000000000005e-06, "loss": 0.4945, "step": 33150 }, { "epoch": 8.846666666666668, "grad_norm": 11.386184692382812, "learning_rate": 4.771555555555556e-06, "loss": 0.4701, "step": 33175 }, { "epoch": 8.853333333333333, "grad_norm": 9.53287410736084, "learning_rate": 4.767111111111111e-06, "loss": 0.4798, "step": 33200 }, { "epoch": 8.86, "grad_norm": 15.69239330291748, "learning_rate": 4.762666666666667e-06, "loss": 0.4823, "step": 33225 }, { "epoch": 8.866666666666667, "grad_norm": 15.845943450927734, "learning_rate": 4.7582222222222224e-06, "loss": 0.4468, "step": 33250 }, { "epoch": 8.873333333333333, "grad_norm": 12.242185592651367, "learning_rate": 4.753777777777778e-06, "loss": 0.5141, "step": 33275 }, { "epoch": 8.88, "grad_norm": 13.35010814666748, "learning_rate": 4.749333333333334e-06, "loss": 0.4573, "step": 33300 }, { "epoch": 8.886666666666667, "grad_norm": 14.321089744567871, "learning_rate": 4.7448888888888895e-06, "loss": 0.4406, "step": 33325 }, { "epoch": 8.893333333333333, "grad_norm": 12.45971393585205, "learning_rate": 4.740444444444444e-06, "loss": 0.4789, "step": 33350 }, { "epoch": 8.9, "grad_norm": 9.136942863464355, "learning_rate": 4.736000000000001e-06, "loss": 0.4933, "step": 33375 }, { "epoch": 8.906666666666666, "grad_norm": 9.76571273803711, "learning_rate": 4.731555555555556e-06, "loss": 0.492, "step": 33400 }, { "epoch": 8.913333333333334, "grad_norm": 12.74725341796875, "learning_rate": 4.7271111111111114e-06, "loss": 0.5055, "step": 33425 }, { "epoch": 8.92, "grad_norm": 12.514827728271484, "learning_rate": 4.722666666666667e-06, "loss": 0.4719, "step": 33450 }, { "epoch": 8.926666666666666, "grad_norm": 11.866357803344727, "learning_rate": 4.718222222222222e-06, "loss": 0.4546, "step": 33475 }, { "epoch": 8.933333333333334, "grad_norm": 17.848072052001953, "learning_rate": 4.7137777777777785e-06, "loss": 0.4668, "step": 33500 }, { "epoch": 8.94, "grad_norm": 10.857246398925781, "learning_rate": 4.709333333333333e-06, "loss": 0.4618, "step": 33525 }, { "epoch": 8.946666666666667, "grad_norm": 11.174782752990723, "learning_rate": 4.704888888888889e-06, "loss": 0.452, "step": 33550 }, { "epoch": 8.953333333333333, "grad_norm": 14.46779727935791, "learning_rate": 4.700444444444445e-06, "loss": 0.431, "step": 33575 }, { "epoch": 8.96, "grad_norm": 10.424922943115234, "learning_rate": 4.6960000000000004e-06, "loss": 0.4413, "step": 33600 }, { "epoch": 8.966666666666667, "grad_norm": 12.33443832397461, "learning_rate": 4.691555555555556e-06, "loss": 0.4774, "step": 33625 }, { "epoch": 8.973333333333333, "grad_norm": 10.95026683807373, "learning_rate": 4.687111111111112e-06, "loss": 0.4959, "step": 33650 }, { "epoch": 8.98, "grad_norm": 10.43690013885498, "learning_rate": 4.682666666666667e-06, "loss": 0.4705, "step": 33675 }, { "epoch": 8.986666666666666, "grad_norm": 20.128585815429688, "learning_rate": 4.678222222222222e-06, "loss": 0.4301, "step": 33700 }, { "epoch": 8.993333333333334, "grad_norm": 10.086228370666504, "learning_rate": 4.673777777777778e-06, "loss": 0.477, "step": 33725 }, { "epoch": 9.0, "grad_norm": 11.254966735839844, "learning_rate": 4.669333333333334e-06, "loss": 0.4959, "step": 33750 }, { "epoch": 9.0, "eval_cer": 24.234575033076794, "eval_loss": 0.4090717136859894, "eval_runtime": 1255.9889, "eval_samples_per_second": 3.981, "eval_steps_per_second": 0.498, "step": 33750 }, { "epoch": 9.006666666666666, "grad_norm": 10.11557674407959, "learning_rate": 4.6648888888888894e-06, "loss": 0.3553, "step": 33775 }, { "epoch": 9.013333333333334, "grad_norm": 12.940801620483398, "learning_rate": 4.660444444444444e-06, "loss": 0.3454, "step": 33800 }, { "epoch": 9.02, "grad_norm": 9.192853927612305, "learning_rate": 4.656000000000001e-06, "loss": 0.3691, "step": 33825 }, { "epoch": 9.026666666666667, "grad_norm": 8.88289737701416, "learning_rate": 4.651555555555556e-06, "loss": 0.3233, "step": 33850 }, { "epoch": 9.033333333333333, "grad_norm": 12.61011028289795, "learning_rate": 4.647111111111111e-06, "loss": 0.3496, "step": 33875 }, { "epoch": 9.04, "grad_norm": 10.894960403442383, "learning_rate": 4.642666666666667e-06, "loss": 0.326, "step": 33900 }, { "epoch": 9.046666666666667, "grad_norm": 8.874565124511719, "learning_rate": 4.638222222222223e-06, "loss": 0.3527, "step": 33925 }, { "epoch": 9.053333333333333, "grad_norm": 9.445497512817383, "learning_rate": 4.6337777777777784e-06, "loss": 0.3502, "step": 33950 }, { "epoch": 9.06, "grad_norm": 8.409317016601562, "learning_rate": 4.629333333333333e-06, "loss": 0.3408, "step": 33975 }, { "epoch": 9.066666666666666, "grad_norm": 10.905598640441895, "learning_rate": 4.624888888888889e-06, "loss": 0.3497, "step": 34000 }, { "epoch": 9.073333333333334, "grad_norm": 9.52714729309082, "learning_rate": 4.620444444444445e-06, "loss": 0.3327, "step": 34025 }, { "epoch": 9.08, "grad_norm": 9.130328178405762, "learning_rate": 4.616e-06, "loss": 0.3715, "step": 34050 }, { "epoch": 9.086666666666666, "grad_norm": 12.132153511047363, "learning_rate": 4.611555555555556e-06, "loss": 0.3389, "step": 34075 }, { "epoch": 9.093333333333334, "grad_norm": 10.206671714782715, "learning_rate": 4.607111111111112e-06, "loss": 0.3392, "step": 34100 }, { "epoch": 9.1, "grad_norm": 14.072588920593262, "learning_rate": 4.602666666666667e-06, "loss": 0.3228, "step": 34125 }, { "epoch": 9.106666666666667, "grad_norm": 10.743828773498535, "learning_rate": 4.598222222222223e-06, "loss": 0.3613, "step": 34150 }, { "epoch": 9.113333333333333, "grad_norm": 10.789471626281738, "learning_rate": 4.593777777777778e-06, "loss": 0.369, "step": 34175 }, { "epoch": 9.12, "grad_norm": 10.623641014099121, "learning_rate": 4.589333333333334e-06, "loss": 0.337, "step": 34200 }, { "epoch": 9.126666666666667, "grad_norm": 9.121771812438965, "learning_rate": 4.584888888888889e-06, "loss": 0.3569, "step": 34225 }, { "epoch": 9.133333333333333, "grad_norm": 10.439199447631836, "learning_rate": 4.580444444444444e-06, "loss": 0.3505, "step": 34250 }, { "epoch": 9.14, "grad_norm": 13.690264701843262, "learning_rate": 4.576000000000001e-06, "loss": 0.3591, "step": 34275 }, { "epoch": 9.146666666666667, "grad_norm": 11.073456764221191, "learning_rate": 4.571555555555556e-06, "loss": 0.3273, "step": 34300 }, { "epoch": 9.153333333333332, "grad_norm": 10.056150436401367, "learning_rate": 4.567111111111111e-06, "loss": 0.3433, "step": 34325 }, { "epoch": 9.16, "grad_norm": 9.77181339263916, "learning_rate": 4.562666666666667e-06, "loss": 0.3561, "step": 34350 }, { "epoch": 9.166666666666666, "grad_norm": 9.7757568359375, "learning_rate": 4.558222222222223e-06, "loss": 0.3554, "step": 34375 }, { "epoch": 9.173333333333334, "grad_norm": 7.904925346374512, "learning_rate": 4.553777777777778e-06, "loss": 0.3211, "step": 34400 }, { "epoch": 9.18, "grad_norm": 11.968832015991211, "learning_rate": 4.549333333333334e-06, "loss": 0.3574, "step": 34425 }, { "epoch": 9.186666666666667, "grad_norm": 10.871935844421387, "learning_rate": 4.544888888888889e-06, "loss": 0.3579, "step": 34450 }, { "epoch": 9.193333333333333, "grad_norm": 9.157028198242188, "learning_rate": 4.540444444444445e-06, "loss": 0.3499, "step": 34475 }, { "epoch": 9.2, "grad_norm": 9.274045944213867, "learning_rate": 4.536e-06, "loss": 0.3251, "step": 34500 }, { "epoch": 9.206666666666667, "grad_norm": 10.203022956848145, "learning_rate": 4.531555555555556e-06, "loss": 0.3303, "step": 34525 }, { "epoch": 9.213333333333333, "grad_norm": 10.831838607788086, "learning_rate": 4.527111111111112e-06, "loss": 0.369, "step": 34550 }, { "epoch": 9.22, "grad_norm": 11.920370101928711, "learning_rate": 4.5226666666666665e-06, "loss": 0.3375, "step": 34575 }, { "epoch": 9.226666666666667, "grad_norm": 8.628372192382812, "learning_rate": 4.518222222222223e-06, "loss": 0.344, "step": 34600 }, { "epoch": 9.233333333333333, "grad_norm": 14.706621170043945, "learning_rate": 4.513777777777778e-06, "loss": 0.3387, "step": 34625 }, { "epoch": 9.24, "grad_norm": 9.265653610229492, "learning_rate": 4.509333333333334e-06, "loss": 0.3342, "step": 34650 }, { "epoch": 9.246666666666666, "grad_norm": 8.710384368896484, "learning_rate": 4.504888888888889e-06, "loss": 0.3482, "step": 34675 }, { "epoch": 9.253333333333334, "grad_norm": 9.941553115844727, "learning_rate": 4.500444444444445e-06, "loss": 0.3259, "step": 34700 }, { "epoch": 9.26, "grad_norm": 11.050932884216309, "learning_rate": 4.496000000000001e-06, "loss": 0.3678, "step": 34725 }, { "epoch": 9.266666666666667, "grad_norm": 9.38405990600586, "learning_rate": 4.4915555555555555e-06, "loss": 0.3312, "step": 34750 }, { "epoch": 9.273333333333333, "grad_norm": 9.29322338104248, "learning_rate": 4.487111111111111e-06, "loss": 0.352, "step": 34775 }, { "epoch": 9.28, "grad_norm": 8.986920356750488, "learning_rate": 4.482666666666667e-06, "loss": 0.3279, "step": 34800 }, { "epoch": 9.286666666666667, "grad_norm": 10.60477352142334, "learning_rate": 4.478222222222223e-06, "loss": 0.39, "step": 34825 }, { "epoch": 9.293333333333333, "grad_norm": 8.482513427734375, "learning_rate": 4.473777777777778e-06, "loss": 0.3226, "step": 34850 }, { "epoch": 9.3, "grad_norm": 12.348125457763672, "learning_rate": 4.469333333333334e-06, "loss": 0.3283, "step": 34875 }, { "epoch": 9.306666666666667, "grad_norm": 8.38575267791748, "learning_rate": 4.464888888888889e-06, "loss": 0.3555, "step": 34900 }, { "epoch": 9.313333333333333, "grad_norm": 8.496597290039062, "learning_rate": 4.460444444444445e-06, "loss": 0.3502, "step": 34925 }, { "epoch": 9.32, "grad_norm": 10.244653701782227, "learning_rate": 4.456e-06, "loss": 0.3245, "step": 34950 }, { "epoch": 9.326666666666666, "grad_norm": 23.67559242248535, "learning_rate": 4.451555555555556e-06, "loss": 0.353, "step": 34975 }, { "epoch": 9.333333333333334, "grad_norm": 10.752251625061035, "learning_rate": 4.447111111111112e-06, "loss": 0.3517, "step": 35000 }, { "epoch": 9.34, "grad_norm": 10.62810230255127, "learning_rate": 4.4426666666666664e-06, "loss": 0.358, "step": 35025 }, { "epoch": 9.346666666666668, "grad_norm": 10.231162071228027, "learning_rate": 4.438222222222223e-06, "loss": 0.3383, "step": 35050 }, { "epoch": 9.353333333333333, "grad_norm": 10.774444580078125, "learning_rate": 4.433777777777778e-06, "loss": 0.3721, "step": 35075 }, { "epoch": 9.36, "grad_norm": 12.464393615722656, "learning_rate": 4.4293333333333335e-06, "loss": 0.3534, "step": 35100 }, { "epoch": 9.366666666666667, "grad_norm": 8.397354125976562, "learning_rate": 4.424888888888889e-06, "loss": 0.3031, "step": 35125 }, { "epoch": 9.373333333333333, "grad_norm": 13.816272735595703, "learning_rate": 4.420444444444445e-06, "loss": 0.3633, "step": 35150 }, { "epoch": 9.38, "grad_norm": 10.438294410705566, "learning_rate": 4.416000000000001e-06, "loss": 0.3351, "step": 35175 }, { "epoch": 9.386666666666667, "grad_norm": 9.590514183044434, "learning_rate": 4.411555555555556e-06, "loss": 0.3619, "step": 35200 }, { "epoch": 9.393333333333333, "grad_norm": 9.937920570373535, "learning_rate": 4.407111111111111e-06, "loss": 0.373, "step": 35225 }, { "epoch": 9.4, "grad_norm": 9.590747833251953, "learning_rate": 4.402666666666667e-06, "loss": 0.3516, "step": 35250 }, { "epoch": 9.406666666666666, "grad_norm": 10.481921195983887, "learning_rate": 4.3982222222222225e-06, "loss": 0.3494, "step": 35275 }, { "epoch": 9.413333333333334, "grad_norm": 11.772513389587402, "learning_rate": 4.393777777777778e-06, "loss": 0.3481, "step": 35300 }, { "epoch": 9.42, "grad_norm": 9.011194229125977, "learning_rate": 4.389333333333334e-06, "loss": 0.3373, "step": 35325 }, { "epoch": 9.426666666666666, "grad_norm": 8.643670082092285, "learning_rate": 4.384888888888889e-06, "loss": 0.3464, "step": 35350 }, { "epoch": 9.433333333333334, "grad_norm": 11.981375694274902, "learning_rate": 4.380444444444445e-06, "loss": 0.3604, "step": 35375 }, { "epoch": 9.44, "grad_norm": 9.139182090759277, "learning_rate": 4.376e-06, "loss": 0.3547, "step": 35400 }, { "epoch": 9.446666666666667, "grad_norm": 10.317281723022461, "learning_rate": 4.371555555555556e-06, "loss": 0.3483, "step": 35425 }, { "epoch": 9.453333333333333, "grad_norm": 9.872893333435059, "learning_rate": 4.3671111111111115e-06, "loss": 0.3404, "step": 35450 }, { "epoch": 9.46, "grad_norm": 9.7171630859375, "learning_rate": 4.362666666666667e-06, "loss": 0.3491, "step": 35475 }, { "epoch": 9.466666666666667, "grad_norm": 12.536483764648438, "learning_rate": 4.358222222222223e-06, "loss": 0.3394, "step": 35500 }, { "epoch": 9.473333333333333, "grad_norm": 9.933024406433105, "learning_rate": 4.353777777777778e-06, "loss": 0.3313, "step": 35525 }, { "epoch": 9.48, "grad_norm": 11.771892547607422, "learning_rate": 4.349333333333333e-06, "loss": 0.3692, "step": 35550 }, { "epoch": 9.486666666666666, "grad_norm": 12.44875431060791, "learning_rate": 4.344888888888889e-06, "loss": 0.3394, "step": 35575 }, { "epoch": 9.493333333333334, "grad_norm": 8.591221809387207, "learning_rate": 4.340444444444445e-06, "loss": 0.3451, "step": 35600 }, { "epoch": 9.5, "grad_norm": 10.657934188842773, "learning_rate": 4.3360000000000005e-06, "loss": 0.3321, "step": 35625 }, { "epoch": 9.506666666666666, "grad_norm": 9.954078674316406, "learning_rate": 4.331555555555556e-06, "loss": 0.3217, "step": 35650 }, { "epoch": 9.513333333333334, "grad_norm": 9.394120216369629, "learning_rate": 4.327111111111111e-06, "loss": 0.3718, "step": 35675 }, { "epoch": 9.52, "grad_norm": 10.306083679199219, "learning_rate": 4.3226666666666676e-06, "loss": 0.3732, "step": 35700 }, { "epoch": 9.526666666666667, "grad_norm": 12.087364196777344, "learning_rate": 4.318222222222222e-06, "loss": 0.3695, "step": 35725 }, { "epoch": 9.533333333333333, "grad_norm": 7.4300761222839355, "learning_rate": 4.313777777777778e-06, "loss": 0.3141, "step": 35750 }, { "epoch": 9.54, "grad_norm": 8.573589324951172, "learning_rate": 4.309333333333334e-06, "loss": 0.3253, "step": 35775 }, { "epoch": 9.546666666666667, "grad_norm": 10.528483390808105, "learning_rate": 4.304888888888889e-06, "loss": 0.3598, "step": 35800 }, { "epoch": 9.553333333333333, "grad_norm": 9.712965965270996, "learning_rate": 4.300444444444445e-06, "loss": 0.3402, "step": 35825 }, { "epoch": 9.56, "grad_norm": 14.885126113891602, "learning_rate": 4.296e-06, "loss": 0.3349, "step": 35850 }, { "epoch": 9.566666666666666, "grad_norm": 7.876286029815674, "learning_rate": 4.291555555555556e-06, "loss": 0.3336, "step": 35875 }, { "epoch": 9.573333333333334, "grad_norm": 10.813725471496582, "learning_rate": 4.287111111111111e-06, "loss": 0.35, "step": 35900 }, { "epoch": 9.58, "grad_norm": 9.924881935119629, "learning_rate": 4.282666666666667e-06, "loss": 0.3333, "step": 35925 }, { "epoch": 9.586666666666666, "grad_norm": 9.119810104370117, "learning_rate": 4.278222222222223e-06, "loss": 0.3187, "step": 35950 }, { "epoch": 9.593333333333334, "grad_norm": 9.314329147338867, "learning_rate": 4.2737777777777785e-06, "loss": 0.3269, "step": 35975 }, { "epoch": 9.6, "grad_norm": 9.639461517333984, "learning_rate": 4.269333333333333e-06, "loss": 0.3157, "step": 36000 }, { "epoch": 9.606666666666667, "grad_norm": 12.941357612609863, "learning_rate": 4.264888888888889e-06, "loss": 0.3508, "step": 36025 }, { "epoch": 9.613333333333333, "grad_norm": 12.282689094543457, "learning_rate": 4.260444444444445e-06, "loss": 0.3545, "step": 36050 }, { "epoch": 9.62, "grad_norm": 10.10659122467041, "learning_rate": 4.256e-06, "loss": 0.3392, "step": 36075 }, { "epoch": 9.626666666666667, "grad_norm": 8.702566146850586, "learning_rate": 4.251555555555556e-06, "loss": 0.3379, "step": 36100 }, { "epoch": 9.633333333333333, "grad_norm": 11.22544002532959, "learning_rate": 4.247111111111111e-06, "loss": 0.3262, "step": 36125 }, { "epoch": 9.64, "grad_norm": 9.37992000579834, "learning_rate": 4.2426666666666675e-06, "loss": 0.3376, "step": 36150 }, { "epoch": 9.646666666666667, "grad_norm": 9.332904815673828, "learning_rate": 4.238222222222222e-06, "loss": 0.386, "step": 36175 }, { "epoch": 9.653333333333332, "grad_norm": 12.347487449645996, "learning_rate": 4.233777777777778e-06, "loss": 0.3384, "step": 36200 }, { "epoch": 9.66, "grad_norm": 11.64198112487793, "learning_rate": 4.229333333333334e-06, "loss": 0.328, "step": 36225 }, { "epoch": 9.666666666666666, "grad_norm": 14.132842063903809, "learning_rate": 4.224888888888889e-06, "loss": 0.3159, "step": 36250 }, { "epoch": 9.673333333333334, "grad_norm": 9.662797927856445, "learning_rate": 4.220444444444445e-06, "loss": 0.354, "step": 36275 }, { "epoch": 9.68, "grad_norm": 11.378888130187988, "learning_rate": 4.216e-06, "loss": 0.3357, "step": 36300 }, { "epoch": 9.686666666666667, "grad_norm": 11.64136791229248, "learning_rate": 4.211555555555556e-06, "loss": 0.3523, "step": 36325 }, { "epoch": 9.693333333333333, "grad_norm": 10.792970657348633, "learning_rate": 4.207111111111111e-06, "loss": 0.3283, "step": 36350 }, { "epoch": 9.7, "grad_norm": 9.809748649597168, "learning_rate": 4.202666666666667e-06, "loss": 0.3216, "step": 36375 }, { "epoch": 9.706666666666667, "grad_norm": 10.850343704223633, "learning_rate": 4.198222222222223e-06, "loss": 0.3392, "step": 36400 }, { "epoch": 9.713333333333333, "grad_norm": 9.709590911865234, "learning_rate": 4.193777777777778e-06, "loss": 0.3355, "step": 36425 }, { "epoch": 9.72, "grad_norm": 10.08993911743164, "learning_rate": 4.189333333333333e-06, "loss": 0.345, "step": 36450 }, { "epoch": 9.726666666666667, "grad_norm": 15.187000274658203, "learning_rate": 4.18488888888889e-06, "loss": 0.3442, "step": 36475 }, { "epoch": 9.733333333333333, "grad_norm": 9.159509658813477, "learning_rate": 4.180444444444445e-06, "loss": 0.3346, "step": 36500 }, { "epoch": 9.74, "grad_norm": 9.653117179870605, "learning_rate": 4.176e-06, "loss": 0.3617, "step": 36525 }, { "epoch": 9.746666666666666, "grad_norm": 8.625654220581055, "learning_rate": 4.171555555555556e-06, "loss": 0.3615, "step": 36550 }, { "epoch": 9.753333333333334, "grad_norm": 9.38110637664795, "learning_rate": 4.167288888888889e-06, "loss": 0.3253, "step": 36575 }, { "epoch": 9.76, "grad_norm": 8.553905487060547, "learning_rate": 4.162844444444445e-06, "loss": 0.318, "step": 36600 }, { "epoch": 9.766666666666667, "grad_norm": 10.48200798034668, "learning_rate": 4.1584e-06, "loss": 0.3318, "step": 36625 }, { "epoch": 9.773333333333333, "grad_norm": 9.281062126159668, "learning_rate": 4.153955555555556e-06, "loss": 0.2969, "step": 36650 }, { "epoch": 9.78, "grad_norm": 10.971168518066406, "learning_rate": 4.149511111111111e-06, "loss": 0.3457, "step": 36675 }, { "epoch": 9.786666666666667, "grad_norm": 10.231289863586426, "learning_rate": 4.145066666666667e-06, "loss": 0.3312, "step": 36700 }, { "epoch": 9.793333333333333, "grad_norm": 13.543068885803223, "learning_rate": 4.140622222222223e-06, "loss": 0.3041, "step": 36725 }, { "epoch": 9.8, "grad_norm": 10.372688293457031, "learning_rate": 4.1361777777777775e-06, "loss": 0.3195, "step": 36750 }, { "epoch": 9.806666666666667, "grad_norm": 13.946479797363281, "learning_rate": 4.131733333333334e-06, "loss": 0.348, "step": 36775 }, { "epoch": 9.813333333333333, "grad_norm": 10.281474113464355, "learning_rate": 4.127288888888889e-06, "loss": 0.3356, "step": 36800 }, { "epoch": 9.82, "grad_norm": 9.529401779174805, "learning_rate": 4.1228444444444446e-06, "loss": 0.3236, "step": 36825 }, { "epoch": 9.826666666666666, "grad_norm": 12.562028884887695, "learning_rate": 4.1184e-06, "loss": 0.3083, "step": 36850 }, { "epoch": 9.833333333333334, "grad_norm": 9.874996185302734, "learning_rate": 4.113955555555556e-06, "loss": 0.3324, "step": 36875 }, { "epoch": 9.84, "grad_norm": 18.471567153930664, "learning_rate": 4.109511111111112e-06, "loss": 0.3496, "step": 36900 }, { "epoch": 9.846666666666668, "grad_norm": 8.63660717010498, "learning_rate": 4.105066666666667e-06, "loss": 0.3072, "step": 36925 }, { "epoch": 9.853333333333333, "grad_norm": 10.181352615356445, "learning_rate": 4.100622222222222e-06, "loss": 0.3554, "step": 36950 }, { "epoch": 9.86, "grad_norm": 9.928740501403809, "learning_rate": 4.096177777777779e-06, "loss": 0.3186, "step": 36975 }, { "epoch": 9.866666666666667, "grad_norm": 9.93317699432373, "learning_rate": 4.0917333333333336e-06, "loss": 0.321, "step": 37000 }, { "epoch": 9.873333333333333, "grad_norm": 10.438316345214844, "learning_rate": 4.087288888888889e-06, "loss": 0.3328, "step": 37025 }, { "epoch": 9.88, "grad_norm": 10.06196117401123, "learning_rate": 4.082844444444445e-06, "loss": 0.3296, "step": 37050 }, { "epoch": 9.886666666666667, "grad_norm": 8.571534156799316, "learning_rate": 4.0784e-06, "loss": 0.3246, "step": 37075 }, { "epoch": 9.893333333333333, "grad_norm": 12.260832786560059, "learning_rate": 4.073955555555556e-06, "loss": 0.3422, "step": 37100 }, { "epoch": 9.9, "grad_norm": 10.398480415344238, "learning_rate": 4.069511111111111e-06, "loss": 0.3187, "step": 37125 }, { "epoch": 9.906666666666666, "grad_norm": 8.824198722839355, "learning_rate": 4.065066666666667e-06, "loss": 0.3049, "step": 37150 }, { "epoch": 9.913333333333334, "grad_norm": 11.912688255310059, "learning_rate": 4.0606222222222225e-06, "loss": 0.3502, "step": 37175 }, { "epoch": 9.92, "grad_norm": 12.143152236938477, "learning_rate": 4.056177777777778e-06, "loss": 0.3005, "step": 37200 }, { "epoch": 9.926666666666666, "grad_norm": 11.386625289916992, "learning_rate": 4.051733333333334e-06, "loss": 0.298, "step": 37225 }, { "epoch": 9.933333333333334, "grad_norm": 9.724151611328125, "learning_rate": 4.04728888888889e-06, "loss": 0.3253, "step": 37250 }, { "epoch": 9.94, "grad_norm": 9.658347129821777, "learning_rate": 4.0428444444444445e-06, "loss": 0.3184, "step": 37275 }, { "epoch": 9.946666666666667, "grad_norm": 11.305619239807129, "learning_rate": 4.0384e-06, "loss": 0.3176, "step": 37300 }, { "epoch": 9.953333333333333, "grad_norm": 12.631924629211426, "learning_rate": 4.033955555555556e-06, "loss": 0.3091, "step": 37325 }, { "epoch": 9.96, "grad_norm": 15.758787155151367, "learning_rate": 4.0295111111111115e-06, "loss": 0.363, "step": 37350 }, { "epoch": 9.966666666666667, "grad_norm": 11.23168659210205, "learning_rate": 4.025066666666667e-06, "loss": 0.3137, "step": 37375 }, { "epoch": 9.973333333333333, "grad_norm": 8.826949119567871, "learning_rate": 4.020622222222222e-06, "loss": 0.307, "step": 37400 }, { "epoch": 9.98, "grad_norm": 10.01839542388916, "learning_rate": 4.016177777777779e-06, "loss": 0.3425, "step": 37425 }, { "epoch": 9.986666666666666, "grad_norm": 9.207571983337402, "learning_rate": 4.0117333333333335e-06, "loss": 0.3147, "step": 37450 }, { "epoch": 9.993333333333334, "grad_norm": 12.09560489654541, "learning_rate": 4.007288888888889e-06, "loss": 0.3431, "step": 37475 }, { "epoch": 10.0, "grad_norm": 9.818669319152832, "learning_rate": 4.002844444444445e-06, "loss": 0.344, "step": 37500 }, { "epoch": 10.0, "eval_cer": 22.31332575517582, "eval_loss": 0.38006341457366943, "eval_runtime": 1242.2202, "eval_samples_per_second": 4.025, "eval_steps_per_second": 0.503, "step": 37500 }, { "epoch": 10.006666666666666, "grad_norm": 6.96783971786499, "learning_rate": 3.9984e-06, "loss": 0.2348, "step": 37525 }, { "epoch": 10.013333333333334, "grad_norm": 7.892404556274414, "learning_rate": 3.993955555555556e-06, "loss": 0.2298, "step": 37550 }, { "epoch": 10.02, "grad_norm": 6.321427822113037, "learning_rate": 3.989511111111111e-06, "loss": 0.2172, "step": 37575 }, { "epoch": 10.026666666666667, "grad_norm": 6.531167507171631, "learning_rate": 3.985066666666667e-06, "loss": 0.2371, "step": 37600 }, { "epoch": 10.033333333333333, "grad_norm": 5.7036919593811035, "learning_rate": 3.9806222222222225e-06, "loss": 0.2225, "step": 37625 }, { "epoch": 10.04, "grad_norm": 8.722405433654785, "learning_rate": 3.976177777777778e-06, "loss": 0.2257, "step": 37650 }, { "epoch": 10.046666666666667, "grad_norm": 8.29419231414795, "learning_rate": 3.971733333333334e-06, "loss": 0.2388, "step": 37675 }, { "epoch": 10.053333333333333, "grad_norm": 11.844887733459473, "learning_rate": 3.9672888888888895e-06, "loss": 0.2326, "step": 37700 }, { "epoch": 10.06, "grad_norm": 6.820853233337402, "learning_rate": 3.962844444444444e-06, "loss": 0.2306, "step": 37725 }, { "epoch": 10.066666666666666, "grad_norm": 9.080801010131836, "learning_rate": 3.958400000000001e-06, "loss": 0.2469, "step": 37750 }, { "epoch": 10.073333333333334, "grad_norm": 9.323078155517578, "learning_rate": 3.953955555555556e-06, "loss": 0.2294, "step": 37775 }, { "epoch": 10.08, "grad_norm": 8.412330627441406, "learning_rate": 3.9495111111111115e-06, "loss": 0.2444, "step": 37800 }, { "epoch": 10.086666666666666, "grad_norm": 8.495828628540039, "learning_rate": 3.945066666666667e-06, "loss": 0.2266, "step": 37825 }, { "epoch": 10.093333333333334, "grad_norm": 8.200389862060547, "learning_rate": 3.940622222222222e-06, "loss": 0.2576, "step": 37850 }, { "epoch": 10.1, "grad_norm": 6.118553161621094, "learning_rate": 3.9361777777777785e-06, "loss": 0.2464, "step": 37875 }, { "epoch": 10.106666666666667, "grad_norm": 9.211953163146973, "learning_rate": 3.931733333333333e-06, "loss": 0.2264, "step": 37900 }, { "epoch": 10.113333333333333, "grad_norm": 8.123000144958496, "learning_rate": 3.927288888888889e-06, "loss": 0.255, "step": 37925 }, { "epoch": 10.12, "grad_norm": 8.521992683410645, "learning_rate": 3.922844444444445e-06, "loss": 0.2326, "step": 37950 }, { "epoch": 10.126666666666667, "grad_norm": 7.896209239959717, "learning_rate": 3.9184000000000005e-06, "loss": 0.2358, "step": 37975 }, { "epoch": 10.133333333333333, "grad_norm": 7.910315990447998, "learning_rate": 3.913955555555556e-06, "loss": 0.22, "step": 38000 }, { "epoch": 10.14, "grad_norm": 7.148990631103516, "learning_rate": 3.909511111111112e-06, "loss": 0.2301, "step": 38025 }, { "epoch": 10.146666666666667, "grad_norm": 8.734615325927734, "learning_rate": 3.905066666666667e-06, "loss": 0.2423, "step": 38050 }, { "epoch": 10.153333333333332, "grad_norm": 7.900934219360352, "learning_rate": 3.900622222222222e-06, "loss": 0.2288, "step": 38075 }, { "epoch": 10.16, "grad_norm": 9.342535018920898, "learning_rate": 3.896177777777778e-06, "loss": 0.2392, "step": 38100 }, { "epoch": 10.166666666666666, "grad_norm": 7.215909957885742, "learning_rate": 3.891733333333334e-06, "loss": 0.2207, "step": 38125 }, { "epoch": 10.173333333333334, "grad_norm": 9.116720199584961, "learning_rate": 3.8872888888888895e-06, "loss": 0.2305, "step": 38150 }, { "epoch": 10.18, "grad_norm": 7.835118770599365, "learning_rate": 3.882844444444444e-06, "loss": 0.2334, "step": 38175 }, { "epoch": 10.186666666666667, "grad_norm": 7.831537246704102, "learning_rate": 3.878400000000001e-06, "loss": 0.2584, "step": 38200 }, { "epoch": 10.193333333333333, "grad_norm": 7.800407886505127, "learning_rate": 3.873955555555556e-06, "loss": 0.2242, "step": 38225 }, { "epoch": 10.2, "grad_norm": 10.364270210266113, "learning_rate": 3.869511111111111e-06, "loss": 0.2634, "step": 38250 }, { "epoch": 10.206666666666667, "grad_norm": 8.485258102416992, "learning_rate": 3.865066666666667e-06, "loss": 0.2165, "step": 38275 }, { "epoch": 10.213333333333333, "grad_norm": 9.955810546875, "learning_rate": 3.860622222222222e-06, "loss": 0.2303, "step": 38300 }, { "epoch": 10.22, "grad_norm": 23.201406478881836, "learning_rate": 3.8561777777777785e-06, "loss": 0.2335, "step": 38325 }, { "epoch": 10.226666666666667, "grad_norm": 8.114459037780762, "learning_rate": 3.851733333333333e-06, "loss": 0.2543, "step": 38350 }, { "epoch": 10.233333333333333, "grad_norm": 9.595904350280762, "learning_rate": 3.847288888888889e-06, "loss": 0.2265, "step": 38375 }, { "epoch": 10.24, "grad_norm": 9.234641075134277, "learning_rate": 3.842844444444445e-06, "loss": 0.236, "step": 38400 }, { "epoch": 10.246666666666666, "grad_norm": 9.777807235717773, "learning_rate": 3.8384e-06, "loss": 0.2393, "step": 38425 }, { "epoch": 10.253333333333334, "grad_norm": 8.86673355102539, "learning_rate": 3.833955555555556e-06, "loss": 0.2275, "step": 38450 }, { "epoch": 10.26, "grad_norm": 10.553226470947266, "learning_rate": 3.829511111111112e-06, "loss": 0.2285, "step": 38475 }, { "epoch": 10.266666666666667, "grad_norm": 8.132725715637207, "learning_rate": 3.825066666666667e-06, "loss": 0.2278, "step": 38500 }, { "epoch": 10.273333333333333, "grad_norm": 9.407454490661621, "learning_rate": 3.820622222222223e-06, "loss": 0.2222, "step": 38525 }, { "epoch": 10.28, "grad_norm": 6.8985443115234375, "learning_rate": 3.816177777777778e-06, "loss": 0.2302, "step": 38550 }, { "epoch": 10.286666666666667, "grad_norm": 8.54443073272705, "learning_rate": 3.8117333333333333e-06, "loss": 0.26, "step": 38575 }, { "epoch": 10.293333333333333, "grad_norm": 8.41584587097168, "learning_rate": 3.8072888888888894e-06, "loss": 0.2315, "step": 38600 }, { "epoch": 10.3, "grad_norm": 8.32362174987793, "learning_rate": 3.8028444444444447e-06, "loss": 0.2339, "step": 38625 }, { "epoch": 10.306666666666667, "grad_norm": 6.777981758117676, "learning_rate": 3.7984000000000003e-06, "loss": 0.2195, "step": 38650 }, { "epoch": 10.313333333333333, "grad_norm": 8.673516273498535, "learning_rate": 3.7939555555555556e-06, "loss": 0.2141, "step": 38675 }, { "epoch": 10.32, "grad_norm": 6.866688251495361, "learning_rate": 3.7895111111111117e-06, "loss": 0.2191, "step": 38700 }, { "epoch": 10.326666666666666, "grad_norm": 8.10189151763916, "learning_rate": 3.785066666666667e-06, "loss": 0.2265, "step": 38725 }, { "epoch": 10.333333333333334, "grad_norm": 8.146675109863281, "learning_rate": 3.7806222222222227e-06, "loss": 0.2202, "step": 38750 }, { "epoch": 10.34, "grad_norm": 11.224204063415527, "learning_rate": 3.776177777777778e-06, "loss": 0.2336, "step": 38775 }, { "epoch": 10.346666666666668, "grad_norm": 7.394009590148926, "learning_rate": 3.771733333333334e-06, "loss": 0.2469, "step": 38800 }, { "epoch": 10.353333333333333, "grad_norm": 11.235764503479004, "learning_rate": 3.7672888888888893e-06, "loss": 0.2084, "step": 38825 }, { "epoch": 10.36, "grad_norm": 6.991292953491211, "learning_rate": 3.7628444444444446e-06, "loss": 0.2482, "step": 38850 }, { "epoch": 10.366666666666667, "grad_norm": Infinity, "learning_rate": 3.7585777777777783e-06, "loss": 0.2426, "step": 38875 }, { "epoch": 10.373333333333333, "grad_norm": 8.380146026611328, "learning_rate": 3.7541333333333336e-06, "loss": 0.2577, "step": 38900 }, { "epoch": 10.38, "grad_norm": 8.758688926696777, "learning_rate": 3.7496888888888893e-06, "loss": 0.2475, "step": 38925 }, { "epoch": 10.386666666666667, "grad_norm": 8.96335220336914, "learning_rate": 3.7452444444444446e-06, "loss": 0.2193, "step": 38950 }, { "epoch": 10.393333333333333, "grad_norm": 8.01783561706543, "learning_rate": 3.7408000000000007e-06, "loss": 0.2677, "step": 38975 }, { "epoch": 10.4, "grad_norm": 10.75273323059082, "learning_rate": 3.736355555555556e-06, "loss": 0.2278, "step": 39000 }, { "epoch": 10.406666666666666, "grad_norm": 8.649537086486816, "learning_rate": 3.7319111111111112e-06, "loss": 0.2179, "step": 39025 }, { "epoch": 10.413333333333334, "grad_norm": 7.566893577575684, "learning_rate": 3.727466666666667e-06, "loss": 0.2348, "step": 39050 }, { "epoch": 10.42, "grad_norm": 13.354811668395996, "learning_rate": 3.723022222222222e-06, "loss": 0.2541, "step": 39075 }, { "epoch": 10.426666666666666, "grad_norm": 7.850353240966797, "learning_rate": 3.7185777777777783e-06, "loss": 0.2295, "step": 39100 }, { "epoch": 10.433333333333334, "grad_norm": 7.839790344238281, "learning_rate": 3.7141333333333336e-06, "loss": 0.2242, "step": 39125 }, { "epoch": 10.44, "grad_norm": 8.050643920898438, "learning_rate": 3.7096888888888892e-06, "loss": 0.2398, "step": 39150 }, { "epoch": 10.446666666666667, "grad_norm": 8.47515869140625, "learning_rate": 3.7052444444444445e-06, "loss": 0.2347, "step": 39175 }, { "epoch": 10.453333333333333, "grad_norm": 7.492109298706055, "learning_rate": 3.7008000000000006e-06, "loss": 0.2259, "step": 39200 }, { "epoch": 10.46, "grad_norm": 9.7221097946167, "learning_rate": 3.696355555555556e-06, "loss": 0.2225, "step": 39225 }, { "epoch": 10.466666666666667, "grad_norm": 7.6934099197387695, "learning_rate": 3.6919111111111116e-06, "loss": 0.2376, "step": 39250 }, { "epoch": 10.473333333333333, "grad_norm": 9.416120529174805, "learning_rate": 3.687466666666667e-06, "loss": 0.255, "step": 39275 }, { "epoch": 10.48, "grad_norm": 9.342997550964355, "learning_rate": 3.683022222222222e-06, "loss": 0.2261, "step": 39300 }, { "epoch": 10.486666666666666, "grad_norm": 8.977670669555664, "learning_rate": 3.6785777777777782e-06, "loss": 0.2382, "step": 39325 }, { "epoch": 10.493333333333334, "grad_norm": 8.782371520996094, "learning_rate": 3.6741333333333335e-06, "loss": 0.2174, "step": 39350 }, { "epoch": 10.5, "grad_norm": 8.136134147644043, "learning_rate": 3.669688888888889e-06, "loss": 0.2444, "step": 39375 }, { "epoch": 10.506666666666666, "grad_norm": 8.964178085327148, "learning_rate": 3.6652444444444445e-06, "loss": 0.2277, "step": 39400 }, { "epoch": 10.513333333333334, "grad_norm": 8.009521484375, "learning_rate": 3.6608000000000006e-06, "loss": 0.2562, "step": 39425 }, { "epoch": 10.52, "grad_norm": 9.212867736816406, "learning_rate": 3.656355555555556e-06, "loss": 0.2524, "step": 39450 }, { "epoch": 10.526666666666667, "grad_norm": 10.157148361206055, "learning_rate": 3.6519111111111116e-06, "loss": 0.2322, "step": 39475 }, { "epoch": 10.533333333333333, "grad_norm": 8.433455467224121, "learning_rate": 3.647466666666667e-06, "loss": 0.2427, "step": 39500 }, { "epoch": 10.54, "grad_norm": 10.004878997802734, "learning_rate": 3.643022222222223e-06, "loss": 0.2343, "step": 39525 }, { "epoch": 10.546666666666667, "grad_norm": 8.350175857543945, "learning_rate": 3.638577777777778e-06, "loss": 0.2336, "step": 39550 }, { "epoch": 10.553333333333333, "grad_norm": 7.086070537567139, "learning_rate": 3.6341333333333335e-06, "loss": 0.2279, "step": 39575 }, { "epoch": 10.56, "grad_norm": 6.564724922180176, "learning_rate": 3.629688888888889e-06, "loss": 0.2505, "step": 39600 }, { "epoch": 10.566666666666666, "grad_norm": 9.80459976196289, "learning_rate": 3.6252444444444444e-06, "loss": 0.2502, "step": 39625 }, { "epoch": 10.573333333333334, "grad_norm": 8.433406829833984, "learning_rate": 3.6208000000000006e-06, "loss": 0.2242, "step": 39650 }, { "epoch": 10.58, "grad_norm": 8.566139221191406, "learning_rate": 3.616355555555556e-06, "loss": 0.2421, "step": 39675 }, { "epoch": 10.586666666666666, "grad_norm": 7.994068622589111, "learning_rate": 3.6119111111111115e-06, "loss": 0.2316, "step": 39700 }, { "epoch": 10.593333333333334, "grad_norm": 9.410627365112305, "learning_rate": 3.6074666666666668e-06, "loss": 0.2137, "step": 39725 }, { "epoch": 10.6, "grad_norm": 7.6290106773376465, "learning_rate": 3.603022222222223e-06, "loss": 0.2373, "step": 39750 }, { "epoch": 10.606666666666667, "grad_norm": 8.88478946685791, "learning_rate": 3.598577777777778e-06, "loss": 0.2269, "step": 39775 }, { "epoch": 10.613333333333333, "grad_norm": 9.702497482299805, "learning_rate": 3.5941333333333334e-06, "loss": 0.2259, "step": 39800 }, { "epoch": 10.62, "grad_norm": 8.029433250427246, "learning_rate": 3.589688888888889e-06, "loss": 0.2606, "step": 39825 }, { "epoch": 10.626666666666667, "grad_norm": 7.80323600769043, "learning_rate": 3.5852444444444444e-06, "loss": 0.2383, "step": 39850 }, { "epoch": 10.633333333333333, "grad_norm": 8.392340660095215, "learning_rate": 3.5808000000000005e-06, "loss": 0.2427, "step": 39875 }, { "epoch": 10.64, "grad_norm": 12.616775512695312, "learning_rate": 3.5763555555555558e-06, "loss": 0.2403, "step": 39900 }, { "epoch": 10.646666666666667, "grad_norm": 8.686854362487793, "learning_rate": 3.5719111111111115e-06, "loss": 0.2355, "step": 39925 }, { "epoch": 10.653333333333332, "grad_norm": 7.003011703491211, "learning_rate": 3.5674666666666667e-06, "loss": 0.2337, "step": 39950 }, { "epoch": 10.66, "grad_norm": 8.846282005310059, "learning_rate": 3.563022222222223e-06, "loss": 0.2376, "step": 39975 }, { "epoch": 10.666666666666666, "grad_norm": 15.992740631103516, "learning_rate": 3.558577777777778e-06, "loss": 0.2132, "step": 40000 }, { "epoch": 10.673333333333334, "grad_norm": 9.388334274291992, "learning_rate": 3.554133333333334e-06, "loss": 0.2355, "step": 40025 }, { "epoch": 10.68, "grad_norm": 6.5406670570373535, "learning_rate": 3.549688888888889e-06, "loss": 0.2419, "step": 40050 }, { "epoch": 10.686666666666667, "grad_norm": 5.696641445159912, "learning_rate": 3.5452444444444444e-06, "loss": 0.2338, "step": 40075 }, { "epoch": 10.693333333333333, "grad_norm": 6.915182590484619, "learning_rate": 3.5408000000000005e-06, "loss": 0.2352, "step": 40100 }, { "epoch": 10.7, "grad_norm": 9.815244674682617, "learning_rate": 3.5363555555555557e-06, "loss": 0.2457, "step": 40125 }, { "epoch": 10.706666666666667, "grad_norm": 7.23432731628418, "learning_rate": 3.5319111111111114e-06, "loss": 0.2485, "step": 40150 }, { "epoch": 10.713333333333333, "grad_norm": 8.103955268859863, "learning_rate": 3.5274666666666667e-06, "loss": 0.221, "step": 40175 }, { "epoch": 10.72, "grad_norm": 7.607647895812988, "learning_rate": 3.523022222222223e-06, "loss": 0.2355, "step": 40200 }, { "epoch": 10.726666666666667, "grad_norm": 6.96151065826416, "learning_rate": 3.518577777777778e-06, "loss": 0.2225, "step": 40225 }, { "epoch": 10.733333333333333, "grad_norm": 8.827876091003418, "learning_rate": 3.5141333333333338e-06, "loss": 0.2436, "step": 40250 }, { "epoch": 10.74, "grad_norm": 8.841526985168457, "learning_rate": 3.509688888888889e-06, "loss": 0.2217, "step": 40275 }, { "epoch": 10.746666666666666, "grad_norm": 8.114385604858398, "learning_rate": 3.505244444444445e-06, "loss": 0.2137, "step": 40300 }, { "epoch": 10.753333333333334, "grad_norm": 8.819375038146973, "learning_rate": 3.5008000000000004e-06, "loss": 0.2328, "step": 40325 }, { "epoch": 10.76, "grad_norm": 8.241307258605957, "learning_rate": 3.4963555555555557e-06, "loss": 0.2209, "step": 40350 }, { "epoch": 10.766666666666667, "grad_norm": 8.196920394897461, "learning_rate": 3.4919111111111114e-06, "loss": 0.2296, "step": 40375 }, { "epoch": 10.773333333333333, "grad_norm": 6.8775200843811035, "learning_rate": 3.4874666666666667e-06, "loss": 0.2349, "step": 40400 }, { "epoch": 10.78, "grad_norm": 7.79805326461792, "learning_rate": 3.4830222222222228e-06, "loss": 0.2224, "step": 40425 }, { "epoch": 10.786666666666667, "grad_norm": 7.873829364776611, "learning_rate": 3.478577777777778e-06, "loss": 0.2319, "step": 40450 }, { "epoch": 10.793333333333333, "grad_norm": 7.550902843475342, "learning_rate": 3.4741333333333337e-06, "loss": 0.2335, "step": 40475 }, { "epoch": 10.8, "grad_norm": 9.668993949890137, "learning_rate": 3.469688888888889e-06, "loss": 0.2341, "step": 40500 }, { "epoch": 10.806666666666667, "grad_norm": 11.424470901489258, "learning_rate": 3.465244444444445e-06, "loss": 0.23, "step": 40525 }, { "epoch": 10.813333333333333, "grad_norm": 7.24432897567749, "learning_rate": 3.4608000000000004e-06, "loss": 0.2282, "step": 40550 }, { "epoch": 10.82, "grad_norm": 7.254228591918945, "learning_rate": 3.4563555555555557e-06, "loss": 0.2512, "step": 40575 }, { "epoch": 10.826666666666666, "grad_norm": 9.873424530029297, "learning_rate": 3.4519111111111114e-06, "loss": 0.2072, "step": 40600 }, { "epoch": 10.833333333333334, "grad_norm": 8.332048416137695, "learning_rate": 3.4474666666666666e-06, "loss": 0.2313, "step": 40625 }, { "epoch": 10.84, "grad_norm": 9.065515518188477, "learning_rate": 3.4430222222222227e-06, "loss": 0.2498, "step": 40650 }, { "epoch": 10.846666666666668, "grad_norm": 8.45325756072998, "learning_rate": 3.438577777777778e-06, "loss": 0.2406, "step": 40675 }, { "epoch": 10.853333333333333, "grad_norm": 9.508902549743652, "learning_rate": 3.4341333333333337e-06, "loss": 0.2358, "step": 40700 }, { "epoch": 10.86, "grad_norm": 8.935314178466797, "learning_rate": 3.429688888888889e-06, "loss": 0.2237, "step": 40725 }, { "epoch": 10.866666666666667, "grad_norm": 7.9802350997924805, "learning_rate": 3.425244444444445e-06, "loss": 0.2502, "step": 40750 }, { "epoch": 10.873333333333333, "grad_norm": 8.224103927612305, "learning_rate": 3.4208000000000004e-06, "loss": 0.2672, "step": 40775 }, { "epoch": 10.88, "grad_norm": 9.206069946289062, "learning_rate": 3.416355555555556e-06, "loss": 0.2321, "step": 40800 }, { "epoch": 10.886666666666667, "grad_norm": 6.7599711418151855, "learning_rate": 3.4119111111111113e-06, "loss": 0.2215, "step": 40825 }, { "epoch": 10.893333333333333, "grad_norm": 10.13789176940918, "learning_rate": 3.4074666666666666e-06, "loss": 0.2526, "step": 40850 }, { "epoch": 10.9, "grad_norm": 10.29374885559082, "learning_rate": 3.4030222222222227e-06, "loss": 0.2508, "step": 40875 }, { "epoch": 10.906666666666666, "grad_norm": 10.223416328430176, "learning_rate": 3.398577777777778e-06, "loss": 0.2434, "step": 40900 }, { "epoch": 10.913333333333334, "grad_norm": 11.14451789855957, "learning_rate": 3.3941333333333337e-06, "loss": 0.2222, "step": 40925 }, { "epoch": 10.92, "grad_norm": 12.089435577392578, "learning_rate": 3.389688888888889e-06, "loss": 0.2515, "step": 40950 }, { "epoch": 10.926666666666666, "grad_norm": 12.798824310302734, "learning_rate": 3.385244444444445e-06, "loss": 0.2302, "step": 40975 }, { "epoch": 10.933333333333334, "grad_norm": 6.642827033996582, "learning_rate": 3.3808000000000003e-06, "loss": 0.2106, "step": 41000 }, { "epoch": 10.94, "grad_norm": 9.76341438293457, "learning_rate": 3.376355555555556e-06, "loss": 0.255, "step": 41025 }, { "epoch": 10.946666666666667, "grad_norm": 7.670187473297119, "learning_rate": 3.3719111111111113e-06, "loss": 0.2283, "step": 41050 }, { "epoch": 10.953333333333333, "grad_norm": 9.368205070495605, "learning_rate": 3.3674666666666674e-06, "loss": 0.267, "step": 41075 }, { "epoch": 10.96, "grad_norm": 8.09643840789795, "learning_rate": 3.3630222222222227e-06, "loss": 0.2339, "step": 41100 }, { "epoch": 10.966666666666667, "grad_norm": 10.153895378112793, "learning_rate": 3.358577777777778e-06, "loss": 0.2436, "step": 41125 }, { "epoch": 10.973333333333333, "grad_norm": 10.069945335388184, "learning_rate": 3.3541333333333336e-06, "loss": 0.2381, "step": 41150 }, { "epoch": 10.98, "grad_norm": 8.237937927246094, "learning_rate": 3.349688888888889e-06, "loss": 0.2267, "step": 41175 }, { "epoch": 10.986666666666666, "grad_norm": 8.594280242919922, "learning_rate": 3.345244444444445e-06, "loss": 0.2255, "step": 41200 }, { "epoch": 10.993333333333334, "grad_norm": 7.229711055755615, "learning_rate": 3.3408000000000003e-06, "loss": 0.2439, "step": 41225 }, { "epoch": 11.0, "grad_norm": 15.4478178024292, "learning_rate": 3.336355555555556e-06, "loss": 0.2431, "step": 41250 }, { "epoch": 11.0, "eval_cer": 21.36667722639435, "eval_loss": 0.36675572395324707, "eval_runtime": 1257.9926, "eval_samples_per_second": 3.975, "eval_steps_per_second": 0.497, "step": 41250 }, { "epoch": 11.006666666666666, "grad_norm": 6.3628644943237305, "learning_rate": 3.3319111111111112e-06, "loss": 0.1718, "step": 41275 }, { "epoch": 11.013333333333334, "grad_norm": 6.844697952270508, "learning_rate": 3.3274666666666673e-06, "loss": 0.1726, "step": 41300 }, { "epoch": 11.02, "grad_norm": 6.7650933265686035, "learning_rate": 3.3230222222222226e-06, "loss": 0.1626, "step": 41325 }, { "epoch": 11.026666666666667, "grad_norm": 4.5490312576293945, "learning_rate": 3.318577777777778e-06, "loss": 0.1456, "step": 41350 }, { "epoch": 11.033333333333333, "grad_norm": 8.177011489868164, "learning_rate": 3.3141333333333336e-06, "loss": 0.1683, "step": 41375 }, { "epoch": 11.04, "grad_norm": 6.149026393890381, "learning_rate": 3.309688888888889e-06, "loss": 0.1627, "step": 41400 }, { "epoch": 11.046666666666667, "grad_norm": 10.45779037475586, "learning_rate": 3.305244444444445e-06, "loss": 0.156, "step": 41425 }, { "epoch": 11.053333333333333, "grad_norm": 5.955918312072754, "learning_rate": 3.3008000000000002e-06, "loss": 0.1597, "step": 41450 }, { "epoch": 11.06, "grad_norm": 6.060828685760498, "learning_rate": 3.296355555555556e-06, "loss": 0.1597, "step": 41475 }, { "epoch": 11.066666666666666, "grad_norm": 4.5837602615356445, "learning_rate": 3.291911111111111e-06, "loss": 0.153, "step": 41500 }, { "epoch": 11.073333333333334, "grad_norm": 6.804620265960693, "learning_rate": 3.2874666666666673e-06, "loss": 0.1727, "step": 41525 }, { "epoch": 11.08, "grad_norm": 7.577788829803467, "learning_rate": 3.2830222222222226e-06, "loss": 0.1615, "step": 41550 }, { "epoch": 11.086666666666666, "grad_norm": 7.483352184295654, "learning_rate": 3.2785777777777783e-06, "loss": 0.168, "step": 41575 }, { "epoch": 11.093333333333334, "grad_norm": 7.8912577629089355, "learning_rate": 3.2741333333333335e-06, "loss": 0.1689, "step": 41600 }, { "epoch": 11.1, "grad_norm": 6.864776134490967, "learning_rate": 3.269688888888889e-06, "loss": 0.1653, "step": 41625 }, { "epoch": 11.106666666666667, "grad_norm": 6.279836177825928, "learning_rate": 3.265244444444445e-06, "loss": 0.1663, "step": 41650 }, { "epoch": 11.113333333333333, "grad_norm": 7.304124355316162, "learning_rate": 3.2608e-06, "loss": 0.1509, "step": 41675 }, { "epoch": 11.12, "grad_norm": 8.196307182312012, "learning_rate": 3.256355555555556e-06, "loss": 0.1532, "step": 41700 }, { "epoch": 11.126666666666667, "grad_norm": 6.886493682861328, "learning_rate": 3.251911111111111e-06, "loss": 0.1644, "step": 41725 }, { "epoch": 11.133333333333333, "grad_norm": 7.93499755859375, "learning_rate": 3.2474666666666673e-06, "loss": 0.1763, "step": 41750 }, { "epoch": 11.14, "grad_norm": 8.721900939941406, "learning_rate": 3.2430222222222225e-06, "loss": 0.1496, "step": 41775 }, { "epoch": 11.146666666666667, "grad_norm": 28.207721710205078, "learning_rate": 3.2385777777777782e-06, "loss": 0.1548, "step": 41800 }, { "epoch": 11.153333333333332, "grad_norm": 6.728294372558594, "learning_rate": 3.2341333333333335e-06, "loss": 0.1613, "step": 41825 }, { "epoch": 11.16, "grad_norm": 7.302453994750977, "learning_rate": 3.2296888888888896e-06, "loss": 0.1723, "step": 41850 }, { "epoch": 11.166666666666666, "grad_norm": 7.666321277618408, "learning_rate": 3.225244444444445e-06, "loss": 0.1693, "step": 41875 }, { "epoch": 11.173333333333334, "grad_norm": 3.938662052154541, "learning_rate": 3.2208e-06, "loss": 0.1753, "step": 41900 }, { "epoch": 11.18, "grad_norm": 9.284903526306152, "learning_rate": 3.216355555555556e-06, "loss": 0.1763, "step": 41925 }, { "epoch": 11.186666666666667, "grad_norm": 7.702326774597168, "learning_rate": 3.211911111111111e-06, "loss": 0.1638, "step": 41950 }, { "epoch": 11.193333333333333, "grad_norm": 7.848499774932861, "learning_rate": 3.2074666666666672e-06, "loss": 0.1442, "step": 41975 }, { "epoch": 11.2, "grad_norm": 7.467278957366943, "learning_rate": 3.2030222222222225e-06, "loss": 0.1359, "step": 42000 }, { "epoch": 11.206666666666667, "grad_norm": 8.6646146774292, "learning_rate": 3.198577777777778e-06, "loss": 0.1711, "step": 42025 }, { "epoch": 11.213333333333333, "grad_norm": 7.0978169441223145, "learning_rate": 3.1941333333333335e-06, "loss": 0.1618, "step": 42050 }, { "epoch": 11.22, "grad_norm": 7.236456871032715, "learning_rate": 3.1896888888888896e-06, "loss": 0.159, "step": 42075 }, { "epoch": 11.226666666666667, "grad_norm": 5.769096374511719, "learning_rate": 3.185244444444445e-06, "loss": 0.1579, "step": 42100 }, { "epoch": 11.233333333333333, "grad_norm": 6.503199577331543, "learning_rate": 3.1808e-06, "loss": 0.1556, "step": 42125 }, { "epoch": 11.24, "grad_norm": 7.2549920082092285, "learning_rate": 3.176355555555556e-06, "loss": 0.1534, "step": 42150 }, { "epoch": 11.246666666666666, "grad_norm": 6.054853916168213, "learning_rate": 3.171911111111111e-06, "loss": 0.1523, "step": 42175 }, { "epoch": 11.253333333333334, "grad_norm": 7.935262680053711, "learning_rate": 3.167466666666667e-06, "loss": 0.1583, "step": 42200 }, { "epoch": 11.26, "grad_norm": 4.899887561798096, "learning_rate": 3.1630222222222225e-06, "loss": 0.1635, "step": 42225 }, { "epoch": 11.266666666666667, "grad_norm": 7.979632377624512, "learning_rate": 3.158577777777778e-06, "loss": 0.1629, "step": 42250 }, { "epoch": 11.273333333333333, "grad_norm": 12.075186729431152, "learning_rate": 3.1541333333333334e-06, "loss": 0.1461, "step": 42275 }, { "epoch": 11.28, "grad_norm": 6.796260356903076, "learning_rate": 3.1496888888888895e-06, "loss": 0.1651, "step": 42300 }, { "epoch": 11.286666666666667, "grad_norm": 6.811568737030029, "learning_rate": 3.145244444444445e-06, "loss": 0.1592, "step": 42325 }, { "epoch": 11.293333333333333, "grad_norm": 7.536212921142578, "learning_rate": 3.1408000000000005e-06, "loss": 0.1632, "step": 42350 }, { "epoch": 11.3, "grad_norm": 7.072963714599609, "learning_rate": 3.1363555555555558e-06, "loss": 0.1553, "step": 42375 }, { "epoch": 11.306666666666667, "grad_norm": 6.330763816833496, "learning_rate": 3.131911111111111e-06, "loss": 0.1555, "step": 42400 }, { "epoch": 11.313333333333333, "grad_norm": 6.611195087432861, "learning_rate": 3.127466666666667e-06, "loss": 0.1377, "step": 42425 }, { "epoch": 11.32, "grad_norm": 7.172667980194092, "learning_rate": 3.1230222222222224e-06, "loss": 0.1566, "step": 42450 }, { "epoch": 11.326666666666666, "grad_norm": 7.799119472503662, "learning_rate": 3.118577777777778e-06, "loss": 0.1568, "step": 42475 }, { "epoch": 11.333333333333334, "grad_norm": 9.881580352783203, "learning_rate": 3.1141333333333334e-06, "loss": 0.1556, "step": 42500 }, { "epoch": 11.34, "grad_norm": 7.408784866333008, "learning_rate": 3.1096888888888895e-06, "loss": 0.1628, "step": 42525 }, { "epoch": 11.346666666666668, "grad_norm": 6.879770278930664, "learning_rate": 3.1052444444444448e-06, "loss": 0.1652, "step": 42550 }, { "epoch": 11.353333333333333, "grad_norm": 6.7888078689575195, "learning_rate": 3.1008000000000004e-06, "loss": 0.1489, "step": 42575 }, { "epoch": 11.36, "grad_norm": 6.286257266998291, "learning_rate": 3.0963555555555557e-06, "loss": 0.1558, "step": 42600 }, { "epoch": 11.366666666666667, "grad_norm": 6.920025825500488, "learning_rate": 3.091911111111112e-06, "loss": 0.1527, "step": 42625 }, { "epoch": 11.373333333333333, "grad_norm": 10.460956573486328, "learning_rate": 3.087466666666667e-06, "loss": 0.1549, "step": 42650 }, { "epoch": 11.38, "grad_norm": 5.21718168258667, "learning_rate": 3.0830222222222224e-06, "loss": 0.1563, "step": 42675 }, { "epoch": 11.386666666666667, "grad_norm": 6.587711334228516, "learning_rate": 3.078577777777778e-06, "loss": 0.1448, "step": 42700 }, { "epoch": 11.393333333333333, "grad_norm": 8.322205543518066, "learning_rate": 3.0741333333333333e-06, "loss": 0.1638, "step": 42725 }, { "epoch": 11.4, "grad_norm": 7.457234859466553, "learning_rate": 3.0696888888888894e-06, "loss": 0.1574, "step": 42750 }, { "epoch": 11.406666666666666, "grad_norm": 8.703605651855469, "learning_rate": 3.0652444444444447e-06, "loss": 0.1574, "step": 42775 }, { "epoch": 11.413333333333334, "grad_norm": 8.813858032226562, "learning_rate": 3.0608000000000004e-06, "loss": 0.1615, "step": 42800 }, { "epoch": 11.42, "grad_norm": 12.151554107666016, "learning_rate": 3.0563555555555557e-06, "loss": 0.1683, "step": 42825 }, { "epoch": 11.426666666666666, "grad_norm": 7.090645790100098, "learning_rate": 3.051911111111112e-06, "loss": 0.1569, "step": 42850 }, { "epoch": 11.433333333333334, "grad_norm": 7.7591023445129395, "learning_rate": 3.047466666666667e-06, "loss": 0.1609, "step": 42875 }, { "epoch": 11.44, "grad_norm": 8.268049240112305, "learning_rate": 3.0430222222222223e-06, "loss": 0.1626, "step": 42900 }, { "epoch": 11.446666666666667, "grad_norm": 9.041934967041016, "learning_rate": 3.038577777777778e-06, "loss": 0.1608, "step": 42925 }, { "epoch": 11.453333333333333, "grad_norm": 8.045859336853027, "learning_rate": 3.0341333333333333e-06, "loss": 0.1642, "step": 42950 }, { "epoch": 11.46, "grad_norm": 5.7819108963012695, "learning_rate": 3.0296888888888894e-06, "loss": 0.1607, "step": 42975 }, { "epoch": 11.466666666666667, "grad_norm": 6.2671685218811035, "learning_rate": 3.0252444444444447e-06, "loss": 0.1823, "step": 43000 }, { "epoch": 11.473333333333333, "grad_norm": 5.5133233070373535, "learning_rate": 3.0208000000000004e-06, "loss": 0.1628, "step": 43025 }, { "epoch": 11.48, "grad_norm": 6.429490089416504, "learning_rate": 3.0163555555555556e-06, "loss": 0.1577, "step": 43050 }, { "epoch": 11.486666666666666, "grad_norm": 9.206454277038574, "learning_rate": 3.0119111111111118e-06, "loss": 0.1688, "step": 43075 }, { "epoch": 11.493333333333334, "grad_norm": 7.725639343261719, "learning_rate": 3.007466666666667e-06, "loss": 0.1577, "step": 43100 }, { "epoch": 11.5, "grad_norm": 7.453863620758057, "learning_rate": 3.0030222222222227e-06, "loss": 0.1637, "step": 43125 }, { "epoch": 11.506666666666666, "grad_norm": 6.8215718269348145, "learning_rate": 2.998577777777778e-06, "loss": 0.1692, "step": 43150 }, { "epoch": 11.513333333333334, "grad_norm": 7.308427333831787, "learning_rate": 2.9941333333333333e-06, "loss": 0.1634, "step": 43175 }, { "epoch": 11.52, "grad_norm": 6.2880682945251465, "learning_rate": 2.9896888888888894e-06, "loss": 0.1526, "step": 43200 }, { "epoch": 11.526666666666667, "grad_norm": 4.966390609741211, "learning_rate": 2.9852444444444446e-06, "loss": 0.1764, "step": 43225 }, { "epoch": 11.533333333333333, "grad_norm": 5.655823707580566, "learning_rate": 2.9808000000000003e-06, "loss": 0.1631, "step": 43250 }, { "epoch": 11.54, "grad_norm": 7.042474269866943, "learning_rate": 2.9765333333333336e-06, "loss": 0.1778, "step": 43275 }, { "epoch": 11.546666666666667, "grad_norm": 6.356965065002441, "learning_rate": 2.9720888888888893e-06, "loss": 0.154, "step": 43300 }, { "epoch": 11.553333333333333, "grad_norm": 5.6261725425720215, "learning_rate": 2.9676444444444446e-06, "loss": 0.1695, "step": 43325 }, { "epoch": 11.56, "grad_norm": 6.94989538192749, "learning_rate": 2.9632e-06, "loss": 0.1615, "step": 43350 }, { "epoch": 11.566666666666666, "grad_norm": 6.815896511077881, "learning_rate": 2.958755555555556e-06, "loss": 0.1614, "step": 43375 }, { "epoch": 11.573333333333334, "grad_norm": 11.365934371948242, "learning_rate": 2.9543111111111112e-06, "loss": 0.1764, "step": 43400 }, { "epoch": 11.58, "grad_norm": 6.6333417892456055, "learning_rate": 2.949866666666667e-06, "loss": 0.1783, "step": 43425 }, { "epoch": 11.586666666666666, "grad_norm": 8.714364051818848, "learning_rate": 2.945422222222222e-06, "loss": 0.1451, "step": 43450 }, { "epoch": 11.593333333333334, "grad_norm": 5.899602890014648, "learning_rate": 2.9409777777777783e-06, "loss": 0.1651, "step": 43475 }, { "epoch": 11.6, "grad_norm": 8.710065841674805, "learning_rate": 2.9365333333333336e-06, "loss": 0.1854, "step": 43500 }, { "epoch": 11.606666666666667, "grad_norm": 7.695793628692627, "learning_rate": 2.9320888888888893e-06, "loss": 0.1618, "step": 43525 }, { "epoch": 11.613333333333333, "grad_norm": 8.160514831542969, "learning_rate": 2.9276444444444445e-06, "loss": 0.1705, "step": 43550 }, { "epoch": 11.62, "grad_norm": 6.306259632110596, "learning_rate": 2.9232000000000007e-06, "loss": 0.1599, "step": 43575 }, { "epoch": 11.626666666666667, "grad_norm": 6.527724266052246, "learning_rate": 2.918755555555556e-06, "loss": 0.1681, "step": 43600 }, { "epoch": 11.633333333333333, "grad_norm": 7.496762752532959, "learning_rate": 2.914311111111111e-06, "loss": 0.1637, "step": 43625 }, { "epoch": 11.64, "grad_norm": 6.889701843261719, "learning_rate": 2.909866666666667e-06, "loss": 0.163, "step": 43650 }, { "epoch": 11.646666666666667, "grad_norm": 6.160928249359131, "learning_rate": 2.905422222222222e-06, "loss": 0.1669, "step": 43675 }, { "epoch": 11.653333333333332, "grad_norm": 6.133251190185547, "learning_rate": 2.9009777777777783e-06, "loss": 0.1605, "step": 43700 }, { "epoch": 11.66, "grad_norm": 6.154083728790283, "learning_rate": 2.8965333333333335e-06, "loss": 0.1742, "step": 43725 }, { "epoch": 11.666666666666666, "grad_norm": 7.724209308624268, "learning_rate": 2.8920888888888892e-06, "loss": 0.1604, "step": 43750 }, { "epoch": 11.673333333333334, "grad_norm": 7.598250865936279, "learning_rate": 2.8876444444444445e-06, "loss": 0.1514, "step": 43775 }, { "epoch": 11.68, "grad_norm": 6.024491786956787, "learning_rate": 2.8832000000000006e-06, "loss": 0.1552, "step": 43800 }, { "epoch": 11.686666666666667, "grad_norm": 6.694376468658447, "learning_rate": 2.878755555555556e-06, "loss": 0.1671, "step": 43825 }, { "epoch": 11.693333333333333, "grad_norm": 7.225961685180664, "learning_rate": 2.8743111111111116e-06, "loss": 0.156, "step": 43850 }, { "epoch": 11.7, "grad_norm": 5.572283744812012, "learning_rate": 2.869866666666667e-06, "loss": 0.165, "step": 43875 }, { "epoch": 11.706666666666667, "grad_norm": 12.434906959533691, "learning_rate": 2.865422222222222e-06, "loss": 0.1604, "step": 43900 }, { "epoch": 11.713333333333333, "grad_norm": 6.743670463562012, "learning_rate": 2.8609777777777782e-06, "loss": 0.1604, "step": 43925 }, { "epoch": 11.72, "grad_norm": 7.860291957855225, "learning_rate": 2.8565333333333335e-06, "loss": 0.1686, "step": 43950 }, { "epoch": 11.726666666666667, "grad_norm": 8.041913986206055, "learning_rate": 2.852088888888889e-06, "loss": 0.1649, "step": 43975 }, { "epoch": 11.733333333333333, "grad_norm": 7.016563415527344, "learning_rate": 2.8476444444444445e-06, "loss": 0.1455, "step": 44000 }, { "epoch": 11.74, "grad_norm": 6.9571943283081055, "learning_rate": 2.8432000000000006e-06, "loss": 0.1652, "step": 44025 }, { "epoch": 11.746666666666666, "grad_norm": 7.71449613571167, "learning_rate": 2.838755555555556e-06, "loss": 0.1708, "step": 44050 }, { "epoch": 11.753333333333334, "grad_norm": 7.536164283752441, "learning_rate": 2.8343111111111115e-06, "loss": 0.1691, "step": 44075 }, { "epoch": 11.76, "grad_norm": 6.653366565704346, "learning_rate": 2.829866666666667e-06, "loss": 0.1728, "step": 44100 }, { "epoch": 11.766666666666667, "grad_norm": 6.220523834228516, "learning_rate": 2.825422222222222e-06, "loss": 0.1624, "step": 44125 }, { "epoch": 11.773333333333333, "grad_norm": 7.1974287033081055, "learning_rate": 2.820977777777778e-06, "loss": 0.1646, "step": 44150 }, { "epoch": 11.78, "grad_norm": 8.09290885925293, "learning_rate": 2.8165333333333335e-06, "loss": 0.1708, "step": 44175 }, { "epoch": 11.786666666666667, "grad_norm": 7.7516703605651855, "learning_rate": 2.812088888888889e-06, "loss": 0.1682, "step": 44200 }, { "epoch": 11.793333333333333, "grad_norm": 6.236737251281738, "learning_rate": 2.8076444444444444e-06, "loss": 0.1606, "step": 44225 }, { "epoch": 11.8, "grad_norm": 8.02682113647461, "learning_rate": 2.8032000000000005e-06, "loss": 0.1553, "step": 44250 }, { "epoch": 11.806666666666667, "grad_norm": 8.237582206726074, "learning_rate": 2.798755555555556e-06, "loss": 0.1662, "step": 44275 }, { "epoch": 11.813333333333333, "grad_norm": 8.354368209838867, "learning_rate": 2.7943111111111115e-06, "loss": 0.1754, "step": 44300 }, { "epoch": 11.82, "grad_norm": 11.57107162475586, "learning_rate": 2.7898666666666668e-06, "loss": 0.1607, "step": 44325 }, { "epoch": 11.826666666666666, "grad_norm": 7.293022632598877, "learning_rate": 2.785422222222223e-06, "loss": 0.1581, "step": 44350 }, { "epoch": 11.833333333333334, "grad_norm": 6.748603343963623, "learning_rate": 2.780977777777778e-06, "loss": 0.1655, "step": 44375 }, { "epoch": 11.84, "grad_norm": 7.552708148956299, "learning_rate": 2.7765333333333334e-06, "loss": 0.1757, "step": 44400 }, { "epoch": 11.846666666666668, "grad_norm": 6.9047088623046875, "learning_rate": 2.772088888888889e-06, "loss": 0.1774, "step": 44425 }, { "epoch": 11.853333333333333, "grad_norm": 5.5212721824646, "learning_rate": 2.7676444444444444e-06, "loss": 0.1447, "step": 44450 }, { "epoch": 11.86, "grad_norm": 7.8570146560668945, "learning_rate": 2.7632000000000005e-06, "loss": 0.1679, "step": 44475 }, { "epoch": 11.866666666666667, "grad_norm": 5.39455509185791, "learning_rate": 2.7587555555555558e-06, "loss": 0.1438, "step": 44500 }, { "epoch": 11.873333333333333, "grad_norm": 8.914227485656738, "learning_rate": 2.7543111111111115e-06, "loss": 0.1733, "step": 44525 }, { "epoch": 11.88, "grad_norm": 3.8751020431518555, "learning_rate": 2.7498666666666667e-06, "loss": 0.1541, "step": 44550 }, { "epoch": 11.886666666666667, "grad_norm": 6.996160507202148, "learning_rate": 2.745422222222223e-06, "loss": 0.1558, "step": 44575 }, { "epoch": 11.893333333333333, "grad_norm": 7.936846733093262, "learning_rate": 2.740977777777778e-06, "loss": 0.1625, "step": 44600 }, { "epoch": 11.9, "grad_norm": 7.681167125701904, "learning_rate": 2.736533333333334e-06, "loss": 0.1605, "step": 44625 }, { "epoch": 11.906666666666666, "grad_norm": 7.636104583740234, "learning_rate": 2.732088888888889e-06, "loss": 0.1579, "step": 44650 }, { "epoch": 11.913333333333334, "grad_norm": 8.562803268432617, "learning_rate": 2.7276444444444443e-06, "loss": 0.1667, "step": 44675 }, { "epoch": 11.92, "grad_norm": 10.122127532958984, "learning_rate": 2.7232000000000005e-06, "loss": 0.1732, "step": 44700 }, { "epoch": 11.926666666666666, "grad_norm": 6.210834980010986, "learning_rate": 2.7187555555555557e-06, "loss": 0.1598, "step": 44725 }, { "epoch": 11.933333333333334, "grad_norm": 7.604787349700928, "learning_rate": 2.7143111111111114e-06, "loss": 0.1526, "step": 44750 }, { "epoch": 11.94, "grad_norm": 6.259129047393799, "learning_rate": 2.7098666666666667e-06, "loss": 0.1672, "step": 44775 }, { "epoch": 11.946666666666667, "grad_norm": 6.751676559448242, "learning_rate": 2.705422222222223e-06, "loss": 0.1599, "step": 44800 }, { "epoch": 11.953333333333333, "grad_norm": 6.466487884521484, "learning_rate": 2.700977777777778e-06, "loss": 0.1639, "step": 44825 }, { "epoch": 11.96, "grad_norm": 5.768514156341553, "learning_rate": 2.6965333333333338e-06, "loss": 0.166, "step": 44850 }, { "epoch": 11.966666666666667, "grad_norm": 9.191773414611816, "learning_rate": 2.692088888888889e-06, "loss": 0.1527, "step": 44875 }, { "epoch": 11.973333333333333, "grad_norm": 6.189751625061035, "learning_rate": 2.6876444444444443e-06, "loss": 0.1551, "step": 44900 }, { "epoch": 11.98, "grad_norm": 7.363156795501709, "learning_rate": 2.6832000000000004e-06, "loss": 0.1707, "step": 44925 }, { "epoch": 11.986666666666666, "grad_norm": 10.990365028381348, "learning_rate": 2.6787555555555557e-06, "loss": 0.1562, "step": 44950 }, { "epoch": 11.993333333333334, "grad_norm": 7.541445255279541, "learning_rate": 2.6743111111111114e-06, "loss": 0.1575, "step": 44975 }, { "epoch": 12.0, "grad_norm": 9.411133766174316, "learning_rate": 2.6698666666666666e-06, "loss": 0.1569, "step": 45000 }, { "epoch": 12.0, "eval_cer": 21.120697687419636, "eval_loss": 0.3665392994880676, "eval_runtime": 1265.3387, "eval_samples_per_second": 3.952, "eval_steps_per_second": 0.494, "step": 45000 }, { "epoch": 12.006666666666666, "grad_norm": 6.493170738220215, "learning_rate": 2.6654222222222228e-06, "loss": 0.1071, "step": 45025 }, { "epoch": 12.013333333333334, "grad_norm": 10.314104080200195, "learning_rate": 2.660977777777778e-06, "loss": 0.1043, "step": 45050 }, { "epoch": 12.02, "grad_norm": 6.124871730804443, "learning_rate": 2.6565333333333337e-06, "loss": 0.0992, "step": 45075 }, { "epoch": 12.026666666666667, "grad_norm": 5.535056114196777, "learning_rate": 2.652088888888889e-06, "loss": 0.0998, "step": 45100 }, { "epoch": 12.033333333333333, "grad_norm": 6.459754943847656, "learning_rate": 2.647644444444445e-06, "loss": 0.0987, "step": 45125 }, { "epoch": 12.04, "grad_norm": 6.8807454109191895, "learning_rate": 2.6432000000000004e-06, "loss": 0.118, "step": 45150 }, { "epoch": 12.046666666666667, "grad_norm": 4.843288898468018, "learning_rate": 2.6387555555555556e-06, "loss": 0.1118, "step": 45175 }, { "epoch": 12.053333333333333, "grad_norm": 5.548996448516846, "learning_rate": 2.6343111111111113e-06, "loss": 0.1067, "step": 45200 }, { "epoch": 12.06, "grad_norm": 5.271174430847168, "learning_rate": 2.6298666666666666e-06, "loss": 0.1014, "step": 45225 }, { "epoch": 12.066666666666666, "grad_norm": 5.70526123046875, "learning_rate": 2.6254222222222227e-06, "loss": 0.1073, "step": 45250 }, { "epoch": 12.073333333333334, "grad_norm": 6.070753574371338, "learning_rate": 2.620977777777778e-06, "loss": 0.1134, "step": 45275 }, { "epoch": 12.08, "grad_norm": 7.236232280731201, "learning_rate": 2.6167111111111117e-06, "loss": 0.0989, "step": 45300 }, { "epoch": 12.086666666666666, "grad_norm": 5.581538677215576, "learning_rate": 2.612266666666667e-06, "loss": 0.097, "step": 45325 }, { "epoch": 12.093333333333334, "grad_norm": 5.171026706695557, "learning_rate": 2.6078222222222227e-06, "loss": 0.1044, "step": 45350 }, { "epoch": 12.1, "grad_norm": 5.284248352050781, "learning_rate": 2.603377777777778e-06, "loss": 0.1175, "step": 45375 }, { "epoch": 12.106666666666667, "grad_norm": 3.9932315349578857, "learning_rate": 2.598933333333333e-06, "loss": 0.1121, "step": 45400 }, { "epoch": 12.113333333333333, "grad_norm": 7.705107688903809, "learning_rate": 2.5944888888888893e-06, "loss": 0.1139, "step": 45425 }, { "epoch": 12.12, "grad_norm": 3.4822449684143066, "learning_rate": 2.5900444444444446e-06, "loss": 0.11, "step": 45450 }, { "epoch": 12.126666666666667, "grad_norm": 4.920461654663086, "learning_rate": 2.5856000000000003e-06, "loss": 0.1192, "step": 45475 }, { "epoch": 12.133333333333333, "grad_norm": 6.56243371963501, "learning_rate": 2.5811555555555556e-06, "loss": 0.106, "step": 45500 }, { "epoch": 12.14, "grad_norm": 4.58997917175293, "learning_rate": 2.5767111111111117e-06, "loss": 0.1067, "step": 45525 }, { "epoch": 12.146666666666667, "grad_norm": 4.741954803466797, "learning_rate": 2.572266666666667e-06, "loss": 0.1066, "step": 45550 }, { "epoch": 12.153333333333332, "grad_norm": 5.841648101806641, "learning_rate": 2.5678222222222226e-06, "loss": 0.1132, "step": 45575 }, { "epoch": 12.16, "grad_norm": 5.91623592376709, "learning_rate": 2.563377777777778e-06, "loss": 0.1072, "step": 45600 }, { "epoch": 12.166666666666666, "grad_norm": 6.038606643676758, "learning_rate": 2.558933333333333e-06, "loss": 0.1146, "step": 45625 }, { "epoch": 12.173333333333334, "grad_norm": 5.838025093078613, "learning_rate": 2.5544888888888893e-06, "loss": 0.1068, "step": 45650 }, { "epoch": 12.18, "grad_norm": 5.339217662811279, "learning_rate": 2.5500444444444446e-06, "loss": 0.1255, "step": 45675 }, { "epoch": 12.186666666666667, "grad_norm": 5.239312648773193, "learning_rate": 2.5456000000000002e-06, "loss": 0.098, "step": 45700 }, { "epoch": 12.193333333333333, "grad_norm": 4.9372382164001465, "learning_rate": 2.5411555555555555e-06, "loss": 0.1008, "step": 45725 }, { "epoch": 12.2, "grad_norm": 4.120527744293213, "learning_rate": 2.5367111111111116e-06, "loss": 0.1109, "step": 45750 }, { "epoch": 12.206666666666667, "grad_norm": 5.289470672607422, "learning_rate": 2.532266666666667e-06, "loss": 0.1136, "step": 45775 }, { "epoch": 12.213333333333333, "grad_norm": 4.822832107543945, "learning_rate": 2.5278222222222226e-06, "loss": 0.1067, "step": 45800 }, { "epoch": 12.22, "grad_norm": 7.32331657409668, "learning_rate": 2.523377777777778e-06, "loss": 0.1158, "step": 45825 }, { "epoch": 12.226666666666667, "grad_norm": 6.071128845214844, "learning_rate": 2.518933333333334e-06, "loss": 0.0997, "step": 45850 }, { "epoch": 12.233333333333333, "grad_norm": 4.41969108581543, "learning_rate": 2.5144888888888892e-06, "loss": 0.0947, "step": 45875 }, { "epoch": 12.24, "grad_norm": 4.822566032409668, "learning_rate": 2.5100444444444445e-06, "loss": 0.1123, "step": 45900 }, { "epoch": 12.246666666666666, "grad_norm": 6.816233158111572, "learning_rate": 2.5056e-06, "loss": 0.1126, "step": 45925 }, { "epoch": 12.253333333333334, "grad_norm": 6.76645565032959, "learning_rate": 2.5011555555555555e-06, "loss": 0.1046, "step": 45950 }, { "epoch": 12.26, "grad_norm": 8.95752239227295, "learning_rate": 2.4967111111111116e-06, "loss": 0.1008, "step": 45975 }, { "epoch": 12.266666666666667, "grad_norm": 6.107155799865723, "learning_rate": 2.492266666666667e-06, "loss": 0.1111, "step": 46000 }, { "epoch": 12.273333333333333, "grad_norm": 3.781000852584839, "learning_rate": 2.487822222222222e-06, "loss": 0.1064, "step": 46025 }, { "epoch": 12.28, "grad_norm": 3.926968812942505, "learning_rate": 2.483377777777778e-06, "loss": 0.1165, "step": 46050 }, { "epoch": 12.286666666666667, "grad_norm": 6.012359619140625, "learning_rate": 2.4789333333333335e-06, "loss": 0.1014, "step": 46075 }, { "epoch": 12.293333333333333, "grad_norm": 4.382100582122803, "learning_rate": 2.474488888888889e-06, "loss": 0.1066, "step": 46100 }, { "epoch": 12.3, "grad_norm": 8.183173179626465, "learning_rate": 2.4700444444444445e-06, "loss": 0.1002, "step": 46125 }, { "epoch": 12.306666666666667, "grad_norm": 4.687697410583496, "learning_rate": 2.4656e-06, "loss": 0.1025, "step": 46150 }, { "epoch": 12.313333333333333, "grad_norm": 5.97998571395874, "learning_rate": 2.461155555555556e-06, "loss": 0.1024, "step": 46175 }, { "epoch": 12.32, "grad_norm": 6.169867992401123, "learning_rate": 2.4567111111111115e-06, "loss": 0.111, "step": 46200 }, { "epoch": 12.326666666666666, "grad_norm": 4.921481609344482, "learning_rate": 2.452266666666667e-06, "loss": 0.0939, "step": 46225 }, { "epoch": 12.333333333333334, "grad_norm": 6.268850803375244, "learning_rate": 2.4478222222222225e-06, "loss": 0.1063, "step": 46250 }, { "epoch": 12.34, "grad_norm": 7.1681623458862305, "learning_rate": 2.4433777777777778e-06, "loss": 0.1227, "step": 46275 }, { "epoch": 12.346666666666668, "grad_norm": 5.602593898773193, "learning_rate": 2.4389333333333335e-06, "loss": 0.0999, "step": 46300 }, { "epoch": 12.353333333333333, "grad_norm": 8.58749008178711, "learning_rate": 2.434488888888889e-06, "loss": 0.1098, "step": 46325 }, { "epoch": 12.36, "grad_norm": 5.607008457183838, "learning_rate": 2.4300444444444444e-06, "loss": 0.1063, "step": 46350 }, { "epoch": 12.366666666666667, "grad_norm": 5.294493675231934, "learning_rate": 2.4256e-06, "loss": 0.1066, "step": 46375 }, { "epoch": 12.373333333333333, "grad_norm": 5.545394420623779, "learning_rate": 2.421155555555556e-06, "loss": 0.112, "step": 46400 }, { "epoch": 12.38, "grad_norm": 5.3336591720581055, "learning_rate": 2.4167111111111115e-06, "loss": 0.1196, "step": 46425 }, { "epoch": 12.386666666666667, "grad_norm": 6.006252765655518, "learning_rate": 2.4122666666666668e-06, "loss": 0.1118, "step": 46450 }, { "epoch": 12.393333333333333, "grad_norm": 5.7660393714904785, "learning_rate": 2.4078222222222225e-06, "loss": 0.1065, "step": 46475 }, { "epoch": 12.4, "grad_norm": 7.009937286376953, "learning_rate": 2.403377777777778e-06, "loss": 0.1117, "step": 46500 }, { "epoch": 12.406666666666666, "grad_norm": 6.59313440322876, "learning_rate": 2.3989333333333334e-06, "loss": 0.1065, "step": 46525 }, { "epoch": 12.413333333333334, "grad_norm": 6.663754940032959, "learning_rate": 2.394488888888889e-06, "loss": 0.1176, "step": 46550 }, { "epoch": 12.42, "grad_norm": 6.973970413208008, "learning_rate": 2.3900444444444444e-06, "loss": 0.1143, "step": 46575 }, { "epoch": 12.426666666666666, "grad_norm": 5.902155876159668, "learning_rate": 2.3856e-06, "loss": 0.1082, "step": 46600 }, { "epoch": 12.433333333333334, "grad_norm": 5.6085076332092285, "learning_rate": 2.3811555555555558e-06, "loss": 0.1033, "step": 46625 }, { "epoch": 12.44, "grad_norm": 8.836973190307617, "learning_rate": 2.3767111111111115e-06, "loss": 0.1058, "step": 46650 }, { "epoch": 12.446666666666667, "grad_norm": 5.662825107574463, "learning_rate": 2.3722666666666667e-06, "loss": 0.1205, "step": 46675 }, { "epoch": 12.453333333333333, "grad_norm": 6.6187005043029785, "learning_rate": 2.3678222222222224e-06, "loss": 0.1079, "step": 46700 }, { "epoch": 12.46, "grad_norm": 6.474920272827148, "learning_rate": 2.363377777777778e-06, "loss": 0.108, "step": 46725 }, { "epoch": 12.466666666666667, "grad_norm": 5.7897443771362305, "learning_rate": 2.358933333333334e-06, "loss": 0.1169, "step": 46750 }, { "epoch": 12.473333333333333, "grad_norm": 7.804737567901611, "learning_rate": 2.354488888888889e-06, "loss": 0.1119, "step": 46775 }, { "epoch": 12.48, "grad_norm": 5.0531134605407715, "learning_rate": 2.3500444444444443e-06, "loss": 0.1055, "step": 46800 }, { "epoch": 12.486666666666666, "grad_norm": 7.218482971191406, "learning_rate": 2.3456e-06, "loss": 0.1169, "step": 46825 }, { "epoch": 12.493333333333334, "grad_norm": 4.715880870819092, "learning_rate": 2.3411555555555557e-06, "loss": 0.1145, "step": 46850 }, { "epoch": 12.5, "grad_norm": 6.150249004364014, "learning_rate": 2.3367111111111114e-06, "loss": 0.1119, "step": 46875 }, { "epoch": 12.506666666666666, "grad_norm": 6.566578388214111, "learning_rate": 2.3322666666666667e-06, "loss": 0.1076, "step": 46900 }, { "epoch": 12.513333333333334, "grad_norm": 7.012685775756836, "learning_rate": 2.3278222222222224e-06, "loss": 0.1034, "step": 46925 }, { "epoch": 12.52, "grad_norm": 6.218094825744629, "learning_rate": 2.323377777777778e-06, "loss": 0.1188, "step": 46950 }, { "epoch": 12.526666666666667, "grad_norm": 6.20350456237793, "learning_rate": 2.3189333333333338e-06, "loss": 0.1059, "step": 46975 }, { "epoch": 12.533333333333333, "grad_norm": 8.562267303466797, "learning_rate": 2.314488888888889e-06, "loss": 0.1141, "step": 47000 }, { "epoch": 12.54, "grad_norm": 7.270572662353516, "learning_rate": 2.3100444444444447e-06, "loss": 0.1162, "step": 47025 }, { "epoch": 12.546666666666667, "grad_norm": 6.470387935638428, "learning_rate": 2.3056e-06, "loss": 0.1023, "step": 47050 }, { "epoch": 12.553333333333333, "grad_norm": 6.274166107177734, "learning_rate": 2.3011555555555557e-06, "loss": 0.1103, "step": 47075 }, { "epoch": 12.56, "grad_norm": 5.862270355224609, "learning_rate": 2.2967111111111114e-06, "loss": 0.1219, "step": 47100 }, { "epoch": 12.566666666666666, "grad_norm": 4.768299579620361, "learning_rate": 2.2922666666666667e-06, "loss": 0.1038, "step": 47125 }, { "epoch": 12.573333333333334, "grad_norm": 5.534469127655029, "learning_rate": 2.2878222222222223e-06, "loss": 0.1004, "step": 47150 }, { "epoch": 12.58, "grad_norm": 4.763548851013184, "learning_rate": 2.283377777777778e-06, "loss": 0.1232, "step": 47175 }, { "epoch": 12.586666666666666, "grad_norm": 8.450883865356445, "learning_rate": 2.2789333333333337e-06, "loss": 0.1142, "step": 47200 }, { "epoch": 12.593333333333334, "grad_norm": 5.303816795349121, "learning_rate": 2.274488888888889e-06, "loss": 0.1041, "step": 47225 }, { "epoch": 12.6, "grad_norm": 5.323181629180908, "learning_rate": 2.2700444444444447e-06, "loss": 0.1048, "step": 47250 }, { "epoch": 12.606666666666667, "grad_norm": 6.1729254722595215, "learning_rate": 2.2656000000000004e-06, "loss": 0.1122, "step": 47275 }, { "epoch": 12.613333333333333, "grad_norm": 5.479588985443115, "learning_rate": 2.2611555555555557e-06, "loss": 0.1208, "step": 47300 }, { "epoch": 12.62, "grad_norm": 5.543934345245361, "learning_rate": 2.2567111111111113e-06, "loss": 0.1007, "step": 47325 }, { "epoch": 12.626666666666667, "grad_norm": 5.356732368469238, "learning_rate": 2.2522666666666666e-06, "loss": 0.1091, "step": 47350 }, { "epoch": 12.633333333333333, "grad_norm": 5.259866237640381, "learning_rate": 2.2478222222222223e-06, "loss": 0.1033, "step": 47375 }, { "epoch": 12.64, "grad_norm": 6.847537517547607, "learning_rate": 2.243377777777778e-06, "loss": 0.1058, "step": 47400 }, { "epoch": 12.646666666666667, "grad_norm": 5.360149383544922, "learning_rate": 2.2389333333333337e-06, "loss": 0.106, "step": 47425 }, { "epoch": 12.653333333333332, "grad_norm": 6.420960426330566, "learning_rate": 2.234488888888889e-06, "loss": 0.1149, "step": 47450 }, { "epoch": 12.66, "grad_norm": 5.0199384689331055, "learning_rate": 2.2300444444444446e-06, "loss": 0.103, "step": 47475 }, { "epoch": 12.666666666666666, "grad_norm": 5.2378249168396, "learning_rate": 2.2256000000000003e-06, "loss": 0.1047, "step": 47500 }, { "epoch": 12.673333333333334, "grad_norm": 6.056905269622803, "learning_rate": 2.221155555555556e-06, "loss": 0.1197, "step": 47525 }, { "epoch": 12.68, "grad_norm": 7.7821173667907715, "learning_rate": 2.2167111111111113e-06, "loss": 0.1173, "step": 47550 }, { "epoch": 12.686666666666667, "grad_norm": 6.077167987823486, "learning_rate": 2.2122666666666666e-06, "loss": 0.1064, "step": 47575 }, { "epoch": 12.693333333333333, "grad_norm": 5.484776973724365, "learning_rate": 2.2078222222222223e-06, "loss": 0.1105, "step": 47600 }, { "epoch": 12.7, "grad_norm": 6.277669906616211, "learning_rate": 2.203377777777778e-06, "loss": 0.1065, "step": 47625 }, { "epoch": 12.706666666666667, "grad_norm": 7.27718448638916, "learning_rate": 2.1989333333333336e-06, "loss": 0.1105, "step": 47650 }, { "epoch": 12.713333333333333, "grad_norm": 5.045402526855469, "learning_rate": 2.194488888888889e-06, "loss": 0.1058, "step": 47675 }, { "epoch": 12.72, "grad_norm": 4.938896179199219, "learning_rate": 2.1902222222222226e-06, "loss": 0.1105, "step": 47700 }, { "epoch": 12.726666666666667, "grad_norm": 5.8608269691467285, "learning_rate": 2.185777777777778e-06, "loss": 0.1258, "step": 47725 }, { "epoch": 12.733333333333333, "grad_norm": 4.68363618850708, "learning_rate": 2.1813333333333336e-06, "loss": 0.0997, "step": 47750 }, { "epoch": 12.74, "grad_norm": 6.591302394866943, "learning_rate": 2.176888888888889e-06, "loss": 0.1081, "step": 47775 }, { "epoch": 12.746666666666666, "grad_norm": 7.082460880279541, "learning_rate": 2.1724444444444446e-06, "loss": 0.1108, "step": 47800 }, { "epoch": 12.753333333333334, "grad_norm": 7.704886436462402, "learning_rate": 2.1680000000000002e-06, "loss": 0.1093, "step": 47825 }, { "epoch": 12.76, "grad_norm": 5.565296649932861, "learning_rate": 2.1635555555555555e-06, "loss": 0.1124, "step": 47850 }, { "epoch": 12.766666666666667, "grad_norm": 7.612327575683594, "learning_rate": 2.159111111111111e-06, "loss": 0.1193, "step": 47875 }, { "epoch": 12.773333333333333, "grad_norm": 5.163200378417969, "learning_rate": 2.154666666666667e-06, "loss": 0.1082, "step": 47900 }, { "epoch": 12.78, "grad_norm": 5.453884124755859, "learning_rate": 2.1502222222222226e-06, "loss": 0.101, "step": 47925 }, { "epoch": 12.786666666666667, "grad_norm": 6.850915908813477, "learning_rate": 2.145777777777778e-06, "loss": 0.1078, "step": 47950 }, { "epoch": 12.793333333333333, "grad_norm": 7.943562030792236, "learning_rate": 2.1413333333333336e-06, "loss": 0.1137, "step": 47975 }, { "epoch": 12.8, "grad_norm": 6.475844860076904, "learning_rate": 2.1368888888888892e-06, "loss": 0.1144, "step": 48000 }, { "epoch": 12.806666666666667, "grad_norm": 4.7059006690979, "learning_rate": 2.1324444444444445e-06, "loss": 0.1062, "step": 48025 }, { "epoch": 12.813333333333333, "grad_norm": 5.344225883483887, "learning_rate": 2.128e-06, "loss": 0.1071, "step": 48050 }, { "epoch": 12.82, "grad_norm": 5.982877254486084, "learning_rate": 2.1235555555555555e-06, "loss": 0.1108, "step": 48075 }, { "epoch": 12.826666666666666, "grad_norm": 7.366219997406006, "learning_rate": 2.119111111111111e-06, "loss": 0.101, "step": 48100 }, { "epoch": 12.833333333333334, "grad_norm": 3.7109286785125732, "learning_rate": 2.114666666666667e-06, "loss": 0.1103, "step": 48125 }, { "epoch": 12.84, "grad_norm": 6.917268753051758, "learning_rate": 2.1102222222222226e-06, "loss": 0.1214, "step": 48150 }, { "epoch": 12.846666666666668, "grad_norm": 6.948658466339111, "learning_rate": 2.105777777777778e-06, "loss": 0.0991, "step": 48175 }, { "epoch": 12.853333333333333, "grad_norm": 6.243878364562988, "learning_rate": 2.1013333333333335e-06, "loss": 0.1177, "step": 48200 }, { "epoch": 12.86, "grad_norm": 7.587082862854004, "learning_rate": 2.096888888888889e-06, "loss": 0.1124, "step": 48225 }, { "epoch": 12.866666666666667, "grad_norm": 6.985424041748047, "learning_rate": 2.092444444444445e-06, "loss": 0.106, "step": 48250 }, { "epoch": 12.873333333333333, "grad_norm": 6.592808246612549, "learning_rate": 2.088e-06, "loss": 0.1247, "step": 48275 }, { "epoch": 12.88, "grad_norm": 5.634211540222168, "learning_rate": 2.0835555555555554e-06, "loss": 0.0999, "step": 48300 }, { "epoch": 12.886666666666667, "grad_norm": 4.8037567138671875, "learning_rate": 2.079111111111111e-06, "loss": 0.1166, "step": 48325 }, { "epoch": 12.893333333333333, "grad_norm": 6.124323844909668, "learning_rate": 2.074666666666667e-06, "loss": 0.0977, "step": 48350 }, { "epoch": 12.9, "grad_norm": 7.983600616455078, "learning_rate": 2.0702222222222225e-06, "loss": 0.106, "step": 48375 }, { "epoch": 12.906666666666666, "grad_norm": 6.559160232543945, "learning_rate": 2.0657777777777778e-06, "loss": 0.1187, "step": 48400 }, { "epoch": 12.913333333333334, "grad_norm": 8.193538665771484, "learning_rate": 2.0613333333333335e-06, "loss": 0.1203, "step": 48425 }, { "epoch": 12.92, "grad_norm": 6.677972793579102, "learning_rate": 2.056888888888889e-06, "loss": 0.1242, "step": 48450 }, { "epoch": 12.926666666666666, "grad_norm": 8.824485778808594, "learning_rate": 2.052444444444445e-06, "loss": 0.1006, "step": 48475 }, { "epoch": 12.933333333333334, "grad_norm": 6.2802863121032715, "learning_rate": 2.048e-06, "loss": 0.1098, "step": 48500 }, { "epoch": 12.94, "grad_norm": 5.579257965087891, "learning_rate": 2.043555555555556e-06, "loss": 0.1027, "step": 48525 }, { "epoch": 12.946666666666667, "grad_norm": 6.418622970581055, "learning_rate": 2.039111111111111e-06, "loss": 0.1086, "step": 48550 }, { "epoch": 12.953333333333333, "grad_norm": 5.020949840545654, "learning_rate": 2.0346666666666668e-06, "loss": 0.114, "step": 48575 }, { "epoch": 12.96, "grad_norm": 6.410282611846924, "learning_rate": 2.0302222222222225e-06, "loss": 0.1058, "step": 48600 }, { "epoch": 12.966666666666667, "grad_norm": 7.423671245574951, "learning_rate": 2.0257777777777777e-06, "loss": 0.1129, "step": 48625 }, { "epoch": 12.973333333333333, "grad_norm": 4.838792324066162, "learning_rate": 2.0213333333333334e-06, "loss": 0.1139, "step": 48650 }, { "epoch": 12.98, "grad_norm": 7.466505527496338, "learning_rate": 2.016888888888889e-06, "loss": 0.116, "step": 48675 }, { "epoch": 12.986666666666666, "grad_norm": 5.467660903930664, "learning_rate": 2.012444444444445e-06, "loss": 0.1133, "step": 48700 }, { "epoch": 12.993333333333334, "grad_norm": 5.013683319091797, "learning_rate": 2.008e-06, "loss": 0.116, "step": 48725 }, { "epoch": 13.0, "grad_norm": 9.961708068847656, "learning_rate": 2.0035555555555558e-06, "loss": 0.112, "step": 48750 }, { "epoch": 13.0, "eval_cer": 21.116970724707897, "eval_loss": 0.3701510727405548, "eval_runtime": 1274.9292, "eval_samples_per_second": 3.922, "eval_steps_per_second": 0.49, "step": 48750 }, { "epoch": 13.006666666666666, "grad_norm": 5.622351169586182, "learning_rate": 1.9991111111111115e-06, "loss": 0.073, "step": 48775 }, { "epoch": 13.013333333333334, "grad_norm": 4.620367050170898, "learning_rate": 1.9946666666666667e-06, "loss": 0.0712, "step": 48800 }, { "epoch": 13.02, "grad_norm": 2.9448187351226807, "learning_rate": 1.9902222222222224e-06, "loss": 0.0672, "step": 48825 }, { "epoch": 13.026666666666667, "grad_norm": 3.295442819595337, "learning_rate": 1.9857777777777777e-06, "loss": 0.062, "step": 48850 }, { "epoch": 13.033333333333333, "grad_norm": 4.014532089233398, "learning_rate": 1.9813333333333334e-06, "loss": 0.069, "step": 48875 }, { "epoch": 13.04, "grad_norm": 6.512493133544922, "learning_rate": 1.976888888888889e-06, "loss": 0.0685, "step": 48900 }, { "epoch": 13.046666666666667, "grad_norm": 4.543283939361572, "learning_rate": 1.9724444444444448e-06, "loss": 0.0723, "step": 48925 }, { "epoch": 13.053333333333333, "grad_norm": 5.153681755065918, "learning_rate": 1.968e-06, "loss": 0.0702, "step": 48950 }, { "epoch": 13.06, "grad_norm": 4.637246131896973, "learning_rate": 1.9635555555555557e-06, "loss": 0.0731, "step": 48975 }, { "epoch": 13.066666666666666, "grad_norm": 5.574101448059082, "learning_rate": 1.9591111111111114e-06, "loss": 0.0732, "step": 49000 }, { "epoch": 13.073333333333334, "grad_norm": 3.951002359390259, "learning_rate": 1.954666666666667e-06, "loss": 0.0708, "step": 49025 }, { "epoch": 13.08, "grad_norm": 3.7893869876861572, "learning_rate": 1.9502222222222224e-06, "loss": 0.0678, "step": 49050 }, { "epoch": 13.086666666666666, "grad_norm": 5.214609146118164, "learning_rate": 1.9457777777777777e-06, "loss": 0.0752, "step": 49075 }, { "epoch": 13.093333333333334, "grad_norm": 3.270291805267334, "learning_rate": 1.9413333333333334e-06, "loss": 0.073, "step": 49100 }, { "epoch": 13.1, "grad_norm": 5.782220363616943, "learning_rate": 1.936888888888889e-06, "loss": 0.0786, "step": 49125 }, { "epoch": 13.106666666666667, "grad_norm": 4.796205997467041, "learning_rate": 1.9324444444444447e-06, "loss": 0.0715, "step": 49150 }, { "epoch": 13.113333333333333, "grad_norm": 4.687405109405518, "learning_rate": 1.928e-06, "loss": 0.0752, "step": 49175 }, { "epoch": 13.12, "grad_norm": 4.880829334259033, "learning_rate": 1.9235555555555557e-06, "loss": 0.0697, "step": 49200 }, { "epoch": 13.126666666666667, "grad_norm": 5.48293399810791, "learning_rate": 1.9191111111111114e-06, "loss": 0.0749, "step": 49225 }, { "epoch": 13.133333333333333, "grad_norm": 5.155721664428711, "learning_rate": 1.914666666666667e-06, "loss": 0.078, "step": 49250 }, { "epoch": 13.14, "grad_norm": 3.983116626739502, "learning_rate": 1.9102222222222224e-06, "loss": 0.0726, "step": 49275 }, { "epoch": 13.146666666666667, "grad_norm": 5.757419586181641, "learning_rate": 1.905777777777778e-06, "loss": 0.067, "step": 49300 }, { "epoch": 13.153333333333332, "grad_norm": 5.3086090087890625, "learning_rate": 1.9013333333333333e-06, "loss": 0.0761, "step": 49325 }, { "epoch": 13.16, "grad_norm": 6.292516708374023, "learning_rate": 1.896888888888889e-06, "loss": 0.0719, "step": 49350 }, { "epoch": 13.166666666666666, "grad_norm": 5.925360202789307, "learning_rate": 1.8924444444444445e-06, "loss": 0.0752, "step": 49375 }, { "epoch": 13.173333333333334, "grad_norm": 4.0699992179870605, "learning_rate": 1.8880000000000002e-06, "loss": 0.0657, "step": 49400 }, { "epoch": 13.18, "grad_norm": 4.260977268218994, "learning_rate": 1.8835555555555557e-06, "loss": 0.0695, "step": 49425 }, { "epoch": 13.186666666666667, "grad_norm": 3.3656084537506104, "learning_rate": 1.8791111111111113e-06, "loss": 0.0749, "step": 49450 }, { "epoch": 13.193333333333333, "grad_norm": 4.433594226837158, "learning_rate": 1.8746666666666668e-06, "loss": 0.0673, "step": 49475 }, { "epoch": 13.2, "grad_norm": 4.636645793914795, "learning_rate": 1.8702222222222225e-06, "loss": 0.0778, "step": 49500 }, { "epoch": 13.206666666666667, "grad_norm": 4.563504695892334, "learning_rate": 1.865777777777778e-06, "loss": 0.0649, "step": 49525 }, { "epoch": 13.213333333333333, "grad_norm": 4.235064506530762, "learning_rate": 1.8613333333333337e-06, "loss": 0.0706, "step": 49550 }, { "epoch": 13.22, "grad_norm": 4.921514511108398, "learning_rate": 1.856888888888889e-06, "loss": 0.0694, "step": 49575 }, { "epoch": 13.226666666666667, "grad_norm": 4.738955020904541, "learning_rate": 1.8524444444444444e-06, "loss": 0.0668, "step": 49600 }, { "epoch": 13.233333333333333, "grad_norm": 5.060573101043701, "learning_rate": 1.8480000000000001e-06, "loss": 0.0683, "step": 49625 }, { "epoch": 13.24, "grad_norm": 4.408626556396484, "learning_rate": 1.8435555555555556e-06, "loss": 0.0727, "step": 49650 }, { "epoch": 13.246666666666666, "grad_norm": 4.45327091217041, "learning_rate": 1.8391111111111113e-06, "loss": 0.0666, "step": 49675 }, { "epoch": 13.253333333333334, "grad_norm": 5.215404510498047, "learning_rate": 1.8346666666666668e-06, "loss": 0.0834, "step": 49700 }, { "epoch": 13.26, "grad_norm": 4.692080974578857, "learning_rate": 1.8302222222222225e-06, "loss": 0.0725, "step": 49725 }, { "epoch": 13.266666666666667, "grad_norm": 3.9876694679260254, "learning_rate": 1.825777777777778e-06, "loss": 0.0672, "step": 49750 }, { "epoch": 13.273333333333333, "grad_norm": 3.875887870788574, "learning_rate": 1.8213333333333337e-06, "loss": 0.0688, "step": 49775 }, { "epoch": 13.28, "grad_norm": 6.395846843719482, "learning_rate": 1.8168888888888891e-06, "loss": 0.0754, "step": 49800 }, { "epoch": 13.286666666666667, "grad_norm": 5.104362964630127, "learning_rate": 1.8124444444444448e-06, "loss": 0.0761, "step": 49825 }, { "epoch": 13.293333333333333, "grad_norm": 3.312028169631958, "learning_rate": 1.808e-06, "loss": 0.0764, "step": 49850 }, { "epoch": 13.3, "grad_norm": 3.243084192276001, "learning_rate": 1.8035555555555556e-06, "loss": 0.0689, "step": 49875 }, { "epoch": 13.306666666666667, "grad_norm": 16.645023345947266, "learning_rate": 1.7991111111111113e-06, "loss": 0.0755, "step": 49900 }, { "epoch": 13.313333333333333, "grad_norm": 4.282712459564209, "learning_rate": 1.7946666666666667e-06, "loss": 0.0839, "step": 49925 }, { "epoch": 13.32, "grad_norm": 5.756045818328857, "learning_rate": 1.7902222222222224e-06, "loss": 0.0723, "step": 49950 }, { "epoch": 13.326666666666666, "grad_norm": 3.6419270038604736, "learning_rate": 1.785777777777778e-06, "loss": 0.0798, "step": 49975 }, { "epoch": 13.333333333333334, "grad_norm": 4.594815731048584, "learning_rate": 1.7813333333333336e-06, "loss": 0.0785, "step": 50000 }, { "epoch": 13.34, "grad_norm": 3.3779661655426025, "learning_rate": 1.776888888888889e-06, "loss": 0.0705, "step": 50025 }, { "epoch": 13.346666666666668, "grad_norm": 5.138673305511475, "learning_rate": 1.7724444444444448e-06, "loss": 0.0785, "step": 50050 }, { "epoch": 13.353333333333333, "grad_norm": 3.6062915325164795, "learning_rate": 1.7680000000000003e-06, "loss": 0.0776, "step": 50075 }, { "epoch": 13.36, "grad_norm": 4.437643051147461, "learning_rate": 1.7635555555555555e-06, "loss": 0.0688, "step": 50100 }, { "epoch": 13.366666666666667, "grad_norm": 3.849740505218506, "learning_rate": 1.7591111111111112e-06, "loss": 0.0736, "step": 50125 }, { "epoch": 13.373333333333333, "grad_norm": 5.022838115692139, "learning_rate": 1.7546666666666667e-06, "loss": 0.0676, "step": 50150 }, { "epoch": 13.38, "grad_norm": 4.474266529083252, "learning_rate": 1.7502222222222224e-06, "loss": 0.0765, "step": 50175 }, { "epoch": 13.386666666666667, "grad_norm": 4.083851337432861, "learning_rate": 1.7457777777777779e-06, "loss": 0.0758, "step": 50200 }, { "epoch": 13.393333333333333, "grad_norm": 5.189428329467773, "learning_rate": 1.7413333333333336e-06, "loss": 0.0682, "step": 50225 }, { "epoch": 13.4, "grad_norm": 3.807460308074951, "learning_rate": 1.736888888888889e-06, "loss": 0.0683, "step": 50250 }, { "epoch": 13.406666666666666, "grad_norm": 7.0135722160339355, "learning_rate": 1.7326222222222226e-06, "loss": 0.0694, "step": 50275 }, { "epoch": 13.413333333333334, "grad_norm": 4.803097724914551, "learning_rate": 1.7281777777777778e-06, "loss": 0.0754, "step": 50300 }, { "epoch": 13.42, "grad_norm": 4.446489334106445, "learning_rate": 1.7237333333333333e-06, "loss": 0.0729, "step": 50325 }, { "epoch": 13.426666666666666, "grad_norm": 4.843291282653809, "learning_rate": 1.719288888888889e-06, "loss": 0.0745, "step": 50350 }, { "epoch": 13.433333333333334, "grad_norm": 5.550344944000244, "learning_rate": 1.7148444444444445e-06, "loss": 0.0708, "step": 50375 }, { "epoch": 13.44, "grad_norm": 5.481566429138184, "learning_rate": 1.7104000000000002e-06, "loss": 0.0753, "step": 50400 }, { "epoch": 13.446666666666667, "grad_norm": 6.462749481201172, "learning_rate": 1.7059555555555557e-06, "loss": 0.0749, "step": 50425 }, { "epoch": 13.453333333333333, "grad_norm": 3.3947927951812744, "learning_rate": 1.7015111111111113e-06, "loss": 0.0722, "step": 50450 }, { "epoch": 13.46, "grad_norm": 5.069024085998535, "learning_rate": 1.6970666666666668e-06, "loss": 0.0731, "step": 50475 }, { "epoch": 13.466666666666667, "grad_norm": 4.766073226928711, "learning_rate": 1.6926222222222225e-06, "loss": 0.0781, "step": 50500 }, { "epoch": 13.473333333333333, "grad_norm": 4.522984504699707, "learning_rate": 1.688177777777778e-06, "loss": 0.0656, "step": 50525 }, { "epoch": 13.48, "grad_norm": 4.569211006164551, "learning_rate": 1.6837333333333337e-06, "loss": 0.0709, "step": 50550 }, { "epoch": 13.486666666666666, "grad_norm": 4.393730163574219, "learning_rate": 1.679288888888889e-06, "loss": 0.0752, "step": 50575 }, { "epoch": 13.493333333333334, "grad_norm": 5.141506671905518, "learning_rate": 1.6748444444444444e-06, "loss": 0.0764, "step": 50600 }, { "epoch": 13.5, "grad_norm": 5.949735641479492, "learning_rate": 1.6704000000000001e-06, "loss": 0.0753, "step": 50625 }, { "epoch": 13.506666666666666, "grad_norm": 4.400526523590088, "learning_rate": 1.6659555555555556e-06, "loss": 0.0699, "step": 50650 }, { "epoch": 13.513333333333334, "grad_norm": 3.5882327556610107, "learning_rate": 1.6615111111111113e-06, "loss": 0.0744, "step": 50675 }, { "epoch": 13.52, "grad_norm": 3.8289997577667236, "learning_rate": 1.6570666666666668e-06, "loss": 0.0806, "step": 50700 }, { "epoch": 13.526666666666667, "grad_norm": 5.415486812591553, "learning_rate": 1.6526222222222225e-06, "loss": 0.073, "step": 50725 }, { "epoch": 13.533333333333333, "grad_norm": 5.754875659942627, "learning_rate": 1.648177777777778e-06, "loss": 0.0682, "step": 50750 }, { "epoch": 13.54, "grad_norm": 4.864412784576416, "learning_rate": 1.6437333333333337e-06, "loss": 0.073, "step": 50775 }, { "epoch": 13.546666666666667, "grad_norm": 5.655688285827637, "learning_rate": 1.6392888888888891e-06, "loss": 0.0795, "step": 50800 }, { "epoch": 13.553333333333333, "grad_norm": 5.5406813621521, "learning_rate": 1.6348444444444444e-06, "loss": 0.0678, "step": 50825 }, { "epoch": 13.56, "grad_norm": 4.054455280303955, "learning_rate": 1.6304e-06, "loss": 0.0677, "step": 50850 }, { "epoch": 13.566666666666666, "grad_norm": 7.001787185668945, "learning_rate": 1.6259555555555556e-06, "loss": 0.0724, "step": 50875 }, { "epoch": 13.573333333333334, "grad_norm": 4.548781394958496, "learning_rate": 1.6215111111111113e-06, "loss": 0.0792, "step": 50900 }, { "epoch": 13.58, "grad_norm": 5.362614631652832, "learning_rate": 1.6170666666666667e-06, "loss": 0.0718, "step": 50925 }, { "epoch": 13.586666666666666, "grad_norm": 5.573884963989258, "learning_rate": 1.6126222222222224e-06, "loss": 0.0706, "step": 50950 }, { "epoch": 13.593333333333334, "grad_norm": 3.8761532306671143, "learning_rate": 1.608177777777778e-06, "loss": 0.0765, "step": 50975 }, { "epoch": 13.6, "grad_norm": 4.242030620574951, "learning_rate": 1.6037333333333336e-06, "loss": 0.0705, "step": 51000 }, { "epoch": 13.606666666666667, "grad_norm": 4.413914680480957, "learning_rate": 1.599288888888889e-06, "loss": 0.0754, "step": 51025 }, { "epoch": 13.613333333333333, "grad_norm": 4.841075897216797, "learning_rate": 1.5948444444444448e-06, "loss": 0.0796, "step": 51050 }, { "epoch": 13.62, "grad_norm": 6.9934210777282715, "learning_rate": 1.5904e-06, "loss": 0.0839, "step": 51075 }, { "epoch": 13.626666666666667, "grad_norm": 5.5658721923828125, "learning_rate": 1.5859555555555555e-06, "loss": 0.0788, "step": 51100 }, { "epoch": 13.633333333333333, "grad_norm": 4.997589111328125, "learning_rate": 1.5815111111111112e-06, "loss": 0.0876, "step": 51125 }, { "epoch": 13.64, "grad_norm": 4.557096004486084, "learning_rate": 1.5770666666666667e-06, "loss": 0.0789, "step": 51150 }, { "epoch": 13.646666666666667, "grad_norm": 4.078949928283691, "learning_rate": 1.5726222222222224e-06, "loss": 0.076, "step": 51175 }, { "epoch": 13.653333333333332, "grad_norm": 5.252168655395508, "learning_rate": 1.5681777777777779e-06, "loss": 0.0736, "step": 51200 }, { "epoch": 13.66, "grad_norm": 6.454425811767578, "learning_rate": 1.5637333333333336e-06, "loss": 0.0855, "step": 51225 }, { "epoch": 13.666666666666666, "grad_norm": 4.683918476104736, "learning_rate": 1.559288888888889e-06, "loss": 0.0851, "step": 51250 }, { "epoch": 13.673333333333334, "grad_norm": 4.571911811828613, "learning_rate": 1.5548444444444447e-06, "loss": 0.0747, "step": 51275 }, { "epoch": 13.68, "grad_norm": 3.8478519916534424, "learning_rate": 1.5504000000000002e-06, "loss": 0.0807, "step": 51300 }, { "epoch": 13.686666666666667, "grad_norm": 6.604455947875977, "learning_rate": 1.545955555555556e-06, "loss": 0.078, "step": 51325 }, { "epoch": 13.693333333333333, "grad_norm": 4.801009654998779, "learning_rate": 1.5415111111111112e-06, "loss": 0.0698, "step": 51350 }, { "epoch": 13.7, "grad_norm": 6.524123191833496, "learning_rate": 1.5370666666666667e-06, "loss": 0.0832, "step": 51375 }, { "epoch": 13.706666666666667, "grad_norm": 6.038280963897705, "learning_rate": 1.5326222222222224e-06, "loss": 0.0726, "step": 51400 }, { "epoch": 13.713333333333333, "grad_norm": 5.431887626647949, "learning_rate": 1.5281777777777778e-06, "loss": 0.0827, "step": 51425 }, { "epoch": 13.72, "grad_norm": 6.024564743041992, "learning_rate": 1.5237333333333335e-06, "loss": 0.074, "step": 51450 }, { "epoch": 13.726666666666667, "grad_norm": 5.318210124969482, "learning_rate": 1.519288888888889e-06, "loss": 0.0852, "step": 51475 }, { "epoch": 13.733333333333333, "grad_norm": 4.762639045715332, "learning_rate": 1.5148444444444447e-06, "loss": 0.0714, "step": 51500 }, { "epoch": 13.74, "grad_norm": 5.492698669433594, "learning_rate": 1.5104000000000002e-06, "loss": 0.0763, "step": 51525 }, { "epoch": 13.746666666666666, "grad_norm": 5.453211307525635, "learning_rate": 1.5059555555555559e-06, "loss": 0.0724, "step": 51550 }, { "epoch": 13.753333333333334, "grad_norm": 5.461216449737549, "learning_rate": 1.5015111111111114e-06, "loss": 0.0736, "step": 51575 }, { "epoch": 13.76, "grad_norm": 5.858949184417725, "learning_rate": 1.4970666666666666e-06, "loss": 0.0763, "step": 51600 }, { "epoch": 13.766666666666667, "grad_norm": 3.7733099460601807, "learning_rate": 1.4926222222222223e-06, "loss": 0.0702, "step": 51625 }, { "epoch": 13.773333333333333, "grad_norm": 5.055445194244385, "learning_rate": 1.4881777777777778e-06, "loss": 0.0734, "step": 51650 }, { "epoch": 13.78, "grad_norm": 4.995844841003418, "learning_rate": 1.4837333333333335e-06, "loss": 0.0667, "step": 51675 }, { "epoch": 13.786666666666667, "grad_norm": 5.348880767822266, "learning_rate": 1.479288888888889e-06, "loss": 0.0755, "step": 51700 }, { "epoch": 13.793333333333333, "grad_norm": 5.208152770996094, "learning_rate": 1.4748444444444447e-06, "loss": 0.0733, "step": 51725 }, { "epoch": 13.8, "grad_norm": 4.70478630065918, "learning_rate": 1.4704000000000001e-06, "loss": 0.0723, "step": 51750 }, { "epoch": 13.806666666666667, "grad_norm": 4.627460956573486, "learning_rate": 1.4659555555555558e-06, "loss": 0.0698, "step": 51775 }, { "epoch": 13.813333333333333, "grad_norm": 5.104433059692383, "learning_rate": 1.4615111111111113e-06, "loss": 0.0716, "step": 51800 }, { "epoch": 13.82, "grad_norm": 5.321831703186035, "learning_rate": 1.457066666666667e-06, "loss": 0.0753, "step": 51825 }, { "epoch": 13.826666666666666, "grad_norm": 3.5546035766601562, "learning_rate": 1.4526222222222223e-06, "loss": 0.0832, "step": 51850 }, { "epoch": 13.833333333333334, "grad_norm": 5.400938510894775, "learning_rate": 1.4481777777777778e-06, "loss": 0.0781, "step": 51875 }, { "epoch": 13.84, "grad_norm": 5.633108139038086, "learning_rate": 1.4437333333333334e-06, "loss": 0.0693, "step": 51900 }, { "epoch": 13.846666666666668, "grad_norm": 5.472427845001221, "learning_rate": 1.439288888888889e-06, "loss": 0.0729, "step": 51925 }, { "epoch": 13.853333333333333, "grad_norm": 5.6105637550354, "learning_rate": 1.4348444444444446e-06, "loss": 0.0703, "step": 51950 }, { "epoch": 13.86, "grad_norm": 5.882650375366211, "learning_rate": 1.4304e-06, "loss": 0.0731, "step": 51975 }, { "epoch": 13.866666666666667, "grad_norm": 4.3986921310424805, "learning_rate": 1.4259555555555558e-06, "loss": 0.082, "step": 52000 }, { "epoch": 13.873333333333333, "grad_norm": 4.459896087646484, "learning_rate": 1.4215111111111113e-06, "loss": 0.0767, "step": 52025 }, { "epoch": 13.88, "grad_norm": 5.145157337188721, "learning_rate": 1.417066666666667e-06, "loss": 0.0781, "step": 52050 }, { "epoch": 13.886666666666667, "grad_norm": 6.3479084968566895, "learning_rate": 1.4126222222222224e-06, "loss": 0.0783, "step": 52075 }, { "epoch": 13.893333333333333, "grad_norm": 7.261753082275391, "learning_rate": 1.4081777777777777e-06, "loss": 0.0752, "step": 52100 }, { "epoch": 13.9, "grad_norm": 3.9048378467559814, "learning_rate": 1.4037333333333334e-06, "loss": 0.0742, "step": 52125 }, { "epoch": 13.906666666666666, "grad_norm": 6.975226879119873, "learning_rate": 1.3992888888888889e-06, "loss": 0.0718, "step": 52150 }, { "epoch": 13.913333333333334, "grad_norm": 3.704474925994873, "learning_rate": 1.3948444444444446e-06, "loss": 0.0747, "step": 52175 }, { "epoch": 13.92, "grad_norm": 4.597527027130127, "learning_rate": 1.3904e-06, "loss": 0.0656, "step": 52200 }, { "epoch": 13.926666666666666, "grad_norm": 4.371330738067627, "learning_rate": 1.3859555555555558e-06, "loss": 0.0656, "step": 52225 }, { "epoch": 13.933333333333334, "grad_norm": 6.0362725257873535, "learning_rate": 1.3815111111111112e-06, "loss": 0.0827, "step": 52250 }, { "epoch": 13.94, "grad_norm": 5.935553550720215, "learning_rate": 1.377066666666667e-06, "loss": 0.0759, "step": 52275 }, { "epoch": 13.946666666666667, "grad_norm": 7.34261417388916, "learning_rate": 1.3726222222222224e-06, "loss": 0.079, "step": 52300 }, { "epoch": 13.953333333333333, "grad_norm": 3.7362871170043945, "learning_rate": 1.3681777777777779e-06, "loss": 0.0724, "step": 52325 }, { "epoch": 13.96, "grad_norm": 5.213724136352539, "learning_rate": 1.3637333333333336e-06, "loss": 0.0672, "step": 52350 }, { "epoch": 13.966666666666667, "grad_norm": 4.475199222564697, "learning_rate": 1.3592888888888888e-06, "loss": 0.0683, "step": 52375 }, { "epoch": 13.973333333333333, "grad_norm": 5.3463029861450195, "learning_rate": 1.3548444444444445e-06, "loss": 0.0815, "step": 52400 }, { "epoch": 13.98, "grad_norm": 3.803253650665283, "learning_rate": 1.3504e-06, "loss": 0.0745, "step": 52425 }, { "epoch": 13.986666666666666, "grad_norm": 3.9818623065948486, "learning_rate": 1.3459555555555557e-06, "loss": 0.0724, "step": 52450 }, { "epoch": 13.993333333333334, "grad_norm": 6.807934284210205, "learning_rate": 1.3415111111111112e-06, "loss": 0.0662, "step": 52475 }, { "epoch": 14.0, "grad_norm": 4.154113292694092, "learning_rate": 1.3370666666666669e-06, "loss": 0.0716, "step": 52500 }, { "epoch": 14.0, "eval_cer": 21.126288131487243, "eval_loss": 0.3761049509048462, "eval_runtime": 1231.2523, "eval_samples_per_second": 4.061, "eval_steps_per_second": 0.508, "step": 52500 }, { "epoch": 14.006666666666666, "grad_norm": 2.511601209640503, "learning_rate": 1.3326222222222224e-06, "loss": 0.048, "step": 52525 }, { "epoch": 14.013333333333334, "grad_norm": 4.37282657623291, "learning_rate": 1.328177777777778e-06, "loss": 0.0554, "step": 52550 }, { "epoch": 14.02, "grad_norm": 3.1976640224456787, "learning_rate": 1.3237333333333335e-06, "loss": 0.0493, "step": 52575 }, { "epoch": 14.026666666666667, "grad_norm": 3.915569543838501, "learning_rate": 1.319288888888889e-06, "loss": 0.0479, "step": 52600 }, { "epoch": 14.033333333333333, "grad_norm": 4.439314365386963, "learning_rate": 1.3148444444444445e-06, "loss": 0.0486, "step": 52625 }, { "epoch": 14.04, "grad_norm": 4.465267181396484, "learning_rate": 1.3104e-06, "loss": 0.0484, "step": 52650 }, { "epoch": 14.046666666666667, "grad_norm": 3.871236562728882, "learning_rate": 1.3059555555555557e-06, "loss": 0.0561, "step": 52675 }, { "epoch": 14.053333333333333, "grad_norm": 2.7384116649627686, "learning_rate": 1.3015111111111112e-06, "loss": 0.0494, "step": 52700 }, { "epoch": 14.06, "grad_norm": 4.386533737182617, "learning_rate": 1.2970666666666668e-06, "loss": 0.0458, "step": 52725 }, { "epoch": 14.066666666666666, "grad_norm": 3.547750473022461, "learning_rate": 1.2926222222222223e-06, "loss": 0.045, "step": 52750 }, { "epoch": 14.073333333333334, "grad_norm": 5.4930853843688965, "learning_rate": 1.288177777777778e-06, "loss": 0.0467, "step": 52775 }, { "epoch": 14.08, "grad_norm": 4.281717777252197, "learning_rate": 1.2837333333333335e-06, "loss": 0.0543, "step": 52800 }, { "epoch": 14.086666666666666, "grad_norm": 3.261850595474243, "learning_rate": 1.279288888888889e-06, "loss": 0.0506, "step": 52825 }, { "epoch": 14.093333333333334, "grad_norm": 3.276442050933838, "learning_rate": 1.2748444444444447e-06, "loss": 0.0503, "step": 52850 }, { "epoch": 14.1, "grad_norm": 4.682911396026611, "learning_rate": 1.2704e-06, "loss": 0.0586, "step": 52875 }, { "epoch": 14.106666666666667, "grad_norm": 6.137394905090332, "learning_rate": 1.2659555555555556e-06, "loss": 0.0504, "step": 52900 }, { "epoch": 14.113333333333333, "grad_norm": 3.387152910232544, "learning_rate": 1.2615111111111111e-06, "loss": 0.054, "step": 52925 }, { "epoch": 14.12, "grad_norm": 4.370669841766357, "learning_rate": 1.2570666666666668e-06, "loss": 0.0504, "step": 52950 }, { "epoch": 14.126666666666667, "grad_norm": 3.4092986583709717, "learning_rate": 1.2526222222222223e-06, "loss": 0.049, "step": 52975 }, { "epoch": 14.133333333333333, "grad_norm": 4.103923797607422, "learning_rate": 1.248177777777778e-06, "loss": 0.0523, "step": 53000 }, { "epoch": 14.14, "grad_norm": 5.404548645019531, "learning_rate": 1.2437333333333335e-06, "loss": 0.0543, "step": 53025 }, { "epoch": 14.146666666666667, "grad_norm": 6.26508903503418, "learning_rate": 1.239288888888889e-06, "loss": 0.0499, "step": 53050 }, { "epoch": 14.153333333333332, "grad_norm": 3.175922393798828, "learning_rate": 1.2348444444444444e-06, "loss": 0.0562, "step": 53075 }, { "epoch": 14.16, "grad_norm": 3.7458386421203613, "learning_rate": 1.2304000000000001e-06, "loss": 0.0479, "step": 53100 }, { "epoch": 14.166666666666666, "grad_norm": 5.165560722351074, "learning_rate": 1.2259555555555556e-06, "loss": 0.0517, "step": 53125 }, { "epoch": 14.173333333333334, "grad_norm": 3.5799591541290283, "learning_rate": 1.2215111111111113e-06, "loss": 0.05, "step": 53150 }, { "epoch": 14.18, "grad_norm": 2.709050416946411, "learning_rate": 1.2170666666666668e-06, "loss": 0.049, "step": 53175 }, { "epoch": 14.186666666666667, "grad_norm": 4.002528667449951, "learning_rate": 1.2126222222222222e-06, "loss": 0.0531, "step": 53200 }, { "epoch": 14.193333333333333, "grad_norm": 2.38199520111084, "learning_rate": 1.208177777777778e-06, "loss": 0.0493, "step": 53225 }, { "epoch": 14.2, "grad_norm": 4.183856964111328, "learning_rate": 1.2037333333333334e-06, "loss": 0.052, "step": 53250 }, { "epoch": 14.206666666666667, "grad_norm": 3.8171675205230713, "learning_rate": 1.199288888888889e-06, "loss": 0.0556, "step": 53275 }, { "epoch": 14.213333333333333, "grad_norm": 4.330394744873047, "learning_rate": 1.1948444444444446e-06, "loss": 0.055, "step": 53300 }, { "epoch": 14.22, "grad_norm": 4.10926628112793, "learning_rate": 1.1904e-06, "loss": 0.0497, "step": 53325 }, { "epoch": 14.226666666666667, "grad_norm": 4.827149868011475, "learning_rate": 1.1859555555555556e-06, "loss": 0.0459, "step": 53350 }, { "epoch": 14.233333333333333, "grad_norm": 3.9351627826690674, "learning_rate": 1.1815111111111112e-06, "loss": 0.0546, "step": 53375 }, { "epoch": 14.24, "grad_norm": 3.7546730041503906, "learning_rate": 1.1770666666666667e-06, "loss": 0.0559, "step": 53400 }, { "epoch": 14.246666666666666, "grad_norm": 3.5639142990112305, "learning_rate": 1.1726222222222224e-06, "loss": 0.0439, "step": 53425 }, { "epoch": 14.253333333333334, "grad_norm": 4.376165390014648, "learning_rate": 1.168177777777778e-06, "loss": 0.0521, "step": 53450 }, { "epoch": 14.26, "grad_norm": 3.6240880489349365, "learning_rate": 1.1637333333333334e-06, "loss": 0.0516, "step": 53475 }, { "epoch": 14.266666666666667, "grad_norm": 5.383458614349365, "learning_rate": 1.1592888888888889e-06, "loss": 0.0491, "step": 53500 }, { "epoch": 14.273333333333333, "grad_norm": 3.4979617595672607, "learning_rate": 1.1548444444444446e-06, "loss": 0.0453, "step": 53525 }, { "epoch": 14.28, "grad_norm": 4.769947052001953, "learning_rate": 1.1504e-06, "loss": 0.0424, "step": 53550 }, { "epoch": 14.286666666666667, "grad_norm": 4.069387912750244, "learning_rate": 1.1459555555555557e-06, "loss": 0.049, "step": 53575 }, { "epoch": 14.293333333333333, "grad_norm": 3.9347150325775146, "learning_rate": 1.1415111111111112e-06, "loss": 0.047, "step": 53600 }, { "epoch": 14.3, "grad_norm": 3.5731167793273926, "learning_rate": 1.1370666666666667e-06, "loss": 0.049, "step": 53625 }, { "epoch": 14.306666666666667, "grad_norm": 3.5513360500335693, "learning_rate": 1.1326222222222224e-06, "loss": 0.0535, "step": 53650 }, { "epoch": 14.313333333333333, "grad_norm": 4.981029033660889, "learning_rate": 1.1281777777777779e-06, "loss": 0.0461, "step": 53675 }, { "epoch": 14.32, "grad_norm": 3.597111701965332, "learning_rate": 1.1237333333333335e-06, "loss": 0.0517, "step": 53700 }, { "epoch": 14.326666666666666, "grad_norm": 4.880976676940918, "learning_rate": 1.119288888888889e-06, "loss": 0.0468, "step": 53725 }, { "epoch": 14.333333333333334, "grad_norm": 4.088090419769287, "learning_rate": 1.1148444444444445e-06, "loss": 0.0519, "step": 53750 }, { "epoch": 14.34, "grad_norm": 3.2150065898895264, "learning_rate": 1.1104e-06, "loss": 0.0531, "step": 53775 }, { "epoch": 14.346666666666668, "grad_norm": 2.6329903602600098, "learning_rate": 1.1059555555555557e-06, "loss": 0.0512, "step": 53800 }, { "epoch": 14.353333333333333, "grad_norm": 5.744917869567871, "learning_rate": 1.1015111111111112e-06, "loss": 0.0493, "step": 53825 }, { "epoch": 14.36, "grad_norm": 4.317261695861816, "learning_rate": 1.0970666666666666e-06, "loss": 0.0547, "step": 53850 }, { "epoch": 14.366666666666667, "grad_norm": 2.9774224758148193, "learning_rate": 1.0926222222222223e-06, "loss": 0.0486, "step": 53875 }, { "epoch": 14.373333333333333, "grad_norm": 3.343986988067627, "learning_rate": 1.0881777777777778e-06, "loss": 0.0476, "step": 53900 }, { "epoch": 14.38, "grad_norm": 5.955545902252197, "learning_rate": 1.0837333333333335e-06, "loss": 0.0498, "step": 53925 }, { "epoch": 14.386666666666667, "grad_norm": 3.4925169944763184, "learning_rate": 1.079288888888889e-06, "loss": 0.0525, "step": 53950 }, { "epoch": 14.393333333333333, "grad_norm": 3.1490190029144287, "learning_rate": 1.0748444444444445e-06, "loss": 0.0577, "step": 53975 }, { "epoch": 14.4, "grad_norm": 3.9418387413024902, "learning_rate": 1.0704e-06, "loss": 0.0498, "step": 54000 }, { "epoch": 14.406666666666666, "grad_norm": 3.7234323024749756, "learning_rate": 1.0659555555555556e-06, "loss": 0.0551, "step": 54025 }, { "epoch": 14.413333333333334, "grad_norm": 4.227156639099121, "learning_rate": 1.0615111111111111e-06, "loss": 0.0533, "step": 54050 }, { "epoch": 14.42, "grad_norm": 3.598093271255493, "learning_rate": 1.0570666666666668e-06, "loss": 0.0549, "step": 54075 }, { "epoch": 14.426666666666666, "grad_norm": 4.07535457611084, "learning_rate": 1.0526222222222223e-06, "loss": 0.0588, "step": 54100 }, { "epoch": 14.433333333333334, "grad_norm": 3.258436441421509, "learning_rate": 1.0481777777777778e-06, "loss": 0.0617, "step": 54125 }, { "epoch": 14.44, "grad_norm": 1.908854603767395, "learning_rate": 1.0437333333333335e-06, "loss": 0.0483, "step": 54150 }, { "epoch": 14.446666666666667, "grad_norm": 3.9834799766540527, "learning_rate": 1.039288888888889e-06, "loss": 0.05, "step": 54175 }, { "epoch": 14.453333333333333, "grad_norm": 4.584743499755859, "learning_rate": 1.0348444444444446e-06, "loss": 0.0611, "step": 54200 }, { "epoch": 14.46, "grad_norm": 4.237573146820068, "learning_rate": 1.0304000000000001e-06, "loss": 0.0518, "step": 54225 }, { "epoch": 14.466666666666667, "grad_norm": 3.4706881046295166, "learning_rate": 1.0259555555555556e-06, "loss": 0.052, "step": 54250 }, { "epoch": 14.473333333333333, "grad_norm": 3.947627067565918, "learning_rate": 1.021511111111111e-06, "loss": 0.0466, "step": 54275 }, { "epoch": 14.48, "grad_norm": 3.0643858909606934, "learning_rate": 1.0170666666666668e-06, "loss": 0.0441, "step": 54300 }, { "epoch": 14.486666666666666, "grad_norm": 2.669238567352295, "learning_rate": 1.0126222222222223e-06, "loss": 0.0508, "step": 54325 }, { "epoch": 14.493333333333334, "grad_norm": 5.497490882873535, "learning_rate": 1.008177777777778e-06, "loss": 0.0481, "step": 54350 }, { "epoch": 14.5, "grad_norm": 4.581981658935547, "learning_rate": 1.0037333333333334e-06, "loss": 0.0451, "step": 54375 }, { "epoch": 14.506666666666666, "grad_norm": 4.398919105529785, "learning_rate": 9.99288888888889e-07, "loss": 0.0609, "step": 54400 }, { "epoch": 14.513333333333334, "grad_norm": 3.6276612281799316, "learning_rate": 9.948444444444446e-07, "loss": 0.0481, "step": 54425 }, { "epoch": 14.52, "grad_norm": 3.4535512924194336, "learning_rate": 9.904e-07, "loss": 0.0469, "step": 54450 }, { "epoch": 14.526666666666667, "grad_norm": 4.12789249420166, "learning_rate": 9.861333333333334e-07, "loss": 0.0546, "step": 54475 }, { "epoch": 14.533333333333333, "grad_norm": 2.7449920177459717, "learning_rate": 9.81688888888889e-07, "loss": 0.048, "step": 54500 }, { "epoch": 14.54, "grad_norm": 6.136411190032959, "learning_rate": 9.772444444444445e-07, "loss": 0.0537, "step": 54525 }, { "epoch": 14.546666666666667, "grad_norm": 5.178431987762451, "learning_rate": 9.728e-07, "loss": 0.0459, "step": 54550 }, { "epoch": 14.553333333333333, "grad_norm": 2.6209218502044678, "learning_rate": 9.683555555555555e-07, "loss": 0.0475, "step": 54575 }, { "epoch": 14.56, "grad_norm": 4.398605823516846, "learning_rate": 9.639111111111112e-07, "loss": 0.0545, "step": 54600 }, { "epoch": 14.566666666666666, "grad_norm": 3.6953680515289307, "learning_rate": 9.594666666666667e-07, "loss": 0.0499, "step": 54625 }, { "epoch": 14.573333333333334, "grad_norm": 4.473062038421631, "learning_rate": 9.550222222222224e-07, "loss": 0.0596, "step": 54650 }, { "epoch": 14.58, "grad_norm": 3.745427131652832, "learning_rate": 9.505777777777779e-07, "loss": 0.048, "step": 54675 }, { "epoch": 14.586666666666666, "grad_norm": 4.922022819519043, "learning_rate": 9.461333333333333e-07, "loss": 0.0561, "step": 54700 }, { "epoch": 14.593333333333334, "grad_norm": 3.210239887237549, "learning_rate": 9.416888888888889e-07, "loss": 0.0495, "step": 54725 }, { "epoch": 14.6, "grad_norm": 4.6359992027282715, "learning_rate": 9.372444444444445e-07, "loss": 0.0522, "step": 54750 }, { "epoch": 14.606666666666667, "grad_norm": 3.23698353767395, "learning_rate": 9.328000000000001e-07, "loss": 0.0503, "step": 54775 }, { "epoch": 14.613333333333333, "grad_norm": 4.698474407196045, "learning_rate": 9.283555555555557e-07, "loss": 0.0527, "step": 54800 }, { "epoch": 14.62, "grad_norm": 4.001100540161133, "learning_rate": 9.239111111111112e-07, "loss": 0.0473, "step": 54825 }, { "epoch": 14.626666666666667, "grad_norm": 4.27857780456543, "learning_rate": 9.194666666666667e-07, "loss": 0.0486, "step": 54850 }, { "epoch": 14.633333333333333, "grad_norm": 3.206892967224121, "learning_rate": 9.150222222222223e-07, "loss": 0.0499, "step": 54875 }, { "epoch": 14.64, "grad_norm": 4.4712677001953125, "learning_rate": 9.105777777777778e-07, "loss": 0.0508, "step": 54900 }, { "epoch": 14.646666666666667, "grad_norm": 4.528389930725098, "learning_rate": 9.061333333333334e-07, "loss": 0.0551, "step": 54925 }, { "epoch": 14.653333333333332, "grad_norm": 4.706644535064697, "learning_rate": 9.01688888888889e-07, "loss": 0.0561, "step": 54950 }, { "epoch": 14.66, "grad_norm": 5.914303779602051, "learning_rate": 8.972444444444445e-07, "loss": 0.0465, "step": 54975 }, { "epoch": 14.666666666666666, "grad_norm": 4.699190616607666, "learning_rate": 8.928000000000001e-07, "loss": 0.0518, "step": 55000 }, { "epoch": 14.673333333333334, "grad_norm": 3.036041259765625, "learning_rate": 8.883555555555556e-07, "loss": 0.0448, "step": 55025 }, { "epoch": 14.68, "grad_norm": 3.7143850326538086, "learning_rate": 8.839111111111112e-07, "loss": 0.0472, "step": 55050 }, { "epoch": 14.686666666666667, "grad_norm": 5.02278470993042, "learning_rate": 8.794666666666668e-07, "loss": 0.0522, "step": 55075 }, { "epoch": 14.693333333333333, "grad_norm": 3.3270909786224365, "learning_rate": 8.750222222222223e-07, "loss": 0.0493, "step": 55100 }, { "epoch": 14.7, "grad_norm": 4.276947975158691, "learning_rate": 8.705777777777779e-07, "loss": 0.046, "step": 55125 }, { "epoch": 14.706666666666667, "grad_norm": 2.790639638900757, "learning_rate": 8.661333333333334e-07, "loss": 0.0539, "step": 55150 }, { "epoch": 14.713333333333333, "grad_norm": 2.523202419281006, "learning_rate": 8.616888888888889e-07, "loss": 0.0567, "step": 55175 }, { "epoch": 14.72, "grad_norm": 4.1561126708984375, "learning_rate": 8.572444444444445e-07, "loss": 0.0487, "step": 55200 }, { "epoch": 14.726666666666667, "grad_norm": 6.204878807067871, "learning_rate": 8.528e-07, "loss": 0.0449, "step": 55225 }, { "epoch": 14.733333333333333, "grad_norm": 2.5746982097625732, "learning_rate": 8.483555555555556e-07, "loss": 0.0528, "step": 55250 }, { "epoch": 14.74, "grad_norm": 3.893643856048584, "learning_rate": 8.439111111111112e-07, "loss": 0.051, "step": 55275 }, { "epoch": 14.746666666666666, "grad_norm": 3.1998512744903564, "learning_rate": 8.394666666666668e-07, "loss": 0.047, "step": 55300 }, { "epoch": 14.753333333333334, "grad_norm": 3.3848798274993896, "learning_rate": 8.350222222222224e-07, "loss": 0.0439, "step": 55325 }, { "epoch": 14.76, "grad_norm": 2.4238150119781494, "learning_rate": 8.305777777777778e-07, "loss": 0.0511, "step": 55350 }, { "epoch": 14.766666666666667, "grad_norm": 3.8833956718444824, "learning_rate": 8.261333333333333e-07, "loss": 0.0511, "step": 55375 }, { "epoch": 14.773333333333333, "grad_norm": 2.1876776218414307, "learning_rate": 8.216888888888889e-07, "loss": 0.0502, "step": 55400 }, { "epoch": 14.78, "grad_norm": 3.353861093521118, "learning_rate": 8.172444444444445e-07, "loss": 0.0498, "step": 55425 }, { "epoch": 14.786666666666667, "grad_norm": 4.793560028076172, "learning_rate": 8.128000000000001e-07, "loss": 0.0478, "step": 55450 }, { "epoch": 14.793333333333333, "grad_norm": 3.017418146133423, "learning_rate": 8.083555555555556e-07, "loss": 0.0531, "step": 55475 }, { "epoch": 14.8, "grad_norm": 4.54094123840332, "learning_rate": 8.039111111111111e-07, "loss": 0.0481, "step": 55500 }, { "epoch": 14.806666666666667, "grad_norm": 4.010063648223877, "learning_rate": 7.994666666666667e-07, "loss": 0.0476, "step": 55525 }, { "epoch": 14.813333333333333, "grad_norm": 3.588308095932007, "learning_rate": 7.950222222222223e-07, "loss": 0.0513, "step": 55550 }, { "epoch": 14.82, "grad_norm": 3.695631504058838, "learning_rate": 7.905777777777779e-07, "loss": 0.0485, "step": 55575 }, { "epoch": 14.826666666666666, "grad_norm": 3.524763584136963, "learning_rate": 7.861333333333333e-07, "loss": 0.045, "step": 55600 }, { "epoch": 14.833333333333334, "grad_norm": 3.0630452632904053, "learning_rate": 7.816888888888889e-07, "loss": 0.0462, "step": 55625 }, { "epoch": 14.84, "grad_norm": 3.2019824981689453, "learning_rate": 7.772444444444445e-07, "loss": 0.0537, "step": 55650 }, { "epoch": 14.846666666666668, "grad_norm": 4.231189250946045, "learning_rate": 7.728e-07, "loss": 0.0469, "step": 55675 }, { "epoch": 14.853333333333333, "grad_norm": 4.678059101104736, "learning_rate": 7.683555555555556e-07, "loss": 0.0528, "step": 55700 }, { "epoch": 14.86, "grad_norm": 5.045527935028076, "learning_rate": 7.639111111111112e-07, "loss": 0.0547, "step": 55725 }, { "epoch": 14.866666666666667, "grad_norm": 3.8671278953552246, "learning_rate": 7.594666666666667e-07, "loss": 0.0509, "step": 55750 }, { "epoch": 14.873333333333333, "grad_norm": 3.0082952976226807, "learning_rate": 7.550222222222223e-07, "loss": 0.0443, "step": 55775 }, { "epoch": 14.88, "grad_norm": 2.718233823776245, "learning_rate": 7.505777777777779e-07, "loss": 0.0517, "step": 55800 }, { "epoch": 14.886666666666667, "grad_norm": 4.321046829223633, "learning_rate": 7.461333333333335e-07, "loss": 0.0497, "step": 55825 }, { "epoch": 14.893333333333333, "grad_norm": 4.6865434646606445, "learning_rate": 7.41688888888889e-07, "loss": 0.0497, "step": 55850 }, { "epoch": 14.9, "grad_norm": 2.637352466583252, "learning_rate": 7.372444444444444e-07, "loss": 0.0522, "step": 55875 }, { "epoch": 14.906666666666666, "grad_norm": 6.383835792541504, "learning_rate": 7.328e-07, "loss": 0.06, "step": 55900 }, { "epoch": 14.913333333333334, "grad_norm": 5.151569843292236, "learning_rate": 7.283555555555556e-07, "loss": 0.0496, "step": 55925 }, { "epoch": 14.92, "grad_norm": 3.0789265632629395, "learning_rate": 7.239111111111112e-07, "loss": 0.0479, "step": 55950 }, { "epoch": 14.926666666666666, "grad_norm": 3.3531296253204346, "learning_rate": 7.194666666666668e-07, "loss": 0.0423, "step": 55975 }, { "epoch": 14.933333333333334, "grad_norm": 4.941739082336426, "learning_rate": 7.150222222222222e-07, "loss": 0.0516, "step": 56000 }, { "epoch": 14.94, "grad_norm": 4.100013256072998, "learning_rate": 7.105777777777778e-07, "loss": 0.0538, "step": 56025 }, { "epoch": 14.946666666666667, "grad_norm": 2.654566764831543, "learning_rate": 7.061333333333334e-07, "loss": 0.049, "step": 56050 }, { "epoch": 14.953333333333333, "grad_norm": 5.69033670425415, "learning_rate": 7.01688888888889e-07, "loss": 0.0502, "step": 56075 }, { "epoch": 14.96, "grad_norm": 4.089710235595703, "learning_rate": 6.972444444444446e-07, "loss": 0.0485, "step": 56100 }, { "epoch": 14.966666666666667, "grad_norm": 5.177222728729248, "learning_rate": 6.928e-07, "loss": 0.045, "step": 56125 }, { "epoch": 14.973333333333333, "grad_norm": 3.208003282546997, "learning_rate": 6.883555555555555e-07, "loss": 0.049, "step": 56150 }, { "epoch": 14.98, "grad_norm": 4.124612808227539, "learning_rate": 6.839111111111111e-07, "loss": 0.0535, "step": 56175 }, { "epoch": 14.986666666666666, "grad_norm": 4.6906208992004395, "learning_rate": 6.794666666666667e-07, "loss": 0.0534, "step": 56200 }, { "epoch": 14.993333333333334, "grad_norm": 4.804418087005615, "learning_rate": 6.750222222222223e-07, "loss": 0.0587, "step": 56225 }, { "epoch": 15.0, "grad_norm": 3.7263681888580322, "learning_rate": 6.705777777777778e-07, "loss": 0.052, "step": 56250 }, { "epoch": 15.0, "eval_cer": 21.182192572163316, "eval_loss": 0.3802435100078583, "eval_runtime": 1285.9976, "eval_samples_per_second": 3.888, "eval_steps_per_second": 0.486, "step": 56250 }, { "epoch": 15.006666666666666, "grad_norm": 1.838929533958435, "learning_rate": 6.661333333333334e-07, "loss": 0.0307, "step": 56275 }, { "epoch": 15.013333333333334, "grad_norm": 1.9618338346481323, "learning_rate": 6.61688888888889e-07, "loss": 0.0386, "step": 56300 }, { "epoch": 15.02, "grad_norm": 3.0752675533294678, "learning_rate": 6.572444444444445e-07, "loss": 0.0392, "step": 56325 }, { "epoch": 15.026666666666667, "grad_norm": 2.691783905029297, "learning_rate": 6.528000000000001e-07, "loss": 0.0413, "step": 56350 }, { "epoch": 15.033333333333333, "grad_norm": 2.8088836669921875, "learning_rate": 6.483555555555555e-07, "loss": 0.0375, "step": 56375 }, { "epoch": 15.04, "grad_norm": 3.7183916568756104, "learning_rate": 6.439111111111111e-07, "loss": 0.0366, "step": 56400 }, { "epoch": 15.046666666666667, "grad_norm": 3.9821486473083496, "learning_rate": 6.394666666666667e-07, "loss": 0.0349, "step": 56425 }, { "epoch": 15.053333333333333, "grad_norm": 3.8157825469970703, "learning_rate": 6.350222222222223e-07, "loss": 0.034, "step": 56450 }, { "epoch": 15.06, "grad_norm": 3.0053462982177734, "learning_rate": 6.305777777777778e-07, "loss": 0.0352, "step": 56475 }, { "epoch": 15.066666666666666, "grad_norm": 2.731395721435547, "learning_rate": 6.261333333333333e-07, "loss": 0.0325, "step": 56500 }, { "epoch": 15.073333333333334, "grad_norm": 3.052091360092163, "learning_rate": 6.216888888888889e-07, "loss": 0.0389, "step": 56525 }, { "epoch": 15.08, "grad_norm": 2.358778476715088, "learning_rate": 6.172444444444445e-07, "loss": 0.0343, "step": 56550 }, { "epoch": 15.086666666666666, "grad_norm": 2.469191551208496, "learning_rate": 6.128000000000001e-07, "loss": 0.0348, "step": 56575 }, { "epoch": 15.093333333333334, "grad_norm": 3.969801902770996, "learning_rate": 6.083555555555556e-07, "loss": 0.0338, "step": 56600 }, { "epoch": 15.1, "grad_norm": 3.5160794258117676, "learning_rate": 6.04088888888889e-07, "loss": 0.0351, "step": 56625 }, { "epoch": 15.106666666666667, "grad_norm": 2.6702451705932617, "learning_rate": 5.996444444444444e-07, "loss": 0.0386, "step": 56650 }, { "epoch": 15.113333333333333, "grad_norm": 3.524094581604004, "learning_rate": 5.952e-07, "loss": 0.0387, "step": 56675 }, { "epoch": 15.12, "grad_norm": 3.372159481048584, "learning_rate": 5.907555555555556e-07, "loss": 0.0454, "step": 56700 }, { "epoch": 15.126666666666667, "grad_norm": 3.5445916652679443, "learning_rate": 5.863111111111112e-07, "loss": 0.0401, "step": 56725 }, { "epoch": 15.133333333333333, "grad_norm": 2.9958269596099854, "learning_rate": 5.818666666666667e-07, "loss": 0.0444, "step": 56750 }, { "epoch": 15.14, "grad_norm": 4.554872512817383, "learning_rate": 5.774222222222223e-07, "loss": 0.0369, "step": 56775 }, { "epoch": 15.146666666666667, "grad_norm": 2.3896119594573975, "learning_rate": 5.729777777777779e-07, "loss": 0.0347, "step": 56800 }, { "epoch": 15.153333333333332, "grad_norm": 3.3367373943328857, "learning_rate": 5.685333333333333e-07, "loss": 0.0357, "step": 56825 }, { "epoch": 15.16, "grad_norm": 2.996647596359253, "learning_rate": 5.640888888888889e-07, "loss": 0.0385, "step": 56850 }, { "epoch": 15.166666666666666, "grad_norm": 2.599026918411255, "learning_rate": 5.596444444444445e-07, "loss": 0.0338, "step": 56875 }, { "epoch": 15.173333333333334, "grad_norm": 3.295255661010742, "learning_rate": 5.552e-07, "loss": 0.039, "step": 56900 }, { "epoch": 15.18, "grad_norm": 3.190220594406128, "learning_rate": 5.507555555555556e-07, "loss": 0.0362, "step": 56925 }, { "epoch": 15.186666666666667, "grad_norm": 3.2409563064575195, "learning_rate": 5.463111111111112e-07, "loss": 0.034, "step": 56950 }, { "epoch": 15.193333333333333, "grad_norm": 5.110193252563477, "learning_rate": 5.418666666666668e-07, "loss": 0.0417, "step": 56975 }, { "epoch": 15.2, "grad_norm": 3.605032205581665, "learning_rate": 5.374222222222222e-07, "loss": 0.0417, "step": 57000 }, { "epoch": 15.206666666666667, "grad_norm": 2.6368558406829834, "learning_rate": 5.329777777777778e-07, "loss": 0.0429, "step": 57025 }, { "epoch": 15.213333333333333, "grad_norm": 2.783950090408325, "learning_rate": 5.285333333333334e-07, "loss": 0.0353, "step": 57050 }, { "epoch": 15.22, "grad_norm": 3.500230550765991, "learning_rate": 5.240888888888889e-07, "loss": 0.0415, "step": 57075 }, { "epoch": 15.226666666666667, "grad_norm": 2.3080856800079346, "learning_rate": 5.196444444444445e-07, "loss": 0.0411, "step": 57100 }, { "epoch": 15.233333333333333, "grad_norm": 2.2162585258483887, "learning_rate": 5.152000000000001e-07, "loss": 0.0378, "step": 57125 }, { "epoch": 15.24, "grad_norm": 3.035564661026001, "learning_rate": 5.107555555555555e-07, "loss": 0.0401, "step": 57150 }, { "epoch": 15.246666666666666, "grad_norm": 2.7669639587402344, "learning_rate": 5.063111111111111e-07, "loss": 0.0353, "step": 57175 }, { "epoch": 15.253333333333334, "grad_norm": 3.5300302505493164, "learning_rate": 5.018666666666667e-07, "loss": 0.0382, "step": 57200 }, { "epoch": 15.26, "grad_norm": 2.900111198425293, "learning_rate": 4.974222222222223e-07, "loss": 0.0336, "step": 57225 }, { "epoch": 15.266666666666667, "grad_norm": 3.187019109725952, "learning_rate": 4.929777777777779e-07, "loss": 0.0372, "step": 57250 }, { "epoch": 15.273333333333333, "grad_norm": 2.764500856399536, "learning_rate": 4.885333333333334e-07, "loss": 0.0388, "step": 57275 }, { "epoch": 15.28, "grad_norm": 3.1630499362945557, "learning_rate": 4.84088888888889e-07, "loss": 0.0358, "step": 57300 }, { "epoch": 15.286666666666667, "grad_norm": 5.675130844116211, "learning_rate": 4.796444444444444e-07, "loss": 0.0446, "step": 57325 }, { "epoch": 15.293333333333333, "grad_norm": 3.349416732788086, "learning_rate": 4.752e-07, "loss": 0.0341, "step": 57350 }, { "epoch": 15.3, "grad_norm": 3.169968843460083, "learning_rate": 4.707555555555556e-07, "loss": 0.037, "step": 57375 }, { "epoch": 15.306666666666667, "grad_norm": 4.1329569816589355, "learning_rate": 4.6631111111111114e-07, "loss": 0.035, "step": 57400 }, { "epoch": 15.313333333333333, "grad_norm": 3.9645655155181885, "learning_rate": 4.618666666666667e-07, "loss": 0.0322, "step": 57425 }, { "epoch": 15.32, "grad_norm": 2.657388925552368, "learning_rate": 4.574222222222222e-07, "loss": 0.0384, "step": 57450 }, { "epoch": 15.326666666666666, "grad_norm": 3.0640854835510254, "learning_rate": 4.529777777777778e-07, "loss": 0.0326, "step": 57475 }, { "epoch": 15.333333333333334, "grad_norm": 1.9626290798187256, "learning_rate": 4.485333333333334e-07, "loss": 0.0343, "step": 57500 }, { "epoch": 15.34, "grad_norm": 1.908691167831421, "learning_rate": 4.440888888888889e-07, "loss": 0.0413, "step": 57525 }, { "epoch": 15.346666666666668, "grad_norm": 2.651705026626587, "learning_rate": 4.396444444444445e-07, "loss": 0.0415, "step": 57550 }, { "epoch": 15.353333333333333, "grad_norm": 3.378845453262329, "learning_rate": 4.352000000000001e-07, "loss": 0.0423, "step": 57575 }, { "epoch": 15.36, "grad_norm": 2.521993398666382, "learning_rate": 4.3075555555555557e-07, "loss": 0.0385, "step": 57600 }, { "epoch": 15.366666666666667, "grad_norm": 4.695323467254639, "learning_rate": 4.2631111111111115e-07, "loss": 0.0409, "step": 57625 }, { "epoch": 15.373333333333333, "grad_norm": 2.082139730453491, "learning_rate": 4.218666666666667e-07, "loss": 0.0365, "step": 57650 }, { "epoch": 15.38, "grad_norm": 3.0150341987609863, "learning_rate": 4.1742222222222227e-07, "loss": 0.0401, "step": 57675 }, { "epoch": 15.386666666666667, "grad_norm": 2.8115482330322266, "learning_rate": 4.1297777777777786e-07, "loss": 0.0349, "step": 57700 }, { "epoch": 15.393333333333333, "grad_norm": 3.0568573474884033, "learning_rate": 4.0853333333333334e-07, "loss": 0.0313, "step": 57725 }, { "epoch": 15.4, "grad_norm": 2.1599583625793457, "learning_rate": 4.040888888888889e-07, "loss": 0.0332, "step": 57750 }, { "epoch": 15.406666666666666, "grad_norm": 4.2348175048828125, "learning_rate": 3.9964444444444446e-07, "loss": 0.0389, "step": 57775 }, { "epoch": 15.413333333333334, "grad_norm": 3.0446994304656982, "learning_rate": 3.9520000000000004e-07, "loss": 0.0395, "step": 57800 }, { "epoch": 15.42, "grad_norm": 3.0902209281921387, "learning_rate": 3.9075555555555563e-07, "loss": 0.0387, "step": 57825 }, { "epoch": 15.426666666666666, "grad_norm": 3.263892412185669, "learning_rate": 3.863111111111111e-07, "loss": 0.0472, "step": 57850 }, { "epoch": 15.433333333333334, "grad_norm": 3.7055680751800537, "learning_rate": 3.818666666666667e-07, "loss": 0.0343, "step": 57875 }, { "epoch": 15.44, "grad_norm": 4.108326435089111, "learning_rate": 3.774222222222223e-07, "loss": 0.0399, "step": 57900 }, { "epoch": 15.446666666666667, "grad_norm": 3.4727985858917236, "learning_rate": 3.729777777777778e-07, "loss": 0.0372, "step": 57925 }, { "epoch": 15.453333333333333, "grad_norm": 3.0012502670288086, "learning_rate": 3.685333333333334e-07, "loss": 0.0317, "step": 57950 }, { "epoch": 15.46, "grad_norm": 3.411458969116211, "learning_rate": 3.640888888888889e-07, "loss": 0.0372, "step": 57975 }, { "epoch": 15.466666666666667, "grad_norm": 3.2532289028167725, "learning_rate": 3.5964444444444447e-07, "loss": 0.0341, "step": 58000 }, { "epoch": 15.473333333333333, "grad_norm": 2.243187189102173, "learning_rate": 3.5520000000000006e-07, "loss": 0.0357, "step": 58025 }, { "epoch": 15.48, "grad_norm": 2.780473470687866, "learning_rate": 3.507555555555556e-07, "loss": 0.0392, "step": 58050 }, { "epoch": 15.486666666666666, "grad_norm": 2.5097646713256836, "learning_rate": 3.463111111111112e-07, "loss": 0.0408, "step": 58075 }, { "epoch": 15.493333333333334, "grad_norm": 2.0093581676483154, "learning_rate": 3.4186666666666666e-07, "loss": 0.0348, "step": 58100 }, { "epoch": 15.5, "grad_norm": 3.888518810272217, "learning_rate": 3.3742222222222224e-07, "loss": 0.0361, "step": 58125 }, { "epoch": 15.506666666666666, "grad_norm": 3.7178258895874023, "learning_rate": 3.3297777777777783e-07, "loss": 0.0407, "step": 58150 }, { "epoch": 15.513333333333334, "grad_norm": 1.5835930109024048, "learning_rate": 3.2853333333333336e-07, "loss": 0.036, "step": 58175 }, { "epoch": 15.52, "grad_norm": 3.087141990661621, "learning_rate": 3.2408888888888895e-07, "loss": 0.0397, "step": 58200 }, { "epoch": 15.526666666666667, "grad_norm": 3.023496389389038, "learning_rate": 3.1964444444444443e-07, "loss": 0.0325, "step": 58225 }, { "epoch": 15.533333333333333, "grad_norm": 3.0285911560058594, "learning_rate": 3.152e-07, "loss": 0.0426, "step": 58250 }, { "epoch": 15.54, "grad_norm": 2.8964972496032715, "learning_rate": 3.1075555555555555e-07, "loss": 0.0342, "step": 58275 }, { "epoch": 15.546666666666667, "grad_norm": 2.9374606609344482, "learning_rate": 3.0631111111111114e-07, "loss": 0.0354, "step": 58300 }, { "epoch": 15.553333333333333, "grad_norm": 2.496340274810791, "learning_rate": 3.018666666666667e-07, "loss": 0.0372, "step": 58325 }, { "epoch": 15.56, "grad_norm": 3.469555616378784, "learning_rate": 2.9742222222222226e-07, "loss": 0.0358, "step": 58350 }, { "epoch": 15.566666666666666, "grad_norm": 2.0063796043395996, "learning_rate": 2.929777777777778e-07, "loss": 0.0378, "step": 58375 }, { "epoch": 15.573333333333334, "grad_norm": 2.95000958442688, "learning_rate": 2.885333333333334e-07, "loss": 0.0361, "step": 58400 }, { "epoch": 15.58, "grad_norm": 2.76594614982605, "learning_rate": 2.840888888888889e-07, "loss": 0.0331, "step": 58425 }, { "epoch": 15.586666666666666, "grad_norm": 2.244518518447876, "learning_rate": 2.7982222222222226e-07, "loss": 0.0391, "step": 58450 }, { "epoch": 15.593333333333334, "grad_norm": 3.0868637561798096, "learning_rate": 2.753777777777778e-07, "loss": 0.0418, "step": 58475 }, { "epoch": 15.6, "grad_norm": 4.045677185058594, "learning_rate": 2.709333333333334e-07, "loss": 0.0363, "step": 58500 }, { "epoch": 15.606666666666667, "grad_norm": 3.383727788925171, "learning_rate": 2.664888888888889e-07, "loss": 0.039, "step": 58525 }, { "epoch": 15.613333333333333, "grad_norm": 4.226437568664551, "learning_rate": 2.6204444444444444e-07, "loss": 0.0387, "step": 58550 }, { "epoch": 15.62, "grad_norm": 3.6787514686584473, "learning_rate": 2.5760000000000003e-07, "loss": 0.0377, "step": 58575 }, { "epoch": 15.626666666666667, "grad_norm": 4.334747314453125, "learning_rate": 2.5315555555555556e-07, "loss": 0.0393, "step": 58600 }, { "epoch": 15.633333333333333, "grad_norm": 2.344055652618408, "learning_rate": 2.4871111111111115e-07, "loss": 0.0351, "step": 58625 }, { "epoch": 15.64, "grad_norm": 2.0210814476013184, "learning_rate": 2.442666666666667e-07, "loss": 0.0407, "step": 58650 }, { "epoch": 15.646666666666667, "grad_norm": 2.6171045303344727, "learning_rate": 2.398222222222222e-07, "loss": 0.0387, "step": 58675 }, { "epoch": 15.653333333333332, "grad_norm": 6.022252559661865, "learning_rate": 2.353777777777778e-07, "loss": 0.0391, "step": 58700 }, { "epoch": 15.66, "grad_norm": 2.860677719116211, "learning_rate": 2.3093333333333336e-07, "loss": 0.0377, "step": 58725 }, { "epoch": 15.666666666666666, "grad_norm": 2.693474292755127, "learning_rate": 2.264888888888889e-07, "loss": 0.0375, "step": 58750 }, { "epoch": 15.673333333333334, "grad_norm": 2.5033092498779297, "learning_rate": 2.2204444444444446e-07, "loss": 0.0316, "step": 58775 }, { "epoch": 15.68, "grad_norm": 3.7641522884368896, "learning_rate": 2.1760000000000004e-07, "loss": 0.043, "step": 58800 }, { "epoch": 15.686666666666667, "grad_norm": 3.6431069374084473, "learning_rate": 2.1315555555555558e-07, "loss": 0.0343, "step": 58825 }, { "epoch": 15.693333333333333, "grad_norm": 1.9255081415176392, "learning_rate": 2.0871111111111114e-07, "loss": 0.0388, "step": 58850 }, { "epoch": 15.7, "grad_norm": 2.9782581329345703, "learning_rate": 2.0426666666666667e-07, "loss": 0.0325, "step": 58875 }, { "epoch": 15.706666666666667, "grad_norm": 3.2513091564178467, "learning_rate": 1.9982222222222223e-07, "loss": 0.0307, "step": 58900 }, { "epoch": 15.713333333333333, "grad_norm": 3.41194224357605, "learning_rate": 1.9537777777777782e-07, "loss": 0.0391, "step": 58925 }, { "epoch": 15.72, "grad_norm": 3.1003313064575195, "learning_rate": 1.9093333333333335e-07, "loss": 0.0349, "step": 58950 }, { "epoch": 15.726666666666667, "grad_norm": 2.3903234004974365, "learning_rate": 1.864888888888889e-07, "loss": 0.0322, "step": 58975 }, { "epoch": 15.733333333333333, "grad_norm": 2.266721248626709, "learning_rate": 1.8204444444444444e-07, "loss": 0.0447, "step": 59000 }, { "epoch": 15.74, "grad_norm": 1.739495038986206, "learning_rate": 1.7760000000000003e-07, "loss": 0.0385, "step": 59025 }, { "epoch": 15.746666666666666, "grad_norm": 3.737060785293579, "learning_rate": 1.731555555555556e-07, "loss": 0.0305, "step": 59050 }, { "epoch": 15.753333333333334, "grad_norm": 4.032593250274658, "learning_rate": 1.6871111111111112e-07, "loss": 0.0306, "step": 59075 }, { "epoch": 15.76, "grad_norm": 2.2543482780456543, "learning_rate": 1.6426666666666668e-07, "loss": 0.0353, "step": 59100 }, { "epoch": 15.766666666666667, "grad_norm": 2.286637306213379, "learning_rate": 1.5982222222222222e-07, "loss": 0.0346, "step": 59125 }, { "epoch": 15.773333333333333, "grad_norm": 2.854501485824585, "learning_rate": 1.5537777777777778e-07, "loss": 0.0345, "step": 59150 }, { "epoch": 15.78, "grad_norm": 2.9841978549957275, "learning_rate": 1.5093333333333336e-07, "loss": 0.0375, "step": 59175 }, { "epoch": 15.786666666666667, "grad_norm": 2.9846794605255127, "learning_rate": 1.464888888888889e-07, "loss": 0.034, "step": 59200 }, { "epoch": 15.793333333333333, "grad_norm": 2.7999162673950195, "learning_rate": 1.4204444444444445e-07, "loss": 0.0364, "step": 59225 }, { "epoch": 15.8, "grad_norm": 3.1734230518341064, "learning_rate": 1.3760000000000001e-07, "loss": 0.0396, "step": 59250 }, { "epoch": 15.806666666666667, "grad_norm": 3.432774305343628, "learning_rate": 1.3315555555555557e-07, "loss": 0.0332, "step": 59275 }, { "epoch": 15.813333333333333, "grad_norm": 1.361435890197754, "learning_rate": 1.287111111111111e-07, "loss": 0.0432, "step": 59300 }, { "epoch": 15.82, "grad_norm": 3.266693592071533, "learning_rate": 1.242666666666667e-07, "loss": 0.0433, "step": 59325 }, { "epoch": 15.826666666666666, "grad_norm": 3.4269139766693115, "learning_rate": 1.1982222222222223e-07, "loss": 0.0422, "step": 59350 }, { "epoch": 15.833333333333334, "grad_norm": 2.903153896331787, "learning_rate": 1.1537777777777777e-07, "loss": 0.0395, "step": 59375 }, { "epoch": 15.84, "grad_norm": 2.6565680503845215, "learning_rate": 1.1093333333333335e-07, "loss": 0.0404, "step": 59400 }, { "epoch": 15.846666666666668, "grad_norm": 4.2612409591674805, "learning_rate": 1.064888888888889e-07, "loss": 0.0414, "step": 59425 }, { "epoch": 15.853333333333333, "grad_norm": 3.7936782836914062, "learning_rate": 1.0204444444444445e-07, "loss": 0.039, "step": 59450 }, { "epoch": 15.86, "grad_norm": 3.2231805324554443, "learning_rate": 9.76e-08, "loss": 0.0385, "step": 59475 }, { "epoch": 15.866666666666667, "grad_norm": 3.027538537979126, "learning_rate": 9.315555555555557e-08, "loss": 0.0352, "step": 59500 }, { "epoch": 15.873333333333333, "grad_norm": 3.179180383682251, "learning_rate": 8.871111111111112e-08, "loss": 0.0371, "step": 59525 }, { "epoch": 15.88, "grad_norm": 2.4724042415618896, "learning_rate": 8.426666666666668e-08, "loss": 0.0358, "step": 59550 }, { "epoch": 15.886666666666667, "grad_norm": 3.2249667644500732, "learning_rate": 7.982222222222223e-08, "loss": 0.0329, "step": 59575 }, { "epoch": 15.893333333333333, "grad_norm": 4.364688396453857, "learning_rate": 7.537777777777779e-08, "loss": 0.0374, "step": 59600 }, { "epoch": 15.9, "grad_norm": 3.3513317108154297, "learning_rate": 7.093333333333335e-08, "loss": 0.0339, "step": 59625 }, { "epoch": 15.906666666666666, "grad_norm": 2.2454986572265625, "learning_rate": 6.648888888888889e-08, "loss": 0.0363, "step": 59650 }, { "epoch": 15.913333333333334, "grad_norm": 2.985152006149292, "learning_rate": 6.204444444444445e-08, "loss": 0.0406, "step": 59675 }, { "epoch": 15.92, "grad_norm": 2.2764267921447754, "learning_rate": 5.7600000000000006e-08, "loss": 0.0375, "step": 59700 }, { "epoch": 15.926666666666666, "grad_norm": 3.7787699699401855, "learning_rate": 5.315555555555555e-08, "loss": 0.0394, "step": 59725 }, { "epoch": 15.933333333333334, "grad_norm": 3.6438229084014893, "learning_rate": 4.871111111111111e-08, "loss": 0.0415, "step": 59750 }, { "epoch": 15.94, "grad_norm": 3.1182456016540527, "learning_rate": 4.4266666666666666e-08, "loss": 0.0364, "step": 59775 }, { "epoch": 15.946666666666667, "grad_norm": 2.949204206466675, "learning_rate": 3.9822222222222226e-08, "loss": 0.0343, "step": 59800 }, { "epoch": 15.953333333333333, "grad_norm": 2.3892364501953125, "learning_rate": 3.537777777777778e-08, "loss": 0.0356, "step": 59825 }, { "epoch": 15.96, "grad_norm": 3.385406970977783, "learning_rate": 3.093333333333334e-08, "loss": 0.038, "step": 59850 }, { "epoch": 15.966666666666667, "grad_norm": 3.301732063293457, "learning_rate": 2.6488888888888892e-08, "loss": 0.0373, "step": 59875 }, { "epoch": 15.973333333333333, "grad_norm": 3.0632410049438477, "learning_rate": 2.204444444444445e-08, "loss": 0.0344, "step": 59900 }, { "epoch": 15.98, "grad_norm": 2.698199510574341, "learning_rate": 1.7600000000000002e-08, "loss": 0.0371, "step": 59925 }, { "epoch": 15.986666666666666, "grad_norm": 2.582430839538574, "learning_rate": 1.3155555555555555e-08, "loss": 0.0404, "step": 59950 }, { "epoch": 15.993333333333334, "grad_norm": 2.3595690727233887, "learning_rate": 8.711111111111112e-09, "loss": 0.0423, "step": 59975 }, { "epoch": 16.0, "grad_norm": 2.91009521484375, "learning_rate": 4.266666666666667e-09, "loss": 0.038, "step": 60000 }, { "epoch": 16.0, "eval_cer": 21.07783761623465, "eval_loss": 0.38334381580352783, "eval_runtime": 1226.94, "eval_samples_per_second": 4.075, "eval_steps_per_second": 0.509, "step": 60000 }, { "epoch": 16.006666666666668, "grad_norm": 12.603191375732422, "learning_rate": 3.4782608695652175e-06, "loss": 0.5, "step": 60025 }, { "epoch": 16.013333333333332, "grad_norm": 26.220277786254883, "learning_rate": 3.4754782608695652e-06, "loss": 0.4588, "step": 60050 }, { "epoch": 16.02, "grad_norm": 24.006074905395508, "learning_rate": 3.4725797101449276e-06, "loss": 0.4449, "step": 60075 }, { "epoch": 16.026666666666667, "grad_norm": 15.412711143493652, "learning_rate": 3.46968115942029e-06, "loss": 0.4292, "step": 60100 }, { "epoch": 16.033333333333335, "grad_norm": 15.089048385620117, "learning_rate": 3.4667826086956525e-06, "loss": 0.4623, "step": 60125 }, { "epoch": 16.04, "grad_norm": 19.64060401916504, "learning_rate": 3.463884057971015e-06, "loss": 0.4593, "step": 60150 }, { "epoch": 16.046666666666667, "grad_norm": 15.460622787475586, "learning_rate": 3.4609855072463774e-06, "loss": 0.4709, "step": 60175 }, { "epoch": 16.053333333333335, "grad_norm": 14.530417442321777, "learning_rate": 3.4580869565217394e-06, "loss": 0.4067, "step": 60200 }, { "epoch": 16.06, "grad_norm": 13.560270309448242, "learning_rate": 3.4551884057971018e-06, "loss": 0.4259, "step": 60225 }, { "epoch": 16.066666666666666, "grad_norm": 13.378826141357422, "learning_rate": 3.452289855072464e-06, "loss": 0.4839, "step": 60250 }, { "epoch": 16.073333333333334, "grad_norm": 13.305537223815918, "learning_rate": 3.449507246376812e-06, "loss": 0.4474, "step": 60275 }, { "epoch": 16.08, "grad_norm": 11.625415802001953, "learning_rate": 3.4466086956521743e-06, "loss": 0.4448, "step": 60300 }, { "epoch": 16.086666666666666, "grad_norm": 13.676776885986328, "learning_rate": 3.4437101449275368e-06, "loss": 0.4286, "step": 60325 }, { "epoch": 16.093333333333334, "grad_norm": 14.197468757629395, "learning_rate": 3.4408115942028988e-06, "loss": 0.4488, "step": 60350 }, { "epoch": 16.1, "grad_norm": 13.289754867553711, "learning_rate": 3.4379130434782608e-06, "loss": 0.4191, "step": 60375 }, { "epoch": 16.106666666666666, "grad_norm": 11.833756446838379, "learning_rate": 3.435014492753623e-06, "loss": 0.3994, "step": 60400 }, { "epoch": 16.113333333333333, "grad_norm": 11.341776847839355, "learning_rate": 3.4321159420289856e-06, "loss": 0.4087, "step": 60425 }, { "epoch": 16.12, "grad_norm": 30.375852584838867, "learning_rate": 3.429217391304348e-06, "loss": 0.4317, "step": 60450 }, { "epoch": 16.126666666666665, "grad_norm": 12.533149719238281, "learning_rate": 3.4263188405797105e-06, "loss": 0.4085, "step": 60475 }, { "epoch": 16.133333333333333, "grad_norm": 15.141462326049805, "learning_rate": 3.423420289855073e-06, "loss": 0.3808, "step": 60500 }, { "epoch": 16.14, "grad_norm": 9.886086463928223, "learning_rate": 3.4205217391304353e-06, "loss": 0.3661, "step": 60525 }, { "epoch": 16.14666666666667, "grad_norm": 13.388113021850586, "learning_rate": 3.4176231884057973e-06, "loss": 0.4375, "step": 60550 }, { "epoch": 16.153333333333332, "grad_norm": 11.778800964355469, "learning_rate": 3.4147246376811598e-06, "loss": 0.4166, "step": 60575 }, { "epoch": 16.16, "grad_norm": 11.43904972076416, "learning_rate": 3.411826086956522e-06, "loss": 0.4401, "step": 60600 }, { "epoch": 16.166666666666668, "grad_norm": 10.76333999633789, "learning_rate": 3.408927536231884e-06, "loss": 0.4142, "step": 60625 }, { "epoch": 16.173333333333332, "grad_norm": 12.096492767333984, "learning_rate": 3.4060289855072466e-06, "loss": 0.4, "step": 60650 }, { "epoch": 16.18, "grad_norm": 10.213093757629395, "learning_rate": 3.403130434782609e-06, "loss": 0.4028, "step": 60675 }, { "epoch": 16.186666666666667, "grad_norm": 15.104924201965332, "learning_rate": 3.400231884057971e-06, "loss": 0.3961, "step": 60700 }, { "epoch": 16.19333333333333, "grad_norm": 17.408031463623047, "learning_rate": 3.3973333333333335e-06, "loss": 0.4458, "step": 60725 }, { "epoch": 16.2, "grad_norm": 12.529021263122559, "learning_rate": 3.394434782608696e-06, "loss": 0.3788, "step": 60750 }, { "epoch": 16.206666666666667, "grad_norm": 19.521671295166016, "learning_rate": 3.3915362318840583e-06, "loss": 0.3706, "step": 60775 }, { "epoch": 16.213333333333335, "grad_norm": 15.33114242553711, "learning_rate": 3.3886376811594208e-06, "loss": 0.3836, "step": 60800 }, { "epoch": 16.22, "grad_norm": 14.57197380065918, "learning_rate": 3.385739130434783e-06, "loss": 0.365, "step": 60825 }, { "epoch": 16.226666666666667, "grad_norm": 10.647160530090332, "learning_rate": 3.3828405797101456e-06, "loss": 0.3181, "step": 60850 }, { "epoch": 16.233333333333334, "grad_norm": 11.68134880065918, "learning_rate": 3.379942028985507e-06, "loss": 0.3923, "step": 60875 }, { "epoch": 16.24, "grad_norm": 12.588714599609375, "learning_rate": 3.3770434782608696e-06, "loss": 0.3867, "step": 60900 }, { "epoch": 16.246666666666666, "grad_norm": 13.96943473815918, "learning_rate": 3.374144927536232e-06, "loss": 0.39, "step": 60925 }, { "epoch": 16.253333333333334, "grad_norm": 15.239232063293457, "learning_rate": 3.3712463768115945e-06, "loss": 0.3881, "step": 60950 }, { "epoch": 16.26, "grad_norm": 15.105223655700684, "learning_rate": 3.368347826086957e-06, "loss": 0.3904, "step": 60975 }, { "epoch": 16.266666666666666, "grad_norm": 16.979522705078125, "learning_rate": 3.3654492753623193e-06, "loss": 0.3921, "step": 61000 }, { "epoch": 16.273333333333333, "grad_norm": 13.737335205078125, "learning_rate": 3.3625507246376813e-06, "loss": 0.3795, "step": 61025 }, { "epoch": 16.28, "grad_norm": 13.865876197814941, "learning_rate": 3.3596521739130437e-06, "loss": 0.3694, "step": 61050 }, { "epoch": 16.286666666666665, "grad_norm": 9.503486633300781, "learning_rate": 3.356753623188406e-06, "loss": 0.3816, "step": 61075 }, { "epoch": 16.293333333333333, "grad_norm": 10.314881324768066, "learning_rate": 3.3538550724637686e-06, "loss": 0.3521, "step": 61100 }, { "epoch": 16.3, "grad_norm": 19.382801055908203, "learning_rate": 3.3509565217391306e-06, "loss": 0.3904, "step": 61125 }, { "epoch": 16.306666666666665, "grad_norm": 11.228890419006348, "learning_rate": 3.3480579710144926e-06, "loss": 0.3624, "step": 61150 }, { "epoch": 16.313333333333333, "grad_norm": 10.856505393981934, "learning_rate": 3.345159420289855e-06, "loss": 0.3473, "step": 61175 }, { "epoch": 16.32, "grad_norm": 8.088674545288086, "learning_rate": 3.3422608695652175e-06, "loss": 0.3823, "step": 61200 }, { "epoch": 16.326666666666668, "grad_norm": 25.739543914794922, "learning_rate": 3.33936231884058e-06, "loss": 0.3467, "step": 61225 }, { "epoch": 16.333333333333332, "grad_norm": 11.205744743347168, "learning_rate": 3.3364637681159423e-06, "loss": 0.389, "step": 61250 }, { "epoch": 16.34, "grad_norm": 9.588461875915527, "learning_rate": 3.3335652173913047e-06, "loss": 0.3608, "step": 61275 }, { "epoch": 16.346666666666668, "grad_norm": 15.739933967590332, "learning_rate": 3.330666666666667e-06, "loss": 0.362, "step": 61300 }, { "epoch": 16.35333333333333, "grad_norm": 12.671658515930176, "learning_rate": 3.3277681159420296e-06, "loss": 0.3982, "step": 61325 }, { "epoch": 16.36, "grad_norm": 12.803893089294434, "learning_rate": 3.3248695652173916e-06, "loss": 0.3558, "step": 61350 }, { "epoch": 16.366666666666667, "grad_norm": 11.233647346496582, "learning_rate": 3.321971014492754e-06, "loss": 0.3706, "step": 61375 }, { "epoch": 16.373333333333335, "grad_norm": 12.1945219039917, "learning_rate": 3.319072463768116e-06, "loss": 0.3497, "step": 61400 }, { "epoch": 16.38, "grad_norm": 15.96575927734375, "learning_rate": 3.3161739130434784e-06, "loss": 0.3799, "step": 61425 }, { "epoch": 16.386666666666667, "grad_norm": 10.433449745178223, "learning_rate": 3.313275362318841e-06, "loss": 0.3633, "step": 61450 }, { "epoch": 16.393333333333334, "grad_norm": 9.822397232055664, "learning_rate": 3.3103768115942033e-06, "loss": 0.3637, "step": 61475 }, { "epoch": 16.4, "grad_norm": 22.88064193725586, "learning_rate": 3.3074782608695653e-06, "loss": 0.3795, "step": 61500 }, { "epoch": 16.406666666666666, "grad_norm": 20.568777084350586, "learning_rate": 3.3045797101449277e-06, "loss": 0.3499, "step": 61525 }, { "epoch": 16.413333333333334, "grad_norm": 13.736906051635742, "learning_rate": 3.30168115942029e-06, "loss": 0.3448, "step": 61550 }, { "epoch": 16.42, "grad_norm": 12.84239673614502, "learning_rate": 3.2987826086956526e-06, "loss": 0.3102, "step": 61575 }, { "epoch": 16.426666666666666, "grad_norm": 12.846684455871582, "learning_rate": 3.295884057971015e-06, "loss": 0.3363, "step": 61600 }, { "epoch": 16.433333333333334, "grad_norm": 22.667129516601562, "learning_rate": 3.2929855072463774e-06, "loss": 0.3572, "step": 61625 }, { "epoch": 16.44, "grad_norm": 10.809124946594238, "learning_rate": 3.290086956521739e-06, "loss": 0.3791, "step": 61650 }, { "epoch": 16.446666666666665, "grad_norm": 12.235489845275879, "learning_rate": 3.2871884057971014e-06, "loss": 0.3219, "step": 61675 }, { "epoch": 16.453333333333333, "grad_norm": 12.96630573272705, "learning_rate": 3.284289855072464e-06, "loss": 0.3294, "step": 61700 }, { "epoch": 16.46, "grad_norm": 8.809037208557129, "learning_rate": 3.2813913043478263e-06, "loss": 0.3499, "step": 61725 }, { "epoch": 16.466666666666665, "grad_norm": 11.357975959777832, "learning_rate": 3.2784927536231887e-06, "loss": 0.3773, "step": 61750 }, { "epoch": 16.473333333333333, "grad_norm": 17.697307586669922, "learning_rate": 3.275594202898551e-06, "loss": 0.3806, "step": 61775 }, { "epoch": 16.48, "grad_norm": 12.84277057647705, "learning_rate": 3.2726956521739136e-06, "loss": 0.3623, "step": 61800 }, { "epoch": 16.486666666666668, "grad_norm": 11.642999649047852, "learning_rate": 3.2697971014492756e-06, "loss": 0.3343, "step": 61825 }, { "epoch": 16.493333333333332, "grad_norm": 10.458476066589355, "learning_rate": 3.266898550724638e-06, "loss": 0.3176, "step": 61850 }, { "epoch": 16.5, "grad_norm": 6.160272121429443, "learning_rate": 3.2640000000000004e-06, "loss": 0.3523, "step": 61875 }, { "epoch": 16.506666666666668, "grad_norm": 10.667886734008789, "learning_rate": 3.2611014492753624e-06, "loss": 0.3269, "step": 61900 }, { "epoch": 16.513333333333332, "grad_norm": 11.422414779663086, "learning_rate": 3.258202898550725e-06, "loss": 0.3509, "step": 61925 }, { "epoch": 16.52, "grad_norm": 18.388748168945312, "learning_rate": 3.255304347826087e-06, "loss": 0.362, "step": 61950 }, { "epoch": 16.526666666666667, "grad_norm": 9.321861267089844, "learning_rate": 3.2524057971014493e-06, "loss": 0.3421, "step": 61975 }, { "epoch": 16.533333333333335, "grad_norm": 9.263145446777344, "learning_rate": 3.2495072463768117e-06, "loss": 0.3289, "step": 62000 }, { "epoch": 16.54, "grad_norm": 12.675254821777344, "learning_rate": 3.246608695652174e-06, "loss": 0.3386, "step": 62025 }, { "epoch": 16.546666666666667, "grad_norm": 18.207435607910156, "learning_rate": 3.2437101449275366e-06, "loss": 0.3266, "step": 62050 }, { "epoch": 16.553333333333335, "grad_norm": 10.457033157348633, "learning_rate": 3.240811594202899e-06, "loss": 0.3805, "step": 62075 }, { "epoch": 16.56, "grad_norm": 12.5867338180542, "learning_rate": 3.2379130434782614e-06, "loss": 0.3303, "step": 62100 }, { "epoch": 16.566666666666666, "grad_norm": 7.7618536949157715, "learning_rate": 3.235014492753624e-06, "loss": 0.3431, "step": 62125 }, { "epoch": 16.573333333333334, "grad_norm": 12.355062484741211, "learning_rate": 3.232115942028986e-06, "loss": 0.3618, "step": 62150 }, { "epoch": 16.58, "grad_norm": 14.622355461120605, "learning_rate": 3.229217391304348e-06, "loss": 0.358, "step": 62175 }, { "epoch": 16.586666666666666, "grad_norm": 12.969122886657715, "learning_rate": 3.2263188405797103e-06, "loss": 0.3296, "step": 62200 }, { "epoch": 16.593333333333334, "grad_norm": 11.245667457580566, "learning_rate": 3.2234202898550727e-06, "loss": 0.3529, "step": 62225 }, { "epoch": 16.6, "grad_norm": 14.432270050048828, "learning_rate": 3.220521739130435e-06, "loss": 0.29, "step": 62250 }, { "epoch": 16.606666666666666, "grad_norm": 12.276623725891113, "learning_rate": 3.2176231884057976e-06, "loss": 0.3434, "step": 62275 }, { "epoch": 16.613333333333333, "grad_norm": 11.258403778076172, "learning_rate": 3.2147246376811596e-06, "loss": 0.3449, "step": 62300 }, { "epoch": 16.62, "grad_norm": 8.316500663757324, "learning_rate": 3.211826086956522e-06, "loss": 0.3066, "step": 62325 }, { "epoch": 16.626666666666665, "grad_norm": 11.204299926757812, "learning_rate": 3.2089275362318844e-06, "loss": 0.3299, "step": 62350 }, { "epoch": 16.633333333333333, "grad_norm": 11.092000961303711, "learning_rate": 3.206028985507247e-06, "loss": 0.3474, "step": 62375 }, { "epoch": 16.64, "grad_norm": 12.317147254943848, "learning_rate": 3.2031304347826093e-06, "loss": 0.3539, "step": 62400 }, { "epoch": 16.64666666666667, "grad_norm": 11.110230445861816, "learning_rate": 3.200231884057971e-06, "loss": 0.3501, "step": 62425 }, { "epoch": 16.653333333333332, "grad_norm": 8.013381004333496, "learning_rate": 3.1973333333333333e-06, "loss": 0.315, "step": 62450 }, { "epoch": 16.66, "grad_norm": 8.12808895111084, "learning_rate": 3.1944347826086957e-06, "loss": 0.3756, "step": 62475 }, { "epoch": 16.666666666666668, "grad_norm": 8.59846305847168, "learning_rate": 3.191536231884058e-06, "loss": 0.3323, "step": 62500 }, { "epoch": 16.673333333333332, "grad_norm": 12.345532417297363, "learning_rate": 3.1886376811594205e-06, "loss": 0.3577, "step": 62525 }, { "epoch": 16.68, "grad_norm": 13.48918342590332, "learning_rate": 3.185739130434783e-06, "loss": 0.3364, "step": 62550 }, { "epoch": 16.686666666666667, "grad_norm": 10.469870567321777, "learning_rate": 3.1828405797101454e-06, "loss": 0.3488, "step": 62575 }, { "epoch": 16.693333333333335, "grad_norm": 11.428979873657227, "learning_rate": 3.179942028985508e-06, "loss": 0.3158, "step": 62600 }, { "epoch": 16.7, "grad_norm": 8.1561861038208, "learning_rate": 3.17704347826087e-06, "loss": 0.2837, "step": 62625 }, { "epoch": 16.706666666666667, "grad_norm": 13.835701942443848, "learning_rate": 3.1741449275362323e-06, "loss": 0.3434, "step": 62650 }, { "epoch": 16.713333333333335, "grad_norm": 14.294336318969727, "learning_rate": 3.1712463768115943e-06, "loss": 0.3247, "step": 62675 }, { "epoch": 16.72, "grad_norm": 12.452777862548828, "learning_rate": 3.1683478260869567e-06, "loss": 0.3107, "step": 62700 }, { "epoch": 16.726666666666667, "grad_norm": 9.689085960388184, "learning_rate": 3.165449275362319e-06, "loss": 0.3389, "step": 62725 }, { "epoch": 16.733333333333334, "grad_norm": 10.694991111755371, "learning_rate": 3.162550724637681e-06, "loss": 0.3387, "step": 62750 }, { "epoch": 16.74, "grad_norm": 10.326107025146484, "learning_rate": 3.1596521739130435e-06, "loss": 0.3012, "step": 62775 }, { "epoch": 16.746666666666666, "grad_norm": 11.417766571044922, "learning_rate": 3.156753623188406e-06, "loss": 0.3293, "step": 62800 }, { "epoch": 16.753333333333334, "grad_norm": 8.904004096984863, "learning_rate": 3.1538550724637684e-06, "loss": 0.3049, "step": 62825 }, { "epoch": 16.76, "grad_norm": 8.257163047790527, "learning_rate": 3.150956521739131e-06, "loss": 0.3083, "step": 62850 }, { "epoch": 16.766666666666666, "grad_norm": 9.609798431396484, "learning_rate": 3.1480579710144932e-06, "loss": 0.3199, "step": 62875 }, { "epoch": 16.773333333333333, "grad_norm": 12.220376014709473, "learning_rate": 3.1451594202898557e-06, "loss": 0.3389, "step": 62900 }, { "epoch": 16.78, "grad_norm": 7.976347923278809, "learning_rate": 3.142260869565218e-06, "loss": 0.375, "step": 62925 }, { "epoch": 16.786666666666665, "grad_norm": 12.805871963500977, "learning_rate": 3.1393623188405797e-06, "loss": 0.3178, "step": 62950 }, { "epoch": 16.793333333333333, "grad_norm": 11.532859802246094, "learning_rate": 3.136463768115942e-06, "loss": 0.3446, "step": 62975 }, { "epoch": 16.8, "grad_norm": 9.740991592407227, "learning_rate": 3.1335652173913045e-06, "loss": 0.3185, "step": 63000 }, { "epoch": 16.806666666666665, "grad_norm": 21.959545135498047, "learning_rate": 3.130666666666667e-06, "loss": 0.3487, "step": 63025 }, { "epoch": 16.813333333333333, "grad_norm": 9.925387382507324, "learning_rate": 3.1277681159420294e-06, "loss": 0.3047, "step": 63050 }, { "epoch": 16.82, "grad_norm": 8.374371528625488, "learning_rate": 3.1248695652173914e-06, "loss": 0.3077, "step": 63075 }, { "epoch": 16.826666666666668, "grad_norm": 9.607650756835938, "learning_rate": 3.121971014492754e-06, "loss": 0.3344, "step": 63100 }, { "epoch": 16.833333333333332, "grad_norm": 11.315743446350098, "learning_rate": 3.1190724637681162e-06, "loss": 0.3238, "step": 63125 }, { "epoch": 16.84, "grad_norm": 10.685150146484375, "learning_rate": 3.1161739130434787e-06, "loss": 0.3304, "step": 63150 }, { "epoch": 16.846666666666668, "grad_norm": 8.275846481323242, "learning_rate": 3.113275362318841e-06, "loss": 0.3169, "step": 63175 }, { "epoch": 16.85333333333333, "grad_norm": 11.317325592041016, "learning_rate": 3.110376811594203e-06, "loss": 0.2968, "step": 63200 }, { "epoch": 16.86, "grad_norm": 9.074248313903809, "learning_rate": 3.107478260869565e-06, "loss": 0.274, "step": 63225 }, { "epoch": 16.866666666666667, "grad_norm": 11.76094913482666, "learning_rate": 3.1045797101449275e-06, "loss": 0.336, "step": 63250 }, { "epoch": 16.873333333333335, "grad_norm": 15.182976722717285, "learning_rate": 3.10168115942029e-06, "loss": 0.3478, "step": 63275 }, { "epoch": 16.88, "grad_norm": 10.89766788482666, "learning_rate": 3.0987826086956524e-06, "loss": 0.334, "step": 63300 }, { "epoch": 16.886666666666667, "grad_norm": 17.47209358215332, "learning_rate": 3.095884057971015e-06, "loss": 0.2966, "step": 63325 }, { "epoch": 16.893333333333334, "grad_norm": 8.01124095916748, "learning_rate": 3.0929855072463772e-06, "loss": 0.2854, "step": 63350 }, { "epoch": 16.9, "grad_norm": 6.976848125457764, "learning_rate": 3.0900869565217397e-06, "loss": 0.3193, "step": 63375 }, { "epoch": 16.906666666666666, "grad_norm": 8.727556228637695, "learning_rate": 3.087188405797102e-06, "loss": 0.3312, "step": 63400 }, { "epoch": 16.913333333333334, "grad_norm": 10.189740180969238, "learning_rate": 3.084289855072464e-06, "loss": 0.3118, "step": 63425 }, { "epoch": 16.92, "grad_norm": 9.633515357971191, "learning_rate": 3.081391304347826e-06, "loss": 0.2931, "step": 63450 }, { "epoch": 16.926666666666666, "grad_norm": 11.828194618225098, "learning_rate": 3.0784927536231885e-06, "loss": 0.2941, "step": 63475 }, { "epoch": 16.933333333333334, "grad_norm": 9.940781593322754, "learning_rate": 3.075594202898551e-06, "loss": 0.333, "step": 63500 }, { "epoch": 16.94, "grad_norm": 8.846120834350586, "learning_rate": 3.0726956521739134e-06, "loss": 0.3155, "step": 63525 }, { "epoch": 16.946666666666665, "grad_norm": 11.141220092773438, "learning_rate": 3.0697971014492754e-06, "loss": 0.3233, "step": 63550 }, { "epoch": 16.953333333333333, "grad_norm": 10.505654335021973, "learning_rate": 3.066898550724638e-06, "loss": 0.2894, "step": 63575 }, { "epoch": 16.96, "grad_norm": 14.999916076660156, "learning_rate": 3.0640000000000002e-06, "loss": 0.2953, "step": 63600 }, { "epoch": 16.966666666666665, "grad_norm": 9.499774932861328, "learning_rate": 3.0611014492753627e-06, "loss": 0.3284, "step": 63625 }, { "epoch": 16.973333333333333, "grad_norm": 8.670576095581055, "learning_rate": 3.058202898550725e-06, "loss": 0.314, "step": 63650 }, { "epoch": 16.98, "grad_norm": 7.442385673522949, "learning_rate": 3.0553043478260875e-06, "loss": 0.3041, "step": 63675 }, { "epoch": 16.986666666666668, "grad_norm": 9.814099311828613, "learning_rate": 3.05240579710145e-06, "loss": 0.3122, "step": 63700 }, { "epoch": 16.993333333333332, "grad_norm": 8.100800514221191, "learning_rate": 3.0495072463768115e-06, "loss": 0.3177, "step": 63725 }, { "epoch": 17.0, "grad_norm": 9.731995582580566, "learning_rate": 3.046608695652174e-06, "loss": 0.2982, "step": 63750 }, { "epoch": 17.0, "eval_cer": 24.521551161880627, "eval_loss": 0.41889092326164246, "eval_runtime": 1316.6077, "eval_samples_per_second": 3.798, "eval_steps_per_second": 0.475, "step": 63750 }, { "epoch": 17.006666666666668, "grad_norm": 7.4149017333984375, "learning_rate": 3.0437101449275364e-06, "loss": 0.2232, "step": 63775 }, { "epoch": 17.013333333333332, "grad_norm": 6.084530353546143, "learning_rate": 3.040811594202899e-06, "loss": 0.2205, "step": 63800 }, { "epoch": 17.02, "grad_norm": 8.940268516540527, "learning_rate": 3.0379130434782612e-06, "loss": 0.2388, "step": 63825 }, { "epoch": 17.026666666666667, "grad_norm": 9.40827751159668, "learning_rate": 3.0350144927536236e-06, "loss": 0.2481, "step": 63850 }, { "epoch": 17.033333333333335, "grad_norm": 9.871691703796387, "learning_rate": 3.0321159420289856e-06, "loss": 0.2511, "step": 63875 }, { "epoch": 17.04, "grad_norm": 8.332009315490723, "learning_rate": 3.029217391304348e-06, "loss": 0.2379, "step": 63900 }, { "epoch": 17.046666666666667, "grad_norm": 9.083428382873535, "learning_rate": 3.0263188405797105e-06, "loss": 0.2043, "step": 63925 }, { "epoch": 17.053333333333335, "grad_norm": 8.448373794555664, "learning_rate": 3.023420289855073e-06, "loss": 0.2595, "step": 63950 }, { "epoch": 17.06, "grad_norm": 6.862173557281494, "learning_rate": 3.020521739130435e-06, "loss": 0.2339, "step": 63975 }, { "epoch": 17.066666666666666, "grad_norm": 9.637371063232422, "learning_rate": 3.0176231884057974e-06, "loss": 0.2288, "step": 64000 }, { "epoch": 17.073333333333334, "grad_norm": 7.632717609405518, "learning_rate": 3.0147246376811594e-06, "loss": 0.247, "step": 64025 }, { "epoch": 17.08, "grad_norm": 6.939701557159424, "learning_rate": 3.0118260869565218e-06, "loss": 0.2218, "step": 64050 }, { "epoch": 17.086666666666666, "grad_norm": 7.217219352722168, "learning_rate": 3.008927536231884e-06, "loss": 0.2295, "step": 64075 }, { "epoch": 17.093333333333334, "grad_norm": 6.429445266723633, "learning_rate": 3.0060289855072466e-06, "loss": 0.2365, "step": 64100 }, { "epoch": 17.1, "grad_norm": 10.018956184387207, "learning_rate": 3.003130434782609e-06, "loss": 0.2089, "step": 64125 }, { "epoch": 17.106666666666666, "grad_norm": 7.571047782897949, "learning_rate": 3.0002318840579715e-06, "loss": 0.2138, "step": 64150 }, { "epoch": 17.113333333333333, "grad_norm": 6.286115646362305, "learning_rate": 2.997333333333334e-06, "loss": 0.2094, "step": 64175 }, { "epoch": 17.12, "grad_norm": 6.882582664489746, "learning_rate": 2.9944347826086963e-06, "loss": 0.2349, "step": 64200 }, { "epoch": 17.126666666666665, "grad_norm": 7.788807392120361, "learning_rate": 2.991536231884058e-06, "loss": 0.2427, "step": 64225 }, { "epoch": 17.133333333333333, "grad_norm": 8.124650001525879, "learning_rate": 2.9886376811594203e-06, "loss": 0.2534, "step": 64250 }, { "epoch": 17.14, "grad_norm": 9.512497901916504, "learning_rate": 2.9857391304347828e-06, "loss": 0.2503, "step": 64275 }, { "epoch": 17.14666666666667, "grad_norm": 9.255049705505371, "learning_rate": 2.982840579710145e-06, "loss": 0.2274, "step": 64300 }, { "epoch": 17.153333333333332, "grad_norm": 9.28785228729248, "learning_rate": 2.9799420289855076e-06, "loss": 0.2281, "step": 64325 }, { "epoch": 17.16, "grad_norm": 11.223349571228027, "learning_rate": 2.9770434782608696e-06, "loss": 0.2395, "step": 64350 }, { "epoch": 17.166666666666668, "grad_norm": 9.348434448242188, "learning_rate": 2.9742608695652173e-06, "loss": 0.2437, "step": 64375 }, { "epoch": 17.173333333333332, "grad_norm": 8.23086929321289, "learning_rate": 2.9713623188405798e-06, "loss": 0.2077, "step": 64400 }, { "epoch": 17.18, "grad_norm": 6.546560287475586, "learning_rate": 2.968463768115942e-06, "loss": 0.2083, "step": 64425 }, { "epoch": 17.186666666666667, "grad_norm": 9.441903114318848, "learning_rate": 2.9655652173913046e-06, "loss": 0.2313, "step": 64450 }, { "epoch": 17.19333333333333, "grad_norm": 8.3627290725708, "learning_rate": 2.962666666666667e-06, "loss": 0.2416, "step": 64475 }, { "epoch": 17.2, "grad_norm": 14.613240242004395, "learning_rate": 2.9597681159420295e-06, "loss": 0.2418, "step": 64500 }, { "epoch": 17.206666666666667, "grad_norm": 8.646759986877441, "learning_rate": 2.956869565217392e-06, "loss": 0.2136, "step": 64525 }, { "epoch": 17.213333333333335, "grad_norm": 7.347033500671387, "learning_rate": 2.9539710144927543e-06, "loss": 0.2221, "step": 64550 }, { "epoch": 17.22, "grad_norm": 10.52723503112793, "learning_rate": 2.951072463768116e-06, "loss": 0.2252, "step": 64575 }, { "epoch": 17.226666666666667, "grad_norm": 9.034078598022461, "learning_rate": 2.9481739130434783e-06, "loss": 0.2419, "step": 64600 }, { "epoch": 17.233333333333334, "grad_norm": 8.091407775878906, "learning_rate": 2.9452753623188408e-06, "loss": 0.2136, "step": 64625 }, { "epoch": 17.24, "grad_norm": 6.951664447784424, "learning_rate": 2.942376811594203e-06, "loss": 0.2132, "step": 64650 }, { "epoch": 17.246666666666666, "grad_norm": 8.208170890808105, "learning_rate": 2.9394782608695656e-06, "loss": 0.2443, "step": 64675 }, { "epoch": 17.253333333333334, "grad_norm": 8.68701171875, "learning_rate": 2.9365797101449276e-06, "loss": 0.2287, "step": 64700 }, { "epoch": 17.26, "grad_norm": 21.894014358520508, "learning_rate": 2.93368115942029e-06, "loss": 0.2133, "step": 64725 }, { "epoch": 17.266666666666666, "grad_norm": 7.384157180786133, "learning_rate": 2.9307826086956525e-06, "loss": 0.2254, "step": 64750 }, { "epoch": 17.273333333333333, "grad_norm": 14.327505111694336, "learning_rate": 2.927884057971015e-06, "loss": 0.2263, "step": 64775 }, { "epoch": 17.28, "grad_norm": 10.773615837097168, "learning_rate": 2.9249855072463773e-06, "loss": 0.2175, "step": 64800 }, { "epoch": 17.286666666666665, "grad_norm": 8.418234825134277, "learning_rate": 2.9220869565217393e-06, "loss": 0.2326, "step": 64825 }, { "epoch": 17.293333333333333, "grad_norm": 9.19333553314209, "learning_rate": 2.9191884057971013e-06, "loss": 0.2183, "step": 64850 }, { "epoch": 17.3, "grad_norm": 9.392754554748535, "learning_rate": 2.9162898550724637e-06, "loss": 0.2326, "step": 64875 }, { "epoch": 17.306666666666665, "grad_norm": 12.090206146240234, "learning_rate": 2.913391304347826e-06, "loss": 0.2421, "step": 64900 }, { "epoch": 17.313333333333333, "grad_norm": 8.299599647521973, "learning_rate": 2.9104927536231886e-06, "loss": 0.223, "step": 64925 }, { "epoch": 17.32, "grad_norm": 6.74159049987793, "learning_rate": 2.907594202898551e-06, "loss": 0.2502, "step": 64950 }, { "epoch": 17.326666666666668, "grad_norm": 8.792173385620117, "learning_rate": 2.9046956521739135e-06, "loss": 0.2279, "step": 64975 }, { "epoch": 17.333333333333332, "grad_norm": 9.128717422485352, "learning_rate": 2.901797101449276e-06, "loss": 0.2226, "step": 65000 }, { "epoch": 17.34, "grad_norm": 9.718344688415527, "learning_rate": 2.8988985507246383e-06, "loss": 0.2337, "step": 65025 }, { "epoch": 17.346666666666668, "grad_norm": 9.39022159576416, "learning_rate": 2.8960000000000003e-06, "loss": 0.2111, "step": 65050 }, { "epoch": 17.35333333333333, "grad_norm": 7.802210807800293, "learning_rate": 2.8931014492753623e-06, "loss": 0.2178, "step": 65075 }, { "epoch": 17.36, "grad_norm": 9.154411315917969, "learning_rate": 2.8902028985507247e-06, "loss": 0.2535, "step": 65100 }, { "epoch": 17.366666666666667, "grad_norm": 10.073277473449707, "learning_rate": 2.887304347826087e-06, "loss": 0.2148, "step": 65125 }, { "epoch": 17.373333333333335, "grad_norm": 10.998878479003906, "learning_rate": 2.8844057971014496e-06, "loss": 0.2277, "step": 65150 }, { "epoch": 17.38, "grad_norm": 9.394332885742188, "learning_rate": 2.8815072463768116e-06, "loss": 0.2289, "step": 65175 }, { "epoch": 17.386666666666667, "grad_norm": 8.00401496887207, "learning_rate": 2.878608695652174e-06, "loss": 0.2065, "step": 65200 }, { "epoch": 17.393333333333334, "grad_norm": 9.364763259887695, "learning_rate": 2.8757101449275364e-06, "loss": 0.2193, "step": 65225 }, { "epoch": 17.4, "grad_norm": 7.654721736907959, "learning_rate": 2.872811594202899e-06, "loss": 0.231, "step": 65250 }, { "epoch": 17.406666666666666, "grad_norm": 6.514430999755859, "learning_rate": 2.8699130434782613e-06, "loss": 0.2571, "step": 65275 }, { "epoch": 17.413333333333334, "grad_norm": 8.727154731750488, "learning_rate": 2.8670144927536237e-06, "loss": 0.228, "step": 65300 }, { "epoch": 17.42, "grad_norm": 7.328795909881592, "learning_rate": 2.864115942028986e-06, "loss": 0.2221, "step": 65325 }, { "epoch": 17.426666666666666, "grad_norm": 7.450443744659424, "learning_rate": 2.8612173913043477e-06, "loss": 0.2434, "step": 65350 }, { "epoch": 17.433333333333334, "grad_norm": 8.849776268005371, "learning_rate": 2.85831884057971e-06, "loss": 0.2281, "step": 65375 }, { "epoch": 17.44, "grad_norm": 12.384866714477539, "learning_rate": 2.8554202898550726e-06, "loss": 0.2372, "step": 65400 }, { "epoch": 17.446666666666665, "grad_norm": 11.37934398651123, "learning_rate": 2.852521739130435e-06, "loss": 0.215, "step": 65425 }, { "epoch": 17.453333333333333, "grad_norm": 8.190671920776367, "learning_rate": 2.8496231884057974e-06, "loss": 0.213, "step": 65450 }, { "epoch": 17.46, "grad_norm": 9.186762809753418, "learning_rate": 2.84672463768116e-06, "loss": 0.2436, "step": 65475 }, { "epoch": 17.466666666666665, "grad_norm": 8.525147438049316, "learning_rate": 2.843826086956522e-06, "loss": 0.2517, "step": 65500 }, { "epoch": 17.473333333333333, "grad_norm": 8.515225410461426, "learning_rate": 2.8409275362318843e-06, "loss": 0.2396, "step": 65525 }, { "epoch": 17.48, "grad_norm": 9.37739372253418, "learning_rate": 2.8380289855072467e-06, "loss": 0.2231, "step": 65550 }, { "epoch": 17.486666666666668, "grad_norm": 6.061899185180664, "learning_rate": 2.835130434782609e-06, "loss": 0.2118, "step": 65575 }, { "epoch": 17.493333333333332, "grad_norm": 8.390501022338867, "learning_rate": 2.832231884057971e-06, "loss": 0.1912, "step": 65600 }, { "epoch": 17.5, "grad_norm": 9.888509750366211, "learning_rate": 2.8293333333333336e-06, "loss": 0.2381, "step": 65625 }, { "epoch": 17.506666666666668, "grad_norm": 8.435935020446777, "learning_rate": 2.8264347826086956e-06, "loss": 0.2299, "step": 65650 }, { "epoch": 17.513333333333332, "grad_norm": 8.045064926147461, "learning_rate": 2.823536231884058e-06, "loss": 0.2268, "step": 65675 }, { "epoch": 17.52, "grad_norm": 8.329983711242676, "learning_rate": 2.8206376811594204e-06, "loss": 0.1981, "step": 65700 }, { "epoch": 17.526666666666667, "grad_norm": 9.55882453918457, "learning_rate": 2.817739130434783e-06, "loss": 0.224, "step": 65725 }, { "epoch": 17.533333333333335, "grad_norm": 8.156045913696289, "learning_rate": 2.8148405797101453e-06, "loss": 0.2319, "step": 65750 }, { "epoch": 17.54, "grad_norm": 8.719740867614746, "learning_rate": 2.8119420289855077e-06, "loss": 0.2281, "step": 65775 }, { "epoch": 17.546666666666667, "grad_norm": 7.793760299682617, "learning_rate": 2.80904347826087e-06, "loss": 0.2191, "step": 65800 }, { "epoch": 17.553333333333335, "grad_norm": 8.177311897277832, "learning_rate": 2.8061449275362326e-06, "loss": 0.2019, "step": 65825 }, { "epoch": 17.56, "grad_norm": 8.62492847442627, "learning_rate": 2.803246376811594e-06, "loss": 0.2208, "step": 65850 }, { "epoch": 17.566666666666666, "grad_norm": 12.408682823181152, "learning_rate": 2.8003478260869566e-06, "loss": 0.2249, "step": 65875 }, { "epoch": 17.573333333333334, "grad_norm": 7.58404016494751, "learning_rate": 2.797449275362319e-06, "loss": 0.2478, "step": 65900 }, { "epoch": 17.58, "grad_norm": 8.284804344177246, "learning_rate": 2.7945507246376814e-06, "loss": 0.2315, "step": 65925 }, { "epoch": 17.586666666666666, "grad_norm": 7.525731086730957, "learning_rate": 2.791652173913044e-06, "loss": 0.2527, "step": 65950 }, { "epoch": 17.593333333333334, "grad_norm": 7.1953654289245605, "learning_rate": 2.788753623188406e-06, "loss": 0.2458, "step": 65975 }, { "epoch": 17.6, "grad_norm": 7.869349479675293, "learning_rate": 2.7858550724637683e-06, "loss": 0.2282, "step": 66000 }, { "epoch": 17.606666666666666, "grad_norm": 5.570988178253174, "learning_rate": 2.7829565217391307e-06, "loss": 0.1929, "step": 66025 }, { "epoch": 17.613333333333333, "grad_norm": 7.634885311126709, "learning_rate": 2.780057971014493e-06, "loss": 0.2035, "step": 66050 }, { "epoch": 17.62, "grad_norm": 7.965935707092285, "learning_rate": 2.7771594202898556e-06, "loss": 0.1995, "step": 66075 }, { "epoch": 17.626666666666665, "grad_norm": 8.703192710876465, "learning_rate": 2.774260869565218e-06, "loss": 0.2122, "step": 66100 }, { "epoch": 17.633333333333333, "grad_norm": 8.442756652832031, "learning_rate": 2.7713623188405796e-06, "loss": 0.2192, "step": 66125 }, { "epoch": 17.64, "grad_norm": 11.146180152893066, "learning_rate": 2.768463768115942e-06, "loss": 0.2253, "step": 66150 }, { "epoch": 17.64666666666667, "grad_norm": 7.330039978027344, "learning_rate": 2.7655652173913044e-06, "loss": 0.2225, "step": 66175 }, { "epoch": 17.653333333333332, "grad_norm": 8.690984725952148, "learning_rate": 2.762666666666667e-06, "loss": 0.2325, "step": 66200 }, { "epoch": 17.66, "grad_norm": 11.292533874511719, "learning_rate": 2.7597681159420293e-06, "loss": 0.2128, "step": 66225 }, { "epoch": 17.666666666666668, "grad_norm": 8.63046646118164, "learning_rate": 2.7568695652173917e-06, "loss": 0.227, "step": 66250 }, { "epoch": 17.673333333333332, "grad_norm": 10.479477882385254, "learning_rate": 2.753971014492754e-06, "loss": 0.2454, "step": 66275 }, { "epoch": 17.68, "grad_norm": 9.853337287902832, "learning_rate": 2.751072463768116e-06, "loss": 0.2304, "step": 66300 }, { "epoch": 17.686666666666667, "grad_norm": 8.546442031860352, "learning_rate": 2.7481739130434785e-06, "loss": 0.2057, "step": 66325 }, { "epoch": 17.693333333333335, "grad_norm": 7.8675761222839355, "learning_rate": 2.745275362318841e-06, "loss": 0.2304, "step": 66350 }, { "epoch": 17.7, "grad_norm": 6.994541645050049, "learning_rate": 2.742376811594203e-06, "loss": 0.2008, "step": 66375 }, { "epoch": 17.706666666666667, "grad_norm": 12.96716022491455, "learning_rate": 2.7394782608695654e-06, "loss": 0.233, "step": 66400 }, { "epoch": 17.713333333333335, "grad_norm": 8.323466300964355, "learning_rate": 2.736579710144928e-06, "loss": 0.2238, "step": 66425 }, { "epoch": 17.72, "grad_norm": 10.07583236694336, "learning_rate": 2.73368115942029e-06, "loss": 0.2056, "step": 66450 }, { "epoch": 17.726666666666667, "grad_norm": 6.935333251953125, "learning_rate": 2.7307826086956523e-06, "loss": 0.2025, "step": 66475 }, { "epoch": 17.733333333333334, "grad_norm": 10.15418815612793, "learning_rate": 2.7278840579710147e-06, "loss": 0.2197, "step": 66500 }, { "epoch": 17.74, "grad_norm": 7.850531101226807, "learning_rate": 2.724985507246377e-06, "loss": 0.2142, "step": 66525 }, { "epoch": 17.746666666666666, "grad_norm": 9.524252891540527, "learning_rate": 2.7220869565217395e-06, "loss": 0.2043, "step": 66550 }, { "epoch": 17.753333333333334, "grad_norm": 7.896855354309082, "learning_rate": 2.719188405797102e-06, "loss": 0.201, "step": 66575 }, { "epoch": 17.76, "grad_norm": 7.949673175811768, "learning_rate": 2.7162898550724644e-06, "loss": 0.2324, "step": 66600 }, { "epoch": 17.766666666666666, "grad_norm": 8.009665489196777, "learning_rate": 2.713391304347826e-06, "loss": 0.2329, "step": 66625 }, { "epoch": 17.773333333333333, "grad_norm": 8.919403076171875, "learning_rate": 2.7104927536231884e-06, "loss": 0.197, "step": 66650 }, { "epoch": 17.78, "grad_norm": 7.466032981872559, "learning_rate": 2.707594202898551e-06, "loss": 0.2294, "step": 66675 }, { "epoch": 17.786666666666665, "grad_norm": 6.954080104827881, "learning_rate": 2.7046956521739133e-06, "loss": 0.225, "step": 66700 }, { "epoch": 17.793333333333333, "grad_norm": 7.897799968719482, "learning_rate": 2.7017971014492757e-06, "loss": 0.2158, "step": 66725 }, { "epoch": 17.8, "grad_norm": 9.875950813293457, "learning_rate": 2.698898550724638e-06, "loss": 0.2194, "step": 66750 }, { "epoch": 17.806666666666665, "grad_norm": 7.291459560394287, "learning_rate": 2.696e-06, "loss": 0.2181, "step": 66775 }, { "epoch": 17.813333333333333, "grad_norm": 6.752727031707764, "learning_rate": 2.6931014492753625e-06, "loss": 0.2064, "step": 66800 }, { "epoch": 17.82, "grad_norm": 7.446840286254883, "learning_rate": 2.690202898550725e-06, "loss": 0.2315, "step": 66825 }, { "epoch": 17.826666666666668, "grad_norm": 7.7749481201171875, "learning_rate": 2.6873043478260874e-06, "loss": 0.2062, "step": 66850 }, { "epoch": 17.833333333333332, "grad_norm": 9.417501449584961, "learning_rate": 2.6844057971014494e-06, "loss": 0.2269, "step": 66875 }, { "epoch": 17.84, "grad_norm": 7.812014102935791, "learning_rate": 2.6815072463768114e-06, "loss": 0.229, "step": 66900 }, { "epoch": 17.846666666666668, "grad_norm": 10.452413558959961, "learning_rate": 2.678608695652174e-06, "loss": 0.2177, "step": 66925 }, { "epoch": 17.85333333333333, "grad_norm": 9.752570152282715, "learning_rate": 2.6757101449275362e-06, "loss": 0.2163, "step": 66950 }, { "epoch": 17.86, "grad_norm": 12.008381843566895, "learning_rate": 2.6728115942028987e-06, "loss": 0.2387, "step": 66975 }, { "epoch": 17.866666666666667, "grad_norm": 8.598251342773438, "learning_rate": 2.669913043478261e-06, "loss": 0.2204, "step": 67000 }, { "epoch": 17.873333333333335, "grad_norm": 9.206136703491211, "learning_rate": 2.6670144927536235e-06, "loss": 0.2093, "step": 67025 }, { "epoch": 17.88, "grad_norm": 9.254606246948242, "learning_rate": 2.664115942028986e-06, "loss": 0.2209, "step": 67050 }, { "epoch": 17.886666666666667, "grad_norm": 9.355473518371582, "learning_rate": 2.6612173913043484e-06, "loss": 0.2002, "step": 67075 }, { "epoch": 17.893333333333334, "grad_norm": 8.406131744384766, "learning_rate": 2.6583188405797104e-06, "loss": 0.2014, "step": 67100 }, { "epoch": 17.9, "grad_norm": 9.464492797851562, "learning_rate": 2.655420289855073e-06, "loss": 0.2077, "step": 67125 }, { "epoch": 17.906666666666666, "grad_norm": 10.519820213317871, "learning_rate": 2.652521739130435e-06, "loss": 0.1984, "step": 67150 }, { "epoch": 17.913333333333334, "grad_norm": 7.635274887084961, "learning_rate": 2.6496231884057972e-06, "loss": 0.2388, "step": 67175 }, { "epoch": 17.92, "grad_norm": 7.9000349044799805, "learning_rate": 2.6467246376811597e-06, "loss": 0.2343, "step": 67200 }, { "epoch": 17.926666666666666, "grad_norm": 10.25567626953125, "learning_rate": 2.6438260869565217e-06, "loss": 0.2209, "step": 67225 }, { "epoch": 17.933333333333334, "grad_norm": 7.598330974578857, "learning_rate": 2.640927536231884e-06, "loss": 0.1992, "step": 67250 }, { "epoch": 17.94, "grad_norm": 29.0931453704834, "learning_rate": 2.6380289855072465e-06, "loss": 0.2205, "step": 67275 }, { "epoch": 17.946666666666665, "grad_norm": 8.144192695617676, "learning_rate": 2.635130434782609e-06, "loss": 0.1903, "step": 67300 }, { "epoch": 17.953333333333333, "grad_norm": 9.990599632263184, "learning_rate": 2.6322318840579714e-06, "loss": 0.2304, "step": 67325 }, { "epoch": 17.96, "grad_norm": 8.771063804626465, "learning_rate": 2.629333333333334e-06, "loss": 0.2343, "step": 67350 }, { "epoch": 17.966666666666665, "grad_norm": 7.401108741760254, "learning_rate": 2.6264347826086962e-06, "loss": 0.2434, "step": 67375 }, { "epoch": 17.973333333333333, "grad_norm": 11.699095726013184, "learning_rate": 2.623536231884058e-06, "loss": 0.1901, "step": 67400 }, { "epoch": 17.98, "grad_norm": 7.599838733673096, "learning_rate": 2.6206376811594202e-06, "loss": 0.1825, "step": 67425 }, { "epoch": 17.986666666666668, "grad_norm": 9.90185546875, "learning_rate": 2.6177391304347827e-06, "loss": 0.2276, "step": 67450 }, { "epoch": 17.993333333333332, "grad_norm": 10.198087692260742, "learning_rate": 2.614840579710145e-06, "loss": 0.2324, "step": 67475 }, { "epoch": 18.0, "grad_norm": 8.349268913269043, "learning_rate": 2.6119420289855075e-06, "loss": 0.1896, "step": 67500 }, { "epoch": 18.0, "eval_cer": 24.66876618899428, "eval_loss": 0.4228520393371582, "eval_runtime": 1215.6531, "eval_samples_per_second": 4.113, "eval_steps_per_second": 0.514, "step": 67500 }, { "epoch": 18.006666666666668, "grad_norm": 6.01772928237915, "learning_rate": 2.60904347826087e-06, "loss": 0.1257, "step": 67525 }, { "epoch": 18.013333333333332, "grad_norm": 7.325315475463867, "learning_rate": 2.6061449275362324e-06, "loss": 0.1666, "step": 67550 }, { "epoch": 18.02, "grad_norm": 6.677702903747559, "learning_rate": 2.6032463768115944e-06, "loss": 0.1528, "step": 67575 }, { "epoch": 18.026666666666667, "grad_norm": 6.949586868286133, "learning_rate": 2.600347826086957e-06, "loss": 0.1759, "step": 67600 }, { "epoch": 18.033333333333335, "grad_norm": 5.087902545928955, "learning_rate": 2.5974492753623192e-06, "loss": 0.1613, "step": 67625 }, { "epoch": 18.04, "grad_norm": 7.466290473937988, "learning_rate": 2.5945507246376812e-06, "loss": 0.1476, "step": 67650 }, { "epoch": 18.046666666666667, "grad_norm": 7.917932033538818, "learning_rate": 2.5916521739130436e-06, "loss": 0.1268, "step": 67675 }, { "epoch": 18.053333333333335, "grad_norm": 6.953451633453369, "learning_rate": 2.5887536231884056e-06, "loss": 0.1555, "step": 67700 }, { "epoch": 18.06, "grad_norm": 7.053425312042236, "learning_rate": 2.585855072463768e-06, "loss": 0.1394, "step": 67725 }, { "epoch": 18.066666666666666, "grad_norm": 11.298839569091797, "learning_rate": 2.5829565217391305e-06, "loss": 0.1377, "step": 67750 }, { "epoch": 18.073333333333334, "grad_norm": 7.689300060272217, "learning_rate": 2.580057971014493e-06, "loss": 0.1387, "step": 67775 }, { "epoch": 18.08, "grad_norm": 5.51444149017334, "learning_rate": 2.5771594202898554e-06, "loss": 0.1475, "step": 67800 }, { "epoch": 18.086666666666666, "grad_norm": 6.126021862030029, "learning_rate": 2.5742608695652178e-06, "loss": 0.1453, "step": 67825 }, { "epoch": 18.093333333333334, "grad_norm": 7.228414058685303, "learning_rate": 2.57136231884058e-06, "loss": 0.1598, "step": 67850 }, { "epoch": 18.1, "grad_norm": 5.671976089477539, "learning_rate": 2.5684637681159426e-06, "loss": 0.1523, "step": 67875 }, { "epoch": 18.106666666666666, "grad_norm": 6.718015670776367, "learning_rate": 2.5655652173913046e-06, "loss": 0.1454, "step": 67900 }, { "epoch": 18.113333333333333, "grad_norm": 7.08750057220459, "learning_rate": 2.5626666666666666e-06, "loss": 0.1363, "step": 67925 }, { "epoch": 18.12, "grad_norm": 5.920500755310059, "learning_rate": 2.559768115942029e-06, "loss": 0.1587, "step": 67950 }, { "epoch": 18.126666666666665, "grad_norm": 8.253193855285645, "learning_rate": 2.5568695652173915e-06, "loss": 0.1632, "step": 67975 }, { "epoch": 18.133333333333333, "grad_norm": 4.929494857788086, "learning_rate": 2.553971014492754e-06, "loss": 0.1523, "step": 68000 }, { "epoch": 18.14, "grad_norm": 7.685841083526611, "learning_rate": 2.551072463768116e-06, "loss": 0.136, "step": 68025 }, { "epoch": 18.14666666666667, "grad_norm": 6.61921501159668, "learning_rate": 2.5481739130434783e-06, "loss": 0.1332, "step": 68050 }, { "epoch": 18.153333333333332, "grad_norm": 7.440988540649414, "learning_rate": 2.5452753623188408e-06, "loss": 0.1465, "step": 68075 }, { "epoch": 18.16, "grad_norm": 5.942384243011475, "learning_rate": 2.542376811594203e-06, "loss": 0.1447, "step": 68100 }, { "epoch": 18.166666666666668, "grad_norm": 8.045618057250977, "learning_rate": 2.5394782608695656e-06, "loss": 0.1446, "step": 68125 }, { "epoch": 18.173333333333332, "grad_norm": 6.733611583709717, "learning_rate": 2.536579710144928e-06, "loss": 0.1428, "step": 68150 }, { "epoch": 18.18, "grad_norm": 5.5115275382995605, "learning_rate": 2.5336811594202896e-06, "loss": 0.1434, "step": 68175 }, { "epoch": 18.186666666666667, "grad_norm": 7.358239650726318, "learning_rate": 2.530782608695652e-06, "loss": 0.1646, "step": 68200 }, { "epoch": 18.19333333333333, "grad_norm": 4.872328281402588, "learning_rate": 2.5278840579710145e-06, "loss": 0.1476, "step": 68225 }, { "epoch": 18.2, "grad_norm": 6.254954814910889, "learning_rate": 2.524985507246377e-06, "loss": 0.1513, "step": 68250 }, { "epoch": 18.206666666666667, "grad_norm": 5.432345390319824, "learning_rate": 2.5220869565217393e-06, "loss": 0.1535, "step": 68275 }, { "epoch": 18.213333333333335, "grad_norm": 5.20021390914917, "learning_rate": 2.5191884057971018e-06, "loss": 0.1849, "step": 68300 }, { "epoch": 18.22, "grad_norm": 5.813321113586426, "learning_rate": 2.516289855072464e-06, "loss": 0.1461, "step": 68325 }, { "epoch": 18.226666666666667, "grad_norm": 7.384959697723389, "learning_rate": 2.5133913043478266e-06, "loss": 0.1386, "step": 68350 }, { "epoch": 18.233333333333334, "grad_norm": 7.65921688079834, "learning_rate": 2.5104927536231886e-06, "loss": 0.1638, "step": 68375 }, { "epoch": 18.24, "grad_norm": 7.059927463531494, "learning_rate": 2.507594202898551e-06, "loss": 0.1442, "step": 68400 }, { "epoch": 18.246666666666666, "grad_norm": 9.086822509765625, "learning_rate": 2.504695652173913e-06, "loss": 0.1597, "step": 68425 }, { "epoch": 18.253333333333334, "grad_norm": 5.127740859985352, "learning_rate": 2.5017971014492755e-06, "loss": 0.1337, "step": 68450 }, { "epoch": 18.26, "grad_norm": 5.937685489654541, "learning_rate": 2.498898550724638e-06, "loss": 0.1553, "step": 68475 }, { "epoch": 18.266666666666666, "grad_norm": 5.7225775718688965, "learning_rate": 2.496e-06, "loss": 0.1576, "step": 68500 }, { "epoch": 18.273333333333333, "grad_norm": 5.88946008682251, "learning_rate": 2.4931014492753623e-06, "loss": 0.1692, "step": 68525 }, { "epoch": 18.28, "grad_norm": 7.9569411277771, "learning_rate": 2.4903188405797105e-06, "loss": 0.1516, "step": 68550 }, { "epoch": 18.286666666666665, "grad_norm": 5.725513935089111, "learning_rate": 2.4874202898550725e-06, "loss": 0.1601, "step": 68575 }, { "epoch": 18.293333333333333, "grad_norm": 6.353059768676758, "learning_rate": 2.484521739130435e-06, "loss": 0.1508, "step": 68600 }, { "epoch": 18.3, "grad_norm": 8.028318405151367, "learning_rate": 2.4816231884057973e-06, "loss": 0.1538, "step": 68625 }, { "epoch": 18.306666666666665, "grad_norm": 6.196845531463623, "learning_rate": 2.4787246376811597e-06, "loss": 0.1742, "step": 68650 }, { "epoch": 18.313333333333333, "grad_norm": 8.58578109741211, "learning_rate": 2.475826086956522e-06, "loss": 0.1433, "step": 68675 }, { "epoch": 18.32, "grad_norm": 7.623652458190918, "learning_rate": 2.472927536231884e-06, "loss": 0.1683, "step": 68700 }, { "epoch": 18.326666666666668, "grad_norm": 6.193671703338623, "learning_rate": 2.4700289855072466e-06, "loss": 0.1378, "step": 68725 }, { "epoch": 18.333333333333332, "grad_norm": 5.358505725860596, "learning_rate": 2.467130434782609e-06, "loss": 0.1373, "step": 68750 }, { "epoch": 18.34, "grad_norm": 8.604788780212402, "learning_rate": 2.4642318840579715e-06, "loss": 0.157, "step": 68775 }, { "epoch": 18.346666666666668, "grad_norm": 7.323215961456299, "learning_rate": 2.4613333333333335e-06, "loss": 0.1631, "step": 68800 }, { "epoch": 18.35333333333333, "grad_norm": 6.7893500328063965, "learning_rate": 2.458434782608696e-06, "loss": 0.1491, "step": 68825 }, { "epoch": 18.36, "grad_norm": 5.784399509429932, "learning_rate": 2.455536231884058e-06, "loss": 0.1635, "step": 68850 }, { "epoch": 18.366666666666667, "grad_norm": 7.1416192054748535, "learning_rate": 2.4526376811594203e-06, "loss": 0.1632, "step": 68875 }, { "epoch": 18.373333333333335, "grad_norm": 7.909371376037598, "learning_rate": 2.4497391304347827e-06, "loss": 0.1493, "step": 68900 }, { "epoch": 18.38, "grad_norm": 8.66400146484375, "learning_rate": 2.446840579710145e-06, "loss": 0.1537, "step": 68925 }, { "epoch": 18.386666666666667, "grad_norm": 6.246345520019531, "learning_rate": 2.443942028985507e-06, "loss": 0.1689, "step": 68950 }, { "epoch": 18.393333333333334, "grad_norm": 6.435629844665527, "learning_rate": 2.4410434782608696e-06, "loss": 0.1476, "step": 68975 }, { "epoch": 18.4, "grad_norm": 9.530854225158691, "learning_rate": 2.438144927536232e-06, "loss": 0.1443, "step": 69000 }, { "epoch": 18.406666666666666, "grad_norm": 6.850388050079346, "learning_rate": 2.4352463768115944e-06, "loss": 0.1719, "step": 69025 }, { "epoch": 18.413333333333334, "grad_norm": 8.283392906188965, "learning_rate": 2.432347826086957e-06, "loss": 0.1396, "step": 69050 }, { "epoch": 18.42, "grad_norm": 8.952546119689941, "learning_rate": 2.4294492753623193e-06, "loss": 0.1569, "step": 69075 }, { "epoch": 18.426666666666666, "grad_norm": 6.610381603240967, "learning_rate": 2.4265507246376813e-06, "loss": 0.1433, "step": 69100 }, { "epoch": 18.433333333333334, "grad_norm": 6.613919734954834, "learning_rate": 2.4236521739130437e-06, "loss": 0.1508, "step": 69125 }, { "epoch": 18.44, "grad_norm": 7.836382865905762, "learning_rate": 2.420753623188406e-06, "loss": 0.1634, "step": 69150 }, { "epoch": 18.446666666666665, "grad_norm": 6.699350357055664, "learning_rate": 2.4178550724637686e-06, "loss": 0.1371, "step": 69175 }, { "epoch": 18.453333333333333, "grad_norm": 6.211468696594238, "learning_rate": 2.4149565217391306e-06, "loss": 0.1386, "step": 69200 }, { "epoch": 18.46, "grad_norm": 7.529922008514404, "learning_rate": 2.412057971014493e-06, "loss": 0.1622, "step": 69225 }, { "epoch": 18.466666666666665, "grad_norm": 6.675513744354248, "learning_rate": 2.409159420289855e-06, "loss": 0.1454, "step": 69250 }, { "epoch": 18.473333333333333, "grad_norm": 6.992852687835693, "learning_rate": 2.4062608695652174e-06, "loss": 0.1509, "step": 69275 }, { "epoch": 18.48, "grad_norm": 6.201621055603027, "learning_rate": 2.40336231884058e-06, "loss": 0.1631, "step": 69300 }, { "epoch": 18.486666666666668, "grad_norm": 6.642437934875488, "learning_rate": 2.4004637681159423e-06, "loss": 0.1621, "step": 69325 }, { "epoch": 18.493333333333332, "grad_norm": 5.833384990692139, "learning_rate": 2.3975652173913043e-06, "loss": 0.167, "step": 69350 }, { "epoch": 18.5, "grad_norm": 6.270913124084473, "learning_rate": 2.3946666666666667e-06, "loss": 0.1577, "step": 69375 }, { "epoch": 18.506666666666668, "grad_norm": 7.176599979400635, "learning_rate": 2.391768115942029e-06, "loss": 0.1265, "step": 69400 }, { "epoch": 18.513333333333332, "grad_norm": 6.275597095489502, "learning_rate": 2.3888695652173916e-06, "loss": 0.1497, "step": 69425 }, { "epoch": 18.52, "grad_norm": 19.429767608642578, "learning_rate": 2.385971014492754e-06, "loss": 0.1527, "step": 69450 }, { "epoch": 18.526666666666667, "grad_norm": 6.7337751388549805, "learning_rate": 2.383072463768116e-06, "loss": 0.1548, "step": 69475 }, { "epoch": 18.533333333333335, "grad_norm": 7.699949741363525, "learning_rate": 2.3801739130434784e-06, "loss": 0.1422, "step": 69500 }, { "epoch": 18.54, "grad_norm": 8.577682495117188, "learning_rate": 2.377275362318841e-06, "loss": 0.1428, "step": 69525 }, { "epoch": 18.546666666666667, "grad_norm": 7.721391201019287, "learning_rate": 2.3743768115942033e-06, "loss": 0.1535, "step": 69550 }, { "epoch": 18.553333333333335, "grad_norm": 9.168580055236816, "learning_rate": 2.3714782608695657e-06, "loss": 0.1605, "step": 69575 }, { "epoch": 18.56, "grad_norm": 7.069909572601318, "learning_rate": 2.3685797101449277e-06, "loss": 0.155, "step": 69600 }, { "epoch": 18.566666666666666, "grad_norm": 9.579375267028809, "learning_rate": 2.36568115942029e-06, "loss": 0.1356, "step": 69625 }, { "epoch": 18.573333333333334, "grad_norm": 5.118478298187256, "learning_rate": 2.362782608695652e-06, "loss": 0.1572, "step": 69650 }, { "epoch": 18.58, "grad_norm": 7.700621128082275, "learning_rate": 2.3598840579710146e-06, "loss": 0.1607, "step": 69675 }, { "epoch": 18.586666666666666, "grad_norm": 10.147714614868164, "learning_rate": 2.356985507246377e-06, "loss": 0.1824, "step": 69700 }, { "epoch": 18.593333333333334, "grad_norm": 8.384702682495117, "learning_rate": 2.354086956521739e-06, "loss": 0.1802, "step": 69725 }, { "epoch": 18.6, "grad_norm": 6.407967567443848, "learning_rate": 2.3511884057971014e-06, "loss": 0.1485, "step": 69750 }, { "epoch": 18.606666666666666, "grad_norm": 6.897902488708496, "learning_rate": 2.348289855072464e-06, "loss": 0.1373, "step": 69775 }, { "epoch": 18.613333333333333, "grad_norm": 3.93000864982605, "learning_rate": 2.3453913043478263e-06, "loss": 0.1516, "step": 69800 }, { "epoch": 18.62, "grad_norm": 5.577243804931641, "learning_rate": 2.3424927536231887e-06, "loss": 0.1684, "step": 69825 }, { "epoch": 18.626666666666665, "grad_norm": 7.96088171005249, "learning_rate": 2.339594202898551e-06, "loss": 0.1634, "step": 69850 }, { "epoch": 18.633333333333333, "grad_norm": 8.152421951293945, "learning_rate": 2.336695652173913e-06, "loss": 0.1502, "step": 69875 }, { "epoch": 18.64, "grad_norm": 5.9807820320129395, "learning_rate": 2.3337971014492756e-06, "loss": 0.1432, "step": 69900 }, { "epoch": 18.64666666666667, "grad_norm": 9.36793327331543, "learning_rate": 2.330898550724638e-06, "loss": 0.1468, "step": 69925 }, { "epoch": 18.653333333333332, "grad_norm": 8.440128326416016, "learning_rate": 2.3280000000000004e-06, "loss": 0.1709, "step": 69950 }, { "epoch": 18.66, "grad_norm": 6.836984157562256, "learning_rate": 2.325101449275363e-06, "loss": 0.1548, "step": 69975 }, { "epoch": 18.666666666666668, "grad_norm": 5.4992594718933105, "learning_rate": 2.322202898550725e-06, "loss": 0.1445, "step": 70000 }, { "epoch": 18.673333333333332, "grad_norm": 7.337496280670166, "learning_rate": 2.3193043478260873e-06, "loss": 0.1621, "step": 70025 }, { "epoch": 18.68, "grad_norm": 6.2944512367248535, "learning_rate": 2.3164057971014493e-06, "loss": 0.1354, "step": 70050 }, { "epoch": 18.686666666666667, "grad_norm": 7.438060760498047, "learning_rate": 2.3135072463768117e-06, "loss": 0.1537, "step": 70075 }, { "epoch": 18.693333333333335, "grad_norm": 4.022197246551514, "learning_rate": 2.310608695652174e-06, "loss": 0.1428, "step": 70100 }, { "epoch": 18.7, "grad_norm": 10.642065048217773, "learning_rate": 2.307710144927536e-06, "loss": 0.152, "step": 70125 }, { "epoch": 18.706666666666667, "grad_norm": 6.652579307556152, "learning_rate": 2.3048115942028986e-06, "loss": 0.1572, "step": 70150 }, { "epoch": 18.713333333333335, "grad_norm": 8.735214233398438, "learning_rate": 2.301913043478261e-06, "loss": 0.1352, "step": 70175 }, { "epoch": 18.72, "grad_norm": 8.009881019592285, "learning_rate": 2.2990144927536234e-06, "loss": 0.1556, "step": 70200 }, { "epoch": 18.726666666666667, "grad_norm": 5.827996730804443, "learning_rate": 2.296115942028986e-06, "loss": 0.1327, "step": 70225 }, { "epoch": 18.733333333333334, "grad_norm": 6.475606441497803, "learning_rate": 2.293217391304348e-06, "loss": 0.1802, "step": 70250 }, { "epoch": 18.74, "grad_norm": 10.839892387390137, "learning_rate": 2.2903188405797103e-06, "loss": 0.1635, "step": 70275 }, { "epoch": 18.746666666666666, "grad_norm": 7.246858596801758, "learning_rate": 2.2874202898550727e-06, "loss": 0.1793, "step": 70300 }, { "epoch": 18.753333333333334, "grad_norm": 7.256247043609619, "learning_rate": 2.284521739130435e-06, "loss": 0.1533, "step": 70325 }, { "epoch": 18.76, "grad_norm": 9.10037612915039, "learning_rate": 2.2816231884057975e-06, "loss": 0.1501, "step": 70350 }, { "epoch": 18.766666666666666, "grad_norm": 7.829658508300781, "learning_rate": 2.2788405797101452e-06, "loss": 0.158, "step": 70375 }, { "epoch": 18.773333333333333, "grad_norm": 5.928768634796143, "learning_rate": 2.2759420289855077e-06, "loss": 0.1606, "step": 70400 }, { "epoch": 18.78, "grad_norm": 6.513625621795654, "learning_rate": 2.2730434782608697e-06, "loss": 0.1543, "step": 70425 }, { "epoch": 18.786666666666665, "grad_norm": 7.939873695373535, "learning_rate": 2.270144927536232e-06, "loss": 0.1596, "step": 70450 }, { "epoch": 18.793333333333333, "grad_norm": 7.286437034606934, "learning_rate": 2.267246376811594e-06, "loss": 0.1291, "step": 70475 }, { "epoch": 18.8, "grad_norm": 5.455666542053223, "learning_rate": 2.2643478260869565e-06, "loss": 0.1438, "step": 70500 }, { "epoch": 18.806666666666665, "grad_norm": 8.667654991149902, "learning_rate": 2.261449275362319e-06, "loss": 0.1511, "step": 70525 }, { "epoch": 18.813333333333333, "grad_norm": 5.138819694519043, "learning_rate": 2.2585507246376814e-06, "loss": 0.1639, "step": 70550 }, { "epoch": 18.82, "grad_norm": 5.677332878112793, "learning_rate": 2.2556521739130434e-06, "loss": 0.1377, "step": 70575 }, { "epoch": 18.826666666666668, "grad_norm": 7.6517744064331055, "learning_rate": 2.252753623188406e-06, "loss": 0.1665, "step": 70600 }, { "epoch": 18.833333333333332, "grad_norm": 6.434638977050781, "learning_rate": 2.2498550724637682e-06, "loss": 0.1533, "step": 70625 }, { "epoch": 18.84, "grad_norm": 5.443459510803223, "learning_rate": 2.2469565217391307e-06, "loss": 0.1486, "step": 70650 }, { "epoch": 18.846666666666668, "grad_norm": 5.946639537811279, "learning_rate": 2.244057971014493e-06, "loss": 0.1712, "step": 70675 }, { "epoch": 18.85333333333333, "grad_norm": 7.612644672393799, "learning_rate": 2.2411594202898555e-06, "loss": 0.1521, "step": 70700 }, { "epoch": 18.86, "grad_norm": 10.080349922180176, "learning_rate": 2.2382608695652175e-06, "loss": 0.1428, "step": 70725 }, { "epoch": 18.866666666666667, "grad_norm": 7.273410320281982, "learning_rate": 2.23536231884058e-06, "loss": 0.1604, "step": 70750 }, { "epoch": 18.873333333333335, "grad_norm": 6.912008285522461, "learning_rate": 2.2324637681159424e-06, "loss": 0.1403, "step": 70775 }, { "epoch": 18.88, "grad_norm": 16.17671012878418, "learning_rate": 2.229565217391305e-06, "loss": 0.1627, "step": 70800 }, { "epoch": 18.886666666666667, "grad_norm": 8.159416198730469, "learning_rate": 2.226666666666667e-06, "loss": 0.1652, "step": 70825 }, { "epoch": 18.893333333333334, "grad_norm": 6.099381923675537, "learning_rate": 2.2237681159420292e-06, "loss": 0.1506, "step": 70850 }, { "epoch": 18.9, "grad_norm": 7.79564905166626, "learning_rate": 2.2208695652173912e-06, "loss": 0.1605, "step": 70875 }, { "epoch": 18.906666666666666, "grad_norm": 6.98323917388916, "learning_rate": 2.2179710144927537e-06, "loss": 0.1628, "step": 70900 }, { "epoch": 18.913333333333334, "grad_norm": 8.81930923461914, "learning_rate": 2.215072463768116e-06, "loss": 0.1531, "step": 70925 }, { "epoch": 18.92, "grad_norm": 7.505843639373779, "learning_rate": 2.2121739130434785e-06, "loss": 0.1513, "step": 70950 }, { "epoch": 18.926666666666666, "grad_norm": 6.870680809020996, "learning_rate": 2.2092753623188405e-06, "loss": 0.149, "step": 70975 }, { "epoch": 18.933333333333334, "grad_norm": 5.970832347869873, "learning_rate": 2.206376811594203e-06, "loss": 0.1411, "step": 71000 }, { "epoch": 18.94, "grad_norm": 6.562996864318848, "learning_rate": 2.2034782608695654e-06, "loss": 0.1452, "step": 71025 }, { "epoch": 18.946666666666665, "grad_norm": 7.61350679397583, "learning_rate": 2.200579710144928e-06, "loss": 0.1659, "step": 71050 }, { "epoch": 18.953333333333333, "grad_norm": 8.182543754577637, "learning_rate": 2.1976811594202902e-06, "loss": 0.1314, "step": 71075 }, { "epoch": 18.96, "grad_norm": 6.932231426239014, "learning_rate": 2.1947826086956522e-06, "loss": 0.1571, "step": 71100 }, { "epoch": 18.966666666666665, "grad_norm": 7.585521697998047, "learning_rate": 2.1918840579710147e-06, "loss": 0.1588, "step": 71125 }, { "epoch": 18.973333333333333, "grad_norm": 5.4349141120910645, "learning_rate": 2.188985507246377e-06, "loss": 0.147, "step": 71150 }, { "epoch": 18.98, "grad_norm": 9.688536643981934, "learning_rate": 2.1860869565217395e-06, "loss": 0.1585, "step": 71175 }, { "epoch": 18.986666666666668, "grad_norm": 7.782441139221191, "learning_rate": 2.183188405797102e-06, "loss": 0.1438, "step": 71200 }, { "epoch": 18.993333333333332, "grad_norm": 4.594372749328613, "learning_rate": 2.180289855072464e-06, "loss": 0.1471, "step": 71225 }, { "epoch": 19.0, "grad_norm": 5.970113277435303, "learning_rate": 2.1773913043478264e-06, "loss": 0.155, "step": 71250 }, { "epoch": 19.0, "eval_cer": 25.915435216070666, "eval_loss": 0.43754246830940247, "eval_runtime": 1217.4329, "eval_samples_per_second": 4.107, "eval_steps_per_second": 0.513, "step": 71250 }, { "epoch": 19.006666666666668, "grad_norm": 5.675690650939941, "learning_rate": 2.1744927536231884e-06, "loss": 0.1042, "step": 71275 }, { "epoch": 19.013333333333332, "grad_norm": 4.985854148864746, "learning_rate": 2.171594202898551e-06, "loss": 0.1052, "step": 71300 }, { "epoch": 19.02, "grad_norm": 7.79216194152832, "learning_rate": 2.1686956521739132e-06, "loss": 0.1038, "step": 71325 }, { "epoch": 19.026666666666667, "grad_norm": 7.168084144592285, "learning_rate": 2.1657971014492752e-06, "loss": 0.1001, "step": 71350 }, { "epoch": 19.033333333333335, "grad_norm": 8.945808410644531, "learning_rate": 2.1628985507246376e-06, "loss": 0.0997, "step": 71375 }, { "epoch": 19.04, "grad_norm": 6.32921838760376, "learning_rate": 2.16e-06, "loss": 0.1072, "step": 71400 }, { "epoch": 19.046666666666667, "grad_norm": 5.901066303253174, "learning_rate": 2.1571014492753625e-06, "loss": 0.0982, "step": 71425 }, { "epoch": 19.053333333333335, "grad_norm": 4.490105152130127, "learning_rate": 2.154202898550725e-06, "loss": 0.1028, "step": 71450 }, { "epoch": 19.06, "grad_norm": 4.834918022155762, "learning_rate": 2.1513043478260874e-06, "loss": 0.0971, "step": 71475 }, { "epoch": 19.066666666666666, "grad_norm": 7.109931468963623, "learning_rate": 2.1484057971014494e-06, "loss": 0.1195, "step": 71500 }, { "epoch": 19.073333333333334, "grad_norm": 5.809897422790527, "learning_rate": 2.1455072463768118e-06, "loss": 0.0992, "step": 71525 }, { "epoch": 19.08, "grad_norm": 6.085440635681152, "learning_rate": 2.142608695652174e-06, "loss": 0.1066, "step": 71550 }, { "epoch": 19.086666666666666, "grad_norm": 6.77327823638916, "learning_rate": 2.1397101449275366e-06, "loss": 0.0894, "step": 71575 }, { "epoch": 19.093333333333334, "grad_norm": 5.9065728187561035, "learning_rate": 2.136811594202899e-06, "loss": 0.1117, "step": 71600 }, { "epoch": 19.1, "grad_norm": 7.122445106506348, "learning_rate": 2.133913043478261e-06, "loss": 0.1037, "step": 71625 }, { "epoch": 19.106666666666666, "grad_norm": 3.03509783744812, "learning_rate": 2.1310144927536235e-06, "loss": 0.103, "step": 71650 }, { "epoch": 19.113333333333333, "grad_norm": 8.701093673706055, "learning_rate": 2.1281159420289855e-06, "loss": 0.111, "step": 71675 }, { "epoch": 19.12, "grad_norm": 6.689864635467529, "learning_rate": 2.125217391304348e-06, "loss": 0.1229, "step": 71700 }, { "epoch": 19.126666666666665, "grad_norm": 5.8076910972595215, "learning_rate": 2.1223188405797103e-06, "loss": 0.0992, "step": 71725 }, { "epoch": 19.133333333333333, "grad_norm": 7.868796348571777, "learning_rate": 2.1194202898550723e-06, "loss": 0.1033, "step": 71750 }, { "epoch": 19.14, "grad_norm": 32.1546745300293, "learning_rate": 2.1165217391304348e-06, "loss": 0.1102, "step": 71775 }, { "epoch": 19.14666666666667, "grad_norm": 4.970939636230469, "learning_rate": 2.113623188405797e-06, "loss": 0.0969, "step": 71800 }, { "epoch": 19.153333333333332, "grad_norm": 5.401374816894531, "learning_rate": 2.1107246376811596e-06, "loss": 0.0948, "step": 71825 }, { "epoch": 19.16, "grad_norm": 10.725092887878418, "learning_rate": 2.107826086956522e-06, "loss": 0.1005, "step": 71850 }, { "epoch": 19.166666666666668, "grad_norm": 6.413119316101074, "learning_rate": 2.104927536231884e-06, "loss": 0.1084, "step": 71875 }, { "epoch": 19.173333333333332, "grad_norm": 6.414632320404053, "learning_rate": 2.1020289855072465e-06, "loss": 0.1051, "step": 71900 }, { "epoch": 19.18, "grad_norm": 7.66240930557251, "learning_rate": 2.099130434782609e-06, "loss": 0.1135, "step": 71925 }, { "epoch": 19.186666666666667, "grad_norm": 5.339526653289795, "learning_rate": 2.0962318840579713e-06, "loss": 0.0993, "step": 71950 }, { "epoch": 19.19333333333333, "grad_norm": 6.042700290679932, "learning_rate": 2.0933333333333338e-06, "loss": 0.1011, "step": 71975 }, { "epoch": 19.2, "grad_norm": 7.16769552230835, "learning_rate": 2.0904347826086958e-06, "loss": 0.096, "step": 72000 }, { "epoch": 19.206666666666667, "grad_norm": 5.751241207122803, "learning_rate": 2.087536231884058e-06, "loss": 0.1077, "step": 72025 }, { "epoch": 19.213333333333335, "grad_norm": 7.560470104217529, "learning_rate": 2.0846376811594206e-06, "loss": 0.1023, "step": 72050 }, { "epoch": 19.22, "grad_norm": 4.091994285583496, "learning_rate": 2.0817391304347826e-06, "loss": 0.0918, "step": 72075 }, { "epoch": 19.226666666666667, "grad_norm": 4.7149529457092285, "learning_rate": 2.078840579710145e-06, "loss": 0.1085, "step": 72100 }, { "epoch": 19.233333333333334, "grad_norm": 4.598756790161133, "learning_rate": 2.0759420289855075e-06, "loss": 0.1007, "step": 72125 }, { "epoch": 19.24, "grad_norm": 10.273158073425293, "learning_rate": 2.0730434782608695e-06, "loss": 0.0981, "step": 72150 }, { "epoch": 19.246666666666666, "grad_norm": 6.455600261688232, "learning_rate": 2.070144927536232e-06, "loss": 0.1138, "step": 72175 }, { "epoch": 19.253333333333334, "grad_norm": 3.8777518272399902, "learning_rate": 2.0672463768115943e-06, "loss": 0.1001, "step": 72200 }, { "epoch": 19.26, "grad_norm": 5.472908973693848, "learning_rate": 2.0643478260869568e-06, "loss": 0.1001, "step": 72225 }, { "epoch": 19.266666666666666, "grad_norm": 4.104804515838623, "learning_rate": 2.061449275362319e-06, "loss": 0.1156, "step": 72250 }, { "epoch": 19.273333333333333, "grad_norm": 5.611487865447998, "learning_rate": 2.058550724637681e-06, "loss": 0.12, "step": 72275 }, { "epoch": 19.28, "grad_norm": 6.500185966491699, "learning_rate": 2.0556521739130436e-06, "loss": 0.0947, "step": 72300 }, { "epoch": 19.286666666666665, "grad_norm": 5.745716571807861, "learning_rate": 2.052753623188406e-06, "loss": 0.0909, "step": 72325 }, { "epoch": 19.293333333333333, "grad_norm": 6.714460849761963, "learning_rate": 2.0498550724637685e-06, "loss": 0.096, "step": 72350 }, { "epoch": 19.3, "grad_norm": 6.3296918869018555, "learning_rate": 2.046956521739131e-06, "loss": 0.0979, "step": 72375 }, { "epoch": 19.306666666666665, "grad_norm": 5.162728786468506, "learning_rate": 2.044057971014493e-06, "loss": 0.103, "step": 72400 }, { "epoch": 19.313333333333333, "grad_norm": 7.584059238433838, "learning_rate": 2.0411594202898553e-06, "loss": 0.1094, "step": 72425 }, { "epoch": 19.32, "grad_norm": 5.767916202545166, "learning_rate": 2.0382608695652177e-06, "loss": 0.1015, "step": 72450 }, { "epoch": 19.326666666666668, "grad_norm": 5.698000907897949, "learning_rate": 2.0353623188405797e-06, "loss": 0.1061, "step": 72475 }, { "epoch": 19.333333333333332, "grad_norm": 5.757930278778076, "learning_rate": 2.032463768115942e-06, "loss": 0.0958, "step": 72500 }, { "epoch": 19.34, "grad_norm": 6.200931549072266, "learning_rate": 2.0295652173913046e-06, "loss": 0.113, "step": 72525 }, { "epoch": 19.346666666666668, "grad_norm": 6.3699212074279785, "learning_rate": 2.0266666666666666e-06, "loss": 0.1063, "step": 72550 }, { "epoch": 19.35333333333333, "grad_norm": 6.707023620605469, "learning_rate": 2.023768115942029e-06, "loss": 0.0914, "step": 72575 }, { "epoch": 19.36, "grad_norm": 5.265618324279785, "learning_rate": 2.0208695652173915e-06, "loss": 0.1052, "step": 72600 }, { "epoch": 19.366666666666667, "grad_norm": 6.9856648445129395, "learning_rate": 2.017971014492754e-06, "loss": 0.1101, "step": 72625 }, { "epoch": 19.373333333333335, "grad_norm": 4.685873985290527, "learning_rate": 2.015072463768116e-06, "loss": 0.1016, "step": 72650 }, { "epoch": 19.38, "grad_norm": 6.5311479568481445, "learning_rate": 2.0121739130434783e-06, "loss": 0.1063, "step": 72675 }, { "epoch": 19.386666666666667, "grad_norm": 5.9873480796813965, "learning_rate": 2.0092753623188407e-06, "loss": 0.1057, "step": 72700 }, { "epoch": 19.393333333333334, "grad_norm": 3.5599958896636963, "learning_rate": 2.006376811594203e-06, "loss": 0.0986, "step": 72725 }, { "epoch": 19.4, "grad_norm": 4.90258264541626, "learning_rate": 2.0034782608695656e-06, "loss": 0.1069, "step": 72750 }, { "epoch": 19.406666666666666, "grad_norm": 6.426035404205322, "learning_rate": 2.0005797101449276e-06, "loss": 0.097, "step": 72775 }, { "epoch": 19.413333333333334, "grad_norm": 4.893563747406006, "learning_rate": 1.99768115942029e-06, "loss": 0.1133, "step": 72800 }, { "epoch": 19.42, "grad_norm": 7.264616012573242, "learning_rate": 1.9947826086956524e-06, "loss": 0.1088, "step": 72825 }, { "epoch": 19.426666666666666, "grad_norm": 7.400001525878906, "learning_rate": 1.991884057971015e-06, "loss": 0.1129, "step": 72850 }, { "epoch": 19.433333333333334, "grad_norm": 6.674353122711182, "learning_rate": 1.988985507246377e-06, "loss": 0.1024, "step": 72875 }, { "epoch": 19.44, "grad_norm": 6.827143669128418, "learning_rate": 1.9860869565217393e-06, "loss": 0.1033, "step": 72900 }, { "epoch": 19.446666666666665, "grad_norm": 8.582805633544922, "learning_rate": 1.9831884057971017e-06, "loss": 0.0975, "step": 72925 }, { "epoch": 19.453333333333333, "grad_norm": 2.806917667388916, "learning_rate": 1.9802898550724637e-06, "loss": 0.0885, "step": 72950 }, { "epoch": 19.46, "grad_norm": 5.491762638092041, "learning_rate": 1.977391304347826e-06, "loss": 0.1058, "step": 72975 }, { "epoch": 19.466666666666665, "grad_norm": 5.8324480056762695, "learning_rate": 1.9744927536231886e-06, "loss": 0.0961, "step": 73000 }, { "epoch": 19.473333333333333, "grad_norm": 7.181924343109131, "learning_rate": 1.971594202898551e-06, "loss": 0.1226, "step": 73025 }, { "epoch": 19.48, "grad_norm": 6.861168384552002, "learning_rate": 1.968695652173913e-06, "loss": 0.1096, "step": 73050 }, { "epoch": 19.486666666666668, "grad_norm": 5.565661430358887, "learning_rate": 1.9657971014492754e-06, "loss": 0.1087, "step": 73075 }, { "epoch": 19.493333333333332, "grad_norm": 6.833733558654785, "learning_rate": 1.962898550724638e-06, "loss": 0.0914, "step": 73100 }, { "epoch": 19.5, "grad_norm": 6.7026848793029785, "learning_rate": 1.9600000000000003e-06, "loss": 0.0912, "step": 73125 }, { "epoch": 19.506666666666668, "grad_norm": 7.694760799407959, "learning_rate": 1.9571014492753627e-06, "loss": 0.1257, "step": 73150 }, { "epoch": 19.513333333333332, "grad_norm": 7.0611891746521, "learning_rate": 1.9542028985507247e-06, "loss": 0.1031, "step": 73175 }, { "epoch": 19.52, "grad_norm": 6.779341697692871, "learning_rate": 1.951304347826087e-06, "loss": 0.101, "step": 73200 }, { "epoch": 19.526666666666667, "grad_norm": 8.409144401550293, "learning_rate": 1.9484057971014496e-06, "loss": 0.1003, "step": 73225 }, { "epoch": 19.533333333333335, "grad_norm": 5.4090962409973145, "learning_rate": 1.945507246376812e-06, "loss": 0.1118, "step": 73250 }, { "epoch": 19.54, "grad_norm": 6.318526744842529, "learning_rate": 1.942608695652174e-06, "loss": 0.1214, "step": 73275 }, { "epoch": 19.546666666666667, "grad_norm": 7.044856071472168, "learning_rate": 1.9397101449275364e-06, "loss": 0.1134, "step": 73300 }, { "epoch": 19.553333333333335, "grad_norm": 5.211507797241211, "learning_rate": 1.936811594202899e-06, "loss": 0.1067, "step": 73325 }, { "epoch": 19.56, "grad_norm": 7.758440017700195, "learning_rate": 1.933913043478261e-06, "loss": 0.1042, "step": 73350 }, { "epoch": 19.566666666666666, "grad_norm": 5.49399471282959, "learning_rate": 1.9310144927536233e-06, "loss": 0.1067, "step": 73375 }, { "epoch": 19.573333333333334, "grad_norm": 7.937626838684082, "learning_rate": 1.9281159420289857e-06, "loss": 0.0974, "step": 73400 }, { "epoch": 19.58, "grad_norm": 4.581347942352295, "learning_rate": 1.9252173913043477e-06, "loss": 0.111, "step": 73425 }, { "epoch": 19.586666666666666, "grad_norm": 7.882979869842529, "learning_rate": 1.92231884057971e-06, "loss": 0.1113, "step": 73450 }, { "epoch": 19.593333333333334, "grad_norm": 4.568634986877441, "learning_rate": 1.9194202898550726e-06, "loss": 0.1079, "step": 73475 }, { "epoch": 19.6, "grad_norm": 4.902348041534424, "learning_rate": 1.916521739130435e-06, "loss": 0.1024, "step": 73500 }, { "epoch": 19.606666666666666, "grad_norm": 6.77340030670166, "learning_rate": 1.9136231884057974e-06, "loss": 0.112, "step": 73525 }, { "epoch": 19.613333333333333, "grad_norm": 6.117516040802002, "learning_rate": 1.9107246376811594e-06, "loss": 0.1097, "step": 73550 }, { "epoch": 19.62, "grad_norm": 5.719534397125244, "learning_rate": 1.907826086956522e-06, "loss": 0.1081, "step": 73575 }, { "epoch": 19.626666666666665, "grad_norm": 7.758967399597168, "learning_rate": 1.9049275362318843e-06, "loss": 0.11, "step": 73600 }, { "epoch": 19.633333333333333, "grad_norm": 6.258488655090332, "learning_rate": 1.9020289855072465e-06, "loss": 0.0972, "step": 73625 }, { "epoch": 19.64, "grad_norm": 6.037124156951904, "learning_rate": 1.899130434782609e-06, "loss": 0.1133, "step": 73650 }, { "epoch": 19.64666666666667, "grad_norm": 8.396228790283203, "learning_rate": 1.8962318840579711e-06, "loss": 0.122, "step": 73675 }, { "epoch": 19.653333333333332, "grad_norm": 6.9182610511779785, "learning_rate": 1.8933333333333333e-06, "loss": 0.1046, "step": 73700 }, { "epoch": 19.66, "grad_norm": 5.528317928314209, "learning_rate": 1.8904347826086958e-06, "loss": 0.1101, "step": 73725 }, { "epoch": 19.666666666666668, "grad_norm": 4.2495927810668945, "learning_rate": 1.8875362318840582e-06, "loss": 0.0991, "step": 73750 }, { "epoch": 19.673333333333332, "grad_norm": 5.310347080230713, "learning_rate": 1.8846376811594206e-06, "loss": 0.1056, "step": 73775 }, { "epoch": 19.68, "grad_norm": 6.118180274963379, "learning_rate": 1.8817391304347828e-06, "loss": 0.1199, "step": 73800 }, { "epoch": 19.686666666666667, "grad_norm": 5.611172199249268, "learning_rate": 1.878840579710145e-06, "loss": 0.1099, "step": 73825 }, { "epoch": 19.693333333333335, "grad_norm": 8.030683517456055, "learning_rate": 1.8759420289855073e-06, "loss": 0.1091, "step": 73850 }, { "epoch": 19.7, "grad_norm": 4.744989395141602, "learning_rate": 1.8730434782608697e-06, "loss": 0.0993, "step": 73875 }, { "epoch": 19.706666666666667, "grad_norm": 9.242466926574707, "learning_rate": 1.8701449275362321e-06, "loss": 0.1059, "step": 73900 }, { "epoch": 19.713333333333335, "grad_norm": 7.4035563468933105, "learning_rate": 1.8672463768115945e-06, "loss": 0.0941, "step": 73925 }, { "epoch": 19.72, "grad_norm": 7.084167003631592, "learning_rate": 1.8643478260869566e-06, "loss": 0.1127, "step": 73950 }, { "epoch": 19.726666666666667, "grad_norm": 4.477767467498779, "learning_rate": 1.861449275362319e-06, "loss": 0.1012, "step": 73975 }, { "epoch": 19.733333333333334, "grad_norm": 6.554209232330322, "learning_rate": 1.8585507246376814e-06, "loss": 0.1117, "step": 74000 }, { "epoch": 19.74, "grad_norm": 7.57942008972168, "learning_rate": 1.8556521739130436e-06, "loss": 0.1051, "step": 74025 }, { "epoch": 19.746666666666666, "grad_norm": 3.630720376968384, "learning_rate": 1.852753623188406e-06, "loss": 0.1116, "step": 74050 }, { "epoch": 19.753333333333334, "grad_norm": 7.469941139221191, "learning_rate": 1.8498550724637683e-06, "loss": 0.1058, "step": 74075 }, { "epoch": 19.76, "grad_norm": 6.942729949951172, "learning_rate": 1.8469565217391305e-06, "loss": 0.1033, "step": 74100 }, { "epoch": 19.766666666666666, "grad_norm": 5.364857196807861, "learning_rate": 1.844057971014493e-06, "loss": 0.105, "step": 74125 }, { "epoch": 19.773333333333333, "grad_norm": 6.311131477355957, "learning_rate": 1.8411594202898553e-06, "loss": 0.1112, "step": 74150 }, { "epoch": 19.78, "grad_norm": 7.07230806350708, "learning_rate": 1.8382608695652178e-06, "loss": 0.1102, "step": 74175 }, { "epoch": 19.786666666666665, "grad_norm": 6.101632595062256, "learning_rate": 1.8353623188405798e-06, "loss": 0.1064, "step": 74200 }, { "epoch": 19.793333333333333, "grad_norm": 5.362085342407227, "learning_rate": 1.8324637681159422e-06, "loss": 0.0991, "step": 74225 }, { "epoch": 19.8, "grad_norm": 5.258087158203125, "learning_rate": 1.8295652173913044e-06, "loss": 0.1143, "step": 74250 }, { "epoch": 19.806666666666665, "grad_norm": 5.154257774353027, "learning_rate": 1.8266666666666668e-06, "loss": 0.0962, "step": 74275 }, { "epoch": 19.813333333333333, "grad_norm": 6.176241397857666, "learning_rate": 1.8237681159420293e-06, "loss": 0.1145, "step": 74300 }, { "epoch": 19.82, "grad_norm": 6.273054599761963, "learning_rate": 1.8208695652173913e-06, "loss": 0.0988, "step": 74325 }, { "epoch": 19.826666666666668, "grad_norm": 7.13528299331665, "learning_rate": 1.8179710144927537e-06, "loss": 0.0987, "step": 74350 }, { "epoch": 19.833333333333332, "grad_norm": 4.914234638214111, "learning_rate": 1.8150724637681161e-06, "loss": 0.1202, "step": 74375 }, { "epoch": 19.84, "grad_norm": 4.843100070953369, "learning_rate": 1.8121739130434785e-06, "loss": 0.0996, "step": 74400 }, { "epoch": 19.846666666666668, "grad_norm": 5.404711723327637, "learning_rate": 1.8092753623188407e-06, "loss": 0.1126, "step": 74425 }, { "epoch": 19.85333333333333, "grad_norm": 12.03441047668457, "learning_rate": 1.806376811594203e-06, "loss": 0.1106, "step": 74450 }, { "epoch": 19.86, "grad_norm": 5.760793209075928, "learning_rate": 1.8034782608695654e-06, "loss": 0.114, "step": 74475 }, { "epoch": 19.866666666666667, "grad_norm": 6.3341546058654785, "learning_rate": 1.8005797101449276e-06, "loss": 0.1057, "step": 74500 }, { "epoch": 19.873333333333335, "grad_norm": 5.52339506149292, "learning_rate": 1.79768115942029e-06, "loss": 0.0991, "step": 74525 }, { "epoch": 19.88, "grad_norm": 5.70100736618042, "learning_rate": 1.7947826086956525e-06, "loss": 0.1103, "step": 74550 }, { "epoch": 19.886666666666667, "grad_norm": 7.601683616638184, "learning_rate": 1.7918840579710145e-06, "loss": 0.0993, "step": 74575 }, { "epoch": 19.893333333333334, "grad_norm": 8.634716033935547, "learning_rate": 1.7889855072463769e-06, "loss": 0.1073, "step": 74600 }, { "epoch": 19.9, "grad_norm": 5.04727840423584, "learning_rate": 1.7862028985507248e-06, "loss": 0.0925, "step": 74625 }, { "epoch": 19.906666666666666, "grad_norm": 5.042563438415527, "learning_rate": 1.783304347826087e-06, "loss": 0.1008, "step": 74650 }, { "epoch": 19.913333333333334, "grad_norm": 7.035580635070801, "learning_rate": 1.7804057971014492e-06, "loss": 0.1024, "step": 74675 }, { "epoch": 19.92, "grad_norm": 4.874089241027832, "learning_rate": 1.7775072463768117e-06, "loss": 0.1005, "step": 74700 }, { "epoch": 19.926666666666666, "grad_norm": 6.329769611358643, "learning_rate": 1.774608695652174e-06, "loss": 0.1065, "step": 74725 }, { "epoch": 19.933333333333334, "grad_norm": 4.987755298614502, "learning_rate": 1.7717101449275365e-06, "loss": 0.1128, "step": 74750 }, { "epoch": 19.94, "grad_norm": 6.387165546417236, "learning_rate": 1.7688115942028987e-06, "loss": 0.1071, "step": 74775 }, { "epoch": 19.946666666666665, "grad_norm": 4.52731466293335, "learning_rate": 1.765913043478261e-06, "loss": 0.1027, "step": 74800 }, { "epoch": 19.953333333333333, "grad_norm": 5.432816982269287, "learning_rate": 1.7630144927536234e-06, "loss": 0.1073, "step": 74825 }, { "epoch": 19.96, "grad_norm": 5.270857810974121, "learning_rate": 1.7601159420289856e-06, "loss": 0.1077, "step": 74850 }, { "epoch": 19.966666666666665, "grad_norm": 5.242100715637207, "learning_rate": 1.757217391304348e-06, "loss": 0.104, "step": 74875 }, { "epoch": 19.973333333333333, "grad_norm": 6.794275283813477, "learning_rate": 1.7543188405797104e-06, "loss": 0.109, "step": 74900 }, { "epoch": 19.98, "grad_norm": 7.934667110443115, "learning_rate": 1.7514202898550724e-06, "loss": 0.0989, "step": 74925 }, { "epoch": 19.986666666666668, "grad_norm": 6.383999824523926, "learning_rate": 1.7485217391304349e-06, "loss": 0.0981, "step": 74950 }, { "epoch": 19.993333333333332, "grad_norm": 5.112396240234375, "learning_rate": 1.7456231884057973e-06, "loss": 0.105, "step": 74975 }, { "epoch": 20.0, "grad_norm": 5.979816913604736, "learning_rate": 1.7427246376811597e-06, "loss": 0.1105, "step": 75000 }, { "epoch": 20.0, "eval_cer": 26.13718949741908, "eval_loss": 0.44764193892478943, "eval_runtime": 1216.298, "eval_samples_per_second": 4.111, "eval_steps_per_second": 0.514, "step": 75000 }, { "epoch": 20.006666666666668, "grad_norm": 4.499136447906494, "learning_rate": 1.739826086956522e-06, "loss": 0.0633, "step": 75025 }, { "epoch": 20.013333333333332, "grad_norm": 4.518321514129639, "learning_rate": 1.7369275362318841e-06, "loss": 0.0738, "step": 75050 }, { "epoch": 20.02, "grad_norm": 4.743485450744629, "learning_rate": 1.7340289855072464e-06, "loss": 0.0651, "step": 75075 }, { "epoch": 20.026666666666667, "grad_norm": 3.816793441772461, "learning_rate": 1.7311304347826088e-06, "loss": 0.0664, "step": 75100 }, { "epoch": 20.033333333333335, "grad_norm": 4.108447074890137, "learning_rate": 1.7282318840579712e-06, "loss": 0.0706, "step": 75125 }, { "epoch": 20.04, "grad_norm": 4.854064464569092, "learning_rate": 1.7253333333333336e-06, "loss": 0.0738, "step": 75150 }, { "epoch": 20.046666666666667, "grad_norm": 3.181431770324707, "learning_rate": 1.7224347826086956e-06, "loss": 0.075, "step": 75175 }, { "epoch": 20.053333333333335, "grad_norm": 4.232985973358154, "learning_rate": 1.719536231884058e-06, "loss": 0.0759, "step": 75200 }, { "epoch": 20.06, "grad_norm": 4.824986934661865, "learning_rate": 1.7166376811594205e-06, "loss": 0.064, "step": 75225 }, { "epoch": 20.066666666666666, "grad_norm": 4.280178070068359, "learning_rate": 1.7137391304347827e-06, "loss": 0.0769, "step": 75250 }, { "epoch": 20.073333333333334, "grad_norm": 3.2775228023529053, "learning_rate": 1.7108405797101451e-06, "loss": 0.0726, "step": 75275 }, { "epoch": 20.08, "grad_norm": 4.344793319702148, "learning_rate": 1.7079420289855074e-06, "loss": 0.0675, "step": 75300 }, { "epoch": 20.086666666666666, "grad_norm": 3.863401174545288, "learning_rate": 1.7050434782608696e-06, "loss": 0.0578, "step": 75325 }, { "epoch": 20.093333333333334, "grad_norm": 4.356742858886719, "learning_rate": 1.702144927536232e-06, "loss": 0.0672, "step": 75350 }, { "epoch": 20.1, "grad_norm": 4.02724552154541, "learning_rate": 1.6992463768115944e-06, "loss": 0.0711, "step": 75375 }, { "epoch": 20.106666666666666, "grad_norm": 3.321028470993042, "learning_rate": 1.6963478260869568e-06, "loss": 0.0764, "step": 75400 }, { "epoch": 20.113333333333333, "grad_norm": 3.4327545166015625, "learning_rate": 1.6935652173913046e-06, "loss": 0.0801, "step": 75425 }, { "epoch": 20.12, "grad_norm": 4.2873406410217285, "learning_rate": 1.6906666666666668e-06, "loss": 0.0767, "step": 75450 }, { "epoch": 20.126666666666665, "grad_norm": 6.9325690269470215, "learning_rate": 1.6877681159420292e-06, "loss": 0.0808, "step": 75475 }, { "epoch": 20.133333333333333, "grad_norm": 2.933109760284424, "learning_rate": 1.6848695652173914e-06, "loss": 0.0684, "step": 75500 }, { "epoch": 20.14, "grad_norm": 3.982273817062378, "learning_rate": 1.6819710144927536e-06, "loss": 0.0672, "step": 75525 }, { "epoch": 20.14666666666667, "grad_norm": 5.87224817276001, "learning_rate": 1.679072463768116e-06, "loss": 0.0793, "step": 75550 }, { "epoch": 20.153333333333332, "grad_norm": 4.324000358581543, "learning_rate": 1.6761739130434785e-06, "loss": 0.0728, "step": 75575 }, { "epoch": 20.16, "grad_norm": 5.7561564445495605, "learning_rate": 1.673275362318841e-06, "loss": 0.0731, "step": 75600 }, { "epoch": 20.166666666666668, "grad_norm": 4.172159194946289, "learning_rate": 1.6703768115942031e-06, "loss": 0.0749, "step": 75625 }, { "epoch": 20.173333333333332, "grad_norm": 4.149765968322754, "learning_rate": 1.6674782608695653e-06, "loss": 0.08, "step": 75650 }, { "epoch": 20.18, "grad_norm": 4.817747116088867, "learning_rate": 1.6645797101449275e-06, "loss": 0.0784, "step": 75675 }, { "epoch": 20.186666666666667, "grad_norm": 4.184149742126465, "learning_rate": 1.66168115942029e-06, "loss": 0.0675, "step": 75700 }, { "epoch": 20.19333333333333, "grad_norm": 4.695830345153809, "learning_rate": 1.6587826086956524e-06, "loss": 0.0709, "step": 75725 }, { "epoch": 20.2, "grad_norm": 4.580868244171143, "learning_rate": 1.6558840579710148e-06, "loss": 0.0725, "step": 75750 }, { "epoch": 20.206666666666667, "grad_norm": 4.904492378234863, "learning_rate": 1.6529855072463768e-06, "loss": 0.0787, "step": 75775 }, { "epoch": 20.213333333333335, "grad_norm": 6.0179290771484375, "learning_rate": 1.6500869565217393e-06, "loss": 0.075, "step": 75800 }, { "epoch": 20.22, "grad_norm": 4.801059722900391, "learning_rate": 1.6471884057971017e-06, "loss": 0.0747, "step": 75825 }, { "epoch": 20.226666666666667, "grad_norm": 4.179539203643799, "learning_rate": 1.644289855072464e-06, "loss": 0.0765, "step": 75850 }, { "epoch": 20.233333333333334, "grad_norm": 10.801098823547363, "learning_rate": 1.6413913043478263e-06, "loss": 0.0763, "step": 75875 }, { "epoch": 20.24, "grad_norm": 4.626479625701904, "learning_rate": 1.6384927536231885e-06, "loss": 0.086, "step": 75900 }, { "epoch": 20.246666666666666, "grad_norm": 3.506195068359375, "learning_rate": 1.6355942028985508e-06, "loss": 0.0646, "step": 75925 }, { "epoch": 20.253333333333334, "grad_norm": 4.889527320861816, "learning_rate": 1.6326956521739132e-06, "loss": 0.0694, "step": 75950 }, { "epoch": 20.26, "grad_norm": 5.531268119812012, "learning_rate": 1.6297971014492756e-06, "loss": 0.0695, "step": 75975 }, { "epoch": 20.266666666666666, "grad_norm": 5.063387870788574, "learning_rate": 1.6268985507246378e-06, "loss": 0.0753, "step": 76000 }, { "epoch": 20.273333333333333, "grad_norm": 5.102461338043213, "learning_rate": 1.624e-06, "loss": 0.0756, "step": 76025 }, { "epoch": 20.28, "grad_norm": 4.763950347900391, "learning_rate": 1.6211014492753625e-06, "loss": 0.0661, "step": 76050 }, { "epoch": 20.286666666666665, "grad_norm": 5.345441818237305, "learning_rate": 1.6182028985507247e-06, "loss": 0.0887, "step": 76075 }, { "epoch": 20.293333333333333, "grad_norm": 3.838231325149536, "learning_rate": 1.615304347826087e-06, "loss": 0.0709, "step": 76100 }, { "epoch": 20.3, "grad_norm": 5.875848770141602, "learning_rate": 1.6124057971014495e-06, "loss": 0.0571, "step": 76125 }, { "epoch": 20.306666666666665, "grad_norm": 4.8940653800964355, "learning_rate": 1.6095072463768115e-06, "loss": 0.0715, "step": 76150 }, { "epoch": 20.313333333333333, "grad_norm": 4.76296854019165, "learning_rate": 1.606608695652174e-06, "loss": 0.0759, "step": 76175 }, { "epoch": 20.32, "grad_norm": 6.766254901885986, "learning_rate": 1.6037101449275364e-06, "loss": 0.0877, "step": 76200 }, { "epoch": 20.326666666666668, "grad_norm": 7.053617477416992, "learning_rate": 1.6008115942028988e-06, "loss": 0.0755, "step": 76225 }, { "epoch": 20.333333333333332, "grad_norm": 4.824756145477295, "learning_rate": 1.597913043478261e-06, "loss": 0.0758, "step": 76250 }, { "epoch": 20.34, "grad_norm": 5.201979160308838, "learning_rate": 1.5950144927536232e-06, "loss": 0.0657, "step": 76275 }, { "epoch": 20.346666666666668, "grad_norm": 4.739941596984863, "learning_rate": 1.5921159420289855e-06, "loss": 0.084, "step": 76300 }, { "epoch": 20.35333333333333, "grad_norm": 6.158890247344971, "learning_rate": 1.5892173913043479e-06, "loss": 0.0861, "step": 76325 }, { "epoch": 20.36, "grad_norm": 3.9498066902160645, "learning_rate": 1.5863188405797103e-06, "loss": 0.0681, "step": 76350 }, { "epoch": 20.366666666666667, "grad_norm": 4.284798622131348, "learning_rate": 1.5834202898550727e-06, "loss": 0.0665, "step": 76375 }, { "epoch": 20.373333333333335, "grad_norm": 5.49983549118042, "learning_rate": 1.5805217391304347e-06, "loss": 0.0736, "step": 76400 }, { "epoch": 20.38, "grad_norm": 5.810794830322266, "learning_rate": 1.5776231884057972e-06, "loss": 0.0837, "step": 76425 }, { "epoch": 20.386666666666667, "grad_norm": 4.6355299949646, "learning_rate": 1.5747246376811596e-06, "loss": 0.0822, "step": 76450 }, { "epoch": 20.393333333333334, "grad_norm": 5.165829181671143, "learning_rate": 1.5718260869565218e-06, "loss": 0.0684, "step": 76475 }, { "epoch": 20.4, "grad_norm": 4.030656337738037, "learning_rate": 1.5689275362318842e-06, "loss": 0.0694, "step": 76500 }, { "epoch": 20.406666666666666, "grad_norm": 5.022584438323975, "learning_rate": 1.5660289855072467e-06, "loss": 0.0689, "step": 76525 }, { "epoch": 20.413333333333334, "grad_norm": 5.976170063018799, "learning_rate": 1.5631304347826087e-06, "loss": 0.075, "step": 76550 }, { "epoch": 20.42, "grad_norm": 4.599714279174805, "learning_rate": 1.560231884057971e-06, "loss": 0.069, "step": 76575 }, { "epoch": 20.426666666666666, "grad_norm": 4.868023872375488, "learning_rate": 1.5573333333333335e-06, "loss": 0.0693, "step": 76600 }, { "epoch": 20.433333333333334, "grad_norm": 7.023025035858154, "learning_rate": 1.554434782608696e-06, "loss": 0.0724, "step": 76625 }, { "epoch": 20.44, "grad_norm": 3.7071945667266846, "learning_rate": 1.5515362318840582e-06, "loss": 0.0682, "step": 76650 }, { "epoch": 20.446666666666665, "grad_norm": 3.822779417037964, "learning_rate": 1.5486376811594204e-06, "loss": 0.0719, "step": 76675 }, { "epoch": 20.453333333333333, "grad_norm": 5.279562950134277, "learning_rate": 1.5457391304347826e-06, "loss": 0.0658, "step": 76700 }, { "epoch": 20.46, "grad_norm": 3.039698600769043, "learning_rate": 1.542840579710145e-06, "loss": 0.0812, "step": 76725 }, { "epoch": 20.466666666666665, "grad_norm": 3.8948378562927246, "learning_rate": 1.5399420289855074e-06, "loss": 0.0648, "step": 76750 }, { "epoch": 20.473333333333333, "grad_norm": 5.547417640686035, "learning_rate": 1.5370434782608699e-06, "loss": 0.0641, "step": 76775 }, { "epoch": 20.48, "grad_norm": 5.27263069152832, "learning_rate": 1.5341449275362319e-06, "loss": 0.0726, "step": 76800 }, { "epoch": 20.486666666666668, "grad_norm": 4.628249168395996, "learning_rate": 1.5312463768115943e-06, "loss": 0.0734, "step": 76825 }, { "epoch": 20.493333333333332, "grad_norm": 5.884029388427734, "learning_rate": 1.5283478260869567e-06, "loss": 0.0817, "step": 76850 }, { "epoch": 20.5, "grad_norm": 5.112502098083496, "learning_rate": 1.525449275362319e-06, "loss": 0.0861, "step": 76875 }, { "epoch": 20.506666666666668, "grad_norm": 3.8692290782928467, "learning_rate": 1.5225507246376814e-06, "loss": 0.076, "step": 76900 }, { "epoch": 20.513333333333332, "grad_norm": 5.756317615509033, "learning_rate": 1.5196521739130436e-06, "loss": 0.0692, "step": 76925 }, { "epoch": 20.52, "grad_norm": 3.3247487545013428, "learning_rate": 1.5167536231884058e-06, "loss": 0.0727, "step": 76950 }, { "epoch": 20.526666666666667, "grad_norm": 5.139090061187744, "learning_rate": 1.5138550724637682e-06, "loss": 0.072, "step": 76975 }, { "epoch": 20.533333333333335, "grad_norm": 5.207798004150391, "learning_rate": 1.5109565217391306e-06, "loss": 0.0791, "step": 77000 }, { "epoch": 20.54, "grad_norm": 6.053536415100098, "learning_rate": 1.508057971014493e-06, "loss": 0.0708, "step": 77025 }, { "epoch": 20.546666666666667, "grad_norm": 6.476953506469727, "learning_rate": 1.505159420289855e-06, "loss": 0.0675, "step": 77050 }, { "epoch": 20.553333333333335, "grad_norm": 5.789118766784668, "learning_rate": 1.5022608695652175e-06, "loss": 0.0791, "step": 77075 }, { "epoch": 20.56, "grad_norm": 4.146660327911377, "learning_rate": 1.4993623188405797e-06, "loss": 0.0783, "step": 77100 }, { "epoch": 20.566666666666666, "grad_norm": 6.2716217041015625, "learning_rate": 1.4964637681159421e-06, "loss": 0.0673, "step": 77125 }, { "epoch": 20.573333333333334, "grad_norm": 7.181680679321289, "learning_rate": 1.4935652173913046e-06, "loss": 0.0867, "step": 77150 }, { "epoch": 20.58, "grad_norm": 5.028200149536133, "learning_rate": 1.4906666666666666e-06, "loss": 0.0761, "step": 77175 }, { "epoch": 20.586666666666666, "grad_norm": 6.20355749130249, "learning_rate": 1.487768115942029e-06, "loss": 0.0774, "step": 77200 }, { "epoch": 20.593333333333334, "grad_norm": 4.135786533355713, "learning_rate": 1.4848695652173914e-06, "loss": 0.0804, "step": 77225 }, { "epoch": 20.6, "grad_norm": 5.373288631439209, "learning_rate": 1.4819710144927538e-06, "loss": 0.0723, "step": 77250 }, { "epoch": 20.606666666666666, "grad_norm": 5.709471225738525, "learning_rate": 1.479072463768116e-06, "loss": 0.0739, "step": 77275 }, { "epoch": 20.613333333333333, "grad_norm": 3.691180944442749, "learning_rate": 1.4761739130434785e-06, "loss": 0.0688, "step": 77300 }, { "epoch": 20.62, "grad_norm": 5.0291829109191895, "learning_rate": 1.4732753623188407e-06, "loss": 0.0652, "step": 77325 }, { "epoch": 20.626666666666665, "grad_norm": 5.817631721496582, "learning_rate": 1.470376811594203e-06, "loss": 0.0751, "step": 77350 }, { "epoch": 20.633333333333333, "grad_norm": 5.407247066497803, "learning_rate": 1.4674782608695653e-06, "loss": 0.0833, "step": 77375 }, { "epoch": 20.64, "grad_norm": 5.1858229637146, "learning_rate": 1.4645797101449278e-06, "loss": 0.0669, "step": 77400 }, { "epoch": 20.64666666666667, "grad_norm": 5.523839950561523, "learning_rate": 1.4616811594202902e-06, "loss": 0.0648, "step": 77425 }, { "epoch": 20.653333333333332, "grad_norm": 4.935458660125732, "learning_rate": 1.4587826086956522e-06, "loss": 0.0766, "step": 77450 }, { "epoch": 20.66, "grad_norm": 6.145004749298096, "learning_rate": 1.4558840579710146e-06, "loss": 0.0755, "step": 77475 }, { "epoch": 20.666666666666668, "grad_norm": 4.056277275085449, "learning_rate": 1.4529855072463768e-06, "loss": 0.0673, "step": 77500 }, { "epoch": 20.673333333333332, "grad_norm": 6.305373191833496, "learning_rate": 1.4500869565217393e-06, "loss": 0.0851, "step": 77525 }, { "epoch": 20.68, "grad_norm": 3.589618682861328, "learning_rate": 1.4471884057971017e-06, "loss": 0.0784, "step": 77550 }, { "epoch": 20.686666666666667, "grad_norm": 4.370749473571777, "learning_rate": 1.4442898550724637e-06, "loss": 0.0789, "step": 77575 }, { "epoch": 20.693333333333335, "grad_norm": 3.3122658729553223, "learning_rate": 1.4413913043478261e-06, "loss": 0.0765, "step": 77600 }, { "epoch": 20.7, "grad_norm": 5.424559593200684, "learning_rate": 1.4384927536231885e-06, "loss": 0.0704, "step": 77625 }, { "epoch": 20.706666666666667, "grad_norm": 3.866323232650757, "learning_rate": 1.435594202898551e-06, "loss": 0.0833, "step": 77650 }, { "epoch": 20.713333333333335, "grad_norm": 3.519435405731201, "learning_rate": 1.4326956521739132e-06, "loss": 0.0706, "step": 77675 }, { "epoch": 20.72, "grad_norm": 5.917109966278076, "learning_rate": 1.4297971014492754e-06, "loss": 0.0628, "step": 77700 }, { "epoch": 20.726666666666667, "grad_norm": 3.2331559658050537, "learning_rate": 1.4268985507246378e-06, "loss": 0.0789, "step": 77725 }, { "epoch": 20.733333333333334, "grad_norm": 5.447463512420654, "learning_rate": 1.424e-06, "loss": 0.0639, "step": 77750 }, { "epoch": 20.74, "grad_norm": 3.689227819442749, "learning_rate": 1.4211014492753625e-06, "loss": 0.0742, "step": 77775 }, { "epoch": 20.746666666666666, "grad_norm": 5.718482971191406, "learning_rate": 1.418202898550725e-06, "loss": 0.0747, "step": 77800 }, { "epoch": 20.753333333333334, "grad_norm": 3.6985857486724854, "learning_rate": 1.415304347826087e-06, "loss": 0.0711, "step": 77825 }, { "epoch": 20.76, "grad_norm": 5.335108757019043, "learning_rate": 1.4124057971014493e-06, "loss": 0.0673, "step": 77850 }, { "epoch": 20.766666666666666, "grad_norm": 4.746745586395264, "learning_rate": 1.4095072463768118e-06, "loss": 0.0662, "step": 77875 }, { "epoch": 20.773333333333333, "grad_norm": 4.86131477355957, "learning_rate": 1.406608695652174e-06, "loss": 0.0816, "step": 77900 }, { "epoch": 20.78, "grad_norm": 3.6159462928771973, "learning_rate": 1.4037101449275364e-06, "loss": 0.0672, "step": 77925 }, { "epoch": 20.786666666666665, "grad_norm": 6.308316707611084, "learning_rate": 1.4008115942028986e-06, "loss": 0.0715, "step": 77950 }, { "epoch": 20.793333333333333, "grad_norm": 3.595933437347412, "learning_rate": 1.3979130434782608e-06, "loss": 0.0717, "step": 77975 }, { "epoch": 20.8, "grad_norm": 3.2236249446868896, "learning_rate": 1.3950144927536233e-06, "loss": 0.0685, "step": 78000 }, { "epoch": 20.806666666666665, "grad_norm": 4.263754367828369, "learning_rate": 1.3921159420289857e-06, "loss": 0.0687, "step": 78025 }, { "epoch": 20.813333333333333, "grad_norm": 10.392674446105957, "learning_rate": 1.389217391304348e-06, "loss": 0.066, "step": 78050 }, { "epoch": 20.82, "grad_norm": 5.208818435668945, "learning_rate": 1.3863188405797103e-06, "loss": 0.0636, "step": 78075 }, { "epoch": 20.826666666666668, "grad_norm": 5.746772289276123, "learning_rate": 1.3834202898550725e-06, "loss": 0.07, "step": 78100 }, { "epoch": 20.833333333333332, "grad_norm": 5.387279510498047, "learning_rate": 1.380521739130435e-06, "loss": 0.0733, "step": 78125 }, { "epoch": 20.84, "grad_norm": 4.193782329559326, "learning_rate": 1.3776231884057972e-06, "loss": 0.0802, "step": 78150 }, { "epoch": 20.846666666666668, "grad_norm": 5.029154300689697, "learning_rate": 1.3747246376811596e-06, "loss": 0.0728, "step": 78175 }, { "epoch": 20.85333333333333, "grad_norm": 4.8937859535217285, "learning_rate": 1.371826086956522e-06, "loss": 0.0734, "step": 78200 }, { "epoch": 20.86, "grad_norm": 3.9081664085388184, "learning_rate": 1.368927536231884e-06, "loss": 0.0775, "step": 78225 }, { "epoch": 20.866666666666667, "grad_norm": 4.772598743438721, "learning_rate": 1.3660289855072465e-06, "loss": 0.064, "step": 78250 }, { "epoch": 20.873333333333335, "grad_norm": 4.318708419799805, "learning_rate": 1.3631304347826089e-06, "loss": 0.0707, "step": 78275 }, { "epoch": 20.88, "grad_norm": 5.498206615447998, "learning_rate": 1.360231884057971e-06, "loss": 0.0796, "step": 78300 }, { "epoch": 20.886666666666667, "grad_norm": 7.614238739013672, "learning_rate": 1.3573333333333335e-06, "loss": 0.0765, "step": 78325 }, { "epoch": 20.893333333333334, "grad_norm": 2.9194176197052, "learning_rate": 1.3544347826086957e-06, "loss": 0.0639, "step": 78350 }, { "epoch": 20.9, "grad_norm": 4.066681385040283, "learning_rate": 1.351536231884058e-06, "loss": 0.0655, "step": 78375 }, { "epoch": 20.906666666666666, "grad_norm": 4.048862934112549, "learning_rate": 1.3486376811594204e-06, "loss": 0.0613, "step": 78400 }, { "epoch": 20.913333333333334, "grad_norm": 4.944583892822266, "learning_rate": 1.345855072463768e-06, "loss": 0.0711, "step": 78425 }, { "epoch": 20.92, "grad_norm": 5.077404022216797, "learning_rate": 1.3429565217391305e-06, "loss": 0.077, "step": 78450 }, { "epoch": 20.926666666666666, "grad_norm": 8.38245677947998, "learning_rate": 1.340057971014493e-06, "loss": 0.0733, "step": 78475 }, { "epoch": 20.933333333333334, "grad_norm": 3.5818517208099365, "learning_rate": 1.3371594202898552e-06, "loss": 0.0615, "step": 78500 }, { "epoch": 20.94, "grad_norm": 6.56728458404541, "learning_rate": 1.3342608695652176e-06, "loss": 0.0643, "step": 78525 }, { "epoch": 20.946666666666665, "grad_norm": 3.9139792919158936, "learning_rate": 1.3313623188405798e-06, "loss": 0.075, "step": 78550 }, { "epoch": 20.953333333333333, "grad_norm": 5.715031623840332, "learning_rate": 1.328463768115942e-06, "loss": 0.0775, "step": 78575 }, { "epoch": 20.96, "grad_norm": 6.830034255981445, "learning_rate": 1.3255652173913044e-06, "loss": 0.0685, "step": 78600 }, { "epoch": 20.966666666666665, "grad_norm": 5.490087032318115, "learning_rate": 1.3226666666666669e-06, "loss": 0.0701, "step": 78625 }, { "epoch": 20.973333333333333, "grad_norm": 4.977914333343506, "learning_rate": 1.3197681159420293e-06, "loss": 0.0682, "step": 78650 }, { "epoch": 20.98, "grad_norm": 7.904953479766846, "learning_rate": 1.3168695652173913e-06, "loss": 0.0818, "step": 78675 }, { "epoch": 20.986666666666668, "grad_norm": 3.612443685531616, "learning_rate": 1.3139710144927537e-06, "loss": 0.0606, "step": 78700 }, { "epoch": 20.993333333333332, "grad_norm": 5.730360507965088, "learning_rate": 1.311072463768116e-06, "loss": 0.066, "step": 78725 }, { "epoch": 21.0, "grad_norm": 4.647276401519775, "learning_rate": 1.3081739130434784e-06, "loss": 0.0727, "step": 78750 }, { "epoch": 21.0, "eval_cer": 26.90867077874886, "eval_loss": 0.46371427178382874, "eval_runtime": 1276.8016, "eval_samples_per_second": 3.916, "eval_steps_per_second": 0.49, "step": 78750 }, { "epoch": 21.006666666666668, "grad_norm": 3.2614426612854004, "learning_rate": 1.3052753623188408e-06, "loss": 0.0425, "step": 78775 }, { "epoch": 21.013333333333332, "grad_norm": 3.771847724914551, "learning_rate": 1.3023768115942028e-06, "loss": 0.0525, "step": 78800 }, { "epoch": 21.02, "grad_norm": 3.5614168643951416, "learning_rate": 1.299594202898551e-06, "loss": 0.0514, "step": 78825 }, { "epoch": 21.026666666666667, "grad_norm": 4.356940269470215, "learning_rate": 1.2966956521739133e-06, "loss": 0.0494, "step": 78850 }, { "epoch": 21.033333333333335, "grad_norm": 3.918349027633667, "learning_rate": 1.2937971014492754e-06, "loss": 0.0515, "step": 78875 }, { "epoch": 21.04, "grad_norm": 4.2152180671691895, "learning_rate": 1.2908985507246378e-06, "loss": 0.0495, "step": 78900 }, { "epoch": 21.046666666666667, "grad_norm": 3.488832473754883, "learning_rate": 1.288e-06, "loss": 0.0505, "step": 78925 }, { "epoch": 21.053333333333335, "grad_norm": 3.187856912612915, "learning_rate": 1.2851014492753624e-06, "loss": 0.0494, "step": 78950 }, { "epoch": 21.06, "grad_norm": 3.947246551513672, "learning_rate": 1.2822028985507248e-06, "loss": 0.0556, "step": 78975 }, { "epoch": 21.066666666666666, "grad_norm": 2.9545559883117676, "learning_rate": 1.2794202898550726e-06, "loss": 0.0456, "step": 79000 }, { "epoch": 21.073333333333334, "grad_norm": 4.610477447509766, "learning_rate": 1.276521739130435e-06, "loss": 0.0508, "step": 79025 }, { "epoch": 21.08, "grad_norm": 5.002377986907959, "learning_rate": 1.2736231884057972e-06, "loss": 0.0514, "step": 79050 }, { "epoch": 21.086666666666666, "grad_norm": 2.899893045425415, "learning_rate": 1.2707246376811594e-06, "loss": 0.0452, "step": 79075 }, { "epoch": 21.093333333333334, "grad_norm": 3.5620481967926025, "learning_rate": 1.2678260869565218e-06, "loss": 0.0511, "step": 79100 }, { "epoch": 21.1, "grad_norm": 3.8475894927978516, "learning_rate": 1.264927536231884e-06, "loss": 0.0502, "step": 79125 }, { "epoch": 21.106666666666666, "grad_norm": 4.942131042480469, "learning_rate": 1.2620289855072465e-06, "loss": 0.0493, "step": 79150 }, { "epoch": 21.113333333333333, "grad_norm": 4.001091003417969, "learning_rate": 1.259130434782609e-06, "loss": 0.0526, "step": 79175 }, { "epoch": 21.12, "grad_norm": 3.0272939205169678, "learning_rate": 1.2562318840579713e-06, "loss": 0.0494, "step": 79200 }, { "epoch": 21.126666666666665, "grad_norm": 3.961594343185425, "learning_rate": 1.2533333333333333e-06, "loss": 0.0506, "step": 79225 }, { "epoch": 21.133333333333333, "grad_norm": 4.368195533752441, "learning_rate": 1.2504347826086958e-06, "loss": 0.0457, "step": 79250 }, { "epoch": 21.14, "grad_norm": 2.238495111465454, "learning_rate": 1.2475362318840582e-06, "loss": 0.0456, "step": 79275 }, { "epoch": 21.14666666666667, "grad_norm": 3.884432792663574, "learning_rate": 1.2446376811594204e-06, "loss": 0.0515, "step": 79300 }, { "epoch": 21.153333333333332, "grad_norm": 4.020179748535156, "learning_rate": 1.2417391304347826e-06, "loss": 0.0479, "step": 79325 }, { "epoch": 21.16, "grad_norm": 3.6704483032226562, "learning_rate": 1.238840579710145e-06, "loss": 0.0451, "step": 79350 }, { "epoch": 21.166666666666668, "grad_norm": 3.1316659450531006, "learning_rate": 1.2359420289855073e-06, "loss": 0.0489, "step": 79375 }, { "epoch": 21.173333333333332, "grad_norm": 3.6279454231262207, "learning_rate": 1.2330434782608697e-06, "loss": 0.0463, "step": 79400 }, { "epoch": 21.18, "grad_norm": 2.0750138759613037, "learning_rate": 1.2301449275362321e-06, "loss": 0.0489, "step": 79425 }, { "epoch": 21.186666666666667, "grad_norm": 4.704820156097412, "learning_rate": 1.2272463768115943e-06, "loss": 0.0477, "step": 79450 }, { "epoch": 21.19333333333333, "grad_norm": 4.388314247131348, "learning_rate": 1.2243478260869567e-06, "loss": 0.0541, "step": 79475 }, { "epoch": 21.2, "grad_norm": 5.7774248123168945, "learning_rate": 1.221449275362319e-06, "loss": 0.0448, "step": 79500 }, { "epoch": 21.206666666666667, "grad_norm": 4.47971773147583, "learning_rate": 1.2185507246376812e-06, "loss": 0.0526, "step": 79525 }, { "epoch": 21.213333333333335, "grad_norm": 4.446244716644287, "learning_rate": 1.2156521739130436e-06, "loss": 0.0516, "step": 79550 }, { "epoch": 21.22, "grad_norm": 1.9114357233047485, "learning_rate": 1.2127536231884058e-06, "loss": 0.0491, "step": 79575 }, { "epoch": 21.226666666666667, "grad_norm": 4.885392665863037, "learning_rate": 1.2098550724637682e-06, "loss": 0.0431, "step": 79600 }, { "epoch": 21.233333333333334, "grad_norm": 3.358412027359009, "learning_rate": 1.2069565217391305e-06, "loss": 0.0563, "step": 79625 }, { "epoch": 21.24, "grad_norm": 4.772251129150391, "learning_rate": 1.2040579710144929e-06, "loss": 0.0561, "step": 79650 }, { "epoch": 21.246666666666666, "grad_norm": 4.841070652008057, "learning_rate": 1.2011594202898553e-06, "loss": 0.0595, "step": 79675 }, { "epoch": 21.253333333333334, "grad_norm": 6.100193977355957, "learning_rate": 1.1982608695652175e-06, "loss": 0.0453, "step": 79700 }, { "epoch": 21.26, "grad_norm": 3.792578935623169, "learning_rate": 1.1953623188405797e-06, "loss": 0.0481, "step": 79725 }, { "epoch": 21.266666666666666, "grad_norm": 6.724049091339111, "learning_rate": 1.1924637681159422e-06, "loss": 0.0478, "step": 79750 }, { "epoch": 21.273333333333333, "grad_norm": 5.722999572753906, "learning_rate": 1.1895652173913044e-06, "loss": 0.0547, "step": 79775 }, { "epoch": 21.28, "grad_norm": 4.037215709686279, "learning_rate": 1.1866666666666668e-06, "loss": 0.053, "step": 79800 }, { "epoch": 21.286666666666665, "grad_norm": 3.5269250869750977, "learning_rate": 1.183768115942029e-06, "loss": 0.0533, "step": 79825 }, { "epoch": 21.293333333333333, "grad_norm": 2.092538356781006, "learning_rate": 1.1808695652173915e-06, "loss": 0.0506, "step": 79850 }, { "epoch": 21.3, "grad_norm": 4.747567176818848, "learning_rate": 1.1779710144927539e-06, "loss": 0.0519, "step": 79875 }, { "epoch": 21.306666666666665, "grad_norm": 3.7989540100097656, "learning_rate": 1.175072463768116e-06, "loss": 0.0477, "step": 79900 }, { "epoch": 21.313333333333333, "grad_norm": 3.3993515968322754, "learning_rate": 1.1721739130434783e-06, "loss": 0.0471, "step": 79925 }, { "epoch": 21.32, "grad_norm": 3.052028179168701, "learning_rate": 1.1692753623188405e-06, "loss": 0.0476, "step": 79950 }, { "epoch": 21.326666666666668, "grad_norm": 4.270429611206055, "learning_rate": 1.166376811594203e-06, "loss": 0.0464, "step": 79975 }, { "epoch": 21.333333333333332, "grad_norm": 4.169071197509766, "learning_rate": 1.1634782608695654e-06, "loss": 0.0511, "step": 80000 }, { "epoch": 21.34, "grad_norm": 4.950501918792725, "learning_rate": 1.1605797101449276e-06, "loss": 0.0503, "step": 80025 }, { "epoch": 21.346666666666668, "grad_norm": 4.771484375, "learning_rate": 1.15768115942029e-06, "loss": 0.053, "step": 80050 }, { "epoch": 21.35333333333333, "grad_norm": 3.404331684112549, "learning_rate": 1.1547826086956522e-06, "loss": 0.0476, "step": 80075 }, { "epoch": 21.36, "grad_norm": 5.113729476928711, "learning_rate": 1.1518840579710147e-06, "loss": 0.0534, "step": 80100 }, { "epoch": 21.366666666666667, "grad_norm": 3.8690383434295654, "learning_rate": 1.1489855072463769e-06, "loss": 0.0491, "step": 80125 }, { "epoch": 21.373333333333335, "grad_norm": 2.068136215209961, "learning_rate": 1.146086956521739e-06, "loss": 0.0487, "step": 80150 }, { "epoch": 21.38, "grad_norm": 4.343874931335449, "learning_rate": 1.1431884057971015e-06, "loss": 0.0489, "step": 80175 }, { "epoch": 21.386666666666667, "grad_norm": 3.1237571239471436, "learning_rate": 1.140289855072464e-06, "loss": 0.0524, "step": 80200 }, { "epoch": 21.393333333333334, "grad_norm": 3.6920406818389893, "learning_rate": 1.1373913043478262e-06, "loss": 0.0478, "step": 80225 }, { "epoch": 21.4, "grad_norm": 4.447538375854492, "learning_rate": 1.1344927536231886e-06, "loss": 0.0489, "step": 80250 }, { "epoch": 21.406666666666666, "grad_norm": 3.8326332569122314, "learning_rate": 1.1315942028985508e-06, "loss": 0.0436, "step": 80275 }, { "epoch": 21.413333333333334, "grad_norm": 4.491021156311035, "learning_rate": 1.1286956521739132e-06, "loss": 0.0441, "step": 80300 }, { "epoch": 21.42, "grad_norm": 4.208890438079834, "learning_rate": 1.1257971014492754e-06, "loss": 0.0511, "step": 80325 }, { "epoch": 21.426666666666666, "grad_norm": 4.915008544921875, "learning_rate": 1.1228985507246376e-06, "loss": 0.0701, "step": 80350 }, { "epoch": 21.433333333333334, "grad_norm": 3.1620287895202637, "learning_rate": 1.12e-06, "loss": 0.0499, "step": 80375 }, { "epoch": 21.44, "grad_norm": 5.336302280426025, "learning_rate": 1.1171014492753623e-06, "loss": 0.0553, "step": 80400 }, { "epoch": 21.446666666666665, "grad_norm": 5.298799514770508, "learning_rate": 1.1142028985507247e-06, "loss": 0.0482, "step": 80425 }, { "epoch": 21.453333333333333, "grad_norm": 3.950234889984131, "learning_rate": 1.1113043478260871e-06, "loss": 0.05, "step": 80450 }, { "epoch": 21.46, "grad_norm": 4.097681522369385, "learning_rate": 1.1084057971014494e-06, "loss": 0.0494, "step": 80475 }, { "epoch": 21.466666666666665, "grad_norm": 4.4974188804626465, "learning_rate": 1.1055072463768118e-06, "loss": 0.0571, "step": 80500 }, { "epoch": 21.473333333333333, "grad_norm": 3.4579737186431885, "learning_rate": 1.102608695652174e-06, "loss": 0.0491, "step": 80525 }, { "epoch": 21.48, "grad_norm": 3.6873416900634766, "learning_rate": 1.0997101449275362e-06, "loss": 0.0458, "step": 80550 }, { "epoch": 21.486666666666668, "grad_norm": 4.258474826812744, "learning_rate": 1.0968115942028986e-06, "loss": 0.0531, "step": 80575 }, { "epoch": 21.493333333333332, "grad_norm": 3.425936698913574, "learning_rate": 1.0939130434782609e-06, "loss": 0.0535, "step": 80600 }, { "epoch": 21.5, "grad_norm": 4.516186237335205, "learning_rate": 1.0910144927536233e-06, "loss": 0.0542, "step": 80625 }, { "epoch": 21.506666666666668, "grad_norm": 4.727997779846191, "learning_rate": 1.0881159420289857e-06, "loss": 0.0521, "step": 80650 }, { "epoch": 21.513333333333332, "grad_norm": 4.647358417510986, "learning_rate": 1.085217391304348e-06, "loss": 0.05, "step": 80675 }, { "epoch": 21.52, "grad_norm": 4.480920791625977, "learning_rate": 1.0823188405797103e-06, "loss": 0.0627, "step": 80700 }, { "epoch": 21.526666666666667, "grad_norm": 4.677448749542236, "learning_rate": 1.0794202898550726e-06, "loss": 0.0586, "step": 80725 }, { "epoch": 21.533333333333335, "grad_norm": 4.446163654327393, "learning_rate": 1.0765217391304348e-06, "loss": 0.0535, "step": 80750 }, { "epoch": 21.54, "grad_norm": 3.1634902954101562, "learning_rate": 1.0736231884057972e-06, "loss": 0.0575, "step": 80775 }, { "epoch": 21.546666666666667, "grad_norm": 2.723113775253296, "learning_rate": 1.0707246376811594e-06, "loss": 0.0519, "step": 80800 }, { "epoch": 21.553333333333335, "grad_norm": 3.7900519371032715, "learning_rate": 1.0678260869565218e-06, "loss": 0.0501, "step": 80825 }, { "epoch": 21.56, "grad_norm": 4.046792507171631, "learning_rate": 1.064927536231884e-06, "loss": 0.0517, "step": 80850 }, { "epoch": 21.566666666666666, "grad_norm": 4.413103103637695, "learning_rate": 1.0620289855072465e-06, "loss": 0.0504, "step": 80875 }, { "epoch": 21.573333333333334, "grad_norm": 4.499053955078125, "learning_rate": 1.059130434782609e-06, "loss": 0.0589, "step": 80900 }, { "epoch": 21.58, "grad_norm": 4.1777777671813965, "learning_rate": 1.0562318840579711e-06, "loss": 0.0506, "step": 80925 }, { "epoch": 21.586666666666666, "grad_norm": 3.405369997024536, "learning_rate": 1.0533333333333333e-06, "loss": 0.051, "step": 80950 }, { "epoch": 21.593333333333334, "grad_norm": 6.297543525695801, "learning_rate": 1.0504347826086958e-06, "loss": 0.049, "step": 80975 }, { "epoch": 21.6, "grad_norm": 14.914164543151855, "learning_rate": 1.047536231884058e-06, "loss": 0.0583, "step": 81000 }, { "epoch": 21.606666666666666, "grad_norm": 5.00319766998291, "learning_rate": 1.0446376811594204e-06, "loss": 0.0582, "step": 81025 }, { "epoch": 21.613333333333333, "grad_norm": 2.895887613296509, "learning_rate": 1.0417391304347826e-06, "loss": 0.0501, "step": 81050 }, { "epoch": 21.62, "grad_norm": 4.367408752441406, "learning_rate": 1.038840579710145e-06, "loss": 0.0531, "step": 81075 }, { "epoch": 21.626666666666665, "grad_norm": 3.333562135696411, "learning_rate": 1.0359420289855075e-06, "loss": 0.0545, "step": 81100 }, { "epoch": 21.633333333333333, "grad_norm": 5.34510612487793, "learning_rate": 1.0330434782608697e-06, "loss": 0.0513, "step": 81125 }, { "epoch": 21.64, "grad_norm": 5.3908185958862305, "learning_rate": 1.030144927536232e-06, "loss": 0.0538, "step": 81150 }, { "epoch": 21.64666666666667, "grad_norm": 3.7106716632843018, "learning_rate": 1.0272463768115941e-06, "loss": 0.0472, "step": 81175 }, { "epoch": 21.653333333333332, "grad_norm": 3.2045698165893555, "learning_rate": 1.0243478260869565e-06, "loss": 0.0469, "step": 81200 }, { "epoch": 21.66, "grad_norm": 3.032815456390381, "learning_rate": 1.021449275362319e-06, "loss": 0.0473, "step": 81225 }, { "epoch": 21.666666666666668, "grad_norm": 4.412717819213867, "learning_rate": 1.0185507246376812e-06, "loss": 0.0524, "step": 81250 }, { "epoch": 21.673333333333332, "grad_norm": 3.4914329051971436, "learning_rate": 1.0156521739130436e-06, "loss": 0.0532, "step": 81275 }, { "epoch": 21.68, "grad_norm": 3.735934257507324, "learning_rate": 1.012753623188406e-06, "loss": 0.0458, "step": 81300 }, { "epoch": 21.686666666666667, "grad_norm": 3.8040499687194824, "learning_rate": 1.0098550724637683e-06, "loss": 0.0523, "step": 81325 }, { "epoch": 21.693333333333335, "grad_norm": 2.6163992881774902, "learning_rate": 1.0069565217391305e-06, "loss": 0.0501, "step": 81350 }, { "epoch": 21.7, "grad_norm": 6.509655475616455, "learning_rate": 1.0040579710144927e-06, "loss": 0.0524, "step": 81375 }, { "epoch": 21.706666666666667, "grad_norm": 4.658596515655518, "learning_rate": 1.0011594202898551e-06, "loss": 0.0549, "step": 81400 }, { "epoch": 21.713333333333335, "grad_norm": 3.058148145675659, "learning_rate": 9.982608695652175e-07, "loss": 0.0432, "step": 81425 }, { "epoch": 21.72, "grad_norm": 5.574088096618652, "learning_rate": 9.953623188405798e-07, "loss": 0.048, "step": 81450 }, { "epoch": 21.726666666666667, "grad_norm": 5.232772350311279, "learning_rate": 9.924637681159422e-07, "loss": 0.0462, "step": 81475 }, { "epoch": 21.733333333333334, "grad_norm": 4.889127731323242, "learning_rate": 9.895652173913044e-07, "loss": 0.0636, "step": 81500 }, { "epoch": 21.74, "grad_norm": 5.316771030426025, "learning_rate": 9.866666666666668e-07, "loss": 0.0497, "step": 81525 }, { "epoch": 21.746666666666666, "grad_norm": 3.9566116333007812, "learning_rate": 9.83768115942029e-07, "loss": 0.0514, "step": 81550 }, { "epoch": 21.753333333333334, "grad_norm": 4.237748146057129, "learning_rate": 9.808695652173912e-07, "loss": 0.0516, "step": 81575 }, { "epoch": 21.76, "grad_norm": 4.051946640014648, "learning_rate": 9.779710144927537e-07, "loss": 0.0546, "step": 81600 }, { "epoch": 21.766666666666666, "grad_norm": 4.6419172286987305, "learning_rate": 9.750724637681159e-07, "loss": 0.053, "step": 81625 }, { "epoch": 21.773333333333333, "grad_norm": 4.831100940704346, "learning_rate": 9.721739130434783e-07, "loss": 0.0565, "step": 81650 }, { "epoch": 21.78, "grad_norm": 6.725473403930664, "learning_rate": 9.692753623188407e-07, "loss": 0.057, "step": 81675 }, { "epoch": 21.786666666666665, "grad_norm": 2.9072093963623047, "learning_rate": 9.66376811594203e-07, "loss": 0.0505, "step": 81700 }, { "epoch": 21.793333333333333, "grad_norm": 3.0993294715881348, "learning_rate": 9.634782608695654e-07, "loss": 0.0657, "step": 81725 }, { "epoch": 21.8, "grad_norm": 3.620633363723755, "learning_rate": 9.605797101449276e-07, "loss": 0.0523, "step": 81750 }, { "epoch": 21.806666666666665, "grad_norm": 3.985637664794922, "learning_rate": 9.576811594202898e-07, "loss": 0.0505, "step": 81775 }, { "epoch": 21.813333333333333, "grad_norm": 3.8418915271759033, "learning_rate": 9.547826086956522e-07, "loss": 0.0569, "step": 81800 }, { "epoch": 21.82, "grad_norm": 4.005939483642578, "learning_rate": 9.518840579710146e-07, "loss": 0.0495, "step": 81825 }, { "epoch": 21.826666666666668, "grad_norm": 1.2963860034942627, "learning_rate": 9.489855072463769e-07, "loss": 0.0478, "step": 81850 }, { "epoch": 21.833333333333332, "grad_norm": 2.0069146156311035, "learning_rate": 9.460869565217393e-07, "loss": 0.0415, "step": 81875 }, { "epoch": 21.84, "grad_norm": 4.756258010864258, "learning_rate": 9.431884057971015e-07, "loss": 0.057, "step": 81900 }, { "epoch": 21.846666666666668, "grad_norm": 2.139573335647583, "learning_rate": 9.402898550724638e-07, "loss": 0.0471, "step": 81925 }, { "epoch": 21.85333333333333, "grad_norm": 4.590767860412598, "learning_rate": 9.373913043478261e-07, "loss": 0.0453, "step": 81950 }, { "epoch": 21.86, "grad_norm": 4.460538864135742, "learning_rate": 9.344927536231885e-07, "loss": 0.0514, "step": 81975 }, { "epoch": 21.866666666666667, "grad_norm": 4.2640838623046875, "learning_rate": 9.315942028985508e-07, "loss": 0.0459, "step": 82000 }, { "epoch": 21.873333333333335, "grad_norm": 5.219174861907959, "learning_rate": 9.288115942028986e-07, "loss": 0.0559, "step": 82025 }, { "epoch": 21.88, "grad_norm": 2.7232158184051514, "learning_rate": 9.259130434782609e-07, "loss": 0.0518, "step": 82050 }, { "epoch": 21.886666666666667, "grad_norm": 3.276869058609009, "learning_rate": 9.230144927536234e-07, "loss": 0.0505, "step": 82075 }, { "epoch": 21.893333333333334, "grad_norm": 4.569640636444092, "learning_rate": 9.201159420289856e-07, "loss": 0.0545, "step": 82100 }, { "epoch": 21.9, "grad_norm": 3.8777434825897217, "learning_rate": 9.172173913043479e-07, "loss": 0.0467, "step": 82125 }, { "epoch": 21.906666666666666, "grad_norm": 4.1096038818359375, "learning_rate": 9.143188405797101e-07, "loss": 0.0523, "step": 82150 }, { "epoch": 21.913333333333334, "grad_norm": 5.095638751983643, "learning_rate": 9.114202898550725e-07, "loss": 0.0545, "step": 82175 }, { "epoch": 21.92, "grad_norm": 3.907194137573242, "learning_rate": 9.085217391304349e-07, "loss": 0.0606, "step": 82200 }, { "epoch": 21.926666666666666, "grad_norm": 5.413092136383057, "learning_rate": 9.056231884057972e-07, "loss": 0.0538, "step": 82225 }, { "epoch": 21.933333333333334, "grad_norm": 4.094711780548096, "learning_rate": 9.027246376811595e-07, "loss": 0.0561, "step": 82250 }, { "epoch": 21.94, "grad_norm": 5.101634979248047, "learning_rate": 8.998260869565219e-07, "loss": 0.045, "step": 82275 }, { "epoch": 21.946666666666665, "grad_norm": 4.765960693359375, "learning_rate": 8.969275362318841e-07, "loss": 0.0481, "step": 82300 }, { "epoch": 21.953333333333333, "grad_norm": 6.723452091217041, "learning_rate": 8.940289855072465e-07, "loss": 0.066, "step": 82325 }, { "epoch": 21.96, "grad_norm": 3.888334274291992, "learning_rate": 8.911304347826087e-07, "loss": 0.0517, "step": 82350 }, { "epoch": 21.966666666666665, "grad_norm": 5.774191379547119, "learning_rate": 8.882318840579711e-07, "loss": 0.0531, "step": 82375 }, { "epoch": 21.973333333333333, "grad_norm": 3.310410499572754, "learning_rate": 8.853333333333334e-07, "loss": 0.0513, "step": 82400 }, { "epoch": 21.98, "grad_norm": 4.767726898193359, "learning_rate": 8.824347826086957e-07, "loss": 0.0626, "step": 82425 }, { "epoch": 21.986666666666668, "grad_norm": 2.953578233718872, "learning_rate": 8.795362318840581e-07, "loss": 0.0495, "step": 82450 }, { "epoch": 21.993333333333332, "grad_norm": 7.545501708984375, "learning_rate": 8.766376811594203e-07, "loss": 0.0448, "step": 82475 }, { "epoch": 22.0, "grad_norm": 3.461822509765625, "learning_rate": 8.737391304347827e-07, "loss": 0.0511, "step": 82500 }, { "epoch": 22.0, "eval_cer": 26.78940797197324, "eval_loss": 0.47058379650115967, "eval_runtime": 1333.0732, "eval_samples_per_second": 3.751, "eval_steps_per_second": 0.469, "step": 82500 }, { "epoch": 22.006666666666668, "grad_norm": 3.527639627456665, "learning_rate": 8.70840579710145e-07, "loss": 0.0372, "step": 82525 }, { "epoch": 22.013333333333332, "grad_norm": 3.600360870361328, "learning_rate": 8.679420289855072e-07, "loss": 0.0434, "step": 82550 }, { "epoch": 22.02, "grad_norm": 3.604182243347168, "learning_rate": 8.650434782608697e-07, "loss": 0.0353, "step": 82575 }, { "epoch": 22.026666666666667, "grad_norm": 2.78688383102417, "learning_rate": 8.62144927536232e-07, "loss": 0.0346, "step": 82600 }, { "epoch": 22.033333333333335, "grad_norm": 2.189281940460205, "learning_rate": 8.592463768115942e-07, "loss": 0.0294, "step": 82625 }, { "epoch": 22.04, "grad_norm": 3.8288350105285645, "learning_rate": 8.563478260869566e-07, "loss": 0.0325, "step": 82650 }, { "epoch": 22.046666666666667, "grad_norm": 2.8446877002716064, "learning_rate": 8.534492753623188e-07, "loss": 0.0331, "step": 82675 }, { "epoch": 22.053333333333335, "grad_norm": 3.543058156967163, "learning_rate": 8.505507246376813e-07, "loss": 0.0426, "step": 82700 }, { "epoch": 22.06, "grad_norm": 3.4398000240325928, "learning_rate": 8.476521739130436e-07, "loss": 0.0398, "step": 82725 }, { "epoch": 22.066666666666666, "grad_norm": 2.9219024181365967, "learning_rate": 8.447536231884058e-07, "loss": 0.0367, "step": 82750 }, { "epoch": 22.073333333333334, "grad_norm": 1.8178918361663818, "learning_rate": 8.418550724637682e-07, "loss": 0.0343, "step": 82775 }, { "epoch": 22.08, "grad_norm": 3.41963529586792, "learning_rate": 8.389565217391304e-07, "loss": 0.0407, "step": 82800 }, { "epoch": 22.086666666666666, "grad_norm": 3.3104095458984375, "learning_rate": 8.360579710144928e-07, "loss": 0.0331, "step": 82825 }, { "epoch": 22.093333333333334, "grad_norm": 2.9931042194366455, "learning_rate": 8.331594202898552e-07, "loss": 0.0395, "step": 82850 }, { "epoch": 22.1, "grad_norm": 2.6901681423187256, "learning_rate": 8.302608695652174e-07, "loss": 0.0302, "step": 82875 }, { "epoch": 22.106666666666666, "grad_norm": 2.1979377269744873, "learning_rate": 8.273623188405798e-07, "loss": 0.0314, "step": 82900 }, { "epoch": 22.113333333333333, "grad_norm": 2.756830930709839, "learning_rate": 8.24463768115942e-07, "loss": 0.0362, "step": 82925 }, { "epoch": 22.12, "grad_norm": 2.418299436569214, "learning_rate": 8.215652173913044e-07, "loss": 0.0317, "step": 82950 }, { "epoch": 22.126666666666665, "grad_norm": 4.652231216430664, "learning_rate": 8.186666666666668e-07, "loss": 0.0402, "step": 82975 }, { "epoch": 22.133333333333333, "grad_norm": 3.2298150062561035, "learning_rate": 8.15768115942029e-07, "loss": 0.0375, "step": 83000 }, { "epoch": 22.14, "grad_norm": 4.716547012329102, "learning_rate": 8.128695652173913e-07, "loss": 0.0409, "step": 83025 }, { "epoch": 22.14666666666667, "grad_norm": 5.120155334472656, "learning_rate": 8.099710144927538e-07, "loss": 0.0402, "step": 83050 }, { "epoch": 22.153333333333332, "grad_norm": 3.3838396072387695, "learning_rate": 8.07072463768116e-07, "loss": 0.0346, "step": 83075 }, { "epoch": 22.16, "grad_norm": 3.2001793384552, "learning_rate": 8.041739130434784e-07, "loss": 0.0414, "step": 83100 }, { "epoch": 22.166666666666668, "grad_norm": 3.0348541736602783, "learning_rate": 8.012753623188406e-07, "loss": 0.0371, "step": 83125 }, { "epoch": 22.173333333333332, "grad_norm": 3.9027488231658936, "learning_rate": 7.983768115942029e-07, "loss": 0.04, "step": 83150 }, { "epoch": 22.18, "grad_norm": 2.818445920944214, "learning_rate": 7.954782608695654e-07, "loss": 0.038, "step": 83175 }, { "epoch": 22.186666666666667, "grad_norm": 3.0124361515045166, "learning_rate": 7.925797101449276e-07, "loss": 0.034, "step": 83200 }, { "epoch": 22.19333333333333, "grad_norm": 2.59118390083313, "learning_rate": 7.896811594202899e-07, "loss": 0.0409, "step": 83225 }, { "epoch": 22.2, "grad_norm": 3.1293716430664062, "learning_rate": 7.867826086956522e-07, "loss": 0.0307, "step": 83250 }, { "epoch": 22.206666666666667, "grad_norm": 2.4342546463012695, "learning_rate": 7.838840579710145e-07, "loss": 0.0403, "step": 83275 }, { "epoch": 22.213333333333335, "grad_norm": 2.915640354156494, "learning_rate": 7.80985507246377e-07, "loss": 0.0417, "step": 83300 }, { "epoch": 22.22, "grad_norm": 3.1447854042053223, "learning_rate": 7.780869565217392e-07, "loss": 0.0405, "step": 83325 }, { "epoch": 22.226666666666667, "grad_norm": 3.1166768074035645, "learning_rate": 7.751884057971015e-07, "loss": 0.038, "step": 83350 }, { "epoch": 22.233333333333334, "grad_norm": 2.13798189163208, "learning_rate": 7.722898550724637e-07, "loss": 0.0383, "step": 83375 }, { "epoch": 22.24, "grad_norm": 3.0128445625305176, "learning_rate": 7.693913043478261e-07, "loss": 0.0373, "step": 83400 }, { "epoch": 22.246666666666666, "grad_norm": 3.2883059978485107, "learning_rate": 7.664927536231885e-07, "loss": 0.0372, "step": 83425 }, { "epoch": 22.253333333333334, "grad_norm": 4.137071132659912, "learning_rate": 7.635942028985508e-07, "loss": 0.0373, "step": 83450 }, { "epoch": 22.26, "grad_norm": 3.9458670616149902, "learning_rate": 7.606956521739131e-07, "loss": 0.038, "step": 83475 }, { "epoch": 22.266666666666666, "grad_norm": 3.8901772499084473, "learning_rate": 7.577971014492755e-07, "loss": 0.0381, "step": 83500 }, { "epoch": 22.273333333333333, "grad_norm": 1.8447846174240112, "learning_rate": 7.548985507246377e-07, "loss": 0.0437, "step": 83525 }, { "epoch": 22.28, "grad_norm": 2.5594024658203125, "learning_rate": 7.520000000000001e-07, "loss": 0.0338, "step": 83550 }, { "epoch": 22.286666666666665, "grad_norm": 3.9092135429382324, "learning_rate": 7.491014492753623e-07, "loss": 0.0363, "step": 83575 }, { "epoch": 22.293333333333333, "grad_norm": 3.5477864742279053, "learning_rate": 7.462028985507247e-07, "loss": 0.0413, "step": 83600 }, { "epoch": 22.3, "grad_norm": 2.618335008621216, "learning_rate": 7.43304347826087e-07, "loss": 0.0325, "step": 83625 }, { "epoch": 22.306666666666665, "grad_norm": 3.031073570251465, "learning_rate": 7.404057971014493e-07, "loss": 0.0383, "step": 83650 }, { "epoch": 22.313333333333333, "grad_norm": 2.503845453262329, "learning_rate": 7.375072463768117e-07, "loss": 0.0347, "step": 83675 }, { "epoch": 22.32, "grad_norm": 2.046858549118042, "learning_rate": 7.346086956521739e-07, "loss": 0.0379, "step": 83700 }, { "epoch": 22.326666666666668, "grad_norm": 3.6692633628845215, "learning_rate": 7.317101449275363e-07, "loss": 0.0426, "step": 83725 }, { "epoch": 22.333333333333332, "grad_norm": 2.001286506652832, "learning_rate": 7.288115942028986e-07, "loss": 0.0358, "step": 83750 }, { "epoch": 22.34, "grad_norm": 3.1849629878997803, "learning_rate": 7.259130434782608e-07, "loss": 0.0363, "step": 83775 }, { "epoch": 22.346666666666668, "grad_norm": 3.7715375423431396, "learning_rate": 7.230144927536233e-07, "loss": 0.035, "step": 83800 }, { "epoch": 22.35333333333333, "grad_norm": 2.3341026306152344, "learning_rate": 7.201159420289856e-07, "loss": 0.0356, "step": 83825 }, { "epoch": 22.36, "grad_norm": 2.8382840156555176, "learning_rate": 7.172173913043479e-07, "loss": 0.0423, "step": 83850 }, { "epoch": 22.366666666666667, "grad_norm": 2.241521120071411, "learning_rate": 7.143188405797102e-07, "loss": 0.037, "step": 83875 }, { "epoch": 22.373333333333335, "grad_norm": 4.411045551300049, "learning_rate": 7.114202898550724e-07, "loss": 0.0412, "step": 83900 }, { "epoch": 22.38, "grad_norm": 3.522968292236328, "learning_rate": 7.085217391304349e-07, "loss": 0.0431, "step": 83925 }, { "epoch": 22.386666666666667, "grad_norm": 5.336874485015869, "learning_rate": 7.056231884057972e-07, "loss": 0.0396, "step": 83950 }, { "epoch": 22.393333333333334, "grad_norm": 4.491713523864746, "learning_rate": 7.027246376811594e-07, "loss": 0.0332, "step": 83975 }, { "epoch": 22.4, "grad_norm": 7.271119594573975, "learning_rate": 6.998260869565218e-07, "loss": 0.0404, "step": 84000 }, { "epoch": 22.406666666666666, "grad_norm": 3.450390338897705, "learning_rate": 6.96927536231884e-07, "loss": 0.0411, "step": 84025 }, { "epoch": 22.413333333333334, "grad_norm": 2.78592586517334, "learning_rate": 6.940289855072465e-07, "loss": 0.0422, "step": 84050 }, { "epoch": 22.42, "grad_norm": 4.311175346374512, "learning_rate": 6.911304347826088e-07, "loss": 0.0327, "step": 84075 }, { "epoch": 22.426666666666666, "grad_norm": 4.38082218170166, "learning_rate": 6.88231884057971e-07, "loss": 0.0353, "step": 84100 }, { "epoch": 22.433333333333334, "grad_norm": 4.330105304718018, "learning_rate": 6.853333333333334e-07, "loss": 0.0428, "step": 84125 }, { "epoch": 22.44, "grad_norm": 4.0047993659973145, "learning_rate": 6.824347826086956e-07, "loss": 0.036, "step": 84150 }, { "epoch": 22.446666666666665, "grad_norm": 2.180568218231201, "learning_rate": 6.79536231884058e-07, "loss": 0.0378, "step": 84175 }, { "epoch": 22.453333333333333, "grad_norm": 3.237239122390747, "learning_rate": 6.766376811594204e-07, "loss": 0.0327, "step": 84200 }, { "epoch": 22.46, "grad_norm": 3.858114242553711, "learning_rate": 6.737391304347826e-07, "loss": 0.0368, "step": 84225 }, { "epoch": 22.466666666666665, "grad_norm": 4.072370529174805, "learning_rate": 6.70840579710145e-07, "loss": 0.039, "step": 84250 }, { "epoch": 22.473333333333333, "grad_norm": 4.314769744873047, "learning_rate": 6.679420289855074e-07, "loss": 0.0377, "step": 84275 }, { "epoch": 22.48, "grad_norm": 4.516617298126221, "learning_rate": 6.650434782608696e-07, "loss": 0.0358, "step": 84300 }, { "epoch": 22.486666666666668, "grad_norm": 3.6439104080200195, "learning_rate": 6.62144927536232e-07, "loss": 0.032, "step": 84325 }, { "epoch": 22.493333333333332, "grad_norm": 2.2669339179992676, "learning_rate": 6.592463768115942e-07, "loss": 0.0376, "step": 84350 }, { "epoch": 22.5, "grad_norm": 2.1503312587738037, "learning_rate": 6.563478260869565e-07, "loss": 0.0356, "step": 84375 }, { "epoch": 22.506666666666668, "grad_norm": 2.3803460597991943, "learning_rate": 6.53449275362319e-07, "loss": 0.0411, "step": 84400 }, { "epoch": 22.513333333333332, "grad_norm": 3.406337022781372, "learning_rate": 6.505507246376812e-07, "loss": 0.0412, "step": 84425 }, { "epoch": 22.52, "grad_norm": 3.711212158203125, "learning_rate": 6.476521739130436e-07, "loss": 0.0375, "step": 84450 }, { "epoch": 22.526666666666667, "grad_norm": 2.315436840057373, "learning_rate": 6.447536231884058e-07, "loss": 0.032, "step": 84475 }, { "epoch": 22.533333333333335, "grad_norm": 2.912299633026123, "learning_rate": 6.418550724637681e-07, "loss": 0.0367, "step": 84500 }, { "epoch": 22.54, "grad_norm": 5.336888790130615, "learning_rate": 6.389565217391306e-07, "loss": 0.0376, "step": 84525 }, { "epoch": 22.546666666666667, "grad_norm": 5.645318031311035, "learning_rate": 6.360579710144928e-07, "loss": 0.042, "step": 84550 }, { "epoch": 22.553333333333335, "grad_norm": 1.759434461593628, "learning_rate": 6.331594202898551e-07, "loss": 0.0378, "step": 84575 }, { "epoch": 22.56, "grad_norm": 5.61391544342041, "learning_rate": 6.302608695652175e-07, "loss": 0.0388, "step": 84600 }, { "epoch": 22.566666666666666, "grad_norm": 4.751680850982666, "learning_rate": 6.273623188405797e-07, "loss": 0.0365, "step": 84625 }, { "epoch": 22.573333333333334, "grad_norm": 2.562037944793701, "learning_rate": 6.244637681159421e-07, "loss": 0.0331, "step": 84650 }, { "epoch": 22.58, "grad_norm": 4.1953654289245605, "learning_rate": 6.215652173913044e-07, "loss": 0.0379, "step": 84675 }, { "epoch": 22.586666666666666, "grad_norm": 2.0694494247436523, "learning_rate": 6.186666666666667e-07, "loss": 0.032, "step": 84700 }, { "epoch": 22.593333333333334, "grad_norm": 3.8001856803894043, "learning_rate": 6.15768115942029e-07, "loss": 0.0503, "step": 84725 }, { "epoch": 22.6, "grad_norm": 2.4351816177368164, "learning_rate": 6.128695652173913e-07, "loss": 0.0378, "step": 84750 }, { "epoch": 22.606666666666666, "grad_norm": 3.405139446258545, "learning_rate": 6.099710144927537e-07, "loss": 0.0325, "step": 84775 }, { "epoch": 22.613333333333333, "grad_norm": 5.402697563171387, "learning_rate": 6.07072463768116e-07, "loss": 0.0448, "step": 84800 }, { "epoch": 22.62, "grad_norm": 1.8109861612319946, "learning_rate": 6.041739130434783e-07, "loss": 0.0332, "step": 84825 }, { "epoch": 22.626666666666665, "grad_norm": 2.8002371788024902, "learning_rate": 6.012753623188406e-07, "loss": 0.0345, "step": 84850 }, { "epoch": 22.633333333333333, "grad_norm": 2.7167341709136963, "learning_rate": 5.983768115942029e-07, "loss": 0.0366, "step": 84875 }, { "epoch": 22.64, "grad_norm": 1.6046448945999146, "learning_rate": 5.954782608695653e-07, "loss": 0.0328, "step": 84900 }, { "epoch": 22.64666666666667, "grad_norm": 4.553689002990723, "learning_rate": 5.925797101449276e-07, "loss": 0.0361, "step": 84925 }, { "epoch": 22.653333333333332, "grad_norm": 2.693063735961914, "learning_rate": 5.896811594202899e-07, "loss": 0.0338, "step": 84950 }, { "epoch": 22.66, "grad_norm": 2.2913594245910645, "learning_rate": 5.867826086956522e-07, "loss": 0.0405, "step": 84975 }, { "epoch": 22.666666666666668, "grad_norm": 1.7116106748580933, "learning_rate": 5.838840579710145e-07, "loss": 0.0435, "step": 85000 }, { "epoch": 22.673333333333332, "grad_norm": 4.259124755859375, "learning_rate": 5.809855072463769e-07, "loss": 0.0416, "step": 85025 }, { "epoch": 22.68, "grad_norm": 3.162153959274292, "learning_rate": 5.780869565217392e-07, "loss": 0.0395, "step": 85050 }, { "epoch": 22.686666666666667, "grad_norm": 3.8797547817230225, "learning_rate": 5.751884057971015e-07, "loss": 0.0393, "step": 85075 }, { "epoch": 22.693333333333335, "grad_norm": 3.722416400909424, "learning_rate": 5.722898550724638e-07, "loss": 0.0386, "step": 85100 }, { "epoch": 22.7, "grad_norm": 3.9307820796966553, "learning_rate": 5.693913043478261e-07, "loss": 0.0386, "step": 85125 }, { "epoch": 22.706666666666667, "grad_norm": 2.079188823699951, "learning_rate": 5.664927536231885e-07, "loss": 0.0346, "step": 85150 }, { "epoch": 22.713333333333335, "grad_norm": 2.6980020999908447, "learning_rate": 5.635942028985508e-07, "loss": 0.0356, "step": 85175 }, { "epoch": 22.72, "grad_norm": 2.810744524002075, "learning_rate": 5.60695652173913e-07, "loss": 0.0418, "step": 85200 }, { "epoch": 22.726666666666667, "grad_norm": 3.821526527404785, "learning_rate": 5.577971014492754e-07, "loss": 0.0349, "step": 85225 }, { "epoch": 22.733333333333334, "grad_norm": 2.432990312576294, "learning_rate": 5.548985507246378e-07, "loss": 0.0367, "step": 85250 }, { "epoch": 22.74, "grad_norm": 2.326436758041382, "learning_rate": 5.520000000000001e-07, "loss": 0.0323, "step": 85275 }, { "epoch": 22.746666666666666, "grad_norm": 3.9422476291656494, "learning_rate": 5.491014492753623e-07, "loss": 0.0372, "step": 85300 }, { "epoch": 22.753333333333334, "grad_norm": 2.8975844383239746, "learning_rate": 5.462028985507247e-07, "loss": 0.0405, "step": 85325 }, { "epoch": 22.76, "grad_norm": 3.1272504329681396, "learning_rate": 5.43304347826087e-07, "loss": 0.0349, "step": 85350 }, { "epoch": 22.766666666666666, "grad_norm": 3.7101078033447266, "learning_rate": 5.404057971014494e-07, "loss": 0.0343, "step": 85375 }, { "epoch": 22.773333333333333, "grad_norm": 3.5152785778045654, "learning_rate": 5.375072463768116e-07, "loss": 0.0327, "step": 85400 }, { "epoch": 22.78, "grad_norm": 2.71075701713562, "learning_rate": 5.346086956521739e-07, "loss": 0.0387, "step": 85425 }, { "epoch": 22.786666666666665, "grad_norm": 3.4422922134399414, "learning_rate": 5.317101449275363e-07, "loss": 0.0398, "step": 85450 }, { "epoch": 22.793333333333333, "grad_norm": 2.917841911315918, "learning_rate": 5.288115942028986e-07, "loss": 0.0339, "step": 85475 }, { "epoch": 22.8, "grad_norm": 3.0675907135009766, "learning_rate": 5.259130434782609e-07, "loss": 0.0398, "step": 85500 }, { "epoch": 22.806666666666665, "grad_norm": 3.0457651615142822, "learning_rate": 5.230144927536232e-07, "loss": 0.0448, "step": 85525 }, { "epoch": 22.813333333333333, "grad_norm": 2.8356781005859375, "learning_rate": 5.201159420289856e-07, "loss": 0.031, "step": 85550 }, { "epoch": 22.82, "grad_norm": 3.7630763053894043, "learning_rate": 5.172173913043479e-07, "loss": 0.0427, "step": 85575 }, { "epoch": 22.826666666666668, "grad_norm": 4.08357572555542, "learning_rate": 5.143188405797101e-07, "loss": 0.0398, "step": 85600 }, { "epoch": 22.833333333333332, "grad_norm": 1.7627347707748413, "learning_rate": 5.114202898550725e-07, "loss": 0.0286, "step": 85625 }, { "epoch": 22.84, "grad_norm": 2.492527961730957, "learning_rate": 5.085217391304349e-07, "loss": 0.0419, "step": 85650 }, { "epoch": 22.846666666666668, "grad_norm": 3.9639198780059814, "learning_rate": 5.056231884057972e-07, "loss": 0.0334, "step": 85675 }, { "epoch": 22.85333333333333, "grad_norm": 1.7615610361099243, "learning_rate": 5.027246376811594e-07, "loss": 0.039, "step": 85700 }, { "epoch": 22.86, "grad_norm": 3.373290777206421, "learning_rate": 4.998260869565217e-07, "loss": 0.0371, "step": 85725 }, { "epoch": 22.866666666666667, "grad_norm": 2.9584901332855225, "learning_rate": 4.969275362318841e-07, "loss": 0.0378, "step": 85750 }, { "epoch": 22.873333333333335, "grad_norm": 1.335859775543213, "learning_rate": 4.940289855072465e-07, "loss": 0.0356, "step": 85775 }, { "epoch": 22.88, "grad_norm": 4.139045715332031, "learning_rate": 4.911304347826087e-07, "loss": 0.0409, "step": 85800 }, { "epoch": 22.886666666666667, "grad_norm": 1.900292158126831, "learning_rate": 4.88231884057971e-07, "loss": 0.0385, "step": 85825 }, { "epoch": 22.893333333333334, "grad_norm": 4.888641834259033, "learning_rate": 4.853333333333333e-07, "loss": 0.0355, "step": 85850 }, { "epoch": 22.9, "grad_norm": 4.644174575805664, "learning_rate": 4.824347826086958e-07, "loss": 0.0369, "step": 85875 }, { "epoch": 22.906666666666666, "grad_norm": 2.99847412109375, "learning_rate": 4.79536231884058e-07, "loss": 0.0468, "step": 85900 }, { "epoch": 22.913333333333334, "grad_norm": 3.2762467861175537, "learning_rate": 4.7663768115942035e-07, "loss": 0.0388, "step": 85925 }, { "epoch": 22.92, "grad_norm": 2.2245073318481445, "learning_rate": 4.737391304347826e-07, "loss": 0.0318, "step": 85950 }, { "epoch": 22.926666666666666, "grad_norm": 3.0564818382263184, "learning_rate": 4.7084057971014494e-07, "loss": 0.0405, "step": 85975 }, { "epoch": 22.933333333333334, "grad_norm": 3.735011339187622, "learning_rate": 4.679420289855073e-07, "loss": 0.0335, "step": 86000 }, { "epoch": 22.94, "grad_norm": 2.014892578125, "learning_rate": 4.6504347826086963e-07, "loss": 0.0303, "step": 86025 }, { "epoch": 22.946666666666665, "grad_norm": 4.561203479766846, "learning_rate": 4.621449275362319e-07, "loss": 0.0439, "step": 86050 }, { "epoch": 22.953333333333333, "grad_norm": 3.8732964992523193, "learning_rate": 4.592463768115942e-07, "loss": 0.0374, "step": 86075 }, { "epoch": 22.96, "grad_norm": 3.1296074390411377, "learning_rate": 4.563478260869566e-07, "loss": 0.0383, "step": 86100 }, { "epoch": 22.966666666666665, "grad_norm": 4.266874313354492, "learning_rate": 4.534492753623189e-07, "loss": 0.0316, "step": 86125 }, { "epoch": 22.973333333333333, "grad_norm": 1.8083511590957642, "learning_rate": 4.505507246376812e-07, "loss": 0.0359, "step": 86150 }, { "epoch": 22.98, "grad_norm": 2.2063167095184326, "learning_rate": 4.476521739130435e-07, "loss": 0.04, "step": 86175 }, { "epoch": 22.986666666666668, "grad_norm": 3.6366355419158936, "learning_rate": 4.447536231884058e-07, "loss": 0.0348, "step": 86200 }, { "epoch": 22.993333333333332, "grad_norm": 4.350730895996094, "learning_rate": 4.418550724637682e-07, "loss": 0.042, "step": 86225 }, { "epoch": 23.0, "grad_norm": 3.835423469543457, "learning_rate": 4.3895652173913047e-07, "loss": 0.033, "step": 86250 }, { "epoch": 23.0, "eval_cer": 27.21800868382312, "eval_loss": 0.4808299243450165, "eval_runtime": 1248.2154, "eval_samples_per_second": 4.006, "eval_steps_per_second": 0.501, "step": 86250 }, { "epoch": 23.006666666666668, "grad_norm": 3.75209379196167, "learning_rate": 4.360579710144928e-07, "loss": 0.0336, "step": 86275 }, { "epoch": 23.013333333333332, "grad_norm": 1.0917595624923706, "learning_rate": 4.331594202898551e-07, "loss": 0.0275, "step": 86300 }, { "epoch": 23.02, "grad_norm": 1.6432405710220337, "learning_rate": 4.3026086956521743e-07, "loss": 0.033, "step": 86325 }, { "epoch": 23.026666666666667, "grad_norm": 2.674813747406006, "learning_rate": 4.2736231884057975e-07, "loss": 0.0324, "step": 86350 }, { "epoch": 23.033333333333335, "grad_norm": 4.493582725524902, "learning_rate": 4.2446376811594207e-07, "loss": 0.03, "step": 86375 }, { "epoch": 23.04, "grad_norm": 1.9340102672576904, "learning_rate": 4.2156521739130434e-07, "loss": 0.0299, "step": 86400 }, { "epoch": 23.046666666666667, "grad_norm": 2.185920000076294, "learning_rate": 4.186666666666667e-07, "loss": 0.0312, "step": 86425 }, { "epoch": 23.053333333333335, "grad_norm": 4.078496932983398, "learning_rate": 4.1576811594202903e-07, "loss": 0.0332, "step": 86450 }, { "epoch": 23.06, "grad_norm": 3.2141835689544678, "learning_rate": 4.1286956521739135e-07, "loss": 0.0335, "step": 86475 }, { "epoch": 23.066666666666666, "grad_norm": 1.859055995941162, "learning_rate": 4.099710144927536e-07, "loss": 0.0269, "step": 86500 }, { "epoch": 23.073333333333334, "grad_norm": 2.0694878101348877, "learning_rate": 4.0707246376811594e-07, "loss": 0.0307, "step": 86525 }, { "epoch": 23.08, "grad_norm": 3.3557677268981934, "learning_rate": 4.041739130434783e-07, "loss": 0.0347, "step": 86550 }, { "epoch": 23.086666666666666, "grad_norm": 1.794830083847046, "learning_rate": 4.0127536231884063e-07, "loss": 0.0256, "step": 86575 }, { "epoch": 23.093333333333334, "grad_norm": 2.3154051303863525, "learning_rate": 3.983768115942029e-07, "loss": 0.0279, "step": 86600 }, { "epoch": 23.1, "grad_norm": 4.146401882171631, "learning_rate": 3.954782608695652e-07, "loss": 0.0364, "step": 86625 }, { "epoch": 23.106666666666666, "grad_norm": 2.3566553592681885, "learning_rate": 3.925797101449276e-07, "loss": 0.0274, "step": 86650 }, { "epoch": 23.113333333333333, "grad_norm": 4.269131183624268, "learning_rate": 3.896811594202899e-07, "loss": 0.035, "step": 86675 }, { "epoch": 23.12, "grad_norm": 2.6557271480560303, "learning_rate": 3.867826086956522e-07, "loss": 0.0274, "step": 86700 }, { "epoch": 23.126666666666665, "grad_norm": 1.785995602607727, "learning_rate": 3.838840579710145e-07, "loss": 0.0265, "step": 86725 }, { "epoch": 23.133333333333333, "grad_norm": 3.1406092643737793, "learning_rate": 3.809855072463768e-07, "loss": 0.0273, "step": 86750 }, { "epoch": 23.14, "grad_norm": 2.091327428817749, "learning_rate": 3.780869565217392e-07, "loss": 0.0265, "step": 86775 }, { "epoch": 23.14666666666667, "grad_norm": 3.178323745727539, "learning_rate": 3.7518840579710146e-07, "loss": 0.0225, "step": 86800 }, { "epoch": 23.153333333333332, "grad_norm": 3.3188352584838867, "learning_rate": 3.722898550724638e-07, "loss": 0.0279, "step": 86825 }, { "epoch": 23.16, "grad_norm": 3.8155200481414795, "learning_rate": 3.693913043478261e-07, "loss": 0.0321, "step": 86850 }, { "epoch": 23.166666666666668, "grad_norm": 2.829983711242676, "learning_rate": 3.664927536231885e-07, "loss": 0.0257, "step": 86875 }, { "epoch": 23.173333333333332, "grad_norm": 3.3911383152008057, "learning_rate": 3.6359420289855075e-07, "loss": 0.0317, "step": 86900 }, { "epoch": 23.18, "grad_norm": 6.012027263641357, "learning_rate": 3.6069565217391307e-07, "loss": 0.0303, "step": 86925 }, { "epoch": 23.186666666666667, "grad_norm": 1.703455924987793, "learning_rate": 3.577971014492754e-07, "loss": 0.0276, "step": 86950 }, { "epoch": 23.19333333333333, "grad_norm": 2.4399778842926025, "learning_rate": 3.5489855072463766e-07, "loss": 0.0275, "step": 86975 }, { "epoch": 23.2, "grad_norm": 2.8326165676116943, "learning_rate": 3.5200000000000003e-07, "loss": 0.0263, "step": 87000 }, { "epoch": 23.206666666666667, "grad_norm": 2.4543075561523438, "learning_rate": 3.4910144927536235e-07, "loss": 0.0311, "step": 87025 }, { "epoch": 23.213333333333335, "grad_norm": 1.8871670961380005, "learning_rate": 3.4620289855072467e-07, "loss": 0.0221, "step": 87050 }, { "epoch": 23.22, "grad_norm": 1.9997212886810303, "learning_rate": 3.4330434782608694e-07, "loss": 0.0247, "step": 87075 }, { "epoch": 23.226666666666667, "grad_norm": 1.7936090230941772, "learning_rate": 3.404057971014493e-07, "loss": 0.0257, "step": 87100 }, { "epoch": 23.233333333333334, "grad_norm": 3.9044885635375977, "learning_rate": 3.3750724637681163e-07, "loss": 0.0315, "step": 87125 }, { "epoch": 23.24, "grad_norm": 3.671440601348877, "learning_rate": 3.3460869565217395e-07, "loss": 0.0259, "step": 87150 }, { "epoch": 23.246666666666666, "grad_norm": 1.8804306983947754, "learning_rate": 3.317101449275362e-07, "loss": 0.0272, "step": 87175 }, { "epoch": 23.253333333333334, "grad_norm": 2.0187463760375977, "learning_rate": 3.2881159420289854e-07, "loss": 0.0311, "step": 87200 }, { "epoch": 23.26, "grad_norm": 3.094573974609375, "learning_rate": 3.259130434782609e-07, "loss": 0.0299, "step": 87225 }, { "epoch": 23.266666666666666, "grad_norm": 3.7559797763824463, "learning_rate": 3.2301449275362323e-07, "loss": 0.0326, "step": 87250 }, { "epoch": 23.273333333333333, "grad_norm": 2.0531182289123535, "learning_rate": 3.201159420289855e-07, "loss": 0.0258, "step": 87275 }, { "epoch": 23.28, "grad_norm": 2.922579765319824, "learning_rate": 3.172173913043478e-07, "loss": 0.0332, "step": 87300 }, { "epoch": 23.286666666666665, "grad_norm": 3.3157379627227783, "learning_rate": 3.143188405797102e-07, "loss": 0.0294, "step": 87325 }, { "epoch": 23.293333333333333, "grad_norm": 2.740126371383667, "learning_rate": 3.114202898550725e-07, "loss": 0.0325, "step": 87350 }, { "epoch": 23.3, "grad_norm": 3.6041243076324463, "learning_rate": 3.085217391304348e-07, "loss": 0.0259, "step": 87375 }, { "epoch": 23.306666666666665, "grad_norm": 2.6902015209198, "learning_rate": 3.0562318840579716e-07, "loss": 0.0273, "step": 87400 }, { "epoch": 23.313333333333333, "grad_norm": 1.3474433422088623, "learning_rate": 3.027246376811594e-07, "loss": 0.0278, "step": 87425 }, { "epoch": 23.32, "grad_norm": 2.32612943649292, "learning_rate": 2.998260869565218e-07, "loss": 0.0265, "step": 87450 }, { "epoch": 23.326666666666668, "grad_norm": 2.5414633750915527, "learning_rate": 2.9692753623188407e-07, "loss": 0.0288, "step": 87475 }, { "epoch": 23.333333333333332, "grad_norm": 1.6184791326522827, "learning_rate": 2.940289855072464e-07, "loss": 0.0337, "step": 87500 }, { "epoch": 23.34, "grad_norm": 3.5194363594055176, "learning_rate": 2.911304347826087e-07, "loss": 0.0274, "step": 87525 }, { "epoch": 23.346666666666668, "grad_norm": 2.896280288696289, "learning_rate": 2.8823188405797103e-07, "loss": 0.0326, "step": 87550 }, { "epoch": 23.35333333333333, "grad_norm": 1.7762919664382935, "learning_rate": 2.8533333333333335e-07, "loss": 0.0268, "step": 87575 }, { "epoch": 23.36, "grad_norm": 1.6219533681869507, "learning_rate": 2.8243478260869567e-07, "loss": 0.0314, "step": 87600 }, { "epoch": 23.366666666666667, "grad_norm": 1.7434478998184204, "learning_rate": 2.79536231884058e-07, "loss": 0.03, "step": 87625 }, { "epoch": 23.373333333333335, "grad_norm": 2.0803048610687256, "learning_rate": 2.766376811594203e-07, "loss": 0.0354, "step": 87650 }, { "epoch": 23.38, "grad_norm": 2.44313907623291, "learning_rate": 2.7373913043478263e-07, "loss": 0.0236, "step": 87675 }, { "epoch": 23.386666666666667, "grad_norm": 2.524430274963379, "learning_rate": 2.7084057971014495e-07, "loss": 0.028, "step": 87700 }, { "epoch": 23.393333333333334, "grad_norm": 1.7740840911865234, "learning_rate": 2.6794202898550727e-07, "loss": 0.0284, "step": 87725 }, { "epoch": 23.4, "grad_norm": 2.9143285751342773, "learning_rate": 2.650434782608696e-07, "loss": 0.0278, "step": 87750 }, { "epoch": 23.406666666666666, "grad_norm": 1.7068109512329102, "learning_rate": 2.621449275362319e-07, "loss": 0.0275, "step": 87775 }, { "epoch": 23.413333333333334, "grad_norm": 2.760962724685669, "learning_rate": 2.5924637681159423e-07, "loss": 0.0281, "step": 87800 }, { "epoch": 23.42, "grad_norm": 3.2597496509552, "learning_rate": 2.5634782608695655e-07, "loss": 0.033, "step": 87825 }, { "epoch": 23.426666666666666, "grad_norm": 1.3798930644989014, "learning_rate": 2.5344927536231887e-07, "loss": 0.0299, "step": 87850 }, { "epoch": 23.433333333333334, "grad_norm": 2.0416111946105957, "learning_rate": 2.505507246376812e-07, "loss": 0.0293, "step": 87875 }, { "epoch": 23.44, "grad_norm": 2.6519546508789062, "learning_rate": 2.476521739130435e-07, "loss": 0.0269, "step": 87900 }, { "epoch": 23.446666666666665, "grad_norm": 2.5692148208618164, "learning_rate": 2.4475362318840583e-07, "loss": 0.0304, "step": 87925 }, { "epoch": 23.453333333333333, "grad_norm": 1.5911401510238647, "learning_rate": 2.4185507246376815e-07, "loss": 0.0288, "step": 87950 }, { "epoch": 23.46, "grad_norm": 4.213504791259766, "learning_rate": 2.389565217391305e-07, "loss": 0.0255, "step": 87975 }, { "epoch": 23.466666666666665, "grad_norm": 2.9067282676696777, "learning_rate": 2.3605797101449277e-07, "loss": 0.0258, "step": 88000 }, { "epoch": 23.473333333333333, "grad_norm": 1.600407600402832, "learning_rate": 2.331594202898551e-07, "loss": 0.0266, "step": 88025 }, { "epoch": 23.48, "grad_norm": 2.3964803218841553, "learning_rate": 2.3037681159420293e-07, "loss": 0.0322, "step": 88050 }, { "epoch": 23.486666666666668, "grad_norm": 1.4229989051818848, "learning_rate": 2.2747826086956523e-07, "loss": 0.0287, "step": 88075 }, { "epoch": 23.493333333333332, "grad_norm": 3.236924886703491, "learning_rate": 2.2457971014492757e-07, "loss": 0.0276, "step": 88100 }, { "epoch": 23.5, "grad_norm": 3.679145336151123, "learning_rate": 2.2168115942028987e-07, "loss": 0.0311, "step": 88125 }, { "epoch": 23.506666666666668, "grad_norm": 1.804474115371704, "learning_rate": 2.1878260869565221e-07, "loss": 0.0319, "step": 88150 }, { "epoch": 23.513333333333332, "grad_norm": 2.1955983638763428, "learning_rate": 2.158840579710145e-07, "loss": 0.027, "step": 88175 }, { "epoch": 23.52, "grad_norm": 1.9524568319320679, "learning_rate": 2.1298550724637685e-07, "loss": 0.0324, "step": 88200 }, { "epoch": 23.526666666666667, "grad_norm": 1.9826020002365112, "learning_rate": 2.1008695652173915e-07, "loss": 0.0288, "step": 88225 }, { "epoch": 23.533333333333335, "grad_norm": 2.1737821102142334, "learning_rate": 2.0718840579710144e-07, "loss": 0.0297, "step": 88250 }, { "epoch": 23.54, "grad_norm": 2.9982199668884277, "learning_rate": 2.042898550724638e-07, "loss": 0.0289, "step": 88275 }, { "epoch": 23.546666666666667, "grad_norm": 3.354403257369995, "learning_rate": 2.0139130434782608e-07, "loss": 0.0291, "step": 88300 }, { "epoch": 23.553333333333335, "grad_norm": 2.3260855674743652, "learning_rate": 1.9849275362318843e-07, "loss": 0.0297, "step": 88325 }, { "epoch": 23.56, "grad_norm": 2.571603775024414, "learning_rate": 1.9559420289855072e-07, "loss": 0.0325, "step": 88350 }, { "epoch": 23.566666666666666, "grad_norm": 3.0394904613494873, "learning_rate": 1.9269565217391307e-07, "loss": 0.0271, "step": 88375 }, { "epoch": 23.573333333333334, "grad_norm": 1.9405574798583984, "learning_rate": 1.8979710144927537e-07, "loss": 0.0293, "step": 88400 }, { "epoch": 23.58, "grad_norm": 1.7598881721496582, "learning_rate": 1.868985507246377e-07, "loss": 0.0262, "step": 88425 }, { "epoch": 23.586666666666666, "grad_norm": 3.817025661468506, "learning_rate": 1.84e-07, "loss": 0.0323, "step": 88450 }, { "epoch": 23.593333333333334, "grad_norm": 2.816018581390381, "learning_rate": 1.8110144927536235e-07, "loss": 0.0259, "step": 88475 }, { "epoch": 23.6, "grad_norm": 2.2510440349578857, "learning_rate": 1.7820289855072465e-07, "loss": 0.0286, "step": 88500 }, { "epoch": 23.606666666666666, "grad_norm": 1.3691303730010986, "learning_rate": 1.7530434782608697e-07, "loss": 0.0279, "step": 88525 }, { "epoch": 23.613333333333333, "grad_norm": 3.4103550910949707, "learning_rate": 1.724057971014493e-07, "loss": 0.0279, "step": 88550 }, { "epoch": 23.62, "grad_norm": 2.5083539485931396, "learning_rate": 1.695072463768116e-07, "loss": 0.0306, "step": 88575 }, { "epoch": 23.626666666666665, "grad_norm": 2.122925043106079, "learning_rate": 1.6660869565217393e-07, "loss": 0.0296, "step": 88600 }, { "epoch": 23.633333333333333, "grad_norm": 2.2412173748016357, "learning_rate": 1.6371014492753622e-07, "loss": 0.0412, "step": 88625 }, { "epoch": 23.64, "grad_norm": 2.751408576965332, "learning_rate": 1.6081159420289857e-07, "loss": 0.0267, "step": 88650 }, { "epoch": 23.64666666666667, "grad_norm": 2.2319908142089844, "learning_rate": 1.5791304347826086e-07, "loss": 0.0401, "step": 88675 }, { "epoch": 23.653333333333332, "grad_norm": 3.476234197616577, "learning_rate": 1.5501449275362319e-07, "loss": 0.0285, "step": 88700 }, { "epoch": 23.66, "grad_norm": 2.4999637603759766, "learning_rate": 1.521159420289855e-07, "loss": 0.0279, "step": 88725 }, { "epoch": 23.666666666666668, "grad_norm": 1.7887122631072998, "learning_rate": 1.4921739130434783e-07, "loss": 0.0351, "step": 88750 }, { "epoch": 23.673333333333332, "grad_norm": 1.7299681901931763, "learning_rate": 1.4631884057971015e-07, "loss": 0.0319, "step": 88775 }, { "epoch": 23.68, "grad_norm": 3.2381272315979004, "learning_rate": 1.4342028985507247e-07, "loss": 0.0267, "step": 88800 }, { "epoch": 23.686666666666667, "grad_norm": 1.7936351299285889, "learning_rate": 1.405217391304348e-07, "loss": 0.0252, "step": 88825 }, { "epoch": 23.693333333333335, "grad_norm": 3.5541443824768066, "learning_rate": 1.376231884057971e-07, "loss": 0.0254, "step": 88850 }, { "epoch": 23.7, "grad_norm": 2.5744376182556152, "learning_rate": 1.3472463768115943e-07, "loss": 0.0329, "step": 88875 }, { "epoch": 23.706666666666667, "grad_norm": 1.5909851789474487, "learning_rate": 1.3182608695652175e-07, "loss": 0.0298, "step": 88900 }, { "epoch": 23.713333333333335, "grad_norm": 2.0300636291503906, "learning_rate": 1.2892753623188407e-07, "loss": 0.0344, "step": 88925 }, { "epoch": 23.72, "grad_norm": 3.118055582046509, "learning_rate": 1.260289855072464e-07, "loss": 0.0289, "step": 88950 }, { "epoch": 23.726666666666667, "grad_norm": 1.9312667846679688, "learning_rate": 1.231304347826087e-07, "loss": 0.0301, "step": 88975 }, { "epoch": 23.733333333333334, "grad_norm": 3.133845090866089, "learning_rate": 1.2023188405797103e-07, "loss": 0.0297, "step": 89000 }, { "epoch": 23.74, "grad_norm": 1.878815770149231, "learning_rate": 1.1733333333333334e-07, "loss": 0.0316, "step": 89025 }, { "epoch": 23.746666666666666, "grad_norm": 2.282459020614624, "learning_rate": 1.1443478260869566e-07, "loss": 0.0248, "step": 89050 }, { "epoch": 23.753333333333334, "grad_norm": 2.480971097946167, "learning_rate": 1.1153623188405798e-07, "loss": 0.0238, "step": 89075 }, { "epoch": 23.76, "grad_norm": 1.5586977005004883, "learning_rate": 1.086376811594203e-07, "loss": 0.0352, "step": 89100 }, { "epoch": 23.766666666666666, "grad_norm": 1.5966615676879883, "learning_rate": 1.0573913043478262e-07, "loss": 0.0238, "step": 89125 }, { "epoch": 23.773333333333333, "grad_norm": 1.6441916227340698, "learning_rate": 1.0284057971014493e-07, "loss": 0.0286, "step": 89150 }, { "epoch": 23.78, "grad_norm": 2.066863775253296, "learning_rate": 9.994202898550725e-08, "loss": 0.0307, "step": 89175 }, { "epoch": 23.786666666666665, "grad_norm": 2.500751256942749, "learning_rate": 9.704347826086957e-08, "loss": 0.0288, "step": 89200 }, { "epoch": 23.793333333333333, "grad_norm": 2.0922982692718506, "learning_rate": 9.414492753623189e-08, "loss": 0.0283, "step": 89225 }, { "epoch": 23.8, "grad_norm": 3.230250597000122, "learning_rate": 9.124637681159421e-08, "loss": 0.0304, "step": 89250 }, { "epoch": 23.806666666666665, "grad_norm": 2.869513988494873, "learning_rate": 8.834782608695653e-08, "loss": 0.0307, "step": 89275 }, { "epoch": 23.813333333333333, "grad_norm": 1.8881789445877075, "learning_rate": 8.544927536231885e-08, "loss": 0.027, "step": 89300 }, { "epoch": 23.82, "grad_norm": 2.827970027923584, "learning_rate": 8.255072463768117e-08, "loss": 0.0278, "step": 89325 }, { "epoch": 23.826666666666668, "grad_norm": 2.2660083770751953, "learning_rate": 7.965217391304349e-08, "loss": 0.0307, "step": 89350 }, { "epoch": 23.833333333333332, "grad_norm": 2.6119751930236816, "learning_rate": 7.67536231884058e-08, "loss": 0.0285, "step": 89375 }, { "epoch": 23.84, "grad_norm": 3.0055792331695557, "learning_rate": 7.385507246376812e-08, "loss": 0.0356, "step": 89400 }, { "epoch": 23.846666666666668, "grad_norm": 2.1064021587371826, "learning_rate": 7.095652173913044e-08, "loss": 0.0293, "step": 89425 }, { "epoch": 23.85333333333333, "grad_norm": 2.038336753845215, "learning_rate": 6.805797101449276e-08, "loss": 0.029, "step": 89450 }, { "epoch": 23.86, "grad_norm": 2.7755637168884277, "learning_rate": 6.515942028985508e-08, "loss": 0.0274, "step": 89475 }, { "epoch": 23.866666666666667, "grad_norm": 1.921222448348999, "learning_rate": 6.22608695652174e-08, "loss": 0.0264, "step": 89500 }, { "epoch": 23.873333333333335, "grad_norm": 3.2594549655914307, "learning_rate": 5.9362318840579715e-08, "loss": 0.0312, "step": 89525 }, { "epoch": 23.88, "grad_norm": 2.190986156463623, "learning_rate": 5.6463768115942036e-08, "loss": 0.0255, "step": 89550 }, { "epoch": 23.886666666666667, "grad_norm": 2.4186477661132812, "learning_rate": 5.3565217391304356e-08, "loss": 0.0295, "step": 89575 }, { "epoch": 23.893333333333334, "grad_norm": 1.6297377347946167, "learning_rate": 5.066666666666667e-08, "loss": 0.0291, "step": 89600 }, { "epoch": 23.9, "grad_norm": 2.3415348529815674, "learning_rate": 4.776811594202899e-08, "loss": 0.0328, "step": 89625 }, { "epoch": 23.906666666666666, "grad_norm": 1.2611383199691772, "learning_rate": 4.486956521739131e-08, "loss": 0.0302, "step": 89650 }, { "epoch": 23.913333333333334, "grad_norm": 2.8900885581970215, "learning_rate": 4.197101449275363e-08, "loss": 0.029, "step": 89675 }, { "epoch": 23.92, "grad_norm": 3.1534862518310547, "learning_rate": 3.9072463768115946e-08, "loss": 0.0285, "step": 89700 }, { "epoch": 23.926666666666666, "grad_norm": 3.6497862339019775, "learning_rate": 3.6173913043478266e-08, "loss": 0.0285, "step": 89725 }, { "epoch": 23.933333333333334, "grad_norm": 2.3068413734436035, "learning_rate": 3.327536231884058e-08, "loss": 0.0247, "step": 89750 }, { "epoch": 23.94, "grad_norm": 4.4477152824401855, "learning_rate": 3.03768115942029e-08, "loss": 0.0354, "step": 89775 }, { "epoch": 23.946666666666665, "grad_norm": 3.6700408458709717, "learning_rate": 2.747826086956522e-08, "loss": 0.0261, "step": 89800 }, { "epoch": 23.953333333333333, "grad_norm": 2.0132315158843994, "learning_rate": 2.457971014492754e-08, "loss": 0.0279, "step": 89825 }, { "epoch": 23.96, "grad_norm": 3.046682596206665, "learning_rate": 2.168115942028986e-08, "loss": 0.0293, "step": 89850 }, { "epoch": 23.966666666666665, "grad_norm": 1.7281802892684937, "learning_rate": 1.8782608695652176e-08, "loss": 0.0316, "step": 89875 }, { "epoch": 23.973333333333333, "grad_norm": 4.612863063812256, "learning_rate": 1.5884057971014493e-08, "loss": 0.0373, "step": 89900 }, { "epoch": 23.98, "grad_norm": 2.3713760375976562, "learning_rate": 1.2985507246376812e-08, "loss": 0.0324, "step": 89925 }, { "epoch": 23.986666666666668, "grad_norm": 2.9625465869903564, "learning_rate": 1.0086956521739131e-08, "loss": 0.0271, "step": 89950 }, { "epoch": 23.993333333333332, "grad_norm": 2.51481294631958, "learning_rate": 7.18840579710145e-09, "loss": 0.0284, "step": 89975 }, { "epoch": 24.0, "grad_norm": 1.4979883432388306, "learning_rate": 4.289855072463768e-09, "loss": 0.0246, "step": 90000 }, { "epoch": 24.0, "eval_cer": 27.286957493990272, "eval_loss": 0.4839632213115692, "eval_runtime": 1222.7134, "eval_samples_per_second": 4.089, "eval_steps_per_second": 0.511, "step": 90000 }, { "epoch": 24.006666666666668, "grad_norm": 14.494650840759277, "learning_rate": 2.5817634408602153e-06, "loss": 0.3887, "step": 90025 }, { "epoch": 24.013333333333332, "grad_norm": 10.352835655212402, "learning_rate": 2.5796129032258064e-06, "loss": 0.3656, "step": 90050 }, { "epoch": 24.02, "grad_norm": 28.35491943359375, "learning_rate": 2.5774623655913985e-06, "loss": 0.3704, "step": 90075 }, { "epoch": 24.026666666666667, "grad_norm": 13.375704765319824, "learning_rate": 2.5753118279569892e-06, "loss": 0.3817, "step": 90100 }, { "epoch": 24.033333333333335, "grad_norm": 15.009203910827637, "learning_rate": 2.5731612903225812e-06, "loss": 0.3135, "step": 90125 }, { "epoch": 24.04, "grad_norm": 9.110452651977539, "learning_rate": 2.5710107526881724e-06, "loss": 0.3385, "step": 90150 }, { "epoch": 24.046666666666667, "grad_norm": 12.629280090332031, "learning_rate": 2.568860215053764e-06, "loss": 0.382, "step": 90175 }, { "epoch": 24.053333333333335, "grad_norm": 11.356646537780762, "learning_rate": 2.566709677419355e-06, "loss": 0.3308, "step": 90200 }, { "epoch": 24.06, "grad_norm": 15.05521297454834, "learning_rate": 2.5645591397849464e-06, "loss": 0.3076, "step": 90225 }, { "epoch": 24.066666666666666, "grad_norm": 16.459592819213867, "learning_rate": 2.562408602150538e-06, "loss": 0.3584, "step": 90250 }, { "epoch": 24.073333333333334, "grad_norm": 14.642719268798828, "learning_rate": 2.560258064516129e-06, "loss": 0.3464, "step": 90275 }, { "epoch": 24.08, "grad_norm": 12.247607231140137, "learning_rate": 2.5581075268817207e-06, "loss": 0.344, "step": 90300 }, { "epoch": 24.086666666666666, "grad_norm": 12.89610767364502, "learning_rate": 2.555956989247312e-06, "loss": 0.3434, "step": 90325 }, { "epoch": 24.093333333333334, "grad_norm": 15.579267501831055, "learning_rate": 2.5538064516129035e-06, "loss": 0.3527, "step": 90350 }, { "epoch": 24.1, "grad_norm": 11.133187294006348, "learning_rate": 2.5516559139784947e-06, "loss": 0.3588, "step": 90375 }, { "epoch": 24.106666666666666, "grad_norm": 10.542089462280273, "learning_rate": 2.5495053763440863e-06, "loss": 0.321, "step": 90400 }, { "epoch": 24.113333333333333, "grad_norm": 22.447105407714844, "learning_rate": 2.547440860215054e-06, "loss": 0.3244, "step": 90425 }, { "epoch": 24.12, "grad_norm": 12.080245971679688, "learning_rate": 2.545290322580645e-06, "loss": 0.3082, "step": 90450 }, { "epoch": 24.126666666666665, "grad_norm": 11.524040222167969, "learning_rate": 2.5431397849462368e-06, "loss": 0.3089, "step": 90475 }, { "epoch": 24.133333333333333, "grad_norm": 9.054387092590332, "learning_rate": 2.540989247311828e-06, "loss": 0.3068, "step": 90500 }, { "epoch": 24.14, "grad_norm": 13.16749095916748, "learning_rate": 2.5388387096774195e-06, "loss": 0.3516, "step": 90525 }, { "epoch": 24.14666666666667, "grad_norm": 12.791601181030273, "learning_rate": 2.5366881720430107e-06, "loss": 0.3237, "step": 90550 }, { "epoch": 24.153333333333332, "grad_norm": 15.397605895996094, "learning_rate": 2.5345376344086027e-06, "loss": 0.3123, "step": 90575 }, { "epoch": 24.16, "grad_norm": 10.863877296447754, "learning_rate": 2.5323870967741935e-06, "loss": 0.3182, "step": 90600 }, { "epoch": 24.166666666666668, "grad_norm": 9.446457862854004, "learning_rate": 2.5302365591397855e-06, "loss": 0.2762, "step": 90625 }, { "epoch": 24.173333333333332, "grad_norm": 10.984821319580078, "learning_rate": 2.5280860215053767e-06, "loss": 0.2951, "step": 90650 }, { "epoch": 24.18, "grad_norm": 10.467317581176758, "learning_rate": 2.5259354838709683e-06, "loss": 0.3328, "step": 90675 }, { "epoch": 24.186666666666667, "grad_norm": 12.660321235656738, "learning_rate": 2.5237849462365595e-06, "loss": 0.2984, "step": 90700 }, { "epoch": 24.19333333333333, "grad_norm": 10.856925010681152, "learning_rate": 2.5216344086021507e-06, "loss": 0.3268, "step": 90725 }, { "epoch": 24.2, "grad_norm": 12.086616516113281, "learning_rate": 2.5194838709677423e-06, "loss": 0.327, "step": 90750 }, { "epoch": 24.206666666666667, "grad_norm": 11.074652671813965, "learning_rate": 2.5173333333333334e-06, "loss": 0.3061, "step": 90775 }, { "epoch": 24.213333333333335, "grad_norm": 13.33411693572998, "learning_rate": 2.515182795698925e-06, "loss": 0.2972, "step": 90800 }, { "epoch": 24.22, "grad_norm": 11.60984992980957, "learning_rate": 2.513032258064516e-06, "loss": 0.2787, "step": 90825 }, { "epoch": 24.226666666666667, "grad_norm": 10.45186996459961, "learning_rate": 2.510881720430108e-06, "loss": 0.3046, "step": 90850 }, { "epoch": 24.233333333333334, "grad_norm": 13.103404998779297, "learning_rate": 2.508731182795699e-06, "loss": 0.3116, "step": 90875 }, { "epoch": 24.24, "grad_norm": 7.86672830581665, "learning_rate": 2.5065806451612906e-06, "loss": 0.2879, "step": 90900 }, { "epoch": 24.246666666666666, "grad_norm": 10.174619674682617, "learning_rate": 2.5044301075268818e-06, "loss": 0.3186, "step": 90925 }, { "epoch": 24.253333333333334, "grad_norm": 9.274806022644043, "learning_rate": 2.5022795698924734e-06, "loss": 0.3105, "step": 90950 }, { "epoch": 24.26, "grad_norm": 11.875526428222656, "learning_rate": 2.5001290322580645e-06, "loss": 0.2899, "step": 90975 }, { "epoch": 24.266666666666666, "grad_norm": 12.297591209411621, "learning_rate": 2.497978494623656e-06, "loss": 0.2758, "step": 91000 }, { "epoch": 24.273333333333333, "grad_norm": 10.551817893981934, "learning_rate": 2.4958279569892473e-06, "loss": 0.2749, "step": 91025 }, { "epoch": 24.28, "grad_norm": 10.867568969726562, "learning_rate": 2.493677419354839e-06, "loss": 0.311, "step": 91050 }, { "epoch": 24.286666666666665, "grad_norm": 8.185296058654785, "learning_rate": 2.49152688172043e-06, "loss": 0.3322, "step": 91075 }, { "epoch": 24.293333333333333, "grad_norm": 13.346872329711914, "learning_rate": 2.4893763440860217e-06, "loss": 0.2798, "step": 91100 }, { "epoch": 24.3, "grad_norm": 9.564414024353027, "learning_rate": 2.487225806451613e-06, "loss": 0.3223, "step": 91125 }, { "epoch": 24.306666666666665, "grad_norm": 12.443568229675293, "learning_rate": 2.4850752688172045e-06, "loss": 0.3192, "step": 91150 }, { "epoch": 24.313333333333333, "grad_norm": 12.20633602142334, "learning_rate": 2.482924731182796e-06, "loss": 0.2921, "step": 91175 }, { "epoch": 24.32, "grad_norm": 9.533219337463379, "learning_rate": 2.4807741935483873e-06, "loss": 0.3442, "step": 91200 }, { "epoch": 24.326666666666668, "grad_norm": 11.500382423400879, "learning_rate": 2.478623655913979e-06, "loss": 0.308, "step": 91225 }, { "epoch": 24.333333333333332, "grad_norm": 11.81451416015625, "learning_rate": 2.47647311827957e-06, "loss": 0.3029, "step": 91250 }, { "epoch": 24.34, "grad_norm": 9.785064697265625, "learning_rate": 2.4743225806451616e-06, "loss": 0.3046, "step": 91275 }, { "epoch": 24.346666666666668, "grad_norm": 17.57316780090332, "learning_rate": 2.472172043010753e-06, "loss": 0.2681, "step": 91300 }, { "epoch": 24.35333333333333, "grad_norm": 10.887589454650879, "learning_rate": 2.4700215053763444e-06, "loss": 0.2692, "step": 91325 }, { "epoch": 24.36, "grad_norm": 19.89326286315918, "learning_rate": 2.4678709677419356e-06, "loss": 0.275, "step": 91350 }, { "epoch": 24.366666666666667, "grad_norm": 10.97391128540039, "learning_rate": 2.465720430107527e-06, "loss": 0.323, "step": 91375 }, { "epoch": 24.373333333333335, "grad_norm": 12.502934455871582, "learning_rate": 2.4635698924731184e-06, "loss": 0.3166, "step": 91400 }, { "epoch": 24.38, "grad_norm": 8.353272438049316, "learning_rate": 2.46141935483871e-06, "loss": 0.2821, "step": 91425 }, { "epoch": 24.386666666666667, "grad_norm": 9.85291576385498, "learning_rate": 2.4592688172043016e-06, "loss": 0.2785, "step": 91450 }, { "epoch": 24.393333333333334, "grad_norm": 9.840479850769043, "learning_rate": 2.4571182795698927e-06, "loss": 0.2988, "step": 91475 }, { "epoch": 24.4, "grad_norm": 15.113658905029297, "learning_rate": 2.4549677419354843e-06, "loss": 0.2777, "step": 91500 }, { "epoch": 24.406666666666666, "grad_norm": 19.488069534301758, "learning_rate": 2.4528172043010755e-06, "loss": 0.2894, "step": 91525 }, { "epoch": 24.413333333333334, "grad_norm": 11.560132026672363, "learning_rate": 2.4506666666666667e-06, "loss": 0.3015, "step": 91550 }, { "epoch": 24.42, "grad_norm": 9.24342155456543, "learning_rate": 2.4485161290322583e-06, "loss": 0.2991, "step": 91575 }, { "epoch": 24.426666666666666, "grad_norm": 9.558662414550781, "learning_rate": 2.4463655913978495e-06, "loss": 0.2952, "step": 91600 }, { "epoch": 24.433333333333334, "grad_norm": 14.966163635253906, "learning_rate": 2.444215053763441e-06, "loss": 0.2982, "step": 91625 }, { "epoch": 24.44, "grad_norm": 10.495795249938965, "learning_rate": 2.4420645161290322e-06, "loss": 0.3005, "step": 91650 }, { "epoch": 24.446666666666665, "grad_norm": 9.784055709838867, "learning_rate": 2.439913978494624e-06, "loss": 0.3099, "step": 91675 }, { "epoch": 24.453333333333333, "grad_norm": 7.898562431335449, "learning_rate": 2.437763440860215e-06, "loss": 0.2479, "step": 91700 }, { "epoch": 24.46, "grad_norm": 10.078278541564941, "learning_rate": 2.4356129032258066e-06, "loss": 0.31, "step": 91725 }, { "epoch": 24.466666666666665, "grad_norm": 12.603760719299316, "learning_rate": 2.4334623655913982e-06, "loss": 0.294, "step": 91750 }, { "epoch": 24.473333333333333, "grad_norm": 9.804335594177246, "learning_rate": 2.4313118279569894e-06, "loss": 0.2793, "step": 91775 }, { "epoch": 24.48, "grad_norm": 9.375304222106934, "learning_rate": 2.429161290322581e-06, "loss": 0.2748, "step": 91800 }, { "epoch": 24.486666666666668, "grad_norm": 10.744529724121094, "learning_rate": 2.4270967741935487e-06, "loss": 0.3331, "step": 91825 }, { "epoch": 24.493333333333332, "grad_norm": 9.246814727783203, "learning_rate": 2.42494623655914e-06, "loss": 0.2911, "step": 91850 }, { "epoch": 24.5, "grad_norm": 9.086484909057617, "learning_rate": 2.4227956989247315e-06, "loss": 0.3163, "step": 91875 }, { "epoch": 24.506666666666668, "grad_norm": 12.269222259521484, "learning_rate": 2.4206451612903226e-06, "loss": 0.2974, "step": 91900 }, { "epoch": 24.513333333333332, "grad_norm": 9.34498405456543, "learning_rate": 2.4184946236559142e-06, "loss": 0.2869, "step": 91925 }, { "epoch": 24.52, "grad_norm": 8.093825340270996, "learning_rate": 2.416344086021506e-06, "loss": 0.3088, "step": 91950 }, { "epoch": 24.526666666666667, "grad_norm": 10.199366569519043, "learning_rate": 2.414193548387097e-06, "loss": 0.2599, "step": 91975 }, { "epoch": 24.533333333333335, "grad_norm": 8.539580345153809, "learning_rate": 2.4120430107526886e-06, "loss": 0.2806, "step": 92000 }, { "epoch": 24.54, "grad_norm": 11.694597244262695, "learning_rate": 2.40989247311828e-06, "loss": 0.2743, "step": 92025 }, { "epoch": 24.546666666666667, "grad_norm": 22.357572555541992, "learning_rate": 2.407741935483871e-06, "loss": 0.2819, "step": 92050 }, { "epoch": 24.553333333333335, "grad_norm": 8.610261917114258, "learning_rate": 2.4055913978494626e-06, "loss": 0.2816, "step": 92075 }, { "epoch": 24.56, "grad_norm": 8.719229698181152, "learning_rate": 2.4034408602150538e-06, "loss": 0.2682, "step": 92100 }, { "epoch": 24.566666666666666, "grad_norm": 7.363561153411865, "learning_rate": 2.4012903225806454e-06, "loss": 0.2563, "step": 92125 }, { "epoch": 24.573333333333334, "grad_norm": 8.0934419631958, "learning_rate": 2.3991397849462365e-06, "loss": 0.2496, "step": 92150 }, { "epoch": 24.58, "grad_norm": 8.129329681396484, "learning_rate": 2.396989247311828e-06, "loss": 0.2846, "step": 92175 }, { "epoch": 24.586666666666666, "grad_norm": 8.25839614868164, "learning_rate": 2.3948387096774193e-06, "loss": 0.2947, "step": 92200 }, { "epoch": 24.593333333333334, "grad_norm": 14.129603385925293, "learning_rate": 2.392688172043011e-06, "loss": 0.2795, "step": 92225 }, { "epoch": 24.6, "grad_norm": 12.236503601074219, "learning_rate": 2.3905376344086025e-06, "loss": 0.274, "step": 92250 }, { "epoch": 24.606666666666666, "grad_norm": 7.358208656311035, "learning_rate": 2.3883870967741937e-06, "loss": 0.2806, "step": 92275 }, { "epoch": 24.613333333333333, "grad_norm": 9.681215286254883, "learning_rate": 2.3862365591397853e-06, "loss": 0.2578, "step": 92300 }, { "epoch": 24.62, "grad_norm": 8.082961082458496, "learning_rate": 2.3840860215053765e-06, "loss": 0.2648, "step": 92325 }, { "epoch": 24.626666666666665, "grad_norm": 9.742077827453613, "learning_rate": 2.381935483870968e-06, "loss": 0.2665, "step": 92350 }, { "epoch": 24.633333333333333, "grad_norm": 14.847493171691895, "learning_rate": 2.3797849462365592e-06, "loss": 0.278, "step": 92375 }, { "epoch": 24.64, "grad_norm": 12.069472312927246, "learning_rate": 2.377634408602151e-06, "loss": 0.273, "step": 92400 }, { "epoch": 24.64666666666667, "grad_norm": 13.223185539245605, "learning_rate": 2.375483870967742e-06, "loss": 0.2669, "step": 92425 }, { "epoch": 24.653333333333332, "grad_norm": 10.316980361938477, "learning_rate": 2.3733333333333336e-06, "loss": 0.296, "step": 92450 }, { "epoch": 24.66, "grad_norm": 8.75561237335205, "learning_rate": 2.3711827956989252e-06, "loss": 0.2683, "step": 92475 }, { "epoch": 24.666666666666668, "grad_norm": 11.392918586730957, "learning_rate": 2.3690322580645164e-06, "loss": 0.2584, "step": 92500 }, { "epoch": 24.673333333333332, "grad_norm": 9.525426864624023, "learning_rate": 2.366881720430108e-06, "loss": 0.2702, "step": 92525 }, { "epoch": 24.68, "grad_norm": 9.01202392578125, "learning_rate": 2.364731182795699e-06, "loss": 0.2773, "step": 92550 }, { "epoch": 24.686666666666667, "grad_norm": 10.961268424987793, "learning_rate": 2.3625806451612908e-06, "loss": 0.2709, "step": 92575 }, { "epoch": 24.693333333333335, "grad_norm": 10.34868049621582, "learning_rate": 2.360430107526882e-06, "loss": 0.2653, "step": 92600 }, { "epoch": 24.7, "grad_norm": 10.22317886352539, "learning_rate": 2.358279569892473e-06, "loss": 0.2603, "step": 92625 }, { "epoch": 24.706666666666667, "grad_norm": 9.129959106445312, "learning_rate": 2.3561290322580647e-06, "loss": 0.3149, "step": 92650 }, { "epoch": 24.713333333333335, "grad_norm": 13.126275062561035, "learning_rate": 2.353978494623656e-06, "loss": 0.2938, "step": 92675 }, { "epoch": 24.72, "grad_norm": 7.120156764984131, "learning_rate": 2.3518279569892475e-06, "loss": 0.2549, "step": 92700 }, { "epoch": 24.726666666666667, "grad_norm": 11.534344673156738, "learning_rate": 2.3496774193548387e-06, "loss": 0.2491, "step": 92725 }, { "epoch": 24.733333333333334, "grad_norm": 10.603137969970703, "learning_rate": 2.3475268817204303e-06, "loss": 0.2909, "step": 92750 }, { "epoch": 24.74, "grad_norm": 23.92423439025879, "learning_rate": 2.3453763440860215e-06, "loss": 0.2415, "step": 92775 }, { "epoch": 24.746666666666666, "grad_norm": 7.76664400100708, "learning_rate": 2.343225806451613e-06, "loss": 0.2782, "step": 92800 }, { "epoch": 24.753333333333334, "grad_norm": 10.271632194519043, "learning_rate": 2.3410752688172047e-06, "loss": 0.2748, "step": 92825 }, { "epoch": 24.76, "grad_norm": 8.793927192687988, "learning_rate": 2.338924731182796e-06, "loss": 0.2749, "step": 92850 }, { "epoch": 24.766666666666666, "grad_norm": 8.995062828063965, "learning_rate": 2.3367741935483874e-06, "loss": 0.2675, "step": 92875 }, { "epoch": 24.773333333333333, "grad_norm": 11.535062789916992, "learning_rate": 2.3346236559139786e-06, "loss": 0.263, "step": 92900 }, { "epoch": 24.78, "grad_norm": 10.414617538452148, "learning_rate": 2.3324731182795702e-06, "loss": 0.2501, "step": 92925 }, { "epoch": 24.786666666666665, "grad_norm": 11.086565971374512, "learning_rate": 2.3303225806451614e-06, "loss": 0.2776, "step": 92950 }, { "epoch": 24.793333333333333, "grad_norm": 7.984884738922119, "learning_rate": 2.328172043010753e-06, "loss": 0.2606, "step": 92975 }, { "epoch": 24.8, "grad_norm": 9.94864559173584, "learning_rate": 2.326021505376344e-06, "loss": 0.2751, "step": 93000 }, { "epoch": 24.806666666666665, "grad_norm": 12.186812400817871, "learning_rate": 2.3238709677419358e-06, "loss": 0.2734, "step": 93025 }, { "epoch": 24.813333333333333, "grad_norm": 8.328730583190918, "learning_rate": 2.3217204301075274e-06, "loss": 0.2776, "step": 93050 }, { "epoch": 24.82, "grad_norm": 9.656314849853516, "learning_rate": 2.3195698924731186e-06, "loss": 0.276, "step": 93075 }, { "epoch": 24.826666666666668, "grad_norm": 7.723722457885742, "learning_rate": 2.31741935483871e-06, "loss": 0.2627, "step": 93100 }, { "epoch": 24.833333333333332, "grad_norm": 11.687883377075195, "learning_rate": 2.3152688172043013e-06, "loss": 0.2632, "step": 93125 }, { "epoch": 24.84, "grad_norm": 10.283669471740723, "learning_rate": 2.3131182795698925e-06, "loss": 0.2423, "step": 93150 }, { "epoch": 24.846666666666668, "grad_norm": 13.88845443725586, "learning_rate": 2.310967741935484e-06, "loss": 0.3171, "step": 93175 }, { "epoch": 24.85333333333333, "grad_norm": 9.367657661437988, "learning_rate": 2.3088172043010753e-06, "loss": 0.2667, "step": 93200 }, { "epoch": 24.86, "grad_norm": 10.709728240966797, "learning_rate": 2.306666666666667e-06, "loss": 0.2658, "step": 93225 }, { "epoch": 24.866666666666667, "grad_norm": 8.654335021972656, "learning_rate": 2.304516129032258e-06, "loss": 0.246, "step": 93250 }, { "epoch": 24.873333333333335, "grad_norm": 7.147115230560303, "learning_rate": 2.3023655913978497e-06, "loss": 0.2452, "step": 93275 }, { "epoch": 24.88, "grad_norm": 9.571681022644043, "learning_rate": 2.300215053763441e-06, "loss": 0.2615, "step": 93300 }, { "epoch": 24.886666666666667, "grad_norm": 7.67602014541626, "learning_rate": 2.2980645161290324e-06, "loss": 0.2574, "step": 93325 }, { "epoch": 24.893333333333334, "grad_norm": 9.453591346740723, "learning_rate": 2.2959139784946236e-06, "loss": 0.2679, "step": 93350 }, { "epoch": 24.9, "grad_norm": 9.896781921386719, "learning_rate": 2.2937634408602152e-06, "loss": 0.2707, "step": 93375 }, { "epoch": 24.906666666666666, "grad_norm": 10.379837036132812, "learning_rate": 2.291612903225807e-06, "loss": 0.2765, "step": 93400 }, { "epoch": 24.913333333333334, "grad_norm": 9.032561302185059, "learning_rate": 2.289462365591398e-06, "loss": 0.256, "step": 93425 }, { "epoch": 24.92, "grad_norm": 11.043059349060059, "learning_rate": 2.2873118279569896e-06, "loss": 0.2897, "step": 93450 }, { "epoch": 24.926666666666666, "grad_norm": 6.639869213104248, "learning_rate": 2.2851612903225808e-06, "loss": 0.2552, "step": 93475 }, { "epoch": 24.933333333333334, "grad_norm": 12.5164794921875, "learning_rate": 2.2830107526881724e-06, "loss": 0.2495, "step": 93500 }, { "epoch": 24.94, "grad_norm": 11.03100299835205, "learning_rate": 2.2808602150537636e-06, "loss": 0.2374, "step": 93525 }, { "epoch": 24.946666666666665, "grad_norm": 8.756318092346191, "learning_rate": 2.278709677419355e-06, "loss": 0.2563, "step": 93550 }, { "epoch": 24.953333333333333, "grad_norm": 11.996091842651367, "learning_rate": 2.2765591397849463e-06, "loss": 0.2521, "step": 93575 }, { "epoch": 24.96, "grad_norm": 10.987135887145996, "learning_rate": 2.274408602150538e-06, "loss": 0.2783, "step": 93600 }, { "epoch": 24.966666666666665, "grad_norm": 7.982716083526611, "learning_rate": 2.2722580645161295e-06, "loss": 0.2335, "step": 93625 }, { "epoch": 24.973333333333333, "grad_norm": 10.169386863708496, "learning_rate": 2.2701075268817203e-06, "loss": 0.2547, "step": 93650 }, { "epoch": 24.98, "grad_norm": 8.445560455322266, "learning_rate": 2.267956989247312e-06, "loss": 0.2286, "step": 93675 }, { "epoch": 24.986666666666668, "grad_norm": 8.159354209899902, "learning_rate": 2.2658064516129035e-06, "loss": 0.2464, "step": 93700 }, { "epoch": 24.993333333333332, "grad_norm": 8.31690788269043, "learning_rate": 2.2636559139784947e-06, "loss": 0.2492, "step": 93725 }, { "epoch": 25.0, "grad_norm": 22.70769500732422, "learning_rate": 2.2615053763440863e-06, "loss": 0.2775, "step": 93750 }, { "epoch": 25.0, "eval_cer": 26.030971060134544, "eval_loss": 0.4464588761329651, "eval_runtime": 1271.8374, "eval_samples_per_second": 3.931, "eval_steps_per_second": 0.491, "step": 93750 }, { "epoch": 25.006666666666668, "grad_norm": 8.093771934509277, "learning_rate": 2.2593548387096774e-06, "loss": 0.1897, "step": 93775 }, { "epoch": 25.013333333333332, "grad_norm": 7.4167399406433105, "learning_rate": 2.257204301075269e-06, "loss": 0.1745, "step": 93800 }, { "epoch": 25.02, "grad_norm": 11.16968059539795, "learning_rate": 2.2550537634408602e-06, "loss": 0.1962, "step": 93825 }, { "epoch": 25.026666666666667, "grad_norm": 7.969546794891357, "learning_rate": 2.252903225806452e-06, "loss": 0.1994, "step": 93850 }, { "epoch": 25.033333333333335, "grad_norm": 6.05521297454834, "learning_rate": 2.250752688172043e-06, "loss": 0.1878, "step": 93875 }, { "epoch": 25.04, "grad_norm": 9.374842643737793, "learning_rate": 2.2486021505376346e-06, "loss": 0.1656, "step": 93900 }, { "epoch": 25.046666666666667, "grad_norm": 5.12725830078125, "learning_rate": 2.246451612903226e-06, "loss": 0.1856, "step": 93925 }, { "epoch": 25.053333333333335, "grad_norm": 8.480693817138672, "learning_rate": 2.2443010752688174e-06, "loss": 0.1798, "step": 93950 }, { "epoch": 25.06, "grad_norm": 17.559499740600586, "learning_rate": 2.242150537634409e-06, "loss": 0.2029, "step": 93975 }, { "epoch": 25.066666666666666, "grad_norm": 8.962799072265625, "learning_rate": 2.24e-06, "loss": 0.1763, "step": 94000 }, { "epoch": 25.073333333333334, "grad_norm": 8.122204780578613, "learning_rate": 2.2378494623655918e-06, "loss": 0.1759, "step": 94025 }, { "epoch": 25.08, "grad_norm": 7.935880184173584, "learning_rate": 2.235698924731183e-06, "loss": 0.1931, "step": 94050 }, { "epoch": 25.086666666666666, "grad_norm": 10.871240615844727, "learning_rate": 2.2335483870967745e-06, "loss": 0.1825, "step": 94075 }, { "epoch": 25.093333333333334, "grad_norm": 7.749678134918213, "learning_rate": 2.2313978494623657e-06, "loss": 0.1817, "step": 94100 }, { "epoch": 25.1, "grad_norm": 7.304566383361816, "learning_rate": 2.2292473118279573e-06, "loss": 0.189, "step": 94125 }, { "epoch": 25.106666666666666, "grad_norm": 7.369382858276367, "learning_rate": 2.2270967741935485e-06, "loss": 0.1778, "step": 94150 }, { "epoch": 25.113333333333333, "grad_norm": 7.986198902130127, "learning_rate": 2.22494623655914e-06, "loss": 0.1996, "step": 94175 }, { "epoch": 25.12, "grad_norm": 6.187266826629639, "learning_rate": 2.2227956989247313e-06, "loss": 0.1775, "step": 94200 }, { "epoch": 25.126666666666665, "grad_norm": 8.599306106567383, "learning_rate": 2.2206451612903224e-06, "loss": 0.2095, "step": 94225 }, { "epoch": 25.133333333333333, "grad_norm": 7.696023941040039, "learning_rate": 2.218494623655914e-06, "loss": 0.1995, "step": 94250 }, { "epoch": 25.14, "grad_norm": 9.679965019226074, "learning_rate": 2.2163440860215056e-06, "loss": 0.2065, "step": 94275 }, { "epoch": 25.14666666666667, "grad_norm": 6.699609279632568, "learning_rate": 2.214193548387097e-06, "loss": 0.193, "step": 94300 }, { "epoch": 25.153333333333332, "grad_norm": 8.388687133789062, "learning_rate": 2.2120430107526884e-06, "loss": 0.1819, "step": 94325 }, { "epoch": 25.16, "grad_norm": 7.235806941986084, "learning_rate": 2.2098924731182796e-06, "loss": 0.2041, "step": 94350 }, { "epoch": 25.166666666666668, "grad_norm": 10.022892951965332, "learning_rate": 2.207741935483871e-06, "loss": 0.2025, "step": 94375 }, { "epoch": 25.173333333333332, "grad_norm": 8.45787239074707, "learning_rate": 2.2055913978494624e-06, "loss": 0.2155, "step": 94400 }, { "epoch": 25.18, "grad_norm": 7.783002853393555, "learning_rate": 2.203440860215054e-06, "loss": 0.1951, "step": 94425 }, { "epoch": 25.186666666666667, "grad_norm": 9.46368408203125, "learning_rate": 2.201290322580645e-06, "loss": 0.1987, "step": 94450 }, { "epoch": 25.19333333333333, "grad_norm": 5.163589000701904, "learning_rate": 2.1991397849462368e-06, "loss": 0.1864, "step": 94475 }, { "epoch": 25.2, "grad_norm": 9.72866153717041, "learning_rate": 2.1969892473118284e-06, "loss": 0.2064, "step": 94500 }, { "epoch": 25.206666666666667, "grad_norm": 7.850149631500244, "learning_rate": 2.1948387096774195e-06, "loss": 0.19, "step": 94525 }, { "epoch": 25.213333333333335, "grad_norm": 11.462817192077637, "learning_rate": 2.192688172043011e-06, "loss": 0.1811, "step": 94550 }, { "epoch": 25.22, "grad_norm": 8.794136047363281, "learning_rate": 2.1905376344086023e-06, "loss": 0.2007, "step": 94575 }, { "epoch": 25.226666666666667, "grad_norm": 8.529023170471191, "learning_rate": 2.188387096774194e-06, "loss": 0.1945, "step": 94600 }, { "epoch": 25.233333333333334, "grad_norm": 6.735099792480469, "learning_rate": 2.186236559139785e-06, "loss": 0.1962, "step": 94625 }, { "epoch": 25.24, "grad_norm": 9.813767433166504, "learning_rate": 2.1840860215053767e-06, "loss": 0.1932, "step": 94650 }, { "epoch": 25.246666666666666, "grad_norm": 9.955351829528809, "learning_rate": 2.181935483870968e-06, "loss": 0.1946, "step": 94675 }, { "epoch": 25.253333333333334, "grad_norm": 8.573407173156738, "learning_rate": 2.1797849462365595e-06, "loss": 0.2034, "step": 94700 }, { "epoch": 25.26, "grad_norm": 7.975314140319824, "learning_rate": 2.1776344086021506e-06, "loss": 0.1924, "step": 94725 }, { "epoch": 25.266666666666666, "grad_norm": 5.473546028137207, "learning_rate": 2.175483870967742e-06, "loss": 0.1786, "step": 94750 }, { "epoch": 25.273333333333333, "grad_norm": 8.166447639465332, "learning_rate": 2.1733333333333334e-06, "loss": 0.1967, "step": 94775 }, { "epoch": 25.28, "grad_norm": 10.980266571044922, "learning_rate": 2.171182795698925e-06, "loss": 0.1853, "step": 94800 }, { "epoch": 25.286666666666665, "grad_norm": 8.250361442565918, "learning_rate": 2.169032258064516e-06, "loss": 0.2077, "step": 94825 }, { "epoch": 25.293333333333333, "grad_norm": 9.378231048583984, "learning_rate": 2.166881720430108e-06, "loss": 0.1926, "step": 94850 }, { "epoch": 25.3, "grad_norm": 10.752622604370117, "learning_rate": 2.164731182795699e-06, "loss": 0.208, "step": 94875 }, { "epoch": 25.306666666666665, "grad_norm": 11.62700366973877, "learning_rate": 2.1625806451612906e-06, "loss": 0.202, "step": 94900 }, { "epoch": 25.313333333333333, "grad_norm": 8.921637535095215, "learning_rate": 2.1604301075268818e-06, "loss": 0.2035, "step": 94925 }, { "epoch": 25.32, "grad_norm": 6.443472862243652, "learning_rate": 2.1582795698924734e-06, "loss": 0.2058, "step": 94950 }, { "epoch": 25.326666666666668, "grad_norm": 9.28752613067627, "learning_rate": 2.1561290322580645e-06, "loss": 0.1998, "step": 94975 }, { "epoch": 25.333333333333332, "grad_norm": 6.670506000518799, "learning_rate": 2.153978494623656e-06, "loss": 0.1877, "step": 95000 }, { "epoch": 25.34, "grad_norm": 10.768532752990723, "learning_rate": 2.1518279569892473e-06, "loss": 0.2167, "step": 95025 }, { "epoch": 25.346666666666668, "grad_norm": 6.773021697998047, "learning_rate": 2.149677419354839e-06, "loss": 0.175, "step": 95050 }, { "epoch": 25.35333333333333, "grad_norm": 6.628323554992676, "learning_rate": 2.1475268817204305e-06, "loss": 0.1955, "step": 95075 }, { "epoch": 25.36, "grad_norm": 11.104425430297852, "learning_rate": 2.1453763440860217e-06, "loss": 0.1982, "step": 95100 }, { "epoch": 25.366666666666667, "grad_norm": 4.995948314666748, "learning_rate": 2.1432258064516133e-06, "loss": 0.1961, "step": 95125 }, { "epoch": 25.373333333333335, "grad_norm": 9.040718078613281, "learning_rate": 2.141161290322581e-06, "loss": 0.2127, "step": 95150 }, { "epoch": 25.38, "grad_norm": 8.90970230102539, "learning_rate": 2.139010752688172e-06, "loss": 0.2083, "step": 95175 }, { "epoch": 25.386666666666667, "grad_norm": 8.540334701538086, "learning_rate": 2.1368602150537637e-06, "loss": 0.2095, "step": 95200 }, { "epoch": 25.393333333333334, "grad_norm": 12.541606903076172, "learning_rate": 2.1347096774193553e-06, "loss": 0.2082, "step": 95225 }, { "epoch": 25.4, "grad_norm": 11.144375801086426, "learning_rate": 2.132559139784946e-06, "loss": 0.1714, "step": 95250 }, { "epoch": 25.406666666666666, "grad_norm": 6.948701858520508, "learning_rate": 2.1304086021505377e-06, "loss": 0.1844, "step": 95275 }, { "epoch": 25.413333333333334, "grad_norm": 7.287113666534424, "learning_rate": 2.1282580645161293e-06, "loss": 0.1772, "step": 95300 }, { "epoch": 25.42, "grad_norm": 9.864408493041992, "learning_rate": 2.1261075268817205e-06, "loss": 0.1952, "step": 95325 }, { "epoch": 25.426666666666666, "grad_norm": 6.154463768005371, "learning_rate": 2.123956989247312e-06, "loss": 0.2015, "step": 95350 }, { "epoch": 25.433333333333334, "grad_norm": 7.643492221832275, "learning_rate": 2.1218064516129033e-06, "loss": 0.1903, "step": 95375 }, { "epoch": 25.44, "grad_norm": 8.527846336364746, "learning_rate": 2.119655913978495e-06, "loss": 0.1727, "step": 95400 }, { "epoch": 25.446666666666665, "grad_norm": 11.084033966064453, "learning_rate": 2.117505376344086e-06, "loss": 0.1824, "step": 95425 }, { "epoch": 25.453333333333333, "grad_norm": 6.261316776275635, "learning_rate": 2.1153548387096776e-06, "loss": 0.1849, "step": 95450 }, { "epoch": 25.46, "grad_norm": 6.732108116149902, "learning_rate": 2.113204301075269e-06, "loss": 0.1682, "step": 95475 }, { "epoch": 25.466666666666665, "grad_norm": 7.661515712738037, "learning_rate": 2.1110537634408604e-06, "loss": 0.1743, "step": 95500 }, { "epoch": 25.473333333333333, "grad_norm": 6.4555253982543945, "learning_rate": 2.1089032258064516e-06, "loss": 0.193, "step": 95525 }, { "epoch": 25.48, "grad_norm": 6.895571231842041, "learning_rate": 2.106752688172043e-06, "loss": 0.2016, "step": 95550 }, { "epoch": 25.486666666666668, "grad_norm": 7.861456871032715, "learning_rate": 2.104602150537635e-06, "loss": 0.189, "step": 95575 }, { "epoch": 25.493333333333332, "grad_norm": 7.576968193054199, "learning_rate": 2.102451612903226e-06, "loss": 0.2037, "step": 95600 }, { "epoch": 25.5, "grad_norm": 8.967538833618164, "learning_rate": 2.1003010752688176e-06, "loss": 0.1679, "step": 95625 }, { "epoch": 25.506666666666668, "grad_norm": 8.787067413330078, "learning_rate": 2.0981505376344087e-06, "loss": 0.1863, "step": 95650 }, { "epoch": 25.513333333333332, "grad_norm": 8.268157958984375, "learning_rate": 2.0960000000000003e-06, "loss": 0.1843, "step": 95675 }, { "epoch": 25.52, "grad_norm": 14.351369857788086, "learning_rate": 2.0938494623655915e-06, "loss": 0.1845, "step": 95700 }, { "epoch": 25.526666666666667, "grad_norm": 6.486778736114502, "learning_rate": 2.091698924731183e-06, "loss": 0.1972, "step": 95725 }, { "epoch": 25.533333333333335, "grad_norm": 5.89620304107666, "learning_rate": 2.0895483870967743e-06, "loss": 0.1725, "step": 95750 }, { "epoch": 25.54, "grad_norm": 12.234594345092773, "learning_rate": 2.087397849462366e-06, "loss": 0.1997, "step": 95775 }, { "epoch": 25.546666666666667, "grad_norm": 6.777947902679443, "learning_rate": 2.085247311827957e-06, "loss": 0.1876, "step": 95800 }, { "epoch": 25.553333333333335, "grad_norm": 8.14694595336914, "learning_rate": 2.0830967741935483e-06, "loss": 0.2148, "step": 95825 }, { "epoch": 25.56, "grad_norm": 7.080284118652344, "learning_rate": 2.08094623655914e-06, "loss": 0.1805, "step": 95850 }, { "epoch": 25.566666666666666, "grad_norm": 7.6141486167907715, "learning_rate": 2.0787956989247315e-06, "loss": 0.207, "step": 95875 }, { "epoch": 25.573333333333334, "grad_norm": 8.343448638916016, "learning_rate": 2.0766451612903226e-06, "loss": 0.1996, "step": 95900 }, { "epoch": 25.58, "grad_norm": 11.554160118103027, "learning_rate": 2.0744946236559142e-06, "loss": 0.1703, "step": 95925 }, { "epoch": 25.586666666666666, "grad_norm": 9.729186058044434, "learning_rate": 2.0723440860215054e-06, "loss": 0.2016, "step": 95950 }, { "epoch": 25.593333333333334, "grad_norm": 9.907792091369629, "learning_rate": 2.070193548387097e-06, "loss": 0.1775, "step": 95975 }, { "epoch": 25.6, "grad_norm": 7.086188316345215, "learning_rate": 2.068043010752688e-06, "loss": 0.2004, "step": 96000 }, { "epoch": 25.606666666666666, "grad_norm": 8.777986526489258, "learning_rate": 2.06589247311828e-06, "loss": 0.1783, "step": 96025 }, { "epoch": 25.613333333333333, "grad_norm": 10.094611167907715, "learning_rate": 2.063741935483871e-06, "loss": 0.1896, "step": 96050 }, { "epoch": 25.62, "grad_norm": 7.325233459472656, "learning_rate": 2.0615913978494626e-06, "loss": 0.1833, "step": 96075 }, { "epoch": 25.626666666666665, "grad_norm": 8.798975944519043, "learning_rate": 2.059440860215054e-06, "loss": 0.178, "step": 96100 }, { "epoch": 25.633333333333333, "grad_norm": 7.6541337966918945, "learning_rate": 2.0572903225806453e-06, "loss": 0.1841, "step": 96125 }, { "epoch": 25.64, "grad_norm": 7.9064812660217285, "learning_rate": 2.055139784946237e-06, "loss": 0.1653, "step": 96150 }, { "epoch": 25.64666666666667, "grad_norm": 6.919043064117432, "learning_rate": 2.052989247311828e-06, "loss": 0.1771, "step": 96175 }, { "epoch": 25.653333333333332, "grad_norm": 11.332149505615234, "learning_rate": 2.0508387096774197e-06, "loss": 0.1933, "step": 96200 }, { "epoch": 25.66, "grad_norm": 6.957906723022461, "learning_rate": 2.048688172043011e-06, "loss": 0.19, "step": 96225 }, { "epoch": 25.666666666666668, "grad_norm": 6.451976776123047, "learning_rate": 2.0465376344086025e-06, "loss": 0.186, "step": 96250 }, { "epoch": 25.673333333333332, "grad_norm": 5.218023777008057, "learning_rate": 2.0443870967741937e-06, "loss": 0.1777, "step": 96275 }, { "epoch": 25.68, "grad_norm": 7.414306163787842, "learning_rate": 2.0422365591397853e-06, "loss": 0.2022, "step": 96300 }, { "epoch": 25.686666666666667, "grad_norm": 9.036983489990234, "learning_rate": 2.0400860215053765e-06, "loss": 0.2079, "step": 96325 }, { "epoch": 25.693333333333335, "grad_norm": 8.427175521850586, "learning_rate": 2.0379354838709676e-06, "loss": 0.1975, "step": 96350 }, { "epoch": 25.7, "grad_norm": 7.182431697845459, "learning_rate": 2.0357849462365592e-06, "loss": 0.188, "step": 96375 }, { "epoch": 25.706666666666667, "grad_norm": 8.810286521911621, "learning_rate": 2.0336344086021504e-06, "loss": 0.1832, "step": 96400 }, { "epoch": 25.713333333333335, "grad_norm": 7.320106029510498, "learning_rate": 2.031483870967742e-06, "loss": 0.1783, "step": 96425 }, { "epoch": 25.72, "grad_norm": 8.7169771194458, "learning_rate": 2.0293333333333336e-06, "loss": 0.1818, "step": 96450 }, { "epoch": 25.726666666666667, "grad_norm": 7.751563549041748, "learning_rate": 2.027182795698925e-06, "loss": 0.1834, "step": 96475 }, { "epoch": 25.733333333333334, "grad_norm": 7.246330738067627, "learning_rate": 2.0250322580645164e-06, "loss": 0.1754, "step": 96500 }, { "epoch": 25.74, "grad_norm": 7.881058692932129, "learning_rate": 2.0228817204301076e-06, "loss": 0.1756, "step": 96525 }, { "epoch": 25.746666666666666, "grad_norm": 9.315343856811523, "learning_rate": 2.020731182795699e-06, "loss": 0.1656, "step": 96550 }, { "epoch": 25.753333333333334, "grad_norm": 6.190188884735107, "learning_rate": 2.0185806451612903e-06, "loss": 0.1812, "step": 96575 }, { "epoch": 25.76, "grad_norm": 7.612519264221191, "learning_rate": 2.016430107526882e-06, "loss": 0.1768, "step": 96600 }, { "epoch": 25.766666666666666, "grad_norm": 10.56788444519043, "learning_rate": 2.014279569892473e-06, "loss": 0.1972, "step": 96625 }, { "epoch": 25.773333333333333, "grad_norm": 19.872817993164062, "learning_rate": 2.0121290322580647e-06, "loss": 0.1828, "step": 96650 }, { "epoch": 25.78, "grad_norm": 7.014391899108887, "learning_rate": 2.0099784946236563e-06, "loss": 0.1936, "step": 96675 }, { "epoch": 25.786666666666665, "grad_norm": 9.995701789855957, "learning_rate": 2.0078279569892475e-06, "loss": 0.2091, "step": 96700 }, { "epoch": 25.793333333333333, "grad_norm": 9.16642951965332, "learning_rate": 2.005677419354839e-06, "loss": 0.1928, "step": 96725 }, { "epoch": 25.8, "grad_norm": 7.512487888336182, "learning_rate": 2.0035268817204303e-06, "loss": 0.1926, "step": 96750 }, { "epoch": 25.806666666666665, "grad_norm": 6.224376678466797, "learning_rate": 2.001376344086022e-06, "loss": 0.1855, "step": 96775 }, { "epoch": 25.813333333333333, "grad_norm": 8.111281394958496, "learning_rate": 1.999225806451613e-06, "loss": 0.1825, "step": 96800 }, { "epoch": 25.82, "grad_norm": 8.677468299865723, "learning_rate": 1.9970752688172047e-06, "loss": 0.1718, "step": 96825 }, { "epoch": 25.826666666666668, "grad_norm": 7.659100532531738, "learning_rate": 1.994924731182796e-06, "loss": 0.1906, "step": 96850 }, { "epoch": 25.833333333333332, "grad_norm": 9.64934253692627, "learning_rate": 1.992774193548387e-06, "loss": 0.1735, "step": 96875 }, { "epoch": 25.84, "grad_norm": 8.043671607971191, "learning_rate": 1.9906236559139786e-06, "loss": 0.1966, "step": 96900 }, { "epoch": 25.846666666666668, "grad_norm": 7.368279933929443, "learning_rate": 1.9884731182795698e-06, "loss": 0.1676, "step": 96925 }, { "epoch": 25.85333333333333, "grad_norm": 10.281476974487305, "learning_rate": 1.9863225806451614e-06, "loss": 0.184, "step": 96950 }, { "epoch": 25.86, "grad_norm": 8.240585327148438, "learning_rate": 1.984172043010753e-06, "loss": 0.1929, "step": 96975 }, { "epoch": 25.866666666666667, "grad_norm": 9.37079906463623, "learning_rate": 1.982021505376344e-06, "loss": 0.161, "step": 97000 }, { "epoch": 25.873333333333335, "grad_norm": 9.581969261169434, "learning_rate": 1.9798709677419358e-06, "loss": 0.185, "step": 97025 }, { "epoch": 25.88, "grad_norm": 8.47049617767334, "learning_rate": 1.977720430107527e-06, "loss": 0.1715, "step": 97050 }, { "epoch": 25.886666666666667, "grad_norm": 6.281412124633789, "learning_rate": 1.9755698924731185e-06, "loss": 0.1993, "step": 97075 }, { "epoch": 25.893333333333334, "grad_norm": 7.96173620223999, "learning_rate": 1.9734193548387097e-06, "loss": 0.1964, "step": 97100 }, { "epoch": 25.9, "grad_norm": 5.83751916885376, "learning_rate": 1.9712688172043013e-06, "loss": 0.1657, "step": 97125 }, { "epoch": 25.906666666666666, "grad_norm": 7.571900844573975, "learning_rate": 1.9691182795698925e-06, "loss": 0.1851, "step": 97150 }, { "epoch": 25.913333333333334, "grad_norm": 5.64884614944458, "learning_rate": 1.966967741935484e-06, "loss": 0.1795, "step": 97175 }, { "epoch": 25.92, "grad_norm": 8.73154354095459, "learning_rate": 1.9648172043010753e-06, "loss": 0.1924, "step": 97200 }, { "epoch": 25.926666666666666, "grad_norm": 9.101682662963867, "learning_rate": 1.962666666666667e-06, "loss": 0.1899, "step": 97225 }, { "epoch": 25.933333333333334, "grad_norm": 7.3019514083862305, "learning_rate": 1.9605161290322585e-06, "loss": 0.1594, "step": 97250 }, { "epoch": 25.94, "grad_norm": 8.488587379455566, "learning_rate": 1.9583655913978497e-06, "loss": 0.2118, "step": 97275 }, { "epoch": 25.946666666666665, "grad_norm": 7.142959117889404, "learning_rate": 1.9562150537634413e-06, "loss": 0.1721, "step": 97300 }, { "epoch": 25.953333333333333, "grad_norm": 5.874177932739258, "learning_rate": 1.9540645161290324e-06, "loss": 0.1708, "step": 97325 }, { "epoch": 25.96, "grad_norm": 6.7591962814331055, "learning_rate": 1.951913978494624e-06, "loss": 0.1993, "step": 97350 }, { "epoch": 25.966666666666665, "grad_norm": 6.379892826080322, "learning_rate": 1.949763440860215e-06, "loss": 0.1905, "step": 97375 }, { "epoch": 25.973333333333333, "grad_norm": 9.568170547485352, "learning_rate": 1.9476129032258064e-06, "loss": 0.1778, "step": 97400 }, { "epoch": 25.98, "grad_norm": 7.920642852783203, "learning_rate": 1.945462365591398e-06, "loss": 0.2043, "step": 97425 }, { "epoch": 25.986666666666668, "grad_norm": 8.133031845092773, "learning_rate": 1.943311827956989e-06, "loss": 0.1713, "step": 97450 }, { "epoch": 25.993333333333332, "grad_norm": 9.857525825500488, "learning_rate": 1.9411612903225808e-06, "loss": 0.1864, "step": 97475 }, { "epoch": 26.0, "grad_norm": 7.001242160797119, "learning_rate": 1.939010752688172e-06, "loss": 0.1631, "step": 97500 }, { "epoch": 26.0, "eval_cer": 26.606786799098074, "eval_loss": 0.449998140335083, "eval_runtime": 1291.7462, "eval_samples_per_second": 3.871, "eval_steps_per_second": 0.484, "step": 97500 }, { "epoch": 26.006666666666668, "grad_norm": 5.81386137008667, "learning_rate": 1.9368602150537635e-06, "loss": 0.1325, "step": 97525 }, { "epoch": 26.013333333333332, "grad_norm": 5.326016902923584, "learning_rate": 1.934709677419355e-06, "loss": 0.1179, "step": 97550 }, { "epoch": 26.02, "grad_norm": 6.382052421569824, "learning_rate": 1.9325591397849463e-06, "loss": 0.1377, "step": 97575 }, { "epoch": 26.026666666666667, "grad_norm": 7.063591003417969, "learning_rate": 1.930408602150538e-06, "loss": 0.1198, "step": 97600 }, { "epoch": 26.033333333333335, "grad_norm": 6.909744739532471, "learning_rate": 1.928258064516129e-06, "loss": 0.1305, "step": 97625 }, { "epoch": 26.04, "grad_norm": 6.406467437744141, "learning_rate": 1.9261075268817207e-06, "loss": 0.1374, "step": 97650 }, { "epoch": 26.046666666666667, "grad_norm": 6.720775604248047, "learning_rate": 1.923956989247312e-06, "loss": 0.1216, "step": 97675 }, { "epoch": 26.053333333333335, "grad_norm": 8.364392280578613, "learning_rate": 1.9218064516129035e-06, "loss": 0.1401, "step": 97700 }, { "epoch": 26.06, "grad_norm": 6.581219673156738, "learning_rate": 1.9196559139784947e-06, "loss": 0.1393, "step": 97725 }, { "epoch": 26.066666666666666, "grad_norm": 7.577889919281006, "learning_rate": 1.9175053763440863e-06, "loss": 0.1281, "step": 97750 }, { "epoch": 26.073333333333334, "grad_norm": 9.914665222167969, "learning_rate": 1.915354838709678e-06, "loss": 0.1403, "step": 97775 }, { "epoch": 26.08, "grad_norm": 7.175665855407715, "learning_rate": 1.913204301075269e-06, "loss": 0.1398, "step": 97800 }, { "epoch": 26.086666666666666, "grad_norm": 7.697514533996582, "learning_rate": 1.9110537634408606e-06, "loss": 0.1258, "step": 97825 }, { "epoch": 26.093333333333334, "grad_norm": 5.807984828948975, "learning_rate": 1.908903225806452e-06, "loss": 0.1312, "step": 97850 }, { "epoch": 26.1, "grad_norm": 5.346981048583984, "learning_rate": 1.9067526881720432e-06, "loss": 0.1271, "step": 97875 }, { "epoch": 26.106666666666666, "grad_norm": 5.337321758270264, "learning_rate": 1.9046021505376348e-06, "loss": 0.1152, "step": 97900 }, { "epoch": 26.113333333333333, "grad_norm": 5.502208709716797, "learning_rate": 1.9024516129032258e-06, "loss": 0.1271, "step": 97925 }, { "epoch": 26.12, "grad_norm": 7.4754252433776855, "learning_rate": 1.9003010752688172e-06, "loss": 0.1138, "step": 97950 }, { "epoch": 26.126666666666665, "grad_norm": 8.719940185546875, "learning_rate": 1.8981505376344088e-06, "loss": 0.137, "step": 97975 }, { "epoch": 26.133333333333333, "grad_norm": 8.277914047241211, "learning_rate": 1.8960000000000001e-06, "loss": 0.1423, "step": 98000 }, { "epoch": 26.14, "grad_norm": 6.046653747558594, "learning_rate": 1.8938494623655915e-06, "loss": 0.1218, "step": 98025 }, { "epoch": 26.14666666666667, "grad_norm": 6.476043701171875, "learning_rate": 1.891698924731183e-06, "loss": 0.1481, "step": 98050 }, { "epoch": 26.153333333333332, "grad_norm": 7.58363676071167, "learning_rate": 1.8895483870967743e-06, "loss": 0.1381, "step": 98075 }, { "epoch": 26.16, "grad_norm": 5.815252304077148, "learning_rate": 1.8873978494623657e-06, "loss": 0.1245, "step": 98100 }, { "epoch": 26.166666666666668, "grad_norm": 7.838242530822754, "learning_rate": 1.885247311827957e-06, "loss": 0.1155, "step": 98125 }, { "epoch": 26.173333333333332, "grad_norm": 7.12473726272583, "learning_rate": 1.8830967741935485e-06, "loss": 0.1349, "step": 98150 }, { "epoch": 26.18, "grad_norm": 6.5849504470825195, "learning_rate": 1.8809462365591399e-06, "loss": 0.1483, "step": 98175 }, { "epoch": 26.186666666666667, "grad_norm": 9.307586669921875, "learning_rate": 1.8787956989247313e-06, "loss": 0.1462, "step": 98200 }, { "epoch": 26.19333333333333, "grad_norm": 6.987324237823486, "learning_rate": 1.8766451612903229e-06, "loss": 0.1322, "step": 98225 }, { "epoch": 26.2, "grad_norm": 7.389130592346191, "learning_rate": 1.8744946236559142e-06, "loss": 0.1306, "step": 98250 }, { "epoch": 26.206666666666667, "grad_norm": 6.2708892822265625, "learning_rate": 1.8723440860215056e-06, "loss": 0.1219, "step": 98275 }, { "epoch": 26.213333333333335, "grad_norm": 7.456284999847412, "learning_rate": 1.870193548387097e-06, "loss": 0.1232, "step": 98300 }, { "epoch": 26.22, "grad_norm": 8.013853073120117, "learning_rate": 1.8680430107526884e-06, "loss": 0.1481, "step": 98325 }, { "epoch": 26.226666666666667, "grad_norm": 6.153687000274658, "learning_rate": 1.8658924731182798e-06, "loss": 0.1437, "step": 98350 }, { "epoch": 26.233333333333334, "grad_norm": 6.187386512756348, "learning_rate": 1.8637419354838712e-06, "loss": 0.1226, "step": 98375 }, { "epoch": 26.24, "grad_norm": 5.940011024475098, "learning_rate": 1.8615913978494626e-06, "loss": 0.1352, "step": 98400 }, { "epoch": 26.246666666666666, "grad_norm": 5.450991630554199, "learning_rate": 1.859440860215054e-06, "loss": 0.1431, "step": 98425 }, { "epoch": 26.253333333333334, "grad_norm": 6.908588886260986, "learning_rate": 1.8572903225806451e-06, "loss": 0.1307, "step": 98450 }, { "epoch": 26.26, "grad_norm": 8.173971176147461, "learning_rate": 1.8551397849462365e-06, "loss": 0.1325, "step": 98475 }, { "epoch": 26.266666666666666, "grad_norm": 6.764002799987793, "learning_rate": 1.852989247311828e-06, "loss": 0.1292, "step": 98500 }, { "epoch": 26.273333333333333, "grad_norm": 6.394725799560547, "learning_rate": 1.8508387096774193e-06, "loss": 0.132, "step": 98525 }, { "epoch": 26.28, "grad_norm": 5.911415100097656, "learning_rate": 1.848688172043011e-06, "loss": 0.149, "step": 98550 }, { "epoch": 26.286666666666665, "grad_norm": 8.235886573791504, "learning_rate": 1.8465376344086023e-06, "loss": 0.1306, "step": 98575 }, { "epoch": 26.293333333333333, "grad_norm": 6.105057239532471, "learning_rate": 1.8443870967741937e-06, "loss": 0.1305, "step": 98600 }, { "epoch": 26.3, "grad_norm": 13.107575416564941, "learning_rate": 1.842236559139785e-06, "loss": 0.1455, "step": 98625 }, { "epoch": 26.306666666666665, "grad_norm": 9.432867050170898, "learning_rate": 1.8400860215053765e-06, "loss": 0.1477, "step": 98650 }, { "epoch": 26.313333333333333, "grad_norm": 6.722628593444824, "learning_rate": 1.8379354838709679e-06, "loss": 0.1339, "step": 98675 }, { "epoch": 26.32, "grad_norm": 8.124297142028809, "learning_rate": 1.8357849462365592e-06, "loss": 0.1235, "step": 98700 }, { "epoch": 26.326666666666668, "grad_norm": 6.325404644012451, "learning_rate": 1.8336344086021506e-06, "loss": 0.1345, "step": 98725 }, { "epoch": 26.333333333333332, "grad_norm": 7.115813732147217, "learning_rate": 1.831483870967742e-06, "loss": 0.1423, "step": 98750 }, { "epoch": 26.34, "grad_norm": 5.23284912109375, "learning_rate": 1.8293333333333336e-06, "loss": 0.1251, "step": 98775 }, { "epoch": 26.346666666666668, "grad_norm": 5.295425891876221, "learning_rate": 1.827182795698925e-06, "loss": 0.1232, "step": 98800 }, { "epoch": 26.35333333333333, "grad_norm": 6.393354892730713, "learning_rate": 1.8250322580645164e-06, "loss": 0.1307, "step": 98825 }, { "epoch": 26.36, "grad_norm": 9.407777786254883, "learning_rate": 1.8228817204301078e-06, "loss": 0.135, "step": 98850 }, { "epoch": 26.366666666666667, "grad_norm": 6.964428424835205, "learning_rate": 1.8207311827956992e-06, "loss": 0.1176, "step": 98875 }, { "epoch": 26.373333333333335, "grad_norm": 7.602212429046631, "learning_rate": 1.8185806451612906e-06, "loss": 0.1294, "step": 98900 }, { "epoch": 26.38, "grad_norm": 8.13011360168457, "learning_rate": 1.816430107526882e-06, "loss": 0.1409, "step": 98925 }, { "epoch": 26.386666666666667, "grad_norm": 7.499042987823486, "learning_rate": 1.8142795698924733e-06, "loss": 0.1362, "step": 98950 }, { "epoch": 26.393333333333334, "grad_norm": 6.545197010040283, "learning_rate": 1.8121290322580647e-06, "loss": 0.1325, "step": 98975 }, { "epoch": 26.4, "grad_norm": 5.580659866333008, "learning_rate": 1.809978494623656e-06, "loss": 0.1143, "step": 99000 }, { "epoch": 26.406666666666666, "grad_norm": 7.70245361328125, "learning_rate": 1.8078279569892473e-06, "loss": 0.1219, "step": 99025 }, { "epoch": 26.413333333333334, "grad_norm": 6.244002342224121, "learning_rate": 1.8056774193548387e-06, "loss": 0.1371, "step": 99050 }, { "epoch": 26.42, "grad_norm": 6.696405410766602, "learning_rate": 1.80352688172043e-06, "loss": 0.1356, "step": 99075 }, { "epoch": 26.426666666666666, "grad_norm": 7.0463151931762695, "learning_rate": 1.8013763440860217e-06, "loss": 0.1235, "step": 99100 }, { "epoch": 26.433333333333334, "grad_norm": 6.876071929931641, "learning_rate": 1.799225806451613e-06, "loss": 0.1409, "step": 99125 }, { "epoch": 26.44, "grad_norm": 6.838278770446777, "learning_rate": 1.7970752688172045e-06, "loss": 0.1446, "step": 99150 }, { "epoch": 26.446666666666665, "grad_norm": 6.454695224761963, "learning_rate": 1.7949247311827958e-06, "loss": 0.1266, "step": 99175 }, { "epoch": 26.453333333333333, "grad_norm": 7.315471649169922, "learning_rate": 1.7927741935483872e-06, "loss": 0.147, "step": 99200 }, { "epoch": 26.46, "grad_norm": 27.929935455322266, "learning_rate": 1.7906236559139786e-06, "loss": 0.1261, "step": 99225 }, { "epoch": 26.466666666666665, "grad_norm": 7.263689041137695, "learning_rate": 1.78847311827957e-06, "loss": 0.1363, "step": 99250 }, { "epoch": 26.473333333333333, "grad_norm": 7.138200283050537, "learning_rate": 1.7863225806451614e-06, "loss": 0.151, "step": 99275 }, { "epoch": 26.48, "grad_norm": 8.310639381408691, "learning_rate": 1.7841720430107528e-06, "loss": 0.1205, "step": 99300 }, { "epoch": 26.486666666666668, "grad_norm": 5.716553688049316, "learning_rate": 1.7820215053763442e-06, "loss": 0.1304, "step": 99325 }, { "epoch": 26.493333333333332, "grad_norm": 7.63960075378418, "learning_rate": 1.7798709677419358e-06, "loss": 0.1423, "step": 99350 }, { "epoch": 26.5, "grad_norm": 6.722080707550049, "learning_rate": 1.7777204301075272e-06, "loss": 0.1375, "step": 99375 }, { "epoch": 26.506666666666668, "grad_norm": 8.376389503479004, "learning_rate": 1.7755698924731186e-06, "loss": 0.1307, "step": 99400 }, { "epoch": 26.513333333333332, "grad_norm": 7.139898300170898, "learning_rate": 1.77341935483871e-06, "loss": 0.1162, "step": 99425 }, { "epoch": 26.52, "grad_norm": 7.0914130210876465, "learning_rate": 1.7712688172043013e-06, "loss": 0.135, "step": 99450 }, { "epoch": 26.526666666666667, "grad_norm": 7.140376091003418, "learning_rate": 1.7691182795698927e-06, "loss": 0.133, "step": 99475 }, { "epoch": 26.533333333333335, "grad_norm": 5.79412841796875, "learning_rate": 1.7669677419354841e-06, "loss": 0.1454, "step": 99500 }, { "epoch": 26.54, "grad_norm": 5.867434978485107, "learning_rate": 1.7648172043010753e-06, "loss": 0.1307, "step": 99525 }, { "epoch": 26.546666666666667, "grad_norm": 11.20853328704834, "learning_rate": 1.7626666666666667e-06, "loss": 0.1376, "step": 99550 }, { "epoch": 26.553333333333335, "grad_norm": 6.449116230010986, "learning_rate": 1.760516129032258e-06, "loss": 0.1372, "step": 99575 }, { "epoch": 26.56, "grad_norm": 8.085451126098633, "learning_rate": 1.7583655913978495e-06, "loss": 0.1433, "step": 99600 }, { "epoch": 26.566666666666666, "grad_norm": 6.987504482269287, "learning_rate": 1.7562150537634408e-06, "loss": 0.1299, "step": 99625 }, { "epoch": 26.573333333333334, "grad_norm": 6.792572498321533, "learning_rate": 1.7540645161290322e-06, "loss": 0.1293, "step": 99650 }, { "epoch": 26.58, "grad_norm": 5.908307075500488, "learning_rate": 1.7519139784946238e-06, "loss": 0.1246, "step": 99675 }, { "epoch": 26.586666666666666, "grad_norm": 7.865346431732178, "learning_rate": 1.7497634408602152e-06, "loss": 0.1276, "step": 99700 }, { "epoch": 26.593333333333334, "grad_norm": 4.7399187088012695, "learning_rate": 1.7476129032258066e-06, "loss": 0.1434, "step": 99725 }, { "epoch": 26.6, "grad_norm": 8.527463912963867, "learning_rate": 1.745462365591398e-06, "loss": 0.1437, "step": 99750 }, { "epoch": 26.606666666666666, "grad_norm": 6.903005123138428, "learning_rate": 1.7433118279569894e-06, "loss": 0.1328, "step": 99775 }, { "epoch": 26.613333333333333, "grad_norm": 7.113229274749756, "learning_rate": 1.7411612903225808e-06, "loss": 0.1264, "step": 99800 }, { "epoch": 26.62, "grad_norm": 8.036187171936035, "learning_rate": 1.7390107526881722e-06, "loss": 0.1377, "step": 99825 }, { "epoch": 26.626666666666665, "grad_norm": 8.02711296081543, "learning_rate": 1.7368602150537636e-06, "loss": 0.1492, "step": 99850 }, { "epoch": 26.633333333333333, "grad_norm": 7.633647441864014, "learning_rate": 1.734709677419355e-06, "loss": 0.1384, "step": 99875 }, { "epoch": 26.64, "grad_norm": 9.514970779418945, "learning_rate": 1.7325591397849465e-06, "loss": 0.1303, "step": 99900 }, { "epoch": 26.64666666666667, "grad_norm": 7.477357387542725, "learning_rate": 1.730408602150538e-06, "loss": 0.1477, "step": 99925 }, { "epoch": 26.653333333333332, "grad_norm": 8.481139183044434, "learning_rate": 1.7282580645161293e-06, "loss": 0.1234, "step": 99950 }, { "epoch": 26.66, "grad_norm": 6.307577133178711, "learning_rate": 1.7261075268817207e-06, "loss": 0.1233, "step": 99975 }, { "epoch": 26.666666666666668, "grad_norm": 5.626837253570557, "learning_rate": 1.723956989247312e-06, "loss": 0.1349, "step": 100000 }, { "epoch": 26.673333333333332, "grad_norm": 8.982088088989258, "learning_rate": 1.7218064516129035e-06, "loss": 0.1383, "step": 100025 }, { "epoch": 26.68, "grad_norm": 5.394463539123535, "learning_rate": 1.7196559139784947e-06, "loss": 0.13, "step": 100050 }, { "epoch": 26.686666666666667, "grad_norm": 7.298433780670166, "learning_rate": 1.717505376344086e-06, "loss": 0.1287, "step": 100075 }, { "epoch": 26.693333333333335, "grad_norm": 8.355700492858887, "learning_rate": 1.7153548387096774e-06, "loss": 0.1242, "step": 100100 }, { "epoch": 26.7, "grad_norm": 6.938860893249512, "learning_rate": 1.7132043010752688e-06, "loss": 0.1378, "step": 100125 }, { "epoch": 26.706666666666667, "grad_norm": 6.989548683166504, "learning_rate": 1.7110537634408602e-06, "loss": 0.1417, "step": 100150 }, { "epoch": 26.713333333333335, "grad_norm": 8.635295867919922, "learning_rate": 1.7089032258064516e-06, "loss": 0.1595, "step": 100175 }, { "epoch": 26.72, "grad_norm": 6.031817436218262, "learning_rate": 1.706752688172043e-06, "loss": 0.1141, "step": 100200 }, { "epoch": 26.726666666666667, "grad_norm": 5.485116004943848, "learning_rate": 1.7046021505376346e-06, "loss": 0.1412, "step": 100225 }, { "epoch": 26.733333333333334, "grad_norm": 5.228574275970459, "learning_rate": 1.702451612903226e-06, "loss": 0.1298, "step": 100250 }, { "epoch": 26.74, "grad_norm": 30.445817947387695, "learning_rate": 1.7003010752688174e-06, "loss": 0.1361, "step": 100275 }, { "epoch": 26.746666666666666, "grad_norm": 7.017248630523682, "learning_rate": 1.6981505376344088e-06, "loss": 0.1252, "step": 100300 }, { "epoch": 26.753333333333334, "grad_norm": 7.323522090911865, "learning_rate": 1.6960000000000002e-06, "loss": 0.1308, "step": 100325 }, { "epoch": 26.76, "grad_norm": 6.710751056671143, "learning_rate": 1.6938494623655915e-06, "loss": 0.1366, "step": 100350 }, { "epoch": 26.766666666666666, "grad_norm": 5.60662841796875, "learning_rate": 1.691698924731183e-06, "loss": 0.129, "step": 100375 }, { "epoch": 26.773333333333333, "grad_norm": 6.827760219573975, "learning_rate": 1.6895483870967743e-06, "loss": 0.1275, "step": 100400 }, { "epoch": 26.78, "grad_norm": 8.562475204467773, "learning_rate": 1.6873978494623657e-06, "loss": 0.1607, "step": 100425 }, { "epoch": 26.786666666666665, "grad_norm": 6.792210102081299, "learning_rate": 1.685247311827957e-06, "loss": 0.1223, "step": 100450 }, { "epoch": 26.793333333333333, "grad_norm": 5.663811206817627, "learning_rate": 1.6830967741935487e-06, "loss": 0.1339, "step": 100475 }, { "epoch": 26.8, "grad_norm": 8.403303146362305, "learning_rate": 1.68094623655914e-06, "loss": 0.1236, "step": 100500 }, { "epoch": 26.806666666666665, "grad_norm": 8.978047370910645, "learning_rate": 1.6787956989247315e-06, "loss": 0.1186, "step": 100525 }, { "epoch": 26.813333333333333, "grad_norm": 5.996068000793457, "learning_rate": 1.6766451612903229e-06, "loss": 0.1246, "step": 100550 }, { "epoch": 26.82, "grad_norm": 7.323824405670166, "learning_rate": 1.6744946236559143e-06, "loss": 0.1303, "step": 100575 }, { "epoch": 26.826666666666668, "grad_norm": 5.953038692474365, "learning_rate": 1.6723440860215054e-06, "loss": 0.1221, "step": 100600 }, { "epoch": 26.833333333333332, "grad_norm": 8.444918632507324, "learning_rate": 1.6701935483870968e-06, "loss": 0.1438, "step": 100625 }, { "epoch": 26.84, "grad_norm": 6.594529151916504, "learning_rate": 1.6680430107526882e-06, "loss": 0.1155, "step": 100650 }, { "epoch": 26.846666666666668, "grad_norm": 7.753340721130371, "learning_rate": 1.6658924731182796e-06, "loss": 0.1347, "step": 100675 }, { "epoch": 26.85333333333333, "grad_norm": 7.30085563659668, "learning_rate": 1.663741935483871e-06, "loss": 0.1391, "step": 100700 }, { "epoch": 26.86, "grad_norm": 5.530246257781982, "learning_rate": 1.6615913978494624e-06, "loss": 0.1346, "step": 100725 }, { "epoch": 26.866666666666667, "grad_norm": 9.948005676269531, "learning_rate": 1.6594408602150538e-06, "loss": 0.1419, "step": 100750 }, { "epoch": 26.873333333333335, "grad_norm": 8.717262268066406, "learning_rate": 1.6572903225806454e-06, "loss": 0.1238, "step": 100775 }, { "epoch": 26.88, "grad_norm": 6.7386369705200195, "learning_rate": 1.6551397849462368e-06, "loss": 0.146, "step": 100800 }, { "epoch": 26.886666666666667, "grad_norm": 7.517007350921631, "learning_rate": 1.6529892473118281e-06, "loss": 0.1201, "step": 100825 }, { "epoch": 26.893333333333334, "grad_norm": 6.8211669921875, "learning_rate": 1.6508387096774195e-06, "loss": 0.1349, "step": 100850 }, { "epoch": 26.9, "grad_norm": 10.417888641357422, "learning_rate": 1.648688172043011e-06, "loss": 0.1461, "step": 100875 }, { "epoch": 26.906666666666666, "grad_norm": 7.528137683868408, "learning_rate": 1.6465376344086023e-06, "loss": 0.1331, "step": 100900 }, { "epoch": 26.913333333333334, "grad_norm": 6.3815836906433105, "learning_rate": 1.6443870967741937e-06, "loss": 0.1326, "step": 100925 }, { "epoch": 26.92, "grad_norm": 5.872298717498779, "learning_rate": 1.642236559139785e-06, "loss": 0.1168, "step": 100950 }, { "epoch": 26.926666666666666, "grad_norm": 5.603574275970459, "learning_rate": 1.6400860215053765e-06, "loss": 0.1345, "step": 100975 }, { "epoch": 26.933333333333334, "grad_norm": 8.305747032165527, "learning_rate": 1.6379354838709679e-06, "loss": 0.1549, "step": 101000 }, { "epoch": 26.94, "grad_norm": 7.924899101257324, "learning_rate": 1.6357849462365595e-06, "loss": 0.1316, "step": 101025 }, { "epoch": 26.946666666666665, "grad_norm": 6.023748397827148, "learning_rate": 1.6336344086021509e-06, "loss": 0.123, "step": 101050 }, { "epoch": 26.953333333333333, "grad_norm": 7.573742866516113, "learning_rate": 1.6314838709677422e-06, "loss": 0.1571, "step": 101075 }, { "epoch": 26.96, "grad_norm": 6.045446395874023, "learning_rate": 1.6293333333333336e-06, "loss": 0.1385, "step": 101100 }, { "epoch": 26.966666666666665, "grad_norm": 7.079089164733887, "learning_rate": 1.6271827956989248e-06, "loss": 0.1427, "step": 101125 }, { "epoch": 26.973333333333333, "grad_norm": 6.065171241760254, "learning_rate": 1.6250322580645162e-06, "loss": 0.1372, "step": 101150 }, { "epoch": 26.98, "grad_norm": 6.293647766113281, "learning_rate": 1.6228817204301076e-06, "loss": 0.1328, "step": 101175 }, { "epoch": 26.986666666666668, "grad_norm": 5.363667964935303, "learning_rate": 1.620731182795699e-06, "loss": 0.131, "step": 101200 }, { "epoch": 26.993333333333332, "grad_norm": 6.470425605773926, "learning_rate": 1.6185806451612904e-06, "loss": 0.1431, "step": 101225 }, { "epoch": 27.0, "grad_norm": 6.588327407836914, "learning_rate": 1.616516129032258e-06, "loss": 0.1428, "step": 101250 }, { "epoch": 27.0, "eval_cer": 26.98693699569536, "eval_loss": 0.4609431028366089, "eval_runtime": 1302.772, "eval_samples_per_second": 3.838, "eval_steps_per_second": 0.48, "step": 101250 }, { "epoch": 27.006666666666668, "grad_norm": 5.743893146514893, "learning_rate": 1.6143655913978496e-06, "loss": 0.0856, "step": 101275 }, { "epoch": 27.013333333333332, "grad_norm": 6.660796642303467, "learning_rate": 1.612215053763441e-06, "loss": 0.0968, "step": 101300 }, { "epoch": 27.02, "grad_norm": 4.613038539886475, "learning_rate": 1.6100645161290324e-06, "loss": 0.0966, "step": 101325 }, { "epoch": 27.026666666666667, "grad_norm": 4.819916248321533, "learning_rate": 1.6079139784946238e-06, "loss": 0.0898, "step": 101350 }, { "epoch": 27.033333333333335, "grad_norm": 4.912450790405273, "learning_rate": 1.6057634408602152e-06, "loss": 0.0989, "step": 101375 }, { "epoch": 27.04, "grad_norm": 5.632946968078613, "learning_rate": 1.6036129032258066e-06, "loss": 0.1109, "step": 101400 }, { "epoch": 27.046666666666667, "grad_norm": 6.346945285797119, "learning_rate": 1.601462365591398e-06, "loss": 0.0851, "step": 101425 }, { "epoch": 27.053333333333335, "grad_norm": 3.8584415912628174, "learning_rate": 1.5993118279569894e-06, "loss": 0.0862, "step": 101450 }, { "epoch": 27.06, "grad_norm": 6.244872570037842, "learning_rate": 1.5971612903225808e-06, "loss": 0.0953, "step": 101475 }, { "epoch": 27.066666666666666, "grad_norm": 4.107808589935303, "learning_rate": 1.5950107526881721e-06, "loss": 0.0921, "step": 101500 }, { "epoch": 27.073333333333334, "grad_norm": 6.583067893981934, "learning_rate": 1.5928602150537637e-06, "loss": 0.094, "step": 101525 }, { "epoch": 27.08, "grad_norm": 6.317690372467041, "learning_rate": 1.5907096774193551e-06, "loss": 0.0981, "step": 101550 }, { "epoch": 27.086666666666666, "grad_norm": 4.729612827301025, "learning_rate": 1.5885591397849465e-06, "loss": 0.0866, "step": 101575 }, { "epoch": 27.093333333333334, "grad_norm": 4.7444167137146, "learning_rate": 1.586408602150538e-06, "loss": 0.0972, "step": 101600 }, { "epoch": 27.1, "grad_norm": 5.7547125816345215, "learning_rate": 1.5842580645161293e-06, "loss": 0.1033, "step": 101625 }, { "epoch": 27.106666666666666, "grad_norm": 4.277735233306885, "learning_rate": 1.5821075268817205e-06, "loss": 0.0989, "step": 101650 }, { "epoch": 27.113333333333333, "grad_norm": 4.819904327392578, "learning_rate": 1.5799569892473119e-06, "loss": 0.0829, "step": 101675 }, { "epoch": 27.12, "grad_norm": 6.142680644989014, "learning_rate": 1.5778064516129033e-06, "loss": 0.1024, "step": 101700 }, { "epoch": 27.126666666666665, "grad_norm": 6.777009963989258, "learning_rate": 1.5756559139784946e-06, "loss": 0.0956, "step": 101725 }, { "epoch": 27.133333333333333, "grad_norm": 6.284327030181885, "learning_rate": 1.573505376344086e-06, "loss": 0.0854, "step": 101750 }, { "epoch": 27.14, "grad_norm": 5.957749843597412, "learning_rate": 1.5713548387096774e-06, "loss": 0.0883, "step": 101775 }, { "epoch": 27.14666666666667, "grad_norm": 5.664246082305908, "learning_rate": 1.5692043010752688e-06, "loss": 0.1034, "step": 101800 }, { "epoch": 27.153333333333332, "grad_norm": 5.322232246398926, "learning_rate": 1.5670537634408602e-06, "loss": 0.1082, "step": 101825 }, { "epoch": 27.16, "grad_norm": 4.516626358032227, "learning_rate": 1.5649032258064518e-06, "loss": 0.0926, "step": 101850 }, { "epoch": 27.166666666666668, "grad_norm": 4.25593900680542, "learning_rate": 1.5627526881720432e-06, "loss": 0.0994, "step": 101875 }, { "epoch": 27.173333333333332, "grad_norm": 5.457372665405273, "learning_rate": 1.5606021505376346e-06, "loss": 0.0815, "step": 101900 }, { "epoch": 27.18, "grad_norm": 5.165279388427734, "learning_rate": 1.558451612903226e-06, "loss": 0.0855, "step": 101925 }, { "epoch": 27.186666666666667, "grad_norm": 5.413024425506592, "learning_rate": 1.5563010752688174e-06, "loss": 0.1017, "step": 101950 }, { "epoch": 27.19333333333333, "grad_norm": 5.623698711395264, "learning_rate": 1.5541505376344087e-06, "loss": 0.0933, "step": 101975 }, { "epoch": 27.2, "grad_norm": 5.172433853149414, "learning_rate": 1.5520000000000001e-06, "loss": 0.1034, "step": 102000 }, { "epoch": 27.206666666666667, "grad_norm": 6.250389575958252, "learning_rate": 1.5498494623655915e-06, "loss": 0.0941, "step": 102025 }, { "epoch": 27.213333333333335, "grad_norm": 5.074679851531982, "learning_rate": 1.547698924731183e-06, "loss": 0.1056, "step": 102050 }, { "epoch": 27.22, "grad_norm": 7.098476409912109, "learning_rate": 1.5455483870967743e-06, "loss": 0.1086, "step": 102075 }, { "epoch": 27.226666666666667, "grad_norm": 7.82515811920166, "learning_rate": 1.543397849462366e-06, "loss": 0.0935, "step": 102100 }, { "epoch": 27.233333333333334, "grad_norm": 4.976787567138672, "learning_rate": 1.5412473118279573e-06, "loss": 0.0859, "step": 102125 }, { "epoch": 27.24, "grad_norm": 5.986705780029297, "learning_rate": 1.5390967741935487e-06, "loss": 0.11, "step": 102150 }, { "epoch": 27.246666666666666, "grad_norm": 5.711301326751709, "learning_rate": 1.53694623655914e-06, "loss": 0.0966, "step": 102175 }, { "epoch": 27.253333333333334, "grad_norm": 6.7307868003845215, "learning_rate": 1.5347956989247312e-06, "loss": 0.0828, "step": 102200 }, { "epoch": 27.26, "grad_norm": 5.437226295471191, "learning_rate": 1.5326451612903226e-06, "loss": 0.1065, "step": 102225 }, { "epoch": 27.266666666666666, "grad_norm": 7.753125190734863, "learning_rate": 1.530494623655914e-06, "loss": 0.0846, "step": 102250 }, { "epoch": 27.273333333333333, "grad_norm": 5.191559314727783, "learning_rate": 1.5283440860215054e-06, "loss": 0.0978, "step": 102275 }, { "epoch": 27.28, "grad_norm": 7.275002479553223, "learning_rate": 1.5261935483870968e-06, "loss": 0.0846, "step": 102300 }, { "epoch": 27.286666666666665, "grad_norm": 6.48751974105835, "learning_rate": 1.5240430107526882e-06, "loss": 0.1023, "step": 102325 }, { "epoch": 27.293333333333333, "grad_norm": 7.366140365600586, "learning_rate": 1.5218924731182796e-06, "loss": 0.1133, "step": 102350 }, { "epoch": 27.3, "grad_norm": 6.641584873199463, "learning_rate": 1.519741935483871e-06, "loss": 0.0963, "step": 102375 }, { "epoch": 27.306666666666665, "grad_norm": 6.541625499725342, "learning_rate": 1.5175913978494626e-06, "loss": 0.0917, "step": 102400 }, { "epoch": 27.313333333333333, "grad_norm": 5.634567737579346, "learning_rate": 1.515440860215054e-06, "loss": 0.0882, "step": 102425 }, { "epoch": 27.32, "grad_norm": 6.620549201965332, "learning_rate": 1.5132903225806453e-06, "loss": 0.1057, "step": 102450 }, { "epoch": 27.326666666666668, "grad_norm": 5.453388214111328, "learning_rate": 1.5111397849462367e-06, "loss": 0.0917, "step": 102475 }, { "epoch": 27.333333333333332, "grad_norm": 5.289794445037842, "learning_rate": 1.5089892473118281e-06, "loss": 0.106, "step": 102500 }, { "epoch": 27.34, "grad_norm": 4.748602867126465, "learning_rate": 1.5068387096774195e-06, "loss": 0.0993, "step": 102525 }, { "epoch": 27.346666666666668, "grad_norm": 4.271403789520264, "learning_rate": 1.504688172043011e-06, "loss": 0.092, "step": 102550 }, { "epoch": 27.35333333333333, "grad_norm": 4.578079700469971, "learning_rate": 1.5025376344086023e-06, "loss": 0.0875, "step": 102575 }, { "epoch": 27.36, "grad_norm": 8.740702629089355, "learning_rate": 1.5003870967741937e-06, "loss": 0.0999, "step": 102600 }, { "epoch": 27.366666666666667, "grad_norm": 4.108065128326416, "learning_rate": 1.498236559139785e-06, "loss": 0.0873, "step": 102625 }, { "epoch": 27.373333333333335, "grad_norm": 5.900934219360352, "learning_rate": 1.4960860215053767e-06, "loss": 0.1029, "step": 102650 }, { "epoch": 27.38, "grad_norm": 5.881048679351807, "learning_rate": 1.493935483870968e-06, "loss": 0.1025, "step": 102675 }, { "epoch": 27.386666666666667, "grad_norm": 5.534483909606934, "learning_rate": 1.4917849462365594e-06, "loss": 0.094, "step": 102700 }, { "epoch": 27.393333333333334, "grad_norm": 5.436997890472412, "learning_rate": 1.4896344086021506e-06, "loss": 0.0995, "step": 102725 }, { "epoch": 27.4, "grad_norm": 5.253960132598877, "learning_rate": 1.487483870967742e-06, "loss": 0.0965, "step": 102750 }, { "epoch": 27.406666666666666, "grad_norm": 6.3247575759887695, "learning_rate": 1.4853333333333334e-06, "loss": 0.1167, "step": 102775 }, { "epoch": 27.413333333333334, "grad_norm": 5.243069648742676, "learning_rate": 1.4831827956989248e-06, "loss": 0.0979, "step": 102800 }, { "epoch": 27.42, "grad_norm": 6.957142353057861, "learning_rate": 1.4810322580645162e-06, "loss": 0.096, "step": 102825 }, { "epoch": 27.426666666666666, "grad_norm": 4.772183895111084, "learning_rate": 1.4788817204301076e-06, "loss": 0.1067, "step": 102850 }, { "epoch": 27.433333333333334, "grad_norm": 3.161499500274658, "learning_rate": 1.476731182795699e-06, "loss": 0.091, "step": 102875 }, { "epoch": 27.44, "grad_norm": 4.301105499267578, "learning_rate": 1.4745806451612903e-06, "loss": 0.0845, "step": 102900 }, { "epoch": 27.446666666666665, "grad_norm": 9.304572105407715, "learning_rate": 1.4724301075268817e-06, "loss": 0.1118, "step": 102925 }, { "epoch": 27.453333333333333, "grad_norm": 6.869198799133301, "learning_rate": 1.4702795698924731e-06, "loss": 0.1003, "step": 102950 }, { "epoch": 27.46, "grad_norm": 6.942915439605713, "learning_rate": 1.4681290322580647e-06, "loss": 0.1027, "step": 102975 }, { "epoch": 27.466666666666665, "grad_norm": 5.156702041625977, "learning_rate": 1.4659784946236561e-06, "loss": 0.1045, "step": 103000 }, { "epoch": 27.473333333333333, "grad_norm": 7.59400749206543, "learning_rate": 1.4638279569892475e-06, "loss": 0.0966, "step": 103025 }, { "epoch": 27.48, "grad_norm": 6.257564544677734, "learning_rate": 1.4616774193548389e-06, "loss": 0.1165, "step": 103050 }, { "epoch": 27.486666666666668, "grad_norm": 4.614925384521484, "learning_rate": 1.4595268817204303e-06, "loss": 0.0878, "step": 103075 }, { "epoch": 27.493333333333332, "grad_norm": 4.865265369415283, "learning_rate": 1.4573763440860217e-06, "loss": 0.0952, "step": 103100 }, { "epoch": 27.5, "grad_norm": 4.735659599304199, "learning_rate": 1.455225806451613e-06, "loss": 0.0963, "step": 103125 }, { "epoch": 27.506666666666668, "grad_norm": 6.883565425872803, "learning_rate": 1.4530752688172044e-06, "loss": 0.1062, "step": 103150 }, { "epoch": 27.513333333333332, "grad_norm": 5.357731819152832, "learning_rate": 1.4509247311827958e-06, "loss": 0.0992, "step": 103175 }, { "epoch": 27.52, "grad_norm": 6.404020309448242, "learning_rate": 1.4487741935483874e-06, "loss": 0.0886, "step": 103200 }, { "epoch": 27.526666666666667, "grad_norm": 6.332768440246582, "learning_rate": 1.4466236559139788e-06, "loss": 0.0987, "step": 103225 }, { "epoch": 27.533333333333335, "grad_norm": 7.5634284019470215, "learning_rate": 1.4444731182795698e-06, "loss": 0.0867, "step": 103250 }, { "epoch": 27.54, "grad_norm": 6.299746990203857, "learning_rate": 1.4423225806451614e-06, "loss": 0.102, "step": 103275 }, { "epoch": 27.546666666666667, "grad_norm": 6.792807579040527, "learning_rate": 1.4401720430107528e-06, "loss": 0.0803, "step": 103300 }, { "epoch": 27.553333333333335, "grad_norm": 4.84729528427124, "learning_rate": 1.4380215053763442e-06, "loss": 0.0883, "step": 103325 }, { "epoch": 27.56, "grad_norm": 7.178866863250732, "learning_rate": 1.4358709677419356e-06, "loss": 0.102, "step": 103350 }, { "epoch": 27.566666666666666, "grad_norm": 5.453394889831543, "learning_rate": 1.433720430107527e-06, "loss": 0.0826, "step": 103375 }, { "epoch": 27.573333333333334, "grad_norm": 7.506279468536377, "learning_rate": 1.4315698924731183e-06, "loss": 0.0977, "step": 103400 }, { "epoch": 27.58, "grad_norm": 7.509383201599121, "learning_rate": 1.4294193548387097e-06, "loss": 0.0927, "step": 103425 }, { "epoch": 27.586666666666666, "grad_norm": 5.888420581817627, "learning_rate": 1.4272688172043011e-06, "loss": 0.0885, "step": 103450 }, { "epoch": 27.593333333333334, "grad_norm": 5.336573600769043, "learning_rate": 1.4251182795698925e-06, "loss": 0.0994, "step": 103475 }, { "epoch": 27.6, "grad_norm": 5.323822021484375, "learning_rate": 1.4229677419354839e-06, "loss": 0.1049, "step": 103500 }, { "epoch": 27.606666666666666, "grad_norm": 5.598872661590576, "learning_rate": 1.4208172043010755e-06, "loss": 0.0982, "step": 103525 }, { "epoch": 27.613333333333333, "grad_norm": 6.255281925201416, "learning_rate": 1.4186666666666669e-06, "loss": 0.0895, "step": 103550 }, { "epoch": 27.62, "grad_norm": 6.357169151306152, "learning_rate": 1.4165161290322583e-06, "loss": 0.1073, "step": 103575 }, { "epoch": 27.626666666666665, "grad_norm": 5.203423500061035, "learning_rate": 1.4143655913978497e-06, "loss": 0.0971, "step": 103600 }, { "epoch": 27.633333333333333, "grad_norm": 5.562922477722168, "learning_rate": 1.412215053763441e-06, "loss": 0.0846, "step": 103625 }, { "epoch": 27.64, "grad_norm": 5.612963676452637, "learning_rate": 1.4100645161290324e-06, "loss": 0.1034, "step": 103650 }, { "epoch": 27.64666666666667, "grad_norm": 4.83111572265625, "learning_rate": 1.4079139784946238e-06, "loss": 0.0863, "step": 103675 }, { "epoch": 27.653333333333332, "grad_norm": 4.861614227294922, "learning_rate": 1.4057634408602152e-06, "loss": 0.0861, "step": 103700 }, { "epoch": 27.66, "grad_norm": 4.136539459228516, "learning_rate": 1.4036129032258066e-06, "loss": 0.0964, "step": 103725 }, { "epoch": 27.666666666666668, "grad_norm": 6.1205973625183105, "learning_rate": 1.401462365591398e-06, "loss": 0.0919, "step": 103750 }, { "epoch": 27.673333333333332, "grad_norm": 7.138858795166016, "learning_rate": 1.3993118279569896e-06, "loss": 0.0953, "step": 103775 }, { "epoch": 27.68, "grad_norm": 5.905146598815918, "learning_rate": 1.3971612903225806e-06, "loss": 0.0978, "step": 103800 }, { "epoch": 27.686666666666667, "grad_norm": 4.6482415199279785, "learning_rate": 1.395010752688172e-06, "loss": 0.1072, "step": 103825 }, { "epoch": 27.693333333333335, "grad_norm": 6.749452590942383, "learning_rate": 1.3928602150537635e-06, "loss": 0.0994, "step": 103850 }, { "epoch": 27.7, "grad_norm": 6.386436462402344, "learning_rate": 1.390709677419355e-06, "loss": 0.0878, "step": 103875 }, { "epoch": 27.706666666666667, "grad_norm": 4.5309224128723145, "learning_rate": 1.3885591397849463e-06, "loss": 0.1005, "step": 103900 }, { "epoch": 27.713333333333335, "grad_norm": 5.778842926025391, "learning_rate": 1.3864086021505377e-06, "loss": 0.0891, "step": 103925 }, { "epoch": 27.72, "grad_norm": 8.144503593444824, "learning_rate": 1.3843440860215054e-06, "loss": 0.1019, "step": 103950 }, { "epoch": 27.726666666666667, "grad_norm": 5.547362804412842, "learning_rate": 1.3821935483870968e-06, "loss": 0.1029, "step": 103975 }, { "epoch": 27.733333333333334, "grad_norm": 6.5807366371154785, "learning_rate": 1.3800430107526882e-06, "loss": 0.0924, "step": 104000 }, { "epoch": 27.74, "grad_norm": 6.727943420410156, "learning_rate": 1.3778924731182798e-06, "loss": 0.0904, "step": 104025 }, { "epoch": 27.746666666666666, "grad_norm": 8.850272178649902, "learning_rate": 1.3757419354838712e-06, "loss": 0.1101, "step": 104050 }, { "epoch": 27.753333333333334, "grad_norm": 7.384092330932617, "learning_rate": 1.3735913978494625e-06, "loss": 0.0966, "step": 104075 }, { "epoch": 27.76, "grad_norm": 5.705369472503662, "learning_rate": 1.371440860215054e-06, "loss": 0.1043, "step": 104100 }, { "epoch": 27.766666666666666, "grad_norm": 6.557872295379639, "learning_rate": 1.3692903225806453e-06, "loss": 0.1005, "step": 104125 }, { "epoch": 27.773333333333333, "grad_norm": 8.616667747497559, "learning_rate": 1.3671397849462367e-06, "loss": 0.1049, "step": 104150 }, { "epoch": 27.78, "grad_norm": 4.8358001708984375, "learning_rate": 1.364989247311828e-06, "loss": 0.0957, "step": 104175 }, { "epoch": 27.786666666666665, "grad_norm": 5.495128154754639, "learning_rate": 1.3628387096774195e-06, "loss": 0.0872, "step": 104200 }, { "epoch": 27.793333333333333, "grad_norm": 4.13916015625, "learning_rate": 1.3606881720430109e-06, "loss": 0.0976, "step": 104225 }, { "epoch": 27.8, "grad_norm": 7.150788307189941, "learning_rate": 1.3585376344086023e-06, "loss": 0.0813, "step": 104250 }, { "epoch": 27.806666666666665, "grad_norm": 6.522130966186523, "learning_rate": 1.3563870967741939e-06, "loss": 0.0937, "step": 104275 }, { "epoch": 27.813333333333333, "grad_norm": 6.98900842666626, "learning_rate": 1.3542365591397853e-06, "loss": 0.0942, "step": 104300 }, { "epoch": 27.82, "grad_norm": 6.832897663116455, "learning_rate": 1.3520860215053762e-06, "loss": 0.0983, "step": 104325 }, { "epoch": 27.826666666666668, "grad_norm": 4.540700912475586, "learning_rate": 1.3499354838709678e-06, "loss": 0.0946, "step": 104350 }, { "epoch": 27.833333333333332, "grad_norm": 11.276383399963379, "learning_rate": 1.3477849462365592e-06, "loss": 0.1033, "step": 104375 }, { "epoch": 27.84, "grad_norm": 5.960996150970459, "learning_rate": 1.3456344086021506e-06, "loss": 0.0933, "step": 104400 }, { "epoch": 27.846666666666668, "grad_norm": 6.481621265411377, "learning_rate": 1.343483870967742e-06, "loss": 0.0902, "step": 104425 }, { "epoch": 27.85333333333333, "grad_norm": 4.522546291351318, "learning_rate": 1.3413333333333334e-06, "loss": 0.0932, "step": 104450 }, { "epoch": 27.86, "grad_norm": 6.966422080993652, "learning_rate": 1.3391827956989248e-06, "loss": 0.1009, "step": 104475 }, { "epoch": 27.866666666666667, "grad_norm": 6.021724700927734, "learning_rate": 1.3370322580645162e-06, "loss": 0.0901, "step": 104500 }, { "epoch": 27.873333333333335, "grad_norm": 5.612059116363525, "learning_rate": 1.3348817204301075e-06, "loss": 0.1071, "step": 104525 }, { "epoch": 27.88, "grad_norm": 4.535534381866455, "learning_rate": 1.332731182795699e-06, "loss": 0.0938, "step": 104550 }, { "epoch": 27.886666666666667, "grad_norm": 5.841140270233154, "learning_rate": 1.3306666666666668e-06, "loss": 0.0875, "step": 104575 }, { "epoch": 27.893333333333334, "grad_norm": 5.394218921661377, "learning_rate": 1.3285161290322582e-06, "loss": 0.0998, "step": 104600 }, { "epoch": 27.9, "grad_norm": 5.911794662475586, "learning_rate": 1.3263655913978496e-06, "loss": 0.1044, "step": 104625 }, { "epoch": 27.906666666666666, "grad_norm": 5.720189094543457, "learning_rate": 1.324215053763441e-06, "loss": 0.0818, "step": 104650 }, { "epoch": 27.913333333333334, "grad_norm": 3.9047329425811768, "learning_rate": 1.3220645161290324e-06, "loss": 0.1002, "step": 104675 }, { "epoch": 27.92, "grad_norm": 5.608882427215576, "learning_rate": 1.3199139784946238e-06, "loss": 0.0827, "step": 104700 }, { "epoch": 27.926666666666666, "grad_norm": 6.379152297973633, "learning_rate": 1.3177634408602152e-06, "loss": 0.0872, "step": 104725 }, { "epoch": 27.933333333333334, "grad_norm": 5.837700843811035, "learning_rate": 1.3156129032258066e-06, "loss": 0.0888, "step": 104750 }, { "epoch": 27.94, "grad_norm": 5.620424747467041, "learning_rate": 1.3134623655913982e-06, "loss": 0.1066, "step": 104775 }, { "epoch": 27.946666666666665, "grad_norm": 4.6722002029418945, "learning_rate": 1.3113118279569895e-06, "loss": 0.0957, "step": 104800 }, { "epoch": 27.953333333333333, "grad_norm": 7.785201549530029, "learning_rate": 1.309161290322581e-06, "loss": 0.1042, "step": 104825 }, { "epoch": 27.96, "grad_norm": 4.5699334144592285, "learning_rate": 1.3070107526881721e-06, "loss": 0.0929, "step": 104850 }, { "epoch": 27.966666666666665, "grad_norm": 5.26107931137085, "learning_rate": 1.3048602150537635e-06, "loss": 0.0903, "step": 104875 }, { "epoch": 27.973333333333333, "grad_norm": 6.231212139129639, "learning_rate": 1.3027096774193549e-06, "loss": 0.0855, "step": 104900 }, { "epoch": 27.98, "grad_norm": 7.403077602386475, "learning_rate": 1.3005591397849463e-06, "loss": 0.0945, "step": 104925 }, { "epoch": 27.986666666666668, "grad_norm": 6.516493320465088, "learning_rate": 1.2984086021505377e-06, "loss": 0.1059, "step": 104950 }, { "epoch": 27.993333333333332, "grad_norm": 5.07447624206543, "learning_rate": 1.296258064516129e-06, "loss": 0.0949, "step": 104975 }, { "epoch": 28.0, "grad_norm": 4.488008975982666, "learning_rate": 1.2941075268817204e-06, "loss": 0.0955, "step": 105000 }, { "epoch": 28.0, "eval_cer": 27.191919944840954, "eval_loss": 0.4798552691936493, "eval_runtime": 1254.7701, "eval_samples_per_second": 3.985, "eval_steps_per_second": 0.498, "step": 105000 }, { "epoch": 28.006666666666668, "grad_norm": 4.028281211853027, "learning_rate": 1.2919569892473118e-06, "loss": 0.0795, "step": 105025 }, { "epoch": 28.013333333333332, "grad_norm": 4.295309543609619, "learning_rate": 1.2898064516129032e-06, "loss": 0.0675, "step": 105050 }, { "epoch": 28.02, "grad_norm": 3.8282556533813477, "learning_rate": 1.2876559139784946e-06, "loss": 0.0681, "step": 105075 }, { "epoch": 28.026666666666667, "grad_norm": 4.884827136993408, "learning_rate": 1.2855053763440862e-06, "loss": 0.0672, "step": 105100 }, { "epoch": 28.033333333333335, "grad_norm": 5.627849102020264, "learning_rate": 1.2833548387096776e-06, "loss": 0.0688, "step": 105125 }, { "epoch": 28.04, "grad_norm": 6.303418159484863, "learning_rate": 1.281204301075269e-06, "loss": 0.0673, "step": 105150 }, { "epoch": 28.046666666666667, "grad_norm": 6.485918998718262, "learning_rate": 1.2790537634408604e-06, "loss": 0.0742, "step": 105175 }, { "epoch": 28.053333333333335, "grad_norm": 3.1010007858276367, "learning_rate": 1.2769032258064518e-06, "loss": 0.068, "step": 105200 }, { "epoch": 28.06, "grad_norm": 2.68196439743042, "learning_rate": 1.2747526881720432e-06, "loss": 0.0765, "step": 105225 }, { "epoch": 28.066666666666666, "grad_norm": 4.266626834869385, "learning_rate": 1.2726021505376345e-06, "loss": 0.0714, "step": 105250 }, { "epoch": 28.073333333333334, "grad_norm": 4.102646827697754, "learning_rate": 1.270451612903226e-06, "loss": 0.0763, "step": 105275 }, { "epoch": 28.08, "grad_norm": 5.581902980804443, "learning_rate": 1.2683010752688173e-06, "loss": 0.0752, "step": 105300 }, { "epoch": 28.086666666666666, "grad_norm": 4.264448165893555, "learning_rate": 1.266150537634409e-06, "loss": 0.064, "step": 105325 }, { "epoch": 28.093333333333334, "grad_norm": 6.259329795837402, "learning_rate": 1.2640000000000003e-06, "loss": 0.0662, "step": 105350 }, { "epoch": 28.1, "grad_norm": 4.855055332183838, "learning_rate": 1.2618494623655917e-06, "loss": 0.0679, "step": 105375 }, { "epoch": 28.106666666666666, "grad_norm": 4.191481590270996, "learning_rate": 1.2596989247311829e-06, "loss": 0.0686, "step": 105400 }, { "epoch": 28.113333333333333, "grad_norm": 4.534985065460205, "learning_rate": 1.2575483870967743e-06, "loss": 0.0622, "step": 105425 }, { "epoch": 28.12, "grad_norm": 4.661524295806885, "learning_rate": 1.2553978494623657e-06, "loss": 0.0601, "step": 105450 }, { "epoch": 28.126666666666665, "grad_norm": 5.3828654289245605, "learning_rate": 1.253247311827957e-06, "loss": 0.0734, "step": 105475 }, { "epoch": 28.133333333333333, "grad_norm": 4.19137716293335, "learning_rate": 1.2510967741935484e-06, "loss": 0.0708, "step": 105500 }, { "epoch": 28.14, "grad_norm": 5.820822238922119, "learning_rate": 1.2489462365591398e-06, "loss": 0.0646, "step": 105525 }, { "epoch": 28.14666666666667, "grad_norm": 3.898209571838379, "learning_rate": 1.2467956989247312e-06, "loss": 0.0662, "step": 105550 }, { "epoch": 28.153333333333332, "grad_norm": 5.02143669128418, "learning_rate": 1.2446451612903226e-06, "loss": 0.0631, "step": 105575 }, { "epoch": 28.16, "grad_norm": 6.427823543548584, "learning_rate": 1.242494623655914e-06, "loss": 0.0729, "step": 105600 }, { "epoch": 28.166666666666668, "grad_norm": 5.7172932624816895, "learning_rate": 1.2403440860215054e-06, "loss": 0.0675, "step": 105625 }, { "epoch": 28.173333333333332, "grad_norm": 4.2255072593688965, "learning_rate": 1.238193548387097e-06, "loss": 0.0697, "step": 105650 }, { "epoch": 28.18, "grad_norm": 5.680285453796387, "learning_rate": 1.2360430107526884e-06, "loss": 0.0731, "step": 105675 }, { "epoch": 28.186666666666667, "grad_norm": 3.1957204341888428, "learning_rate": 1.2338924731182798e-06, "loss": 0.0558, "step": 105700 }, { "epoch": 28.19333333333333, "grad_norm": 9.415204048156738, "learning_rate": 1.2317419354838711e-06, "loss": 0.0687, "step": 105725 }, { "epoch": 28.2, "grad_norm": 4.670586585998535, "learning_rate": 1.2295913978494625e-06, "loss": 0.0753, "step": 105750 }, { "epoch": 28.206666666666667, "grad_norm": 5.022347450256348, "learning_rate": 1.227440860215054e-06, "loss": 0.0687, "step": 105775 }, { "epoch": 28.213333333333335, "grad_norm": 5.085024833679199, "learning_rate": 1.2252903225806453e-06, "loss": 0.075, "step": 105800 }, { "epoch": 28.22, "grad_norm": 6.495643138885498, "learning_rate": 1.2231397849462367e-06, "loss": 0.0635, "step": 105825 }, { "epoch": 28.226666666666667, "grad_norm": 4.762880325317383, "learning_rate": 1.220989247311828e-06, "loss": 0.063, "step": 105850 }, { "epoch": 28.233333333333334, "grad_norm": 5.688311576843262, "learning_rate": 1.2188387096774195e-06, "loss": 0.0717, "step": 105875 }, { "epoch": 28.24, "grad_norm": 7.463180065155029, "learning_rate": 1.2166881720430109e-06, "loss": 0.0654, "step": 105900 }, { "epoch": 28.246666666666666, "grad_norm": 3.489142894744873, "learning_rate": 1.2145376344086023e-06, "loss": 0.0707, "step": 105925 }, { "epoch": 28.253333333333334, "grad_norm": 5.155128479003906, "learning_rate": 1.2123870967741936e-06, "loss": 0.0802, "step": 105950 }, { "epoch": 28.26, "grad_norm": 6.095416069030762, "learning_rate": 1.210236559139785e-06, "loss": 0.0706, "step": 105975 }, { "epoch": 28.266666666666666, "grad_norm": 5.475419521331787, "learning_rate": 1.2080860215053764e-06, "loss": 0.0694, "step": 106000 }, { "epoch": 28.273333333333333, "grad_norm": 4.726614952087402, "learning_rate": 1.2059354838709678e-06, "loss": 0.0764, "step": 106025 }, { "epoch": 28.28, "grad_norm": 5.041574954986572, "learning_rate": 1.2037849462365592e-06, "loss": 0.0796, "step": 106050 }, { "epoch": 28.286666666666665, "grad_norm": 4.450385093688965, "learning_rate": 1.2016344086021506e-06, "loss": 0.0625, "step": 106075 }, { "epoch": 28.293333333333333, "grad_norm": 4.9460344314575195, "learning_rate": 1.199483870967742e-06, "loss": 0.0652, "step": 106100 }, { "epoch": 28.3, "grad_norm": 6.095198631286621, "learning_rate": 1.1973333333333334e-06, "loss": 0.0845, "step": 106125 }, { "epoch": 28.306666666666665, "grad_norm": 5.5375447273254395, "learning_rate": 1.1951827956989247e-06, "loss": 0.0614, "step": 106150 }, { "epoch": 28.313333333333333, "grad_norm": 5.499558925628662, "learning_rate": 1.1930322580645161e-06, "loss": 0.0579, "step": 106175 }, { "epoch": 28.32, "grad_norm": 3.811984062194824, "learning_rate": 1.1908817204301077e-06, "loss": 0.0852, "step": 106200 }, { "epoch": 28.326666666666668, "grad_norm": 5.755745887756348, "learning_rate": 1.1887311827956991e-06, "loss": 0.075, "step": 106225 }, { "epoch": 28.333333333333332, "grad_norm": 2.864697217941284, "learning_rate": 1.1865806451612905e-06, "loss": 0.0616, "step": 106250 }, { "epoch": 28.34, "grad_norm": 6.000730037689209, "learning_rate": 1.184430107526882e-06, "loss": 0.0675, "step": 106275 }, { "epoch": 28.346666666666668, "grad_norm": 6.325552463531494, "learning_rate": 1.1822795698924733e-06, "loss": 0.0688, "step": 106300 }, { "epoch": 28.35333333333333, "grad_norm": 4.595957279205322, "learning_rate": 1.1801290322580645e-06, "loss": 0.0745, "step": 106325 }, { "epoch": 28.36, "grad_norm": 4.8107404708862305, "learning_rate": 1.1779784946236559e-06, "loss": 0.0759, "step": 106350 }, { "epoch": 28.366666666666667, "grad_norm": 4.373757362365723, "learning_rate": 1.1758279569892475e-06, "loss": 0.0621, "step": 106375 }, { "epoch": 28.373333333333335, "grad_norm": 9.046369552612305, "learning_rate": 1.1736774193548389e-06, "loss": 0.0753, "step": 106400 }, { "epoch": 28.38, "grad_norm": 6.391636848449707, "learning_rate": 1.1715268817204302e-06, "loss": 0.0689, "step": 106425 }, { "epoch": 28.386666666666667, "grad_norm": 5.374429702758789, "learning_rate": 1.1693763440860216e-06, "loss": 0.0688, "step": 106450 }, { "epoch": 28.393333333333334, "grad_norm": 6.548259735107422, "learning_rate": 1.167225806451613e-06, "loss": 0.0645, "step": 106475 }, { "epoch": 28.4, "grad_norm": 7.06367301940918, "learning_rate": 1.1650752688172044e-06, "loss": 0.0768, "step": 106500 }, { "epoch": 28.406666666666666, "grad_norm": 6.1871514320373535, "learning_rate": 1.1629247311827958e-06, "loss": 0.0631, "step": 106525 }, { "epoch": 28.413333333333334, "grad_norm": 5.462935924530029, "learning_rate": 1.1607741935483872e-06, "loss": 0.061, "step": 106550 }, { "epoch": 28.42, "grad_norm": 4.988280773162842, "learning_rate": 1.1586236559139786e-06, "loss": 0.0737, "step": 106575 }, { "epoch": 28.426666666666666, "grad_norm": 4.768089771270752, "learning_rate": 1.15647311827957e-06, "loss": 0.0711, "step": 106600 }, { "epoch": 28.433333333333334, "grad_norm": 3.8319103717803955, "learning_rate": 1.1543225806451613e-06, "loss": 0.0626, "step": 106625 }, { "epoch": 28.44, "grad_norm": 5.438174724578857, "learning_rate": 1.1521720430107527e-06, "loss": 0.0722, "step": 106650 }, { "epoch": 28.446666666666665, "grad_norm": 4.27614688873291, "learning_rate": 1.1500215053763441e-06, "loss": 0.0713, "step": 106675 }, { "epoch": 28.453333333333333, "grad_norm": 5.094432830810547, "learning_rate": 1.1478709677419355e-06, "loss": 0.0634, "step": 106700 }, { "epoch": 28.46, "grad_norm": 9.482521057128906, "learning_rate": 1.145720430107527e-06, "loss": 0.0685, "step": 106725 }, { "epoch": 28.466666666666665, "grad_norm": 2.658344268798828, "learning_rate": 1.1435698924731183e-06, "loss": 0.0655, "step": 106750 }, { "epoch": 28.473333333333333, "grad_norm": 4.340157508850098, "learning_rate": 1.14141935483871e-06, "loss": 0.072, "step": 106775 }, { "epoch": 28.48, "grad_norm": 3.6506481170654297, "learning_rate": 1.1392688172043013e-06, "loss": 0.0807, "step": 106800 }, { "epoch": 28.486666666666668, "grad_norm": 4.7035722732543945, "learning_rate": 1.1371182795698927e-06, "loss": 0.0731, "step": 106825 }, { "epoch": 28.493333333333332, "grad_norm": 5.739375591278076, "learning_rate": 1.1349677419354838e-06, "loss": 0.0756, "step": 106850 }, { "epoch": 28.5, "grad_norm": 5.0429463386535645, "learning_rate": 1.1328172043010752e-06, "loss": 0.0676, "step": 106875 }, { "epoch": 28.506666666666668, "grad_norm": 2.8494069576263428, "learning_rate": 1.1306666666666666e-06, "loss": 0.0728, "step": 106900 }, { "epoch": 28.513333333333332, "grad_norm": 4.3079681396484375, "learning_rate": 1.1285161290322582e-06, "loss": 0.0729, "step": 106925 }, { "epoch": 28.52, "grad_norm": 5.635054588317871, "learning_rate": 1.1263655913978496e-06, "loss": 0.0581, "step": 106950 }, { "epoch": 28.526666666666667, "grad_norm": 5.261460304260254, "learning_rate": 1.124215053763441e-06, "loss": 0.07, "step": 106975 }, { "epoch": 28.533333333333335, "grad_norm": 6.6890034675598145, "learning_rate": 1.1220645161290324e-06, "loss": 0.0615, "step": 107000 }, { "epoch": 28.54, "grad_norm": 4.3866987228393555, "learning_rate": 1.1199139784946238e-06, "loss": 0.062, "step": 107025 }, { "epoch": 28.546666666666667, "grad_norm": 4.621160507202148, "learning_rate": 1.1177634408602152e-06, "loss": 0.0705, "step": 107050 }, { "epoch": 28.553333333333335, "grad_norm": 4.613872051239014, "learning_rate": 1.1156129032258066e-06, "loss": 0.067, "step": 107075 }, { "epoch": 28.56, "grad_norm": 5.777011871337891, "learning_rate": 1.113462365591398e-06, "loss": 0.0669, "step": 107100 }, { "epoch": 28.566666666666666, "grad_norm": 2.927910566329956, "learning_rate": 1.1113118279569893e-06, "loss": 0.067, "step": 107125 }, { "epoch": 28.573333333333334, "grad_norm": 5.220089912414551, "learning_rate": 1.1091612903225807e-06, "loss": 0.0674, "step": 107150 }, { "epoch": 28.58, "grad_norm": 5.727466583251953, "learning_rate": 1.1070107526881721e-06, "loss": 0.073, "step": 107175 }, { "epoch": 28.586666666666666, "grad_norm": 4.32335090637207, "learning_rate": 1.1048602150537635e-06, "loss": 0.0705, "step": 107200 }, { "epoch": 28.593333333333334, "grad_norm": 5.615988731384277, "learning_rate": 1.1027096774193549e-06, "loss": 0.0742, "step": 107225 }, { "epoch": 28.6, "grad_norm": 4.67064905166626, "learning_rate": 1.1005591397849463e-06, "loss": 0.0669, "step": 107250 }, { "epoch": 28.606666666666666, "grad_norm": 4.703527927398682, "learning_rate": 1.0984086021505377e-06, "loss": 0.0749, "step": 107275 }, { "epoch": 28.613333333333333, "grad_norm": 6.199481964111328, "learning_rate": 1.096258064516129e-06, "loss": 0.0687, "step": 107300 }, { "epoch": 28.62, "grad_norm": 4.483143329620361, "learning_rate": 1.0941075268817207e-06, "loss": 0.0705, "step": 107325 }, { "epoch": 28.626666666666665, "grad_norm": 5.828566074371338, "learning_rate": 1.091956989247312e-06, "loss": 0.0661, "step": 107350 }, { "epoch": 28.633333333333333, "grad_norm": 10.659842491149902, "learning_rate": 1.0898064516129034e-06, "loss": 0.0758, "step": 107375 }, { "epoch": 28.64, "grad_norm": 5.724881649017334, "learning_rate": 1.0876559139784946e-06, "loss": 0.0605, "step": 107400 }, { "epoch": 28.64666666666667, "grad_norm": 5.362173080444336, "learning_rate": 1.085505376344086e-06, "loss": 0.0699, "step": 107425 }, { "epoch": 28.653333333333332, "grad_norm": 6.921713352203369, "learning_rate": 1.0833548387096774e-06, "loss": 0.0775, "step": 107450 }, { "epoch": 28.66, "grad_norm": 5.395732402801514, "learning_rate": 1.0812043010752688e-06, "loss": 0.076, "step": 107475 }, { "epoch": 28.666666666666668, "grad_norm": 3.800098180770874, "learning_rate": 1.0790537634408604e-06, "loss": 0.0681, "step": 107500 }, { "epoch": 28.673333333333332, "grad_norm": 4.355224609375, "learning_rate": 1.0769032258064518e-06, "loss": 0.069, "step": 107525 }, { "epoch": 28.68, "grad_norm": 5.733427047729492, "learning_rate": 1.0747526881720432e-06, "loss": 0.0781, "step": 107550 }, { "epoch": 28.686666666666667, "grad_norm": 4.818815231323242, "learning_rate": 1.0726021505376345e-06, "loss": 0.0644, "step": 107575 }, { "epoch": 28.693333333333335, "grad_norm": 5.247859001159668, "learning_rate": 1.070451612903226e-06, "loss": 0.0709, "step": 107600 }, { "epoch": 28.7, "grad_norm": 5.645949840545654, "learning_rate": 1.0683010752688173e-06, "loss": 0.0659, "step": 107625 }, { "epoch": 28.706666666666667, "grad_norm": 5.639069557189941, "learning_rate": 1.0661505376344087e-06, "loss": 0.0805, "step": 107650 }, { "epoch": 28.713333333333335, "grad_norm": 5.80585241317749, "learning_rate": 1.064e-06, "loss": 0.064, "step": 107675 }, { "epoch": 28.72, "grad_norm": 4.433391571044922, "learning_rate": 1.0618494623655915e-06, "loss": 0.0671, "step": 107700 }, { "epoch": 28.726666666666667, "grad_norm": 5.412781238555908, "learning_rate": 1.0596989247311829e-06, "loss": 0.0749, "step": 107725 }, { "epoch": 28.733333333333334, "grad_norm": 3.8913156986236572, "learning_rate": 1.0575483870967743e-06, "loss": 0.0712, "step": 107750 }, { "epoch": 28.74, "grad_norm": 4.553961277008057, "learning_rate": 1.0553978494623657e-06, "loss": 0.0649, "step": 107775 }, { "epoch": 28.746666666666666, "grad_norm": 3.6377172470092773, "learning_rate": 1.053247311827957e-06, "loss": 0.063, "step": 107800 }, { "epoch": 28.753333333333334, "grad_norm": 5.2520294189453125, "learning_rate": 1.0510967741935484e-06, "loss": 0.075, "step": 107825 }, { "epoch": 28.76, "grad_norm": 3.5586531162261963, "learning_rate": 1.0489462365591398e-06, "loss": 0.0743, "step": 107850 }, { "epoch": 28.766666666666666, "grad_norm": 3.680898666381836, "learning_rate": 1.0467956989247312e-06, "loss": 0.0706, "step": 107875 }, { "epoch": 28.773333333333333, "grad_norm": 6.378322601318359, "learning_rate": 1.0446451612903228e-06, "loss": 0.0775, "step": 107900 }, { "epoch": 28.78, "grad_norm": 4.782385349273682, "learning_rate": 1.042494623655914e-06, "loss": 0.0733, "step": 107925 }, { "epoch": 28.786666666666665, "grad_norm": 4.59635066986084, "learning_rate": 1.0403440860215054e-06, "loss": 0.0822, "step": 107950 }, { "epoch": 28.793333333333333, "grad_norm": 4.420915126800537, "learning_rate": 1.0381935483870968e-06, "loss": 0.0738, "step": 107975 }, { "epoch": 28.8, "grad_norm": 6.013655662536621, "learning_rate": 1.0360430107526882e-06, "loss": 0.064, "step": 108000 }, { "epoch": 28.806666666666665, "grad_norm": 8.474340438842773, "learning_rate": 1.0338924731182795e-06, "loss": 0.0668, "step": 108025 }, { "epoch": 28.813333333333333, "grad_norm": 5.03554105758667, "learning_rate": 1.0317419354838711e-06, "loss": 0.0742, "step": 108050 }, { "epoch": 28.82, "grad_norm": 2.868293285369873, "learning_rate": 1.0295913978494625e-06, "loss": 0.0731, "step": 108075 }, { "epoch": 28.826666666666668, "grad_norm": 6.498327732086182, "learning_rate": 1.027440860215054e-06, "loss": 0.0803, "step": 108100 }, { "epoch": 28.833333333333332, "grad_norm": 4.766836166381836, "learning_rate": 1.0252903225806453e-06, "loss": 0.0761, "step": 108125 }, { "epoch": 28.84, "grad_norm": 2.87723970413208, "learning_rate": 1.0231397849462367e-06, "loss": 0.0578, "step": 108150 }, { "epoch": 28.846666666666668, "grad_norm": 2.8986120223999023, "learning_rate": 1.020989247311828e-06, "loss": 0.0715, "step": 108175 }, { "epoch": 28.85333333333333, "grad_norm": 4.187399387359619, "learning_rate": 1.0188387096774195e-06, "loss": 0.0699, "step": 108200 }, { "epoch": 28.86, "grad_norm": 4.227296352386475, "learning_rate": 1.0166881720430109e-06, "loss": 0.066, "step": 108225 }, { "epoch": 28.866666666666667, "grad_norm": 5.6283278465271, "learning_rate": 1.0145376344086023e-06, "loss": 0.0743, "step": 108250 }, { "epoch": 28.873333333333335, "grad_norm": 5.740164279937744, "learning_rate": 1.0123870967741936e-06, "loss": 0.0719, "step": 108275 }, { "epoch": 28.88, "grad_norm": 4.3810272216796875, "learning_rate": 1.010236559139785e-06, "loss": 0.0704, "step": 108300 }, { "epoch": 28.886666666666667, "grad_norm": 3.914602041244507, "learning_rate": 1.0080860215053764e-06, "loss": 0.0669, "step": 108325 }, { "epoch": 28.893333333333334, "grad_norm": 9.868694305419922, "learning_rate": 1.0059354838709678e-06, "loss": 0.0694, "step": 108350 }, { "epoch": 28.9, "grad_norm": 3.8664653301239014, "learning_rate": 1.0037849462365592e-06, "loss": 0.0728, "step": 108375 }, { "epoch": 28.906666666666666, "grad_norm": 4.040505409240723, "learning_rate": 1.0016344086021506e-06, "loss": 0.0741, "step": 108400 }, { "epoch": 28.913333333333334, "grad_norm": 4.666975021362305, "learning_rate": 9.99483870967742e-07, "loss": 0.0598, "step": 108425 }, { "epoch": 28.92, "grad_norm": 4.317440986633301, "learning_rate": 9.973333333333334e-07, "loss": 0.0686, "step": 108450 }, { "epoch": 28.926666666666666, "grad_norm": 5.5749030113220215, "learning_rate": 9.951827956989248e-07, "loss": 0.0656, "step": 108475 }, { "epoch": 28.933333333333334, "grad_norm": 4.538598537445068, "learning_rate": 9.930322580645161e-07, "loss": 0.0827, "step": 108500 }, { "epoch": 28.94, "grad_norm": 5.616530418395996, "learning_rate": 9.908817204301075e-07, "loss": 0.0818, "step": 108525 }, { "epoch": 28.946666666666665, "grad_norm": 6.581377983093262, "learning_rate": 9.88731182795699e-07, "loss": 0.0774, "step": 108550 }, { "epoch": 28.953333333333333, "grad_norm": 7.156411647796631, "learning_rate": 9.866666666666668e-07, "loss": 0.077, "step": 108575 }, { "epoch": 28.96, "grad_norm": 3.1744866371154785, "learning_rate": 9.845161290322582e-07, "loss": 0.0729, "step": 108600 }, { "epoch": 28.966666666666665, "grad_norm": 4.786227226257324, "learning_rate": 9.823655913978496e-07, "loss": 0.0619, "step": 108625 }, { "epoch": 28.973333333333333, "grad_norm": 3.328200578689575, "learning_rate": 9.80215053763441e-07, "loss": 0.0779, "step": 108650 }, { "epoch": 28.98, "grad_norm": 5.606503963470459, "learning_rate": 9.780645161290324e-07, "loss": 0.0657, "step": 108675 }, { "epoch": 28.986666666666668, "grad_norm": 6.059937953948975, "learning_rate": 9.759139784946238e-07, "loss": 0.0681, "step": 108700 }, { "epoch": 28.993333333333332, "grad_norm": 4.196352958679199, "learning_rate": 9.737634408602152e-07, "loss": 0.0619, "step": 108725 }, { "epoch": 29.0, "grad_norm": 5.883264541625977, "learning_rate": 9.716129032258065e-07, "loss": 0.0756, "step": 108750 }, { "epoch": 29.0, "eval_cer": 27.62611110075844, "eval_loss": 0.48700037598609924, "eval_runtime": 1318.8348, "eval_samples_per_second": 3.791, "eval_steps_per_second": 0.474, "step": 108750 }, { "epoch": 29.006666666666668, "grad_norm": 2.9881179332733154, "learning_rate": 9.69462365591398e-07, "loss": 0.0461, "step": 108775 }, { "epoch": 29.013333333333332, "grad_norm": 4.527629852294922, "learning_rate": 9.673118279569893e-07, "loss": 0.0509, "step": 108800 }, { "epoch": 29.02, "grad_norm": 4.166095733642578, "learning_rate": 9.651612903225807e-07, "loss": 0.0483, "step": 108825 }, { "epoch": 29.026666666666667, "grad_norm": 4.224203109741211, "learning_rate": 9.63010752688172e-07, "loss": 0.0486, "step": 108850 }, { "epoch": 29.033333333333335, "grad_norm": 3.0889968872070312, "learning_rate": 9.608602150537635e-07, "loss": 0.0584, "step": 108875 }, { "epoch": 29.04, "grad_norm": 4.084592342376709, "learning_rate": 9.587096774193549e-07, "loss": 0.055, "step": 108900 }, { "epoch": 29.046666666666667, "grad_norm": 5.951045513153076, "learning_rate": 9.565591397849463e-07, "loss": 0.0489, "step": 108925 }, { "epoch": 29.053333333333335, "grad_norm": 5.119927883148193, "learning_rate": 9.544086021505379e-07, "loss": 0.0516, "step": 108950 }, { "epoch": 29.06, "grad_norm": 4.860287666320801, "learning_rate": 9.522580645161291e-07, "loss": 0.0487, "step": 108975 }, { "epoch": 29.066666666666666, "grad_norm": 2.4090921878814697, "learning_rate": 9.501075268817204e-07, "loss": 0.0576, "step": 109000 }, { "epoch": 29.073333333333334, "grad_norm": 4.871683597564697, "learning_rate": 9.479569892473118e-07, "loss": 0.0518, "step": 109025 }, { "epoch": 29.08, "grad_norm": 4.666428089141846, "learning_rate": 9.458064516129033e-07, "loss": 0.0459, "step": 109050 }, { "epoch": 29.086666666666666, "grad_norm": 3.901996612548828, "learning_rate": 9.436559139784947e-07, "loss": 0.0549, "step": 109075 }, { "epoch": 29.093333333333334, "grad_norm": 2.5333645343780518, "learning_rate": 9.415053763440861e-07, "loss": 0.0494, "step": 109100 }, { "epoch": 29.1, "grad_norm": 5.064122200012207, "learning_rate": 9.393548387096775e-07, "loss": 0.0463, "step": 109125 }, { "epoch": 29.106666666666666, "grad_norm": 5.962407112121582, "learning_rate": 9.372043010752689e-07, "loss": 0.0518, "step": 109150 }, { "epoch": 29.113333333333333, "grad_norm": 4.116271495819092, "learning_rate": 9.350537634408604e-07, "loss": 0.0504, "step": 109175 }, { "epoch": 29.12, "grad_norm": 3.65535306930542, "learning_rate": 9.329032258064518e-07, "loss": 0.0532, "step": 109200 }, { "epoch": 29.126666666666665, "grad_norm": 3.022705078125, "learning_rate": 9.307526881720431e-07, "loss": 0.053, "step": 109225 }, { "epoch": 29.133333333333333, "grad_norm": 4.303037643432617, "learning_rate": 9.286021505376344e-07, "loss": 0.052, "step": 109250 }, { "epoch": 29.14, "grad_norm": 4.245657444000244, "learning_rate": 9.264516129032258e-07, "loss": 0.0463, "step": 109275 }, { "epoch": 29.14666666666667, "grad_norm": 5.415975570678711, "learning_rate": 9.243010752688172e-07, "loss": 0.0419, "step": 109300 }, { "epoch": 29.153333333333332, "grad_norm": 4.769423007965088, "learning_rate": 9.221505376344087e-07, "loss": 0.0482, "step": 109325 }, { "epoch": 29.16, "grad_norm": 3.080899477005005, "learning_rate": 9.200000000000001e-07, "loss": 0.0509, "step": 109350 }, { "epoch": 29.166666666666668, "grad_norm": 2.748405694961548, "learning_rate": 9.178494623655915e-07, "loss": 0.0458, "step": 109375 }, { "epoch": 29.173333333333332, "grad_norm": 4.06243371963501, "learning_rate": 9.156989247311829e-07, "loss": 0.0591, "step": 109400 }, { "epoch": 29.18, "grad_norm": 4.679286479949951, "learning_rate": 9.135483870967743e-07, "loss": 0.0487, "step": 109425 }, { "epoch": 29.186666666666667, "grad_norm": 3.693493604660034, "learning_rate": 9.113978494623657e-07, "loss": 0.0462, "step": 109450 }, { "epoch": 29.19333333333333, "grad_norm": 3.6970932483673096, "learning_rate": 9.092473118279571e-07, "loss": 0.0488, "step": 109475 }, { "epoch": 29.2, "grad_norm": 4.763255596160889, "learning_rate": 9.070967741935485e-07, "loss": 0.0482, "step": 109500 }, { "epoch": 29.206666666666667, "grad_norm": 3.2207260131835938, "learning_rate": 9.049462365591398e-07, "loss": 0.0459, "step": 109525 }, { "epoch": 29.213333333333335, "grad_norm": 4.156766414642334, "learning_rate": 9.027956989247312e-07, "loss": 0.0505, "step": 109550 }, { "epoch": 29.22, "grad_norm": 4.33465576171875, "learning_rate": 9.006451612903226e-07, "loss": 0.0549, "step": 109575 }, { "epoch": 29.226666666666667, "grad_norm": 3.284700632095337, "learning_rate": 8.984946236559141e-07, "loss": 0.0587, "step": 109600 }, { "epoch": 29.233333333333334, "grad_norm": 5.013065338134766, "learning_rate": 8.963440860215055e-07, "loss": 0.0589, "step": 109625 }, { "epoch": 29.24, "grad_norm": 4.0306878089904785, "learning_rate": 8.941935483870969e-07, "loss": 0.0488, "step": 109650 }, { "epoch": 29.246666666666666, "grad_norm": 3.048426866531372, "learning_rate": 8.920430107526882e-07, "loss": 0.0431, "step": 109675 }, { "epoch": 29.253333333333334, "grad_norm": 4.624520778656006, "learning_rate": 8.898924731182796e-07, "loss": 0.053, "step": 109700 }, { "epoch": 29.26, "grad_norm": 3.1858010292053223, "learning_rate": 8.877419354838711e-07, "loss": 0.0449, "step": 109725 }, { "epoch": 29.266666666666666, "grad_norm": 6.274102210998535, "learning_rate": 8.855913978494625e-07, "loss": 0.0633, "step": 109750 }, { "epoch": 29.273333333333333, "grad_norm": 3.1354446411132812, "learning_rate": 8.834408602150539e-07, "loss": 0.0602, "step": 109775 }, { "epoch": 29.28, "grad_norm": 3.1294801235198975, "learning_rate": 8.812903225806452e-07, "loss": 0.0509, "step": 109800 }, { "epoch": 29.286666666666665, "grad_norm": 2.297370195388794, "learning_rate": 8.791397849462366e-07, "loss": 0.0514, "step": 109825 }, { "epoch": 29.293333333333333, "grad_norm": 5.263505458831787, "learning_rate": 8.76989247311828e-07, "loss": 0.0505, "step": 109850 }, { "epoch": 29.3, "grad_norm": 4.512073516845703, "learning_rate": 8.748387096774194e-07, "loss": 0.0519, "step": 109875 }, { "epoch": 29.306666666666665, "grad_norm": 3.374182939529419, "learning_rate": 8.726881720430109e-07, "loss": 0.0477, "step": 109900 }, { "epoch": 29.313333333333333, "grad_norm": 5.722492218017578, "learning_rate": 8.705376344086022e-07, "loss": 0.0438, "step": 109925 }, { "epoch": 29.32, "grad_norm": 2.482574462890625, "learning_rate": 8.683870967741936e-07, "loss": 0.0508, "step": 109950 }, { "epoch": 29.326666666666668, "grad_norm": 4.140462398529053, "learning_rate": 8.66236559139785e-07, "loss": 0.0535, "step": 109975 }, { "epoch": 29.333333333333332, "grad_norm": 4.922758102416992, "learning_rate": 8.640860215053765e-07, "loss": 0.0518, "step": 110000 }, { "epoch": 29.34, "grad_norm": 3.8917365074157715, "learning_rate": 8.619354838709679e-07, "loss": 0.0478, "step": 110025 }, { "epoch": 29.346666666666668, "grad_norm": 3.286734104156494, "learning_rate": 8.597849462365592e-07, "loss": 0.0484, "step": 110050 }, { "epoch": 29.35333333333333, "grad_norm": 3.8913826942443848, "learning_rate": 8.576344086021506e-07, "loss": 0.0507, "step": 110075 }, { "epoch": 29.36, "grad_norm": 4.218096733093262, "learning_rate": 8.55483870967742e-07, "loss": 0.0485, "step": 110100 }, { "epoch": 29.366666666666667, "grad_norm": 3.614287853240967, "learning_rate": 8.533333333333334e-07, "loss": 0.0496, "step": 110125 }, { "epoch": 29.373333333333335, "grad_norm": 3.3257699012756348, "learning_rate": 8.511827956989247e-07, "loss": 0.0503, "step": 110150 }, { "epoch": 29.38, "grad_norm": 3.415825605392456, "learning_rate": 8.490322580645162e-07, "loss": 0.045, "step": 110175 }, { "epoch": 29.386666666666667, "grad_norm": 2.6436564922332764, "learning_rate": 8.468817204301076e-07, "loss": 0.0461, "step": 110200 }, { "epoch": 29.393333333333334, "grad_norm": 4.51224946975708, "learning_rate": 8.44731182795699e-07, "loss": 0.0563, "step": 110225 }, { "epoch": 29.4, "grad_norm": 2.7812390327453613, "learning_rate": 8.425806451612904e-07, "loss": 0.0504, "step": 110250 }, { "epoch": 29.406666666666666, "grad_norm": 3.3176229000091553, "learning_rate": 8.404301075268818e-07, "loss": 0.0527, "step": 110275 }, { "epoch": 29.413333333333334, "grad_norm": 4.484417915344238, "learning_rate": 8.382795698924733e-07, "loss": 0.051, "step": 110300 }, { "epoch": 29.42, "grad_norm": 4.061435222625732, "learning_rate": 8.361290322580646e-07, "loss": 0.0513, "step": 110325 }, { "epoch": 29.426666666666666, "grad_norm": 5.7831339836120605, "learning_rate": 8.33978494623656e-07, "loss": 0.0582, "step": 110350 }, { "epoch": 29.433333333333334, "grad_norm": 3.3138036727905273, "learning_rate": 8.318279569892473e-07, "loss": 0.0498, "step": 110375 }, { "epoch": 29.44, "grad_norm": 3.587130069732666, "learning_rate": 8.296774193548387e-07, "loss": 0.0471, "step": 110400 }, { "epoch": 29.446666666666665, "grad_norm": 3.6882596015930176, "learning_rate": 8.275268817204301e-07, "loss": 0.0474, "step": 110425 }, { "epoch": 29.453333333333333, "grad_norm": 4.320479869842529, "learning_rate": 8.253763440860216e-07, "loss": 0.0561, "step": 110450 }, { "epoch": 29.46, "grad_norm": 5.231263637542725, "learning_rate": 8.23225806451613e-07, "loss": 0.0592, "step": 110475 }, { "epoch": 29.466666666666665, "grad_norm": 3.904099225997925, "learning_rate": 8.211612903225807e-07, "loss": 0.0553, "step": 110500 }, { "epoch": 29.473333333333333, "grad_norm": 3.4897515773773193, "learning_rate": 8.190107526881722e-07, "loss": 0.0483, "step": 110525 }, { "epoch": 29.48, "grad_norm": 5.5735087394714355, "learning_rate": 8.168602150537636e-07, "loss": 0.0651, "step": 110550 }, { "epoch": 29.486666666666668, "grad_norm": 2.35837984085083, "learning_rate": 8.14709677419355e-07, "loss": 0.0443, "step": 110575 }, { "epoch": 29.493333333333332, "grad_norm": 4.57457160949707, "learning_rate": 8.125591397849462e-07, "loss": 0.0516, "step": 110600 }, { "epoch": 29.5, "grad_norm": 3.0367562770843506, "learning_rate": 8.104086021505376e-07, "loss": 0.0523, "step": 110625 }, { "epoch": 29.506666666666668, "grad_norm": 4.0944976806640625, "learning_rate": 8.08258064516129e-07, "loss": 0.0622, "step": 110650 }, { "epoch": 29.513333333333332, "grad_norm": 5.137016773223877, "learning_rate": 8.061075268817205e-07, "loss": 0.0466, "step": 110675 }, { "epoch": 29.52, "grad_norm": 4.125336647033691, "learning_rate": 8.039569892473119e-07, "loss": 0.0474, "step": 110700 }, { "epoch": 29.526666666666667, "grad_norm": 4.051028251647949, "learning_rate": 8.018064516129033e-07, "loss": 0.0564, "step": 110725 }, { "epoch": 29.533333333333335, "grad_norm": 3.4131171703338623, "learning_rate": 7.996559139784947e-07, "loss": 0.0469, "step": 110750 }, { "epoch": 29.54, "grad_norm": 3.6928086280822754, "learning_rate": 7.975053763440861e-07, "loss": 0.0485, "step": 110775 }, { "epoch": 29.546666666666667, "grad_norm": 5.354036331176758, "learning_rate": 7.953548387096776e-07, "loss": 0.0466, "step": 110800 }, { "epoch": 29.553333333333335, "grad_norm": 4.980081558227539, "learning_rate": 7.93204301075269e-07, "loss": 0.0506, "step": 110825 }, { "epoch": 29.56, "grad_norm": 4.175778388977051, "learning_rate": 7.910537634408602e-07, "loss": 0.0583, "step": 110850 }, { "epoch": 29.566666666666666, "grad_norm": 5.9962615966796875, "learning_rate": 7.889032258064516e-07, "loss": 0.0498, "step": 110875 }, { "epoch": 29.573333333333334, "grad_norm": 5.178532600402832, "learning_rate": 7.86752688172043e-07, "loss": 0.0385, "step": 110900 }, { "epoch": 29.58, "grad_norm": 3.3623223304748535, "learning_rate": 7.846021505376344e-07, "loss": 0.0445, "step": 110925 }, { "epoch": 29.586666666666666, "grad_norm": 5.17650842666626, "learning_rate": 7.824516129032259e-07, "loss": 0.0567, "step": 110950 }, { "epoch": 29.593333333333334, "grad_norm": 3.7263824939727783, "learning_rate": 7.803010752688173e-07, "loss": 0.0592, "step": 110975 }, { "epoch": 29.6, "grad_norm": 5.730683326721191, "learning_rate": 7.781505376344087e-07, "loss": 0.0604, "step": 111000 }, { "epoch": 29.606666666666666, "grad_norm": 4.120583534240723, "learning_rate": 7.760000000000001e-07, "loss": 0.0559, "step": 111025 }, { "epoch": 29.613333333333333, "grad_norm": 6.335794925689697, "learning_rate": 7.738494623655915e-07, "loss": 0.0494, "step": 111050 }, { "epoch": 29.62, "grad_norm": 4.686089515686035, "learning_rate": 7.71698924731183e-07, "loss": 0.0471, "step": 111075 }, { "epoch": 29.626666666666665, "grad_norm": 6.326693058013916, "learning_rate": 7.695483870967743e-07, "loss": 0.0534, "step": 111100 }, { "epoch": 29.633333333333333, "grad_norm": 3.9052040576934814, "learning_rate": 7.673978494623656e-07, "loss": 0.0507, "step": 111125 }, { "epoch": 29.64, "grad_norm": 5.024356365203857, "learning_rate": 7.65247311827957e-07, "loss": 0.0456, "step": 111150 }, { "epoch": 29.64666666666667, "grad_norm": 4.520870685577393, "learning_rate": 7.630967741935484e-07, "loss": 0.0476, "step": 111175 }, { "epoch": 29.653333333333332, "grad_norm": 4.41971492767334, "learning_rate": 7.609462365591398e-07, "loss": 0.0631, "step": 111200 }, { "epoch": 29.66, "grad_norm": 3.8313727378845215, "learning_rate": 7.587956989247313e-07, "loss": 0.0556, "step": 111225 }, { "epoch": 29.666666666666668, "grad_norm": 4.365362167358398, "learning_rate": 7.566451612903227e-07, "loss": 0.0555, "step": 111250 }, { "epoch": 29.673333333333332, "grad_norm": 4.059951305389404, "learning_rate": 7.544946236559141e-07, "loss": 0.0584, "step": 111275 }, { "epoch": 29.68, "grad_norm": 3.028043746948242, "learning_rate": 7.523440860215054e-07, "loss": 0.0619, "step": 111300 }, { "epoch": 29.686666666666667, "grad_norm": 5.350071907043457, "learning_rate": 7.501935483870968e-07, "loss": 0.0622, "step": 111325 }, { "epoch": 29.693333333333335, "grad_norm": 4.64715051651001, "learning_rate": 7.480430107526883e-07, "loss": 0.0533, "step": 111350 }, { "epoch": 29.7, "grad_norm": 4.866791248321533, "learning_rate": 7.458924731182797e-07, "loss": 0.0592, "step": 111375 }, { "epoch": 29.706666666666667, "grad_norm": 3.4229390621185303, "learning_rate": 7.43741935483871e-07, "loss": 0.0493, "step": 111400 }, { "epoch": 29.713333333333335, "grad_norm": 3.290634870529175, "learning_rate": 7.415913978494624e-07, "loss": 0.0592, "step": 111425 }, { "epoch": 29.72, "grad_norm": 4.165722846984863, "learning_rate": 7.394408602150538e-07, "loss": 0.0528, "step": 111450 }, { "epoch": 29.726666666666667, "grad_norm": 3.4457809925079346, "learning_rate": 7.372903225806452e-07, "loss": 0.0423, "step": 111475 }, { "epoch": 29.733333333333334, "grad_norm": 4.040119647979736, "learning_rate": 7.351397849462366e-07, "loss": 0.0545, "step": 111500 }, { "epoch": 29.74, "grad_norm": 4.572447299957275, "learning_rate": 7.329892473118281e-07, "loss": 0.0595, "step": 111525 }, { "epoch": 29.746666666666666, "grad_norm": 2.9785091876983643, "learning_rate": 7.308387096774194e-07, "loss": 0.0575, "step": 111550 }, { "epoch": 29.753333333333334, "grad_norm": 3.803525447845459, "learning_rate": 7.286881720430108e-07, "loss": 0.0489, "step": 111575 }, { "epoch": 29.76, "grad_norm": 4.488462448120117, "learning_rate": 7.265376344086022e-07, "loss": 0.0608, "step": 111600 }, { "epoch": 29.766666666666666, "grad_norm": 7.659144878387451, "learning_rate": 7.243870967741937e-07, "loss": 0.0536, "step": 111625 }, { "epoch": 29.773333333333333, "grad_norm": 3.201803207397461, "learning_rate": 7.222365591397849e-07, "loss": 0.0523, "step": 111650 }, { "epoch": 29.78, "grad_norm": 3.2227039337158203, "learning_rate": 7.200860215053764e-07, "loss": 0.0637, "step": 111675 }, { "epoch": 29.786666666666665, "grad_norm": 3.8327667713165283, "learning_rate": 7.179354838709678e-07, "loss": 0.0533, "step": 111700 }, { "epoch": 29.793333333333333, "grad_norm": 4.377326488494873, "learning_rate": 7.157849462365592e-07, "loss": 0.052, "step": 111725 }, { "epoch": 29.8, "grad_norm": 6.466314315795898, "learning_rate": 7.136344086021506e-07, "loss": 0.063, "step": 111750 }, { "epoch": 29.806666666666665, "grad_norm": 3.9052443504333496, "learning_rate": 7.114838709677419e-07, "loss": 0.0428, "step": 111775 }, { "epoch": 29.813333333333333, "grad_norm": 20.784984588623047, "learning_rate": 7.093333333333334e-07, "loss": 0.0699, "step": 111800 }, { "epoch": 29.82, "grad_norm": 4.363125801086426, "learning_rate": 7.071827956989248e-07, "loss": 0.0486, "step": 111825 }, { "epoch": 29.826666666666668, "grad_norm": 3.800307273864746, "learning_rate": 7.050322580645162e-07, "loss": 0.0589, "step": 111850 }, { "epoch": 29.833333333333332, "grad_norm": 4.487585544586182, "learning_rate": 7.028817204301076e-07, "loss": 0.0464, "step": 111875 }, { "epoch": 29.84, "grad_norm": 3.441197395324707, "learning_rate": 7.00731182795699e-07, "loss": 0.0521, "step": 111900 }, { "epoch": 29.846666666666668, "grad_norm": 2.773594617843628, "learning_rate": 6.985806451612903e-07, "loss": 0.0527, "step": 111925 }, { "epoch": 29.85333333333333, "grad_norm": 4.6133856773376465, "learning_rate": 6.964301075268818e-07, "loss": 0.0527, "step": 111950 }, { "epoch": 29.86, "grad_norm": 4.294808387756348, "learning_rate": 6.942795698924732e-07, "loss": 0.0435, "step": 111975 }, { "epoch": 29.866666666666667, "grad_norm": 2.8927743434906006, "learning_rate": 6.921290322580645e-07, "loss": 0.0533, "step": 112000 }, { "epoch": 29.873333333333335, "grad_norm": 3.3203821182250977, "learning_rate": 6.899784946236559e-07, "loss": 0.0473, "step": 112025 }, { "epoch": 29.88, "grad_norm": 4.532654285430908, "learning_rate": 6.878279569892473e-07, "loss": 0.0584, "step": 112050 }, { "epoch": 29.886666666666667, "grad_norm": 3.8069517612457275, "learning_rate": 6.856774193548388e-07, "loss": 0.05, "step": 112075 }, { "epoch": 29.893333333333334, "grad_norm": 3.8918159008026123, "learning_rate": 6.835268817204302e-07, "loss": 0.0493, "step": 112100 }, { "epoch": 29.9, "grad_norm": 3.500743865966797, "learning_rate": 6.813763440860216e-07, "loss": 0.0526, "step": 112125 }, { "epoch": 29.906666666666666, "grad_norm": 3.064692497253418, "learning_rate": 6.79225806451613e-07, "loss": 0.0546, "step": 112150 }, { "epoch": 29.913333333333334, "grad_norm": 3.7283318042755127, "learning_rate": 6.770752688172044e-07, "loss": 0.0556, "step": 112175 }, { "epoch": 29.92, "grad_norm": 3.051586627960205, "learning_rate": 6.749247311827957e-07, "loss": 0.0531, "step": 112200 }, { "epoch": 29.926666666666666, "grad_norm": 3.611614942550659, "learning_rate": 6.727741935483872e-07, "loss": 0.0535, "step": 112225 }, { "epoch": 29.933333333333334, "grad_norm": 4.936167240142822, "learning_rate": 6.706236559139785e-07, "loss": 0.061, "step": 112250 }, { "epoch": 29.94, "grad_norm": 3.5285067558288574, "learning_rate": 6.684731182795699e-07, "loss": 0.0475, "step": 112275 }, { "epoch": 29.946666666666665, "grad_norm": 4.039191722869873, "learning_rate": 6.663225806451613e-07, "loss": 0.0564, "step": 112300 }, { "epoch": 29.953333333333333, "grad_norm": 4.438020706176758, "learning_rate": 6.641720430107527e-07, "loss": 0.0527, "step": 112325 }, { "epoch": 29.96, "grad_norm": 5.355007648468018, "learning_rate": 6.620215053763442e-07, "loss": 0.0582, "step": 112350 }, { "epoch": 29.966666666666665, "grad_norm": 4.756086349487305, "learning_rate": 6.598709677419356e-07, "loss": 0.0486, "step": 112375 }, { "epoch": 29.973333333333333, "grad_norm": 5.688845157623291, "learning_rate": 6.57720430107527e-07, "loss": 0.058, "step": 112400 }, { "epoch": 29.98, "grad_norm": 4.26326847076416, "learning_rate": 6.556559139784948e-07, "loss": 0.0591, "step": 112425 }, { "epoch": 29.986666666666668, "grad_norm": 3.8343193531036377, "learning_rate": 6.535053763440861e-07, "loss": 0.0524, "step": 112450 }, { "epoch": 29.993333333333332, "grad_norm": 4.656096458435059, "learning_rate": 6.513548387096774e-07, "loss": 0.0537, "step": 112475 }, { "epoch": 30.0, "grad_norm": 3.2189571857452393, "learning_rate": 6.492043010752688e-07, "loss": 0.0584, "step": 112500 }, { "epoch": 30.0, "eval_cer": 27.96340122617073, "eval_loss": 0.49588915705680847, "eval_runtime": 1307.9271, "eval_samples_per_second": 3.823, "eval_steps_per_second": 0.478, "step": 112500 }, { "epoch": 30.006666666666668, "grad_norm": 2.497539758682251, "learning_rate": 6.470537634408602e-07, "loss": 0.0416, "step": 112525 }, { "epoch": 30.013333333333332, "grad_norm": 4.01616096496582, "learning_rate": 6.449032258064516e-07, "loss": 0.0368, "step": 112550 }, { "epoch": 30.02, "grad_norm": 3.5682473182678223, "learning_rate": 6.427526881720431e-07, "loss": 0.0412, "step": 112575 }, { "epoch": 30.026666666666667, "grad_norm": 3.5195116996765137, "learning_rate": 6.406021505376345e-07, "loss": 0.0434, "step": 112600 }, { "epoch": 30.033333333333335, "grad_norm": 4.164295673370361, "learning_rate": 6.384516129032259e-07, "loss": 0.0419, "step": 112625 }, { "epoch": 30.04, "grad_norm": 2.9091200828552246, "learning_rate": 6.363010752688173e-07, "loss": 0.0379, "step": 112650 }, { "epoch": 30.046666666666667, "grad_norm": 3.6024045944213867, "learning_rate": 6.341505376344087e-07, "loss": 0.0395, "step": 112675 }, { "epoch": 30.053333333333335, "grad_norm": 3.690078020095825, "learning_rate": 6.320000000000002e-07, "loss": 0.0372, "step": 112700 }, { "epoch": 30.06, "grad_norm": 3.288020133972168, "learning_rate": 6.298494623655914e-07, "loss": 0.0397, "step": 112725 }, { "epoch": 30.066666666666666, "grad_norm": 3.5361361503601074, "learning_rate": 6.276989247311828e-07, "loss": 0.0404, "step": 112750 }, { "epoch": 30.073333333333334, "grad_norm": 2.126225709915161, "learning_rate": 6.255483870967742e-07, "loss": 0.0383, "step": 112775 }, { "epoch": 30.08, "grad_norm": 3.377102851867676, "learning_rate": 6.233978494623656e-07, "loss": 0.0365, "step": 112800 }, { "epoch": 30.086666666666666, "grad_norm": 3.491727352142334, "learning_rate": 6.21247311827957e-07, "loss": 0.0449, "step": 112825 }, { "epoch": 30.093333333333334, "grad_norm": 3.1895182132720947, "learning_rate": 6.190967741935485e-07, "loss": 0.0429, "step": 112850 }, { "epoch": 30.1, "grad_norm": 3.1046016216278076, "learning_rate": 6.169462365591399e-07, "loss": 0.0347, "step": 112875 }, { "epoch": 30.106666666666666, "grad_norm": 3.8521735668182373, "learning_rate": 6.147956989247313e-07, "loss": 0.0432, "step": 112900 }, { "epoch": 30.113333333333333, "grad_norm": 3.698302745819092, "learning_rate": 6.126451612903227e-07, "loss": 0.0366, "step": 112925 }, { "epoch": 30.12, "grad_norm": 3.0922482013702393, "learning_rate": 6.10494623655914e-07, "loss": 0.0412, "step": 112950 }, { "epoch": 30.126666666666665, "grad_norm": 4.177642822265625, "learning_rate": 6.083440860215054e-07, "loss": 0.039, "step": 112975 }, { "epoch": 30.133333333333333, "grad_norm": 2.9286911487579346, "learning_rate": 6.061935483870968e-07, "loss": 0.0424, "step": 113000 }, { "epoch": 30.14, "grad_norm": 3.019470453262329, "learning_rate": 6.040430107526882e-07, "loss": 0.0378, "step": 113025 }, { "epoch": 30.14666666666667, "grad_norm": 4.173104763031006, "learning_rate": 6.018924731182796e-07, "loss": 0.0409, "step": 113050 }, { "epoch": 30.153333333333332, "grad_norm": 3.176513910293579, "learning_rate": 5.99741935483871e-07, "loss": 0.0459, "step": 113075 }, { "epoch": 30.16, "grad_norm": 2.7886178493499756, "learning_rate": 5.975913978494624e-07, "loss": 0.0388, "step": 113100 }, { "epoch": 30.166666666666668, "grad_norm": 2.7773027420043945, "learning_rate": 5.954408602150539e-07, "loss": 0.0437, "step": 113125 }, { "epoch": 30.173333333333332, "grad_norm": 2.273198127746582, "learning_rate": 5.932903225806453e-07, "loss": 0.0381, "step": 113150 }, { "epoch": 30.18, "grad_norm": 2.7243716716766357, "learning_rate": 5.911397849462366e-07, "loss": 0.0348, "step": 113175 }, { "epoch": 30.186666666666667, "grad_norm": 2.7991862297058105, "learning_rate": 5.889892473118279e-07, "loss": 0.0318, "step": 113200 }, { "epoch": 30.19333333333333, "grad_norm": 3.714325428009033, "learning_rate": 5.868387096774194e-07, "loss": 0.0414, "step": 113225 }, { "epoch": 30.2, "grad_norm": 2.780555486679077, "learning_rate": 5.846881720430108e-07, "loss": 0.0385, "step": 113250 }, { "epoch": 30.206666666666667, "grad_norm": 3.396613359451294, "learning_rate": 5.825376344086022e-07, "loss": 0.0388, "step": 113275 }, { "epoch": 30.213333333333335, "grad_norm": 4.127863883972168, "learning_rate": 5.803870967741936e-07, "loss": 0.0454, "step": 113300 }, { "epoch": 30.22, "grad_norm": 3.1386685371398926, "learning_rate": 5.78236559139785e-07, "loss": 0.0437, "step": 113325 }, { "epoch": 30.226666666666667, "grad_norm": 3.6561779975891113, "learning_rate": 5.760860215053764e-07, "loss": 0.0389, "step": 113350 }, { "epoch": 30.233333333333334, "grad_norm": 2.7203876972198486, "learning_rate": 5.739354838709678e-07, "loss": 0.0354, "step": 113375 }, { "epoch": 30.24, "grad_norm": 3.1143734455108643, "learning_rate": 5.717849462365591e-07, "loss": 0.04, "step": 113400 }, { "epoch": 30.246666666666666, "grad_norm": 3.358501672744751, "learning_rate": 5.696344086021506e-07, "loss": 0.0427, "step": 113425 }, { "epoch": 30.253333333333334, "grad_norm": 3.826504707336426, "learning_rate": 5.674838709677419e-07, "loss": 0.0384, "step": 113450 }, { "epoch": 30.26, "grad_norm": 2.9964725971221924, "learning_rate": 5.653333333333333e-07, "loss": 0.0401, "step": 113475 }, { "epoch": 30.266666666666666, "grad_norm": 4.394003868103027, "learning_rate": 5.631827956989248e-07, "loss": 0.0469, "step": 113500 }, { "epoch": 30.273333333333333, "grad_norm": 2.913891077041626, "learning_rate": 5.610322580645162e-07, "loss": 0.0441, "step": 113525 }, { "epoch": 30.28, "grad_norm": 3.4406535625457764, "learning_rate": 5.588817204301076e-07, "loss": 0.0382, "step": 113550 }, { "epoch": 30.286666666666665, "grad_norm": 3.1056149005889893, "learning_rate": 5.56731182795699e-07, "loss": 0.0381, "step": 113575 }, { "epoch": 30.293333333333333, "grad_norm": 3.827605724334717, "learning_rate": 5.545806451612904e-07, "loss": 0.0351, "step": 113600 }, { "epoch": 30.3, "grad_norm": 3.45143985748291, "learning_rate": 5.524301075268818e-07, "loss": 0.0384, "step": 113625 }, { "epoch": 30.306666666666665, "grad_norm": 2.6551566123962402, "learning_rate": 5.502795698924731e-07, "loss": 0.0401, "step": 113650 }, { "epoch": 30.313333333333333, "grad_norm": 3.4521560668945312, "learning_rate": 5.481290322580645e-07, "loss": 0.0407, "step": 113675 }, { "epoch": 30.32, "grad_norm": 2.594264268875122, "learning_rate": 5.45978494623656e-07, "loss": 0.0329, "step": 113700 }, { "epoch": 30.326666666666668, "grad_norm": 5.312655925750732, "learning_rate": 5.438279569892473e-07, "loss": 0.0482, "step": 113725 }, { "epoch": 30.333333333333332, "grad_norm": 4.220706939697266, "learning_rate": 5.416774193548387e-07, "loss": 0.0391, "step": 113750 }, { "epoch": 30.34, "grad_norm": 2.666966438293457, "learning_rate": 5.395268817204302e-07, "loss": 0.0387, "step": 113775 }, { "epoch": 30.346666666666668, "grad_norm": 3.804438591003418, "learning_rate": 5.373763440860216e-07, "loss": 0.0421, "step": 113800 }, { "epoch": 30.35333333333333, "grad_norm": 2.1824498176574707, "learning_rate": 5.35225806451613e-07, "loss": 0.0398, "step": 113825 }, { "epoch": 30.36, "grad_norm": 3.1576058864593506, "learning_rate": 5.330752688172044e-07, "loss": 0.0405, "step": 113850 }, { "epoch": 30.366666666666667, "grad_norm": 3.037536144256592, "learning_rate": 5.309247311827957e-07, "loss": 0.0309, "step": 113875 }, { "epoch": 30.373333333333335, "grad_norm": 2.8053066730499268, "learning_rate": 5.287741935483871e-07, "loss": 0.0432, "step": 113900 }, { "epoch": 30.38, "grad_norm": 3.715134382247925, "learning_rate": 5.266236559139785e-07, "loss": 0.0403, "step": 113925 }, { "epoch": 30.386666666666667, "grad_norm": 4.823050498962402, "learning_rate": 5.244731182795699e-07, "loss": 0.0362, "step": 113950 }, { "epoch": 30.393333333333334, "grad_norm": 3.3693337440490723, "learning_rate": 5.223225806451614e-07, "loss": 0.0419, "step": 113975 }, { "epoch": 30.4, "grad_norm": 4.199400424957275, "learning_rate": 5.201720430107527e-07, "loss": 0.0377, "step": 114000 }, { "epoch": 30.406666666666666, "grad_norm": 3.3954222202301025, "learning_rate": 5.180215053763441e-07, "loss": 0.0401, "step": 114025 }, { "epoch": 30.413333333333334, "grad_norm": 4.3324971199035645, "learning_rate": 5.158709677419356e-07, "loss": 0.0405, "step": 114050 }, { "epoch": 30.42, "grad_norm": 3.8613927364349365, "learning_rate": 5.13720430107527e-07, "loss": 0.0454, "step": 114075 }, { "epoch": 30.426666666666666, "grad_norm": 3.2485580444335938, "learning_rate": 5.115698924731184e-07, "loss": 0.0417, "step": 114100 }, { "epoch": 30.433333333333334, "grad_norm": 4.555783271789551, "learning_rate": 5.094193548387097e-07, "loss": 0.0426, "step": 114125 }, { "epoch": 30.44, "grad_norm": 3.543740749359131, "learning_rate": 5.072688172043011e-07, "loss": 0.0401, "step": 114150 }, { "epoch": 30.446666666666665, "grad_norm": 4.211421489715576, "learning_rate": 5.051182795698925e-07, "loss": 0.0445, "step": 114175 }, { "epoch": 30.453333333333333, "grad_norm": 2.396629571914673, "learning_rate": 5.029677419354839e-07, "loss": 0.0413, "step": 114200 }, { "epoch": 30.46, "grad_norm": 2.3913891315460205, "learning_rate": 5.008172043010753e-07, "loss": 0.0388, "step": 114225 }, { "epoch": 30.466666666666665, "grad_norm": 4.440606594085693, "learning_rate": 4.986666666666667e-07, "loss": 0.0417, "step": 114250 }, { "epoch": 30.473333333333333, "grad_norm": 4.013736724853516, "learning_rate": 4.965161290322581e-07, "loss": 0.0411, "step": 114275 }, { "epoch": 30.48, "grad_norm": 2.808899164199829, "learning_rate": 4.943655913978495e-07, "loss": 0.0347, "step": 114300 }, { "epoch": 30.486666666666668, "grad_norm": 3.4539806842803955, "learning_rate": 4.92215053763441e-07, "loss": 0.0383, "step": 114325 }, { "epoch": 30.493333333333332, "grad_norm": 3.648244857788086, "learning_rate": 4.900645161290323e-07, "loss": 0.0474, "step": 114350 }, { "epoch": 30.5, "grad_norm": 3.267824411392212, "learning_rate": 4.879139784946237e-07, "loss": 0.0491, "step": 114375 }, { "epoch": 30.506666666666668, "grad_norm": 2.573606252670288, "learning_rate": 4.85763440860215e-07, "loss": 0.035, "step": 114400 }, { "epoch": 30.513333333333332, "grad_norm": 3.570457935333252, "learning_rate": 4.836129032258065e-07, "loss": 0.0457, "step": 114425 }, { "epoch": 30.52, "grad_norm": 4.459088325500488, "learning_rate": 4.814623655913979e-07, "loss": 0.0451, "step": 114450 }, { "epoch": 30.526666666666667, "grad_norm": 2.5348589420318604, "learning_rate": 4.793118279569893e-07, "loss": 0.0388, "step": 114475 }, { "epoch": 30.533333333333335, "grad_norm": 3.4213643074035645, "learning_rate": 4.771612903225807e-07, "loss": 0.0428, "step": 114500 }, { "epoch": 30.54, "grad_norm": 4.176229953765869, "learning_rate": 4.7501075268817207e-07, "loss": 0.0408, "step": 114525 }, { "epoch": 30.546666666666667, "grad_norm": 4.358865261077881, "learning_rate": 4.7286021505376346e-07, "loss": 0.0371, "step": 114550 }, { "epoch": 30.553333333333335, "grad_norm": 2.522557020187378, "learning_rate": 4.707096774193549e-07, "loss": 0.0343, "step": 114575 }, { "epoch": 30.56, "grad_norm": 2.387260913848877, "learning_rate": 4.6864516129032263e-07, "loss": 0.0425, "step": 114600 }, { "epoch": 30.566666666666666, "grad_norm": 3.6517341136932373, "learning_rate": 4.66494623655914e-07, "loss": 0.0437, "step": 114625 }, { "epoch": 30.573333333333334, "grad_norm": 3.523956537246704, "learning_rate": 4.6434408602150536e-07, "loss": 0.0404, "step": 114650 }, { "epoch": 30.58, "grad_norm": 4.881509780883789, "learning_rate": 4.621935483870968e-07, "loss": 0.0421, "step": 114675 }, { "epoch": 30.586666666666666, "grad_norm": 4.618154048919678, "learning_rate": 4.600430107526882e-07, "loss": 0.0473, "step": 114700 }, { "epoch": 30.593333333333334, "grad_norm": 3.9547970294952393, "learning_rate": 4.5789247311827963e-07, "loss": 0.0439, "step": 114725 }, { "epoch": 30.6, "grad_norm": 1.927817702293396, "learning_rate": 4.55741935483871e-07, "loss": 0.0412, "step": 114750 }, { "epoch": 30.606666666666666, "grad_norm": 3.784392833709717, "learning_rate": 4.535913978494624e-07, "loss": 0.0383, "step": 114775 }, { "epoch": 30.613333333333333, "grad_norm": 3.919067144393921, "learning_rate": 4.514408602150538e-07, "loss": 0.0417, "step": 114800 }, { "epoch": 30.62, "grad_norm": 2.1601083278656006, "learning_rate": 4.492903225806452e-07, "loss": 0.0394, "step": 114825 }, { "epoch": 30.626666666666665, "grad_norm": 3.5376064777374268, "learning_rate": 4.471397849462366e-07, "loss": 0.0438, "step": 114850 }, { "epoch": 30.633333333333333, "grad_norm": 3.4131648540496826, "learning_rate": 4.44989247311828e-07, "loss": 0.038, "step": 114875 }, { "epoch": 30.64, "grad_norm": 3.8989243507385254, "learning_rate": 4.428387096774194e-07, "loss": 0.0395, "step": 114900 }, { "epoch": 30.64666666666667, "grad_norm": 3.9377050399780273, "learning_rate": 4.4068817204301074e-07, "loss": 0.0517, "step": 114925 }, { "epoch": 30.653333333333332, "grad_norm": 3.356630325317383, "learning_rate": 4.385376344086022e-07, "loss": 0.0446, "step": 114950 }, { "epoch": 30.66, "grad_norm": 3.5976474285125732, "learning_rate": 4.3638709677419357e-07, "loss": 0.049, "step": 114975 }, { "epoch": 30.666666666666668, "grad_norm": 3.640324831008911, "learning_rate": 4.34236559139785e-07, "loss": 0.0388, "step": 115000 }, { "epoch": 30.673333333333332, "grad_norm": 3.4866254329681396, "learning_rate": 4.320860215053764e-07, "loss": 0.0435, "step": 115025 }, { "epoch": 30.68, "grad_norm": 4.0739970207214355, "learning_rate": 4.2993548387096774e-07, "loss": 0.0392, "step": 115050 }, { "epoch": 30.686666666666667, "grad_norm": 2.2896335124969482, "learning_rate": 4.2778494623655913e-07, "loss": 0.04, "step": 115075 }, { "epoch": 30.693333333333335, "grad_norm": 2.354337453842163, "learning_rate": 4.2563440860215057e-07, "loss": 0.044, "step": 115100 }, { "epoch": 30.7, "grad_norm": 4.4335551261901855, "learning_rate": 4.2348387096774196e-07, "loss": 0.042, "step": 115125 }, { "epoch": 30.706666666666667, "grad_norm": 2.6064364910125732, "learning_rate": 4.213333333333334e-07, "loss": 0.0364, "step": 115150 }, { "epoch": 30.713333333333335, "grad_norm": 4.299771785736084, "learning_rate": 4.191827956989248e-07, "loss": 0.0384, "step": 115175 }, { "epoch": 30.72, "grad_norm": 2.660329818725586, "learning_rate": 4.170322580645161e-07, "loss": 0.0373, "step": 115200 }, { "epoch": 30.726666666666667, "grad_norm": 3.4800453186035156, "learning_rate": 4.1488172043010757e-07, "loss": 0.0373, "step": 115225 }, { "epoch": 30.733333333333334, "grad_norm": 3.0144448280334473, "learning_rate": 4.1273118279569896e-07, "loss": 0.0418, "step": 115250 }, { "epoch": 30.74, "grad_norm": 3.952505350112915, "learning_rate": 4.1058064516129034e-07, "loss": 0.0398, "step": 115275 }, { "epoch": 30.746666666666666, "grad_norm": 2.6498565673828125, "learning_rate": 4.084301075268818e-07, "loss": 0.0361, "step": 115300 }, { "epoch": 30.753333333333334, "grad_norm": 3.1379148960113525, "learning_rate": 4.062795698924731e-07, "loss": 0.0416, "step": 115325 }, { "epoch": 30.76, "grad_norm": 3.096102714538574, "learning_rate": 4.041290322580645e-07, "loss": 0.0364, "step": 115350 }, { "epoch": 30.766666666666666, "grad_norm": 2.931356191635132, "learning_rate": 4.0197849462365595e-07, "loss": 0.0403, "step": 115375 }, { "epoch": 30.773333333333333, "grad_norm": 3.212563991546631, "learning_rate": 3.9982795698924734e-07, "loss": 0.0339, "step": 115400 }, { "epoch": 30.78, "grad_norm": 3.374244213104248, "learning_rate": 3.976774193548388e-07, "loss": 0.0392, "step": 115425 }, { "epoch": 30.786666666666665, "grad_norm": 4.952101707458496, "learning_rate": 3.955268817204301e-07, "loss": 0.0455, "step": 115450 }, { "epoch": 30.793333333333333, "grad_norm": 4.024179458618164, "learning_rate": 3.933763440860215e-07, "loss": 0.0422, "step": 115475 }, { "epoch": 30.8, "grad_norm": 3.5910871028900146, "learning_rate": 3.9122580645161295e-07, "loss": 0.0363, "step": 115500 }, { "epoch": 30.806666666666665, "grad_norm": 2.6594316959381104, "learning_rate": 3.8907526881720434e-07, "loss": 0.0449, "step": 115525 }, { "epoch": 30.813333333333333, "grad_norm": 5.455238342285156, "learning_rate": 3.8692473118279573e-07, "loss": 0.045, "step": 115550 }, { "epoch": 30.82, "grad_norm": 2.519638776779175, "learning_rate": 3.8477419354838717e-07, "loss": 0.0436, "step": 115575 }, { "epoch": 30.826666666666668, "grad_norm": 3.2086687088012695, "learning_rate": 3.826236559139785e-07, "loss": 0.0394, "step": 115600 }, { "epoch": 30.833333333333332, "grad_norm": 2.6603877544403076, "learning_rate": 3.804731182795699e-07, "loss": 0.0404, "step": 115625 }, { "epoch": 30.84, "grad_norm": 3.5970804691314697, "learning_rate": 3.7832258064516134e-07, "loss": 0.0437, "step": 115650 }, { "epoch": 30.846666666666668, "grad_norm": 3.3759119510650635, "learning_rate": 3.761720430107527e-07, "loss": 0.0359, "step": 115675 }, { "epoch": 30.85333333333333, "grad_norm": 3.773350715637207, "learning_rate": 3.7402150537634417e-07, "loss": 0.0303, "step": 115700 }, { "epoch": 30.86, "grad_norm": 4.653679370880127, "learning_rate": 3.718709677419355e-07, "loss": 0.0487, "step": 115725 }, { "epoch": 30.866666666666667, "grad_norm": 3.2252538204193115, "learning_rate": 3.697204301075269e-07, "loss": 0.0413, "step": 115750 }, { "epoch": 30.873333333333335, "grad_norm": 2.851963520050049, "learning_rate": 3.675698924731183e-07, "loss": 0.0426, "step": 115775 }, { "epoch": 30.88, "grad_norm": 1.9875260591506958, "learning_rate": 3.654193548387097e-07, "loss": 0.03, "step": 115800 }, { "epoch": 30.886666666666667, "grad_norm": 3.145498514175415, "learning_rate": 3.632688172043011e-07, "loss": 0.0416, "step": 115825 }, { "epoch": 30.893333333333334, "grad_norm": 5.2254862785339355, "learning_rate": 3.6111827956989245e-07, "loss": 0.044, "step": 115850 }, { "epoch": 30.9, "grad_norm": 3.3955259323120117, "learning_rate": 3.589677419354839e-07, "loss": 0.0376, "step": 115875 }, { "epoch": 30.906666666666666, "grad_norm": 3.0376510620117188, "learning_rate": 3.568172043010753e-07, "loss": 0.0463, "step": 115900 }, { "epoch": 30.913333333333334, "grad_norm": 3.935023307800293, "learning_rate": 3.546666666666667e-07, "loss": 0.0529, "step": 115925 }, { "epoch": 30.92, "grad_norm": 3.2841382026672363, "learning_rate": 3.525161290322581e-07, "loss": 0.0387, "step": 115950 }, { "epoch": 30.926666666666666, "grad_norm": 4.131531715393066, "learning_rate": 3.503655913978495e-07, "loss": 0.0407, "step": 115975 }, { "epoch": 30.933333333333334, "grad_norm": 2.7437007427215576, "learning_rate": 3.482150537634409e-07, "loss": 0.0392, "step": 116000 }, { "epoch": 30.94, "grad_norm": 3.9142580032348633, "learning_rate": 3.460645161290323e-07, "loss": 0.0444, "step": 116025 }, { "epoch": 30.946666666666665, "grad_norm": 3.519747257232666, "learning_rate": 3.4391397849462366e-07, "loss": 0.0328, "step": 116050 }, { "epoch": 30.953333333333333, "grad_norm": 4.08474063873291, "learning_rate": 3.417634408602151e-07, "loss": 0.0451, "step": 116075 }, { "epoch": 30.96, "grad_norm": 3.5533080101013184, "learning_rate": 3.396129032258065e-07, "loss": 0.0398, "step": 116100 }, { "epoch": 30.966666666666665, "grad_norm": 4.107267379760742, "learning_rate": 3.3746236559139783e-07, "loss": 0.0393, "step": 116125 }, { "epoch": 30.973333333333333, "grad_norm": 1.955086350440979, "learning_rate": 3.3531182795698927e-07, "loss": 0.0363, "step": 116150 }, { "epoch": 30.98, "grad_norm": 4.862903594970703, "learning_rate": 3.3316129032258066e-07, "loss": 0.0368, "step": 116175 }, { "epoch": 30.986666666666668, "grad_norm": 2.6390717029571533, "learning_rate": 3.310107526881721e-07, "loss": 0.0405, "step": 116200 }, { "epoch": 30.993333333333332, "grad_norm": 2.463000774383545, "learning_rate": 3.288602150537635e-07, "loss": 0.0463, "step": 116225 }, { "epoch": 31.0, "grad_norm": 3.7587146759033203, "learning_rate": 3.2670967741935483e-07, "loss": 0.0386, "step": 116250 }, { "epoch": 31.0, "eval_cer": 28.190745951586756, "eval_loss": 0.5040796995162964, "eval_runtime": 2558.705, "eval_samples_per_second": 1.954, "eval_steps_per_second": 0.244, "step": 116250 }, { "epoch": 31.006666666666668, "grad_norm": 3.241351366043091, "learning_rate": 3.245591397849462e-07, "loss": 0.0369, "step": 116275 }, { "epoch": 31.013333333333332, "grad_norm": 2.205289363861084, "learning_rate": 3.2240860215053766e-07, "loss": 0.0293, "step": 116300 }, { "epoch": 31.02, "grad_norm": 2.631011724472046, "learning_rate": 3.2025806451612905e-07, "loss": 0.0378, "step": 116325 }, { "epoch": 31.026666666666667, "grad_norm": 3.6582038402557373, "learning_rate": 3.181075268817205e-07, "loss": 0.035, "step": 116350 }, { "epoch": 31.033333333333335, "grad_norm": 2.572805643081665, "learning_rate": 3.159569892473119e-07, "loss": 0.028, "step": 116375 }, { "epoch": 31.04, "grad_norm": 2.3655521869659424, "learning_rate": 3.138064516129032e-07, "loss": 0.0394, "step": 116400 }, { "epoch": 31.046666666666667, "grad_norm": 4.058808326721191, "learning_rate": 3.1165591397849465e-07, "loss": 0.0398, "step": 116425 }, { "epoch": 31.053333333333335, "grad_norm": 2.134920358657837, "learning_rate": 3.0950537634408604e-07, "loss": 0.0296, "step": 116450 }, { "epoch": 31.06, "grad_norm": 4.170053005218506, "learning_rate": 3.0735483870967743e-07, "loss": 0.0293, "step": 116475 }, { "epoch": 31.066666666666666, "grad_norm": 2.281658411026001, "learning_rate": 3.052043010752688e-07, "loss": 0.031, "step": 116500 }, { "epoch": 31.073333333333334, "grad_norm": 2.8948287963867188, "learning_rate": 3.0305376344086026e-07, "loss": 0.0321, "step": 116525 }, { "epoch": 31.08, "grad_norm": 3.1721224784851074, "learning_rate": 3.009032258064516e-07, "loss": 0.0316, "step": 116550 }, { "epoch": 31.086666666666666, "grad_norm": 3.023557662963867, "learning_rate": 2.9875268817204304e-07, "loss": 0.0303, "step": 116575 }, { "epoch": 31.093333333333334, "grad_norm": 2.821084976196289, "learning_rate": 2.9660215053763443e-07, "loss": 0.0305, "step": 116600 }, { "epoch": 31.1, "grad_norm": 2.570922374725342, "learning_rate": 2.944516129032258e-07, "loss": 0.0278, "step": 116625 }, { "epoch": 31.106666666666666, "grad_norm": 3.151599168777466, "learning_rate": 2.923010752688172e-07, "loss": 0.0306, "step": 116650 }, { "epoch": 31.113333333333333, "grad_norm": 2.127960681915283, "learning_rate": 2.9015053763440865e-07, "loss": 0.042, "step": 116675 }, { "epoch": 31.12, "grad_norm": 1.736589789390564, "learning_rate": 2.8800000000000004e-07, "loss": 0.0389, "step": 116700 }, { "epoch": 31.126666666666665, "grad_norm": 3.5153861045837402, "learning_rate": 2.8584946236559143e-07, "loss": 0.0377, "step": 116725 }, { "epoch": 31.133333333333333, "grad_norm": 2.067345142364502, "learning_rate": 2.836989247311828e-07, "loss": 0.0297, "step": 116750 }, { "epoch": 31.14, "grad_norm": 2.513216495513916, "learning_rate": 2.815483870967742e-07, "loss": 0.0336, "step": 116775 }, { "epoch": 31.14666666666667, "grad_norm": 2.935610055923462, "learning_rate": 2.7939784946236565e-07, "loss": 0.0373, "step": 116800 }, { "epoch": 31.153333333333332, "grad_norm": 3.467135429382324, "learning_rate": 2.77247311827957e-07, "loss": 0.0341, "step": 116825 }, { "epoch": 31.16, "grad_norm": 4.064335346221924, "learning_rate": 2.750967741935484e-07, "loss": 0.0334, "step": 116850 }, { "epoch": 31.166666666666668, "grad_norm": 2.545023202896118, "learning_rate": 2.729462365591398e-07, "loss": 0.0352, "step": 116875 }, { "epoch": 31.173333333333332, "grad_norm": 3.055492877960205, "learning_rate": 2.707956989247312e-07, "loss": 0.0325, "step": 116900 }, { "epoch": 31.18, "grad_norm": 3.854440212249756, "learning_rate": 2.686451612903226e-07, "loss": 0.0322, "step": 116925 }, { "epoch": 31.186666666666667, "grad_norm": 4.004845142364502, "learning_rate": 2.66494623655914e-07, "loss": 0.0365, "step": 116950 }, { "epoch": 31.19333333333333, "grad_norm": 2.714263439178467, "learning_rate": 2.643440860215054e-07, "loss": 0.027, "step": 116975 }, { "epoch": 31.2, "grad_norm": 2.189107656478882, "learning_rate": 2.621935483870968e-07, "loss": 0.0341, "step": 117000 }, { "epoch": 31.206666666666667, "grad_norm": 3.3121845722198486, "learning_rate": 2.600430107526882e-07, "loss": 0.0334, "step": 117025 }, { "epoch": 31.213333333333335, "grad_norm": 2.8257906436920166, "learning_rate": 2.578924731182796e-07, "loss": 0.0349, "step": 117050 }, { "epoch": 31.22, "grad_norm": 4.489881992340088, "learning_rate": 2.55741935483871e-07, "loss": 0.0331, "step": 117075 }, { "epoch": 31.226666666666667, "grad_norm": 4.840350151062012, "learning_rate": 2.5359139784946237e-07, "loss": 0.0362, "step": 117100 }, { "epoch": 31.233333333333334, "grad_norm": 3.552539110183716, "learning_rate": 2.514408602150538e-07, "loss": 0.0318, "step": 117125 }, { "epoch": 31.24, "grad_norm": 4.503398418426514, "learning_rate": 2.4929032258064514e-07, "loss": 0.034, "step": 117150 }, { "epoch": 31.246666666666666, "grad_norm": 2.6253304481506348, "learning_rate": 2.471397849462366e-07, "loss": 0.0335, "step": 117175 }, { "epoch": 31.253333333333334, "grad_norm": 2.7240891456604004, "learning_rate": 2.4498924731182797e-07, "loss": 0.0355, "step": 117200 }, { "epoch": 31.26, "grad_norm": 3.7320480346679688, "learning_rate": 2.4283870967741936e-07, "loss": 0.0305, "step": 117225 }, { "epoch": 31.266666666666666, "grad_norm": 2.1456680297851562, "learning_rate": 2.4068817204301075e-07, "loss": 0.0291, "step": 117250 }, { "epoch": 31.273333333333333, "grad_norm": 2.578836679458618, "learning_rate": 2.385376344086022e-07, "loss": 0.0286, "step": 117275 }, { "epoch": 31.28, "grad_norm": 3.7151143550872803, "learning_rate": 2.3638709677419356e-07, "loss": 0.0332, "step": 117300 }, { "epoch": 31.286666666666665, "grad_norm": 2.446072578430176, "learning_rate": 2.3423655913978497e-07, "loss": 0.0289, "step": 117325 }, { "epoch": 31.293333333333333, "grad_norm": 2.656026601791382, "learning_rate": 2.3208602150537636e-07, "loss": 0.032, "step": 117350 }, { "epoch": 31.3, "grad_norm": 4.193289756774902, "learning_rate": 2.2993548387096775e-07, "loss": 0.0351, "step": 117375 }, { "epoch": 31.306666666666665, "grad_norm": 4.371954441070557, "learning_rate": 2.2778494623655916e-07, "loss": 0.0331, "step": 117400 }, { "epoch": 31.313333333333333, "grad_norm": 2.859213352203369, "learning_rate": 2.2563440860215055e-07, "loss": 0.0323, "step": 117425 }, { "epoch": 31.32, "grad_norm": 1.6364812850952148, "learning_rate": 2.2348387096774197e-07, "loss": 0.0263, "step": 117450 }, { "epoch": 31.326666666666668, "grad_norm": 2.752425193786621, "learning_rate": 2.2133333333333336e-07, "loss": 0.0298, "step": 117475 }, { "epoch": 31.333333333333332, "grad_norm": 2.3478517532348633, "learning_rate": 2.1918279569892475e-07, "loss": 0.0313, "step": 117500 }, { "epoch": 31.34, "grad_norm": 2.612766742706299, "learning_rate": 2.1703225806451616e-07, "loss": 0.0353, "step": 117525 }, { "epoch": 31.346666666666668, "grad_norm": 3.4542429447174072, "learning_rate": 2.1488172043010752e-07, "loss": 0.0301, "step": 117550 }, { "epoch": 31.35333333333333, "grad_norm": 2.726306915283203, "learning_rate": 2.1273118279569894e-07, "loss": 0.0313, "step": 117575 }, { "epoch": 31.36, "grad_norm": 2.202772617340088, "learning_rate": 2.1058064516129035e-07, "loss": 0.0314, "step": 117600 }, { "epoch": 31.366666666666667, "grad_norm": 2.3921968936920166, "learning_rate": 2.0843010752688172e-07, "loss": 0.0351, "step": 117625 }, { "epoch": 31.373333333333335, "grad_norm": 3.0457751750946045, "learning_rate": 2.0627956989247313e-07, "loss": 0.0274, "step": 117650 }, { "epoch": 31.38, "grad_norm": 3.9198050498962402, "learning_rate": 2.0412903225806455e-07, "loss": 0.0339, "step": 117675 }, { "epoch": 31.386666666666667, "grad_norm": 2.9793107509613037, "learning_rate": 2.0197849462365594e-07, "loss": 0.0308, "step": 117700 }, { "epoch": 31.393333333333334, "grad_norm": 1.1954227685928345, "learning_rate": 1.9982795698924732e-07, "loss": 0.0406, "step": 117725 }, { "epoch": 31.4, "grad_norm": 2.6224045753479004, "learning_rate": 1.976774193548387e-07, "loss": 0.0394, "step": 117750 }, { "epoch": 31.406666666666666, "grad_norm": 2.5226407051086426, "learning_rate": 1.9552688172043013e-07, "loss": 0.0335, "step": 117775 }, { "epoch": 31.413333333333334, "grad_norm": 3.0732321739196777, "learning_rate": 1.9337634408602154e-07, "loss": 0.0297, "step": 117800 }, { "epoch": 31.42, "grad_norm": 2.1498470306396484, "learning_rate": 1.912258064516129e-07, "loss": 0.0313, "step": 117825 }, { "epoch": 31.426666666666666, "grad_norm": 2.6679115295410156, "learning_rate": 1.8907526881720432e-07, "loss": 0.0251, "step": 117850 }, { "epoch": 31.433333333333334, "grad_norm": 2.7460672855377197, "learning_rate": 1.8692473118279574e-07, "loss": 0.0308, "step": 117875 }, { "epoch": 31.44, "grad_norm": 4.88100004196167, "learning_rate": 1.847741935483871e-07, "loss": 0.0363, "step": 117900 }, { "epoch": 31.446666666666665, "grad_norm": 2.748673677444458, "learning_rate": 1.8262365591397851e-07, "loss": 0.0312, "step": 117925 }, { "epoch": 31.453333333333333, "grad_norm": 2.6418991088867188, "learning_rate": 1.804731182795699e-07, "loss": 0.032, "step": 117950 }, { "epoch": 31.46, "grad_norm": 1.7326053380966187, "learning_rate": 1.783225806451613e-07, "loss": 0.0334, "step": 117975 }, { "epoch": 31.466666666666665, "grad_norm": 3.2390005588531494, "learning_rate": 1.761720430107527e-07, "loss": 0.0332, "step": 118000 }, { "epoch": 31.473333333333333, "grad_norm": 1.8483226299285889, "learning_rate": 1.740215053763441e-07, "loss": 0.0379, "step": 118025 }, { "epoch": 31.48, "grad_norm": 2.8452212810516357, "learning_rate": 1.718709677419355e-07, "loss": 0.036, "step": 118050 }, { "epoch": 31.486666666666668, "grad_norm": 2.3527517318725586, "learning_rate": 1.697204301075269e-07, "loss": 0.0299, "step": 118075 }, { "epoch": 31.493333333333332, "grad_norm": 2.6684672832489014, "learning_rate": 1.675698924731183e-07, "loss": 0.0327, "step": 118100 }, { "epoch": 31.5, "grad_norm": 2.3737986087799072, "learning_rate": 1.654193548387097e-07, "loss": 0.0301, "step": 118125 }, { "epoch": 31.506666666666668, "grad_norm": 3.401261806488037, "learning_rate": 1.6326881720430107e-07, "loss": 0.0373, "step": 118150 }, { "epoch": 31.513333333333332, "grad_norm": 1.7113288640975952, "learning_rate": 1.6111827956989248e-07, "loss": 0.0347, "step": 118175 }, { "epoch": 31.52, "grad_norm": 3.11114501953125, "learning_rate": 1.589677419354839e-07, "loss": 0.0329, "step": 118200 }, { "epoch": 31.526666666666667, "grad_norm": 3.4296252727508545, "learning_rate": 1.5681720430107526e-07, "loss": 0.037, "step": 118225 }, { "epoch": 31.533333333333335, "grad_norm": 1.5060844421386719, "learning_rate": 1.5466666666666668e-07, "loss": 0.0334, "step": 118250 }, { "epoch": 31.54, "grad_norm": 1.8962258100509644, "learning_rate": 1.5251612903225806e-07, "loss": 0.0317, "step": 118275 }, { "epoch": 31.546666666666667, "grad_norm": 2.085251808166504, "learning_rate": 1.5036559139784948e-07, "loss": 0.0316, "step": 118300 }, { "epoch": 31.553333333333335, "grad_norm": 2.6275634765625, "learning_rate": 1.4821505376344087e-07, "loss": 0.033, "step": 118325 }, { "epoch": 31.56, "grad_norm": 3.2647225856781006, "learning_rate": 1.4606451612903228e-07, "loss": 0.0347, "step": 118350 }, { "epoch": 31.566666666666666, "grad_norm": 4.323397636413574, "learning_rate": 1.4391397849462367e-07, "loss": 0.0362, "step": 118375 }, { "epoch": 31.573333333333334, "grad_norm": 2.985663890838623, "learning_rate": 1.4176344086021506e-07, "loss": 0.0346, "step": 118400 }, { "epoch": 31.58, "grad_norm": 3.08500337600708, "learning_rate": 1.3961290322580648e-07, "loss": 0.0386, "step": 118425 }, { "epoch": 31.586666666666666, "grad_norm": 2.2314395904541016, "learning_rate": 1.3746236559139787e-07, "loss": 0.0354, "step": 118450 }, { "epoch": 31.593333333333334, "grad_norm": 2.636530637741089, "learning_rate": 1.3531182795698925e-07, "loss": 0.0292, "step": 118475 }, { "epoch": 31.6, "grad_norm": 2.4878733158111572, "learning_rate": 1.3316129032258064e-07, "loss": 0.0362, "step": 118500 }, { "epoch": 31.606666666666666, "grad_norm": 3.2916650772094727, "learning_rate": 1.3101075268817206e-07, "loss": 0.0332, "step": 118525 }, { "epoch": 31.613333333333333, "grad_norm": 3.0626752376556396, "learning_rate": 1.2886021505376345e-07, "loss": 0.0351, "step": 118550 }, { "epoch": 31.62, "grad_norm": 2.4403278827667236, "learning_rate": 1.2670967741935484e-07, "loss": 0.025, "step": 118575 }, { "epoch": 31.626666666666665, "grad_norm": 3.7166500091552734, "learning_rate": 1.2464516129032257e-07, "loss": 0.0366, "step": 118600 }, { "epoch": 31.633333333333333, "grad_norm": 3.492281436920166, "learning_rate": 1.2249462365591399e-07, "loss": 0.0312, "step": 118625 }, { "epoch": 31.64, "grad_norm": 4.75647497177124, "learning_rate": 1.2034408602150538e-07, "loss": 0.0325, "step": 118650 }, { "epoch": 31.64666666666667, "grad_norm": 2.729724407196045, "learning_rate": 1.1819354838709678e-07, "loss": 0.0374, "step": 118675 }, { "epoch": 31.653333333333332, "grad_norm": 4.859143257141113, "learning_rate": 1.1604301075268818e-07, "loss": 0.0335, "step": 118700 }, { "epoch": 31.66, "grad_norm": 3.520195960998535, "learning_rate": 1.1389247311827958e-07, "loss": 0.0313, "step": 118725 }, { "epoch": 31.666666666666668, "grad_norm": 3.064221143722534, "learning_rate": 1.1174193548387098e-07, "loss": 0.0384, "step": 118750 }, { "epoch": 31.673333333333332, "grad_norm": 3.256059408187866, "learning_rate": 1.0959139784946237e-07, "loss": 0.03, "step": 118775 }, { "epoch": 31.68, "grad_norm": 3.370845317840576, "learning_rate": 1.0744086021505376e-07, "loss": 0.0327, "step": 118800 }, { "epoch": 31.686666666666667, "grad_norm": 3.3520219326019287, "learning_rate": 1.0529032258064518e-07, "loss": 0.0333, "step": 118825 }, { "epoch": 31.693333333333335, "grad_norm": 3.2987074851989746, "learning_rate": 1.0313978494623657e-07, "loss": 0.0359, "step": 118850 }, { "epoch": 31.7, "grad_norm": 3.423640251159668, "learning_rate": 1.0098924731182797e-07, "loss": 0.0366, "step": 118875 }, { "epoch": 31.706666666666667, "grad_norm": 3.36380934715271, "learning_rate": 9.883870967741936e-08, "loss": 0.0299, "step": 118900 }, { "epoch": 31.713333333333335, "grad_norm": 1.6179369688034058, "learning_rate": 9.668817204301077e-08, "loss": 0.0304, "step": 118925 }, { "epoch": 31.72, "grad_norm": 2.781167507171631, "learning_rate": 9.453763440860216e-08, "loss": 0.037, "step": 118950 }, { "epoch": 31.726666666666667, "grad_norm": 2.028947353363037, "learning_rate": 9.238709677419355e-08, "loss": 0.0329, "step": 118975 }, { "epoch": 31.733333333333334, "grad_norm": 3.048070192337036, "learning_rate": 9.023655913978495e-08, "loss": 0.0326, "step": 119000 }, { "epoch": 31.74, "grad_norm": 4.2121171951293945, "learning_rate": 8.81720430107527e-08, "loss": 0.0374, "step": 119025 }, { "epoch": 31.746666666666666, "grad_norm": 2.551182746887207, "learning_rate": 8.602150537634409e-08, "loss": 0.0438, "step": 119050 }, { "epoch": 31.753333333333334, "grad_norm": 3.8078083992004395, "learning_rate": 8.387096774193549e-08, "loss": 0.0382, "step": 119075 }, { "epoch": 31.76, "grad_norm": 2.5315818786621094, "learning_rate": 8.172043010752689e-08, "loss": 0.0344, "step": 119100 }, { "epoch": 31.766666666666666, "grad_norm": 1.9264466762542725, "learning_rate": 7.95698924731183e-08, "loss": 0.0286, "step": 119125 }, { "epoch": 31.773333333333333, "grad_norm": 2.21112322807312, "learning_rate": 7.741935483870968e-08, "loss": 0.0346, "step": 119150 }, { "epoch": 31.78, "grad_norm": 3.0662217140197754, "learning_rate": 7.526881720430109e-08, "loss": 0.0338, "step": 119175 }, { "epoch": 31.786666666666665, "grad_norm": 2.1737051010131836, "learning_rate": 7.311827956989248e-08, "loss": 0.0461, "step": 119200 }, { "epoch": 31.793333333333333, "grad_norm": 3.3705811500549316, "learning_rate": 7.096774193548388e-08, "loss": 0.0318, "step": 119225 }, { "epoch": 31.8, "grad_norm": 3.246941566467285, "learning_rate": 6.881720430107528e-08, "loss": 0.0362, "step": 119250 }, { "epoch": 31.806666666666665, "grad_norm": 2.7007293701171875, "learning_rate": 6.666666666666668e-08, "loss": 0.0355, "step": 119275 }, { "epoch": 31.813333333333333, "grad_norm": 3.2511143684387207, "learning_rate": 6.451612903225807e-08, "loss": 0.0291, "step": 119300 }, { "epoch": 31.82, "grad_norm": 4.12780237197876, "learning_rate": 6.236559139784947e-08, "loss": 0.0333, "step": 119325 }, { "epoch": 31.826666666666668, "grad_norm": 1.9406906366348267, "learning_rate": 6.021505376344086e-08, "loss": 0.0298, "step": 119350 }, { "epoch": 31.833333333333332, "grad_norm": 2.3662045001983643, "learning_rate": 5.806451612903227e-08, "loss": 0.0334, "step": 119375 }, { "epoch": 31.84, "grad_norm": 2.7457809448242188, "learning_rate": 5.591397849462366e-08, "loss": 0.0355, "step": 119400 }, { "epoch": 31.846666666666668, "grad_norm": 2.3714680671691895, "learning_rate": 5.376344086021506e-08, "loss": 0.0408, "step": 119425 }, { "epoch": 31.85333333333333, "grad_norm": 2.48380708694458, "learning_rate": 5.1612903225806456e-08, "loss": 0.0329, "step": 119450 }, { "epoch": 31.86, "grad_norm": 3.3102774620056152, "learning_rate": 4.946236559139786e-08, "loss": 0.0379, "step": 119475 }, { "epoch": 31.866666666666667, "grad_norm": 4.041906833648682, "learning_rate": 4.7311827956989254e-08, "loss": 0.0327, "step": 119500 }, { "epoch": 31.873333333333335, "grad_norm": 2.853118896484375, "learning_rate": 4.5161290322580656e-08, "loss": 0.0429, "step": 119525 }, { "epoch": 31.88, "grad_norm": 3.6438963413238525, "learning_rate": 4.3010752688172045e-08, "loss": 0.0302, "step": 119550 }, { "epoch": 31.886666666666667, "grad_norm": 4.464395523071289, "learning_rate": 4.0860215053763447e-08, "loss": 0.0289, "step": 119575 }, { "epoch": 31.893333333333334, "grad_norm": 4.060372829437256, "learning_rate": 3.870967741935484e-08, "loss": 0.0321, "step": 119600 }, { "epoch": 31.9, "grad_norm": 3.896421194076538, "learning_rate": 3.655913978494624e-08, "loss": 0.0414, "step": 119625 }, { "epoch": 31.906666666666666, "grad_norm": 2.347508192062378, "learning_rate": 3.440860215053764e-08, "loss": 0.0275, "step": 119650 }, { "epoch": 31.913333333333334, "grad_norm": 3.694344997406006, "learning_rate": 3.2258064516129035e-08, "loss": 0.0325, "step": 119675 }, { "epoch": 31.92, "grad_norm": 3.1127138137817383, "learning_rate": 3.010752688172043e-08, "loss": 0.0357, "step": 119700 }, { "epoch": 31.926666666666666, "grad_norm": 3.3891165256500244, "learning_rate": 2.795698924731183e-08, "loss": 0.0361, "step": 119725 }, { "epoch": 31.933333333333334, "grad_norm": 3.6370534896850586, "learning_rate": 2.5806451612903228e-08, "loss": 0.0362, "step": 119750 }, { "epoch": 31.94, "grad_norm": 2.03261661529541, "learning_rate": 2.3655913978494627e-08, "loss": 0.0345, "step": 119775 }, { "epoch": 31.946666666666665, "grad_norm": 4.220742225646973, "learning_rate": 2.1505376344086022e-08, "loss": 0.039, "step": 119800 }, { "epoch": 31.953333333333333, "grad_norm": 3.7825851440429688, "learning_rate": 1.935483870967742e-08, "loss": 0.0313, "step": 119825 }, { "epoch": 31.96, "grad_norm": 2.31704044342041, "learning_rate": 1.720430107526882e-08, "loss": 0.0323, "step": 119850 }, { "epoch": 31.966666666666665, "grad_norm": 2.4646658897399902, "learning_rate": 1.5053763440860215e-08, "loss": 0.0361, "step": 119875 }, { "epoch": 31.973333333333333, "grad_norm": 3.525845766067505, "learning_rate": 1.2989247311827957e-08, "loss": 0.0355, "step": 119900 }, { "epoch": 31.98, "grad_norm": 2.63342022895813, "learning_rate": 1.0838709677419354e-08, "loss": 0.0386, "step": 119925 }, { "epoch": 31.986666666666668, "grad_norm": 2.067103147506714, "learning_rate": 8.688172043010753e-09, "loss": 0.0309, "step": 119950 }, { "epoch": 31.993333333333332, "grad_norm": 2.9927663803100586, "learning_rate": 6.53763440860215e-09, "loss": 0.0305, "step": 119975 }, { "epoch": 32.0, "grad_norm": 3.033515453338623, "learning_rate": 4.387096774193549e-09, "loss": 0.0367, "step": 120000 }, { "epoch": 32.0, "eval_cer": 28.11620669735199, "eval_loss": 0.5061492323875427, "eval_runtime": 2405.0222, "eval_samples_per_second": 2.079, "eval_steps_per_second": 0.26, "step": 120000 }, { "epoch": 32.0, "step": 120000, "total_flos": 7.782413893632e+20, "train_loss": 0.002316534969210625, "train_runtime": 63160.1802, "train_samples_per_second": 30.399, "train_steps_per_second": 1.9 } ], "logging_steps": 25, "max_steps": 120000, "num_input_tokens_seen": 0, "num_train_epochs": 32, "save_steps": 3750, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 7.782413893632e+20, "train_batch_size": 16, "trial_name": null, "trial_params": null }