Training in progress, epoch 15

8b371c4 verified 8 months ago

21 kB

	{'loss': 1.3809, 'grad_norm': 1.1363270282745361, 'learning_rate': 4.97083187492708e-05, 'epoch': 0.09}
	{'loss': 1.3713, 'grad_norm': 1.4474607706069946, 'learning_rate': 4.9416637498541595e-05, 'epoch': 0.18}
	{'loss': 1.3594, 'grad_norm': 0.9098652005195618, 'learning_rate': 4.912495624781239e-05, 'epoch': 0.26}
	{'loss': 1.3502, 'grad_norm': 1.1167092323303223, 'learning_rate': 4.883327499708319e-05, 'epoch': 0.35}
	{'loss': 1.3453, 'grad_norm': 2.2667481899261475, 'learning_rate': 4.8541593746353985e-05, 'epoch': 0.44}
	{'loss': 1.3434, 'grad_norm': 1.9075201749801636, 'learning_rate': 4.824991249562478e-05, 'epoch': 0.53}
	{'loss': 1.3335, 'grad_norm': 2.0711045265197754, 'learning_rate': 4.795823124489558e-05, 'epoch': 0.61}
	{'loss': 1.3225, 'grad_norm': 1.7113029956817627, 'learning_rate': 4.7666549994166374e-05, 'epoch': 0.7}
	{'loss': 1.3195, 'grad_norm': 1.9234343767166138, 'learning_rate': 4.737486874343717e-05, 'epoch': 0.79}
	{'loss': 1.3105, 'grad_norm': 2.1175739765167236, 'learning_rate': 4.708318749270797e-05, 'epoch': 0.88}
	{'loss': 1.2998, 'grad_norm': 2.521505117416382, 'learning_rate': 4.6791506241978764e-05, 'epoch': 0.96}
	[0 3 2 ... 1 0 2] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.3409068584442139, 'eval_accuracy': 0.34185990915610803, 'eval_runtime': 6.4784, 'eval_samples_per_second': 645.688, 'eval_steps_per_second': 20.221, 'epoch': 1.0}
	{'loss': 1.2528, 'grad_norm': 4.092164039611816, 'learning_rate': 4.649982499124956e-05, 'epoch': 1.05}
	{'loss': 1.1967, 'grad_norm': 6.143226623535156, 'learning_rate': 4.6208143740520357e-05, 'epoch': 1.14}
	{'loss': 1.1974, 'grad_norm': 4.76519250869751, 'learning_rate': 4.591646248979116e-05, 'epoch': 1.23}
	{'loss': 1.1884, 'grad_norm': 5.0817179679870605, 'learning_rate': 4.5624781239061956e-05, 'epoch': 1.31}
	{'loss': 1.182, 'grad_norm': 4.871830463409424, 'learning_rate': 4.533309998833275e-05, 'epoch': 1.4}
	{'loss': 1.1814, 'grad_norm': 5.66860818862915, 'learning_rate': 4.504141873760355e-05, 'epoch': 1.49}
	{'loss': 1.1712, 'grad_norm': 5.154982089996338, 'learning_rate': 4.4749737486874346e-05, 'epoch': 1.58}
	{'loss': 1.1556, 'grad_norm': 6.135748863220215, 'learning_rate': 4.445805623614514e-05, 'epoch': 1.66}
	{'loss': 1.1503, 'grad_norm': 4.793179035186768, 'learning_rate': 4.416637498541594e-05, 'epoch': 1.75}
	{'loss': 1.1562, 'grad_norm': 5.454382419586182, 'learning_rate': 4.3874693734686735e-05, 'epoch': 1.84}
	{'loss': 1.1366, 'grad_norm': 4.958292484283447, 'learning_rate': 4.358301248395754e-05, 'epoch': 1.93}
	[0 0 3 ... 1 2 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.3753255605697632, 'eval_accuracy': 0.36337556777432467, 'eval_runtime': 6.416, 'eval_samples_per_second': 651.964, 'eval_steps_per_second': 20.418, 'epoch': 2.0}
	{'loss': 1.0888, 'grad_norm': 7.227815628051758, 'learning_rate': 4.3291331233228335e-05, 'epoch': 2.01}
	{'loss': 0.92, 'grad_norm': 7.727498531341553, 'learning_rate': 4.299964998249913e-05, 'epoch': 2.1}
	{'loss': 0.9166, 'grad_norm': 6.4145636558532715, 'learning_rate': 4.270796873176993e-05, 'epoch': 2.19}
	{'loss': 0.9126, 'grad_norm': 7.5823974609375, 'learning_rate': 4.2416287481040724e-05, 'epoch': 2.28}
	{'loss': 0.9083, 'grad_norm': 7.961126327514648, 'learning_rate': 4.212460623031152e-05, 'epoch': 2.36}
	{'loss': 0.928, 'grad_norm': 9.727679252624512, 'learning_rate': 4.183292497958232e-05, 'epoch': 2.45}
	{'loss': 0.9128, 'grad_norm': 6.986959934234619, 'learning_rate': 4.1541243728853114e-05, 'epoch': 2.54}
	{'loss': 0.9124, 'grad_norm': 11.424525260925293, 'learning_rate': 4.124956247812391e-05, 'epoch': 2.63}
	{'loss': 0.9054, 'grad_norm': 7.206017971038818, 'learning_rate': 4.0957881227394707e-05, 'epoch': 2.71}
	{'loss': 0.8958, 'grad_norm': 6.930673122406006, 'learning_rate': 4.06661999766655e-05, 'epoch': 2.8}
	{'loss': 0.9066, 'grad_norm': 7.441983222961426, 'learning_rate': 4.03745187259363e-05, 'epoch': 2.89}
	{'loss': 0.9035, 'grad_norm': 8.201363563537598, 'learning_rate': 4.0082837475207096e-05, 'epoch': 2.98}
	[2 2 2 ... 2 2 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.4999252557754517, 'eval_accuracy': 0.3793927803012192, 'eval_runtime': 6.454, 'eval_samples_per_second': 648.13, 'eval_steps_per_second': 20.298, 'epoch': 3.0}
	{'loss': 0.7189, 'grad_norm': 11.725881576538086, 'learning_rate': 3.979115622447789e-05, 'epoch': 3.06}
	{'loss': 0.6632, 'grad_norm': 13.215302467346191, 'learning_rate': 3.949947497374869e-05, 'epoch': 3.15}
	{'loss': 0.6687, 'grad_norm': 10.268899917602539, 'learning_rate': 3.9207793723019485e-05, 'epoch': 3.24}
	{'loss': 0.667, 'grad_norm': 8.265130043029785, 'learning_rate': 3.891611247229028e-05, 'epoch': 3.33}
	{'loss': 0.6665, 'grad_norm': 12.575718879699707, 'learning_rate': 3.862443122156108e-05, 'epoch': 3.41}
	{'loss': 0.6859, 'grad_norm': 14.319367408752441, 'learning_rate': 3.8332749970831875e-05, 'epoch': 3.5}
	{'loss': 0.6866, 'grad_norm': 11.042840957641602, 'learning_rate': 3.804106872010267e-05, 'epoch': 3.59}
	{'loss': 0.6859, 'grad_norm': 12.115802764892578, 'learning_rate': 3.774938746937347e-05, 'epoch': 3.68}
	{'loss': 0.6788, 'grad_norm': 9.712413787841797, 'learning_rate': 3.7457706218644264e-05, 'epoch': 3.76}
	{'loss': 0.6904, 'grad_norm': 9.902729034423828, 'learning_rate': 3.716602496791506e-05, 'epoch': 3.85}
	{'loss': 0.6883, 'grad_norm': 9.378089904785156, 'learning_rate': 3.6874343717185864e-05, 'epoch': 3.94}
	[2 2 2 ... 1 2 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.746778964996338, 'eval_accuracy': 0.390628735357399, 'eval_runtime': 6.927, 'eval_samples_per_second': 603.869, 'eval_steps_per_second': 18.912, 'epoch': 4.0}
	{'loss': 0.6161, 'grad_norm': 12.395198822021484, 'learning_rate': 3.658266246645666e-05, 'epoch': 4.03}
	{'loss': 0.468, 'grad_norm': 9.029620170593262, 'learning_rate': 3.629098121572746e-05, 'epoch': 4.11}
	{'loss': 0.4725, 'grad_norm': 17.127229690551758, 'learning_rate': 3.5999299964998253e-05, 'epoch': 4.2}
	{'loss': 0.4869, 'grad_norm': 11.913525581359863, 'learning_rate': 3.570761871426905e-05, 'epoch': 4.29}
	{'loss': 0.4966, 'grad_norm': 16.005084991455078, 'learning_rate': 3.5415937463539846e-05, 'epoch': 4.38}
	{'loss': 0.4975, 'grad_norm': 11.576833724975586, 'learning_rate': 3.512425621281064e-05, 'epoch': 4.46}
	{'loss': 0.5007, 'grad_norm': 15.484545707702637, 'learning_rate': 3.483257496208144e-05, 'epoch': 4.55}
	{'loss': 0.5047, 'grad_norm': 12.12447738647461, 'learning_rate': 3.4540893711352236e-05, 'epoch': 4.64}
	{'loss': 0.515, 'grad_norm': 11.281113624572754, 'learning_rate': 3.424921246062303e-05, 'epoch': 4.73}
	{'loss': 0.4967, 'grad_norm': 12.152961730957031, 'learning_rate': 3.395753120989383e-05, 'epoch': 4.81}
	{'loss': 0.5114, 'grad_norm': 14.874109268188477, 'learning_rate': 3.3665849959164625e-05, 'epoch': 4.9}
	{'loss': 0.5177, 'grad_norm': 13.78496265411377, 'learning_rate': 3.337416870843542e-05, 'epoch': 4.99}
	[1 3 2 ... 1 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 2.1010797023773193, 'eval_accuracy': 0.3997131245517571, 'eval_runtime': 6.5875, 'eval_samples_per_second': 634.995, 'eval_steps_per_second': 19.886, 'epoch': 5.0}
	{'loss': 0.3604, 'grad_norm': 11.036005020141602, 'learning_rate': 3.308248745770622e-05, 'epoch': 5.08}
	{'loss': 0.3446, 'grad_norm': 10.067902565002441, 'learning_rate': 3.2790806206977015e-05, 'epoch': 5.16}
	{'loss': 0.354, 'grad_norm': 11.869844436645508, 'learning_rate': 3.249912495624781e-05, 'epoch': 5.25}
	{'loss': 0.3668, 'grad_norm': 14.416504859924316, 'learning_rate': 3.220744370551861e-05, 'epoch': 5.34}
	{'loss': 0.3694, 'grad_norm': 17.454008102416992, 'learning_rate': 3.1915762454789404e-05, 'epoch': 5.43}
	{'loss': 0.3688, 'grad_norm': 11.404752731323242, 'learning_rate': 3.16240812040602e-05, 'epoch': 5.51}
	{'loss': 0.3708, 'grad_norm': 13.581445693969727, 'learning_rate': 3.1332399953331e-05, 'epoch': 5.6}
	{'loss': 0.3658, 'grad_norm': 14.196109771728516, 'learning_rate': 3.10407187026018e-05, 'epoch': 5.69}
	{'loss': 0.3802, 'grad_norm': 14.382953643798828, 'learning_rate': 3.07490374518726e-05, 'epoch': 5.78}
	{'loss': 0.3861, 'grad_norm': 7.7172627449035645, 'learning_rate': 3.0457356201143393e-05, 'epoch': 5.86}
	{'loss': 0.3968, 'grad_norm': 13.746389389038086, 'learning_rate': 3.016567495041419e-05, 'epoch': 5.95}
	[0 2 2 ... 1 2 1] [0 0 2 ... 0 1 0]
	{'eval_loss': 2.290968179702759, 'eval_accuracy': 0.40090843891943584, 'eval_runtime': 6.2537, 'eval_samples_per_second': 668.883, 'eval_steps_per_second': 20.948, 'epoch': 6.0}
	{'loss': 0.3242, 'grad_norm': 5.355894565582275, 'learning_rate': 2.987399369968499e-05, 'epoch': 6.04}
	{'loss': 0.2491, 'grad_norm': 11.969722747802734, 'learning_rate': 2.9582312448955786e-05, 'epoch': 6.13}
	{'loss': 0.2627, 'grad_norm': 10.806496620178223, 'learning_rate': 2.9290631198226582e-05, 'epoch': 6.21}
	{'loss': 0.2674, 'grad_norm': 11.133452415466309, 'learning_rate': 2.899894994749738e-05, 'epoch': 6.3}
	{'loss': 0.2795, 'grad_norm': 10.295939445495605, 'learning_rate': 2.8707268696768175e-05, 'epoch': 6.39}
	{'loss': 0.28, 'grad_norm': 16.589740753173828, 'learning_rate': 2.8415587446038972e-05, 'epoch': 6.48}
	{'loss': 0.28, 'grad_norm': 21.517580032348633, 'learning_rate': 2.812390619530977e-05, 'epoch': 6.56}
	{'loss': 0.2861, 'grad_norm': 14.851978302001953, 'learning_rate': 2.7832224944580565e-05, 'epoch': 6.65}
	{'loss': 0.2945, 'grad_norm': 10.245756149291992, 'learning_rate': 2.754054369385136e-05, 'epoch': 6.74}
	{'loss': 0.2869, 'grad_norm': 12.929959297180176, 'learning_rate': 2.7248862443122158e-05, 'epoch': 6.83}
	{'loss': 0.2936, 'grad_norm': 7.713830471038818, 'learning_rate': 2.6957181192392954e-05, 'epoch': 6.91}
	[0 2 2 ... 1 2 1] [0 0 2 ... 0 1 0]
	{'eval_loss': 2.7999720573425293, 'eval_accuracy': 0.4121443939756156, 'eval_runtime': 6.3661, 'eval_samples_per_second': 657.07, 'eval_steps_per_second': 20.578, 'epoch': 7.0}
	{'loss': 0.2878, 'grad_norm': 13.161710739135742, 'learning_rate': 2.666549994166375e-05, 'epoch': 7.0}
	{'loss': 0.2004, 'grad_norm': 6.0921101570129395, 'learning_rate': 2.6373818690934547e-05, 'epoch': 7.09}
	{'loss': 0.1963, 'grad_norm': 18.889543533325195, 'learning_rate': 2.6082137440205344e-05, 'epoch': 7.18}
	{'loss': 0.2049, 'grad_norm': 20.18791961669922, 'learning_rate': 2.5790456189476144e-05, 'epoch': 7.26}
	{'loss': 0.2065, 'grad_norm': 16.6495418548584, 'learning_rate': 2.549877493874694e-05, 'epoch': 7.35}
	{'loss': 0.2239, 'grad_norm': 6.013281345367432, 'learning_rate': 2.5207093688017736e-05, 'epoch': 7.44}
	{'loss': 0.2162, 'grad_norm': 13.363381385803223, 'learning_rate': 2.4915412437288533e-05, 'epoch': 7.53}
	{'loss': 0.2227, 'grad_norm': 6.715728759765625, 'learning_rate': 2.462373118655933e-05, 'epoch': 7.61}
	{'loss': 0.2252, 'grad_norm': 15.648544311523438, 'learning_rate': 2.4332049935830126e-05, 'epoch': 7.7}
	{'loss': 0.2293, 'grad_norm': 17.969135284423828, 'learning_rate': 2.4040368685100922e-05, 'epoch': 7.79}
	{'loss': 0.2305, 'grad_norm': 13.376370429992676, 'learning_rate': 2.374868743437172e-05, 'epoch': 7.88}
	{'loss': 0.2403, 'grad_norm': 8.350042343139648, 'learning_rate': 2.3457006183642515e-05, 'epoch': 7.96}
	[0 2 2 ... 1 0 1] [0 0 2 ... 0 1 0]
	{'eval_loss': 2.7002346515655518, 'eval_accuracy': 0.40855845087257947, 'eval_runtime': 6.9152, 'eval_samples_per_second': 604.896, 'eval_steps_per_second': 18.944, 'epoch': 8.0}
	{'loss': 0.194, 'grad_norm': 5.118299961090088, 'learning_rate': 2.3165324932913312e-05, 'epoch': 8.05}
	{'loss': 0.1641, 'grad_norm': 6.422851085662842, 'learning_rate': 2.2873643682184108e-05, 'epoch': 8.14}
	{'loss': 0.1696, 'grad_norm': 0.9757495522499084, 'learning_rate': 2.2581962431454905e-05, 'epoch': 8.23}
	{'loss': 0.1714, 'grad_norm': 8.895563125610352, 'learning_rate': 2.22902811807257e-05, 'epoch': 8.31}
	{'loss': 0.1747, 'grad_norm': 11.234411239624023, 'learning_rate': 2.19985999299965e-05, 'epoch': 8.4}
	{'loss': 0.1802, 'grad_norm': 17.129392623901367, 'learning_rate': 2.1706918679267298e-05, 'epoch': 8.49}
	{'loss': 0.1773, 'grad_norm': 15.17518424987793, 'learning_rate': 2.1415237428538097e-05, 'epoch': 8.58}
	{'loss': 0.1795, 'grad_norm': 20.55030632019043, 'learning_rate': 2.1123556177808894e-05, 'epoch': 8.66}
	{'loss': 0.185, 'grad_norm': 16.464384078979492, 'learning_rate': 2.083187492707969e-05, 'epoch': 8.75}
	{'loss': 0.1794, 'grad_norm': 20.86390495300293, 'learning_rate': 2.0540193676350487e-05, 'epoch': 8.84}
	{'loss': 0.1843, 'grad_norm': 14.848393440246582, 'learning_rate': 2.0248512425621283e-05, 'epoch': 8.93}
	[1 2 2 ... 0 2 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 3.4013631343841553, 'eval_accuracy': 0.4159693999521874, 'eval_runtime': 6.5155, 'eval_samples_per_second': 642.004, 'eval_steps_per_second': 20.106, 'epoch': 9.0}
	{'loss': 0.1752, 'grad_norm': 16.65215301513672, 'learning_rate': 1.995683117489208e-05, 'epoch': 9.01}
	{'loss': 0.1354, 'grad_norm': 30.883514404296875, 'learning_rate': 1.9665149924162876e-05, 'epoch': 9.1}
	{'loss': 0.1378, 'grad_norm': 24.399015426635742, 'learning_rate': 1.9373468673433673e-05, 'epoch': 9.19}
	{'loss': 0.1382, 'grad_norm': 10.105205535888672, 'learning_rate': 1.908178742270447e-05, 'epoch': 9.28}
	{'loss': 0.1364, 'grad_norm': 17.550519943237305, 'learning_rate': 1.8790106171975266e-05, 'epoch': 9.36}
	{'loss': 0.1429, 'grad_norm': 14.63619613647461, 'learning_rate': 1.8498424921246062e-05, 'epoch': 9.45}
	{'loss': 0.1484, 'grad_norm': 20.125774383544922, 'learning_rate': 1.820674367051686e-05, 'epoch': 9.54}
	{'loss': 0.1447, 'grad_norm': 9.442309379577637, 'learning_rate': 1.7915062419787655e-05, 'epoch': 9.63}
	{'loss': 0.1441, 'grad_norm': 3.3339831829071045, 'learning_rate': 1.7623381169058455e-05, 'epoch': 9.71}
	{'loss': 0.1422, 'grad_norm': 12.243080139160156, 'learning_rate': 1.733169991832925e-05, 'epoch': 9.8}
	{'loss': 0.1515, 'grad_norm': 8.44780158996582, 'learning_rate': 1.7040018667600048e-05, 'epoch': 9.89}
	{'loss': 0.1478, 'grad_norm': 7.068332672119141, 'learning_rate': 1.6748337416870844e-05, 'epoch': 9.98}
	[0 2 2 ... 1 2 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 3.569014072418213, 'eval_accuracy': 0.4056896963901506, 'eval_runtime': 6.3752, 'eval_samples_per_second': 656.14, 'eval_steps_per_second': 20.549, 'epoch': 10.0}
	{'loss': 0.1227, 'grad_norm': 12.944316864013672, 'learning_rate': 1.645665616614164e-05, 'epoch': 10.06}
	{'loss': 0.1165, 'grad_norm': 23.897483825683594, 'learning_rate': 1.6164974915412437e-05, 'epoch': 10.15}
	{'loss': 0.1105, 'grad_norm': 7.69583797454834, 'learning_rate': 1.5873293664683234e-05, 'epoch': 10.24}
	{'loss': 0.1159, 'grad_norm': 13.00390338897705, 'learning_rate': 1.5581612413954034e-05, 'epoch': 10.33}
	{'loss': 0.115, 'grad_norm': 9.015633583068848, 'learning_rate': 1.528993116322483e-05, 'epoch': 10.41}
	{'loss': 0.1207, 'grad_norm': 12.009922981262207, 'learning_rate': 1.4998249912495627e-05, 'epoch': 10.5}
	{'loss': 0.1227, 'grad_norm': 19.245769500732422, 'learning_rate': 1.4706568661766423e-05, 'epoch': 10.59}
	{'loss': 0.1204, 'grad_norm': 15.714821815490723, 'learning_rate': 1.441488741103722e-05, 'epoch': 10.68}
	{'loss': 0.1227, 'grad_norm': 5.548469543457031, 'learning_rate': 1.4123206160308016e-05, 'epoch': 10.76}
	{'loss': 0.1164, 'grad_norm': 10.179027557373047, 'learning_rate': 1.3831524909578814e-05, 'epoch': 10.85}
	{'loss': 0.1231, 'grad_norm': 1.8333979845046997, 'learning_rate': 1.353984365884961e-05, 'epoch': 10.94}
	[1 2 2 ... 1 2 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 4.385825157165527, 'eval_accuracy': 0.41023189098732965, 'eval_runtime': 6.3967, 'eval_samples_per_second': 653.926, 'eval_steps_per_second': 20.479, 'epoch': 11.0}
	{'loss': 0.1038, 'grad_norm': 17.937191009521484, 'learning_rate': 1.3248162408120407e-05, 'epoch': 11.03}
	{'loss': 0.0987, 'grad_norm': 9.12984848022461, 'learning_rate': 1.2956481157391204e-05, 'epoch': 11.11}
	{'loss': 0.1078, 'grad_norm': 6.416741847991943, 'learning_rate': 1.2664799906662e-05, 'epoch': 11.2}
	{'loss': 0.0947, 'grad_norm': 27.995830535888672, 'learning_rate': 1.2373118655932796e-05, 'epoch': 11.29}
	{'loss': 0.0984, 'grad_norm': 11.60288143157959, 'learning_rate': 1.2081437405203595e-05, 'epoch': 11.38}
	{'loss': 0.104, 'grad_norm': 5.211322784423828, 'learning_rate': 1.1789756154474391e-05, 'epoch': 11.46}
	{'loss': 0.1049, 'grad_norm': 19.860586166381836, 'learning_rate': 1.1498074903745188e-05, 'epoch': 11.55}
	{'loss': 0.1045, 'grad_norm': 17.643003463745117, 'learning_rate': 1.1206393653015984e-05, 'epoch': 11.64}
	{'loss': 0.1039, 'grad_norm': 23.73241424560547, 'learning_rate': 1.0914712402286782e-05, 'epoch': 11.73}
	{'loss': 0.0976, 'grad_norm': 1.1808760166168213, 'learning_rate': 1.0623031151557579e-05, 'epoch': 11.81}
	{'loss': 0.1075, 'grad_norm': 10.200865745544434, 'learning_rate': 1.0331349900828375e-05, 'epoch': 11.9}
	{'loss': 0.1027, 'grad_norm': 7.143473148345947, 'learning_rate': 1.0039668650099172e-05, 'epoch': 11.99}
	[0 2 2 ... 0 2 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 4.681421279907227, 'eval_accuracy': 0.41238345684915134, 'eval_runtime': 6.4322, 'eval_samples_per_second': 650.321, 'eval_steps_per_second': 20.366, 'epoch': 12.0}
	{'loss': 0.0806, 'grad_norm': 17.015737533569336, 'learning_rate': 9.74798739936997e-06, 'epoch': 12.08}
	{'loss': 0.0886, 'grad_norm': 28.621715545654297, 'learning_rate': 9.456306148640766e-06, 'epoch': 12.16}
	{'loss': 0.0864, 'grad_norm': 16.31233787536621, 'learning_rate': 9.164624897911563e-06, 'epoch': 12.25}
	{'loss': 0.0828, 'grad_norm': 4.050362586975098, 'learning_rate': 8.87294364718236e-06, 'epoch': 12.34}
	{'loss': 0.0793, 'grad_norm': 0.744445264339447, 'learning_rate': 8.581262396453156e-06, 'epoch': 12.43}
	{'loss': 0.0959, 'grad_norm': 14.591256141662598, 'learning_rate': 8.289581145723952e-06, 'epoch': 12.51}
	{'loss': 0.0883, 'grad_norm': 14.431562423706055, 'learning_rate': 7.99789989499475e-06, 'epoch': 12.6}
	{'loss': 0.0883, 'grad_norm': 13.123093605041504, 'learning_rate': 7.706218644265547e-06, 'epoch': 12.69}
	{'loss': 0.0889, 'grad_norm': 32.98908996582031, 'learning_rate': 7.414537393536344e-06, 'epoch': 12.78}
	{'loss': 0.0837, 'grad_norm': 0.6928532719612122, 'learning_rate': 7.1228561428071415e-06, 'epoch': 12.86}
	{'loss': 0.0897, 'grad_norm': 26.65106773376465, 'learning_rate': 6.831174892077938e-06, 'epoch': 12.95}
	[2 2 2 ... 0 2 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 4.996224403381348, 'eval_accuracy': 0.41859909156108055, 'eval_runtime': 6.3438, 'eval_samples_per_second': 659.384, 'eval_steps_per_second': 20.65, 'epoch': 13.0}
	{'loss': 0.0757, 'grad_norm': 3.703233242034912, 'learning_rate': 6.539493641348734e-06, 'epoch': 13.04}
	{'loss': 0.0704, 'grad_norm': 0.7255619764328003, 'learning_rate': 6.247812390619531e-06, 'epoch': 13.13}
	{'loss': 0.0768, 'grad_norm': 21.543807983398438, 'learning_rate': 5.956131139890328e-06, 'epoch': 13.21}
	{'loss': 0.0742, 'grad_norm': 22.987957000732422, 'learning_rate': 5.664449889161125e-06, 'epoch': 13.3}
	{'loss': 0.0838, 'grad_norm': 9.414430618286133, 'learning_rate': 5.372768638431922e-06, 'epoch': 13.39}
	{'loss': 0.0762, 'grad_norm': 16.92205047607422, 'learning_rate': 5.0810873877027185e-06, 'epoch': 13.48}
	{'loss': 0.0751, 'grad_norm': 16.747333526611328, 'learning_rate': 4.789406136973516e-06, 'epoch': 13.56}
	{'loss': 0.0784, 'grad_norm': 4.207192420959473, 'learning_rate': 4.497724886244312e-06, 'epoch': 13.65}
	{'loss': 0.0704, 'grad_norm': 6.768477916717529, 'learning_rate': 4.206043635515109e-06, 'epoch': 13.74}
	{'loss': 0.0711, 'grad_norm': 10.230005264282227, 'learning_rate': 3.914362384785906e-06, 'epoch': 13.83}
	{'loss': 0.0823, 'grad_norm': 0.6493052244186401, 'learning_rate': 3.6226811340567034e-06, 'epoch': 13.91}
	[0 2 2 ... 0 2 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 6.0199151039123535, 'eval_accuracy': 0.4159693999521874, 'eval_runtime': 6.215, 'eval_samples_per_second': 673.045, 'eval_steps_per_second': 21.078, 'epoch': 14.0}
	{'loss': 0.0716, 'grad_norm': 12.979365348815918, 'learning_rate': 3.3309998833275e-06, 'epoch': 14.0}
	{'loss': 0.0664, 'grad_norm': 6.599959850311279, 'learning_rate': 3.0393186325982967e-06, 'epoch': 14.09}
	{'loss': 0.0683, 'grad_norm': 8.023162841796875, 'learning_rate': 2.7476373818690932e-06, 'epoch': 14.18}
	{'loss': 0.0608, 'grad_norm': 16.25693702697754, 'learning_rate': 2.4559561311398905e-06, 'epoch': 14.26}
	{'loss': 0.0694, 'grad_norm': 0.4397706985473633, 'learning_rate': 2.1642748804106874e-06, 'epoch': 14.35}
	{'loss': 0.0708, 'grad_norm': 0.14326095581054688, 'learning_rate': 1.8725936296814843e-06, 'epoch': 14.44}
	{'loss': 0.0586, 'grad_norm': 10.660558700561523, 'learning_rate': 1.580912378952281e-06, 'epoch': 14.53}
	{'loss': 0.0661, 'grad_norm': 23.552616119384766, 'learning_rate': 1.289231128223078e-06, 'epoch': 14.61}
	{'loss': 0.0723, 'grad_norm': 0.8439858555793762, 'learning_rate': 9.975498774938746e-07, 'epoch': 14.7}
	{'loss': 0.061, 'grad_norm': 8.804609298706055, 'learning_rate': 7.058686267646716e-07, 'epoch': 14.79}
	{'loss': 0.0618, 'grad_norm': 29.952268600463867, 'learning_rate': 4.141873760354685e-07, 'epoch': 14.88}
	{'loss': 0.0631, 'grad_norm': 0.013782646507024765, 'learning_rate': 1.225061253062653e-07, 'epoch': 14.96}