Training in progress, epoch 9

e5d2054 verified 8 months ago

12.4 kB

	{'loss': 1.3809, 'grad_norm': 1.1363270282745361, 'learning_rate': 4.97083187492708e-05, 'epoch': 0.09}
	{'loss': 1.3713, 'grad_norm': 1.4474607706069946, 'learning_rate': 4.9416637498541595e-05, 'epoch': 0.18}
	{'loss': 1.3594, 'grad_norm': 0.9098652005195618, 'learning_rate': 4.912495624781239e-05, 'epoch': 0.26}
	{'loss': 1.3502, 'grad_norm': 1.1167092323303223, 'learning_rate': 4.883327499708319e-05, 'epoch': 0.35}
	{'loss': 1.3453, 'grad_norm': 2.2667481899261475, 'learning_rate': 4.8541593746353985e-05, 'epoch': 0.44}
	{'loss': 1.3434, 'grad_norm': 1.9075201749801636, 'learning_rate': 4.824991249562478e-05, 'epoch': 0.53}
	{'loss': 1.3335, 'grad_norm': 2.0711045265197754, 'learning_rate': 4.795823124489558e-05, 'epoch': 0.61}
	{'loss': 1.3225, 'grad_norm': 1.7113029956817627, 'learning_rate': 4.7666549994166374e-05, 'epoch': 0.7}
	{'loss': 1.3195, 'grad_norm': 1.9234343767166138, 'learning_rate': 4.737486874343717e-05, 'epoch': 0.79}
	{'loss': 1.3105, 'grad_norm': 2.1175739765167236, 'learning_rate': 4.708318749270797e-05, 'epoch': 0.88}
	{'loss': 1.2998, 'grad_norm': 2.521505117416382, 'learning_rate': 4.6791506241978764e-05, 'epoch': 0.96}
	[0 3 2 ... 1 0 2] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.3409068584442139, 'eval_accuracy': 0.34185990915610803, 'eval_runtime': 6.4784, 'eval_samples_per_second': 645.688, 'eval_steps_per_second': 20.221, 'epoch': 1.0}
	{'loss': 1.2528, 'grad_norm': 4.092164039611816, 'learning_rate': 4.649982499124956e-05, 'epoch': 1.05}
	{'loss': 1.1967, 'grad_norm': 6.143226623535156, 'learning_rate': 4.6208143740520357e-05, 'epoch': 1.14}
	{'loss': 1.1974, 'grad_norm': 4.76519250869751, 'learning_rate': 4.591646248979116e-05, 'epoch': 1.23}
	{'loss': 1.1884, 'grad_norm': 5.0817179679870605, 'learning_rate': 4.5624781239061956e-05, 'epoch': 1.31}
	{'loss': 1.182, 'grad_norm': 4.871830463409424, 'learning_rate': 4.533309998833275e-05, 'epoch': 1.4}
	{'loss': 1.1814, 'grad_norm': 5.66860818862915, 'learning_rate': 4.504141873760355e-05, 'epoch': 1.49}
	{'loss': 1.1712, 'grad_norm': 5.154982089996338, 'learning_rate': 4.4749737486874346e-05, 'epoch': 1.58}
	{'loss': 1.1556, 'grad_norm': 6.135748863220215, 'learning_rate': 4.445805623614514e-05, 'epoch': 1.66}
	{'loss': 1.1503, 'grad_norm': 4.793179035186768, 'learning_rate': 4.416637498541594e-05, 'epoch': 1.75}
	{'loss': 1.1562, 'grad_norm': 5.454382419586182, 'learning_rate': 4.3874693734686735e-05, 'epoch': 1.84}
	{'loss': 1.1366, 'grad_norm': 4.958292484283447, 'learning_rate': 4.358301248395754e-05, 'epoch': 1.93}
	[0 0 3 ... 1 2 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.3753255605697632, 'eval_accuracy': 0.36337556777432467, 'eval_runtime': 6.416, 'eval_samples_per_second': 651.964, 'eval_steps_per_second': 20.418, 'epoch': 2.0}
	{'loss': 1.0888, 'grad_norm': 7.227815628051758, 'learning_rate': 4.3291331233228335e-05, 'epoch': 2.01}
	{'loss': 0.92, 'grad_norm': 7.727498531341553, 'learning_rate': 4.299964998249913e-05, 'epoch': 2.1}
	{'loss': 0.9166, 'grad_norm': 6.4145636558532715, 'learning_rate': 4.270796873176993e-05, 'epoch': 2.19}
	{'loss': 0.9126, 'grad_norm': 7.5823974609375, 'learning_rate': 4.2416287481040724e-05, 'epoch': 2.28}
	{'loss': 0.9083, 'grad_norm': 7.961126327514648, 'learning_rate': 4.212460623031152e-05, 'epoch': 2.36}
	{'loss': 0.928, 'grad_norm': 9.727679252624512, 'learning_rate': 4.183292497958232e-05, 'epoch': 2.45}
	{'loss': 0.9128, 'grad_norm': 6.986959934234619, 'learning_rate': 4.1541243728853114e-05, 'epoch': 2.54}
	{'loss': 0.9124, 'grad_norm': 11.424525260925293, 'learning_rate': 4.124956247812391e-05, 'epoch': 2.63}
	{'loss': 0.9054, 'grad_norm': 7.206017971038818, 'learning_rate': 4.0957881227394707e-05, 'epoch': 2.71}
	{'loss': 0.8958, 'grad_norm': 6.930673122406006, 'learning_rate': 4.06661999766655e-05, 'epoch': 2.8}
	{'loss': 0.9066, 'grad_norm': 7.441983222961426, 'learning_rate': 4.03745187259363e-05, 'epoch': 2.89}
	{'loss': 0.9035, 'grad_norm': 8.201363563537598, 'learning_rate': 4.0082837475207096e-05, 'epoch': 2.98}
	[2 2 2 ... 2 2 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.4999252557754517, 'eval_accuracy': 0.3793927803012192, 'eval_runtime': 6.454, 'eval_samples_per_second': 648.13, 'eval_steps_per_second': 20.298, 'epoch': 3.0}
	{'loss': 0.7189, 'grad_norm': 11.725881576538086, 'learning_rate': 3.979115622447789e-05, 'epoch': 3.06}
	{'loss': 0.6632, 'grad_norm': 13.215302467346191, 'learning_rate': 3.949947497374869e-05, 'epoch': 3.15}
	{'loss': 0.6687, 'grad_norm': 10.268899917602539, 'learning_rate': 3.9207793723019485e-05, 'epoch': 3.24}
	{'loss': 0.667, 'grad_norm': 8.265130043029785, 'learning_rate': 3.891611247229028e-05, 'epoch': 3.33}
	{'loss': 0.6665, 'grad_norm': 12.575718879699707, 'learning_rate': 3.862443122156108e-05, 'epoch': 3.41}
	{'loss': 0.6859, 'grad_norm': 14.319367408752441, 'learning_rate': 3.8332749970831875e-05, 'epoch': 3.5}
	{'loss': 0.6866, 'grad_norm': 11.042840957641602, 'learning_rate': 3.804106872010267e-05, 'epoch': 3.59}
	{'loss': 0.6859, 'grad_norm': 12.115802764892578, 'learning_rate': 3.774938746937347e-05, 'epoch': 3.68}
	{'loss': 0.6788, 'grad_norm': 9.712413787841797, 'learning_rate': 3.7457706218644264e-05, 'epoch': 3.76}
	{'loss': 0.6904, 'grad_norm': 9.902729034423828, 'learning_rate': 3.716602496791506e-05, 'epoch': 3.85}
	{'loss': 0.6883, 'grad_norm': 9.378089904785156, 'learning_rate': 3.6874343717185864e-05, 'epoch': 3.94}
	[2 2 2 ... 1 2 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 1.746778964996338, 'eval_accuracy': 0.390628735357399, 'eval_runtime': 6.927, 'eval_samples_per_second': 603.869, 'eval_steps_per_second': 18.912, 'epoch': 4.0}
	{'loss': 0.6161, 'grad_norm': 12.395198822021484, 'learning_rate': 3.658266246645666e-05, 'epoch': 4.03}
	{'loss': 0.468, 'grad_norm': 9.029620170593262, 'learning_rate': 3.629098121572746e-05, 'epoch': 4.11}
	{'loss': 0.4725, 'grad_norm': 17.127229690551758, 'learning_rate': 3.5999299964998253e-05, 'epoch': 4.2}
	{'loss': 0.4869, 'grad_norm': 11.913525581359863, 'learning_rate': 3.570761871426905e-05, 'epoch': 4.29}
	{'loss': 0.4966, 'grad_norm': 16.005084991455078, 'learning_rate': 3.5415937463539846e-05, 'epoch': 4.38}
	{'loss': 0.4975, 'grad_norm': 11.576833724975586, 'learning_rate': 3.512425621281064e-05, 'epoch': 4.46}
	{'loss': 0.5007, 'grad_norm': 15.484545707702637, 'learning_rate': 3.483257496208144e-05, 'epoch': 4.55}
	{'loss': 0.5047, 'grad_norm': 12.12447738647461, 'learning_rate': 3.4540893711352236e-05, 'epoch': 4.64}
	{'loss': 0.515, 'grad_norm': 11.281113624572754, 'learning_rate': 3.424921246062303e-05, 'epoch': 4.73}
	{'loss': 0.4967, 'grad_norm': 12.152961730957031, 'learning_rate': 3.395753120989383e-05, 'epoch': 4.81}
	{'loss': 0.5114, 'grad_norm': 14.874109268188477, 'learning_rate': 3.3665849959164625e-05, 'epoch': 4.9}
	{'loss': 0.5177, 'grad_norm': 13.78496265411377, 'learning_rate': 3.337416870843542e-05, 'epoch': 4.99}
	[1 3 2 ... 1 1 0] [0 0 2 ... 0 1 0]
	{'eval_loss': 2.1010797023773193, 'eval_accuracy': 0.3997131245517571, 'eval_runtime': 6.5875, 'eval_samples_per_second': 634.995, 'eval_steps_per_second': 19.886, 'epoch': 5.0}
	{'loss': 0.3604, 'grad_norm': 11.036005020141602, 'learning_rate': 3.308248745770622e-05, 'epoch': 5.08}
	{'loss': 0.3446, 'grad_norm': 10.067902565002441, 'learning_rate': 3.2790806206977015e-05, 'epoch': 5.16}
	{'loss': 0.354, 'grad_norm': 11.869844436645508, 'learning_rate': 3.249912495624781e-05, 'epoch': 5.25}
	{'loss': 0.3668, 'grad_norm': 14.416504859924316, 'learning_rate': 3.220744370551861e-05, 'epoch': 5.34}
	{'loss': 0.3694, 'grad_norm': 17.454008102416992, 'learning_rate': 3.1915762454789404e-05, 'epoch': 5.43}
	{'loss': 0.3688, 'grad_norm': 11.404752731323242, 'learning_rate': 3.16240812040602e-05, 'epoch': 5.51}
	{'loss': 0.3708, 'grad_norm': 13.581445693969727, 'learning_rate': 3.1332399953331e-05, 'epoch': 5.6}
	{'loss': 0.3658, 'grad_norm': 14.196109771728516, 'learning_rate': 3.10407187026018e-05, 'epoch': 5.69}
	{'loss': 0.3802, 'grad_norm': 14.382953643798828, 'learning_rate': 3.07490374518726e-05, 'epoch': 5.78}
	{'loss': 0.3861, 'grad_norm': 7.7172627449035645, 'learning_rate': 3.0457356201143393e-05, 'epoch': 5.86}
	{'loss': 0.3968, 'grad_norm': 13.746389389038086, 'learning_rate': 3.016567495041419e-05, 'epoch': 5.95}
	[0 2 2 ... 1 2 1] [0 0 2 ... 0 1 0]
	{'eval_loss': 2.290968179702759, 'eval_accuracy': 0.40090843891943584, 'eval_runtime': 6.2537, 'eval_samples_per_second': 668.883, 'eval_steps_per_second': 20.948, 'epoch': 6.0}
	{'loss': 0.3242, 'grad_norm': 5.355894565582275, 'learning_rate': 2.987399369968499e-05, 'epoch': 6.04}
	{'loss': 0.2491, 'grad_norm': 11.969722747802734, 'learning_rate': 2.9582312448955786e-05, 'epoch': 6.13}
	{'loss': 0.2627, 'grad_norm': 10.806496620178223, 'learning_rate': 2.9290631198226582e-05, 'epoch': 6.21}
	{'loss': 0.2674, 'grad_norm': 11.133452415466309, 'learning_rate': 2.899894994749738e-05, 'epoch': 6.3}
	{'loss': 0.2795, 'grad_norm': 10.295939445495605, 'learning_rate': 2.8707268696768175e-05, 'epoch': 6.39}
	{'loss': 0.28, 'grad_norm': 16.589740753173828, 'learning_rate': 2.8415587446038972e-05, 'epoch': 6.48}
	{'loss': 0.28, 'grad_norm': 21.517580032348633, 'learning_rate': 2.812390619530977e-05, 'epoch': 6.56}
	{'loss': 0.2861, 'grad_norm': 14.851978302001953, 'learning_rate': 2.7832224944580565e-05, 'epoch': 6.65}
	{'loss': 0.2945, 'grad_norm': 10.245756149291992, 'learning_rate': 2.754054369385136e-05, 'epoch': 6.74}
	{'loss': 0.2869, 'grad_norm': 12.929959297180176, 'learning_rate': 2.7248862443122158e-05, 'epoch': 6.83}
	{'loss': 0.2936, 'grad_norm': 7.713830471038818, 'learning_rate': 2.6957181192392954e-05, 'epoch': 6.91}
	[0 2 2 ... 1 2 1] [0 0 2 ... 0 1 0]
	{'eval_loss': 2.7999720573425293, 'eval_accuracy': 0.4121443939756156, 'eval_runtime': 6.3661, 'eval_samples_per_second': 657.07, 'eval_steps_per_second': 20.578, 'epoch': 7.0}
	{'loss': 0.2878, 'grad_norm': 13.161710739135742, 'learning_rate': 2.666549994166375e-05, 'epoch': 7.0}
	{'loss': 0.2004, 'grad_norm': 6.0921101570129395, 'learning_rate': 2.6373818690934547e-05, 'epoch': 7.09}
	{'loss': 0.1963, 'grad_norm': 18.889543533325195, 'learning_rate': 2.6082137440205344e-05, 'epoch': 7.18}
	{'loss': 0.2049, 'grad_norm': 20.18791961669922, 'learning_rate': 2.5790456189476144e-05, 'epoch': 7.26}
	{'loss': 0.2065, 'grad_norm': 16.6495418548584, 'learning_rate': 2.549877493874694e-05, 'epoch': 7.35}
	{'loss': 0.2239, 'grad_norm': 6.013281345367432, 'learning_rate': 2.5207093688017736e-05, 'epoch': 7.44}
	{'loss': 0.2162, 'grad_norm': 13.363381385803223, 'learning_rate': 2.4915412437288533e-05, 'epoch': 7.53}
	{'loss': 0.2227, 'grad_norm': 6.715728759765625, 'learning_rate': 2.462373118655933e-05, 'epoch': 7.61}
	{'loss': 0.2252, 'grad_norm': 15.648544311523438, 'learning_rate': 2.4332049935830126e-05, 'epoch': 7.7}
	{'loss': 0.2293, 'grad_norm': 17.969135284423828, 'learning_rate': 2.4040368685100922e-05, 'epoch': 7.79}
	{'loss': 0.2305, 'grad_norm': 13.376370429992676, 'learning_rate': 2.374868743437172e-05, 'epoch': 7.88}
	{'loss': 0.2403, 'grad_norm': 8.350042343139648, 'learning_rate': 2.3457006183642515e-05, 'epoch': 7.96}
	[0 2 2 ... 1 0 1] [0 0 2 ... 0 1 0]
	{'eval_loss': 2.7002346515655518, 'eval_accuracy': 0.40855845087257947, 'eval_runtime': 6.9152, 'eval_samples_per_second': 604.896, 'eval_steps_per_second': 18.944, 'epoch': 8.0}
	{'loss': 0.194, 'grad_norm': 5.118299961090088, 'learning_rate': 2.3165324932913312e-05, 'epoch': 8.05}
	{'loss': 0.1641, 'grad_norm': 6.422851085662842, 'learning_rate': 2.2873643682184108e-05, 'epoch': 8.14}
	{'loss': 0.1696, 'grad_norm': 0.9757495522499084, 'learning_rate': 2.2581962431454905e-05, 'epoch': 8.23}
	{'loss': 0.1714, 'grad_norm': 8.895563125610352, 'learning_rate': 2.22902811807257e-05, 'epoch': 8.31}
	{'loss': 0.1747, 'grad_norm': 11.234411239624023, 'learning_rate': 2.19985999299965e-05, 'epoch': 8.4}
	{'loss': 0.1802, 'grad_norm': 17.129392623901367, 'learning_rate': 2.1706918679267298e-05, 'epoch': 8.49}
	{'loss': 0.1773, 'grad_norm': 15.17518424987793, 'learning_rate': 2.1415237428538097e-05, 'epoch': 8.58}
	{'loss': 0.1795, 'grad_norm': 20.55030632019043, 'learning_rate': 2.1123556177808894e-05, 'epoch': 8.66}
	{'loss': 0.185, 'grad_norm': 16.464384078979492, 'learning_rate': 2.083187492707969e-05, 'epoch': 8.75}
	{'loss': 0.1794, 'grad_norm': 20.86390495300293, 'learning_rate': 2.0540193676350487e-05, 'epoch': 8.84}
	{'loss': 0.1843, 'grad_norm': 14.848393440246582, 'learning_rate': 2.0248512425621283e-05, 'epoch': 8.93}