|
{'loss': 1.3809, 'grad_norm': 1.1363270282745361, 'learning_rate': 4.97083187492708e-05, 'epoch': 0.09} |
|
{'loss': 1.3713, 'grad_norm': 1.4474607706069946, 'learning_rate': 4.9416637498541595e-05, 'epoch': 0.18} |
|
{'loss': 1.3594, 'grad_norm': 0.9098652005195618, 'learning_rate': 4.912495624781239e-05, 'epoch': 0.26} |
|
{'loss': 1.3502, 'grad_norm': 1.1167092323303223, 'learning_rate': 4.883327499708319e-05, 'epoch': 0.35} |
|
{'loss': 1.3453, 'grad_norm': 2.2667481899261475, 'learning_rate': 4.8541593746353985e-05, 'epoch': 0.44} |
|
{'loss': 1.3434, 'grad_norm': 1.9075201749801636, 'learning_rate': 4.824991249562478e-05, 'epoch': 0.53} |
|
{'loss': 1.3335, 'grad_norm': 2.0711045265197754, 'learning_rate': 4.795823124489558e-05, 'epoch': 0.61} |
|
{'loss': 1.3225, 'grad_norm': 1.7113029956817627, 'learning_rate': 4.7666549994166374e-05, 'epoch': 0.7} |
|
{'loss': 1.3195, 'grad_norm': 1.9234343767166138, 'learning_rate': 4.737486874343717e-05, 'epoch': 0.79} |
|
{'loss': 1.3105, 'grad_norm': 2.1175739765167236, 'learning_rate': 4.708318749270797e-05, 'epoch': 0.88} |
|
{'loss': 1.2998, 'grad_norm': 2.521505117416382, 'learning_rate': 4.6791506241978764e-05, 'epoch': 0.96} |
|
[0 3 2 ... 1 0 2] [0 0 2 ... 0 1 0] |
|
{'eval_loss': 1.3409068584442139, 'eval_accuracy': 0.34185990915610803, 'eval_runtime': 6.4784, 'eval_samples_per_second': 645.688, 'eval_steps_per_second': 20.221, 'epoch': 1.0} |
|
{'loss': 1.2528, 'grad_norm': 4.092164039611816, 'learning_rate': 4.649982499124956e-05, 'epoch': 1.05} |
|
{'loss': 1.1967, 'grad_norm': 6.143226623535156, 'learning_rate': 4.6208143740520357e-05, 'epoch': 1.14} |
|
{'loss': 1.1974, 'grad_norm': 4.76519250869751, 'learning_rate': 4.591646248979116e-05, 'epoch': 1.23} |
|
{'loss': 1.1884, 'grad_norm': 5.0817179679870605, 'learning_rate': 4.5624781239061956e-05, 'epoch': 1.31} |
|
{'loss': 1.182, 'grad_norm': 4.871830463409424, 'learning_rate': 4.533309998833275e-05, 'epoch': 1.4} |
|
{'loss': 1.1814, 'grad_norm': 5.66860818862915, 'learning_rate': 4.504141873760355e-05, 'epoch': 1.49} |
|
{'loss': 1.1712, 'grad_norm': 5.154982089996338, 'learning_rate': 4.4749737486874346e-05, 'epoch': 1.58} |
|
{'loss': 1.1556, 'grad_norm': 6.135748863220215, 'learning_rate': 4.445805623614514e-05, 'epoch': 1.66} |
|
{'loss': 1.1503, 'grad_norm': 4.793179035186768, 'learning_rate': 4.416637498541594e-05, 'epoch': 1.75} |
|
{'loss': 1.1562, 'grad_norm': 5.454382419586182, 'learning_rate': 4.3874693734686735e-05, 'epoch': 1.84} |
|
{'loss': 1.1366, 'grad_norm': 4.958292484283447, 'learning_rate': 4.358301248395754e-05, 'epoch': 1.93} |
|
[0 0 3 ... 1 2 0] [0 0 2 ... 0 1 0] |
|
{'eval_loss': 1.3753255605697632, 'eval_accuracy': 0.36337556777432467, 'eval_runtime': 6.416, 'eval_samples_per_second': 651.964, 'eval_steps_per_second': 20.418, 'epoch': 2.0} |
|
{'loss': 1.0888, 'grad_norm': 7.227815628051758, 'learning_rate': 4.3291331233228335e-05, 'epoch': 2.01} |
|
{'loss': 0.92, 'grad_norm': 7.727498531341553, 'learning_rate': 4.299964998249913e-05, 'epoch': 2.1} |
|
{'loss': 0.9166, 'grad_norm': 6.4145636558532715, 'learning_rate': 4.270796873176993e-05, 'epoch': 2.19} |
|
{'loss': 0.9126, 'grad_norm': 7.5823974609375, 'learning_rate': 4.2416287481040724e-05, 'epoch': 2.28} |
|
{'loss': 0.9083, 'grad_norm': 7.961126327514648, 'learning_rate': 4.212460623031152e-05, 'epoch': 2.36} |
|
{'loss': 0.928, 'grad_norm': 9.727679252624512, 'learning_rate': 4.183292497958232e-05, 'epoch': 2.45} |
|
{'loss': 0.9128, 'grad_norm': 6.986959934234619, 'learning_rate': 4.1541243728853114e-05, 'epoch': 2.54} |
|
{'loss': 0.9124, 'grad_norm': 11.424525260925293, 'learning_rate': 4.124956247812391e-05, 'epoch': 2.63} |
|
{'loss': 0.9054, 'grad_norm': 7.206017971038818, 'learning_rate': 4.0957881227394707e-05, 'epoch': 2.71} |
|
{'loss': 0.8958, 'grad_norm': 6.930673122406006, 'learning_rate': 4.06661999766655e-05, 'epoch': 2.8} |
|
{'loss': 0.9066, 'grad_norm': 7.441983222961426, 'learning_rate': 4.03745187259363e-05, 'epoch': 2.89} |
|
{'loss': 0.9035, 'grad_norm': 8.201363563537598, 'learning_rate': 4.0082837475207096e-05, 'epoch': 2.98} |
|
[2 2 2 ... 2 2 0] [0 0 2 ... 0 1 0] |
|
{'eval_loss': 1.4999252557754517, 'eval_accuracy': 0.3793927803012192, 'eval_runtime': 6.454, 'eval_samples_per_second': 648.13, 'eval_steps_per_second': 20.298, 'epoch': 3.0} |
|
{'loss': 0.7189, 'grad_norm': 11.725881576538086, 'learning_rate': 3.979115622447789e-05, 'epoch': 3.06} |
|
{'loss': 0.6632, 'grad_norm': 13.215302467346191, 'learning_rate': 3.949947497374869e-05, 'epoch': 3.15} |
|
{'loss': 0.6687, 'grad_norm': 10.268899917602539, 'learning_rate': 3.9207793723019485e-05, 'epoch': 3.24} |
|
{'loss': 0.667, 'grad_norm': 8.265130043029785, 'learning_rate': 3.891611247229028e-05, 'epoch': 3.33} |
|
{'loss': 0.6665, 'grad_norm': 12.575718879699707, 'learning_rate': 3.862443122156108e-05, 'epoch': 3.41} |
|
{'loss': 0.6859, 'grad_norm': 14.319367408752441, 'learning_rate': 3.8332749970831875e-05, 'epoch': 3.5} |
|
{'loss': 0.6866, 'grad_norm': 11.042840957641602, 'learning_rate': 3.804106872010267e-05, 'epoch': 3.59} |
|
{'loss': 0.6859, 'grad_norm': 12.115802764892578, 'learning_rate': 3.774938746937347e-05, 'epoch': 3.68} |
|
{'loss': 0.6788, 'grad_norm': 9.712413787841797, 'learning_rate': 3.7457706218644264e-05, 'epoch': 3.76} |
|
{'loss': 0.6904, 'grad_norm': 9.902729034423828, 'learning_rate': 3.716602496791506e-05, 'epoch': 3.85} |
|
{'loss': 0.6883, 'grad_norm': 9.378089904785156, 'learning_rate': 3.6874343717185864e-05, 'epoch': 3.94} |
|
[2 2 2 ... 1 2 0] [0 0 2 ... 0 1 0] |
|
{'eval_loss': 1.746778964996338, 'eval_accuracy': 0.390628735357399, 'eval_runtime': 6.927, 'eval_samples_per_second': 603.869, 'eval_steps_per_second': 18.912, 'epoch': 4.0} |
|
{'loss': 0.6161, 'grad_norm': 12.395198822021484, 'learning_rate': 3.658266246645666e-05, 'epoch': 4.03} |
|
{'loss': 0.468, 'grad_norm': 9.029620170593262, 'learning_rate': 3.629098121572746e-05, 'epoch': 4.11} |
|
{'loss': 0.4725, 'grad_norm': 17.127229690551758, 'learning_rate': 3.5999299964998253e-05, 'epoch': 4.2} |
|
{'loss': 0.4869, 'grad_norm': 11.913525581359863, 'learning_rate': 3.570761871426905e-05, 'epoch': 4.29} |
|
{'loss': 0.4966, 'grad_norm': 16.005084991455078, 'learning_rate': 3.5415937463539846e-05, 'epoch': 4.38} |
|
{'loss': 0.4975, 'grad_norm': 11.576833724975586, 'learning_rate': 3.512425621281064e-05, 'epoch': 4.46} |
|
{'loss': 0.5007, 'grad_norm': 15.484545707702637, 'learning_rate': 3.483257496208144e-05, 'epoch': 4.55} |
|
{'loss': 0.5047, 'grad_norm': 12.12447738647461, 'learning_rate': 3.4540893711352236e-05, 'epoch': 4.64} |
|
{'loss': 0.515, 'grad_norm': 11.281113624572754, 'learning_rate': 3.424921246062303e-05, 'epoch': 4.73} |
|
{'loss': 0.4967, 'grad_norm': 12.152961730957031, 'learning_rate': 3.395753120989383e-05, 'epoch': 4.81} |
|
{'loss': 0.5114, 'grad_norm': 14.874109268188477, 'learning_rate': 3.3665849959164625e-05, 'epoch': 4.9} |
|
{'loss': 0.5177, 'grad_norm': 13.78496265411377, 'learning_rate': 3.337416870843542e-05, 'epoch': 4.99} |
|
[1 3 2 ... 1 1 0] [0 0 2 ... 0 1 0] |
|
{'eval_loss': 2.1010797023773193, 'eval_accuracy': 0.3997131245517571, 'eval_runtime': 6.5875, 'eval_samples_per_second': 634.995, 'eval_steps_per_second': 19.886, 'epoch': 5.0} |
|
{'loss': 0.3604, 'grad_norm': 11.036005020141602, 'learning_rate': 3.308248745770622e-05, 'epoch': 5.08} |
|
{'loss': 0.3446, 'grad_norm': 10.067902565002441, 'learning_rate': 3.2790806206977015e-05, 'epoch': 5.16} |
|
{'loss': 0.354, 'grad_norm': 11.869844436645508, 'learning_rate': 3.249912495624781e-05, 'epoch': 5.25} |
|
{'loss': 0.3668, 'grad_norm': 14.416504859924316, 'learning_rate': 3.220744370551861e-05, 'epoch': 5.34} |
|
{'loss': 0.3694, 'grad_norm': 17.454008102416992, 'learning_rate': 3.1915762454789404e-05, 'epoch': 5.43} |
|
{'loss': 0.3688, 'grad_norm': 11.404752731323242, 'learning_rate': 3.16240812040602e-05, 'epoch': 5.51} |
|
{'loss': 0.3708, 'grad_norm': 13.581445693969727, 'learning_rate': 3.1332399953331e-05, 'epoch': 5.6} |
|
{'loss': 0.3658, 'grad_norm': 14.196109771728516, 'learning_rate': 3.10407187026018e-05, 'epoch': 5.69} |
|
{'loss': 0.3802, 'grad_norm': 14.382953643798828, 'learning_rate': 3.07490374518726e-05, 'epoch': 5.78} |
|
{'loss': 0.3861, 'grad_norm': 7.7172627449035645, 'learning_rate': 3.0457356201143393e-05, 'epoch': 5.86} |
|
{'loss': 0.3968, 'grad_norm': 13.746389389038086, 'learning_rate': 3.016567495041419e-05, 'epoch': 5.95} |
|
[0 2 2 ... 1 2 1] [0 0 2 ... 0 1 0] |
|
{'eval_loss': 2.290968179702759, 'eval_accuracy': 0.40090843891943584, 'eval_runtime': 6.2537, 'eval_samples_per_second': 668.883, 'eval_steps_per_second': 20.948, 'epoch': 6.0} |
|
{'loss': 0.3242, 'grad_norm': 5.355894565582275, 'learning_rate': 2.987399369968499e-05, 'epoch': 6.04} |
|
{'loss': 0.2491, 'grad_norm': 11.969722747802734, 'learning_rate': 2.9582312448955786e-05, 'epoch': 6.13} |
|
{'loss': 0.2627, 'grad_norm': 10.806496620178223, 'learning_rate': 2.9290631198226582e-05, 'epoch': 6.21} |
|
{'loss': 0.2674, 'grad_norm': 11.133452415466309, 'learning_rate': 2.899894994749738e-05, 'epoch': 6.3} |
|
{'loss': 0.2795, 'grad_norm': 10.295939445495605, 'learning_rate': 2.8707268696768175e-05, 'epoch': 6.39} |
|
{'loss': 0.28, 'grad_norm': 16.589740753173828, 'learning_rate': 2.8415587446038972e-05, 'epoch': 6.48} |
|
{'loss': 0.28, 'grad_norm': 21.517580032348633, 'learning_rate': 2.812390619530977e-05, 'epoch': 6.56} |
|
{'loss': 0.2861, 'grad_norm': 14.851978302001953, 'learning_rate': 2.7832224944580565e-05, 'epoch': 6.65} |
|
{'loss': 0.2945, 'grad_norm': 10.245756149291992, 'learning_rate': 2.754054369385136e-05, 'epoch': 6.74} |
|
{'loss': 0.2869, 'grad_norm': 12.929959297180176, 'learning_rate': 2.7248862443122158e-05, 'epoch': 6.83} |
|
{'loss': 0.2936, 'grad_norm': 7.713830471038818, 'learning_rate': 2.6957181192392954e-05, 'epoch': 6.91} |
|
[0 2 2 ... 1 2 1] [0 0 2 ... 0 1 0] |
|
{'eval_loss': 2.7999720573425293, 'eval_accuracy': 0.4121443939756156, 'eval_runtime': 6.3661, 'eval_samples_per_second': 657.07, 'eval_steps_per_second': 20.578, 'epoch': 7.0} |
|
{'loss': 0.2878, 'grad_norm': 13.161710739135742, 'learning_rate': 2.666549994166375e-05, 'epoch': 7.0} |
|
{'loss': 0.2004, 'grad_norm': 6.0921101570129395, 'learning_rate': 2.6373818690934547e-05, 'epoch': 7.09} |
|
{'loss': 0.1963, 'grad_norm': 18.889543533325195, 'learning_rate': 2.6082137440205344e-05, 'epoch': 7.18} |
|
{'loss': 0.2049, 'grad_norm': 20.18791961669922, 'learning_rate': 2.5790456189476144e-05, 'epoch': 7.26} |
|
{'loss': 0.2065, 'grad_norm': 16.6495418548584, 'learning_rate': 2.549877493874694e-05, 'epoch': 7.35} |
|
{'loss': 0.2239, 'grad_norm': 6.013281345367432, 'learning_rate': 2.5207093688017736e-05, 'epoch': 7.44} |
|
{'loss': 0.2162, 'grad_norm': 13.363381385803223, 'learning_rate': 2.4915412437288533e-05, 'epoch': 7.53} |
|
{'loss': 0.2227, 'grad_norm': 6.715728759765625, 'learning_rate': 2.462373118655933e-05, 'epoch': 7.61} |
|
{'loss': 0.2252, 'grad_norm': 15.648544311523438, 'learning_rate': 2.4332049935830126e-05, 'epoch': 7.7} |
|
{'loss': 0.2293, 'grad_norm': 17.969135284423828, 'learning_rate': 2.4040368685100922e-05, 'epoch': 7.79} |
|
{'loss': 0.2305, 'grad_norm': 13.376370429992676, 'learning_rate': 2.374868743437172e-05, 'epoch': 7.88} |
|
{'loss': 0.2403, 'grad_norm': 8.350042343139648, 'learning_rate': 2.3457006183642515e-05, 'epoch': 7.96} |
|
[0 2 2 ... 1 0 1] [0 0 2 ... 0 1 0] |
|
{'eval_loss': 2.7002346515655518, 'eval_accuracy': 0.40855845087257947, 'eval_runtime': 6.9152, 'eval_samples_per_second': 604.896, 'eval_steps_per_second': 18.944, 'epoch': 8.0} |
|
{'loss': 0.194, 'grad_norm': 5.118299961090088, 'learning_rate': 2.3165324932913312e-05, 'epoch': 8.05} |
|
{'loss': 0.1641, 'grad_norm': 6.422851085662842, 'learning_rate': 2.2873643682184108e-05, 'epoch': 8.14} |
|
{'loss': 0.1696, 'grad_norm': 0.9757495522499084, 'learning_rate': 2.2581962431454905e-05, 'epoch': 8.23} |
|
{'loss': 0.1714, 'grad_norm': 8.895563125610352, 'learning_rate': 2.22902811807257e-05, 'epoch': 8.31} |
|
{'loss': 0.1747, 'grad_norm': 11.234411239624023, 'learning_rate': 2.19985999299965e-05, 'epoch': 8.4} |
|
{'loss': 0.1802, 'grad_norm': 17.129392623901367, 'learning_rate': 2.1706918679267298e-05, 'epoch': 8.49} |
|
{'loss': 0.1773, 'grad_norm': 15.17518424987793, 'learning_rate': 2.1415237428538097e-05, 'epoch': 8.58} |
|
{'loss': 0.1795, 'grad_norm': 20.55030632019043, 'learning_rate': 2.1123556177808894e-05, 'epoch': 8.66} |
|
{'loss': 0.185, 'grad_norm': 16.464384078979492, 'learning_rate': 2.083187492707969e-05, 'epoch': 8.75} |
|
{'loss': 0.1794, 'grad_norm': 20.86390495300293, 'learning_rate': 2.0540193676350487e-05, 'epoch': 8.84} |
|
{'loss': 0.1843, 'grad_norm': 14.848393440246582, 'learning_rate': 2.0248512425621283e-05, 'epoch': 8.93} |
|
|