|
{'loss': 1.3809, 'grad_norm': 1.1363270282745361, 'learning_rate': 4.97083187492708e-05, 'epoch': 0.09} |
|
{'loss': 1.3713, 'grad_norm': 1.4474607706069946, 'learning_rate': 4.9416637498541595e-05, 'epoch': 0.18} |
|
{'loss': 1.3594, 'grad_norm': 0.9098652005195618, 'learning_rate': 4.912495624781239e-05, 'epoch': 0.26} |
|
{'loss': 1.3502, 'grad_norm': 1.1167092323303223, 'learning_rate': 4.883327499708319e-05, 'epoch': 0.35} |
|
{'loss': 1.3453, 'grad_norm': 2.2667481899261475, 'learning_rate': 4.8541593746353985e-05, 'epoch': 0.44} |
|
{'loss': 1.3434, 'grad_norm': 1.9075201749801636, 'learning_rate': 4.824991249562478e-05, 'epoch': 0.53} |
|
{'loss': 1.3335, 'grad_norm': 2.0711045265197754, 'learning_rate': 4.795823124489558e-05, 'epoch': 0.61} |
|
{'loss': 1.3225, 'grad_norm': 1.7113029956817627, 'learning_rate': 4.7666549994166374e-05, 'epoch': 0.7} |
|
{'loss': 1.3195, 'grad_norm': 1.9234343767166138, 'learning_rate': 4.737486874343717e-05, 'epoch': 0.79} |
|
{'loss': 1.3105, 'grad_norm': 2.1175739765167236, 'learning_rate': 4.708318749270797e-05, 'epoch': 0.88} |
|
{'loss': 1.2998, 'grad_norm': 2.521505117416382, 'learning_rate': 4.6791506241978764e-05, 'epoch': 0.96} |
|
[0 3 2 ... 1 0 2] [0 0 2 ... 0 1 0] |
|
{'eval_loss': 1.3409068584442139, 'eval_accuracy': 0.34185990915610803, 'eval_runtime': 6.4784, 'eval_samples_per_second': 645.688, 'eval_steps_per_second': 20.221, 'epoch': 1.0} |
|
{'loss': 1.2528, 'grad_norm': 4.092164039611816, 'learning_rate': 4.649982499124956e-05, 'epoch': 1.05} |
|
{'loss': 1.1967, 'grad_norm': 6.143226623535156, 'learning_rate': 4.6208143740520357e-05, 'epoch': 1.14} |
|
{'loss': 1.1974, 'grad_norm': 4.76519250869751, 'learning_rate': 4.591646248979116e-05, 'epoch': 1.23} |
|
{'loss': 1.1884, 'grad_norm': 5.0817179679870605, 'learning_rate': 4.5624781239061956e-05, 'epoch': 1.31} |
|
{'loss': 1.182, 'grad_norm': 4.871830463409424, 'learning_rate': 4.533309998833275e-05, 'epoch': 1.4} |
|
{'loss': 1.1814, 'grad_norm': 5.66860818862915, 'learning_rate': 4.504141873760355e-05, 'epoch': 1.49} |
|
{'loss': 1.1712, 'grad_norm': 5.154982089996338, 'learning_rate': 4.4749737486874346e-05, 'epoch': 1.58} |
|
{'loss': 1.1556, 'grad_norm': 6.135748863220215, 'learning_rate': 4.445805623614514e-05, 'epoch': 1.66} |
|
{'loss': 1.1503, 'grad_norm': 4.793179035186768, 'learning_rate': 4.416637498541594e-05, 'epoch': 1.75} |
|
{'loss': 1.1562, 'grad_norm': 5.454382419586182, 'learning_rate': 4.3874693734686735e-05, 'epoch': 1.84} |
|
{'loss': 1.1366, 'grad_norm': 4.958292484283447, 'learning_rate': 4.358301248395754e-05, 'epoch': 1.93} |
|
[0 0 3 ... 1 2 0] [0 0 2 ... 0 1 0] |
|
{'eval_loss': 1.3753255605697632, 'eval_accuracy': 0.36337556777432467, 'eval_runtime': 6.416, 'eval_samples_per_second': 651.964, 'eval_steps_per_second': 20.418, 'epoch': 2.0} |
|
{'loss': 1.0888, 'grad_norm': 7.227815628051758, 'learning_rate': 4.3291331233228335e-05, 'epoch': 2.01} |
|
{'loss': 0.92, 'grad_norm': 7.727498531341553, 'learning_rate': 4.299964998249913e-05, 'epoch': 2.1} |
|
{'loss': 0.9166, 'grad_norm': 6.4145636558532715, 'learning_rate': 4.270796873176993e-05, 'epoch': 2.19} |
|
{'loss': 0.9126, 'grad_norm': 7.5823974609375, 'learning_rate': 4.2416287481040724e-05, 'epoch': 2.28} |
|
{'loss': 0.9083, 'grad_norm': 7.961126327514648, 'learning_rate': 4.212460623031152e-05, 'epoch': 2.36} |
|
{'loss': 0.928, 'grad_norm': 9.727679252624512, 'learning_rate': 4.183292497958232e-05, 'epoch': 2.45} |
|
{'loss': 0.9128, 'grad_norm': 6.986959934234619, 'learning_rate': 4.1541243728853114e-05, 'epoch': 2.54} |
|
{'loss': 0.9124, 'grad_norm': 11.424525260925293, 'learning_rate': 4.124956247812391e-05, 'epoch': 2.63} |
|
{'loss': 0.9054, 'grad_norm': 7.206017971038818, 'learning_rate': 4.0957881227394707e-05, 'epoch': 2.71} |
|
{'loss': 0.8958, 'grad_norm': 6.930673122406006, 'learning_rate': 4.06661999766655e-05, 'epoch': 2.8} |
|
{'loss': 0.9066, 'grad_norm': 7.441983222961426, 'learning_rate': 4.03745187259363e-05, 'epoch': 2.89} |
|
{'loss': 0.9035, 'grad_norm': 8.201363563537598, 'learning_rate': 4.0082837475207096e-05, 'epoch': 2.98} |
|
[2 2 2 ... 2 2 0] [0 0 2 ... 0 1 0] |
|
{'eval_loss': 1.4999252557754517, 'eval_accuracy': 0.3793927803012192, 'eval_runtime': 6.454, 'eval_samples_per_second': 648.13, 'eval_steps_per_second': 20.298, 'epoch': 3.0} |
|
{'loss': 0.7189, 'grad_norm': 11.725881576538086, 'learning_rate': 3.979115622447789e-05, 'epoch': 3.06} |
|
{'loss': 0.6632, 'grad_norm': 13.215302467346191, 'learning_rate': 3.949947497374869e-05, 'epoch': 3.15} |
|
{'loss': 0.6687, 'grad_norm': 10.268899917602539, 'learning_rate': 3.9207793723019485e-05, 'epoch': 3.24} |
|
{'loss': 0.667, 'grad_norm': 8.265130043029785, 'learning_rate': 3.891611247229028e-05, 'epoch': 3.33} |
|
{'loss': 0.6665, 'grad_norm': 12.575718879699707, 'learning_rate': 3.862443122156108e-05, 'epoch': 3.41} |
|
{'loss': 0.6859, 'grad_norm': 14.319367408752441, 'learning_rate': 3.8332749970831875e-05, 'epoch': 3.5} |
|
{'loss': 0.6866, 'grad_norm': 11.042840957641602, 'learning_rate': 3.804106872010267e-05, 'epoch': 3.59} |
|
{'loss': 0.6859, 'grad_norm': 12.115802764892578, 'learning_rate': 3.774938746937347e-05, 'epoch': 3.68} |
|
{'loss': 0.6788, 'grad_norm': 9.712413787841797, 'learning_rate': 3.7457706218644264e-05, 'epoch': 3.76} |
|
{'loss': 0.6904, 'grad_norm': 9.902729034423828, 'learning_rate': 3.716602496791506e-05, 'epoch': 3.85} |
|
{'loss': 0.6883, 'grad_norm': 9.378089904785156, 'learning_rate': 3.6874343717185864e-05, 'epoch': 3.94} |
|
|