|
{ |
|
"best_metric": null, |
|
"best_model_checkpoint": null, |
|
"epoch": 50.0, |
|
"global_step": 12500, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.4, |
|
"learning_rate": 3.4299999999999998e-06, |
|
"loss": 11.1542, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 0.8, |
|
"learning_rate": 6.93e-06, |
|
"loss": 6.4515, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 1.2, |
|
"learning_rate": 1.0429999999999998e-05, |
|
"loss": 4.2451, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 1.6, |
|
"learning_rate": 1.3929999999999999e-05, |
|
"loss": 3.7284, |
|
"step": 400 |
|
}, |
|
{ |
|
"epoch": 2.0, |
|
"learning_rate": 1.7429999999999997e-05, |
|
"loss": 3.4154, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 2.4, |
|
"learning_rate": 2.0929999999999998e-05, |
|
"loss": 3.2212, |
|
"step": 600 |
|
}, |
|
{ |
|
"epoch": 2.8, |
|
"learning_rate": 2.4429999999999995e-05, |
|
"loss": 3.1286, |
|
"step": 700 |
|
}, |
|
{ |
|
"epoch": 3.2, |
|
"learning_rate": 2.793e-05, |
|
"loss": 3.0927, |
|
"step": 800 |
|
}, |
|
{ |
|
"epoch": 3.6, |
|
"learning_rate": 3.1429999999999996e-05, |
|
"loss": 3.0432, |
|
"step": 900 |
|
}, |
|
{ |
|
"epoch": 4.0, |
|
"learning_rate": 3.493e-05, |
|
"loss": 3.0182, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 4.4, |
|
"learning_rate": 3.843e-05, |
|
"loss": 2.9412, |
|
"step": 1100 |
|
}, |
|
{ |
|
"epoch": 4.8, |
|
"learning_rate": 4.192999999999999e-05, |
|
"loss": 2.8506, |
|
"step": 1200 |
|
}, |
|
{ |
|
"epoch": 5.2, |
|
"learning_rate": 4.543e-05, |
|
"loss": 2.8052, |
|
"step": 1300 |
|
}, |
|
{ |
|
"epoch": 5.6, |
|
"learning_rate": 4.8929999999999994e-05, |
|
"loss": 2.7483, |
|
"step": 1400 |
|
}, |
|
{ |
|
"epoch": 6.0, |
|
"learning_rate": 5.243e-05, |
|
"loss": 2.562, |
|
"step": 1500 |
|
}, |
|
{ |
|
"epoch": 6.4, |
|
"learning_rate": 5.593e-05, |
|
"loss": 2.1552, |
|
"step": 1600 |
|
}, |
|
{ |
|
"epoch": 6.8, |
|
"learning_rate": 5.942999999999999e-05, |
|
"loss": 1.94, |
|
"step": 1700 |
|
}, |
|
{ |
|
"epoch": 7.2, |
|
"learning_rate": 6.293e-05, |
|
"loss": 1.8211, |
|
"step": 1800 |
|
}, |
|
{ |
|
"epoch": 7.6, |
|
"learning_rate": 6.642999999999999e-05, |
|
"loss": 1.7377, |
|
"step": 1900 |
|
}, |
|
{ |
|
"epoch": 8.0, |
|
"learning_rate": 6.992999999999999e-05, |
|
"loss": 1.6837, |
|
"step": 2000 |
|
}, |
|
{ |
|
"epoch": 8.0, |
|
"eval_loss": 0.6648585200309753, |
|
"eval_runtime": 162.4473, |
|
"eval_samples_per_second": 21.121, |
|
"eval_steps_per_second": 21.121, |
|
"eval_wer": 0.7515401301518438, |
|
"step": 2000 |
|
}, |
|
{ |
|
"epoch": 8.4, |
|
"learning_rate": 6.934666666666666e-05, |
|
"loss": 1.6398, |
|
"step": 2100 |
|
}, |
|
{ |
|
"epoch": 8.8, |
|
"learning_rate": 6.867999999999999e-05, |
|
"loss": 1.5742, |
|
"step": 2200 |
|
}, |
|
{ |
|
"epoch": 9.2, |
|
"learning_rate": 6.801333333333332e-05, |
|
"loss": 1.5003, |
|
"step": 2300 |
|
}, |
|
{ |
|
"epoch": 9.6, |
|
"learning_rate": 6.734666666666666e-05, |
|
"loss": 1.4354, |
|
"step": 2400 |
|
}, |
|
{ |
|
"epoch": 10.0, |
|
"learning_rate": 6.667999999999999e-05, |
|
"loss": 1.3654, |
|
"step": 2500 |
|
}, |
|
{ |
|
"epoch": 10.4, |
|
"learning_rate": 6.601333333333333e-05, |
|
"loss": 1.3276, |
|
"step": 2600 |
|
}, |
|
{ |
|
"epoch": 10.8, |
|
"learning_rate": 6.534666666666666e-05, |
|
"loss": 1.278, |
|
"step": 2700 |
|
}, |
|
{ |
|
"epoch": 11.2, |
|
"learning_rate": 6.468e-05, |
|
"loss": 1.2794, |
|
"step": 2800 |
|
}, |
|
{ |
|
"epoch": 11.6, |
|
"learning_rate": 6.401333333333332e-05, |
|
"loss": 1.2504, |
|
"step": 2900 |
|
}, |
|
{ |
|
"epoch": 12.0, |
|
"learning_rate": 6.334666666666667e-05, |
|
"loss": 1.2293, |
|
"step": 3000 |
|
}, |
|
{ |
|
"epoch": 12.4, |
|
"learning_rate": 6.268e-05, |
|
"loss": 1.2079, |
|
"step": 3100 |
|
}, |
|
{ |
|
"epoch": 12.8, |
|
"learning_rate": 6.201333333333332e-05, |
|
"loss": 1.1966, |
|
"step": 3200 |
|
}, |
|
{ |
|
"epoch": 13.2, |
|
"learning_rate": 6.134666666666666e-05, |
|
"loss": 1.1706, |
|
"step": 3300 |
|
}, |
|
{ |
|
"epoch": 13.6, |
|
"learning_rate": 6.0679999999999995e-05, |
|
"loss": 1.1587, |
|
"step": 3400 |
|
}, |
|
{ |
|
"epoch": 14.0, |
|
"learning_rate": 6.0013333333333323e-05, |
|
"loss": 1.1514, |
|
"step": 3500 |
|
}, |
|
{ |
|
"epoch": 14.4, |
|
"learning_rate": 5.934666666666666e-05, |
|
"loss": 1.1437, |
|
"step": 3600 |
|
}, |
|
{ |
|
"epoch": 14.8, |
|
"learning_rate": 5.8679999999999994e-05, |
|
"loss": 1.137, |
|
"step": 3700 |
|
}, |
|
{ |
|
"epoch": 15.2, |
|
"learning_rate": 5.801333333333333e-05, |
|
"loss": 1.1301, |
|
"step": 3800 |
|
}, |
|
{ |
|
"epoch": 15.6, |
|
"learning_rate": 5.734666666666666e-05, |
|
"loss": 1.108, |
|
"step": 3900 |
|
}, |
|
{ |
|
"epoch": 16.0, |
|
"learning_rate": 5.668666666666666e-05, |
|
"loss": 1.1105, |
|
"step": 4000 |
|
}, |
|
{ |
|
"epoch": 16.0, |
|
"eval_loss": 0.23862487077713013, |
|
"eval_runtime": 163.3024, |
|
"eval_samples_per_second": 21.01, |
|
"eval_steps_per_second": 21.01, |
|
"eval_wer": 0.3436008676789588, |
|
"step": 4000 |
|
}, |
|
{ |
|
"epoch": 16.4, |
|
"learning_rate": 5.6019999999999996e-05, |
|
"loss": 1.0962, |
|
"step": 4100 |
|
}, |
|
{ |
|
"epoch": 16.8, |
|
"learning_rate": 5.535333333333333e-05, |
|
"loss": 1.0979, |
|
"step": 4200 |
|
}, |
|
{ |
|
"epoch": 17.2, |
|
"learning_rate": 5.4686666666666666e-05, |
|
"loss": 1.0898, |
|
"step": 4300 |
|
}, |
|
{ |
|
"epoch": 17.6, |
|
"learning_rate": 5.4019999999999994e-05, |
|
"loss": 1.0906, |
|
"step": 4400 |
|
}, |
|
{ |
|
"epoch": 18.0, |
|
"learning_rate": 5.335333333333333e-05, |
|
"loss": 1.0685, |
|
"step": 4500 |
|
}, |
|
{ |
|
"epoch": 18.4, |
|
"learning_rate": 5.2686666666666665e-05, |
|
"loss": 1.0622, |
|
"step": 4600 |
|
}, |
|
{ |
|
"epoch": 18.8, |
|
"learning_rate": 5.201999999999999e-05, |
|
"loss": 1.0662, |
|
"step": 4700 |
|
}, |
|
{ |
|
"epoch": 19.2, |
|
"learning_rate": 5.135333333333333e-05, |
|
"loss": 1.064, |
|
"step": 4800 |
|
}, |
|
{ |
|
"epoch": 19.6, |
|
"learning_rate": 5.0686666666666664e-05, |
|
"loss": 1.0674, |
|
"step": 4900 |
|
}, |
|
{ |
|
"epoch": 20.0, |
|
"learning_rate": 5.001999999999999e-05, |
|
"loss": 1.0565, |
|
"step": 5000 |
|
}, |
|
{ |
|
"epoch": 20.4, |
|
"learning_rate": 4.935333333333333e-05, |
|
"loss": 1.0284, |
|
"step": 5100 |
|
}, |
|
{ |
|
"epoch": 20.8, |
|
"learning_rate": 4.868666666666666e-05, |
|
"loss": 1.0432, |
|
"step": 5200 |
|
}, |
|
{ |
|
"epoch": 21.2, |
|
"learning_rate": 4.802e-05, |
|
"loss": 1.0276, |
|
"step": 5300 |
|
}, |
|
{ |
|
"epoch": 21.6, |
|
"learning_rate": 4.7353333333333326e-05, |
|
"loss": 1.0301, |
|
"step": 5400 |
|
}, |
|
{ |
|
"epoch": 22.0, |
|
"learning_rate": 4.668666666666666e-05, |
|
"loss": 1.0273, |
|
"step": 5500 |
|
}, |
|
{ |
|
"epoch": 22.4, |
|
"learning_rate": 4.6019999999999996e-05, |
|
"loss": 1.0306, |
|
"step": 5600 |
|
}, |
|
{ |
|
"epoch": 22.8, |
|
"learning_rate": 4.5353333333333325e-05, |
|
"loss": 1.0204, |
|
"step": 5700 |
|
}, |
|
{ |
|
"epoch": 23.2, |
|
"learning_rate": 4.468666666666666e-05, |
|
"loss": 1.0015, |
|
"step": 5800 |
|
}, |
|
{ |
|
"epoch": 23.6, |
|
"learning_rate": 4.4019999999999995e-05, |
|
"loss": 1.0053, |
|
"step": 5900 |
|
}, |
|
{ |
|
"epoch": 24.0, |
|
"learning_rate": 4.3353333333333324e-05, |
|
"loss": 1.0069, |
|
"step": 6000 |
|
}, |
|
{ |
|
"epoch": 24.0, |
|
"eval_loss": 0.20076848566532135, |
|
"eval_runtime": 163.4066, |
|
"eval_samples_per_second": 20.997, |
|
"eval_steps_per_second": 20.997, |
|
"eval_wer": 0.29683297180043383, |
|
"step": 6000 |
|
}, |
|
{ |
|
"epoch": 24.4, |
|
"learning_rate": 4.2686666666666666e-05, |
|
"loss": 0.9962, |
|
"step": 6100 |
|
}, |
|
{ |
|
"epoch": 24.8, |
|
"learning_rate": 4.202e-05, |
|
"loss": 1.0081, |
|
"step": 6200 |
|
}, |
|
{ |
|
"epoch": 25.2, |
|
"learning_rate": 4.136e-05, |
|
"loss": 1.0055, |
|
"step": 6300 |
|
}, |
|
{ |
|
"epoch": 25.6, |
|
"learning_rate": 4.069333333333333e-05, |
|
"loss": 0.9909, |
|
"step": 6400 |
|
}, |
|
{ |
|
"epoch": 26.0, |
|
"learning_rate": 4.002666666666666e-05, |
|
"loss": 0.9936, |
|
"step": 6500 |
|
}, |
|
{ |
|
"epoch": 26.4, |
|
"learning_rate": 3.9359999999999996e-05, |
|
"loss": 0.9702, |
|
"step": 6600 |
|
}, |
|
{ |
|
"epoch": 26.8, |
|
"learning_rate": 3.869333333333333e-05, |
|
"loss": 0.9748, |
|
"step": 6700 |
|
}, |
|
{ |
|
"epoch": 27.2, |
|
"learning_rate": 3.802666666666666e-05, |
|
"loss": 0.9923, |
|
"step": 6800 |
|
}, |
|
{ |
|
"epoch": 27.6, |
|
"learning_rate": 3.736666666666667e-05, |
|
"loss": 0.976, |
|
"step": 6900 |
|
}, |
|
{ |
|
"epoch": 28.0, |
|
"learning_rate": 3.669999999999999e-05, |
|
"loss": 0.9792, |
|
"step": 7000 |
|
}, |
|
{ |
|
"epoch": 28.4, |
|
"learning_rate": 3.603333333333333e-05, |
|
"loss": 0.9667, |
|
"step": 7100 |
|
}, |
|
{ |
|
"epoch": 28.8, |
|
"learning_rate": 3.536666666666667e-05, |
|
"loss": 0.9686, |
|
"step": 7200 |
|
}, |
|
{ |
|
"epoch": 29.2, |
|
"learning_rate": 3.4699999999999996e-05, |
|
"loss": 0.9592, |
|
"step": 7300 |
|
}, |
|
{ |
|
"epoch": 29.6, |
|
"learning_rate": 3.403333333333333e-05, |
|
"loss": 0.9512, |
|
"step": 7400 |
|
}, |
|
{ |
|
"epoch": 30.0, |
|
"learning_rate": 3.336666666666667e-05, |
|
"loss": 0.9624, |
|
"step": 7500 |
|
}, |
|
{ |
|
"epoch": 30.4, |
|
"learning_rate": 3.2699999999999995e-05, |
|
"loss": 0.9581, |
|
"step": 7600 |
|
}, |
|
{ |
|
"epoch": 30.8, |
|
"learning_rate": 3.203333333333333e-05, |
|
"loss": 0.9421, |
|
"step": 7700 |
|
}, |
|
{ |
|
"epoch": 31.2, |
|
"learning_rate": 3.1366666666666666e-05, |
|
"loss": 0.9468, |
|
"step": 7800 |
|
}, |
|
{ |
|
"epoch": 31.6, |
|
"learning_rate": 3.0699999999999994e-05, |
|
"loss": 0.9411, |
|
"step": 7900 |
|
}, |
|
{ |
|
"epoch": 32.0, |
|
"learning_rate": 3.0033333333333333e-05, |
|
"loss": 0.9417, |
|
"step": 8000 |
|
}, |
|
{ |
|
"epoch": 32.0, |
|
"eval_loss": 0.19149591028690338, |
|
"eval_runtime": 163.3845, |
|
"eval_samples_per_second": 21.0, |
|
"eval_steps_per_second": 21.0, |
|
"eval_wer": 0.2774403470715835, |
|
"step": 8000 |
|
}, |
|
{ |
|
"epoch": 32.4, |
|
"learning_rate": 2.9366666666666664e-05, |
|
"loss": 0.9303, |
|
"step": 8100 |
|
}, |
|
{ |
|
"epoch": 32.8, |
|
"learning_rate": 2.8699999999999996e-05, |
|
"loss": 0.9484, |
|
"step": 8200 |
|
}, |
|
{ |
|
"epoch": 33.2, |
|
"learning_rate": 2.803333333333333e-05, |
|
"loss": 0.93, |
|
"step": 8300 |
|
}, |
|
{ |
|
"epoch": 33.6, |
|
"learning_rate": 2.7366666666666663e-05, |
|
"loss": 0.9313, |
|
"step": 8400 |
|
}, |
|
{ |
|
"epoch": 34.0, |
|
"learning_rate": 2.67e-05, |
|
"loss": 0.9365, |
|
"step": 8500 |
|
}, |
|
{ |
|
"epoch": 34.4, |
|
"learning_rate": 2.603333333333333e-05, |
|
"loss": 0.9266, |
|
"step": 8600 |
|
}, |
|
{ |
|
"epoch": 34.8, |
|
"learning_rate": 2.5366666666666662e-05, |
|
"loss": 0.9197, |
|
"step": 8700 |
|
}, |
|
{ |
|
"epoch": 35.2, |
|
"learning_rate": 2.4699999999999997e-05, |
|
"loss": 0.9325, |
|
"step": 8800 |
|
}, |
|
{ |
|
"epoch": 35.6, |
|
"learning_rate": 2.403333333333333e-05, |
|
"loss": 0.9178, |
|
"step": 8900 |
|
}, |
|
{ |
|
"epoch": 36.0, |
|
"learning_rate": 2.3366666666666668e-05, |
|
"loss": 0.9107, |
|
"step": 9000 |
|
}, |
|
{ |
|
"epoch": 36.4, |
|
"learning_rate": 2.27e-05, |
|
"loss": 0.9152, |
|
"step": 9100 |
|
}, |
|
{ |
|
"epoch": 36.8, |
|
"learning_rate": 2.203333333333333e-05, |
|
"loss": 0.9043, |
|
"step": 9200 |
|
}, |
|
{ |
|
"epoch": 37.2, |
|
"learning_rate": 2.1366666666666667e-05, |
|
"loss": 0.905, |
|
"step": 9300 |
|
}, |
|
{ |
|
"epoch": 37.6, |
|
"learning_rate": 2.07e-05, |
|
"loss": 0.9086, |
|
"step": 9400 |
|
}, |
|
{ |
|
"epoch": 38.0, |
|
"learning_rate": 2.0033333333333334e-05, |
|
"loss": 0.9144, |
|
"step": 9500 |
|
}, |
|
{ |
|
"epoch": 38.4, |
|
"learning_rate": 1.9366666666666665e-05, |
|
"loss": 0.9043, |
|
"step": 9600 |
|
}, |
|
{ |
|
"epoch": 38.8, |
|
"learning_rate": 1.8706666666666665e-05, |
|
"loss": 0.895, |
|
"step": 9700 |
|
}, |
|
{ |
|
"epoch": 39.2, |
|
"learning_rate": 1.804e-05, |
|
"loss": 0.9035, |
|
"step": 9800 |
|
}, |
|
{ |
|
"epoch": 39.6, |
|
"learning_rate": 1.7373333333333332e-05, |
|
"loss": 0.8993, |
|
"step": 9900 |
|
}, |
|
{ |
|
"epoch": 40.0, |
|
"learning_rate": 1.6706666666666664e-05, |
|
"loss": 0.887, |
|
"step": 10000 |
|
}, |
|
{ |
|
"epoch": 40.0, |
|
"eval_loss": 0.18192386627197266, |
|
"eval_runtime": 161.0783, |
|
"eval_samples_per_second": 21.3, |
|
"eval_steps_per_second": 21.3, |
|
"eval_wer": 0.26156182212581347, |
|
"step": 10000 |
|
}, |
|
{ |
|
"epoch": 40.4, |
|
"learning_rate": 1.604e-05, |
|
"loss": 0.8917, |
|
"step": 10100 |
|
}, |
|
{ |
|
"epoch": 40.8, |
|
"learning_rate": 1.5373333333333334e-05, |
|
"loss": 0.8863, |
|
"step": 10200 |
|
}, |
|
{ |
|
"epoch": 41.2, |
|
"learning_rate": 1.4706666666666664e-05, |
|
"loss": 0.8793, |
|
"step": 10300 |
|
}, |
|
{ |
|
"epoch": 41.6, |
|
"learning_rate": 1.4039999999999998e-05, |
|
"loss": 0.8818, |
|
"step": 10400 |
|
}, |
|
{ |
|
"epoch": 42.0, |
|
"learning_rate": 1.3373333333333333e-05, |
|
"loss": 0.8873, |
|
"step": 10500 |
|
}, |
|
{ |
|
"epoch": 42.4, |
|
"learning_rate": 1.2706666666666666e-05, |
|
"loss": 0.8873, |
|
"step": 10600 |
|
}, |
|
{ |
|
"epoch": 42.8, |
|
"learning_rate": 1.2039999999999998e-05, |
|
"loss": 0.8683, |
|
"step": 10700 |
|
}, |
|
{ |
|
"epoch": 43.2, |
|
"learning_rate": 1.1373333333333332e-05, |
|
"loss": 0.8815, |
|
"step": 10800 |
|
}, |
|
{ |
|
"epoch": 43.6, |
|
"learning_rate": 1.0706666666666665e-05, |
|
"loss": 0.8715, |
|
"step": 10900 |
|
}, |
|
{ |
|
"epoch": 44.0, |
|
"learning_rate": 1.0039999999999999e-05, |
|
"loss": 0.8732, |
|
"step": 11000 |
|
}, |
|
{ |
|
"epoch": 44.4, |
|
"learning_rate": 9.373333333333334e-06, |
|
"loss": 0.8836, |
|
"step": 11100 |
|
}, |
|
{ |
|
"epoch": 44.8, |
|
"learning_rate": 8.706666666666666e-06, |
|
"loss": 0.8609, |
|
"step": 11200 |
|
}, |
|
{ |
|
"epoch": 45.2, |
|
"learning_rate": 8.04e-06, |
|
"loss": 0.882, |
|
"step": 11300 |
|
}, |
|
{ |
|
"epoch": 45.6, |
|
"learning_rate": 7.373333333333333e-06, |
|
"loss": 0.8702, |
|
"step": 11400 |
|
}, |
|
{ |
|
"epoch": 46.0, |
|
"learning_rate": 6.706666666666665e-06, |
|
"loss": 0.8673, |
|
"step": 11500 |
|
}, |
|
{ |
|
"epoch": 46.4, |
|
"learning_rate": 6.04e-06, |
|
"loss": 0.8638, |
|
"step": 11600 |
|
}, |
|
{ |
|
"epoch": 46.8, |
|
"learning_rate": 5.373333333333333e-06, |
|
"loss": 0.877, |
|
"step": 11700 |
|
}, |
|
{ |
|
"epoch": 47.2, |
|
"learning_rate": 4.706666666666666e-06, |
|
"loss": 0.8605, |
|
"step": 11800 |
|
}, |
|
{ |
|
"epoch": 47.6, |
|
"learning_rate": 4.0399999999999994e-06, |
|
"loss": 0.8472, |
|
"step": 11900 |
|
}, |
|
{ |
|
"epoch": 48.0, |
|
"learning_rate": 3.3733333333333334e-06, |
|
"loss": 0.8563, |
|
"step": 12000 |
|
}, |
|
{ |
|
"epoch": 48.0, |
|
"eval_loss": 0.17289325594902039, |
|
"eval_runtime": 164.3624, |
|
"eval_samples_per_second": 20.875, |
|
"eval_steps_per_second": 20.875, |
|
"eval_wer": 0.24754880694143166, |
|
"step": 12000 |
|
}, |
|
{ |
|
"epoch": 48.4, |
|
"learning_rate": 2.7066666666666664e-06, |
|
"loss": 0.8802, |
|
"step": 12100 |
|
}, |
|
{ |
|
"epoch": 48.8, |
|
"learning_rate": 2.04e-06, |
|
"loss": 0.8534, |
|
"step": 12200 |
|
}, |
|
{ |
|
"epoch": 49.2, |
|
"learning_rate": 1.3733333333333332e-06, |
|
"loss": 0.8543, |
|
"step": 12300 |
|
}, |
|
{ |
|
"epoch": 49.6, |
|
"learning_rate": 7.066666666666665e-07, |
|
"loss": 0.8663, |
|
"step": 12400 |
|
}, |
|
{ |
|
"epoch": 50.0, |
|
"learning_rate": 4e-08, |
|
"loss": 0.8528, |
|
"step": 12500 |
|
}, |
|
{ |
|
"epoch": 50.0, |
|
"step": 12500, |
|
"total_flos": 4.84683909774298e+19, |
|
"train_loss": 1.3891823223876953, |
|
"train_runtime": 18203.5679, |
|
"train_samples_per_second": 21.944, |
|
"train_steps_per_second": 0.687 |
|
} |
|
], |
|
"max_steps": 12500, |
|
"num_train_epochs": 50, |
|
"total_flos": 4.84683909774298e+19, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|