|
{ |
|
"best_metric": 4.8385198634858195, |
|
"best_model_checkpoint": "./checkpoint-1500", |
|
"epoch": 2.276, |
|
"global_step": 1500, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.02, |
|
"learning_rate": 5.337725362513818e-07, |
|
"loss": 1.0338, |
|
"step": 25 |
|
}, |
|
{ |
|
"epoch": 0.03, |
|
"learning_rate": 6.712460395362235e-07, |
|
"loss": 0.6138, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 0.05, |
|
"learning_rate": 7.448557621064326e-07, |
|
"loss": 0.3242, |
|
"step": 75 |
|
}, |
|
{ |
|
"epoch": 0.07, |
|
"learning_rate": 7.98395961247633e-07, |
|
"loss": 0.2734, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 0.08, |
|
"learning_rate": 8.393538435335606e-07, |
|
"loss": 0.2426, |
|
"step": 125 |
|
}, |
|
{ |
|
"epoch": 0.1, |
|
"learning_rate": 8.725321774688733e-07, |
|
"loss": 0.2288, |
|
"step": 150 |
|
}, |
|
{ |
|
"epoch": 0.12, |
|
"learning_rate": 9.004197582692396e-07, |
|
"loss": 0.2202, |
|
"step": 175 |
|
}, |
|
{ |
|
"epoch": 0.13, |
|
"learning_rate": 9.244741681495453e-07, |
|
"loss": 0.1864, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 0.15, |
|
"learning_rate": 9.456229388687313e-07, |
|
"loss": 0.2019, |
|
"step": 225 |
|
}, |
|
{ |
|
"epoch": 0.17, |
|
"learning_rate": 9.644929895185596e-07, |
|
"loss": 0.1834, |
|
"step": 250 |
|
}, |
|
{ |
|
"epoch": 0.18, |
|
"learning_rate": 9.815279569082485e-07, |
|
"loss": 0.1815, |
|
"step": 275 |
|
}, |
|
{ |
|
"epoch": 0.2, |
|
"learning_rate": 9.970533381328862e-07, |
|
"loss": 0.1761, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 0.22, |
|
"learning_rate": 9.841666666666666e-07, |
|
"loss": 0.185, |
|
"step": 325 |
|
}, |
|
{ |
|
"epoch": 0.23, |
|
"learning_rate": 9.633333333333334e-07, |
|
"loss": 0.1538, |
|
"step": 350 |
|
}, |
|
{ |
|
"epoch": 0.25, |
|
"learning_rate": 9.425e-07, |
|
"loss": 0.1623, |
|
"step": 375 |
|
}, |
|
{ |
|
"epoch": 0.27, |
|
"learning_rate": 9.216666666666666e-07, |
|
"loss": 0.1569, |
|
"step": 400 |
|
}, |
|
{ |
|
"epoch": 0.28, |
|
"learning_rate": 9.008333333333333e-07, |
|
"loss": 0.1465, |
|
"step": 425 |
|
}, |
|
{ |
|
"epoch": 0.3, |
|
"learning_rate": 8.799999999999999e-07, |
|
"loss": 0.1508, |
|
"step": 450 |
|
}, |
|
{ |
|
"epoch": 0.32, |
|
"learning_rate": 8.591666666666666e-07, |
|
"loss": 0.1509, |
|
"step": 475 |
|
}, |
|
{ |
|
"epoch": 0.33, |
|
"learning_rate": 8.383333333333334e-07, |
|
"loss": 0.1526, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 0.33, |
|
"eval_loss": 0.1588134765625, |
|
"eval_runtime": 2273.9706, |
|
"eval_samples_per_second": 3.823, |
|
"eval_steps_per_second": 0.239, |
|
"eval_wer": 4.907449437635548, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 0.35, |
|
"learning_rate": 8.175e-07, |
|
"loss": 0.1533, |
|
"step": 525 |
|
}, |
|
{ |
|
"epoch": 1.0, |
|
"learning_rate": 7.966666666666666e-07, |
|
"loss": 0.1471, |
|
"step": 550 |
|
}, |
|
{ |
|
"epoch": 1.02, |
|
"learning_rate": 7.758333333333334e-07, |
|
"loss": 0.1451, |
|
"step": 575 |
|
}, |
|
{ |
|
"epoch": 1.04, |
|
"learning_rate": 7.55e-07, |
|
"loss": 0.1406, |
|
"step": 600 |
|
}, |
|
{ |
|
"epoch": 1.05, |
|
"learning_rate": 7.341666666666666e-07, |
|
"loss": 0.1306, |
|
"step": 625 |
|
}, |
|
{ |
|
"epoch": 1.07, |
|
"learning_rate": 7.133333333333333e-07, |
|
"loss": 0.1226, |
|
"step": 650 |
|
}, |
|
{ |
|
"epoch": 1.09, |
|
"learning_rate": 6.924999999999999e-07, |
|
"loss": 0.1152, |
|
"step": 675 |
|
}, |
|
{ |
|
"epoch": 1.1, |
|
"learning_rate": 6.716666666666666e-07, |
|
"loss": 0.1251, |
|
"step": 700 |
|
}, |
|
{ |
|
"epoch": 1.12, |
|
"learning_rate": 6.508333333333334e-07, |
|
"loss": 0.1169, |
|
"step": 725 |
|
}, |
|
{ |
|
"epoch": 1.14, |
|
"learning_rate": 6.3e-07, |
|
"loss": 0.1092, |
|
"step": 750 |
|
}, |
|
{ |
|
"epoch": 1.15, |
|
"learning_rate": 6.091666666666666e-07, |
|
"loss": 0.13, |
|
"step": 775 |
|
}, |
|
{ |
|
"epoch": 1.17, |
|
"learning_rate": 5.883333333333333e-07, |
|
"loss": 0.1177, |
|
"step": 800 |
|
}, |
|
{ |
|
"epoch": 1.19, |
|
"learning_rate": 5.675e-07, |
|
"loss": 0.1127, |
|
"step": 825 |
|
}, |
|
{ |
|
"epoch": 1.2, |
|
"learning_rate": 5.474999999999999e-07, |
|
"loss": 0.1114, |
|
"step": 850 |
|
}, |
|
{ |
|
"epoch": 1.22, |
|
"learning_rate": 5.266666666666666e-07, |
|
"loss": 0.1139, |
|
"step": 875 |
|
}, |
|
{ |
|
"epoch": 1.24, |
|
"learning_rate": 5.058333333333333e-07, |
|
"loss": 0.1096, |
|
"step": 900 |
|
}, |
|
{ |
|
"epoch": 1.25, |
|
"learning_rate": 4.85e-07, |
|
"loss": 0.1021, |
|
"step": 925 |
|
}, |
|
{ |
|
"epoch": 1.27, |
|
"learning_rate": 4.6416666666666663e-07, |
|
"loss": 0.1037, |
|
"step": 950 |
|
}, |
|
{ |
|
"epoch": 1.29, |
|
"learning_rate": 4.4333333333333336e-07, |
|
"loss": 0.1053, |
|
"step": 975 |
|
}, |
|
{ |
|
"epoch": 1.3, |
|
"learning_rate": 4.225e-07, |
|
"loss": 0.1046, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 1.3, |
|
"eval_loss": 0.1510009765625, |
|
"eval_runtime": 2297.9318, |
|
"eval_samples_per_second": 3.783, |
|
"eval_steps_per_second": 0.237, |
|
"eval_wer": 4.8805500916258975, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 1.32, |
|
"learning_rate": 4.0166666666666665e-07, |
|
"loss": 0.1072, |
|
"step": 1025 |
|
}, |
|
{ |
|
"epoch": 1.34, |
|
"learning_rate": 3.808333333333333e-07, |
|
"loss": 0.1089, |
|
"step": 1050 |
|
}, |
|
{ |
|
"epoch": 1.35, |
|
"learning_rate": 3.6e-07, |
|
"loss": 0.1082, |
|
"step": 1075 |
|
}, |
|
{ |
|
"epoch": 2.01, |
|
"learning_rate": 3.3916666666666667e-07, |
|
"loss": 0.1089, |
|
"step": 1100 |
|
}, |
|
{ |
|
"epoch": 2.03, |
|
"learning_rate": 3.1833333333333334e-07, |
|
"loss": 0.1109, |
|
"step": 1125 |
|
}, |
|
{ |
|
"epoch": 2.04, |
|
"learning_rate": 2.9749999999999996e-07, |
|
"loss": 0.0989, |
|
"step": 1150 |
|
}, |
|
{ |
|
"epoch": 2.06, |
|
"learning_rate": 2.766666666666667e-07, |
|
"loss": 0.0959, |
|
"step": 1175 |
|
}, |
|
{ |
|
"epoch": 2.08, |
|
"learning_rate": 2.5583333333333335e-07, |
|
"loss": 0.0985, |
|
"step": 1200 |
|
}, |
|
{ |
|
"epoch": 2.09, |
|
"learning_rate": 2.3499999999999997e-07, |
|
"loss": 0.0862, |
|
"step": 1225 |
|
}, |
|
{ |
|
"epoch": 2.11, |
|
"learning_rate": 2.1416666666666667e-07, |
|
"loss": 0.092, |
|
"step": 1250 |
|
}, |
|
{ |
|
"epoch": 2.13, |
|
"learning_rate": 1.9333333333333332e-07, |
|
"loss": 0.0926, |
|
"step": 1275 |
|
}, |
|
{ |
|
"epoch": 2.14, |
|
"learning_rate": 1.725e-07, |
|
"loss": 0.0893, |
|
"step": 1300 |
|
}, |
|
{ |
|
"epoch": 2.16, |
|
"learning_rate": 1.5166666666666666e-07, |
|
"loss": 0.0984, |
|
"step": 1325 |
|
}, |
|
{ |
|
"epoch": 2.18, |
|
"learning_rate": 1.3083333333333333e-07, |
|
"loss": 0.0902, |
|
"step": 1350 |
|
}, |
|
{ |
|
"epoch": 2.19, |
|
"learning_rate": 1.0999999999999999e-07, |
|
"loss": 0.0972, |
|
"step": 1375 |
|
}, |
|
{ |
|
"epoch": 2.21, |
|
"learning_rate": 8.916666666666666e-08, |
|
"loss": 0.0938, |
|
"step": 1400 |
|
}, |
|
{ |
|
"epoch": 2.23, |
|
"learning_rate": 6.833333333333332e-08, |
|
"loss": 0.0847, |
|
"step": 1425 |
|
}, |
|
{ |
|
"epoch": 2.24, |
|
"learning_rate": 4.7499999999999995e-08, |
|
"loss": 0.091, |
|
"step": 1450 |
|
}, |
|
{ |
|
"epoch": 2.26, |
|
"learning_rate": 2.6666666666666667e-08, |
|
"loss": 0.0808, |
|
"step": 1475 |
|
}, |
|
{ |
|
"epoch": 2.28, |
|
"learning_rate": 5.8333333333333335e-09, |
|
"loss": 0.079, |
|
"step": 1500 |
|
}, |
|
{ |
|
"epoch": 2.28, |
|
"eval_loss": 0.1502685546875, |
|
"eval_runtime": 2273.3398, |
|
"eval_samples_per_second": 3.824, |
|
"eval_steps_per_second": 0.239, |
|
"eval_wer": 4.8385198634858195, |
|
"step": 1500 |
|
}, |
|
{ |
|
"epoch": 2.28, |
|
"step": 1500, |
|
"total_flos": 1.0191220995495297e+20, |
|
"train_loss": 0.15757004801432292, |
|
"train_runtime": 18540.0869, |
|
"train_samples_per_second": 2.589, |
|
"train_steps_per_second": 0.081 |
|
} |
|
], |
|
"max_steps": 1500, |
|
"num_train_epochs": 9223372036854775807, |
|
"total_flos": 1.0191220995495297e+20, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|