|
{ |
|
"best_metric": null, |
|
"best_model_checkpoint": null, |
|
"epoch": 5.0, |
|
"global_step": 9600, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.26, |
|
"learning_rate": 4.739583333333333e-05, |
|
"loss": 0.2081, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 0.52, |
|
"learning_rate": 4.4791666666666673e-05, |
|
"loss": 0.1042, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 0.78, |
|
"learning_rate": 4.21875e-05, |
|
"loss": 0.0927, |
|
"step": 1500 |
|
}, |
|
{ |
|
"epoch": 1.04, |
|
"learning_rate": 3.958333333333333e-05, |
|
"loss": 0.0782, |
|
"step": 2000 |
|
}, |
|
{ |
|
"epoch": 1.3, |
|
"learning_rate": 3.697916666666667e-05, |
|
"loss": 0.0551, |
|
"step": 2500 |
|
}, |
|
{ |
|
"epoch": 1.56, |
|
"learning_rate": 3.4375e-05, |
|
"loss": 0.0522, |
|
"step": 3000 |
|
}, |
|
{ |
|
"epoch": 1.82, |
|
"learning_rate": 3.177083333333333e-05, |
|
"loss": 0.049, |
|
"step": 3500 |
|
}, |
|
{ |
|
"epoch": 2.08, |
|
"learning_rate": 2.916666666666667e-05, |
|
"loss": 0.0425, |
|
"step": 4000 |
|
}, |
|
{ |
|
"epoch": 2.34, |
|
"learning_rate": 2.6562500000000002e-05, |
|
"loss": 0.0283, |
|
"step": 4500 |
|
}, |
|
{ |
|
"epoch": 2.6, |
|
"learning_rate": 2.3958333333333334e-05, |
|
"loss": 0.0271, |
|
"step": 5000 |
|
}, |
|
{ |
|
"epoch": 2.86, |
|
"learning_rate": 2.1354166666666666e-05, |
|
"loss": 0.0281, |
|
"step": 5500 |
|
}, |
|
{ |
|
"epoch": 3.12, |
|
"learning_rate": 1.8750000000000002e-05, |
|
"loss": 0.0203, |
|
"step": 6000 |
|
}, |
|
{ |
|
"epoch": 3.39, |
|
"learning_rate": 1.6145833333333334e-05, |
|
"loss": 0.0155, |
|
"step": 6500 |
|
}, |
|
{ |
|
"epoch": 3.65, |
|
"learning_rate": 1.3541666666666666e-05, |
|
"loss": 0.0161, |
|
"step": 7000 |
|
}, |
|
{ |
|
"epoch": 3.91, |
|
"learning_rate": 1.09375e-05, |
|
"loss": 0.0123, |
|
"step": 7500 |
|
}, |
|
{ |
|
"epoch": 4.17, |
|
"learning_rate": 8.333333333333334e-06, |
|
"loss": 0.0098, |
|
"step": 8000 |
|
}, |
|
{ |
|
"epoch": 4.43, |
|
"learning_rate": 5.729166666666667e-06, |
|
"loss": 0.0088, |
|
"step": 8500 |
|
}, |
|
{ |
|
"epoch": 4.69, |
|
"learning_rate": 3.125e-06, |
|
"loss": 0.0079, |
|
"step": 9000 |
|
}, |
|
{ |
|
"epoch": 4.95, |
|
"learning_rate": 5.208333333333334e-07, |
|
"loss": 0.0072, |
|
"step": 9500 |
|
}, |
|
{ |
|
"epoch": 5.0, |
|
"step": 9600, |
|
"total_flos": 1.6084841463394584e+16, |
|
"train_runtime": 6428.2486, |
|
"train_samples_per_second": 1.493 |
|
} |
|
], |
|
"max_steps": 9600, |
|
"num_train_epochs": 5, |
|
"total_flos": 1.6084841463394584e+16, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|