|
{ |
|
"best_metric": 0.0076544685289263725, |
|
"best_model_checkpoint": "flan-search-terms/checkpoint-7500", |
|
"epoch": 5.0, |
|
"eval_steps": 500, |
|
"global_step": 7500, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.33, |
|
"learning_rate": 4.666666666666667e-05, |
|
"loss": 3.6415, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 0.67, |
|
"learning_rate": 4.3333333333333334e-05, |
|
"loss": 0.0455, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 1.0, |
|
"learning_rate": 4e-05, |
|
"loss": 0.0301, |
|
"step": 1500 |
|
}, |
|
{ |
|
"epoch": 1.0, |
|
"eval_gen_len": 4.940333333333333, |
|
"eval_loss": 0.01884176954627037, |
|
"eval_rouge1": 6.3132, |
|
"eval_rouge2": 5.5233, |
|
"eval_rougeL": 5.9306, |
|
"eval_rougeLsum": 5.9285, |
|
"eval_runtime": 220.0768, |
|
"eval_samples_per_second": 13.632, |
|
"eval_steps_per_second": 1.704, |
|
"step": 1500 |
|
}, |
|
{ |
|
"epoch": 1.33, |
|
"learning_rate": 3.6666666666666666e-05, |
|
"loss": 0.0238, |
|
"step": 2000 |
|
}, |
|
{ |
|
"epoch": 1.67, |
|
"learning_rate": 3.3333333333333335e-05, |
|
"loss": 0.0198, |
|
"step": 2500 |
|
}, |
|
{ |
|
"epoch": 2.0, |
|
"learning_rate": 3e-05, |
|
"loss": 0.0167, |
|
"step": 3000 |
|
}, |
|
{ |
|
"epoch": 2.0, |
|
"eval_gen_len": 7.261666666666667, |
|
"eval_loss": 0.011832883581519127, |
|
"eval_rouge1": 5.6248, |
|
"eval_rouge2": 4.8018, |
|
"eval_rougeL": 5.2386, |
|
"eval_rougeLsum": 5.238, |
|
"eval_runtime": 232.4413, |
|
"eval_samples_per_second": 12.906, |
|
"eval_steps_per_second": 1.613, |
|
"step": 3000 |
|
}, |
|
{ |
|
"epoch": 2.33, |
|
"learning_rate": 2.6666666666666667e-05, |
|
"loss": 0.0152, |
|
"step": 3500 |
|
}, |
|
{ |
|
"epoch": 2.67, |
|
"learning_rate": 2.3333333333333336e-05, |
|
"loss": 0.0143, |
|
"step": 4000 |
|
}, |
|
{ |
|
"epoch": 3.0, |
|
"learning_rate": 2e-05, |
|
"loss": 0.0136, |
|
"step": 4500 |
|
}, |
|
{ |
|
"epoch": 3.0, |
|
"eval_gen_len": 8.599, |
|
"eval_loss": 0.009255478158593178, |
|
"eval_rouge1": 5.2543, |
|
"eval_rouge2": 4.4034, |
|
"eval_rougeL": 4.8643, |
|
"eval_rougeLsum": 4.8675, |
|
"eval_runtime": 252.1869, |
|
"eval_samples_per_second": 11.896, |
|
"eval_steps_per_second": 1.487, |
|
"step": 4500 |
|
}, |
|
{ |
|
"epoch": 3.33, |
|
"learning_rate": 1.6666666666666667e-05, |
|
"loss": 0.0127, |
|
"step": 5000 |
|
}, |
|
{ |
|
"epoch": 3.67, |
|
"learning_rate": 1.3333333333333333e-05, |
|
"loss": 0.0119, |
|
"step": 5500 |
|
}, |
|
{ |
|
"epoch": 4.0, |
|
"learning_rate": 1e-05, |
|
"loss": 0.0114, |
|
"step": 6000 |
|
}, |
|
{ |
|
"epoch": 4.0, |
|
"eval_gen_len": 8.544666666666666, |
|
"eval_loss": 0.007984320633113384, |
|
"eval_rouge1": 5.3013, |
|
"eval_rouge2": 4.448, |
|
"eval_rougeL": 4.9117, |
|
"eval_rougeLsum": 4.9183, |
|
"eval_runtime": 255.3664, |
|
"eval_samples_per_second": 11.748, |
|
"eval_steps_per_second": 1.468, |
|
"step": 6000 |
|
}, |
|
{ |
|
"epoch": 4.33, |
|
"learning_rate": 6.666666666666667e-06, |
|
"loss": 0.011, |
|
"step": 6500 |
|
}, |
|
{ |
|
"epoch": 4.67, |
|
"learning_rate": 3.3333333333333333e-06, |
|
"loss": 0.0112, |
|
"step": 7000 |
|
}, |
|
{ |
|
"epoch": 5.0, |
|
"learning_rate": 0.0, |
|
"loss": 0.0105, |
|
"step": 7500 |
|
}, |
|
{ |
|
"epoch": 5.0, |
|
"eval_gen_len": 8.819, |
|
"eval_loss": 0.0076544685289263725, |
|
"eval_rouge1": 5.2275, |
|
"eval_rouge2": 4.3657, |
|
"eval_rougeL": 4.8365, |
|
"eval_rougeLsum": 4.8414, |
|
"eval_runtime": 257.9989, |
|
"eval_samples_per_second": 11.628, |
|
"eval_steps_per_second": 1.453, |
|
"step": 7500 |
|
} |
|
], |
|
"logging_steps": 500, |
|
"max_steps": 7500, |
|
"num_train_epochs": 5, |
|
"save_steps": 500, |
|
"total_flos": 1.115343028224e+16, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|