{ "best_metric": 0.0076544685289263725, "best_model_checkpoint": "flan-search-terms/checkpoint-7500", "epoch": 5.0, "eval_steps": 500, "global_step": 7500, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.33, "learning_rate": 4.666666666666667e-05, "loss": 3.6415, "step": 500 }, { "epoch": 0.67, "learning_rate": 4.3333333333333334e-05, "loss": 0.0455, "step": 1000 }, { "epoch": 1.0, "learning_rate": 4e-05, "loss": 0.0301, "step": 1500 }, { "epoch": 1.0, "eval_gen_len": 4.940333333333333, "eval_loss": 0.01884176954627037, "eval_rouge1": 6.3132, "eval_rouge2": 5.5233, "eval_rougeL": 5.9306, "eval_rougeLsum": 5.9285, "eval_runtime": 220.0768, "eval_samples_per_second": 13.632, "eval_steps_per_second": 1.704, "step": 1500 }, { "epoch": 1.33, "learning_rate": 3.6666666666666666e-05, "loss": 0.0238, "step": 2000 }, { "epoch": 1.67, "learning_rate": 3.3333333333333335e-05, "loss": 0.0198, "step": 2500 }, { "epoch": 2.0, "learning_rate": 3e-05, "loss": 0.0167, "step": 3000 }, { "epoch": 2.0, "eval_gen_len": 7.261666666666667, "eval_loss": 0.011832883581519127, "eval_rouge1": 5.6248, "eval_rouge2": 4.8018, "eval_rougeL": 5.2386, "eval_rougeLsum": 5.238, "eval_runtime": 232.4413, "eval_samples_per_second": 12.906, "eval_steps_per_second": 1.613, "step": 3000 }, { "epoch": 2.33, "learning_rate": 2.6666666666666667e-05, "loss": 0.0152, "step": 3500 }, { "epoch": 2.67, "learning_rate": 2.3333333333333336e-05, "loss": 0.0143, "step": 4000 }, { "epoch": 3.0, "learning_rate": 2e-05, "loss": 0.0136, "step": 4500 }, { "epoch": 3.0, "eval_gen_len": 8.599, "eval_loss": 0.009255478158593178, "eval_rouge1": 5.2543, "eval_rouge2": 4.4034, "eval_rougeL": 4.8643, "eval_rougeLsum": 4.8675, "eval_runtime": 252.1869, "eval_samples_per_second": 11.896, "eval_steps_per_second": 1.487, "step": 4500 }, { "epoch": 3.33, "learning_rate": 1.6666666666666667e-05, "loss": 0.0127, "step": 5000 }, { "epoch": 3.67, "learning_rate": 1.3333333333333333e-05, "loss": 0.0119, "step": 5500 }, { "epoch": 4.0, "learning_rate": 1e-05, "loss": 0.0114, "step": 6000 }, { "epoch": 4.0, "eval_gen_len": 8.544666666666666, "eval_loss": 0.007984320633113384, "eval_rouge1": 5.3013, "eval_rouge2": 4.448, "eval_rougeL": 4.9117, "eval_rougeLsum": 4.9183, "eval_runtime": 255.3664, "eval_samples_per_second": 11.748, "eval_steps_per_second": 1.468, "step": 6000 }, { "epoch": 4.33, "learning_rate": 6.666666666666667e-06, "loss": 0.011, "step": 6500 }, { "epoch": 4.67, "learning_rate": 3.3333333333333333e-06, "loss": 0.0112, "step": 7000 }, { "epoch": 5.0, "learning_rate": 0.0, "loss": 0.0105, "step": 7500 }, { "epoch": 5.0, "eval_gen_len": 8.819, "eval_loss": 0.0076544685289263725, "eval_rouge1": 5.2275, "eval_rouge2": 4.3657, "eval_rougeL": 4.8365, "eval_rougeLsum": 4.8414, "eval_runtime": 257.9989, "eval_samples_per_second": 11.628, "eval_steps_per_second": 1.453, "step": 7500 } ], "logging_steps": 500, "max_steps": 7500, "num_train_epochs": 5, "save_steps": 500, "total_flos": 1.115343028224e+16, "trial_name": null, "trial_params": null }