{
  "best_metric": 72.0587,
  "best_model_checkpoint": "bin/indosum-base-1/checkpoint-4460",
  "epoch": 5.0,
  "eval_steps": 500,
  "global_step": 4460,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 1.0,
      "grad_norm": 0.9205507636070251,
      "learning_rate": 0.0008,
      "loss": 1.1904,
      "step": 892
    },
    {
      "epoch": 1.0,
      "eval_gen_len": 95.85981308411215,
      "eval_loss": 0.8053300976753235,
      "eval_rouge1": 65.8257,
      "eval_rouge2": 57.6167,
      "eval_rougeL": 62.6222,
      "eval_rougeLsum": 65.0027,
      "eval_runtime": 190.0984,
      "eval_samples_per_second": 3.94,
      "eval_steps_per_second": 0.126,
      "step": 892
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.9236537218093872,
      "learning_rate": 0.0006,
      "loss": 0.6851,
      "step": 1784
    },
    {
      "epoch": 2.0,
      "eval_gen_len": 96.29105473965286,
      "eval_loss": 0.6778599619865417,
      "eval_rouge1": 67.8889,
      "eval_rouge2": 60.0878,
      "eval_rougeL": 64.5868,
      "eval_rougeLsum": 66.9914,
      "eval_runtime": 191.4753,
      "eval_samples_per_second": 3.912,
      "eval_steps_per_second": 0.125,
      "step": 1784
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.7036951184272766,
      "learning_rate": 0.0004,
      "loss": 0.4856,
      "step": 2676
    },
    {
      "epoch": 3.0,
      "eval_gen_len": 96.92122830440587,
      "eval_loss": 0.6460219621658325,
      "eval_rouge1": 70.9241,
      "eval_rouge2": 63.6363,
      "eval_rougeL": 67.8555,
      "eval_rougeLsum": 70.153,
      "eval_runtime": 191.9289,
      "eval_samples_per_second": 3.902,
      "eval_steps_per_second": 0.125,
      "step": 2676
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.5336605906486511,
      "learning_rate": 0.0002,
      "loss": 0.3358,
      "step": 3568
    },
    {
      "epoch": 4.0,
      "eval_gen_len": 101.87449933244326,
      "eval_loss": 0.6564512848854065,
      "eval_rouge1": 69.9002,
      "eval_rouge2": 62.4,
      "eval_rougeL": 66.5928,
      "eval_rougeLsum": 69.0347,
      "eval_runtime": 192.0018,
      "eval_samples_per_second": 3.901,
      "eval_steps_per_second": 0.125,
      "step": 3568
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.46569395065307617,
      "learning_rate": 0.0,
      "loss": 0.1973,
      "step": 4460
    },
    {
      "epoch": 5.0,
      "eval_gen_len": 99.37650200267022,
      "eval_loss": 0.7477750778198242,
      "eval_rouge1": 72.0587,
      "eval_rouge2": 64.7973,
      "eval_rougeL": 68.9279,
      "eval_rougeLsum": 71.3028,
      "eval_runtime": 192.0514,
      "eval_samples_per_second": 3.9,
      "eval_steps_per_second": 0.125,
      "step": 4460
    },
    {
      "epoch": 5.0,
      "step": 4460,
      "total_flos": 4.883347058982912e+16,
      "train_loss": 0.5788277185551254,
      "train_runtime": 5011.2822,
      "train_samples_per_second": 14.231,
      "train_steps_per_second": 0.89
    }
  ],
  "logging_steps": 500,
  "max_steps": 4460,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 500,
  "total_flos": 4.883347058982912e+16,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}