File size: 3,151 Bytes

112e9da
 
 
 
 
 
 
 
 
 
 
 
a3eebaa
112e9da
a3eebaa
112e9da
 
 
 
 
a3eebaa
 
112e9da
a3eebaa
 
 
 
 
112e9da
 
 
 
a3eebaa
112e9da
a3eebaa
112e9da
 
 
 
 
a3eebaa
 
112e9da
a3eebaa
 
 
 
112e9da
 
 
 
 
a3eebaa
112e9da
a3eebaa
112e9da
 
 
 
 
a3eebaa
 
112e9da
a3eebaa
 
 
 
112e9da
 
 
 
 
a3eebaa
112e9da
a3eebaa
112e9da
 
 
 
 
a3eebaa
 
112e9da
a3eebaa
 
 
 
 
112e9da
 
 
 
a3eebaa
112e9da
a3eebaa
112e9da
 
 
 
 
a3eebaa
 
112e9da
a3eebaa
 
 
 
 
112e9da
 
 
 
 
a3eebaa
 
 
 
 
112e9da
 
 
 
 
 
 
a3eebaa
112e9da

{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 5.0,
  "eval_steps": 500,
  "global_step": 8935,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 1.0,
      "grad_norm": 7.113146781921387,
      "learning_rate": 4e-05,
      "loss": 1.2329,
      "step": 1787
    },
    {
      "epoch": 1.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.5976304411888123,
      "eval_rouge1": 0.3912,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.3916,
      "eval_rougeLsum": 0.392,
      "eval_runtime": 114.4182,
      "eval_samples_per_second": 6.529,
      "eval_steps_per_second": 0.21,
      "step": 1787
    },
    {
      "epoch": 2.0,
      "grad_norm": 1.9403228759765625,
      "learning_rate": 3e-05,
      "loss": 0.7952,
      "step": 3574
    },
    {
      "epoch": 2.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.5580247044563293,
      "eval_rouge1": 0.3919,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.3921,
      "eval_rougeLsum": 0.3921,
      "eval_runtime": 112.1899,
      "eval_samples_per_second": 6.658,
      "eval_steps_per_second": 0.214,
      "step": 3574
    },
    {
      "epoch": 3.0,
      "grad_norm": 1.7163584232330322,
      "learning_rate": 2e-05,
      "loss": 0.7407,
      "step": 5361
    },
    {
      "epoch": 3.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.5366058945655823,
      "eval_rouge1": 0.3893,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.3879,
      "eval_rougeLsum": 0.3866,
      "eval_runtime": 112.7826,
      "eval_samples_per_second": 6.623,
      "eval_steps_per_second": 0.213,
      "step": 5361
    },
    {
      "epoch": 4.0,
      "grad_norm": 2.9489381313323975,
      "learning_rate": 1e-05,
      "loss": 0.7152,
      "step": 7148
    },
    {
      "epoch": 4.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.5401661992073059,
      "eval_rouge1": 0.354,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.3512,
      "eval_rougeLsum": 0.3523,
      "eval_runtime": 112.9681,
      "eval_samples_per_second": 6.612,
      "eval_steps_per_second": 0.212,
      "step": 7148
    },
    {
      "epoch": 5.0,
      "grad_norm": 2.7675414085388184,
      "learning_rate": 0.0,
      "loss": 0.7029,
      "step": 8935
    },
    {
      "epoch": 5.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.5351393818855286,
      "eval_rouge1": 0.3585,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.3555,
      "eval_rougeLsum": 0.357,
      "eval_runtime": 113.5022,
      "eval_samples_per_second": 6.581,
      "eval_steps_per_second": 0.211,
      "step": 8935
    },
    {
      "epoch": 5.0,
      "step": 8935,
      "total_flos": 7.531884760915354e+16,
      "train_loss": 0.8373744595297635,
      "train_runtime": 5174.0873,
      "train_samples_per_second": 13.809,
      "train_steps_per_second": 1.727
    }
  ],
  "logging_steps": 500,
  "max_steps": 8935,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 500,
  "total_flos": 7.531884760915354e+16,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}