File size: 3,157 Bytes

ad4c7a9
 
 
 
 
dd81a03
ad4c7a9
 
 
 
 
 
5dd13bf
dd81a03
5dd13bf
dd81a03
ad4c7a9
 
 
 
5dd13bf
 
ad4c7a9
5dd13bf
 
 
 
dd81a03
 
ad4c7a9
 
 
5dd13bf
dd81a03
5dd13bf
dd81a03
ad4c7a9
 
 
 
5dd13bf
 
ad4c7a9
5dd13bf
 
 
 
 
dd81a03
ad4c7a9
 
 
5dd13bf
dd81a03
5dd13bf
dd81a03
ad4c7a9
 
 
 
5dd13bf
 
ad4c7a9
5dd13bf
 
 
 
 
dd81a03
ad4c7a9
 
 
5dd13bf
dd81a03
5dd13bf
dd81a03
ad4c7a9
 
 
 
5dd13bf
 
ad4c7a9
5dd13bf
 
 
 
 
dd81a03
ad4c7a9
 
 
5dd13bf
ad4c7a9
5dd13bf
dd81a03
ad4c7a9
 
 
 
5dd13bf
 
ad4c7a9
5dd13bf
 
 
 
 
dd81a03
ad4c7a9
 
 
dd81a03
5dd13bf
 
 
 
 
ad4c7a9
 
 
dd81a03
ad4c7a9
 
 
5dd13bf
dd81a03
ad4c7a9

{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 5.0,
  "eval_steps": 500,
  "global_step": 4460,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 1.0,
      "grad_norm": 0.48672914505004883,
      "learning_rate": 0.0008,
      "loss": 0.7751,
      "step": 892
    },
    {
      "epoch": 1.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.556481659412384,
      "eval_rouge1": 0.6744,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.6731,
      "eval_rougeLsum": 0.6738,
      "eval_runtime": 38.0578,
      "eval_samples_per_second": 19.707,
      "eval_steps_per_second": 0.631,
      "step": 892
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.4337797462940216,
      "learning_rate": 0.0006,
      "loss": 0.5945,
      "step": 1784
    },
    {
      "epoch": 2.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.5315232872962952,
      "eval_rouge1": 0.6624,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.6627,
      "eval_rougeLsum": 0.6631,
      "eval_runtime": 38.5047,
      "eval_samples_per_second": 19.478,
      "eval_steps_per_second": 0.623,
      "step": 1784
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.5190469026565552,
      "learning_rate": 0.0004,
      "loss": 0.5498,
      "step": 2676
    },
    {
      "epoch": 3.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.5278128981590271,
      "eval_rouge1": 0.6681,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.6682,
      "eval_rougeLsum": 0.6679,
      "eval_runtime": 38.5769,
      "eval_samples_per_second": 19.442,
      "eval_steps_per_second": 0.622,
      "step": 2676
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.41587188839912415,
      "learning_rate": 0.0002,
      "loss": 0.5192,
      "step": 3568
    },
    {
      "epoch": 4.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.5092559456825256,
      "eval_rouge1": 0.6755,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.6729,
      "eval_rougeLsum": 0.6744,
      "eval_runtime": 37.8591,
      "eval_samples_per_second": 19.81,
      "eval_steps_per_second": 0.634,
      "step": 3568
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.39830541610717773,
      "learning_rate": 0.0,
      "loss": 0.4995,
      "step": 4460
    },
    {
      "epoch": 5.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.508884608745575,
      "eval_rouge1": 0.6799,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.6778,
      "eval_rougeLsum": 0.681,
      "eval_runtime": 37.9857,
      "eval_samples_per_second": 19.744,
      "eval_steps_per_second": 0.632,
      "step": 4460
    },
    {
      "epoch": 5.0,
      "step": 4460,
      "total_flos": 4.925218464202752e+16,
      "train_loss": 0.5876135240221237,
      "train_runtime": 3946.7671,
      "train_samples_per_second": 18.081,
      "train_steps_per_second": 1.13
    }
  ],
  "logging_steps": 500,
  "max_steps": 4460,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 500,
  "total_flos": 4.925218464202752e+16,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}