File size: 3,154 Bytes

1435d52
 
 
 
 
d7213e2
1435d52
 
 
 
 
 
5bcbc4c
d7213e2
5bcbc4c
d7213e2
1435d52
 
 
 
5bcbc4c
 
1435d52
5bcbc4c
 
 
 
 
d7213e2
1435d52
 
 
5bcbc4c
d7213e2
5bcbc4c
d7213e2
1435d52
 
 
 
5bcbc4c
 
1435d52
5bcbc4c
 
 
 
 
d7213e2
1435d52
 
 
5bcbc4c
d7213e2
5bcbc4c
d7213e2
1435d52
 
 
 
5bcbc4c
 
1435d52
5bcbc4c
 
 
 
 
d7213e2
1435d52
 
 
5bcbc4c
d7213e2
5bcbc4c
d7213e2
1435d52
 
 
 
5bcbc4c
 
1435d52
5bcbc4c
 
 
 
 
d7213e2
1435d52
 
 
5bcbc4c
1435d52
5bcbc4c
d7213e2
1435d52
 
 
 
5bcbc4c
 
1435d52
5bcbc4c
 
 
 
 
d7213e2
1435d52
 
 
d7213e2
5bcbc4c
 
 
 
d7213e2
1435d52
 
 
d7213e2
1435d52
 
 
5bcbc4c
d7213e2
1435d52

{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 5.0,
  "eval_steps": 500,
  "global_step": 4460,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 1.0,
      "grad_norm": 0.6613966226577759,
      "learning_rate": 0.0008,
      "loss": 0.7782,
      "step": 892
    },
    {
      "epoch": 1.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.5458054542541504,
      "eval_rouge1": 0.7706,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.7715,
      "eval_rougeLsum": 0.7691,
      "eval_runtime": 38.2766,
      "eval_samples_per_second": 19.568,
      "eval_steps_per_second": 0.627,
      "step": 892
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.6847044825553894,
      "learning_rate": 0.0006,
      "loss": 0.5952,
      "step": 1784
    },
    {
      "epoch": 2.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.5551263689994812,
      "eval_rouge1": 0.7627,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.7591,
      "eval_rougeLsum": 0.7596,
      "eval_runtime": 37.6956,
      "eval_samples_per_second": 19.87,
      "eval_steps_per_second": 0.637,
      "step": 1784
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.6185162663459778,
      "learning_rate": 0.0004,
      "loss": 0.551,
      "step": 2676
    },
    {
      "epoch": 3.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.5163312554359436,
      "eval_rouge1": 0.7617,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.761,
      "eval_rougeLsum": 0.7609,
      "eval_runtime": 38.2354,
      "eval_samples_per_second": 19.589,
      "eval_steps_per_second": 0.628,
      "step": 2676
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.6471401453018188,
      "learning_rate": 0.0002,
      "loss": 0.5236,
      "step": 3568
    },
    {
      "epoch": 4.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.5063948631286621,
      "eval_rouge1": 0.7569,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.7553,
      "eval_rougeLsum": 0.7552,
      "eval_runtime": 38.361,
      "eval_samples_per_second": 19.525,
      "eval_steps_per_second": 0.626,
      "step": 3568
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.6893085837364197,
      "learning_rate": 0.0,
      "loss": 0.5009,
      "step": 4460
    },
    {
      "epoch": 5.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.5019394755363464,
      "eval_rouge1": 0.762,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.7611,
      "eval_rougeLsum": 0.7586,
      "eval_runtime": 37.6497,
      "eval_samples_per_second": 19.894,
      "eval_steps_per_second": 0.637,
      "step": 4460
    },
    {
      "epoch": 5.0,
      "step": 4460,
      "total_flos": 4.922112594935808e+16,
      "train_loss": 0.5897949560875315,
      "train_runtime": 3934.2037,
      "train_samples_per_second": 18.127,
      "train_steps_per_second": 1.134
    }
  ],
  "logging_steps": 500,
  "max_steps": 4460,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 500,
  "total_flos": 4.922112594935808e+16,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}