File size: 3,228 Bytes

77adf39
f9369be
77adf39
 
 
 
 
 
 
 
 
 
f9369be
77adf39
f9369be
77adf39
 
 
 
f9369be
 
 
 
 
 
 
 
 
77adf39
 
 
 
f9369be
77adf39
f9369be
77adf39
 
 
 
f9369be
 
 
 
 
 
 
 
 
77adf39
 
 
 
f9369be
77adf39
f9369be
77adf39
 
 
 
f9369be
 
 
 
 
 
 
 
 
77adf39
 
 
 
f9369be
77adf39
f9369be
77adf39
 
 
 
f9369be
 
 
 
 
 
 
 
 
77adf39
 
 
 
f9369be
77adf39
f9369be
77adf39
 
 
 
f9369be
 
 
 
 
 
 
 
 
77adf39
 
 
 
 
 
f9369be
 
 
 
77adf39

{
  "best_metric": 44.3826,
  "best_model_checkpoint": "bin/liputan6-seq_bn-rf16/checkpoint-315",
  "epoch": 5.0,
  "eval_steps": 500,
  "global_step": 315,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 1.0,
      "grad_norm": 1.0219109058380127,
      "learning_rate": 0.0008,
      "loss": 0.9013,
      "step": 63
    },
    {
      "epoch": 1.0,
      "eval_gen_len": 46.887,
      "eval_loss": 0.36000651121139526,
      "eval_rouge1": 40.5674,
      "eval_rouge2": 32.5892,
      "eval_rougeL": 37.7471,
      "eval_rougeLsum": 39.1368,
      "eval_runtime": 220.7029,
      "eval_samples_per_second": 4.531,
      "eval_steps_per_second": 0.145,
      "step": 63
    },
    {
      "epoch": 2.0,
      "grad_norm": 1.3100820779800415,
      "learning_rate": 0.0006,
      "loss": 0.4754,
      "step": 126
    },
    {
      "epoch": 2.0,
      "eval_gen_len": 56.767,
      "eval_loss": 0.29582464694976807,
      "eval_rouge1": 43.3031,
      "eval_rouge2": 34.5149,
      "eval_rougeL": 39.7514,
      "eval_rougeLsum": 41.863,
      "eval_runtime": 188.9607,
      "eval_samples_per_second": 5.292,
      "eval_steps_per_second": 0.169,
      "step": 126
    },
    {
      "epoch": 3.0,
      "grad_norm": 1.5092746019363403,
      "learning_rate": 0.0004,
      "loss": 0.3811,
      "step": 189
    },
    {
      "epoch": 3.0,
      "eval_gen_len": 57.898,
      "eval_loss": 0.26292842626571655,
      "eval_rouge1": 43.4511,
      "eval_rouge2": 34.6775,
      "eval_rougeL": 39.9831,
      "eval_rougeLsum": 42.0606,
      "eval_runtime": 182.6393,
      "eval_samples_per_second": 5.475,
      "eval_steps_per_second": 0.175,
      "step": 189
    },
    {
      "epoch": 4.0,
      "grad_norm": 1.0736172199249268,
      "learning_rate": 0.0002,
      "loss": 0.3317,
      "step": 252
    },
    {
      "epoch": 4.0,
      "eval_gen_len": 57.815,
      "eval_loss": 0.2609642446041107,
      "eval_rouge1": 43.9259,
      "eval_rouge2": 35.2198,
      "eval_rougeL": 40.3143,
      "eval_rougeLsum": 42.5364,
      "eval_runtime": 186.4402,
      "eval_samples_per_second": 5.364,
      "eval_steps_per_second": 0.172,
      "step": 252
    },
    {
      "epoch": 5.0,
      "grad_norm": 1.079635739326477,
      "learning_rate": 0.0,
      "loss": 0.299,
      "step": 315
    },
    {
      "epoch": 5.0,
      "eval_gen_len": 58.818,
      "eval_loss": 0.2554154396057129,
      "eval_rouge1": 44.3826,
      "eval_rouge2": 35.7034,
      "eval_rougeL": 40.7597,
      "eval_rougeLsum": 42.9985,
      "eval_runtime": 186.4288,
      "eval_samples_per_second": 5.364,
      "eval_steps_per_second": 0.172,
      "step": 315
    },
    {
      "epoch": 5.0,
      "step": 315,
      "total_flos": 3451266662400000.0,
      "train_loss": 0.477710209195576,
      "train_runtime": 1217.2314,
      "train_samples_per_second": 4.108,
      "train_steps_per_second": 0.259
    }
  ],
  "logging_steps": 500,
  "max_steps": 315,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 500,
  "total_flos": 3451266662400000.0,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}