{
  "best_metric": 1.0135893821716309,
  "best_model_checkpoint": "bygpt5_quatags/base/de/checkpoint-126928",
  "epoch": 8.0,
  "global_step": 126928,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 1.0,
      "learning_rate": 3.948822752188864e-05,
      "loss": 1.1989,
      "step": 15866
    },
    {
      "epoch": 1.0,
      "eval_loss": 1.0848549604415894,
      "eval_runtime": 372.1518,
      "eval_samples_per_second": 75.789,
      "eval_steps_per_second": 9.475,
      "step": 15866
    },
    {
      "epoch": 2.0,
      "learning_rate": 3.7044371705883534e-05,
      "loss": 1.0865,
      "step": 31732
    },
    {
      "epoch": 2.0,
      "eval_loss": 1.0513544082641602,
      "eval_runtime": 372.83,
      "eval_samples_per_second": 75.651,
      "eval_steps_per_second": 9.457,
      "step": 31732
    },
    {
      "epoch": 3.0,
      "learning_rate": 3.2828209599601426e-05,
      "loss": 1.0519,
      "step": 47598
    },
    {
      "epoch": 3.0,
      "eval_loss": 1.0346773862838745,
      "eval_runtime": 372.798,
      "eval_samples_per_second": 75.658,
      "eval_steps_per_second": 9.458,
      "step": 47598
    },
    {
      "epoch": 4.0,
      "learning_rate": 2.7278145783201285e-05,
      "loss": 1.0273,
      "step": 63464
    },
    {
      "epoch": 4.0,
      "eval_loss": 1.0246155261993408,
      "eval_runtime": 372.4011,
      "eval_samples_per_second": 75.738,
      "eval_steps_per_second": 9.468,
      "step": 63464
    },
    {
      "epoch": 5.0,
      "learning_rate": 2.0971286481716286e-05,
      "loss": 1.0084,
      "step": 79330
    },
    {
      "epoch": 5.0,
      "eval_loss": 1.01944899559021,
      "eval_runtime": 371.0717,
      "eval_samples_per_second": 76.01,
      "eval_steps_per_second": 9.502,
      "step": 79330
    },
    {
      "epoch": 6.0,
      "learning_rate": 1.4563430958668448e-05,
      "loss": 0.9938,
      "step": 95196
    },
    {
      "epoch": 6.0,
      "eval_loss": 1.0151903629302979,
      "eval_runtime": 370.7077,
      "eval_samples_per_second": 76.084,
      "eval_steps_per_second": 9.512,
      "step": 95196
    },
    {
      "epoch": 7.0,
      "learning_rate": 8.720880257396538e-06,
      "loss": 0.9828,
      "step": 111062
    },
    {
      "epoch": 7.0,
      "eval_loss": 1.0147309303283691,
      "eval_runtime": 369.733,
      "eval_samples_per_second": 76.285,
      "eval_steps_per_second": 9.537,
      "step": 111062
    },
    {
      "epoch": 8.0,
      "learning_rate": 4.05115394728147e-06,
      "loss": 0.9748,
      "step": 126928
    },
    {
      "epoch": 8.0,
      "eval_loss": 1.0135893821716309,
      "eval_runtime": 369.751,
      "eval_samples_per_second": 76.281,
      "eval_steps_per_second": 9.536,
      "step": 126928
    }
  ],
  "max_steps": 158660,
  "num_train_epochs": 10,
  "total_flos": 3.584795444379648e+17,
  "trial_name": null,
  "trial_params": null
}