{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 5.714285714285714,
  "eval_steps": 1,
  "global_step": 10,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.5714285714285714,
      "grad_norm": 236.1022186279297,
      "learning_rate": 2.5e-05,
      "loss": 4.248,
      "step": 1
    },
    {
      "epoch": 0.5714285714285714,
      "eval_loss": 3.8642280101776123,
      "eval_matthews_correlation": -0.09185689054860074,
      "eval_runtime": 14.6232,
      "eval_samples_per_second": 15.113,
      "eval_steps_per_second": 0.479,
      "step": 1
    },
    {
      "epoch": 1.1428571428571428,
      "grad_norm": 258.9085693359375,
      "learning_rate": 5e-05,
      "loss": 4.7899,
      "step": 2
    },
    {
      "epoch": 1.1428571428571428,
      "eval_loss": 2.353182077407837,
      "eval_matthews_correlation": 0.02782382086884636,
      "eval_runtime": 14.5627,
      "eval_samples_per_second": 15.176,
      "eval_steps_per_second": 0.481,
      "step": 2
    },
    {
      "epoch": 1.7142857142857144,
      "grad_norm": 144.017578125,
      "learning_rate": 4.375e-05,
      "loss": 2.2087,
      "step": 3
    },
    {
      "epoch": 1.7142857142857144,
      "eval_loss": 5.36915397644043,
      "eval_matthews_correlation": 0.10992116885414299,
      "eval_runtime": 14.5637,
      "eval_samples_per_second": 15.175,
      "eval_steps_per_second": 0.481,
      "step": 3
    },
    {
      "epoch": 2.2857142857142856,
      "grad_norm": 219.81997680664062,
      "learning_rate": 3.7500000000000003e-05,
      "loss": 5.938,
      "step": 4
    },
    {
      "epoch": 2.2857142857142856,
      "eval_loss": 4.713024616241455,
      "eval_matthews_correlation": 0.1493839222204547,
      "eval_runtime": 14.6478,
      "eval_samples_per_second": 15.088,
      "eval_steps_per_second": 0.478,
      "step": 4
    },
    {
      "epoch": 2.857142857142857,
      "grad_norm": 226.86795043945312,
      "learning_rate": 3.125e-05,
      "loss": 5.0085,
      "step": 5
    },
    {
      "epoch": 2.857142857142857,
      "eval_loss": 3.2357559204101562,
      "eval_matthews_correlation": 0.13539571021609156,
      "eval_runtime": 14.603,
      "eval_samples_per_second": 15.134,
      "eval_steps_per_second": 0.479,
      "step": 5
    },
    {
      "epoch": 3.4285714285714284,
      "grad_norm": 172.67315673828125,
      "learning_rate": 2.5e-05,
      "loss": 2.928,
      "step": 6
    },
    {
      "epoch": 3.4285714285714284,
      "eval_loss": 2.1480770111083984,
      "eval_matthews_correlation": 0.14878673292578765,
      "eval_runtime": 14.5857,
      "eval_samples_per_second": 15.152,
      "eval_steps_per_second": 0.48,
      "step": 6
    },
    {
      "epoch": 4.0,
      "grad_norm": 109.5372314453125,
      "learning_rate": 1.8750000000000002e-05,
      "loss": 1.6375,
      "step": 7
    },
    {
      "epoch": 4.0,
      "eval_loss": 1.7387173175811768,
      "eval_matthews_correlation": 0.11220065011812017,
      "eval_runtime": 14.5798,
      "eval_samples_per_second": 15.158,
      "eval_steps_per_second": 0.48,
      "step": 7
    },
    {
      "epoch": 4.571428571428571,
      "grad_norm": 18.393611907958984,
      "learning_rate": 1.25e-05,
      "loss": 1.2763,
      "step": 8
    },
    {
      "epoch": 4.571428571428571,
      "eval_loss": 1.6940361261367798,
      "eval_matthews_correlation": 0.19882361280961788,
      "eval_runtime": 14.5675,
      "eval_samples_per_second": 15.171,
      "eval_steps_per_second": 0.481,
      "step": 8
    },
    {
      "epoch": 5.142857142857143,
      "grad_norm": 53.67533874511719,
      "learning_rate": 6.25e-06,
      "loss": 1.1177,
      "step": 9
    },
    {
      "epoch": 5.142857142857143,
      "eval_loss": 1.7173782587051392,
      "eval_matthews_correlation": 0.2607736125317351,
      "eval_runtime": 14.5773,
      "eval_samples_per_second": 15.161,
      "eval_steps_per_second": 0.48,
      "step": 9
    },
    {
      "epoch": 5.714285714285714,
      "grad_norm": 66.04159545898438,
      "learning_rate": 0.0,
      "loss": 1.2015,
      "step": 10
    },
    {
      "epoch": 5.714285714285714,
      "eval_loss": 1.703056812286377,
      "eval_matthews_correlation": 0.2569900999685935,
      "eval_runtime": 14.5472,
      "eval_samples_per_second": 15.192,
      "eval_steps_per_second": 0.481,
      "step": 10
    },
    {
      "epoch": 5.714285714285714,
      "step": 10,
      "total_flos": 2.309181566021837e+16,
      "train_loss": 3.035413348674774,
      "train_runtime": 1489.7156,
      "train_samples_per_second": 5.927,
      "train_steps_per_second": 0.007
    }
  ],
  "logging_steps": 1,
  "max_steps": 10,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 10,
  "save_steps": 500,
  "total_flos": 2.309181566021837e+16,
  "train_batch_size": 32,
  "trial_name": null,
  "trial_params": null
}