{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.09615384615384616,
  "eval_steps": 25,
  "global_step": 500,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.004807692307692308,
      "grad_norm": 8.379351615905762,
      "learning_rate": 2.3797595190380762e-05,
      "loss": 2.1609,
      "step": 25
    },
    {
      "epoch": 0.004807692307692308,
      "eval_loss": 2.1636602878570557,
      "eval_runtime": 291.2358,
      "eval_samples_per_second": 8.931,
      "eval_steps_per_second": 1.119,
      "step": 25
    },
    {
      "epoch": 0.009615384615384616,
      "grad_norm": 2.0016415119171143,
      "learning_rate": 2.2545090180360722e-05,
      "loss": 2.1269,
      "step": 50
    },
    {
      "epoch": 0.009615384615384616,
      "eval_loss": 2.119358777999878,
      "eval_runtime": 289.2623,
      "eval_samples_per_second": 8.992,
      "eval_steps_per_second": 1.127,
      "step": 50
    },
    {
      "epoch": 0.014423076923076924,
      "grad_norm": 2.0613415241241455,
      "learning_rate": 2.1292585170340683e-05,
      "loss": 2.0789,
      "step": 75
    },
    {
      "epoch": 0.014423076923076924,
      "eval_loss": 2.1015028953552246,
      "eval_runtime": 289.6241,
      "eval_samples_per_second": 8.981,
      "eval_steps_per_second": 1.126,
      "step": 75
    },
    {
      "epoch": 0.019230769230769232,
      "grad_norm": 1.8239314556121826,
      "learning_rate": 2.0040080160320643e-05,
      "loss": 2.1804,
      "step": 100
    },
    {
      "epoch": 0.019230769230769232,
      "eval_loss": 2.0893497467041016,
      "eval_runtime": 289.6046,
      "eval_samples_per_second": 8.981,
      "eval_steps_per_second": 1.126,
      "step": 100
    },
    {
      "epoch": 0.02403846153846154,
      "grad_norm": 2.4804182052612305,
      "learning_rate": 1.87875751503006e-05,
      "loss": 2.0228,
      "step": 125
    },
    {
      "epoch": 0.02403846153846154,
      "eval_loss": 2.078104019165039,
      "eval_runtime": 289.573,
      "eval_samples_per_second": 8.982,
      "eval_steps_per_second": 1.126,
      "step": 125
    },
    {
      "epoch": 0.028846153846153848,
      "grad_norm": 1.7520055770874023,
      "learning_rate": 1.7535070140280564e-05,
      "loss": 2.0352,
      "step": 150
    },
    {
      "epoch": 0.028846153846153848,
      "eval_loss": 2.070697784423828,
      "eval_runtime": 289.6185,
      "eval_samples_per_second": 8.981,
      "eval_steps_per_second": 1.126,
      "step": 150
    },
    {
      "epoch": 0.03365384615384615,
      "grad_norm": 2.02740216255188,
      "learning_rate": 1.628256513026052e-05,
      "loss": 2.1509,
      "step": 175
    },
    {
      "epoch": 0.03365384615384615,
      "eval_loss": 2.062859535217285,
      "eval_runtime": 289.6496,
      "eval_samples_per_second": 8.98,
      "eval_steps_per_second": 1.125,
      "step": 175
    },
    {
      "epoch": 0.038461538461538464,
      "grad_norm": 2.1709401607513428,
      "learning_rate": 1.5030060120240483e-05,
      "loss": 2.0341,
      "step": 200
    },
    {
      "epoch": 0.038461538461538464,
      "eval_loss": 2.053925037384033,
      "eval_runtime": 289.7733,
      "eval_samples_per_second": 8.976,
      "eval_steps_per_second": 1.125,
      "step": 200
    },
    {
      "epoch": 0.04326923076923077,
      "grad_norm": 2.202911853790283,
      "learning_rate": 1.3777555110220442e-05,
      "loss": 2.0211,
      "step": 225
    },
    {
      "epoch": 0.04326923076923077,
      "eval_loss": 2.049743413925171,
      "eval_runtime": 289.6071,
      "eval_samples_per_second": 8.981,
      "eval_steps_per_second": 1.126,
      "step": 225
    },
    {
      "epoch": 0.04807692307692308,
      "grad_norm": 2.2768239974975586,
      "learning_rate": 1.25250501002004e-05,
      "loss": 2.0178,
      "step": 250
    },
    {
      "epoch": 0.04807692307692308,
      "eval_loss": 2.041290521621704,
      "eval_runtime": 289.3413,
      "eval_samples_per_second": 8.989,
      "eval_steps_per_second": 1.127,
      "step": 250
    },
    {
      "epoch": 0.052884615384615384,
      "grad_norm": 2.3528246879577637,
      "learning_rate": 1.1272545090180361e-05,
      "loss": 1.9976,
      "step": 275
    },
    {
      "epoch": 0.052884615384615384,
      "eval_loss": 2.0366218090057373,
      "eval_runtime": 289.4271,
      "eval_samples_per_second": 8.987,
      "eval_steps_per_second": 1.126,
      "step": 275
    },
    {
      "epoch": 0.057692307692307696,
      "grad_norm": 2.196848154067993,
      "learning_rate": 1.0020040080160322e-05,
      "loss": 2.0639,
      "step": 300
    },
    {
      "epoch": 0.057692307692307696,
      "eval_loss": 2.0322206020355225,
      "eval_runtime": 290.5527,
      "eval_samples_per_second": 8.952,
      "eval_steps_per_second": 1.122,
      "step": 300
    },
    {
      "epoch": 0.0625,
      "grad_norm": 2.3414223194122314,
      "learning_rate": 8.767535070140282e-06,
      "loss": 2.0228,
      "step": 325
    },
    {
      "epoch": 0.0625,
      "eval_loss": 2.0314226150512695,
      "eval_runtime": 289.2882,
      "eval_samples_per_second": 8.991,
      "eval_steps_per_second": 1.127,
      "step": 325
    },
    {
      "epoch": 0.0673076923076923,
      "grad_norm": 2.1816813945770264,
      "learning_rate": 7.515030060120242e-06,
      "loss": 1.9671,
      "step": 350
    },
    {
      "epoch": 0.0673076923076923,
      "eval_loss": 2.0291802883148193,
      "eval_runtime": 289.5519,
      "eval_samples_per_second": 8.983,
      "eval_steps_per_second": 1.126,
      "step": 350
    },
    {
      "epoch": 0.07211538461538461,
      "grad_norm": 3.665743350982666,
      "learning_rate": 6.2625250501002e-06,
      "loss": 2.0339,
      "step": 375
    },
    {
      "epoch": 0.07211538461538461,
      "eval_loss": 2.0244317054748535,
      "eval_runtime": 289.4405,
      "eval_samples_per_second": 8.986,
      "eval_steps_per_second": 1.126,
      "step": 375
    },
    {
      "epoch": 0.07692307692307693,
      "grad_norm": 3.862074136734009,
      "learning_rate": 5.010020040080161e-06,
      "loss": 1.9846,
      "step": 400
    },
    {
      "epoch": 0.07692307692307693,
      "eval_loss": 2.0220189094543457,
      "eval_runtime": 289.1563,
      "eval_samples_per_second": 8.995,
      "eval_steps_per_second": 1.127,
      "step": 400
    },
    {
      "epoch": 0.08173076923076923,
      "grad_norm": 2.982481002807617,
      "learning_rate": 3.757515030060121e-06,
      "loss": 1.9906,
      "step": 425
    },
    {
      "epoch": 0.08173076923076923,
      "eval_loss": 2.0202925205230713,
      "eval_runtime": 290.9218,
      "eval_samples_per_second": 8.941,
      "eval_steps_per_second": 1.121,
      "step": 425
    },
    {
      "epoch": 0.08653846153846154,
      "grad_norm": 2.838700771331787,
      "learning_rate": 2.5050100200400804e-06,
      "loss": 2.0121,
      "step": 450
    },
    {
      "epoch": 0.08653846153846154,
      "eval_loss": 2.018867254257202,
      "eval_runtime": 290.201,
      "eval_samples_per_second": 8.963,
      "eval_steps_per_second": 1.123,
      "step": 450
    },
    {
      "epoch": 0.09134615384615384,
      "grad_norm": 3.2099339962005615,
      "learning_rate": 1.2525050100200402e-06,
      "loss": 2.0468,
      "step": 475
    },
    {
      "epoch": 0.09134615384615384,
      "eval_loss": 2.017698287963867,
      "eval_runtime": 289.3362,
      "eval_samples_per_second": 8.99,
      "eval_steps_per_second": 1.127,
      "step": 475
    },
    {
      "epoch": 0.09615384615384616,
      "grad_norm": 3.2114524841308594,
      "learning_rate": 0.0,
      "loss": 1.9998,
      "step": 500
    },
    {
      "epoch": 0.09615384615384616,
      "eval_loss": 2.01784086227417,
      "eval_runtime": 287.7313,
      "eval_samples_per_second": 9.04,
      "eval_steps_per_second": 1.133,
      "step": 500
    }
  ],
  "logging_steps": 25,
  "max_steps": 500,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 25,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 4519942963200000.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}