{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 10.0,
  "eval_steps": 1,
  "global_step": 50,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.2,
      "grad_norm": 322.0,
      "learning_rate": 2.5e-05,
      "loss": 3.1768,
      "step": 1
    },
    {
      "epoch": 0.2,
      "eval_accuracy": 0.48,
      "eval_loss": 3.40401029586792,
      "eval_runtime": 0.8882,
      "eval_samples_per_second": 112.593,
      "eval_steps_per_second": 3.378,
      "step": 1
    },
    {
      "epoch": 0.4,
      "grad_norm": 356.0,
      "learning_rate": 5e-05,
      "loss": 3.3525,
      "step": 2
    },
    {
      "epoch": 0.4,
      "eval_accuracy": 0.61,
      "eval_loss": 1.4448237419128418,
      "eval_runtime": 0.8811,
      "eval_samples_per_second": 113.499,
      "eval_steps_per_second": 3.405,
      "step": 2
    },
    {
      "epoch": 0.6,
      "grad_norm": 255.0,
      "learning_rate": 4.8958333333333335e-05,
      "loss": 1.5749,
      "step": 3
    },
    {
      "epoch": 0.6,
      "eval_accuracy": 0.63,
      "eval_loss": 2.0604140758514404,
      "eval_runtime": 0.8824,
      "eval_samples_per_second": 113.329,
      "eval_steps_per_second": 3.4,
      "step": 3
    },
    {
      "epoch": 0.8,
      "grad_norm": 268.0,
      "learning_rate": 4.791666666666667e-05,
      "loss": 2.3496,
      "step": 4
    },
    {
      "epoch": 0.8,
      "eval_accuracy": 0.94,
      "eval_loss": 0.4080352485179901,
      "eval_runtime": 0.8844,
      "eval_samples_per_second": 113.068,
      "eval_steps_per_second": 3.392,
      "step": 4
    },
    {
      "epoch": 1.0,
      "grad_norm": 139.0,
      "learning_rate": 4.6875e-05,
      "loss": 1.0271,
      "step": 5
    },
    {
      "epoch": 1.0,
      "eval_accuracy": 0.84,
      "eval_loss": 0.4767504632472992,
      "eval_runtime": 0.8816,
      "eval_samples_per_second": 113.433,
      "eval_steps_per_second": 3.403,
      "step": 5
    },
    {
      "epoch": 1.2,
      "grad_norm": 141.0,
      "learning_rate": 4.5833333333333334e-05,
      "loss": 1.0716,
      "step": 6
    },
    {
      "epoch": 1.2,
      "eval_accuracy": 0.91,
      "eval_loss": 0.3883032202720642,
      "eval_runtime": 0.8815,
      "eval_samples_per_second": 113.446,
      "eval_steps_per_second": 3.403,
      "step": 6
    },
    {
      "epoch": 1.4,
      "grad_norm": 155.0,
      "learning_rate": 4.4791666666666673e-05,
      "loss": 1.3541,
      "step": 7
    },
    {
      "epoch": 1.4,
      "eval_accuracy": 0.95,
      "eval_loss": 0.205933079123497,
      "eval_runtime": 0.8784,
      "eval_samples_per_second": 113.844,
      "eval_steps_per_second": 3.415,
      "step": 7
    },
    {
      "epoch": 1.6,
      "grad_norm": 47.75,
      "learning_rate": 4.375e-05,
      "loss": 0.6127,
      "step": 8
    },
    {
      "epoch": 1.6,
      "eval_accuracy": 0.97,
      "eval_loss": 0.23208393156528473,
      "eval_runtime": 0.8781,
      "eval_samples_per_second": 113.885,
      "eval_steps_per_second": 3.417,
      "step": 8
    },
    {
      "epoch": 1.8,
      "grad_norm": 24.25,
      "learning_rate": 4.270833333333333e-05,
      "loss": 0.2954,
      "step": 9
    },
    {
      "epoch": 1.8,
      "eval_accuracy": 0.96,
      "eval_loss": 0.2501452565193176,
      "eval_runtime": 0.8786,
      "eval_samples_per_second": 113.82,
      "eval_steps_per_second": 3.415,
      "step": 9
    },
    {
      "epoch": 2.0,
      "grad_norm": 10.6875,
      "learning_rate": 4.166666666666667e-05,
      "loss": 0.224,
      "step": 10
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.96,
      "eval_loss": 0.2233298271894455,
      "eval_runtime": 0.8812,
      "eval_samples_per_second": 113.478,
      "eval_steps_per_second": 3.404,
      "step": 10
    },
    {
      "epoch": 2.2,
      "grad_norm": 29.125,
      "learning_rate": 4.0625000000000005e-05,
      "loss": 0.1923,
      "step": 11
    },
    {
      "epoch": 2.2,
      "eval_accuracy": 0.96,
      "eval_loss": 0.20252424478530884,
      "eval_runtime": 0.8794,
      "eval_samples_per_second": 113.715,
      "eval_steps_per_second": 3.411,
      "step": 11
    },
    {
      "epoch": 2.4,
      "grad_norm": 9.6875,
      "learning_rate": 3.958333333333333e-05,
      "loss": 0.1546,
      "step": 12
    },
    {
      "epoch": 2.4,
      "eval_accuracy": 0.95,
      "eval_loss": 0.22954002022743225,
      "eval_runtime": 0.8783,
      "eval_samples_per_second": 113.856,
      "eval_steps_per_second": 3.416,
      "step": 12
    },
    {
      "epoch": 2.6,
      "grad_norm": 7.25,
      "learning_rate": 3.854166666666667e-05,
      "loss": 0.0172,
      "step": 13
    },
    {
      "epoch": 2.6,
      "eval_accuracy": 0.95,
      "eval_loss": 0.24703644216060638,
      "eval_runtime": 0.8783,
      "eval_samples_per_second": 113.861,
      "eval_steps_per_second": 3.416,
      "step": 13
    },
    {
      "epoch": 2.8,
      "grad_norm": 2.90625,
      "learning_rate": 3.7500000000000003e-05,
      "loss": 0.0103,
      "step": 14
    },
    {
      "epoch": 2.8,
      "eval_accuracy": 0.94,
      "eval_loss": 0.2578713297843933,
      "eval_runtime": 0.878,
      "eval_samples_per_second": 113.89,
      "eval_steps_per_second": 3.417,
      "step": 14
    },
    {
      "epoch": 3.0,
      "grad_norm": 16.875,
      "learning_rate": 3.6458333333333336e-05,
      "loss": 0.1505,
      "step": 15
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.95,
      "eval_loss": 0.2686871290206909,
      "eval_runtime": 0.8777,
      "eval_samples_per_second": 113.935,
      "eval_steps_per_second": 3.418,
      "step": 15
    },
    {
      "epoch": 3.2,
      "grad_norm": 9.6875,
      "learning_rate": 3.541666666666667e-05,
      "loss": 0.0405,
      "step": 16
    },
    {
      "epoch": 3.2,
      "eval_accuracy": 0.96,
      "eval_loss": 0.24810832738876343,
      "eval_runtime": 0.8294,
      "eval_samples_per_second": 120.563,
      "eval_steps_per_second": 3.617,
      "step": 16
    },
    {
      "epoch": 3.4,
      "grad_norm": 7.25,
      "learning_rate": 3.4375e-05,
      "loss": 0.013,
      "step": 17
    },
    {
      "epoch": 3.4,
      "eval_accuracy": 0.97,
      "eval_loss": 0.21606233716011047,
      "eval_runtime": 0.8769,
      "eval_samples_per_second": 114.041,
      "eval_steps_per_second": 3.421,
      "step": 17
    },
    {
      "epoch": 3.6,
      "grad_norm": 4.125,
      "learning_rate": 3.3333333333333335e-05,
      "loss": 0.0077,
      "step": 18
    },
    {
      "epoch": 3.6,
      "eval_accuracy": 0.97,
      "eval_loss": 0.22405938804149628,
      "eval_runtime": 0.8796,
      "eval_samples_per_second": 113.689,
      "eval_steps_per_second": 3.411,
      "step": 18
    },
    {
      "epoch": 3.8,
      "grad_norm": 7.8125,
      "learning_rate": 3.229166666666667e-05,
      "loss": 0.0257,
      "step": 19
    },
    {
      "epoch": 3.8,
      "eval_accuracy": 0.96,
      "eval_loss": 0.24976569414138794,
      "eval_runtime": 0.8791,
      "eval_samples_per_second": 113.757,
      "eval_steps_per_second": 3.413,
      "step": 19
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.46875,
      "learning_rate": 3.125e-05,
      "loss": 0.0006,
      "step": 20
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.96,
      "eval_loss": 0.2608669400215149,
      "eval_runtime": 0.8785,
      "eval_samples_per_second": 113.834,
      "eval_steps_per_second": 3.415,
      "step": 20
    },
    {
      "epoch": 4.2,
      "grad_norm": 4.03125,
      "learning_rate": 3.0208333333333334e-05,
      "loss": 0.006,
      "step": 21
    },
    {
      "epoch": 4.2,
      "eval_accuracy": 0.96,
      "eval_loss": 0.2746453583240509,
      "eval_runtime": 0.8776,
      "eval_samples_per_second": 113.943,
      "eval_steps_per_second": 3.418,
      "step": 21
    },
    {
      "epoch": 4.4,
      "grad_norm": 0.5390625,
      "learning_rate": 2.916666666666667e-05,
      "loss": 0.0009,
      "step": 22
    },
    {
      "epoch": 4.4,
      "eval_accuracy": 0.96,
      "eval_loss": 0.28063732385635376,
      "eval_runtime": 0.7782,
      "eval_samples_per_second": 128.507,
      "eval_steps_per_second": 3.855,
      "step": 22
    },
    {
      "epoch": 4.6,
      "grad_norm": 0.76171875,
      "learning_rate": 2.8125000000000003e-05,
      "loss": 0.0009,
      "step": 23
    },
    {
      "epoch": 4.6,
      "eval_accuracy": 0.96,
      "eval_loss": 0.27202337980270386,
      "eval_runtime": 0.8786,
      "eval_samples_per_second": 113.821,
      "eval_steps_per_second": 3.415,
      "step": 23
    },
    {
      "epoch": 4.8,
      "grad_norm": 0.02099609375,
      "learning_rate": 2.7083333333333332e-05,
      "loss": 0.0001,
      "step": 24
    },
    {
      "epoch": 4.8,
      "eval_accuracy": 0.97,
      "eval_loss": 0.27136754989624023,
      "eval_runtime": 0.8299,
      "eval_samples_per_second": 120.491,
      "eval_steps_per_second": 3.615,
      "step": 24
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.053466796875,
      "learning_rate": 2.604166666666667e-05,
      "loss": 0.0001,
      "step": 25
    },
    {
      "epoch": 5.0,
      "eval_accuracy": 0.97,
      "eval_loss": 0.2715064287185669,
      "eval_runtime": 0.8782,
      "eval_samples_per_second": 113.866,
      "eval_steps_per_second": 3.416,
      "step": 25
    },
    {
      "epoch": 5.2,
      "grad_norm": 0.022216796875,
      "learning_rate": 2.5e-05,
      "loss": 0.0001,
      "step": 26
    },
    {
      "epoch": 5.2,
      "eval_accuracy": 0.97,
      "eval_loss": 0.2780764698982239,
      "eval_runtime": 0.8795,
      "eval_samples_per_second": 113.703,
      "eval_steps_per_second": 3.411,
      "step": 26
    },
    {
      "epoch": 5.4,
      "grad_norm": 0.049560546875,
      "learning_rate": 2.3958333333333334e-05,
      "loss": 0.0001,
      "step": 27
    },
    {
      "epoch": 5.4,
      "eval_accuracy": 0.97,
      "eval_loss": 0.2780400514602661,
      "eval_runtime": 0.8785,
      "eval_samples_per_second": 113.827,
      "eval_steps_per_second": 3.415,
      "step": 27
    },
    {
      "epoch": 5.6,
      "grad_norm": 0.09423828125,
      "learning_rate": 2.2916666666666667e-05,
      "loss": 0.0001,
      "step": 28
    },
    {
      "epoch": 5.6,
      "eval_accuracy": 0.97,
      "eval_loss": 0.2820666432380676,
      "eval_runtime": 0.8798,
      "eval_samples_per_second": 113.66,
      "eval_steps_per_second": 3.41,
      "step": 28
    },
    {
      "epoch": 5.8,
      "grad_norm": 0.1044921875,
      "learning_rate": 2.1875e-05,
      "loss": 0.0002,
      "step": 29
    },
    {
      "epoch": 5.8,
      "eval_accuracy": 0.97,
      "eval_loss": 0.28806641697883606,
      "eval_runtime": 0.8793,
      "eval_samples_per_second": 113.725,
      "eval_steps_per_second": 3.412,
      "step": 29
    },
    {
      "epoch": 6.0,
      "grad_norm": 0.81640625,
      "learning_rate": 2.0833333333333336e-05,
      "loss": 0.0009,
      "step": 30
    },
    {
      "epoch": 6.0,
      "eval_accuracy": 0.97,
      "eval_loss": 0.2865469455718994,
      "eval_runtime": 0.8788,
      "eval_samples_per_second": 113.785,
      "eval_steps_per_second": 3.414,
      "step": 30
    },
    {
      "epoch": 6.2,
      "grad_norm": 0.0322265625,
      "learning_rate": 1.9791666666666665e-05,
      "loss": 0.0,
      "step": 31
    },
    {
      "epoch": 6.2,
      "eval_accuracy": 0.97,
      "eval_loss": 0.28712454438209534,
      "eval_runtime": 0.8768,
      "eval_samples_per_second": 114.056,
      "eval_steps_per_second": 3.422,
      "step": 31
    },
    {
      "epoch": 6.4,
      "grad_norm": 0.0164794921875,
      "learning_rate": 1.8750000000000002e-05,
      "loss": 0.0,
      "step": 32
    },
    {
      "epoch": 6.4,
      "eval_accuracy": 0.97,
      "eval_loss": 0.2948058247566223,
      "eval_runtime": 0.8275,
      "eval_samples_per_second": 120.84,
      "eval_steps_per_second": 3.625,
      "step": 32
    },
    {
      "epoch": 6.6,
      "grad_norm": 0.007049560546875,
      "learning_rate": 1.7708333333333335e-05,
      "loss": 0.0,
      "step": 33
    },
    {
      "epoch": 6.6,
      "eval_accuracy": 0.97,
      "eval_loss": 0.29762688279151917,
      "eval_runtime": 0.8798,
      "eval_samples_per_second": 113.665,
      "eval_steps_per_second": 3.41,
      "step": 33
    },
    {
      "epoch": 6.8,
      "grad_norm": 0.011474609375,
      "learning_rate": 1.6666666666666667e-05,
      "loss": 0.0,
      "step": 34
    },
    {
      "epoch": 6.8,
      "eval_accuracy": 0.97,
      "eval_loss": 0.3028261065483093,
      "eval_runtime": 0.8782,
      "eval_samples_per_second": 113.869,
      "eval_steps_per_second": 3.416,
      "step": 34
    },
    {
      "epoch": 7.0,
      "grad_norm": 0.01104736328125,
      "learning_rate": 1.5625e-05,
      "loss": 0.0,
      "step": 35
    },
    {
      "epoch": 7.0,
      "eval_accuracy": 0.97,
      "eval_loss": 0.2990228235721588,
      "eval_runtime": 0.8803,
      "eval_samples_per_second": 113.594,
      "eval_steps_per_second": 3.408,
      "step": 35
    },
    {
      "epoch": 7.2,
      "grad_norm": 0.0157470703125,
      "learning_rate": 1.4583333333333335e-05,
      "loss": 0.0,
      "step": 36
    },
    {
      "epoch": 7.2,
      "eval_accuracy": 0.97,
      "eval_loss": 0.2988300621509552,
      "eval_runtime": 0.8818,
      "eval_samples_per_second": 113.408,
      "eval_steps_per_second": 3.402,
      "step": 36
    },
    {
      "epoch": 7.4,
      "grad_norm": 0.007537841796875,
      "learning_rate": 1.3541666666666666e-05,
      "loss": 0.0,
      "step": 37
    },
    {
      "epoch": 7.4,
      "eval_accuracy": 0.97,
      "eval_loss": 0.30536001920700073,
      "eval_runtime": 0.8803,
      "eval_samples_per_second": 113.599,
      "eval_steps_per_second": 3.408,
      "step": 37
    },
    {
      "epoch": 7.6,
      "grad_norm": 0.00787353515625,
      "learning_rate": 1.25e-05,
      "loss": 0.0,
      "step": 38
    },
    {
      "epoch": 7.6,
      "eval_accuracy": 0.97,
      "eval_loss": 0.3094402849674225,
      "eval_runtime": 0.8831,
      "eval_samples_per_second": 113.232,
      "eval_steps_per_second": 3.397,
      "step": 38
    },
    {
      "epoch": 7.8,
      "grad_norm": 0.0137939453125,
      "learning_rate": 1.1458333333333333e-05,
      "loss": 0.0,
      "step": 39
    },
    {
      "epoch": 7.8,
      "eval_accuracy": 0.97,
      "eval_loss": 0.30698367953300476,
      "eval_runtime": 0.8807,
      "eval_samples_per_second": 113.552,
      "eval_steps_per_second": 3.407,
      "step": 39
    },
    {
      "epoch": 8.0,
      "grad_norm": 0.004486083984375,
      "learning_rate": 1.0416666666666668e-05,
      "loss": 0.0,
      "step": 40
    },
    {
      "epoch": 8.0,
      "eval_accuracy": 0.97,
      "eval_loss": 0.30960360169410706,
      "eval_runtime": 0.8843,
      "eval_samples_per_second": 113.08,
      "eval_steps_per_second": 3.392,
      "step": 40
    },
    {
      "epoch": 8.2,
      "grad_norm": 0.0017242431640625,
      "learning_rate": 9.375000000000001e-06,
      "loss": 0.0,
      "step": 41
    },
    {
      "epoch": 8.2,
      "eval_accuracy": 0.97,
      "eval_loss": 0.30940884351730347,
      "eval_runtime": 0.8779,
      "eval_samples_per_second": 113.904,
      "eval_steps_per_second": 3.417,
      "step": 41
    },
    {
      "epoch": 8.4,
      "grad_norm": 0.01531982421875,
      "learning_rate": 8.333333333333334e-06,
      "loss": 0.0,
      "step": 42
    },
    {
      "epoch": 8.4,
      "eval_accuracy": 0.97,
      "eval_loss": 0.3099077045917511,
      "eval_runtime": 0.881,
      "eval_samples_per_second": 113.509,
      "eval_steps_per_second": 3.405,
      "step": 42
    },
    {
      "epoch": 8.6,
      "grad_norm": 0.00543212890625,
      "learning_rate": 7.2916666666666674e-06,
      "loss": 0.0,
      "step": 43
    },
    {
      "epoch": 8.6,
      "eval_accuracy": 0.97,
      "eval_loss": 0.3061915338039398,
      "eval_runtime": 0.881,
      "eval_samples_per_second": 113.509,
      "eval_steps_per_second": 3.405,
      "step": 43
    },
    {
      "epoch": 8.8,
      "grad_norm": 0.037353515625,
      "learning_rate": 6.25e-06,
      "loss": 0.0,
      "step": 44
    },
    {
      "epoch": 8.8,
      "eval_accuracy": 0.97,
      "eval_loss": 0.30655530095100403,
      "eval_runtime": 0.8805,
      "eval_samples_per_second": 113.566,
      "eval_steps_per_second": 3.407,
      "step": 44
    },
    {
      "epoch": 9.0,
      "grad_norm": 0.0045166015625,
      "learning_rate": 5.208333333333334e-06,
      "loss": 0.0,
      "step": 45
    },
    {
      "epoch": 9.0,
      "eval_accuracy": 0.97,
      "eval_loss": 0.31099575757980347,
      "eval_runtime": 0.8807,
      "eval_samples_per_second": 113.551,
      "eval_steps_per_second": 3.407,
      "step": 45
    },
    {
      "epoch": 9.2,
      "grad_norm": 0.0050048828125,
      "learning_rate": 4.166666666666667e-06,
      "loss": 0.0,
      "step": 46
    },
    {
      "epoch": 9.2,
      "eval_accuracy": 0.97,
      "eval_loss": 0.30695563554763794,
      "eval_runtime": 0.883,
      "eval_samples_per_second": 113.255,
      "eval_steps_per_second": 3.398,
      "step": 46
    },
    {
      "epoch": 9.4,
      "grad_norm": 0.0185546875,
      "learning_rate": 3.125e-06,
      "loss": 0.0,
      "step": 47
    },
    {
      "epoch": 9.4,
      "eval_accuracy": 0.97,
      "eval_loss": 0.30812981724739075,
      "eval_runtime": 0.8803,
      "eval_samples_per_second": 113.6,
      "eval_steps_per_second": 3.408,
      "step": 47
    },
    {
      "epoch": 9.6,
      "grad_norm": 0.01708984375,
      "learning_rate": 2.0833333333333334e-06,
      "loss": 0.0,
      "step": 48
    },
    {
      "epoch": 9.6,
      "eval_accuracy": 0.97,
      "eval_loss": 0.3078652322292328,
      "eval_runtime": 0.8802,
      "eval_samples_per_second": 113.616,
      "eval_steps_per_second": 3.408,
      "step": 48
    },
    {
      "epoch": 9.8,
      "grad_norm": 0.0048828125,
      "learning_rate": 1.0416666666666667e-06,
      "loss": 0.0,
      "step": 49
    },
    {
      "epoch": 9.8,
      "eval_accuracy": 0.97,
      "eval_loss": 0.3103065490722656,
      "eval_runtime": 0.8796,
      "eval_samples_per_second": 113.687,
      "eval_steps_per_second": 3.411,
      "step": 49
    },
    {
      "epoch": 10.0,
      "grad_norm": 0.01007080078125,
      "learning_rate": 0.0,
      "loss": 0.0,
      "step": 50
    },
    {
      "epoch": 10.0,
      "eval_accuracy": 0.97,
      "eval_loss": 0.30706679821014404,
      "eval_runtime": 0.8797,
      "eval_samples_per_second": 113.67,
      "eval_steps_per_second": 3.41,
      "step": 50
    },
    {
      "epoch": 10.0,
      "step": 50,
      "total_flos": 9252941261176832.0,
      "train_loss": 0.31321177054725013,
      "train_runtime": 130.5649,
      "train_samples_per_second": 30.636,
      "train_steps_per_second": 0.383
    }
  ],
  "logging_steps": 1,
  "max_steps": 50,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 10,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": false,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 9252941261176832.0,
  "train_batch_size": 10,
  "trial_name": null,
  "trial_params": null
}