File size: 3,004 Bytes

4a9c4c0
 
 
 
 
 
 
 
 
 
 
 
1fd16ed
 
 
 
 
4a9c4c0
 
 
 
1fd16ed
4a9c4c0
1fd16ed
4a9c4c0
 
 
 
1fd16ed
 
 
 
 
4a9c4c0
 
 
 
1fd16ed
 
 
 
 
4a9c4c0
 
 
 
1fd16ed
4a9c4c0
1fd16ed
4a9c4c0
 
 
 
1fd16ed
 
 
 
 
4a9c4c0
 
 
 
1fd16ed
4a9c4c0
1fd16ed
4a9c4c0
 
 
 
1fd16ed
 
 
 
 
4a9c4c0
 
 
 
1fd16ed
 
 
 
 
4a9c4c0
 
 
 
1fd16ed
4a9c4c0
1fd16ed
4a9c4c0
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1fd16ed
4a9c4c0
1fd16ed
4a9c4c0

{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 6.289308176100629,
  "eval_steps": 500,
  "global_step": 2000,
  "is_hyper_param_search": true,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 1.0,
      "eval_accuracy": 0.5803225806451613,
      "eval_loss": 0.19005867838859558,
      "eval_runtime": 5.674,
      "eval_samples_per_second": 546.354,
      "eval_steps_per_second": 11.456,
      "step": 318
    },
    {
      "epoch": 1.5723270440251573,
      "grad_norm": 0.5149380564689636,
      "learning_rate": 1.685534591194969e-05,
      "loss": 0.3072,
      "step": 500
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.817741935483871,
      "eval_loss": 0.0924694836139679,
      "eval_runtime": 6.0294,
      "eval_samples_per_second": 514.15,
      "eval_steps_per_second": 10.781,
      "step": 636
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.8770967741935484,
      "eval_loss": 0.06209348514676094,
      "eval_runtime": 5.7978,
      "eval_samples_per_second": 534.685,
      "eval_steps_per_second": 11.211,
      "step": 954
    },
    {
      "epoch": 3.1446540880503147,
      "grad_norm": 0.4281909167766571,
      "learning_rate": 1.371069182389937e-05,
      "loss": 0.1072,
      "step": 1000
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.9009677419354839,
      "eval_loss": 0.048012129962444305,
      "eval_runtime": 5.7482,
      "eval_samples_per_second": 539.302,
      "eval_steps_per_second": 11.308,
      "step": 1272
    },
    {
      "epoch": 4.716981132075472,
      "grad_norm": 0.2933551073074341,
      "learning_rate": 1.0566037735849058e-05,
      "loss": 0.0684,
      "step": 1500
    },
    {
      "epoch": 5.0,
      "eval_accuracy": 0.9093548387096774,
      "eval_loss": 0.03922256454825401,
      "eval_runtime": 5.9235,
      "eval_samples_per_second": 523.338,
      "eval_steps_per_second": 10.973,
      "step": 1590
    },
    {
      "epoch": 6.0,
      "eval_accuracy": 0.912258064516129,
      "eval_loss": 0.03422800451517105,
      "eval_runtime": 5.7032,
      "eval_samples_per_second": 543.553,
      "eval_steps_per_second": 11.397,
      "step": 1908
    },
    {
      "epoch": 6.289308176100629,
      "grad_norm": 0.25101438164711,
      "learning_rate": 7.421383647798742e-06,
      "loss": 0.0534,
      "step": 2000
    }
  ],
  "logging_steps": 500,
  "max_steps": 3180,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 10,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 520991326672152.0,
  "train_batch_size": 48,
  "trial_name": null,
  "trial_params": {
    "alpha": 0.7637668053146042,
    "num_train_epochs": 10,
    "temperature": 18
  }
}