{ "best_metric": null, "best_model_checkpoint": null, "epoch": 2.0, "eval_steps": 500, "global_step": 30, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.06666666666666667, "grad_norm": 0.03667533153007897, "learning_rate": 3.3333333333333335e-05, "loss": 0.0339, "step": 1 }, { "epoch": 0.13333333333333333, "grad_norm": 0.02974013507819468, "learning_rate": 6.666666666666667e-05, "loss": 0.0287, "step": 2 }, { "epoch": 0.2, "grad_norm": 0.030974222409195864, "learning_rate": 0.0001, "loss": 0.0403, "step": 3 }, { "epoch": 0.26666666666666666, "grad_norm": 0.019440122277372456, "learning_rate": 9.966191788709716e-05, "loss": 0.0136, "step": 4 }, { "epoch": 0.3333333333333333, "grad_norm": 0.03375439415061115, "learning_rate": 9.865224352899119e-05, "loss": 0.0277, "step": 5 }, { "epoch": 0.4, "grad_norm": 0.02946363423536003, "learning_rate": 9.698463103929542e-05, "loss": 0.0419, "step": 6 }, { "epoch": 0.4666666666666667, "grad_norm": 0.036955194049054466, "learning_rate": 9.468163201617062e-05, "loss": 0.0507, "step": 7 }, { "epoch": 0.5333333333333333, "grad_norm": 0.019669392611297534, "learning_rate": 9.177439057064683e-05, "loss": 0.0074, "step": 8 }, { "epoch": 0.6, "grad_norm": 0.03601398378323587, "learning_rate": 8.83022221559489e-05, "loss": 0.0252, "step": 9 }, { "epoch": 0.6666666666666666, "grad_norm": 0.037282361790878814, "learning_rate": 8.43120818934367e-05, "loss": 0.0229, "step": 10 }, { "epoch": 0.7333333333333333, "grad_norm": 0.0193076064517401, "learning_rate": 7.985792958513931e-05, "loss": 0.0129, "step": 11 }, { "epoch": 0.8, "grad_norm": 0.02523405107781685, "learning_rate": 7.500000000000001e-05, "loss": 0.0181, "step": 12 }, { "epoch": 0.8666666666666667, "grad_norm": 0.031644626373367346, "learning_rate": 6.980398830195785e-05, "loss": 0.0147, "step": 13 }, { "epoch": 0.9333333333333333, "grad_norm": 0.024093668071045796, "learning_rate": 6.434016163555452e-05, "loss": 0.0134, "step": 14 }, { "epoch": 1.0, "grad_norm": 0.03440795833140306, "learning_rate": 5.868240888334653e-05, "loss": 0.0208, "step": 15 }, { "epoch": 1.0, "eval_loss": 0.005129641853272915, "eval_runtime": 0.4026, "eval_samples_per_second": 2.484, "eval_steps_per_second": 2.484, "step": 15 }, { "epoch": 1.0666666666666667, "grad_norm": 0.016136057153336155, "learning_rate": 5.290724144552379e-05, "loss": 0.0073, "step": 16 }, { "epoch": 1.1333333333333333, "grad_norm": 0.021788090497672906, "learning_rate": 4.709275855447621e-05, "loss": 0.0105, "step": 17 }, { "epoch": 1.2, "grad_norm": 0.022628456326149092, "learning_rate": 4.131759111665349e-05, "loss": 0.0095, "step": 18 }, { "epoch": 1.2666666666666666, "grad_norm": 0.027265435316225432, "learning_rate": 3.5659838364445505e-05, "loss": 0.0083, "step": 19 }, { "epoch": 1.3333333333333333, "grad_norm": 0.017308868256564316, "learning_rate": 3.019601169804216e-05, "loss": 0.0068, "step": 20 }, { "epoch": 1.4, "grad_norm": 0.016021108075453868, "learning_rate": 2.500000000000001e-05, "loss": 0.0061, "step": 21 }, { "epoch": 1.4666666666666668, "grad_norm": 0.01646746601078572, "learning_rate": 2.0142070414860704e-05, "loss": 0.0067, "step": 22 }, { "epoch": 1.5333333333333332, "grad_norm": 0.02275205411828999, "learning_rate": 1.5687918106563326e-05, "loss": 0.0067, "step": 23 }, { "epoch": 1.6, "grad_norm": 0.029376937261184077, "learning_rate": 1.1697777844051105e-05, "loss": 0.0122, "step": 24 }, { "epoch": 1.6666666666666665, "grad_norm": 0.02275594544741461, "learning_rate": 8.225609429353187e-06, "loss": 0.007, "step": 25 }, { "epoch": 1.7333333333333334, "grad_norm": 0.012907155396086632, "learning_rate": 5.318367983829392e-06, "loss": 0.0041, "step": 26 }, { "epoch": 1.8, "grad_norm": 0.016551246357698324, "learning_rate": 3.0153689607045845e-06, "loss": 0.0047, "step": 27 }, { "epoch": 1.8666666666666667, "grad_norm": 0.017728109438915673, "learning_rate": 1.3477564710088098e-06, "loss": 0.0064, "step": 28 }, { "epoch": 1.9333333333333333, "grad_norm": 0.022600385556295746, "learning_rate": 3.380821129028489e-07, "loss": 0.0069, "step": 29 }, { "epoch": 2.0, "grad_norm": 0.031523657215238414, "learning_rate": 0.0, "loss": 0.0106, "step": 30 }, { "epoch": 2.0, "eval_loss": 0.006288350559771061, "eval_runtime": 1.3922, "eval_samples_per_second": 0.718, "eval_steps_per_second": 0.718, "step": 30 }, { "epoch": 2.0, "step": 30, "total_flos": 644629413888.0, "train_loss": 0.016189289543156824, "train_runtime": 152.1169, "train_samples_per_second": 0.394, "train_steps_per_second": 0.197 } ], "logging_steps": 1, "max_steps": 30, "num_input_tokens_seen": 0, "num_train_epochs": 2, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 644629413888.0, "train_batch_size": 1, "trial_name": null, "trial_params": null }