autotrain-hyyfj-borac / checkpoint-104 /trainer_state.json

Upload folder using huggingface_hub

7beb45d verified 7 months ago

9.94 kB

	{
	"best_metric": 0.2939682602882385,
	"best_model_checkpoint": "autotrain-hyyfj-borac/checkpoint-104",
	"epoch": 2.0,
	"eval_steps": 500,
	"global_step": 104,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.038461538461538464,
	"grad_norm": 6.025815963745117,
	"learning_rate": 6.25e-06,
	"loss": 0.5818,
	"step": 2
	},
	{
	"epoch": 0.07692307692307693,
	"grad_norm": 9.179534912109375,
	"learning_rate": 1.25e-05,
	"loss": 0.584,
	"step": 4
	},
	{
	"epoch": 0.11538461538461539,
	"grad_norm": 4.207178115844727,
	"learning_rate": 1.8750000000000002e-05,
	"loss": 0.5044,
	"step": 6
	},
	{
	"epoch": 0.15384615384615385,
	"grad_norm": 5.58507776260376,
	"learning_rate": 2.5e-05,
	"loss": 0.3244,
	"step": 8
	},
	{
	"epoch": 0.19230769230769232,
	"grad_norm": 2.5677101612091064,
	"learning_rate": 3.125e-05,
	"loss": 0.2411,
	"step": 10
	},
	{
	"epoch": 0.23076923076923078,
	"grad_norm": 3.239185094833374,
	"learning_rate": 3.7500000000000003e-05,
	"loss": 0.2572,
	"step": 12
	},
	{
	"epoch": 0.2692307692307692,
	"grad_norm": 1.5567970275878906,
	"learning_rate": 4.375e-05,
	"loss": 0.0463,
	"step": 14
	},
	{
	"epoch": 0.3076923076923077,
	"grad_norm": 0.34924909472465515,
	"learning_rate": 5e-05,
	"loss": 0.0205,
	"step": 16
	},
	{
	"epoch": 0.34615384615384615,
	"grad_norm": 1.1856858730316162,
	"learning_rate": 4.928571428571429e-05,
	"loss": 0.2883,
	"step": 18
	},
	{
	"epoch": 0.38461538461538464,
	"grad_norm": 9.244117736816406,
	"learning_rate": 4.8571428571428576e-05,
	"loss": 0.6795,
	"step": 20
	},
	{
	"epoch": 0.4230769230769231,
	"grad_norm": 3.249788522720337,
	"learning_rate": 4.785714285714286e-05,
	"loss": 0.2357,
	"step": 22
	},
	{
	"epoch": 0.46153846153846156,
	"grad_norm": 1.3072822093963623,
	"learning_rate": 4.714285714285714e-05,
	"loss": 0.0682,
	"step": 24
	},
	{
	"epoch": 0.5,
	"grad_norm": 3.7042837142944336,
	"learning_rate": 4.642857142857143e-05,
	"loss": 0.4232,
	"step": 26
	},
	{
	"epoch": 0.5384615384615384,
	"grad_norm": 1.0529388189315796,
	"learning_rate": 4.5714285714285716e-05,
	"loss": 0.0337,
	"step": 28
	},
	{
	"epoch": 0.5769230769230769,
	"grad_norm": 0.3905356228351593,
	"learning_rate": 4.5e-05,
	"loss": 0.2535,
	"step": 30
	},
	{
	"epoch": 0.6153846153846154,
	"grad_norm": 4.982702255249023,
	"learning_rate": 4.428571428571428e-05,
	"loss": 0.3307,
	"step": 32
	},
	{
	"epoch": 0.6538461538461539,
	"grad_norm": 0.19216814637184143,
	"learning_rate": 4.3571428571428576e-05,
	"loss": 0.3452,
	"step": 34
	},
	{
	"epoch": 0.6923076923076923,
	"grad_norm": 4.820222854614258,
	"learning_rate": 4.2857142857142856e-05,
	"loss": 0.5677,
	"step": 36
	},
	{
	"epoch": 0.7307692307692307,
	"grad_norm": 1.0272815227508545,
	"learning_rate": 4.214285714285714e-05,
	"loss": 0.4791,
	"step": 38
	},
	{
	"epoch": 0.7692307692307693,
	"grad_norm": 1.5378814935684204,
	"learning_rate": 4.1428571428571437e-05,
	"loss": 0.0582,
	"step": 40
	},
	{
	"epoch": 0.8076923076923077,
	"grad_norm": 0.989844560623169,
	"learning_rate": 4.0714285714285717e-05,
	"loss": 0.2427,
	"step": 42
	},
	{
	"epoch": 0.8461538461538461,
	"grad_norm": 17.12215232849121,
	"learning_rate": 4e-05,
	"loss": 0.7269,
	"step": 44
	},
	{
	"epoch": 0.8846153846153846,
	"grad_norm": 0.5058056712150574,
	"learning_rate": 3.928571428571429e-05,
	"loss": 0.2946,
	"step": 46
	},
	{
	"epoch": 0.9230769230769231,
	"grad_norm": 11.418269157409668,
	"learning_rate": 3.857142857142858e-05,
	"loss": 0.6127,
	"step": 48
	},
	{
	"epoch": 0.9615384615384616,
	"grad_norm": 0.5562339425086975,
	"learning_rate": 3.785714285714286e-05,
	"loss": 0.3462,
	"step": 50
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.3832690119743347,
	"learning_rate": 3.7142857142857143e-05,
	"loss": 0.0145,
	"step": 52
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.9326923076923077,
	"eval_auc": 0.49926362297496313,
	"eval_f1": 0.0,
	"eval_loss": 0.31564611196517944,
	"eval_precision": 0.0,
	"eval_recall": 0.0,
	"eval_runtime": 1.4422,
	"eval_samples_per_second": 72.114,
	"eval_steps_per_second": 4.854,
	"step": 52
	},
	{
	"epoch": 1.0384615384615385,
	"grad_norm": 0.30034294724464417,
	"learning_rate": 3.642857142857143e-05,
	"loss": 0.0115,
	"step": 54
	},
	{
	"epoch": 1.0769230769230769,
	"grad_norm": 4.174347877502441,
	"learning_rate": 3.571428571428572e-05,
	"loss": 0.3074,
	"step": 56
	},
	{
	"epoch": 1.1153846153846154,
	"grad_norm": 4.107996940612793,
	"learning_rate": 3.5e-05,
	"loss": 0.658,
	"step": 58
	},
	{
	"epoch": 1.1538461538461537,
	"grad_norm": 3.2274246215820312,
	"learning_rate": 3.428571428571429e-05,
	"loss": 0.3278,
	"step": 60
	},
	{
	"epoch": 1.1923076923076923,
	"grad_norm": 3.1883745193481445,
	"learning_rate": 3.357142857142857e-05,
	"loss": 0.6058,
	"step": 62
	},
	{
	"epoch": 1.2307692307692308,
	"grad_norm": 0.4613792598247528,
	"learning_rate": 3.285714285714286e-05,
	"loss": 0.0172,
	"step": 64
	},
	{
	"epoch": 1.2692307692307692,
	"grad_norm": 0.6901736855506897,
	"learning_rate": 3.2142857142857144e-05,
	"loss": 0.0238,
	"step": 66
	},
	{
	"epoch": 1.3076923076923077,
	"grad_norm": 0.6056439876556396,
	"learning_rate": 3.142857142857143e-05,
	"loss": 0.2596,
	"step": 68
	},
	{
	"epoch": 1.3461538461538463,
	"grad_norm": 0.6580448746681213,
	"learning_rate": 3.071428571428572e-05,
	"loss": 0.649,
	"step": 70
	},
	{
	"epoch": 1.3846153846153846,
	"grad_norm": 0.5795997381210327,
	"learning_rate": 3e-05,
	"loss": 0.0279,
	"step": 72
	},
	{
	"epoch": 1.4230769230769231,
	"grad_norm": 3.1971044540405273,
	"learning_rate": 2.9285714285714288e-05,
	"loss": 0.471,
	"step": 74
	},
	{
	"epoch": 1.4615384615384617,
	"grad_norm": 0.772407054901123,
	"learning_rate": 2.857142857142857e-05,
	"loss": 0.2271,
	"step": 76
	},
	{
	"epoch": 1.5,
	"grad_norm": 0.8196155428886414,
	"learning_rate": 2.785714285714286e-05,
	"loss": 0.2429,
	"step": 78
	},
	{
	"epoch": 1.5384615384615383,
	"grad_norm": 1.0081214904785156,
	"learning_rate": 2.714285714285714e-05,
	"loss": 0.2523,
	"step": 80
	},
	{
	"epoch": 1.5769230769230769,
	"grad_norm": 0.9642893075942993,
	"learning_rate": 2.642857142857143e-05,
	"loss": 0.4355,
	"step": 82
	},
	{
	"epoch": 1.6153846153846154,
	"grad_norm": 2.410957098007202,
	"learning_rate": 2.5714285714285714e-05,
	"loss": 0.213,
	"step": 84
	},
	{
	"epoch": 1.6538461538461537,
	"grad_norm": 0.9146873950958252,
	"learning_rate": 2.5e-05,
	"loss": 0.1876,
	"step": 86
	},
	{
	"epoch": 1.6923076923076923,
	"grad_norm": 1.0689085721969604,
	"learning_rate": 2.4285714285714288e-05,
	"loss": 0.0379,
	"step": 88
	},
	{
	"epoch": 1.7307692307692308,
	"grad_norm": 5.386611461639404,
	"learning_rate": 2.357142857142857e-05,
	"loss": 0.6832,
	"step": 90
	},
	{
	"epoch": 1.7692307692307692,
	"grad_norm": 6.125481605529785,
	"learning_rate": 2.2857142857142858e-05,
	"loss": 0.519,
	"step": 92
	},
	{
	"epoch": 1.8076923076923077,
	"grad_norm": 10.108115196228027,
	"learning_rate": 2.214285714285714e-05,
	"loss": 0.4923,
	"step": 94
	},
	{
	"epoch": 1.8461538461538463,
	"grad_norm": 1.2555135488510132,
	"learning_rate": 2.1428571428571428e-05,
	"loss": 0.0383,
	"step": 96
	},
	{
	"epoch": 1.8846153846153846,
	"grad_norm": 2.7871651649475098,
	"learning_rate": 2.0714285714285718e-05,
	"loss": 0.2861,
	"step": 98
	},
	{
	"epoch": 1.9230769230769231,
	"grad_norm": 3.00709867477417,
	"learning_rate": 2e-05,
	"loss": 0.2901,
	"step": 100
	},
	{
	"epoch": 1.9615384615384617,
	"grad_norm": 0.6466115713119507,
	"learning_rate": 1.928571428571429e-05,
	"loss": 0.021,
	"step": 102
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.5404049158096313,
	"learning_rate": 1.8571428571428572e-05,
	"loss": 0.2653,
	"step": 104
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.9326923076923077,
	"eval_auc": 0.6833578792341679,
	"eval_f1": 0.0,
	"eval_loss": 0.2939682602882385,
	"eval_precision": 0.0,
	"eval_recall": 0.0,
	"eval_runtime": 1.3953,
	"eval_samples_per_second": 74.536,
	"eval_steps_per_second": 5.017,
	"step": 104
	}
	],
	"logging_steps": 2,
	"max_steps": 156,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"total_flos": 54595543987200.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}