xls-r-1b-bem-natbed-combined-model / trainer_state.json

End of training

01fb589 verified about 1 month ago

10.3 kB

	{
	"best_metric": 0.702553391456604,
	"best_model_checkpoint": "/scratch/skscla001/results/xls-r-1b-bem-natbed-combined-model/checkpoint-1800",
	"epoch": 5.256570713391739,
	"eval_steps": 100,
	"global_step": 2100,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.2503128911138924,
	"grad_norm": 2.982633352279663,
	"learning_rate": 0.00029099999999999997,
	"loss": 5.0296,
	"step": 100
	},
	{
	"epoch": 0.2503128911138924,
	"eval_loss": 2.807065010070801,
	"eval_runtime": 99.4276,
	"eval_samples_per_second": 13.658,
	"eval_steps_per_second": 1.71,
	"eval_wer": 1.0,
	"step": 100
	},
	{
	"epoch": 0.5006257822277848,
	"grad_norm": 2.2083914279937744,
	"learning_rate": 0.00029754844144903116,
	"loss": 1.5792,
	"step": 200
	},
	{
	"epoch": 0.5006257822277848,
	"eval_loss": 1.1184355020523071,
	"eval_runtime": 98.2757,
	"eval_samples_per_second": 13.818,
	"eval_steps_per_second": 1.73,
	"eval_wer": 0.9645076872751063,
	"step": 200
	},
	{
	"epoch": 0.7509386733416771,
	"grad_norm": 3.159029483795166,
	"learning_rate": 0.0002950210614995788,
	"loss": 1.1422,
	"step": 300
	},
	{
	"epoch": 0.7509386733416771,
	"eval_loss": 1.0389240980148315,
	"eval_runtime": 98.789,
	"eval_samples_per_second": 13.746,
	"eval_steps_per_second": 1.721,
	"eval_wer": 0.960582270199542,
	"step": 300
	},
	{
	"epoch": 1.0012515644555695,
	"grad_norm": 6.720183372497559,
	"learning_rate": 0.00029249368155012635,
	"loss": 0.9883,
	"step": 400
	},
	{
	"epoch": 1.0012515644555695,
	"eval_loss": 1.0493754148483276,
	"eval_runtime": 97.5764,
	"eval_samples_per_second": 13.917,
	"eval_steps_per_second": 1.742,
	"eval_wer": 0.9989368662087014,
	"step": 400
	},
	{
	"epoch": 1.2515644555694618,
	"grad_norm": 3.1551387310028076,
	"learning_rate": 0.00028996630160067397,
	"loss": 0.8999,
	"step": 500
	},
	{
	"epoch": 1.2515644555694618,
	"eval_loss": 0.86915123462677,
	"eval_runtime": 98.5884,
	"eval_samples_per_second": 13.774,
	"eval_steps_per_second": 1.724,
	"eval_wer": 0.8682531894013739,
	"step": 500
	},
	{
	"epoch": 1.5018773466833542,
	"grad_norm": 2.8559296131134033,
	"learning_rate": 0.00028743892165122154,
	"loss": 0.9135,
	"step": 600
	},
	{
	"epoch": 1.5018773466833542,
	"eval_loss": 0.8564479351043701,
	"eval_runtime": 98.2671,
	"eval_samples_per_second": 13.819,
	"eval_steps_per_second": 1.73,
	"eval_wer": 0.8429833169774289,
	"step": 600
	},
	{
	"epoch": 1.7521902377972465,
	"grad_norm": 2.4900286197662354,
	"learning_rate": 0.00028491154170176916,
	"loss": 0.8898,
	"step": 700
	},
	{
	"epoch": 1.7521902377972465,
	"eval_loss": 0.8450906872749329,
	"eval_runtime": 98.3583,
	"eval_samples_per_second": 13.807,
	"eval_steps_per_second": 1.728,
	"eval_wer": 0.8522244030094864,
	"step": 700
	},
	{
	"epoch": 2.002503128911139,
	"grad_norm": 2.2157928943634033,
	"learning_rate": 0.0002823841617523167,
	"loss": 0.9089,
	"step": 800
	},
	{
	"epoch": 2.002503128911139,
	"eval_loss": 0.8857161402702332,
	"eval_runtime": 98.023,
	"eval_samples_per_second": 13.854,
	"eval_steps_per_second": 1.734,
	"eval_wer": 0.8484625449787373,
	"step": 800
	},
	{
	"epoch": 2.252816020025031,
	"grad_norm": 10.16332721710205,
	"learning_rate": 0.00027985678180286435,
	"loss": 0.8292,
	"step": 900
	},
	{
	"epoch": 2.252816020025031,
	"eval_loss": 0.8661824464797974,
	"eval_runtime": 98.5047,
	"eval_samples_per_second": 13.786,
	"eval_steps_per_second": 1.726,
	"eval_wer": 0.8580307491004252,
	"step": 900
	},
	{
	"epoch": 2.5031289111389237,
	"grad_norm": 1.2531850337982178,
	"learning_rate": 0.00027732940185341197,
	"loss": 0.7921,
	"step": 1000
	},
	{
	"epoch": 2.5031289111389237,
	"eval_loss": 0.796419084072113,
	"eval_runtime": 98.0484,
	"eval_samples_per_second": 13.85,
	"eval_steps_per_second": 1.734,
	"eval_wer": 0.7968596663395485,
	"step": 1000
	},
	{
	"epoch": 2.7534418022528158,
	"grad_norm": 6.90547513961792,
	"learning_rate": 0.00027480202190395954,
	"loss": 0.7983,
	"step": 1100
	},
	{
	"epoch": 2.7534418022528158,
	"eval_loss": 0.7895970940589905,
	"eval_runtime": 98.3739,
	"eval_samples_per_second": 13.804,
	"eval_steps_per_second": 1.728,
	"eval_wer": 0.7951422963689893,
	"step": 1100
	},
	{
	"epoch": 3.0037546933667083,
	"grad_norm": 1.1230757236480713,
	"learning_rate": 0.00027227464195450716,
	"loss": 0.7946,
	"step": 1200
	},
	{
	"epoch": 3.0037546933667083,
	"eval_loss": 0.7666952013969421,
	"eval_runtime": 97.1256,
	"eval_samples_per_second": 13.982,
	"eval_steps_per_second": 1.75,
	"eval_wer": 0.7946516192345436,
	"step": 1200
	},
	{
	"epoch": 3.254067584480601,
	"grad_norm": 2.657978057861328,
	"learning_rate": 0.00026974726200505473,
	"loss": 0.7488,
	"step": 1300
	},
	{
	"epoch": 3.254067584480601,
	"eval_loss": 0.8179810047149658,
	"eval_runtime": 98.614,
	"eval_samples_per_second": 13.771,
	"eval_steps_per_second": 1.724,
	"eval_wer": 0.8495256787700359,
	"step": 1300
	},
	{
	"epoch": 3.504380475594493,
	"grad_norm": 1.1082779169082642,
	"learning_rate": 0.00026721988205560235,
	"loss": 0.7428,
	"step": 1400
	},
	{
	"epoch": 3.504380475594493,
	"eval_loss": 0.7548468708992004,
	"eval_runtime": 98.2436,
	"eval_samples_per_second": 13.823,
	"eval_steps_per_second": 1.73,
	"eval_wer": 0.7688092901537456,
	"step": 1400
	},
	{
	"epoch": 3.7546933667083855,
	"grad_norm": 0.6124172210693359,
	"learning_rate": 0.0002646925021061499,
	"loss": 0.7256,
	"step": 1500
	},
	{
	"epoch": 3.7546933667083855,
	"eval_loss": 0.7258334755897522,
	"eval_runtime": 98.5216,
	"eval_samples_per_second": 13.784,
	"eval_steps_per_second": 1.726,
	"eval_wer": 0.7595682041216879,
	"step": 1500
	},
	{
	"epoch": 4.005006257822278,
	"grad_norm": 1.6707249879837036,
	"learning_rate": 0.00026216512215669754,
	"loss": 0.741,
	"step": 1600
	},
	{
	"epoch": 4.005006257822278,
	"eval_loss": 0.7665364146232605,
	"eval_runtime": 98.0591,
	"eval_samples_per_second": 13.849,
	"eval_steps_per_second": 1.734,
	"eval_wer": 0.7717533529604187,
	"step": 1600
	},
	{
	"epoch": 4.25531914893617,
	"grad_norm": 1.7184687852859497,
	"learning_rate": 0.00025963774220724516,
	"loss": 0.6775,
	"step": 1700
	},
	{
	"epoch": 4.25531914893617,
	"eval_loss": 0.7922295928001404,
	"eval_runtime": 97.9024,
	"eval_samples_per_second": 13.871,
	"eval_steps_per_second": 1.736,
	"eval_wer": 0.77747791952895,
	"step": 1700
	},
	{
	"epoch": 4.505632040050062,
	"grad_norm": 0.8240795135498047,
	"learning_rate": 0.00025711036225779273,
	"loss": 0.6795,
	"step": 1800
	},
	{
	"epoch": 4.505632040050062,
	"eval_loss": 0.702553391456604,
	"eval_runtime": 96.6836,
	"eval_samples_per_second": 14.046,
	"eval_steps_per_second": 1.758,
	"eval_wer": 0.7512266928361139,
	"step": 1800
	},
	{
	"epoch": 4.755944931163955,
	"grad_norm": 0.8530161380767822,
	"learning_rate": 0.00025458298230834035,
	"loss": 0.683,
	"step": 1900
	},
	{
	"epoch": 4.755944931163955,
	"eval_loss": 0.7051005363464355,
	"eval_runtime": 98.456,
	"eval_samples_per_second": 13.793,
	"eval_steps_per_second": 1.727,
	"eval_wer": 0.72252208047105,
	"step": 1900
	},
	{
	"epoch": 5.006257822277847,
	"grad_norm": 1.205073595046997,
	"learning_rate": 0.0002520556023588879,
	"loss": 0.6838,
	"step": 2000
	},
	{
	"epoch": 5.006257822277847,
	"eval_loss": 0.7196346521377563,
	"eval_runtime": 98.5975,
	"eval_samples_per_second": 13.773,
	"eval_steps_per_second": 1.724,
	"eval_wer": 0.7503271180896304,
	"step": 2000
	},
	{
	"epoch": 5.256570713391739,
	"grad_norm": 0.9071811437606812,
	"learning_rate": 0.00024952822240943554,
	"loss": 0.6005,
	"step": 2100
	},
	{
	"epoch": 5.256570713391739,
	"eval_loss": 0.7032491564750671,
	"eval_runtime": 98.4687,
	"eval_samples_per_second": 13.791,
	"eval_steps_per_second": 1.726,
	"eval_wer": 0.7423945044160942,
	"step": 2100
	},
	{
	"epoch": 5.256570713391739,
	"step": 2100,
	"total_flos": 2.148232424796796e+19,
	"train_loss": 1.0403752663021997,
	"train_runtime": 6352.2325,
	"train_samples_per_second": 30.164,
	"train_steps_per_second": 1.884
	}
	],
	"logging_steps": 100,
	"max_steps": 11970,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 30,
	"save_steps": 200,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 3,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 2
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 2.148232424796796e+19,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}