bogdancazan/t5-base-newsela-biendata-with-domain-adaptation

training_args = TrainingArguments( output_dir='t5-base-wikilarge-newsela-with-domain-adaptation', num_train_epochs=20, warmup_steps=250, per_device_train_batch_size=BATCH_SIZE, weight_decay=0.01, learning_rate=2e-4, # fp16=True, optim="adafactor", )

Step Training Loss 500 4.184500 1000 2.470900 1500 2.128900 2000 1.951600 2500 1.834400 3000 1.755800 3500 1.701800 4000 1.656300 4500 1.628800 TrainOutput(global_step=4640, training_loss=2.1286644540984057, metrics={'train_runtime': 4090.6694, 'train_samples_per_second': 72.526, 'train_steps_per_second': 1.134, 'total_flos': 0.0, 'train_loss': 2.1286644540984057, 'epoch': 20.0})