slurm submission log: 2024-05-29 11:13:53.053966
created following sbatch script: 

###############################

#!/bin/bash

#SBATCH --account=nlp
#SBATCH --cpus-per-task=16
#SBATCH --dependency=afterok:7667686
#SBATCH --gres=gpu:2
#SBATCH --job-name=tthrush-job-2571505
#SBATCH --mem=100G
#SBATCH --nodelist=sphinx2
#SBATCH --open-mode=append
#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/paper_writeup_tests/ordinal_constrained/llms/pythia-70m_xnli_de_1/train_job_output.txt
#SBATCH --partition=sphinx
#SBATCH --time=14-0

# activate your desired anaconda environment
. /nlp/scr/tthrush/miniconda3/etc/profile.d/conda.sh ; conda activate pretraining-coreset-selection

# cd to working directory
cd .

# launch commands
srun --unbuffered run_as_child_processes 'torchrun --master_port 29525 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/paper_writeup_tests/ordinal_constrained/data/xnli_de --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/paper_writeup_tests/ordinal_constrained/llms/pythia-70m_xnli_de_1 --output_hub_id pythia-70m_xnli_de --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 14'

###############################

submission to slurm complete!


###############################
slurm submission output

Submitted batch job 7667687


###############################

slurm submission log: 2024-05-30 08:40:47.006578
created following sbatch script: 

###############################

#!/bin/bash

#SBATCH --account=nlp
#SBATCH --cpus-per-task=16
#SBATCH --gres=gpu:2
#SBATCH --job-name=tthrush-job-4067211
#SBATCH --mem=100G
#SBATCH --nodelist=sphinx2
#SBATCH --open-mode=append
#SBATCH --output=/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/paper_writeup_tests/ordinal_constrained/llms/pythia-70m_xnli_de_1/train_job_output.txt
#SBATCH --partition=sphinx
#SBATCH --time=14-0

# activate your desired anaconda environment
. /nlp/scr/tthrush/miniconda3/etc/profile.d/conda.sh ; conda activate pretraining-coreset-selection

# cd to working directory
cd .

# launch commands
srun --unbuffered run_as_child_processes 'torchrun --master_port 29507 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/paper_writeup_tests/ordinal_constrained/data/xnli_de --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/paper_writeup_tests/ordinal_constrained/llms/pythia-70m_xnli_de_1 --output_hub_id pythia-70m_xnli_de --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 1'

###############################

submission to slurm complete!


###############################
slurm submission output

Submitted batch job 7670599


###############################

###############################
start time: 2024-05-30 16:11:31.654406
machine: sphinx2
conda env: pretraining-coreset-selection
###############################
running following processes

	torchrun --master_port 29507 --nproc_per_node=2 train_llm.py --dataset_id /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/paper_writeup_tests/ordinal_constrained/data/xnli_de --output_dir /juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/paper_writeup_tests/ordinal_constrained/llms/pythia-70m_xnli_de_1 --output_hub_id pythia-70m_xnli_de --model_id EleutherAI/pythia-70m --learning_rate 1e-3 --warmup_ratio=0.1 --gradient_accumulation_steps 2 --per_device_train_batch_size 256 --seed 1 --num_train_epochs 1


###############################
command outputs: 


[2024-05-30 16:12:29,138] torch.distributed.run: [WARNING] 
[2024-05-30 16:12:29,138] torch.distributed.run: [WARNING] *****************************************
[2024-05-30 16:12:29,138] torch.distributed.run: [WARNING] Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
[2024-05-30 16:12:29,138] torch.distributed.run: [WARNING] *****************************************
05/30/2024 16:14:43 - INFO - __main__ - Script parameters ScriptArguments(seed=1, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/paper_writeup_tests/ordinal_constrained/data/xnli_de', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/paper_writeup_tests/ordinal_constrained/llms/pythia-70m_xnli_de_1', output_hub_id='pythia-70m_xnli_de', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=1.0, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
05/30/2024 16:14:43 - INFO - __main__ - Script parameters ScriptArguments(seed=1, dataset_id='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/paper_writeup_tests/ordinal_constrained/data/xnli_de', output_dir='/juice5/scr5/tthrush/pretraining-coreset-selection/llm_pretraining/paper_writeup_tests/ordinal_constrained/llms/pythia-70m_xnli_de_1', output_hub_id='pythia-70m_xnli_de', hf_hub_token=True, model_id='EleutherAI/pythia-70m', per_device_train_batch_size=256, num_train_epochs=1.0, learning_rate=0.001, gradient_accumulation_steps=2, from_scratch=True, warmup_ratio=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, weight_decay=0.01, lr_scheduler_type='cosine', local_rank=0, resume_from_checkpoint=False, deepspeed=None, peft=False)
/nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/lib/python3.10/site-packages/huggingface_hub/file_download.py:1132: FutureWarning: `resume_download` is deprecated and will be removed in version 1.0.0. Downloads always resume when possible. If you want to force a new download, use `force_download=True`.
  warnings.warn(
/nlp/scr/tthrush/miniconda3/envs/pretraining-coreset-selection/lib/python3.10/site-packages/huggingface_hub/file_download.py:1132: FutureWarning: `resume_download` is deprecated and will be removed in version 1.0.0. Downloads always resume when possible. If you want to force a new download, use `force_download=True`.
  warnings.warn(
  0%|          | 0/10711 [00:00<?, ?it/s][rank1]:[W reducer.cpp:1360] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
[rank0]:[W reducer.cpp:1360] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
  0%|          | 1/10711 [01:02<185:01:10, 62.19s/it]  0%|          | 2/10711 [01:40<143:29:31, 48.24s/it]  0%|          | 3/10711 [02:17<128:31:06, 43.21s/it]  0%|          | 4/10711 [02:49<115:14:15, 38.75s/it]  0%|          | 5/10711 [03:20<106:45:35, 35.90s/it]  0%|          | 6/10711 [03:52<102:22:32, 34.43s/it]  0%|          | 7/10711 [04:19<95:19:05, 32.06s/it]   0%|          | 8/10711 [04:41<85:28:40, 28.75s/it]  0%|          | 9/10711 [05:07<83:01:35, 27.93s/it]  0%|          | 10/10711 [05:38<86:14:38, 29.01s/it]  0%|          | 11/10711 [05:57<77:07:40, 25.95s/it]  0%|          | 12/10711 [06:15<69:54:52, 23.52s/it]  0%|          | 13/10711 [06:31<63:24:01, 21.33s/it]  0%|          | 14/10711 [06:48<58:52:49, 19.82s/it]  0%|          | 15/10711 [07:02<53:57:48, 18.16s/it]  0%|          | 16/10711 [07:16<50:05:06, 16.86s/it]  0%|          | 17/10711 [07:30<47:33:55, 16.01s/it]  0%|          | 18/10711 [07:42<43:40:44, 14.71s/it]  0%|          | 19/10711 [08:02<48:44:35, 16.41s/it]  0%|          | 20/10711 [08:13<44:13:16, 14.89s/it]  0%|          | 21/10711 [08:25<40:56:10, 13.79s/it]  0%|          | 22/10711 [08:44<45:39:47, 15.38s/it]  0%|          | 23/10711 [09:01<47:19:43, 15.94s/it]  0%|          | 24/10711 [09:19<49:18:46, 16.61s/it]  0%|          | 25/10711 [09:29<43:48:33, 14.76s/it]                                                     {'loss': 10.6937, 'grad_norm': 1.206146478652954, 'learning_rate': 2.332089552238806e-05, 'epoch': 0.0}
  0%|          | 25/10711 [09:29<43:48:33, 14.76s/it]  0%|          | 26/10711 [09:37<37:40:06, 12.69s/it]  0%|          | 27/10711 [09:48<35:47:26, 12.06s/it]  0%|          | 28/10711 [10:03<38:23:50, 12.94s/it]  0%|          | 29/10711 [10:18<40:14:25, 13.56s/it]  0%|          | 30/10711 [10:31<40:02:09, 13.49s/it]  0%|          | 31/10711 [10:44<39:05:43, 13.18s/it]  0%|          | 32/10711 [10:56<38:28:55, 12.97s/it]  0%|          | 33/10711 [11:10<39:35:14, 13.35s/it]  0%|          | 34/10711 [11:23<38:27:30, 12.97s/it]  0%|          | 35/10711 [11:34<36:52:42, 12.44s/it]  0%|          | 36/10711 [11:44<35:01:17, 11.81s/it]  0%|          | 37/10711 [11:53<32:35:02, 10.99s/it]  0%|          | 38/10711 [12:04<32:02:27, 10.81s/it]  0%|          | 39/10711 [12:14<31:36:56, 10.66s/it]  0%|          | 40/10711 [12:22<29:40:41, 10.01s/it]  0%|          | 41/10711 [12:30<27:47:06,  9.37s/it]  0%|          | 42/10711 [12:38<26:37:22,  8.98s/it]  0%|          | 43/10711 [12:47<26:25:55,  8.92s/it]  0%|          | 44/10711 [12:55<25:17:47,  8.54s/it]  0%|          | 45/10711 [13:03<24:42:12,  8.34s/it]  0%|          | 46/10711 [13:10<23:27:15,  7.92s/it]  0%|          | 47/10711 [13:16<21:54:27,  7.40s/it]  0%|          | 48/10711 [13:23<21:35:35,  7.29s/it]  0%|          | 49/10711 [13:30<21:11:13,  7.15s/it]  0%|          | 50/10711 [13:38<22:08:12,  7.48s/it]                                                     {'loss': 10.0156, 'grad_norm': 1.0729660987854004, 'learning_rate': 4.664179104477612e-05, 'epoch': 0.0}
  0%|          | 50/10711 [13:38<22:08:12,  7.48s/it]  0%|          | 51/10711 [13:44<21:12:41,  7.16s/it]  0%|          | 52/10711 [13:50<20:16:39,  6.85s/it]  0%|          | 53/10711 [13:57<19:43:45,  6.66s/it]  1%|          | 54/10711 [14:02<18:40:03,  6.31s/it]  1%|          | 55/10711 [14:07<17:52:21,  6.04s/it]  1%|          | 56/10711 [14:13<17:44:26,  5.99s/it]  1%|          | 57/10711 [14:20<18:35:44,  6.28s/it]  1%|          | 58/10711 [14:29<20:17:22,  6.86s/it]  1%|          | 59/10711 [14:36<20:49:08,  7.04s/it]  1%|          | 60/10711 [14:43<20:54:00,  7.06s/it]  1%|          | 61/10711 [14:50<21:06:24,  7.13s/it]  1%|          | 62/10711 [14:57<20:25:03,  6.90s/it]  1%|          | 63/10711 [15:04<20:34:14,  6.95s/it]  1%|          | 64/10711 [15:12<21:51:45,  7.39s/it]  1%|          | 65/10711 [15:18<20:30:46,  6.94s/it]  1%|          | 66/10711 [15:25<20:40:05,  6.99s/it]  1%|          | 67/10711 [15:30<19:02:26,  6.44s/it]  1%|          | 68/10711 [15:36<18:02:56,  6.11s/it]  1%|          | 69/10711 [15:42<17:54:10,  6.06s/it]  1%|          | 70/10711 [15:47<17:19:09,  5.86s/it]  1%|          | 71/10711 [15:52<16:53:07,  5.71s/it]  1%|          | 72/10711 [15:57<16:00:45,  5.42s/it]  1%|          | 73/10711 [16:02<15:33:58,  5.27s/it]  1%|          | 74/10711 [16:06<14:32:53,  4.92s/it]  1%|          | 75/10711 [16:10<13:33:31,  4.59s/it]{'loss': 9.2773, 'grad_norm': 0.9132261872291565, 'learning_rate': 6.996268656716417e-05, 'epoch': 0.01}                                                     
  1%|          | 75/10711 [16:10<13:33:31,  4.59s/it]  1%|          | 76/10711 [16:14<13:27:21,  4.55s/it]  1%|          | 77/10711 [16:19<13:22:12,  4.53s/it]  1%|          | 78/10711 [16:23<13:21:13,  4.52s/it]  1%|          | 79/10711 [16:27<12:51:55,  4.36s/it]  1%|          | 80/10711 [16:32<12:49:03,  4.34s/it]  1%|          | 81/10711 [16:35<12:09:07,  4.12s/it]  1%|          | 82/10711 [16:40<12:25:35,  4.21s/it]  1%|          | 83/10711 [16:43<11:59:06,  4.06s/it]  1%|          | 84/10711 [16:46<10:21:50,  3.51s/it]  1%|          | 85/10711 [16:48<9:05:17,  3.08s/it]   1%|          | 86/10711 [16:50<7:59:43,  2.71s/it]  1%|          | 87/10711 [16:52<7:48:07,  2.64s/it]  1%|          | 88/10711 [16:54<7:12:46,  2.44s/it]  1%|          | 89/10711 [16:56<6:46:33,  2.30s/it]  1%|          | 90/10711 [16:58<6:43:38,  2.28s/it]  1%|          | 91/10711 [17:00<6:23:55,  2.17s/it]  1%|          | 92/10711 [17:02<6:18:12,  2.14s/it]  1%|          | 93/10711 [17:04<5:54:56,  2.01s/it]  1%|          | 94/10711 [17:06<5:34:37,  1.89s/it]  1%|          | 95/10711 [17:08<6:00:25,  2.04s/it]  1%|          | 96/10711 [17:10<5:50:31,  1.98s/it]  1%|          | 97/10711 [17:11<5:34:50,  1.89s/it]  1%|          | 98/10711 [17:14<6:30:41,  2.21s/it]  1%|          | 99/10711 [17:17<7:07:18,  2.42s/it]  1%|          | 100/10711 [17:20<7:31:06,  2.55s/it]                                                     {'loss': 8.4789, 'grad_norm': 0.6372926831245422, 'learning_rate': 9.328358208955224e-05, 'epoch': 0.01}
  1%|          | 100/10711 [17:20<7:31:06,  2.55s/it]  1%|          | 101/10711 [17:22<7:17:48,  2.48s/it]  1%|          | 102/10711 [17:25<7:20:26,  2.49s/it]  1%|          | 103/10711 [17:27<7:19:41,  2.49s/it]  1%|          | 104/10711 [17:30<7:03:58,  2.40s/it]  1%|          | 105/10711 [17:32<6:57:52,  2.36s/it]  1%|          | 106/10711 [17:34<7:06:22,  2.41s/it]  1%|          | 107/10711 [17:37<7:00:50,  2.38s/it]  1%|          | 108/10711 [17:39<6:53:43,  2.34s/it]  1%|          | 109/10711 [17:42<7:03:35,  2.40s/it]  1%|          | 110/10711 [17:43<6:33:26,  2.23s/it]  1%|          | 111/10711 [17:46<6:32:02,  2.22s/it]  1%|          | 112/10711 [17:48<6:31:24,  2.22s/it]  1%|          | 113/10711 [17:50<6:41:15,  2.27s/it]  1%|          | 114/10711 [17:53<6:57:02,  2.36s/it]  1%|          | 115/10711 [17:55<6:38:44,  2.26s/it]  1%|          | 116/10711 [17:57<6:46:49,  2.30s/it]  1%|          | 117/10711 [17:59<6:37:35,  2.25s/it]  1%|          | 118/10711 [18:01<6:21:51,  2.16s/it]  1%|          | 119/10711 [18:03<6:18:10,  2.14s/it]  1%|          | 120/10711 [18:05<6:15:19,  2.13s/it]  1%|          | 121/10711 [18:08<6:19:06,  2.15s/it]  1%|          | 122/10711 [18:11<7:33:07,  2.57s/it]  1%|          | 123/10711 [18:14<7:53:08,  2.68s/it]  1%|          | 124/10711 [18:17<7:40:30,  2.61s/it]  1%|          | 125/10711 [18:19<7:19:26,  2.49s/it]                                                     {'loss': 7.8196, 'grad_norm': 0.42770493030548096, 'learning_rate': 0.00011660447761194031, 'epoch': 0.01}
  1%|          | 125/10711 [18:19<7:19:26,  2.49s/it]  1%|          | 126/10711 [18:21<7:19:55,  2.49s/it]  1%|          | 127/10711 [18:24<7:47:15,  2.65s/it]  1%|          | 128/10711 [18:28<8:17:45,  2.82s/it]  1%|          | 129/10711 [18:30<8:11:21,  2.79s/it]  1%|          | 130/10711 [18:33<8:29:10,  2.89s/it]  1%|          | 131/10711 [18:36<8:11:10,  2.79s/it]  1%|          | 132/10711 [18:38<7:37:40,  2.60s/it]  1%|          | 133/10711 [18:41<8:07:31,  2.77s/it]  1%|▏         | 134/10711 [18:44<7:45:12,  2.64s/it]  1%|▏         | 135/10711 [18:46<7:36:27,  2.59s/it]  1%|▏         | 136/10711 [18:48<7:12:40,  2.45s/it]  1%|▏         | 137/10711 [18:51<7:23:10,  2.51s/it]  1%|▏         | 138/10711 [18:53<7:20:53,  2.50s/it]  1%|▏         | 139/10711 [18:55<6:48:55,  2.32s/it]  1%|▏         | 140/10711 [18:57<6:41:24,  2.28s/it]  1%|▏         | 141/10711 [19:00<7:01:14,  2.39s/it]  1%|▏         | 142/10711 [19:03<7:12:09,  2.45s/it]  1%|▏         | 143/10711 [19:05<7:25:28,  2.53s/it]  1%|▏         | 144/10711 [19:07<6:51:26,  2.34s/it]  1%|▏         | 145/10711 [19:10<7:04:17,  2.41s/it]  1%|▏         | 146/10711 [19:12<6:42:02,  2.28s/it]  1%|▏         | 147/10711 [19:14<6:44:18,  2.30s/it]  1%|▏         | 148/10711 [19:16<6:43:38,  2.29s/it]  1%|▏         | 149/10711 [19:19<6:33:16,  2.23s/it]  1%|▏         | 150/10711 [19:21<6:20:11,  2.16s/it]                                                     {'loss': 7.3013, 'grad_norm': 0.33453670144081116, 'learning_rate': 0.00013992537313432834, 'epoch': 0.01}
  1%|▏         | 150/10711 [19:21<6:20:11,  2.16s/it]  1%|▏         | 151/10711 [19:22<6:01:44,  2.06s/it]  1%|▏         | 152/10711 [19:24<5:55:10,  2.02s/it]  1%|▏         | 153/10711 [19:26<5:53:12,  2.01s/it]  1%|▏         | 154/10711 [19:29<6:20:10,  2.16s/it]  1%|▏         | 155/10711 [19:31<6:15:51,  2.14s/it]  1%|▏         | 156/10711 [19:33<6:19:39,  2.16s/it]  1%|▏         | 157/10711 [19:35<5:58:47,  2.04s/it]  1%|▏         | 158/10711 [19:37<5:56:10,  2.03s/it]  1%|▏         | 159/10711 [19:39<5:59:42,  2.05s/it]  1%|▏         | 160/10711 [19:41<5:58:53,  2.04s/it]  2%|▏         | 161/10711 [19:42<5:25:32,  1.85s/it]  2%|▏         | 162/10711 [19:44<5:28:43,  1.87s/it]  2%|▏         | 163/10711 [19:46<5:13:22,  1.78s/it]  2%|▏         | 164/10711 [19:48<5:21:01,  1.83s/it]  2%|▏         | 165/10711 [19:49<5:02:36,  1.72s/it]  2%|▏         | 166/10711 [19:51<5:19:21,  1.82s/it]  2%|▏         | 167/10711 [19:53<5:18:00,  1.81s/it]  2%|▏         | 168/10711 [19:55<5:29:25,  1.87s/it]  2%|▏         | 169/10711 [19:57<5:15:22,  1.79s/it]  2%|▏         | 170/10711 [19:59<5:40:18,  1.94s/it]  2%|▏         | 171/10711 [20:01<5:24:41,  1.85s/it]  2%|▏         | 172/10711 [20:03<5:41:47,  1.95s/it]  2%|▏         | 173/10711 [20:04<5:21:13,  1.83s/it]  2%|▏         | 174/10711 [20:06<4:55:52,  1.68s/it]  2%|▏         | 175/10711 [20:08<5:14:17,  1.79s/it]{'loss': 6.8443, 'grad_norm': 0.3563525080680847, 'learning_rate': 0.00016324626865671642, 'epoch': 0.02}
                                                       2%|▏         | 175/10711 [20:08<5:14:17,  1.79s/it]  2%|▏         | 176/10711 [20:10<5:16:58,  1.81s/it]  2%|▏         | 177/10711 [20:11<4:58:10,  1.70s/it]  2%|▏         | 178/10711 [20:12<4:43:38,  1.62s/it]  2%|▏         | 179/10711 [20:14<4:51:36,  1.66s/it]  2%|▏         | 180/10711 [20:16<5:23:04,  1.84s/it]  2%|▏         | 181/10711 [20:18<5:14:49,  1.79s/it]  2%|▏         | 182/10711 [20:19<4:46:48,  1.63s/it]  2%|▏         | 183/10711 [20:21<4:51:46,  1.66s/it]  2%|▏         | 184/10711 [20:23<4:47:14,  1.64s/it]  2%|▏         | 185/10711 [20:24<4:50:19,  1.65s/it]  2%|▏         | 186/10711 [20:26<4:48:16,  1.64s/it]  2%|▏         | 187/10711 [20:28<4:47:28,  1.64s/it]  2%|▏         | 188/10711 [20:29<4:53:04,  1.67s/it]  2%|▏         | 189/10711 [20:31<5:02:12,  1.72s/it]  2%|▏         | 190/10711 [20:33<5:07:01,  1.75s/it]  2%|▏         | 191/10711 [20:35<4:56:11,  1.69s/it]  2%|▏         | 192/10711 [20:36<4:41:45,  1.61s/it]  2%|▏         | 193/10711 [20:38<4:52:12,  1.67s/it]  2%|▏         | 194/10711 [20:39<4:47:34,  1.64s/it]  2%|▏         | 195/10711 [20:41<4:55:21,  1.69s/it]  2%|▏         | 196/10711 [20:43<4:45:53,  1.63s/it]  2%|▏         | 197/10711 [20:44<4:34:35,  1.57s/it]  2%|▏         | 198/10711 [20:46<4:31:15,  1.55s/it]  2%|▏         | 199/10711 [20:47<4:17:37,  1.47s/it]  2%|▏         | 200/10711 [20:48<4:04:42,  1.40s/it]                                                     {'loss': 6.464, 'grad_norm': 0.39695245027542114, 'learning_rate': 0.00018656716417910448, 'epoch': 0.02}
  2%|▏         | 200/10711 [20:48<4:04:42,  1.40s/it]  2%|▏         | 201/10711 [20:49<4:01:22,  1.38s/it]  2%|▏         | 202/10711 [20:51<4:08:33,  1.42s/it]  2%|▏         | 203/10711 [20:52<4:04:51,  1.40s/it]  2%|▏         | 204/10711 [20:54<3:55:56,  1.35s/it]  2%|▏         | 205/10711 [20:55<3:43:22,  1.28s/it]  2%|▏         | 206/10711 [20:56<3:46:20,  1.29s/it]  2%|▏         | 207/10711 [20:58<3:57:48,  1.36s/it]  2%|▏         | 208/10711 [20:59<3:58:38,  1.36s/it]  2%|▏         | 209/10711 [21:00<4:05:05,  1.40s/it]  2%|▏         | 210/10711 [21:02<4:30:57,  1.55s/it]  2%|▏         | 211/10711 [21:05<5:05:56,  1.75s/it]  2%|▏         | 212/10711 [21:09<7:33:05,  2.59s/it]  2%|▏         | 213/10711 [21:11<7:06:30,  2.44s/it]  2%|▏         | 214/10711 [21:13<6:10:56,  2.12s/it]  2%|▏         | 215/10711 [21:14<6:02:33,  2.07s/it]  2%|▏         | 216/10711 [21:19<7:54:07,  2.71s/it]  2%|▏         | 217/10711 [21:20<6:35:34,  2.26s/it]  2%|▏         | 218/10711 [21:22<6:30:46,  2.23s/it]  2%|▏         | 219/10711 [21:25<7:22:58,  2.53s/it]  2%|▏         | 220/10711 [21:27<6:55:14,  2.37s/it]  2%|▏         | 221/10711 [21:29<6:12:56,  2.13s/it]  2%|▏         | 222/10711 [21:30<5:26:08,  1.87s/it]  2%|▏         | 223/10711 [21:32<5:46:05,  1.98s/it]  2%|▏         | 224/10711 [21:34<5:10:08,  1.77s/it]  2%|▏         | 225/10711 [21:35<4:50:41,  1.66s/it]{'loss': 6.1849, 'grad_norm': 0.7883622646331787, 'learning_rate': 0.00020988805970149256, 'epoch': 0.02}
                                                       2%|▏         | 225/10711 [21:35<4:50:41,  1.66s/it]  2%|▏         | 226/10711 [21:36<4:31:12,  1.55s/it]  2%|▏         | 227/10711 [21:38<4:17:17,  1.47s/it]  2%|▏         | 228/10711 [21:39<4:16:17,  1.47s/it]  2%|▏         | 229/10711 [21:40<3:54:12,  1.34s/it]  2%|▏         | 230/10711 [21:41<3:45:10,  1.29s/it]  2%|▏         | 231/10711 [21:43<3:42:35,  1.27s/it]  2%|▏         | 232/10711 [21:44<3:36:43,  1.24s/it]  2%|▏         | 233/10711 [21:45<3:29:26,  1.20s/it]  2%|▏         | 234/10711 [21:46<3:31:12,  1.21s/it]  2%|▏         | 235/10711 [21:47<3:21:22,  1.15s/it]  2%|▏         | 236/10711 [21:48<3:17:03,  1.13s/it]  2%|▏         | 237/10711 [21:49<3:19:32,  1.14s/it]  2%|▏         | 238/10711 [21:50<3:13:30,  1.11s/it]  2%|▏         | 239/10711 [21:51<3:09:04,  1.08s/it]  2%|▏         | 240/10711 [21:53<3:21:19,  1.15s/it]  2%|▏         | 241/10711 [21:54<3:34:28,  1.23s/it]  2%|▏         | 242/10711 [21:55<3:39:18,  1.26s/it]  2%|▏         | 243/10711 [21:56<3:29:23,  1.20s/it]  2%|▏         | 244/10711 [21:58<3:22:13,  1.16s/it]  2%|▏         | 245/10711 [21:59<3:29:23,  1.20s/it]  2%|▏         | 246/10711 [22:00<3:18:37,  1.14s/it]  2%|▏         | 247/10711 [22:01<3:22:41,  1.16s/it]  2%|▏         | 248/10711 [22:02<3:30:50,  1.21s/it]  2%|▏         | 249/10711 [22:03<3:22:21,  1.16s/it]  2%|▏         | 250/10711 [22:05<3:33:54,  1.23s/it]                                                     {'loss': 5.9579, 'grad_norm': 0.556557297706604, 'learning_rate': 0.00023320895522388062, 'epoch': 0.02}
  2%|▏         | 250/10711 [22:05<3:33:54,  1.23s/it]  2%|▏         | 251/10711 [22:06<3:30:28,  1.21s/it]  2%|▏         | 252/10711 [22:07<3:26:24,  1.18s/it]  2%|▏         | 253/10711 [22:08<3:18:32,  1.14s/it]  2%|▏         | 254/10711 [22:09<3:17:20,  1.13s/it]  2%|▏         | 255/10711 [22:10<3:13:29,  1.11s/it]  2%|▏         | 256/10711 [22:11<3:01:07,  1.04s/it]  2%|▏         | 257/10711 [22:12<2:55:18,  1.01s/it]  2%|▏         | 258/10711 [22:13<2:59:19,  1.03s/it]  2%|▏         | 259/10711 [22:14<2:58:34,  1.03s/it]  2%|▏         | 260/10711 [22:15<2:48:52,  1.03it/s]  2%|▏         | 261/10711 [22:16<2:52:36,  1.01it/s]  2%|▏         | 262/10711 [22:17<2:54:31,  1.00s/it]  2%|▏         | 263/10711 [22:18<2:55:09,  1.01s/it]  2%|▏         | 264/10711 [22:19<2:57:50,  1.02s/it]  2%|▏         | 265/10711 [22:20<3:03:48,  1.06s/it]  2%|▏         | 266/10711 [22:22<3:11:08,  1.10s/it]  2%|▏         | 267/10711 [22:23<3:11:56,  1.10s/it]  3%|▎         | 268/10711 [22:24<3:00:24,  1.04s/it]  3%|▎         | 269/10711 [22:25<3:13:54,  1.11s/it]  3%|▎         | 270/10711 [22:26<3:09:15,  1.09s/it]  3%|▎         | 271/10711 [22:27<3:14:39,  1.12s/it]  3%|▎         | 272/10711 [22:28<3:03:23,  1.05s/it]  3%|▎         | 273/10711 [22:29<2:55:23,  1.01s/it]  3%|▎         | 274/10711 [22:30<2:52:22,  1.01it/s]  3%|▎         | 275/10711 [22:31<2:47:14,  1.04it/s]                                                     {'loss': 5.7792, 'grad_norm': 0.46938464045524597, 'learning_rate': 0.00025652985074626865, 'epoch': 0.03}
  3%|▎         | 275/10711 [22:31<2:47:14,  1.04it/s]  3%|▎         | 276/10711 [22:32<2:45:28,  1.05it/s]  3%|▎         | 277/10711 [22:33<2:56:11,  1.01s/it]  3%|▎         | 278/10711 [22:34<3:08:15,  1.08s/it]  3%|▎         | 279/10711 [22:35<3:13:21,  1.11s/it]  3%|▎         | 280/10711 [22:36<3:24:19,  1.18s/it]  3%|▎         | 281/10711 [22:38<3:20:43,  1.15s/it]  3%|▎         | 282/10711 [22:39<3:22:35,  1.17s/it]  3%|▎         | 283/10711 [22:40<3:12:31,  1.11s/it]  3%|▎         | 284/10711 [22:41<2:59:46,  1.03s/it]  3%|▎         | 285/10711 [22:42<3:00:12,  1.04s/it]  3%|▎         | 286/10711 [22:43<2:52:30,  1.01it/s]  3%|▎         | 287/10711 [22:43<2:44:30,  1.06it/s]  3%|▎         | 288/10711 [22:44<2:43:54,  1.06it/s]  3%|▎         | 289/10711 [22:45<2:48:27,  1.03it/s]  3%|▎         | 290/10711 [22:46<2:41:20,  1.08it/s]  3%|▎         | 291/10711 [22:47<2:46:33,  1.04it/s]  3%|▎         | 292/10711 [22:48<2:43:24,  1.06it/s]  3%|▎         | 293/10711 [22:49<2:39:51,  1.09it/s]  3%|▎         | 294/10711 [22:50<2:37:22,  1.10it/s]  3%|▎         | 295/10711 [22:51<2:30:37,  1.15it/s]  3%|▎         | 296/10711 [22:52<2:39:35,  1.09it/s]  3%|▎         | 297/10711 [22:53<2:36:02,  1.11it/s]  3%|▎         | 298/10711 [22:53<2:32:22,  1.14it/s]  3%|▎         | 299/10711 [22:54<2:37:28,  1.10it/s]  3%|▎         | 300/10711 [22:55<2:34:22,  1.12it/s]                                                     {'loss': 5.6363, 'grad_norm': 0.6479084491729736, 'learning_rate': 0.0002798507462686567, 'epoch': 0.03}
  3%|▎         | 300/10711 [22:55<2:34:22,  1.12it/s]  3%|▎         | 301/10711 [22:56<2:33:00,  1.13it/s]  3%|▎         | 302/10711 [22:57<2:43:15,  1.06it/s]  3%|▎         | 303/10711 [22:58<2:37:58,  1.10it/s]  3%|▎         | 304/10711 [22:59<2:39:00,  1.09it/s]  3%|▎         | 305/10711 [23:00<2:42:32,  1.07it/s]  3%|▎         | 306/10711 [23:01<2:34:29,  1.12it/s]  3%|▎         | 307/10711 [23:02<2:31:11,  1.15it/s]  3%|▎         | 308/10711 [23:02<2:30:28,  1.15it/s]  3%|▎         | 309/10711 [23:03<2:27:35,  1.17it/s]  3%|▎         | 310/10711 [23:04<2:26:06,  1.19it/s]  3%|▎         | 311/10711 [23:05<2:40:27,  1.08it/s]  3%|▎         | 312/10711 [23:06<2:31:10,  1.15it/s]  3%|▎         | 313/10711 [23:07<2:50:59,  1.01it/s]  3%|▎         | 314/10711 [23:08<2:52:28,  1.00it/s]  3%|▎         | 315/10711 [23:10<3:12:28,  1.11s/it]  3%|▎         | 316/10711 [23:10<3:00:54,  1.04s/it]  3%|▎         | 317/10711 [23:11<2:52:21,  1.01it/s]  3%|▎         | 318/10711 [23:12<2:47:27,  1.03it/s]  3%|▎         | 319/10711 [23:13<2:52:52,  1.00it/s]  3%|▎         | 320/10711 [23:14<2:40:18,  1.08it/s]  3%|▎         | 321/10711 [23:15<2:33:37,  1.13it/s]  3%|▎         | 322/10711 [23:16<3:08:17,  1.09s/it]  3%|▎         | 323/10711 [23:17<2:58:23,  1.03s/it]  3%|▎         | 324/10711 [23:18<3:07:22,  1.08s/it]  3%|▎         | 325/10711 [23:19<2:53:55,  1.00s/it]                                                     {'loss': 5.5116, 'grad_norm': 0.6173579096794128, 'learning_rate': 0.00030317164179104476, 'epoch': 0.03}
  3%|▎         | 325/10711 [23:19<2:53:55,  1.00s/it]  3%|▎         | 326/10711 [23:20<2:49:07,  1.02it/s]  3%|▎         | 327/10711 [23:21<2:46:48,  1.04it/s]  3%|▎         | 328/10711 [23:22<2:43:40,  1.06it/s]  3%|▎         | 329/10711 [23:23<2:56:09,  1.02s/it]  3%|▎         | 330/10711 [23:24<2:57:21,  1.03s/it]  3%|▎         | 331/10711 [23:25<3:00:24,  1.04s/it]  3%|▎         | 332/10711 [23:26<2:48:53,  1.02it/s]  3%|▎         | 333/10711 [23:27<2:42:25,  1.06it/s]  3%|▎         | 334/10711 [23:28<2:35:36,  1.11it/s]  3%|▎         | 335/10711 [23:29<2:25:46,  1.19it/s]  3%|▎         | 336/10711 [23:30<2:44:29,  1.05it/s]  3%|▎         | 337/10711 [23:31<2:34:31,  1.12it/s]  3%|▎         | 338/10711 [23:31<2:37:18,  1.10it/s]  3%|▎         | 339/10711 [23:32<2:37:10,  1.10it/s]  3%|▎         | 340/10711 [23:33<2:44:35,  1.05it/s]  3%|▎         | 341/10711 [23:34<2:36:27,  1.10it/s]  3%|▎         | 342/10711 [23:35<2:26:05,  1.18it/s]  3%|▎         | 343/10711 [23:36<2:21:32,  1.22it/s]  3%|▎         | 344/10711 [23:36<2:20:03,  1.23it/s]  3%|▎         | 345/10711 [23:37<2:27:23,  1.17it/s]  3%|▎         | 346/10711 [23:38<2:24:31,  1.20it/s]  3%|▎         | 347/10711 [23:39<2:34:53,  1.12it/s]  3%|▎         | 348/10711 [23:40<2:31:58,  1.14it/s]  3%|▎         | 349/10711 [23:41<2:22:58,  1.21it/s]  3%|▎         | 350/10711 [23:42<2:20:49,  1.23it/s]                                                     {'loss': 5.3974, 'grad_norm': 0.6260870099067688, 'learning_rate': 0.00032649253731343285, 'epoch': 0.03}
  3%|▎         | 350/10711 [23:42<2:20:49,  1.23it/s]  3%|▎         | 351/10711 [23:42<2:21:47,  1.22it/s]  3%|▎         | 352/10711 [23:43<2:34:34,  1.12it/s]  3%|▎         | 353/10711 [23:44<2:24:41,  1.19it/s]  3%|▎         | 354/10711 [23:45<2:23:48,  1.20it/s]  3%|▎         | 355/10711 [23:46<2:19:08,  1.24it/s]  3%|▎         | 356/10711 [23:47<2:33:25,  1.12it/s]  3%|▎         | 357/10711 [23:48<2:29:21,  1.16it/s]  3%|▎         | 358/10711 [23:48<2:23:57,  1.20it/s]  3%|▎         | 359/10711 [23:49<2:24:11,  1.20it/s]  3%|▎         | 360/10711 [23:50<2:22:57,  1.21it/s]  3%|▎         | 361/10711 [23:51<2:19:56,  1.23it/s]  3%|▎         | 362/10711 [23:52<2:19:15,  1.24it/s]  3%|▎         | 363/10711 [23:52<2:16:19,  1.27it/s]  3%|▎         | 364/10711 [23:53<2:18:43,  1.24it/s]  3%|▎         | 365/10711 [23:54<2:27:42,  1.17it/s]  3%|▎         | 366/10711 [23:55<2:31:07,  1.14it/s]  3%|▎         | 367/10711 [23:56<2:30:43,  1.14it/s]  3%|▎         | 368/10711 [23:57<2:42:25,  1.06it/s]  3%|▎         | 369/10711 [23:58<2:32:57,  1.13it/s]  3%|▎         | 370/10711 [23:59<2:25:43,  1.18it/s]  3%|▎         | 371/10711 [24:00<2:37:14,  1.10it/s]  3%|▎         | 372/10711 [24:00<2:29:40,  1.15it/s]  3%|▎         | 373/10711 [24:01<2:29:48,  1.15it/s]  3%|▎         | 374/10711 [24:02<2:27:05,  1.17it/s]  4%|▎         | 375/10711 [24:03<2:26:00,  1.18it/s]                                                     {'loss': 5.3074, 'grad_norm': 0.7875047922134399, 'learning_rate': 0.0003498134328358209, 'epoch': 0.04}
  4%|▎         | 375/10711 [24:03<2:26:00,  1.18it/s]  4%|▎         | 376/10711 [24:04<2:21:24,  1.22it/s]  4%|▎         | 377/10711 [24:05<2:20:24,  1.23it/s]  4%|▎         | 378/10711 [24:05<2:16:36,  1.26it/s]  4%|▎         | 379/10711 [24:06<2:14:21,  1.28it/s]  4%|▎         | 380/10711 [24:07<2:34:27,  1.11it/s]  4%|▎         | 381/10711 [24:08<2:26:37,  1.17it/s]  4%|▎         | 382/10711 [24:09<2:42:47,  1.06it/s]  4%|▎         | 383/10711 [24:10<2:46:05,  1.04it/s]  4%|▎         | 384/10711 [24:11<2:32:17,  1.13it/s]  4%|▎         | 385/10711 [24:12<2:24:19,  1.19it/s]  4%|▎         | 386/10711 [24:12<2:30:12,  1.15it/s]  4%|▎         | 387/10711 [24:13<2:22:10,  1.21it/s]  4%|▎         | 388/10711 [24:14<2:15:39,  1.27it/s]  4%|▎         | 389/10711 [24:15<2:13:08,  1.29it/s]  4%|▎         | 390/10711 [24:15<2:08:37,  1.34it/s]  4%|▎         | 391/10711 [24:16<2:05:16,  1.37it/s]  4%|▎         | 392/10711 [24:17<2:05:32,  1.37it/s]  4%|▎         | 393/10711 [24:18<2:21:05,  1.22it/s]  4%|▎         | 394/10711 [24:18<2:14:32,  1.28it/s]  4%|▎         | 395/10711 [24:19<2:16:40,  1.26it/s]  4%|▎         | 396/10711 [24:20<2:14:19,  1.28it/s]  4%|▎         | 397/10711 [24:21<2:08:08,  1.34it/s]  4%|▎         | 398/10711 [24:21<2:04:31,  1.38it/s]  4%|▎         | 399/10711 [24:22<2:00:28,  1.43it/s]  4%|▎         | 400/10711 [24:23<1:57:14,  1.47it/s]                                                     {'loss': 5.207, 'grad_norm': 0.8582004904747009, 'learning_rate': 0.00037313432835820896, 'epoch': 0.04}
  4%|▎         | 400/10711 [24:23<1:57:14,  1.47it/s]  4%|▎         | 401/10711 [24:23<1:54:55,  1.50it/s]  4%|▍         | 402/10711 [24:24<1:56:01,  1.48it/s]  4%|▍         | 403/10711 [24:25<1:58:48,  1.45it/s]  4%|▍         | 404/10711 [24:25<1:55:12,  1.49it/s]  4%|▍         | 405/10711 [24:26<2:04:02,  1.38it/s]  4%|▍         | 406/10711 [24:27<2:02:14,  1.41it/s]  4%|▍         | 407/10711 [24:28<2:03:20,  1.39it/s]  4%|▍         | 408/10711 [24:28<1:58:56,  1.44it/s]  4%|▍         | 409/10711 [24:29<1:52:59,  1.52it/s]  4%|▍         | 410/10711 [24:29<1:52:41,  1.52it/s]  4%|▍         | 411/10711 [24:30<1:47:48,  1.59it/s]  4%|▍         | 412/10711 [24:31<1:43:35,  1.66it/s]  4%|▍         | 413/10711 [24:31<1:45:11,  1.63it/s]  4%|▍         | 414/10711 [24:32<1:49:12,  1.57it/s]  4%|▍         | 415/10711 [24:33<1:47:45,  1.59it/s]  4%|▍         | 416/10711 [24:33<1:49:12,  1.57it/s]  4%|▍         | 417/10711 [24:34<1:57:07,  1.46it/s]  4%|▍         | 418/10711 [24:35<1:56:43,  1.47it/s]  4%|▍         | 419/10711 [24:35<1:54:09,  1.50it/s]  4%|▍         | 420/10711 [24:36<1:52:34,  1.52it/s]  4%|▍         | 421/10711 [24:37<2:00:11,  1.43it/s]  4%|▍         | 422/10711 [24:37<2:00:39,  1.42it/s]  4%|▍         | 423/10711 [24:38<2:01:19,  1.41it/s]  4%|▍         | 424/10711 [24:39<1:58:15,  1.45it/s]  4%|▍         | 425/10711 [24:39<1:55:49,  1.48it/s]                                                     {'loss': 5.131, 'grad_norm': 0.6575611233711243, 'learning_rate': 0.00039645522388059704, 'epoch': 0.04}
  4%|▍         | 425/10711 [24:39<1:55:49,  1.48it/s]  4%|▍         | 426/10711 [24:40<1:56:50,  1.47it/s]  4%|▍         | 427/10711 [24:41<1:56:46,  1.47it/s]  4%|▍         | 428/10711 [24:42<1:59:54,  1.43it/s]  4%|▍         | 429/10711 [24:42<2:09:07,  1.33it/s]  4%|▍         | 430/10711 [24:43<2:01:26,  1.41it/s]  4%|▍         | 431/10711 [24:44<1:53:57,  1.50it/s]  4%|▍         | 432/10711 [24:44<1:49:49,  1.56it/s]  4%|▍         | 433/10711 [24:45<1:46:07,  1.61it/s]  4%|▍         | 434/10711 [24:45<1:43:10,  1.66it/s]  4%|▍         | 435/10711 [24:46<1:42:03,  1.68it/s]  4%|▍         | 436/10711 [24:46<1:41:06,  1.69it/s]  4%|▍         | 437/10711 [24:47<1:39:30,  1.72it/s]  4%|▍         | 438/10711 [24:48<1:40:21,  1.71it/s]  4%|▍         | 439/10711 [24:48<1:40:59,  1.70it/s]  4%|▍         | 440/10711 [24:49<1:40:28,  1.70it/s]  4%|▍         | 441/10711 [24:49<1:39:24,  1.72it/s]  4%|▍         | 442/10711 [24:50<1:40:47,  1.70it/s]  4%|▍         | 443/10711 [24:51<1:39:13,  1.72it/s]  4%|▍         | 444/10711 [24:51<1:38:46,  1.73it/s]  4%|▍         | 445/10711 [24:52<1:40:31,  1.70it/s]  4%|▍         | 446/10711 [24:52<1:39:21,  1.72it/s]  4%|▍         | 447/10711 [24:53<1:41:19,  1.69it/s]  4%|▍         | 448/10711 [24:53<1:38:23,  1.74it/s]  4%|▍         | 449/10711 [24:54<1:37:59,  1.75it/s]  4%|▍         | 450/10711 [24:55<1:37:12,  1.76it/s]{'loss': 5.0587, 'grad_norm': 0.580988347530365, 'learning_rate': 0.0004197761194029851, 'epoch': 0.04}
                                                       4%|▍         | 450/10711 [24:55<1:37:12,  1.76it/s]  4%|▍         | 451/10711 [24:55<1:37:42,  1.75it/s]  4%|▍         | 452/10711 [24:56<1:36:42,  1.77it/s]  4%|▍         | 453/10711 [24:56<1:35:54,  1.78it/s]  4%|▍         | 454/10711 [24:57<1:36:10,  1.78it/s]  4%|▍         | 455/10711 [24:57<1:36:22,  1.77it/s]  4%|▍         | 456/10711 [24:58<1:36:37,  1.77it/s]  4%|▍         | 457/10711 [24:59<1:37:24,  1.75it/s]  4%|▍         | 458/10711 [24:59<1:36:51,  1.76it/s]  4%|▍         | 459/10711 [25:00<1:35:59,  1.78it/s]  4%|▍         | 460/10711 [25:00<1:35:51,  1.78it/s]  4%|▍         | 461/10711 [25:01<1:35:02,  1.80it/s]  4%|▍         | 462/10711 [25:01<1:35:20,  1.79it/s]  4%|▍         | 463/10711 [25:02<1:35:36,  1.79it/s]  4%|▍         | 464/10711 [25:02<1:35:01,  1.80it/s]  4%|▍         | 465/10711 [25:03<1:33:55,  1.82it/s]  4%|▍         | 466/10711 [25:04<1:35:48,  1.78it/s]  4%|▍         | 467/10711 [25:04<1:36:09,  1.78it/s]  4%|▍         | 468/10711 [25:05<1:41:50,  1.68it/s]  4%|▍         | 469/10711 [25:05<1:41:40,  1.68it/s]  4%|▍         | 470/10711 [25:06<1:41:24,  1.68it/s]  4%|▍         | 471/10711 [25:07<1:42:57,  1.66it/s]  4%|▍         | 472/10711 [25:07<1:44:10,  1.64it/s]  4%|▍         | 473/10711 [25:08<1:44:34,  1.63it/s]  4%|▍         | 474/10711 [25:08<1:46:17,  1.61it/s]  4%|▍         | 475/10711 [25:09<1:42:03,  1.67it/s]{'loss': 4.9932, 'grad_norm': 0.5285471677780151, 'learning_rate': 0.00044309701492537316, 'epoch': 0.04}
                                                       4%|▍         | 475/10711 [25:09<1:42:03,  1.67it/s]  4%|▍         | 476/10711 [25:10<1:42:25,  1.67it/s]  4%|▍         | 477/10711 [25:10<1:39:37,  1.71it/s]  4%|▍         | 478/10711 [25:11<1:40:09,  1.70it/s]  4%|▍         | 479/10711 [25:11<1:37:57,  1.74it/s]  4%|▍         | 480/10711 [25:12<1:51:39,  1.53it/s]  4%|▍         | 481/10711 [25:13<1:46:34,  1.60it/s]  5%|▍         | 482/10711 [25:13<1:47:35,  1.58it/s]  5%|▍         | 483/10711 [25:14<1:43:32,  1.65it/s]  5%|▍         | 484/10711 [25:14<1:39:09,  1.72it/s]  5%|▍         | 485/10711 [25:15<1:37:21,  1.75it/s]  5%|▍         | 486/10711 [25:16<1:39:29,  1.71it/s]  5%|▍         | 487/10711 [25:16<1:37:07,  1.75it/s]  5%|▍         | 488/10711 [25:17<1:35:26,  1.79it/s]  5%|▍         | 489/10711 [25:17<1:36:46,  1.76it/s]  5%|▍         | 490/10711 [25:18<1:34:17,  1.81it/s]  5%|▍         | 491/10711 [25:18<1:35:17,  1.79it/s]  5%|▍         | 492/10711 [25:19<1:35:07,  1.79it/s]  5%|▍         | 493/10711 [25:19<1:34:32,  1.80it/s]  5%|▍         | 494/10711 [25:20<1:32:52,  1.83it/s]  5%|▍         | 495/10711 [25:21<1:32:25,  1.84it/s]  5%|▍         | 496/10711 [25:21<1:36:12,  1.77it/s]  5%|▍         | 497/10711 [25:22<1:35:58,  1.77it/s]  5%|▍         | 498/10711 [25:22<1:35:59,  1.77it/s]  5%|▍         | 499/10711 [25:23<1:34:30,  1.80it/s]  5%|▍         | 500/10711 [25:23<1:36:36,  1.76it/s]                                                     {'loss': 4.9279, 'grad_norm': 0.6345527172088623, 'learning_rate': 0.00046641791044776124, 'epoch': 0.05}
  5%|▍         | 500/10711 [25:23<1:36:36,  1.76it/s]  5%|▍         | 501/10711 [25:24<1:37:10,  1.75it/s]  5%|▍         | 502/10711 [25:24<1:35:34,  1.78it/s]  5%|▍         | 503/10711 [25:25<1:35:33,  1.78it/s]  5%|▍         | 504/10711 [25:26<1:35:01,  1.79it/s]  5%|▍         | 505/10711 [25:26<1:34:50,  1.79it/s]  5%|▍         | 506/10711 [25:27<1:36:00,  1.77it/s]  5%|▍         | 507/10711 [25:27<1:34:32,  1.80it/s]  5%|▍         | 508/10711 [25:28<1:32:39,  1.84it/s]  5%|▍         | 509/10711 [25:28<1:33:08,  1.83it/s]  5%|▍         | 510/10711 [25:29<1:33:52,  1.81it/s]  5%|▍         | 511/10711 [25:29<1:34:42,  1.79it/s]  5%|▍         | 512/10711 [25:30<1:35:21,  1.78it/s]  5%|▍         | 513/10711 [25:31<1:34:23,  1.80it/s]  5%|▍         | 514/10711 [25:31<1:33:27,  1.82it/s]  5%|▍         | 515/10711 [25:32<1:36:21,  1.76it/s]  5%|▍         | 516/10711 [25:32<1:35:18,  1.78it/s]  5%|▍         | 517/10711 [25:33<1:34:26,  1.80it/s]  5%|▍         | 518/10711 [25:33<1:33:33,  1.82it/s]  5%|▍         | 519/10711 [25:34<1:35:27,  1.78it/s]  5%|▍         | 520/10711 [25:34<1:33:53,  1.81it/s]  5%|▍         | 521/10711 [25:35<1:32:54,  1.83it/s]  5%|▍         | 522/10711 [25:36<1:32:42,  1.83it/s]  5%|▍         | 523/10711 [25:36<1:31:19,  1.86it/s]  5%|▍         | 524/10711 [25:37<1:35:18,  1.78it/s]  5%|▍         | 525/10711 [25:37<1:32:49,  1.83it/s]{'loss': 4.8774, 'grad_norm': 0.6001321077346802, 'learning_rate': 0.0004897388059701492, 'epoch': 0.05}                                                     
  5%|▍         | 525/10711 [25:37<1:32:49,  1.83it/s]  5%|▍         | 526/10711 [25:38<1:31:42,  1.85it/s]  5%|▍         | 527/10711 [25:38<1:30:56,  1.87it/s]  5%|▍         | 528/10711 [25:39<1:29:58,  1.89it/s]  5%|▍         | 529/10711 [25:39<1:30:00,  1.89it/s]  5%|▍         | 530/10711 [25:40<1:30:39,  1.87it/s]  5%|▍         | 531/10711 [25:40<1:31:55,  1.85it/s]  5%|▍         | 532/10711 [25:41<1:32:21,  1.84it/s]  5%|▍         | 533/10711 [25:42<1:36:49,  1.75it/s]  5%|▍         | 534/10711 [25:42<1:36:26,  1.76it/s]  5%|▍         | 535/10711 [25:43<1:34:26,  1.80it/s]  5%|▌         | 536/10711 [25:43<1:33:05,  1.82it/s]  5%|▌         | 537/10711 [25:44<1:34:26,  1.80it/s]  5%|▌         | 538/10711 [25:44<1:33:53,  1.81it/s]  5%|▌         | 539/10711 [25:45<1:33:15,  1.82it/s]  5%|▌         | 540/10711 [25:46<1:45:25,  1.61it/s]  5%|▌         | 541/10711 [25:46<1:41:17,  1.67it/s]  5%|▌         | 542/10711 [25:47<1:44:51,  1.62it/s]  5%|▌         | 543/10711 [25:47<1:43:51,  1.63it/s]  5%|▌         | 544/10711 [25:48<1:38:42,  1.72it/s]  5%|▌         | 545/10711 [25:49<1:36:45,  1.75it/s]  5%|▌         | 546/10711 [25:49<1:35:58,  1.77it/s]  5%|▌         | 547/10711 [25:50<1:35:45,  1.77it/s]  5%|▌         | 548/10711 [25:50<1:37:36,  1.74it/s]  5%|▌         | 549/10711 [25:51<1:37:40,  1.73it/s]  5%|▌         | 550/10711 [25:51<1:35:21,  1.78it/s]{'loss': 4.8278, 'grad_norm': 0.6284551024436951, 'learning_rate': 0.0005130597014925373, 'epoch': 0.05}                                                     
  5%|▌         | 550/10711 [25:51<1:35:21,  1.78it/s]  5%|▌         | 551/10711 [25:52<1:38:52,  1.71it/s]  5%|▌         | 552/10711 [25:53<1:37:59,  1.73it/s]  5%|▌         | 553/10711 [25:53<1:36:51,  1.75it/s]  5%|▌         | 554/10711 [25:54<1:35:42,  1.77it/s]  5%|▌         | 555/10711 [25:54<1:34:54,  1.78it/s]  5%|▌         | 556/10711 [25:55<1:34:59,  1.78it/s]  5%|▌         | 557/10711 [25:55<1:39:12,  1.71it/s]  5%|▌         | 558/10711 [25:56<1:39:14,  1.71it/s]  5%|▌         | 559/10711 [25:57<1:36:21,  1.76it/s]  5%|▌         | 560/10711 [25:57<1:34:17,  1.79it/s]  5%|▌         | 561/10711 [25:58<1:33:17,  1.81it/s]  5%|▌         | 562/10711 [25:58<1:35:18,  1.77it/s]  5%|▌         | 563/10711 [25:59<1:34:12,  1.80it/s]  5%|▌         | 564/10711 [25:59<1:32:32,  1.83it/s]  5%|▌         | 565/10711 [26:00<1:32:07,  1.84it/s]  5%|▌         | 566/10711 [26:00<1:35:20,  1.77it/s]  5%|▌         | 567/10711 [26:01<1:37:53,  1.73it/s]  5%|▌         | 568/10711 [26:02<1:37:17,  1.74it/s]  5%|▌         | 569/10711 [26:02<1:33:13,  1.81it/s]  5%|▌         | 570/10711 [26:03<1:36:59,  1.74it/s]  5%|▌         | 571/10711 [26:03<1:35:27,  1.77it/s]  5%|▌         | 572/10711 [26:04<1:35:15,  1.77it/s]  5%|▌         | 573/10711 [26:04<1:33:29,  1.81it/s]  5%|▌         | 574/10711 [26:05<1:34:58,  1.78it/s]  5%|▌         | 575/10711 [26:06<1:35:33,  1.77it/s]                                                     {'loss': 4.7833, 'grad_norm': 0.5243290066719055, 'learning_rate': 0.0005363805970149254, 'epoch': 0.05}
  5%|▌         | 575/10711 [26:06<1:35:33,  1.77it/s]  5%|▌         | 576/10711 [26:06<1:34:32,  1.79it/s]  5%|▌         | 577/10711 [26:07<1:35:59,  1.76it/s]  5%|▌         | 578/10711 [26:07<1:39:58,  1.69it/s]  5%|▌         | 579/10711 [26:08<1:38:03,  1.72it/s]  5%|▌         | 580/10711 [26:08<1:39:56,  1.69it/s]  5%|▌         | 581/10711 [26:09<1:38:14,  1.72it/s]  5%|▌         | 582/10711 [26:10<1:36:39,  1.75it/s]  5%|▌         | 583/10711 [26:10<1:33:47,  1.80it/s]  5%|▌         | 584/10711 [26:11<1:34:21,  1.79it/s]  5%|▌         | 585/10711 [26:11<1:34:38,  1.78it/s]  5%|▌         | 586/10711 [26:12<1:53:04,  1.49it/s]  5%|▌         | 587/10711 [26:13<1:45:58,  1.59it/s]  5%|▌         | 588/10711 [26:13<1:44:31,  1.61it/s]  5%|▌         | 589/10711 [26:14<1:40:49,  1.67it/s]  6%|▌         | 590/10711 [26:14<1:37:13,  1.73it/s]  6%|▌         | 591/10711 [26:15<1:36:53,  1.74it/s]  6%|▌         | 592/10711 [26:16<1:37:30,  1.73it/s]  6%|▌         | 593/10711 [26:16<1:35:20,  1.77it/s]  6%|▌         | 594/10711 [26:17<1:35:18,  1.77it/s]  6%|▌         | 595/10711 [26:17<1:31:50,  1.84it/s]  6%|▌         | 596/10711 [26:18<1:33:27,  1.80it/s]  6%|▌         | 597/10711 [26:18<1:34:54,  1.78it/s]  6%|▌         | 598/10711 [26:19<1:31:49,  1.84it/s]  6%|▌         | 599/10711 [26:19<1:30:47,  1.86it/s]  6%|▌         | 600/10711 [26:20<1:33:06,  1.81it/s]                                                     {'loss': 4.7351, 'grad_norm': 0.5249538421630859, 'learning_rate': 0.0005597014925373134, 'epoch': 0.06}
  6%|▌         | 600/10711 [26:20<1:33:06,  1.81it/s]  6%|▌         | 601/10711 [26:20<1:32:30,  1.82it/s]  6%|▌         | 602/10711 [26:21<1:35:22,  1.77it/s]  6%|▌         | 603/10711 [26:22<1:31:53,  1.83it/s]  6%|▌         | 604/10711 [26:22<1:31:32,  1.84it/s]  6%|▌         | 605/10711 [26:23<1:32:10,  1.83it/s]  6%|▌         | 606/10711 [26:23<1:35:40,  1.76it/s]  6%|▌         | 607/10711 [26:24<1:38:34,  1.71it/s]  6%|▌         | 608/10711 [26:24<1:37:03,  1.73it/s]  6%|▌         | 609/10711 [26:25<1:36:41,  1.74it/s]  6%|▌         | 610/10711 [26:26<1:37:24,  1.73it/s]  6%|▌         | 611/10711 [26:26<1:34:37,  1.78it/s]  6%|▌         | 612/10711 [26:27<1:32:27,  1.82it/s]  6%|▌         | 613/10711 [26:27<1:31:19,  1.84it/s]  6%|▌         | 614/10711 [26:28<1:30:51,  1.85it/s]  6%|▌         | 615/10711 [26:28<1:30:44,  1.85it/s]  6%|▌         | 616/10711 [26:29<1:33:25,  1.80it/s]  6%|▌         | 617/10711 [26:29<1:34:42,  1.78it/s]  6%|▌         | 618/10711 [26:30<1:32:42,  1.81it/s]  6%|▌         | 619/10711 [26:30<1:31:04,  1.85it/s]  6%|▌         | 620/10711 [26:31<1:32:47,  1.81it/s]  6%|▌         | 621/10711 [26:32<1:32:05,  1.83it/s]  6%|▌         | 622/10711 [26:32<1:31:21,  1.84it/s]  6%|▌         | 623/10711 [26:33<1:30:04,  1.87it/s]  6%|▌         | 624/10711 [26:33<1:32:03,  1.83it/s]  6%|▌         | 625/10711 [26:34<1:29:25,  1.88it/s]                                                     {'loss': 4.6948, 'grad_norm': 0.46420955657958984, 'learning_rate': 0.0005830223880597015, 'epoch': 0.06}
  6%|▌         | 625/10711 [26:34<1:29:25,  1.88it/s]  6%|▌         | 626/10711 [26:34<1:29:41,  1.87it/s]  6%|▌         | 627/10711 [26:35<1:29:09,  1.88it/s]  6%|▌         | 628/10711 [26:35<1:33:46,  1.79it/s]  6%|▌         | 629/10711 [26:36<1:33:15,  1.80it/s]  6%|▌         | 630/10711 [26:36<1:33:19,  1.80it/s]  6%|▌         | 631/10711 [26:37<1:30:19,  1.86it/s]  6%|▌         | 632/10711 [26:37<1:30:03,  1.87it/s]  6%|▌         | 633/10711 [26:38<1:29:36,  1.87it/s]  6%|▌         | 634/10711 [26:39<1:31:02,  1.84it/s]  6%|▌         | 635/10711 [26:39<1:31:18,  1.84it/s]  6%|▌         | 636/10711 [26:40<1:30:54,  1.85it/s]  6%|▌         | 637/10711 [26:40<1:29:58,  1.87it/s]  6%|▌         | 638/10711 [26:41<1:27:55,  1.91it/s]  6%|▌         | 639/10711 [26:41<1:28:26,  1.90it/s]  6%|▌         | 640/10711 [26:42<1:38:37,  1.70it/s]  6%|▌         | 641/10711 [26:42<1:35:53,  1.75it/s]  6%|▌         | 642/10711 [26:43<1:32:05,  1.82it/s]  6%|▌         | 643/10711 [26:44<1:32:20,  1.82it/s]  6%|▌         | 644/10711 [26:44<1:33:03,  1.80it/s]  6%|▌         | 645/10711 [26:45<1:32:34,  1.81it/s]  6%|▌         | 646/10711 [26:45<1:33:34,  1.79it/s]  6%|▌         | 647/10711 [26:46<1:34:45,  1.77it/s]  6%|▌         | 648/10711 [26:46<1:37:54,  1.71it/s]  6%|▌         | 649/10711 [26:47<1:42:47,  1.63it/s]  6%|▌         | 650/10711 [26:48<1:38:00,  1.71it/s]                                                     {'loss': 4.6592, 'grad_norm': 0.410100519657135, 'learning_rate': 0.0006063432835820895, 'epoch': 0.06}
  6%|▌         | 650/10711 [26:48<1:38:00,  1.71it/s]  6%|▌         | 651/10711 [26:48<1:37:48,  1.71it/s]  6%|▌         | 652/10711 [26:49<1:36:55,  1.73it/s]  6%|▌         | 653/10711 [26:49<1:35:22,  1.76it/s]  6%|▌         | 654/10711 [26:50<1:32:56,  1.80it/s]  6%|▌         | 655/10711 [26:50<1:31:28,  1.83it/s]  6%|▌         | 656/10711 [26:51<1:32:19,  1.82it/s]  6%|▌         | 657/10711 [26:51<1:31:12,  1.84it/s]  6%|▌         | 658/10711 [26:52<1:30:59,  1.84it/s]  6%|▌         | 659/10711 [26:53<1:30:14,  1.86it/s]  6%|▌         | 660/10711 [26:53<1:30:16,  1.86it/s]  6%|▌         | 661/10711 [26:54<1:28:00,  1.90it/s]  6%|▌         | 662/10711 [26:54<1:27:54,  1.91it/s]  6%|▌         | 663/10711 [26:55<1:28:10,  1.90it/s]  6%|▌         | 664/10711 [26:55<1:28:16,  1.90it/s]  6%|▌         | 665/10711 [26:56<1:29:23,  1.87it/s]  6%|▌         | 666/10711 [26:56<1:27:27,  1.91it/s]  6%|▌         | 667/10711 [26:57<1:26:11,  1.94it/s]  6%|▌         | 668/10711 [26:57<1:28:55,  1.88it/s]  6%|▌         | 669/10711 [26:58<1:28:29,  1.89it/s]  6%|▋         | 670/10711 [26:58<1:34:34,  1.77it/s]  6%|▋         | 671/10711 [26:59<1:32:25,  1.81it/s]  6%|▋         | 672/10711 [26:59<1:30:57,  1.84it/s]  6%|▋         | 673/10711 [27:00<1:31:35,  1.83it/s]  6%|▋         | 674/10711 [27:01<1:29:42,  1.86it/s]  6%|▋         | 675/10711 [27:01<1:30:20,  1.85it/s]                                                     {'loss': 4.624, 'grad_norm': 0.44378143548965454, 'learning_rate': 0.0006296641791044776, 'epoch': 0.06}
  6%|▋         | 675/10711 [27:01<1:30:20,  1.85it/s]  6%|▋         | 676/10711 [27:02<1:29:27,  1.87it/s]  6%|▋         | 677/10711 [27:02<1:32:10,  1.81it/s]  6%|▋         | 678/10711 [27:03<1:30:26,  1.85it/s]  6%|▋         | 679/10711 [27:03<1:29:16,  1.87it/s]  6%|▋         | 680/10711 [27:04<1:31:21,  1.83it/s]  6%|▋         | 681/10711 [27:04<1:30:27,  1.85it/s]  6%|▋         | 682/10711 [27:05<1:31:28,  1.83it/s]  6%|▋         | 683/10711 [27:05<1:33:06,  1.80it/s]  6%|▋         | 684/10711 [27:06<1:34:16,  1.77it/s]  6%|▋         | 685/10711 [27:07<1:30:48,  1.84it/s]  6%|▋         | 686/10711 [27:07<1:30:07,  1.85it/s]  6%|▋         | 687/10711 [27:08<1:30:55,  1.84it/s]  6%|▋         | 688/10711 [27:08<1:29:55,  1.86it/s]  6%|▋         | 689/10711 [27:09<1:30:06,  1.85it/s]  6%|▋         | 690/10711 [27:09<1:29:18,  1.87it/s]  6%|▋         | 691/10711 [27:10<1:28:05,  1.90it/s]  6%|▋         | 692/10711 [27:10<1:28:17,  1.89it/s]  6%|▋         | 693/10711 [27:11<1:28:41,  1.88it/s]  6%|▋         | 694/10711 [27:11<1:27:32,  1.91it/s]  6%|▋         | 695/10711 [27:12<1:30:38,  1.84it/s]  6%|▋         | 696/10711 [27:12<1:30:24,  1.85it/s]  7%|▋         | 697/10711 [27:13<1:28:44,  1.88it/s]  7%|▋         | 698/10711 [27:14<1:32:17,  1.81it/s]  7%|▋         | 699/10711 [27:14<1:33:03,  1.79it/s]  7%|▋         | 700/10711 [27:15<1:29:57,  1.85it/s]                                                     {'loss': 4.5888, 'grad_norm': 0.49913010001182556, 'learning_rate': 0.0006529850746268657, 'epoch': 0.07}
  7%|▋         | 700/10711 [27:15<1:29:57,  1.85it/s]  7%|▋         | 701/10711 [27:15<1:29:08,  1.87it/s]  7%|▋         | 702/10711 [27:16<1:28:59,  1.87it/s]  7%|▋         | 703/10711 [27:16<1:30:41,  1.84it/s]  7%|▋         | 704/10711 [27:17<1:29:51,  1.86it/s]  7%|▋         | 705/10711 [27:18<1:43:33,  1.61it/s]  7%|▋         | 706/10711 [27:18<1:39:10,  1.68it/s]  7%|▋         | 707/10711 [27:19<1:36:47,  1.72it/s]  7%|▋         | 708/10711 [27:19<1:36:18,  1.73it/s]  7%|▋         | 709/10711 [27:20<1:33:04,  1.79it/s]  7%|▋         | 710/10711 [27:20<1:30:55,  1.83it/s]  7%|▋         | 711/10711 [27:21<1:29:14,  1.87it/s]  7%|▋         | 712/10711 [27:21<1:27:59,  1.89it/s]  7%|▋         | 713/10711 [27:22<1:26:35,  1.92it/s]  7%|▋         | 714/10711 [27:22<1:26:17,  1.93it/s]  7%|▋         | 715/10711 [27:23<1:26:16,  1.93it/s]  7%|▋         | 716/10711 [27:23<1:26:33,  1.92it/s]  7%|▋         | 717/10711 [27:24<1:26:14,  1.93it/s]  7%|▋         | 718/10711 [27:24<1:25:44,  1.94it/s]  7%|▋         | 719/10711 [27:25<1:25:42,  1.94it/s]  7%|▋         | 720/10711 [27:25<1:25:47,  1.94it/s]  7%|▋         | 721/10711 [27:26<1:25:00,  1.96it/s]  7%|▋         | 722/10711 [27:26<1:24:18,  1.97it/s]  7%|▋         | 723/10711 [27:27<1:24:44,  1.96it/s]  7%|▋         | 724/10711 [27:27<1:25:27,  1.95it/s]  7%|▋         | 725/10711 [27:28<1:26:06,  1.93it/s]{'loss': 4.5625, 'grad_norm': 0.5066945552825928, 'learning_rate': 0.0006763059701492538, 'epoch': 0.07}
                                                       7%|▋         | 725/10711 [27:28<1:26:06,  1.93it/s]  7%|▋         | 726/10711 [27:28<1:27:05,  1.91it/s]  7%|▋         | 727/10711 [27:29<1:26:11,  1.93it/s]  7%|▋         | 728/10711 [27:30<1:26:42,  1.92it/s]  7%|▋         | 729/10711 [27:30<1:26:40,  1.92it/s]  7%|▋         | 730/10711 [27:31<1:25:20,  1.95it/s]  7%|▋         | 731/10711 [27:31<1:25:10,  1.95it/s]  7%|▋         | 732/10711 [27:32<1:26:04,  1.93it/s]  7%|▋         | 733/10711 [27:32<1:26:18,  1.93it/s]  7%|▋         | 734/10711 [27:33<1:26:29,  1.92it/s]  7%|▋         | 735/10711 [27:33<1:26:04,  1.93it/s]  7%|▋         | 736/10711 [27:34<1:26:19,  1.93it/s]  7%|▋         | 737/10711 [27:34<1:30:19,  1.84it/s]  7%|▋         | 738/10711 [27:35<1:33:43,  1.77it/s]  7%|▋         | 739/10711 [27:35<1:30:17,  1.84it/s]  7%|▋         | 740/10711 [27:36<1:28:50,  1.87it/s]  7%|▋         | 741/10711 [27:36<1:30:23,  1.84it/s]  7%|▋         | 742/10711 [27:37<1:30:39,  1.83it/s]  7%|▋         | 743/10711 [27:38<1:30:55,  1.83it/s]  7%|▋         | 744/10711 [27:38<1:30:12,  1.84it/s]  7%|▋         | 745/10711 [27:39<1:30:55,  1.83it/s]  7%|▋         | 746/10711 [27:39<1:30:23,  1.84it/s]  7%|▋         | 747/10711 [27:40<1:28:01,  1.89it/s]  7%|▋         | 748/10711 [27:40<1:27:34,  1.90it/s]  7%|▋         | 749/10711 [27:41<1:27:51,  1.89it/s]  7%|▋         | 750/10711 [27:41<1:31:50,  1.81it/s]                                                     {'loss': 4.5174, 'grad_norm': 0.43326106667518616, 'learning_rate': 0.0006996268656716418, 'epoch': 0.07}
  7%|▋         | 750/10711 [27:41<1:31:50,  1.81it/s]  7%|▋         | 751/10711 [27:42<1:29:05,  1.86it/s]  7%|▋         | 752/10711 [27:42<1:27:08,  1.90it/s]  7%|▋         | 753/10711 [27:43<1:25:40,  1.94it/s]  7%|▋         | 754/10711 [27:43<1:24:40,  1.96it/s]  7%|▋         | 755/10711 [27:44<1:25:41,  1.94it/s]  7%|▋         | 756/10711 [27:44<1:24:48,  1.96it/s]  7%|▋         | 757/10711 [27:45<1:23:54,  1.98it/s]  7%|▋         | 758/10711 [27:45<1:26:25,  1.92it/s]  7%|▋         | 759/10711 [27:46<1:27:24,  1.90it/s]  7%|▋         | 760/10711 [27:46<1:26:34,  1.92it/s]  7%|▋         | 761/10711 [27:47<1:33:28,  1.77it/s]  7%|▋         | 762/10711 [27:48<1:42:04,  1.62it/s]  7%|▋         | 763/10711 [27:48<1:36:08,  1.72it/s]  7%|▋         | 764/10711 [27:49<1:34:20,  1.76it/s]  7%|▋         | 765/10711 [27:49<1:33:19,  1.78it/s]  7%|▋         | 766/10711 [27:50<1:29:57,  1.84it/s]  7%|▋         | 767/10711 [27:50<1:31:12,  1.82it/s]  7%|▋         | 768/10711 [27:51<1:30:13,  1.84it/s]  7%|▋         | 769/10711 [27:52<1:28:59,  1.86it/s]  7%|▋         | 770/10711 [27:52<1:28:31,  1.87it/s]  7%|▋         | 771/10711 [27:53<1:29:56,  1.84it/s]  7%|▋         | 772/10711 [27:53<1:30:24,  1.83it/s]  7%|▋         | 773/10711 [27:54<1:28:49,  1.86it/s]  7%|▋         | 774/10711 [27:54<1:31:20,  1.81it/s]  7%|▋         | 775/10711 [27:55<1:29:25,  1.85it/s]{'loss': 4.5057, 'grad_norm': 0.42040494084358215, 'learning_rate': 0.0007229477611940298, 'epoch': 0.07}                                                     
  7%|▋         | 775/10711 [27:55<1:29:25,  1.85it/s]  7%|▋         | 776/10711 [27:55<1:31:03,  1.82it/s]  7%|▋         | 777/10711 [27:56<1:32:36,  1.79it/s]  7%|▋         | 778/10711 [27:57<1:32:14,  1.79it/s]  7%|▋         | 779/10711 [27:57<1:31:46,  1.80it/s]  7%|▋         | 780/10711 [27:58<1:30:03,  1.84it/s]  7%|▋         | 781/10711 [27:58<1:27:32,  1.89it/s]  7%|▋         | 782/10711 [27:59<1:27:40,  1.89it/s]  7%|▋         | 783/10711 [27:59<1:26:57,  1.90it/s]  7%|▋         | 784/10711 [28:00<1:27:34,  1.89it/s]  7%|▋         | 785/10711 [28:00<1:31:02,  1.82it/s]  7%|▋         | 786/10711 [28:01<1:28:20,  1.87it/s]  7%|▋         | 787/10711 [28:01<1:27:06,  1.90it/s]  7%|▋         | 788/10711 [28:02<1:26:32,  1.91it/s]  7%|▋         | 789/10711 [28:02<1:26:48,  1.91it/s]  7%|▋         | 790/10711 [28:03<1:26:07,  1.92it/s]  7%|▋         | 791/10711 [28:03<1:25:49,  1.93it/s]  7%|▋         | 792/10711 [28:04<1:24:43,  1.95it/s]  7%|▋         | 793/10711 [28:04<1:24:41,  1.95it/s]  7%|▋         | 794/10711 [28:05<1:25:07,  1.94it/s]  7%|▋         | 795/10711 [28:05<1:24:09,  1.96it/s]  7%|▋         | 796/10711 [28:06<1:23:47,  1.97it/s]  7%|▋         | 797/10711 [28:06<1:24:26,  1.96it/s]  7%|▋         | 798/10711 [28:07<1:24:30,  1.95it/s]  7%|▋         | 799/10711 [28:07<1:23:37,  1.98it/s]  7%|▋         | 800/10711 [28:08<1:24:08,  1.96it/s]                                                     {'loss': 4.4806, 'grad_norm': 0.44881242513656616, 'learning_rate': 0.0007462686567164179, 'epoch': 0.07}
  7%|▋         | 800/10711 [28:08<1:24:08,  1.96it/s]  7%|▋         | 801/10711 [28:08<1:24:43,  1.95it/s]  7%|▋         | 802/10711 [28:09<1:23:50,  1.97it/s]  7%|▋         | 803/10711 [28:09<1:25:10,  1.94it/s]  8%|▊         | 804/10711 [28:10<1:24:11,  1.96it/s]  8%|▊         | 805/10711 [28:10<1:24:24,  1.96it/s]  8%|▊         | 806/10711 [28:11<1:27:49,  1.88it/s]  8%|▊         | 807/10711 [28:12<1:26:04,  1.92it/s]  8%|▊         | 808/10711 [28:12<1:25:37,  1.93it/s]  8%|▊         | 809/10711 [28:13<1:24:22,  1.96it/s]  8%|▊         | 810/10711 [28:13<1:24:22,  1.96it/s]  8%|▊         | 811/10711 [28:14<1:23:35,  1.97it/s]  8%|▊         | 812/10711 [28:14<1:25:37,  1.93it/s]  8%|▊         | 813/10711 [28:15<1:24:21,  1.96it/s]  8%|▊         | 814/10711 [28:15<1:24:23,  1.95it/s]  8%|▊         | 815/10711 [28:16<1:23:28,  1.98it/s]  8%|▊         | 816/10711 [28:16<1:22:56,  1.99it/s]  8%|▊         | 817/10711 [28:17<1:24:38,  1.95it/s]  8%|▊         | 818/10711 [28:17<1:39:48,  1.65it/s]  8%|▊         | 819/10711 [28:18<1:35:21,  1.73it/s]  8%|▊         | 820/10711 [28:18<1:31:14,  1.81it/s]  8%|▊         | 821/10711 [28:19<1:29:06,  1.85it/s]  8%|▊         | 822/10711 [28:19<1:26:49,  1.90it/s]  8%|▊         | 823/10711 [28:20<1:26:04,  1.91it/s]  8%|▊         | 824/10711 [28:21<1:26:07,  1.91it/s]  8%|▊         | 825/10711 [28:21<1:26:14,  1.91it/s]{'loss': 4.4432, 'grad_norm': 0.3643184304237366, 'learning_rate': 0.000769589552238806, 'epoch': 0.08}
                                                       8%|▊         | 825/10711 [28:21<1:26:14,  1.91it/s]  8%|▊         | 826/10711 [28:22<1:28:04,  1.87it/s]  8%|▊         | 827/10711 [28:22<1:26:47,  1.90it/s]  8%|▊         | 828/10711 [28:23<1:27:09,  1.89it/s]  8%|▊         | 829/10711 [28:23<1:26:37,  1.90it/s]  8%|▊         | 830/10711 [28:24<1:24:56,  1.94it/s]  8%|▊         | 831/10711 [28:24<1:23:52,  1.96it/s]  8%|▊         | 832/10711 [28:25<1:23:54,  1.96it/s]  8%|▊         | 833/10711 [28:25<1:24:12,  1.96it/s]  8%|▊         | 834/10711 [28:26<1:24:16,  1.95it/s]  8%|▊         | 835/10711 [28:26<1:24:02,  1.96it/s]  8%|▊         | 836/10711 [28:27<1:24:15,  1.95it/s]  8%|▊         | 837/10711 [28:27<1:23:22,  1.97it/s]  8%|▊         | 838/10711 [28:28<1:25:40,  1.92it/s]  8%|▊         | 839/10711 [28:28<1:25:46,  1.92it/s]  8%|▊         | 840/10711 [28:29<1:28:54,  1.85it/s]  8%|▊         | 841/10711 [28:29<1:26:34,  1.90it/s]  8%|▊         | 842/10711 [28:30<1:24:56,  1.94it/s]  8%|▊         | 843/10711 [28:30<1:24:41,  1.94it/s]  8%|▊         | 844/10711 [28:31<1:26:31,  1.90it/s]  8%|▊         | 845/10711 [28:31<1:25:40,  1.92it/s]  8%|▊         | 846/10711 [28:32<1:25:56,  1.91it/s]  8%|▊         | 847/10711 [28:32<1:25:32,  1.92it/s]  8%|▊         | 848/10711 [28:33<1:24:16,  1.95it/s]  8%|▊         | 849/10711 [28:33<1:23:20,  1.97it/s]  8%|▊         | 850/10711 [28:34<1:26:15,  1.91it/s]{'loss': 4.4272, 'grad_norm': 0.4234746992588043, 'learning_rate': 0.0007929104477611941, 'epoch': 0.08}                                                     
  8%|▊         | 850/10711 [28:34<1:26:15,  1.91it/s]  8%|▊         | 851/10711 [28:35<1:25:30,  1.92it/s]  8%|▊         | 852/10711 [28:35<1:24:18,  1.95it/s]  8%|▊         | 853/10711 [28:36<1:24:13,  1.95it/s]  8%|▊         | 854/10711 [28:36<1:23:20,  1.97it/s]  8%|▊         | 855/10711 [28:37<1:23:45,  1.96it/s]  8%|▊         | 856/10711 [28:37<1:23:03,  1.98it/s]  8%|▊         | 857/10711 [28:38<1:23:21,  1.97it/s]  8%|▊         | 858/10711 [28:38<1:22:42,  1.99it/s]  8%|▊         | 859/10711 [28:39<1:22:13,  2.00it/s]  8%|▊         | 860/10711 [28:39<1:21:54,  2.00it/s]  8%|▊         | 861/10711 [28:40<1:22:30,  1.99it/s]  8%|▊         | 862/10711 [28:40<1:23:39,  1.96it/s]  8%|▊         | 863/10711 [28:41<1:22:50,  1.98it/s]  8%|▊         | 864/10711 [28:41<1:23:17,  1.97it/s]  8%|▊         | 865/10711 [28:42<1:23:28,  1.97it/s]  8%|▊         | 866/10711 [28:42<1:22:51,  1.98it/s]  8%|▊         | 867/10711 [28:43<1:24:35,  1.94it/s]  8%|▊         | 868/10711 [28:43<1:23:29,  1.96it/s]  8%|▊         | 869/10711 [28:44<1:22:36,  1.99it/s]  8%|▊         | 870/10711 [28:44<1:23:44,  1.96it/s]  8%|▊         | 871/10711 [28:45<1:23:20,  1.97it/s]  8%|▊         | 872/10711 [28:45<1:22:39,  1.98it/s]  8%|▊         | 873/10711 [28:46<1:23:06,  1.97it/s]  8%|▊         | 874/10711 [28:46<1:23:06,  1.97it/s]  8%|▊         | 875/10711 [28:47<1:22:33,  1.99it/s]                                                     {'loss': 4.4026, 'grad_norm': 0.38245534896850586, 'learning_rate': 0.0008162313432835821, 'epoch': 0.08}
  8%|▊         | 875/10711 [28:47<1:22:33,  1.99it/s]  8%|▊         | 876/10711 [28:47<1:23:35,  1.96it/s]  8%|▊         | 877/10711 [28:48<1:22:52,  1.98it/s]  8%|▊         | 878/10711 [28:48<1:24:33,  1.94it/s]  8%|▊         | 879/10711 [28:49<1:24:53,  1.93it/s]  8%|▊         | 880/10711 [28:49<1:24:52,  1.93it/s]  8%|▊         | 881/10711 [28:50<1:26:29,  1.89it/s]  8%|▊         | 882/10711 [28:50<1:25:49,  1.91it/s]  8%|▊         | 883/10711 [28:51<1:25:05,  1.92it/s]  8%|▊         | 884/10711 [28:52<1:33:01,  1.76it/s]  8%|▊         | 885/10711 [28:52<1:29:17,  1.83it/s]  8%|▊         | 886/10711 [28:53<1:27:41,  1.87it/s]  8%|▊         | 887/10711 [28:53<1:26:34,  1.89it/s]  8%|▊         | 888/10711 [28:54<1:24:48,  1.93it/s]  8%|▊         | 889/10711 [28:54<1:25:11,  1.92it/s]  8%|▊         | 890/10711 [28:55<1:23:53,  1.95it/s]  8%|▊         | 891/10711 [28:55<1:23:56,  1.95it/s]  8%|▊         | 892/10711 [28:56<1:23:54,  1.95it/s]  8%|▊         | 893/10711 [28:56<1:23:00,  1.97it/s]  8%|▊         | 894/10711 [28:57<1:24:06,  1.95it/s]  8%|▊         | 895/10711 [28:57<1:24:14,  1.94it/s]  8%|▊         | 896/10711 [28:58<1:23:14,  1.97it/s]  8%|▊         | 897/10711 [28:58<1:22:30,  1.98it/s]  8%|▊         | 898/10711 [28:59<1:21:56,  2.00it/s]  8%|▊         | 899/10711 [28:59<1:22:20,  1.99it/s]  8%|▊         | 900/10711 [29:00<1:21:52,  2.00it/s]                                                     {'loss': 4.3921, 'grad_norm': 0.38204607367515564, 'learning_rate': 0.0008395522388059703, 'epoch': 0.08}
  8%|▊         | 900/10711 [29:00<1:21:52,  2.00it/s]  8%|▊         | 901/10711 [29:00<1:22:22,  1.98it/s]  8%|▊         | 902/10711 [29:01<1:23:30,  1.96it/s]  8%|▊         | 903/10711 [29:01<1:23:20,  1.96it/s]  8%|▊         | 904/10711 [29:02<1:24:08,  1.94it/s]  8%|▊         | 905/10711 [29:02<1:24:30,  1.93it/s]  8%|▊         | 906/10711 [29:03<1:24:27,  1.93it/s]  8%|▊         | 907/10711 [29:03<1:24:57,  1.92it/s]  8%|▊         | 908/10711 [29:04<1:24:36,  1.93it/s]  8%|▊         | 909/10711 [29:04<1:23:23,  1.96it/s]  8%|▊         | 910/10711 [29:05<1:23:28,  1.96it/s]  9%|▊         | 911/10711 [29:05<1:23:37,  1.95it/s]  9%|▊         | 912/10711 [29:06<1:24:32,  1.93it/s]  9%|▊         | 913/10711 [29:06<1:24:16,  1.94it/s]  9%|▊         | 914/10711 [29:07<1:24:05,  1.94it/s]  9%|▊         | 915/10711 [29:07<1:26:28,  1.89it/s]  9%|▊         | 916/10711 [29:08<1:25:39,  1.91it/s]  9%|▊         | 917/10711 [29:08<1:25:18,  1.91it/s]  9%|▊         | 918/10711 [29:09<1:26:53,  1.88it/s]  9%|▊         | 919/10711 [29:10<1:26:52,  1.88it/s]  9%|▊         | 920/10711 [29:10<1:27:34,  1.86it/s]  9%|▊         | 921/10711 [29:11<1:31:17,  1.79it/s]  9%|▊         | 922/10711 [29:11<1:29:21,  1.83it/s]  9%|▊         | 923/10711 [29:12<1:29:41,  1.82it/s]  9%|▊         | 924/10711 [29:12<1:29:40,  1.82it/s]  9%|▊         | 925/10711 [29:13<1:27:58,  1.85it/s]{'loss': 4.3662, 'grad_norm': 0.3640340566635132, 'learning_rate': 0.0008628731343283582, 'epoch': 0.09}                                                     
  9%|▊         | 925/10711 [29:13<1:27:58,  1.85it/s]  9%|▊         | 926/10711 [29:13<1:27:49,  1.86it/s]  9%|▊         | 927/10711 [29:14<1:28:29,  1.84it/s]  9%|▊         | 928/10711 [29:14<1:26:53,  1.88it/s]  9%|▊         | 929/10711 [29:15<1:29:33,  1.82it/s]  9%|▊         | 930/10711 [29:15<1:27:26,  1.86it/s]  9%|▊         | 931/10711 [29:16<1:28:26,  1.84it/s]  9%|▊         | 932/10711 [29:17<1:38:53,  1.65it/s]  9%|▊         | 933/10711 [29:17<1:38:34,  1.65it/s]  9%|▊         | 934/10711 [29:18<1:34:44,  1.72it/s]  9%|▊         | 935/10711 [29:19<1:34:12,  1.73it/s]  9%|▊         | 936/10711 [29:19<1:32:43,  1.76it/s]  9%|▊         | 937/10711 [29:20<1:30:53,  1.79it/s]  9%|▉         | 938/10711 [29:20<1:28:36,  1.84it/s]  9%|▉         | 939/10711 [29:21<1:29:09,  1.83it/s]  9%|▉         | 940/10711 [29:21<1:27:48,  1.85it/s]  9%|▉         | 941/10711 [29:22<1:38:40,  1.65it/s]  9%|▉         | 942/10711 [29:22<1:36:21,  1.69it/s]  9%|▉         | 943/10711 [29:23<1:34:23,  1.72it/s]  9%|▉         | 944/10711 [29:24<1:32:09,  1.77it/s]  9%|▉         | 945/10711 [29:24<1:31:09,  1.79it/s]  9%|▉         | 946/10711 [29:25<1:28:57,  1.83it/s]  9%|▉         | 947/10711 [29:25<1:27:43,  1.86it/s]  9%|▉         | 948/10711 [29:26<1:26:46,  1.88it/s]  9%|▉         | 949/10711 [29:26<1:24:55,  1.92it/s]  9%|▉         | 950/10711 [29:27<1:25:36,  1.90it/s]                                                     {'loss': 4.3445, 'grad_norm': 0.3371417224407196, 'learning_rate': 0.0008861940298507463, 'epoch': 0.09}
  9%|▉         | 950/10711 [29:27<1:25:36,  1.90it/s]  9%|▉         | 951/10711 [29:27<1:28:58,  1.83it/s]  9%|▉         | 952/10711 [29:28<1:28:18,  1.84it/s]  9%|▉         | 953/10711 [29:28<1:28:04,  1.85it/s]  9%|▉         | 954/10711 [29:29<1:28:32,  1.84it/s]  9%|▉         | 955/10711 [29:29<1:28:49,  1.83it/s]  9%|▉         | 956/10711 [29:30<1:28:30,  1.84it/s]  9%|▉         | 957/10711 [29:31<1:29:58,  1.81it/s]  9%|▉         | 958/10711 [29:31<1:30:19,  1.80it/s]  9%|▉         | 959/10711 [29:32<1:32:29,  1.76it/s]  9%|▉         | 960/10711 [29:32<1:33:52,  1.73it/s]  9%|▉         | 961/10711 [29:33<1:33:16,  1.74it/s]  9%|▉         | 962/10711 [29:33<1:31:05,  1.78it/s]  9%|▉         | 963/10711 [29:34<1:31:38,  1.77it/s]  9%|▉         | 964/10711 [29:35<1:30:18,  1.80it/s]  9%|▉         | 965/10711 [29:35<1:31:33,  1.77it/s]  9%|▉         | 966/10711 [29:36<1:30:50,  1.79it/s]  9%|▉         | 967/10711 [29:36<1:31:48,  1.77it/s]  9%|▉         | 968/10711 [29:37<1:29:27,  1.82it/s]  9%|▉         | 969/10711 [29:37<1:30:22,  1.80it/s]  9%|▉         | 970/10711 [29:38<1:29:14,  1.82it/s]  9%|▉         | 971/10711 [29:38<1:30:07,  1.80it/s]  9%|▉         | 972/10711 [29:39<1:28:37,  1.83it/s]  9%|▉         | 973/10711 [29:40<1:30:09,  1.80it/s]  9%|▉         | 974/10711 [29:40<1:29:32,  1.81it/s]  9%|▉         | 975/10711 [29:41<1:29:52,  1.81it/s]                                                     {'loss': 4.3338, 'grad_norm': 0.3650428056716919, 'learning_rate': 0.0009095149253731343, 'epoch': 0.09}
  9%|▉         | 975/10711 [29:41<1:29:52,  1.81it/s]  9%|▉         | 976/10711 [29:41<1:27:48,  1.85it/s]  9%|▉         | 977/10711 [29:42<1:28:14,  1.84it/s]  9%|▉         | 978/10711 [29:42<1:30:55,  1.78it/s]  9%|▉         | 979/10711 [29:43<1:29:56,  1.80it/s]  9%|▉         | 980/10711 [29:43<1:27:57,  1.84it/s]  9%|▉         | 981/10711 [29:44<1:27:22,  1.86it/s]  9%|▉         | 982/10711 [29:44<1:28:28,  1.83it/s]  9%|▉         | 983/10711 [29:45<1:26:49,  1.87it/s]  9%|▉         | 984/10711 [29:46<1:28:59,  1.82it/s]  9%|▉         | 985/10711 [29:46<1:27:57,  1.84it/s]  9%|▉         | 986/10711 [29:47<1:28:27,  1.83it/s]  9%|▉         | 987/10711 [29:47<1:29:24,  1.81it/s]  9%|▉         | 988/10711 [29:48<1:28:19,  1.83it/s]  9%|▉         | 989/10711 [29:48<1:27:46,  1.85it/s]  9%|▉         | 990/10711 [29:49<1:27:04,  1.86it/s]  9%|▉         | 991/10711 [29:49<1:26:54,  1.86it/s]  9%|▉         | 992/10711 [29:50<1:26:32,  1.87it/s]  9%|▉         | 993/10711 [29:50<1:26:16,  1.88it/s]  9%|▉         | 994/10711 [29:51<1:25:50,  1.89it/s]  9%|▉         | 995/10711 [29:51<1:27:03,  1.86it/s]  9%|▉         | 996/10711 [29:52<1:27:26,  1.85it/s]  9%|▉         | 997/10711 [29:53<1:30:39,  1.79it/s]  9%|▉         | 998/10711 [29:53<1:30:19,  1.79it/s]  9%|▉         | 999/10711 [29:54<1:29:58,  1.80it/s]  9%|▉         | 1000/10711 [29:54<1:28:30,  1.83it/s]                                                      {'loss': 4.31, 'grad_norm': 0.3426877558231354, 'learning_rate': 0.0009328358208955225, 'epoch': 0.09}
  9%|▉         | 1000/10711 [29:54<1:28:30,  1.83it/s]  9%|▉         | 1001/10711 [29:55<1:28:37,  1.83it/s]  9%|▉         | 1002/10711 [29:55<1:29:37,  1.81it/s]  9%|▉         | 1003/10711 [29:56<1:28:21,  1.83it/s]  9%|▉         | 1004/10711 [29:56<1:28:28,  1.83it/s]  9%|▉         | 1005/10711 [29:57<1:28:47,  1.82it/s]  9%|▉         | 1006/10711 [29:58<1:28:00,  1.84it/s]  9%|▉         | 1007/10711 [29:58<1:29:05,  1.82it/s]  9%|▉         | 1008/10711 [29:59<1:27:24,  1.85it/s]  9%|▉         | 1009/10711 [29:59<1:28:31,  1.83it/s]  9%|▉         | 1010/10711 [30:00<1:29:16,  1.81it/s]  9%|▉         | 1011/10711 [30:00<1:29:17,  1.81it/s]  9%|▉         | 1012/10711 [30:01<1:28:35,  1.82it/s]  9%|▉         | 1013/10711 [30:01<1:27:33,  1.85it/s]  9%|▉         | 1014/10711 [30:02<1:30:28,  1.79it/s]  9%|▉         | 1015/10711 [30:02<1:27:12,  1.85it/s]  9%|▉         | 1016/10711 [30:03<1:27:55,  1.84it/s]  9%|▉         | 1017/10711 [30:04<1:27:55,  1.84it/s] 10%|▉         | 1018/10711 [30:04<1:27:41,  1.84it/s] 10%|▉         | 1019/10711 [30:05<1:28:21,  1.83it/s] 10%|▉         | 1020/10711 [30:05<1:27:53,  1.84it/s] 10%|▉         | 1021/10711 [30:06<1:27:22,  1.85it/s] 10%|▉         | 1022/10711 [30:06<1:28:01,  1.83it/s] 10%|▉         | 1023/10711 [30:07<1:26:29,  1.87it/s] 10%|▉         | 1024/10711 [30:08<1:38:47,  1.63it/s] 10%|▉         | 1025/10711 [30:08<1:36:45,  1.67it/s]{'loss': 4.2923, 'grad_norm': 0.3407120704650879, 'learning_rate': 0.0009561567164179105, 'epoch': 0.1}
                                                       10%|▉         | 1025/10711 [30:08<1:36:45,  1.67it/s] 10%|▉         | 1026/10711 [30:09<1:36:35,  1.67it/s] 10%|▉         | 1027/10711 [30:09<1:36:28,  1.67it/s] 10%|▉         | 1028/10711 [30:10<1:32:34,  1.74it/s] 10%|▉         | 1029/10711 [30:10<1:30:05,  1.79it/s] 10%|▉         | 1030/10711 [30:11<1:27:49,  1.84it/s] 10%|▉         | 1031/10711 [30:11<1:26:11,  1.87it/s] 10%|▉         | 1032/10711 [30:12<1:25:48,  1.88it/s] 10%|▉         | 1033/10711 [30:12<1:24:54,  1.90it/s] 10%|▉         | 1034/10711 [30:13<1:25:05,  1.90it/s] 10%|▉         | 1035/10711 [30:13<1:24:18,  1.91it/s] 10%|▉         | 1036/10711 [30:14<1:38:25,  1.64it/s] 10%|▉         | 1037/10711 [30:15<1:35:11,  1.69it/s] 10%|▉         | 1038/10711 [30:15<1:32:15,  1.75it/s] 10%|▉         | 1039/10711 [30:16<1:32:41,  1.74it/s] 10%|▉         | 1040/10711 [30:16<1:29:47,  1.79it/s] 10%|▉         | 1041/10711 [30:17<1:29:32,  1.80it/s] 10%|▉         | 1042/10711 [30:18<1:26:41,  1.86it/s] 10%|▉         | 1043/10711 [30:18<1:26:20,  1.87it/s] 10%|▉         | 1044/10711 [30:19<1:27:25,  1.84it/s] 10%|▉         | 1045/10711 [30:19<1:28:42,  1.82it/s] 10%|▉         | 1046/10711 [30:20<1:27:07,  1.85it/s] 10%|▉         | 1047/10711 [30:20<1:26:23,  1.86it/s] 10%|▉         | 1048/10711 [30:21<1:25:10,  1.89it/s] 10%|▉         | 1049/10711 [30:21<1:25:10,  1.89it/s] 10%|▉         | 1050/10711 [30:22<1:23:28,  1.93it/s]{'loss': 4.2786, 'grad_norm': 0.34147822856903076, 'learning_rate': 0.0009794776119402984, 'epoch': 0.1}                                                      
 10%|▉         | 1050/10711 [30:22<1:23:28,  1.93it/s] 10%|▉         | 1051/10711 [30:23<1:43:42,  1.55it/s] 10%|▉         | 1052/10711 [30:23<1:37:50,  1.65it/s] 10%|▉         | 1053/10711 [30:24<1:35:27,  1.69it/s] 10%|▉         | 1054/10711 [30:24<1:32:25,  1.74it/s] 10%|▉         | 1055/10711 [30:25<1:30:31,  1.78it/s] 10%|▉         | 1056/10711 [30:25<1:27:59,  1.83it/s] 10%|▉         | 1057/10711 [30:26<1:27:10,  1.85it/s] 10%|▉         | 1058/10711 [30:26<1:27:20,  1.84it/s] 10%|▉         | 1059/10711 [30:27<1:31:51,  1.75it/s] 10%|▉         | 1060/10711 [30:28<1:29:53,  1.79it/s] 10%|▉         | 1061/10711 [30:28<1:27:41,  1.83it/s] 10%|▉         | 1062/10711 [30:29<1:27:49,  1.83it/s] 10%|▉         | 1063/10711 [30:29<1:26:19,  1.86it/s] 10%|▉         | 1064/10711 [30:30<1:26:03,  1.87it/s] 10%|▉         | 1065/10711 [30:30<1:27:39,  1.83it/s] 10%|▉         | 1066/10711 [30:31<1:26:54,  1.85it/s] 10%|▉         | 1067/10711 [30:31<1:26:17,  1.86it/s] 10%|▉         | 1068/10711 [30:32<1:26:55,  1.85it/s] 10%|▉         | 1069/10711 [30:32<1:28:08,  1.82it/s] 10%|▉         | 1070/10711 [30:33<1:27:45,  1.83it/s] 10%|▉         | 1071/10711 [30:33<1:25:41,  1.87it/s] 10%|█         | 1072/10711 [30:34<1:30:31,  1.77it/s] 10%|█         | 1073/10711 [30:35<1:29:37,  1.79it/s] 10%|█         | 1074/10711 [30:35<1:26:40,  1.85it/s] 10%|█         | 1075/10711 [30:36<1:24:24,  1.90it/s]                                                      {'loss': 4.2645, 'grad_norm': 0.3047231435775757, 'learning_rate': 0.0009999997609887912, 'epoch': 0.1}
 10%|█         | 1075/10711 [30:36<1:24:24,  1.90it/s] 10%|█         | 1076/10711 [30:36<1:25:58,  1.87it/s] 10%|█         | 1077/10711 [30:37<1:25:34,  1.88it/s] 10%|█         | 1078/10711 [30:37<1:25:28,  1.88it/s] 10%|█         | 1079/10711 [30:38<1:26:22,  1.86it/s] 10%|█         | 1080/10711 [30:38<1:26:59,  1.85it/s] 10%|█         | 1081/10711 [30:39<1:26:41,  1.85it/s] 10%|█         | 1082/10711 [30:39<1:27:42,  1.83it/s] 10%|█         | 1083/10711 [30:40<1:28:30,  1.81it/s] 10%|█         | 1084/10711 [30:41<1:28:59,  1.80it/s] 10%|█         | 1085/10711 [30:41<1:29:56,  1.78it/s] 10%|█         | 1086/10711 [30:42<1:31:34,  1.75it/s] 10%|█         | 1087/10711 [30:42<1:27:53,  1.82it/s] 10%|█         | 1088/10711 [30:43<1:26:38,  1.85it/s] 10%|█         | 1089/10711 [30:43<1:25:15,  1.88it/s] 10%|█         | 1090/10711 [30:44<1:24:19,  1.90it/s] 10%|█         | 1091/10711 [30:44<1:24:01,  1.91it/s] 10%|█         | 1092/10711 [30:45<1:27:11,  1.84it/s] 10%|█         | 1093/10711 [30:45<1:26:21,  1.86it/s] 10%|█         | 1094/10711 [30:46<1:25:51,  1.87it/s] 10%|█         | 1095/10711 [30:47<1:27:21,  1.83it/s] 10%|█         | 1096/10711 [30:47<1:27:59,  1.82it/s] 10%|█         | 1097/10711 [30:48<1:26:03,  1.86it/s] 10%|█         | 1098/10711 [30:48<1:25:49,  1.87it/s] 10%|█         | 1099/10711 [30:49<1:26:19,  1.86it/s] 10%|█         | 1100/10711 [30:49<1:25:56,  1.86it/s]                                                      {'loss': 4.254, 'grad_norm': 0.345359742641449, 'learning_rate': 0.0009999791796108715, 'epoch': 0.1}
 10%|█         | 1100/10711 [30:49<1:25:56,  1.86it/s] 10%|█         | 1101/10711 [30:50<1:31:18,  1.75it/s] 10%|█         | 1102/10711 [30:50<1:28:27,  1.81it/s] 10%|█         | 1103/10711 [30:51<1:26:34,  1.85it/s] 10%|█         | 1104/10711 [30:51<1:25:32,  1.87it/s] 10%|█         | 1105/10711 [30:53<1:51:58,  1.43it/s] 10%|█         | 1106/10711 [30:53<1:43:04,  1.55it/s] 10%|█         | 1107/10711 [30:54<1:38:27,  1.63it/s] 10%|█         | 1108/10711 [30:54<1:36:19,  1.66it/s] 10%|█         | 1109/10711 [30:55<1:34:25,  1.69it/s] 10%|█         | 1110/10711 [30:55<1:30:37,  1.77it/s] 10%|█         | 1111/10711 [30:56<1:28:03,  1.82it/s] 10%|█         | 1112/10711 [30:57<1:46:26,  1.50it/s] 10%|█         | 1113/10711 [30:57<1:41:33,  1.58it/s] 10%|█         | 1114/10711 [30:58<1:37:49,  1.64it/s] 10%|█         | 1115/10711 [30:58<1:36:08,  1.66it/s] 10%|█         | 1116/10711 [30:59<1:30:52,  1.76it/s] 10%|█         | 1117/10711 [30:59<1:28:20,  1.81it/s] 10%|█         | 1118/10711 [31:00<1:27:16,  1.83it/s] 10%|█         | 1119/10711 [31:00<1:26:51,  1.84it/s] 10%|█         | 1120/10711 [31:01<1:27:19,  1.83it/s] 10%|█         | 1121/10711 [31:02<1:30:22,  1.77it/s] 10%|█         | 1122/10711 [31:02<1:28:49,  1.80it/s] 10%|█         | 1123/10711 [31:03<1:28:01,  1.82it/s] 10%|█         | 1124/10711 [31:03<1:26:14,  1.85it/s] 11%|█         | 1125/10711 [31:04<1:25:42,  1.86it/s]{'loss': 4.2321, 'grad_norm': 0.29750683903694153, 'learning_rate': 0.0009999254037950452, 'epoch': 0.11}
                                                       11%|█         | 1125/10711 [31:04<1:25:42,  1.86it/s] 11%|█         | 1126/10711 [31:04<1:25:13,  1.87it/s] 11%|█         | 1127/10711 [31:05<1:24:48,  1.88it/s] 11%|█         | 1128/10711 [31:05<1:25:43,  1.86it/s] 11%|█         | 1129/10711 [31:06<1:23:39,  1.91it/s] 11%|█         | 1130/10711 [31:06<1:24:51,  1.88it/s] 11%|█         | 1131/10711 [31:07<1:25:15,  1.87it/s] 11%|█         | 1132/10711 [31:07<1:24:21,  1.89it/s] 11%|█         | 1133/10711 [31:08<1:23:41,  1.91it/s] 11%|█         | 1134/10711 [31:08<1:22:53,  1.93it/s] 11%|█         | 1135/10711 [31:09<1:25:08,  1.87it/s] 11%|█         | 1136/10711 [31:10<1:24:44,  1.88it/s] 11%|█         | 1137/10711 [31:10<1:22:58,  1.92it/s] 11%|█         | 1138/10711 [31:11<1:23:59,  1.90it/s] 11%|█         | 1139/10711 [31:11<1:24:41,  1.88it/s] 11%|█         | 1140/10711 [31:12<1:23:56,  1.90it/s] 11%|█         | 1141/10711 [31:12<1:24:11,  1.89it/s] 11%|█         | 1142/10711 [31:13<1:23:50,  1.90it/s] 11%|█         | 1143/10711 [31:13<1:23:01,  1.92it/s] 11%|█         | 1144/10711 [31:14<1:23:59,  1.90it/s] 11%|█         | 1145/10711 [31:14<1:23:29,  1.91it/s] 11%|█         | 1146/10711 [31:15<1:24:27,  1.89it/s] 11%|█         | 1147/10711 [31:15<1:22:53,  1.92it/s] 11%|█         | 1148/10711 [31:16<1:22:33,  1.93it/s] 11%|█         | 1149/10711 [31:16<1:21:31,  1.96it/s] 11%|█         | 1150/10711 [31:17<1:22:42,  1.93it/s]                                                      {'loss': 4.2112, 'grad_norm': 0.2978607416152954, 'learning_rate': 0.0009998384371115768, 'epoch': 0.11}
 11%|█         | 1150/10711 [31:17<1:22:42,  1.93it/s] 11%|█         | 1151/10711 [31:17<1:23:44,  1.90it/s] 11%|█         | 1152/10711 [31:18<1:23:07,  1.92it/s] 11%|█         | 1153/10711 [31:18<1:24:14,  1.89it/s] 11%|█         | 1154/10711 [31:19<1:23:29,  1.91it/s] 11%|█         | 1155/10711 [31:19<1:24:24,  1.89it/s] 11%|█         | 1156/10711 [31:20<1:24:21,  1.89it/s] 11%|█         | 1157/10711 [31:21<1:28:08,  1.81it/s] 11%|█         | 1158/10711 [31:21<1:26:40,  1.84it/s] 11%|█         | 1159/10711 [31:22<1:25:51,  1.85it/s] 11%|█         | 1160/10711 [31:22<1:24:36,  1.88it/s] 11%|█         | 1161/10711 [31:23<1:24:07,  1.89it/s] 11%|█         | 1162/10711 [31:23<1:25:04,  1.87it/s] 11%|█         | 1163/10711 [31:24<1:23:53,  1.90it/s] 11%|█         | 1164/10711 [31:24<1:23:56,  1.90it/s] 11%|█         | 1165/10711 [31:25<1:22:20,  1.93it/s] 11%|█         | 1166/10711 [31:25<1:24:02,  1.89it/s] 11%|█         | 1167/10711 [31:26<1:23:33,  1.90it/s] 11%|█         | 1168/10711 [31:27<1:37:32,  1.63it/s] 11%|█         | 1169/10711 [31:27<1:36:11,  1.65it/s] 11%|█         | 1170/10711 [31:28<1:32:49,  1.71it/s] 11%|█         | 1171/10711 [31:28<1:29:37,  1.77it/s] 11%|█         | 1172/10711 [31:29<1:26:57,  1.83it/s] 11%|█         | 1173/10711 [31:29<1:26:44,  1.83it/s] 11%|█         | 1174/10711 [31:30<1:25:53,  1.85it/s] 11%|█         | 1175/10711 [31:30<1:26:48,  1.83it/s]                                                      {'loss': 4.1953, 'grad_norm': 0.2927989065647125, 'learning_rate': 0.000999718285334327, 'epoch': 0.11}
 11%|█         | 1175/10711 [31:30<1:26:48,  1.83it/s] 11%|█         | 1176/10711 [31:31<1:34:49,  1.68it/s] 11%|█         | 1177/10711 [31:32<1:31:28,  1.74it/s] 11%|█         | 1178/10711 [31:32<1:29:41,  1.77it/s] 11%|█         | 1179/10711 [31:33<1:31:13,  1.74it/s] 11%|█         | 1180/10711 [31:33<1:28:19,  1.80it/s] 11%|█         | 1181/10711 [31:34<1:28:26,  1.80it/s] 11%|█         | 1182/10711 [31:34<1:26:16,  1.84it/s] 11%|█         | 1183/10711 [31:35<1:26:25,  1.84it/s] 11%|█         | 1184/10711 [31:35<1:25:06,  1.87it/s] 11%|█         | 1185/10711 [31:36<1:24:04,  1.89it/s] 11%|█         | 1186/10711 [31:37<1:24:58,  1.87it/s] 11%|█         | 1187/10711 [31:37<1:23:50,  1.89it/s] 11%|█         | 1188/10711 [31:38<1:24:43,  1.87it/s] 11%|█         | 1189/10711 [31:38<1:22:57,  1.91it/s] 11%|█         | 1190/10711 [31:39<1:24:15,  1.88it/s] 11%|█         | 1191/10711 [31:39<1:25:34,  1.85it/s] 11%|█         | 1192/10711 [31:40<1:24:17,  1.88it/s] 11%|█         | 1193/10711 [31:40<1:23:32,  1.90it/s] 11%|█         | 1194/10711 [31:41<1:23:04,  1.91it/s] 11%|█         | 1195/10711 [31:41<1:23:15,  1.90it/s] 11%|█         | 1196/10711 [31:42<1:25:15,  1.86it/s] 11%|█         | 1197/10711 [31:42<1:26:14,  1.84it/s] 11%|█         | 1198/10711 [31:43<1:25:42,  1.85it/s] 11%|█         | 1199/10711 [31:43<1:23:40,  1.89it/s] 11%|█         | 1200/10711 [31:44<1:22:00,  1.93it/s]{'loss': 4.1779, 'grad_norm': 0.29918304085731506, 'learning_rate': 0.0009995649564403695, 'epoch': 0.11}
                                                       11%|█         | 1200/10711 [31:44<1:22:00,  1.93it/s] 11%|█         | 1201/10711 [31:44<1:22:06,  1.93it/s] 11%|█         | 1202/10711 [31:45<1:21:43,  1.94it/s] 11%|█         | 1203/10711 [31:45<1:23:17,  1.90it/s] 11%|█         | 1204/10711 [31:46<1:24:07,  1.88it/s] 11%|█▏        | 1205/10711 [31:47<1:22:28,  1.92it/s] 11%|█▏        | 1206/10711 [31:47<1:21:24,  1.95it/s] 11%|█▏        | 1207/10711 [31:48<1:22:17,  1.92it/s] 11%|█▏        | 1208/10711 [31:48<1:23:58,  1.89it/s] 11%|█▏        | 1209/10711 [31:49<1:24:16,  1.88it/s] 11%|█▏        | 1210/10711 [31:49<1:23:15,  1.90it/s] 11%|█▏        | 1211/10711 [31:50<1:25:53,  1.84it/s] 11%|█▏        | 1212/10711 [31:50<1:26:16,  1.84it/s] 11%|█▏        | 1213/10711 [31:51<1:26:04,  1.84it/s] 11%|█▏        | 1214/10711 [31:51<1:26:34,  1.83it/s] 11%|█▏        | 1215/10711 [31:52<1:26:02,  1.84it/s] 11%|█▏        | 1216/10711 [31:53<1:27:24,  1.81it/s] 11%|█▏        | 1217/10711 [31:53<1:24:50,  1.87it/s] 11%|█▏        | 1218/10711 [31:54<1:27:32,  1.81it/s] 11%|█▏        | 1219/10711 [31:54<1:26:25,  1.83it/s] 11%|█▏        | 1220/10711 [31:55<1:24:58,  1.86it/s] 11%|█▏        | 1221/10711 [31:55<1:24:11,  1.88it/s] 11%|█▏        | 1222/10711 [31:56<1:27:07,  1.82it/s] 11%|█▏        | 1223/10711 [31:56<1:35:37,  1.65it/s] 11%|█▏        | 1224/10711 [31:57<1:32:06,  1.72it/s] 11%|█▏        | 1225/10711 [31:58<1:31:22,  1.73it/s]                                                      {'loss': 4.1621, 'grad_norm': 0.27783992886543274, 'learning_rate': 0.0009993784606094611, 'epoch': 0.11}
 11%|█▏        | 1225/10711 [31:58<1:31:22,  1.73it/s] 11%|█▏        | 1226/10711 [31:58<1:28:47,  1.78it/s] 11%|█▏        | 1227/10711 [31:59<1:27:43,  1.80it/s] 11%|█▏        | 1228/10711 [31:59<1:27:43,  1.80it/s] 11%|█▏        | 1229/10711 [32:00<1:26:36,  1.82it/s] 11%|█▏        | 1230/10711 [32:00<1:26:02,  1.84it/s] 11%|█▏        | 1231/10711 [32:01<1:38:41,  1.60it/s] 12%|█▏        | 1232/10711 [32:02<1:35:57,  1.65it/s] 12%|█▏        | 1233/10711 [32:02<1:31:32,  1.73it/s] 12%|█▏        | 1234/10711 [32:03<1:28:13,  1.79it/s] 12%|█▏        | 1235/10711 [32:03<1:26:44,  1.82it/s] 12%|█▏        | 1236/10711 [32:04<1:24:50,  1.86it/s] 12%|█▏        | 1237/10711 [32:04<1:22:46,  1.91it/s] 12%|█▏        | 1238/10711 [32:05<1:23:18,  1.90it/s] 12%|█▏        | 1239/10711 [32:05<1:26:31,  1.82it/s] 12%|█▏        | 1240/10711 [32:06<1:32:42,  1.70it/s] 12%|█▏        | 1241/10711 [32:07<1:33:12,  1.69it/s] 12%|█▏        | 1242/10711 [32:07<1:30:44,  1.74it/s] 12%|█▏        | 1243/10711 [32:08<1:29:45,  1.76it/s] 12%|█▏        | 1244/10711 [32:08<1:27:31,  1.80it/s] 12%|█▏        | 1245/10711 [32:09<1:30:51,  1.74it/s] 12%|█▏        | 1246/10711 [32:09<1:26:58,  1.81it/s] 12%|█▏        | 1247/10711 [32:10<1:28:35,  1.78it/s] 12%|█▏        | 1248/10711 [32:10<1:25:37,  1.84it/s] 12%|█▏        | 1249/10711 [32:11<1:28:28,  1.78it/s] 12%|█▏        | 1250/10711 [32:12<1:26:21,  1.83it/s]                                                      {'loss': 4.1401, 'grad_norm': 0.2783551514148712, 'learning_rate': 0.0009991588102233663, 'epoch': 0.12}
 12%|█▏        | 1250/10711 [32:12<1:26:21,  1.83it/s] 12%|█▏        | 1251/10711 [32:12<1:26:46,  1.82it/s] 12%|█▏        | 1252/10711 [32:13<1:28:18,  1.79it/s] 12%|█▏        | 1253/10711 [32:13<1:26:18,  1.83it/s] 12%|█▏        | 1254/10711 [32:14<1:27:54,  1.79it/s] 12%|█▏        | 1255/10711 [32:14<1:25:03,  1.85it/s] 12%|█▏        | 1256/10711 [32:15<1:28:48,  1.77it/s] 12%|█▏        | 1257/10711 [32:15<1:27:08,  1.81it/s] 12%|█▏        | 1258/10711 [32:16<1:26:00,  1.83it/s] 12%|█▏        | 1259/10711 [32:17<1:27:12,  1.81it/s] 12%|█▏        | 1260/10711 [32:17<1:25:43,  1.84it/s] 12%|█▏        | 1261/10711 [32:18<1:24:33,  1.86it/s] 12%|█▏        | 1262/10711 [32:18<1:23:56,  1.88it/s] 12%|█▏        | 1263/10711 [32:19<1:25:21,  1.84it/s] 12%|█▏        | 1264/10711 [32:19<1:27:58,  1.79it/s] 12%|█▏        | 1265/10711 [32:20<1:26:08,  1.83it/s] 12%|█▏        | 1266/10711 [32:20<1:27:37,  1.80it/s] 12%|█▏        | 1267/10711 [32:21<1:27:32,  1.80it/s] 12%|█▏        | 1268/10711 [32:21<1:28:03,  1.79it/s] 12%|█▏        | 1269/10711 [32:22<1:25:54,  1.83it/s] 12%|█▏        | 1270/10711 [32:23<1:24:26,  1.86it/s] 12%|█▏        | 1271/10711 [32:23<1:24:20,  1.87it/s] 12%|█▏        | 1272/10711 [32:24<1:25:32,  1.84it/s] 12%|█▏        | 1273/10711 [32:24<1:24:16,  1.87it/s] 12%|█▏        | 1274/10711 [32:25<1:26:59,  1.81it/s] 12%|█▏        | 1275/10711 [32:25<1:29:25,  1.76it/s]                                                      {'loss': 4.1215, 'grad_norm': 0.2839653193950653, 'learning_rate': 0.0009989060198650338, 'epoch': 0.12}
 12%|█▏        | 1275/10711 [32:25<1:29:25,  1.76it/s] 12%|█▏        | 1276/10711 [32:26<1:42:21,  1.54it/s] 12%|█▏        | 1277/10711 [32:27<1:37:42,  1.61it/s] 12%|█▏        | 1278/10711 [32:27<1:34:53,  1.66it/s] 12%|█▏        | 1279/10711 [32:28<1:32:43,  1.70it/s] 12%|█▏        | 1280/10711 [32:28<1:31:27,  1.72it/s] 12%|█▏        | 1281/10711 [32:29<1:27:15,  1.80it/s] 12%|█▏        | 1282/10711 [32:29<1:25:16,  1.84it/s] 12%|█▏        | 1283/10711 [32:30<1:23:43,  1.88it/s] 12%|█▏        | 1284/10711 [32:30<1:23:40,  1.88it/s] 12%|█▏        | 1285/10711 [32:31<1:21:40,  1.92it/s] 12%|█▏        | 1286/10711 [32:32<1:23:32,  1.88it/s] 12%|█▏        | 1287/10711 [32:32<1:27:34,  1.79it/s] 12%|█▏        | 1288/10711 [32:33<1:27:15,  1.80it/s] 12%|█▏        | 1289/10711 [32:33<1:25:41,  1.83it/s] 12%|█▏        | 1290/10711 [32:34<1:24:24,  1.86it/s] 12%|█▏        | 1291/10711 [32:34<1:22:16,  1.91it/s] 12%|█▏        | 1292/10711 [32:35<1:20:52,  1.94it/s] 12%|█▏        | 1293/10711 [32:35<1:19:47,  1.97it/s] 12%|█▏        | 1294/10711 [32:36<1:19:40,  1.97it/s] 12%|█▏        | 1295/10711 [32:36<1:21:10,  1.93it/s] 12%|█▏        | 1296/10711 [32:37<1:21:23,  1.93it/s] 12%|█▏        | 1297/10711 [32:37<1:23:10,  1.89it/s] 12%|█▏        | 1298/10711 [32:38<1:28:52,  1.77it/s] 12%|█▏        | 1299/10711 [32:39<1:29:56,  1.74it/s] 12%|█▏        | 1300/10711 [32:39<1:28:08,  1.78it/s]                                                      {'loss': 4.1163, 'grad_norm': 0.26583874225616455, 'learning_rate': 0.0009986201063176307, 'epoch': 0.12}
 12%|█▏        | 1300/10711 [32:39<1:28:08,  1.78it/s] 12%|█▏        | 1301/10711 [32:40<1:27:32,  1.79it/s] 12%|█▏        | 1302/10711 [32:40<1:24:26,  1.86it/s] 12%|█▏        | 1303/10711 [32:41<1:25:56,  1.82it/s] 12%|█▏        | 1304/10711 [32:41<1:26:23,  1.81it/s] 12%|█▏        | 1305/10711 [32:42<1:28:01,  1.78it/s] 12%|█▏        | 1306/10711 [32:42<1:31:41,  1.71it/s] 12%|█▏        | 1307/10711 [32:43<1:29:17,  1.76it/s] 12%|█▏        | 1308/10711 [32:44<1:28:24,  1.77it/s] 12%|█▏        | 1309/10711 [32:44<1:29:09,  1.76it/s] 12%|█▏        | 1310/10711 [32:45<1:26:52,  1.80it/s] 12%|█▏        | 1311/10711 [32:45<1:24:10,  1.86it/s] 12%|█▏        | 1312/10711 [32:46<1:22:05,  1.91it/s] 12%|█▏        | 1313/10711 [32:46<1:22:46,  1.89it/s] 12%|█▏        | 1314/10711 [32:47<1:23:23,  1.88it/s] 12%|█▏        | 1315/10711 [32:47<1:21:32,  1.92it/s] 12%|█▏        | 1316/10711 [32:48<1:23:29,  1.88it/s] 12%|█▏        | 1317/10711 [32:48<1:28:34,  1.77it/s] 12%|█▏        | 1318/10711 [32:49<1:27:12,  1.79it/s] 12%|█▏        | 1319/10711 [32:50<1:30:36,  1.73it/s] 12%|█▏        | 1320/10711 [32:50<1:37:17,  1.61it/s] 12%|█▏        | 1321/10711 [32:51<1:32:40,  1.69it/s] 12%|█▏        | 1322/10711 [32:51<1:30:35,  1.73it/s] 12%|█▏        | 1323/10711 [32:52<1:31:58,  1.70it/s] 12%|█▏        | 1324/10711 [32:53<1:27:33,  1.79it/s] 12%|█▏        | 1325/10711 [32:53<1:27:04,  1.80it/s]{'loss': 4.1037, 'grad_norm': 0.2576182186603546, 'learning_rate': 0.0009983010885634262, 'epoch': 0.12}
                                                       12%|█▏        | 1325/10711 [32:53<1:27:04,  1.80it/s] 12%|█▏        | 1326/10711 [32:54<1:25:28,  1.83it/s] 12%|█▏        | 1327/10711 [32:54<1:27:35,  1.79it/s] 12%|█▏        | 1328/10711 [32:55<1:26:08,  1.82it/s] 12%|█▏        | 1329/10711 [32:55<1:28:25,  1.77it/s] 12%|█▏        | 1330/10711 [32:56<1:26:39,  1.80it/s] 12%|█▏        | 1331/10711 [32:57<1:39:57,  1.56it/s] 12%|█▏        | 1332/10711 [32:57<1:33:07,  1.68it/s] 12%|█▏        | 1333/10711 [32:58<1:29:11,  1.75it/s] 12%|█▏        | 1334/10711 [32:58<1:25:35,  1.83it/s] 12%|█▏        | 1335/10711 [32:59<1:24:25,  1.85it/s] 12%|█▏        | 1336/10711 [32:59<1:27:00,  1.80it/s] 12%|█▏        | 1337/10711 [33:00<1:25:24,  1.83it/s] 12%|█▏        | 1338/10711 [33:00<1:24:09,  1.86it/s] 13%|█▎        | 1339/10711 [33:01<1:25:09,  1.83it/s] 13%|█▎        | 1340/10711 [33:02<1:29:21,  1.75it/s] 13%|█▎        | 1341/10711 [33:02<1:31:36,  1.70it/s] 13%|█▎        | 1342/10711 [33:03<1:28:23,  1.77it/s] 13%|█▎        | 1343/10711 [33:03<1:28:10,  1.77it/s] 13%|█▎        | 1344/10711 [33:04<1:29:34,  1.74it/s] 13%|█▎        | 1345/10711 [33:04<1:27:04,  1.79it/s] 13%|█▎        | 1346/10711 [33:05<1:27:09,  1.79it/s] 13%|█▎        | 1347/10711 [33:05<1:25:05,  1.83it/s] 13%|█▎        | 1348/10711 [33:06<1:31:41,  1.70it/s] 13%|█▎        | 1349/10711 [33:07<1:27:21,  1.79it/s] 13%|█▎        | 1350/10711 [33:07<1:25:05,  1.83it/s]{'loss': 4.0902, 'grad_norm': 0.25191664695739746, 'learning_rate': 0.0009979489877825327, 'epoch': 0.13}
                                                       13%|█▎        | 1350/10711 [33:07<1:25:05,  1.83it/s] 13%|█▎        | 1351/10711 [33:08<1:23:55,  1.86it/s] 13%|█▎        | 1352/10711 [33:08<1:22:24,  1.89it/s] 13%|█▎        | 1353/10711 [33:09<1:21:56,  1.90it/s] 13%|█▎        | 1354/10711 [33:09<1:22:32,  1.89it/s] 13%|█▎        | 1355/10711 [33:10<1:25:26,  1.83it/s] 13%|█▎        | 1356/10711 [33:10<1:24:03,  1.85it/s] 13%|█▎        | 1357/10711 [33:11<1:25:10,  1.83it/s] 13%|█▎        | 1358/10711 [33:11<1:23:45,  1.86it/s] 13%|█▎        | 1359/10711 [33:12<1:25:00,  1.83it/s] 13%|█▎        | 1360/10711 [33:12<1:23:48,  1.86it/s] 13%|█▎        | 1361/10711 [33:13<1:21:42,  1.91it/s] 13%|█▎        | 1362/10711 [33:13<1:21:45,  1.91it/s] 13%|█▎        | 1363/10711 [33:14<1:22:46,  1.88it/s] 13%|█▎        | 1364/10711 [33:15<1:24:42,  1.84it/s] 13%|█▎        | 1365/10711 [33:15<1:26:37,  1.80it/s] 13%|█▎        | 1366/10711 [33:16<1:24:52,  1.84it/s] 13%|█▎        | 1367/10711 [33:16<1:22:30,  1.89it/s] 13%|█▎        | 1368/10711 [33:17<1:21:32,  1.91it/s] 13%|█▎        | 1369/10711 [33:17<1:27:11,  1.79it/s] 13%|█▎        | 1370/10711 [33:18<1:29:20,  1.74it/s] 13%|█▎        | 1371/10711 [33:19<1:28:11,  1.77it/s] 13%|█▎        | 1372/10711 [33:19<1:26:02,  1.81it/s] 13%|█▎        | 1373/10711 [33:20<1:25:52,  1.81it/s] 13%|█▎        | 1374/10711 [33:20<1:29:00,  1.75it/s] 13%|█▎        | 1375/10711 [33:21<1:26:40,  1.80it/s]                                                      {'loss': 4.076, 'grad_norm': 0.25870993733406067, 'learning_rate': 0.000997563827351498, 'epoch': 0.13}
 13%|█▎        | 1375/10711 [33:21<1:26:40,  1.80it/s] 13%|█▎        | 1376/10711 [33:21<1:32:29,  1.68it/s] 13%|█▎        | 1377/10711 [33:22<1:28:36,  1.76it/s] 13%|█▎        | 1378/10711 [33:22<1:27:09,  1.78it/s] 13%|█▎        | 1379/10711 [33:23<1:28:13,  1.76it/s] 13%|█▎        | 1380/10711 [33:24<1:30:16,  1.72it/s] 13%|█▎        | 1381/10711 [33:24<1:27:00,  1.79it/s] 13%|█▎        | 1382/10711 [33:25<1:25:05,  1.83it/s] 13%|█▎        | 1383/10711 [33:25<1:28:57,  1.75it/s] 13%|█▎        | 1384/10711 [33:26<1:33:34,  1.66it/s] 13%|█▎        | 1385/10711 [33:27<1:33:47,  1.66it/s] 13%|█▎        | 1386/10711 [33:27<1:34:38,  1.64it/s] 13%|█▎        | 1387/10711 [33:28<1:35:21,  1.63it/s] 13%|█▎        | 1388/10711 [33:28<1:32:14,  1.68it/s] 13%|█▎        | 1389/10711 [33:29<1:32:01,  1.69it/s] 13%|█▎        | 1390/10711 [33:29<1:28:49,  1.75it/s] 13%|█▎        | 1391/10711 [33:30<1:27:54,  1.77it/s] 13%|█▎        | 1392/10711 [33:31<1:27:00,  1.78it/s] 13%|█▎        | 1393/10711 [33:32<1:49:14,  1.42it/s] 13%|█▎        | 1394/10711 [33:32<1:43:58,  1.49it/s] 13%|█▎        | 1395/10711 [33:33<1:37:07,  1.60it/s] 13%|█▎        | 1396/10711 [33:33<1:30:56,  1.71it/s] 13%|█▎        | 1397/10711 [33:34<1:26:36,  1.79it/s] 13%|█▎        | 1398/10711 [33:34<1:25:49,  1.81it/s] 13%|█▎        | 1399/10711 [33:35<1:28:25,  1.76it/s] 13%|█▎        | 1400/10711 [33:35<1:28:30,  1.75it/s]{'loss': 4.0676, 'grad_norm': 0.2533755898475647, 'learning_rate': 0.0009971456328417556, 'epoch': 0.13}
                                                       13%|█▎        | 1400/10711 [33:35<1:28:30,  1.75it/s] 13%|█▎        | 1401/10711 [33:36<1:26:42,  1.79it/s] 13%|█▎        | 1402/10711 [33:37<1:25:01,  1.82it/s] 13%|█▎        | 1403/10711 [33:37<1:27:00,  1.78it/s] 13%|█▎        | 1404/10711 [33:38<1:26:59,  1.78it/s] 13%|█▎        | 1405/10711 [33:38<1:26:00,  1.80it/s] 13%|█▎        | 1406/10711 [33:39<1:25:01,  1.82it/s] 13%|█▎        | 1407/10711 [33:39<1:25:45,  1.81it/s] 13%|█▎        | 1408/10711 [33:40<1:28:08,  1.76it/s] 13%|█▎        | 1409/10711 [33:40<1:29:22,  1.73it/s] 13%|█▎        | 1410/10711 [33:41<1:26:29,  1.79it/s] 13%|█▎        | 1411/10711 [33:42<1:27:39,  1.77it/s] 13%|█▎        | 1412/10711 [33:42<1:32:25,  1.68it/s] 13%|█▎        | 1413/10711 [33:43<1:29:26,  1.73it/s] 13%|█▎        | 1414/10711 [33:43<1:27:32,  1.77it/s] 13%|█▎        | 1415/10711 [33:44<1:25:35,  1.81it/s] 13%|█▎        | 1416/10711 [33:44<1:26:58,  1.78it/s] 13%|█▎        | 1417/10711 [33:45<1:27:47,  1.76it/s] 13%|█▎        | 1418/10711 [33:46<1:26:39,  1.79it/s] 13%|█▎        | 1419/10711 [33:46<1:23:29,  1.85it/s] 13%|█▎        | 1420/10711 [33:47<1:26:35,  1.79it/s] 13%|█▎        | 1421/10711 [33:47<1:26:02,  1.80it/s] 13%|█▎        | 1422/10711 [33:48<1:26:07,  1.80it/s] 13%|█▎        | 1423/10711 [33:48<1:24:37,  1.83it/s] 13%|█▎        | 1424/10711 [33:49<1:26:39,  1.79it/s] 13%|█▎        | 1425/10711 [33:49<1:28:25,  1.75it/s]{'loss': 4.0451, 'grad_norm': 0.2522476315498352, 'learning_rate': 0.0009966944320179245, 'epoch': 0.13}
                                                       13%|█▎        | 1425/10711 [33:49<1:28:25,  1.75it/s] 13%|█▎        | 1426/10711 [33:50<1:25:38,  1.81it/s] 13%|█▎        | 1427/10711 [33:51<1:27:08,  1.78it/s] 13%|█▎        | 1428/10711 [33:51<1:25:45,  1.80it/s] 13%|█▎        | 1429/10711 [33:52<1:24:20,  1.83it/s] 13%|█▎        | 1430/10711 [33:52<1:26:13,  1.79it/s] 13%|█▎        | 1431/10711 [33:53<1:28:38,  1.74it/s] 13%|█▎        | 1432/10711 [33:53<1:25:49,  1.80it/s] 13%|█▎        | 1433/10711 [33:54<1:27:18,  1.77it/s] 13%|█▎        | 1434/10711 [33:55<1:31:08,  1.70it/s] 13%|█▎        | 1435/10711 [33:55<1:30:36,  1.71it/s] 13%|█▎        | 1436/10711 [33:56<1:27:55,  1.76it/s] 13%|█▎        | 1437/10711 [33:56<1:24:26,  1.83it/s] 13%|█▎        | 1438/10711 [33:57<1:22:47,  1.87it/s] 13%|█▎        | 1439/10711 [33:57<1:23:10,  1.86it/s] 13%|█▎        | 1440/10711 [33:58<1:23:14,  1.86it/s] 13%|█▎        | 1441/10711 [33:58<1:25:45,  1.80it/s] 13%|█▎        | 1442/10711 [33:59<1:24:16,  1.83it/s] 13%|█▎        | 1443/10711 [33:59<1:24:16,  1.83it/s] 13%|█▎        | 1444/10711 [34:00<1:24:59,  1.82it/s] 13%|█▎        | 1445/10711 [34:01<1:31:11,  1.69it/s] 14%|█▎        | 1446/10711 [34:01<1:36:58,  1.59it/s] 14%|█▎        | 1447/10711 [34:02<1:31:42,  1.68it/s] 14%|█▎        | 1448/10711 [34:02<1:29:49,  1.72it/s] 14%|█▎        | 1449/10711 [34:03<1:30:23,  1.71it/s] 14%|█▎        | 1450/10711 [34:04<1:27:49,  1.76it/s]                                                      {'loss': 4.0239, 'grad_norm': 0.2447451651096344, 'learning_rate': 0.0009962102548359678, 'epoch': 0.14}
 14%|█▎        | 1450/10711 [34:04<1:27:49,  1.76it/s] 14%|█▎        | 1451/10711 [34:04<1:25:26,  1.81it/s] 14%|█▎        | 1452/10711 [34:05<1:22:35,  1.87it/s] 14%|█▎        | 1453/10711 [34:05<1:21:58,  1.88it/s] 14%|█▎        | 1454/10711 [34:06<1:24:44,  1.82it/s] 14%|█▎        | 1455/10711 [34:06<1:22:02,  1.88it/s] 14%|█▎        | 1456/10711 [34:07<1:22:12,  1.88it/s] 14%|█▎        | 1457/10711 [34:07<1:23:10,  1.85it/s] 14%|█▎        | 1458/10711 [34:08<1:24:33,  1.82it/s] 14%|█▎        | 1459/10711 [34:08<1:23:12,  1.85it/s] 14%|█▎        | 1460/10711 [34:09<1:27:44,  1.76it/s] 14%|█▎        | 1461/10711 [34:10<1:30:40,  1.70it/s] 14%|█▎        | 1462/10711 [34:10<1:29:31,  1.72it/s] 14%|█▎        | 1463/10711 [34:11<1:27:12,  1.77it/s] 14%|█▎        | 1464/10711 [34:11<1:25:53,  1.79it/s] 14%|█▎        | 1465/10711 [34:12<1:25:16,  1.81it/s] 14%|█▎        | 1466/10711 [34:12<1:24:47,  1.82it/s] 14%|█▎        | 1467/10711 [34:13<1:27:46,  1.76it/s] 14%|█▎        | 1468/10711 [34:13<1:24:15,  1.83it/s] 14%|█▎        | 1469/10711 [34:14<1:23:11,  1.85it/s] 14%|█▎        | 1470/10711 [34:14<1:21:05,  1.90it/s] 14%|█▎        | 1471/10711 [34:15<1:22:25,  1.87it/s] 14%|█▎        | 1472/10711 [34:16<1:22:55,  1.86it/s] 14%|█▍        | 1473/10711 [34:16<1:24:14,  1.83it/s] 14%|█▍        | 1474/10711 [34:17<1:23:35,  1.84it/s] 14%|█▍        | 1475/10711 [34:17<1:22:22,  1.87it/s]                                                      {'loss': 4.027, 'grad_norm': 0.24593234062194824, 'learning_rate': 0.000995693133441203, 'epoch': 0.14}
 14%|█▍        | 1475/10711 [34:17<1:22:22,  1.87it/s] 14%|█▍        | 1476/10711 [34:18<1:21:36,  1.89it/s] 14%|█▍        | 1477/10711 [34:18<1:21:49,  1.88it/s] 14%|█▍        | 1478/10711 [34:19<1:20:06,  1.92it/s] 14%|█▍        | 1479/10711 [34:19<1:21:54,  1.88it/s] 14%|█▍        | 1480/10711 [34:20<1:22:16,  1.87it/s] 14%|█▍        | 1481/10711 [34:20<1:21:47,  1.88it/s] 14%|█▍        | 1482/10711 [34:21<1:23:07,  1.85it/s] 14%|█▍        | 1483/10711 [34:21<1:22:58,  1.85it/s] 14%|█▍        | 1484/10711 [34:22<1:20:52,  1.90it/s] 14%|█▍        | 1485/10711 [34:22<1:19:19,  1.94it/s] 14%|█▍        | 1486/10711 [34:23<1:21:26,  1.89it/s] 14%|█▍        | 1487/10711 [34:24<1:19:48,  1.93it/s] 14%|█▍        | 1488/10711 [34:24<1:22:22,  1.87it/s] 14%|█▍        | 1489/10711 [34:25<1:25:44,  1.79it/s] 14%|█▍        | 1490/10711 [34:25<1:24:42,  1.81it/s] 14%|█▍        | 1491/10711 [34:26<1:25:52,  1.79it/s] 14%|█▍        | 1492/10711 [34:26<1:25:57,  1.79it/s] 14%|█▍        | 1493/10711 [34:27<1:28:16,  1.74it/s] 14%|█▍        | 1494/10711 [34:28<1:28:09,  1.74it/s] 14%|█▍        | 1495/10711 [34:28<1:26:52,  1.77it/s] 14%|█▍        | 1496/10711 [34:29<1:27:50,  1.75it/s] 14%|█▍        | 1497/10711 [34:29<1:29:29,  1.72it/s] 14%|█▍        | 1498/10711 [34:30<1:27:41,  1.75it/s] 14%|█▍        | 1499/10711 [34:30<1:24:53,  1.81it/s] 14%|█▍        | 1500/10711 [34:31<1:23:40,  1.83it/s]{'loss': 4.0209, 'grad_norm': 0.23489011824131012, 'learning_rate': 0.0009951431021661674, 'epoch': 0.14}                                                      
 14%|█▍        | 1500/10711 [34:31<1:23:40,  1.83it/s] 14%|█▍        | 1501/10711 [34:32<1:27:45,  1.75it/s] 14%|█▍        | 1502/10711 [34:32<1:27:06,  1.76it/s] 14%|█▍        | 1503/10711 [34:33<1:24:58,  1.81it/s] 14%|█▍        | 1504/10711 [34:33<1:25:52,  1.79it/s] 14%|█▍        | 1505/10711 [34:34<1:24:28,  1.82it/s] 14%|█▍        | 1506/10711 [34:34<1:22:30,  1.86it/s] 14%|█▍        | 1507/10711 [34:35<1:26:20,  1.78it/s] 14%|█▍        | 1508/10711 [34:35<1:26:04,  1.78it/s] 14%|█▍        | 1509/10711 [34:36<1:27:37,  1.75it/s] 14%|█▍        | 1510/10711 [34:36<1:24:52,  1.81it/s] 14%|█▍        | 1511/10711 [34:37<1:25:50,  1.79it/s] 14%|█▍        | 1512/10711 [34:38<1:29:09,  1.72it/s] 14%|█▍        | 1513/10711 [34:38<1:27:40,  1.75it/s] 14%|█▍        | 1514/10711 [34:39<1:29:03,  1.72it/s] 14%|█▍        | 1515/10711 [34:39<1:24:54,  1.81it/s] 14%|█▍        | 1516/10711 [34:40<1:24:56,  1.80it/s] 14%|█▍        | 1517/10711 [34:40<1:22:04,  1.87it/s] 14%|█▍        | 1518/10711 [34:41<1:21:06,  1.89it/s] 14%|█▍        | 1519/10711 [34:41<1:21:17,  1.88it/s] 14%|█▍        | 1520/10711 [34:42<1:19:26,  1.93it/s] 14%|█▍        | 1521/10711 [34:42<1:18:19,  1.96it/s] 14%|█▍        | 1522/10711 [34:43<1:19:32,  1.93it/s] 14%|█▍        | 1523/10711 [34:44<1:21:07,  1.89it/s] 14%|█▍        | 1524/10711 [34:44<1:22:05,  1.87it/s] 14%|█▍        | 1525/10711 [34:45<1:22:02,  1.87it/s]                                                      {'loss': 4.0031, 'grad_norm': 0.2391856461763382, 'learning_rate': 0.0009945601975283398, 'epoch': 0.14}
 14%|█▍        | 1525/10711 [34:45<1:22:02,  1.87it/s] 14%|█▍        | 1526/10711 [34:45<1:23:48,  1.83it/s] 14%|█▍        | 1527/10711 [34:46<1:22:06,  1.86it/s] 14%|█▍        | 1528/10711 [34:46<1:22:13,  1.86it/s] 14%|█▍        | 1529/10711 [34:47<1:21:13,  1.88it/s] 14%|█▍        | 1530/10711 [34:47<1:21:37,  1.87it/s] 14%|█▍        | 1531/10711 [34:48<1:24:27,  1.81it/s] 14%|█▍        | 1532/10711 [34:48<1:23:10,  1.84it/s] 14%|█▍        | 1533/10711 [34:49<1:20:50,  1.89it/s] 14%|█▍        | 1534/10711 [34:49<1:19:14,  1.93it/s] 14%|█▍        | 1535/10711 [34:50<1:20:28,  1.90it/s] 14%|█▍        | 1536/10711 [34:50<1:20:42,  1.89it/s] 14%|█▍        | 1537/10711 [34:51<1:19:46,  1.92it/s] 14%|█▍        | 1538/10711 [34:51<1:18:24,  1.95it/s] 14%|█▍        | 1539/10711 [34:52<1:17:23,  1.98it/s] 14%|█▍        | 1540/10711 [34:52<1:16:43,  1.99it/s] 14%|█▍        | 1541/10711 [34:53<1:18:09,  1.96it/s] 14%|█▍        | 1542/10711 [34:54<1:21:55,  1.87it/s] 14%|█▍        | 1543/10711 [34:54<1:23:36,  1.83it/s] 14%|█▍        | 1544/10711 [34:55<1:21:11,  1.88it/s] 14%|█▍        | 1545/10711 [34:55<1:20:32,  1.90it/s] 14%|█▍        | 1546/10711 [34:56<1:22:07,  1.86it/s] 14%|█▍        | 1547/10711 [34:56<1:21:41,  1.87it/s] 14%|█▍        | 1548/10711 [34:57<1:20:42,  1.89it/s] 14%|█▍        | 1549/10711 [34:57<1:20:29,  1.90it/s] 14%|█▍        | 1550/10711 [34:58<1:19:52,  1.91it/s]{'loss': 3.9993, 'grad_norm': 0.23108135163784027, 'learning_rate': 0.0009939444582277156, 'epoch': 0.14}
                                                       14%|█▍        | 1550/10711 [34:58<1:19:52,  1.91it/s] 14%|█▍        | 1551/10711 [34:58<1:20:46,  1.89it/s] 14%|█▍        | 1552/10711 [34:59<1:27:39,  1.74it/s] 14%|█▍        | 1553/10711 [35:00<1:30:16,  1.69it/s] 15%|█▍        | 1554/10711 [35:00<1:30:25,  1.69it/s] 15%|█▍        | 1555/10711 [35:01<1:37:26,  1.57it/s] 15%|█▍        | 1556/10711 [35:02<1:34:10,  1.62it/s] 15%|█▍        | 1557/10711 [35:02<1:34:36,  1.61it/s] 15%|█▍        | 1558/10711 [35:03<1:28:45,  1.72it/s] 15%|█▍        | 1559/10711 [35:03<1:26:35,  1.76it/s] 15%|█▍        | 1560/10711 [35:04<1:24:55,  1.80it/s] 15%|█▍        | 1561/10711 [35:04<1:23:10,  1.83it/s] 15%|█▍        | 1562/10711 [35:05<1:22:28,  1.85it/s] 15%|█▍        | 1563/10711 [35:05<1:20:15,  1.90it/s] 15%|█▍        | 1564/10711 [35:06<1:32:16,  1.65it/s] 15%|█▍        | 1565/10711 [35:07<1:29:46,  1.70it/s] 15%|█▍        | 1566/10711 [35:07<1:28:28,  1.72it/s] 15%|█▍        | 1567/10711 [35:08<1:24:26,  1.80it/s] 15%|█▍        | 1568/10711 [35:08<1:21:34,  1.87it/s] 15%|█▍        | 1569/10711 [35:09<1:21:10,  1.88it/s] 15%|█▍        | 1570/10711 [35:09<1:19:24,  1.92it/s] 15%|█▍        | 1571/10711 [35:10<1:19:48,  1.91it/s] 15%|█▍        | 1572/10711 [35:10<1:21:22,  1.87it/s] 15%|█▍        | 1573/10711 [35:11<1:19:30,  1.92it/s] 15%|█▍        | 1574/10711 [35:11<1:21:33,  1.87it/s] 15%|█▍        | 1575/10711 [35:12<1:21:12,  1.88it/s]                                                      {'loss': 3.9876, 'grad_norm': 0.23198969662189484, 'learning_rate': 0.0009932959251442366, 'epoch': 0.15}
 15%|█▍        | 1575/10711 [35:12<1:21:12,  1.88it/s] 15%|█▍        | 1576/10711 [35:12<1:19:31,  1.91it/s] 15%|█▍        | 1577/10711 [35:13<1:19:35,  1.91it/s] 15%|█▍        | 1578/10711 [35:13<1:21:33,  1.87it/s] 15%|█▍        | 1579/10711 [35:14<1:22:23,  1.85it/s] 15%|█▍        | 1580/10711 [35:15<1:21:01,  1.88it/s] 15%|█▍        | 1581/10711 [35:15<1:24:38,  1.80it/s] 15%|█▍        | 1582/10711 [35:16<1:25:02,  1.79it/s] 15%|█▍        | 1583/10711 [35:16<1:22:06,  1.85it/s] 15%|█▍        | 1584/10711 [35:17<1:23:49,  1.81it/s] 15%|█▍        | 1585/10711 [35:17<1:23:24,  1.82it/s] 15%|█▍        | 1586/10711 [35:18<1:21:55,  1.86it/s] 15%|█▍        | 1587/10711 [35:18<1:22:26,  1.84it/s] 15%|█▍        | 1588/10711 [35:19<1:24:02,  1.81it/s] 15%|█▍        | 1589/10711 [35:19<1:21:13,  1.87it/s] 15%|█▍        | 1590/10711 [35:20<1:22:01,  1.85it/s] 15%|█▍        | 1591/10711 [35:21<1:23:33,  1.82it/s] 15%|█▍        | 1592/10711 [35:21<1:24:42,  1.79it/s] 15%|█▍        | 1593/10711 [35:22<1:25:22,  1.78it/s] 15%|█▍        | 1594/10711 [35:22<1:22:18,  1.85it/s] 15%|█▍        | 1595/10711 [35:23<1:23:07,  1.83it/s] 15%|█▍        | 1596/10711 [35:23<1:20:29,  1.89it/s] 15%|█▍        | 1597/10711 [35:24<1:20:32,  1.89it/s] 15%|█▍        | 1598/10711 [35:24<1:21:25,  1.87it/s] 15%|█▍        | 1599/10711 [35:25<1:22:06,  1.85it/s] 15%|█▍        | 1600/10711 [35:25<1:21:36,  1.86it/s]{'loss': 3.9738, 'grad_norm': 0.22481560707092285, 'learning_rate': 0.0009926146413350783, 'epoch': 0.15}
                                                       15%|█▍        | 1600/10711 [35:25<1:21:36,  1.86it/s] 15%|█▍        | 1601/10711 [35:26<1:22:41,  1.84it/s] 15%|█▍        | 1602/10711 [35:27<1:21:14,  1.87it/s] 15%|█▍        | 1603/10711 [35:27<1:22:09,  1.85it/s] 15%|█▍        | 1604/10711 [35:28<1:22:41,  1.84it/s] 15%|█▍        | 1605/10711 [35:28<1:22:22,  1.84it/s] 15%|█▍        | 1606/10711 [35:29<1:21:35,  1.86it/s] 15%|█▌        | 1607/10711 [35:29<1:19:41,  1.90it/s] 15%|█▌        | 1608/10711 [35:30<1:18:12,  1.94it/s] 15%|█▌        | 1609/10711 [35:30<1:20:56,  1.87it/s] 15%|█▌        | 1610/10711 [35:31<1:19:01,  1.92it/s] 15%|█▌        | 1611/10711 [35:31<1:18:55,  1.92it/s] 15%|█▌        | 1612/10711 [35:32<1:17:39,  1.95it/s] 15%|█▌        | 1613/10711 [35:32<1:21:36,  1.86it/s] 15%|█▌        | 1614/10711 [35:33<1:21:07,  1.87it/s] 15%|█▌        | 1615/10711 [35:33<1:19:50,  1.90it/s] 15%|█▌        | 1616/10711 [35:34<1:18:19,  1.94it/s] 15%|█▌        | 1617/10711 [35:34<1:18:36,  1.93it/s] 15%|█▌        | 1618/10711 [35:35<1:21:34,  1.86it/s] 15%|█▌        | 1619/10711 [35:36<1:20:39,  1.88it/s] 15%|█▌        | 1620/10711 [35:36<1:20:06,  1.89it/s] 15%|█▌        | 1621/10711 [35:37<1:19:20,  1.91it/s] 15%|█▌        | 1622/10711 [35:37<1:24:30,  1.79it/s] 15%|█▌        | 1623/10711 [35:38<1:22:37,  1.83it/s] 15%|█▌        | 1624/10711 [35:38<1:21:17,  1.86it/s] 15%|█▌        | 1625/10711 [35:39<1:24:49,  1.79it/s]{'loss': 3.9765, 'grad_norm': 0.24404679238796234, 'learning_rate': 0.0009919006520317903, 'epoch': 0.15}
                                                       15%|█▌        | 1625/10711 [35:39<1:24:49,  1.79it/s] 15%|█▌        | 1626/10711 [35:39<1:25:01,  1.78it/s] 15%|█▌        | 1627/10711 [35:40<1:27:12,  1.74it/s] 15%|█▌        | 1628/10711 [35:40<1:23:22,  1.82it/s] 15%|█▌        | 1629/10711 [35:41<1:22:49,  1.83it/s] 15%|█▌        | 1630/10711 [35:42<1:22:51,  1.83it/s] 15%|█▌        | 1631/10711 [35:42<1:20:16,  1.89it/s] 15%|█▌        | 1632/10711 [35:43<1:19:54,  1.89it/s] 15%|█▌        | 1633/10711 [35:43<1:18:11,  1.93it/s] 15%|█▌        | 1634/10711 [35:44<1:19:22,  1.91it/s] 15%|█▌        | 1635/10711 [35:44<1:20:05,  1.89it/s] 15%|█▌        | 1636/10711 [35:45<1:20:53,  1.87it/s] 15%|█▌        | 1637/10711 [35:45<1:19:00,  1.91it/s] 15%|█▌        | 1638/10711 [35:46<1:19:56,  1.89it/s] 15%|█▌        | 1639/10711 [35:46<1:22:37,  1.83it/s] 15%|█▌        | 1640/10711 [35:47<1:21:01,  1.87it/s] 15%|█▌        | 1641/10711 [35:47<1:20:22,  1.88it/s] 15%|█▌        | 1642/10711 [35:48<1:19:51,  1.89it/s] 15%|█▌        | 1643/10711 [35:48<1:19:11,  1.91it/s] 15%|█▌        | 1644/10711 [35:49<1:19:56,  1.89it/s] 15%|█▌        | 1645/10711 [35:49<1:18:36,  1.92it/s] 15%|█▌        | 1646/10711 [35:50<1:20:36,  1.87it/s] 15%|█▌        | 1647/10711 [35:51<1:19:58,  1.89it/s] 15%|█▌        | 1648/10711 [35:51<1:18:14,  1.93it/s] 15%|█▌        | 1649/10711 [35:52<1:18:32,  1.92it/s] 15%|█▌        | 1650/10711 [35:52<1:18:28,  1.92it/s]                                                      {'loss': 3.9676, 'grad_norm': 0.23317965865135193, 'learning_rate': 0.0009911540046372938, 'epoch': 0.15}
 15%|█▌        | 1650/10711 [35:52<1:18:28,  1.92it/s] 15%|█▌        | 1651/10711 [35:53<1:18:08,  1.93it/s] 15%|█▌        | 1652/10711 [35:53<1:19:42,  1.89it/s] 15%|█▌        | 1653/10711 [35:54<1:18:49,  1.92it/s] 15%|█▌        | 1654/10711 [35:54<1:17:32,  1.95it/s] 15%|█▌        | 1655/10711 [35:55<1:18:02,  1.93it/s] 15%|█▌        | 1656/10711 [35:55<1:16:58,  1.96it/s] 15%|█▌        | 1657/10711 [35:56<1:19:20,  1.90it/s] 15%|█▌        | 1658/10711 [35:56<1:20:44,  1.87it/s] 15%|█▌        | 1659/10711 [35:57<1:21:49,  1.84it/s] 15%|█▌        | 1660/10711 [35:57<1:21:18,  1.86it/s] 16%|█▌        | 1661/10711 [35:58<1:20:03,  1.88it/s] 16%|█▌        | 1662/10711 [35:58<1:18:14,  1.93it/s] 16%|█▌        | 1663/10711 [35:59<1:18:06,  1.93it/s] 16%|█▌        | 1664/10711 [35:59<1:19:56,  1.89it/s] 16%|█▌        | 1665/10711 [36:00<1:20:57,  1.86it/s] 16%|█▌        | 1666/10711 [36:01<1:20:02,  1.88it/s] 16%|█▌        | 1667/10711 [36:01<1:18:14,  1.93it/s] 16%|█▌        | 1668/10711 [36:02<1:18:50,  1.91it/s] 16%|█▌        | 1669/10711 [36:02<1:19:08,  1.90it/s] 16%|█▌        | 1670/10711 [36:03<1:17:44,  1.94it/s] 16%|█▌        | 1671/10711 [36:03<1:17:44,  1.94it/s] 16%|█▌        | 1672/10711 [36:04<1:18:00,  1.93it/s] 16%|█▌        | 1673/10711 [36:04<1:19:54,  1.89it/s] 16%|█▌        | 1674/10711 [36:05<1:20:57,  1.86it/s] 16%|█▌        | 1675/10711 [36:05<1:22:37,  1.82it/s]                                                      {'loss': 3.9449, 'grad_norm': 0.22685782611370087, 'learning_rate': 0.000990374748722734, 'epoch': 0.16}
 16%|█▌        | 1675/10711 [36:05<1:22:37,  1.82it/s] 16%|█▌        | 1676/10711 [36:06<1:22:12,  1.83it/s] 16%|█▌        | 1677/10711 [36:07<1:33:59,  1.60it/s] 16%|█▌        | 1678/10711 [36:07<1:27:58,  1.71it/s] 16%|█▌        | 1679/10711 [36:08<1:24:38,  1.78it/s] 16%|█▌        | 1680/10711 [36:08<1:21:32,  1.85it/s] 16%|█▌        | 1681/10711 [36:09<1:23:49,  1.80it/s] 16%|█▌        | 1682/10711 [36:09<1:22:02,  1.83it/s] 16%|█▌        | 1683/10711 [36:10<1:23:05,  1.81it/s] 16%|█▌        | 1684/10711 [36:10<1:21:50,  1.84it/s] 16%|█▌        | 1685/10711 [36:11<1:36:37,  1.56it/s] 16%|█▌        | 1686/10711 [36:12<1:29:53,  1.67it/s] 16%|█▌        | 1687/10711 [36:12<1:25:51,  1.75it/s] 16%|█▌        | 1688/10711 [36:13<1:24:14,  1.79it/s] 16%|█▌        | 1689/10711 [36:13<1:21:16,  1.85it/s] 16%|█▌        | 1690/10711 [36:14<1:21:45,  1.84it/s] 16%|█▌        | 1691/10711 [36:14<1:21:17,  1.85it/s] 16%|█▌        | 1692/10711 [36:15<1:19:09,  1.90it/s] 16%|█▌        | 1693/10711 [36:15<1:17:38,  1.94it/s] 16%|█▌        | 1694/10711 [36:16<1:17:18,  1.94it/s] 16%|█▌        | 1695/10711 [36:16<1:18:19,  1.92it/s] 16%|█▌        | 1696/10711 [36:17<1:16:58,  1.95it/s] 16%|█▌        | 1697/10711 [36:17<1:17:13,  1.95it/s] 16%|█▌        | 1698/10711 [36:18<1:16:11,  1.97it/s] 16%|█▌        | 1699/10711 [36:18<1:17:18,  1.94it/s] 16%|█▌        | 1700/10711 [36:19<1:18:14,  1.92it/s]                                                      {'loss': 3.9453, 'grad_norm': 0.2210100144147873, 'learning_rate': 0.0009895629360241894, 'epoch': 0.16}
 16%|█▌        | 1700/10711 [36:19<1:18:14,  1.92it/s] 16%|█▌        | 1701/10711 [36:20<1:21:10,  1.85it/s] 16%|█▌        | 1702/10711 [36:20<1:19:00,  1.90it/s] 16%|█▌        | 1703/10711 [36:21<1:18:34,  1.91it/s] 16%|█▌        | 1704/10711 [36:21<1:18:37,  1.91it/s] 16%|█▌        | 1705/10711 [36:22<1:18:36,  1.91it/s] 16%|█▌        | 1706/10711 [36:22<1:18:15,  1.92it/s] 16%|█▌        | 1707/10711 [36:23<1:16:55,  1.95it/s] 16%|█▌        | 1708/10711 [36:23<1:16:14,  1.97it/s] 16%|█▌        | 1709/10711 [36:24<1:16:40,  1.96it/s] 16%|█▌        | 1710/10711 [36:24<1:18:46,  1.90it/s] 16%|█▌        | 1711/10711 [36:25<1:19:04,  1.90it/s] 16%|█▌        | 1712/10711 [36:25<1:17:45,  1.93it/s] 16%|█▌        | 1713/10711 [36:26<1:17:32,  1.93it/s] 16%|█▌        | 1714/10711 [36:26<1:16:22,  1.96it/s] 16%|█▌        | 1715/10711 [36:27<1:18:54,  1.90it/s] 16%|█▌        | 1716/10711 [36:27<1:18:09,  1.92it/s] 16%|█▌        | 1717/10711 [36:28<1:17:04,  1.94it/s] 16%|█▌        | 1718/10711 [36:29<1:45:15,  1.42it/s] 16%|█▌        | 1719/10711 [36:29<1:37:54,  1.53it/s] 16%|█▌        | 1720/10711 [36:30<1:33:23,  1.60it/s] 16%|█▌        | 1721/10711 [36:31<1:28:34,  1.69it/s] 16%|█▌        | 1722/10711 [36:31<1:25:01,  1.76it/s] 16%|█▌        | 1723/10711 [36:32<1:22:40,  1.81it/s] 16%|█▌        | 1724/10711 [36:32<1:21:35,  1.84it/s] 16%|█▌        | 1725/10711 [36:33<1:20:55,  1.85it/s]{'loss': 3.9311, 'grad_norm': 0.22766967117786407, 'learning_rate': 0.0009887186204392366, 'epoch': 0.16}
                                                       16%|█▌        | 1725/10711 [36:33<1:20:55,  1.85it/s] 16%|█▌        | 1726/10711 [36:33<1:22:30,  1.81it/s] 16%|█▌        | 1727/10711 [36:34<1:26:17,  1.74it/s] 16%|█▌        | 1728/10711 [36:34<1:24:11,  1.78it/s] 16%|█▌        | 1729/10711 [36:35<1:23:01,  1.80it/s] 16%|█▌        | 1730/10711 [36:35<1:20:13,  1.87it/s] 16%|█▌        | 1731/10711 [36:36<1:18:12,  1.91it/s] 16%|█▌        | 1732/10711 [36:37<1:29:13,  1.68it/s] 16%|█▌        | 1733/10711 [36:37<1:26:02,  1.74it/s] 16%|█▌        | 1734/10711 [36:38<1:23:11,  1.80it/s] 16%|█▌        | 1735/10711 [36:38<1:21:33,  1.83it/s] 16%|█▌        | 1736/10711 [36:39<1:23:53,  1.78it/s] 16%|█▌        | 1737/10711 [36:39<1:20:52,  1.85it/s] 16%|█▌        | 1738/10711 [36:40<1:18:34,  1.90it/s] 16%|█▌        | 1739/10711 [36:40<1:17:05,  1.94it/s] 16%|█▌        | 1740/10711 [36:41<1:16:05,  1.96it/s] 16%|█▋        | 1741/10711 [36:41<1:16:56,  1.94it/s] 16%|█▋        | 1742/10711 [36:42<1:16:47,  1.95it/s] 16%|█▋        | 1743/10711 [36:42<1:18:39,  1.90it/s] 16%|█▋        | 1744/10711 [36:43<1:18:08,  1.91it/s] 16%|█▋        | 1745/10711 [36:44<1:29:01,  1.68it/s] 16%|█▋        | 1746/10711 [36:44<1:26:23,  1.73it/s] 16%|█▋        | 1747/10711 [36:45<1:22:31,  1.81it/s] 16%|█▋        | 1748/10711 [36:45<1:20:36,  1.85it/s] 16%|█▋        | 1749/10711 [36:46<1:18:30,  1.90it/s] 16%|█▋        | 1750/10711 [36:46<1:18:16,  1.91it/s]{'loss': 3.9286, 'grad_norm': 0.23214952647686005, 'learning_rate': 0.0009878418580233728, 'epoch': 0.16}                                                      
 16%|█▋        | 1750/10711 [36:46<1:18:16,  1.91it/s] 16%|█▋        | 1751/10711 [36:47<1:18:34,  1.90it/s] 16%|█▋        | 1752/10711 [36:47<1:17:51,  1.92it/s] 16%|█▋        | 1753/10711 [36:48<1:18:45,  1.90it/s] 16%|█▋        | 1754/10711 [36:48<1:17:48,  1.92it/s] 16%|█▋        | 1755/10711 [36:49<1:18:15,  1.91it/s] 16%|█▋        | 1756/10711 [36:49<1:18:51,  1.89it/s] 16%|█▋        | 1757/10711 [36:50<1:18:20,  1.91it/s] 16%|█▋        | 1758/10711 [36:50<1:17:41,  1.92it/s] 16%|█▋        | 1759/10711 [36:51<1:17:18,  1.93it/s] 16%|█▋        | 1760/10711 [36:51<1:17:10,  1.93it/s] 16%|█▋        | 1761/10711 [36:52<1:17:27,  1.93it/s] 16%|█▋        | 1762/10711 [36:53<1:21:27,  1.83it/s] 16%|█▋        | 1763/10711 [36:53<1:20:26,  1.85it/s] 16%|█▋        | 1764/10711 [36:54<1:18:49,  1.89it/s] 16%|█▋        | 1765/10711 [36:54<1:18:11,  1.91it/s] 16%|█▋        | 1766/10711 [36:55<1:17:17,  1.93it/s] 16%|█▋        | 1767/10711 [36:55<1:16:25,  1.95it/s] 17%|█▋        | 1768/10711 [36:56<1:28:39,  1.68it/s] 17%|█▋        | 1769/10711 [36:56<1:24:49,  1.76it/s] 17%|█▋        | 1770/10711 [36:57<1:23:05,  1.79it/s] 17%|█▋        | 1771/10711 [36:57<1:20:11,  1.86it/s] 17%|█▋        | 1772/10711 [36:58<1:18:16,  1.90it/s] 17%|█▋        | 1773/10711 [36:58<1:17:43,  1.92it/s] 17%|█▋        | 1774/10711 [36:59<1:16:20,  1.95it/s] 17%|█▋        | 1775/10711 [36:59<1:15:40,  1.97it/s]                                                      {'loss': 3.9117, 'grad_norm': 0.23174485564231873, 'learning_rate': 0.0009869327069862925, 'epoch': 0.17}
 17%|█▋        | 1775/10711 [36:59<1:15:40,  1.97it/s] 17%|█▋        | 1776/10711 [37:00<1:14:58,  1.99it/s] 17%|█▋        | 1777/10711 [37:00<1:18:27,  1.90it/s] 17%|█▋        | 1778/10711 [37:01<1:18:05,  1.91it/s] 17%|█▋        | 1779/10711 [37:02<1:21:06,  1.84it/s] 17%|█▋        | 1780/10711 [37:02<1:19:47,  1.87it/s] 17%|█▋        | 1781/10711 [37:03<1:18:37,  1.89it/s] 17%|█▋        | 1782/10711 [37:03<1:17:48,  1.91it/s] 17%|█▋        | 1783/10711 [37:04<1:17:19,  1.92it/s] 17%|█▋        | 1784/10711 [37:04<1:18:18,  1.90it/s] 17%|█▋        | 1785/10711 [37:05<1:17:40,  1.92it/s] 17%|█▋        | 1786/10711 [37:05<1:17:20,  1.92it/s] 17%|█▋        | 1787/10711 [37:06<1:17:00,  1.93it/s] 17%|█▋        | 1788/10711 [37:06<1:15:47,  1.96it/s] 17%|█▋        | 1789/10711 [37:07<1:24:49,  1.75it/s] 17%|█▋        | 1790/10711 [37:07<1:21:26,  1.83it/s] 17%|█▋        | 1791/10711 [37:08<1:22:20,  1.81it/s] 17%|█▋        | 1792/10711 [37:08<1:19:32,  1.87it/s] 17%|█▋        | 1793/10711 [37:09<1:19:37,  1.87it/s] 17%|█▋        | 1794/10711 [37:10<1:18:44,  1.89it/s] 17%|█▋        | 1795/10711 [37:10<1:17:53,  1.91it/s] 17%|█▋        | 1796/10711 [37:11<1:29:09,  1.67it/s] 17%|█▋        | 1797/10711 [37:11<1:31:32,  1.62it/s] 17%|█▋        | 1798/10711 [37:12<1:27:48,  1.69it/s] 17%|█▋        | 1799/10711 [37:13<1:26:14,  1.72it/s] 17%|█▋        | 1800/10711 [37:13<1:24:11,  1.76it/s]{'loss': 3.9125, 'grad_norm': 0.2269037514925003, 'learning_rate': 0.0009859912276880248, 'epoch': 0.17}                                                      
 17%|█▋        | 1800/10711 [37:13<1:24:11,  1.76it/s] 17%|█▋        | 1801/10711 [37:14<1:20:55,  1.83it/s] 17%|█▋        | 1802/10711 [37:14<1:18:39,  1.89it/s] 17%|█▋        | 1803/10711 [37:15<1:18:31,  1.89it/s] 17%|█▋        | 1804/10711 [37:15<1:17:45,  1.91it/s] 17%|█▋        | 1805/10711 [37:16<1:16:59,  1.93it/s] 17%|█▋        | 1806/10711 [37:16<1:15:50,  1.96it/s] 17%|█▋        | 1807/10711 [37:17<1:16:04,  1.95it/s] 17%|█▋        | 1808/10711 [37:17<1:15:15,  1.97it/s] 17%|█▋        | 1809/10711 [37:18<1:14:33,  1.99it/s] 17%|█▋        | 1810/10711 [37:18<1:27:03,  1.70it/s] 17%|█▋        | 1811/10711 [37:19<1:24:04,  1.76it/s] 17%|█▋        | 1812/10711 [37:19<1:23:50,  1.77it/s] 17%|█▋        | 1813/10711 [37:20<1:23:15,  1.78it/s] 17%|█▋        | 1814/10711 [37:21<1:20:08,  1.85it/s] 17%|█▋        | 1815/10711 [37:21<1:20:28,  1.84it/s] 17%|█▋        | 1816/10711 [37:22<1:20:49,  1.83it/s] 17%|█▋        | 1817/10711 [37:22<1:20:52,  1.83it/s] 17%|█▋        | 1818/10711 [37:23<1:18:36,  1.89it/s] 17%|█▋        | 1819/10711 [37:23<1:19:24,  1.87it/s] 17%|█▋        | 1820/10711 [37:24<1:18:56,  1.88it/s] 17%|█▋        | 1821/10711 [37:24<1:20:43,  1.84it/s] 17%|█▋        | 1822/10711 [37:25<1:19:04,  1.87it/s] 17%|█▋        | 1823/10711 [37:25<1:19:37,  1.86it/s] 17%|█▋        | 1824/10711 [37:26<1:18:40,  1.88it/s] 17%|█▋        | 1825/10711 [37:26<1:18:08,  1.90it/s]                                                      {'loss': 3.9057, 'grad_norm': 0.23686087131500244, 'learning_rate': 0.0009850174826349246, 'epoch': 0.17}
 17%|█▋        | 1825/10711 [37:26<1:18:08,  1.90it/s] 17%|█▋        | 1826/10711 [37:27<1:17:27,  1.91it/s] 17%|█▋        | 1827/10711 [37:27<1:16:02,  1.95it/s] 17%|█▋        | 1828/10711 [37:28<1:15:52,  1.95it/s] 17%|█▋        | 1829/10711 [37:28<1:16:58,  1.92it/s] 17%|█▋        | 1830/10711 [37:29<1:17:30,  1.91it/s] 17%|█▋        | 1831/10711 [37:29<1:17:40,  1.91it/s] 17%|█▋        | 1832/10711 [37:30<1:18:18,  1.89it/s] 17%|█▋        | 1833/10711 [37:31<1:17:04,  1.92it/s] 17%|█▋        | 1834/10711 [37:31<1:15:44,  1.95it/s] 17%|█▋        | 1835/10711 [37:32<1:14:49,  1.98it/s] 17%|█▋        | 1836/10711 [37:32<1:17:40,  1.90it/s] 17%|█▋        | 1837/10711 [37:33<1:16:55,  1.92it/s] 17%|█▋        | 1838/10711 [37:33<1:16:29,  1.93it/s] 17%|█▋        | 1839/10711 [37:34<1:18:07,  1.89it/s] 17%|█▋        | 1840/10711 [37:34<1:16:53,  1.92it/s] 17%|█▋        | 1841/10711 [37:35<1:26:27,  1.71it/s] 17%|█▋        | 1842/10711 [37:36<1:52:12,  1.32it/s] 17%|█▋        | 1843/10711 [37:37<1:41:13,  1.46it/s] 17%|█▋        | 1844/10711 [37:37<1:32:41,  1.59it/s] 17%|█▋        | 1845/10711 [37:38<1:28:45,  1.66it/s] 17%|█▋        | 1846/10711 [37:38<1:24:23,  1.75it/s] 17%|█▋        | 1847/10711 [37:39<1:22:09,  1.80it/s] 17%|█▋        | 1848/10711 [37:39<1:22:52,  1.78it/s] 17%|█▋        | 1849/10711 [37:40<1:21:05,  1.82it/s] 17%|█▋        | 1850/10711 [37:40<1:20:32,  1.83it/s]{'loss': 3.8951, 'grad_norm': 0.23620003461837769, 'learning_rate': 0.0009840115364755232, 'epoch': 0.17}
                                                       17%|█▋        | 1850/10711 [37:40<1:20:32,  1.83it/s] 17%|█▋        | 1851/10711 [37:41<1:22:10,  1.80it/s] 17%|█▋        | 1852/10711 [37:42<1:27:07,  1.69it/s] 17%|█▋        | 1853/10711 [37:42<1:23:39,  1.76it/s] 17%|█▋        | 1854/10711 [37:43<1:20:18,  1.84it/s] 17%|█▋        | 1855/10711 [37:43<1:20:16,  1.84it/s] 17%|█▋        | 1856/10711 [37:44<1:20:00,  1.84it/s] 17%|█▋        | 1857/10711 [37:44<1:20:51,  1.82it/s] 17%|█▋        | 1858/10711 [37:45<1:20:23,  1.84it/s] 17%|█▋        | 1859/10711 [37:45<1:19:56,  1.85it/s] 17%|█▋        | 1860/10711 [37:46<1:17:54,  1.89it/s] 17%|█▋        | 1861/10711 [37:46<1:16:14,  1.93it/s] 17%|█▋        | 1862/10711 [37:47<1:15:04,  1.96it/s] 17%|█▋        | 1863/10711 [37:47<1:17:16,  1.91it/s] 17%|█▋        | 1864/10711 [37:48<1:17:23,  1.91it/s] 17%|█▋        | 1865/10711 [37:48<1:18:06,  1.89it/s] 17%|█▋        | 1866/10711 [37:49<1:19:21,  1.86it/s] 17%|█▋        | 1867/10711 [37:49<1:18:04,  1.89it/s] 17%|█▋        | 1868/10711 [37:50<1:17:56,  1.89it/s] 17%|█▋        | 1869/10711 [37:50<1:19:35,  1.85it/s] 17%|█▋        | 1870/10711 [37:51<1:23:25,  1.77it/s] 17%|█▋        | 1871/10711 [37:52<1:21:16,  1.81it/s] 17%|█▋        | 1872/10711 [37:52<1:19:35,  1.85it/s] 17%|█▋        | 1873/10711 [37:53<1:19:56,  1.84it/s] 17%|█▋        | 1874/10711 [37:53<1:17:50,  1.89it/s] 18%|█▊        | 1875/10711 [37:54<1:17:43,  1.89it/s]                                                      {'loss': 3.8921, 'grad_norm': 0.21446874737739563, 'learning_rate': 0.0009829734559962365, 'epoch': 0.18}
 18%|█▊        | 1875/10711 [37:54<1:17:43,  1.89it/s] 18%|█▊        | 1876/10711 [37:54<1:16:59,  1.91it/s] 18%|█▊        | 1877/10711 [37:55<1:18:18,  1.88it/s] 18%|█▊        | 1878/10711 [37:55<1:18:57,  1.86it/s] 18%|█▊        | 1879/10711 [37:56<1:20:07,  1.84it/s] 18%|█▊        | 1880/10711 [37:56<1:20:19,  1.83it/s] 18%|█▊        | 1881/10711 [37:57<1:18:06,  1.88it/s] 18%|█▊        | 1882/10711 [37:57<1:18:04,  1.88it/s] 18%|█▊        | 1883/10711 [37:58<1:16:27,  1.92it/s] 18%|█▊        | 1884/10711 [37:59<1:16:58,  1.91it/s] 18%|█▊        | 1885/10711 [37:59<1:16:26,  1.92it/s] 18%|█▊        | 1886/10711 [38:00<1:15:12,  1.96it/s] 18%|█▊        | 1887/10711 [38:00<1:18:02,  1.88it/s] 18%|█▊        | 1888/10711 [38:01<1:18:09,  1.88it/s] 18%|█▊        | 1889/10711 [38:01<1:22:15,  1.79it/s] 18%|█▊        | 1890/10711 [38:02<1:19:47,  1.84it/s] 18%|█▊        | 1891/10711 [38:02<1:17:44,  1.89it/s] 18%|█▊        | 1892/10711 [38:03<1:18:40,  1.87it/s] 18%|█▊        | 1893/10711 [38:03<1:17:57,  1.89it/s] 18%|█▊        | 1894/10711 [38:04<1:17:50,  1.89it/s] 18%|█▊        | 1895/10711 [38:04<1:17:33,  1.89it/s] 18%|█▊        | 1896/10711 [38:05<1:15:59,  1.93it/s] 18%|█▊        | 1897/10711 [38:05<1:19:17,  1.85it/s] 18%|█▊        | 1898/10711 [38:06<1:18:33,  1.87it/s] 18%|█▊        | 1899/10711 [38:07<1:18:32,  1.87it/s] 18%|█▊        | 1900/10711 [38:07<1:18:34,  1.87it/s]{'loss': 3.8885, 'grad_norm': 0.21979060769081116, 'learning_rate': 0.00098190331011693, 'epoch': 0.18}
                                                       18%|█▊        | 1900/10711 [38:07<1:18:34,  1.87it/s] 18%|█▊        | 1901/10711 [38:08<1:17:43,  1.89it/s] 18%|█▊        | 1902/10711 [38:08<1:16:03,  1.93it/s] 18%|█▊        | 1903/10711 [38:09<1:15:05,  1.96it/s] 18%|█▊        | 1904/10711 [38:09<1:15:05,  1.95it/s] 18%|█▊        | 1905/10711 [38:10<1:14:15,  1.98it/s] 18%|█▊        | 1906/10711 [38:10<1:14:52,  1.96it/s] 18%|█▊        | 1907/10711 [38:11<1:14:54,  1.96it/s] 18%|█▊        | 1908/10711 [38:11<1:18:21,  1.87it/s] 18%|█▊        | 1909/10711 [38:12<1:16:33,  1.92it/s] 18%|█▊        | 1910/10711 [38:12<1:16:41,  1.91it/s] 18%|█▊        | 1911/10711 [38:13<1:16:22,  1.92it/s] 18%|█▊        | 1912/10711 [38:13<1:15:03,  1.95it/s] 18%|█▊        | 1913/10711 [38:14<1:15:58,  1.93it/s] 18%|█▊        | 1914/10711 [38:14<1:14:47,  1.96it/s] 18%|█▊        | 1915/10711 [38:15<1:16:25,  1.92it/s] 18%|█▊        | 1916/10711 [38:15<1:16:01,  1.93it/s] 18%|█▊        | 1917/10711 [38:16<1:24:38,  1.73it/s] 18%|█▊        | 1918/10711 [38:17<1:24:33,  1.73it/s] 18%|█▊        | 1919/10711 [38:17<1:25:00,  1.72it/s] 18%|█▊        | 1920/10711 [38:18<1:26:46,  1.69it/s] 18%|█▊        | 1921/10711 [38:18<1:22:23,  1.78it/s] 18%|█▊        | 1922/10711 [38:19<1:21:14,  1.80it/s] 18%|█▊        | 1923/10711 [38:19<1:20:18,  1.82it/s] 18%|█▊        | 1924/10711 [38:20<1:20:04,  1.83it/s] 18%|█▊        | 1925/10711 [38:20<1:17:36,  1.89it/s]{'loss': 3.8822, 'grad_norm': 0.2170746773481369, 'learning_rate': 0.000980801169886345, 'epoch': 0.18}                                                      
 18%|█▊        | 1925/10711 [38:20<1:17:36,  1.89it/s] 18%|█▊        | 1926/10711 [38:21<1:18:25,  1.87it/s] 18%|█▊        | 1927/10711 [38:21<1:16:26,  1.92it/s] 18%|█▊        | 1928/10711 [38:22<1:17:48,  1.88it/s] 18%|█▊        | 1929/10711 [38:22<1:17:27,  1.89it/s] 18%|█▊        | 1930/10711 [38:23<1:17:47,  1.88it/s] 18%|█▊        | 1931/10711 [38:24<1:16:10,  1.92it/s] 18%|█▊        | 1932/10711 [38:24<1:17:43,  1.88it/s] 18%|█▊        | 1933/10711 [38:25<1:17:07,  1.90it/s] 18%|█▊        | 1934/10711 [38:25<1:18:09,  1.87it/s] 18%|█▊        | 1935/10711 [38:26<1:17:13,  1.89it/s] 18%|█▊        | 1936/10711 [38:26<1:18:17,  1.87it/s] 18%|█▊        | 1937/10711 [38:27<1:17:54,  1.88it/s] 18%|█▊        | 1938/10711 [38:27<1:16:05,  1.92it/s] 18%|█▊        | 1939/10711 [38:28<1:14:53,  1.95it/s] 18%|█▊        | 1940/10711 [38:28<1:15:14,  1.94it/s] 18%|█▊        | 1941/10711 [38:29<1:16:10,  1.92it/s] 18%|█▊        | 1942/10711 [38:29<1:14:49,  1.95it/s] 18%|█▊        | 1943/10711 [38:30<1:17:00,  1.90it/s] 18%|█▊        | 1944/10711 [38:30<1:16:08,  1.92it/s] 18%|█▊        | 1945/10711 [38:31<1:16:20,  1.91it/s] 18%|█▊        | 1946/10711 [38:31<1:15:03,  1.95it/s] 18%|█▊        | 1947/10711 [38:32<1:14:58,  1.95it/s] 18%|█▊        | 1948/10711 [38:32<1:14:42,  1.95it/s] 18%|█▊        | 1949/10711 [38:33<1:17:04,  1.89it/s] 18%|█▊        | 1950/10711 [38:33<1:16:52,  1.90it/s]{'loss': 3.8799, 'grad_norm': 0.21327681839466095, 'learning_rate': 0.0009796671084773784, 'epoch': 0.18}
                                                       18%|█▊        | 1950/10711 [38:33<1:16:52,  1.90it/s] 18%|█▊        | 1951/10711 [38:34<1:17:05,  1.89it/s] 18%|█▊        | 1952/10711 [38:35<1:17:05,  1.89it/s] 18%|█▊        | 1953/10711 [38:35<1:18:11,  1.87it/s] 18%|█▊        | 1954/10711 [38:36<1:19:56,  1.83it/s] 18%|█▊        | 1955/10711 [38:36<1:17:27,  1.88it/s] 18%|█▊        | 1956/10711 [38:37<1:15:45,  1.93it/s] 18%|█▊        | 1957/10711 [38:37<1:14:39,  1.95it/s] 18%|█▊        | 1958/10711 [38:38<1:13:52,  1.97it/s] 18%|█▊        | 1959/10711 [38:38<1:13:17,  1.99it/s] 18%|█▊        | 1960/10711 [38:39<1:12:50,  2.00it/s] 18%|█▊        | 1961/10711 [38:39<1:13:51,  1.97it/s] 18%|█▊        | 1962/10711 [38:40<1:23:41,  1.74it/s] 18%|█▊        | 1963/10711 [38:40<1:21:44,  1.78it/s] 18%|█▊        | 1964/10711 [38:41<1:22:57,  1.76it/s] 18%|█▊        | 1965/10711 [38:42<1:22:58,  1.76it/s] 18%|█▊        | 1966/10711 [38:42<1:19:29,  1.83it/s] 18%|█▊        | 1967/10711 [38:43<1:17:04,  1.89it/s] 18%|█▊        | 1968/10711 [38:43<1:16:58,  1.89it/s] 18%|█▊        | 1969/10711 [38:44<1:15:48,  1.92it/s] 18%|█▊        | 1970/10711 [38:44<1:14:41,  1.95it/s] 18%|█▊        | 1971/10711 [38:45<1:14:47,  1.95it/s] 18%|█▊        | 1972/10711 [38:45<1:15:56,  1.92it/s] 18%|█▊        | 1973/10711 [38:46<1:19:49,  1.82it/s] 18%|█▊        | 1974/10711 [38:46<1:21:33,  1.79it/s] 18%|█▊        | 1975/10711 [38:47<1:18:37,  1.85it/s]{'loss': 3.8704, 'grad_norm': 0.2209082394838333, 'learning_rate': 0.0009785012011822279, 'epoch': 0.18}                                                      
 18%|█▊        | 1975/10711 [38:47<1:18:37,  1.85it/s] 18%|█▊        | 1976/10711 [38:47<1:16:41,  1.90it/s] 18%|█▊        | 1977/10711 [38:48<1:17:11,  1.89it/s] 18%|█▊        | 1978/10711 [38:48<1:15:28,  1.93it/s] 18%|█▊        | 1979/10711 [38:49<1:15:15,  1.93it/s] 18%|█▊        | 1980/10711 [38:49<1:15:07,  1.94it/s] 18%|█▊        | 1981/10711 [38:50<1:14:56,  1.94it/s] 19%|█▊        | 1982/10711 [38:50<1:16:10,  1.91it/s] 19%|█▊        | 1983/10711 [38:51<1:15:51,  1.92it/s] 19%|█▊        | 1984/10711 [38:51<1:14:31,  1.95it/s] 19%|█▊        | 1985/10711 [38:52<1:13:44,  1.97it/s] 19%|█▊        | 1986/10711 [38:52<1:13:13,  1.99it/s] 19%|█▊        | 1987/10711 [38:54<1:42:03,  1.42it/s] 19%|█▊        | 1988/10711 [38:54<1:33:03,  1.56it/s] 19%|█▊        | 1989/10711 [38:55<1:26:45,  1.68it/s] 19%|█▊        | 1990/10711 [38:55<1:22:16,  1.77it/s] 19%|█▊        | 1991/10711 [38:56<1:19:56,  1.82it/s] 19%|█▊        | 1992/10711 [38:56<1:18:27,  1.85it/s] 19%|█▊        | 1993/10711 [38:57<1:17:07,  1.88it/s] 19%|█▊        | 1994/10711 [38:57<1:18:14,  1.86it/s] 19%|█▊        | 1995/10711 [38:58<1:26:38,  1.68it/s] 19%|█▊        | 1996/10711 [38:58<1:23:43,  1.73it/s] 19%|█▊        | 1997/10711 [38:59<1:20:54,  1.79it/s] 19%|█▊        | 1998/10711 [38:59<1:18:06,  1.86it/s] 19%|█▊        | 1999/10711 [39:00<1:16:07,  1.91it/s] 19%|█▊        | 2000/10711 [39:00<1:16:46,  1.89it/s]{'loss': 3.871, 'grad_norm': 0.21432934701442719, 'learning_rate': 0.000977303525407391, 'epoch': 0.19}
                                                       19%|█▊        | 2000/10711 [39:00<1:16:46,  1.89it/s] 19%|█▊        | 2001/10711 [39:01<1:16:23,  1.90it/s] 19%|█▊        | 2002/10711 [39:02<1:16:50,  1.89it/s] 19%|█▊        | 2003/10711 [39:02<1:16:12,  1.90it/s] 19%|█▊        | 2004/10711 [39:03<1:16:01,  1.91it/s] 19%|█▊        | 2005/10711 [39:03<1:14:41,  1.94it/s] 19%|█▊        | 2006/10711 [39:04<1:14:41,  1.94it/s] 19%|█▊        | 2007/10711 [39:04<1:15:48,  1.91it/s] 19%|█▊        | 2008/10711 [39:05<1:14:33,  1.95it/s] 19%|█▉        | 2009/10711 [39:05<1:14:54,  1.94it/s] 19%|█▉        | 2010/10711 [39:06<1:16:06,  1.91it/s] 19%|█▉        | 2011/10711 [39:06<1:14:37,  1.94it/s] 19%|█▉        | 2012/10711 [39:07<1:13:34,  1.97it/s] 19%|█▉        | 2013/10711 [39:08<1:32:45,  1.56it/s] 19%|█▉        | 2014/10711 [39:08<1:27:20,  1.66it/s] 19%|█▉        | 2015/10711 [39:09<1:24:28,  1.72it/s] 19%|█▉        | 2016/10711 [39:09<1:20:36,  1.80it/s] 19%|█▉        | 2017/10711 [39:10<1:19:25,  1.82it/s] 19%|█▉        | 2018/10711 [39:10<1:17:04,  1.88it/s] 19%|█▉        | 2019/10711 [39:11<1:16:14,  1.90it/s] 19%|█▉        | 2020/10711 [39:11<1:24:53,  1.71it/s] 19%|█▉        | 2021/10711 [39:12<1:20:52,  1.79it/s] 19%|█▉        | 2022/10711 [39:12<1:18:54,  1.84it/s] 19%|█▉        | 2023/10711 [39:13<1:16:36,  1.89it/s] 19%|█▉        | 2024/10711 [39:13<1:18:12,  1.85it/s] 19%|█▉        | 2025/10711 [39:14<1:27:53,  1.65it/s]{'loss': 3.8564, 'grad_norm': 0.23337028920650482, 'learning_rate': 0.000976074160668528, 'epoch': 0.19}                                                      
 19%|█▉        | 2025/10711 [39:14<1:27:53,  1.65it/s] 19%|█▉        | 2026/10711 [39:15<1:23:48,  1.73it/s] 19%|█▉        | 2027/10711 [39:15<1:20:51,  1.79it/s] 19%|█▉        | 2028/10711 [39:16<1:20:53,  1.79it/s] 19%|█▉        | 2029/10711 [39:16<1:19:14,  1.83it/s] 19%|█▉        | 2030/10711 [39:17<1:19:16,  1.82it/s] 19%|█▉        | 2031/10711 [39:17<1:17:35,  1.86it/s] 19%|█▉        | 2032/10711 [39:18<1:16:24,  1.89it/s] 19%|█▉        | 2033/10711 [39:18<1:15:49,  1.91it/s] 19%|█▉        | 2034/10711 [39:19<1:14:36,  1.94it/s] 19%|█▉        | 2035/10711 [39:19<1:14:28,  1.94it/s] 19%|█▉        | 2036/10711 [39:20<1:14:58,  1.93it/s] 19%|█▉        | 2037/10711 [39:20<1:14:34,  1.94it/s] 19%|█▉        | 2038/10711 [39:21<1:15:14,  1.92it/s] 19%|█▉        | 2039/10711 [39:22<1:16:19,  1.89it/s] 19%|█▉        | 2040/10711 [39:22<1:15:07,  1.92it/s] 19%|█▉        | 2041/10711 [39:23<1:16:28,  1.89it/s] 19%|█▉        | 2042/10711 [39:23<1:16:48,  1.88it/s] 19%|█▉        | 2043/10711 [39:24<1:25:42,  1.69it/s] 19%|█▉        | 2044/10711 [39:24<1:21:47,  1.77it/s] 19%|█▉        | 2045/10711 [39:25<1:19:31,  1.82it/s] 19%|█▉        | 2046/10711 [39:25<1:18:13,  1.85it/s] 19%|█▉        | 2047/10711 [39:26<1:17:00,  1.88it/s] 19%|█▉        | 2048/10711 [39:26<1:18:14,  1.85it/s] 19%|█▉        | 2049/10711 [39:27<1:16:53,  1.88it/s] 19%|█▉        | 2050/10711 [39:28<1:16:42,  1.88it/s]                                                      {'loss': 3.8564, 'grad_norm': 0.21246689558029175, 'learning_rate': 0.0009748131885851799, 'epoch': 0.19}
 19%|█▉        | 2050/10711 [39:28<1:16:42,  1.88it/s] 19%|█▉        | 2051/10711 [39:28<1:17:43,  1.86it/s] 19%|█▉        | 2052/10711 [39:29<1:18:41,  1.83it/s] 19%|█▉        | 2053/10711 [39:29<1:18:04,  1.85it/s] 19%|█▉        | 2054/10711 [39:30<1:18:07,  1.85it/s] 19%|█▉        | 2055/10711 [39:30<1:17:28,  1.86it/s] 19%|█▉        | 2056/10711 [39:31<1:16:47,  1.88it/s] 19%|█▉        | 2057/10711 [39:31<1:14:59,  1.92it/s] 19%|█▉        | 2058/10711 [39:32<1:13:47,  1.95it/s] 19%|█▉        | 2059/10711 [39:32<1:12:54,  1.98it/s] 19%|█▉        | 2060/10711 [39:33<1:12:15,  2.00it/s] 19%|█▉        | 2061/10711 [39:33<1:12:35,  1.99it/s] 19%|█▉        | 2062/10711 [39:34<1:19:03,  1.82it/s] 19%|█▉        | 2063/10711 [39:35<1:30:47,  1.59it/s] 19%|█▉        | 2064/10711 [39:35<1:26:43,  1.66it/s] 19%|█▉        | 2065/10711 [39:36<1:23:35,  1.72it/s] 19%|█▉        | 2066/10711 [39:36<1:21:45,  1.76it/s] 19%|█▉        | 2067/10711 [39:37<1:19:08,  1.82it/s] 19%|█▉        | 2068/10711 [39:37<1:19:54,  1.80it/s] 19%|█▉        | 2069/10711 [39:38<1:24:16,  1.71it/s] 19%|█▉        | 2070/10711 [39:39<1:23:54,  1.72it/s] 19%|█▉        | 2071/10711 [39:39<1:23:56,  1.72it/s] 19%|█▉        | 2072/10711 [39:40<1:20:42,  1.78it/s] 19%|█▉        | 2073/10711 [39:40<1:19:00,  1.82it/s] 19%|█▉        | 2074/10711 [39:41<1:19:11,  1.82it/s] 19%|█▉        | 2075/10711 [39:41<1:17:12,  1.86it/s]                                                      {'loss': 3.843, 'grad_norm': 0.22631947696208954, 'learning_rate': 0.0009735206928753517, 'epoch': 0.19}
 19%|█▉        | 2075/10711 [39:41<1:17:12,  1.86it/s] 19%|█▉        | 2076/10711 [39:42<1:16:18,  1.89it/s] 19%|█▉        | 2077/10711 [39:42<1:15:16,  1.91it/s] 19%|█▉        | 2078/10711 [39:43<1:14:00,  1.94it/s] 19%|█▉        | 2079/10711 [39:43<1:14:46,  1.92it/s] 19%|█▉        | 2080/10711 [39:44<1:15:39,  1.90it/s] 19%|█▉        | 2081/10711 [39:44<1:16:49,  1.87it/s] 19%|█▉        | 2082/10711 [39:45<1:15:33,  1.90it/s] 19%|█▉        | 2083/10711 [39:45<1:14:54,  1.92it/s] 19%|█▉        | 2084/10711 [39:46<1:29:17,  1.61it/s] 19%|█▉        | 2085/10711 [39:47<1:29:06,  1.61it/s] 19%|█▉        | 2086/10711 [39:48<1:30:09,  1.59it/s] 19%|█▉        | 2087/10711 [39:48<1:24:22,  1.70it/s] 19%|█▉        | 2088/10711 [39:49<1:20:51,  1.78it/s] 20%|█▉        | 2089/10711 [39:49<1:18:43,  1.83it/s] 20%|█▉        | 2090/10711 [39:50<1:17:26,  1.86it/s] 20%|█▉        | 2091/10711 [39:50<1:19:47,  1.80it/s] 20%|█▉        | 2092/10711 [39:51<1:27:45,  1.64it/s] 20%|█▉        | 2093/10711 [39:51<1:25:10,  1.69it/s] 20%|█▉        | 2094/10711 [39:52<1:27:36,  1.64it/s] 20%|█▉        | 2095/10711 [39:53<1:22:55,  1.73it/s] 20%|█▉        | 2096/10711 [39:53<1:22:27,  1.74it/s] 20%|█▉        | 2097/10711 [39:54<1:28:01,  1.63it/s] 20%|█▉        | 2098/10711 [39:54<1:25:18,  1.68it/s] 20%|█▉        | 2099/10711 [39:55<1:24:24,  1.70it/s] 20%|█▉        | 2100/10711 [39:56<1:21:41,  1.76it/s]{'loss': 3.8475, 'grad_norm': 0.22981221973896027, 'learning_rate': 0.0009721967593499543, 'epoch': 0.2}
                                                       20%|█▉        | 2100/10711 [39:56<1:21:41,  1.76it/s] 20%|█▉        | 2101/10711 [39:56<1:19:01,  1.82it/s] 20%|█▉        | 2102/10711 [39:57<1:19:04,  1.81it/s] 20%|█▉        | 2103/10711 [39:57<1:17:35,  1.85it/s] 20%|█▉        | 2104/10711 [39:58<1:24:19,  1.70it/s] 20%|█▉        | 2105/10711 [39:58<1:21:38,  1.76it/s] 20%|█▉        | 2106/10711 [39:59<1:19:19,  1.81it/s] 20%|█▉        | 2107/10711 [39:59<1:16:47,  1.87it/s] 20%|█▉        | 2108/10711 [40:00<1:16:26,  1.88it/s] 20%|█▉        | 2109/10711 [40:00<1:19:00,  1.81it/s] 20%|█▉        | 2110/10711 [40:01<1:18:19,  1.83it/s] 20%|█▉        | 2111/10711 [40:02<1:16:37,  1.87it/s] 20%|█▉        | 2112/10711 [40:02<1:17:09,  1.86it/s] 20%|█▉        | 2113/10711 [40:03<1:16:36,  1.87it/s] 20%|█▉        | 2114/10711 [40:03<1:19:19,  1.81it/s] 20%|█▉        | 2115/10711 [40:04<1:19:18,  1.81it/s] 20%|█▉        | 2116/10711 [40:04<1:19:28,  1.80it/s] 20%|█▉        | 2117/10711 [40:05<1:20:45,  1.77it/s] 20%|█▉        | 2118/10711 [40:05<1:17:49,  1.84it/s] 20%|█▉        | 2119/10711 [40:06<1:16:01,  1.88it/s] 20%|█▉        | 2120/10711 [40:06<1:15:44,  1.89it/s] 20%|█▉        | 2121/10711 [40:07<1:16:51,  1.86it/s] 20%|█▉        | 2122/10711 [40:07<1:14:52,  1.91it/s] 20%|█▉        | 2123/10711 [40:08<1:20:29,  1.78it/s] 20%|█▉        | 2124/10711 [40:09<1:18:17,  1.83it/s] 20%|█▉        | 2125/10711 [40:09<1:16:41,  1.87it/s]{'loss': 3.8364, 'grad_norm': 0.21121448278427124, 'learning_rate': 0.0009708414759071058, 'epoch': 0.2}
                                                       20%|█▉        | 2125/10711 [40:09<1:16:41,  1.87it/s] 20%|█▉        | 2126/10711 [40:10<1:16:12,  1.88it/s] 20%|█▉        | 2127/10711 [40:10<1:15:56,  1.88it/s] 20%|█▉        | 2128/10711 [40:11<1:15:54,  1.88it/s] 20%|█▉        | 2129/10711 [40:11<1:18:54,  1.81it/s] 20%|█▉        | 2130/10711 [40:12<1:19:33,  1.80it/s] 20%|█▉        | 2131/10711 [40:12<1:16:46,  1.86it/s] 20%|█▉        | 2132/10711 [40:13<1:25:11,  1.68it/s] 20%|█▉        | 2133/10711 [40:14<1:20:39,  1.77it/s] 20%|█▉        | 2134/10711 [40:14<1:18:31,  1.82it/s] 20%|█▉        | 2135/10711 [40:15<1:15:59,  1.88it/s] 20%|█▉        | 2136/10711 [40:16<2:02:06,  1.17it/s] 20%|█▉        | 2137/10711 [40:17<1:46:29,  1.34it/s] 20%|█▉        | 2138/10711 [40:17<1:45:51,  1.35it/s] 20%|█▉        | 2139/10711 [40:18<1:36:15,  1.48it/s] 20%|█▉        | 2140/10711 [40:19<1:35:52,  1.49it/s] 20%|█▉        | 2141/10711 [40:20<2:02:17,  1.17it/s] 20%|█▉        | 2142/10711 [40:21<1:59:05,  1.20it/s] 20%|██        | 2143/10711 [40:21<1:49:43,  1.30it/s] 20%|██        | 2144/10711 [40:22<1:41:04,  1.41it/s] 20%|██        | 2145/10711 [40:22<1:31:46,  1.56it/s] 20%|██        | 2146/10711 [40:24<2:15:49,  1.05it/s] 20%|██        | 2147/10711 [40:25<1:58:53,  1.20it/s] 20%|██        | 2148/10711 [40:25<1:59:40,  1.19it/s] 20%|██        | 2149/10711 [40:26<1:56:55,  1.22it/s] 20%|██        | 2150/10711 [40:27<1:59:18,  1.20it/s]                                                      {'loss': 3.8341, 'grad_norm': 0.21210263669490814, 'learning_rate': 0.0009694549325262973, 'epoch': 0.2}
 20%|██        | 2150/10711 [40:27<1:59:18,  1.20it/s] 20%|██        | 2151/10711 [40:28<1:45:04,  1.36it/s] 20%|██        | 2152/10711 [40:28<1:34:30,  1.51it/s] 20%|██        | 2153/10711 [40:29<1:58:06,  1.21it/s] 20%|██        | 2154/10711 [40:30<1:43:45,  1.37it/s] 20%|██        | 2155/10711 [40:30<1:42:00,  1.40it/s] 20%|██        | 2156/10711 [40:31<1:44:35,  1.36it/s] 20%|██        | 2157/10711 [40:32<1:50:17,  1.29it/s] 20%|██        | 2158/10711 [40:33<2:08:20,  1.11it/s] 20%|██        | 2159/10711 [40:34<2:17:43,  1.03it/s] 20%|██        | 2160/10711 [40:35<2:08:34,  1.11it/s] 20%|██        | 2161/10711 [40:36<1:54:28,  1.24it/s] 20%|██        | 2162/10711 [40:37<2:12:01,  1.08it/s] 20%|██        | 2163/10711 [40:37<1:53:25,  1.26it/s] 20%|██        | 2164/10711 [40:39<2:13:30,  1.07it/s] 20%|██        | 2165/10711 [40:40<2:09:22,  1.10it/s] 20%|██        | 2166/10711 [40:40<1:51:36,  1.28it/s] 20%|██        | 2167/10711 [40:41<1:59:15,  1.19it/s] 20%|██        | 2168/10711 [40:42<1:48:19,  1.31it/s] 20%|██        | 2169/10711 [40:42<1:37:45,  1.46it/s] 20%|██        | 2170/10711 [40:43<1:38:36,  1.44it/s] 20%|██        | 2171/10711 [40:44<1:43:36,  1.37it/s] 20%|██        | 2172/10711 [40:44<1:33:24,  1.52it/s] 20%|██        | 2173/10711 [40:45<1:27:10,  1.63it/s] 20%|██        | 2174/10711 [40:46<1:44:41,  1.36it/s] 20%|██        | 2175/10711 [40:46<1:43:04,  1.38it/s]{'loss': 3.823, 'grad_norm': 0.23549999296665192, 'learning_rate': 0.0009680372212624187, 'epoch': 0.2}                                                      
 20%|██        | 2175/10711 [40:46<1:43:04,  1.38it/s] 20%|██        | 2176/10711 [40:47<1:33:10,  1.53it/s] 20%|██        | 2177/10711 [40:48<1:35:04,  1.50it/s] 20%|██        | 2178/10711 [40:48<1:42:11,  1.39it/s] 20%|██        | 2179/10711 [40:49<1:32:32,  1.54it/s] 20%|██        | 2180/10711 [40:50<1:31:53,  1.55it/s] 20%|██        | 2181/10711 [40:50<1:33:35,  1.52it/s] 20%|██        | 2182/10711 [40:51<1:33:11,  1.53it/s] 20%|██        | 2183/10711 [40:52<1:51:28,  1.27it/s] 20%|██        | 2184/10711 [40:52<1:39:01,  1.44it/s] 20%|██        | 2185/10711 [40:53<1:30:17,  1.57it/s] 20%|██        | 2186/10711 [40:53<1:27:56,  1.62it/s] 20%|██        | 2187/10711 [40:54<1:37:14,  1.46it/s] 20%|██        | 2188/10711 [40:55<1:38:51,  1.44it/s] 20%|██        | 2189/10711 [40:56<1:32:46,  1.53it/s] 20%|██        | 2190/10711 [40:56<1:37:56,  1.45it/s] 20%|██        | 2191/10711 [40:57<1:32:12,  1.54it/s] 20%|██        | 2192/10711 [40:58<1:48:34,  1.31it/s] 20%|██        | 2193/10711 [40:59<2:07:34,  1.11it/s] 20%|██        | 2194/10711 [41:00<1:51:18,  1.28it/s] 20%|██        | 2195/10711 [41:00<1:50:08,  1.29it/s] 21%|██        | 2196/10711 [41:01<1:49:49,  1.29it/s] 21%|██        | 2197/10711 [41:02<1:37:49,  1.45it/s] 21%|██        | 2198/10711 [41:03<1:48:31,  1.31it/s] 21%|██        | 2199/10711 [41:03<1:46:05,  1.34it/s] 21%|██        | 2200/10711 [41:04<1:35:12,  1.49it/s]{'loss': 3.8175, 'grad_norm': 0.21325606107711792, 'learning_rate': 0.000966588436239646, 'epoch': 0.21}                                                      
 21%|██        | 2200/10711 [41:04<1:35:12,  1.49it/s] 21%|██        | 2201/10711 [41:05<1:38:17,  1.44it/s] 21%|██        | 2202/10711 [41:05<1:34:07,  1.51it/s] 21%|██        | 2203/10711 [41:06<1:37:44,  1.45it/s] 21%|██        | 2204/10711 [41:06<1:30:04,  1.57it/s] 21%|██        | 2205/10711 [41:07<1:25:23,  1.66it/s] 21%|██        | 2206/10711 [41:07<1:21:11,  1.75it/s] 21%|██        | 2207/10711 [41:08<1:19:39,  1.78it/s] 21%|██        | 2208/10711 [41:09<1:18:56,  1.80it/s] 21%|██        | 2209/10711 [41:09<1:16:09,  1.86it/s] 21%|██        | 2210/10711 [41:10<1:15:46,  1.87it/s] 21%|██        | 2211/10711 [41:10<1:16:59,  1.84it/s] 21%|██        | 2212/10711 [41:11<1:16:37,  1.85it/s] 21%|██        | 2213/10711 [41:11<1:15:45,  1.87it/s] 21%|██        | 2214/10711 [41:12<1:15:04,  1.89it/s] 21%|██        | 2215/10711 [41:12<1:15:37,  1.87it/s] 21%|██        | 2216/10711 [41:13<1:13:46,  1.92it/s] 21%|██        | 2217/10711 [41:13<1:13:43,  1.92it/s] 21%|██        | 2218/10711 [41:14<1:14:01,  1.91it/s] 21%|██        | 2219/10711 [41:14<1:13:20,  1.93it/s] 21%|██        | 2220/10711 [41:15<1:12:26,  1.95it/s] 21%|██        | 2221/10711 [41:15<1:14:16,  1.91it/s] 21%|██        | 2222/10711 [41:16<1:16:35,  1.85it/s] 21%|██        | 2223/10711 [41:17<1:20:13,  1.76it/s] 21%|██        | 2224/10711 [41:17<1:17:30,  1.82it/s] 21%|██        | 2225/10711 [41:18<1:16:43,  1.84it/s]                                                      {'loss': 3.8123, 'grad_norm': 0.2108137011528015, 'learning_rate': 0.0009651086736451937, 'epoch': 0.21}
 21%|██        | 2225/10711 [41:18<1:16:43,  1.84it/s] 21%|██        | 2226/10711 [41:18<1:17:39,  1.82it/s] 21%|██        | 2227/10711 [41:19<1:17:33,  1.82it/s] 21%|██        | 2228/10711 [41:19<1:16:15,  1.85it/s] 21%|██        | 2229/10711 [41:20<1:15:43,  1.87it/s] 21%|██        | 2230/10711 [41:20<1:14:30,  1.90it/s] 21%|██        | 2231/10711 [41:21<1:33:34,  1.51it/s] 21%|██        | 2232/10711 [41:22<1:31:44,  1.54it/s] 21%|██        | 2233/10711 [41:22<1:27:37,  1.61it/s] 21%|██        | 2234/10711 [41:23<1:23:40,  1.69it/s] 21%|██        | 2235/10711 [41:23<1:20:25,  1.76it/s] 21%|██        | 2236/10711 [41:24<1:18:37,  1.80it/s] 21%|██        | 2237/10711 [41:25<1:16:45,  1.84it/s] 21%|██        | 2238/10711 [41:25<1:15:04,  1.88it/s] 21%|██        | 2239/10711 [41:26<1:14:00,  1.91it/s] 21%|██        | 2240/10711 [41:26<1:15:20,  1.87it/s] 21%|██        | 2241/10711 [41:27<1:14:25,  1.90it/s] 21%|██        | 2242/10711 [41:27<1:13:41,  1.92it/s] 21%|██        | 2243/10711 [41:28<1:13:02,  1.93it/s] 21%|██        | 2244/10711 [41:28<1:13:53,  1.91it/s] 21%|██        | 2245/10711 [41:29<1:12:35,  1.94it/s] 21%|██        | 2246/10711 [41:29<1:13:24,  1.92it/s] 21%|██        | 2247/10711 [41:30<1:14:08,  1.90it/s] 21%|██        | 2248/10711 [41:30<1:13:04,  1.93it/s] 21%|██        | 2249/10711 [41:31<1:12:02,  1.96it/s] 21%|██        | 2250/10711 [41:31<1:13:26,  1.92it/s]                                                      {'loss': 3.8041, 'grad_norm': 0.20597544312477112, 'learning_rate': 0.0009635980317229278, 'epoch': 0.21}
 21%|██        | 2250/10711 [41:31<1:13:26,  1.92it/s] 21%|██        | 2251/10711 [41:32<1:12:20,  1.95it/s] 21%|██        | 2252/10711 [41:32<1:12:10,  1.95it/s] 21%|██        | 2253/10711 [41:33<1:11:52,  1.96it/s] 21%|██        | 2254/10711 [41:33<1:18:48,  1.79it/s] 21%|██        | 2255/10711 [41:34<1:17:50,  1.81it/s] 21%|██        | 2256/10711 [41:34<1:16:36,  1.84it/s] 21%|██        | 2257/10711 [41:35<1:15:07,  1.88it/s] 21%|██        | 2258/10711 [41:36<1:16:55,  1.83it/s] 21%|██        | 2259/10711 [41:36<1:16:09,  1.85it/s] 21%|██        | 2260/10711 [41:37<1:14:09,  1.90it/s] 21%|██        | 2261/10711 [41:37<1:13:03,  1.93it/s] 21%|██        | 2262/10711 [41:38<1:11:55,  1.96it/s] 21%|██        | 2263/10711 [41:38<1:12:16,  1.95it/s] 21%|██        | 2264/10711 [41:39<1:11:38,  1.97it/s] 21%|██        | 2265/10711 [41:39<1:13:05,  1.93it/s] 21%|██        | 2266/10711 [41:40<1:12:40,  1.94it/s] 21%|██        | 2267/10711 [41:40<1:12:37,  1.94it/s] 21%|██        | 2268/10711 [41:41<1:12:33,  1.94it/s] 21%|██        | 2269/10711 [41:41<1:12:12,  1.95it/s] 21%|██        | 2270/10711 [41:42<1:12:38,  1.94it/s] 21%|██        | 2271/10711 [41:42<1:12:36,  1.94it/s] 21%|██        | 2272/10711 [41:43<1:12:17,  1.95it/s] 21%|██        | 2273/10711 [41:43<1:11:28,  1.97it/s] 21%|██        | 2274/10711 [41:44<1:11:30,  1.97it/s] 21%|██        | 2275/10711 [41:44<1:11:09,  1.98it/s]{'loss': 3.7967, 'grad_norm': 0.21583154797554016, 'learning_rate': 0.0009620566107668434, 'epoch': 0.21}
                                                       21%|██        | 2275/10711 [41:44<1:11:09,  1.98it/s] 21%|██        | 2276/10711 [41:45<1:12:32,  1.94it/s] 21%|██▏       | 2277/10711 [41:45<1:11:33,  1.96it/s] 21%|██▏       | 2278/10711 [41:46<1:10:51,  1.98it/s] 21%|██▏       | 2279/10711 [41:46<1:11:25,  1.97it/s] 21%|██▏       | 2280/10711 [41:47<1:11:10,  1.97it/s] 21%|██▏       | 2281/10711 [41:47<1:10:34,  1.99it/s] 21%|██▏       | 2282/10711 [41:48<1:10:15,  2.00it/s] 21%|██▏       | 2283/10711 [41:49<1:23:07,  1.69it/s] 21%|██▏       | 2284/10711 [41:49<1:19:37,  1.76it/s] 21%|██▏       | 2285/10711 [41:50<1:17:19,  1.82it/s] 21%|██▏       | 2286/10711 [41:50<1:15:23,  1.86it/s] 21%|██▏       | 2287/10711 [41:51<1:13:33,  1.91it/s] 21%|██▏       | 2288/10711 [41:51<1:27:04,  1.61it/s] 21%|██▏       | 2289/10711 [41:52<1:22:28,  1.70it/s] 21%|██▏       | 2290/10711 [41:52<1:18:26,  1.79it/s] 21%|██▏       | 2291/10711 [41:53<1:21:15,  1.73it/s] 21%|██▏       | 2292/10711 [41:54<1:18:28,  1.79it/s] 21%|██▏       | 2293/10711 [41:54<1:17:17,  1.82it/s] 21%|██▏       | 2294/10711 [41:55<1:15:58,  1.85it/s] 21%|██▏       | 2295/10711 [41:55<1:14:56,  1.87it/s] 21%|██▏       | 2296/10711 [41:56<1:17:01,  1.82it/s] 21%|██▏       | 2297/10711 [41:56<1:15:25,  1.86it/s] 21%|██▏       | 2298/10711 [41:57<1:13:34,  1.91it/s] 21%|██▏       | 2299/10711 [41:57<1:12:08,  1.94it/s] 21%|██▏       | 2300/10711 [41:58<1:11:19,  1.97it/s]{'loss': 3.808, 'grad_norm': 0.20678940415382385, 'learning_rate': 0.0009604845131144068, 'epoch': 0.21}                                                      
 21%|██▏       | 2300/10711 [41:58<1:11:19,  1.97it/s] 21%|██▏       | 2301/10711 [41:58<1:11:19,  1.97it/s] 21%|██▏       | 2302/10711 [41:59<1:10:41,  1.98it/s] 22%|██▏       | 2303/10711 [41:59<1:10:12,  2.00it/s] 22%|██▏       | 2304/10711 [42:00<1:09:44,  2.01it/s] 22%|██▏       | 2305/10711 [42:00<1:12:22,  1.94it/s] 22%|██▏       | 2306/10711 [42:01<1:11:19,  1.96it/s] 22%|██▏       | 2307/10711 [42:01<1:11:15,  1.97it/s] 22%|██▏       | 2308/10711 [42:02<1:12:53,  1.92it/s] 22%|██▏       | 2309/10711 [42:02<1:12:26,  1.93it/s] 22%|██▏       | 2310/10711 [42:03<1:12:20,  1.94it/s] 22%|██▏       | 2311/10711 [42:03<1:11:16,  1.96it/s] 22%|██▏       | 2312/10711 [42:04<1:16:35,  1.83it/s] 22%|██▏       | 2313/10711 [42:05<1:51:47,  1.25it/s] 22%|██▏       | 2314/10711 [42:06<1:44:55,  1.33it/s] 22%|██▏       | 2315/10711 [42:06<1:34:02,  1.49it/s] 22%|██▏       | 2316/10711 [42:08<2:04:19,  1.13it/s] 22%|██▏       | 2317/10711 [42:09<2:06:27,  1.11it/s] 22%|██▏       | 2318/10711 [42:10<1:59:18,  1.17it/s] 22%|██▏       | 2319/10711 [42:10<1:44:07,  1.34it/s] 22%|██▏       | 2320/10711 [42:11<2:10:16,  1.07it/s] 22%|██▏       | 2321/10711 [42:12<1:51:59,  1.25it/s] 22%|██▏       | 2322/10711 [42:13<1:45:24,  1.33it/s] 22%|██▏       | 2323/10711 [42:13<1:40:52,  1.39it/s] 22%|██▏       | 2324/10711 [42:14<1:31:11,  1.53it/s] 22%|██▏       | 2325/10711 [42:14<1:26:09,  1.62it/s]{'loss': 3.8097, 'grad_norm': 0.20299267768859863, 'learning_rate': 0.0009588818431397597, 'epoch': 0.22}
                                                       22%|██▏       | 2325/10711 [42:14<1:26:09,  1.62it/s] 22%|██▏       | 2326/10711 [42:15<1:21:46,  1.71it/s] 22%|██▏       | 2327/10711 [42:15<1:18:53,  1.77it/s] 22%|██▏       | 2328/10711 [42:16<1:15:49,  1.84it/s] 22%|██▏       | 2329/10711 [42:16<1:13:41,  1.90it/s] 22%|██▏       | 2330/10711 [42:17<1:13:19,  1.90it/s] 22%|██▏       | 2331/10711 [42:17<1:11:58,  1.94it/s] 22%|██▏       | 2332/10711 [42:18<1:11:03,  1.97it/s] 22%|██▏       | 2333/10711 [42:18<1:11:44,  1.95it/s] 22%|██▏       | 2334/10711 [42:19<1:13:49,  1.89it/s] 22%|██▏       | 2335/10711 [42:19<1:13:29,  1.90it/s] 22%|██▏       | 2336/10711 [42:20<1:13:19,  1.90it/s] 22%|██▏       | 2337/10711 [42:20<1:12:36,  1.92it/s] 22%|██▏       | 2338/10711 [42:21<1:12:03,  1.94it/s] 22%|██▏       | 2339/10711 [42:21<1:13:31,  1.90it/s] 22%|██▏       | 2340/10711 [42:22<1:12:24,  1.93it/s] 22%|██▏       | 2341/10711 [42:22<1:13:29,  1.90it/s] 22%|██▏       | 2342/10711 [42:23<1:12:04,  1.94it/s] 22%|██▏       | 2343/10711 [42:23<1:10:59,  1.96it/s] 22%|██▏       | 2344/10711 [42:24<1:10:13,  1.99it/s] 22%|██▏       | 2345/10711 [42:24<1:10:10,  1.99it/s] 22%|██▏       | 2346/10711 [42:25<1:10:41,  1.97it/s] 22%|██▏       | 2347/10711 [42:26<1:14:11,  1.88it/s] 22%|██▏       | 2348/10711 [42:27<1:32:16,  1.51it/s] 22%|██▏       | 2349/10711 [42:27<1:26:33,  1.61it/s] 22%|██▏       | 2350/10711 [42:28<1:21:42,  1.71it/s]                                                      {'loss': 3.7977, 'grad_norm': 0.20896321535110474, 'learning_rate': 0.0009572487072467908, 'epoch': 0.22}
 22%|██▏       | 2350/10711 [42:28<1:21:42,  1.71it/s] 22%|██▏       | 2351/10711 [42:28<1:18:40,  1.77it/s] 22%|██▏       | 2352/10711 [42:29<1:16:55,  1.81it/s] 22%|██▏       | 2353/10711 [42:29<1:15:32,  1.84it/s] 22%|██▏       | 2354/10711 [42:30<1:13:20,  1.90it/s] 22%|██▏       | 2355/10711 [42:30<1:12:45,  1.91it/s] 22%|██▏       | 2356/10711 [42:31<1:11:30,  1.95it/s] 22%|██▏       | 2357/10711 [42:31<1:15:21,  1.85it/s] 22%|██▏       | 2358/10711 [42:32<1:14:08,  1.88it/s] 22%|██▏       | 2359/10711 [42:32<1:12:27,  1.92it/s] 22%|██▏       | 2360/10711 [42:33<1:11:12,  1.95it/s] 22%|██▏       | 2361/10711 [42:33<1:13:32,  1.89it/s] 22%|██▏       | 2362/10711 [42:34<1:14:05,  1.88it/s] 22%|██▏       | 2363/10711 [42:34<1:12:22,  1.92it/s] 22%|██▏       | 2364/10711 [42:35<1:11:14,  1.95it/s] 22%|██▏       | 2365/10711 [42:35<1:10:51,  1.96it/s] 22%|██▏       | 2366/10711 [42:36<1:13:59,  1.88it/s] 22%|██▏       | 2367/10711 [42:36<1:12:17,  1.92it/s] 22%|██▏       | 2368/10711 [42:37<1:13:03,  1.90it/s] 22%|██▏       | 2369/10711 [42:37<1:13:58,  1.88it/s] 22%|██▏       | 2370/10711 [42:38<1:13:04,  1.90it/s] 22%|██▏       | 2371/10711 [42:39<1:12:09,  1.93it/s] 22%|██▏       | 2372/10711 [42:39<1:11:41,  1.94it/s] 22%|██▏       | 2373/10711 [42:40<1:12:59,  1.90it/s] 22%|██▏       | 2374/10711 [42:40<1:12:07,  1.93it/s] 22%|██▏       | 2375/10711 [42:41<1:12:37,  1.91it/s]                                                      {'loss': 3.7855, 'grad_norm': 0.2179131954908371, 'learning_rate': 0.0009555852138620711, 'epoch': 0.22}
 22%|██▏       | 2375/10711 [42:41<1:12:37,  1.91it/s] 22%|██▏       | 2376/10711 [42:41<1:11:26,  1.94it/s] 22%|██▏       | 2377/10711 [42:42<1:11:09,  1.95it/s] 22%|██▏       | 2378/10711 [42:42<1:11:26,  1.94it/s] 22%|██▏       | 2379/10711 [42:43<1:10:33,  1.97it/s] 22%|██▏       | 2380/10711 [42:43<1:11:02,  1.95it/s] 22%|██▏       | 2381/10711 [42:44<1:10:46,  1.96it/s] 22%|██▏       | 2382/10711 [42:44<1:10:45,  1.96it/s] 22%|██▏       | 2383/10711 [42:45<1:11:24,  1.94it/s] 22%|██▏       | 2384/10711 [42:45<1:10:30,  1.97it/s] 22%|██▏       | 2385/10711 [42:46<1:10:46,  1.96it/s] 22%|██▏       | 2386/10711 [42:46<1:10:01,  1.98it/s] 22%|██▏       | 2387/10711 [42:47<1:09:32,  1.99it/s] 22%|██▏       | 2388/10711 [42:47<1:09:10,  2.01it/s] 22%|██▏       | 2389/10711 [42:48<1:09:44,  1.99it/s] 22%|██▏       | 2390/10711 [42:48<1:10:07,  1.98it/s] 22%|██▏       | 2391/10711 [42:49<1:12:16,  1.92it/s] 22%|██▏       | 2392/10711 [42:49<1:11:59,  1.93it/s] 22%|██▏       | 2393/10711 [42:50<1:12:18,  1.92it/s] 22%|██▏       | 2394/10711 [42:50<1:12:55,  1.90it/s] 22%|██▏       | 2395/10711 [42:51<1:25:07,  1.63it/s] 22%|██▏       | 2396/10711 [42:52<1:20:50,  1.71it/s] 22%|██▏       | 2397/10711 [42:52<1:17:00,  1.80it/s] 22%|██▏       | 2398/10711 [42:53<1:16:07,  1.82it/s] 22%|██▏       | 2399/10711 [42:53<1:13:39,  1.88it/s] 22%|██▏       | 2400/10711 [42:54<1:12:02,  1.92it/s]                                                      {'loss': 3.7778, 'grad_norm': 0.20425495505332947, 'learning_rate': 0.0009538914734276554, 'epoch': 0.22}
 22%|██▏       | 2400/10711 [42:54<1:12:02,  1.92it/s] 22%|██▏       | 2401/10711 [42:54<1:12:28,  1.91it/s] 22%|██▏       | 2402/10711 [42:55<1:11:41,  1.93it/s] 22%|██▏       | 2403/10711 [42:55<1:11:28,  1.94it/s] 22%|██▏       | 2404/10711 [42:56<1:10:28,  1.96it/s] 22%|██▏       | 2405/10711 [42:56<1:13:09,  1.89it/s] 22%|██▏       | 2406/10711 [42:57<1:11:34,  1.93it/s] 22%|██▏       | 2407/10711 [42:57<1:10:32,  1.96it/s] 22%|██▏       | 2408/10711 [42:58<1:09:46,  1.98it/s] 22%|██▏       | 2409/10711 [42:58<1:10:22,  1.97it/s] 23%|██▎       | 2410/10711 [42:59<1:09:37,  1.99it/s] 23%|██▎       | 2411/10711 [42:59<1:11:20,  1.94it/s] 23%|██▎       | 2412/10711 [43:00<1:10:54,  1.95it/s] 23%|██▎       | 2413/10711 [43:00<1:10:00,  1.98it/s] 23%|██▎       | 2414/10711 [43:01<1:09:24,  1.99it/s] 23%|██▎       | 2415/10711 [43:01<1:09:00,  2.00it/s] 23%|██▎       | 2416/10711 [43:02<1:09:30,  1.99it/s] 23%|██▎       | 2417/10711 [43:02<1:10:26,  1.96it/s] 23%|██▎       | 2418/10711 [43:03<1:11:40,  1.93it/s] 23%|██▎       | 2419/10711 [43:03<1:11:18,  1.94it/s] 23%|██▎       | 2420/10711 [43:04<1:10:18,  1.97it/s] 23%|██▎       | 2421/10711 [43:04<1:12:52,  1.90it/s] 23%|██▎       | 2422/10711 [43:05<1:12:33,  1.90it/s] 23%|██▎       | 2423/10711 [43:05<1:11:08,  1.94it/s] 23%|██▎       | 2424/10711 [43:06<1:12:46,  1.90it/s] 23%|██▎       | 2425/10711 [43:07<1:12:25,  1.91it/s]                                                      {'loss': 3.7864, 'grad_norm': 0.21599245071411133, 'learning_rate': 0.0009521675983937492, 'epoch': 0.23}
 23%|██▎       | 2425/10711 [43:07<1:12:25,  1.91it/s] 23%|██▎       | 2426/10711 [43:07<1:12:14,  1.91it/s] 23%|██▎       | 2427/10711 [43:08<1:11:56,  1.92it/s] 23%|██▎       | 2428/10711 [43:08<1:11:08,  1.94it/s] 23%|██▎       | 2429/10711 [43:09<1:11:03,  1.94it/s] 23%|██▎       | 2430/10711 [43:09<1:11:36,  1.93it/s] 23%|██▎       | 2431/10711 [43:10<1:12:54,  1.89it/s] 23%|██▎       | 2432/10711 [43:10<1:12:50,  1.89it/s] 23%|██▎       | 2433/10711 [43:11<1:12:21,  1.91it/s] 23%|██▎       | 2434/10711 [43:11<1:12:49,  1.89it/s] 23%|██▎       | 2435/10711 [43:12<1:17:41,  1.78it/s] 23%|██▎       | 2436/10711 [43:12<1:15:02,  1.84it/s] 23%|██▎       | 2437/10711 [43:13<1:14:28,  1.85it/s] 23%|██▎       | 2438/10711 [43:13<1:13:15,  1.88it/s] 23%|██▎       | 2439/10711 [43:14<1:12:20,  1.91it/s] 23%|██▎       | 2440/10711 [43:14<1:12:12,  1.91it/s] 23%|██▎       | 2441/10711 [43:15<1:22:56,  1.66it/s] 23%|██▎       | 2442/10711 [43:16<1:23:23,  1.65it/s] 23%|██▎       | 2443/10711 [43:16<1:20:39,  1.71it/s] 23%|██▎       | 2444/10711 [43:17<1:16:44,  1.80it/s] 23%|██▎       | 2445/10711 [43:17<1:16:13,  1.81it/s] 23%|██▎       | 2446/10711 [43:18<1:13:33,  1.87it/s] 23%|██▎       | 2447/10711 [43:18<1:13:21,  1.88it/s] 23%|██▎       | 2448/10711 [43:19<1:13:06,  1.88it/s] 23%|██▎       | 2449/10711 [43:19<1:11:26,  1.93it/s] 23%|██▎       | 2450/10711 [43:20<1:11:32,  1.92it/s]{'loss': 3.7731, 'grad_norm': 0.20575951039791107, 'learning_rate': 0.0009504137032112441, 'epoch': 0.23}                                                      
 23%|██▎       | 2450/10711 [43:20<1:11:32,  1.92it/s] 23%|██▎       | 2451/10711 [43:21<1:12:04,  1.91it/s] 23%|██▎       | 2452/10711 [43:21<1:14:17,  1.85it/s] 23%|██▎       | 2453/10711 [43:22<1:13:20,  1.88it/s] 23%|██▎       | 2454/10711 [43:22<1:13:15,  1.88it/s] 23%|██▎       | 2455/10711 [43:23<1:13:01,  1.88it/s] 23%|██▎       | 2456/10711 [43:23<1:12:13,  1.90it/s] 23%|██▎       | 2457/10711 [43:24<1:12:07,  1.91it/s] 23%|██▎       | 2458/10711 [43:24<1:11:34,  1.92it/s] 23%|██▎       | 2459/10711 [43:25<1:22:47,  1.66it/s] 23%|██▎       | 2460/10711 [43:26<1:23:31,  1.65it/s] 23%|██▎       | 2461/10711 [43:27<1:35:30,  1.44it/s] 23%|██▎       | 2462/10711 [43:27<1:27:52,  1.56it/s] 23%|██▎       | 2463/10711 [43:28<1:21:47,  1.68it/s] 23%|██▎       | 2464/10711 [43:28<1:18:02,  1.76it/s] 23%|██▎       | 2465/10711 [43:29<1:15:33,  1.82it/s] 23%|██▎       | 2466/10711 [43:29<1:13:35,  1.87it/s] 23%|██▎       | 2467/10711 [43:30<1:13:37,  1.87it/s] 23%|██▎       | 2468/10711 [43:30<1:12:40,  1.89it/s] 23%|██▎       | 2469/10711 [43:31<1:11:39,  1.92it/s] 23%|██▎       | 2470/10711 [43:31<1:10:31,  1.95it/s] 23%|██▎       | 2471/10711 [43:32<1:09:35,  1.97it/s] 23%|██▎       | 2472/10711 [43:32<1:09:58,  1.96it/s] 23%|██▎       | 2473/10711 [43:33<1:10:13,  1.96it/s] 23%|██▎       | 2474/10711 [43:33<1:10:09,  1.96it/s] 23%|██▎       | 2475/10711 [43:34<1:10:14,  1.95it/s]                                                      {'loss': 3.7773, 'grad_norm': 0.2033553570508957, 'learning_rate': 0.0009486299043241182, 'epoch': 0.23}
 23%|██▎       | 2475/10711 [43:34<1:10:14,  1.95it/s] 23%|██▎       | 2476/10711 [43:34<1:09:26,  1.98it/s] 23%|██▎       | 2477/10711 [43:35<1:08:45,  2.00it/s] 23%|██▎       | 2478/10711 [43:35<1:09:14,  1.98it/s] 23%|██▎       | 2479/10711 [43:36<1:10:56,  1.93it/s] 23%|██▎       | 2480/10711 [43:36<1:11:12,  1.93it/s] 23%|██▎       | 2481/10711 [43:37<1:11:47,  1.91it/s] 23%|██▎       | 2482/10711 [43:37<1:10:29,  1.95it/s] 23%|██▎       | 2483/10711 [43:38<1:09:42,  1.97it/s] 23%|██▎       | 2484/10711 [43:38<1:09:49,  1.96it/s] 23%|██▎       | 2485/10711 [43:39<1:09:08,  1.98it/s] 23%|██▎       | 2486/10711 [43:39<1:09:32,  1.97it/s] 23%|██▎       | 2487/10711 [43:40<1:08:51,  1.99it/s] 23%|██▎       | 2488/10711 [43:40<1:08:22,  2.00it/s] 23%|██▎       | 2489/10711 [43:41<1:09:07,  1.98it/s] 23%|██▎       | 2490/10711 [43:41<1:08:34,  2.00it/s] 23%|██▎       | 2491/10711 [43:42<1:09:00,  1.99it/s] 23%|██▎       | 2492/10711 [43:42<1:09:17,  1.98it/s] 23%|██▎       | 2493/10711 [43:43<1:09:28,  1.97it/s] 23%|██▎       | 2494/10711 [43:43<1:08:50,  1.99it/s] 23%|██▎       | 2495/10711 [43:44<1:08:25,  2.00it/s] 23%|██▎       | 2496/10711 [43:44<1:08:59,  1.98it/s] 23%|██▎       | 2497/10711 [43:45<1:09:59,  1.96it/s] 23%|██▎       | 2498/10711 [43:45<1:09:09,  1.98it/s] 23%|██▎       | 2499/10711 [43:46<1:08:33,  2.00it/s] 23%|██▎       | 2500/10711 [43:46<1:08:50,  1.99it/s]{'loss': 3.7729, 'grad_norm': 0.21292094886302948, 'learning_rate': 0.0009468163201617061, 'epoch': 0.23}
                                                       23%|██▎       | 2500/10711 [43:46<1:08:50,  1.99it/s] 23%|██▎       | 2501/10711 [43:47<1:09:39,  1.96it/s] 23%|██▎       | 2502/10711 [43:47<1:10:45,  1.93it/s] 23%|██▎       | 2503/10711 [43:48<1:11:20,  1.92it/s] 23%|██▎       | 2504/10711 [43:48<1:10:06,  1.95it/s] 23%|██▎       | 2505/10711 [43:49<1:09:51,  1.96it/s] 23%|██▎       | 2506/10711 [43:49<1:11:25,  1.91it/s] 23%|██▎       | 2507/10711 [43:50<1:14:42,  1.83it/s] 23%|██▎       | 2508/10711 [43:51<1:12:41,  1.88it/s] 23%|██▎       | 2509/10711 [43:51<1:11:58,  1.90it/s] 23%|██▎       | 2510/10711 [43:52<1:11:41,  1.91it/s] 23%|██▎       | 2511/10711 [43:52<1:11:21,  1.92it/s] 23%|██▎       | 2512/10711 [43:53<1:10:39,  1.93it/s] 23%|██▎       | 2513/10711 [43:53<1:09:38,  1.96it/s] 23%|██▎       | 2514/10711 [43:54<1:09:36,  1.96it/s] 23%|██▎       | 2515/10711 [43:54<1:09:43,  1.96it/s] 23%|██▎       | 2516/10711 [43:55<1:10:11,  1.95it/s] 23%|██▎       | 2517/10711 [43:55<1:10:23,  1.94it/s] 24%|██▎       | 2518/10711 [43:56<1:09:51,  1.95it/s] 24%|██▎       | 2519/10711 [43:56<1:08:59,  1.98it/s] 24%|██▎       | 2520/10711 [43:57<1:08:27,  1.99it/s] 24%|██▎       | 2521/10711 [43:57<1:08:01,  2.01it/s] 24%|██▎       | 2522/10711 [43:58<1:07:43,  2.02it/s] 24%|██▎       | 2523/10711 [43:58<1:07:26,  2.02it/s] 24%|██▎       | 2524/10711 [43:59<1:08:25,  1.99it/s] 24%|██▎       | 2525/10711 [43:59<1:09:17,  1.97it/s]                                                      {'loss': 3.7597, 'grad_norm': 0.21113787591457367, 'learning_rate': 0.0009449730711308352, 'epoch': 0.24}
 24%|██▎       | 2525/10711 [43:59<1:09:17,  1.97it/s] 24%|██▎       | 2526/10711 [44:00<1:11:44,  1.90it/s] 24%|██▎       | 2527/10711 [44:00<1:14:21,  1.83it/s] 24%|██▎       | 2528/10711 [44:01<1:13:29,  1.86it/s] 24%|██▎       | 2529/10711 [44:01<1:12:25,  1.88it/s] 24%|██▎       | 2530/10711 [44:02<1:10:49,  1.93it/s] 24%|██▎       | 2531/10711 [44:02<1:10:12,  1.94it/s] 24%|██▎       | 2532/10711 [44:03<1:10:58,  1.92it/s] 24%|██▎       | 2533/10711 [44:03<1:11:14,  1.91it/s] 24%|██▎       | 2534/10711 [44:04<1:11:58,  1.89it/s] 24%|██▎       | 2535/10711 [44:04<1:12:05,  1.89it/s] 24%|██▎       | 2536/10711 [44:05<1:11:31,  1.91it/s] 24%|██▎       | 2537/10711 [44:05<1:11:27,  1.91it/s] 24%|██▎       | 2538/10711 [44:06<1:10:58,  1.92it/s] 24%|██▎       | 2539/10711 [44:07<1:11:13,  1.91it/s] 24%|██▎       | 2540/10711 [44:07<1:09:59,  1.95it/s] 24%|██▎       | 2541/10711 [44:08<1:10:02,  1.94it/s] 24%|██▎       | 2542/10711 [44:08<1:10:24,  1.93it/s] 24%|██▎       | 2543/10711 [44:09<1:10:18,  1.94it/s] 24%|██▍       | 2544/10711 [44:09<1:09:57,  1.95it/s] 24%|██▍       | 2545/10711 [44:10<1:10:42,  1.92it/s] 24%|██▍       | 2546/10711 [44:10<1:09:32,  1.96it/s] 24%|██▍       | 2547/10711 [44:11<1:09:21,  1.96it/s] 24%|██▍       | 2548/10711 [44:11<1:09:29,  1.96it/s] 24%|██▍       | 2549/10711 [44:12<1:09:11,  1.97it/s] 24%|██▍       | 2550/10711 [44:12<1:08:31,  1.98it/s]{'loss': 3.7706, 'grad_norm': 0.2054712027311325, 'learning_rate': 0.0009431002796078323, 'epoch': 0.24}
                                                       24%|██▍       | 2550/10711 [44:12<1:08:31,  1.98it/s] 24%|██▍       | 2551/10711 [44:13<1:08:20,  1.99it/s] 24%|██▍       | 2552/10711 [44:13<1:08:10,  1.99it/s] 24%|██▍       | 2553/10711 [44:14<1:08:27,  1.99it/s] 24%|██▍       | 2554/10711 [44:14<1:08:55,  1.97it/s] 24%|██▍       | 2555/10711 [44:15<1:08:19,  1.99it/s] 24%|██▍       | 2556/10711 [44:15<1:10:48,  1.92it/s] 24%|██▍       | 2557/10711 [44:16<1:10:18,  1.93it/s] 24%|██▍       | 2558/10711 [44:16<1:10:06,  1.94it/s] 24%|██▍       | 2559/10711 [44:17<1:09:07,  1.97it/s] 24%|██▍       | 2560/10711 [44:17<1:08:59,  1.97it/s] 24%|██▍       | 2561/10711 [44:18<1:09:08,  1.96it/s] 24%|██▍       | 2562/10711 [44:18<1:08:25,  1.98it/s] 24%|██▍       | 2563/10711 [44:19<1:08:38,  1.98it/s] 24%|██▍       | 2564/10711 [44:19<1:08:35,  1.98it/s] 24%|██▍       | 2565/10711 [44:20<1:08:48,  1.97it/s] 24%|██▍       | 2566/10711 [44:20<1:09:44,  1.95it/s] 24%|██▍       | 2567/10711 [44:21<1:10:32,  1.92it/s] 24%|██▍       | 2568/10711 [44:21<1:11:03,  1.91it/s] 24%|██▍       | 2569/10711 [44:22<1:09:48,  1.94it/s] 24%|██▍       | 2570/10711 [44:22<1:11:49,  1.89it/s] 24%|██▍       | 2571/10711 [44:23<1:11:08,  1.91it/s] 24%|██▍       | 2572/10711 [44:23<1:10:34,  1.92it/s] 24%|██▍       | 2573/10711 [44:24<1:09:55,  1.94it/s] 24%|██▍       | 2574/10711 [44:24<1:08:59,  1.97it/s] 24%|██▍       | 2575/10711 [44:25<1:10:05,  1.93it/s]                                                      {'loss': 3.7695, 'grad_norm': 0.21971002221107483, 'learning_rate': 0.0009411980699303988, 'epoch': 0.24}
 24%|██▍       | 2575/10711 [44:25<1:10:05,  1.93it/s] 24%|██▍       | 2576/10711 [44:25<1:09:39,  1.95it/s] 24%|██▍       | 2577/10711 [44:26<1:21:28,  1.66it/s] 24%|██▍       | 2578/10711 [44:27<1:17:17,  1.75it/s] 24%|██▍       | 2579/10711 [44:27<1:14:52,  1.81it/s] 24%|██▍       | 2580/10711 [44:28<1:12:49,  1.86it/s] 24%|██▍       | 2581/10711 [44:28<1:12:20,  1.87it/s] 24%|██▍       | 2582/10711 [44:29<1:11:35,  1.89it/s] 24%|██▍       | 2583/10711 [44:29<1:10:53,  1.91it/s] 24%|██▍       | 2584/10711 [44:30<1:09:38,  1.94it/s] 24%|██▍       | 2585/10711 [44:30<1:08:54,  1.97it/s] 24%|██▍       | 2586/10711 [44:31<1:09:07,  1.96it/s] 24%|██▍       | 2587/10711 [44:31<1:08:22,  1.98it/s] 24%|██▍       | 2588/10711 [44:32<1:09:17,  1.95it/s] 24%|██▍       | 2589/10711 [44:32<1:09:01,  1.96it/s] 24%|██▍       | 2590/10711 [44:33<1:09:22,  1.95it/s] 24%|██▍       | 2591/10711 [44:33<1:09:09,  1.96it/s] 24%|██▍       | 2592/10711 [44:34<1:10:27,  1.92it/s] 24%|██▍       | 2593/10711 [44:34<1:10:03,  1.93it/s] 24%|██▍       | 2594/10711 [44:35<1:09:51,  1.94it/s] 24%|██▍       | 2595/10711 [44:35<1:09:13,  1.95it/s] 24%|██▍       | 2596/10711 [44:36<1:08:43,  1.97it/s] 24%|██▍       | 2597/10711 [44:36<1:07:58,  1.99it/s] 24%|██▍       | 2598/10711 [44:37<1:08:47,  1.97it/s] 24%|██▍       | 2599/10711 [44:37<1:09:09,  1.95it/s] 24%|██▍       | 2600/10711 [44:38<1:09:30,  1.94it/s]                                                      {'loss': 3.7572, 'grad_norm': 0.2116793841123581, 'learning_rate': 0.0009392665683893556, 'epoch': 0.24}
 24%|██▍       | 2600/10711 [44:38<1:09:30,  1.94it/s] 24%|██▍       | 2601/10711 [44:38<1:08:37,  1.97it/s] 24%|██▍       | 2602/10711 [44:39<1:07:55,  1.99it/s] 24%|██▍       | 2603/10711 [44:39<1:07:36,  2.00it/s] 24%|██▍       | 2604/10711 [44:40<1:07:14,  2.01it/s] 24%|██▍       | 2605/10711 [44:41<1:08:28,  1.97it/s] 24%|██▍       | 2606/10711 [44:41<1:08:12,  1.98it/s] 24%|██▍       | 2607/10711 [44:42<1:09:06,  1.95it/s] 24%|██▍       | 2608/10711 [44:42<1:09:45,  1.94it/s] 24%|██▍       | 2609/10711 [44:43<1:09:31,  1.94it/s] 24%|██▍       | 2610/10711 [44:43<1:08:51,  1.96it/s] 24%|██▍       | 2611/10711 [44:44<1:09:04,  1.95it/s] 24%|██▍       | 2612/10711 [44:44<1:09:18,  1.95it/s] 24%|██▍       | 2613/10711 [44:45<1:21:20,  1.66it/s] 24%|██▍       | 2614/10711 [44:45<1:18:35,  1.72it/s] 24%|██▍       | 2615/10711 [44:46<1:15:45,  1.78it/s] 24%|██▍       | 2616/10711 [44:46<1:13:55,  1.83it/s] 24%|██▍       | 2617/10711 [44:47<1:12:40,  1.86it/s] 24%|██▍       | 2618/10711 [44:47<1:10:40,  1.91it/s] 24%|██▍       | 2619/10711 [44:48<1:09:59,  1.93it/s] 24%|██▍       | 2620/10711 [44:49<1:12:18,  1.86it/s] 24%|██▍       | 2621/10711 [44:49<1:10:45,  1.91it/s] 24%|██▍       | 2622/10711 [44:50<1:09:28,  1.94it/s] 24%|██▍       | 2623/10711 [44:50<1:09:13,  1.95it/s] 24%|██▍       | 2624/10711 [44:51<1:09:48,  1.93it/s] 25%|██▍       | 2625/10711 [44:51<1:10:11,  1.92it/s]                                                      {'loss': 3.7516, 'grad_norm': 0.1962883472442627, 'learning_rate': 0.0009373059032202584, 'epoch': 0.25}
 25%|██▍       | 2625/10711 [44:51<1:10:11,  1.92it/s] 25%|██▍       | 2626/10711 [44:52<1:10:07,  1.92it/s] 25%|██▍       | 2627/10711 [44:52<1:08:59,  1.95it/s] 25%|██▍       | 2628/10711 [44:53<1:09:40,  1.93it/s] 25%|██▍       | 2629/10711 [44:53<1:10:16,  1.92it/s] 25%|██▍       | 2630/10711 [44:54<1:10:52,  1.90it/s] 25%|██▍       | 2631/10711 [44:54<1:11:06,  1.89it/s] 25%|██▍       | 2632/10711 [44:55<1:11:07,  1.89it/s] 25%|██▍       | 2633/10711 [44:55<1:10:26,  1.91it/s] 25%|██▍       | 2634/10711 [44:56<1:22:46,  1.63it/s] 25%|██▍       | 2635/10711 [44:57<1:17:45,  1.73it/s] 25%|██▍       | 2636/10711 [44:57<1:14:19,  1.81it/s] 25%|██▍       | 2637/10711 [44:58<1:12:28,  1.86it/s] 25%|██▍       | 2638/10711 [44:58<1:11:18,  1.89it/s] 25%|██▍       | 2639/10711 [44:59<1:09:50,  1.93it/s] 25%|██▍       | 2640/10711 [44:59<1:09:05,  1.95it/s] 25%|██▍       | 2641/10711 [45:00<1:10:52,  1.90it/s] 25%|██▍       | 2642/10711 [45:00<1:10:54,  1.90it/s] 25%|██▍       | 2643/10711 [45:01<1:11:26,  1.88it/s] 25%|██▍       | 2644/10711 [45:01<1:11:36,  1.88it/s] 25%|██▍       | 2645/10711 [45:02<1:10:41,  1.90it/s] 25%|██▍       | 2646/10711 [45:02<1:09:17,  1.94it/s] 25%|██▍       | 2647/10711 [45:03<1:09:52,  1.92it/s] 25%|██▍       | 2648/10711 [45:03<1:09:14,  1.94it/s] 25%|██▍       | 2649/10711 [45:04<1:08:59,  1.95it/s] 25%|██▍       | 2650/10711 [45:04<1:08:36,  1.96it/s]                                                      {'loss': 3.7496, 'grad_norm': 0.22035731375217438, 'learning_rate': 0.0009353162045948842, 'epoch': 0.25}
 25%|██▍       | 2650/10711 [45:04<1:08:36,  1.96it/s] 25%|██▍       | 2651/10711 [45:05<1:08:44,  1.95it/s] 25%|██▍       | 2652/10711 [45:05<1:08:50,  1.95it/s] 25%|██▍       | 2653/10711 [45:06<1:08:00,  1.97it/s] 25%|██▍       | 2654/10711 [45:06<1:07:56,  1.98it/s] 25%|██▍       | 2655/10711 [45:07<1:07:17,  2.00it/s] 25%|██▍       | 2656/10711 [45:07<1:09:45,  1.92it/s] 25%|██▍       | 2657/10711 [45:08<1:10:57,  1.89it/s] 25%|██▍       | 2658/10711 [45:08<1:09:31,  1.93it/s] 25%|██▍       | 2659/10711 [45:09<1:10:01,  1.92it/s] 25%|██▍       | 2660/10711 [45:10<1:11:02,  1.89it/s] 25%|██▍       | 2661/10711 [45:10<1:09:29,  1.93it/s] 25%|██▍       | 2662/10711 [45:11<1:09:35,  1.93it/s] 25%|██▍       | 2663/10711 [45:11<1:10:29,  1.90it/s] 25%|██▍       | 2664/10711 [45:12<1:12:37,  1.85it/s] 25%|██▍       | 2665/10711 [45:12<1:10:33,  1.90it/s] 25%|██▍       | 2666/10711 [45:13<1:12:27,  1.85it/s] 25%|██▍       | 2667/10711 [45:13<1:11:30,  1.87it/s] 25%|██▍       | 2668/10711 [45:14<1:11:07,  1.88it/s] 25%|██▍       | 2669/10711 [45:14<1:14:03,  1.81it/s] 25%|██▍       | 2670/10711 [45:15<1:13:27,  1.82it/s] 25%|██▍       | 2671/10711 [45:15<1:14:18,  1.80it/s] 25%|██▍       | 2672/10711 [45:16<1:16:46,  1.75it/s] 25%|██▍       | 2673/10711 [45:17<1:15:33,  1.77it/s] 25%|██▍       | 2674/10711 [45:17<1:14:57,  1.79it/s] 25%|██▍       | 2675/10711 [45:18<1:16:16,  1.76it/s]                                                      {'loss': 3.7405, 'grad_norm': 0.20333868265151978, 'learning_rate': 0.0009332976046125887, 'epoch': 0.25}
 25%|██▍       | 2675/10711 [45:18<1:16:16,  1.76it/s] 25%|██▍       | 2676/10711 [45:18<1:13:14,  1.83it/s] 25%|██▍       | 2677/10711 [45:19<1:16:06,  1.76it/s] 25%|██▌       | 2678/10711 [45:19<1:16:38,  1.75it/s] 25%|██▌       | 2679/10711 [45:20<1:16:53,  1.74it/s] 25%|██▌       | 2680/10711 [45:21<1:15:03,  1.78it/s] 25%|██▌       | 2681/10711 [45:21<1:12:18,  1.85it/s] 25%|██▌       | 2682/10711 [45:22<1:11:57,  1.86it/s] 25%|██▌       | 2683/10711 [45:22<1:11:47,  1.86it/s] 25%|██▌       | 2684/10711 [45:23<1:11:57,  1.86it/s] 25%|██▌       | 2685/10711 [45:23<1:10:06,  1.91it/s] 25%|██▌       | 2686/10711 [45:24<1:11:00,  1.88it/s] 25%|██▌       | 2687/10711 [45:24<1:09:24,  1.93it/s] 25%|██▌       | 2688/10711 [45:25<1:08:14,  1.96it/s] 25%|██▌       | 2689/10711 [45:25<1:09:14,  1.93it/s] 25%|██▌       | 2690/10711 [45:26<1:10:42,  1.89it/s] 25%|██▌       | 2691/10711 [45:26<1:15:13,  1.78it/s] 25%|██▌       | 2692/10711 [45:27<1:12:26,  1.84it/s] 25%|██▌       | 2693/10711 [45:27<1:11:46,  1.86it/s] 25%|██▌       | 2694/10711 [45:28<1:11:37,  1.87it/s] 25%|██▌       | 2695/10711 [45:29<1:13:42,  1.81it/s] 25%|██▌       | 2696/10711 [45:29<1:11:16,  1.87it/s] 25%|██▌       | 2697/10711 [45:30<1:11:47,  1.86it/s] 25%|██▌       | 2698/10711 [45:30<1:14:31,  1.79it/s] 25%|██▌       | 2699/10711 [45:31<1:11:47,  1.86it/s] 25%|██▌       | 2700/10711 [45:31<1:09:54,  1.91it/s]{'loss': 3.7521, 'grad_norm': 0.20216013491153717, 'learning_rate': 0.0009312502372915359, 'epoch': 0.25}                                                      
 25%|██▌       | 2700/10711 [45:31<1:09:54,  1.91it/s] 25%|██▌       | 2701/10711 [45:32<1:14:14,  1.80it/s] 25%|██▌       | 2702/10711 [45:32<1:13:23,  1.82it/s] 25%|██▌       | 2703/10711 [45:33<1:13:51,  1.81it/s] 25%|██▌       | 2704/10711 [45:34<1:15:47,  1.76it/s] 25%|██▌       | 2705/10711 [45:34<1:12:48,  1.83it/s] 25%|██▌       | 2706/10711 [45:35<1:10:45,  1.89it/s] 25%|██▌       | 2707/10711 [45:35<1:10:25,  1.89it/s] 25%|██▌       | 2708/10711 [45:36<1:09:01,  1.93it/s] 25%|██▌       | 2709/10711 [45:36<1:11:10,  1.87it/s] 25%|██▌       | 2710/10711 [45:37<1:09:27,  1.92it/s] 25%|██▌       | 2711/10711 [45:37<1:08:15,  1.95it/s] 25%|██▌       | 2712/10711 [45:38<1:10:13,  1.90it/s] 25%|██▌       | 2713/10711 [45:38<1:12:48,  1.83it/s] 25%|██▌       | 2714/10711 [45:39<1:12:05,  1.85it/s] 25%|██▌       | 2715/10711 [45:39<1:13:55,  1.80it/s] 25%|██▌       | 2716/10711 [45:40<1:11:24,  1.87it/s] 25%|██▌       | 2717/10711 [45:40<1:11:06,  1.87it/s] 25%|██▌       | 2718/10711 [45:41<1:11:51,  1.85it/s] 25%|██▌       | 2719/10711 [45:41<1:12:01,  1.85it/s] 25%|██▌       | 2720/10711 [45:42<1:12:05,  1.85it/s] 25%|██▌       | 2721/10711 [45:43<1:12:43,  1.83it/s] 25%|██▌       | 2722/10711 [45:43<1:15:53,  1.75it/s] 25%|██▌       | 2723/10711 [45:44<1:15:06,  1.77it/s] 25%|██▌       | 2724/10711 [45:44<1:14:25,  1.79it/s] 25%|██▌       | 2725/10711 [45:45<1:13:13,  1.82it/s]                                                      {'loss': 3.7475, 'grad_norm': 0.2036643773317337, 'learning_rate': 0.0009291742385598008, 'epoch': 0.25}
 25%|██▌       | 2725/10711 [45:45<1:13:13,  1.82it/s] 25%|██▌       | 2726/10711 [45:45<1:12:18,  1.84it/s] 25%|██▌       | 2727/10711 [45:46<1:11:21,  1.86it/s] 25%|██▌       | 2728/10711 [45:46<1:11:22,  1.86it/s] 25%|██▌       | 2729/10711 [45:47<1:14:03,  1.80it/s] 25%|██▌       | 2730/10711 [45:48<1:11:23,  1.86it/s] 25%|██▌       | 2731/10711 [45:48<1:10:12,  1.89it/s] 26%|██▌       | 2732/10711 [45:49<1:09:39,  1.91it/s] 26%|██▌       | 2733/10711 [45:49<1:08:51,  1.93it/s] 26%|██▌       | 2734/10711 [45:50<1:08:01,  1.95it/s] 26%|██▌       | 2735/10711 [45:50<1:07:19,  1.97it/s] 26%|██▌       | 2736/10711 [45:51<1:06:39,  1.99it/s] 26%|██▌       | 2737/10711 [45:51<1:23:45,  1.59it/s] 26%|██▌       | 2738/10711 [45:52<1:19:26,  1.67it/s] 26%|██▌       | 2739/10711 [45:52<1:15:35,  1.76it/s] 26%|██▌       | 2740/10711 [45:53<1:13:15,  1.81it/s] 26%|██▌       | 2741/10711 [45:54<1:13:21,  1.81it/s] 26%|██▌       | 2742/10711 [45:54<1:10:54,  1.87it/s] 26%|██▌       | 2743/10711 [45:55<1:09:55,  1.90it/s] 26%|██▌       | 2744/10711 [45:55<1:08:33,  1.94it/s] 26%|██▌       | 2745/10711 [45:56<1:10:04,  1.89it/s] 26%|██▌       | 2746/10711 [45:56<1:09:31,  1.91it/s] 26%|██▌       | 2747/10711 [45:57<1:09:01,  1.92it/s] 26%|██▌       | 2748/10711 [45:57<1:08:57,  1.92it/s] 26%|██▌       | 2749/10711 [45:58<1:07:47,  1.96it/s] 26%|██▌       | 2750/10711 [45:58<1:07:01,  1.98it/s]                                                      {'loss': 3.7461, 'grad_norm': 0.20351433753967285, 'learning_rate': 0.0009270697462463446, 'epoch': 0.26}
 26%|██▌       | 2750/10711 [45:58<1:07:01,  1.98it/s] 26%|██▌       | 2751/10711 [45:59<1:07:20,  1.97it/s] 26%|██▌       | 2752/10711 [45:59<1:08:38,  1.93it/s] 26%|██▌       | 2753/10711 [46:00<1:07:34,  1.96it/s] 26%|██▌       | 2754/10711 [46:00<1:07:00,  1.98it/s] 26%|██▌       | 2755/10711 [46:01<1:07:27,  1.97it/s] 26%|██▌       | 2756/10711 [46:02<1:22:51,  1.60it/s] 26%|██▌       | 2757/10711 [46:02<1:19:22,  1.67it/s] 26%|██▌       | 2758/10711 [46:03<1:15:05,  1.77it/s] 26%|██▌       | 2759/10711 [46:03<1:12:57,  1.82it/s] 26%|██▌       | 2760/10711 [46:04<1:10:35,  1.88it/s] 26%|██▌       | 2761/10711 [46:04<1:08:58,  1.92it/s] 26%|██▌       | 2762/10711 [46:05<1:08:20,  1.94it/s] 26%|██▌       | 2763/10711 [46:05<1:09:07,  1.92it/s] 26%|██▌       | 2764/10711 [46:06<1:07:54,  1.95it/s] 26%|██▌       | 2765/10711 [46:06<1:07:59,  1.95it/s] 26%|██▌       | 2766/10711 [46:07<1:08:32,  1.93it/s] 26%|██▌       | 2767/10711 [46:07<1:08:08,  1.94it/s] 26%|██▌       | 2768/10711 [46:08<1:07:14,  1.97it/s] 26%|██▌       | 2769/10711 [46:08<1:07:22,  1.96it/s] 26%|██▌       | 2770/10711 [46:09<1:07:16,  1.97it/s] 26%|██▌       | 2771/10711 [46:09<1:07:29,  1.96it/s] 26%|██▌       | 2772/10711 [46:10<1:08:17,  1.94it/s] 26%|██▌       | 2773/10711 [46:10<1:08:17,  1.94it/s] 26%|██▌       | 2774/10711 [46:11<1:07:18,  1.97it/s] 26%|██▌       | 2775/10711 [46:11<1:08:22,  1.93it/s]{'loss': 3.7384, 'grad_norm': 0.2011738270521164, 'learning_rate': 0.0009249369000718646, 'epoch': 0.26}
                                                       26%|██▌       | 2775/10711 [46:11<1:08:22,  1.93it/s] 26%|██▌       | 2776/10711 [46:12<1:07:32,  1.96it/s] 26%|██▌       | 2777/10711 [46:12<1:06:52,  1.98it/s] 26%|██▌       | 2778/10711 [46:13<1:07:17,  1.96it/s] 26%|██▌       | 2779/10711 [46:13<1:07:48,  1.95it/s] 26%|██▌       | 2780/10711 [46:14<1:09:24,  1.90it/s] 26%|██▌       | 2781/10711 [46:14<1:10:46,  1.87it/s] 26%|██▌       | 2782/10711 [46:15<1:10:19,  1.88it/s] 26%|██▌       | 2783/10711 [46:15<1:08:39,  1.92it/s] 26%|██▌       | 2784/10711 [46:16<1:08:26,  1.93it/s] 26%|██▌       | 2785/10711 [46:16<1:07:49,  1.95it/s] 26%|██▌       | 2786/10711 [46:17<1:07:49,  1.95it/s] 26%|██▌       | 2787/10711 [46:17<1:06:53,  1.97it/s] 26%|██▌       | 2788/10711 [46:18<1:07:49,  1.95it/s] 26%|██▌       | 2789/10711 [46:18<1:06:59,  1.97it/s] 26%|██▌       | 2790/10711 [46:19<1:07:05,  1.97it/s] 26%|██▌       | 2791/10711 [46:20<1:08:50,  1.92it/s] 26%|██▌       | 2792/10711 [46:20<1:10:53,  1.86it/s] 26%|██▌       | 2793/10711 [46:21<1:11:05,  1.86it/s] 26%|██▌       | 2794/10711 [46:21<1:09:11,  1.91it/s] 26%|██▌       | 2795/10711 [46:22<1:08:59,  1.91it/s] 26%|██▌       | 2796/10711 [46:22<1:07:45,  1.95it/s] 26%|██▌       | 2797/10711 [46:23<1:06:59,  1.97it/s] 26%|██▌       | 2798/10711 [46:23<1:06:16,  1.99it/s] 26%|██▌       | 2799/10711 [46:24<1:05:51,  2.00it/s] 26%|██▌       | 2800/10711 [46:24<1:05:36,  2.01it/s]                                                      {'loss': 3.7333, 'grad_norm': 0.20495975017547607, 'learning_rate': 0.0009227758416395169, 'epoch': 0.26}
 26%|██▌       | 2800/10711 [46:24<1:05:36,  2.01it/s] 26%|██▌       | 2801/10711 [46:25<1:05:26,  2.01it/s] 26%|██▌       | 2802/10711 [46:25<1:05:14,  2.02it/s] 26%|██▌       | 2803/10711 [46:26<1:06:30,  1.98it/s] 26%|██▌       | 2804/10711 [46:26<1:07:06,  1.96it/s] 26%|██▌       | 2805/10711 [46:27<1:07:15,  1.96it/s] 26%|██▌       | 2806/10711 [46:27<1:06:54,  1.97it/s] 26%|██▌       | 2807/10711 [46:28<1:07:44,  1.94it/s] 26%|██▌       | 2808/10711 [46:28<1:06:47,  1.97it/s] 26%|██▌       | 2809/10711 [46:29<1:06:08,  1.99it/s] 26%|██▌       | 2810/10711 [46:29<1:05:45,  2.00it/s] 26%|██▌       | 2811/10711 [46:30<1:05:30,  2.01it/s] 26%|██▋       | 2812/10711 [46:30<1:05:22,  2.01it/s] 26%|██▋       | 2813/10711 [46:31<1:08:01,  1.94it/s] 26%|██▋       | 2814/10711 [46:31<1:15:34,  1.74it/s] 26%|██▋       | 2815/10711 [46:32<1:14:28,  1.77it/s] 26%|██▋       | 2816/10711 [46:32<1:12:07,  1.82it/s] 26%|██▋       | 2817/10711 [46:33<1:11:55,  1.83it/s] 26%|██▋       | 2818/10711 [46:34<1:09:47,  1.89it/s] 26%|██▋       | 2819/10711 [46:34<1:16:29,  1.72it/s] 26%|██▋       | 2820/10711 [46:35<1:12:55,  1.80it/s] 26%|██▋       | 2821/10711 [46:35<1:12:17,  1.82it/s] 26%|██▋       | 2822/10711 [46:36<1:11:06,  1.85it/s] 26%|██▋       | 2823/10711 [46:36<1:09:08,  1.90it/s] 26%|██▋       | 2824/10711 [46:37<1:08:26,  1.92it/s] 26%|██▋       | 2825/10711 [46:37<1:08:34,  1.92it/s]                                                      {'loss': 3.7195, 'grad_norm': 0.2072003036737442, 'learning_rate': 0.0009205867144255155, 'epoch': 0.26}
 26%|██▋       | 2825/10711 [46:37<1:08:34,  1.92it/s] 26%|██▋       | 2826/10711 [46:38<1:08:36,  1.92it/s] 26%|██▋       | 2827/10711 [46:38<1:08:08,  1.93it/s] 26%|██▋       | 2828/10711 [46:39<1:07:27,  1.95it/s] 26%|██▋       | 2829/10711 [46:39<1:09:06,  1.90it/s] 26%|██▋       | 2830/10711 [46:40<1:07:41,  1.94it/s] 26%|██▋       | 2831/10711 [46:40<1:06:51,  1.96it/s] 26%|██▋       | 2832/10711 [46:41<1:06:09,  1.98it/s] 26%|██▋       | 2833/10711 [46:41<1:05:35,  2.00it/s] 26%|██▋       | 2834/10711 [46:42<1:06:56,  1.96it/s] 26%|██▋       | 2835/10711 [46:42<1:07:48,  1.94it/s] 26%|██▋       | 2836/10711 [46:43<1:06:45,  1.97it/s] 26%|██▋       | 2837/10711 [46:43<1:07:12,  1.95it/s] 26%|██▋       | 2838/10711 [46:44<1:06:24,  1.98it/s] 27%|██▋       | 2839/10711 [46:44<1:06:31,  1.97it/s] 27%|██▋       | 2840/10711 [46:45<1:07:01,  1.96it/s] 27%|██▋       | 2841/10711 [46:45<1:06:54,  1.96it/s] 27%|██▋       | 2842/10711 [46:46<1:06:09,  1.98it/s] 27%|██▋       | 2843/10711 [46:46<1:06:23,  1.98it/s] 27%|██▋       | 2844/10711 [46:47<1:05:50,  1.99it/s] 27%|██▋       | 2845/10711 [46:47<1:05:59,  1.99it/s] 27%|██▋       | 2846/10711 [46:48<1:06:10,  1.98it/s] 27%|██▋       | 2847/10711 [46:48<1:06:12,  1.98it/s] 27%|██▋       | 2848/10711 [46:49<1:05:36,  2.00it/s] 27%|██▋       | 2849/10711 [46:49<1:05:18,  2.01it/s] 27%|██▋       | 2850/10711 [46:50<1:05:36,  2.00it/s]{'loss': 3.7172, 'grad_norm': 0.21703799068927765, 'learning_rate': 0.0009183696637696077, 'epoch': 0.27}                                                      
 27%|██▋       | 2850/10711 [46:50<1:05:36,  2.00it/s] 27%|██▋       | 2851/10711 [46:50<1:06:51,  1.96it/s] 27%|██▋       | 2852/10711 [46:51<1:06:12,  1.98it/s] 27%|██▋       | 2853/10711 [46:52<1:06:25,  1.97it/s] 27%|██▋       | 2854/10711 [46:52<1:06:44,  1.96it/s] 27%|██▋       | 2855/10711 [46:53<1:07:17,  1.95it/s] 27%|██▋       | 2856/10711 [46:53<1:07:15,  1.95it/s] 27%|██▋       | 2857/10711 [46:54<1:06:20,  1.97it/s] 27%|██▋       | 2858/10711 [46:54<1:06:26,  1.97it/s] 27%|██▋       | 2859/10711 [46:55<1:06:37,  1.96it/s] 27%|██▋       | 2860/10711 [46:55<1:07:09,  1.95it/s] 27%|██▋       | 2861/10711 [46:56<1:07:01,  1.95it/s] 27%|██▋       | 2862/10711 [46:56<1:06:49,  1.96it/s] 27%|██▋       | 2863/10711 [46:57<1:07:00,  1.95it/s] 27%|██▋       | 2864/10711 [46:57<1:07:30,  1.94it/s] 27%|██▋       | 2865/10711 [46:58<1:07:07,  1.95it/s] 27%|██▋       | 2866/10711 [46:58<1:06:13,  1.97it/s] 27%|██▋       | 2867/10711 [46:59<1:05:43,  1.99it/s] 27%|██▋       | 2868/10711 [46:59<1:06:18,  1.97it/s] 27%|██▋       | 2869/10711 [47:00<1:05:44,  1.99it/s] 27%|██▋       | 2870/10711 [47:00<1:06:12,  1.97it/s] 27%|██▋       | 2871/10711 [47:01<1:05:36,  1.99it/s] 27%|██▋       | 2872/10711 [47:01<1:05:09,  2.01it/s] 27%|██▋       | 2873/10711 [47:02<1:06:31,  1.96it/s] 27%|██▋       | 2874/10711 [47:02<1:06:54,  1.95it/s] 27%|██▋       | 2875/10711 [47:03<1:06:08,  1.97it/s]{'loss': 3.7166, 'grad_norm': 0.20032785832881927, 'learning_rate': 0.0009161248368654232, 'epoch': 0.27}
                                                       27%|██▋       | 2875/10711 [47:03<1:06:08,  1.97it/s] 27%|██▋       | 2876/10711 [47:03<1:05:37,  1.99it/s] 27%|██▋       | 2877/10711 [47:04<1:05:20,  2.00it/s] 27%|██▋       | 2878/10711 [47:04<1:05:00,  2.01it/s] 27%|██▋       | 2879/10711 [47:05<1:04:51,  2.01it/s] 27%|██▋       | 2880/10711 [47:05<1:05:06,  2.00it/s] 27%|██▋       | 2881/10711 [47:06<1:04:51,  2.01it/s] 27%|██▋       | 2882/10711 [47:06<1:05:16,  2.00it/s] 27%|██▋       | 2883/10711 [47:07<1:04:55,  2.01it/s] 27%|██▋       | 2884/10711 [47:07<1:06:42,  1.96it/s] 27%|██▋       | 2885/10711 [47:08<1:06:57,  1.95it/s] 27%|██▋       | 2886/10711 [47:08<1:06:39,  1.96it/s] 27%|██▋       | 2887/10711 [47:09<1:05:50,  1.98it/s] 27%|██▋       | 2888/10711 [47:09<1:05:55,  1.98it/s] 27%|██▋       | 2889/10711 [47:10<1:06:23,  1.96it/s] 27%|██▋       | 2890/10711 [47:10<1:07:13,  1.94it/s] 27%|██▋       | 2891/10711 [47:11<1:07:04,  1.94it/s] 27%|██▋       | 2892/10711 [47:11<1:06:57,  1.95it/s] 27%|██▋       | 2893/10711 [47:12<1:06:48,  1.95it/s] 27%|██▋       | 2894/10711 [47:12<1:06:50,  1.95it/s] 27%|██▋       | 2895/10711 [47:13<1:05:56,  1.98it/s] 27%|██▋       | 2896/10711 [47:13<1:05:19,  1.99it/s] 27%|██▋       | 2897/10711 [47:14<1:06:26,  1.96it/s] 27%|██▋       | 2898/10711 [47:14<1:06:29,  1.96it/s] 27%|██▋       | 2899/10711 [47:15<1:06:27,  1.96it/s] 27%|██▋       | 2900/10711 [47:15<1:05:42,  1.98it/s]                                                      {'loss': 3.7245, 'grad_norm': 0.1944570541381836, 'learning_rate': 0.0009138523827507027, 'epoch': 0.27}
 27%|██▋       | 2900/10711 [47:15<1:05:42,  1.98it/s] 27%|██▋       | 2901/10711 [47:16<1:05:27,  1.99it/s] 27%|██▋       | 2902/10711 [47:16<1:06:20,  1.96it/s] 27%|██▋       | 2903/10711 [47:17<1:05:41,  1.98it/s] 27%|██▋       | 2904/10711 [47:17<1:05:13,  1.99it/s] 27%|██▋       | 2905/10711 [47:18<1:05:57,  1.97it/s] 27%|██▋       | 2906/10711 [47:18<1:07:25,  1.93it/s] 27%|██▋       | 2907/10711 [47:19<1:06:33,  1.95it/s] 27%|██▋       | 2908/10711 [47:19<1:06:31,  1.96it/s] 27%|██▋       | 2909/10711 [47:20<1:07:41,  1.92it/s] 27%|██▋       | 2910/10711 [47:20<1:07:18,  1.93it/s] 27%|██▋       | 2911/10711 [47:21<1:06:53,  1.94it/s] 27%|██▋       | 2912/10711 [47:22<1:07:04,  1.94it/s] 27%|██▋       | 2913/10711 [47:22<1:06:43,  1.95it/s] 27%|██▋       | 2914/10711 [47:23<1:07:21,  1.93it/s] 27%|██▋       | 2915/10711 [47:23<1:06:40,  1.95it/s] 27%|██▋       | 2916/10711 [47:24<1:06:42,  1.95it/s] 27%|██▋       | 2917/10711 [47:24<1:06:29,  1.95it/s] 27%|██▋       | 2918/10711 [47:25<1:06:21,  1.96it/s] 27%|██▋       | 2919/10711 [47:25<1:06:32,  1.95it/s] 27%|██▋       | 2920/10711 [47:26<1:06:14,  1.96it/s] 27%|██▋       | 2921/10711 [47:26<1:06:31,  1.95it/s] 27%|██▋       | 2922/10711 [47:27<1:07:04,  1.94it/s] 27%|██▋       | 2923/10711 [47:27<1:06:03,  1.97it/s] 27%|██▋       | 2924/10711 [47:28<1:05:57,  1.97it/s] 27%|██▋       | 2925/10711 [47:28<1:07:58,  1.91it/s]                                                      {'loss': 3.7141, 'grad_norm': 0.20163202285766602, 'learning_rate': 0.0009115524522974026, 'epoch': 0.27}
 27%|██▋       | 2925/10711 [47:28<1:07:58,  1.91it/s] 27%|██▋       | 2926/10711 [47:29<1:06:50,  1.94it/s] 27%|██▋       | 2927/10711 [47:29<1:06:43,  1.94it/s] 27%|██▋       | 2928/10711 [47:30<1:05:54,  1.97it/s] 27%|██▋       | 2929/10711 [47:30<1:06:34,  1.95it/s] 27%|██▋       | 2930/10711 [47:31<1:13:10,  1.77it/s] 27%|██▋       | 2931/10711 [47:31<1:10:14,  1.85it/s] 27%|██▋       | 2932/10711 [47:32<1:08:17,  1.90it/s] 27%|██▋       | 2933/10711 [47:32<1:06:57,  1.94it/s] 27%|██▋       | 2934/10711 [47:33<1:06:47,  1.94it/s] 27%|██▋       | 2935/10711 [47:33<1:05:57,  1.97it/s] 27%|██▋       | 2936/10711 [47:34<1:05:09,  1.99it/s] 27%|██▋       | 2937/10711 [47:34<1:04:56,  1.99it/s] 27%|██▋       | 2938/10711 [47:35<1:04:31,  2.01it/s] 27%|██▋       | 2939/10711 [47:35<1:04:09,  2.02it/s] 27%|██▋       | 2940/10711 [47:36<1:05:14,  1.99it/s] 27%|██▋       | 2941/10711 [47:36<1:05:16,  1.98it/s] 27%|██▋       | 2942/10711 [47:37<1:05:11,  1.99it/s] 27%|██▋       | 2943/10711 [47:37<1:06:14,  1.95it/s] 27%|██▋       | 2944/10711 [47:38<1:06:36,  1.94it/s] 27%|██▋       | 2945/10711 [47:38<1:06:25,  1.95it/s] 28%|██▊       | 2946/10711 [47:39<1:05:38,  1.97it/s] 28%|██▊       | 2947/10711 [47:39<1:06:19,  1.95it/s] 28%|██▊       | 2948/10711 [47:40<1:18:45,  1.64it/s] 28%|██▊       | 2949/10711 [47:41<1:14:45,  1.73it/s] 28%|██▊       | 2950/10711 [47:41<1:12:38,  1.78it/s]{'loss': 3.7246, 'grad_norm': 0.20359370112419128, 'learning_rate': 0.0009092251982016783, 'epoch': 0.28}
                                                       28%|██▊       | 2950/10711 [47:41<1:12:38,  1.78it/s] 28%|██▊       | 2951/10711 [47:42<1:11:19,  1.81it/s] 28%|██▊       | 2952/10711 [47:42<1:09:55,  1.85it/s] 28%|██▊       | 2953/10711 [47:43<1:09:40,  1.86it/s] 28%|██▊       | 2954/10711 [47:43<1:09:03,  1.87it/s] 28%|██▊       | 2955/10711 [47:44<1:08:17,  1.89it/s] 28%|██▊       | 2956/10711 [47:44<1:07:46,  1.91it/s] 28%|██▊       | 2957/10711 [47:45<1:07:14,  1.92it/s] 28%|██▊       | 2958/10711 [47:45<1:06:09,  1.95it/s] 28%|██▊       | 2959/10711 [47:46<1:05:56,  1.96it/s] 28%|██▊       | 2960/10711 [47:46<1:05:55,  1.96it/s] 28%|██▊       | 2961/10711 [47:47<1:05:50,  1.96it/s] 28%|██▊       | 2962/10711 [47:48<1:06:03,  1.96it/s] 28%|██▊       | 2963/10711 [47:48<1:05:13,  1.98it/s] 28%|██▊       | 2964/10711 [47:49<1:05:39,  1.97it/s] 28%|██▊       | 2965/10711 [47:49<1:04:58,  1.99it/s] 28%|██▊       | 2966/10711 [47:50<1:06:28,  1.94it/s] 28%|██▊       | 2967/10711 [47:50<1:06:07,  1.95it/s] 28%|██▊       | 2968/10711 [47:51<1:05:17,  1.98it/s] 28%|██▊       | 2969/10711 [47:51<1:06:15,  1.95it/s] 28%|██▊       | 2970/10711 [47:52<1:06:04,  1.95it/s] 28%|██▊       | 2971/10711 [47:52<1:06:16,  1.95it/s] 28%|██▊       | 2972/10711 [47:53<1:06:15,  1.95it/s] 28%|██▊       | 2973/10711 [47:53<1:05:26,  1.97it/s] 28%|██▊       | 2974/10711 [47:54<1:05:17,  1.97it/s] 28%|██▊       | 2975/10711 [47:54<1:05:25,  1.97it/s]{'loss': 3.7114, 'grad_norm': 0.20031385123729706, 'learning_rate': 0.0009068707749737472, 'epoch': 0.28}
                                                       28%|██▊       | 2975/10711 [47:54<1:05:25,  1.97it/s] 28%|██▊       | 2976/10711 [47:55<1:06:01,  1.95it/s] 28%|██▊       | 2977/10711 [47:55<1:05:49,  1.96it/s] 28%|██▊       | 2978/10711 [47:56<1:05:04,  1.98it/s] 28%|██▊       | 2979/10711 [47:56<1:04:50,  1.99it/s] 28%|██▊       | 2980/10711 [47:57<1:05:05,  1.98it/s] 28%|██▊       | 2981/10711 [47:57<1:04:29,  2.00it/s] 28%|██▊       | 2982/10711 [47:58<1:05:26,  1.97it/s] 28%|██▊       | 2983/10711 [47:58<1:04:48,  1.99it/s] 28%|██▊       | 2984/10711 [47:59<1:05:27,  1.97it/s] 28%|██▊       | 2985/10711 [47:59<1:05:31,  1.97it/s] 28%|██▊       | 2986/10711 [48:00<1:05:38,  1.96it/s] 28%|██▊       | 2987/10711 [48:00<1:05:35,  1.96it/s] 28%|██▊       | 2988/10711 [48:01<1:05:20,  1.97it/s] 28%|██▊       | 2989/10711 [48:01<1:06:14,  1.94it/s] 28%|██▊       | 2990/10711 [48:02<1:07:49,  1.90it/s] 28%|██▊       | 2991/10711 [48:02<1:07:37,  1.90it/s] 28%|██▊       | 2992/10711 [48:03<1:07:04,  1.92it/s] 28%|██▊       | 2993/10711 [48:03<1:08:13,  1.89it/s] 28%|██▊       | 2994/10711 [48:04<1:06:43,  1.93it/s] 28%|██▊       | 2995/10711 [48:04<1:05:37,  1.96it/s] 28%|██▊       | 2996/10711 [48:05<1:05:41,  1.96it/s] 28%|██▊       | 2997/10711 [48:05<1:04:53,  1.98it/s] 28%|██▊       | 2998/10711 [48:06<1:04:19,  2.00it/s] 28%|██▊       | 2999/10711 [48:06<1:03:57,  2.01it/s] 28%|██▊       | 3000/10711 [48:07<1:04:49,  1.98it/s]                                                      {'loss': 3.707, 'grad_norm': 0.20672164857387543, 'learning_rate': 0.0009044893389276295, 'epoch': 0.28}
 28%|██▊       | 3000/10711 [48:07<1:04:49,  1.98it/s] 28%|██▊       | 3001/10711 [48:07<1:04:30,  1.99it/s] 28%|██▊       | 3002/10711 [48:08<1:04:31,  1.99it/s] 28%|██▊       | 3003/10711 [48:08<1:04:04,  2.00it/s] 28%|██▊       | 3004/10711 [48:09<1:05:00,  1.98it/s] 28%|██▊       | 3005/10711 [48:09<1:04:56,  1.98it/s] 28%|██▊       | 3006/10711 [48:10<1:05:00,  1.98it/s] 28%|██▊       | 3007/10711 [48:10<1:04:45,  1.98it/s] 28%|██▊       | 3008/10711 [48:11<1:04:11,  2.00it/s] 28%|██▊       | 3009/10711 [48:11<1:04:41,  1.98it/s] 28%|██▊       | 3010/10711 [48:12<1:05:44,  1.95it/s] 28%|██▊       | 3011/10711 [48:12<1:06:23,  1.93it/s] 28%|██▊       | 3012/10711 [48:13<1:05:22,  1.96it/s] 28%|██▊       | 3013/10711 [48:13<1:06:25,  1.93it/s] 28%|██▊       | 3014/10711 [48:14<1:06:27,  1.93it/s] 28%|██▊       | 3015/10711 [48:15<1:06:14,  1.94it/s] 28%|██▊       | 3016/10711 [48:15<1:06:24,  1.93it/s] 28%|██▊       | 3017/10711 [48:16<1:05:26,  1.96it/s] 28%|██▊       | 3018/10711 [48:16<1:05:11,  1.97it/s] 28%|██▊       | 3019/10711 [48:17<1:04:31,  1.99it/s] 28%|██▊       | 3020/10711 [48:17<1:04:05,  2.00it/s] 28%|██▊       | 3021/10711 [48:18<1:04:25,  1.99it/s] 28%|██▊       | 3022/10711 [48:18<1:04:02,  2.00it/s] 28%|██▊       | 3023/10711 [48:19<1:04:34,  1.98it/s] 28%|██▊       | 3024/10711 [48:19<1:05:19,  1.96it/s] 28%|██▊       | 3025/10711 [48:20<1:04:38,  1.98it/s]                                                      {'loss': 3.7059, 'grad_norm': 0.22028061747550964, 'learning_rate': 0.0009020810481707709, 'epoch': 0.28}
 28%|██▊       | 3025/10711 [48:20<1:04:38,  1.98it/s] 28%|██▊       | 3026/10711 [48:20<1:04:43,  1.98it/s] 28%|██▊       | 3027/10711 [48:21<1:04:10,  2.00it/s] 28%|██▊       | 3028/10711 [48:21<1:03:54,  2.00it/s] 28%|██▊       | 3029/10711 [48:22<1:04:58,  1.97it/s] 28%|██▊       | 3030/10711 [48:22<1:04:20,  1.99it/s] 28%|██▊       | 3031/10711 [48:23<1:05:10,  1.96it/s] 28%|██▊       | 3032/10711 [48:23<1:05:41,  1.95it/s] 28%|██▊       | 3033/10711 [48:24<1:05:19,  1.96it/s] 28%|██▊       | 3034/10711 [48:24<1:04:57,  1.97it/s] 28%|██▊       | 3035/10711 [48:25<1:05:06,  1.96it/s] 28%|██▊       | 3036/10711 [48:25<1:04:26,  1.99it/s] 28%|██▊       | 3037/10711 [48:26<1:04:56,  1.97it/s] 28%|██▊       | 3038/10711 [48:26<1:05:00,  1.97it/s] 28%|██▊       | 3039/10711 [48:27<1:04:26,  1.98it/s] 28%|██▊       | 3040/10711 [48:27<1:05:42,  1.95it/s] 28%|██▊       | 3041/10711 [48:28<1:04:57,  1.97it/s] 28%|██▊       | 3042/10711 [48:28<1:04:20,  1.99it/s] 28%|██▊       | 3043/10711 [48:29<1:04:41,  1.98it/s] 28%|██▊       | 3044/10711 [48:29<1:04:12,  1.99it/s] 28%|██▊       | 3045/10711 [48:30<1:04:44,  1.97it/s] 28%|██▊       | 3046/10711 [48:30<1:04:35,  1.98it/s] 28%|██▊       | 3047/10711 [48:31<1:04:50,  1.97it/s] 28%|██▊       | 3048/10711 [48:31<1:04:51,  1.97it/s] 28%|██▊       | 3049/10711 [48:32<1:04:15,  1.99it/s] 28%|██▊       | 3050/10711 [48:32<1:04:21,  1.98it/s]                                                      {'loss': 3.696, 'grad_norm': 0.19234123826026917, 'learning_rate': 0.0008996460625935452, 'epoch': 0.28}
 28%|██▊       | 3050/10711 [48:32<1:04:21,  1.98it/s] 28%|██▊       | 3051/10711 [48:33<1:04:54,  1.97it/s] 28%|██▊       | 3052/10711 [48:33<1:04:11,  1.99it/s] 29%|██▊       | 3053/10711 [48:34<1:04:30,  1.98it/s] 29%|██▊       | 3054/10711 [48:34<1:04:04,  1.99it/s] 29%|██▊       | 3055/10711 [48:35<1:04:52,  1.97it/s] 29%|██▊       | 3056/10711 [48:35<1:04:48,  1.97it/s] 29%|██▊       | 3057/10711 [48:36<1:17:00,  1.66it/s] 29%|██▊       | 3058/10711 [48:37<1:12:41,  1.75it/s] 29%|██▊       | 3059/10711 [48:37<1:10:05,  1.82it/s] 29%|██▊       | 3060/10711 [48:38<1:07:57,  1.88it/s] 29%|██▊       | 3061/10711 [48:38<1:06:22,  1.92it/s] 29%|██▊       | 3062/10711 [48:39<1:05:36,  1.94it/s] 29%|██▊       | 3063/10711 [48:39<1:04:40,  1.97it/s] 29%|██▊       | 3064/10711 [48:40<1:04:01,  1.99it/s] 29%|██▊       | 3065/10711 [48:40<1:03:39,  2.00it/s] 29%|██▊       | 3066/10711 [48:41<1:03:41,  2.00it/s] 29%|██▊       | 3067/10711 [48:41<1:04:51,  1.96it/s] 29%|██▊       | 3068/10711 [48:42<1:04:45,  1.97it/s] 29%|██▊       | 3069/10711 [48:42<1:04:39,  1.97it/s] 29%|██▊       | 3070/10711 [48:43<1:03:57,  1.99it/s] 29%|██▊       | 3071/10711 [48:43<1:04:41,  1.97it/s] 29%|██▊       | 3072/10711 [48:44<1:04:50,  1.96it/s] 29%|██▊       | 3073/10711 [48:44<1:04:49,  1.96it/s] 29%|██▊       | 3074/10711 [48:45<1:04:10,  1.98it/s] 29%|██▊       | 3075/10711 [48:45<1:05:05,  1.95it/s]{'loss': 3.7006, 'grad_norm': 0.20220637321472168, 'learning_rate': 0.0008971845438586394, 'epoch': 0.29}
                                                       29%|██▊       | 3075/10711 [48:45<1:05:05,  1.95it/s] 29%|██▊       | 3076/10711 [48:46<1:04:27,  1.97it/s] 29%|██▊       | 3077/10711 [48:46<1:03:53,  1.99it/s] 29%|██▊       | 3078/10711 [48:47<1:03:26,  2.01it/s] 29%|██▊       | 3079/10711 [48:47<1:03:38,  2.00it/s] 29%|██▉       | 3080/10711 [48:48<1:04:01,  1.99it/s] 29%|██▉       | 3081/10711 [48:48<1:03:32,  2.00it/s] 29%|██▉       | 3082/10711 [48:49<1:03:09,  2.01it/s] 29%|██▉       | 3083/10711 [48:49<1:04:24,  1.97it/s] 29%|██▉       | 3084/10711 [48:50<1:03:51,  1.99it/s] 29%|██▉       | 3085/10711 [48:50<1:03:59,  1.99it/s] 29%|██▉       | 3086/10711 [48:51<1:04:09,  1.98it/s] 29%|██▉       | 3087/10711 [48:51<1:06:26,  1.91it/s] 29%|██▉       | 3088/10711 [48:52<1:06:02,  1.92it/s] 29%|██▉       | 3089/10711 [48:52<1:06:34,  1.91it/s] 29%|██▉       | 3090/10711 [48:53<1:05:16,  1.95it/s] 29%|██▉       | 3091/10711 [48:53<1:05:57,  1.93it/s] 29%|██▉       | 3092/10711 [48:54<1:04:55,  1.96it/s] 29%|██▉       | 3093/10711 [48:54<1:04:07,  1.98it/s] 29%|██▉       | 3094/10711 [48:55<1:03:39,  1.99it/s] 29%|██▉       | 3095/10711 [48:55<1:03:40,  1.99it/s] 29%|██▉       | 3096/10711 [48:56<1:03:57,  1.98it/s] 29%|██▉       | 3097/10711 [48:56<1:03:31,  2.00it/s] 29%|██▉       | 3098/10711 [48:57<1:03:10,  2.01it/s] 29%|██▉       | 3099/10711 [48:57<1:02:51,  2.02it/s] 29%|██▉       | 3100/10711 [48:58<1:03:44,  1.99it/s]                                                      {'loss': 3.6995, 'grad_norm': 0.2143741399049759, 'learning_rate': 0.0008946966553903202, 'epoch': 0.29}
 29%|██▉       | 3100/10711 [48:58<1:03:44,  1.99it/s] 29%|██▉       | 3101/10711 [48:58<1:04:18,  1.97it/s] 29%|██▉       | 3102/10711 [48:59<1:03:44,  1.99it/s] 29%|██▉       | 3103/10711 [48:59<1:03:18,  2.00it/s] 29%|██▉       | 3104/10711 [49:00<1:03:01,  2.01it/s] 29%|██▉       | 3105/10711 [49:00<1:03:18,  2.00it/s] 29%|██▉       | 3106/10711 [49:01<1:03:40,  1.99it/s] 29%|██▉       | 3107/10711 [49:01<1:03:17,  2.00it/s] 29%|██▉       | 3108/10711 [49:02<1:02:59,  2.01it/s] 29%|██▉       | 3109/10711 [49:02<1:02:45,  2.02it/s] 29%|██▉       | 3110/10711 [49:03<1:02:40,  2.02it/s] 29%|██▉       | 3111/10711 [49:03<1:04:02,  1.98it/s] 29%|██▉       | 3112/10711 [49:04<1:03:24,  2.00it/s] 29%|██▉       | 3113/10711 [49:04<1:03:08,  2.01it/s] 29%|██▉       | 3114/10711 [49:05<1:02:54,  2.01it/s] 29%|██▉       | 3115/10711 [49:05<1:05:33,  1.93it/s] 29%|██▉       | 3116/10711 [49:06<1:04:29,  1.96it/s] 29%|██▉       | 3117/10711 [49:06<1:03:56,  1.98it/s] 29%|██▉       | 3118/10711 [49:07<1:07:19,  1.88it/s] 29%|██▉       | 3119/10711 [49:07<1:05:50,  1.92it/s] 29%|██▉       | 3120/10711 [49:08<1:04:41,  1.96it/s] 29%|██▉       | 3121/10711 [49:08<1:05:49,  1.92it/s] 29%|██▉       | 3122/10711 [49:09<1:05:21,  1.94it/s] 29%|██▉       | 3123/10711 [49:09<1:04:19,  1.97it/s] 29%|██▉       | 3124/10711 [49:10<1:03:39,  1.99it/s] 29%|██▉       | 3125/10711 [49:10<1:03:12,  2.00it/s]{'loss': 3.6946, 'grad_norm': 0.19218121469020844, 'learning_rate': 0.000892182562363584, 'epoch': 0.29}                                                      
 29%|██▉       | 3125/10711 [49:10<1:03:12,  2.00it/s] 29%|██▉       | 3126/10711 [49:11<1:11:59,  1.76it/s] 29%|██▉       | 3127/10711 [49:12<1:10:14,  1.80it/s] 29%|██▉       | 3128/10711 [49:12<1:08:45,  1.84it/s] 29%|██▉       | 3129/10711 [49:13<1:06:46,  1.89it/s] 29%|██▉       | 3130/10711 [49:13<1:06:13,  1.91it/s] 29%|██▉       | 3131/10711 [49:14<1:04:57,  1.94it/s] 29%|██▉       | 3132/10711 [49:14<1:04:39,  1.95it/s] 29%|██▉       | 3133/10711 [49:15<1:03:52,  1.98it/s] 29%|██▉       | 3134/10711 [49:15<1:03:21,  1.99it/s] 29%|██▉       | 3135/10711 [49:16<1:02:54,  2.01it/s] 29%|██▉       | 3136/10711 [49:16<1:02:55,  2.01it/s] 29%|██▉       | 3137/10711 [49:17<1:02:35,  2.02it/s] 29%|██▉       | 3138/10711 [49:17<1:02:25,  2.02it/s] 29%|██▉       | 3139/10711 [49:18<1:02:18,  2.03it/s] 29%|██▉       | 3140/10711 [49:18<1:02:52,  2.01it/s] 29%|██▉       | 3141/10711 [49:19<1:02:46,  2.01it/s] 29%|██▉       | 3142/10711 [49:19<1:02:32,  2.02it/s] 29%|██▉       | 3143/10711 [49:20<1:02:20,  2.02it/s] 29%|██▉       | 3144/10711 [49:20<1:02:58,  2.00it/s] 29%|██▉       | 3145/10711 [49:21<1:03:36,  1.98it/s] 29%|██▉       | 3146/10711 [49:21<1:03:08,  2.00it/s] 29%|██▉       | 3147/10711 [49:22<1:02:47,  2.01it/s] 29%|██▉       | 3148/10711 [49:22<1:04:02,  1.97it/s] 29%|██▉       | 3149/10711 [49:23<1:13:52,  1.71it/s] 29%|██▉       | 3150/10711 [49:23<1:11:22,  1.77it/s]                                                      {'loss': 3.6928, 'grad_norm': 0.21408048272132874, 'learning_rate': 0.0008896424316931912, 'epoch': 0.29}
 29%|██▉       | 3150/10711 [49:23<1:11:22,  1.77it/s] 29%|██▉       | 3151/10711 [49:24<1:09:12,  1.82it/s] 29%|██▉       | 3152/10711 [49:24<1:07:04,  1.88it/s] 29%|██▉       | 3153/10711 [49:25<1:06:47,  1.89it/s] 29%|██▉       | 3154/10711 [49:25<1:05:18,  1.93it/s] 29%|██▉       | 3155/10711 [49:26<1:04:15,  1.96it/s] 29%|██▉       | 3156/10711 [49:26<1:04:05,  1.96it/s] 29%|██▉       | 3157/10711 [49:27<1:04:07,  1.96it/s] 29%|██▉       | 3158/10711 [49:27<1:03:33,  1.98it/s] 29%|██▉       | 3159/10711 [49:28<1:03:04,  2.00it/s] 30%|██▉       | 3160/10711 [49:28<1:03:38,  1.98it/s] 30%|██▉       | 3161/10711 [49:29<1:03:24,  1.98it/s] 30%|██▉       | 3162/10711 [49:29<1:04:08,  1.96it/s] 30%|██▉       | 3163/10711 [49:30<1:03:32,  1.98it/s] 30%|██▉       | 3164/10711 [49:31<1:05:03,  1.93it/s] 30%|██▉       | 3165/10711 [49:31<1:06:00,  1.91it/s] 30%|██▉       | 3166/10711 [49:32<1:05:30,  1.92it/s] 30%|██▉       | 3167/10711 [49:32<1:05:17,  1.93it/s] 30%|██▉       | 3168/10711 [49:33<1:15:24,  1.67it/s] 30%|██▉       | 3169/10711 [49:33<1:13:57,  1.70it/s] 30%|██▉       | 3170/10711 [49:34<1:11:26,  1.76it/s] 30%|██▉       | 3171/10711 [49:34<1:08:28,  1.84it/s] 30%|██▉       | 3172/10711 [49:35<1:07:04,  1.87it/s] 30%|██▉       | 3173/10711 [49:35<1:05:36,  1.91it/s] 30%|██▉       | 3174/10711 [49:36<1:05:25,  1.92it/s] 30%|██▉       | 3175/10711 [49:37<1:07:33,  1.86it/s]{'loss': 3.6929, 'grad_norm': 0.19467446208000183, 'learning_rate': 0.0008870764320225839, 'epoch': 0.3}                                                      
 30%|██▉       | 3175/10711 [49:37<1:07:33,  1.86it/s] 30%|██▉       | 3176/10711 [49:37<1:06:52,  1.88it/s] 30%|██▉       | 3177/10711 [49:38<1:05:36,  1.91it/s] 30%|██▉       | 3178/10711 [49:38<1:06:30,  1.89it/s] 30%|██▉       | 3179/10711 [49:39<1:05:52,  1.91it/s] 30%|██▉       | 3180/10711 [49:39<1:04:33,  1.94it/s] 30%|██▉       | 3181/10711 [49:40<1:04:54,  1.93it/s] 30%|██▉       | 3182/10711 [49:40<1:03:56,  1.96it/s] 30%|██▉       | 3183/10711 [49:41<1:03:14,  1.98it/s] 30%|██▉       | 3184/10711 [49:41<1:02:43,  2.00it/s] 30%|██▉       | 3185/10711 [49:42<1:02:26,  2.01it/s] 30%|██▉       | 3186/10711 [49:42<1:02:13,  2.02it/s] 30%|██▉       | 3187/10711 [49:43<1:02:47,  2.00it/s] 30%|██▉       | 3188/10711 [49:43<1:02:25,  2.01it/s] 30%|██▉       | 3189/10711 [49:44<1:02:55,  1.99it/s] 30%|██▉       | 3190/10711 [49:44<1:02:31,  2.00it/s] 30%|██▉       | 3191/10711 [49:45<1:03:13,  1.98it/s] 30%|██▉       | 3192/10711 [49:45<1:03:27,  1.97it/s] 30%|██▉       | 3193/10711 [49:46<1:02:52,  1.99it/s] 30%|██▉       | 3194/10711 [49:46<1:04:48,  1.93it/s] 30%|██▉       | 3195/10711 [49:47<1:05:03,  1.93it/s] 30%|██▉       | 3196/10711 [49:47<1:03:58,  1.96it/s] 30%|██▉       | 3197/10711 [49:48<1:04:42,  1.94it/s] 30%|██▉       | 3198/10711 [49:48<1:04:30,  1.94it/s] 30%|██▉       | 3199/10711 [49:49<1:05:06,  1.92it/s] 30%|██▉       | 3200/10711 [49:49<1:03:59,  1.96it/s]{'loss': 3.6886, 'grad_norm': 0.1935771256685257, 'learning_rate': 0.0008844847337126893, 'epoch': 0.3}
                                                       30%|██▉       | 3200/10711 [49:49<1:03:59,  1.96it/s] 30%|██▉       | 3201/10711 [49:50<1:03:59,  1.96it/s] 30%|██▉       | 3202/10711 [49:50<1:03:18,  1.98it/s] 30%|██▉       | 3203/10711 [49:51<1:04:39,  1.94it/s] 30%|██▉       | 3204/10711 [49:51<1:03:43,  1.96it/s] 30%|██▉       | 3205/10711 [49:52<1:03:42,  1.96it/s] 30%|██▉       | 3206/10711 [49:52<1:03:46,  1.96it/s] 30%|██▉       | 3207/10711 [49:53<1:03:44,  1.96it/s] 30%|██▉       | 3208/10711 [49:53<1:02:58,  1.99it/s] 30%|██▉       | 3209/10711 [49:54<1:04:25,  1.94it/s] 30%|██▉       | 3210/10711 [49:54<1:03:39,  1.96it/s] 30%|██▉       | 3211/10711 [49:55<1:02:57,  1.99it/s] 30%|██▉       | 3212/10711 [49:55<1:02:28,  2.00it/s] 30%|██▉       | 3213/10711 [49:56<1:02:57,  1.99it/s] 30%|███       | 3214/10711 [49:56<1:03:16,  1.97it/s] 30%|███       | 3215/10711 [49:57<1:02:40,  1.99it/s] 30%|███       | 3216/10711 [49:57<1:02:31,  2.00it/s] 30%|███       | 3217/10711 [49:58<1:02:08,  2.01it/s] 30%|███       | 3218/10711 [49:58<1:02:43,  1.99it/s] 30%|███       | 3219/10711 [49:59<1:02:16,  2.01it/s] 30%|███       | 3220/10711 [49:59<1:02:35,  1.99it/s] 30%|███       | 3221/10711 [50:00<1:02:13,  2.01it/s] 30%|███       | 3222/10711 [50:00<1:03:20,  1.97it/s] 30%|███       | 3223/10711 [50:01<1:02:42,  1.99it/s] 30%|███       | 3224/10711 [50:01<1:02:11,  2.01it/s] 30%|███       | 3225/10711 [50:02<1:02:55,  1.98it/s]{'loss': 3.6884, 'grad_norm': 0.20118138194084167, 'learning_rate': 0.0008818675088306099, 'epoch': 0.3}
                                                       30%|███       | 3225/10711 [50:02<1:02:55,  1.98it/s] 30%|███       | 3226/10711 [50:02<1:03:30,  1.96it/s] 30%|███       | 3227/10711 [50:03<1:02:55,  1.98it/s] 30%|███       | 3228/10711 [50:03<1:03:00,  1.98it/s] 30%|███       | 3229/10711 [50:04<1:02:27,  2.00it/s] 30%|███       | 3230/10711 [50:04<1:02:09,  2.01it/s] 30%|███       | 3231/10711 [50:05<1:02:57,  1.98it/s] 30%|███       | 3232/10711 [50:05<1:02:27,  2.00it/s] 30%|███       | 3233/10711 [50:06<1:03:25,  1.97it/s] 30%|███       | 3234/10711 [50:06<1:02:45,  1.99it/s] 30%|███       | 3235/10711 [50:07<1:02:16,  2.00it/s] 30%|███       | 3236/10711 [50:07<1:01:58,  2.01it/s] 30%|███       | 3237/10711 [50:08<1:02:33,  1.99it/s] 30%|███       | 3238/10711 [50:08<1:02:42,  1.99it/s] 30%|███       | 3239/10711 [50:09<1:02:47,  1.98it/s] 30%|███       | 3240/10711 [50:09<1:03:22,  1.96it/s] 30%|███       | 3241/10711 [50:10<1:02:41,  1.99it/s] 30%|███       | 3242/10711 [50:10<1:02:58,  1.98it/s] 30%|███       | 3243/10711 [50:11<1:18:06,  1.59it/s] 30%|███       | 3244/10711 [50:12<1:14:35,  1.67it/s] 30%|███       | 3245/10711 [50:12<1:11:09,  1.75it/s] 30%|███       | 3246/10711 [50:13<1:08:06,  1.83it/s] 30%|███       | 3247/10711 [50:13<1:05:55,  1.89it/s] 30%|███       | 3248/10711 [50:14<1:05:14,  1.91it/s] 30%|███       | 3249/10711 [50:14<1:04:43,  1.92it/s] 30%|███       | 3250/10711 [50:15<1:03:38,  1.95it/s]                                                      {'loss': 3.6857, 'grad_norm': 0.2051059603691101, 'learning_rate': 0.0008792249311381987, 'epoch': 0.3}
 30%|███       | 3250/10711 [50:15<1:03:38,  1.95it/s] 30%|███       | 3251/10711 [50:15<1:03:02,  1.97it/s] 30%|███       | 3252/10711 [50:16<1:02:42,  1.98it/s] 30%|███       | 3253/10711 [50:16<1:02:59,  1.97it/s] 30%|███       | 3254/10711 [50:17<1:03:25,  1.96it/s] 30%|███       | 3255/10711 [50:17<1:02:48,  1.98it/s] 30%|███       | 3256/10711 [50:18<1:02:14,  2.00it/s] 30%|███       | 3257/10711 [50:18<1:02:29,  1.99it/s] 30%|███       | 3258/10711 [50:19<1:02:24,  1.99it/s] 30%|███       | 3259/10711 [50:19<1:02:08,  2.00it/s] 30%|███       | 3260/10711 [50:20<1:02:36,  1.98it/s] 30%|███       | 3261/10711 [50:20<1:02:12,  2.00it/s] 30%|███       | 3262/10711 [50:21<1:02:30,  1.99it/s] 30%|███       | 3263/10711 [50:21<1:02:53,  1.97it/s] 30%|███       | 3264/10711 [50:22<1:02:20,  1.99it/s] 30%|███       | 3265/10711 [50:22<1:01:56,  2.00it/s] 30%|███       | 3266/10711 [50:23<1:02:33,  1.98it/s] 31%|███       | 3267/10711 [50:23<1:02:05,  2.00it/s] 31%|███       | 3268/10711 [50:24<1:01:47,  2.01it/s] 31%|███       | 3269/10711 [50:24<1:02:28,  1.99it/s] 31%|███       | 3270/10711 [50:25<1:02:00,  2.00it/s] 31%|███       | 3271/10711 [50:25<1:01:47,  2.01it/s] 31%|███       | 3272/10711 [50:26<1:01:34,  2.01it/s] 31%|███       | 3273/10711 [50:26<1:01:24,  2.02it/s] 31%|███       | 3274/10711 [50:27<1:01:11,  2.03it/s] 31%|███       | 3275/10711 [50:27<1:01:13,  2.02it/s]{'loss': 3.6784, 'grad_norm': 0.18836767971515656, 'learning_rate': 0.0008765571760805238, 'epoch': 0.31}                                                      
 31%|███       | 3275/10711 [50:27<1:01:13,  2.02it/s] 31%|███       | 3276/10711 [50:28<1:02:18,  1.99it/s] 31%|███       | 3277/10711 [50:28<1:01:52,  2.00it/s] 31%|███       | 3278/10711 [50:29<1:02:32,  1.98it/s] 31%|███       | 3279/10711 [50:29<1:02:03,  2.00it/s] 31%|███       | 3280/10711 [50:30<1:01:46,  2.00it/s] 31%|███       | 3281/10711 [50:30<1:02:14,  1.99it/s] 31%|███       | 3282/10711 [50:31<1:01:47,  2.00it/s] 31%|███       | 3283/10711 [50:31<1:01:33,  2.01it/s] 31%|███       | 3284/10711 [50:32<1:01:29,  2.01it/s] 31%|███       | 3285/10711 [50:32<1:02:18,  1.99it/s] 31%|███       | 3286/10711 [50:33<1:02:05,  1.99it/s] 31%|███       | 3287/10711 [50:33<1:02:19,  1.99it/s] 31%|███       | 3288/10711 [50:34<1:02:26,  1.98it/s] 31%|███       | 3289/10711 [50:34<1:02:38,  1.97it/s] 31%|███       | 3290/10711 [50:35<1:02:49,  1.97it/s] 31%|███       | 3291/10711 [50:36<1:04:21,  1.92it/s] 31%|███       | 3292/10711 [50:36<1:05:03,  1.90it/s] 31%|███       | 3293/10711 [50:37<1:04:03,  1.93it/s] 31%|███       | 3294/10711 [50:37<1:03:04,  1.96it/s] 31%|███       | 3295/10711 [50:38<1:02:24,  1.98it/s] 31%|███       | 3296/10711 [50:38<1:02:39,  1.97it/s] 31%|███       | 3297/10711 [50:39<1:02:56,  1.96it/s] 31%|███       | 3298/10711 [50:39<1:04:06,  1.93it/s] 31%|███       | 3299/10711 [50:40<1:05:17,  1.89it/s] 31%|███       | 3300/10711 [50:40<1:03:55,  1.93it/s]                                                      {'loss': 3.6806, 'grad_norm': 0.1908618062734604, 'learning_rate': 0.0008738644207742196, 'epoch': 0.31}
 31%|███       | 3300/10711 [50:40<1:03:55,  1.93it/s] 31%|███       | 3301/10711 [50:41<1:03:03,  1.96it/s] 31%|███       | 3302/10711 [50:41<1:06:18,  1.86it/s] 31%|███       | 3303/10711 [50:42<1:05:20,  1.89it/s] 31%|███       | 3304/10711 [50:42<1:03:55,  1.93it/s] 31%|███       | 3305/10711 [50:43<1:04:15,  1.92it/s] 31%|███       | 3306/10711 [50:43<1:04:10,  1.92it/s] 31%|███       | 3307/10711 [50:44<1:03:52,  1.93it/s] 31%|███       | 3308/10711 [50:44<1:03:38,  1.94it/s] 31%|███       | 3309/10711 [50:45<1:03:33,  1.94it/s] 31%|███       | 3310/10711 [50:45<1:02:37,  1.97it/s] 31%|███       | 3311/10711 [50:46<1:02:05,  1.99it/s] 31%|███       | 3312/10711 [50:46<1:01:40,  2.00it/s] 31%|███       | 3313/10711 [50:47<1:01:15,  2.01it/s] 31%|███       | 3314/10711 [50:47<1:01:39,  2.00it/s] 31%|███       | 3315/10711 [50:48<1:01:39,  2.00it/s] 31%|███       | 3316/10711 [50:48<1:02:41,  1.97it/s] 31%|███       | 3317/10711 [50:49<1:03:07,  1.95it/s] 31%|███       | 3318/10711 [50:49<1:02:19,  1.98it/s] 31%|███       | 3319/10711 [50:50<1:01:53,  1.99it/s] 31%|███       | 3320/10711 [50:50<1:02:48,  1.96it/s] 31%|███       | 3321/10711 [50:51<1:03:00,  1.95it/s] 31%|███       | 3322/10711 [50:51<1:03:53,  1.93it/s] 31%|███       | 3323/10711 [50:52<1:02:47,  1.96it/s] 31%|███       | 3324/10711 [50:52<1:02:07,  1.98it/s] 31%|███       | 3325/10711 [50:53<1:01:41,  2.00it/s]{'loss': 3.68, 'grad_norm': 0.20334157347679138, 'learning_rate': 0.0008711468439957283, 'epoch': 0.31}
                                                       31%|███       | 3325/10711 [50:53<1:01:41,  2.00it/s] 31%|███       | 3326/10711 [50:53<1:01:27,  2.00it/s] 31%|███       | 3327/10711 [50:54<1:01:14,  2.01it/s] 31%|███       | 3328/10711 [50:54<1:00:57,  2.02it/s] 31%|███       | 3329/10711 [50:55<1:00:47,  2.02it/s] 31%|███       | 3330/10711 [50:55<1:03:10,  1.95it/s] 31%|███       | 3331/10711 [50:56<1:03:09,  1.95it/s] 31%|███       | 3332/10711 [50:56<1:02:59,  1.95it/s] 31%|███       | 3333/10711 [50:57<1:03:23,  1.94it/s] 31%|███       | 3334/10711 [50:57<1:02:30,  1.97it/s] 31%|███       | 3335/10711 [50:58<1:02:30,  1.97it/s] 31%|███       | 3336/10711 [50:58<1:03:25,  1.94it/s] 31%|███       | 3337/10711 [50:59<1:02:32,  1.96it/s] 31%|███       | 3338/10711 [51:00<1:13:35,  1.67it/s] 31%|███       | 3339/10711 [51:00<1:09:35,  1.77it/s] 31%|███       | 3340/10711 [51:01<1:06:54,  1.84it/s] 31%|███       | 3341/10711 [51:01<1:06:14,  1.85it/s] 31%|███       | 3342/10711 [51:02<1:04:58,  1.89it/s] 31%|███       | 3343/10711 [51:02<1:04:03,  1.92it/s] 31%|███       | 3344/10711 [51:03<1:03:32,  1.93it/s] 31%|███       | 3345/10711 [51:03<1:03:18,  1.94it/s] 31%|███       | 3346/10711 [51:04<1:02:26,  1.97it/s] 31%|███       | 3347/10711 [51:04<1:01:45,  1.99it/s] 31%|███▏      | 3348/10711 [51:05<1:01:22,  2.00it/s] 31%|███▏      | 3349/10711 [51:05<1:01:55,  1.98it/s] 31%|███▏      | 3350/10711 [51:06<1:02:21,  1.97it/s]{'loss': 3.6638, 'grad_norm': 0.20721787214279175, 'learning_rate': 0.0008684046261694299, 'epoch': 0.31}
                                                       31%|███▏      | 3350/10711 [51:06<1:02:21,  1.97it/s] 31%|███▏      | 3351/10711 [51:06<1:03:00,  1.95it/s] 31%|███▏      | 3352/10711 [51:07<1:03:06,  1.94it/s] 31%|███▏      | 3353/10711 [51:07<1:02:50,  1.95it/s] 31%|███▏      | 3354/10711 [51:08<1:02:06,  1.97it/s] 31%|███▏      | 3355/10711 [51:08<1:02:04,  1.98it/s] 31%|███▏      | 3356/10711 [51:09<1:01:28,  1.99it/s] 31%|███▏      | 3357/10711 [51:09<1:01:08,  2.00it/s] 31%|███▏      | 3358/10711 [51:10<1:02:06,  1.97it/s] 31%|███▏      | 3359/10711 [51:10<1:02:10,  1.97it/s] 31%|███▏      | 3360/10711 [51:11<1:01:36,  1.99it/s] 31%|███▏      | 3361/10711 [51:12<1:16:21,  1.60it/s] 31%|███▏      | 3362/10711 [51:12<1:11:38,  1.71it/s] 31%|███▏      | 3363/10711 [51:13<1:11:41,  1.71it/s] 31%|███▏      | 3364/10711 [51:13<1:08:15,  1.79it/s] 31%|███▏      | 3365/10711 [51:14<1:06:35,  1.84it/s] 31%|███▏      | 3366/10711 [51:14<1:04:40,  1.89it/s] 31%|███▏      | 3367/10711 [51:15<1:03:53,  1.92it/s] 31%|███▏      | 3368/10711 [51:15<1:03:50,  1.92it/s] 31%|███▏      | 3369/10711 [51:16<1:02:39,  1.95it/s] 31%|███▏      | 3370/10711 [51:16<1:02:48,  1.95it/s] 31%|███▏      | 3371/10711 [51:17<1:02:57,  1.94it/s] 31%|███▏      | 3372/10711 [51:17<1:02:53,  1.94it/s] 31%|███▏      | 3373/10711 [51:18<1:02:06,  1.97it/s] 32%|███▏      | 3374/10711 [51:18<1:02:02,  1.97it/s] 32%|███▏      | 3375/10711 [51:19<1:01:24,  1.99it/s]                                                      {'loss': 3.6629, 'grad_norm': 0.19857455790042877, 'learning_rate': 0.0008656379493556645, 'epoch': 0.32}
 32%|███▏      | 3375/10711 [51:19<1:01:24,  1.99it/s] 32%|███▏      | 3376/10711 [51:19<1:01:08,  2.00it/s] 32%|███▏      | 3377/10711 [51:20<1:01:29,  1.99it/s] 32%|███▏      | 3378/10711 [51:20<1:02:00,  1.97it/s] 32%|███▏      | 3379/10711 [51:21<1:01:23,  1.99it/s] 32%|███▏      | 3380/10711 [51:21<1:00:55,  2.01it/s] 32%|███▏      | 3381/10711 [51:22<1:00:39,  2.01it/s] 32%|███▏      | 3382/10711 [51:22<1:01:08,  2.00it/s] 32%|███▏      | 3383/10711 [51:23<1:01:40,  1.98it/s] 32%|███▏      | 3384/10711 [51:23<1:02:12,  1.96it/s] 32%|███▏      | 3385/10711 [51:24<1:01:31,  1.98it/s] 32%|███▏      | 3386/10711 [51:24<1:01:05,  2.00it/s] 32%|███▏      | 3387/10711 [51:25<1:02:12,  1.96it/s] 32%|███▏      | 3388/10711 [51:26<1:02:37,  1.95it/s] 32%|███▏      | 3389/10711 [51:26<1:02:48,  1.94it/s] 32%|███▏      | 3390/10711 [51:27<1:02:32,  1.95it/s] 32%|███▏      | 3391/10711 [51:27<1:03:22,  1.93it/s] 32%|███▏      | 3392/10711 [51:28<1:03:26,  1.92it/s] 32%|███▏      | 3393/10711 [51:28<1:03:12,  1.93it/s] 32%|███▏      | 3394/10711 [51:29<1:02:18,  1.96it/s] 32%|███▏      | 3395/10711 [51:29<1:02:14,  1.96it/s] 32%|███▏      | 3396/10711 [51:30<1:01:38,  1.98it/s] 32%|███▏      | 3397/10711 [51:30<1:01:51,  1.97it/s] 32%|███▏      | 3398/10711 [51:31<1:01:15,  1.99it/s] 32%|███▏      | 3399/10711 [51:31<1:01:36,  1.98it/s] 32%|███▏      | 3400/10711 [51:32<1:01:47,  1.97it/s]{'loss': 3.6702, 'grad_norm': 0.1989448517560959, 'learning_rate': 0.0008628469972386441, 'epoch': 0.32}                                                      
 32%|███▏      | 3400/10711 [51:32<1:01:47,  1.97it/s] 32%|███▏      | 3401/10711 [51:32<1:02:02,  1.96it/s] 32%|███▏      | 3402/10711 [51:33<1:02:06,  1.96it/s] 32%|███▏      | 3403/10711 [51:33<1:01:28,  1.98it/s] 32%|███▏      | 3404/10711 [51:34<1:00:59,  2.00it/s] 32%|███▏      | 3405/10711 [51:34<1:00:39,  2.01it/s] 32%|███▏      | 3406/10711 [51:35<1:00:30,  2.01it/s] 32%|███▏      | 3407/10711 [51:35<1:00:16,  2.02it/s] 32%|███▏      | 3408/10711 [51:36<1:02:19,  1.95it/s] 32%|███▏      | 3409/10711 [51:36<1:02:22,  1.95it/s] 32%|███▏      | 3410/10711 [51:37<1:02:36,  1.94it/s] 32%|███▏      | 3411/10711 [51:37<1:01:44,  1.97it/s] 32%|███▏      | 3412/10711 [51:38<1:01:55,  1.96it/s] 32%|███▏      | 3413/10711 [51:38<1:01:16,  1.98it/s] 32%|███▏      | 3414/10711 [51:39<1:01:58,  1.96it/s] 32%|███▏      | 3415/10711 [51:39<1:02:34,  1.94it/s] 32%|███▏      | 3416/10711 [51:40<1:02:49,  1.94it/s] 32%|███▏      | 3417/10711 [51:40<1:01:55,  1.96it/s] 32%|███▏      | 3418/10711 [51:41<1:07:44,  1.79it/s] 32%|███▏      | 3419/10711 [51:41<1:07:39,  1.80it/s] 32%|███▏      | 3420/10711 [51:42<1:05:26,  1.86it/s] 32%|███▏      | 3421/10711 [51:42<1:03:40,  1.91it/s] 32%|███▏      | 3422/10711 [51:43<1:02:48,  1.93it/s] 32%|███▏      | 3423/10711 [51:43<1:01:52,  1.96it/s] 32%|███▏      | 3424/10711 [51:44<1:01:17,  1.98it/s] 32%|███▏      | 3425/10711 [51:44<1:00:47,  2.00it/s]                                                      {'loss': 3.665, 'grad_norm': 0.21182610094547272, 'learning_rate': 0.0008600319551142581, 'epoch': 0.32}
 32%|███▏      | 3425/10711 [51:44<1:00:47,  2.00it/s] 32%|███▏      | 3426/10711 [51:45<1:01:07,  1.99it/s] 32%|███▏      | 3427/10711 [51:45<1:00:48,  2.00it/s] 32%|███▏      | 3428/10711 [51:46<1:00:26,  2.01it/s] 32%|███▏      | 3429/10711 [51:46<1:00:15,  2.01it/s] 32%|███▏      | 3430/10711 [51:47<1:00:02,  2.02it/s] 32%|███▏      | 3431/10711 [51:47<59:52,  2.03it/s]   32%|███▏      | 3432/10711 [51:48<1:00:31,  2.00it/s] 32%|███▏      | 3433/10711 [51:48<1:00:49,  1.99it/s] 32%|███▏      | 3434/10711 [51:49<1:00:24,  2.01it/s] 32%|███▏      | 3435/10711 [51:49<1:00:09,  2.02it/s] 32%|███▏      | 3436/10711 [51:50<1:00:03,  2.02it/s] 32%|███▏      | 3437/10711 [51:50<1:02:38,  1.94it/s] 32%|███▏      | 3438/10711 [51:51<1:04:19,  1.88it/s] 32%|███▏      | 3439/10711 [51:52<1:02:53,  1.93it/s] 32%|███▏      | 3440/10711 [51:52<1:02:23,  1.94it/s] 32%|███▏      | 3441/10711 [51:53<1:01:32,  1.97it/s] 32%|███▏      | 3442/10711 [51:53<1:01:16,  1.98it/s] 32%|███▏      | 3443/10711 [51:54<1:01:39,  1.96it/s] 32%|███▏      | 3444/10711 [51:54<1:01:00,  1.99it/s] 32%|███▏      | 3445/10711 [51:55<1:01:27,  1.97it/s] 32%|███▏      | 3446/10711 [51:55<1:01:25,  1.97it/s] 32%|███▏      | 3447/10711 [51:56<1:00:49,  1.99it/s] 32%|███▏      | 3448/10711 [51:56<1:02:12,  1.95it/s] 32%|███▏      | 3449/10711 [51:57<1:01:23,  1.97it/s] 32%|███▏      | 3450/10711 [51:57<1:01:21,  1.97it/s]                                                      {'loss': 3.668, 'grad_norm': 0.20405662059783936, 'learning_rate': 0.0008571930098777711, 'epoch': 0.32}
 32%|███▏      | 3450/10711 [51:57<1:01:21,  1.97it/s] 32%|███▏      | 3451/10711 [51:58<1:01:37,  1.96it/s] 32%|███▏      | 3452/10711 [51:58<1:01:56,  1.95it/s] 32%|███▏      | 3453/10711 [51:59<1:04:24,  1.88it/s] 32%|███▏      | 3454/10711 [51:59<1:02:58,  1.92it/s] 32%|███▏      | 3455/10711 [52:00<1:02:34,  1.93it/s] 32%|███▏      | 3456/10711 [52:00<1:01:33,  1.96it/s] 32%|███▏      | 3457/10711 [52:01<1:01:34,  1.96it/s] 32%|███▏      | 3458/10711 [52:01<1:00:54,  1.98it/s] 32%|███▏      | 3459/10711 [52:02<1:00:23,  2.00it/s] 32%|███▏      | 3460/10711 [52:02<1:00:04,  2.01it/s] 32%|███▏      | 3461/10711 [52:03<1:00:07,  2.01it/s] 32%|███▏      | 3462/10711 [52:03<59:50,  2.02it/s]   32%|███▏      | 3463/10711 [52:04<1:01:27,  1.97it/s] 32%|███▏      | 3464/10711 [52:04<1:01:23,  1.97it/s] 32%|███▏      | 3465/10711 [52:05<1:02:51,  1.92it/s] 32%|███▏      | 3466/10711 [52:05<1:02:29,  1.93it/s] 32%|███▏      | 3467/10711 [52:06<1:01:30,  1.96it/s] 32%|███▏      | 3468/10711 [52:06<1:01:56,  1.95it/s] 32%|███▏      | 3469/10711 [52:07<1:01:51,  1.95it/s] 32%|███▏      | 3470/10711 [52:07<1:01:39,  1.96it/s] 32%|███▏      | 3471/10711 [52:08<1:01:34,  1.96it/s] 32%|███▏      | 3472/10711 [52:08<1:00:52,  1.98it/s] 32%|███▏      | 3473/10711 [52:09<1:00:24,  2.00it/s] 32%|███▏      | 3474/10711 [52:09<1:00:38,  1.99it/s] 32%|███▏      | 3475/10711 [52:10<1:00:35,  1.99it/s]{'loss': 3.6544, 'grad_norm': 0.1911960393190384, 'learning_rate': 0.0008543303500114141, 'epoch': 0.32}
                                                       32%|███▏      | 3475/10711 [52:10<1:00:35,  1.99it/s] 32%|███▏      | 3476/10711 [52:10<1:01:23,  1.96it/s] 32%|███▏      | 3477/10711 [52:11<1:00:48,  1.98it/s] 32%|███▏      | 3478/10711 [52:11<1:00:21,  2.00it/s] 32%|███▏      | 3479/10711 [52:12<59:58,  2.01it/s]   32%|███▏      | 3480/10711 [52:12<1:01:29,  1.96it/s] 32%|███▏      | 3481/10711 [52:13<1:00:49,  1.98it/s] 33%|███▎      | 3482/10711 [52:13<1:00:23,  2.00it/s] 33%|███▎      | 3483/10711 [52:14<1:00:00,  2.01it/s] 33%|███▎      | 3484/10711 [52:14<1:00:59,  1.97it/s] 33%|███▎      | 3485/10711 [52:15<1:01:18,  1.96it/s] 33%|███▎      | 3486/10711 [52:15<1:00:44,  1.98it/s] 33%|███▎      | 3487/10711 [52:16<1:00:17,  2.00it/s] 33%|███▎      | 3488/10711 [52:17<1:06:42,  1.80it/s] 33%|███▎      | 3489/10711 [52:17<1:04:25,  1.87it/s] 33%|███▎      | 3490/10711 [52:18<1:03:54,  1.88it/s] 33%|███▎      | 3491/10711 [52:18<1:03:10,  1.90it/s] 33%|███▎      | 3492/10711 [52:19<1:03:00,  1.91it/s] 33%|███▎      | 3493/10711 [52:19<1:03:48,  1.89it/s] 33%|███▎      | 3494/10711 [52:20<1:02:21,  1.93it/s] 33%|███▎      | 3495/10711 [52:20<1:01:23,  1.96it/s] 33%|███▎      | 3496/10711 [52:21<1:00:55,  1.97it/s] 33%|███▎      | 3497/10711 [52:21<1:01:54,  1.94it/s] 33%|███▎      | 3498/10711 [52:22<1:01:07,  1.97it/s] 33%|███▎      | 3499/10711 [52:22<1:00:31,  1.99it/s] 33%|███▎      | 3500/10711 [52:23<1:00:03,  2.00it/s]                                                      {'loss': 3.6637, 'grad_norm': 0.21118617057800293, 'learning_rate': 0.0008514441655718719, 'epoch': 0.33}
 33%|███▎      | 3500/10711 [52:23<1:00:03,  2.00it/s] 33%|███▎      | 3501/10711 [52:23<59:54,  2.01it/s]   33%|███▎      | 3502/10711 [52:24<1:00:27,  1.99it/s] 33%|███▎      | 3503/10711 [52:24<1:00:52,  1.97it/s] 33%|███▎      | 3504/10711 [52:25<1:00:17,  1.99it/s] 33%|███▎      | 3505/10711 [52:25<1:00:34,  1.98it/s] 33%|███▎      | 3506/10711 [52:26<1:00:08,  2.00it/s] 33%|███▎      | 3507/10711 [52:26<59:45,  2.01it/s]   33%|███▎      | 3508/10711 [52:27<1:01:26,  1.95it/s] 33%|███▎      | 3509/10711 [52:27<1:00:39,  1.98it/s] 33%|███▎      | 3510/10711 [52:28<1:00:10,  1.99it/s] 33%|███▎      | 3511/10711 [52:28<59:52,  2.00it/s]   33%|███▎      | 3512/10711 [52:29<59:31,  2.02it/s] 33%|███▎      | 3513/10711 [52:29<1:01:10,  1.96it/s] 33%|███▎      | 3514/10711 [52:30<1:00:33,  1.98it/s] 33%|███▎      | 3515/10711 [52:30<1:02:13,  1.93it/s] 33%|███▎      | 3516/10711 [52:31<1:02:04,  1.93it/s] 33%|███▎      | 3517/10711 [52:31<1:01:43,  1.94it/s] 33%|███▎      | 3518/10711 [52:32<1:00:55,  1.97it/s] 33%|███▎      | 3519/10711 [52:32<1:00:57,  1.97it/s] 33%|███▎      | 3520/10711 [52:33<1:01:21,  1.95it/s] 33%|███▎      | 3521/10711 [52:33<1:02:05,  1.93it/s] 33%|███▎      | 3522/10711 [52:34<1:01:10,  1.96it/s] 33%|███▎      | 3523/10711 [52:34<1:00:30,  1.98it/s] 33%|███▎      | 3524/10711 [52:35<1:00:03,  1.99it/s] 33%|███▎      | 3525/10711 [52:35<59:42,  2.01it/s]                                                      {'loss': 3.6555, 'grad_norm': 0.19271455705165863, 'learning_rate': 0.0008485346481776637, 'epoch': 0.33}
 33%|███▎      | 3525/10711 [52:35<59:42,  2.01it/s] 33%|███▎      | 3526/10711 [52:36<59:41,  2.01it/s] 33%|███▎      | 3527/10711 [52:36<59:23,  2.02it/s] 33%|███▎      | 3528/10711 [52:37<59:56,  2.00it/s] 33%|███▎      | 3529/10711 [52:37<1:00:25,  1.98it/s] 33%|███▎      | 3530/10711 [52:38<1:00:35,  1.98it/s] 33%|███▎      | 3531/10711 [52:38<1:00:41,  1.97it/s] 33%|███▎      | 3532/10711 [52:39<1:00:14,  1.99it/s] 33%|███▎      | 3533/10711 [52:39<59:44,  2.00it/s]   33%|███▎      | 3534/10711 [52:40<59:31,  2.01it/s] 33%|███▎      | 3535/10711 [52:40<1:00:06,  1.99it/s] 33%|███▎      | 3536/10711 [52:41<59:43,  2.00it/s]   33%|███▎      | 3537/10711 [52:41<59:25,  2.01it/s] 33%|███▎      | 3538/10711 [52:42<59:57,  1.99it/s] 33%|███▎      | 3539/10711 [52:42<59:36,  2.01it/s] 33%|███▎      | 3540/10711 [52:43<1:00:44,  1.97it/s] 33%|███▎      | 3541/10711 [52:43<1:00:05,  1.99it/s] 33%|███▎      | 3542/10711 [52:44<1:00:59,  1.96it/s] 33%|███▎      | 3543/10711 [52:44<1:00:19,  1.98it/s] 33%|███▎      | 3544/10711 [52:45<1:00:29,  1.97it/s] 33%|███▎      | 3545/10711 [52:45<1:01:00,  1.96it/s] 33%|███▎      | 3546/10711 [52:46<1:00:16,  1.98it/s] 33%|███▎      | 3547/10711 [52:47<1:06:37,  1.79it/s] 33%|███▎      | 3548/10711 [52:47<1:04:48,  1.84it/s] 33%|███▎      | 3549/10711 [52:48<1:04:50,  1.84it/s] 33%|███▎      | 3550/10711 [52:48<1:03:33,  1.88it/s]{'loss': 3.6566, 'grad_norm': 0.19485272467136383, 'learning_rate': 0.0008456019909964224, 'epoch': 0.33}                                                      
 33%|███▎      | 3550/10711 [52:48<1:03:33,  1.88it/s] 33%|███▎      | 3551/10711 [52:49<1:03:00,  1.89it/s] 33%|███▎      | 3552/10711 [52:49<1:01:38,  1.94it/s] 33%|███▎      | 3553/10711 [52:50<1:00:46,  1.96it/s] 33%|███▎      | 3554/10711 [52:50<1:00:48,  1.96it/s] 33%|███▎      | 3555/10711 [52:51<1:00:06,  1.98it/s] 33%|███▎      | 3556/10711 [52:51<59:39,  2.00it/s]   33%|███▎      | 3557/10711 [52:52<59:26,  2.01it/s] 33%|███▎      | 3558/10711 [52:52<59:10,  2.01it/s] 33%|███▎      | 3559/10711 [52:53<59:07,  2.02it/s] 33%|███▎      | 3560/10711 [52:53<58:57,  2.02it/s] 33%|███▎      | 3561/10711 [52:54<58:53,  2.02it/s] 33%|███▎      | 3562/10711 [52:54<58:46,  2.03it/s] 33%|███▎      | 3563/10711 [52:55<59:27,  2.00it/s] 33%|███▎      | 3564/10711 [52:55<59:13,  2.01it/s] 33%|███▎      | 3565/10711 [52:56<59:47,  1.99it/s] 33%|███▎      | 3566/10711 [52:56<1:00:56,  1.95it/s] 33%|███▎      | 3567/10711 [52:57<1:00:17,  1.97it/s] 33%|███▎      | 3568/10711 [52:57<59:50,  1.99it/s]   33%|███▎      | 3569/10711 [52:58<59:25,  2.00it/s] 33%|███▎      | 3570/10711 [52:58<59:42,  1.99it/s] 33%|███▎      | 3571/10711 [52:59<59:20,  2.01it/s] 33%|███▎      | 3572/10711 [52:59<59:07,  2.01it/s] 33%|███▎      | 3573/10711 [53:00<1:01:07,  1.95it/s] 33%|███▎      | 3574/10711 [53:00<1:00:21,  1.97it/s] 33%|███▎      | 3575/10711 [53:01<1:00:56,  1.95it/s]                                                      {'loss': 3.6421, 'grad_norm': 0.19634908437728882, 'learning_rate': 0.0008426463887320687, 'epoch': 0.33}
 33%|███▎      | 3575/10711 [53:01<1:00:56,  1.95it/s] 33%|███▎      | 3576/10711 [53:01<1:00:16,  1.97it/s] 33%|███▎      | 3577/10711 [53:02<1:00:36,  1.96it/s] 33%|███▎      | 3578/10711 [53:02<59:59,  1.98it/s]   33%|███▎      | 3579/10711 [53:03<1:00:16,  1.97it/s] 33%|███▎      | 3580/10711 [53:03<59:43,  1.99it/s]   33%|███▎      | 3581/10711 [53:04<59:18,  2.00it/s] 33%|███▎      | 3582/10711 [53:04<58:59,  2.01it/s] 33%|███▎      | 3583/10711 [53:05<58:48,  2.02it/s] 33%|███▎      | 3584/10711 [53:05<58:42,  2.02it/s] 33%|███▎      | 3585/10711 [53:06<1:12:57,  1.63it/s] 33%|███▎      | 3586/10711 [53:07<1:10:58,  1.67it/s] 33%|███▎      | 3587/10711 [53:07<1:07:28,  1.76it/s] 33%|███▎      | 3588/10711 [53:08<1:05:25,  1.81it/s] 34%|███▎      | 3589/10711 [53:08<1:03:19,  1.87it/s] 34%|███▎      | 3590/10711 [53:09<1:01:50,  1.92it/s] 34%|███▎      | 3591/10711 [53:09<1:00:45,  1.95it/s] 34%|███▎      | 3592/10711 [53:10<1:00:05,  1.97it/s] 34%|███▎      | 3593/10711 [53:10<59:36,  1.99it/s]   34%|███▎      | 3594/10711 [53:11<1:00:28,  1.96it/s] 34%|███▎      | 3595/10711 [53:11<1:00:55,  1.95it/s] 34%|███▎      | 3596/10711 [53:12<1:01:51,  1.92it/s] 34%|███▎      | 3597/10711 [53:12<1:00:44,  1.95it/s] 34%|███▎      | 3598/10711 [53:13<1:01:16,  1.93it/s] 34%|███▎      | 3599/10711 [53:13<1:00:24,  1.96it/s] 34%|███▎      | 3600/10711 [53:14<59:42,  1.99it/s]  {'loss': 3.6584, 'grad_norm': 0.1992650181055069, 'learning_rate': 0.0008396680376118857, 'epoch': 0.34}
                                                     34%|███▎      | 3600/10711 [53:14<59:42,  1.99it/s] 34%|███▎      | 3601/10711 [53:14<59:26,  1.99it/s] 34%|███▎      | 3602/10711 [53:15<59:05,  2.01it/s] 34%|███▎      | 3603/10711 [53:15<58:47,  2.02it/s] 34%|███▎      | 3604/10711 [53:16<58:40,  2.02it/s] 34%|███▎      | 3605/10711 [53:16<1:06:57,  1.77it/s] 34%|███▎      | 3606/10711 [53:17<1:04:19,  1.84it/s] 34%|███▎      | 3607/10711 [53:17<1:02:56,  1.88it/s] 34%|███▎      | 3608/10711 [53:18<1:02:44,  1.89it/s] 34%|███▎      | 3609/10711 [53:18<1:01:19,  1.93it/s] 34%|███▎      | 3610/10711 [53:19<1:00:24,  1.96it/s] 34%|███▎      | 3611/10711 [53:19<59:41,  1.98it/s]   34%|███▎      | 3612/10711 [53:20<59:11,  2.00it/s] 34%|███▎      | 3613/10711 [53:20<58:54,  2.01it/s] 34%|███▎      | 3614/10711 [53:21<1:06:34,  1.78it/s] 34%|███▍      | 3615/10711 [53:21<1:04:01,  1.85it/s] 34%|███▍      | 3616/10711 [53:22<1:02:17,  1.90it/s] 34%|███▍      | 3617/10711 [53:22<1:01:03,  1.94it/s] 34%|███▍      | 3618/10711 [53:23<1:00:12,  1.96it/s] 34%|███▍      | 3619/10711 [53:23<59:35,  1.98it/s]   34%|███▍      | 3620/10711 [53:24<1:01:33,  1.92it/s] 34%|███▍      | 3621/10711 [53:25<1:01:11,  1.93it/s] 34%|███▍      | 3622/10711 [53:25<1:00:46,  1.94it/s] 34%|███▍      | 3623/10711 [53:26<1:01:49,  1.91it/s] 34%|███▍      | 3624/10711 [53:26<1:00:41,  1.95it/s] 34%|███▍      | 3625/10711 [53:27<1:01:39,  1.92it/s]                                                      {'loss': 3.6466, 'grad_norm': 0.19404110312461853, 'learning_rate': 0.0008366671353734896, 'epoch': 0.34}
 34%|███▍      | 3625/10711 [53:27<1:01:39,  1.92it/s] 34%|███▍      | 3626/10711 [53:27<1:01:54,  1.91it/s] 34%|███▍      | 3627/10711 [53:28<1:00:45,  1.94it/s] 34%|███▍      | 3628/10711 [53:28<1:00:01,  1.97it/s] 34%|███▍      | 3629/10711 [53:29<1:01:58,  1.90it/s] 34%|███▍      | 3630/10711 [53:29<1:00:43,  1.94it/s] 34%|███▍      | 3631/10711 [53:30<59:53,  1.97it/s]   34%|███▍      | 3632/10711 [53:30<59:20,  1.99it/s] 34%|███▍      | 3633/10711 [53:31<1:00:48,  1.94it/s] 34%|███▍      | 3634/10711 [53:31<59:57,  1.97it/s]   34%|███▍      | 3635/10711 [53:32<59:24,  1.99it/s] 34%|███▍      | 3636/10711 [53:32<1:02:38,  1.88it/s] 34%|███▍      | 3637/10711 [53:33<1:02:01,  1.90it/s] 34%|███▍      | 3638/10711 [53:33<1:00:46,  1.94it/s] 34%|███▍      | 3639/10711 [53:34<1:00:28,  1.95it/s] 34%|███▍      | 3640/10711 [53:34<59:45,  1.97it/s]   34%|███▍      | 3641/10711 [53:35<59:45,  1.97it/s] 34%|███▍      | 3642/10711 [53:35<1:00:17,  1.95it/s] 34%|███▍      | 3643/10711 [53:36<1:00:16,  1.95it/s] 34%|███▍      | 3644/10711 [53:36<1:00:11,  1.96it/s] 34%|███▍      | 3645/10711 [53:37<59:31,  1.98it/s]   34%|███▍      | 3646/10711 [53:37<59:00,  2.00it/s] 34%|███▍      | 3647/10711 [53:38<58:42,  2.01it/s] 34%|███▍      | 3648/10711 [53:38<58:28,  2.01it/s] 34%|███▍      | 3649/10711 [53:39<59:22,  1.98it/s] 34%|███▍      | 3650/10711 [53:39<58:55,  2.00it/s]                                                    {'loss': 3.6464, 'grad_norm': 0.20220761001110077, 'learning_rate': 0.0008336438812517031, 'epoch': 0.34}
 34%|███▍      | 3650/10711 [53:39<58:55,  2.00it/s] 34%|███▍      | 3651/10711 [53:40<58:47,  2.00it/s] 34%|███▍      | 3652/10711 [53:40<58:26,  2.01it/s] 34%|███▍      | 3653/10711 [53:41<58:16,  2.02it/s] 34%|███▍      | 3654/10711 [53:41<58:47,  2.00it/s] 34%|███▍      | 3655/10711 [53:42<58:26,  2.01it/s] 34%|███▍      | 3656/10711 [53:42<58:14,  2.02it/s] 34%|███▍      | 3657/10711 [53:43<58:08,  2.02it/s] 34%|███▍      | 3658/10711 [53:43<57:59,  2.03it/s] 34%|███▍      | 3659/10711 [53:44<57:51,  2.03it/s] 34%|███▍      | 3660/10711 [53:44<57:51,  2.03it/s] 34%|███▍      | 3661/10711 [53:45<57:48,  2.03it/s] 34%|███▍      | 3662/10711 [53:45<58:22,  2.01it/s] 34%|███▍      | 3663/10711 [53:46<58:13,  2.02it/s] 34%|███▍      | 3664/10711 [53:46<58:02,  2.02it/s] 34%|███▍      | 3665/10711 [53:47<57:52,  2.03it/s] 34%|███▍      | 3666/10711 [53:47<57:50,  2.03it/s] 34%|███▍      | 3667/10711 [53:48<57:47,  2.03it/s] 34%|███▍      | 3668/10711 [53:48<57:40,  2.04it/s] 34%|███▍      | 3669/10711 [53:49<57:41,  2.03it/s] 34%|███▍      | 3670/10711 [53:49<59:13,  1.98it/s] 34%|███▍      | 3671/10711 [53:50<58:47,  2.00it/s] 34%|███▍      | 3672/10711 [53:50<58:31,  2.00it/s] 34%|███▍      | 3673/10711 [53:51<59:09,  1.98it/s] 34%|███▍      | 3674/10711 [53:51<1:05:45,  1.78it/s] 34%|███▍      | 3675/10711 [53:52<1:04:06,  1.83it/s]                                                      {'loss': 3.6501, 'grad_norm': 0.21013985574245453, 'learning_rate': 0.0008305984759653265, 'epoch': 0.34}
 34%|███▍      | 3675/10711 [53:52<1:04:06,  1.83it/s] 34%|███▍      | 3676/10711 [53:52<1:02:13,  1.88it/s] 34%|███▍      | 3677/10711 [53:53<1:01:47,  1.90it/s] 34%|███▍      | 3678/10711 [53:53<1:01:25,  1.91it/s] 34%|███▍      | 3679/10711 [53:54<1:01:33,  1.90it/s] 34%|███▍      | 3680/10711 [53:55<1:00:22,  1.94it/s] 34%|███▍      | 3681/10711 [53:55<59:33,  1.97it/s]   34%|███▍      | 3682/10711 [53:55<58:58,  1.99it/s] 34%|███▍      | 3683/10711 [53:56<58:36,  2.00it/s] 34%|███▍      | 3684/10711 [53:56<58:13,  2.01it/s] 34%|███▍      | 3685/10711 [53:57<58:40,  2.00it/s] 34%|███▍      | 3686/10711 [53:57<58:22,  2.01it/s] 34%|███▍      | 3687/10711 [53:58<58:10,  2.01it/s] 34%|███▍      | 3688/10711 [53:58<58:03,  2.02it/s] 34%|███▍      | 3689/10711 [53:59<58:30,  2.00it/s] 34%|███▍      | 3690/10711 [54:00<59:56,  1.95it/s] 34%|███▍      | 3691/10711 [54:00<59:10,  1.98it/s] 34%|███▍      | 3692/10711 [54:00<58:38,  2.00it/s] 34%|███▍      | 3693/10711 [54:01<58:52,  1.99it/s] 34%|███▍      | 3694/10711 [54:01<58:25,  2.00it/s] 34%|███▍      | 3695/10711 [54:02<58:08,  2.01it/s] 35%|███▍      | 3696/10711 [54:02<58:05,  2.01it/s] 35%|███▍      | 3697/10711 [54:03<57:51,  2.02it/s] 35%|███▍      | 3698/10711 [54:03<57:48,  2.02it/s] 35%|███▍      | 3699/10711 [54:04<57:42,  2.03it/s] 35%|███▍      | 3700/10711 [54:04<57:35,  2.03it/s]{'loss': 3.6352, 'grad_norm': 0.1876680701971054, 'learning_rate': 0.0008275311217038126, 'epoch': 0.35}                                                    
 35%|███▍      | 3700/10711 [54:04<57:35,  2.03it/s] 35%|███▍      | 3701/10711 [54:05<58:46,  1.99it/s] 35%|███▍      | 3702/10711 [54:05<58:26,  2.00it/s] 35%|███▍      | 3703/10711 [54:06<58:37,  1.99it/s] 35%|███▍      | 3704/10711 [54:06<58:18,  2.00it/s] 35%|███▍      | 3705/10711 [54:07<58:27,  2.00it/s] 35%|███▍      | 3706/10711 [54:07<58:40,  1.99it/s] 35%|███▍      | 3707/10711 [54:08<58:16,  2.00it/s] 35%|███▍      | 3708/10711 [54:09<1:00:13,  1.94it/s] 35%|███▍      | 3709/10711 [54:09<59:25,  1.96it/s]   35%|███▍      | 3710/10711 [54:10<58:46,  1.99it/s] 35%|███▍      | 3711/10711 [54:10<58:21,  2.00it/s] 35%|███▍      | 3712/10711 [54:10<58:01,  2.01it/s] 35%|███▍      | 3713/10711 [54:11<57:51,  2.02it/s] 35%|███▍      | 3714/10711 [54:11<57:41,  2.02it/s] 35%|███▍      | 3715/10711 [54:12<58:10,  2.00it/s] 35%|███▍      | 3716/10711 [54:12<58:37,  1.99it/s] 35%|███▍      | 3717/10711 [54:13<59:03,  1.97it/s] 35%|███▍      | 3718/10711 [54:14<58:33,  1.99it/s] 35%|███▍      | 3719/10711 [54:14<59:43,  1.95it/s] 35%|███▍      | 3720/10711 [54:15<59:23,  1.96it/s] 35%|███▍      | 3721/10711 [54:15<58:42,  1.98it/s] 35%|███▍      | 3722/10711 [54:16<58:21,  2.00it/s] 35%|███▍      | 3723/10711 [54:16<1:00:40,  1.92it/s] 35%|███▍      | 3724/10711 [54:17<59:36,  1.95it/s]   35%|███▍      | 3725/10711 [54:17<58:57,  1.97it/s]{'loss': 3.6348, 'grad_norm': 0.20228660106658936, 'learning_rate': 0.0008244420221138423, 'epoch': 0.35}
                                                     35%|███▍      | 3725/10711 [54:17<58:57,  1.97it/s] 35%|███▍      | 3726/10711 [54:18<58:25,  1.99it/s] 35%|███▍      | 3727/10711 [54:18<59:25,  1.96it/s] 35%|███▍      | 3728/10711 [54:19<58:45,  1.98it/s] 35%|███▍      | 3729/10711 [54:19<58:16,  2.00it/s] 35%|███▍      | 3730/10711 [54:20<58:31,  1.99it/s] 35%|███▍      | 3731/10711 [54:20<58:11,  2.00it/s] 35%|███▍      | 3732/10711 [54:21<58:34,  1.99it/s] 35%|███▍      | 3733/10711 [54:21<58:06,  2.00it/s] 35%|███▍      | 3734/10711 [54:22<1:00:48,  1.91it/s] 35%|███▍      | 3735/10711 [54:22<59:40,  1.95it/s]   35%|███▍      | 3736/10711 [54:23<1:00:37,  1.92it/s] 35%|███▍      | 3737/10711 [54:23<1:00:44,  1.91it/s] 35%|███▍      | 3738/10711 [54:24<1:01:34,  1.89it/s] 35%|███▍      | 3739/10711 [54:24<1:00:54,  1.91it/s] 35%|███▍      | 3740/10711 [54:25<1:00:22,  1.92it/s] 35%|███▍      | 3741/10711 [54:25<59:26,  1.95it/s]   35%|███▍      | 3742/10711 [54:26<58:43,  1.98it/s] 35%|███▍      | 3743/10711 [54:26<58:41,  1.98it/s] 35%|███▍      | 3744/10711 [54:27<59:15,  1.96it/s] 35%|███▍      | 3745/10711 [54:27<58:37,  1.98it/s] 35%|███▍      | 3746/10711 [54:28<58:45,  1.98it/s] 35%|███▍      | 3747/10711 [54:28<58:13,  1.99it/s] 35%|███▍      | 3748/10711 [54:29<58:34,  1.98it/s] 35%|███▌      | 3749/10711 [54:29<58:07,  2.00it/s] 35%|███▌      | 3750/10711 [54:30<57:44,  2.01it/s]                                                    {'loss': 3.6414, 'grad_norm': 0.19352979958057404, 'learning_rate': 0.000821331382285805, 'epoch': 0.35}
 35%|███▌      | 3750/10711 [54:30<57:44,  2.01it/s] 35%|███▌      | 3751/10711 [54:30<58:04,  2.00it/s] 35%|███▌      | 3752/10711 [54:31<58:25,  1.98it/s] 35%|███▌      | 3753/10711 [54:31<58:00,  2.00it/s] 35%|███▌      | 3754/10711 [54:32<57:38,  2.01it/s] 35%|███▌      | 3755/10711 [54:32<57:28,  2.02it/s] 35%|███▌      | 3756/10711 [54:33<57:26,  2.02it/s] 35%|███▌      | 3757/10711 [54:33<58:13,  1.99it/s] 35%|███▌      | 3758/10711 [54:34<58:31,  1.98it/s] 35%|███▌      | 3759/10711 [54:34<58:36,  1.98it/s] 35%|███▌      | 3760/10711 [54:35<58:52,  1.97it/s] 35%|███▌      | 3761/10711 [54:35<58:18,  1.99it/s] 35%|███▌      | 3762/10711 [54:36<59:53,  1.93it/s] 35%|███▌      | 3763/10711 [54:36<58:58,  1.96it/s] 35%|███▌      | 3764/10711 [54:37<58:21,  1.98it/s] 35%|███▌      | 3765/10711 [54:37<59:40,  1.94it/s] 35%|███▌      | 3766/10711 [54:38<58:52,  1.97it/s] 35%|███▌      | 3767/10711 [54:38<59:35,  1.94it/s] 35%|███▌      | 3768/10711 [54:39<59:50,  1.93it/s] 35%|███▌      | 3769/10711 [54:39<58:56,  1.96it/s] 35%|███▌      | 3770/10711 [54:40<58:22,  1.98it/s] 35%|███▌      | 3771/10711 [54:40<58:38,  1.97it/s] 35%|███▌      | 3772/10711 [54:41<58:07,  1.99it/s] 35%|███▌      | 3773/10711 [54:41<58:12,  1.99it/s] 35%|███▌      | 3774/10711 [54:42<57:49,  2.00it/s] 35%|███▌      | 3775/10711 [54:42<58:41,  1.97it/s]{'loss': 3.6371, 'grad_norm': 0.1918202042579651, 'learning_rate': 0.0008181994087401818, 'epoch': 0.35}
                                                     35%|███▌      | 3775/10711 [54:42<58:41,  1.97it/s] 35%|███▌      | 3776/10711 [54:43<58:50,  1.96it/s] 35%|███▌      | 3777/10711 [54:43<58:13,  1.98it/s] 35%|███▌      | 3778/10711 [54:44<57:47,  2.00it/s] 35%|███▌      | 3779/10711 [54:44<57:33,  2.01it/s] 35%|███▌      | 3780/10711 [54:45<58:08,  1.99it/s] 35%|███▌      | 3781/10711 [54:45<57:45,  2.00it/s] 35%|███▌      | 3782/10711 [54:46<57:30,  2.01it/s] 35%|███▌      | 3783/10711 [54:46<57:35,  2.01it/s] 35%|███▌      | 3784/10711 [54:47<57:54,  1.99it/s] 35%|███▌      | 3785/10711 [54:47<57:30,  2.01it/s] 35%|███▌      | 3786/10711 [54:48<57:17,  2.01it/s] 35%|███▌      | 3787/10711 [54:48<57:44,  2.00it/s] 35%|███▌      | 3788/10711 [54:49<58:55,  1.96it/s] 35%|███▌      | 3789/10711 [54:49<58:14,  1.98it/s] 35%|███▌      | 3790/10711 [54:50<58:21,  1.98it/s] 35%|███▌      | 3791/10711 [54:50<57:58,  1.99it/s] 35%|███▌      | 3792/10711 [54:51<57:33,  2.00it/s] 35%|███▌      | 3793/10711 [54:51<57:17,  2.01it/s] 35%|███▌      | 3794/10711 [54:52<58:19,  1.98it/s] 35%|███▌      | 3795/10711 [54:52<58:04,  1.98it/s] 35%|███▌      | 3796/10711 [54:53<57:37,  2.00it/s] 35%|███▌      | 3797/10711 [54:53<57:59,  1.99it/s] 35%|███▌      | 3798/10711 [54:54<57:30,  2.00it/s] 35%|███▌      | 3799/10711 [54:54<57:15,  2.01it/s] 35%|███▌      | 3800/10711 [54:55<57:05,  2.02it/s]                                                    {'loss': 3.6311, 'grad_norm': 0.19569963216781616, 'learning_rate': 0.0008150463094138338, 'epoch': 0.35}
 35%|███▌      | 3800/10711 [54:55<57:05,  2.02it/s] 35%|███▌      | 3801/10711 [54:55<56:59,  2.02it/s] 35%|███▌      | 3802/10711 [54:56<56:53,  2.02it/s] 36%|███▌      | 3803/10711 [54:57<1:00:12,  1.91it/s] 36%|███▌      | 3804/10711 [54:57<59:26,  1.94it/s]   36%|███▌      | 3805/10711 [54:58<58:32,  1.97it/s] 36%|███▌      | 3806/10711 [54:58<57:57,  1.99it/s] 36%|███▌      | 3807/10711 [54:59<57:35,  2.00it/s] 36%|███▌      | 3808/10711 [54:59<57:14,  2.01it/s] 36%|███▌      | 3809/10711 [54:59<57:10,  2.01it/s] 36%|███▌      | 3810/10711 [55:00<56:58,  2.02it/s] 36%|███▌      | 3811/10711 [55:00<56:48,  2.02it/s] 36%|███▌      | 3812/10711 [55:01<56:43,  2.03it/s] 36%|███▌      | 3813/10711 [55:02<59:24,  1.94it/s] 36%|███▌      | 3814/10711 [55:02<58:28,  1.97it/s] 36%|███▌      | 3815/10711 [55:03<57:54,  1.98it/s] 36%|███▌      | 3816/10711 [55:03<58:14,  1.97it/s] 36%|███▌      | 3817/10711 [55:04<58:15,  1.97it/s] 36%|███▌      | 3818/10711 [55:04<57:43,  1.99it/s] 36%|███▌      | 3819/10711 [55:05<57:22,  2.00it/s] 36%|███▌      | 3820/10711 [55:05<57:42,  1.99it/s] 36%|███▌      | 3821/10711 [55:06<57:18,  2.00it/s] 36%|███▌      | 3822/10711 [55:06<57:51,  1.98it/s] 36%|███▌      | 3823/10711 [55:07<58:48,  1.95it/s] 36%|███▌      | 3824/10711 [55:07<58:03,  1.98it/s] 36%|███▌      | 3825/10711 [55:08<57:34,  1.99it/s]{'loss': 3.6211, 'grad_norm': 0.1990758180618286, 'learning_rate': 0.0008118722936461978, 'epoch': 0.36}
                                                     36%|███▌      | 3825/10711 [55:08<57:34,  1.99it/s] 36%|███▌      | 3826/10711 [55:08<57:18,  2.00it/s] 36%|███▌      | 3827/10711 [55:09<57:34,  1.99it/s] 36%|███▌      | 3828/10711 [55:09<57:52,  1.98it/s] 36%|███▌      | 3829/10711 [55:10<57:25,  2.00it/s] 36%|███▌      | 3830/10711 [55:10<57:47,  1.98it/s] 36%|███▌      | 3831/10711 [55:11<57:54,  1.98it/s] 36%|███▌      | 3832/10711 [55:11<57:24,  2.00it/s] 36%|███▌      | 3833/10711 [55:12<58:03,  1.97it/s] 36%|███▌      | 3834/10711 [55:12<58:11,  1.97it/s] 36%|███▌      | 3835/10711 [55:13<57:40,  1.99it/s] 36%|███▌      | 3836/10711 [55:13<57:57,  1.98it/s] 36%|███▌      | 3837/10711 [55:14<58:02,  1.97it/s] 36%|███▌      | 3838/10711 [55:14<59:22,  1.93it/s] 36%|███▌      | 3839/10711 [55:15<59:23,  1.93it/s] 36%|███▌      | 3840/10711 [55:15<1:00:31,  1.89it/s] 36%|███▌      | 3841/10711 [55:16<1:00:13,  1.90it/s] 36%|███▌      | 3842/10711 [55:16<58:59,  1.94it/s]   36%|███▌      | 3843/10711 [55:17<58:52,  1.94it/s] 36%|███▌      | 3844/10711 [55:17<58:43,  1.95it/s] 36%|███▌      | 3845/10711 [55:18<57:55,  1.98it/s] 36%|███▌      | 3846/10711 [55:18<58:36,  1.95it/s] 36%|███▌      | 3847/10711 [55:19<58:23,  1.96it/s] 36%|███▌      | 3848/10711 [55:19<58:44,  1.95it/s] 36%|███▌      | 3849/10711 [55:20<59:03,  1.94it/s] 36%|███▌      | 3850/10711 [55:20<59:19,  1.93it/s]                                                    {'loss': 3.629, 'grad_norm': 0.19954253733158112, 'learning_rate': 0.0008086775721653872, 'epoch': 0.36}
 36%|███▌      | 3850/10711 [55:20<59:19,  1.93it/s] 36%|███▌      | 3851/10711 [55:21<1:02:29,  1.83it/s] 36%|███▌      | 3852/10711 [55:21<1:00:42,  1.88it/s] 36%|███▌      | 3853/10711 [55:22<59:20,  1.93it/s]   36%|███▌      | 3854/10711 [55:22<58:20,  1.96it/s] 36%|███▌      | 3855/10711 [55:23<57:42,  1.98it/s] 36%|███▌      | 3856/10711 [55:23<57:13,  2.00it/s] 36%|███▌      | 3857/10711 [55:24<57:32,  1.99it/s] 36%|███▌      | 3858/10711 [55:25<1:06:22,  1.72it/s] 36%|███▌      | 3859/10711 [55:25<1:03:25,  1.80it/s] 36%|███▌      | 3860/10711 [55:26<1:09:51,  1.63it/s] 36%|███▌      | 3861/10711 [55:26<1:05:47,  1.74it/s] 36%|███▌      | 3862/10711 [55:27<1:02:50,  1.82it/s] 36%|███▌      | 3863/10711 [55:27<1:00:44,  1.88it/s] 36%|███▌      | 3864/10711 [55:28<59:21,  1.92it/s]   36%|███▌      | 3865/10711 [55:28<58:21,  1.96it/s] 36%|███▌      | 3866/10711 [55:29<57:38,  1.98it/s] 36%|███▌      | 3867/10711 [55:29<57:11,  1.99it/s] 36%|███▌      | 3868/10711 [55:30<56:49,  2.01it/s] 36%|███▌      | 3869/10711 [55:30<56:34,  2.02it/s] 36%|███▌      | 3870/10711 [55:31<56:27,  2.02it/s] 36%|███▌      | 3871/10711 [55:31<56:17,  2.03it/s] 36%|███▌      | 3872/10711 [55:32<56:09,  2.03it/s] 36%|███▌      | 3873/10711 [55:32<56:04,  2.03it/s] 36%|███▌      | 3874/10711 [55:33<56:05,  2.03it/s] 36%|███▌      | 3875/10711 [55:33<55:57,  2.04it/s]                                                    {'loss': 3.6295, 'grad_norm': 0.20127376914024353, 'learning_rate': 0.0008054623570742019, 'epoch': 0.36}
 36%|███▌      | 3875/10711 [55:33<55:57,  2.04it/s] 36%|███▌      | 3876/10711 [55:34<56:00,  2.03it/s] 36%|███▌      | 3877/10711 [55:34<56:45,  2.01it/s] 36%|███▌      | 3878/10711 [55:35<56:27,  2.02it/s] 36%|███▌      | 3879/10711 [55:35<56:20,  2.02it/s] 36%|███▌      | 3880/10711 [55:36<56:13,  2.02it/s] 36%|███▌      | 3881/10711 [55:36<56:05,  2.03it/s] 36%|███▌      | 3882/10711 [55:37<1:05:23,  1.74it/s] 36%|███▋      | 3883/10711 [55:38<1:02:28,  1.82it/s] 36%|███▋      | 3884/10711 [55:38<1:00:30,  1.88it/s] 36%|███▋      | 3885/10711 [55:39<59:09,  1.92it/s]   36%|███▋      | 3886/10711 [55:39<58:09,  1.96it/s] 36%|███▋      | 3887/10711 [55:40<57:36,  1.97it/s] 36%|███▋      | 3888/10711 [55:40<57:49,  1.97it/s] 36%|███▋      | 3889/10711 [55:41<57:14,  1.99it/s] 36%|███▋      | 3890/10711 [55:41<56:52,  2.00it/s] 36%|███▋      | 3891/10711 [55:41<56:29,  2.01it/s] 36%|███▋      | 3892/10711 [55:42<56:18,  2.02it/s] 36%|███▋      | 3893/10711 [55:42<56:09,  2.02it/s] 36%|███▋      | 3894/10711 [55:43<56:04,  2.03it/s] 36%|███▋      | 3895/10711 [55:43<56:47,  2.00it/s] 36%|███▋      | 3896/10711 [55:44<56:29,  2.01it/s] 36%|███▋      | 3897/10711 [55:44<56:16,  2.02it/s] 36%|███▋      | 3898/10711 [55:45<56:11,  2.02it/s] 36%|███▋      | 3899/10711 [55:45<56:40,  2.00it/s] 36%|███▋      | 3900/10711 [55:46<56:26,  2.01it/s]{'loss': 3.621, 'grad_norm': 0.19699567556381226, 'learning_rate': 0.000802226861836046, 'epoch': 0.36}                                                    
 36%|███▋      | 3900/10711 [55:46<56:26,  2.01it/s] 36%|███▋      | 3901/10711 [55:46<56:18,  2.02it/s] 36%|███▋      | 3902/10711 [55:47<56:04,  2.02it/s] 36%|███▋      | 3903/10711 [55:47<55:56,  2.03it/s] 36%|███▋      | 3904/10711 [55:48<55:54,  2.03it/s] 36%|███▋      | 3905/10711 [55:48<58:08,  1.95it/s] 36%|███▋      | 3906/10711 [55:49<57:24,  1.98it/s] 36%|███▋      | 3907/10711 [55:49<57:35,  1.97it/s] 36%|███▋      | 3908/10711 [55:50<57:42,  1.96it/s] 36%|███▋      | 3909/10711 [55:50<57:08,  1.98it/s] 37%|███▋      | 3910/10711 [55:51<57:35,  1.97it/s] 37%|███▋      | 3911/10711 [55:51<57:00,  1.99it/s] 37%|███▋      | 3912/10711 [55:52<57:11,  1.98it/s] 37%|███▋      | 3913/10711 [55:53<57:18,  1.98it/s] 37%|███▋      | 3914/10711 [55:53<56:50,  1.99it/s] 37%|███▋      | 3915/10711 [55:54<57:13,  1.98it/s] 37%|███▋      | 3916/10711 [55:54<56:41,  2.00it/s] 37%|███▋      | 3917/10711 [55:55<56:24,  2.01it/s] 37%|███▋      | 3918/10711 [55:55<56:11,  2.01it/s] 37%|███▋      | 3919/10711 [55:55<56:00,  2.02it/s] 37%|███▋      | 3920/10711 [55:56<55:57,  2.02it/s] 37%|███▋      | 3921/10711 [55:56<55:50,  2.03it/s] 37%|███▋      | 3922/10711 [55:57<58:16,  1.94it/s] 37%|███▋      | 3923/10711 [55:58<57:32,  1.97it/s] 37%|███▋      | 3924/10711 [55:58<1:08:32,  1.65it/s] 37%|███▋      | 3925/10711 [55:59<1:05:17,  1.73it/s]{'loss': 3.6211, 'grad_norm': 0.20952153205871582, 'learning_rate': 0.000798971301260756, 'epoch': 0.37}                                                      
 37%|███▋      | 3925/10711 [55:59<1:05:17,  1.73it/s] 37%|███▋      | 3926/10711 [55:59<1:02:54,  1.80it/s] 37%|███▋      | 3927/10711 [56:00<1:01:35,  1.84it/s] 37%|███▋      | 3928/10711 [56:00<59:53,  1.89it/s]   37%|███▋      | 3929/10711 [56:01<58:34,  1.93it/s] 37%|███▋      | 3930/10711 [56:01<57:44,  1.96it/s] 37%|███▋      | 3931/10711 [56:02<57:06,  1.98it/s] 37%|███▋      | 3932/10711 [56:02<56:35,  2.00it/s] 37%|███▋      | 3933/10711 [56:03<57:21,  1.97it/s] 37%|███▋      | 3934/10711 [56:03<56:46,  1.99it/s] 37%|███▋      | 3935/10711 [56:04<57:18,  1.97it/s] 37%|███▋      | 3936/10711 [56:04<56:46,  1.99it/s] 37%|███▋      | 3937/10711 [56:05<56:22,  2.00it/s] 37%|███▋      | 3938/10711 [56:05<56:06,  2.01it/s] 37%|███▋      | 3939/10711 [56:06<57:01,  1.98it/s] 37%|███▋      | 3940/10711 [56:06<57:22,  1.97it/s] 37%|███▋      | 3941/10711 [56:07<57:22,  1.97it/s] 37%|███▋      | 3942/10711 [56:07<57:25,  1.96it/s] 37%|███▋      | 3943/10711 [56:08<56:51,  1.98it/s] 37%|███▋      | 3944/10711 [56:08<56:42,  1.99it/s] 37%|███▋      | 3945/10711 [56:09<57:14,  1.97it/s] 37%|███▋      | 3946/10711 [56:09<56:38,  1.99it/s] 37%|███▋      | 3947/10711 [56:10<56:16,  2.00it/s] 37%|███▋      | 3948/10711 [56:10<56:33,  1.99it/s] 37%|███▋      | 3949/10711 [56:11<56:08,  2.01it/s] 37%|███▋      | 3950/10711 [56:11<55:54,  2.02it/s]{'loss': 3.6184, 'grad_norm': 0.19671474397182465, 'learning_rate': 0.0007956958914903389, 'epoch': 0.37}
                                                     37%|███▋      | 3950/10711 [56:11<55:54,  2.02it/s] 37%|███▋      | 3951/10711 [56:12<55:49,  2.02it/s] 37%|███▋      | 3952/10711 [56:12<55:38,  2.02it/s] 37%|███▋      | 3953/10711 [56:13<55:40,  2.02it/s] 37%|███▋      | 3954/10711 [56:13<55:31,  2.03it/s] 37%|███▋      | 3955/10711 [56:14<57:01,  1.97it/s] 37%|███▋      | 3956/10711 [56:14<56:31,  1.99it/s] 37%|███▋      | 3957/10711 [56:15<56:06,  2.01it/s] 37%|███▋      | 3958/10711 [56:15<55:51,  2.01it/s] 37%|███▋      | 3959/10711 [56:16<55:39,  2.02it/s] 37%|███▋      | 3960/10711 [56:16<55:32,  2.03it/s] 37%|███▋      | 3961/10711 [56:17<55:28,  2.03it/s] 37%|███▋      | 3962/10711 [56:17<55:21,  2.03it/s] 37%|███▋      | 3963/10711 [56:18<55:20,  2.03it/s] 37%|███▋      | 3964/10711 [56:18<55:21,  2.03it/s] 37%|███▋      | 3965/10711 [56:19<55:57,  2.01it/s] 37%|███▋      | 3966/10711 [56:19<55:41,  2.02it/s] 37%|███▋      | 3967/10711 [56:20<55:31,  2.02it/s] 37%|███▋      | 3968/10711 [56:20<55:26,  2.03it/s] 37%|███▋      | 3969/10711 [56:21<55:19,  2.03it/s] 37%|███▋      | 3970/10711 [56:21<56:18,  2.00it/s] 37%|███▋      | 3971/10711 [56:22<55:55,  2.01it/s] 37%|███▋      | 3972/10711 [56:22<55:40,  2.02it/s] 37%|███▋      | 3973/10711 [56:23<56:17,  2.00it/s] 37%|███▋      | 3974/10711 [56:23<55:53,  2.01it/s] 37%|███▋      | 3975/10711 [56:24<56:26,  1.99it/s]{'loss': 3.6204, 'grad_norm': 0.21533776819705963, 'learning_rate': 0.0007924008499846224, 'epoch': 0.37}                                                    
 37%|███▋      | 3975/10711 [56:24<56:26,  1.99it/s] 37%|███▋      | 3976/10711 [56:24<56:08,  2.00it/s] 37%|███▋      | 3977/10711 [56:25<55:50,  2.01it/s] 37%|███▋      | 3978/10711 [56:25<56:55,  1.97it/s] 37%|███▋      | 3979/10711 [56:26<57:02,  1.97it/s] 37%|███▋      | 3980/10711 [56:26<56:24,  1.99it/s] 37%|███▋      | 3981/10711 [56:27<56:02,  2.00it/s] 37%|███▋      | 3982/10711 [56:27<56:20,  1.99it/s] 37%|███▋      | 3983/10711 [56:28<56:00,  2.00it/s] 37%|███▋      | 3984/10711 [56:28<55:41,  2.01it/s] 37%|███▋      | 3985/10711 [56:29<55:30,  2.02it/s] 37%|███▋      | 3986/10711 [56:29<55:20,  2.03it/s] 37%|███▋      | 3987/10711 [56:30<55:11,  2.03it/s] 37%|███▋      | 3988/10711 [56:30<55:12,  2.03it/s] 37%|███▋      | 3989/10711 [56:31<56:35,  1.98it/s] 37%|███▋      | 3990/10711 [56:31<56:08,  2.00it/s] 37%|███▋      | 3991/10711 [56:32<55:46,  2.01it/s] 37%|███▋      | 3992/10711 [56:32<55:28,  2.02it/s] 37%|███▋      | 3993/10711 [56:33<55:18,  2.02it/s] 37%|███▋      | 3994/10711 [56:33<55:14,  2.03it/s] 37%|███▋      | 3995/10711 [56:34<55:10,  2.03it/s] 37%|███▋      | 3996/10711 [56:34<55:01,  2.03it/s] 37%|███▋      | 3997/10711 [56:35<55:27,  2.02it/s] 37%|███▋      | 3998/10711 [56:35<55:27,  2.02it/s] 37%|███▋      | 3999/10711 [56:36<55:50,  2.00it/s] 37%|███▋      | 4000/10711 [56:36<56:42,  1.97it/s]                                                    {'loss': 3.6226, 'grad_norm': 0.19822274148464203, 'learning_rate': 0.0007890863955068172, 'epoch': 0.37}
 37%|███▋      | 4000/10711 [56:36<56:42,  1.97it/s] 37%|███▋      | 4001/10711 [56:37<56:16,  1.99it/s] 37%|███▋      | 4002/10711 [56:37<55:53,  2.00it/s] 37%|███▋      | 4003/10711 [56:38<55:34,  2.01it/s] 37%|███▋      | 4004/10711 [56:38<57:58,  1.93it/s] 37%|███▋      | 4005/10711 [56:39<57:06,  1.96it/s] 37%|███▋      | 4006/10711 [56:39<56:22,  1.98it/s] 37%|███▋      | 4007/10711 [56:40<55:51,  2.00it/s] 37%|███▋      | 4008/10711 [56:40<55:42,  2.01it/s] 37%|███▋      | 4009/10711 [56:41<56:04,  1.99it/s] 37%|███▋      | 4010/10711 [56:41<55:39,  2.01it/s] 37%|███▋      | 4011/10711 [56:42<56:13,  1.99it/s] 37%|███▋      | 4012/10711 [56:42<56:21,  1.98it/s] 37%|███▋      | 4013/10711 [56:43<55:54,  2.00it/s] 37%|███▋      | 4014/10711 [56:43<57:33,  1.94it/s] 37%|███▋      | 4015/10711 [56:44<56:43,  1.97it/s] 37%|███▋      | 4016/10711 [56:44<56:06,  1.99it/s] 38%|███▊      | 4017/10711 [56:45<56:21,  1.98it/s] 38%|███▊      | 4018/10711 [56:45<55:54,  2.00it/s] 38%|███▊      | 4019/10711 [56:46<57:24,  1.94it/s] 38%|███▊      | 4020/10711 [56:46<57:59,  1.92it/s] 38%|███▊      | 4021/10711 [56:47<58:55,  1.89it/s] 38%|███▊      | 4022/10711 [56:48<59:05,  1.89it/s] 38%|███▊      | 4023/10711 [56:48<57:50,  1.93it/s] 38%|███▊      | 4024/10711 [56:49<56:59,  1.96it/s] 38%|███▊      | 4025/10711 [56:49<56:19,  1.98it/s]                                                    {'loss': 3.6217, 'grad_norm': 0.19493131339550018, 'learning_rate': 0.0007857527481089933, 'epoch': 0.38}
 38%|███▊      | 4025/10711 [56:49<56:19,  1.98it/s] 38%|███▊      | 4026/10711 [56:49<55:58,  1.99it/s] 38%|███▊      | 4027/10711 [56:50<56:12,  1.98it/s] 38%|███▊      | 4028/10711 [56:50<55:47,  2.00it/s] 38%|███▊      | 4029/10711 [56:51<55:27,  2.01it/s] 38%|███▊      | 4030/10711 [56:51<55:10,  2.02it/s] 38%|███▊      | 4031/10711 [56:52<55:36,  2.00it/s] 38%|███▊      | 4032/10711 [56:52<56:01,  1.99it/s] 38%|███▊      | 4033/10711 [56:53<56:47,  1.96it/s] 38%|███▊      | 4034/10711 [56:54<56:11,  1.98it/s] 38%|███▊      | 4035/10711 [56:54<56:14,  1.98it/s] 38%|███▊      | 4036/10711 [56:55<55:43,  2.00it/s] 38%|███▊      | 4037/10711 [56:55<56:15,  1.98it/s] 38%|███▊      | 4038/10711 [56:56<56:28,  1.97it/s] 38%|███▊      | 4039/10711 [56:56<55:52,  1.99it/s] 38%|███▊      | 4040/10711 [56:57<55:33,  2.00it/s] 38%|███▊      | 4041/10711 [56:57<55:53,  1.99it/s] 38%|███▊      | 4042/10711 [56:58<56:06,  1.98it/s] 38%|███▊      | 4043/10711 [56:58<55:40,  2.00it/s] 38%|███▊      | 4044/10711 [56:59<55:21,  2.01it/s] 38%|███▊      | 4045/10711 [56:59<55:01,  2.02it/s] 38%|███▊      | 4046/10711 [57:00<54:51,  2.03it/s] 38%|███▊      | 4047/10711 [57:00<54:45,  2.03it/s] 38%|███▊      | 4048/10711 [57:00<54:39,  2.03it/s] 38%|███▊      | 4049/10711 [57:01<54:31,  2.04it/s] 38%|███▊      | 4050/10711 [57:01<54:34,  2.03it/s]{'loss': 3.6137, 'grad_norm': 0.19275201857089996, 'learning_rate': 0.00078240012911747, 'epoch': 0.38}
                                                     38%|███▊      | 4050/10711 [57:01<54:34,  2.03it/s] 38%|███▊      | 4051/10711 [57:02<54:38,  2.03it/s] 38%|███▊      | 4052/10711 [57:02<55:08,  2.01it/s] 38%|███▊      | 4053/10711 [57:03<54:59,  2.02it/s] 38%|███▊      | 4054/10711 [57:03<54:49,  2.02it/s] 38%|███▊      | 4055/10711 [57:04<55:16,  2.01it/s] 38%|███▊      | 4056/10711 [57:04<55:04,  2.01it/s] 38%|███▊      | 4057/10711 [57:05<54:51,  2.02it/s] 38%|███▊      | 4058/10711 [57:05<54:45,  2.03it/s] 38%|███▊      | 4059/10711 [57:06<55:33,  2.00it/s] 38%|███▊      | 4060/10711 [57:06<55:13,  2.01it/s] 38%|███▊      | 4061/10711 [57:07<55:04,  2.01it/s] 38%|███▊      | 4062/10711 [57:07<55:21,  2.00it/s] 38%|███▊      | 4063/10711 [57:08<56:08,  1.97it/s] 38%|███▊      | 4064/10711 [57:08<56:11,  1.97it/s] 38%|███▊      | 4065/10711 [57:09<55:38,  1.99it/s] 38%|███▊      | 4066/10711 [57:09<55:17,  2.00it/s] 38%|███▊      | 4067/10711 [57:10<55:02,  2.01it/s] 38%|███▊      | 4068/10711 [57:10<55:35,  1.99it/s] 38%|███▊      | 4069/10711 [57:11<55:51,  1.98it/s] 38%|███▊      | 4070/10711 [57:11<56:10,  1.97it/s] 38%|███▊      | 4071/10711 [57:12<55:39,  1.99it/s] 38%|███▊      | 4072/10711 [57:12<55:12,  2.00it/s] 38%|███▊      | 4073/10711 [57:13<55:38,  1.99it/s] 38%|███▊      | 4074/10711 [57:13<55:16,  2.00it/s] 38%|███▊      | 4075/10711 [57:14<54:58,  2.01it/s]{'loss': 3.6194, 'grad_norm': 0.186976358294487, 'learning_rate': 0.0007790287611181217, 'epoch': 0.38}
                                                     38%|███▊      | 4075/10711 [57:14<54:58,  2.01it/s] 38%|███▊      | 4076/10711 [57:14<55:28,  1.99it/s] 38%|███▊      | 4077/10711 [57:15<55:06,  2.01it/s] 38%|███▊      | 4078/10711 [57:15<54:51,  2.02it/s] 38%|███▊      | 4079/10711 [57:16<54:40,  2.02it/s] 38%|███▊      | 4080/10711 [57:17<56:24,  1.96it/s] 38%|███▊      | 4081/10711 [57:17<55:44,  1.98it/s] 38%|███▊      | 4082/10711 [57:17<55:30,  1.99it/s] 38%|███▊      | 4083/10711 [57:18<56:00,  1.97it/s] 38%|███▊      | 4084/10711 [57:19<55:29,  1.99it/s] 38%|███▊      | 4085/10711 [57:19<55:09,  2.00it/s] 38%|███▊      | 4086/10711 [57:19<54:50,  2.01it/s] 38%|███▊      | 4087/10711 [57:20<56:17,  1.96it/s] 38%|███▊      | 4088/10711 [57:21<56:29,  1.95it/s] 38%|███▊      | 4089/10711 [57:21<57:11,  1.93it/s] 38%|███▊      | 4090/10711 [57:22<56:14,  1.96it/s] 38%|███▊      | 4091/10711 [57:22<55:38,  1.98it/s] 38%|███▊      | 4092/10711 [57:23<55:18,  1.99it/s] 38%|███▊      | 4093/10711 [57:23<55:52,  1.97it/s] 38%|███▊      | 4094/10711 [57:24<55:23,  1.99it/s] 38%|███▊      | 4095/10711 [57:24<55:02,  2.00it/s] 38%|███▊      | 4096/10711 [57:25<54:44,  2.01it/s] 38%|███▊      | 4097/10711 [57:25<54:30,  2.02it/s] 38%|███▊      | 4098/10711 [57:26<54:23,  2.03it/s] 38%|███▊      | 4099/10711 [57:26<54:20,  2.03it/s] 38%|███▊      | 4100/10711 [57:27<54:14,  2.03it/s]                                                    {'loss': 3.607, 'grad_norm': 0.18976859748363495, 'learning_rate': 0.0007756388679416005, 'epoch': 0.38}
 38%|███▊      | 4100/10711 [57:27<54:14,  2.03it/s] 38%|███▊      | 4101/10711 [57:27<54:20,  2.03it/s] 38%|███▊      | 4102/10711 [57:27<54:18,  2.03it/s] 38%|███▊      | 4103/10711 [57:28<54:10,  2.03it/s] 38%|███▊      | 4104/10711 [57:28<54:08,  2.03it/s] 38%|███▊      | 4105/10711 [57:29<54:10,  2.03it/s] 38%|███▊      | 4106/10711 [57:29<54:04,  2.04it/s] 38%|███▊      | 4107/10711 [57:30<54:07,  2.03it/s] 38%|███▊      | 4108/10711 [57:30<54:40,  2.01it/s] 38%|███▊      | 4109/10711 [57:31<54:28,  2.02it/s] 38%|███▊      | 4110/10711 [57:31<54:55,  2.00it/s] 38%|███▊      | 4111/10711 [57:32<55:08,  1.99it/s] 38%|███▊      | 4112/10711 [57:32<54:50,  2.01it/s] 38%|███▊      | 4113/10711 [57:33<56:02,  1.96it/s] 38%|███▊      | 4114/10711 [57:34<55:59,  1.96it/s] 38%|███▊      | 4115/10711 [57:34<56:37,  1.94it/s] 38%|███▊      | 4116/10711 [57:35<56:29,  1.95it/s] 38%|███▊      | 4117/10711 [57:35<56:21,  1.95it/s] 38%|███▊      | 4118/10711 [57:36<55:34,  1.98it/s] 38%|███▊      | 4119/10711 [57:36<55:07,  1.99it/s] 38%|███▊      | 4120/10711 [57:37<54:44,  2.01it/s] 38%|███▊      | 4121/10711 [57:37<54:26,  2.02it/s] 38%|███▊      | 4122/10711 [57:38<55:53,  1.96it/s] 38%|███▊      | 4123/10711 [57:38<55:55,  1.96it/s] 39%|███▊      | 4124/10711 [57:39<55:23,  1.98it/s] 39%|███▊      | 4125/10711 [57:39<54:59,  2.00it/s]{'loss': 3.6098, 'grad_norm': 0.20593562722206116, 'learning_rate': 0.0007722306746484748, 'epoch': 0.39}
                                                     39%|███▊      | 4125/10711 [57:39<54:59,  2.00it/s] 39%|███▊      | 4126/10711 [57:40<54:45,  2.00it/s] 39%|███▊      | 4127/10711 [57:40<55:06,  1.99it/s] 39%|███▊      | 4128/10711 [57:41<54:43,  2.00it/s] 39%|███▊      | 4129/10711 [57:41<54:31,  2.01it/s] 39%|███▊      | 4130/10711 [57:42<54:34,  2.01it/s] 39%|███▊      | 4131/10711 [57:42<54:21,  2.02it/s] 39%|███▊      | 4132/10711 [57:43<55:27,  1.98it/s] 39%|███▊      | 4133/10711 [57:43<55:45,  1.97it/s] 39%|███▊      | 4134/10711 [57:44<55:48,  1.96it/s] 39%|███▊      | 4135/10711 [57:44<55:13,  1.98it/s] 39%|███▊      | 4136/10711 [57:45<54:43,  2.00it/s] 39%|███▊      | 4137/10711 [57:45<55:12,  1.98it/s] 39%|███▊      | 4138/10711 [57:46<54:46,  2.00it/s] 39%|███▊      | 4139/10711 [57:46<54:31,  2.01it/s] 39%|███▊      | 4140/10711 [57:47<54:21,  2.02it/s] 39%|███▊      | 4141/10711 [57:47<54:07,  2.02it/s] 39%|███▊      | 4142/10711 [57:48<55:59,  1.96it/s] 39%|███▊      | 4143/10711 [57:48<55:19,  1.98it/s] 39%|███▊      | 4144/10711 [57:49<54:54,  1.99it/s] 39%|███▊      | 4145/10711 [57:49<54:37,  2.00it/s] 39%|███▊      | 4146/10711 [57:50<54:22,  2.01it/s] 39%|███▊      | 4147/10711 [57:50<54:55,  1.99it/s] 39%|███▊      | 4148/10711 [57:51<55:17,  1.98it/s] 39%|███▊      | 4149/10711 [57:51<54:48,  2.00it/s] 39%|███▊      | 4150/10711 [57:52<55:07,  1.98it/s]{'loss': 3.6012, 'grad_norm': 0.20555448532104492, 'learning_rate': 0.0007688044075142887, 'epoch': 0.39}                                                    
 39%|███▊      | 4150/10711 [57:52<55:07,  1.98it/s] 39%|███▉      | 4151/10711 [57:52<54:48,  1.99it/s] 39%|███▉      | 4152/10711 [57:53<55:01,  1.99it/s] 39%|███▉      | 4153/10711 [57:53<54:35,  2.00it/s] 39%|███▉      | 4154/10711 [57:54<54:20,  2.01it/s] 39%|███▉      | 4155/10711 [57:54<54:42,  2.00it/s] 39%|███▉      | 4156/10711 [57:55<54:22,  2.01it/s] 39%|███▉      | 4157/10711 [57:55<54:12,  2.02it/s] 39%|███▉      | 4158/10711 [57:56<54:02,  2.02it/s] 39%|███▉      | 4159/10711 [57:56<53:57,  2.02it/s] 39%|███▉      | 4160/10711 [57:57<53:52,  2.03it/s] 39%|███▉      | 4161/10711 [57:57<54:25,  2.01it/s] 39%|███▉      | 4162/10711 [57:58<54:11,  2.01it/s] 39%|███▉      | 4163/10711 [57:58<54:00,  2.02it/s] 39%|███▉      | 4164/10711 [57:59<53:55,  2.02it/s] 39%|███▉      | 4165/10711 [57:59<53:50,  2.03it/s] 39%|███▉      | 4166/10711 [58:00<55:05,  1.98it/s] 39%|███▉      | 4167/10711 [58:00<54:37,  2.00it/s] 39%|███▉      | 4168/10711 [58:01<1:00:11,  1.81it/s] 39%|███▉      | 4169/10711 [58:01<1:00:50,  1.79it/s] 39%|███▉      | 4170/10711 [58:02<59:39,  1.83it/s]   39%|███▉      | 4171/10711 [58:02<57:50,  1.88it/s] 39%|███▉      | 4172/10711 [58:03<56:31,  1.93it/s] 39%|███▉      | 4173/10711 [58:03<56:21,  1.93it/s] 39%|███▉      | 4174/10711 [58:04<55:27,  1.96it/s] 39%|███▉      | 4175/10711 [58:04<55:34,  1.96it/s]{'loss': 3.6054, 'grad_norm': 0.20435848832130432, 'learning_rate': 0.0007653602940145375, 'epoch': 0.39}
                                                     39%|███▉      | 4175/10711 [58:04<55:34,  1.96it/s] 39%|███▉      | 4176/10711 [58:05<55:06,  1.98it/s] 39%|███▉      | 4177/10711 [58:05<54:37,  1.99it/s] 39%|███▉      | 4178/10711 [58:06<54:15,  2.01it/s] 39%|███▉      | 4179/10711 [58:06<54:03,  2.01it/s] 39%|███▉      | 4180/10711 [58:07<53:52,  2.02it/s] 39%|███▉      | 4181/10711 [58:07<54:51,  1.98it/s] 39%|███▉      | 4182/10711 [58:08<54:29,  2.00it/s] 39%|███▉      | 4183/10711 [58:08<54:09,  2.01it/s] 39%|███▉      | 4184/10711 [58:09<55:02,  1.98it/s] 39%|███▉      | 4185/10711 [58:09<54:35,  1.99it/s] 39%|███▉      | 4186/10711 [58:10<54:14,  2.00it/s] 39%|███▉      | 4187/10711 [58:10<53:57,  2.02it/s] 39%|███▉      | 4188/10711 [58:11<53:48,  2.02it/s] 39%|███▉      | 4189/10711 [58:11<53:45,  2.02it/s] 39%|███▉      | 4190/10711 [58:12<53:39,  2.03it/s] 39%|███▉      | 4191/10711 [58:12<53:37,  2.03it/s] 39%|███▉      | 4192/10711 [58:13<53:32,  2.03it/s] 39%|███▉      | 4193/10711 [58:13<53:29,  2.03it/s] 39%|███▉      | 4194/10711 [58:14<53:29,  2.03it/s] 39%|███▉      | 4195/10711 [58:14<53:22,  2.03it/s] 39%|███▉      | 4196/10711 [58:15<53:54,  2.01it/s] 39%|███▉      | 4197/10711 [58:15<53:44,  2.02it/s] 39%|███▉      | 4198/10711 [58:16<53:38,  2.02it/s] 39%|███▉      | 4199/10711 [58:16<53:33,  2.03it/s] 39%|███▉      | 4200/10711 [58:17<56:18,  1.93it/s]                                                    {'loss': 3.6, 'grad_norm': 0.1915237307548523, 'learning_rate': 0.0007618985628095662, 'epoch': 0.39}
 39%|███▉      | 4200/10711 [58:17<56:18,  1.93it/s] 39%|███▉      | 4201/10711 [58:17<56:30,  1.92it/s] 39%|███▉      | 4202/10711 [58:18<55:45,  1.95it/s] 39%|███▉      | 4203/10711 [58:18<55:34,  1.95it/s] 39%|███▉      | 4204/10711 [58:19<55:29,  1.95it/s] 39%|███▉      | 4205/10711 [58:19<55:25,  1.96it/s] 39%|███▉      | 4206/10711 [58:20<54:53,  1.98it/s] 39%|███▉      | 4207/10711 [58:20<54:23,  1.99it/s] 39%|███▉      | 4208/10711 [58:21<54:02,  2.01it/s] 39%|███▉      | 4209/10711 [58:21<53:48,  2.01it/s] 39%|███▉      | 4210/10711 [58:22<53:34,  2.02it/s] 39%|███▉      | 4211/10711 [58:22<53:32,  2.02it/s] 39%|███▉      | 4212/10711 [58:23<53:23,  2.03it/s] 39%|███▉      | 4213/10711 [58:23<53:59,  2.01it/s] 39%|███▉      | 4214/10711 [58:24<53:47,  2.01it/s] 39%|███▉      | 4215/10711 [58:24<53:34,  2.02it/s] 39%|███▉      | 4216/10711 [58:25<53:29,  2.02it/s] 39%|███▉      | 4217/10711 [58:25<53:25,  2.03it/s] 39%|███▉      | 4218/10711 [58:26<53:16,  2.03it/s] 39%|███▉      | 4219/10711 [58:26<53:16,  2.03it/s] 39%|███▉      | 4220/10711 [58:27<53:14,  2.03it/s] 39%|███▉      | 4221/10711 [58:27<53:11,  2.03it/s] 39%|███▉      | 4222/10711 [58:28<53:08,  2.03it/s] 39%|███▉      | 4223/10711 [58:28<53:10,  2.03it/s] 39%|███▉      | 4224/10711 [58:29<53:07,  2.03it/s] 39%|███▉      | 4225/10711 [58:29<53:07,  2.04it/s]{'loss': 3.6117, 'grad_norm': 0.20517498254776, 'learning_rate': 0.0007584194437293881, 'epoch': 0.39}
                                                     39%|███▉      | 4225/10711 [58:29<53:07,  2.04it/s] 39%|███▉      | 4226/10711 [58:30<53:11,  2.03it/s] 39%|███▉      | 4227/10711 [58:30<54:51,  1.97it/s] 39%|███▉      | 4228/10711 [58:31<54:17,  1.99it/s] 39%|███▉      | 4229/10711 [58:31<53:57,  2.00it/s] 39%|███▉      | 4230/10711 [58:32<54:14,  1.99it/s] 40%|███▉      | 4231/10711 [58:32<54:42,  1.97it/s] 40%|███▉      | 4232/10711 [58:33<54:56,  1.97it/s] 40%|███▉      | 4233/10711 [58:33<54:18,  1.99it/s] 40%|███▉      | 4234/10711 [58:34<55:03,  1.96it/s] 40%|███▉      | 4235/10711 [58:34<54:57,  1.96it/s] 40%|███▉      | 4236/10711 [58:35<54:55,  1.96it/s] 40%|███▉      | 4237/10711 [58:35<54:20,  1.99it/s] 40%|███▉      | 4238/10711 [58:36<53:58,  2.00it/s] 40%|███▉      | 4239/10711 [58:36<53:43,  2.01it/s] 40%|███▉      | 4240/10711 [58:37<54:06,  1.99it/s] 40%|███▉      | 4241/10711 [58:37<54:28,  1.98it/s] 40%|███▉      | 4242/10711 [58:38<54:45,  1.97it/s] 40%|███▉      | 4243/10711 [58:38<54:10,  1.99it/s] 40%|███▉      | 4244/10711 [58:39<53:51,  2.00it/s] 40%|███▉      | 4245/10711 [58:39<54:13,  1.99it/s] 40%|███▉      | 4246/10711 [58:40<54:27,  1.98it/s] 40%|███▉      | 4247/10711 [58:40<54:54,  1.96it/s] 40%|███▉      | 4248/10711 [58:41<55:18,  1.95it/s] 40%|███▉      | 4249/10711 [58:41<55:07,  1.95it/s] 40%|███▉      | 4250/10711 [58:42<54:25,  1.98it/s]{'loss': 3.5981, 'grad_norm': 0.19376610219478607, 'learning_rate': 0.0007549231677584262, 'epoch': 0.4}                                                    
 40%|███▉      | 4250/10711 [58:42<54:25,  1.98it/s] 40%|███▉      | 4251/10711 [58:42<54:40,  1.97it/s] 40%|███▉      | 4252/10711 [58:43<54:36,  1.97it/s] 40%|███▉      | 4253/10711 [58:43<54:07,  1.99it/s] 40%|███▉      | 4254/10711 [58:44<54:19,  1.98it/s] 40%|███▉      | 4255/10711 [58:44<53:52,  2.00it/s] 40%|███▉      | 4256/10711 [58:45<54:13,  1.98it/s] 40%|███▉      | 4257/10711 [58:45<53:50,  2.00it/s] 40%|███▉      | 4258/10711 [58:46<53:31,  2.01it/s] 40%|███▉      | 4259/10711 [58:46<53:19,  2.02it/s] 40%|███▉      | 4260/10711 [58:47<53:59,  1.99it/s] 40%|███▉      | 4261/10711 [58:47<53:39,  2.00it/s] 40%|███▉      | 4262/10711 [58:48<53:25,  2.01it/s] 40%|███▉      | 4263/10711 [58:48<53:10,  2.02it/s] 40%|███▉      | 4264/10711 [58:49<53:02,  2.03it/s] 40%|███▉      | 4265/10711 [58:49<53:47,  2.00it/s] 40%|███▉      | 4266/10711 [58:50<53:33,  2.01it/s] 40%|███▉      | 4267/10711 [58:50<54:46,  1.96it/s] 40%|███▉      | 4268/10711 [58:51<54:12,  1.98it/s] 40%|███▉      | 4269/10711 [58:51<53:50,  1.99it/s] 40%|███▉      | 4270/10711 [58:52<53:30,  2.01it/s] 40%|███▉      | 4271/10711 [58:52<53:14,  2.02it/s] 40%|███▉      | 4272/10711 [58:53<53:08,  2.02it/s] 40%|███▉      | 4273/10711 [58:53<54:24,  1.97it/s] 40%|███▉      | 4274/10711 [58:54<54:00,  1.99it/s] 40%|███▉      | 4275/10711 [58:54<53:34,  2.00it/s]{'loss': 3.5959, 'grad_norm': 0.19129382073879242, 'learning_rate': 0.0007514099670201774, 'epoch': 0.4}
                                                     40%|███▉      | 4275/10711 [58:54<53:34,  2.00it/s] 40%|███▉      | 4276/10711 [58:55<54:43,  1.96it/s] 40%|███▉      | 4277/10711 [58:55<54:05,  1.98it/s] 40%|███▉      | 4278/10711 [58:56<53:34,  2.00it/s] 40%|███▉      | 4279/10711 [58:56<53:18,  2.01it/s] 40%|███▉      | 4280/10711 [58:57<53:06,  2.02it/s] 40%|███▉      | 4281/10711 [58:57<53:00,  2.02it/s] 40%|███▉      | 4282/10711 [58:58<52:55,  2.02it/s] 40%|███▉      | 4283/10711 [58:58<52:51,  2.03it/s] 40%|███▉      | 4284/10711 [58:59<52:46,  2.03it/s] 40%|████      | 4285/10711 [58:59<52:44,  2.03it/s] 40%|████      | 4286/10711 [59:00<53:22,  2.01it/s] 40%|████      | 4287/10711 [59:00<53:07,  2.02it/s] 40%|████      | 4288/10711 [59:01<52:57,  2.02it/s] 40%|████      | 4289/10711 [59:01<53:27,  2.00it/s] 40%|████      | 4290/10711 [59:02<53:08,  2.01it/s] 40%|████      | 4291/10711 [59:02<52:57,  2.02it/s] 40%|████      | 4292/10711 [59:03<54:00,  1.98it/s] 40%|████      | 4293/10711 [59:03<54:15,  1.97it/s] 40%|████      | 4294/10711 [59:04<53:42,  1.99it/s] 40%|████      | 4295/10711 [59:04<53:18,  2.01it/s] 40%|████      | 4296/10711 [59:05<53:04,  2.01it/s] 40%|████      | 4297/10711 [59:05<53:30,  2.00it/s] 40%|████      | 4298/10711 [59:06<54:35,  1.96it/s] 40%|████      | 4299/10711 [59:06<53:57,  1.98it/s] 40%|████      | 4300/10711 [59:07<53:31,  2.00it/s]{'loss': 3.5962, 'grad_norm': 0.19384601712226868, 'learning_rate': 0.0007478800747618025, 'epoch': 0.4}
                                                     40%|████      | 4300/10711 [59:07<53:31,  2.00it/s] 40%|████      | 4301/10711 [59:07<53:57,  1.98it/s] 40%|████      | 4302/10711 [59:08<53:28,  2.00it/s] 40%|████      | 4303/10711 [59:08<53:09,  2.01it/s] 40%|████      | 4304/10711 [59:09<52:55,  2.02it/s] 40%|████      | 4305/10711 [59:09<52:46,  2.02it/s] 40%|████      | 4306/10711 [59:10<52:42,  2.03it/s] 40%|████      | 4307/10711 [59:10<52:41,  2.03it/s] 40%|████      | 4308/10711 [59:11<52:35,  2.03it/s] 40%|████      | 4309/10711 [59:11<52:35,  2.03it/s] 40%|████      | 4310/10711 [59:12<52:35,  2.03it/s] 40%|████      | 4311/10711 [59:12<52:31,  2.03it/s] 40%|████      | 4312/10711 [59:13<52:29,  2.03it/s] 40%|████      | 4313/10711 [59:13<52:23,  2.03it/s] 40%|████      | 4314/10711 [59:14<52:51,  2.02it/s] 40%|████      | 4315/10711 [59:14<52:43,  2.02it/s] 40%|████      | 4316/10711 [59:15<53:12,  2.00it/s] 40%|████      | 4317/10711 [59:15<52:54,  2.01it/s] 40%|████      | 4318/10711 [59:16<52:41,  2.02it/s] 40%|████      | 4319/10711 [59:16<52:38,  2.02it/s] 40%|████      | 4320/10711 [59:17<52:28,  2.03it/s] 40%|████      | 4321/10711 [59:17<53:21,  2.00it/s] 40%|████      | 4322/10711 [59:18<52:57,  2.01it/s] 40%|████      | 4323/10711 [59:18<53:16,  2.00it/s] 40%|████      | 4324/10711 [59:19<53:03,  2.01it/s] 40%|████      | 4325/10711 [59:19<52:49,  2.01it/s]{'loss': 3.5919, 'grad_norm': 0.19214968383312225, 'learning_rate': 0.000744333725338638, 'epoch': 0.4}
                                                     40%|████      | 4325/10711 [59:19<52:49,  2.01it/s] 40%|████      | 4326/10711 [59:20<53:31,  1.99it/s] 40%|████      | 4327/10711 [59:20<53:42,  1.98it/s] 40%|████      | 4328/10711 [59:21<53:53,  1.97it/s] 40%|████      | 4329/10711 [59:21<53:23,  1.99it/s] 40%|████      | 4330/10711 [59:22<53:04,  2.00it/s] 40%|████      | 4331/10711 [59:22<52:49,  2.01it/s] 40%|████      | 4332/10711 [59:23<52:40,  2.02it/s] 40%|████      | 4333/10711 [59:23<52:33,  2.02it/s] 40%|████      | 4334/10711 [59:24<52:24,  2.03it/s] 40%|████      | 4335/10711 [59:24<52:20,  2.03it/s] 40%|████      | 4336/10711 [59:25<52:19,  2.03it/s] 40%|████      | 4337/10711 [59:25<52:51,  2.01it/s] 41%|████      | 4338/10711 [59:26<52:39,  2.02it/s] 41%|████      | 4339/10711 [59:26<52:31,  2.02it/s] 41%|████      | 4340/10711 [59:27<52:21,  2.03it/s] 41%|████      | 4341/10711 [59:27<52:49,  2.01it/s] 41%|████      | 4342/10711 [59:28<53:30,  1.98it/s] 41%|████      | 4343/10711 [59:28<53:52,  1.97it/s] 41%|████      | 4344/10711 [59:29<53:46,  1.97it/s] 41%|████      | 4345/10711 [59:29<53:20,  1.99it/s] 41%|████      | 4346/10711 [59:30<52:55,  2.00it/s] 41%|████      | 4347/10711 [59:30<52:40,  2.01it/s] 41%|████      | 4348/10711 [59:31<52:29,  2.02it/s] 41%|████      | 4349/10711 [59:31<52:25,  2.02it/s] 41%|████      | 4350/10711 [59:32<52:21,  2.02it/s]{'loss': 3.5977, 'grad_norm': 0.20032598078250885, 'learning_rate': 0.0007407711541986402, 'epoch': 0.41}                                                    
 41%|████      | 4350/10711 [59:32<52:21,  2.02it/s] 41%|████      | 4351/10711 [59:32<53:42,  1.97it/s] 41%|████      | 4352/10711 [59:33<53:12,  1.99it/s] 41%|████      | 4353/10711 [59:33<52:53,  2.00it/s] 41%|████      | 4354/10711 [59:34<52:38,  2.01it/s] 41%|████      | 4355/10711 [59:34<52:30,  2.02it/s] 41%|████      | 4356/10711 [59:35<52:24,  2.02it/s] 41%|████      | 4357/10711 [59:35<52:18,  2.02it/s] 41%|████      | 4358/10711 [59:36<53:30,  1.98it/s] 41%|████      | 4359/10711 [59:36<53:05,  1.99it/s] 41%|████      | 4360/10711 [59:37<52:46,  2.01it/s] 41%|████      | 4361/10711 [59:37<52:29,  2.02it/s] 41%|████      | 4362/10711 [59:38<52:22,  2.02it/s] 41%|████      | 4363/10711 [59:38<54:25,  1.94it/s] 41%|████      | 4364/10711 [59:39<54:31,  1.94it/s] 41%|████      | 4365/10711 [59:39<53:44,  1.97it/s] 41%|████      | 4366/10711 [59:40<53:41,  1.97it/s] 41%|████      | 4367/10711 [59:40<53:55,  1.96it/s] 41%|████      | 4368/10711 [59:41<54:40,  1.93it/s] 41%|████      | 4369/10711 [59:41<53:53,  1.96it/s] 41%|████      | 4370/10711 [59:42<53:55,  1.96it/s] 41%|████      | 4371/10711 [59:42<54:02,  1.96it/s] 41%|████      | 4372/10711 [59:43<53:24,  1.98it/s] 41%|████      | 4373/10711 [59:43<52:55,  2.00it/s] 41%|████      | 4374/10711 [59:44<52:36,  2.01it/s] 41%|████      | 4375/10711 [59:44<52:28,  2.01it/s]                                                    {'loss': 3.5796, 'grad_norm': 0.18595251441001892, 'learning_rate': 0.0007371925978667511, 'epoch': 0.41}
 41%|████      | 4375/10711 [59:44<52:28,  2.01it/s] 41%|████      | 4376/10711 [59:45<52:22,  2.02it/s] 41%|████      | 4377/10711 [59:45<52:20,  2.02it/s] 41%|████      | 4378/10711 [59:46<52:53,  2.00it/s] 41%|████      | 4379/10711 [59:46<54:02,  1.95it/s] 41%|████      | 4380/10711 [59:47<53:23,  1.98it/s] 41%|████      | 4381/10711 [59:47<52:55,  1.99it/s] 41%|████      | 4382/10711 [59:48<52:39,  2.00it/s] 41%|████      | 4383/10711 [59:48<52:23,  2.01it/s] 41%|████      | 4384/10711 [59:49<52:14,  2.02it/s] 41%|████      | 4385/10711 [59:49<52:07,  2.02it/s] 41%|████      | 4386/10711 [59:50<52:02,  2.03it/s] 41%|████      | 4387/10711 [59:50<52:01,  2.03it/s] 41%|████      | 4388/10711 [59:51<52:34,  2.00it/s] 41%|████      | 4389/10711 [59:51<52:18,  2.01it/s] 41%|████      | 4390/10711 [59:52<52:07,  2.02it/s] 41%|████      | 4391/10711 [59:52<52:30,  2.01it/s] 41%|████      | 4392/10711 [59:53<52:16,  2.01it/s] 41%|████      | 4393/10711 [59:53<52:05,  2.02it/s] 41%|████      | 4394/10711 [59:54<52:46,  1.99it/s] 41%|████      | 4395/10711 [59:54<52:31,  2.00it/s] 41%|████      | 4396/10711 [59:55<52:19,  2.01it/s] 41%|████      | 4397/10711 [59:55<52:08,  2.02it/s] 41%|████      | 4398/10711 [59:56<51:58,  2.02it/s] 41%|████      | 4399/10711 [59:56<51:56,  2.03it/s] 41%|████      | 4400/10711 [59:57<51:54,  2.03it/s]                                                    {'loss': 3.6035, 'grad_norm': 0.20620113611221313, 'learning_rate': 0.0007335982939291958, 'epoch': 0.41}
 41%|████      | 4400/10711 [59:57<51:54,  2.03it/s] 41%|████      | 4401/10711 [59:57<51:58,  2.02it/s] 41%|████      | 4402/10711 [59:58<51:54,  2.03it/s] 41%|████      | 4403/10711 [59:58<51:50,  2.03it/s] 41%|████      | 4404/10711 [59:59<51:49,  2.03it/s] 41%|████      | 4405/10711 [59:59<52:28,  2.00it/s] 41%|████      | 4406/10711 [1:00:00<52:15,  2.01it/s] 41%|████      | 4407/10711 [1:00:00<52:05,  2.02it/s] 41%|████      | 4408/10711 [1:00:01<52:26,  2.00it/s] 41%|████      | 4409/10711 [1:00:01<52:13,  2.01it/s] 41%|████      | 4410/10711 [1:00:02<52:03,  2.02it/s] 41%|████      | 4411/10711 [1:00:02<51:51,  2.02it/s] 41%|████      | 4412/10711 [1:00:03<51:48,  2.03it/s] 41%|████      | 4413/10711 [1:00:03<51:46,  2.03it/s] 41%|████      | 4414/10711 [1:00:04<51:40,  2.03it/s] 41%|████      | 4415/10711 [1:00:04<51:38,  2.03it/s] 41%|████      | 4416/10711 [1:00:05<52:09,  2.01it/s] 41%|████      | 4417/10711 [1:00:05<52:03,  2.02it/s] 41%|████      | 4418/10711 [1:00:06<51:53,  2.02it/s] 41%|████▏     | 4419/10711 [1:00:06<51:49,  2.02it/s] 41%|████▏     | 4420/10711 [1:00:07<51:44,  2.03it/s] 41%|████▏     | 4421/10711 [1:00:07<51:40,  2.03it/s] 41%|████▏     | 4422/10711 [1:00:08<51:36,  2.03it/s] 41%|████▏     | 4423/10711 [1:00:08<51:31,  2.03it/s] 41%|████▏     | 4424/10711 [1:00:09<51:33,  2.03it/s] 41%|████▏     | 4425/10711 [1:00:09<52:22,  2.00it/s]{'loss': 3.5845, 'grad_norm': 0.2236122190952301, 'learning_rate': 0.0007299884810177087, 'epoch': 0.41}                                                      
 41%|████▏     | 4425/10711 [1:00:09<52:22,  2.00it/s] 41%|████▏     | 4426/10711 [1:00:10<52:10,  2.01it/s] 41%|████▏     | 4427/10711 [1:00:10<51:56,  2.02it/s] 41%|████▏     | 4428/10711 [1:00:11<52:20,  2.00it/s] 41%|████▏     | 4429/10711 [1:00:11<52:04,  2.01it/s] 41%|████▏     | 4430/10711 [1:00:12<52:28,  1.99it/s] 41%|████▏     | 4431/10711 [1:00:12<53:19,  1.96it/s] 41%|████▏     | 4432/10711 [1:00:13<53:14,  1.97it/s] 41%|████▏     | 4433/10711 [1:00:13<53:11,  1.97it/s] 41%|████▏     | 4434/10711 [1:00:14<53:10,  1.97it/s] 41%|████▏     | 4435/10711 [1:00:14<58:08,  1.80it/s] 41%|████▏     | 4436/10711 [1:00:15<56:03,  1.87it/s] 41%|████▏     | 4437/10711 [1:00:15<54:39,  1.91it/s] 41%|████▏     | 4438/10711 [1:00:16<53:38,  1.95it/s] 41%|████▏     | 4439/10711 [1:00:16<52:56,  1.97it/s] 41%|████▏     | 4440/10711 [1:00:17<52:28,  1.99it/s] 41%|████▏     | 4441/10711 [1:00:17<52:06,  2.01it/s] 41%|████▏     | 4442/10711 [1:00:18<51:52,  2.01it/s] 41%|████▏     | 4443/10711 [1:00:18<52:52,  1.98it/s] 41%|████▏     | 4444/10711 [1:00:19<53:06,  1.97it/s] 41%|████▏     | 4445/10711 [1:00:19<52:33,  1.99it/s] 42%|████▏     | 4446/10711 [1:00:20<52:07,  2.00it/s] 42%|████▏     | 4447/10711 [1:00:20<51:52,  2.01it/s] 42%|████▏     | 4448/10711 [1:00:21<51:40,  2.02it/s] 42%|████▏     | 4449/10711 [1:00:21<51:30,  2.03it/s] 42%|████▏     | 4450/10711 [1:00:22<51:26,  2.03it/s]{'loss': 3.5904, 'grad_norm': 0.19077298045158386, 'learning_rate': 0.0007263633987936909, 'epoch': 0.42}
                                                       42%|████▏     | 4450/10711 [1:00:22<51:26,  2.03it/s] 42%|████▏     | 4451/10711 [1:00:22<51:25,  2.03it/s] 42%|████▏     | 4452/10711 [1:00:23<52:36,  1.98it/s] 42%|████▏     | 4453/10711 [1:00:23<52:10,  2.00it/s] 42%|████▏     | 4454/10711 [1:00:24<51:55,  2.01it/s] 42%|████▏     | 4455/10711 [1:00:24<52:35,  1.98it/s] 42%|████▏     | 4456/10711 [1:00:25<52:06,  2.00it/s] 42%|████▏     | 4457/10711 [1:00:25<51:50,  2.01it/s] 42%|████▏     | 4458/10711 [1:00:26<52:03,  2.00it/s] 42%|████▏     | 4459/10711 [1:00:26<51:50,  2.01it/s] 42%|████▏     | 4460/10711 [1:00:27<52:19,  1.99it/s] 42%|████▏     | 4461/10711 [1:00:27<51:59,  2.00it/s] 42%|████▏     | 4462/10711 [1:00:28<52:20,  1.99it/s] 42%|████▏     | 4463/10711 [1:00:28<53:04,  1.96it/s] 42%|████▏     | 4464/10711 [1:00:29<52:28,  1.98it/s] 42%|████▏     | 4465/10711 [1:00:29<52:38,  1.98it/s] 42%|████▏     | 4466/10711 [1:00:30<52:12,  1.99it/s] 42%|████▏     | 4467/10711 [1:00:30<51:51,  2.01it/s] 42%|████▏     | 4468/10711 [1:00:31<51:38,  2.02it/s] 42%|████▏     | 4469/10711 [1:00:31<52:06,  2.00it/s] 42%|████▏     | 4470/10711 [1:00:32<51:47,  2.01it/s] 42%|████▏     | 4471/10711 [1:00:32<52:31,  1.98it/s] 42%|████▏     | 4472/10711 [1:00:33<52:01,  2.00it/s] 42%|████▏     | 4473/10711 [1:00:33<51:43,  2.01it/s] 42%|████▏     | 4474/10711 [1:00:34<52:19,  1.99it/s] 42%|████▏     | 4475/10711 [1:00:34<51:55,  2.00it/s]                                                      {'loss': 3.583, 'grad_norm': 0.20122559368610382, 'learning_rate': 0.0007227232879322978, 'epoch': 0.42}
 42%|████▏     | 4475/10711 [1:00:34<51:55,  2.00it/s] 42%|████▏     | 4476/10711 [1:00:35<51:49,  2.01it/s] 42%|████▏     | 4477/10711 [1:00:35<51:33,  2.02it/s] 42%|████▏     | 4478/10711 [1:00:36<51:19,  2.02it/s] 42%|████▏     | 4479/10711 [1:00:36<51:18,  2.02it/s] 42%|████▏     | 4480/10711 [1:00:37<51:11,  2.03it/s] 42%|████▏     | 4481/10711 [1:00:37<51:05,  2.03it/s] 42%|████▏     | 4482/10711 [1:00:38<51:07,  2.03it/s] 42%|████▏     | 4483/10711 [1:00:38<51:02,  2.03it/s] 42%|████▏     | 4484/10711 [1:00:39<51:00,  2.03it/s] 42%|████▏     | 4485/10711 [1:00:39<51:02,  2.03it/s] 42%|████▏     | 4486/10711 [1:00:40<50:58,  2.04it/s] 42%|████▏     | 4487/10711 [1:00:40<51:00,  2.03it/s] 42%|████▏     | 4488/10711 [1:00:41<51:00,  2.03it/s] 42%|████▏     | 4489/10711 [1:00:41<50:57,  2.04it/s] 42%|████▏     | 4490/10711 [1:00:42<51:52,  2.00it/s] 42%|████▏     | 4491/10711 [1:00:42<51:30,  2.01it/s] 42%|████▏     | 4492/10711 [1:00:43<51:23,  2.02it/s] 42%|████▏     | 4493/10711 [1:00:43<51:46,  2.00it/s] 42%|████▏     | 4494/10711 [1:00:44<52:07,  1.99it/s] 42%|████▏     | 4495/10711 [1:00:44<51:47,  2.00it/s] 42%|████▏     | 4496/10711 [1:00:45<51:28,  2.01it/s] 42%|████▏     | 4497/10711 [1:00:45<51:14,  2.02it/s] 42%|████▏     | 4498/10711 [1:00:46<51:10,  2.02it/s] 42%|████▏     | 4499/10711 [1:00:46<51:01,  2.03it/s] 42%|████▏     | 4500/10711 [1:00:47<50:56,  2.03it/s]                                                      {'loss': 3.59, 'grad_norm': 0.2052261233329773, 'learning_rate': 0.0007190683901064607, 'epoch': 0.42}
 42%|████▏     | 4500/10711 [1:00:47<50:56,  2.03it/s] 42%|████▏     | 4501/10711 [1:00:47<51:01,  2.03it/s] 42%|████▏     | 4502/10711 [1:00:48<50:56,  2.03it/s] 42%|████▏     | 4503/10711 [1:00:48<50:54,  2.03it/s] 42%|████▏     | 4504/10711 [1:00:49<50:57,  2.03it/s] 42%|████▏     | 4505/10711 [1:00:49<50:54,  2.03it/s] 42%|████▏     | 4506/10711 [1:00:50<50:51,  2.03it/s] 42%|████▏     | 4507/10711 [1:00:50<51:12,  2.02it/s] 42%|████▏     | 4508/10711 [1:00:51<51:06,  2.02it/s] 42%|████▏     | 4509/10711 [1:00:51<54:16,  1.90it/s] 42%|████▏     | 4510/10711 [1:00:52<53:20,  1.94it/s] 42%|████▏     | 4511/10711 [1:00:52<52:34,  1.97it/s] 42%|████▏     | 4512/10711 [1:00:53<53:38,  1.93it/s] 42%|████▏     | 4513/10711 [1:00:53<55:40,  1.86it/s] 42%|████▏     | 4514/10711 [1:00:54<54:07,  1.91it/s] 42%|████▏     | 4515/10711 [1:00:54<55:06,  1.87it/s] 42%|████▏     | 4516/10711 [1:00:55<53:47,  1.92it/s] 42%|████▏     | 4517/10711 [1:00:55<54:01,  1.91it/s] 42%|████▏     | 4518/10711 [1:00:56<53:04,  1.94it/s] 42%|████▏     | 4519/10711 [1:00:56<52:21,  1.97it/s] 42%|████▏     | 4520/10711 [1:00:57<51:50,  1.99it/s] 42%|████▏     | 4521/10711 [1:00:57<52:46,  1.95it/s] 42%|████▏     | 4522/10711 [1:00:58<52:05,  1.98it/s] 42%|████▏     | 4523/10711 [1:00:58<51:35,  2.00it/s] 42%|████▏     | 4524/10711 [1:00:59<51:13,  2.01it/s] 42%|████▏     | 4525/10711 [1:00:59<51:05,  2.02it/s]                                                      {'loss': 3.5745, 'grad_norm': 0.20681019127368927, 'learning_rate': 0.0007153989479708417, 'epoch': 0.42}
 42%|████▏     | 4525/10711 [1:00:59<51:05,  2.02it/s] 42%|████▏     | 4526/10711 [1:01:00<52:20,  1.97it/s] 42%|████▏     | 4527/10711 [1:01:00<51:48,  1.99it/s] 42%|████▏     | 4528/10711 [1:01:01<51:27,  2.00it/s] 42%|████▏     | 4529/10711 [1:01:01<51:10,  2.01it/s] 42%|████▏     | 4530/10711 [1:01:02<51:00,  2.02it/s] 42%|████▏     | 4531/10711 [1:01:02<50:55,  2.02it/s] 42%|████▏     | 4532/10711 [1:01:03<50:47,  2.03it/s] 42%|████▏     | 4533/10711 [1:01:03<50:42,  2.03it/s] 42%|████▏     | 4534/10711 [1:01:04<52:10,  1.97it/s] 42%|████▏     | 4535/10711 [1:01:04<53:11,  1.94it/s] 42%|████▏     | 4536/10711 [1:01:05<52:20,  1.97it/s] 42%|████▏     | 4537/10711 [1:01:05<55:18,  1.86it/s] 42%|████▏     | 4538/10711 [1:01:06<53:51,  1.91it/s] 42%|████▏     | 4539/10711 [1:01:06<52:55,  1.94it/s] 42%|████▏     | 4540/10711 [1:01:07<53:48,  1.91it/s] 42%|████▏     | 4541/10711 [1:01:07<52:48,  1.95it/s] 42%|████▏     | 4542/10711 [1:01:08<54:52,  1.87it/s] 42%|████▏     | 4543/10711 [1:01:09<55:11,  1.86it/s] 42%|████▏     | 4544/10711 [1:01:09<54:50,  1.87it/s] 42%|████▏     | 4545/10711 [1:01:10<53:29,  1.92it/s] 42%|████▏     | 4546/10711 [1:01:10<52:38,  1.95it/s] 42%|████▏     | 4547/10711 [1:01:11<51:58,  1.98it/s] 42%|████▏     | 4548/10711 [1:01:11<55:27,  1.85it/s] 42%|████▏     | 4549/10711 [1:01:12<53:56,  1.90it/s] 42%|████▏     | 4550/10711 [1:01:12<54:32,  1.88it/s]{'loss': 3.5723, 'grad_norm': 0.1906617283821106, 'learning_rate': 0.0007117152051457238, 'epoch': 0.42}
                                                       42%|████▏     | 4550/10711 [1:01:12<54:32,  1.88it/s] 42%|████▏     | 4551/10711 [1:01:13<53:23,  1.92it/s] 42%|████▏     | 4552/10711 [1:01:13<52:30,  1.95it/s] 43%|████▎     | 4553/10711 [1:01:14<51:49,  1.98it/s] 43%|████▎     | 4554/10711 [1:01:14<51:19,  2.00it/s] 43%|████▎     | 4555/10711 [1:01:15<51:01,  2.01it/s] 43%|████▎     | 4556/10711 [1:01:15<50:50,  2.02it/s] 43%|████▎     | 4557/10711 [1:01:16<50:39,  2.02it/s] 43%|████▎     | 4558/10711 [1:01:16<50:38,  2.02it/s] 43%|████▎     | 4559/10711 [1:01:17<53:19,  1.92it/s] 43%|████▎     | 4560/10711 [1:01:17<52:24,  1.96it/s] 43%|████▎     | 4561/10711 [1:01:18<51:48,  1.98it/s] 43%|████▎     | 4562/10711 [1:01:18<51:21,  2.00it/s] 43%|████▎     | 4563/10711 [1:01:19<50:59,  2.01it/s] 43%|████▎     | 4564/10711 [1:01:19<50:47,  2.02it/s] 43%|████▎     | 4565/10711 [1:01:20<52:00,  1.97it/s] 43%|████▎     | 4566/10711 [1:01:21<59:59,  1.71it/s] 43%|████▎     | 4567/10711 [1:01:21<57:05,  1.79it/s] 43%|████▎     | 4568/10711 [1:01:21<54:59,  1.86it/s] 43%|████▎     | 4569/10711 [1:01:22<53:33,  1.91it/s] 43%|████▎     | 4570/10711 [1:01:22<52:34,  1.95it/s] 43%|████▎     | 4571/10711 [1:01:23<51:55,  1.97it/s] 43%|████▎     | 4572/10711 [1:01:24<52:39,  1.94it/s] 43%|████▎     | 4573/10711 [1:01:24<52:01,  1.97it/s] 43%|████▎     | 4574/10711 [1:01:25<53:25,  1.91it/s] 43%|████▎     | 4575/10711 [1:01:25<52:27,  1.95it/s]{'loss': 3.5764, 'grad_norm': 0.18520236015319824, 'learning_rate': 0.0007080174062008359, 'epoch': 0.43}
                                                       43%|████▎     | 4575/10711 [1:01:25<52:27,  1.95it/s] 43%|████▎     | 4576/10711 [1:01:26<53:32,  1.91it/s] 43%|████▎     | 4577/10711 [1:01:26<54:22,  1.88it/s] 43%|████▎     | 4578/10711 [1:01:27<54:43,  1.87it/s] 43%|████▎     | 4579/10711 [1:01:27<55:08,  1.85it/s] 43%|████▎     | 4580/10711 [1:01:28<55:23,  1.84it/s] 43%|████▎     | 4581/10711 [1:01:28<53:47,  1.90it/s] 43%|████▎     | 4582/10711 [1:01:29<52:42,  1.94it/s] 43%|████▎     | 4583/10711 [1:01:29<51:51,  1.97it/s] 43%|████▎     | 4584/10711 [1:01:30<51:17,  1.99it/s] 43%|████▎     | 4585/10711 [1:01:30<50:56,  2.00it/s] 43%|████▎     | 4586/10711 [1:01:31<50:45,  2.01it/s] 43%|████▎     | 4587/10711 [1:01:31<50:31,  2.02it/s] 43%|████▎     | 4588/10711 [1:01:32<50:25,  2.02it/s] 43%|████▎     | 4589/10711 [1:01:32<51:27,  1.98it/s] 43%|████▎     | 4590/10711 [1:01:33<50:57,  2.00it/s] 43%|████▎     | 4591/10711 [1:01:33<59:07,  1.73it/s] 43%|████▎     | 4592/10711 [1:01:34<56:31,  1.80it/s] 43%|████▎     | 4593/10711 [1:01:34<54:36,  1.87it/s] 43%|████▎     | 4594/10711 [1:01:35<53:13,  1.92it/s] 43%|████▎     | 4595/10711 [1:01:35<52:17,  1.95it/s] 43%|████▎     | 4596/10711 [1:01:36<52:07,  1.96it/s] 43%|████▎     | 4597/10711 [1:01:36<51:29,  1.98it/s] 43%|████▎     | 4598/10711 [1:01:37<51:00,  2.00it/s] 43%|████▎     | 4599/10711 [1:01:37<50:43,  2.01it/s] 43%|████▎     | 4600/10711 [1:01:38<50:37,  2.01it/s]{'loss': 3.5759, 'grad_norm': 0.20413634181022644, 'learning_rate': 0.0007043057966391158, 'epoch': 0.43}
                                                       43%|████▎     | 4600/10711 [1:01:38<50:37,  2.01it/s] 43%|████▎     | 4601/10711 [1:01:38<51:48,  1.97it/s] 43%|████▎     | 4602/10711 [1:01:39<51:19,  1.98it/s] 43%|████▎     | 4603/10711 [1:01:39<50:55,  2.00it/s] 43%|████▎     | 4604/10711 [1:01:40<52:17,  1.95it/s] 43%|████▎     | 4605/10711 [1:01:40<51:37,  1.97it/s] 43%|████▎     | 4606/10711 [1:01:41<51:06,  1.99it/s] 43%|████▎     | 4607/10711 [1:01:41<50:48,  2.00it/s] 43%|████▎     | 4608/10711 [1:01:42<50:31,  2.01it/s] 43%|████▎     | 4609/10711 [1:01:42<50:18,  2.02it/s] 43%|████▎     | 4610/10711 [1:01:43<50:14,  2.02it/s] 43%|████▎     | 4611/10711 [1:01:43<51:28,  1.98it/s] 43%|████▎     | 4612/10711 [1:01:44<50:58,  1.99it/s] 43%|████▎     | 4613/10711 [1:01:44<50:43,  2.00it/s] 43%|████▎     | 4614/10711 [1:01:45<50:25,  2.02it/s] 43%|████▎     | 4615/10711 [1:01:45<50:12,  2.02it/s] 43%|████▎     | 4616/10711 [1:01:46<50:05,  2.03it/s] 43%|████▎     | 4617/10711 [1:01:46<50:00,  2.03it/s] 43%|████▎     | 4618/10711 [1:01:47<49:55,  2.03it/s] 43%|████▎     | 4619/10711 [1:01:47<52:28,  1.93it/s] 43%|████▎     | 4620/10711 [1:01:48<51:41,  1.96it/s] 43%|████▎     | 4621/10711 [1:01:49<52:38,  1.93it/s] 43%|████▎     | 4622/10711 [1:01:49<51:46,  1.96it/s] 43%|████▎     | 4623/10711 [1:01:50<51:10,  1.98it/s] 43%|████▎     | 4624/10711 [1:01:50<50:44,  2.00it/s] 43%|████▎     | 4625/10711 [1:01:50<50:26,  2.01it/s]                                                      {'loss': 3.5651, 'grad_norm': 0.19018138945102692, 'learning_rate': 0.000700580622880411, 'epoch': 0.43}
 43%|████▎     | 4625/10711 [1:01:50<50:26,  2.01it/s] 43%|████▎     | 4626/10711 [1:01:51<50:23,  2.01it/s] 43%|████▎     | 4627/10711 [1:01:51<50:14,  2.02it/s] 43%|████▎     | 4628/10711 [1:01:52<50:03,  2.03it/s] 43%|████▎     | 4629/10711 [1:01:52<50:06,  2.02it/s] 43%|████▎     | 4630/10711 [1:01:53<49:59,  2.03it/s] 43%|████▎     | 4631/10711 [1:01:53<49:52,  2.03it/s] 43%|████▎     | 4632/10711 [1:01:54<49:56,  2.03it/s] 43%|████▎     | 4633/10711 [1:01:54<49:52,  2.03it/s] 43%|████▎     | 4634/10711 [1:01:55<51:10,  1.98it/s] 43%|████▎     | 4635/10711 [1:01:55<50:44,  2.00it/s] 43%|████▎     | 4636/10711 [1:01:56<50:27,  2.01it/s] 43%|████▎     | 4637/10711 [1:01:56<50:13,  2.02it/s] 43%|████▎     | 4638/10711 [1:01:57<50:00,  2.02it/s] 43%|████▎     | 4639/10711 [1:01:57<49:52,  2.03it/s] 43%|████▎     | 4640/10711 [1:01:58<51:58,  1.95it/s] 43%|████▎     | 4641/10711 [1:01:59<52:51,  1.91it/s] 43%|████▎     | 4642/10711 [1:01:59<53:59,  1.87it/s] 43%|████▎     | 4643/10711 [1:02:00<53:47,  1.88it/s] 43%|████▎     | 4644/10711 [1:02:00<52:35,  1.92it/s] 43%|████▎     | 4645/10711 [1:02:01<53:03,  1.91it/s] 43%|████▎     | 4646/10711 [1:02:01<52:02,  1.94it/s] 43%|████▎     | 4647/10711 [1:02:02<52:44,  1.92it/s] 43%|████▎     | 4648/10711 [1:02:02<51:44,  1.95it/s] 43%|████▎     | 4649/10711 [1:02:03<51:12,  1.97it/s] 43%|████▎     | 4650/10711 [1:02:03<52:22,  1.93it/s]{'loss': 3.5747, 'grad_norm': 0.19483457505702972, 'learning_rate': 0.0006968421322451182, 'epoch': 0.43}
                                                       43%|████▎     | 4650/10711 [1:02:03<52:22,  1.93it/s] 43%|████▎     | 4651/10711 [1:02:04<53:24,  1.89it/s] 43%|████▎     | 4652/10711 [1:02:04<52:14,  1.93it/s] 43%|████▎     | 4653/10711 [1:02:05<51:27,  1.96it/s] 43%|████▎     | 4654/10711 [1:02:05<50:55,  1.98it/s] 43%|████▎     | 4655/10711 [1:02:06<52:45,  1.91it/s] 43%|████▎     | 4656/10711 [1:02:06<51:47,  1.95it/s] 43%|████▎     | 4657/10711 [1:02:07<51:08,  1.97it/s] 43%|████▎     | 4658/10711 [1:02:07<50:37,  1.99it/s] 43%|████▎     | 4659/10711 [1:02:08<50:15,  2.01it/s] 44%|████▎     | 4660/10711 [1:02:08<50:04,  2.01it/s] 44%|████▎     | 4661/10711 [1:02:09<49:51,  2.02it/s] 44%|████▎     | 4662/10711 [1:02:09<49:42,  2.03it/s] 44%|████▎     | 4663/10711 [1:02:10<49:40,  2.03it/s] 44%|████▎     | 4664/10711 [1:02:10<49:35,  2.03it/s] 44%|████▎     | 4665/10711 [1:02:11<49:30,  2.04it/s] 44%|████▎     | 4666/10711 [1:02:11<49:29,  2.04it/s] 44%|████▎     | 4667/10711 [1:02:12<49:29,  2.04it/s] 44%|████▎     | 4668/10711 [1:02:12<51:51,  1.94it/s] 44%|████▎     | 4669/10711 [1:02:13<51:08,  1.97it/s] 44%|████▎     | 4670/10711 [1:02:13<50:38,  1.99it/s] 44%|████▎     | 4671/10711 [1:02:14<50:15,  2.00it/s] 44%|████▎     | 4672/10711 [1:02:14<51:20,  1.96it/s] 44%|████▎     | 4673/10711 [1:02:15<50:45,  1.98it/s] 44%|████▎     | 4674/10711 [1:02:15<50:18,  2.00it/s] 44%|████▎     | 4675/10711 [1:02:16<50:04,  2.01it/s]{'loss': 3.57, 'grad_norm': 0.19929687678813934, 'learning_rate': 0.0006930905729377631, 'epoch': 0.44}                                                      
 44%|████▎     | 4675/10711 [1:02:16<50:04,  2.01it/s] 44%|████▎     | 4676/10711 [1:02:16<49:54,  2.02it/s] 44%|████▎     | 4677/10711 [1:02:17<49:49,  2.02it/s] 44%|████▎     | 4678/10711 [1:02:17<49:43,  2.02it/s] 44%|████▎     | 4679/10711 [1:02:18<49:33,  2.03it/s] 44%|████▎     | 4680/10711 [1:02:18<49:30,  2.03it/s] 44%|████▎     | 4681/10711 [1:02:19<49:30,  2.03it/s] 44%|████▎     | 4682/10711 [1:02:19<49:27,  2.03it/s] 44%|████▎     | 4683/10711 [1:02:20<49:24,  2.03it/s] 44%|████▎     | 4684/10711 [1:02:20<49:24,  2.03it/s] 44%|████▎     | 4685/10711 [1:02:21<49:20,  2.04it/s] 44%|████▎     | 4686/10711 [1:02:21<50:48,  1.98it/s] 44%|████▍     | 4687/10711 [1:02:22<51:51,  1.94it/s] 44%|████▍     | 4688/10711 [1:02:22<51:02,  1.97it/s] 44%|████▍     | 4689/10711 [1:02:23<50:26,  1.99it/s] 44%|████▍     | 4690/10711 [1:02:23<50:05,  2.00it/s] 44%|████▍     | 4691/10711 [1:02:24<51:54,  1.93it/s] 44%|████▍     | 4692/10711 [1:02:24<51:07,  1.96it/s] 44%|████▍     | 4693/10711 [1:02:25<50:39,  1.98it/s] 44%|████▍     | 4694/10711 [1:02:25<51:35,  1.94it/s] 44%|████▍     | 4695/10711 [1:02:26<52:30,  1.91it/s] 44%|████▍     | 4696/10711 [1:02:26<51:32,  1.94it/s] 44%|████▍     | 4697/10711 [1:02:27<51:33,  1.94it/s] 44%|████▍     | 4698/10711 [1:02:27<50:51,  1.97it/s] 44%|████▍     | 4699/10711 [1:02:28<50:21,  1.99it/s] 44%|████▍     | 4700/10711 [1:02:28<50:02,  2.00it/s]{'loss': 3.5708, 'grad_norm': 0.19255585968494415, 'learning_rate': 0.0006893261940305224, 'epoch': 0.44}
                                                       44%|████▍     | 4700/10711 [1:02:28<50:02,  2.00it/s] 44%|████▍     | 4701/10711 [1:02:29<49:53,  2.01it/s] 44%|████▍     | 4702/10711 [1:02:29<49:46,  2.01it/s] 44%|████▍     | 4703/10711 [1:02:30<49:35,  2.02it/s] 44%|████▍     | 4704/10711 [1:02:30<49:25,  2.03it/s] 44%|████▍     | 4705/10711 [1:02:31<49:18,  2.03it/s] 44%|████▍     | 4706/10711 [1:02:31<49:15,  2.03it/s] 44%|████▍     | 4707/10711 [1:02:32<49:13,  2.03it/s] 44%|████▍     | 4708/10711 [1:02:32<49:50,  2.01it/s] 44%|████▍     | 4709/10711 [1:02:33<49:36,  2.02it/s] 44%|████▍     | 4710/10711 [1:02:33<49:31,  2.02it/s] 44%|████▍     | 4711/10711 [1:02:34<49:20,  2.03it/s] 44%|████▍     | 4712/10711 [1:02:34<49:17,  2.03it/s] 44%|████▍     | 4713/10711 [1:02:35<49:12,  2.03it/s] 44%|████▍     | 4714/10711 [1:02:35<49:07,  2.03it/s] 44%|████▍     | 4715/10711 [1:02:36<49:06,  2.03it/s] 44%|████▍     | 4716/10711 [1:02:36<50:59,  1.96it/s] 44%|████▍     | 4717/10711 [1:02:37<50:24,  1.98it/s] 44%|████▍     | 4718/10711 [1:02:37<52:13,  1.91it/s] 44%|████▍     | 4719/10711 [1:02:38<51:17,  1.95it/s] 44%|████▍     | 4720/10711 [1:02:38<50:38,  1.97it/s] 44%|████▍     | 4721/10711 [1:02:39<50:11,  1.99it/s] 44%|████▍     | 4722/10711 [1:02:39<49:47,  2.00it/s] 44%|████▍     | 4723/10711 [1:02:40<49:32,  2.01it/s] 44%|████▍     | 4724/10711 [1:02:40<50:39,  1.97it/s] 44%|████▍     | 4725/10711 [1:02:41<50:07,  1.99it/s]{'loss': 3.5717, 'grad_norm': 0.19964228570461273, 'learning_rate': 0.0006855492454466872, 'epoch': 0.44}
                                                       44%|████▍     | 4725/10711 [1:02:41<50:07,  1.99it/s] 44%|████▍     | 4726/10711 [1:02:41<49:50,  2.00it/s] 44%|████▍     | 4727/10711 [1:02:42<49:35,  2.01it/s] 44%|████▍     | 4728/10711 [1:02:42<49:23,  2.02it/s] 44%|████▍     | 4729/10711 [1:02:43<49:15,  2.02it/s] 44%|████▍     | 4730/10711 [1:02:43<49:10,  2.03it/s] 44%|████▍     | 4731/10711 [1:02:44<49:02,  2.03it/s] 44%|████▍     | 4732/10711 [1:02:44<48:59,  2.03it/s] 44%|████▍     | 4733/10711 [1:02:45<50:19,  1.98it/s] 44%|████▍     | 4734/10711 [1:02:45<51:35,  1.93it/s] 44%|████▍     | 4735/10711 [1:02:46<50:49,  1.96it/s] 44%|████▍     | 4736/10711 [1:02:46<50:16,  1.98it/s] 44%|████▍     | 4737/10711 [1:02:47<49:49,  2.00it/s] 44%|████▍     | 4738/10711 [1:02:47<51:00,  1.95it/s] 44%|████▍     | 4739/10711 [1:02:48<50:18,  1.98it/s] 44%|████▍     | 4740/10711 [1:02:48<51:35,  1.93it/s] 44%|████▍     | 4741/10711 [1:02:49<50:47,  1.96it/s] 44%|████▍     | 4742/10711 [1:02:49<50:10,  1.98it/s] 44%|████▍     | 4743/10711 [1:02:50<50:55,  1.95it/s] 44%|████▍     | 4744/10711 [1:02:50<50:19,  1.98it/s] 44%|████▍     | 4745/10711 [1:02:51<49:54,  1.99it/s] 44%|████▍     | 4746/10711 [1:02:51<49:31,  2.01it/s] 44%|████▍     | 4747/10711 [1:02:52<49:22,  2.01it/s] 44%|████▍     | 4748/10711 [1:02:52<50:03,  1.99it/s] 44%|████▍     | 4749/10711 [1:02:53<49:39,  2.00it/s] 44%|████▍     | 4750/10711 [1:02:53<50:42,  1.96it/s]                                                      {'loss': 3.5655, 'grad_norm': 0.2018018364906311, 'learning_rate': 0.000681759977944069, 'epoch': 0.44}
 44%|████▍     | 4750/10711 [1:02:53<50:42,  1.96it/s] 44%|████▍     | 4751/10711 [1:02:54<50:19,  1.97it/s] 44%|████▍     | 4752/10711 [1:02:54<49:50,  1.99it/s] 44%|████▍     | 4753/10711 [1:02:55<49:30,  2.01it/s] 44%|████▍     | 4754/10711 [1:02:55<49:19,  2.01it/s] 44%|████▍     | 4755/10711 [1:02:56<49:05,  2.02it/s] 44%|████▍     | 4756/10711 [1:02:56<48:57,  2.03it/s] 44%|████▍     | 4757/10711 [1:02:57<50:56,  1.95it/s] 44%|████▍     | 4758/10711 [1:02:57<50:15,  1.97it/s] 44%|████▍     | 4759/10711 [1:02:58<52:08,  1.90it/s] 44%|████▍     | 4760/10711 [1:02:58<51:07,  1.94it/s] 44%|████▍     | 4761/10711 [1:02:59<52:05,  1.90it/s] 44%|████▍     | 4762/10711 [1:03:00<52:24,  1.89it/s] 44%|████▍     | 4763/10711 [1:03:00<54:31,  1.82it/s] 44%|████▍     | 4764/10711 [1:03:01<52:45,  1.88it/s] 44%|████▍     | 4765/10711 [1:03:01<51:28,  1.93it/s] 44%|████▍     | 4766/10711 [1:03:02<50:36,  1.96it/s] 45%|████▍     | 4767/10711 [1:03:02<51:45,  1.91it/s] 45%|████▍     | 4768/10711 [1:03:03<50:49,  1.95it/s] 45%|████▍     | 4769/10711 [1:03:03<52:08,  1.90it/s] 45%|████▍     | 4770/10711 [1:03:04<51:06,  1.94it/s] 45%|████▍     | 4771/10711 [1:03:04<50:18,  1.97it/s] 45%|████▍     | 4772/10711 [1:03:05<49:52,  1.98it/s] 45%|████▍     | 4773/10711 [1:03:05<49:27,  2.00it/s] 45%|████▍     | 4774/10711 [1:03:06<50:59,  1.94it/s] 45%|████▍     | 4775/10711 [1:03:06<50:16,  1.97it/s]{'loss': 3.5653, 'grad_norm': 0.18696115911006927, 'learning_rate': 0.0006779586430983539, 'epoch': 0.45}                                                      
 45%|████▍     | 4775/10711 [1:03:06<50:16,  1.97it/s] 45%|████▍     | 4776/10711 [1:03:07<49:53,  1.98it/s] 45%|████▍     | 4777/10711 [1:03:07<49:29,  2.00it/s] 45%|████▍     | 4778/10711 [1:03:08<49:12,  2.01it/s] 45%|████▍     | 4779/10711 [1:03:08<48:59,  2.02it/s] 45%|████▍     | 4780/10711 [1:03:09<48:49,  2.02it/s] 45%|████▍     | 4781/10711 [1:03:09<48:44,  2.03it/s] 45%|████▍     | 4782/10711 [1:03:10<50:35,  1.95it/s] 45%|████▍     | 4783/10711 [1:03:10<51:55,  1.90it/s] 45%|████▍     | 4784/10711 [1:03:11<50:54,  1.94it/s] 45%|████▍     | 4785/10711 [1:03:11<50:09,  1.97it/s] 45%|████▍     | 4786/10711 [1:03:12<51:09,  1.93it/s] 45%|████▍     | 4787/10711 [1:03:12<50:18,  1.96it/s] 45%|████▍     | 4788/10711 [1:03:13<49:48,  1.98it/s] 45%|████▍     | 4789/10711 [1:03:13<49:24,  2.00it/s] 45%|████▍     | 4790/10711 [1:03:14<50:34,  1.95it/s] 45%|████▍     | 4791/10711 [1:03:14<49:54,  1.98it/s] 45%|████▍     | 4792/10711 [1:03:15<49:29,  1.99it/s] 45%|████▍     | 4793/10711 [1:03:15<49:10,  2.01it/s] 45%|████▍     | 4794/10711 [1:03:16<48:53,  2.02it/s] 45%|████▍     | 4795/10711 [1:03:16<48:44,  2.02it/s] 45%|████▍     | 4796/10711 [1:03:17<49:13,  2.00it/s] 45%|████▍     | 4797/10711 [1:03:17<49:47,  1.98it/s] 45%|████▍     | 4798/10711 [1:03:18<50:10,  1.96it/s] 45%|████▍     | 4799/10711 [1:03:18<50:41,  1.94it/s] 45%|████▍     | 4800/10711 [1:03:19<49:57,  1.97it/s]{'loss': 3.5631, 'grad_norm': 0.19482620060443878, 'learning_rate': 0.0006741454932863977, 'epoch': 0.45}                                                      
 45%|████▍     | 4800/10711 [1:03:19<49:57,  1.97it/s] 45%|████▍     | 4801/10711 [1:03:19<49:34,  1.99it/s] 45%|████▍     | 4802/10711 [1:03:20<49:11,  2.00it/s] 45%|████▍     | 4803/10711 [1:03:20<50:18,  1.96it/s] 45%|████▍     | 4804/10711 [1:03:21<49:40,  1.98it/s] 45%|████▍     | 4805/10711 [1:03:21<49:13,  2.00it/s] 45%|████▍     | 4806/10711 [1:03:22<50:54,  1.93it/s] 45%|████▍     | 4807/10711 [1:03:22<50:03,  1.97it/s] 45%|████▍     | 4808/10711 [1:03:23<49:34,  1.98it/s] 45%|████▍     | 4809/10711 [1:03:23<49:14,  2.00it/s] 45%|████▍     | 4810/10711 [1:03:24<48:55,  2.01it/s] 45%|████▍     | 4811/10711 [1:03:24<48:43,  2.02it/s] 45%|████▍     | 4812/10711 [1:03:25<49:56,  1.97it/s] 45%|████▍     | 4813/10711 [1:03:25<51:46,  1.90it/s] 45%|████▍     | 4814/10711 [1:03:26<50:43,  1.94it/s] 45%|████▍     | 4815/10711 [1:03:26<49:56,  1.97it/s] 45%|████▍     | 4816/10711 [1:03:27<49:27,  1.99it/s] 45%|████▍     | 4817/10711 [1:03:27<49:09,  2.00it/s] 45%|████▍     | 4818/10711 [1:03:28<52:13,  1.88it/s] 45%|████▍     | 4819/10711 [1:03:29<51:03,  1.92it/s] 45%|████▌     | 4820/10711 [1:03:29<50:12,  1.96it/s] 45%|████▌     | 4821/10711 [1:03:30<49:37,  1.98it/s] 45%|████▌     | 4822/10711 [1:03:30<49:10,  2.00it/s] 45%|████▌     | 4823/10711 [1:03:31<49:41,  1.98it/s] 45%|████▌     | 4824/10711 [1:03:31<50:11,  1.95it/s] 45%|████▌     | 4825/10711 [1:03:32<50:14,  1.95it/s]                                                      {'loss': 3.5631, 'grad_norm': 0.18881884217262268, 'learning_rate': 0.0006703207816694718, 'epoch': 0.45}
 45%|████▌     | 4825/10711 [1:03:32<50:14,  1.95it/s] 45%|████▌     | 4826/10711 [1:03:32<49:48,  1.97it/s] 45%|████▌     | 4827/10711 [1:03:33<49:16,  1.99it/s] 45%|████▌     | 4828/10711 [1:03:33<48:58,  2.00it/s] 45%|████▌     | 4829/10711 [1:03:34<48:44,  2.01it/s] 45%|████▌     | 4830/10711 [1:03:34<49:02,  2.00it/s] 45%|████▌     | 4831/10711 [1:03:35<49:15,  1.99it/s] 45%|████▌     | 4832/10711 [1:03:35<48:51,  2.01it/s] 45%|████▌     | 4833/10711 [1:03:36<48:39,  2.01it/s] 45%|████▌     | 4834/10711 [1:03:36<51:01,  1.92it/s] 45%|████▌     | 4835/10711 [1:03:37<50:14,  1.95it/s] 45%|████▌     | 4836/10711 [1:03:37<50:24,  1.94it/s] 45%|████▌     | 4837/10711 [1:03:38<49:42,  1.97it/s] 45%|████▌     | 4838/10711 [1:03:38<49:45,  1.97it/s] 45%|████▌     | 4839/10711 [1:03:39<49:16,  1.99it/s] 45%|████▌     | 4840/10711 [1:03:39<48:51,  2.00it/s] 45%|████▌     | 4841/10711 [1:03:40<48:39,  2.01it/s] 45%|████▌     | 4842/10711 [1:03:40<49:07,  1.99it/s] 45%|████▌     | 4843/10711 [1:03:41<55:51,  1.75it/s] 45%|████▌     | 4844/10711 [1:03:41<53:28,  1.83it/s] 45%|████▌     | 4845/10711 [1:03:42<51:50,  1.89it/s] 45%|████▌     | 4846/10711 [1:03:42<50:43,  1.93it/s] 45%|████▌     | 4847/10711 [1:03:43<50:18,  1.94it/s] 45%|████▌     | 4848/10711 [1:03:43<50:19,  1.94it/s] 45%|████▌     | 4849/10711 [1:03:44<50:08,  1.95it/s] 45%|████▌     | 4850/10711 [1:03:44<50:04,  1.95it/s]{'loss': 3.55, 'grad_norm': 0.1950724720954895, 'learning_rate': 0.0006664847621764545, 'epoch': 0.45}
                                                       45%|████▌     | 4850/10711 [1:03:44<50:04,  1.95it/s] 45%|████▌     | 4851/10711 [1:03:45<50:16,  1.94it/s] 45%|████▌     | 4852/10711 [1:03:45<49:34,  1.97it/s] 45%|████▌     | 4853/10711 [1:03:46<49:05,  1.99it/s] 45%|████▌     | 4854/10711 [1:03:46<49:10,  1.99it/s] 45%|████▌     | 4855/10711 [1:03:47<48:49,  2.00it/s] 45%|████▌     | 4856/10711 [1:03:47<48:34,  2.01it/s] 45%|████▌     | 4857/10711 [1:03:48<48:21,  2.02it/s] 45%|████▌     | 4858/10711 [1:03:48<48:14,  2.02it/s] 45%|████▌     | 4859/10711 [1:03:49<48:13,  2.02it/s] 45%|████▌     | 4860/10711 [1:03:49<48:06,  2.03it/s] 45%|████▌     | 4861/10711 [1:03:50<48:02,  2.03it/s] 45%|████▌     | 4862/10711 [1:03:50<49:11,  1.98it/s] 45%|████▌     | 4863/10711 [1:03:51<53:42,  1.81it/s] 45%|████▌     | 4864/10711 [1:03:51<51:56,  1.88it/s] 45%|████▌     | 4865/10711 [1:03:52<50:42,  1.92it/s] 45%|████▌     | 4866/10711 [1:03:52<49:51,  1.95it/s] 45%|████▌     | 4867/10711 [1:03:53<49:18,  1.98it/s] 45%|████▌     | 4868/10711 [1:03:53<49:21,  1.97it/s] 45%|████▌     | 4869/10711 [1:03:54<48:51,  1.99it/s] 45%|████▌     | 4870/10711 [1:03:54<49:00,  1.99it/s] 45%|████▌     | 4871/10711 [1:03:55<48:39,  2.00it/s] 45%|████▌     | 4872/10711 [1:03:55<48:52,  1.99it/s] 45%|████▌     | 4873/10711 [1:03:56<48:31,  2.01it/s] 46%|████▌     | 4874/10711 [1:03:56<48:20,  2.01it/s] 46%|████▌     | 4875/10711 [1:03:57<48:12,  2.02it/s]{'loss': 3.5588, 'grad_norm': 0.19071100652217865, 'learning_rate': 0.0006626376894869724, 'epoch': 0.46}                                                      
 46%|████▌     | 4875/10711 [1:03:57<48:12,  2.02it/s] 46%|████▌     | 4876/10711 [1:03:57<48:09,  2.02it/s] 46%|████▌     | 4877/10711 [1:03:58<48:52,  1.99it/s] 46%|████▌     | 4878/10711 [1:03:58<48:34,  2.00it/s] 46%|████▌     | 4879/10711 [1:03:59<48:21,  2.01it/s] 46%|████▌     | 4880/10711 [1:03:59<48:44,  1.99it/s] 46%|████▌     | 4881/10711 [1:04:00<48:25,  2.01it/s] 46%|████▌     | 4882/10711 [1:04:00<48:12,  2.01it/s] 46%|████▌     | 4883/10711 [1:04:01<48:00,  2.02it/s] 46%|████▌     | 4884/10711 [1:04:01<47:57,  2.02it/s] 46%|████▌     | 4885/10711 [1:04:02<47:53,  2.03it/s] 46%|████▌     | 4886/10711 [1:04:02<47:47,  2.03it/s] 46%|████▌     | 4887/10711 [1:04:03<47:47,  2.03it/s] 46%|████▌     | 4888/10711 [1:04:03<47:43,  2.03it/s] 46%|████▌     | 4889/10711 [1:04:04<48:06,  2.02it/s] 46%|████▌     | 4890/10711 [1:04:04<47:57,  2.02it/s] 46%|████▌     | 4891/10711 [1:04:05<47:57,  2.02it/s] 46%|████▌     | 4892/10711 [1:04:05<48:23,  2.00it/s] 46%|████▌     | 4893/10711 [1:04:06<48:16,  2.01it/s] 46%|████▌     | 4894/10711 [1:04:06<48:06,  2.02it/s] 46%|████▌     | 4895/10711 [1:04:07<48:25,  2.00it/s] 46%|████▌     | 4896/10711 [1:04:07<48:12,  2.01it/s] 46%|████▌     | 4897/10711 [1:04:08<48:01,  2.02it/s] 46%|████▌     | 4898/10711 [1:04:08<47:52,  2.02it/s] 46%|████▌     | 4899/10711 [1:04:09<47:48,  2.03it/s] 46%|████▌     | 4900/10711 [1:04:09<47:42,  2.03it/s]                                                      {'loss': 3.5578, 'grad_norm': 0.21088778972625732, 'learning_rate': 0.0006587798190144923, 'epoch': 0.46}
 46%|████▌     | 4900/10711 [1:04:09<47:42,  2.03it/s] 46%|████▌     | 4901/10711 [1:04:10<47:47,  2.03it/s] 46%|████▌     | 4902/10711 [1:04:10<47:46,  2.03it/s] 46%|████▌     | 4903/10711 [1:04:11<47:42,  2.03it/s] 46%|████▌     | 4904/10711 [1:04:11<47:42,  2.03it/s] 46%|████▌     | 4905/10711 [1:04:12<47:39,  2.03it/s] 46%|████▌     | 4906/10711 [1:04:12<48:41,  1.99it/s] 46%|████▌     | 4907/10711 [1:04:13<48:51,  1.98it/s] 46%|████▌     | 4908/10711 [1:04:13<48:25,  2.00it/s] 46%|████▌     | 4909/10711 [1:04:14<48:09,  2.01it/s] 46%|████▌     | 4910/10711 [1:04:14<48:00,  2.01it/s] 46%|████▌     | 4911/10711 [1:04:15<47:50,  2.02it/s] 46%|████▌     | 4912/10711 [1:04:15<47:44,  2.02it/s] 46%|████▌     | 4913/10711 [1:04:16<47:38,  2.03it/s] 46%|████▌     | 4914/10711 [1:04:16<48:03,  2.01it/s] 46%|████▌     | 4915/10711 [1:04:17<47:56,  2.02it/s] 46%|████▌     | 4916/10711 [1:04:17<47:44,  2.02it/s] 46%|████▌     | 4917/10711 [1:04:18<48:09,  2.01it/s] 46%|████▌     | 4918/10711 [1:04:18<48:01,  2.01it/s] 46%|████▌     | 4919/10711 [1:04:19<48:27,  1.99it/s] 46%|████▌     | 4920/10711 [1:04:19<48:14,  2.00it/s] 46%|████▌     | 4921/10711 [1:04:20<47:56,  2.01it/s] 46%|████▌     | 4922/10711 [1:04:20<48:20,  2.00it/s] 46%|████▌     | 4923/10711 [1:04:21<48:04,  2.01it/s] 46%|████▌     | 4924/10711 [1:04:21<47:54,  2.01it/s] 46%|████▌     | 4925/10711 [1:04:22<47:44,  2.02it/s]                                                      {'loss': 3.5534, 'grad_norm': 0.19620250165462494, 'learning_rate': 0.0006549114068893633, 'epoch': 0.46}
 46%|████▌     | 4925/10711 [1:04:22<47:44,  2.02it/s] 46%|████▌     | 4926/10711 [1:04:22<47:42,  2.02it/s] 46%|████▌     | 4927/10711 [1:04:23<47:33,  2.03it/s] 46%|████▌     | 4928/10711 [1:04:23<47:27,  2.03it/s] 46%|████▌     | 4929/10711 [1:04:24<48:00,  2.01it/s] 46%|████▌     | 4930/10711 [1:04:24<48:17,  2.00it/s] 46%|████▌     | 4931/10711 [1:04:25<47:54,  2.01it/s] 46%|████▌     | 4932/10711 [1:04:25<47:44,  2.02it/s] 46%|████▌     | 4933/10711 [1:04:26<48:05,  2.00it/s] 46%|████▌     | 4934/10711 [1:04:26<47:52,  2.01it/s] 46%|████▌     | 4935/10711 [1:04:27<47:38,  2.02it/s] 46%|████▌     | 4936/10711 [1:04:27<47:29,  2.03it/s] 46%|████▌     | 4937/10711 [1:04:28<47:57,  2.01it/s] 46%|████▌     | 4938/10711 [1:04:28<47:46,  2.01it/s] 46%|████▌     | 4939/10711 [1:04:29<47:33,  2.02it/s] 46%|████▌     | 4940/10711 [1:04:29<47:32,  2.02it/s] 46%|████▌     | 4941/10711 [1:04:30<47:25,  2.03it/s] 46%|████▌     | 4942/10711 [1:04:30<47:20,  2.03it/s] 46%|████▌     | 4943/10711 [1:04:31<47:53,  2.01it/s] 46%|████▌     | 4944/10711 [1:04:31<47:40,  2.02it/s] 46%|████▌     | 4945/10711 [1:04:32<47:29,  2.02it/s] 46%|████▌     | 4946/10711 [1:04:32<47:24,  2.03it/s] 46%|████▌     | 4947/10711 [1:04:33<47:24,  2.03it/s] 46%|████▌     | 4948/10711 [1:04:33<47:55,  2.00it/s] 46%|████▌     | 4949/10711 [1:04:34<47:44,  2.01it/s] 46%|████▌     | 4950/10711 [1:04:34<47:36,  2.02it/s]                                                      {'loss': 3.5513, 'grad_norm': 0.19998639822006226, 'learning_rate': 0.0006510327099418125, 'epoch': 0.46}
 46%|████▌     | 4950/10711 [1:04:34<47:36,  2.02it/s] 46%|████▌     | 4951/10711 [1:04:35<47:33,  2.02it/s] 46%|████▌     | 4952/10711 [1:04:35<47:25,  2.02it/s] 46%|████▌     | 4953/10711 [1:04:36<48:03,  2.00it/s] 46%|████▋     | 4954/10711 [1:04:36<48:17,  1.99it/s] 46%|████▋     | 4955/10711 [1:04:37<48:25,  1.98it/s] 46%|████▋     | 4956/10711 [1:04:37<48:05,  1.99it/s] 46%|████▋     | 4957/10711 [1:04:38<48:12,  1.99it/s] 46%|████▋     | 4958/10711 [1:04:38<47:56,  2.00it/s] 46%|████▋     | 4959/10711 [1:04:39<47:40,  2.01it/s] 46%|████▋     | 4960/10711 [1:04:39<47:33,  2.02it/s] 46%|████▋     | 4961/10711 [1:04:40<47:25,  2.02it/s] 46%|████▋     | 4962/10711 [1:04:40<48:13,  1.99it/s] 46%|████▋     | 4963/10711 [1:04:41<47:54,  2.00it/s] 46%|████▋     | 4964/10711 [1:04:41<47:37,  2.01it/s] 46%|████▋     | 4965/10711 [1:04:42<47:28,  2.02it/s] 46%|████▋     | 4966/10711 [1:04:42<47:22,  2.02it/s] 46%|████▋     | 4967/10711 [1:04:43<47:17,  2.02it/s] 46%|████▋     | 4968/10711 [1:04:43<47:19,  2.02it/s] 46%|████▋     | 4969/10711 [1:04:44<47:14,  2.03it/s] 46%|████▋     | 4970/10711 [1:04:44<47:10,  2.03it/s] 46%|████▋     | 4971/10711 [1:04:45<47:08,  2.03it/s] 46%|████▋     | 4972/10711 [1:04:45<47:05,  2.03it/s] 46%|████▋     | 4973/10711 [1:04:46<47:05,  2.03it/s] 46%|████▋     | 4974/10711 [1:04:46<47:04,  2.03it/s] 46%|████▋     | 4975/10711 [1:04:47<47:49,  2.00it/s]{'loss': 3.5509, 'grad_norm': 0.21106672286987305, 'learning_rate': 0.0006471439856848925, 'epoch': 0.46}
                                                       46%|████▋     | 4975/10711 [1:04:47<47:49,  2.00it/s] 46%|████▋     | 4976/10711 [1:04:47<47:39,  2.01it/s] 46%|████▋     | 4977/10711 [1:04:48<47:25,  2.02it/s] 46%|████▋     | 4978/10711 [1:04:48<47:15,  2.02it/s] 46%|████▋     | 4979/10711 [1:04:49<47:10,  2.03it/s] 46%|████▋     | 4980/10711 [1:04:49<47:06,  2.03it/s] 47%|████▋     | 4981/10711 [1:04:50<47:03,  2.03it/s] 47%|████▋     | 4982/10711 [1:04:50<47:02,  2.03it/s] 47%|████▋     | 4983/10711 [1:04:51<46:59,  2.03it/s] 47%|████▋     | 4984/10711 [1:04:51<47:00,  2.03it/s] 47%|████▋     | 4985/10711 [1:04:52<46:59,  2.03it/s] 47%|████▋     | 4986/10711 [1:04:52<47:54,  1.99it/s] 47%|████▋     | 4987/10711 [1:04:53<47:41,  2.00it/s] 47%|████▋     | 4988/10711 [1:04:53<49:02,  1.95it/s] 47%|████▋     | 4989/10711 [1:04:54<48:21,  1.97it/s] 47%|████▋     | 4990/10711 [1:04:54<47:55,  1.99it/s] 47%|████▋     | 4991/10711 [1:04:55<47:38,  2.00it/s] 47%|████▋     | 4992/10711 [1:04:55<47:23,  2.01it/s] 47%|████▋     | 4993/10711 [1:04:56<47:15,  2.02it/s] 47%|████▋     | 4994/10711 [1:04:56<47:07,  2.02it/s] 47%|████▋     | 4995/10711 [1:04:57<47:00,  2.03it/s] 47%|████▋     | 4996/10711 [1:04:57<46:58,  2.03it/s] 47%|████▋     | 4997/10711 [1:04:58<46:56,  2.03it/s] 47%|████▋     | 4998/10711 [1:04:58<47:49,  1.99it/s] 47%|████▋     | 4999/10711 [1:04:59<47:28,  2.01it/s] 47%|████▋     | 5000/10711 [1:04:59<47:17,  2.01it/s]{'loss': 3.5539, 'grad_norm': 0.18514986336231232, 'learning_rate': 0.000643245492297386, 'epoch': 0.47}
                                                       47%|████▋     | 5000/10711 [1:04:59<47:17,  2.01it/s] 47%|████▋     | 5001/10711 [1:05:00<47:08,  2.02it/s] 47%|████▋     | 5002/10711 [1:05:00<46:59,  2.02it/s] 47%|████▋     | 5003/10711 [1:05:01<46:54,  2.03it/s] 47%|████▋     | 5004/10711 [1:05:01<46:48,  2.03it/s] 47%|████▋     | 5005/10711 [1:05:01<46:43,  2.04it/s] 47%|████▋     | 5006/10711 [1:05:02<46:45,  2.03it/s] 47%|████▋     | 5007/10711 [1:05:02<46:46,  2.03it/s] 47%|████▋     | 5008/10711 [1:05:03<46:40,  2.04it/s] 47%|████▋     | 5009/10711 [1:05:03<46:46,  2.03it/s] 47%|████▋     | 5010/10711 [1:05:04<46:41,  2.04it/s] 47%|████▋     | 5011/10711 [1:05:04<46:37,  2.04it/s] 47%|████▋     | 5012/10711 [1:05:05<46:42,  2.03it/s] 47%|████▋     | 5013/10711 [1:05:05<46:38,  2.04it/s] 47%|████▋     | 5014/10711 [1:05:06<46:36,  2.04it/s] 47%|████▋     | 5015/10711 [1:05:06<46:41,  2.03it/s] 47%|████▋     | 5016/10711 [1:05:07<47:38,  1.99it/s] 47%|████▋     | 5017/10711 [1:05:07<47:21,  2.00it/s] 47%|████▋     | 5018/10711 [1:05:08<47:09,  2.01it/s] 47%|████▋     | 5019/10711 [1:05:08<48:09,  1.97it/s] 47%|████▋     | 5020/10711 [1:05:09<50:57,  1.86it/s] 47%|████▋     | 5021/10711 [1:05:10<49:35,  1.91it/s] 47%|████▋     | 5022/10711 [1:05:10<48:46,  1.94it/s] 47%|████▋     | 5023/10711 [1:05:11<48:06,  1.97it/s] 47%|████▋     | 5024/10711 [1:05:11<47:36,  1.99it/s] 47%|████▋     | 5025/10711 [1:05:12<47:19,  2.00it/s]                                                      {'loss': 3.5449, 'grad_norm': 0.19555100798606873, 'learning_rate': 0.000639337488606664, 'epoch': 0.47}
 47%|████▋     | 5025/10711 [1:05:12<47:19,  2.00it/s] 47%|████▋     | 5026/10711 [1:05:12<47:10,  2.01it/s] 47%|████▋     | 5027/10711 [1:05:12<46:59,  2.02it/s] 47%|████▋     | 5028/10711 [1:05:13<46:51,  2.02it/s] 47%|████▋     | 5029/10711 [1:05:13<46:41,  2.03it/s] 47%|████▋     | 5030/10711 [1:05:14<46:40,  2.03it/s] 47%|████▋     | 5031/10711 [1:05:14<46:35,  2.03it/s] 47%|████▋     | 5032/10711 [1:05:15<46:31,  2.03it/s] 47%|████▋     | 5033/10711 [1:05:15<46:30,  2.04it/s] 47%|████▋     | 5034/10711 [1:05:16<46:29,  2.03it/s] 47%|████▋     | 5035/10711 [1:05:16<46:26,  2.04it/s] 47%|████▋     | 5036/10711 [1:05:17<46:27,  2.04it/s] 47%|████▋     | 5037/10711 [1:05:17<46:27,  2.04it/s] 47%|████▋     | 5038/10711 [1:05:18<46:29,  2.03it/s] 47%|████▋     | 5039/10711 [1:05:18<46:26,  2.04it/s] 47%|████▋     | 5040/10711 [1:05:19<46:57,  2.01it/s] 47%|████▋     | 5041/10711 [1:05:19<46:48,  2.02it/s] 47%|████▋     | 5042/10711 [1:05:20<46:44,  2.02it/s] 47%|████▋     | 5043/10711 [1:05:20<46:39,  2.02it/s] 47%|████▋     | 5044/10711 [1:05:21<46:35,  2.03it/s] 47%|████▋     | 5045/10711 [1:05:21<46:30,  2.03it/s] 47%|████▋     | 5046/10711 [1:05:22<46:29,  2.03it/s] 47%|████▋     | 5047/10711 [1:05:22<46:27,  2.03it/s] 47%|████▋     | 5048/10711 [1:05:23<47:17,  2.00it/s] 47%|████▋     | 5049/10711 [1:05:23<46:58,  2.01it/s] 47%|████▋     | 5050/10711 [1:05:24<46:51,  2.01it/s]{'loss': 3.5459, 'grad_norm': 0.2105122208595276, 'learning_rate': 0.0006354202340715027, 'epoch': 0.47}
                                                       47%|████▋     | 5050/10711 [1:05:24<46:51,  2.01it/s] 47%|████▋     | 5051/10711 [1:05:24<46:48,  2.02it/s] 47%|████▋     | 5052/10711 [1:05:25<46:43,  2.02it/s] 47%|████▋     | 5053/10711 [1:05:25<46:37,  2.02it/s] 47%|████▋     | 5054/10711 [1:05:26<46:31,  2.03it/s] 47%|████▋     | 5055/10711 [1:05:26<46:33,  2.02it/s] 47%|████▋     | 5056/10711 [1:05:27<46:29,  2.03it/s] 47%|████▋     | 5057/10711 [1:05:27<46:25,  2.03it/s] 47%|████▋     | 5058/10711 [1:05:28<46:45,  2.02it/s] 47%|████▋     | 5059/10711 [1:05:28<47:11,  2.00it/s] 47%|████▋     | 5060/10711 [1:05:29<46:54,  2.01it/s] 47%|████▋     | 5061/10711 [1:05:29<46:41,  2.02it/s] 47%|████▋     | 5062/10711 [1:05:30<46:33,  2.02it/s] 47%|████▋     | 5063/10711 [1:05:30<46:27,  2.03it/s] 47%|████▋     | 5064/10711 [1:05:31<46:47,  2.01it/s] 47%|████▋     | 5065/10711 [1:05:31<46:32,  2.02it/s] 47%|████▋     | 5066/10711 [1:05:32<46:28,  2.02it/s] 47%|████▋     | 5067/10711 [1:05:32<46:24,  2.03it/s] 47%|████▋     | 5068/10711 [1:05:33<46:18,  2.03it/s] 47%|████▋     | 5069/10711 [1:05:33<46:18,  2.03it/s] 47%|████▋     | 5070/10711 [1:05:34<46:17,  2.03it/s] 47%|████▋     | 5071/10711 [1:05:34<46:15,  2.03it/s] 47%|████▋     | 5072/10711 [1:05:35<46:46,  2.01it/s] 47%|████▋     | 5073/10711 [1:05:35<46:34,  2.02it/s] 47%|████▋     | 5074/10711 [1:05:36<46:25,  2.02it/s] 47%|████▋     | 5075/10711 [1:05:36<46:24,  2.02it/s]                                                      {'loss': 3.5369, 'grad_norm': 0.20325785875320435, 'learning_rate': 0.0006314939887648561, 'epoch': 0.47}
 47%|████▋     | 5075/10711 [1:05:36<46:24,  2.02it/s] 47%|████▋     | 5076/10711 [1:05:37<46:24,  2.02it/s] 47%|████▋     | 5077/10711 [1:05:37<47:06,  1.99it/s] 47%|████▋     | 5078/10711 [1:05:38<46:48,  2.01it/s] 47%|████▋     | 5079/10711 [1:05:38<46:37,  2.01it/s] 47%|████▋     | 5080/10711 [1:05:39<46:27,  2.02it/s] 47%|████▋     | 5081/10711 [1:05:39<46:22,  2.02it/s] 47%|████▋     | 5082/10711 [1:05:40<46:17,  2.03it/s] 47%|████▋     | 5083/10711 [1:05:40<46:14,  2.03it/s] 47%|████▋     | 5084/10711 [1:05:41<46:13,  2.03it/s] 47%|████▋     | 5085/10711 [1:05:41<46:13,  2.03it/s] 47%|████▋     | 5086/10711 [1:05:42<46:11,  2.03it/s] 47%|████▋     | 5087/10711 [1:05:42<46:11,  2.03it/s] 48%|████▊     | 5088/10711 [1:05:43<46:07,  2.03it/s] 48%|████▊     | 5089/10711 [1:05:43<46:06,  2.03it/s] 48%|████▊     | 5090/10711 [1:05:44<46:06,  2.03it/s] 48%|████▊     | 5091/10711 [1:05:44<46:04,  2.03it/s] 48%|████▊     | 5092/10711 [1:05:45<46:05,  2.03it/s] 48%|████▊     | 5093/10711 [1:05:45<46:03,  2.03it/s] 48%|████▊     | 5094/10711 [1:05:46<46:01,  2.03it/s] 48%|████▊     | 5095/10711 [1:05:46<45:59,  2.03it/s] 48%|████▊     | 5096/10711 [1:05:47<47:01,  1.99it/s] 48%|████▊     | 5097/10711 [1:05:47<46:45,  2.00it/s] 48%|████▊     | 5098/10711 [1:05:48<46:27,  2.01it/s] 48%|████▊     | 5099/10711 [1:05:48<46:20,  2.02it/s] 48%|████▊     | 5100/10711 [1:05:49<46:14,  2.02it/s]{'loss': 3.5414, 'grad_norm': 0.19111748039722443, 'learning_rate': 0.0006275590133565909, 'epoch': 0.48}
                                                       48%|████▊     | 5100/10711 [1:05:49<46:14,  2.02it/s] 48%|████▊     | 5101/10711 [1:05:49<46:16,  2.02it/s] 48%|████▊     | 5102/10711 [1:05:50<46:10,  2.02it/s] 48%|████▊     | 5103/10711 [1:05:50<46:06,  2.03it/s] 48%|████▊     | 5104/10711 [1:05:51<46:36,  2.00it/s] 48%|████▊     | 5105/10711 [1:05:51<46:25,  2.01it/s] 48%|████▊     | 5106/10711 [1:05:52<46:16,  2.02it/s] 48%|████▊     | 5107/10711 [1:05:52<46:11,  2.02it/s] 48%|████▊     | 5108/10711 [1:05:53<46:06,  2.03it/s] 48%|████▊     | 5109/10711 [1:05:53<46:04,  2.03it/s] 48%|████▊     | 5110/10711 [1:05:54<46:27,  2.01it/s] 48%|████▊     | 5111/10711 [1:05:54<46:17,  2.02it/s] 48%|████▊     | 5112/10711 [1:05:55<46:42,  2.00it/s] 48%|████▊     | 5113/10711 [1:05:55<46:28,  2.01it/s] 48%|████▊     | 5114/10711 [1:05:56<47:28,  1.96it/s] 48%|████▊     | 5115/10711 [1:05:56<46:59,  1.98it/s] 48%|████▊     | 5116/10711 [1:05:57<46:42,  2.00it/s] 48%|████▊     | 5117/10711 [1:05:57<47:13,  1.97it/s] 48%|████▊     | 5118/10711 [1:05:58<46:46,  1.99it/s] 48%|████▊     | 5119/10711 [1:05:58<46:31,  2.00it/s] 48%|████▊     | 5120/10711 [1:05:59<46:18,  2.01it/s] 48%|████▊     | 5121/10711 [1:05:59<46:09,  2.02it/s] 48%|████▊     | 5122/10711 [1:06:00<46:00,  2.02it/s] 48%|████▊     | 5123/10711 [1:06:00<45:54,  2.03it/s] 48%|████▊     | 5124/10711 [1:06:01<45:51,  2.03it/s] 48%|████▊     | 5125/10711 [1:06:01<45:53,  2.03it/s]{'loss': 3.5373, 'grad_norm': 0.20290663838386536, 'learning_rate': 0.0006236155690961795, 'epoch': 0.48}                                                      
 48%|████▊     | 5125/10711 [1:06:01<45:53,  2.03it/s] 48%|████▊     | 5126/10711 [1:06:02<47:07,  1.98it/s] 48%|████▊     | 5127/10711 [1:06:02<46:43,  1.99it/s] 48%|████▊     | 5128/10711 [1:06:03<46:24,  2.01it/s] 48%|████▊     | 5129/10711 [1:06:03<46:13,  2.01it/s] 48%|████▊     | 5130/10711 [1:06:04<46:06,  2.02it/s] 48%|████▊     | 5131/10711 [1:06:04<45:59,  2.02it/s] 48%|████▊     | 5132/10711 [1:06:04<45:56,  2.02it/s] 48%|████▊     | 5133/10711 [1:06:05<45:50,  2.03it/s] 48%|████▊     | 5134/10711 [1:06:05<45:43,  2.03it/s] 48%|████▊     | 5135/10711 [1:06:06<45:45,  2.03it/s] 48%|████▊     | 5136/10711 [1:06:06<45:43,  2.03it/s] 48%|████▊     | 5137/10711 [1:06:07<45:41,  2.03it/s] 48%|████▊     | 5138/10711 [1:06:07<45:45,  2.03it/s] 48%|████▊     | 5139/10711 [1:06:08<45:39,  2.03it/s] 48%|████▊     | 5140/10711 [1:06:08<45:40,  2.03it/s] 48%|████▊     | 5141/10711 [1:06:09<45:40,  2.03it/s] 48%|████▊     | 5142/10711 [1:06:09<46:26,  2.00it/s] 48%|████▊     | 5143/10711 [1:06:10<46:09,  2.01it/s] 48%|████▊     | 5144/10711 [1:06:10<45:55,  2.02it/s] 48%|████▊     | 5145/10711 [1:06:11<45:52,  2.02it/s] 48%|████▊     | 5146/10711 [1:06:11<45:46,  2.03it/s] 48%|████▊     | 5147/10711 [1:06:12<45:39,  2.03it/s] 48%|████▊     | 5148/10711 [1:06:12<45:38,  2.03it/s] 48%|████▊     | 5149/10711 [1:06:13<45:36,  2.03it/s] 48%|████▊     | 5150/10711 [1:06:13<46:14,  2.00it/s]{'loss': 3.5489, 'grad_norm': 0.19333529472351074, 'learning_rate': 0.0006196639177953551, 'epoch': 0.48}
                                                       48%|████▊     | 5150/10711 [1:06:13<46:14,  2.00it/s] 48%|████▊     | 5151/10711 [1:06:14<46:05,  2.01it/s] 48%|████▊     | 5152/10711 [1:06:14<45:52,  2.02it/s] 48%|████▊     | 5153/10711 [1:06:15<46:12,  2.00it/s] 48%|████▊     | 5154/10711 [1:06:15<46:00,  2.01it/s] 48%|████▊     | 5155/10711 [1:06:16<45:49,  2.02it/s] 48%|████▊     | 5156/10711 [1:06:16<45:46,  2.02it/s] 48%|████▊     | 5157/10711 [1:06:17<45:43,  2.02it/s] 48%|████▊     | 5158/10711 [1:06:17<45:36,  2.03it/s] 48%|████▊     | 5159/10711 [1:06:18<45:33,  2.03it/s] 48%|████▊     | 5160/10711 [1:06:18<45:33,  2.03it/s] 48%|████▊     | 5161/10711 [1:06:19<45:30,  2.03it/s] 48%|████▊     | 5162/10711 [1:06:19<45:31,  2.03it/s] 48%|████▊     | 5163/10711 [1:06:20<45:27,  2.03it/s] 48%|████▊     | 5164/10711 [1:06:20<45:24,  2.04it/s] 48%|████▊     | 5165/10711 [1:06:21<45:28,  2.03it/s] 48%|████▊     | 5166/10711 [1:06:21<45:24,  2.04it/s] 48%|████▊     | 5167/10711 [1:06:22<45:23,  2.04it/s] 48%|████▊     | 5168/10711 [1:06:22<45:24,  2.03it/s] 48%|████▊     | 5169/10711 [1:06:23<45:21,  2.04it/s] 48%|████▊     | 5170/10711 [1:06:23<45:24,  2.03it/s] 48%|████▊     | 5171/10711 [1:06:24<45:58,  2.01it/s] 48%|████▊     | 5172/10711 [1:06:24<45:47,  2.02it/s] 48%|████▊     | 5173/10711 [1:06:25<45:42,  2.02it/s] 48%|████▊     | 5174/10711 [1:06:25<45:33,  2.03it/s] 48%|████▊     | 5175/10711 [1:06:26<45:31,  2.03it/s]{'loss': 3.5353, 'grad_norm': 0.19525966048240662, 'learning_rate': 0.0006157043218107303, 'epoch': 0.48}                                                      
 48%|████▊     | 5175/10711 [1:06:26<45:31,  2.03it/s] 48%|████▊     | 5176/10711 [1:06:26<46:53,  1.97it/s] 48%|████▊     | 5177/10711 [1:06:27<46:26,  1.99it/s] 48%|████▊     | 5178/10711 [1:06:27<46:04,  2.00it/s] 48%|████▊     | 5179/10711 [1:06:28<45:51,  2.01it/s] 48%|████▊     | 5180/10711 [1:06:28<45:46,  2.01it/s] 48%|████▊     | 5181/10711 [1:06:29<45:36,  2.02it/s] 48%|████▊     | 5182/10711 [1:06:29<45:30,  2.02it/s] 48%|████▊     | 5183/10711 [1:06:30<45:51,  2.01it/s] 48%|████▊     | 5184/10711 [1:06:30<45:42,  2.02it/s] 48%|████▊     | 5185/10711 [1:06:31<46:21,  1.99it/s] 48%|████▊     | 5186/10711 [1:06:31<46:49,  1.97it/s] 48%|████▊     | 5187/10711 [1:06:32<46:52,  1.96it/s] 48%|████▊     | 5188/10711 [1:06:32<46:27,  1.98it/s] 48%|████▊     | 5189/10711 [1:06:33<46:00,  2.00it/s] 48%|████▊     | 5190/10711 [1:06:33<45:48,  2.01it/s] 48%|████▊     | 5191/10711 [1:06:34<46:07,  1.99it/s] 48%|████▊     | 5192/10711 [1:06:34<45:49,  2.01it/s] 48%|████▊     | 5193/10711 [1:06:35<45:36,  2.02it/s] 48%|████▊     | 5194/10711 [1:06:35<45:28,  2.02it/s] 49%|████▊     | 5195/10711 [1:06:36<45:21,  2.03it/s] 49%|████▊     | 5196/10711 [1:06:36<45:16,  2.03it/s] 49%|████▊     | 5197/10711 [1:06:37<45:13,  2.03it/s] 49%|████▊     | 5198/10711 [1:06:37<45:14,  2.03it/s] 49%|████▊     | 5199/10711 [1:06:38<45:13,  2.03it/s] 49%|████▊     | 5200/10711 [1:06:38<45:39,  2.01it/s]                                                      {'loss': 3.5421, 'grad_norm': 0.19702377915382385, 'learning_rate': 0.0006117370440263775, 'epoch': 0.49}
 49%|████▊     | 5200/10711 [1:06:38<45:39,  2.01it/s] 49%|████▊     | 5201/10711 [1:06:39<45:33,  2.02it/s] 49%|████▊     | 5202/10711 [1:06:39<45:23,  2.02it/s] 49%|████▊     | 5203/10711 [1:06:40<45:18,  2.03it/s] 49%|████▊     | 5204/10711 [1:06:40<45:48,  2.00it/s] 49%|████▊     | 5205/10711 [1:06:41<45:32,  2.02it/s] 49%|████▊     | 5206/10711 [1:06:41<45:24,  2.02it/s] 49%|████▊     | 5207/10711 [1:06:42<45:17,  2.03it/s] 49%|████▊     | 5208/10711 [1:06:42<45:10,  2.03it/s] 49%|████▊     | 5209/10711 [1:06:43<45:36,  2.01it/s] 49%|████▊     | 5210/10711 [1:06:43<45:28,  2.02it/s] 49%|████▊     | 5211/10711 [1:06:44<45:17,  2.02it/s] 49%|████▊     | 5212/10711 [1:06:44<45:46,  2.00it/s] 49%|████▊     | 5213/10711 [1:06:45<45:32,  2.01it/s] 49%|████▊     | 5214/10711 [1:06:45<45:47,  2.00it/s] 49%|████▊     | 5215/10711 [1:06:46<45:33,  2.01it/s] 49%|████▊     | 5216/10711 [1:06:46<45:23,  2.02it/s] 49%|████▊     | 5217/10711 [1:06:47<45:16,  2.02it/s] 49%|████▊     | 5218/10711 [1:06:47<45:11,  2.03it/s] 49%|████▊     | 5219/10711 [1:06:48<45:32,  2.01it/s] 49%|████▊     | 5220/10711 [1:06:48<45:23,  2.02it/s] 49%|████▊     | 5221/10711 [1:06:49<45:16,  2.02it/s] 49%|████▉     | 5222/10711 [1:06:49<45:13,  2.02it/s] 49%|████▉     | 5223/10711 [1:06:50<45:11,  2.02it/s] 49%|████▉     | 5224/10711 [1:06:50<45:08,  2.03it/s] 49%|████▉     | 5225/10711 [1:06:51<45:05,  2.03it/s]                                                      {'loss': 3.546, 'grad_norm': 0.20080621540546417, 'learning_rate': 0.000607762347836377, 'epoch': 0.49}
 49%|████▉     | 5225/10711 [1:06:51<45:05,  2.03it/s] 49%|████▉     | 5226/10711 [1:06:51<45:05,  2.03it/s] 49%|████▉     | 5227/10711 [1:06:52<45:03,  2.03it/s] 49%|████▉     | 5228/10711 [1:06:52<45:02,  2.03it/s] 49%|████▉     | 5229/10711 [1:06:53<45:28,  2.01it/s] 49%|████▉     | 5230/10711 [1:06:53<45:15,  2.02it/s] 49%|████▉     | 5231/10711 [1:06:54<45:10,  2.02it/s] 49%|████▉     | 5232/10711 [1:06:54<45:05,  2.03it/s] 49%|████▉     | 5233/10711 [1:06:55<44:59,  2.03it/s] 49%|████▉     | 5234/10711 [1:06:55<45:28,  2.01it/s] 49%|████▉     | 5235/10711 [1:06:56<45:16,  2.02it/s] 49%|████▉     | 5236/10711 [1:06:56<45:07,  2.02it/s] 49%|████▉     | 5237/10711 [1:06:56<45:01,  2.03it/s] 49%|████▉     | 5238/10711 [1:06:57<44:59,  2.03it/s] 49%|████▉     | 5239/10711 [1:06:57<44:58,  2.03it/s] 49%|████▉     | 5240/10711 [1:06:58<44:52,  2.03it/s] 49%|████▉     | 5241/10711 [1:06:58<44:54,  2.03it/s] 49%|████▉     | 5242/10711 [1:06:59<44:54,  2.03it/s] 49%|████▉     | 5243/10711 [1:06:59<44:50,  2.03it/s] 49%|████▉     | 5244/10711 [1:07:00<45:13,  2.01it/s] 49%|████▉     | 5245/10711 [1:07:00<45:06,  2.02it/s] 49%|████▉     | 5246/10711 [1:07:01<44:59,  2.02it/s] 49%|████▉     | 5247/10711 [1:07:01<44:54,  2.03it/s] 49%|████▉     | 5248/10711 [1:07:02<44:54,  2.03it/s] 49%|████▉     | 5249/10711 [1:07:02<44:53,  2.03it/s] 49%|████▉     | 5250/10711 [1:07:03<44:47,  2.03it/s]{'loss': 3.5433, 'grad_norm': 0.20123185217380524, 'learning_rate': 0.0006037804971273286, 'epoch': 0.49}                                                      
 49%|████▉     | 5250/10711 [1:07:03<44:47,  2.03it/s] 49%|████▉     | 5251/10711 [1:07:03<45:25,  2.00it/s] 49%|████▉     | 5252/10711 [1:07:04<45:12,  2.01it/s] 49%|████▉     | 5253/10711 [1:07:04<45:03,  2.02it/s] 49%|████▉     | 5254/10711 [1:07:05<44:59,  2.02it/s] 49%|████▉     | 5255/10711 [1:07:05<44:52,  2.03it/s] 49%|████▉     | 5256/10711 [1:07:06<45:29,  2.00it/s] 49%|████▉     | 5257/10711 [1:07:06<45:13,  2.01it/s] 49%|████▉     | 5258/10711 [1:07:07<45:01,  2.02it/s] 49%|████▉     | 5259/10711 [1:07:07<44:56,  2.02it/s] 49%|████▉     | 5260/10711 [1:07:08<44:49,  2.03it/s] 49%|████▉     | 5261/10711 [1:07:08<44:45,  2.03it/s] 49%|████▉     | 5262/10711 [1:07:09<44:41,  2.03it/s] 49%|████▉     | 5263/10711 [1:07:09<44:38,  2.03it/s] 49%|████▉     | 5264/10711 [1:07:10<45:36,  1.99it/s] 49%|████▉     | 5265/10711 [1:07:10<45:55,  1.98it/s] 49%|████▉     | 5266/10711 [1:07:11<45:30,  1.99it/s] 49%|████▉     | 5267/10711 [1:07:11<45:14,  2.01it/s] 49%|████▉     | 5268/10711 [1:07:12<45:02,  2.01it/s] 49%|████▉     | 5269/10711 [1:07:12<45:29,  1.99it/s] 49%|████▉     | 5270/10711 [1:07:13<45:11,  2.01it/s] 49%|████▉     | 5271/10711 [1:07:13<44:59,  2.02it/s] 49%|████▉     | 5272/10711 [1:07:14<45:19,  2.00it/s] 49%|████▉     | 5273/10711 [1:07:14<45:01,  2.01it/s] 49%|████▉     | 5274/10711 [1:07:15<44:54,  2.02it/s] 49%|████▉     | 5275/10711 [1:07:16<52:04,  1.74it/s]{'loss': 3.5276, 'grad_norm': 0.2110874354839325, 'learning_rate': 0.0005997917562608334, 'epoch': 0.49}
                                                       49%|████▉     | 5275/10711 [1:07:16<52:04,  1.74it/s] 49%|████▉     | 5276/10711 [1:07:16<49:51,  1.82it/s] 49%|████▉     | 5277/10711 [1:07:17<48:15,  1.88it/s] 49%|████▉     | 5278/10711 [1:07:17<47:04,  1.92it/s] 49%|████▉     | 5279/10711 [1:07:18<46:19,  1.95it/s] 49%|████▉     | 5280/10711 [1:07:18<45:44,  1.98it/s] 49%|████▉     | 5281/10711 [1:07:19<45:20,  2.00it/s] 49%|████▉     | 5282/10711 [1:07:19<45:10,  2.00it/s] 49%|████▉     | 5283/10711 [1:07:20<44:56,  2.01it/s] 49%|████▉     | 5284/10711 [1:07:20<44:46,  2.02it/s] 49%|████▉     | 5285/10711 [1:07:21<44:41,  2.02it/s] 49%|████▉     | 5286/10711 [1:07:21<44:35,  2.03it/s] 49%|████▉     | 5287/10711 [1:07:22<44:37,  2.03it/s] 49%|████▉     | 5288/10711 [1:07:22<44:34,  2.03it/s] 49%|████▉     | 5289/10711 [1:07:23<45:13,  2.00it/s] 49%|████▉     | 5290/10711 [1:07:23<44:55,  2.01it/s] 49%|████▉     | 5291/10711 [1:07:24<44:44,  2.02it/s] 49%|████▉     | 5292/10711 [1:07:24<44:37,  2.02it/s] 49%|████▉     | 5293/10711 [1:07:24<44:31,  2.03it/s] 49%|████▉     | 5294/10711 [1:07:25<44:29,  2.03it/s] 49%|████▉     | 5295/10711 [1:07:25<44:29,  2.03it/s] 49%|████▉     | 5296/10711 [1:07:26<44:24,  2.03it/s] 49%|████▉     | 5297/10711 [1:07:26<44:25,  2.03it/s] 49%|████▉     | 5298/10711 [1:07:27<44:23,  2.03it/s] 49%|████▉     | 5299/10711 [1:07:27<44:48,  2.01it/s] 49%|████▉     | 5300/10711 [1:07:28<44:39,  2.02it/s]                                                      {'loss': 3.5317, 'grad_norm': 0.21211284399032593, 'learning_rate': 0.0005957963900559402, 'epoch': 0.49}
 49%|████▉     | 5300/10711 [1:07:28<44:39,  2.02it/s] 49%|████▉     | 5301/10711 [1:07:28<45:08,  2.00it/s] 50%|████▉     | 5302/10711 [1:07:29<44:51,  2.01it/s] 50%|████▉     | 5303/10711 [1:07:29<44:39,  2.02it/s] 50%|████▉     | 5304/10711 [1:07:30<44:34,  2.02it/s] 50%|████▉     | 5305/10711 [1:07:31<52:20,  1.72it/s] 50%|████▉     | 5306/10711 [1:07:31<49:54,  1.80it/s] 50%|████▉     | 5307/10711 [1:07:32<48:13,  1.87it/s] 50%|████▉     | 5308/10711 [1:07:32<47:04,  1.91it/s] 50%|████▉     | 5309/10711 [1:07:33<46:12,  1.95it/s] 50%|████▉     | 5310/10711 [1:07:33<45:38,  1.97it/s] 50%|████▉     | 5311/10711 [1:07:34<45:18,  1.99it/s] 50%|████▉     | 5312/10711 [1:07:34<45:25,  1.98it/s] 50%|████▉     | 5313/10711 [1:07:35<45:05,  2.00it/s] 50%|████▉     | 5314/10711 [1:07:35<44:49,  2.01it/s] 50%|████▉     | 5315/10711 [1:07:36<44:34,  2.02it/s] 50%|████▉     | 5316/10711 [1:07:36<44:25,  2.02it/s] 50%|████▉     | 5317/10711 [1:07:37<44:21,  2.03it/s] 50%|████▉     | 5318/10711 [1:07:37<44:16,  2.03it/s] 50%|████▉     | 5319/10711 [1:07:38<44:10,  2.03it/s] 50%|████▉     | 5320/10711 [1:07:38<44:08,  2.04it/s] 50%|████▉     | 5321/10711 [1:07:39<44:10,  2.03it/s] 50%|████▉     | 5322/10711 [1:07:39<45:00,  2.00it/s] 50%|████▉     | 5323/10711 [1:07:40<44:42,  2.01it/s] 50%|████▉     | 5324/10711 [1:07:40<45:05,  1.99it/s] 50%|████▉     | 5325/10711 [1:07:41<44:47,  2.00it/s]                                                      {'loss': 3.5329, 'grad_norm': 0.21589988470077515, 'learning_rate': 0.0005917946637715655, 'epoch': 0.5}
 50%|████▉     | 5325/10711 [1:07:41<44:47,  2.00it/s] 50%|████▉     | 5326/10711 [1:07:41<44:34,  2.01it/s] 50%|████▉     | 5327/10711 [1:07:42<44:26,  2.02it/s] 50%|████▉     | 5328/10711 [1:07:42<44:22,  2.02it/s] 50%|████▉     | 5329/10711 [1:07:43<44:14,  2.03it/s] 50%|████▉     | 5330/10711 [1:07:43<44:13,  2.03it/s] 50%|████▉     | 5331/10711 [1:07:44<44:09,  2.03it/s] 50%|████▉     | 5332/10711 [1:07:44<44:08,  2.03it/s] 50%|████▉     | 5333/10711 [1:07:45<44:36,  2.01it/s] 50%|████▉     | 5334/10711 [1:07:45<44:25,  2.02it/s] 50%|████▉     | 5335/10711 [1:07:46<44:16,  2.02it/s] 50%|████▉     | 5336/10711 [1:07:46<44:11,  2.03it/s] 50%|████▉     | 5337/10711 [1:07:47<44:10,  2.03it/s] 50%|████▉     | 5338/10711 [1:07:47<44:06,  2.03it/s] 50%|████▉     | 5339/10711 [1:07:48<44:51,  2.00it/s] 50%|████▉     | 5340/10711 [1:07:48<44:39,  2.00it/s] 50%|████▉     | 5341/10711 [1:07:49<44:26,  2.01it/s] 50%|████▉     | 5342/10711 [1:07:49<44:15,  2.02it/s] 50%|████▉     | 5343/10711 [1:07:50<44:11,  2.02it/s] 50%|████▉     | 5344/10711 [1:07:50<44:42,  2.00it/s] 50%|████▉     | 5345/10711 [1:07:51<44:33,  2.01it/s] 50%|████▉     | 5346/10711 [1:07:51<44:21,  2.02it/s] 50%|████▉     | 5347/10711 [1:07:51<44:11,  2.02it/s] 50%|████▉     | 5348/10711 [1:07:52<44:05,  2.03it/s] 50%|████▉     | 5349/10711 [1:07:52<44:03,  2.03it/s] 50%|████▉     | 5350/10711 [1:07:53<44:00,  2.03it/s]{'loss': 3.5342, 'grad_norm': 0.1928541213274002, 'learning_rate': 0.0005877868430888819, 'epoch': 0.5}                                                      
 50%|████▉     | 5350/10711 [1:07:53<44:00,  2.03it/s] 50%|████▉     | 5351/10711 [1:07:53<44:37,  2.00it/s] 50%|████▉     | 5352/10711 [1:07:54<44:54,  1.99it/s] 50%|████▉     | 5353/10711 [1:07:54<44:34,  2.00it/s] 50%|████▉     | 5354/10711 [1:07:55<44:21,  2.01it/s] 50%|████▉     | 5355/10711 [1:07:55<44:12,  2.02it/s] 50%|█████     | 5356/10711 [1:07:56<44:36,  2.00it/s] 50%|█████     | 5357/10711 [1:07:56<44:20,  2.01it/s] 50%|█████     | 5358/10711 [1:07:57<44:10,  2.02it/s] 50%|█████     | 5359/10711 [1:07:57<44:01,  2.03it/s] 50%|█████     | 5360/10711 [1:07:58<44:23,  2.01it/s] 50%|█████     | 5361/10711 [1:07:58<44:12,  2.02it/s] 50%|█████     | 5362/10711 [1:07:59<44:04,  2.02it/s] 50%|█████     | 5363/10711 [1:07:59<43:57,  2.03it/s] 50%|█████     | 5364/10711 [1:08:00<43:52,  2.03it/s] 50%|█████     | 5365/10711 [1:08:00<44:16,  2.01it/s] 50%|█████     | 5366/10711 [1:08:01<44:05,  2.02it/s] 50%|█████     | 5367/10711 [1:08:01<43:59,  2.02it/s] 50%|█████     | 5368/10711 [1:08:02<43:53,  2.03it/s] 50%|█████     | 5369/10711 [1:08:02<44:31,  2.00it/s] 50%|█████     | 5370/10711 [1:08:03<44:17,  2.01it/s] 50%|█████     | 5371/10711 [1:08:03<44:05,  2.02it/s] 50%|█████     | 5372/10711 [1:08:04<44:30,  2.00it/s] 50%|█████     | 5373/10711 [1:08:04<44:18,  2.01it/s] 50%|█████     | 5374/10711 [1:08:05<44:06,  2.02it/s] 50%|█████     | 5375/10711 [1:08:05<43:55,  2.02it/s]{'loss': 3.5324, 'grad_norm': 0.1926949918270111, 'learning_rate': 0.0005837731940936791, 'epoch': 0.5}                                                      
 50%|█████     | 5375/10711 [1:08:05<43:55,  2.02it/s] 50%|█████     | 5376/10711 [1:08:06<43:53,  2.03it/s] 50%|█████     | 5377/10711 [1:08:06<43:51,  2.03it/s] 50%|█████     | 5378/10711 [1:08:07<43:43,  2.03it/s] 50%|█████     | 5379/10711 [1:08:07<43:39,  2.04it/s] 50%|█████     | 5380/10711 [1:08:08<44:18,  2.01it/s] 50%|█████     | 5381/10711 [1:08:08<44:04,  2.02it/s] 50%|█████     | 5382/10711 [1:08:09<43:59,  2.02it/s] 50%|█████     | 5383/10711 [1:08:09<43:51,  2.02it/s] 50%|█████     | 5384/10711 [1:08:10<43:49,  2.03it/s] 50%|█████     | 5385/10711 [1:08:10<43:48,  2.03it/s] 50%|█████     | 5386/10711 [1:08:11<43:44,  2.03it/s] 50%|█████     | 5387/10711 [1:08:11<43:37,  2.03it/s] 50%|█████     | 5388/10711 [1:08:12<43:34,  2.04it/s] 50%|█████     | 5389/10711 [1:08:12<43:36,  2.03it/s] 50%|█████     | 5390/10711 [1:08:13<43:34,  2.04it/s] 50%|█████     | 5391/10711 [1:08:13<44:01,  2.01it/s] 50%|█████     | 5392/10711 [1:08:14<44:42,  1.98it/s] 50%|█████     | 5393/10711 [1:08:14<44:17,  2.00it/s] 50%|█████     | 5394/10711 [1:08:15<44:04,  2.01it/s] 50%|█████     | 5395/10711 [1:08:15<43:54,  2.02it/s] 50%|█████     | 5396/10711 [1:08:16<43:46,  2.02it/s] 50%|█████     | 5397/10711 [1:08:16<43:44,  2.02it/s] 50%|█████     | 5398/10711 [1:08:17<43:40,  2.03it/s] 50%|█████     | 5399/10711 [1:08:17<43:35,  2.03it/s] 50%|█████     | 5400/10711 [1:08:18<44:13,  2.00it/s]{'loss': 3.5266, 'grad_norm': 0.2043503224849701, 'learning_rate': 0.0005797539832586976, 'epoch': 0.5}                                                      
 50%|█████     | 5400/10711 [1:08:18<44:13,  2.00it/s] 50%|█████     | 5401/10711 [1:08:18<44:00,  2.01it/s] 50%|█████     | 5402/10711 [1:08:19<43:50,  2.02it/s] 50%|█████     | 5403/10711 [1:08:19<43:46,  2.02it/s] 50%|█████     | 5404/10711 [1:08:20<43:40,  2.03it/s] 50%|█████     | 5405/10711 [1:08:20<43:39,  2.03it/s] 50%|█████     | 5406/10711 [1:08:21<43:33,  2.03it/s] 50%|█████     | 5407/10711 [1:08:21<44:18,  2.00it/s] 50%|█████     | 5408/10711 [1:08:22<44:03,  2.01it/s] 50%|█████     | 5409/10711 [1:08:22<43:51,  2.01it/s] 51%|█████     | 5410/10711 [1:08:23<43:44,  2.02it/s] 51%|█████     | 5411/10711 [1:08:23<43:36,  2.03it/s] 51%|█████     | 5412/10711 [1:08:24<43:33,  2.03it/s] 51%|█████     | 5413/10711 [1:08:24<43:29,  2.03it/s] 51%|█████     | 5414/10711 [1:08:25<43:30,  2.03it/s] 51%|█████     | 5415/10711 [1:08:25<43:26,  2.03it/s] 51%|█████     | 5416/10711 [1:08:26<43:54,  2.01it/s] 51%|█████     | 5417/10711 [1:08:26<43:41,  2.02it/s] 51%|█████     | 5418/10711 [1:08:27<43:35,  2.02it/s] 51%|█████     | 5419/10711 [1:08:27<43:32,  2.03it/s] 51%|█████     | 5420/10711 [1:08:28<43:26,  2.03it/s] 51%|█████     | 5421/10711 [1:08:28<43:25,  2.03it/s] 51%|█████     | 5422/10711 [1:08:29<43:22,  2.03it/s] 51%|█████     | 5423/10711 [1:08:29<43:48,  2.01it/s] 51%|█████     | 5424/10711 [1:08:30<43:41,  2.02it/s] 51%|█████     | 5425/10711 [1:08:30<43:32,  2.02it/s]{'loss': 3.522, 'grad_norm': 0.19588281214237213, 'learning_rate': 0.000575729477425938, 'epoch': 0.51}                                                      
 51%|█████     | 5425/10711 [1:08:30<43:32,  2.02it/s] 51%|█████     | 5426/10711 [1:08:31<43:31,  2.02it/s] 51%|█████     | 5427/10711 [1:08:31<43:27,  2.03it/s] 51%|█████     | 5428/10711 [1:08:32<43:47,  2.01it/s] 51%|█████     | 5429/10711 [1:08:32<43:38,  2.02it/s] 51%|█████     | 5430/10711 [1:08:33<43:32,  2.02it/s] 51%|█████     | 5431/10711 [1:08:33<43:24,  2.03it/s] 51%|█████     | 5432/10711 [1:08:34<43:21,  2.03it/s] 51%|█████     | 5433/10711 [1:08:34<43:19,  2.03it/s] 51%|█████     | 5434/10711 [1:08:35<43:14,  2.03it/s] 51%|█████     | 5435/10711 [1:08:35<43:38,  2.01it/s] 51%|█████     | 5436/10711 [1:08:36<43:27,  2.02it/s] 51%|█████     | 5437/10711 [1:08:36<43:19,  2.03it/s] 51%|█████     | 5438/10711 [1:08:37<43:41,  2.01it/s] 51%|█████     | 5439/10711 [1:08:37<43:31,  2.02it/s] 51%|█████     | 5440/10711 [1:08:38<43:22,  2.03it/s] 51%|█████     | 5441/10711 [1:08:38<43:48,  2.01it/s] 51%|█████     | 5442/10711 [1:08:39<43:58,  2.00it/s] 51%|█████     | 5443/10711 [1:08:39<43:40,  2.01it/s] 51%|█████     | 5444/10711 [1:08:40<43:32,  2.02it/s] 51%|█████     | 5445/10711 [1:08:40<43:24,  2.02it/s] 51%|█████     | 5446/10711 [1:08:41<43:18,  2.03it/s] 51%|█████     | 5447/10711 [1:08:41<43:13,  2.03it/s] 51%|█████     | 5448/10711 [1:08:42<43:38,  2.01it/s] 51%|█████     | 5449/10711 [1:08:42<43:29,  2.02it/s] 51%|█████     | 5450/10711 [1:08:43<44:55,  1.95it/s]                                                      {'loss': 3.5248, 'grad_norm': 0.2100495994091034, 'learning_rate': 0.0005716999437889445, 'epoch': 0.51}
 51%|█████     | 5450/10711 [1:08:43<44:55,  1.95it/s] 51%|█████     | 5451/10711 [1:08:43<44:23,  1.97it/s] 51%|█████     | 5452/10711 [1:08:44<44:23,  1.97it/s] 51%|█████     | 5453/10711 [1:08:44<43:59,  1.99it/s] 51%|█████     | 5454/10711 [1:08:45<43:39,  2.01it/s] 51%|█████     | 5455/10711 [1:08:45<43:26,  2.02it/s] 51%|█████     | 5456/10711 [1:08:46<43:22,  2.02it/s] 51%|█████     | 5457/10711 [1:08:46<43:13,  2.03it/s] 51%|█████     | 5458/10711 [1:08:47<43:47,  2.00it/s] 51%|█████     | 5459/10711 [1:08:47<43:34,  2.01it/s] 51%|█████     | 5460/10711 [1:08:48<44:17,  1.98it/s] 51%|█████     | 5461/10711 [1:08:48<43:54,  1.99it/s] 51%|█████     | 5462/10711 [1:08:49<43:35,  2.01it/s] 51%|█████     | 5463/10711 [1:08:49<43:24,  2.01it/s] 51%|█████     | 5464/10711 [1:08:50<43:14,  2.02it/s] 51%|█████     | 5465/10711 [1:08:50<43:09,  2.03it/s] 51%|█████     | 5466/10711 [1:08:50<43:08,  2.03it/s] 51%|█████     | 5467/10711 [1:08:51<43:39,  2.00it/s] 51%|█████     | 5468/10711 [1:08:52<43:29,  2.01it/s] 51%|█████     | 5469/10711 [1:08:52<43:20,  2.02it/s] 51%|█████     | 5470/10711 [1:08:52<43:14,  2.02it/s] 51%|█████     | 5471/10711 [1:08:53<43:12,  2.02it/s] 51%|█████     | 5472/10711 [1:08:53<43:06,  2.03it/s] 51%|█████     | 5473/10711 [1:08:54<43:06,  2.02it/s] 51%|█████     | 5474/10711 [1:08:54<43:02,  2.03it/s] 51%|█████     | 5475/10711 [1:08:55<43:01,  2.03it/s]                                                      {'loss': 3.5198, 'grad_norm': 0.19101299345493317, 'learning_rate': 0.0005676656498750656, 'epoch': 0.51}
 51%|█████     | 5475/10711 [1:08:55<43:01,  2.03it/s] 51%|█████     | 5476/10711 [1:08:55<43:04,  2.03it/s] 51%|█████     | 5477/10711 [1:08:56<43:04,  2.03it/s] 51%|█████     | 5478/10711 [1:08:56<43:02,  2.03it/s] 51%|█████     | 5479/10711 [1:08:57<43:03,  2.03it/s] 51%|█████     | 5480/10711 [1:08:57<43:01,  2.03it/s] 51%|█████     | 5481/10711 [1:08:58<43:00,  2.03it/s] 51%|█████     | 5482/10711 [1:08:58<43:00,  2.03it/s] 51%|█████     | 5483/10711 [1:08:59<43:27,  2.01it/s] 51%|█████     | 5484/10711 [1:08:59<43:49,  1.99it/s] 51%|█████     | 5485/10711 [1:09:00<43:35,  2.00it/s] 51%|█████     | 5486/10711 [1:09:00<43:19,  2.01it/s] 51%|█████     | 5487/10711 [1:09:01<43:17,  2.01it/s] 51%|█████     | 5488/10711 [1:09:01<44:09,  1.97it/s] 51%|█████     | 5489/10711 [1:09:02<43:46,  1.99it/s] 51%|█████▏    | 5490/10711 [1:09:02<43:32,  2.00it/s] 51%|█████▏    | 5491/10711 [1:09:03<43:19,  2.01it/s] 51%|█████▏    | 5492/10711 [1:09:03<43:14,  2.01it/s] 51%|█████▏    | 5493/10711 [1:09:04<43:04,  2.02it/s] 51%|█████▏    | 5494/10711 [1:09:04<43:00,  2.02it/s] 51%|█████▏    | 5495/10711 [1:09:05<43:25,  2.00it/s] 51%|█████▏    | 5496/10711 [1:09:05<43:11,  2.01it/s] 51%|█████▏    | 5497/10711 [1:09:06<43:03,  2.02it/s] 51%|█████▏    | 5498/10711 [1:09:06<42:57,  2.02it/s] 51%|█████▏    | 5499/10711 [1:09:07<43:58,  1.98it/s] 51%|█████▏    | 5500/10711 [1:09:07<43:39,  1.99it/s]{'loss': 3.5204, 'grad_norm': 0.2033621072769165, 'learning_rate': 0.0005636268635276917, 'epoch': 0.51}
                                                       51%|█████▏    | 5500/10711 [1:09:07<43:39,  1.99it/s] 51%|█████▏    | 5501/10711 [1:09:08<43:31,  1.99it/s] 51%|█████▏    | 5502/10711 [1:09:08<43:47,  1.98it/s] 51%|█████▏    | 5503/10711 [1:09:09<43:28,  2.00it/s] 51%|█████▏    | 5504/10711 [1:09:09<43:16,  2.01it/s] 51%|█████▏    | 5505/10711 [1:09:10<43:51,  1.98it/s] 51%|█████▏    | 5506/10711 [1:09:10<43:31,  1.99it/s] 51%|█████▏    | 5507/10711 [1:09:11<44:00,  1.97it/s] 51%|█████▏    | 5508/10711 [1:09:11<44:02,  1.97it/s] 51%|█████▏    | 5509/10711 [1:09:12<43:41,  1.98it/s] 51%|█████▏    | 5510/10711 [1:09:12<43:23,  2.00it/s] 51%|█████▏    | 5511/10711 [1:09:13<43:10,  2.01it/s] 51%|█████▏    | 5512/10711 [1:09:13<43:02,  2.01it/s] 51%|█████▏    | 5513/10711 [1:09:14<43:35,  1.99it/s] 51%|█████▏    | 5514/10711 [1:09:14<43:51,  1.97it/s] 51%|█████▏    | 5515/10711 [1:09:15<43:32,  1.99it/s] 51%|█████▏    | 5516/10711 [1:09:15<43:17,  2.00it/s] 52%|█████▏    | 5517/10711 [1:09:16<43:33,  1.99it/s] 52%|█████▏    | 5518/10711 [1:09:16<43:15,  2.00it/s] 52%|█████▏    | 5519/10711 [1:09:17<43:07,  2.01it/s] 52%|█████▏    | 5520/10711 [1:09:17<42:56,  2.01it/s] 52%|█████▏    | 5521/10711 [1:09:18<42:48,  2.02it/s] 52%|█████▏    | 5522/10711 [1:09:18<42:45,  2.02it/s] 52%|█████▏    | 5523/10711 [1:09:19<43:33,  1.99it/s] 52%|█████▏    | 5524/10711 [1:09:19<43:14,  2.00it/s] 52%|█████▏    | 5525/10711 [1:09:20<43:04,  2.01it/s]                                                      {'loss': 3.5174, 'grad_norm': 0.196874737739563, 'learning_rate': 0.000559583852888474, 'epoch': 0.52}
 52%|█████▏    | 5525/10711 [1:09:20<43:04,  2.01it/s] 52%|█████▏    | 5526/10711 [1:09:20<42:56,  2.01it/s] 52%|█████▏    | 5527/10711 [1:09:21<42:50,  2.02it/s] 52%|█████▏    | 5528/10711 [1:09:21<42:44,  2.02it/s] 52%|█████▏    | 5529/10711 [1:09:22<43:02,  2.01it/s] 52%|█████▏    | 5530/10711 [1:09:22<42:54,  2.01it/s] 52%|█████▏    | 5531/10711 [1:09:23<42:48,  2.02it/s] 52%|█████▏    | 5532/10711 [1:09:23<42:45,  2.02it/s] 52%|█████▏    | 5533/10711 [1:09:24<42:41,  2.02it/s] 52%|█████▏    | 5534/10711 [1:09:24<43:07,  2.00it/s] 52%|█████▏    | 5535/10711 [1:09:25<43:32,  1.98it/s] 52%|█████▏    | 5536/10711 [1:09:25<43:13,  2.00it/s] 52%|█████▏    | 5537/10711 [1:09:26<43:01,  2.00it/s] 52%|█████▏    | 5538/10711 [1:09:26<42:51,  2.01it/s] 52%|█████▏    | 5539/10711 [1:09:27<42:43,  2.02it/s] 52%|█████▏    | 5540/10711 [1:09:27<42:38,  2.02it/s] 52%|█████▏    | 5541/10711 [1:09:28<42:35,  2.02it/s] 52%|█████▏    | 5542/10711 [1:09:28<43:02,  2.00it/s] 52%|█████▏    | 5543/10711 [1:09:29<42:50,  2.01it/s] 52%|█████▏    | 5544/10711 [1:09:29<42:44,  2.01it/s] 52%|█████▏    | 5545/10711 [1:09:30<42:37,  2.02it/s] 52%|█████▏    | 5546/10711 [1:09:30<42:33,  2.02it/s] 52%|█████▏    | 5547/10711 [1:09:31<42:28,  2.03it/s] 52%|█████▏    | 5548/10711 [1:09:31<42:24,  2.03it/s] 52%|█████▏    | 5549/10711 [1:09:32<42:23,  2.03it/s] 52%|█████▏    | 5550/10711 [1:09:32<42:25,  2.03it/s]                                                      {'loss': 3.524, 'grad_norm': 0.20864808559417725, 'learning_rate': 0.0005555368863795207, 'epoch': 0.52}
 52%|█████▏    | 5550/10711 [1:09:32<42:25,  2.03it/s] 52%|█████▏    | 5551/10711 [1:09:33<43:02,  2.00it/s] 52%|█████▏    | 5552/10711 [1:09:33<42:48,  2.01it/s] 52%|█████▏    | 5553/10711 [1:09:34<43:07,  1.99it/s] 52%|█████▏    | 5554/10711 [1:09:34<42:51,  2.01it/s] 52%|█████▏    | 5555/10711 [1:09:35<43:36,  1.97it/s] 52%|█████▏    | 5556/10711 [1:09:35<43:11,  1.99it/s] 52%|█████▏    | 5557/10711 [1:09:36<43:49,  1.96it/s] 52%|█████▏    | 5558/10711 [1:09:36<43:24,  1.98it/s] 52%|█████▏    | 5559/10711 [1:09:37<43:34,  1.97it/s] 52%|█████▏    | 5560/10711 [1:09:37<43:12,  1.99it/s] 52%|█████▏    | 5561/10711 [1:09:38<43:30,  1.97it/s] 52%|█████▏    | 5562/10711 [1:09:38<43:10,  1.99it/s] 52%|█████▏    | 5563/10711 [1:09:39<42:56,  2.00it/s] 52%|█████▏    | 5564/10711 [1:09:39<42:47,  2.00it/s] 52%|█████▏    | 5565/10711 [1:09:40<43:10,  1.99it/s] 52%|█████▏    | 5566/10711 [1:09:40<42:53,  2.00it/s] 52%|█████▏    | 5567/10711 [1:09:41<42:42,  2.01it/s] 52%|█████▏    | 5568/10711 [1:09:41<42:38,  2.01it/s] 52%|█████▏    | 5569/10711 [1:09:42<42:31,  2.02it/s] 52%|█████▏    | 5570/10711 [1:09:42<42:29,  2.02it/s] 52%|█████▏    | 5571/10711 [1:09:43<42:23,  2.02it/s] 52%|█████▏    | 5572/10711 [1:09:43<42:17,  2.02it/s] 52%|█████▏    | 5573/10711 [1:09:44<42:17,  2.03it/s] 52%|█████▏    | 5574/10711 [1:09:44<42:12,  2.03it/s] 52%|█████▏    | 5575/10711 [1:09:45<42:14,  2.03it/s]                                                      {'loss': 3.5203, 'grad_norm': 0.1967671662569046, 'learning_rate': 0.0005514862326855774, 'epoch': 0.52}
 52%|█████▏    | 5575/10711 [1:09:45<42:14,  2.03it/s] 52%|█████▏    | 5576/10711 [1:09:45<42:51,  2.00it/s] 52%|█████▏    | 5577/10711 [1:09:46<42:39,  2.01it/s] 52%|█████▏    | 5578/10711 [1:09:46<42:28,  2.01it/s] 52%|█████▏    | 5579/10711 [1:09:47<42:23,  2.02it/s] 52%|█████▏    | 5580/10711 [1:09:47<42:18,  2.02it/s] 52%|█████▏    | 5581/10711 [1:09:48<42:11,  2.03it/s] 52%|█████▏    | 5582/10711 [1:09:48<43:59,  1.94it/s] 52%|█████▏    | 5583/10711 [1:09:49<43:56,  1.94it/s] 52%|█████▏    | 5584/10711 [1:09:49<43:23,  1.97it/s] 52%|█████▏    | 5585/10711 [1:09:50<42:58,  1.99it/s] 52%|█████▏    | 5586/10711 [1:09:50<43:13,  1.98it/s] 52%|█████▏    | 5587/10711 [1:09:51<42:53,  1.99it/s] 52%|█████▏    | 5588/10711 [1:09:51<42:39,  2.00it/s] 52%|█████▏    | 5589/10711 [1:09:52<42:29,  2.01it/s] 52%|█████▏    | 5590/10711 [1:09:52<42:19,  2.02it/s] 52%|█████▏    | 5591/10711 [1:09:53<42:15,  2.02it/s] 52%|█████▏    | 5592/10711 [1:09:53<42:10,  2.02it/s] 52%|█████▏    | 5593/10711 [1:09:54<42:12,  2.02it/s] 52%|█████▏    | 5594/10711 [1:09:54<42:10,  2.02it/s] 52%|█████▏    | 5595/10711 [1:09:55<42:06,  2.02it/s] 52%|█████▏    | 5596/10711 [1:09:55<42:31,  2.00it/s] 52%|█████▏    | 5597/10711 [1:09:56<42:21,  2.01it/s] 52%|█████▏    | 5598/10711 [1:09:56<43:05,  1.98it/s] 52%|█████▏    | 5599/10711 [1:09:57<42:47,  1.99it/s] 52%|█████▏    | 5600/10711 [1:09:57<42:31,  2.00it/s]                                                      {'loss': 3.5196, 'grad_norm': 0.1921377032995224, 'learning_rate': 0.0005474321607361873, 'epoch': 0.52}
 52%|█████▏    | 5600/10711 [1:09:57<42:31,  2.00it/s] 52%|█████▏    | 5601/10711 [1:09:58<43:06,  1.98it/s] 52%|█████▏    | 5602/10711 [1:09:58<42:43,  1.99it/s] 52%|█████▏    | 5603/10711 [1:09:59<43:50,  1.94it/s] 52%|█████▏    | 5604/10711 [1:09:59<43:17,  1.97it/s] 52%|█████▏    | 5605/10711 [1:10:00<42:51,  1.99it/s] 52%|█████▏    | 5606/10711 [1:10:00<42:35,  2.00it/s] 52%|█████▏    | 5607/10711 [1:10:01<42:54,  1.98it/s] 52%|█████▏    | 5608/10711 [1:10:01<42:34,  2.00it/s] 52%|█████▏    | 5609/10711 [1:10:02<42:53,  1.98it/s] 52%|█████▏    | 5610/10711 [1:10:02<42:36,  2.00it/s] 52%|█████▏    | 5611/10711 [1:10:03<42:23,  2.01it/s] 52%|█████▏    | 5612/10711 [1:10:03<42:12,  2.01it/s] 52%|█████▏    | 5613/10711 [1:10:04<42:04,  2.02it/s] 52%|█████▏    | 5614/10711 [1:10:04<42:01,  2.02it/s] 52%|█████▏    | 5615/10711 [1:10:05<42:26,  2.00it/s] 52%|█████▏    | 5616/10711 [1:10:05<42:40,  1.99it/s] 52%|█████▏    | 5617/10711 [1:10:06<42:26,  2.00it/s] 52%|█████▏    | 5618/10711 [1:10:06<42:15,  2.01it/s] 52%|█████▏    | 5619/10711 [1:10:07<42:10,  2.01it/s] 52%|█████▏    | 5620/10711 [1:10:07<42:05,  2.02it/s] 52%|█████▏    | 5621/10711 [1:10:08<42:01,  2.02it/s] 52%|█████▏    | 5622/10711 [1:10:08<41:57,  2.02it/s] 52%|█████▏    | 5623/10711 [1:10:09<41:49,  2.03it/s] 53%|█████▎    | 5624/10711 [1:10:09<42:20,  2.00it/s] 53%|█████▎    | 5625/10711 [1:10:10<42:07,  2.01it/s]                                                      {'loss': 3.5113, 'grad_norm': 0.1935875564813614, 'learning_rate': 0.0005433749396878377, 'epoch': 0.53}
 53%|█████▎    | 5625/10711 [1:10:10<42:07,  2.01it/s] 53%|█████▎    | 5626/10711 [1:10:10<43:26,  1.95it/s] 53%|█████▎    | 5627/10711 [1:10:11<43:22,  1.95it/s] 53%|█████▎    | 5628/10711 [1:10:11<42:51,  1.98it/s] 53%|█████▎    | 5629/10711 [1:10:12<42:55,  1.97it/s] 53%|█████▎    | 5630/10711 [1:10:12<42:34,  1.99it/s] 53%|█████▎    | 5631/10711 [1:10:13<42:17,  2.00it/s] 53%|█████▎    | 5632/10711 [1:10:13<42:03,  2.01it/s] 53%|█████▎    | 5633/10711 [1:10:14<42:27,  1.99it/s] 53%|█████▎    | 5634/10711 [1:10:14<42:13,  2.00it/s] 53%|█████▎    | 5635/10711 [1:10:15<42:41,  1.98it/s] 53%|█████▎    | 5636/10711 [1:10:15<42:23,  1.99it/s] 53%|█████▎    | 5637/10711 [1:10:16<42:35,  1.99it/s] 53%|█████▎    | 5638/10711 [1:10:16<42:19,  2.00it/s] 53%|█████▎    | 5639/10711 [1:10:17<42:07,  2.01it/s] 53%|█████▎    | 5640/10711 [1:10:17<42:56,  1.97it/s] 53%|█████▎    | 5641/10711 [1:10:18<42:36,  1.98it/s] 53%|█████▎    | 5642/10711 [1:10:18<42:19,  2.00it/s] 53%|█████▎    | 5643/10711 [1:10:19<42:39,  1.98it/s] 53%|█████▎    | 5644/10711 [1:10:19<42:21,  1.99it/s] 53%|█████▎    | 5645/10711 [1:10:20<42:44,  1.98it/s] 53%|█████▎    | 5646/10711 [1:10:20<42:26,  1.99it/s] 53%|█████▎    | 5647/10711 [1:10:21<42:07,  2.00it/s] 53%|█████▎    | 5648/10711 [1:10:21<41:56,  2.01it/s] 53%|█████▎    | 5649/10711 [1:10:22<42:15,  2.00it/s] 53%|█████▎    | 5650/10711 [1:10:22<42:02,  2.01it/s]{'loss': 3.5097, 'grad_norm': 0.19847910106182098, 'learning_rate': 0.0005393148389060894, 'epoch': 0.53}
                                                       53%|█████▎    | 5650/10711 [1:10:22<42:02,  2.01it/s] 53%|█████▎    | 5651/10711 [1:10:23<42:25,  1.99it/s] 53%|█████▎    | 5652/10711 [1:10:23<42:09,  2.00it/s] 53%|█████▎    | 5653/10711 [1:10:24<41:55,  2.01it/s] 53%|█████▎    | 5654/10711 [1:10:24<41:50,  2.01it/s] 53%|█████▎    | 5655/10711 [1:10:25<42:11,  2.00it/s] 53%|█████▎    | 5656/10711 [1:10:25<41:57,  2.01it/s] 53%|█████▎    | 5657/10711 [1:10:26<41:51,  2.01it/s] 53%|█████▎    | 5658/10711 [1:10:26<41:45,  2.02it/s] 53%|█████▎    | 5659/10711 [1:10:27<41:39,  2.02it/s] 53%|█████▎    | 5660/10711 [1:10:27<41:37,  2.02it/s] 53%|█████▎    | 5661/10711 [1:10:28<41:31,  2.03it/s] 53%|█████▎    | 5662/10711 [1:10:28<41:34,  2.02it/s] 53%|█████▎    | 5663/10711 [1:10:29<41:31,  2.03it/s] 53%|█████▎    | 5664/10711 [1:10:29<42:04,  2.00it/s] 53%|█████▎    | 5665/10711 [1:10:30<41:51,  2.01it/s] 53%|█████▎    | 5666/10711 [1:10:30<41:42,  2.02it/s] 53%|█████▎    | 5667/10711 [1:10:31<41:39,  2.02it/s] 53%|█████▎    | 5668/10711 [1:10:31<41:31,  2.02it/s] 53%|█████▎    | 5669/10711 [1:10:32<41:29,  2.02it/s] 53%|█████▎    | 5670/10711 [1:10:32<41:27,  2.03it/s] 53%|█████▎    | 5671/10711 [1:10:33<41:24,  2.03it/s] 53%|█████▎    | 5672/10711 [1:10:33<41:51,  2.01it/s] 53%|█████▎    | 5673/10711 [1:10:34<42:03,  2.00it/s] 53%|█████▎    | 5674/10711 [1:10:34<41:49,  2.01it/s] 53%|█████▎    | 5675/10711 [1:10:35<41:44,  2.01it/s]                                                      {'loss': 3.5256, 'grad_norm': 0.21388807892799377, 'learning_rate': 0.0005352521279476935, 'epoch': 0.53}
 53%|█████▎    | 5675/10711 [1:10:35<41:44,  2.01it/s] 53%|█████▎    | 5676/10711 [1:10:35<41:43,  2.01it/s] 53%|█████▎    | 5677/10711 [1:10:36<41:37,  2.02it/s] 53%|█████▎    | 5678/10711 [1:10:36<41:30,  2.02it/s] 53%|█████▎    | 5679/10711 [1:10:37<41:27,  2.02it/s] 53%|█████▎    | 5680/10711 [1:10:37<41:23,  2.03it/s] 53%|█████▎    | 5681/10711 [1:10:38<41:23,  2.03it/s] 53%|█████▎    | 5682/10711 [1:10:38<41:22,  2.03it/s] 53%|█████▎    | 5683/10711 [1:10:39<41:21,  2.03it/s] 53%|█████▎    | 5684/10711 [1:10:39<41:22,  2.02it/s] 53%|█████▎    | 5685/10711 [1:10:40<41:19,  2.03it/s] 53%|█████▎    | 5686/10711 [1:10:40<41:20,  2.03it/s] 53%|█████▎    | 5687/10711 [1:10:41<41:17,  2.03it/s] 53%|█████▎    | 5688/10711 [1:10:41<41:19,  2.03it/s] 53%|█████▎    | 5689/10711 [1:10:42<41:15,  2.03it/s] 53%|█████▎    | 5690/10711 [1:10:42<41:16,  2.03it/s] 53%|█████▎    | 5691/10711 [1:10:43<41:15,  2.03it/s] 53%|█████▎    | 5692/10711 [1:10:43<41:15,  2.03it/s] 53%|█████▎    | 5693/10711 [1:10:44<41:15,  2.03it/s] 53%|█████▎    | 5694/10711 [1:10:44<41:13,  2.03it/s] 53%|█████▎    | 5695/10711 [1:10:45<41:14,  2.03it/s] 53%|█████▎    | 5696/10711 [1:10:45<41:39,  2.01it/s] 53%|█████▎    | 5697/10711 [1:10:46<41:29,  2.01it/s] 53%|█████▎    | 5698/10711 [1:10:46<41:30,  2.01it/s] 53%|█████▎    | 5699/10711 [1:10:47<42:05,  1.98it/s] 53%|█████▎    | 5700/10711 [1:10:47<41:47,  2.00it/s]                                                      {'loss': 3.5094, 'grad_norm': 0.21756473183631897, 'learning_rate': 0.0005311870765426951, 'epoch': 0.53}
 53%|█████▎    | 5700/10711 [1:10:47<41:47,  2.00it/s] 53%|█████▎    | 5701/10711 [1:10:48<42:15,  1.98it/s] 53%|█████▎    | 5702/10711 [1:10:48<41:51,  1.99it/s] 53%|█████▎    | 5703/10711 [1:10:49<41:38,  2.00it/s] 53%|█████▎    | 5704/10711 [1:10:49<41:28,  2.01it/s] 53%|█████▎    | 5705/10711 [1:10:50<41:49,  1.99it/s] 53%|█████▎    | 5706/10711 [1:10:50<41:41,  2.00it/s] 53%|█████▎    | 5707/10711 [1:10:51<41:28,  2.01it/s] 53%|█████▎    | 5708/10711 [1:10:51<41:23,  2.01it/s] 53%|█████▎    | 5709/10711 [1:10:52<41:16,  2.02it/s] 53%|█████▎    | 5710/10711 [1:10:52<41:12,  2.02it/s] 53%|█████▎    | 5711/10711 [1:10:53<41:09,  2.02it/s] 53%|█████▎    | 5712/10711 [1:10:53<41:05,  2.03it/s] 53%|█████▎    | 5713/10711 [1:10:54<41:07,  2.03it/s] 53%|█████▎    | 5714/10711 [1:10:54<41:04,  2.03it/s] 53%|█████▎    | 5715/10711 [1:10:55<41:03,  2.03it/s] 53%|█████▎    | 5716/10711 [1:10:55<41:05,  2.03it/s] 53%|█████▎    | 5717/10711 [1:10:56<41:02,  2.03it/s] 53%|█████▎    | 5718/10711 [1:10:56<41:01,  2.03it/s] 53%|█████▎    | 5719/10711 [1:10:57<41:31,  2.00it/s] 53%|█████▎    | 5720/10711 [1:10:57<41:19,  2.01it/s] 53%|█████▎    | 5721/10711 [1:10:58<41:15,  2.02it/s] 53%|█████▎    | 5722/10711 [1:10:58<41:07,  2.02it/s] 53%|█████▎    | 5723/10711 [1:10:59<41:06,  2.02it/s] 53%|█████▎    | 5724/10711 [1:10:59<41:30,  2.00it/s] 53%|█████▎    | 5725/10711 [1:11:00<41:17,  2.01it/s]{'loss': 3.5094, 'grad_norm': 0.19431206583976746, 'learning_rate': 0.0005271199545765255, 'epoch': 0.53}                                                      
 53%|█████▎    | 5725/10711 [1:11:00<41:17,  2.01it/s] 53%|█████▎    | 5726/10711 [1:11:00<41:16,  2.01it/s] 53%|█████▎    | 5727/10711 [1:11:01<41:06,  2.02it/s] 53%|█████▎    | 5728/10711 [1:11:01<41:03,  2.02it/s] 53%|█████▎    | 5729/10711 [1:11:02<41:02,  2.02it/s] 53%|█████▎    | 5730/10711 [1:11:02<40:58,  2.03it/s] 54%|█████▎    | 5731/10711 [1:11:03<41:01,  2.02it/s] 54%|█████▎    | 5732/10711 [1:11:03<40:57,  2.03it/s] 54%|█████▎    | 5733/10711 [1:11:04<40:57,  2.03it/s] 54%|█████▎    | 5734/10711 [1:11:04<41:26,  2.00it/s] 54%|█████▎    | 5735/10711 [1:11:05<41:13,  2.01it/s] 54%|█████▎    | 5736/10711 [1:11:05<42:22,  1.96it/s] 54%|█████▎    | 5737/10711 [1:11:06<41:56,  1.98it/s] 54%|█████▎    | 5738/10711 [1:11:06<41:36,  1.99it/s] 54%|█████▎    | 5739/10711 [1:11:07<41:56,  1.98it/s] 54%|█████▎    | 5740/10711 [1:11:07<41:36,  1.99it/s] 54%|█████▎    | 5741/10711 [1:11:08<41:23,  2.00it/s] 54%|█████▎    | 5742/10711 [1:11:08<41:13,  2.01it/s] 54%|█████▎    | 5743/10711 [1:11:09<41:04,  2.02it/s] 54%|█████▎    | 5744/10711 [1:11:09<41:00,  2.02it/s] 54%|█████▎    | 5745/10711 [1:11:10<40:54,  2.02it/s] 54%|█████▎    | 5746/10711 [1:11:10<40:50,  2.03it/s] 54%|█████▎    | 5747/10711 [1:11:11<40:53,  2.02it/s] 54%|█████▎    | 5748/10711 [1:11:11<40:52,  2.02it/s] 54%|█████▎    | 5749/10711 [1:11:12<40:50,  2.02it/s] 54%|█████▎    | 5750/10711 [1:11:12<40:47,  2.03it/s]{'loss': 3.4976, 'grad_norm': 0.19832831621170044, 'learning_rate': 0.0005230510320720835, 'epoch': 0.54}
                                                       54%|█████▎    | 5750/10711 [1:11:12<40:47,  2.03it/s] 54%|█████▎    | 5751/10711 [1:11:13<40:50,  2.02it/s] 54%|█████▎    | 5752/10711 [1:11:13<40:45,  2.03it/s] 54%|█████▎    | 5753/10711 [1:11:14<41:18,  2.00it/s] 54%|█████▎    | 5754/10711 [1:11:14<41:05,  2.01it/s] 54%|█████▎    | 5755/10711 [1:11:15<41:31,  1.99it/s] 54%|█████▎    | 5756/10711 [1:11:15<41:18,  2.00it/s] 54%|█████▎    | 5757/10711 [1:11:16<41:05,  2.01it/s] 54%|█████▍    | 5758/10711 [1:11:16<41:47,  1.98it/s] 54%|█████▍    | 5759/10711 [1:11:17<41:29,  1.99it/s] 54%|█████▍    | 5760/10711 [1:11:17<41:14,  2.00it/s] 54%|█████▍    | 5761/10711 [1:11:18<41:03,  2.01it/s] 54%|█████▍    | 5762/10711 [1:11:18<40:54,  2.02it/s] 54%|█████▍    | 5763/10711 [1:11:19<40:48,  2.02it/s] 54%|█████▍    | 5764/10711 [1:11:19<40:48,  2.02it/s] 54%|█████▍    | 5765/10711 [1:11:20<41:13,  2.00it/s] 54%|█████▍    | 5766/10711 [1:11:20<41:06,  2.00it/s] 54%|█████▍    | 5767/10711 [1:11:21<40:58,  2.01it/s] 54%|█████▍    | 5768/10711 [1:11:21<40:52,  2.02it/s] 54%|█████▍    | 5769/10711 [1:11:22<40:45,  2.02it/s] 54%|█████▍    | 5770/10711 [1:11:22<40:42,  2.02it/s] 54%|█████▍    | 5771/10711 [1:11:23<40:39,  2.02it/s] 54%|█████▍    | 5772/10711 [1:11:23<40:35,  2.03it/s] 54%|█████▍    | 5773/10711 [1:11:23<40:35,  2.03it/s] 54%|█████▍    | 5774/10711 [1:11:24<40:35,  2.03it/s] 54%|█████▍    | 5775/10711 [1:11:24<40:31,  2.03it/s]                                                      {'loss': 3.5157, 'grad_norm': 0.20223911106586456, 'learning_rate': 0.000518980579171809, 'epoch': 0.54}
 54%|█████▍    | 5775/10711 [1:11:24<40:31,  2.03it/s] 54%|█████▍    | 5776/10711 [1:11:25<40:48,  2.02it/s] 54%|█████▍    | 5777/10711 [1:11:25<41:12,  2.00it/s] 54%|█████▍    | 5778/10711 [1:11:26<41:00,  2.00it/s] 54%|█████▍    | 5779/10711 [1:11:26<40:50,  2.01it/s] 54%|█████▍    | 5780/10711 [1:11:27<40:41,  2.02it/s] 54%|█████▍    | 5781/10711 [1:11:27<40:40,  2.02it/s] 54%|█████▍    | 5782/10711 [1:11:28<40:35,  2.02it/s] 54%|█████▍    | 5783/10711 [1:11:28<40:33,  2.03it/s] 54%|█████▍    | 5784/10711 [1:11:29<40:33,  2.02it/s] 54%|█████▍    | 5785/10711 [1:11:29<40:30,  2.03it/s] 54%|█████▍    | 5786/10711 [1:11:30<40:29,  2.03it/s] 54%|█████▍    | 5787/10711 [1:11:30<40:28,  2.03it/s] 54%|█████▍    | 5788/10711 [1:11:31<40:26,  2.03it/s] 54%|█████▍    | 5789/10711 [1:11:31<40:26,  2.03it/s] 54%|█████▍    | 5790/10711 [1:11:32<40:24,  2.03it/s] 54%|█████▍    | 5791/10711 [1:11:32<40:30,  2.02it/s] 54%|█████▍    | 5792/10711 [1:11:33<40:31,  2.02it/s] 54%|█████▍    | 5793/10711 [1:11:33<40:29,  2.02it/s] 54%|█████▍    | 5794/10711 [1:11:34<40:27,  2.03it/s] 54%|█████▍    | 5795/10711 [1:11:34<40:26,  2.03it/s] 54%|█████▍    | 5796/10711 [1:11:35<40:24,  2.03it/s] 54%|█████▍    | 5797/10711 [1:11:35<40:20,  2.03it/s] 54%|█████▍    | 5798/10711 [1:11:36<40:19,  2.03it/s] 54%|█████▍    | 5799/10711 [1:11:36<40:21,  2.03it/s] 54%|█████▍    | 5800/10711 [1:11:37<40:18,  2.03it/s]{'loss': 3.5034, 'grad_norm': 0.20822598040103912, 'learning_rate': 0.0005149088661197473, 'epoch': 0.54}                                                      
 54%|█████▍    | 5800/10711 [1:11:37<40:18,  2.03it/s] 54%|█████▍    | 5801/10711 [1:11:37<40:25,  2.02it/s] 54%|█████▍    | 5802/10711 [1:11:38<40:19,  2.03it/s] 54%|█████▍    | 5803/10711 [1:11:38<40:49,  2.00it/s] 54%|█████▍    | 5804/10711 [1:11:39<40:38,  2.01it/s] 54%|█████▍    | 5805/10711 [1:11:39<40:28,  2.02it/s] 54%|█████▍    | 5806/10711 [1:11:40<40:45,  2.01it/s] 54%|█████▍    | 5807/10711 [1:11:40<40:41,  2.01it/s] 54%|█████▍    | 5808/10711 [1:11:41<40:30,  2.02it/s] 54%|█████▍    | 5809/10711 [1:11:41<40:29,  2.02it/s] 54%|█████▍    | 5810/10711 [1:11:42<40:54,  2.00it/s] 54%|█████▍    | 5811/10711 [1:11:42<40:45,  2.00it/s] 54%|█████▍    | 5812/10711 [1:11:43<40:59,  1.99it/s] 54%|█████▍    | 5813/10711 [1:11:43<40:41,  2.01it/s] 54%|█████▍    | 5814/10711 [1:11:44<40:34,  2.01it/s] 54%|█████▍    | 5815/10711 [1:11:44<40:27,  2.02it/s] 54%|█████▍    | 5816/10711 [1:11:45<40:24,  2.02it/s] 54%|█████▍    | 5817/10711 [1:11:45<40:20,  2.02it/s] 54%|█████▍    | 5818/10711 [1:11:46<40:49,  2.00it/s] 54%|█████▍    | 5819/10711 [1:11:46<40:38,  2.01it/s] 54%|█████▍    | 5820/10711 [1:11:47<40:26,  2.02it/s] 54%|█████▍    | 5821/10711 [1:11:47<40:21,  2.02it/s] 54%|█████▍    | 5822/10711 [1:11:48<40:17,  2.02it/s] 54%|█████▍    | 5823/10711 [1:11:48<40:13,  2.03it/s] 54%|█████▍    | 5824/10711 [1:11:49<40:18,  2.02it/s] 54%|█████▍    | 5825/10711 [1:11:49<40:42,  2.00it/s]                                                      {'loss': 3.5089, 'grad_norm': 0.234579935669899, 'learning_rate': 0.0005108361632436073, 'epoch': 0.54}
 54%|█████▍    | 5825/10711 [1:11:49<40:42,  2.00it/s] 54%|█████▍    | 5826/10711 [1:11:50<40:38,  2.00it/s] 54%|█████▍    | 5827/10711 [1:11:50<40:25,  2.01it/s] 54%|█████▍    | 5828/10711 [1:11:51<40:21,  2.02it/s] 54%|█████▍    | 5829/10711 [1:11:51<40:14,  2.02it/s] 54%|█████▍    | 5830/10711 [1:11:52<40:11,  2.02it/s] 54%|█████▍    | 5831/10711 [1:11:52<40:09,  2.03it/s] 54%|█████▍    | 5832/10711 [1:11:53<40:07,  2.03it/s] 54%|█████▍    | 5833/10711 [1:11:53<40:09,  2.02it/s] 54%|█████▍    | 5834/10711 [1:11:54<40:34,  2.00it/s] 54%|█████▍    | 5835/10711 [1:11:54<40:25,  2.01it/s] 54%|█████▍    | 5836/10711 [1:11:55<40:16,  2.02it/s] 54%|█████▍    | 5837/10711 [1:11:55<40:14,  2.02it/s] 55%|█████▍    | 5838/10711 [1:11:56<40:11,  2.02it/s] 55%|█████▍    | 5839/10711 [1:11:56<40:31,  2.00it/s] 55%|█████▍    | 5840/10711 [1:11:57<40:26,  2.01it/s] 55%|█████▍    | 5841/10711 [1:11:57<40:17,  2.01it/s] 55%|█████▍    | 5842/10711 [1:11:58<40:15,  2.02it/s] 55%|█████▍    | 5843/10711 [1:11:58<40:08,  2.02it/s] 55%|█████▍    | 5844/10711 [1:11:59<40:04,  2.02it/s] 55%|█████▍    | 5845/10711 [1:11:59<40:03,  2.02it/s] 55%|█████▍    | 5846/10711 [1:12:00<39:59,  2.03it/s] 55%|█████▍    | 5847/10711 [1:12:00<40:01,  2.03it/s] 55%|█████▍    | 5848/10711 [1:12:01<39:58,  2.03it/s] 55%|█████▍    | 5849/10711 [1:12:01<39:59,  2.03it/s] 55%|█████▍    | 5850/10711 [1:12:02<39:57,  2.03it/s]                                                      {'loss': 3.5067, 'grad_norm': 0.1977182924747467, 'learning_rate': 0.0005067627409368138, 'epoch': 0.55}
 55%|█████▍    | 5850/10711 [1:12:02<39:57,  2.03it/s] 55%|█████▍    | 5851/10711 [1:12:02<40:05,  2.02it/s] 55%|█████▍    | 5852/10711 [1:12:03<40:01,  2.02it/s] 55%|█████▍    | 5853/10711 [1:12:03<39:59,  2.02it/s] 55%|█████▍    | 5854/10711 [1:12:04<39:57,  2.03it/s] 55%|█████▍    | 5855/10711 [1:12:04<39:54,  2.03it/s] 55%|█████▍    | 5856/10711 [1:12:05<39:54,  2.03it/s] 55%|█████▍    | 5857/10711 [1:12:05<39:53,  2.03it/s] 55%|█████▍    | 5858/10711 [1:12:06<39:52,  2.03it/s] 55%|█████▍    | 5859/10711 [1:12:06<39:51,  2.03it/s] 55%|█████▍    | 5860/10711 [1:12:07<39:49,  2.03it/s] 55%|█████▍    | 5861/10711 [1:12:07<40:17,  2.01it/s] 55%|█████▍    | 5862/10711 [1:12:08<40:36,  1.99it/s] 55%|█████▍    | 5863/10711 [1:12:08<40:21,  2.00it/s] 55%|█████▍    | 5864/10711 [1:12:09<40:12,  2.01it/s] 55%|█████▍    | 5865/10711 [1:12:09<40:32,  1.99it/s] 55%|█████▍    | 5866/10711 [1:12:10<40:21,  2.00it/s] 55%|█████▍    | 5867/10711 [1:12:10<40:11,  2.01it/s] 55%|█████▍    | 5868/10711 [1:12:11<40:01,  2.02it/s] 55%|█████▍    | 5869/10711 [1:12:11<39:57,  2.02it/s] 55%|█████▍    | 5870/10711 [1:12:12<40:20,  2.00it/s] 55%|█████▍    | 5871/10711 [1:12:12<40:09,  2.01it/s] 55%|█████▍    | 5872/10711 [1:12:13<40:02,  2.01it/s] 55%|█████▍    | 5873/10711 [1:12:13<39:55,  2.02it/s] 55%|█████▍    | 5874/10711 [1:12:14<39:52,  2.02it/s] 55%|█████▍    | 5875/10711 [1:12:14<39:48,  2.03it/s]                                                      {'loss': 3.493, 'grad_norm': 0.20160028338432312, 'learning_rate': 0.0005026888696405556, 'epoch': 0.55}
 55%|█████▍    | 5875/10711 [1:12:14<39:48,  2.03it/s] 55%|█████▍    | 5876/10711 [1:12:15<39:49,  2.02it/s] 55%|█████▍    | 5877/10711 [1:12:15<39:46,  2.03it/s] 55%|█████▍    | 5878/10711 [1:12:16<39:42,  2.03it/s] 55%|█████▍    | 5879/10711 [1:12:16<39:42,  2.03it/s] 55%|█████▍    | 5880/10711 [1:12:17<39:42,  2.03it/s] 55%|█████▍    | 5881/10711 [1:12:17<39:38,  2.03it/s] 55%|█████▍    | 5882/10711 [1:12:17<39:40,  2.03it/s] 55%|█████▍    | 5883/10711 [1:12:18<40:08,  2.00it/s] 55%|█████▍    | 5884/10711 [1:12:18<39:58,  2.01it/s] 55%|█████▍    | 5885/10711 [1:12:19<39:52,  2.02it/s] 55%|█████▍    | 5886/10711 [1:12:19<40:19,  1.99it/s] 55%|█████▍    | 5887/10711 [1:12:20<40:06,  2.00it/s] 55%|█████▍    | 5888/10711 [1:12:20<40:18,  1.99it/s] 55%|█████▍    | 5889/10711 [1:12:21<40:03,  2.01it/s] 55%|█████▍    | 5890/10711 [1:12:21<39:55,  2.01it/s] 55%|█████▍    | 5891/10711 [1:12:22<39:46,  2.02it/s] 55%|█████▌    | 5892/10711 [1:12:22<39:42,  2.02it/s] 55%|█████▌    | 5893/10711 [1:12:23<40:09,  2.00it/s] 55%|█████▌    | 5894/10711 [1:12:23<39:56,  2.01it/s] 55%|█████▌    | 5895/10711 [1:12:24<39:54,  2.01it/s] 55%|█████▌    | 5896/10711 [1:12:24<39:44,  2.02it/s] 55%|█████▌    | 5897/10711 [1:12:25<39:41,  2.02it/s] 55%|█████▌    | 5898/10711 [1:12:25<39:38,  2.02it/s] 55%|█████▌    | 5899/10711 [1:12:26<39:33,  2.03it/s] 55%|█████▌    | 5900/10711 [1:12:26<39:33,  2.03it/s]                                                      {'loss': 3.4924, 'grad_norm': 0.19520214200019836, 'learning_rate': 0.0004986148198258313, 'epoch': 0.55}
 55%|█████▌    | 5900/10711 [1:12:26<39:33,  2.03it/s] 55%|█████▌    | 5901/10711 [1:12:27<39:34,  2.03it/s] 55%|█████▌    | 5902/10711 [1:12:27<39:34,  2.03it/s] 55%|█████▌    | 5903/10711 [1:12:28<39:29,  2.03it/s] 55%|█████▌    | 5904/10711 [1:12:28<39:55,  2.01it/s] 55%|█████▌    | 5905/10711 [1:12:29<39:48,  2.01it/s] 55%|█████▌    | 5906/10711 [1:12:29<39:39,  2.02it/s] 55%|█████▌    | 5907/10711 [1:12:30<39:35,  2.02it/s] 55%|█████▌    | 5908/10711 [1:12:30<39:33,  2.02it/s] 55%|█████▌    | 5909/10711 [1:12:31<39:29,  2.03it/s] 55%|█████▌    | 5910/10711 [1:12:31<39:30,  2.03it/s] 55%|█████▌    | 5911/10711 [1:12:32<39:30,  2.02it/s] 55%|█████▌    | 5912/10711 [1:12:32<39:54,  2.00it/s] 55%|█████▌    | 5913/10711 [1:12:33<39:47,  2.01it/s] 55%|█████▌    | 5914/10711 [1:12:33<39:44,  2.01it/s] 55%|█████▌    | 5915/10711 [1:12:34<39:34,  2.02it/s] 55%|█████▌    | 5916/10711 [1:12:34<39:33,  2.02it/s] 55%|█████▌    | 5917/10711 [1:12:35<39:30,  2.02it/s] 55%|█████▌    | 5918/10711 [1:12:35<39:24,  2.03it/s] 55%|█████▌    | 5919/10711 [1:12:36<39:26,  2.03it/s] 55%|█████▌    | 5920/10711 [1:12:36<39:27,  2.02it/s] 55%|█████▌    | 5921/10711 [1:12:37<39:25,  2.02it/s] 55%|█████▌    | 5922/10711 [1:12:37<39:24,  2.03it/s] 55%|█████▌    | 5923/10711 [1:12:38<39:20,  2.03it/s] 55%|█████▌    | 5924/10711 [1:12:38<39:23,  2.03it/s] 55%|█████▌    | 5925/10711 [1:12:39<39:19,  2.03it/s]                                                      {'loss': 3.5045, 'grad_norm': 0.19725100696086884, 'learning_rate': 0.000494540861975491, 'epoch': 0.55}
 55%|█████▌    | 5925/10711 [1:12:39<39:19,  2.03it/s] 55%|█████▌    | 5926/10711 [1:12:39<39:24,  2.02it/s] 55%|█████▌    | 5927/10711 [1:12:40<39:19,  2.03it/s] 55%|█████▌    | 5928/10711 [1:12:40<39:19,  2.03it/s] 55%|█████▌    | 5929/10711 [1:12:41<39:18,  2.03it/s] 55%|█████▌    | 5930/10711 [1:12:41<39:16,  2.03it/s] 55%|█████▌    | 5931/10711 [1:12:42<39:20,  2.02it/s] 55%|█████▌    | 5932/10711 [1:12:42<39:14,  2.03it/s] 55%|█████▌    | 5933/10711 [1:12:43<39:15,  2.03it/s] 55%|█████▌    | 5934/10711 [1:12:43<39:43,  2.00it/s] 55%|█████▌    | 5935/10711 [1:12:44<39:32,  2.01it/s] 55%|█████▌    | 5936/10711 [1:12:44<40:01,  1.99it/s] 55%|█████▌    | 5937/10711 [1:12:45<39:45,  2.00it/s] 55%|█████▌    | 5938/10711 [1:12:45<40:09,  1.98it/s] 55%|█████▌    | 5939/10711 [1:12:46<39:50,  2.00it/s] 55%|█████▌    | 5940/10711 [1:12:46<39:37,  2.01it/s] 55%|█████▌    | 5941/10711 [1:12:47<39:27,  2.01it/s] 55%|█████▌    | 5942/10711 [1:12:47<39:20,  2.02it/s] 55%|█████▌    | 5943/10711 [1:12:48<39:19,  2.02it/s] 55%|█████▌    | 5944/10711 [1:12:48<39:15,  2.02it/s] 56%|█████▌    | 5945/10711 [1:12:49<39:17,  2.02it/s] 56%|█████▌    | 5946/10711 [1:12:49<39:13,  2.02it/s] 56%|█████▌    | 5947/10711 [1:12:50<39:13,  2.02it/s] 56%|█████▌    | 5948/10711 [1:12:50<39:39,  2.00it/s] 56%|█████▌    | 5949/10711 [1:12:51<39:28,  2.01it/s] 56%|█████▌    | 5950/10711 [1:12:51<39:22,  2.02it/s]                                                      {'loss': 3.4921, 'grad_norm': 0.20477494597434998, 'learning_rate': 0.0004904672665662794, 'epoch': 0.56}
 56%|█████▌    | 5950/10711 [1:12:51<39:22,  2.02it/s] 56%|█████▌    | 5951/10711 [1:12:52<39:24,  2.01it/s] 56%|█████▌    | 5952/10711 [1:12:52<39:18,  2.02it/s] 56%|█████▌    | 5953/10711 [1:12:53<39:18,  2.02it/s] 56%|█████▌    | 5954/10711 [1:12:53<39:14,  2.02it/s] 56%|█████▌    | 5955/10711 [1:12:54<39:11,  2.02it/s] 56%|█████▌    | 5956/10711 [1:12:54<39:06,  2.03it/s] 56%|█████▌    | 5957/10711 [1:12:55<39:33,  2.00it/s] 56%|█████▌    | 5958/10711 [1:12:55<39:25,  2.01it/s] 56%|█████▌    | 5959/10711 [1:12:56<39:17,  2.02it/s] 56%|█████▌    | 5960/10711 [1:12:56<39:10,  2.02it/s] 56%|█████▌    | 5961/10711 [1:12:57<39:11,  2.02it/s] 56%|█████▌    | 5962/10711 [1:12:57<39:06,  2.02it/s] 56%|█████▌    | 5963/10711 [1:12:58<39:06,  2.02it/s] 56%|█████▌    | 5964/10711 [1:12:58<39:01,  2.03it/s] 56%|█████▌    | 5965/10711 [1:12:59<39:01,  2.03it/s] 56%|█████▌    | 5966/10711 [1:12:59<38:59,  2.03it/s] 56%|█████▌    | 5967/10711 [1:13:00<39:26,  2.01it/s] 56%|█████▌    | 5968/10711 [1:13:00<39:18,  2.01it/s] 56%|█████▌    | 5969/10711 [1:13:01<39:11,  2.02it/s] 56%|█████▌    | 5970/10711 [1:13:01<39:06,  2.02it/s] 56%|█████▌    | 5971/10711 [1:13:02<39:05,  2.02it/s] 56%|█████▌    | 5972/10711 [1:13:02<39:01,  2.02it/s] 56%|█████▌    | 5973/10711 [1:13:03<39:21,  2.01it/s] 56%|█████▌    | 5974/10711 [1:13:03<39:15,  2.01it/s] 56%|█████▌    | 5975/10711 [1:13:04<39:13,  2.01it/s]                                                      {'loss': 3.493, 'grad_norm': 0.19566203653812408, 'learning_rate': 0.0004863943040508781, 'epoch': 0.56}
 56%|█████▌    | 5975/10711 [1:13:04<39:13,  2.01it/s] 56%|█████▌    | 5976/10711 [1:13:04<39:13,  2.01it/s] 56%|█████▌    | 5977/10711 [1:13:05<39:09,  2.02it/s] 56%|█████▌    | 5978/10711 [1:13:05<39:03,  2.02it/s] 56%|█████▌    | 5979/10711 [1:13:06<38:58,  2.02it/s] 56%|█████▌    | 5980/10711 [1:13:06<38:53,  2.03it/s] 56%|█████▌    | 5981/10711 [1:13:07<38:54,  2.03it/s] 56%|█████▌    | 5982/10711 [1:13:07<38:52,  2.03it/s] 56%|█████▌    | 5983/10711 [1:13:08<45:21,  1.74it/s] 56%|█████▌    | 5984/10711 [1:13:08<43:21,  1.82it/s] 56%|█████▌    | 5985/10711 [1:13:09<42:01,  1.87it/s] 56%|█████▌    | 5986/10711 [1:13:09<41:01,  1.92it/s] 56%|█████▌    | 5987/10711 [1:13:10<40:20,  1.95it/s] 56%|█████▌    | 5988/10711 [1:13:10<39:51,  1.97it/s] 56%|█████▌    | 5989/10711 [1:13:11<39:31,  1.99it/s] 56%|█████▌    | 5990/10711 [1:13:11<39:21,  2.00it/s] 56%|█████▌    | 5991/10711 [1:13:12<39:10,  2.01it/s] 56%|█████▌    | 5992/10711 [1:13:12<39:05,  2.01it/s] 56%|█████▌    | 5993/10711 [1:13:13<39:00,  2.02it/s] 56%|█████▌    | 5994/10711 [1:13:13<39:18,  2.00it/s] 56%|█████▌    | 5995/10711 [1:13:14<39:33,  1.99it/s] 56%|█████▌    | 5996/10711 [1:13:14<39:16,  2.00it/s] 56%|█████▌    | 5997/10711 [1:13:15<39:05,  2.01it/s] 56%|█████▌    | 5998/10711 [1:13:15<38:59,  2.01it/s] 56%|█████▌    | 5999/10711 [1:13:16<39:20,  2.00it/s] 56%|█████▌    | 6000/10711 [1:13:16<39:06,  2.01it/s]                                                      {'loss': 3.4957, 'grad_norm': 0.18806466460227966, 'learning_rate': 0.00048232224483994973, 'epoch': 0.56}
 56%|█████▌    | 6000/10711 [1:13:16<39:06,  2.01it/s] 56%|█████▌    | 6001/10711 [1:13:17<39:05,  2.01it/s] 56%|█████▌    | 6002/10711 [1:13:17<38:58,  2.01it/s] 56%|█████▌    | 6003/10711 [1:13:18<38:52,  2.02it/s] 56%|█████▌    | 6004/10711 [1:13:18<38:47,  2.02it/s] 56%|█████▌    | 6005/10711 [1:13:19<38:44,  2.02it/s] 56%|█████▌    | 6006/10711 [1:13:19<39:13,  2.00it/s] 56%|█████▌    | 6007/10711 [1:13:20<39:31,  1.98it/s] 56%|█████▌    | 6008/10711 [1:13:20<39:15,  2.00it/s] 56%|█████▌    | 6009/10711 [1:13:21<39:03,  2.01it/s] 56%|█████▌    | 6010/10711 [1:13:21<38:56,  2.01it/s] 56%|█████▌    | 6011/10711 [1:13:22<39:13,  2.00it/s] 56%|█████▌    | 6012/10711 [1:13:22<39:01,  2.01it/s] 56%|█████▌    | 6013/10711 [1:13:23<38:55,  2.01it/s] 56%|█████▌    | 6014/10711 [1:13:24<45:41,  1.71it/s] 56%|█████▌    | 6015/10711 [1:13:24<43:33,  1.80it/s] 56%|█████▌    | 6016/10711 [1:13:25<42:08,  1.86it/s] 56%|█████▌    | 6017/10711 [1:13:25<41:03,  1.91it/s] 56%|█████▌    | 6018/10711 [1:13:25<40:17,  1.94it/s] 56%|█████▌    | 6019/10711 [1:13:26<39:44,  1.97it/s] 56%|█████▌    | 6020/10711 [1:13:26<39:21,  1.99it/s] 56%|█████▌    | 6021/10711 [1:13:27<39:06,  2.00it/s] 56%|█████▌    | 6022/10711 [1:13:27<38:55,  2.01it/s] 56%|█████▌    | 6023/10711 [1:13:28<38:46,  2.01it/s] 56%|█████▌    | 6024/10711 [1:13:28<38:40,  2.02it/s] 56%|█████▋    | 6025/10711 [1:13:29<38:37,  2.02it/s]                                                      {'loss': 3.4865, 'grad_norm': 0.19354842603206635, 'learning_rate': 0.00047825135928418526, 'epoch': 0.56}
 56%|█████▋    | 6025/10711 [1:13:29<38:37,  2.02it/s] 56%|█████▋    | 6026/10711 [1:13:29<38:43,  2.02it/s] 56%|█████▋    | 6027/10711 [1:13:30<38:37,  2.02it/s] 56%|█████▋    | 6028/10711 [1:13:30<39:03,  2.00it/s] 56%|█████▋    | 6029/10711 [1:13:31<38:50,  2.01it/s] 56%|█████▋    | 6030/10711 [1:13:31<39:05,  2.00it/s] 56%|█████▋    | 6031/10711 [1:13:32<38:56,  2.00it/s] 56%|█████▋    | 6032/10711 [1:13:32<38:42,  2.01it/s] 56%|█████▋    | 6033/10711 [1:13:33<38:37,  2.02it/s] 56%|█████▋    | 6034/10711 [1:13:33<38:33,  2.02it/s] 56%|█████▋    | 6035/10711 [1:13:34<38:27,  2.03it/s] 56%|█████▋    | 6036/10711 [1:13:34<38:50,  2.01it/s] 56%|█████▋    | 6037/10711 [1:13:35<38:39,  2.01it/s] 56%|█████▋    | 6038/10711 [1:13:35<38:32,  2.02it/s] 56%|█████▋    | 6039/10711 [1:13:36<38:33,  2.02it/s] 56%|█████▋    | 6040/10711 [1:13:36<38:26,  2.02it/s] 56%|█████▋    | 6041/10711 [1:13:37<38:22,  2.03it/s] 56%|█████▋    | 6042/10711 [1:13:37<38:20,  2.03it/s] 56%|█████▋    | 6043/10711 [1:13:38<38:17,  2.03it/s] 56%|█████▋    | 6044/10711 [1:13:38<38:13,  2.03it/s] 56%|█████▋    | 6045/10711 [1:13:39<38:12,  2.04it/s] 56%|█████▋    | 6046/10711 [1:13:39<38:11,  2.04it/s] 56%|█████▋    | 6047/10711 [1:13:40<38:11,  2.04it/s] 56%|█████▋    | 6048/10711 [1:13:40<38:10,  2.04it/s] 56%|█████▋    | 6049/10711 [1:13:41<38:10,  2.04it/s] 56%|█████▋    | 6050/10711 [1:13:41<38:12,  2.03it/s]                                                      {'loss': 3.4885, 'grad_norm': 0.2125709354877472, 'learning_rate': 0.00047418191765635477, 'epoch': 0.56}
 56%|█████▋    | 6050/10711 [1:13:41<38:12,  2.03it/s] 56%|█████▋    | 6051/10711 [1:13:42<39:28,  1.97it/s] 57%|█████▋    | 6052/10711 [1:13:42<39:02,  1.99it/s] 57%|█████▋    | 6053/10711 [1:13:43<38:45,  2.00it/s] 57%|█████▋    | 6054/10711 [1:13:43<38:36,  2.01it/s] 57%|█████▋    | 6055/10711 [1:13:44<38:27,  2.02it/s] 57%|█████▋    | 6056/10711 [1:13:44<38:20,  2.02it/s] 57%|█████▋    | 6057/10711 [1:13:45<38:16,  2.03it/s] 57%|█████▋    | 6058/10711 [1:13:45<38:13,  2.03it/s] 57%|█████▋    | 6059/10711 [1:13:46<38:12,  2.03it/s] 57%|█████▋    | 6060/10711 [1:13:46<38:08,  2.03it/s] 57%|█████▋    | 6061/10711 [1:13:47<38:08,  2.03it/s] 57%|█████▋    | 6062/10711 [1:13:47<38:36,  2.01it/s] 57%|█████▋    | 6063/10711 [1:13:48<38:25,  2.02it/s] 57%|█████▋    | 6064/10711 [1:13:48<38:20,  2.02it/s] 57%|█████▋    | 6065/10711 [1:13:49<38:13,  2.03it/s] 57%|█████▋    | 6066/10711 [1:13:49<38:10,  2.03it/s] 57%|█████▋    | 6067/10711 [1:13:50<38:09,  2.03it/s] 57%|█████▋    | 6068/10711 [1:13:50<38:07,  2.03it/s] 57%|█████▋    | 6069/10711 [1:13:51<38:03,  2.03it/s] 57%|█████▋    | 6070/10711 [1:13:51<38:20,  2.02it/s] 57%|█████▋    | 6071/10711 [1:13:52<38:16,  2.02it/s] 57%|█████▋    | 6072/10711 [1:13:52<38:11,  2.02it/s] 57%|█████▋    | 6073/10711 [1:13:53<38:08,  2.03it/s] 57%|█████▋    | 6074/10711 [1:13:53<38:05,  2.03it/s] 57%|█████▋    | 6075/10711 [1:13:54<38:02,  2.03it/s]                                                      {'loss': 3.4861, 'grad_norm': 0.20411568880081177, 'learning_rate': 0.0004701141901333633, 'epoch': 0.57}
 57%|█████▋    | 6075/10711 [1:13:54<38:02,  2.03it/s] 57%|█████▋    | 6076/10711 [1:13:54<38:06,  2.03it/s] 57%|█████▋    | 6077/10711 [1:13:55<38:03,  2.03it/s] 57%|█████▋    | 6078/10711 [1:13:55<38:02,  2.03it/s] 57%|█████▋    | 6079/10711 [1:13:56<37:58,  2.03it/s] 57%|█████▋    | 6080/10711 [1:13:56<37:56,  2.03it/s] 57%|█████▋    | 6081/10711 [1:13:57<37:58,  2.03it/s] 57%|█████▋    | 6082/10711 [1:13:57<37:55,  2.03it/s] 57%|█████▋    | 6083/10711 [1:13:58<37:53,  2.04it/s] 57%|█████▋    | 6084/10711 [1:13:58<37:54,  2.03it/s] 57%|█████▋    | 6085/10711 [1:13:59<37:50,  2.04it/s] 57%|█████▋    | 6086/10711 [1:13:59<37:50,  2.04it/s] 57%|█████▋    | 6087/10711 [1:14:00<37:51,  2.04it/s] 57%|█████▋    | 6088/10711 [1:14:00<37:50,  2.04it/s] 57%|█████▋    | 6089/10711 [1:14:01<37:47,  2.04it/s] 57%|█████▋    | 6090/10711 [1:14:01<37:50,  2.04it/s] 57%|█████▋    | 6091/10711 [1:14:02<37:51,  2.03it/s] 57%|█████▋    | 6092/10711 [1:14:02<37:49,  2.04it/s] 57%|█████▋    | 6093/10711 [1:14:03<37:50,  2.03it/s] 57%|█████▋    | 6094/10711 [1:14:03<37:47,  2.04it/s] 57%|█████▋    | 6095/10711 [1:14:04<37:45,  2.04it/s] 57%|█████▋    | 6096/10711 [1:14:04<37:46,  2.04it/s] 57%|█████▋    | 6097/10711 [1:14:04<37:46,  2.04it/s] 57%|█████▋    | 6098/10711 [1:14:05<38:09,  2.01it/s] 57%|█████▋    | 6099/10711 [1:14:05<38:04,  2.02it/s] 57%|█████▋    | 6100/10711 [1:14:06<37:56,  2.03it/s]{'loss': 3.4912, 'grad_norm': 0.19247908890247345, 'learning_rate': 0.00046604844677831394, 'epoch': 0.57}                                                      
 57%|█████▋    | 6100/10711 [1:14:06<37:56,  2.03it/s] 57%|█████▋    | 6101/10711 [1:14:06<37:59,  2.02it/s] 57%|█████▋    | 6102/10711 [1:14:07<37:54,  2.03it/s] 57%|█████▋    | 6103/10711 [1:14:07<37:48,  2.03it/s] 57%|█████▋    | 6104/10711 [1:14:08<37:47,  2.03it/s] 57%|█████▋    | 6105/10711 [1:14:08<37:45,  2.03it/s] 57%|█████▋    | 6106/10711 [1:14:09<38:10,  2.01it/s] 57%|█████▋    | 6107/10711 [1:14:09<38:00,  2.02it/s] 57%|█████▋    | 6108/10711 [1:14:10<37:56,  2.02it/s] 57%|█████▋    | 6109/10711 [1:14:10<37:50,  2.03it/s] 57%|█████▋    | 6110/10711 [1:14:11<37:47,  2.03it/s] 57%|█████▋    | 6111/10711 [1:14:11<37:43,  2.03it/s] 57%|█████▋    | 6112/10711 [1:14:12<37:40,  2.03it/s] 57%|█████▋    | 6113/10711 [1:14:12<37:41,  2.03it/s] 57%|█████▋    | 6114/10711 [1:14:13<37:39,  2.03it/s] 57%|█████▋    | 6115/10711 [1:14:13<37:35,  2.04it/s] 57%|█████▋    | 6116/10711 [1:14:14<37:41,  2.03it/s] 57%|█████▋    | 6117/10711 [1:14:14<37:37,  2.03it/s] 57%|█████▋    | 6118/10711 [1:14:15<37:35,  2.04it/s] 57%|█████▋    | 6119/10711 [1:14:15<37:34,  2.04it/s] 57%|█████▋    | 6120/10711 [1:14:16<37:34,  2.04it/s] 57%|█████▋    | 6121/10711 [1:14:16<37:33,  2.04it/s] 57%|█████▋    | 6122/10711 [1:14:17<37:30,  2.04it/s] 57%|█████▋    | 6123/10711 [1:14:17<37:31,  2.04it/s] 57%|█████▋    | 6124/10711 [1:14:18<37:32,  2.04it/s] 57%|█████▋    | 6125/10711 [1:14:18<37:30,  2.04it/s]{'loss': 3.4857, 'grad_norm': 0.1987762749195099, 'learning_rate': 0.00046198495752257753, 'epoch': 0.57}
                                                       57%|█████▋    | 6125/10711 [1:14:18<37:30,  2.04it/s] 57%|█████▋    | 6126/10711 [1:14:19<37:57,  2.01it/s] 57%|█████▋    | 6127/10711 [1:14:19<37:48,  2.02it/s] 57%|█████▋    | 6128/10711 [1:14:20<37:42,  2.03it/s] 57%|█████▋    | 6129/10711 [1:14:20<37:38,  2.03it/s] 57%|█████▋    | 6130/10711 [1:14:21<37:35,  2.03it/s] 57%|█████▋    | 6131/10711 [1:14:21<37:34,  2.03it/s] 57%|█████▋    | 6132/10711 [1:14:22<37:32,  2.03it/s] 57%|█████▋    | 6133/10711 [1:14:22<37:57,  2.01it/s] 57%|█████▋    | 6134/10711 [1:14:23<37:49,  2.02it/s] 57%|█████▋    | 6135/10711 [1:14:23<37:41,  2.02it/s] 57%|█████▋    | 6136/10711 [1:14:24<37:37,  2.03it/s] 57%|█████▋    | 6137/10711 [1:14:24<38:16,  1.99it/s] 57%|█████▋    | 6138/10711 [1:14:25<37:59,  2.01it/s] 57%|█████▋    | 6139/10711 [1:14:25<37:46,  2.02it/s] 57%|█████▋    | 6140/10711 [1:14:26<37:38,  2.02it/s] 57%|█████▋    | 6141/10711 [1:14:26<37:36,  2.03it/s] 57%|█████▋    | 6142/10711 [1:14:27<37:37,  2.02it/s] 57%|█████▋    | 6143/10711 [1:14:27<37:32,  2.03it/s] 57%|█████▋    | 6144/10711 [1:14:28<37:29,  2.03it/s] 57%|█████▋    | 6145/10711 [1:14:28<37:25,  2.03it/s] 57%|█████▋    | 6146/10711 [1:14:29<37:23,  2.03it/s] 57%|█████▋    | 6147/10711 [1:14:29<37:21,  2.04it/s] 57%|█████▋    | 6148/10711 [1:14:30<37:22,  2.03it/s] 57%|█████▋    | 6149/10711 [1:14:30<37:23,  2.03it/s] 57%|█████▋    | 6150/10711 [1:14:31<37:22,  2.03it/s]                                                      {'loss': 3.4821, 'grad_norm': 0.19655190408229828, 'learning_rate': 0.00045792399214787156, 'epoch': 0.57}
 57%|█████▋    | 6150/10711 [1:14:31<37:22,  2.03it/s] 57%|█████▋    | 6151/10711 [1:14:31<37:24,  2.03it/s] 57%|█████▋    | 6152/10711 [1:14:32<37:20,  2.04it/s] 57%|█████▋    | 6153/10711 [1:14:32<37:21,  2.03it/s] 57%|█████▋    | 6154/10711 [1:14:33<37:19,  2.03it/s] 57%|█████▋    | 6155/10711 [1:14:33<37:16,  2.04it/s] 57%|█████▋    | 6156/10711 [1:14:34<37:17,  2.04it/s] 57%|█████▋    | 6157/10711 [1:14:34<37:18,  2.03it/s] 57%|█████▋    | 6158/10711 [1:14:35<37:19,  2.03it/s] 58%|█████▊    | 6159/10711 [1:14:35<37:19,  2.03it/s] 58%|█████▊    | 6160/10711 [1:14:36<37:17,  2.03it/s] 58%|█████▊    | 6161/10711 [1:14:36<37:19,  2.03it/s] 58%|█████▊    | 6162/10711 [1:14:37<37:17,  2.03it/s] 58%|█████▊    | 6163/10711 [1:14:37<38:11,  1.98it/s] 58%|█████▊    | 6164/10711 [1:14:38<37:55,  2.00it/s] 58%|█████▊    | 6165/10711 [1:14:38<37:41,  2.01it/s] 58%|█████▊    | 6166/10711 [1:14:39<37:32,  2.02it/s] 58%|█████▊    | 6167/10711 [1:14:39<37:28,  2.02it/s] 58%|█████▊    | 6168/10711 [1:14:40<37:21,  2.03it/s] 58%|█████▊    | 6169/10711 [1:14:40<37:17,  2.03it/s] 58%|█████▊    | 6170/10711 [1:14:41<38:16,  1.98it/s] 58%|█████▊    | 6171/10711 [1:14:41<37:55,  1.99it/s] 58%|█████▊    | 6172/10711 [1:14:42<37:41,  2.01it/s] 58%|█████▊    | 6173/10711 [1:14:42<37:31,  2.02it/s] 58%|█████▊    | 6174/10711 [1:14:43<37:22,  2.02it/s] 58%|█████▊    | 6175/10711 [1:14:43<38:20,  1.97it/s]                                                      {'loss': 3.4836, 'grad_norm': 0.19858160614967346, 'learning_rate': 0.00045386582026834903, 'epoch': 0.58}
 58%|█████▊    | 6175/10711 [1:14:43<38:20,  1.97it/s] 58%|█████▊    | 6176/10711 [1:14:44<38:03,  1.99it/s] 58%|█████▊    | 6177/10711 [1:14:44<37:48,  2.00it/s] 58%|█████▊    | 6178/10711 [1:14:45<37:37,  2.01it/s] 58%|█████▊    | 6179/10711 [1:14:45<37:25,  2.02it/s] 58%|█████▊    | 6180/10711 [1:14:46<38:24,  1.97it/s] 58%|█████▊    | 6181/10711 [1:14:46<37:57,  1.99it/s] 58%|█████▊    | 6182/10711 [1:14:47<37:38,  2.01it/s] 58%|█████▊    | 6183/10711 [1:14:47<37:27,  2.01it/s] 58%|█████▊    | 6184/10711 [1:14:48<37:20,  2.02it/s] 58%|█████▊    | 6185/10711 [1:14:48<37:11,  2.03it/s] 58%|█████▊    | 6186/10711 [1:14:48<37:11,  2.03it/s] 58%|█████▊    | 6187/10711 [1:14:49<37:09,  2.03it/s] 58%|█████▊    | 6188/10711 [1:14:49<37:07,  2.03it/s] 58%|█████▊    | 6189/10711 [1:14:50<37:02,  2.03it/s] 58%|█████▊    | 6190/10711 [1:14:50<37:01,  2.04it/s] 58%|█████▊    | 6191/10711 [1:14:51<37:01,  2.03it/s] 58%|█████▊    | 6192/10711 [1:14:51<37:00,  2.03it/s] 58%|█████▊    | 6193/10711 [1:14:52<37:03,  2.03it/s] 58%|█████▊    | 6194/10711 [1:14:52<37:03,  2.03it/s] 58%|█████▊    | 6195/10711 [1:14:53<37:00,  2.03it/s] 58%|█████▊    | 6196/10711 [1:14:53<37:02,  2.03it/s] 58%|█████▊    | 6197/10711 [1:14:54<36:58,  2.04it/s] 58%|█████▊    | 6198/10711 [1:14:54<36:59,  2.03it/s] 58%|█████▊    | 6199/10711 [1:14:55<37:00,  2.03it/s] 58%|█████▊    | 6200/10711 [1:14:55<36:57,  2.03it/s]                                                      {'loss': 3.4889, 'grad_norm': 0.22061102092266083, 'learning_rate': 0.0004498107113126979, 'epoch': 0.58}
 58%|█████▊    | 6200/10711 [1:14:55<36:57,  2.03it/s] 58%|█████▊    | 6201/10711 [1:14:56<37:02,  2.03it/s] 58%|█████▊    | 6202/10711 [1:14:56<36:59,  2.03it/s] 58%|█████▊    | 6203/10711 [1:14:57<36:59,  2.03it/s] 58%|█████▊    | 6204/10711 [1:14:57<36:56,  2.03it/s] 58%|█████▊    | 6205/10711 [1:14:58<36:56,  2.03it/s] 58%|█████▊    | 6206/10711 [1:14:58<36:53,  2.04it/s] 58%|█████▊    | 6207/10711 [1:14:59<36:50,  2.04it/s] 58%|█████▊    | 6208/10711 [1:14:59<36:50,  2.04it/s] 58%|█████▊    | 6209/10711 [1:15:00<36:49,  2.04it/s] 58%|█████▊    | 6210/10711 [1:15:00<36:47,  2.04it/s] 58%|█████▊    | 6211/10711 [1:15:01<36:49,  2.04it/s] 58%|█████▊    | 6212/10711 [1:15:01<36:50,  2.04it/s] 58%|█████▊    | 6213/10711 [1:15:02<36:51,  2.03it/s] 58%|█████▊    | 6214/10711 [1:15:02<36:53,  2.03it/s] 58%|█████▊    | 6215/10711 [1:15:03<38:09,  1.96it/s] 58%|█████▊    | 6216/10711 [1:15:03<38:37,  1.94it/s] 58%|█████▊    | 6217/10711 [1:15:04<38:06,  1.97it/s] 58%|█████▊    | 6218/10711 [1:15:04<37:41,  1.99it/s] 58%|█████▊    | 6219/10711 [1:15:05<37:24,  2.00it/s] 58%|█████▊    | 6220/10711 [1:15:05<37:12,  2.01it/s] 58%|█████▊    | 6221/10711 [1:15:06<37:05,  2.02it/s] 58%|█████▊    | 6222/10711 [1:15:06<37:01,  2.02it/s] 58%|█████▊    | 6223/10711 [1:15:07<36:57,  2.02it/s] 58%|█████▊    | 6224/10711 [1:15:07<36:51,  2.03it/s] 58%|█████▊    | 6225/10711 [1:15:08<36:49,  2.03it/s]{'loss': 3.4813, 'grad_norm': 0.19837993383407593, 'learning_rate': 0.0004457589345062539, 'epoch': 0.58}                                                      
 58%|█████▊    | 6225/10711 [1:15:08<36:49,  2.03it/s] 58%|█████▊    | 6226/10711 [1:15:08<36:51,  2.03it/s] 58%|█████▊    | 6227/10711 [1:15:09<36:49,  2.03it/s] 58%|█████▊    | 6228/10711 [1:15:09<36:47,  2.03it/s] 58%|█████▊    | 6229/10711 [1:15:10<36:44,  2.03it/s] 58%|█████▊    | 6230/10711 [1:15:10<36:43,  2.03it/s] 58%|█████▊    | 6231/10711 [1:15:11<36:39,  2.04it/s] 58%|█████▊    | 6232/10711 [1:15:11<36:38,  2.04it/s] 58%|█████▊    | 6233/10711 [1:15:12<36:36,  2.04it/s] 58%|█████▊    | 6234/10711 [1:15:12<36:37,  2.04it/s] 58%|█████▊    | 6235/10711 [1:15:13<36:36,  2.04it/s] 58%|█████▊    | 6236/10711 [1:15:13<36:36,  2.04it/s] 58%|█████▊    | 6237/10711 [1:15:14<36:38,  2.03it/s] 58%|█████▊    | 6238/10711 [1:15:14<36:36,  2.04it/s] 58%|█████▊    | 6239/10711 [1:15:15<36:35,  2.04it/s] 58%|█████▊    | 6240/10711 [1:15:15<36:35,  2.04it/s] 58%|█████▊    | 6241/10711 [1:15:16<36:33,  2.04it/s] 58%|█████▊    | 6242/10711 [1:15:16<36:33,  2.04it/s] 58%|█████▊    | 6243/10711 [1:15:17<36:31,  2.04it/s] 58%|█████▊    | 6244/10711 [1:15:17<36:32,  2.04it/s] 58%|█████▊    | 6245/10711 [1:15:18<36:35,  2.03it/s] 58%|█████▊    | 6246/10711 [1:15:18<36:35,  2.03it/s] 58%|█████▊    | 6247/10711 [1:15:19<36:33,  2.04it/s] 58%|█████▊    | 6248/10711 [1:15:19<36:32,  2.04it/s] 58%|█████▊    | 6249/10711 [1:15:20<36:32,  2.04it/s] 58%|█████▊    | 6250/10711 [1:15:20<36:32,  2.03it/s]                                                      {'loss': 3.4824, 'grad_norm': 0.1968252807855606, 'learning_rate': 0.00044171075885312573, 'epoch': 0.58}
 58%|█████▊    | 6250/10711 [1:15:20<36:32,  2.03it/s] 58%|█████▊    | 6251/10711 [1:15:21<36:34,  2.03it/s] 58%|█████▊    | 6252/10711 [1:15:21<36:33,  2.03it/s] 58%|█████▊    | 6253/10711 [1:15:22<36:29,  2.04it/s] 58%|█████▊    | 6254/10711 [1:15:22<36:29,  2.04it/s] 58%|█████▊    | 6255/10711 [1:15:23<36:28,  2.04it/s] 58%|█████▊    | 6256/10711 [1:15:23<37:29,  1.98it/s] 58%|█████▊    | 6257/10711 [1:15:24<37:10,  2.00it/s] 58%|█████▊    | 6258/10711 [1:15:24<37:56,  1.96it/s] 58%|█████▊    | 6259/10711 [1:15:25<37:31,  1.98it/s] 58%|█████▊    | 6260/10711 [1:15:25<37:11,  1.99it/s] 58%|█████▊    | 6261/10711 [1:15:26<36:57,  2.01it/s] 58%|█████▊    | 6262/10711 [1:15:26<36:52,  2.01it/s] 58%|█████▊    | 6263/10711 [1:15:27<36:41,  2.02it/s] 58%|█████▊    | 6264/10711 [1:15:27<37:44,  1.96it/s] 58%|█████▊    | 6265/10711 [1:15:28<37:19,  1.99it/s] 59%|█████▊    | 6266/10711 [1:15:28<37:01,  2.00it/s] 59%|█████▊    | 6267/10711 [1:15:29<36:47,  2.01it/s] 59%|█████▊    | 6268/10711 [1:15:29<36:38,  2.02it/s] 59%|█████▊    | 6269/10711 [1:15:30<36:32,  2.03it/s] 59%|█████▊    | 6270/10711 [1:15:30<36:31,  2.03it/s] 59%|█████▊    | 6271/10711 [1:15:31<36:27,  2.03it/s] 59%|█████▊    | 6272/10711 [1:15:31<36:25,  2.03it/s] 59%|█████▊    | 6273/10711 [1:15:31<36:23,  2.03it/s] 59%|█████▊    | 6274/10711 [1:15:32<36:20,  2.04it/s] 59%|█████▊    | 6275/10711 [1:15:32<36:22,  2.03it/s]{'loss': 3.4878, 'grad_norm': 0.18961338698863983, 'learning_rate': 0.00043766645311833584, 'epoch': 0.59}
                                                       59%|█████▊    | 6275/10711 [1:15:32<36:22,  2.03it/s] 59%|█████▊    | 6276/10711 [1:15:33<36:23,  2.03it/s] 59%|█████▊    | 6277/10711 [1:15:33<36:21,  2.03it/s] 59%|█████▊    | 6278/10711 [1:15:34<36:20,  2.03it/s] 59%|█████▊    | 6279/10711 [1:15:34<36:20,  2.03it/s] 59%|█████▊    | 6280/10711 [1:15:35<36:17,  2.04it/s] 59%|█████▊    | 6281/10711 [1:15:35<36:18,  2.03it/s] 59%|█████▊    | 6282/10711 [1:15:36<36:18,  2.03it/s] 59%|█████▊    | 6283/10711 [1:15:36<36:15,  2.04it/s] 59%|█████▊    | 6284/10711 [1:15:37<36:16,  2.03it/s] 59%|█████▊    | 6285/10711 [1:15:37<36:16,  2.03it/s] 59%|█████▊    | 6286/10711 [1:15:38<36:13,  2.04it/s] 59%|█████▊    | 6287/10711 [1:15:38<36:12,  2.04it/s] 59%|█████▊    | 6288/10711 [1:15:39<36:12,  2.04it/s] 59%|█████▊    | 6289/10711 [1:15:39<36:13,  2.03it/s] 59%|█████▊    | 6290/10711 [1:15:40<36:11,  2.04it/s] 59%|█████▊    | 6291/10711 [1:15:40<37:08,  1.98it/s] 59%|█████▊    | 6292/10711 [1:15:41<36:51,  2.00it/s] 59%|█████▉    | 6293/10711 [1:15:41<36:37,  2.01it/s] 59%|█████▉    | 6294/10711 [1:15:42<36:28,  2.02it/s] 59%|█████▉    | 6295/10711 [1:15:42<37:22,  1.97it/s] 59%|█████▉    | 6296/10711 [1:15:43<36:59,  1.99it/s] 59%|█████▉    | 6297/10711 [1:15:43<37:54,  1.94it/s] 59%|█████▉    | 6298/10711 [1:15:44<37:21,  1.97it/s] 59%|█████▉    | 6299/10711 [1:15:44<36:59,  1.99it/s] 59%|█████▉    | 6300/10711 [1:15:45<36:43,  2.00it/s]                                                      {'loss': 3.4926, 'grad_norm': 0.19906698167324066, 'learning_rate': 0.0004336262858099761, 'epoch': 0.59}
 59%|█████▉    | 6300/10711 [1:15:45<36:43,  2.00it/s] 59%|█████▉    | 6301/10711 [1:15:45<36:36,  2.01it/s] 59%|█████▉    | 6302/10711 [1:15:46<36:30,  2.01it/s] 59%|█████▉    | 6303/10711 [1:15:46<36:22,  2.02it/s] 59%|█████▉    | 6304/10711 [1:15:47<36:18,  2.02it/s] 59%|█████▉    | 6305/10711 [1:15:47<36:15,  2.03it/s] 59%|█████▉    | 6306/10711 [1:15:48<36:09,  2.03it/s] 59%|█████▉    | 6307/10711 [1:15:48<36:08,  2.03it/s] 59%|█████▉    | 6308/10711 [1:15:49<36:07,  2.03it/s] 59%|█████▉    | 6309/10711 [1:15:49<36:09,  2.03it/s] 59%|█████▉    | 6310/10711 [1:15:50<36:08,  2.03it/s] 59%|█████▉    | 6311/10711 [1:15:50<36:05,  2.03it/s] 59%|█████▉    | 6312/10711 [1:15:51<36:02,  2.03it/s] 59%|█████▉    | 6313/10711 [1:15:51<36:02,  2.03it/s] 59%|█████▉    | 6314/10711 [1:15:52<36:03,  2.03it/s] 59%|█████▉    | 6315/10711 [1:15:52<37:25,  1.96it/s] 59%|█████▉    | 6316/10711 [1:15:53<37:00,  1.98it/s] 59%|█████▉    | 6317/10711 [1:15:53<36:41,  2.00it/s] 59%|█████▉    | 6318/10711 [1:15:54<36:28,  2.01it/s] 59%|█████▉    | 6319/10711 [1:15:54<36:20,  2.01it/s] 59%|█████▉    | 6320/10711 [1:15:55<36:11,  2.02it/s] 59%|█████▉    | 6321/10711 [1:15:55<36:07,  2.03it/s] 59%|█████▉    | 6322/10711 [1:15:56<37:06,  1.97it/s] 59%|█████▉    | 6323/10711 [1:15:56<36:45,  1.99it/s] 59%|█████▉    | 6324/10711 [1:15:57<36:28,  2.00it/s] 59%|█████▉    | 6325/10711 [1:15:57<36:17,  2.01it/s]{'loss': 3.4818, 'grad_norm': 0.2069925218820572, 'learning_rate': 0.0004295905251613817, 'epoch': 0.59}
                                                       59%|█████▉    | 6325/10711 [1:15:57<36:17,  2.01it/s] 59%|█████▉    | 6326/10711 [1:15:58<36:13,  2.02it/s] 59%|█████▉    | 6327/10711 [1:15:58<36:05,  2.02it/s] 59%|█████▉    | 6328/10711 [1:15:59<36:00,  2.03it/s] 59%|█████▉    | 6329/10711 [1:15:59<35:57,  2.03it/s] 59%|█████▉    | 6330/10711 [1:16:00<35:54,  2.03it/s] 59%|█████▉    | 6331/10711 [1:16:00<35:52,  2.04it/s] 59%|█████▉    | 6332/10711 [1:16:01<35:55,  2.03it/s] 59%|█████▉    | 6333/10711 [1:16:01<35:54,  2.03it/s] 59%|█████▉    | 6334/10711 [1:16:02<35:51,  2.03it/s] 59%|█████▉    | 6335/10711 [1:16:02<35:48,  2.04it/s] 59%|█████▉    | 6336/10711 [1:16:03<35:50,  2.03it/s] 59%|█████▉    | 6337/10711 [1:16:03<35:47,  2.04it/s] 59%|█████▉    | 6338/10711 [1:16:04<35:47,  2.04it/s] 59%|█████▉    | 6339/10711 [1:16:04<35:47,  2.04it/s] 59%|█████▉    | 6340/10711 [1:16:05<35:46,  2.04it/s] 59%|█████▉    | 6341/10711 [1:16:05<35:45,  2.04it/s] 59%|█████▉    | 6342/10711 [1:16:06<35:46,  2.04it/s] 59%|█████▉    | 6343/10711 [1:16:06<35:45,  2.04it/s] 59%|█████▉    | 6344/10711 [1:16:07<36:02,  2.02it/s] 59%|█████▉    | 6345/10711 [1:16:07<35:55,  2.03it/s] 59%|█████▉    | 6346/10711 [1:16:08<35:50,  2.03it/s] 59%|█████▉    | 6347/10711 [1:16:08<35:49,  2.03it/s] 59%|█████▉    | 6348/10711 [1:16:09<35:46,  2.03it/s] 59%|█████▉    | 6349/10711 [1:16:09<35:45,  2.03it/s] 59%|█████▉    | 6350/10711 [1:16:10<35:44,  2.03it/s]                                                      {'loss': 3.4734, 'grad_norm': 0.2018202543258667, 'learning_rate': 0.0004255594391133225, 'epoch': 0.59}
 59%|█████▉    | 6350/10711 [1:16:10<35:44,  2.03it/s] 59%|█████▉    | 6351/10711 [1:16:10<35:46,  2.03it/s] 59%|█████▉    | 6352/10711 [1:16:11<35:43,  2.03it/s] 59%|█████▉    | 6353/10711 [1:16:11<35:44,  2.03it/s] 59%|█████▉    | 6354/10711 [1:16:12<37:08,  1.96it/s] 59%|█████▉    | 6355/10711 [1:16:12<36:43,  1.98it/s] 59%|█████▉    | 6356/10711 [1:16:13<37:21,  1.94it/s] 59%|█████▉    | 6357/10711 [1:16:13<36:49,  1.97it/s] 59%|█████▉    | 6358/10711 [1:16:14<36:26,  1.99it/s] 59%|█████▉    | 6359/10711 [1:16:14<36:11,  2.00it/s] 59%|█████▉    | 6360/10711 [1:16:15<35:59,  2.01it/s] 59%|█████▉    | 6361/10711 [1:16:15<35:51,  2.02it/s] 59%|█████▉    | 6362/10711 [1:16:16<35:45,  2.03it/s] 59%|█████▉    | 6363/10711 [1:16:16<35:42,  2.03it/s] 59%|█████▉    | 6364/10711 [1:16:17<35:39,  2.03it/s] 59%|█████▉    | 6365/10711 [1:16:17<35:39,  2.03it/s] 59%|█████▉    | 6366/10711 [1:16:18<35:36,  2.03it/s] 59%|█████▉    | 6367/10711 [1:16:18<36:35,  1.98it/s] 59%|█████▉    | 6368/10711 [1:16:19<36:15,  2.00it/s] 59%|█████▉    | 6369/10711 [1:16:19<36:00,  2.01it/s] 59%|█████▉    | 6370/10711 [1:16:20<35:53,  2.02it/s] 59%|█████▉    | 6371/10711 [1:16:20<35:47,  2.02it/s] 59%|█████▉    | 6372/10711 [1:16:21<35:41,  2.03it/s] 59%|█████▉    | 6373/10711 [1:16:21<35:38,  2.03it/s] 60%|█████▉    | 6374/10711 [1:16:22<35:37,  2.03it/s] 60%|█████▉    | 6375/10711 [1:16:22<35:32,  2.03it/s]{'loss': 3.4734, 'grad_norm': 0.20263656973838806, 'learning_rate': 0.0004215332952962139, 'epoch': 0.6}                                                      
 60%|█████▉    | 6375/10711 [1:16:22<35:32,  2.03it/s] 60%|█████▉    | 6376/10711 [1:16:23<35:35,  2.03it/s] 60%|█████▉    | 6377/10711 [1:16:23<36:32,  1.98it/s] 60%|█████▉    | 6378/10711 [1:16:24<36:14,  1.99it/s] 60%|█████▉    | 6379/10711 [1:16:24<35:58,  2.01it/s] 60%|█████▉    | 6380/10711 [1:16:25<35:47,  2.02it/s] 60%|█████▉    | 6381/10711 [1:16:25<35:41,  2.02it/s] 60%|█████▉    | 6382/10711 [1:16:26<35:36,  2.03it/s] 60%|█████▉    | 6383/10711 [1:16:26<35:31,  2.03it/s] 60%|█████▉    | 6384/10711 [1:16:27<36:31,  1.97it/s] 60%|█████▉    | 6385/10711 [1:16:27<36:10,  1.99it/s] 60%|█████▉    | 6386/10711 [1:16:28<36:33,  1.97it/s] 60%|█████▉    | 6387/10711 [1:16:28<36:12,  1.99it/s] 60%|█████▉    | 6388/10711 [1:16:29<35:59,  2.00it/s] 60%|█████▉    | 6389/10711 [1:16:29<35:47,  2.01it/s] 60%|█████▉    | 6390/10711 [1:16:30<35:40,  2.02it/s] 60%|█████▉    | 6391/10711 [1:16:30<35:36,  2.02it/s] 60%|█████▉    | 6392/10711 [1:16:31<35:29,  2.03it/s] 60%|█████▉    | 6393/10711 [1:16:31<35:24,  2.03it/s] 60%|█████▉    | 6394/10711 [1:16:31<35:21,  2.03it/s] 60%|█████▉    | 6395/10711 [1:16:32<36:14,  1.99it/s] 60%|█████▉    | 6396/10711 [1:16:33<35:56,  2.00it/s] 60%|█████▉    | 6397/10711 [1:16:33<35:44,  2.01it/s] 60%|█████▉    | 6398/10711 [1:16:33<35:37,  2.02it/s] 60%|█████▉    | 6399/10711 [1:16:34<35:32,  2.02it/s] 60%|█████▉    | 6400/10711 [1:16:34<35:28,  2.03it/s]{'loss': 3.4736, 'grad_norm': 0.19653160870075226, 'learning_rate': 0.00041751236101234825, 'epoch': 0.6}
                                                       60%|█████▉    | 6400/10711 [1:16:34<35:28,  2.03it/s] 60%|█████▉    | 6401/10711 [1:16:35<35:30,  2.02it/s] 60%|█████▉    | 6402/10711 [1:16:35<35:23,  2.03it/s] 60%|█████▉    | 6403/10711 [1:16:36<35:23,  2.03it/s] 60%|█████▉    | 6404/10711 [1:16:36<35:18,  2.03it/s] 60%|█████▉    | 6405/10711 [1:16:37<35:15,  2.03it/s] 60%|█████▉    | 6406/10711 [1:16:37<35:16,  2.03it/s] 60%|█████▉    | 6407/10711 [1:16:38<35:16,  2.03it/s] 60%|█████▉    | 6408/10711 [1:16:38<35:14,  2.04it/s] 60%|█████▉    | 6409/10711 [1:16:39<35:14,  2.03it/s] 60%|█████▉    | 6410/10711 [1:16:39<35:15,  2.03it/s] 60%|█████▉    | 6411/10711 [1:16:40<35:11,  2.04it/s] 60%|█████▉    | 6412/10711 [1:16:40<35:10,  2.04it/s] 60%|█████▉    | 6413/10711 [1:16:41<35:14,  2.03it/s] 60%|█████▉    | 6414/10711 [1:16:41<35:10,  2.04it/s] 60%|█████▉    | 6415/10711 [1:16:42<35:08,  2.04it/s] 60%|█████▉    | 6416/10711 [1:16:42<36:57,  1.94it/s] 60%|█████▉    | 6417/10711 [1:16:43<36:21,  1.97it/s] 60%|█████▉    | 6418/10711 [1:16:43<35:58,  1.99it/s] 60%|█████▉    | 6419/10711 [1:16:44<35:45,  2.00it/s] 60%|█████▉    | 6420/10711 [1:16:44<35:31,  2.01it/s] 60%|█████▉    | 6421/10711 [1:16:45<35:23,  2.02it/s] 60%|█████▉    | 6422/10711 [1:16:45<35:19,  2.02it/s] 60%|█████▉    | 6423/10711 [1:16:46<35:13,  2.03it/s] 60%|█████▉    | 6424/10711 [1:16:46<35:13,  2.03it/s] 60%|█████▉    | 6425/10711 [1:16:47<35:13,  2.03it/s]{'loss': 3.4809, 'grad_norm': 0.1947854906320572, 'learning_rate': 0.00041349690321814883, 'epoch': 0.6}                                                      
 60%|█████▉    | 6425/10711 [1:16:47<35:13,  2.03it/s] 60%|█████▉    | 6426/10711 [1:16:47<35:11,  2.03it/s] 60%|██████    | 6427/10711 [1:16:48<35:13,  2.03it/s] 60%|██████    | 6428/10711 [1:16:48<35:45,  2.00it/s] 60%|██████    | 6429/10711 [1:16:49<36:31,  1.95it/s] 60%|██████    | 6430/10711 [1:16:49<36:04,  1.98it/s] 60%|██████    | 6431/10711 [1:16:50<35:43,  2.00it/s] 60%|██████    | 6432/10711 [1:16:50<35:30,  2.01it/s] 60%|██████    | 6433/10711 [1:16:51<35:20,  2.02it/s] 60%|██████    | 6434/10711 [1:16:51<36:11,  1.97it/s] 60%|██████    | 6435/10711 [1:16:52<37:02,  1.92it/s] 60%|██████    | 6436/10711 [1:16:52<36:26,  1.96it/s] 60%|██████    | 6437/10711 [1:16:53<36:00,  1.98it/s] 60%|██████    | 6438/10711 [1:16:53<36:34,  1.95it/s] 60%|██████    | 6439/10711 [1:16:54<36:02,  1.98it/s] 60%|██████    | 6440/10711 [1:16:54<35:44,  1.99it/s] 60%|██████    | 6441/10711 [1:16:55<35:29,  2.01it/s] 60%|██████    | 6442/10711 [1:16:55<35:18,  2.02it/s] 60%|██████    | 6443/10711 [1:16:56<35:13,  2.02it/s] 60%|██████    | 6444/10711 [1:16:56<35:07,  2.02it/s] 60%|██████    | 6445/10711 [1:16:57<35:02,  2.03it/s] 60%|██████    | 6446/10711 [1:16:57<35:03,  2.03it/s] 60%|██████    | 6447/10711 [1:16:58<34:58,  2.03it/s] 60%|██████    | 6448/10711 [1:16:58<34:56,  2.03it/s] 60%|██████    | 6449/10711 [1:16:59<34:56,  2.03it/s] 60%|██████    | 6450/10711 [1:16:59<34:56,  2.03it/s]{'loss': 3.4789, 'grad_norm': 0.19307298958301544, 'learning_rate': 0.0004094871885064455, 'epoch': 0.6}                                                      
 60%|██████    | 6450/10711 [1:16:59<34:56,  2.03it/s] 60%|██████    | 6451/10711 [1:17:00<34:58,  2.03it/s] 60%|██████    | 6452/10711 [1:17:00<35:57,  1.97it/s] 60%|██████    | 6453/10711 [1:17:01<36:33,  1.94it/s] 60%|██████    | 6454/10711 [1:17:01<36:01,  1.97it/s] 60%|██████    | 6455/10711 [1:17:02<35:40,  1.99it/s] 60%|██████    | 6456/10711 [1:17:02<35:25,  2.00it/s] 60%|██████    | 6457/10711 [1:17:03<35:14,  2.01it/s] 60%|██████    | 6458/10711 [1:17:03<35:07,  2.02it/s] 60%|██████    | 6459/10711 [1:17:04<35:01,  2.02it/s] 60%|██████    | 6460/10711 [1:17:04<35:00,  2.02it/s] 60%|██████    | 6461/10711 [1:17:05<34:54,  2.03it/s] 60%|██████    | 6462/10711 [1:17:05<34:51,  2.03it/s] 60%|██████    | 6463/10711 [1:17:06<34:47,  2.03it/s] 60%|██████    | 6464/10711 [1:17:06<34:47,  2.03it/s] 60%|██████    | 6465/10711 [1:17:07<34:46,  2.03it/s] 60%|██████    | 6466/10711 [1:17:07<34:44,  2.04it/s] 60%|██████    | 6467/10711 [1:17:08<34:44,  2.04it/s] 60%|██████    | 6468/10711 [1:17:08<34:46,  2.03it/s] 60%|██████    | 6469/10711 [1:17:09<34:42,  2.04it/s] 60%|██████    | 6470/10711 [1:17:09<34:41,  2.04it/s] 60%|██████    | 6471/10711 [1:17:10<34:41,  2.04it/s] 60%|██████    | 6472/10711 [1:17:10<34:41,  2.04it/s] 60%|██████    | 6473/10711 [1:17:11<34:39,  2.04it/s] 60%|██████    | 6474/10711 [1:17:11<34:40,  2.04it/s] 60%|██████    | 6475/10711 [1:17:12<34:39,  2.04it/s]                                                      {'loss': 3.4751, 'grad_norm': 0.19779536128044128, 'learning_rate': 0.00040548348308877574, 'epoch': 0.6}
 60%|██████    | 6475/10711 [1:17:12<34:39,  2.04it/s] 60%|██████    | 6476/10711 [1:17:12<34:45,  2.03it/s] 60%|██████    | 6477/10711 [1:17:13<34:41,  2.03it/s] 60%|██████    | 6478/10711 [1:17:13<34:40,  2.03it/s] 60%|██████    | 6479/10711 [1:17:14<34:40,  2.03it/s] 60%|██████    | 6480/10711 [1:17:14<34:37,  2.04it/s] 61%|██████    | 6481/10711 [1:17:15<35:26,  1.99it/s] 61%|██████    | 6482/10711 [1:17:15<35:13,  2.00it/s] 61%|██████    | 6483/10711 [1:17:16<35:01,  2.01it/s] 61%|██████    | 6484/10711 [1:17:16<34:49,  2.02it/s] 61%|██████    | 6485/10711 [1:17:17<34:43,  2.03it/s] 61%|██████    | 6486/10711 [1:17:17<34:40,  2.03it/s] 61%|██████    | 6487/10711 [1:17:18<34:38,  2.03it/s] 61%|██████    | 6488/10711 [1:17:18<34:34,  2.04it/s] 61%|██████    | 6489/10711 [1:17:19<34:35,  2.03it/s] 61%|██████    | 6490/10711 [1:17:19<34:33,  2.04it/s] 61%|██████    | 6491/10711 [1:17:20<34:28,  2.04it/s] 61%|██████    | 6492/10711 [1:17:20<34:28,  2.04it/s] 61%|██████    | 6493/10711 [1:17:21<34:30,  2.04it/s] 61%|██████    | 6494/10711 [1:17:21<34:29,  2.04it/s] 61%|██████    | 6495/10711 [1:17:22<34:30,  2.04it/s] 61%|██████    | 6496/10711 [1:17:22<34:30,  2.04it/s] 61%|██████    | 6497/10711 [1:17:23<34:26,  2.04it/s] 61%|██████    | 6498/10711 [1:17:23<34:24,  2.04it/s] 61%|██████    | 6499/10711 [1:17:24<34:53,  2.01it/s] 61%|██████    | 6500/10711 [1:17:24<34:43,  2.02it/s]                                                      {'loss': 3.4753, 'grad_norm': 0.20244117081165314, 'learning_rate': 0.00040148605277770977, 'epoch': 0.61}
 61%|██████    | 6500/10711 [1:17:24<34:43,  2.02it/s] 61%|██████    | 6501/10711 [1:17:25<34:50,  2.01it/s] 61%|██████    | 6502/10711 [1:17:25<34:42,  2.02it/s] 61%|██████    | 6503/10711 [1:17:26<34:34,  2.03it/s] 61%|██████    | 6504/10711 [1:17:26<34:30,  2.03it/s] 61%|██████    | 6505/10711 [1:17:27<34:27,  2.03it/s] 61%|██████    | 6506/10711 [1:17:27<34:24,  2.04it/s] 61%|██████    | 6507/10711 [1:17:27<34:24,  2.04it/s] 61%|██████    | 6508/10711 [1:17:28<34:24,  2.04it/s] 61%|██████    | 6509/10711 [1:17:28<34:21,  2.04it/s] 61%|██████    | 6510/10711 [1:17:29<34:18,  2.04it/s] 61%|██████    | 6511/10711 [1:17:29<34:20,  2.04it/s] 61%|██████    | 6512/10711 [1:17:30<34:23,  2.03it/s] 61%|██████    | 6513/10711 [1:17:30<34:21,  2.04it/s] 61%|██████    | 6514/10711 [1:17:31<34:22,  2.03it/s] 61%|██████    | 6515/10711 [1:17:31<34:21,  2.04it/s] 61%|██████    | 6516/10711 [1:17:32<34:19,  2.04it/s] 61%|██████    | 6517/10711 [1:17:32<34:47,  2.01it/s] 61%|██████    | 6518/10711 [1:17:33<34:37,  2.02it/s] 61%|██████    | 6519/10711 [1:17:33<35:05,  1.99it/s] 61%|██████    | 6520/10711 [1:17:34<34:48,  2.01it/s] 61%|██████    | 6521/10711 [1:17:34<34:42,  2.01it/s] 61%|██████    | 6522/10711 [1:17:35<34:35,  2.02it/s] 61%|██████    | 6523/10711 [1:17:35<34:27,  2.03it/s] 61%|██████    | 6524/10711 [1:17:36<34:24,  2.03it/s] 61%|██████    | 6525/10711 [1:17:36<34:23,  2.03it/s]{'loss': 3.4719, 'grad_norm': 0.19048313796520233, 'learning_rate': 0.0003974951629692034, 'epoch': 0.61}
                                                       61%|██████    | 6525/10711 [1:17:36<34:23,  2.03it/s] 61%|██████    | 6526/10711 [1:17:37<34:20,  2.03it/s] 61%|██████    | 6527/10711 [1:17:37<34:21,  2.03it/s] 61%|██████    | 6528/10711 [1:17:38<34:19,  2.03it/s] 61%|██████    | 6529/10711 [1:17:38<34:17,  2.03it/s] 61%|██████    | 6530/10711 [1:17:39<34:16,  2.03it/s] 61%|██████    | 6531/10711 [1:17:39<34:15,  2.03it/s] 61%|██████    | 6532/10711 [1:17:40<34:14,  2.03it/s] 61%|██████    | 6533/10711 [1:17:40<34:12,  2.04it/s] 61%|██████    | 6534/10711 [1:17:41<34:11,  2.04it/s] 61%|██████    | 6535/10711 [1:17:41<35:02,  1.99it/s] 61%|██████    | 6536/10711 [1:17:42<34:46,  2.00it/s] 61%|██████    | 6537/10711 [1:17:42<34:35,  2.01it/s] 61%|██████    | 6538/10711 [1:17:43<34:27,  2.02it/s] 61%|██████    | 6539/10711 [1:17:43<34:19,  2.03it/s] 61%|██████    | 6540/10711 [1:17:44<34:18,  2.03it/s] 61%|██████    | 6541/10711 [1:17:44<34:39,  2.01it/s] 61%|██████    | 6542/10711 [1:17:45<34:28,  2.02it/s] 61%|██████    | 6543/10711 [1:17:45<34:21,  2.02it/s] 61%|██████    | 6544/10711 [1:17:46<34:47,  2.00it/s] 61%|██████    | 6545/10711 [1:17:46<35:03,  1.98it/s] 61%|██████    | 6546/10711 [1:17:47<34:45,  2.00it/s] 61%|██████    | 6547/10711 [1:17:47<34:33,  2.01it/s] 61%|██████    | 6548/10711 [1:17:48<34:22,  2.02it/s] 61%|██████    | 6549/10711 [1:17:48<34:16,  2.02it/s] 61%|██████    | 6550/10711 [1:17:49<34:12,  2.03it/s]                                                      {'loss': 3.4689, 'grad_norm': 0.19556288421154022, 'learning_rate': 0.00039351107862497777, 'epoch': 0.61}
 61%|██████    | 6550/10711 [1:17:49<34:12,  2.03it/s] 61%|██████    | 6551/10711 [1:17:49<34:11,  2.03it/s] 61%|██████    | 6552/10711 [1:17:50<34:11,  2.03it/s] 61%|██████    | 6553/10711 [1:17:50<34:06,  2.03it/s] 61%|██████    | 6554/10711 [1:17:51<34:07,  2.03it/s] 61%|██████    | 6555/10711 [1:17:51<34:07,  2.03it/s] 61%|██████    | 6556/10711 [1:17:52<34:04,  2.03it/s] 61%|██████    | 6557/10711 [1:17:52<34:05,  2.03it/s] 61%|██████    | 6558/10711 [1:17:53<34:03,  2.03it/s] 61%|██████    | 6559/10711 [1:17:53<34:44,  1.99it/s] 61%|██████    | 6560/10711 [1:17:54<34:28,  2.01it/s] 61%|██████▏   | 6561/10711 [1:17:54<34:21,  2.01it/s] 61%|██████▏   | 6562/10711 [1:17:55<34:12,  2.02it/s] 61%|██████▏   | 6563/10711 [1:17:55<34:06,  2.03it/s] 61%|██████▏   | 6564/10711 [1:17:56<34:05,  2.03it/s] 61%|██████▏   | 6565/10711 [1:17:56<34:01,  2.03it/s] 61%|██████▏   | 6566/10711 [1:17:57<33:59,  2.03it/s] 61%|██████▏   | 6567/10711 [1:17:57<33:58,  2.03it/s] 61%|██████▏   | 6568/10711 [1:17:58<34:19,  2.01it/s] 61%|██████▏   | 6569/10711 [1:17:58<34:35,  2.00it/s] 61%|██████▏   | 6570/10711 [1:17:59<34:26,  2.00it/s] 61%|██████▏   | 6571/10711 [1:17:59<34:19,  2.01it/s] 61%|██████▏   | 6572/10711 [1:18:00<34:12,  2.02it/s] 61%|██████▏   | 6573/10711 [1:18:00<34:05,  2.02it/s] 61%|██████▏   | 6574/10711 [1:18:01<33:58,  2.03it/s] 61%|██████▏   | 6575/10711 [1:18:01<33:55,  2.03it/s]{'loss': 3.4722, 'grad_norm': 0.20506826043128967, 'learning_rate': 0.0003895340642549283, 'epoch': 0.61}
                                                       61%|██████▏   | 6575/10711 [1:18:01<33:55,  2.03it/s] 61%|██████▏   | 6576/10711 [1:18:02<34:30,  2.00it/s] 61%|██████▏   | 6577/10711 [1:18:02<34:18,  2.01it/s] 61%|██████▏   | 6578/10711 [1:18:03<34:10,  2.02it/s] 61%|██████▏   | 6579/10711 [1:18:03<34:05,  2.02it/s] 61%|██████▏   | 6580/10711 [1:18:04<34:01,  2.02it/s] 61%|██████▏   | 6581/10711 [1:18:04<33:57,  2.03it/s] 61%|██████▏   | 6582/10711 [1:18:05<33:52,  2.03it/s] 61%|██████▏   | 6583/10711 [1:18:05<33:50,  2.03it/s] 61%|██████▏   | 6584/10711 [1:18:06<33:49,  2.03it/s] 61%|██████▏   | 6585/10711 [1:18:06<33:46,  2.04it/s] 61%|██████▏   | 6586/10711 [1:18:07<33:46,  2.04it/s] 61%|██████▏   | 6587/10711 [1:18:07<34:37,  1.98it/s] 62%|██████▏   | 6588/10711 [1:18:08<34:21,  2.00it/s] 62%|██████▏   | 6589/10711 [1:18:08<34:07,  2.01it/s] 62%|██████▏   | 6590/10711 [1:18:09<33:58,  2.02it/s] 62%|██████▏   | 6591/10711 [1:18:09<33:54,  2.02it/s] 62%|██████▏   | 6592/10711 [1:18:10<34:14,  2.01it/s] 62%|██████▏   | 6593/10711 [1:18:10<34:01,  2.02it/s] 62%|██████▏   | 6594/10711 [1:18:11<33:54,  2.02it/s] 62%|██████▏   | 6595/10711 [1:18:11<33:51,  2.03it/s] 62%|██████▏   | 6596/10711 [1:18:12<34:21,  2.00it/s] 62%|██████▏   | 6597/10711 [1:18:12<34:09,  2.01it/s] 62%|██████▏   | 6598/10711 [1:18:13<34:00,  2.02it/s] 62%|██████▏   | 6599/10711 [1:18:13<33:52,  2.02it/s] 62%|██████▏   | 6600/10711 [1:18:14<33:48,  2.03it/s]{'loss': 3.4621, 'grad_norm': 0.20388701558113098, 'learning_rate': 0.0003855643838995624, 'epoch': 0.62}
                                                       62%|██████▏   | 6600/10711 [1:18:14<33:48,  2.03it/s] 62%|██████▏   | 6601/10711 [1:18:14<33:49,  2.02it/s] 62%|██████▏   | 6602/10711 [1:18:15<33:44,  2.03it/s] 62%|██████▏   | 6603/10711 [1:18:15<33:43,  2.03it/s] 62%|██████▏   | 6604/10711 [1:18:15<33:42,  2.03it/s] 62%|██████▏   | 6605/10711 [1:18:16<33:40,  2.03it/s] 62%|██████▏   | 6606/10711 [1:18:16<33:38,  2.03it/s] 62%|██████▏   | 6607/10711 [1:18:17<33:38,  2.03it/s] 62%|██████▏   | 6608/10711 [1:18:17<33:36,  2.04it/s] 62%|██████▏   | 6609/10711 [1:18:18<33:35,  2.04it/s] 62%|██████▏   | 6610/10711 [1:18:18<33:59,  2.01it/s] 62%|██████▏   | 6611/10711 [1:18:19<34:14,  2.00it/s] 62%|██████▏   | 6612/10711 [1:18:19<34:00,  2.01it/s] 62%|██████▏   | 6613/10711 [1:18:20<33:53,  2.02it/s] 62%|██████▏   | 6614/10711 [1:18:20<33:46,  2.02it/s] 62%|██████▏   | 6615/10711 [1:18:21<33:39,  2.03it/s] 62%|██████▏   | 6616/10711 [1:18:21<33:36,  2.03it/s] 62%|██████▏   | 6617/10711 [1:18:22<33:34,  2.03it/s] 62%|██████▏   | 6618/10711 [1:18:22<33:30,  2.04it/s] 62%|██████▏   | 6619/10711 [1:18:23<33:50,  2.02it/s] 62%|██████▏   | 6620/10711 [1:18:23<33:41,  2.02it/s] 62%|██████▏   | 6621/10711 [1:18:24<33:38,  2.03it/s] 62%|██████▏   | 6622/10711 [1:18:24<33:36,  2.03it/s] 62%|██████▏   | 6623/10711 [1:18:25<33:35,  2.03it/s] 62%|██████▏   | 6624/10711 [1:18:25<33:32,  2.03it/s] 62%|██████▏   | 6625/10711 [1:18:26<33:31,  2.03it/s]{'loss': 3.4659, 'grad_norm': 0.2016964554786682, 'learning_rate': 0.0003816023011124712, 'epoch': 0.62}                                                      
 62%|██████▏   | 6625/10711 [1:18:26<33:31,  2.03it/s] 62%|██████▏   | 6626/10711 [1:18:26<33:32,  2.03it/s] 62%|██████▏   | 6627/10711 [1:18:27<33:28,  2.03it/s] 62%|██████▏   | 6628/10711 [1:18:27<33:48,  2.01it/s] 62%|██████▏   | 6629/10711 [1:18:28<33:43,  2.02it/s] 62%|██████▏   | 6630/10711 [1:18:28<33:36,  2.02it/s] 62%|██████▏   | 6631/10711 [1:18:29<33:29,  2.03it/s] 62%|██████▏   | 6632/10711 [1:18:29<33:31,  2.03it/s] 62%|██████▏   | 6633/10711 [1:18:30<33:53,  2.01it/s] 62%|██████▏   | 6634/10711 [1:18:30<33:42,  2.02it/s] 62%|██████▏   | 6635/10711 [1:18:31<33:37,  2.02it/s] 62%|██████▏   | 6636/10711 [1:18:31<33:33,  2.02it/s] 62%|██████▏   | 6637/10711 [1:18:32<33:29,  2.03it/s] 62%|██████▏   | 6638/10711 [1:18:32<33:29,  2.03it/s] 62%|██████▏   | 6639/10711 [1:18:33<33:28,  2.03it/s] 62%|██████▏   | 6640/10711 [1:18:33<33:27,  2.03it/s] 62%|██████▏   | 6641/10711 [1:18:34<33:24,  2.03it/s] 62%|██████▏   | 6642/10711 [1:18:34<33:21,  2.03it/s] 62%|██████▏   | 6643/10711 [1:18:35<33:20,  2.03it/s] 62%|██████▏   | 6644/10711 [1:18:35<33:17,  2.04it/s] 62%|██████▏   | 6645/10711 [1:18:36<33:15,  2.04it/s] 62%|██████▏   | 6646/10711 [1:18:36<33:14,  2.04it/s] 62%|██████▏   | 6647/10711 [1:18:37<33:19,  2.03it/s] 62%|██████▏   | 6648/10711 [1:18:37<33:16,  2.03it/s] 62%|██████▏   | 6649/10711 [1:18:38<33:16,  2.03it/s] 62%|██████▏   | 6650/10711 [1:18:38<33:15,  2.03it/s]                                                      {'loss': 3.4607, 'grad_norm': 0.20099641382694244, 'learning_rate': 0.00037764807894283015, 'epoch': 0.62}
 62%|██████▏   | 6650/10711 [1:18:38<33:15,  2.03it/s] 62%|██████▏   | 6651/10711 [1:18:39<33:19,  2.03it/s] 62%|██████▏   | 6652/10711 [1:18:39<33:16,  2.03it/s] 62%|██████▏   | 6653/10711 [1:18:40<33:13,  2.04it/s] 62%|██████▏   | 6654/10711 [1:18:40<33:13,  2.04it/s] 62%|██████▏   | 6655/10711 [1:18:41<33:14,  2.03it/s] 62%|██████▏   | 6656/10711 [1:18:41<33:10,  2.04it/s] 62%|██████▏   | 6657/10711 [1:18:42<33:12,  2.04it/s] 62%|██████▏   | 6658/10711 [1:18:42<33:10,  2.04it/s] 62%|██████▏   | 6659/10711 [1:18:43<33:07,  2.04it/s] 62%|██████▏   | 6660/10711 [1:18:43<33:05,  2.04it/s] 62%|██████▏   | 6661/10711 [1:18:44<33:06,  2.04it/s] 62%|██████▏   | 6662/10711 [1:18:44<33:06,  2.04it/s] 62%|██████▏   | 6663/10711 [1:18:45<33:06,  2.04it/s] 62%|██████▏   | 6664/10711 [1:18:45<33:08,  2.04it/s] 62%|██████▏   | 6665/10711 [1:18:46<33:08,  2.03it/s] 62%|██████▏   | 6666/10711 [1:18:46<33:05,  2.04it/s] 62%|██████▏   | 6667/10711 [1:18:47<33:07,  2.03it/s] 62%|██████▏   | 6668/10711 [1:18:47<33:05,  2.04it/s] 62%|██████▏   | 6669/10711 [1:18:48<33:22,  2.02it/s] 62%|██████▏   | 6670/10711 [1:18:48<33:16,  2.02it/s] 62%|██████▏   | 6671/10711 [1:18:49<33:11,  2.03it/s] 62%|██████▏   | 6672/10711 [1:18:49<33:11,  2.03it/s] 62%|██████▏   | 6673/10711 [1:18:50<33:09,  2.03it/s] 62%|██████▏   | 6674/10711 [1:18:50<33:05,  2.03it/s] 62%|██████▏   | 6675/10711 [1:18:50<33:03,  2.03it/s]                                                      {'loss': 3.4678, 'grad_norm': 0.20027665793895721, 'learning_rate': 0.0003737019799179358, 'epoch': 0.62}
 62%|██████▏   | 6675/10711 [1:18:50<33:03,  2.03it/s] 62%|██████▏   | 6676/10711 [1:18:51<33:04,  2.03it/s] 62%|██████▏   | 6677/10711 [1:18:51<33:03,  2.03it/s] 62%|██████▏   | 6678/10711 [1:18:52<33:01,  2.03it/s] 62%|██████▏   | 6679/10711 [1:18:52<33:00,  2.04it/s] 62%|██████▏   | 6680/10711 [1:18:53<33:04,  2.03it/s] 62%|██████▏   | 6681/10711 [1:18:53<32:58,  2.04it/s] 62%|██████▏   | 6682/10711 [1:18:54<32:58,  2.04it/s] 62%|██████▏   | 6683/10711 [1:18:54<32:58,  2.04it/s] 62%|██████▏   | 6684/10711 [1:18:55<32:56,  2.04it/s] 62%|██████▏   | 6685/10711 [1:18:55<32:56,  2.04it/s] 62%|██████▏   | 6686/10711 [1:18:56<32:56,  2.04it/s] 62%|██████▏   | 6687/10711 [1:18:56<32:55,  2.04it/s] 62%|██████▏   | 6688/10711 [1:18:57<33:00,  2.03it/s] 62%|██████▏   | 6689/10711 [1:18:57<32:58,  2.03it/s] 62%|██████▏   | 6690/10711 [1:18:58<32:56,  2.03it/s] 62%|██████▏   | 6691/10711 [1:18:58<32:56,  2.03it/s] 62%|██████▏   | 6692/10711 [1:18:59<38:15,  1.75it/s] 62%|██████▏   | 6693/10711 [1:19:00<36:37,  1.83it/s] 62%|██████▏   | 6694/10711 [1:19:00<35:30,  1.89it/s] 63%|██████▎   | 6695/10711 [1:19:01<34:41,  1.93it/s] 63%|██████▎   | 6696/10711 [1:19:01<34:05,  1.96it/s] 63%|██████▎   | 6697/10711 [1:19:02<33:42,  1.98it/s] 63%|██████▎   | 6698/10711 [1:19:02<34:03,  1.96it/s] 63%|██████▎   | 6699/10711 [1:19:03<33:42,  1.98it/s] 63%|██████▎   | 6700/10711 [1:19:03<33:25,  2.00it/s]                                                      {'loss': 3.4716, 'grad_norm': 0.19659893214702606, 'learning_rate': 0.00036976426602577565, 'epoch': 0.63}
 63%|██████▎   | 6700/10711 [1:19:03<33:25,  2.00it/s] 63%|██████▎   | 6701/10711 [1:19:04<33:16,  2.01it/s] 63%|██████▎   | 6702/10711 [1:19:04<33:07,  2.02it/s] 63%|██████▎   | 6703/10711 [1:19:05<32:59,  2.02it/s] 63%|██████▎   | 6704/10711 [1:19:05<32:54,  2.03it/s] 63%|██████▎   | 6705/10711 [1:19:06<32:50,  2.03it/s] 63%|██████▎   | 6706/10711 [1:19:06<32:50,  2.03it/s] 63%|██████▎   | 6707/10711 [1:19:07<33:12,  2.01it/s] 63%|██████▎   | 6708/10711 [1:19:07<33:02,  2.02it/s] 63%|██████▎   | 6709/10711 [1:19:07<32:56,  2.02it/s] 63%|██████▎   | 6710/10711 [1:19:08<32:51,  2.03it/s] 63%|██████▎   | 6711/10711 [1:19:08<32:49,  2.03it/s] 63%|██████▎   | 6712/10711 [1:19:09<33:10,  2.01it/s] 63%|██████▎   | 6713/10711 [1:19:09<33:01,  2.02it/s] 63%|██████▎   | 6714/10711 [1:19:10<32:52,  2.03it/s] 63%|██████▎   | 6715/10711 [1:19:10<32:50,  2.03it/s] 63%|██████▎   | 6716/10711 [1:19:11<32:47,  2.03it/s] 63%|██████▎   | 6717/10711 [1:19:11<32:42,  2.04it/s] 63%|██████▎   | 6718/10711 [1:19:12<33:08,  2.01it/s] 63%|██████▎   | 6719/10711 [1:19:12<32:58,  2.02it/s] 63%|██████▎   | 6720/10711 [1:19:13<32:52,  2.02it/s] 63%|██████▎   | 6721/10711 [1:19:13<32:45,  2.03it/s] 63%|██████▎   | 6722/10711 [1:19:14<32:41,  2.03it/s] 63%|██████▎   | 6723/10711 [1:19:14<32:42,  2.03it/s] 63%|██████▎   | 6724/10711 [1:19:15<32:38,  2.04it/s] 63%|██████▎   | 6725/10711 [1:19:15<32:37,  2.04it/s]{'loss': 3.4648, 'grad_norm': 0.20922106504440308, 'learning_rate': 0.00036583519869763437, 'epoch': 0.63}
                                                       63%|██████▎   | 6725/10711 [1:19:15<32:37,  2.04it/s] 63%|██████▎   | 6726/10711 [1:19:16<32:44,  2.03it/s] 63%|██████▎   | 6727/10711 [1:19:16<32:40,  2.03it/s] 63%|██████▎   | 6728/10711 [1:19:17<37:57,  1.75it/s] 63%|██████▎   | 6729/10711 [1:19:18<36:21,  1.83it/s] 63%|██████▎   | 6730/10711 [1:19:18<35:11,  1.89it/s] 63%|██████▎   | 6731/10711 [1:19:19<34:24,  1.93it/s] 63%|██████▎   | 6732/10711 [1:19:19<33:52,  1.96it/s] 63%|██████▎   | 6733/10711 [1:19:20<33:26,  1.98it/s] 63%|██████▎   | 6734/10711 [1:19:20<33:08,  2.00it/s] 63%|██████▎   | 6735/10711 [1:19:21<32:57,  2.01it/s] 63%|██████▎   | 6736/10711 [1:19:21<32:50,  2.02it/s] 63%|██████▎   | 6737/10711 [1:19:22<32:46,  2.02it/s] 63%|██████▎   | 6738/10711 [1:19:22<32:40,  2.03it/s] 63%|██████▎   | 6739/10711 [1:19:23<32:35,  2.03it/s] 63%|██████▎   | 6740/10711 [1:19:23<32:33,  2.03it/s] 63%|██████▎   | 6741/10711 [1:19:24<32:32,  2.03it/s] 63%|██████▎   | 6742/10711 [1:19:24<32:34,  2.03it/s] 63%|██████▎   | 6743/10711 [1:19:25<33:09,  1.99it/s] 63%|██████▎   | 6744/10711 [1:19:25<32:58,  2.01it/s] 63%|██████▎   | 6745/10711 [1:19:26<32:49,  2.01it/s] 63%|██████▎   | 6746/10711 [1:19:26<32:46,  2.02it/s] 63%|██████▎   | 6747/10711 [1:19:26<32:40,  2.02it/s] 63%|██████▎   | 6748/10711 [1:19:27<32:59,  2.00it/s] 63%|██████▎   | 6749/10711 [1:19:27<32:48,  2.01it/s] 63%|██████▎   | 6750/10711 [1:19:28<32:38,  2.02it/s]{'loss': 3.4593, 'grad_norm': 0.197243332862854, 'learning_rate': 0.00036191503879073726, 'epoch': 0.63}
                                                       63%|██████▎   | 6750/10711 [1:19:28<32:38,  2.02it/s] 63%|██████▎   | 6751/10711 [1:19:28<32:36,  2.02it/s] 63%|██████▎   | 6752/10711 [1:19:29<32:35,  2.03it/s] 63%|██████▎   | 6753/10711 [1:19:29<32:28,  2.03it/s] 63%|██████▎   | 6754/10711 [1:19:30<32:28,  2.03it/s] 63%|██████▎   | 6755/10711 [1:19:30<32:26,  2.03it/s] 63%|██████▎   | 6756/10711 [1:19:31<32:22,  2.04it/s] 63%|██████▎   | 6757/10711 [1:19:31<32:19,  2.04it/s] 63%|██████▎   | 6758/10711 [1:19:32<32:18,  2.04it/s] 63%|██████▎   | 6759/10711 [1:19:32<32:19,  2.04it/s] 63%|██████▎   | 6760/10711 [1:19:33<32:18,  2.04it/s] 63%|██████▎   | 6761/10711 [1:19:33<32:16,  2.04it/s] 63%|██████▎   | 6762/10711 [1:19:34<33:15,  1.98it/s] 63%|██████▎   | 6763/10711 [1:19:34<32:57,  2.00it/s] 63%|██████▎   | 6764/10711 [1:19:35<32:45,  2.01it/s] 63%|██████▎   | 6765/10711 [1:19:35<32:33,  2.02it/s] 63%|██████▎   | 6766/10711 [1:19:36<32:24,  2.03it/s] 63%|██████▎   | 6767/10711 [1:19:36<32:21,  2.03it/s] 63%|██████▎   | 6768/10711 [1:19:37<32:20,  2.03it/s] 63%|██████▎   | 6769/10711 [1:19:37<32:15,  2.04it/s] 63%|██████▎   | 6770/10711 [1:19:38<32:13,  2.04it/s] 63%|██████▎   | 6771/10711 [1:19:38<32:14,  2.04it/s] 63%|██████▎   | 6772/10711 [1:19:39<32:12,  2.04it/s] 63%|██████▎   | 6773/10711 [1:19:39<32:10,  2.04it/s] 63%|██████▎   | 6774/10711 [1:19:40<32:14,  2.04it/s] 63%|██████▎   | 6775/10711 [1:19:40<32:12,  2.04it/s]                                                      {'loss': 3.4586, 'grad_norm': 0.1934615522623062, 'learning_rate': 0.0003580040465709312, 'epoch': 0.63}
 63%|██████▎   | 6775/10711 [1:19:40<32:12,  2.04it/s] 63%|██████▎   | 6776/10711 [1:19:41<32:13,  2.04it/s] 63%|██████▎   | 6777/10711 [1:19:41<32:15,  2.03it/s] 63%|██████▎   | 6778/10711 [1:19:42<32:12,  2.04it/s] 63%|██████▎   | 6779/10711 [1:19:42<32:09,  2.04it/s] 63%|██████▎   | 6780/10711 [1:19:43<32:08,  2.04it/s] 63%|██████▎   | 6781/10711 [1:19:43<32:10,  2.04it/s] 63%|██████▎   | 6782/10711 [1:19:44<32:06,  2.04it/s] 63%|██████▎   | 6783/10711 [1:19:44<32:45,  2.00it/s] 63%|██████▎   | 6784/10711 [1:19:45<32:33,  2.01it/s] 63%|██████▎   | 6785/10711 [1:19:45<32:26,  2.02it/s] 63%|██████▎   | 6786/10711 [1:19:46<32:18,  2.02it/s] 63%|██████▎   | 6787/10711 [1:19:46<32:11,  2.03it/s] 63%|██████▎   | 6788/10711 [1:19:47<32:08,  2.03it/s] 63%|██████▎   | 6789/10711 [1:19:47<32:07,  2.04it/s] 63%|██████▎   | 6790/10711 [1:19:48<32:05,  2.04it/s] 63%|██████▎   | 6791/10711 [1:19:48<32:02,  2.04it/s] 63%|██████▎   | 6792/10711 [1:19:49<32:03,  2.04it/s] 63%|██████▎   | 6793/10711 [1:19:49<32:03,  2.04it/s] 63%|██████▎   | 6794/10711 [1:19:50<32:04,  2.04it/s] 63%|██████▎   | 6795/10711 [1:19:50<32:06,  2.03it/s] 63%|██████▎   | 6796/10711 [1:19:51<32:03,  2.04it/s] 63%|██████▎   | 6797/10711 [1:19:51<32:02,  2.04it/s] 63%|██████▎   | 6798/10711 [1:19:52<32:43,  1.99it/s] 63%|██████▎   | 6799/10711 [1:19:52<32:29,  2.01it/s] 63%|██████▎   | 6800/10711 [1:19:53<32:20,  2.02it/s]                                                      {'loss': 3.4574, 'grad_norm': 0.1979428380727768, 'learning_rate': 0.0003541024816954052, 'epoch': 0.63}
 63%|██████▎   | 6800/10711 [1:19:53<32:20,  2.02it/s] 63%|██████▎   | 6801/10711 [1:19:53<32:14,  2.02it/s] 64%|██████▎   | 6802/10711 [1:19:54<32:09,  2.03it/s] 64%|██████▎   | 6803/10711 [1:19:54<32:07,  2.03it/s] 64%|██████▎   | 6804/10711 [1:19:55<32:00,  2.03it/s] 64%|██████▎   | 6805/10711 [1:19:55<31:57,  2.04it/s] 64%|██████▎   | 6806/10711 [1:19:56<32:00,  2.03it/s] 64%|██████▎   | 6807/10711 [1:19:56<32:00,  2.03it/s] 64%|██████▎   | 6808/10711 [1:19:57<31:56,  2.04it/s] 64%|██████▎   | 6809/10711 [1:19:57<31:58,  2.03it/s] 64%|██████▎   | 6810/10711 [1:19:58<31:55,  2.04it/s] 64%|██████▎   | 6811/10711 [1:19:58<31:52,  2.04it/s] 64%|██████▎   | 6812/10711 [1:19:59<31:53,  2.04it/s] 64%|██████▎   | 6813/10711 [1:19:59<31:54,  2.04it/s] 64%|██████▎   | 6814/10711 [1:20:00<31:51,  2.04it/s] 64%|██████▎   | 6815/10711 [1:20:00<31:51,  2.04it/s] 64%|██████▎   | 6816/10711 [1:20:00<31:52,  2.04it/s] 64%|██████▎   | 6817/10711 [1:20:01<31:50,  2.04it/s] 64%|██████▎   | 6818/10711 [1:20:01<31:47,  2.04it/s] 64%|██████▎   | 6819/10711 [1:20:02<31:46,  2.04it/s] 64%|██████▎   | 6820/10711 [1:20:02<31:46,  2.04it/s] 64%|██████▎   | 6821/10711 [1:20:03<31:48,  2.04it/s] 64%|██████▎   | 6822/10711 [1:20:03<31:53,  2.03it/s] 64%|██████▎   | 6823/10711 [1:20:04<31:52,  2.03it/s] 64%|██████▎   | 6824/10711 [1:20:04<31:49,  2.04it/s] 64%|██████▎   | 6825/10711 [1:20:05<31:48,  2.04it/s]{'loss': 3.4608, 'grad_norm': 0.1976417750120163, 'learning_rate': 0.00035021060319545175, 'epoch': 0.64}
                                                       64%|██████▎   | 6825/10711 [1:20:05<31:48,  2.04it/s] 64%|██████▎   | 6826/10711 [1:20:05<32:14,  2.01it/s] 64%|██████▎   | 6827/10711 [1:20:06<32:02,  2.02it/s] 64%|██████▎   | 6828/10711 [1:20:06<31:55,  2.03it/s] 64%|██████▍   | 6829/10711 [1:20:07<31:53,  2.03it/s] 64%|██████▍   | 6830/10711 [1:20:07<31:50,  2.03it/s] 64%|██████▍   | 6831/10711 [1:20:08<31:46,  2.04it/s] 64%|██████▍   | 6832/10711 [1:20:08<31:44,  2.04it/s] 64%|██████▍   | 6833/10711 [1:20:09<31:44,  2.04it/s] 64%|██████▍   | 6834/10711 [1:20:09<31:43,  2.04it/s] 64%|██████▍   | 6835/10711 [1:20:10<31:40,  2.04it/s] 64%|██████▍   | 6836/10711 [1:20:10<31:43,  2.04it/s] 64%|██████▍   | 6837/10711 [1:20:11<31:41,  2.04it/s] 64%|██████▍   | 6838/10711 [1:20:11<31:39,  2.04it/s] 64%|██████▍   | 6839/10711 [1:20:12<31:40,  2.04it/s] 64%|██████▍   | 6840/10711 [1:20:12<31:40,  2.04it/s] 64%|██████▍   | 6841/10711 [1:20:13<32:01,  2.01it/s] 64%|██████▍   | 6842/10711 [1:20:13<31:56,  2.02it/s] 64%|██████▍   | 6843/10711 [1:20:14<31:51,  2.02it/s] 64%|██████▍   | 6844/10711 [1:20:14<31:45,  2.03it/s] 64%|██████▍   | 6845/10711 [1:20:15<31:44,  2.03it/s] 64%|██████▍   | 6846/10711 [1:20:15<32:21,  1.99it/s] 64%|██████▍   | 6847/10711 [1:20:16<32:08,  2.00it/s] 64%|██████▍   | 6848/10711 [1:20:16<31:57,  2.02it/s] 64%|██████▍   | 6849/10711 [1:20:17<31:50,  2.02it/s] 64%|██████▍   | 6850/10711 [1:20:17<31:46,  2.03it/s]                                                      {'loss': 3.4491, 'grad_norm': 0.20352689921855927, 'learning_rate': 0.00034632866945926853, 'epoch': 0.64}
 64%|██████▍   | 6850/10711 [1:20:17<31:46,  2.03it/s] 64%|██████▍   | 6851/10711 [1:20:18<31:43,  2.03it/s] 64%|██████▍   | 6852/10711 [1:20:18<31:40,  2.03it/s] 64%|██████▍   | 6853/10711 [1:20:19<31:37,  2.03it/s] 64%|██████▍   | 6854/10711 [1:20:19<31:36,  2.03it/s] 64%|██████▍   | 6855/10711 [1:20:20<31:34,  2.04it/s] 64%|██████▍   | 6856/10711 [1:20:20<31:35,  2.03it/s] 64%|██████▍   | 6857/10711 [1:20:21<31:32,  2.04it/s] 64%|██████▍   | 6858/10711 [1:20:21<31:32,  2.04it/s] 64%|██████▍   | 6859/10711 [1:20:22<31:32,  2.04it/s] 64%|██████▍   | 6860/10711 [1:20:22<31:31,  2.04it/s] 64%|██████▍   | 6861/10711 [1:20:23<31:28,  2.04it/s] 64%|██████▍   | 6862/10711 [1:20:23<31:27,  2.04it/s] 64%|██████▍   | 6863/10711 [1:20:24<31:26,  2.04it/s] 64%|██████▍   | 6864/10711 [1:20:24<31:30,  2.04it/s] 64%|██████▍   | 6865/10711 [1:20:25<31:26,  2.04it/s] 64%|██████▍   | 6866/10711 [1:20:25<31:26,  2.04it/s] 64%|██████▍   | 6867/10711 [1:20:26<31:25,  2.04it/s] 64%|██████▍   | 6868/10711 [1:20:26<31:25,  2.04it/s] 64%|██████▍   | 6869/10711 [1:20:27<31:24,  2.04it/s] 64%|██████▍   | 6870/10711 [1:20:27<31:22,  2.04it/s] 64%|██████▍   | 6871/10711 [1:20:28<31:24,  2.04it/s] 64%|██████▍   | 6872/10711 [1:20:28<31:25,  2.04it/s] 64%|██████▍   | 6873/10711 [1:20:29<31:24,  2.04it/s] 64%|██████▍   | 6874/10711 [1:20:29<31:23,  2.04it/s] 64%|██████▍   | 6875/10711 [1:20:30<31:22,  2.04it/s]{'loss': 3.4613, 'grad_norm': 0.1930222362279892, 'learning_rate': 0.0003424569382148044, 'epoch': 0.64}                                                      
 64%|██████▍   | 6875/10711 [1:20:30<31:22,  2.04it/s] 64%|██████▍   | 6876/10711 [1:20:30<31:28,  2.03it/s] 64%|██████▍   | 6877/10711 [1:20:31<31:24,  2.03it/s] 64%|██████▍   | 6878/10711 [1:20:31<31:42,  2.02it/s] 64%|██████▍   | 6879/10711 [1:20:32<31:35,  2.02it/s] 64%|██████▍   | 6880/10711 [1:20:32<31:33,  2.02it/s] 64%|██████▍   | 6881/10711 [1:20:32<31:30,  2.03it/s] 64%|██████▍   | 6882/10711 [1:20:33<31:27,  2.03it/s] 64%|██████▍   | 6883/10711 [1:20:33<31:25,  2.03it/s] 64%|██████▍   | 6884/10711 [1:20:34<31:46,  2.01it/s] 64%|██████▍   | 6885/10711 [1:20:34<31:36,  2.02it/s] 64%|██████▍   | 6886/10711 [1:20:35<31:29,  2.02it/s] 64%|██████▍   | 6887/10711 [1:20:35<31:27,  2.03it/s] 64%|██████▍   | 6888/10711 [1:20:36<31:44,  2.01it/s] 64%|██████▍   | 6889/10711 [1:20:36<31:34,  2.02it/s] 64%|██████▍   | 6890/10711 [1:20:37<31:52,  2.00it/s] 64%|██████▍   | 6891/10711 [1:20:37<31:41,  2.01it/s] 64%|██████▍   | 6892/10711 [1:20:38<31:31,  2.02it/s] 64%|██████▍   | 6893/10711 [1:20:38<31:26,  2.02it/s] 64%|██████▍   | 6894/10711 [1:20:39<31:22,  2.03it/s] 64%|██████▍   | 6895/10711 [1:20:39<31:17,  2.03it/s] 64%|██████▍   | 6896/10711 [1:20:40<31:15,  2.03it/s] 64%|██████▍   | 6897/10711 [1:20:40<31:17,  2.03it/s] 64%|██████▍   | 6898/10711 [1:20:41<31:13,  2.03it/s] 64%|██████▍   | 6899/10711 [1:20:41<31:12,  2.04it/s] 64%|██████▍   | 6900/10711 [1:20:42<31:12,  2.03it/s]                                                      {'loss': 3.4534, 'grad_norm': 0.20716817677021027, 'learning_rate': 0.00033859566651264783, 'epoch': 0.64}
 64%|██████▍   | 6900/10711 [1:20:42<31:12,  2.03it/s] 64%|██████▍   | 6901/10711 [1:20:42<31:12,  2.03it/s] 64%|██████▍   | 6902/10711 [1:20:43<31:13,  2.03it/s] 64%|██████▍   | 6903/10711 [1:20:43<31:11,  2.03it/s] 64%|██████▍   | 6904/10711 [1:20:44<32:12,  1.97it/s] 64%|██████▍   | 6905/10711 [1:20:44<31:53,  1.99it/s] 64%|██████▍   | 6906/10711 [1:20:45<32:21,  1.96it/s] 64%|██████▍   | 6907/10711 [1:20:45<31:59,  1.98it/s] 64%|██████▍   | 6908/10711 [1:20:46<31:42,  2.00it/s] 65%|██████▍   | 6909/10711 [1:20:46<31:30,  2.01it/s] 65%|██████▍   | 6910/10711 [1:20:47<31:24,  2.02it/s] 65%|██████▍   | 6911/10711 [1:20:47<31:19,  2.02it/s] 65%|██████▍   | 6912/10711 [1:20:48<31:13,  2.03it/s] 65%|██████▍   | 6913/10711 [1:20:48<31:09,  2.03it/s] 65%|██████▍   | 6914/10711 [1:20:49<31:07,  2.03it/s] 65%|██████▍   | 6915/10711 [1:20:49<31:05,  2.03it/s] 65%|██████▍   | 6916/10711 [1:20:50<31:05,  2.03it/s] 65%|██████▍   | 6917/10711 [1:20:50<31:04,  2.03it/s] 65%|██████▍   | 6918/10711 [1:20:51<31:04,  2.03it/s] 65%|██████▍   | 6919/10711 [1:20:51<31:06,  2.03it/s] 65%|██████▍   | 6920/10711 [1:20:52<31:04,  2.03it/s] 65%|██████▍   | 6921/10711 [1:20:52<31:01,  2.04it/s] 65%|██████▍   | 6922/10711 [1:20:53<31:06,  2.03it/s] 65%|██████▍   | 6923/10711 [1:20:53<31:05,  2.03it/s] 65%|██████▍   | 6924/10711 [1:20:54<31:04,  2.03it/s] 65%|██████▍   | 6925/10711 [1:20:54<31:01,  2.03it/s]{'loss': 3.4497, 'grad_norm': 0.19785843789577484, 'learning_rate': 0.00033474511070896127, 'epoch': 0.65}
                                                       65%|██████▍   | 6925/10711 [1:20:54<31:01,  2.03it/s] 65%|██████▍   | 6926/10711 [1:20:55<31:02,  2.03it/s] 65%|██████▍   | 6927/10711 [1:20:55<31:01,  2.03it/s] 65%|██████▍   | 6928/10711 [1:20:56<30:59,  2.03it/s] 65%|██████▍   | 6929/10711 [1:20:56<30:57,  2.04it/s] 65%|██████▍   | 6930/10711 [1:20:57<30:59,  2.03it/s] 65%|██████▍   | 6931/10711 [1:20:57<30:54,  2.04it/s] 65%|██████▍   | 6932/10711 [1:20:58<30:54,  2.04it/s] 65%|██████▍   | 6933/10711 [1:20:58<30:54,  2.04it/s] 65%|██████▍   | 6934/10711 [1:20:59<30:54,  2.04it/s] 65%|██████▍   | 6935/10711 [1:20:59<30:53,  2.04it/s] 65%|██████▍   | 6936/10711 [1:21:00<30:52,  2.04it/s] 65%|██████▍   | 6937/10711 [1:21:00<30:52,  2.04it/s] 65%|██████▍   | 6938/10711 [1:21:01<30:53,  2.04it/s] 65%|██████▍   | 6939/10711 [1:21:01<30:54,  2.03it/s] 65%|██████▍   | 6940/10711 [1:21:02<30:54,  2.03it/s] 65%|██████▍   | 6941/10711 [1:21:02<30:51,  2.04it/s] 65%|██████▍   | 6942/10711 [1:21:03<30:51,  2.04it/s] 65%|██████▍   | 6943/10711 [1:21:03<30:51,  2.04it/s] 65%|██████▍   | 6944/10711 [1:21:04<30:48,  2.04it/s] 65%|██████▍   | 6945/10711 [1:21:04<30:48,  2.04it/s] 65%|██████▍   | 6946/10711 [1:21:05<30:49,  2.04it/s] 65%|██████▍   | 6947/10711 [1:21:05<30:48,  2.04it/s] 65%|██████▍   | 6948/10711 [1:21:06<30:46,  2.04it/s] 65%|██████▍   | 6949/10711 [1:21:06<30:45,  2.04it/s] 65%|██████▍   | 6950/10711 [1:21:07<30:46,  2.04it/s]{'loss': 3.4552, 'grad_norm': 0.19621871411800385, 'learning_rate': 0.00033090552644846104, 'epoch': 0.65}                                                      
 65%|██████▍   | 6950/10711 [1:21:07<30:46,  2.04it/s] 65%|██████▍   | 6951/10711 [1:21:07<30:51,  2.03it/s] 65%|██████▍   | 6952/10711 [1:21:08<30:51,  2.03it/s] 65%|██████▍   | 6953/10711 [1:21:08<31:28,  1.99it/s] 65%|██████▍   | 6954/10711 [1:21:09<31:14,  2.00it/s] 65%|██████▍   | 6955/10711 [1:21:09<31:06,  2.01it/s] 65%|██████▍   | 6956/10711 [1:21:10<30:59,  2.02it/s] 65%|██████▍   | 6957/10711 [1:21:10<30:53,  2.03it/s] 65%|██████▍   | 6958/10711 [1:21:11<30:50,  2.03it/s] 65%|██████▍   | 6959/10711 [1:21:11<30:47,  2.03it/s] 65%|██████▍   | 6960/10711 [1:21:11<30:44,  2.03it/s] 65%|██████▍   | 6961/10711 [1:21:12<31:16,  2.00it/s] 65%|██████▍   | 6962/10711 [1:21:13<31:25,  1.99it/s] 65%|██████▌   | 6963/10711 [1:21:13<31:11,  2.00it/s] 65%|██████▌   | 6964/10711 [1:21:13<31:00,  2.01it/s] 65%|██████▌   | 6965/10711 [1:21:14<30:56,  2.02it/s] 65%|██████▌   | 6966/10711 [1:21:14<30:50,  2.02it/s] 65%|██████▌   | 6967/10711 [1:21:15<30:46,  2.03it/s] 65%|██████▌   | 6968/10711 [1:21:15<30:45,  2.03it/s] 65%|██████▌   | 6969/10711 [1:21:16<30:43,  2.03it/s] 65%|██████▌   | 6970/10711 [1:21:16<30:39,  2.03it/s] 65%|██████▌   | 6971/10711 [1:21:17<30:38,  2.03it/s] 65%|██████▌   | 6972/10711 [1:21:17<30:38,  2.03it/s] 65%|██████▌   | 6973/10711 [1:21:18<30:56,  2.01it/s] 65%|██████▌   | 6974/10711 [1:21:18<30:49,  2.02it/s] 65%|██████▌   | 6975/10711 [1:21:19<30:44,  2.03it/s]{'loss': 3.4457, 'grad_norm': 0.1982337087392807, 'learning_rate': 0.0003270771686474446, 'epoch': 0.65}
                                                       65%|██████▌   | 6975/10711 [1:21:19<30:44,  2.03it/s] 65%|██████▌   | 6976/10711 [1:21:19<30:43,  2.03it/s] 65%|██████▌   | 6977/10711 [1:21:20<30:41,  2.03it/s] 65%|██████▌   | 6978/10711 [1:21:20<30:39,  2.03it/s] 65%|██████▌   | 6979/10711 [1:21:21<30:35,  2.03it/s] 65%|██████▌   | 6980/10711 [1:21:21<30:34,  2.03it/s] 65%|██████▌   | 6981/10711 [1:21:22<30:34,  2.03it/s] 65%|██████▌   | 6982/10711 [1:21:22<30:31,  2.04it/s] 65%|██████▌   | 6983/10711 [1:21:23<30:31,  2.04it/s] 65%|██████▌   | 6984/10711 [1:21:23<30:31,  2.04it/s] 65%|██████▌   | 6985/10711 [1:21:24<30:28,  2.04it/s] 65%|██████▌   | 6986/10711 [1:21:24<30:31,  2.03it/s] 65%|██████▌   | 6987/10711 [1:21:25<30:29,  2.04it/s] 65%|██████▌   | 6988/10711 [1:21:25<30:31,  2.03it/s] 65%|██████▌   | 6989/10711 [1:21:26<30:31,  2.03it/s] 65%|██████▌   | 6990/10711 [1:21:26<30:29,  2.03it/s] 65%|██████▌   | 6991/10711 [1:21:27<30:27,  2.04it/s] 65%|██████▌   | 6992/10711 [1:21:27<30:24,  2.04it/s] 65%|██████▌   | 6993/10711 [1:21:28<30:25,  2.04it/s] 65%|██████▌   | 6994/10711 [1:21:28<30:23,  2.04it/s] 65%|██████▌   | 6995/10711 [1:21:29<30:24,  2.04it/s] 65%|██████▌   | 6996/10711 [1:21:29<30:25,  2.03it/s] 65%|██████▌   | 6997/10711 [1:21:30<30:24,  2.04it/s] 65%|██████▌   | 6998/10711 [1:21:30<30:23,  2.04it/s] 65%|██████▌   | 6999/10711 [1:21:31<30:22,  2.04it/s] 65%|██████▌   | 7000/10711 [1:21:31<30:22,  2.04it/s]{'loss': 3.4524, 'grad_norm': 0.1948539912700653, 'learning_rate': 0.0003232602914768665, 'epoch': 0.65}
                                                       65%|██████▌   | 7000/10711 [1:21:31<30:22,  2.04it/s] 65%|██████▌   | 7001/10711 [1:21:32<30:23,  2.03it/s] 65%|██████▌   | 7002/10711 [1:21:32<30:21,  2.04it/s] 65%|██████▌   | 7003/10711 [1:21:33<30:22,  2.03it/s] 65%|██████▌   | 7004/10711 [1:21:33<30:19,  2.04it/s] 65%|██████▌   | 7005/10711 [1:21:34<30:18,  2.04it/s] 65%|██████▌   | 7006/10711 [1:21:34<30:17,  2.04it/s] 65%|██████▌   | 7007/10711 [1:21:35<30:19,  2.04it/s] 65%|██████▌   | 7008/10711 [1:21:35<30:18,  2.04it/s] 65%|██████▌   | 7009/10711 [1:21:36<30:16,  2.04it/s] 65%|██████▌   | 7010/10711 [1:21:36<30:14,  2.04it/s] 65%|██████▌   | 7011/10711 [1:21:37<30:16,  2.04it/s] 65%|██████▌   | 7012/10711 [1:21:37<30:14,  2.04it/s] 65%|██████▌   | 7013/10711 [1:21:38<30:12,  2.04it/s] 65%|██████▌   | 7014/10711 [1:21:38<30:40,  2.01it/s] 65%|██████▌   | 7015/10711 [1:21:39<30:29,  2.02it/s] 66%|██████▌   | 7016/10711 [1:21:39<30:43,  2.00it/s] 66%|██████▌   | 7017/10711 [1:21:40<30:34,  2.01it/s] 66%|██████▌   | 7018/10711 [1:21:40<30:27,  2.02it/s] 66%|██████▌   | 7019/10711 [1:21:41<30:59,  1.99it/s] 66%|██████▌   | 7020/10711 [1:21:41<30:44,  2.00it/s] 66%|██████▌   | 7021/10711 [1:21:42<30:34,  2.01it/s] 66%|██████▌   | 7022/10711 [1:21:42<30:27,  2.02it/s] 66%|██████▌   | 7023/10711 [1:21:43<30:22,  2.02it/s] 66%|██████▌   | 7024/10711 [1:21:43<30:18,  2.03it/s] 66%|██████▌   | 7025/10711 [1:21:44<30:16,  2.03it/s]{'loss': 3.4525, 'grad_norm': 0.19961653649806976, 'learning_rate': 0.0003194551483454633, 'epoch': 0.66}
                                                       66%|██████▌   | 7025/10711 [1:21:44<30:16,  2.03it/s] 66%|██████▌   | 7026/10711 [1:21:44<30:23,  2.02it/s] 66%|██████▌   | 7027/10711 [1:21:45<30:20,  2.02it/s] 66%|██████▌   | 7028/10711 [1:21:45<30:16,  2.03it/s] 66%|██████▌   | 7029/10711 [1:21:46<30:34,  2.01it/s] 66%|██████▌   | 7030/10711 [1:21:46<30:26,  2.02it/s] 66%|██████▌   | 7031/10711 [1:21:47<30:19,  2.02it/s] 66%|██████▌   | 7032/10711 [1:21:47<30:13,  2.03it/s] 66%|██████▌   | 7033/10711 [1:21:47<30:09,  2.03it/s] 66%|██████▌   | 7034/10711 [1:21:48<30:10,  2.03it/s] 66%|██████▌   | 7035/10711 [1:21:48<30:06,  2.03it/s] 66%|██████▌   | 7036/10711 [1:21:49<30:06,  2.03it/s] 66%|██████▌   | 7037/10711 [1:21:49<30:06,  2.03it/s] 66%|██████▌   | 7038/10711 [1:21:50<30:03,  2.04it/s] 66%|██████▌   | 7039/10711 [1:21:50<30:04,  2.04it/s] 66%|██████▌   | 7040/10711 [1:21:51<30:04,  2.03it/s] 66%|██████▌   | 7041/10711 [1:21:51<30:02,  2.04it/s] 66%|██████▌   | 7042/10711 [1:21:52<30:00,  2.04it/s] 66%|██████▌   | 7043/10711 [1:21:52<30:02,  2.04it/s] 66%|██████▌   | 7044/10711 [1:21:53<30:04,  2.03it/s] 66%|██████▌   | 7045/10711 [1:21:53<30:05,  2.03it/s] 66%|██████▌   | 7046/10711 [1:21:54<30:05,  2.03it/s] 66%|██████▌   | 7047/10711 [1:21:54<30:03,  2.03it/s] 66%|██████▌   | 7048/10711 [1:21:55<30:01,  2.03it/s] 66%|██████▌   | 7049/10711 [1:21:55<30:01,  2.03it/s] 66%|██████▌   | 7050/10711 [1:21:56<29:59,  2.03it/s]                                                      {'loss': 3.4383, 'grad_norm': 0.19855161011219025, 'learning_rate': 0.00031566199188292975, 'epoch': 0.66}
 66%|██████▌   | 7050/10711 [1:21:56<29:59,  2.03it/s] 66%|██████▌   | 7051/10711 [1:21:56<30:00,  2.03it/s] 66%|██████▌   | 7052/10711 [1:21:57<29:58,  2.03it/s] 66%|██████▌   | 7053/10711 [1:21:57<29:56,  2.04it/s] 66%|██████▌   | 7054/10711 [1:21:58<30:16,  2.01it/s] 66%|██████▌   | 7055/10711 [1:21:58<30:09,  2.02it/s] 66%|██████▌   | 7056/10711 [1:21:59<30:04,  2.03it/s] 66%|██████▌   | 7057/10711 [1:21:59<30:01,  2.03it/s] 66%|██████▌   | 7058/10711 [1:22:00<29:58,  2.03it/s] 66%|██████▌   | 7059/10711 [1:22:00<29:57,  2.03it/s] 66%|██████▌   | 7060/10711 [1:22:01<29:55,  2.03it/s] 66%|██████▌   | 7061/10711 [1:22:01<29:53,  2.04it/s] 66%|██████▌   | 7062/10711 [1:22:02<29:52,  2.04it/s] 66%|██████▌   | 7063/10711 [1:22:02<29:51,  2.04it/s] 66%|██████▌   | 7064/10711 [1:22:03<29:52,  2.03it/s] 66%|██████▌   | 7065/10711 [1:22:03<29:49,  2.04it/s] 66%|██████▌   | 7066/10711 [1:22:04<29:49,  2.04it/s] 66%|██████▌   | 7067/10711 [1:22:04<29:51,  2.03it/s] 66%|██████▌   | 7068/10711 [1:22:05<29:48,  2.04it/s] 66%|██████▌   | 7069/10711 [1:22:05<29:46,  2.04it/s] 66%|██████▌   | 7070/10711 [1:22:06<29:46,  2.04it/s] 66%|██████▌   | 7071/10711 [1:22:06<29:47,  2.04it/s] 66%|██████▌   | 7072/10711 [1:22:07<30:43,  1.97it/s] 66%|██████▌   | 7073/10711 [1:22:07<30:25,  1.99it/s] 66%|██████▌   | 7074/10711 [1:22:08<30:14,  2.00it/s] 66%|██████▌   | 7075/10711 [1:22:08<30:05,  2.01it/s]{'loss': 3.4494, 'grad_norm': 0.19911406934261322, 'learning_rate': 0.00031188107392314535, 'epoch': 0.66}                                                      
 66%|██████▌   | 7075/10711 [1:22:08<30:05,  2.01it/s] 66%|██████▌   | 7076/10711 [1:22:09<30:02,  2.02it/s] 66%|██████▌   | 7077/10711 [1:22:09<29:59,  2.02it/s] 66%|██████▌   | 7078/10711 [1:22:10<29:53,  2.03it/s] 66%|██████▌   | 7079/10711 [1:22:10<29:49,  2.03it/s] 66%|██████▌   | 7080/10711 [1:22:11<29:48,  2.03it/s] 66%|██████▌   | 7081/10711 [1:22:11<29:47,  2.03it/s] 66%|██████▌   | 7082/10711 [1:22:12<29:44,  2.03it/s] 66%|██████▌   | 7083/10711 [1:22:12<29:42,  2.04it/s] 66%|██████▌   | 7084/10711 [1:22:13<29:43,  2.03it/s] 66%|██████▌   | 7085/10711 [1:22:13<29:41,  2.04it/s] 66%|██████▌   | 7086/10711 [1:22:14<29:41,  2.04it/s] 66%|██████▌   | 7087/10711 [1:22:14<29:41,  2.03it/s] 66%|██████▌   | 7088/10711 [1:22:15<29:39,  2.04it/s] 66%|██████▌   | 7089/10711 [1:22:15<29:37,  2.04it/s] 66%|██████▌   | 7090/10711 [1:22:16<29:38,  2.04it/s] 66%|██████▌   | 7091/10711 [1:22:16<29:36,  2.04it/s] 66%|██████▌   | 7092/10711 [1:22:17<29:35,  2.04it/s] 66%|██████▌   | 7093/10711 [1:22:17<29:38,  2.03it/s] 66%|██████▌   | 7094/10711 [1:22:18<29:37,  2.03it/s] 66%|██████▌   | 7095/10711 [1:22:18<29:36,  2.04it/s] 66%|██████▌   | 7096/10711 [1:22:19<29:35,  2.04it/s] 66%|██████▋   | 7097/10711 [1:22:19<29:36,  2.03it/s] 66%|██████▋   | 7098/10711 [1:22:20<29:33,  2.04it/s] 66%|██████▋   | 7099/10711 [1:22:20<29:33,  2.04it/s] 66%|██████▋   | 7100/10711 [1:22:20<29:32,  2.04it/s]{'loss': 3.4519, 'grad_norm': 0.19625750184059143, 'learning_rate': 0.000308112645487456, 'epoch': 0.66}
                                                       66%|██████▋   | 7100/10711 [1:22:20<29:32,  2.04it/s] 66%|██████▋   | 7101/10711 [1:22:21<29:33,  2.04it/s] 66%|██████▋   | 7102/10711 [1:22:21<29:33,  2.03it/s] 66%|██████▋   | 7103/10711 [1:22:22<30:30,  1.97it/s] 66%|██████▋   | 7104/10711 [1:22:23<30:12,  1.99it/s] 66%|██████▋   | 7105/10711 [1:22:23<29:59,  2.00it/s] 66%|██████▋   | 7106/10711 [1:22:23<29:47,  2.02it/s] 66%|██████▋   | 7107/10711 [1:22:24<29:43,  2.02it/s] 66%|██████▋   | 7108/10711 [1:22:24<29:38,  2.03it/s] 66%|██████▋   | 7109/10711 [1:22:25<29:32,  2.03it/s] 66%|██████▋   | 7110/10711 [1:22:25<29:32,  2.03it/s] 66%|██████▋   | 7111/10711 [1:22:26<29:30,  2.03it/s] 66%|██████▋   | 7112/10711 [1:22:26<29:27,  2.04it/s] 66%|██████▋   | 7113/10711 [1:22:27<29:27,  2.04it/s] 66%|██████▋   | 7114/10711 [1:22:27<29:27,  2.03it/s] 66%|██████▋   | 7115/10711 [1:22:28<29:24,  2.04it/s] 66%|██████▋   | 7116/10711 [1:22:28<29:24,  2.04it/s] 66%|██████▋   | 7117/10711 [1:22:29<29:25,  2.04it/s] 66%|██████▋   | 7118/10711 [1:22:29<29:23,  2.04it/s] 66%|██████▋   | 7119/10711 [1:22:30<29:24,  2.04it/s] 66%|██████▋   | 7120/10711 [1:22:30<29:25,  2.03it/s] 66%|██████▋   | 7121/10711 [1:22:31<29:24,  2.03it/s] 66%|██████▋   | 7122/10711 [1:22:31<29:21,  2.04it/s] 67%|██████▋   | 7123/10711 [1:22:32<29:22,  2.04it/s] 67%|██████▋   | 7124/10711 [1:22:32<29:21,  2.04it/s] 67%|██████▋   | 7125/10711 [1:22:33<29:52,  2.00it/s]                                                      {'loss': 3.4469, 'grad_norm': 0.19974246621131897, 'learning_rate': 0.00030435695676800725, 'epoch': 0.67}
 67%|██████▋   | 7125/10711 [1:22:33<29:52,  2.00it/s] 67%|██████▋   | 7126/10711 [1:22:33<29:43,  2.01it/s] 67%|██████▋   | 7127/10711 [1:22:34<29:37,  2.02it/s] 67%|██████▋   | 7128/10711 [1:22:34<29:32,  2.02it/s] 67%|██████▋   | 7129/10711 [1:22:35<29:27,  2.03it/s] 67%|██████▋   | 7130/10711 [1:22:35<29:24,  2.03it/s] 67%|██████▋   | 7131/10711 [1:22:36<29:23,  2.03it/s] 67%|██████▋   | 7132/10711 [1:22:36<29:20,  2.03it/s] 67%|██████▋   | 7133/10711 [1:22:37<30:02,  1.99it/s] 67%|██████▋   | 7134/10711 [1:22:37<29:48,  2.00it/s] 67%|██████▋   | 7135/10711 [1:22:38<29:37,  2.01it/s] 67%|██████▋   | 7136/10711 [1:22:38<29:30,  2.02it/s] 67%|██████▋   | 7137/10711 [1:22:39<29:23,  2.03it/s] 67%|██████▋   | 7138/10711 [1:22:39<29:42,  2.00it/s] 67%|██████▋   | 7139/10711 [1:22:40<29:34,  2.01it/s] 67%|██████▋   | 7140/10711 [1:22:40<29:27,  2.02it/s] 67%|██████▋   | 7141/10711 [1:22:41<29:21,  2.03it/s] 67%|██████▋   | 7142/10711 [1:22:41<29:18,  2.03it/s] 67%|██████▋   | 7143/10711 [1:22:42<29:16,  2.03it/s] 67%|██████▋   | 7144/10711 [1:22:42<29:14,  2.03it/s] 67%|██████▋   | 7145/10711 [1:22:43<29:13,  2.03it/s] 67%|██████▋   | 7146/10711 [1:22:43<29:12,  2.03it/s] 67%|██████▋   | 7147/10711 [1:22:44<29:11,  2.03it/s] 67%|██████▋   | 7148/10711 [1:22:44<29:11,  2.03it/s] 67%|██████▋   | 7149/10711 [1:22:45<29:08,  2.04it/s] 67%|██████▋   | 7150/10711 [1:22:45<29:07,  2.04it/s]{'loss': 3.4441, 'grad_norm': 0.19883887469768524, 'learning_rate': 0.0003006142571111341, 'epoch': 0.67}
                                                       67%|██████▋   | 7150/10711 [1:22:45<29:07,  2.04it/s] 67%|██████▋   | 7151/10711 [1:22:46<29:11,  2.03it/s] 67%|██████▋   | 7152/10711 [1:22:46<29:09,  2.03it/s] 67%|██████▋   | 7153/10711 [1:22:47<29:09,  2.03it/s] 67%|██████▋   | 7154/10711 [1:22:47<29:08,  2.03it/s] 67%|██████▋   | 7155/10711 [1:22:48<29:09,  2.03it/s] 67%|██████▋   | 7156/10711 [1:22:48<29:30,  2.01it/s] 67%|██████▋   | 7157/10711 [1:22:49<29:23,  2.02it/s] 67%|██████▋   | 7158/10711 [1:22:49<29:17,  2.02it/s] 67%|██████▋   | 7159/10711 [1:22:50<29:12,  2.03it/s] 67%|██████▋   | 7160/10711 [1:22:50<29:09,  2.03it/s] 67%|██████▋   | 7161/10711 [1:22:51<29:06,  2.03it/s] 67%|██████▋   | 7162/10711 [1:22:51<29:06,  2.03it/s] 67%|██████▋   | 7163/10711 [1:22:52<29:06,  2.03it/s] 67%|██████▋   | 7164/10711 [1:22:52<29:24,  2.01it/s] 67%|██████▋   | 7165/10711 [1:22:53<29:16,  2.02it/s] 67%|██████▋   | 7166/10711 [1:22:53<29:11,  2.02it/s] 67%|██████▋   | 7167/10711 [1:22:54<29:08,  2.03it/s] 67%|██████▋   | 7168/10711 [1:22:54<29:06,  2.03it/s] 67%|██████▋   | 7169/10711 [1:22:55<29:43,  1.99it/s] 67%|██████▋   | 7170/10711 [1:22:55<29:30,  2.00it/s] 67%|██████▋   | 7171/10711 [1:22:56<29:20,  2.01it/s] 67%|██████▋   | 7172/10711 [1:22:56<29:13,  2.02it/s] 67%|██████▋   | 7173/10711 [1:22:57<29:09,  2.02it/s] 67%|██████▋   | 7174/10711 [1:22:57<29:06,  2.03it/s] 67%|██████▋   | 7175/10711 [1:22:58<29:49,  1.98it/s]{'loss': 3.4496, 'grad_norm': 0.21476387977600098, 'learning_rate': 0.00029688479500080615, 'epoch': 0.67}                                                      
 67%|██████▋   | 7175/10711 [1:22:58<29:49,  1.98it/s] 67%|██████▋   | 7176/10711 [1:22:58<29:41,  1.98it/s] 67%|██████▋   | 7177/10711 [1:22:59<29:25,  2.00it/s] 67%|██████▋   | 7178/10711 [1:22:59<29:14,  2.01it/s] 67%|██████▋   | 7179/10711 [1:23:00<29:12,  2.02it/s] 67%|██████▋   | 7180/10711 [1:23:00<29:06,  2.02it/s] 67%|██████▋   | 7181/10711 [1:23:01<29:00,  2.03it/s] 67%|██████▋   | 7182/10711 [1:23:01<28:59,  2.03it/s] 67%|██████▋   | 7183/10711 [1:23:02<28:56,  2.03it/s] 67%|██████▋   | 7184/10711 [1:23:02<28:54,  2.03it/s] 67%|██████▋   | 7185/10711 [1:23:03<28:53,  2.03it/s] 67%|██████▋   | 7186/10711 [1:23:03<28:54,  2.03it/s] 67%|██████▋   | 7187/10711 [1:23:03<28:52,  2.03it/s] 67%|██████▋   | 7188/10711 [1:23:04<28:51,  2.03it/s] 67%|██████▋   | 7189/10711 [1:23:04<28:50,  2.04it/s] 67%|██████▋   | 7190/10711 [1:23:05<28:48,  2.04it/s] 67%|██████▋   | 7191/10711 [1:23:05<28:49,  2.04it/s] 67%|██████▋   | 7192/10711 [1:23:06<28:49,  2.03it/s] 67%|██████▋   | 7193/10711 [1:23:06<28:46,  2.04it/s] 67%|██████▋   | 7194/10711 [1:23:07<28:46,  2.04it/s] 67%|██████▋   | 7195/10711 [1:23:07<28:46,  2.04it/s] 67%|██████▋   | 7196/10711 [1:23:08<28:46,  2.04it/s] 67%|██████▋   | 7197/10711 [1:23:08<28:46,  2.04it/s] 67%|██████▋   | 7198/10711 [1:23:09<29:05,  2.01it/s] 67%|██████▋   | 7199/10711 [1:23:09<28:58,  2.02it/s] 67%|██████▋   | 7200/10711 [1:23:10<28:53,  2.02it/s]{'loss': 3.4449, 'grad_norm': 0.20223601162433624, 'learning_rate': 0.00029316881804213095, 'epoch': 0.67}
                                                       67%|██████▋   | 7200/10711 [1:23:10<28:53,  2.02it/s] 67%|██████▋   | 7201/10711 [1:23:10<28:52,  2.03it/s] 67%|██████▋   | 7202/10711 [1:23:11<28:50,  2.03it/s] 67%|██████▋   | 7203/10711 [1:23:11<28:49,  2.03it/s] 67%|██████▋   | 7204/10711 [1:23:12<28:45,  2.03it/s] 67%|██████▋   | 7205/10711 [1:23:12<28:43,  2.03it/s] 67%|██████▋   | 7206/10711 [1:23:13<28:43,  2.03it/s] 67%|██████▋   | 7207/10711 [1:23:13<28:44,  2.03it/s] 67%|██████▋   | 7208/10711 [1:23:14<28:40,  2.04it/s] 67%|██████▋   | 7209/10711 [1:23:14<28:40,  2.04it/s] 67%|██████▋   | 7210/10711 [1:23:15<28:41,  2.03it/s] 67%|██████▋   | 7211/10711 [1:23:15<28:41,  2.03it/s] 67%|██████▋   | 7212/10711 [1:23:16<28:43,  2.03it/s] 67%|██████▋   | 7213/10711 [1:23:16<28:42,  2.03it/s] 67%|██████▋   | 7214/10711 [1:23:17<28:42,  2.03it/s] 67%|██████▋   | 7215/10711 [1:23:17<28:41,  2.03it/s] 67%|██████▋   | 7216/10711 [1:23:18<28:40,  2.03it/s] 67%|██████▋   | 7217/10711 [1:23:18<28:41,  2.03it/s] 67%|██████▋   | 7218/10711 [1:23:19<28:39,  2.03it/s] 67%|██████▋   | 7219/10711 [1:23:19<28:41,  2.03it/s] 67%|██████▋   | 7220/10711 [1:23:20<29:02,  2.00it/s] 67%|██████▋   | 7221/10711 [1:23:20<28:55,  2.01it/s] 67%|██████▋   | 7222/10711 [1:23:21<28:48,  2.02it/s] 67%|██████▋   | 7223/10711 [1:23:21<28:41,  2.03it/s] 67%|██████▋   | 7224/10711 [1:23:22<28:39,  2.03it/s] 67%|██████▋   | 7225/10711 [1:23:22<28:37,  2.03it/s]                                                      {'loss': 3.445, 'grad_norm': 0.20138955116271973, 'learning_rate': 0.00028946657294491454, 'epoch': 0.67}
 67%|██████▋   | 7225/10711 [1:23:22<28:37,  2.03it/s] 67%|██████▋   | 7226/10711 [1:23:23<28:35,  2.03it/s] 67%|██████▋   | 7227/10711 [1:23:23<28:33,  2.03it/s] 67%|██████▋   | 7228/10711 [1:23:24<28:34,  2.03it/s] 67%|██████▋   | 7229/10711 [1:23:24<28:33,  2.03it/s] 68%|██████▊   | 7230/10711 [1:23:25<28:33,  2.03it/s] 68%|██████▊   | 7231/10711 [1:23:25<28:32,  2.03it/s] 68%|██████▊   | 7232/10711 [1:23:26<28:30,  2.03it/s] 68%|██████▊   | 7233/10711 [1:23:26<28:29,  2.03it/s] 68%|██████▊   | 7234/10711 [1:23:27<28:30,  2.03it/s] 68%|██████▊   | 7235/10711 [1:23:27<28:29,  2.03it/s] 68%|██████▊   | 7236/10711 [1:23:28<28:29,  2.03it/s] 68%|██████▊   | 7237/10711 [1:23:28<28:28,  2.03it/s] 68%|██████▊   | 7238/10711 [1:23:29<28:28,  2.03it/s] 68%|██████▊   | 7239/10711 [1:23:29<28:27,  2.03it/s] 68%|██████▊   | 7240/10711 [1:23:30<28:27,  2.03it/s] 68%|██████▊   | 7241/10711 [1:23:30<28:27,  2.03it/s] 68%|██████▊   | 7242/10711 [1:23:31<28:25,  2.03it/s] 68%|██████▊   | 7243/10711 [1:23:31<28:24,  2.03it/s] 68%|██████▊   | 7244/10711 [1:23:32<28:23,  2.04it/s] 68%|██████▊   | 7245/10711 [1:23:32<28:23,  2.04it/s] 68%|██████▊   | 7246/10711 [1:23:33<28:27,  2.03it/s] 68%|██████▊   | 7247/10711 [1:23:33<28:21,  2.04it/s] 68%|██████▊   | 7248/10711 [1:23:34<28:20,  2.04it/s] 68%|██████▊   | 7249/10711 [1:23:34<28:19,  2.04it/s] 68%|██████▊   | 7250/10711 [1:23:35<28:18,  2.04it/s]{'loss': 3.4333, 'grad_norm': 0.19253571331501007, 'learning_rate': 0.0002857783055072821, 'epoch': 0.68}
                                                       68%|██████▊   | 7250/10711 [1:23:35<28:18,  2.04it/s] 68%|██████▊   | 7251/10711 [1:23:35<28:22,  2.03it/s] 68%|██████▊   | 7252/10711 [1:23:35<28:19,  2.03it/s] 68%|██████▊   | 7253/10711 [1:23:36<28:19,  2.03it/s] 68%|██████▊   | 7254/10711 [1:23:36<28:38,  2.01it/s] 68%|██████▊   | 7255/10711 [1:23:37<28:32,  2.02it/s] 68%|██████▊   | 7256/10711 [1:23:37<28:26,  2.03it/s] 68%|██████▊   | 7257/10711 [1:23:38<28:23,  2.03it/s] 68%|██████▊   | 7258/10711 [1:23:38<28:20,  2.03it/s] 68%|██████▊   | 7259/10711 [1:23:39<28:20,  2.03it/s] 68%|██████▊   | 7260/10711 [1:23:39<28:18,  2.03it/s] 68%|██████▊   | 7261/10711 [1:23:40<28:43,  2.00it/s] 68%|██████▊   | 7262/10711 [1:23:40<28:31,  2.01it/s] 68%|██████▊   | 7263/10711 [1:23:41<28:42,  2.00it/s] 68%|██████▊   | 7264/10711 [1:23:41<28:36,  2.01it/s] 68%|██████▊   | 7265/10711 [1:23:42<28:28,  2.02it/s] 68%|██████▊   | 7266/10711 [1:23:42<28:21,  2.02it/s] 68%|██████▊   | 7267/10711 [1:23:43<28:19,  2.03it/s] 68%|██████▊   | 7268/10711 [1:23:43<28:16,  2.03it/s] 68%|██████▊   | 7269/10711 [1:23:44<28:14,  2.03it/s] 68%|██████▊   | 7270/10711 [1:23:44<28:10,  2.03it/s] 68%|██████▊   | 7271/10711 [1:23:45<28:11,  2.03it/s] 68%|██████▊   | 7272/10711 [1:23:45<28:09,  2.04it/s] 68%|██████▊   | 7273/10711 [1:23:46<28:10,  2.03it/s] 68%|██████▊   | 7274/10711 [1:23:46<28:10,  2.03it/s] 68%|██████▊   | 7275/10711 [1:23:47<28:09,  2.03it/s]                                                      {'loss': 3.4399, 'grad_norm': 0.19692887365818024, 'learning_rate': 0.0002821042605993589, 'epoch': 0.68}
 68%|██████▊   | 7275/10711 [1:23:47<28:09,  2.03it/s] 68%|██████▊   | 7276/10711 [1:23:47<28:08,  2.03it/s] 68%|██████▊   | 7277/10711 [1:23:48<28:10,  2.03it/s] 68%|██████▊   | 7278/10711 [1:23:48<28:08,  2.03it/s] 68%|██████▊   | 7279/10711 [1:23:49<28:07,  2.03it/s] 68%|██████▊   | 7280/10711 [1:23:49<28:06,  2.03it/s] 68%|██████▊   | 7281/10711 [1:23:50<28:09,  2.03it/s] 68%|██████▊   | 7282/10711 [1:23:50<28:08,  2.03it/s] 68%|██████▊   | 7283/10711 [1:23:51<28:09,  2.03it/s] 68%|██████▊   | 7284/10711 [1:23:51<28:07,  2.03it/s] 68%|██████▊   | 7285/10711 [1:23:52<28:05,  2.03it/s] 68%|██████▊   | 7286/10711 [1:23:52<28:05,  2.03it/s] 68%|██████▊   | 7287/10711 [1:23:53<28:03,  2.03it/s] 68%|██████▊   | 7288/10711 [1:23:53<28:03,  2.03it/s] 68%|██████▊   | 7289/10711 [1:23:54<28:03,  2.03it/s] 68%|██████▊   | 7290/10711 [1:23:54<28:02,  2.03it/s] 68%|██████▊   | 7291/10711 [1:23:55<28:00,  2.04it/s] 68%|██████▊   | 7292/10711 [1:23:55<28:01,  2.03it/s] 68%|██████▊   | 7293/10711 [1:23:56<27:58,  2.04it/s] 68%|██████▊   | 7294/10711 [1:23:56<27:57,  2.04it/s] 68%|██████▊   | 7295/10711 [1:23:57<27:58,  2.03it/s] 68%|██████▊   | 7296/10711 [1:23:57<27:56,  2.04it/s] 68%|██████▊   | 7297/10711 [1:23:58<27:55,  2.04it/s] 68%|██████▊   | 7298/10711 [1:23:58<27:55,  2.04it/s] 68%|██████▊   | 7299/10711 [1:23:59<27:54,  2.04it/s] 68%|██████▊   | 7300/10711 [1:23:59<27:53,  2.04it/s]{'loss': 3.4346, 'grad_norm': 0.19837917387485504, 'learning_rate': 0.00027844468214701366, 'epoch': 0.68}                                                      
 68%|██████▊   | 7300/10711 [1:23:59<27:53,  2.04it/s] 68%|██████▊   | 7301/10711 [1:24:00<27:57,  2.03it/s] 68%|██████▊   | 7302/10711 [1:24:00<28:20,  2.01it/s] 68%|██████▊   | 7303/10711 [1:24:01<28:12,  2.01it/s] 68%|██████▊   | 7304/10711 [1:24:01<28:16,  2.01it/s] 68%|██████▊   | 7305/10711 [1:24:02<28:11,  2.01it/s] 68%|██████▊   | 7306/10711 [1:24:02<28:03,  2.02it/s] 68%|██████▊   | 7307/10711 [1:24:03<28:01,  2.02it/s] 68%|██████▊   | 7308/10711 [1:24:03<27:59,  2.03it/s] 68%|██████▊   | 7309/10711 [1:24:04<27:55,  2.03it/s] 68%|██████▊   | 7310/10711 [1:24:04<27:58,  2.03it/s] 68%|██████▊   | 7311/10711 [1:24:05<27:55,  2.03it/s] 68%|██████▊   | 7312/10711 [1:24:05<27:52,  2.03it/s] 68%|██████▊   | 7313/10711 [1:24:06<27:52,  2.03it/s] 68%|██████▊   | 7314/10711 [1:24:06<27:50,  2.03it/s] 68%|██████▊   | 7315/10711 [1:24:07<27:48,  2.04it/s] 68%|██████▊   | 7316/10711 [1:24:07<27:46,  2.04it/s] 68%|██████▊   | 7317/10711 [1:24:08<28:07,  2.01it/s] 68%|██████▊   | 7318/10711 [1:24:08<28:00,  2.02it/s] 68%|██████▊   | 7319/10711 [1:24:09<27:56,  2.02it/s] 68%|██████▊   | 7320/10711 [1:24:09<27:55,  2.02it/s] 68%|██████▊   | 7321/10711 [1:24:10<27:50,  2.03it/s] 68%|██████▊   | 7322/10711 [1:24:10<27:51,  2.03it/s] 68%|██████▊   | 7323/10711 [1:24:10<27:48,  2.03it/s] 68%|██████▊   | 7324/10711 [1:24:11<27:46,  2.03it/s] 68%|██████▊   | 7325/10711 [1:24:11<27:45,  2.03it/s]                                                      {'loss': 3.4384, 'grad_norm': 0.20307902991771698, 'learning_rate': 0.00027479981311566296, 'epoch': 0.68}
 68%|██████▊   | 7325/10711 [1:24:11<27:45,  2.03it/s] 68%|██████▊   | 7326/10711 [1:24:12<27:45,  2.03it/s] 68%|██████▊   | 7327/10711 [1:24:12<27:44,  2.03it/s] 68%|██████▊   | 7328/10711 [1:24:13<27:43,  2.03it/s] 68%|██████▊   | 7329/10711 [1:24:13<27:42,  2.03it/s] 68%|██████▊   | 7330/10711 [1:24:14<27:42,  2.03it/s] 68%|██████▊   | 7331/10711 [1:24:14<27:42,  2.03it/s] 68%|██████▊   | 7332/10711 [1:24:15<27:40,  2.03it/s] 68%|██████▊   | 7333/10711 [1:24:15<27:38,  2.04it/s] 68%|██████▊   | 7334/10711 [1:24:16<27:41,  2.03it/s] 68%|██████▊   | 7335/10711 [1:24:16<27:39,  2.03it/s] 68%|██████▊   | 7336/10711 [1:24:17<27:39,  2.03it/s] 68%|██████▊   | 7337/10711 [1:24:17<27:46,  2.03it/s] 69%|██████▊   | 7338/10711 [1:24:18<27:45,  2.03it/s] 69%|██████▊   | 7339/10711 [1:24:18<27:41,  2.03it/s] 69%|██████▊   | 7340/10711 [1:24:19<27:39,  2.03it/s] 69%|██████▊   | 7341/10711 [1:24:19<27:39,  2.03it/s] 69%|██████▊   | 7342/10711 [1:24:20<27:36,  2.03it/s] 69%|██████▊   | 7343/10711 [1:24:20<27:40,  2.03it/s] 69%|██████▊   | 7344/10711 [1:24:21<27:37,  2.03it/s] 69%|██████▊   | 7345/10711 [1:24:21<27:35,  2.03it/s] 69%|██████▊   | 7346/10711 [1:24:22<27:34,  2.03it/s] 69%|██████▊   | 7347/10711 [1:24:22<27:33,  2.03it/s] 69%|██████▊   | 7348/10711 [1:24:23<27:32,  2.03it/s] 69%|██████▊   | 7349/10711 [1:24:23<27:31,  2.04it/s] 69%|██████▊   | 7350/10711 [1:24:24<27:31,  2.03it/s]{'loss': 3.4357, 'grad_norm': 0.1925000101327896, 'learning_rate': 0.0002711698954941405, 'epoch': 0.69}
                                                       69%|██████▊   | 7350/10711 [1:24:24<27:31,  2.03it/s] 69%|██████▊   | 7351/10711 [1:24:24<27:33,  2.03it/s] 69%|██████▊   | 7352/10711 [1:24:25<27:32,  2.03it/s] 69%|██████▊   | 7353/10711 [1:24:25<27:31,  2.03it/s] 69%|██████▊   | 7354/10711 [1:24:26<27:29,  2.03it/s] 69%|██████▊   | 7355/10711 [1:24:26<27:29,  2.03it/s] 69%|██████▊   | 7356/10711 [1:24:27<27:28,  2.03it/s] 69%|██████▊   | 7357/10711 [1:24:27<27:27,  2.04it/s] 69%|██████▊   | 7358/10711 [1:24:28<27:28,  2.03it/s] 69%|██████▊   | 7359/10711 [1:24:28<27:28,  2.03it/s] 69%|██████▊   | 7360/10711 [1:24:29<27:28,  2.03it/s] 69%|██████▊   | 7361/10711 [1:24:29<27:27,  2.03it/s] 69%|██████▊   | 7362/10711 [1:24:30<27:24,  2.04it/s] 69%|██████▊   | 7363/10711 [1:24:30<27:23,  2.04it/s] 69%|██████▉   | 7364/10711 [1:24:31<27:23,  2.04it/s] 69%|██████▉   | 7365/10711 [1:24:31<27:22,  2.04it/s] 69%|██████▉   | 7366/10711 [1:24:32<27:21,  2.04it/s] 69%|██████▉   | 7367/10711 [1:24:32<27:20,  2.04it/s] 69%|██████▉   | 7368/10711 [1:24:33<27:22,  2.04it/s] 69%|██████▉   | 7369/10711 [1:24:33<27:21,  2.04it/s] 69%|██████▉   | 7370/10711 [1:24:34<27:20,  2.04it/s] 69%|██████▉   | 7371/10711 [1:24:34<27:20,  2.04it/s] 69%|██████▉   | 7372/10711 [1:24:35<27:18,  2.04it/s] 69%|██████▉   | 7373/10711 [1:24:35<27:18,  2.04it/s] 69%|██████▉   | 7374/10711 [1:24:36<27:19,  2.03it/s] 69%|██████▉   | 7375/10711 [1:24:36<27:21,  2.03it/s]                                                      {'loss': 3.4281, 'grad_norm': 0.19652420282363892, 'learning_rate': 0.0002675551702786324, 'epoch': 0.69}
 69%|██████▉   | 7375/10711 [1:24:36<27:21,  2.03it/s] 69%|██████▉   | 7376/10711 [1:24:37<27:24,  2.03it/s] 69%|██████▉   | 7377/10711 [1:24:37<27:23,  2.03it/s] 69%|██████▉   | 7378/10711 [1:24:38<27:20,  2.03it/s] 69%|██████▉   | 7379/10711 [1:24:38<27:19,  2.03it/s] 69%|██████▉   | 7380/10711 [1:24:39<27:17,  2.03it/s] 69%|██████▉   | 7381/10711 [1:24:39<27:15,  2.04it/s] 69%|██████▉   | 7382/10711 [1:24:40<27:16,  2.03it/s] 69%|██████▉   | 7383/10711 [1:24:40<27:14,  2.04it/s] 69%|██████▉   | 7384/10711 [1:24:40<27:14,  2.04it/s] 69%|██████▉   | 7385/10711 [1:24:41<27:15,  2.03it/s] 69%|██████▉   | 7386/10711 [1:24:41<27:13,  2.04it/s] 69%|██████▉   | 7387/10711 [1:24:42<27:12,  2.04it/s] 69%|██████▉   | 7388/10711 [1:24:42<27:13,  2.03it/s] 69%|██████▉   | 7389/10711 [1:24:43<27:11,  2.04it/s] 69%|██████▉   | 7390/10711 [1:24:43<27:11,  2.04it/s] 69%|██████▉   | 7391/10711 [1:24:44<27:11,  2.03it/s] 69%|██████▉   | 7392/10711 [1:24:44<27:09,  2.04it/s] 69%|██████▉   | 7393/10711 [1:24:45<27:10,  2.03it/s] 69%|██████▉   | 7394/10711 [1:24:45<27:09,  2.04it/s] 69%|██████▉   | 7395/10711 [1:24:46<27:07,  2.04it/s] 69%|██████▉   | 7396/10711 [1:24:46<27:08,  2.04it/s] 69%|██████▉   | 7397/10711 [1:24:47<27:07,  2.04it/s] 69%|██████▉   | 7398/10711 [1:24:47<27:06,  2.04it/s] 69%|██████▉   | 7399/10711 [1:24:48<27:11,  2.03it/s] 69%|██████▉   | 7400/10711 [1:24:49<34:15,  1.61it/s]{'loss': 3.439, 'grad_norm': 0.20893901586532593, 'learning_rate': 0.0002639558774566747, 'epoch': 0.69}
                                                       69%|██████▉   | 7400/10711 [1:24:49<34:15,  1.61it/s] 69%|██████▉   | 7401/10711 [1:24:49<32:08,  1.72it/s] 69%|██████▉   | 7402/10711 [1:24:50<30:37,  1.80it/s] 69%|██████▉   | 7403/10711 [1:24:50<29:31,  1.87it/s] 69%|██████▉   | 7404/10711 [1:24:51<28:48,  1.91it/s] 69%|██████▉   | 7405/10711 [1:24:51<28:17,  1.95it/s] 69%|██████▉   | 7406/10711 [1:24:52<27:53,  1.97it/s] 69%|██████▉   | 7407/10711 [1:24:52<27:40,  1.99it/s] 69%|██████▉   | 7408/10711 [1:24:53<27:30,  2.00it/s] 69%|██████▉   | 7409/10711 [1:24:53<27:23,  2.01it/s] 69%|██████▉   | 7410/10711 [1:24:54<27:16,  2.02it/s] 69%|██████▉   | 7411/10711 [1:24:54<27:11,  2.02it/s] 69%|██████▉   | 7412/10711 [1:24:55<27:09,  2.02it/s] 69%|██████▉   | 7413/10711 [1:24:55<27:04,  2.03it/s] 69%|██████▉   | 7414/10711 [1:24:56<27:01,  2.03it/s] 69%|██████▉   | 7415/10711 [1:24:56<27:00,  2.03it/s] 69%|██████▉   | 7416/10711 [1:24:57<27:00,  2.03it/s] 69%|██████▉   | 7417/10711 [1:24:57<27:54,  1.97it/s] 69%|██████▉   | 7418/10711 [1:24:58<27:36,  1.99it/s] 69%|██████▉   | 7419/10711 [1:24:58<27:42,  1.98it/s] 69%|██████▉   | 7420/10711 [1:24:59<27:28,  2.00it/s] 69%|██████▉   | 7421/10711 [1:24:59<27:17,  2.01it/s] 69%|██████▉   | 7422/10711 [1:25:00<27:07,  2.02it/s] 69%|██████▉   | 7423/10711 [1:25:00<27:05,  2.02it/s] 69%|██████▉   | 7424/10711 [1:25:01<27:00,  2.03it/s] 69%|██████▉   | 7425/10711 [1:25:01<26:56,  2.03it/s]                                                      {'loss': 3.4303, 'grad_norm': 0.2024143487215042, 'learning_rate': 0.0002603722559912227, 'epoch': 0.69}
 69%|██████▉   | 7425/10711 [1:25:01<26:56,  2.03it/s] 69%|██████▉   | 7426/10711 [1:25:02<26:59,  2.03it/s] 69%|██████▉   | 7427/10711 [1:25:02<26:56,  2.03it/s] 69%|██████▉   | 7428/10711 [1:25:03<26:54,  2.03it/s] 69%|██████▉   | 7429/10711 [1:25:03<26:53,  2.03it/s] 69%|██████▉   | 7430/10711 [1:25:04<26:53,  2.03it/s] 69%|██████▉   | 7431/10711 [1:25:04<26:50,  2.04it/s] 69%|██████▉   | 7432/10711 [1:25:05<26:49,  2.04it/s] 69%|██████▉   | 7433/10711 [1:25:05<26:49,  2.04it/s] 69%|██████▉   | 7434/10711 [1:25:06<26:48,  2.04it/s] 69%|██████▉   | 7435/10711 [1:25:06<26:51,  2.03it/s] 69%|██████▉   | 7436/10711 [1:25:07<26:51,  2.03it/s] 69%|██████▉   | 7437/10711 [1:25:07<31:25,  1.74it/s] 69%|██████▉   | 7438/10711 [1:25:08<30:02,  1.82it/s] 69%|██████▉   | 7439/10711 [1:25:08<29:02,  1.88it/s] 69%|██████▉   | 7440/10711 [1:25:09<28:22,  1.92it/s] 69%|██████▉   | 7441/10711 [1:25:09<27:52,  1.95it/s] 69%|██████▉   | 7442/10711 [1:25:10<27:30,  1.98it/s] 69%|██████▉   | 7443/10711 [1:25:10<27:17,  2.00it/s] 69%|██████▉   | 7444/10711 [1:25:11<27:09,  2.00it/s] 70%|██████▉   | 7445/10711 [1:25:11<27:02,  2.01it/s] 70%|██████▉   | 7446/10711 [1:25:12<26:56,  2.02it/s] 70%|██████▉   | 7447/10711 [1:25:12<26:51,  2.02it/s] 70%|██████▉   | 7448/10711 [1:25:13<26:49,  2.03it/s] 70%|██████▉   | 7449/10711 [1:25:13<26:47,  2.03it/s] 70%|██████▉   | 7450/10711 [1:25:14<26:44,  2.03it/s]{'loss': 3.4347, 'grad_norm': 0.2013532519340515, 'learning_rate': 0.0002568045438047839, 'epoch': 0.7}
                                                       70%|██████▉   | 7450/10711 [1:25:14<26:44,  2.03it/s] 70%|██████▉   | 7451/10711 [1:25:14<26:44,  2.03it/s] 70%|██████▉   | 7452/10711 [1:25:15<26:46,  2.03it/s] 70%|██████▉   | 7453/10711 [1:25:15<26:44,  2.03it/s] 70%|██████▉   | 7454/10711 [1:25:16<26:42,  2.03it/s] 70%|██████▉   | 7455/10711 [1:25:16<26:42,  2.03it/s] 70%|██████▉   | 7456/10711 [1:25:17<26:40,  2.03it/s] 70%|██████▉   | 7457/10711 [1:25:17<26:39,  2.03it/s] 70%|██████▉   | 7458/10711 [1:25:18<26:38,  2.04it/s] 70%|██████▉   | 7459/10711 [1:25:18<26:36,  2.04it/s] 70%|██████▉   | 7460/10711 [1:25:19<26:36,  2.04it/s] 70%|██████▉   | 7461/10711 [1:25:19<26:36,  2.04it/s] 70%|██████▉   | 7462/10711 [1:25:20<26:53,  2.01it/s] 70%|██████▉   | 7463/10711 [1:25:20<26:46,  2.02it/s] 70%|██████▉   | 7464/10711 [1:25:21<26:44,  2.02it/s] 70%|██████▉   | 7465/10711 [1:25:21<26:39,  2.03it/s] 70%|██████▉   | 7466/10711 [1:25:22<26:36,  2.03it/s] 70%|██████▉   | 7467/10711 [1:25:22<26:35,  2.03it/s] 70%|██████▉   | 7468/10711 [1:25:23<26:33,  2.03it/s] 70%|██████▉   | 7469/10711 [1:25:23<26:31,  2.04it/s] 70%|██████▉   | 7470/10711 [1:25:24<26:34,  2.03it/s] 70%|██████▉   | 7471/10711 [1:25:24<26:32,  2.03it/s] 70%|██████▉   | 7472/10711 [1:25:25<26:30,  2.04it/s] 70%|██████▉   | 7473/10711 [1:25:25<26:29,  2.04it/s] 70%|██████▉   | 7474/10711 [1:25:26<26:28,  2.04it/s] 70%|██████▉   | 7475/10711 [1:25:26<26:29,  2.04it/s]{'loss': 3.429, 'grad_norm': 0.20353883504867554, 'learning_rate': 0.00025325297776362287, 'epoch': 0.7}
                                                       70%|██████▉   | 7475/10711 [1:25:26<26:29,  2.04it/s] 70%|██████▉   | 7476/10711 [1:25:27<26:30,  2.03it/s] 70%|██████▉   | 7477/10711 [1:25:27<26:28,  2.04it/s] 70%|██████▉   | 7478/10711 [1:25:27<26:29,  2.03it/s] 70%|██████▉   | 7479/10711 [1:25:28<26:28,  2.03it/s] 70%|██████▉   | 7480/10711 [1:25:28<26:27,  2.04it/s] 70%|██████▉   | 7481/10711 [1:25:29<26:25,  2.04it/s] 70%|██████▉   | 7482/10711 [1:25:29<26:25,  2.04it/s] 70%|██████▉   | 7483/10711 [1:25:30<26:24,  2.04it/s] 70%|██████▉   | 7484/10711 [1:25:30<26:22,  2.04it/s] 70%|██████▉   | 7485/10711 [1:25:31<26:21,  2.04it/s] 70%|██████▉   | 7486/10711 [1:25:31<26:22,  2.04it/s] 70%|██████▉   | 7487/10711 [1:25:32<26:23,  2.04it/s] 70%|██████▉   | 7488/10711 [1:25:32<26:24,  2.03it/s] 70%|██████▉   | 7489/10711 [1:25:33<26:23,  2.03it/s] 70%|██████▉   | 7490/10711 [1:25:33<26:22,  2.04it/s] 70%|██████▉   | 7491/10711 [1:25:34<26:19,  2.04it/s] 70%|██████▉   | 7492/10711 [1:25:34<26:20,  2.04it/s] 70%|██████▉   | 7493/10711 [1:25:35<26:20,  2.04it/s] 70%|██████▉   | 7494/10711 [1:25:35<26:18,  2.04it/s] 70%|██████▉   | 7495/10711 [1:25:36<26:20,  2.03it/s] 70%|██████▉   | 7496/10711 [1:25:36<26:21,  2.03it/s] 70%|██████▉   | 7497/10711 [1:25:37<26:18,  2.04it/s] 70%|███████   | 7498/10711 [1:25:37<26:19,  2.03it/s] 70%|███████   | 7499/10711 [1:25:38<26:37,  2.01it/s] 70%|███████   | 7500/10711 [1:25:38<26:29,  2.02it/s]{'loss': 3.4294, 'grad_norm': 0.1960192173719406, 'learning_rate': 0.0002497177936620352, 'epoch': 0.7}
                                                       70%|███████   | 7500/10711 [1:25:38<26:29,  2.02it/s] 70%|███████   | 7501/10711 [1:25:39<26:27,  2.02it/s] 70%|███████   | 7502/10711 [1:25:39<26:24,  2.03it/s] 70%|███████   | 7503/10711 [1:25:40<26:22,  2.03it/s] 70%|███████   | 7504/10711 [1:25:40<26:19,  2.03it/s] 70%|███████   | 7505/10711 [1:25:41<26:17,  2.03it/s] 70%|███████   | 7506/10711 [1:25:41<26:13,  2.04it/s] 70%|███████   | 7507/10711 [1:25:42<26:13,  2.04it/s] 70%|███████   | 7508/10711 [1:25:42<26:13,  2.04it/s] 70%|███████   | 7509/10711 [1:25:43<26:12,  2.04it/s] 70%|███████   | 7510/10711 [1:25:43<26:12,  2.04it/s] 70%|███████   | 7511/10711 [1:25:44<26:12,  2.04it/s] 70%|███████   | 7512/10711 [1:25:44<26:10,  2.04it/s] 70%|███████   | 7513/10711 [1:25:45<26:09,  2.04it/s] 70%|███████   | 7514/10711 [1:25:45<26:09,  2.04it/s] 70%|███████   | 7515/10711 [1:25:46<26:09,  2.04it/s] 70%|███████   | 7516/10711 [1:25:46<26:07,  2.04it/s] 70%|███████   | 7517/10711 [1:25:47<26:08,  2.04it/s] 70%|███████   | 7518/10711 [1:25:47<26:07,  2.04it/s] 70%|███████   | 7519/10711 [1:25:48<26:05,  2.04it/s] 70%|███████   | 7520/10711 [1:25:48<26:07,  2.04it/s] 70%|███████   | 7521/10711 [1:25:49<26:07,  2.04it/s] 70%|███████   | 7522/10711 [1:25:49<26:04,  2.04it/s] 70%|███████   | 7523/10711 [1:25:50<26:03,  2.04it/s] 70%|███████   | 7524/10711 [1:25:50<26:04,  2.04it/s] 70%|███████   | 7525/10711 [1:25:51<26:02,  2.04it/s]{'loss': 3.4312, 'grad_norm': 0.20236004889011383, 'learning_rate': 0.00024619922620669216, 'epoch': 0.7}                                                      
 70%|███████   | 7525/10711 [1:25:51<26:02,  2.04it/s] 70%|███████   | 7526/10711 [1:25:51<26:04,  2.04it/s] 70%|███████   | 7527/10711 [1:25:52<26:03,  2.04it/s] 70%|███████   | 7528/10711 [1:25:52<26:02,  2.04it/s] 70%|███████   | 7529/10711 [1:25:53<26:02,  2.04it/s] 70%|███████   | 7530/10711 [1:25:53<26:02,  2.04it/s] 70%|███████   | 7531/10711 [1:25:54<26:01,  2.04it/s] 70%|███████   | 7532/10711 [1:25:54<25:58,  2.04it/s] 70%|███████   | 7533/10711 [1:25:55<25:58,  2.04it/s] 70%|███████   | 7534/10711 [1:25:55<26:00,  2.04it/s] 70%|███████   | 7535/10711 [1:25:55<25:57,  2.04it/s] 70%|███████   | 7536/10711 [1:25:56<25:59,  2.04it/s] 70%|███████   | 7537/10711 [1:25:56<25:58,  2.04it/s] 70%|███████   | 7538/10711 [1:25:57<26:15,  2.01it/s] 70%|███████   | 7539/10711 [1:25:57<26:08,  2.02it/s] 70%|███████   | 7540/10711 [1:25:58<26:04,  2.03it/s] 70%|███████   | 7541/10711 [1:25:58<26:01,  2.03it/s] 70%|███████   | 7542/10711 [1:25:59<25:58,  2.03it/s] 70%|███████   | 7543/10711 [1:25:59<25:58,  2.03it/s] 70%|███████   | 7544/10711 [1:26:00<25:57,  2.03it/s] 70%|███████   | 7545/10711 [1:26:00<25:56,  2.03it/s] 70%|███████   | 7546/10711 [1:26:01<26:11,  2.01it/s] 70%|███████   | 7547/10711 [1:26:01<26:06,  2.02it/s] 70%|███████   | 7548/10711 [1:26:02<26:01,  2.03it/s] 70%|███████   | 7549/10711 [1:26:02<25:58,  2.03it/s] 70%|███████   | 7550/10711 [1:26:03<25:58,  2.03it/s]{'loss': 3.4293, 'grad_norm': 0.1936091035604477, 'learning_rate': 0.0002426975090010596, 'epoch': 0.7}
                                                       70%|███████   | 7550/10711 [1:26:03<25:58,  2.03it/s] 70%|███████   | 7551/10711 [1:26:03<25:59,  2.03it/s] 71%|███████   | 7552/10711 [1:26:04<25:59,  2.03it/s] 71%|███████   | 7553/10711 [1:26:04<25:55,  2.03it/s] 71%|███████   | 7554/10711 [1:26:05<25:52,  2.03it/s] 71%|███████   | 7555/10711 [1:26:05<26:10,  2.01it/s] 71%|███████   | 7556/10711 [1:26:06<26:03,  2.02it/s] 71%|███████   | 7557/10711 [1:26:06<25:57,  2.02it/s] 71%|███████   | 7558/10711 [1:26:07<25:54,  2.03it/s] 71%|███████   | 7559/10711 [1:26:07<25:52,  2.03it/s] 71%|███████   | 7560/10711 [1:26:08<25:49,  2.03it/s] 71%|███████   | 7561/10711 [1:26:08<25:47,  2.04it/s] 71%|███████   | 7562/10711 [1:26:09<25:47,  2.03it/s] 71%|███████   | 7563/10711 [1:26:09<25:46,  2.04it/s] 71%|███████   | 7564/10711 [1:26:10<25:44,  2.04it/s] 71%|███████   | 7565/10711 [1:26:10<25:44,  2.04it/s] 71%|███████   | 7566/10711 [1:26:11<25:46,  2.03it/s] 71%|███████   | 7567/10711 [1:26:11<25:44,  2.04it/s] 71%|███████   | 7568/10711 [1:26:12<25:43,  2.04it/s] 71%|███████   | 7569/10711 [1:26:12<25:43,  2.04it/s] 71%|███████   | 7570/10711 [1:26:13<25:42,  2.04it/s] 71%|███████   | 7571/10711 [1:26:13<25:44,  2.03it/s] 71%|███████   | 7572/10711 [1:26:14<25:45,  2.03it/s] 71%|███████   | 7573/10711 [1:26:14<25:44,  2.03it/s] 71%|███████   | 7574/10711 [1:26:15<25:42,  2.03it/s] 71%|███████   | 7575/10711 [1:26:15<25:41,  2.03it/s]                                                      {'loss': 3.4259, 'grad_norm': 0.1897292137145996, 'learning_rate': 0.00023921287452988678, 'epoch': 0.71}
 71%|███████   | 7575/10711 [1:26:15<25:41,  2.03it/s] 71%|███████   | 7576/10711 [1:26:16<25:43,  2.03it/s] 71%|███████   | 7577/10711 [1:26:16<25:39,  2.04it/s] 71%|███████   | 7578/10711 [1:26:17<25:39,  2.04it/s] 71%|███████   | 7579/10711 [1:26:17<25:40,  2.03it/s] 71%|███████   | 7580/10711 [1:26:18<25:37,  2.04it/s] 71%|███████   | 7581/10711 [1:26:18<25:36,  2.04it/s] 71%|███████   | 7582/10711 [1:26:19<25:36,  2.04it/s] 71%|███████   | 7583/10711 [1:26:19<25:35,  2.04it/s] 71%|███████   | 7584/10711 [1:26:20<25:34,  2.04it/s] 71%|███████   | 7585/10711 [1:26:20<25:36,  2.03it/s] 71%|███████   | 7586/10711 [1:26:21<25:33,  2.04it/s] 71%|███████   | 7587/10711 [1:26:21<25:32,  2.04it/s] 71%|███████   | 7588/10711 [1:26:22<25:31,  2.04it/s] 71%|███████   | 7589/10711 [1:26:22<25:32,  2.04it/s] 71%|███████   | 7590/10711 [1:26:23<25:31,  2.04it/s] 71%|███████   | 7591/10711 [1:26:23<25:31,  2.04it/s] 71%|███████   | 7592/10711 [1:26:24<25:31,  2.04it/s] 71%|███████   | 7593/10711 [1:26:24<25:28,  2.04it/s] 71%|███████   | 7594/10711 [1:26:25<25:27,  2.04it/s] 71%|███████   | 7595/10711 [1:26:25<25:27,  2.04it/s] 71%|███████   | 7596/10711 [1:26:26<25:27,  2.04it/s] 71%|███████   | 7597/10711 [1:26:26<25:27,  2.04it/s] 71%|███████   | 7598/10711 [1:26:26<25:28,  2.04it/s] 71%|███████   | 7599/10711 [1:26:27<25:28,  2.04it/s] 71%|███████   | 7600/10711 [1:26:27<25:26,  2.04it/s]{'loss': 3.4266, 'grad_norm': 0.19788919389247894, 'learning_rate': 0.0002357455541437723, 'epoch': 0.71}
                                                       71%|███████   | 7600/10711 [1:26:27<25:26,  2.04it/s] 71%|███████   | 7601/10711 [1:26:28<25:29,  2.03it/s] 71%|███████   | 7602/10711 [1:26:28<25:29,  2.03it/s] 71%|███████   | 7603/10711 [1:26:29<25:26,  2.04it/s] 71%|███████   | 7604/10711 [1:26:29<25:27,  2.03it/s] 71%|███████   | 7605/10711 [1:26:30<25:26,  2.03it/s] 71%|███████   | 7606/10711 [1:26:30<25:26,  2.03it/s] 71%|███████   | 7607/10711 [1:26:31<25:27,  2.03it/s] 71%|███████   | 7608/10711 [1:26:31<25:27,  2.03it/s] 71%|███████   | 7609/10711 [1:26:32<25:26,  2.03it/s] 71%|███████   | 7610/10711 [1:26:32<25:24,  2.03it/s] 71%|███████   | 7611/10711 [1:26:33<25:21,  2.04it/s] 71%|███████   | 7612/10711 [1:26:33<25:22,  2.04it/s] 71%|███████   | 7613/10711 [1:26:34<25:21,  2.04it/s] 71%|███████   | 7614/10711 [1:26:34<25:18,  2.04it/s] 71%|███████   | 7615/10711 [1:26:35<25:17,  2.04it/s] 71%|███████   | 7616/10711 [1:26:35<25:18,  2.04it/s] 71%|███████   | 7617/10711 [1:26:36<25:18,  2.04it/s] 71%|███████   | 7618/10711 [1:26:36<25:16,  2.04it/s] 71%|███████   | 7619/10711 [1:26:37<25:51,  1.99it/s] 71%|███████   | 7620/10711 [1:26:37<25:41,  2.01it/s] 71%|███████   | 7621/10711 [1:26:38<25:33,  2.01it/s] 71%|███████   | 7622/10711 [1:26:38<25:28,  2.02it/s] 71%|███████   | 7623/10711 [1:26:39<25:25,  2.02it/s] 71%|███████   | 7624/10711 [1:26:39<25:22,  2.03it/s] 71%|███████   | 7625/10711 [1:26:40<25:20,  2.03it/s]                                                      {'loss': 3.4263, 'grad_norm': 0.20639432966709137, 'learning_rate': 0.0002322957780438048, 'epoch': 0.71}
 71%|███████   | 7625/10711 [1:26:40<25:20,  2.03it/s] 71%|███████   | 7626/10711 [1:26:40<25:20,  2.03it/s] 71%|███████   | 7627/10711 [1:26:41<25:19,  2.03it/s] 71%|███████   | 7628/10711 [1:26:41<25:16,  2.03it/s] 71%|███████   | 7629/10711 [1:26:42<25:15,  2.03it/s] 71%|███████   | 7630/10711 [1:26:42<25:13,  2.04it/s] 71%|███████   | 7631/10711 [1:26:43<25:38,  2.00it/s] 71%|███████▏  | 7632/10711 [1:26:43<25:28,  2.01it/s] 71%|███████▏  | 7633/10711 [1:26:44<25:22,  2.02it/s] 71%|███████▏  | 7634/10711 [1:26:44<25:19,  2.02it/s] 71%|███████▏  | 7635/10711 [1:26:45<25:15,  2.03it/s] 71%|███████▏  | 7636/10711 [1:26:45<25:12,  2.03it/s] 71%|███████▏  | 7637/10711 [1:26:46<25:11,  2.03it/s] 71%|███████▏  | 7638/10711 [1:26:46<25:10,  2.03it/s] 71%|███████▏  | 7639/10711 [1:26:47<25:08,  2.04it/s] 71%|███████▏  | 7640/10711 [1:26:47<25:08,  2.04it/s] 71%|███████▏  | 7641/10711 [1:26:48<25:06,  2.04it/s] 71%|███████▏  | 7642/10711 [1:26:48<25:06,  2.04it/s] 71%|███████▏  | 7643/10711 [1:26:49<25:04,  2.04it/s] 71%|███████▏  | 7644/10711 [1:26:49<25:03,  2.04it/s] 71%|███████▏  | 7645/10711 [1:26:50<25:05,  2.04it/s] 71%|███████▏  | 7646/10711 [1:26:50<25:03,  2.04it/s] 71%|███████▏  | 7647/10711 [1:26:51<25:04,  2.04it/s] 71%|███████▏  | 7648/10711 [1:26:51<25:04,  2.04it/s] 71%|███████▏  | 7649/10711 [1:26:52<25:03,  2.04it/s] 71%|███████▏  | 7650/10711 [1:26:52<25:03,  2.04it/s]{'loss': 3.4222, 'grad_norm': 0.20514243841171265, 'learning_rate': 0.00022886377526627828, 'epoch': 0.71}                                                      
 71%|███████▏  | 7650/10711 [1:26:52<25:03,  2.04it/s] 71%|███████▏  | 7651/10711 [1:26:53<25:06,  2.03it/s] 71%|███████▏  | 7652/10711 [1:26:53<25:05,  2.03it/s] 71%|███████▏  | 7653/10711 [1:26:54<25:03,  2.03it/s] 71%|███████▏  | 7654/10711 [1:26:54<25:02,  2.04it/s] 71%|███████▏  | 7655/10711 [1:26:55<25:00,  2.04it/s] 71%|███████▏  | 7656/10711 [1:26:55<24:59,  2.04it/s] 71%|███████▏  | 7657/10711 [1:26:56<25:00,  2.04it/s] 71%|███████▏  | 7658/10711 [1:26:56<24:58,  2.04it/s] 72%|███████▏  | 7659/10711 [1:26:57<24:57,  2.04it/s] 72%|███████▏  | 7660/10711 [1:26:57<24:57,  2.04it/s] 72%|███████▏  | 7661/10711 [1:26:57<24:57,  2.04it/s] 72%|███████▏  | 7662/10711 [1:26:58<24:56,  2.04it/s] 72%|███████▏  | 7663/10711 [1:26:58<24:57,  2.04it/s] 72%|███████▏  | 7664/10711 [1:26:59<24:55,  2.04it/s] 72%|███████▏  | 7665/10711 [1:26:59<24:55,  2.04it/s] 72%|███████▏  | 7666/10711 [1:27:00<24:54,  2.04it/s] 72%|███████▏  | 7667/10711 [1:27:00<24:54,  2.04it/s] 72%|███████▏  | 7668/10711 [1:27:01<24:53,  2.04it/s] 72%|███████▏  | 7669/10711 [1:27:01<24:53,  2.04it/s] 72%|███████▏  | 7670/10711 [1:27:02<24:53,  2.04it/s] 72%|███████▏  | 7671/10711 [1:27:02<24:53,  2.04it/s] 72%|███████▏  | 7672/10711 [1:27:03<24:52,  2.04it/s] 72%|███████▏  | 7673/10711 [1:27:03<24:52,  2.04it/s] 72%|███████▏  | 7674/10711 [1:27:04<24:51,  2.04it/s] 72%|███████▏  | 7675/10711 [1:27:04<24:54,  2.03it/s]                                                      {'loss': 3.4287, 'grad_norm': 0.19401930272579193, 'learning_rate': 0.00022544977366748738, 'epoch': 0.72}
 72%|███████▏  | 7675/10711 [1:27:04<24:54,  2.03it/s] 72%|███████▏  | 7676/10711 [1:27:05<24:55,  2.03it/s] 72%|███████▏  | 7677/10711 [1:27:05<24:53,  2.03it/s] 72%|███████▏  | 7678/10711 [1:27:06<24:53,  2.03it/s] 72%|███████▏  | 7679/10711 [1:27:06<24:53,  2.03it/s] 72%|███████▏  | 7680/10711 [1:27:07<24:50,  2.03it/s] 72%|███████▏  | 7681/10711 [1:27:07<24:48,  2.04it/s] 72%|███████▏  | 7682/10711 [1:27:08<24:49,  2.03it/s] 72%|███████▏  | 7683/10711 [1:27:08<24:48,  2.03it/s] 72%|███████▏  | 7684/10711 [1:27:09<24:48,  2.03it/s] 72%|███████▏  | 7685/10711 [1:27:09<24:49,  2.03it/s] 72%|███████▏  | 7686/10711 [1:27:10<24:46,  2.03it/s] 72%|███████▏  | 7687/10711 [1:27:10<24:43,  2.04it/s] 72%|███████▏  | 7688/10711 [1:27:11<24:42,  2.04it/s] 72%|███████▏  | 7689/10711 [1:27:11<24:42,  2.04it/s] 72%|███████▏  | 7690/10711 [1:27:12<24:42,  2.04it/s] 72%|███████▏  | 7691/10711 [1:27:12<24:43,  2.04it/s] 72%|███████▏  | 7692/10711 [1:27:13<24:43,  2.03it/s] 72%|███████▏  | 7693/10711 [1:27:13<24:45,  2.03it/s] 72%|███████▏  | 7694/10711 [1:27:14<24:46,  2.03it/s] 72%|███████▏  | 7695/10711 [1:27:14<24:44,  2.03it/s] 72%|███████▏  | 7696/10711 [1:27:15<24:43,  2.03it/s] 72%|███████▏  | 7697/10711 [1:27:15<24:42,  2.03it/s] 72%|███████▏  | 7698/10711 [1:27:16<24:40,  2.03it/s] 72%|███████▏  | 7699/10711 [1:27:16<24:41,  2.03it/s] 72%|███████▏  | 7700/10711 [1:27:17<24:40,  2.03it/s]{'loss': 3.4269, 'grad_norm': 0.20710211992263794, 'learning_rate': 0.00022205399990859844, 'epoch': 0.72}                                                      
 72%|███████▏  | 7700/10711 [1:27:17<24:40,  2.03it/s] 72%|███████▏  | 7701/10711 [1:27:17<24:44,  2.03it/s] 72%|███████▏  | 7702/10711 [1:27:18<24:43,  2.03it/s] 72%|███████▏  | 7703/10711 [1:27:18<24:43,  2.03it/s] 72%|███████▏  | 7704/10711 [1:27:19<24:40,  2.03it/s] 72%|███████▏  | 7705/10711 [1:27:19<24:38,  2.03it/s] 72%|███████▏  | 7706/10711 [1:27:20<24:37,  2.03it/s] 72%|███████▏  | 7707/10711 [1:27:20<24:35,  2.04it/s] 72%|███████▏  | 7708/10711 [1:27:21<24:38,  2.03it/s] 72%|███████▏  | 7709/10711 [1:27:21<24:37,  2.03it/s] 72%|███████▏  | 7710/10711 [1:27:22<24:35,  2.03it/s] 72%|███████▏  | 7711/10711 [1:27:22<24:34,  2.03it/s] 72%|███████▏  | 7712/10711 [1:27:23<24:35,  2.03it/s] 72%|███████▏  | 7713/10711 [1:27:23<24:32,  2.04it/s] 72%|███████▏  | 7714/10711 [1:27:24<24:31,  2.04it/s] 72%|███████▏  | 7715/10711 [1:27:24<24:33,  2.03it/s] 72%|███████▏  | 7716/10711 [1:27:25<24:32,  2.03it/s] 72%|███████▏  | 7717/10711 [1:27:25<24:32,  2.03it/s] 72%|███████▏  | 7718/10711 [1:27:26<24:31,  2.03it/s] 72%|███████▏  | 7719/10711 [1:27:26<24:28,  2.04it/s] 72%|███████▏  | 7720/10711 [1:27:26<24:27,  2.04it/s] 72%|███████▏  | 7721/10711 [1:27:27<24:27,  2.04it/s] 72%|███████▏  | 7722/10711 [1:27:27<24:26,  2.04it/s] 72%|███████▏  | 7723/10711 [1:27:28<24:25,  2.04it/s] 72%|███████▏  | 7724/10711 [1:27:29<25:18,  1.97it/s] 72%|███████▏  | 7725/10711 [1:27:29<25:02,  1.99it/s]{'loss': 3.4245, 'grad_norm': 0.20103298127651215, 'learning_rate': 0.0002186766794406016, 'epoch': 0.72}
                                                       72%|███████▏  | 7725/10711 [1:27:29<25:02,  1.99it/s] 72%|███████▏  | 7726/10711 [1:27:29<24:52,  2.00it/s] 72%|███████▏  | 7727/10711 [1:27:30<24:45,  2.01it/s] 72%|███████▏  | 7728/10711 [1:27:30<24:38,  2.02it/s] 72%|███████▏  | 7729/10711 [1:27:31<24:32,  2.03it/s] 72%|███████▏  | 7730/10711 [1:27:31<24:32,  2.02it/s] 72%|███████▏  | 7731/10711 [1:27:32<24:29,  2.03it/s] 72%|███████▏  | 7732/10711 [1:27:32<24:26,  2.03it/s] 72%|███████▏  | 7733/10711 [1:27:33<24:26,  2.03it/s] 72%|███████▏  | 7734/10711 [1:27:33<24:24,  2.03it/s] 72%|███████▏  | 7735/10711 [1:27:34<24:22,  2.03it/s] 72%|███████▏  | 7736/10711 [1:27:34<24:23,  2.03it/s] 72%|███████▏  | 7737/10711 [1:27:35<24:22,  2.03it/s] 72%|███████▏  | 7738/10711 [1:27:35<24:22,  2.03it/s] 72%|███████▏  | 7739/10711 [1:27:36<24:22,  2.03it/s] 72%|███████▏  | 7740/10711 [1:27:36<24:21,  2.03it/s] 72%|███████▏  | 7741/10711 [1:27:37<24:19,  2.04it/s] 72%|███████▏  | 7742/10711 [1:27:37<24:18,  2.04it/s] 72%|███████▏  | 7743/10711 [1:27:38<24:19,  2.03it/s] 72%|███████▏  | 7744/10711 [1:27:38<24:18,  2.03it/s] 72%|███████▏  | 7745/10711 [1:27:39<24:19,  2.03it/s] 72%|███████▏  | 7746/10711 [1:27:39<24:19,  2.03it/s] 72%|███████▏  | 7747/10711 [1:27:40<24:18,  2.03it/s] 72%|███████▏  | 7748/10711 [1:27:40<24:16,  2.03it/s] 72%|███████▏  | 7749/10711 [1:27:41<24:18,  2.03it/s] 72%|███████▏  | 7750/10711 [1:27:41<24:15,  2.03it/s]                                                      {'loss': 3.4145, 'grad_norm': 0.1912926733493805, 'learning_rate': 0.00021531803648934333, 'epoch': 0.72}
 72%|███████▏  | 7750/10711 [1:27:41<24:15,  2.03it/s] 72%|███████▏  | 7751/10711 [1:27:42<24:16,  2.03it/s] 72%|███████▏  | 7752/10711 [1:27:42<24:15,  2.03it/s] 72%|███████▏  | 7753/10711 [1:27:43<24:49,  1.99it/s] 72%|███████▏  | 7754/10711 [1:27:43<24:37,  2.00it/s] 72%|███████▏  | 7755/10711 [1:27:44<24:30,  2.01it/s] 72%|███████▏  | 7756/10711 [1:27:44<24:25,  2.02it/s] 72%|███████▏  | 7757/10711 [1:27:45<24:22,  2.02it/s] 72%|███████▏  | 7758/10711 [1:27:45<24:18,  2.02it/s] 72%|███████▏  | 7759/10711 [1:27:46<24:15,  2.03it/s] 72%|███████▏  | 7760/10711 [1:27:46<24:13,  2.03it/s] 72%|███████▏  | 7761/10711 [1:27:47<24:11,  2.03it/s] 72%|███████▏  | 7762/10711 [1:27:47<24:11,  2.03it/s] 72%|███████▏  | 7763/10711 [1:27:48<24:11,  2.03it/s] 72%|███████▏  | 7764/10711 [1:27:48<24:10,  2.03it/s] 72%|███████▏  | 7765/10711 [1:27:49<24:08,  2.03it/s] 73%|███████▎  | 7766/10711 [1:27:49<24:08,  2.03it/s] 73%|███████▎  | 7767/10711 [1:27:50<24:08,  2.03it/s] 73%|███████▎  | 7768/10711 [1:27:50<24:07,  2.03it/s] 73%|███████▎  | 7769/10711 [1:27:51<24:07,  2.03it/s] 73%|███████▎  | 7770/10711 [1:27:51<24:05,  2.04it/s] 73%|███████▎  | 7771/10711 [1:27:52<24:04,  2.04it/s] 73%|███████▎  | 7772/10711 [1:27:52<24:05,  2.03it/s] 73%|███████▎  | 7773/10711 [1:27:53<24:03,  2.04it/s] 73%|███████▎  | 7774/10711 [1:27:53<24:01,  2.04it/s] 73%|███████▎  | 7775/10711 [1:27:54<24:04,  2.03it/s]{'loss': 3.423, 'grad_norm': 0.19748029112815857, 'learning_rate': 0.00021197829404063845, 'epoch': 0.73}                                                      
 73%|███████▎  | 7775/10711 [1:27:54<24:04,  2.03it/s] 73%|███████▎  | 7776/10711 [1:27:54<24:11,  2.02it/s] 73%|███████▎  | 7777/10711 [1:27:55<24:07,  2.03it/s] 73%|███████▎  | 7778/10711 [1:27:55<24:04,  2.03it/s] 73%|███████▎  | 7779/10711 [1:27:56<24:01,  2.03it/s] 73%|███████▎  | 7780/10711 [1:27:56<24:01,  2.03it/s] 73%|███████▎  | 7781/10711 [1:27:57<24:00,  2.03it/s] 73%|███████▎  | 7782/10711 [1:27:57<23:59,  2.03it/s] 73%|███████▎  | 7783/10711 [1:27:58<23:59,  2.03it/s] 73%|███████▎  | 7784/10711 [1:27:58<23:59,  2.03it/s] 73%|███████▎  | 7785/10711 [1:27:59<23:58,  2.03it/s] 73%|███████▎  | 7786/10711 [1:27:59<23:58,  2.03it/s] 73%|███████▎  | 7787/10711 [1:28:00<24:32,  1.99it/s] 73%|███████▎  | 7788/10711 [1:28:00<24:21,  2.00it/s] 73%|███████▎  | 7789/10711 [1:28:01<24:15,  2.01it/s] 73%|███████▎  | 7790/10711 [1:28:01<24:07,  2.02it/s] 73%|███████▎  | 7791/10711 [1:28:02<24:02,  2.02it/s] 73%|███████▎  | 7792/10711 [1:28:02<24:00,  2.03it/s] 73%|███████▎  | 7793/10711 [1:28:03<23:58,  2.03it/s] 73%|███████▎  | 7794/10711 [1:28:03<23:56,  2.03it/s] 73%|███████▎  | 7795/10711 [1:28:04<23:54,  2.03it/s] 73%|███████▎  | 7796/10711 [1:28:04<23:53,  2.03it/s] 73%|███████▎  | 7797/10711 [1:28:04<23:51,  2.04it/s] 73%|███████▎  | 7798/10711 [1:28:05<23:52,  2.03it/s] 73%|███████▎  | 7799/10711 [1:28:05<23:50,  2.04it/s] 73%|███████▎  | 7800/10711 [1:28:06<23:51,  2.03it/s]{'loss': 3.4258, 'grad_norm': 0.2030515968799591, 'learning_rate': 0.00020865767382546657, 'epoch': 0.73}                                                      
 73%|███████▎  | 7800/10711 [1:28:06<23:51,  2.03it/s] 73%|███████▎  | 7801/10711 [1:28:06<23:53,  2.03it/s] 73%|███████▎  | 7802/10711 [1:28:07<23:51,  2.03it/s] 73%|███████▎  | 7803/10711 [1:28:07<23:51,  2.03it/s] 73%|███████▎  | 7804/10711 [1:28:08<23:48,  2.03it/s] 73%|███████▎  | 7805/10711 [1:28:08<23:48,  2.03it/s] 73%|███████▎  | 7806/10711 [1:28:09<23:48,  2.03it/s] 73%|███████▎  | 7807/10711 [1:28:09<23:46,  2.04it/s] 73%|███████▎  | 7808/10711 [1:28:10<23:47,  2.03it/s] 73%|███████▎  | 7809/10711 [1:28:10<23:47,  2.03it/s] 73%|███████▎  | 7810/10711 [1:28:11<23:45,  2.04it/s] 73%|███████▎  | 7811/10711 [1:28:11<23:44,  2.04it/s] 73%|███████▎  | 7812/10711 [1:28:12<23:44,  2.04it/s] 73%|███████▎  | 7813/10711 [1:28:12<23:43,  2.04it/s] 73%|███████▎  | 7814/10711 [1:28:13<23:42,  2.04it/s] 73%|███████▎  | 7815/10711 [1:28:13<23:44,  2.03it/s] 73%|███████▎  | 7816/10711 [1:28:14<23:43,  2.03it/s] 73%|███████▎  | 7817/10711 [1:28:14<23:41,  2.04it/s] 73%|███████▎  | 7818/10711 [1:28:15<23:42,  2.03it/s] 73%|███████▎  | 7819/10711 [1:28:15<23:41,  2.03it/s] 73%|███████▎  | 7820/10711 [1:28:16<23:40,  2.03it/s] 73%|███████▎  | 7821/10711 [1:28:16<23:39,  2.04it/s] 73%|███████▎  | 7822/10711 [1:28:17<23:39,  2.04it/s] 73%|███████▎  | 7823/10711 [1:28:17<23:39,  2.04it/s] 73%|███████▎  | 7824/10711 [1:28:18<23:37,  2.04it/s] 73%|███████▎  | 7825/10711 [1:28:18<23:37,  2.04it/s]{'loss': 3.4242, 'grad_norm': 0.19355306029319763, 'learning_rate': 0.00020535639630525138, 'epoch': 0.73}                                                      
 73%|███████▎  | 7825/10711 [1:28:18<23:37,  2.04it/s] 73%|███████▎  | 7826/10711 [1:28:19<23:38,  2.03it/s] 73%|███████▎  | 7827/10711 [1:28:19<23:38,  2.03it/s] 73%|███████▎  | 7828/10711 [1:28:20<23:35,  2.04it/s] 73%|███████▎  | 7829/10711 [1:28:20<23:35,  2.04it/s] 73%|███████▎  | 7830/10711 [1:28:21<23:36,  2.03it/s] 73%|███████▎  | 7831/10711 [1:28:21<23:34,  2.04it/s] 73%|███████▎  | 7832/10711 [1:28:22<23:32,  2.04it/s] 73%|███████▎  | 7833/10711 [1:28:22<23:36,  2.03it/s] 73%|███████▎  | 7834/10711 [1:28:23<23:34,  2.03it/s] 73%|███████▎  | 7835/10711 [1:28:23<23:34,  2.03it/s] 73%|███████▎  | 7836/10711 [1:28:24<23:34,  2.03it/s] 73%|███████▎  | 7837/10711 [1:28:24<23:32,  2.03it/s] 73%|███████▎  | 7838/10711 [1:28:25<23:30,  2.04it/s] 73%|███████▎  | 7839/10711 [1:28:25<23:30,  2.04it/s] 73%|███████▎  | 7840/10711 [1:28:26<23:30,  2.04it/s] 73%|███████▎  | 7841/10711 [1:28:26<23:31,  2.03it/s] 73%|███████▎  | 7842/10711 [1:28:27<23:31,  2.03it/s] 73%|███████▎  | 7843/10711 [1:28:27<23:29,  2.03it/s] 73%|███████▎  | 7844/10711 [1:28:28<23:30,  2.03it/s] 73%|███████▎  | 7845/10711 [1:28:28<23:30,  2.03it/s] 73%|███████▎  | 7846/10711 [1:28:29<23:28,  2.03it/s] 73%|███████▎  | 7847/10711 [1:28:29<23:28,  2.03it/s] 73%|███████▎  | 7848/10711 [1:28:30<23:28,  2.03it/s] 73%|███████▎  | 7849/10711 [1:28:30<23:27,  2.03it/s] 73%|███████▎  | 7850/10711 [1:28:31<23:27,  2.03it/s]{'loss': 3.4187, 'grad_norm': 0.20106865465641022, 'learning_rate': 0.00020207468065722246, 'epoch': 0.73}
                                                       73%|███████▎  | 7850/10711 [1:28:31<23:27,  2.03it/s] 73%|███████▎  | 7851/10711 [1:28:31<23:27,  2.03it/s] 73%|███████▎  | 7852/10711 [1:28:32<23:28,  2.03it/s] 73%|███████▎  | 7853/10711 [1:28:32<23:26,  2.03it/s] 73%|███████▎  | 7854/10711 [1:28:33<23:25,  2.03it/s] 73%|███████▎  | 7855/10711 [1:28:33<23:25,  2.03it/s] 73%|███████▎  | 7856/10711 [1:28:33<23:22,  2.04it/s] 73%|███████▎  | 7857/10711 [1:28:34<23:22,  2.04it/s] 73%|███████▎  | 7858/10711 [1:28:34<23:24,  2.03it/s] 73%|███████▎  | 7859/10711 [1:28:35<23:23,  2.03it/s] 73%|███████▎  | 7860/10711 [1:28:35<23:23,  2.03it/s] 73%|███████▎  | 7861/10711 [1:28:36<23:21,  2.03it/s] 73%|███████▎  | 7862/10711 [1:28:36<23:22,  2.03it/s] 73%|███████▎  | 7863/10711 [1:28:37<23:21,  2.03it/s] 73%|███████▎  | 7864/10711 [1:28:37<23:19,  2.03it/s] 73%|███████▎  | 7865/10711 [1:28:38<23:20,  2.03it/s] 73%|███████▎  | 7866/10711 [1:28:38<23:20,  2.03it/s] 73%|███████▎  | 7867/10711 [1:28:39<23:20,  2.03it/s] 73%|███████▎  | 7868/10711 [1:28:39<23:21,  2.03it/s] 73%|███████▎  | 7869/10711 [1:28:40<23:20,  2.03it/s] 73%|███████▎  | 7870/10711 [1:28:40<23:20,  2.03it/s] 73%|███████▎  | 7871/10711 [1:28:41<23:18,  2.03it/s] 73%|███████▎  | 7872/10711 [1:28:41<23:15,  2.03it/s] 74%|███████▎  | 7873/10711 [1:28:42<23:14,  2.03it/s] 74%|███████▎  | 7874/10711 [1:28:42<23:14,  2.03it/s] 74%|███████▎  | 7875/10711 [1:28:43<23:13,  2.04it/s]                                                      {'loss': 3.4201, 'grad_norm': 0.19708441197872162, 'learning_rate': 0.00019881274475986538, 'epoch': 0.74}
 74%|███████▎  | 7875/10711 [1:28:43<23:13,  2.04it/s] 74%|███████▎  | 7876/10711 [1:28:43<23:16,  2.03it/s] 74%|███████▎  | 7877/10711 [1:28:44<23:13,  2.03it/s] 74%|███████▎  | 7878/10711 [1:28:44<23:13,  2.03it/s] 74%|███████▎  | 7879/10711 [1:28:45<23:13,  2.03it/s] 74%|███████▎  | 7880/10711 [1:28:45<23:11,  2.04it/s] 74%|███████▎  | 7881/10711 [1:28:46<23:09,  2.04it/s] 74%|███████▎  | 7882/10711 [1:28:46<23:44,  1.99it/s] 74%|███████▎  | 7883/10711 [1:28:47<23:34,  2.00it/s] 74%|███████▎  | 7884/10711 [1:28:47<23:26,  2.01it/s] 74%|███████▎  | 7885/10711 [1:28:48<23:20,  2.02it/s] 74%|███████▎  | 7886/10711 [1:28:48<23:19,  2.02it/s] 74%|███████▎  | 7887/10711 [1:28:49<23:15,  2.02it/s] 74%|███████▎  | 7888/10711 [1:28:49<23:12,  2.03it/s] 74%|███████▎  | 7889/10711 [1:28:50<23:10,  2.03it/s] 74%|███████▎  | 7890/10711 [1:28:50<23:08,  2.03it/s] 74%|███████▎  | 7891/10711 [1:28:51<23:36,  1.99it/s] 74%|███████▎  | 7892/10711 [1:28:51<23:28,  2.00it/s] 74%|███████▎  | 7893/10711 [1:28:52<23:20,  2.01it/s] 74%|███████▎  | 7894/10711 [1:28:52<23:16,  2.02it/s] 74%|███████▎  | 7895/10711 [1:28:53<23:11,  2.02it/s] 74%|███████▎  | 7896/10711 [1:28:53<23:06,  2.03it/s] 74%|███████▎  | 7897/10711 [1:28:54<23:05,  2.03it/s] 74%|███████▎  | 7898/10711 [1:28:54<23:03,  2.03it/s] 74%|███████▎  | 7899/10711 [1:28:55<23:01,  2.04it/s] 74%|███████▍  | 7900/10711 [1:28:55<23:02,  2.03it/s]{'loss': 3.4167, 'grad_norm': 0.19485367834568024, 'learning_rate': 0.00019557080517845521, 'epoch': 0.74}
                                                       74%|███████▍  | 7900/10711 [1:28:55<23:02,  2.03it/s] 74%|███████▍  | 7901/10711 [1:28:56<23:04,  2.03it/s] 74%|███████▍  | 7902/10711 [1:28:56<23:02,  2.03it/s] 74%|███████▍  | 7903/10711 [1:28:57<23:02,  2.03it/s] 74%|███████▍  | 7904/10711 [1:28:57<23:01,  2.03it/s] 74%|███████▍  | 7905/10711 [1:28:58<22:59,  2.03it/s] 74%|███████▍  | 7906/10711 [1:28:58<23:00,  2.03it/s] 74%|███████▍  | 7907/10711 [1:28:59<22:59,  2.03it/s] 74%|███████▍  | 7908/10711 [1:28:59<22:57,  2.03it/s] 74%|███████▍  | 7909/10711 [1:29:00<23:00,  2.03it/s] 74%|███████▍  | 7910/10711 [1:29:00<22:58,  2.03it/s] 74%|███████▍  | 7911/10711 [1:29:01<22:58,  2.03it/s] 74%|███████▍  | 7912/10711 [1:29:01<22:57,  2.03it/s] 74%|███████▍  | 7913/10711 [1:29:02<22:56,  2.03it/s] 74%|███████▍  | 7914/10711 [1:29:02<22:55,  2.03it/s] 74%|███████▍  | 7915/10711 [1:29:03<22:57,  2.03it/s] 74%|███████▍  | 7916/10711 [1:29:03<22:53,  2.03it/s] 74%|███████▍  | 7917/10711 [1:29:04<22:54,  2.03it/s] 74%|███████▍  | 7918/10711 [1:29:04<22:53,  2.03it/s] 74%|███████▍  | 7919/10711 [1:29:05<22:52,  2.03it/s] 74%|███████▍  | 7920/10711 [1:29:05<22:51,  2.04it/s] 74%|███████▍  | 7921/10711 [1:29:06<23:20,  1.99it/s] 74%|███████▍  | 7922/10711 [1:29:06<23:12,  2.00it/s] 74%|███████▍  | 7923/10711 [1:29:07<23:03,  2.02it/s] 74%|███████▍  | 7924/10711 [1:29:07<22:59,  2.02it/s] 74%|███████▍  | 7925/10711 [1:29:08<22:57,  2.02it/s]{'loss': 3.4175, 'grad_norm': 0.1965375691652298, 'learning_rate': 0.00019234907715067867, 'epoch': 0.74}                                                      
 74%|███████▍  | 7925/10711 [1:29:08<22:57,  2.02it/s] 74%|███████▍  | 7926/10711 [1:29:08<22:56,  2.02it/s] 74%|███████▍  | 7927/10711 [1:29:09<22:55,  2.02it/s] 74%|███████▍  | 7928/10711 [1:29:09<22:54,  2.03it/s] 74%|███████▍  | 7929/10711 [1:29:10<22:52,  2.03it/s] 74%|███████▍  | 7930/10711 [1:29:10<22:51,  2.03it/s] 74%|███████▍  | 7931/10711 [1:29:10<22:49,  2.03it/s] 74%|███████▍  | 7932/10711 [1:29:11<22:47,  2.03it/s] 74%|███████▍  | 7933/10711 [1:29:11<22:47,  2.03it/s] 74%|███████▍  | 7934/10711 [1:29:12<22:46,  2.03it/s] 74%|███████▍  | 7935/10711 [1:29:12<22:46,  2.03it/s] 74%|███████▍  | 7936/10711 [1:29:13<22:43,  2.04it/s] 74%|███████▍  | 7937/10711 [1:29:13<22:41,  2.04it/s] 74%|███████▍  | 7938/10711 [1:29:14<22:42,  2.04it/s] 74%|███████▍  | 7939/10711 [1:29:14<22:40,  2.04it/s] 74%|███████▍  | 7940/10711 [1:29:15<22:40,  2.04it/s] 74%|███████▍  | 7941/10711 [1:29:15<22:40,  2.04it/s] 74%|███████▍  | 7942/10711 [1:29:16<22:39,  2.04it/s] 74%|███████▍  | 7943/10711 [1:29:16<22:39,  2.04it/s] 74%|███████▍  | 7944/10711 [1:29:17<22:39,  2.03it/s] 74%|███████▍  | 7945/10711 [1:29:17<22:37,  2.04it/s] 74%|███████▍  | 7946/10711 [1:29:18<22:35,  2.04it/s] 74%|███████▍  | 7947/10711 [1:29:18<22:56,  2.01it/s] 74%|███████▍  | 7948/10711 [1:29:19<22:49,  2.02it/s] 74%|███████▍  | 7949/10711 [1:29:19<22:43,  2.03it/s] 74%|███████▍  | 7950/10711 [1:29:20<22:43,  2.02it/s]                                                      {'loss': 3.4183, 'grad_norm': 0.20117226243019104, 'learning_rate': 0.00018914777457234476, 'epoch': 0.74}
 74%|███████▍  | 7950/10711 [1:29:20<22:43,  2.02it/s] 74%|███████▍  | 7951/10711 [1:29:20<22:41,  2.03it/s] 74%|███████▍  | 7952/10711 [1:29:21<22:40,  2.03it/s] 74%|███████▍  | 7953/10711 [1:29:21<22:40,  2.03it/s] 74%|███████▍  | 7954/10711 [1:29:22<22:37,  2.03it/s] 74%|███████▍  | 7955/10711 [1:29:22<22:37,  2.03it/s] 74%|███████▍  | 7956/10711 [1:29:23<22:36,  2.03it/s] 74%|███████▍  | 7957/10711 [1:29:23<22:36,  2.03it/s] 74%|███████▍  | 7958/10711 [1:29:24<22:36,  2.03it/s] 74%|███████▍  | 7959/10711 [1:29:24<22:34,  2.03it/s] 74%|███████▍  | 7960/10711 [1:29:25<22:33,  2.03it/s] 74%|███████▍  | 7961/10711 [1:29:25<22:31,  2.03it/s] 74%|███████▍  | 7962/10711 [1:29:26<22:29,  2.04it/s] 74%|███████▍  | 7963/10711 [1:29:26<22:30,  2.04it/s] 74%|███████▍  | 7964/10711 [1:29:27<22:30,  2.03it/s] 74%|███████▍  | 7965/10711 [1:29:27<22:28,  2.04it/s] 74%|███████▍  | 7966/10711 [1:29:28<22:27,  2.04it/s] 74%|███████▍  | 7967/10711 [1:29:28<22:27,  2.04it/s] 74%|███████▍  | 7968/10711 [1:29:29<22:27,  2.04it/s] 74%|███████▍  | 7969/10711 [1:29:29<22:27,  2.03it/s] 74%|███████▍  | 7970/10711 [1:29:30<22:28,  2.03it/s] 74%|███████▍  | 7971/10711 [1:29:30<22:26,  2.03it/s] 74%|███████▍  | 7972/10711 [1:29:31<22:24,  2.04it/s] 74%|███████▍  | 7973/10711 [1:29:31<22:24,  2.04it/s] 74%|███████▍  | 7974/10711 [1:29:32<22:23,  2.04it/s] 74%|███████▍  | 7975/10711 [1:29:32<22:23,  2.04it/s]                                                      {'loss': 3.4119, 'grad_norm': 0.19063222408294678, 'learning_rate': 0.00018596710998318311, 'epoch': 0.74}
 74%|███████▍  | 7975/10711 [1:29:32<22:23,  2.04it/s] 74%|███████▍  | 7976/10711 [1:29:33<22:28,  2.03it/s] 74%|███████▍  | 7977/10711 [1:29:33<22:25,  2.03it/s] 74%|███████▍  | 7978/10711 [1:29:34<22:23,  2.03it/s] 74%|███████▍  | 7979/10711 [1:29:34<22:23,  2.03it/s] 75%|███████▍  | 7980/10711 [1:29:35<22:22,  2.03it/s] 75%|███████▍  | 7981/10711 [1:29:35<22:21,  2.04it/s] 75%|███████▍  | 7982/10711 [1:29:36<22:21,  2.03it/s] 75%|███████▍  | 7983/10711 [1:29:36<22:21,  2.03it/s] 75%|███████▍  | 7984/10711 [1:29:37<22:22,  2.03it/s] 75%|███████▍  | 7985/10711 [1:29:37<22:21,  2.03it/s] 75%|███████▍  | 7986/10711 [1:29:38<22:21,  2.03it/s] 75%|███████▍  | 7987/10711 [1:29:38<22:21,  2.03it/s] 75%|███████▍  | 7988/10711 [1:29:39<22:20,  2.03it/s] 75%|███████▍  | 7989/10711 [1:29:39<22:19,  2.03it/s] 75%|███████▍  | 7990/10711 [1:29:40<22:19,  2.03it/s] 75%|███████▍  | 7991/10711 [1:29:40<22:19,  2.03it/s] 75%|███████▍  | 7992/10711 [1:29:41<22:20,  2.03it/s] 75%|███████▍  | 7993/10711 [1:29:41<22:18,  2.03it/s] 75%|███████▍  | 7994/10711 [1:29:41<22:17,  2.03it/s] 75%|███████▍  | 7995/10711 [1:29:42<22:16,  2.03it/s] 75%|███████▍  | 7996/10711 [1:29:42<22:15,  2.03it/s] 75%|███████▍  | 7997/10711 [1:29:43<22:13,  2.04it/s] 75%|███████▍  | 7998/10711 [1:29:43<22:12,  2.04it/s] 75%|███████▍  | 7999/10711 [1:29:44<22:12,  2.04it/s] 75%|███████▍  | 8000/10711 [1:29:44<22:10,  2.04it/s]{'loss': 3.4121, 'grad_norm': 0.19814999401569366, 'learning_rate': 0.00018280729455273303, 'epoch': 0.75}
                                                       75%|███████▍  | 8000/10711 [1:29:44<22:10,  2.04it/s] 75%|███████▍  | 8001/10711 [1:29:45<22:14,  2.03it/s] 75%|███████▍  | 8002/10711 [1:29:45<22:12,  2.03it/s] 75%|███████▍  | 8003/10711 [1:29:46<22:10,  2.04it/s] 75%|███████▍  | 8004/10711 [1:29:46<22:12,  2.03it/s] 75%|███████▍  | 8005/10711 [1:29:47<22:11,  2.03it/s] 75%|███████▍  | 8006/10711 [1:29:47<22:10,  2.03it/s] 75%|███████▍  | 8007/10711 [1:29:48<22:08,  2.04it/s] 75%|███████▍  | 8008/10711 [1:29:48<22:09,  2.03it/s] 75%|███████▍  | 8009/10711 [1:29:49<22:10,  2.03it/s] 75%|███████▍  | 8010/10711 [1:29:49<22:08,  2.03it/s] 75%|███████▍  | 8011/10711 [1:29:50<22:11,  2.03it/s] 75%|███████▍  | 8012/10711 [1:29:50<22:09,  2.03it/s] 75%|███████▍  | 8013/10711 [1:29:51<22:09,  2.03it/s] 75%|███████▍  | 8014/10711 [1:29:51<22:08,  2.03it/s] 75%|███████▍  | 8015/10711 [1:29:52<22:07,  2.03it/s] 75%|███████▍  | 8016/10711 [1:29:52<22:05,  2.03it/s] 75%|███████▍  | 8017/10711 [1:29:53<22:04,  2.03it/s] 75%|███████▍  | 8018/10711 [1:29:53<22:02,  2.04it/s] 75%|███████▍  | 8019/10711 [1:29:54<22:03,  2.03it/s] 75%|███████▍  | 8020/10711 [1:29:54<22:02,  2.04it/s] 75%|███████▍  | 8021/10711 [1:29:55<22:00,  2.04it/s] 75%|███████▍  | 8022/10711 [1:29:55<21:59,  2.04it/s] 75%|███████▍  | 8023/10711 [1:29:56<21:59,  2.04it/s] 75%|███████▍  | 8024/10711 [1:29:56<21:58,  2.04it/s] 75%|███████▍  | 8025/10711 [1:29:57<21:56,  2.04it/s]                                                      {'loss': 3.4151, 'grad_norm': 0.20153045654296875, 'learning_rate': 0.00017966853806632483, 'epoch': 0.75}
 75%|███████▍  | 8025/10711 [1:29:57<21:56,  2.04it/s] 75%|███████▍  | 8026/10711 [1:29:57<22:00,  2.03it/s] 75%|███████▍  | 8027/10711 [1:29:58<21:59,  2.03it/s] 75%|███████▍  | 8028/10711 [1:29:58<21:57,  2.04it/s] 75%|███████▍  | 8029/10711 [1:29:59<21:59,  2.03it/s] 75%|███████▍  | 8030/10711 [1:29:59<21:57,  2.04it/s] 75%|███████▍  | 8031/10711 [1:30:00<21:56,  2.04it/s] 75%|███████▍  | 8032/10711 [1:30:00<21:56,  2.03it/s] 75%|███████▍  | 8033/10711 [1:30:01<21:56,  2.03it/s] 75%|███████▌  | 8034/10711 [1:30:01<21:56,  2.03it/s] 75%|███████▌  | 8035/10711 [1:30:02<21:56,  2.03it/s] 75%|███████▌  | 8036/10711 [1:30:02<21:55,  2.03it/s] 75%|███████▌  | 8037/10711 [1:30:03<21:55,  2.03it/s] 75%|███████▌  | 8038/10711 [1:30:03<21:54,  2.03it/s] 75%|███████▌  | 8039/10711 [1:30:04<22:08,  2.01it/s] 75%|███████▌  | 8040/10711 [1:30:04<22:04,  2.02it/s] 75%|███████▌  | 8041/10711 [1:30:05<22:00,  2.02it/s] 75%|███████▌  | 8042/10711 [1:30:05<21:56,  2.03it/s] 75%|███████▌  | 8043/10711 [1:30:06<21:53,  2.03it/s] 75%|███████▌  | 8044/10711 [1:30:06<21:54,  2.03it/s] 75%|███████▌  | 8045/10711 [1:30:07<21:52,  2.03it/s] 75%|███████▌  | 8046/10711 [1:30:07<21:53,  2.03it/s] 75%|███████▌  | 8047/10711 [1:30:08<21:51,  2.03it/s] 75%|███████▌  | 8048/10711 [1:30:08<21:50,  2.03it/s] 75%|███████▌  | 8049/10711 [1:30:09<21:48,  2.03it/s] 75%|███████▌  | 8050/10711 [1:30:09<21:49,  2.03it/s]{'loss': 3.4119, 'grad_norm': 0.19903339445590973, 'learning_rate': 0.00017655104891115008, 'epoch': 0.75}                                                      
 75%|███████▌  | 8050/10711 [1:30:09<21:49,  2.03it/s] 75%|███████▌  | 8051/10711 [1:30:10<21:50,  2.03it/s] 75%|███████▌  | 8052/10711 [1:30:10<21:50,  2.03it/s] 75%|███████▌  | 8053/10711 [1:30:11<21:48,  2.03it/s] 75%|███████▌  | 8054/10711 [1:30:11<21:46,  2.03it/s] 75%|███████▌  | 8055/10711 [1:30:12<21:45,  2.03it/s] 75%|███████▌  | 8056/10711 [1:30:12<21:44,  2.03it/s] 75%|███████▌  | 8057/10711 [1:30:12<21:43,  2.04it/s] 75%|███████▌  | 8058/10711 [1:30:13<21:42,  2.04it/s] 75%|███████▌  | 8059/10711 [1:30:13<21:42,  2.04it/s] 75%|███████▌  | 8060/10711 [1:30:14<21:42,  2.03it/s] 75%|███████▌  | 8061/10711 [1:30:14<21:44,  2.03it/s] 75%|███████▌  | 8062/10711 [1:30:15<21:43,  2.03it/s] 75%|███████▌  | 8063/10711 [1:30:15<21:40,  2.04it/s] 75%|███████▌  | 8064/10711 [1:30:16<21:39,  2.04it/s] 75%|███████▌  | 8065/10711 [1:30:16<21:39,  2.04it/s] 75%|███████▌  | 8066/10711 [1:30:17<21:38,  2.04it/s] 75%|███████▌  | 8067/10711 [1:30:17<21:36,  2.04it/s] 75%|███████▌  | 8068/10711 [1:30:18<21:37,  2.04it/s] 75%|███████▌  | 8069/10711 [1:30:18<21:36,  2.04it/s] 75%|███████▌  | 8070/10711 [1:30:19<21:35,  2.04it/s] 75%|███████▌  | 8071/10711 [1:30:19<21:35,  2.04it/s] 75%|███████▌  | 8072/10711 [1:30:20<21:36,  2.04it/s] 75%|███████▌  | 8073/10711 [1:30:20<21:34,  2.04it/s] 75%|███████▌  | 8074/10711 [1:30:21<21:34,  2.04it/s] 75%|███████▌  | 8075/10711 [1:30:21<21:34,  2.04it/s]                                                      {'loss': 3.4032, 'grad_norm': 0.19919125735759735, 'learning_rate': 0.00017345503406242818, 'epoch': 0.75}
 75%|███████▌  | 8075/10711 [1:30:21<21:34,  2.04it/s] 75%|███████▌  | 8076/10711 [1:30:22<21:33,  2.04it/s] 75%|███████▌  | 8077/10711 [1:30:22<21:33,  2.04it/s] 75%|███████▌  | 8078/10711 [1:30:23<21:33,  2.03it/s] 75%|███████▌  | 8079/10711 [1:30:23<21:32,  2.04it/s] 75%|███████▌  | 8080/10711 [1:30:24<21:32,  2.04it/s] 75%|███████▌  | 8081/10711 [1:30:24<21:31,  2.04it/s] 75%|███████▌  | 8082/10711 [1:30:25<21:29,  2.04it/s] 75%|███████▌  | 8083/10711 [1:30:25<21:29,  2.04it/s] 75%|███████▌  | 8084/10711 [1:30:26<21:29,  2.04it/s] 75%|███████▌  | 8085/10711 [1:30:26<21:28,  2.04it/s] 75%|███████▌  | 8086/10711 [1:30:27<21:27,  2.04it/s] 76%|███████▌  | 8087/10711 [1:30:27<21:27,  2.04it/s] 76%|███████▌  | 8088/10711 [1:30:28<21:27,  2.04it/s] 76%|███████▌  | 8089/10711 [1:30:28<21:26,  2.04it/s] 76%|███████▌  | 8090/10711 [1:30:29<21:25,  2.04it/s] 76%|███████▌  | 8091/10711 [1:30:29<21:25,  2.04it/s] 76%|███████▌  | 8092/10711 [1:30:30<21:27,  2.03it/s] 76%|███████▌  | 8093/10711 [1:30:30<21:26,  2.03it/s] 76%|███████▌  | 8094/10711 [1:30:31<21:25,  2.04it/s] 76%|███████▌  | 8095/10711 [1:30:31<21:27,  2.03it/s] 76%|███████▌  | 8096/10711 [1:30:32<21:25,  2.03it/s] 76%|███████▌  | 8097/10711 [1:30:32<21:25,  2.03it/s] 76%|███████▌  | 8098/10711 [1:30:33<21:25,  2.03it/s] 76%|███████▌  | 8099/10711 [1:30:33<21:23,  2.03it/s] 76%|███████▌  | 8100/10711 [1:30:34<21:22,  2.04it/s]                                                      {'loss': 3.4058, 'grad_norm': 0.20591534674167633, 'learning_rate': 0.0001703806990696634, 'epoch': 0.76}
 76%|███████▌  | 8100/10711 [1:30:34<21:22,  2.04it/s] 76%|███████▌  | 8101/10711 [1:30:34<21:24,  2.03it/s] 76%|███████▌  | 8102/10711 [1:30:35<21:22,  2.03it/s] 76%|███████▌  | 8103/10711 [1:30:35<21:21,  2.04it/s] 76%|███████▌  | 8104/10711 [1:30:36<21:20,  2.04it/s] 76%|███████▌  | 8105/10711 [1:30:36<21:20,  2.03it/s] 76%|███████▌  | 8106/10711 [1:30:37<21:19,  2.04it/s] 76%|███████▌  | 8107/10711 [1:30:37<21:19,  2.04it/s] 76%|███████▌  | 8108/10711 [1:30:38<21:18,  2.04it/s] 76%|███████▌  | 8109/10711 [1:30:38<24:47,  1.75it/s] 76%|███████▌  | 8110/10711 [1:30:39<23:42,  1.83it/s] 76%|███████▌  | 8111/10711 [1:30:39<22:59,  1.88it/s] 76%|███████▌  | 8112/10711 [1:30:40<22:26,  1.93it/s] 76%|███████▌  | 8113/10711 [1:30:40<22:04,  1.96it/s] 76%|███████▌  | 8114/10711 [1:30:41<21:50,  1.98it/s] 76%|███████▌  | 8115/10711 [1:30:41<21:39,  2.00it/s] 76%|███████▌  | 8116/10711 [1:30:42<21:32,  2.01it/s] 76%|███████▌  | 8117/10711 [1:30:42<21:26,  2.02it/s] 76%|███████▌  | 8118/10711 [1:30:43<21:21,  2.02it/s] 76%|███████▌  | 8119/10711 [1:30:43<21:19,  2.03it/s] 76%|███████▌  | 8120/10711 [1:30:44<21:16,  2.03it/s] 76%|███████▌  | 8121/10711 [1:30:44<21:13,  2.03it/s] 76%|███████▌  | 8122/10711 [1:30:45<21:12,  2.04it/s] 76%|███████▌  | 8123/10711 [1:30:45<21:14,  2.03it/s] 76%|███████▌  | 8124/10711 [1:30:46<21:11,  2.03it/s] 76%|███████▌  | 8125/10711 [1:30:46<21:10,  2.04it/s]                                                      {'loss': 3.409, 'grad_norm': 0.1985497623682022, 'learning_rate': 0.00016732824804299907, 'epoch': 0.76}
 76%|███████▌  | 8125/10711 [1:30:46<21:10,  2.04it/s] 76%|███████▌  | 8126/10711 [1:30:47<21:11,  2.03it/s] 76%|███████▌  | 8127/10711 [1:30:47<21:08,  2.04it/s] 76%|███████▌  | 8128/10711 [1:30:48<21:07,  2.04it/s] 76%|███████▌  | 8129/10711 [1:30:48<21:07,  2.04it/s] 76%|███████▌  | 8130/10711 [1:30:49<21:06,  2.04it/s] 76%|███████▌  | 8131/10711 [1:30:49<21:06,  2.04it/s] 76%|███████▌  | 8132/10711 [1:30:50<21:08,  2.03it/s] 76%|███████▌  | 8133/10711 [1:30:50<21:06,  2.04it/s] 76%|███████▌  | 8134/10711 [1:30:51<21:05,  2.04it/s] 76%|███████▌  | 8135/10711 [1:30:51<21:05,  2.04it/s] 76%|███████▌  | 8136/10711 [1:30:52<21:02,  2.04it/s] 76%|███████▌  | 8137/10711 [1:30:52<21:02,  2.04it/s] 76%|███████▌  | 8138/10711 [1:30:53<21:02,  2.04it/s] 76%|███████▌  | 8139/10711 [1:30:53<21:01,  2.04it/s] 76%|███████▌  | 8140/10711 [1:30:54<21:00,  2.04it/s] 76%|███████▌  | 8141/10711 [1:30:54<21:00,  2.04it/s] 76%|███████▌  | 8142/10711 [1:30:54<21:01,  2.04it/s] 76%|███████▌  | 8143/10711 [1:30:55<20:58,  2.04it/s] 76%|███████▌  | 8144/10711 [1:30:55<20:57,  2.04it/s] 76%|███████▌  | 8145/10711 [1:30:56<20:57,  2.04it/s] 76%|███████▌  | 8146/10711 [1:30:56<20:57,  2.04it/s] 76%|███████▌  | 8147/10711 [1:30:57<20:56,  2.04it/s] 76%|███████▌  | 8148/10711 [1:30:57<20:56,  2.04it/s] 76%|███████▌  | 8149/10711 [1:30:58<20:58,  2.04it/s] 76%|███████▌  | 8150/10711 [1:30:58<20:56,  2.04it/s]                                                      {'loss': 3.4016, 'grad_norm': 0.20236650109291077, 'learning_rate': 0.0001642978836396663, 'epoch': 0.76}
 76%|███████▌  | 8150/10711 [1:30:58<20:56,  2.04it/s] 76%|███████▌  | 8151/10711 [1:30:59<24:24,  1.75it/s] 76%|███████▌  | 8152/10711 [1:31:00<23:21,  1.83it/s] 76%|███████▌  | 8153/10711 [1:31:00<22:35,  1.89it/s] 76%|███████▌  | 8154/10711 [1:31:01<22:04,  1.93it/s] 76%|███████▌  | 8155/10711 [1:31:01<21:44,  1.96it/s] 76%|███████▌  | 8156/10711 [1:31:02<21:28,  1.98it/s] 76%|███████▌  | 8157/10711 [1:31:02<21:18,  2.00it/s] 76%|███████▌  | 8158/10711 [1:31:03<21:09,  2.01it/s] 76%|███████▌  | 8159/10711 [1:31:03<21:02,  2.02it/s] 76%|███████▌  | 8160/10711 [1:31:04<20:59,  2.03it/s] 76%|███████▌  | 8161/10711 [1:31:04<20:57,  2.03it/s] 76%|███████▌  | 8162/10711 [1:31:05<20:54,  2.03it/s] 76%|███████▌  | 8163/10711 [1:31:05<20:52,  2.03it/s] 76%|███████▌  | 8164/10711 [1:31:06<20:51,  2.03it/s] 76%|███████▌  | 8165/10711 [1:31:06<20:53,  2.03it/s] 76%|███████▌  | 8166/10711 [1:31:07<20:49,  2.04it/s] 76%|███████▌  | 8167/10711 [1:31:07<20:49,  2.04it/s] 76%|███████▋  | 8168/10711 [1:31:08<20:50,  2.03it/s] 76%|███████▋  | 8169/10711 [1:31:08<20:47,  2.04it/s] 76%|███████▋  | 8170/10711 [1:31:09<20:47,  2.04it/s] 76%|███████▋  | 8171/10711 [1:31:09<20:46,  2.04it/s] 76%|███████▋  | 8172/10711 [1:31:09<20:46,  2.04it/s] 76%|███████▋  | 8173/10711 [1:31:10<20:46,  2.04it/s] 76%|███████▋  | 8174/10711 [1:31:10<20:45,  2.04it/s] 76%|███████▋  | 8175/10711 [1:31:11<20:45,  2.04it/s]{'loss': 3.4148, 'grad_norm': 0.19815604388713837, 'learning_rate': 0.00016128980705052865, 'epoch': 0.76}
                                                       76%|███████▋  | 8175/10711 [1:31:11<20:45,  2.04it/s] 76%|███████▋  | 8176/10711 [1:31:11<20:46,  2.03it/s] 76%|███████▋  | 8177/10711 [1:31:12<20:45,  2.03it/s] 76%|███████▋  | 8178/10711 [1:31:12<20:44,  2.04it/s] 76%|███████▋  | 8179/10711 [1:31:13<20:41,  2.04it/s] 76%|███████▋  | 8180/10711 [1:31:13<20:40,  2.04it/s] 76%|███████▋  | 8181/10711 [1:31:14<20:43,  2.04it/s] 76%|███████▋  | 8182/10711 [1:31:14<20:40,  2.04it/s] 76%|███████▋  | 8183/10711 [1:31:15<20:38,  2.04it/s] 76%|███████▋  | 8184/10711 [1:31:15<20:39,  2.04it/s] 76%|███████▋  | 8185/10711 [1:31:16<20:38,  2.04it/s] 76%|███████▋  | 8186/10711 [1:31:16<21:13,  1.98it/s] 76%|███████▋  | 8187/10711 [1:31:17<21:03,  2.00it/s] 76%|███████▋  | 8188/10711 [1:31:17<20:56,  2.01it/s] 76%|███████▋  | 8189/10711 [1:31:18<20:50,  2.02it/s] 76%|███████▋  | 8190/10711 [1:31:18<20:46,  2.02it/s] 76%|███████▋  | 8191/10711 [1:31:19<20:44,  2.03it/s] 76%|███████▋  | 8192/10711 [1:31:19<20:40,  2.03it/s] 76%|███████▋  | 8193/10711 [1:31:20<20:39,  2.03it/s] 77%|███████▋  | 8194/10711 [1:31:20<20:37,  2.03it/s] 77%|███████▋  | 8195/10711 [1:31:21<20:34,  2.04it/s] 77%|███████▋  | 8196/10711 [1:31:21<20:35,  2.04it/s] 77%|███████▋  | 8197/10711 [1:31:22<20:34,  2.04it/s] 77%|███████▋  | 8198/10711 [1:31:22<20:32,  2.04it/s] 77%|███████▋  | 8199/10711 [1:31:23<20:34,  2.04it/s] 77%|███████▋  | 8200/10711 [1:31:23<20:34,  2.03it/s]                                                      {'loss': 3.4043, 'grad_norm': 0.19384083151817322, 'learning_rate': 0.00015830421798672568, 'epoch': 0.77}
 77%|███████▋  | 8200/10711 [1:31:23<20:34,  2.03it/s] 77%|███████▋  | 8201/10711 [1:31:24<20:34,  2.03it/s] 77%|███████▋  | 8202/10711 [1:31:24<20:34,  2.03it/s] 77%|███████▋  | 8203/10711 [1:31:25<20:32,  2.04it/s] 77%|███████▋  | 8204/10711 [1:31:25<20:30,  2.04it/s] 77%|███████▋  | 8205/10711 [1:31:26<20:29,  2.04it/s] 77%|███████▋  | 8206/10711 [1:31:26<20:29,  2.04it/s] 77%|███████▋  | 8207/10711 [1:31:27<20:27,  2.04it/s] 77%|███████▋  | 8208/10711 [1:31:27<20:26,  2.04it/s] 77%|███████▋  | 8209/10711 [1:31:28<20:26,  2.04it/s] 77%|███████▋  | 8210/10711 [1:31:28<20:26,  2.04it/s] 77%|███████▋  | 8211/10711 [1:31:29<20:25,  2.04it/s] 77%|███████▋  | 8212/10711 [1:31:29<20:24,  2.04it/s] 77%|███████▋  | 8213/10711 [1:31:30<20:24,  2.04it/s] 77%|███████▋  | 8214/10711 [1:31:30<20:24,  2.04it/s] 77%|███████▋  | 8215/10711 [1:31:31<20:23,  2.04it/s] 77%|███████▋  | 8216/10711 [1:31:31<20:24,  2.04it/s] 77%|███████▋  | 8217/10711 [1:31:32<20:24,  2.04it/s] 77%|███████▋  | 8218/10711 [1:31:32<20:23,  2.04it/s] 77%|███████▋  | 8219/10711 [1:31:33<20:24,  2.04it/s] 77%|███████▋  | 8220/10711 [1:31:33<20:22,  2.04it/s] 77%|███████▋  | 8221/10711 [1:31:34<20:21,  2.04it/s] 77%|███████▋  | 8222/10711 [1:31:34<20:20,  2.04it/s] 77%|███████▋  | 8223/10711 [1:31:35<20:21,  2.04it/s] 77%|███████▋  | 8224/10711 [1:31:35<20:19,  2.04it/s] 77%|███████▋  | 8225/10711 [1:31:36<20:18,  2.04it/s]                                                      {'loss': 3.4082, 'grad_norm': 0.19296063482761383, 'learning_rate': 0.00015534131466641272, 'epoch': 0.77}
 77%|███████▋  | 8225/10711 [1:31:36<20:18,  2.04it/s] 77%|███████▋  | 8226/10711 [1:31:36<20:23,  2.03it/s] 77%|███████▋  | 8227/10711 [1:31:37<20:20,  2.04it/s] 77%|███████▋  | 8228/10711 [1:31:37<20:19,  2.04it/s] 77%|███████▋  | 8229/10711 [1:31:38<20:19,  2.04it/s] 77%|███████▋  | 8230/10711 [1:31:38<20:18,  2.04it/s] 77%|███████▋  | 8231/10711 [1:31:38<20:18,  2.03it/s] 77%|███████▋  | 8232/10711 [1:31:39<20:18,  2.03it/s] 77%|███████▋  | 8233/10711 [1:31:39<20:17,  2.04it/s] 77%|███████▋  | 8234/10711 [1:31:40<20:16,  2.04it/s] 77%|███████▋  | 8235/10711 [1:31:40<20:15,  2.04it/s] 77%|███████▋  | 8236/10711 [1:31:41<20:15,  2.04it/s] 77%|███████▋  | 8237/10711 [1:31:41<20:15,  2.04it/s] 77%|███████▋  | 8238/10711 [1:31:42<20:14,  2.04it/s] 77%|███████▋  | 8239/10711 [1:31:42<20:15,  2.03it/s] 77%|███████▋  | 8240/10711 [1:31:43<20:12,  2.04it/s] 77%|███████▋  | 8241/10711 [1:31:43<20:12,  2.04it/s] 77%|███████▋  | 8242/10711 [1:31:44<20:11,  2.04it/s] 77%|███████▋  | 8243/10711 [1:31:44<20:09,  2.04it/s] 77%|███████▋  | 8244/10711 [1:31:45<20:12,  2.04it/s] 77%|███████▋  | 8245/10711 [1:31:45<20:11,  2.04it/s] 77%|███████▋  | 8246/10711 [1:31:46<20:09,  2.04it/s] 77%|███████▋  | 8247/10711 [1:31:46<20:21,  2.02it/s] 77%|███████▋  | 8248/10711 [1:31:47<20:16,  2.02it/s] 77%|███████▋  | 8249/10711 [1:31:47<20:14,  2.03it/s] 77%|███████▋  | 8250/10711 [1:31:48<20:12,  2.03it/s]{'loss': 3.4064, 'grad_norm': 0.19185122847557068, 'learning_rate': 0.00015240129380160152, 'epoch': 0.77}
                                                       77%|███████▋  | 8250/10711 [1:31:48<20:12,  2.03it/s] 77%|███████▋  | 8251/10711 [1:31:48<20:13,  2.03it/s] 77%|███████▋  | 8252/10711 [1:31:49<20:12,  2.03it/s] 77%|███████▋  | 8253/10711 [1:31:49<20:09,  2.03it/s] 77%|███████▋  | 8254/10711 [1:31:50<20:10,  2.03it/s] 77%|███████▋  | 8255/10711 [1:31:50<20:08,  2.03it/s] 77%|███████▋  | 8256/10711 [1:31:51<20:06,  2.03it/s] 77%|███████▋  | 8257/10711 [1:31:51<20:06,  2.03it/s] 77%|███████▋  | 8258/10711 [1:31:52<20:04,  2.04it/s] 77%|███████▋  | 8259/10711 [1:31:52<20:06,  2.03it/s] 77%|███████▋  | 8260/10711 [1:31:53<20:05,  2.03it/s] 77%|███████▋  | 8261/10711 [1:31:53<20:04,  2.03it/s] 77%|███████▋  | 8262/10711 [1:31:54<20:03,  2.03it/s] 77%|███████▋  | 8263/10711 [1:31:54<20:02,  2.04it/s] 77%|███████▋  | 8264/10711 [1:31:55<20:01,  2.04it/s] 77%|███████▋  | 8265/10711 [1:31:55<20:01,  2.04it/s] 77%|███████▋  | 8266/10711 [1:31:56<20:00,  2.04it/s] 77%|███████▋  | 8267/10711 [1:31:56<19:59,  2.04it/s] 77%|███████▋  | 8268/10711 [1:31:57<19:58,  2.04it/s] 77%|███████▋  | 8269/10711 [1:31:57<20:00,  2.03it/s] 77%|███████▋  | 8270/10711 [1:31:58<19:58,  2.04it/s] 77%|███████▋  | 8271/10711 [1:31:58<19:59,  2.03it/s] 77%|███████▋  | 8272/10711 [1:31:59<19:58,  2.04it/s] 77%|███████▋  | 8273/10711 [1:31:59<19:56,  2.04it/s] 77%|███████▋  | 8274/10711 [1:32:00<19:57,  2.04it/s] 77%|███████▋  | 8275/10711 [1:32:00<19:56,  2.04it/s]{'loss': 3.4049, 'grad_norm': 0.19317024946212769, 'learning_rate': 0.00014948435058510036, 'epoch': 0.77}                                                      
 77%|███████▋  | 8275/10711 [1:32:00<19:56,  2.04it/s] 77%|███████▋  | 8276/10711 [1:32:01<19:56,  2.03it/s] 77%|███████▋  | 8277/10711 [1:32:01<19:57,  2.03it/s] 77%|███████▋  | 8278/10711 [1:32:02<19:55,  2.04it/s] 77%|███████▋  | 8279/10711 [1:32:02<19:53,  2.04it/s] 77%|███████▋  | 8280/10711 [1:32:03<19:53,  2.04it/s] 77%|███████▋  | 8281/10711 [1:32:03<19:52,  2.04it/s] 77%|███████▋  | 8282/10711 [1:32:04<19:51,  2.04it/s] 77%|███████▋  | 8283/10711 [1:32:04<19:50,  2.04it/s] 77%|███████▋  | 8284/10711 [1:32:05<19:50,  2.04it/s] 77%|███████▋  | 8285/10711 [1:32:05<19:51,  2.04it/s] 77%|███████▋  | 8286/10711 [1:32:06<19:50,  2.04it/s] 77%|███████▋  | 8287/10711 [1:32:06<19:51,  2.03it/s] 77%|███████▋  | 8288/10711 [1:32:07<19:49,  2.04it/s] 77%|███████▋  | 8289/10711 [1:32:07<19:49,  2.04it/s] 77%|███████▋  | 8290/10711 [1:32:07<19:49,  2.03it/s] 77%|███████▋  | 8291/10711 [1:32:08<19:49,  2.03it/s] 77%|███████▋  | 8292/10711 [1:32:08<19:47,  2.04it/s] 77%|███████▋  | 8293/10711 [1:32:09<19:48,  2.04it/s] 77%|███████▋  | 8294/10711 [1:32:09<19:46,  2.04it/s] 77%|███████▋  | 8295/10711 [1:32:10<19:59,  2.01it/s] 77%|███████▋  | 8296/10711 [1:32:10<19:54,  2.02it/s] 77%|███████▋  | 8297/10711 [1:32:11<19:50,  2.03it/s] 77%|███████▋  | 8298/10711 [1:32:11<19:48,  2.03it/s] 77%|███████▋  | 8299/10711 [1:32:12<19:47,  2.03it/s] 77%|███████▋  | 8300/10711 [1:32:12<19:46,  2.03it/s]{'loss': 3.3967, 'grad_norm': 0.19481945037841797, 'learning_rate': 0.00014659067867755428, 'epoch': 0.77}                                                      
 77%|███████▋  | 8300/10711 [1:32:12<19:46,  2.03it/s] 77%|███████▋  | 8301/10711 [1:32:13<19:45,  2.03it/s] 78%|███████▊  | 8302/10711 [1:32:13<19:46,  2.03it/s] 78%|███████▊  | 8303/10711 [1:32:14<19:44,  2.03it/s] 78%|███████▊  | 8304/10711 [1:32:14<19:42,  2.04it/s] 78%|███████▊  | 8305/10711 [1:32:15<19:40,  2.04it/s] 78%|███████▊  | 8306/10711 [1:32:15<19:40,  2.04it/s] 78%|███████▊  | 8307/10711 [1:32:16<19:41,  2.04it/s] 78%|███████▊  | 8308/10711 [1:32:16<19:39,  2.04it/s] 78%|███████▊  | 8309/10711 [1:32:17<19:39,  2.04it/s] 78%|███████▊  | 8310/10711 [1:32:17<19:39,  2.03it/s] 78%|███████▊  | 8311/10711 [1:32:18<19:38,  2.04it/s] 78%|███████▊  | 8312/10711 [1:32:18<19:37,  2.04it/s] 78%|███████▊  | 8313/10711 [1:32:19<19:38,  2.04it/s] 78%|███████▊  | 8314/10711 [1:32:19<19:37,  2.04it/s] 78%|███████▊  | 8315/10711 [1:32:20<19:37,  2.04it/s] 78%|███████▊  | 8316/10711 [1:32:20<19:36,  2.04it/s] 78%|███████▊  | 8317/10711 [1:32:21<19:35,  2.04it/s] 78%|███████▊  | 8318/10711 [1:32:21<19:35,  2.04it/s] 78%|███████▊  | 8319/10711 [1:32:22<19:36,  2.03it/s] 78%|███████▊  | 8320/10711 [1:32:22<19:34,  2.03it/s] 78%|███████▊  | 8321/10711 [1:32:23<19:33,  2.04it/s] 78%|███████▊  | 8322/10711 [1:32:23<19:34,  2.03it/s] 78%|███████▊  | 8323/10711 [1:32:24<19:33,  2.03it/s] 78%|███████▊  | 8324/10711 [1:32:24<19:32,  2.04it/s] 78%|███████▊  | 8325/10711 [1:32:25<19:31,  2.04it/s]{'loss': 3.3927, 'grad_norm': 0.19703340530395508, 'learning_rate': 0.00014372047019458784, 'epoch': 0.78}
                                                       78%|███████▊  | 8325/10711 [1:32:25<19:31,  2.04it/s] 78%|███████▊  | 8326/10711 [1:32:25<19:32,  2.03it/s] 78%|███████▊  | 8327/10711 [1:32:26<19:32,  2.03it/s] 78%|███████▊  | 8328/10711 [1:32:26<19:32,  2.03it/s] 78%|███████▊  | 8329/10711 [1:32:27<19:30,  2.04it/s] 78%|███████▊  | 8330/10711 [1:32:27<19:31,  2.03it/s] 78%|███████▊  | 8331/10711 [1:32:28<19:30,  2.03it/s] 78%|███████▊  | 8332/10711 [1:32:28<19:28,  2.04it/s] 78%|███████▊  | 8333/10711 [1:32:29<19:26,  2.04it/s] 78%|███████▊  | 8334/10711 [1:32:29<19:27,  2.04it/s] 78%|███████▊  | 8335/10711 [1:32:30<19:27,  2.03it/s] 78%|███████▊  | 8336/10711 [1:32:30<19:25,  2.04it/s] 78%|███████▊  | 8337/10711 [1:32:31<19:25,  2.04it/s] 78%|███████▊  | 8338/10711 [1:32:31<19:25,  2.04it/s] 78%|███████▊  | 8339/10711 [1:32:32<19:23,  2.04it/s] 78%|███████▊  | 8340/10711 [1:32:32<19:23,  2.04it/s] 78%|███████▊  | 8341/10711 [1:32:33<19:23,  2.04it/s] 78%|███████▊  | 8342/10711 [1:32:33<19:22,  2.04it/s] 78%|███████▊  | 8343/10711 [1:32:34<19:22,  2.04it/s] 78%|███████▊  | 8344/10711 [1:32:34<19:21,  2.04it/s] 78%|███████▊  | 8345/10711 [1:32:35<19:21,  2.04it/s] 78%|███████▊  | 8346/10711 [1:32:35<19:20,  2.04it/s] 78%|███████▊  | 8347/10711 [1:32:36<19:22,  2.03it/s] 78%|███████▊  | 8348/10711 [1:32:36<19:21,  2.03it/s] 78%|███████▊  | 8349/10711 [1:32:36<19:21,  2.03it/s] 78%|███████▊  | 8350/10711 [1:32:37<19:21,  2.03it/s]{'loss': 3.4083, 'grad_norm': 0.20176276564598083, 'learning_rate': 0.00014087391569405107, 'epoch': 0.78}
                                                       78%|███████▊  | 8350/10711 [1:32:37<19:21,  2.03it/s] 78%|███████▊  | 8351/10711 [1:32:37<19:21,  2.03it/s] 78%|███████▊  | 8352/10711 [1:32:38<19:21,  2.03it/s] 78%|███████▊  | 8353/10711 [1:32:38<19:19,  2.03it/s] 78%|███████▊  | 8354/10711 [1:32:39<19:17,  2.04it/s] 78%|███████▊  | 8355/10711 [1:32:39<19:17,  2.03it/s] 78%|███████▊  | 8356/10711 [1:32:40<19:17,  2.04it/s] 78%|███████▊  | 8357/10711 [1:32:40<19:15,  2.04it/s] 78%|███████▊  | 8358/10711 [1:32:41<19:15,  2.04it/s] 78%|███████▊  | 8359/10711 [1:32:41<19:16,  2.03it/s] 78%|███████▊  | 8360/10711 [1:32:42<19:14,  2.04it/s] 78%|███████▊  | 8361/10711 [1:32:42<19:15,  2.03it/s] 78%|███████▊  | 8362/10711 [1:32:43<19:15,  2.03it/s] 78%|███████▊  | 8363/10711 [1:32:43<19:14,  2.03it/s] 78%|███████▊  | 8364/10711 [1:32:44<19:14,  2.03it/s] 78%|███████▊  | 8365/10711 [1:32:44<19:12,  2.04it/s] 78%|███████▊  | 8366/10711 [1:32:45<19:11,  2.04it/s] 78%|███████▊  | 8367/10711 [1:32:45<19:11,  2.04it/s] 78%|███████▊  | 8368/10711 [1:32:46<19:12,  2.03it/s] 78%|███████▊  | 8369/10711 [1:32:46<19:11,  2.03it/s] 78%|███████▊  | 8370/10711 [1:32:47<19:11,  2.03it/s] 78%|███████▊  | 8371/10711 [1:32:47<19:09,  2.04it/s] 78%|███████▊  | 8372/10711 [1:32:48<19:06,  2.04it/s] 78%|███████▊  | 8373/10711 [1:32:48<19:08,  2.04it/s] 78%|███████▊  | 8374/10711 [1:32:49<19:07,  2.04it/s] 78%|███████▊  | 8375/10711 [1:32:49<19:06,  2.04it/s]{'loss': 3.4081, 'grad_norm': 0.19808316230773926, 'learning_rate': 0.00013805120416336607, 'epoch': 0.78}                                                      
 78%|███████▊  | 8375/10711 [1:32:49<19:06,  2.04it/s] 78%|███████▊  | 8376/10711 [1:32:50<19:10,  2.03it/s] 78%|███████▊  | 8377/10711 [1:32:50<19:08,  2.03it/s] 78%|███████▊  | 8378/10711 [1:32:51<19:09,  2.03it/s] 78%|███████▊  | 8379/10711 [1:32:51<19:08,  2.03it/s] 78%|███████▊  | 8380/10711 [1:32:52<19:06,  2.03it/s] 78%|███████▊  | 8381/10711 [1:32:52<19:05,  2.03it/s] 78%|███████▊  | 8382/10711 [1:32:53<19:04,  2.03it/s] 78%|███████▊  | 8383/10711 [1:32:53<19:03,  2.04it/s] 78%|███████▊  | 8384/10711 [1:32:54<19:03,  2.04it/s] 78%|███████▊  | 8385/10711 [1:32:54<19:04,  2.03it/s] 78%|███████▊  | 8386/10711 [1:32:55<19:03,  2.03it/s] 78%|███████▊  | 8387/10711 [1:32:55<19:01,  2.04it/s] 78%|███████▊  | 8388/10711 [1:32:56<19:02,  2.03it/s] 78%|███████▊  | 8389/10711 [1:32:56<19:00,  2.04it/s] 78%|███████▊  | 8390/10711 [1:32:57<18:59,  2.04it/s] 78%|███████▊  | 8391/10711 [1:32:57<18:58,  2.04it/s] 78%|███████▊  | 8392/10711 [1:32:58<18:59,  2.03it/s] 78%|███████▊  | 8393/10711 [1:32:58<18:57,  2.04it/s] 78%|███████▊  | 8394/10711 [1:32:59<18:58,  2.03it/s] 78%|███████▊  | 8395/10711 [1:32:59<18:59,  2.03it/s] 78%|███████▊  | 8396/10711 [1:33:00<18:57,  2.04it/s] 78%|███████▊  | 8397/10711 [1:33:00<18:55,  2.04it/s] 78%|███████▊  | 8398/10711 [1:33:01<18:54,  2.04it/s] 78%|███████▊  | 8399/10711 [1:33:01<18:54,  2.04it/s] 78%|███████▊  | 8400/10711 [1:33:02<18:54,  2.04it/s]{'loss': 3.3985, 'grad_norm': 0.19964425265789032, 'learning_rate': 0.00013525252300698238, 'epoch': 0.78}                                                      
 78%|███████▊  | 8400/10711 [1:33:02<18:54,  2.04it/s] 78%|███████▊  | 8401/10711 [1:33:02<18:56,  2.03it/s] 78%|███████▊  | 8402/10711 [1:33:03<18:55,  2.03it/s] 78%|███████▊  | 8403/10711 [1:33:03<18:55,  2.03it/s] 78%|███████▊  | 8404/10711 [1:33:04<18:54,  2.03it/s] 78%|███████▊  | 8405/10711 [1:33:04<18:53,  2.03it/s] 78%|███████▊  | 8406/10711 [1:33:05<18:53,  2.03it/s] 78%|███████▊  | 8407/10711 [1:33:05<18:53,  2.03it/s] 78%|███████▊  | 8408/10711 [1:33:05<18:53,  2.03it/s] 79%|███████▊  | 8409/10711 [1:33:06<18:52,  2.03it/s] 79%|███████▊  | 8410/10711 [1:33:06<18:51,  2.03it/s] 79%|███████▊  | 8411/10711 [1:33:07<18:51,  2.03it/s] 79%|███████▊  | 8412/10711 [1:33:07<18:51,  2.03it/s] 79%|███████▊  | 8413/10711 [1:33:08<18:50,  2.03it/s] 79%|███████▊  | 8414/10711 [1:33:08<18:49,  2.03it/s] 79%|███████▊  | 8415/10711 [1:33:09<18:48,  2.03it/s] 79%|███████▊  | 8416/10711 [1:33:09<18:49,  2.03it/s] 79%|███████▊  | 8417/10711 [1:33:10<18:48,  2.03it/s] 79%|███████▊  | 8418/10711 [1:33:10<18:47,  2.03it/s] 79%|███████▊  | 8419/10711 [1:33:11<18:47,  2.03it/s] 79%|███████▊  | 8420/10711 [1:33:11<18:45,  2.04it/s] 79%|███████▊  | 8421/10711 [1:33:12<18:44,  2.04it/s] 79%|███████▊  | 8422/10711 [1:33:12<18:44,  2.04it/s] 79%|███████▊  | 8423/10711 [1:33:13<18:43,  2.04it/s] 79%|███████▊  | 8424/10711 [1:33:13<18:41,  2.04it/s] 79%|███████▊  | 8425/10711 [1:33:14<18:42,  2.04it/s]{'loss': 3.3972, 'grad_norm': 0.20350711047649384, 'learning_rate': 0.0001324780580339326, 'epoch': 0.79}                                                      
 79%|███████▊  | 8425/10711 [1:33:14<18:42,  2.04it/s] 79%|███████▊  | 8426/10711 [1:33:14<18:44,  2.03it/s] 79%|███████▊  | 8427/10711 [1:33:15<18:46,  2.03it/s] 79%|███████▊  | 8428/10711 [1:33:15<18:44,  2.03it/s] 79%|███████▊  | 8429/10711 [1:33:16<18:41,  2.03it/s] 79%|███████▊  | 8430/10711 [1:33:16<18:42,  2.03it/s] 79%|███████▊  | 8431/10711 [1:33:17<18:39,  2.04it/s] 79%|███████▊  | 8432/10711 [1:33:17<18:39,  2.04it/s] 79%|███████▊  | 8433/10711 [1:33:18<18:38,  2.04it/s] 79%|███████▊  | 8434/10711 [1:33:18<18:39,  2.03it/s] 79%|███████▉  | 8435/10711 [1:33:19<18:38,  2.03it/s] 79%|███████▉  | 8436/10711 [1:33:19<18:38,  2.03it/s] 79%|███████▉  | 8437/10711 [1:33:20<18:38,  2.03it/s] 79%|███████▉  | 8438/10711 [1:33:20<18:37,  2.03it/s] 79%|███████▉  | 8439/10711 [1:33:21<18:37,  2.03it/s] 79%|███████▉  | 8440/10711 [1:33:21<18:36,  2.03it/s] 79%|███████▉  | 8441/10711 [1:33:22<18:36,  2.03it/s] 79%|███████▉  | 8442/10711 [1:33:22<18:36,  2.03it/s] 79%|███████▉  | 8443/10711 [1:33:23<18:36,  2.03it/s] 79%|███████▉  | 8444/10711 [1:33:23<18:34,  2.03it/s] 79%|███████▉  | 8445/10711 [1:33:24<18:34,  2.03it/s] 79%|███████▉  | 8446/10711 [1:33:24<18:33,  2.03it/s] 79%|███████▉  | 8447/10711 [1:33:25<18:32,  2.03it/s] 79%|███████▉  | 8448/10711 [1:33:25<18:32,  2.03it/s] 79%|███████▉  | 8449/10711 [1:33:26<18:30,  2.04it/s] 79%|███████▉  | 8450/10711 [1:33:26<18:30,  2.04it/s]{'loss': 3.4031, 'grad_norm': 0.1941317915916443, 'learning_rate': 0.0001297279934454978, 'epoch': 0.79}                                                      
 79%|███████▉  | 8450/10711 [1:33:26<18:30,  2.04it/s] 79%|███████▉  | 8451/10711 [1:33:27<18:32,  2.03it/s] 79%|███████▉  | 8452/10711 [1:33:27<18:30,  2.03it/s] 79%|███████▉  | 8453/10711 [1:33:28<18:31,  2.03it/s] 79%|███████▉  | 8454/10711 [1:33:28<18:30,  2.03it/s] 79%|███████▉  | 8455/10711 [1:33:29<18:28,  2.04it/s] 79%|███████▉  | 8456/10711 [1:33:29<18:27,  2.04it/s] 79%|███████▉  | 8457/10711 [1:33:30<18:28,  2.03it/s] 79%|███████▉  | 8458/10711 [1:33:30<18:27,  2.03it/s] 79%|███████▉  | 8459/10711 [1:33:31<18:26,  2.03it/s] 79%|███████▉  | 8460/10711 [1:33:31<18:26,  2.03it/s] 79%|███████▉  | 8461/10711 [1:33:32<18:25,  2.04it/s] 79%|███████▉  | 8462/10711 [1:33:32<18:26,  2.03it/s] 79%|███████▉  | 8463/10711 [1:33:33<18:26,  2.03it/s] 79%|███████▉  | 8464/10711 [1:33:33<18:23,  2.04it/s] 79%|███████▉  | 8465/10711 [1:33:34<18:22,  2.04it/s] 79%|███████▉  | 8466/10711 [1:33:34<18:24,  2.03it/s] 79%|███████▉  | 8467/10711 [1:33:34<18:23,  2.03it/s] 79%|███████▉  | 8468/10711 [1:33:35<18:22,  2.03it/s] 79%|███████▉  | 8469/10711 [1:33:35<18:21,  2.03it/s] 79%|███████▉  | 8470/10711 [1:33:36<18:21,  2.03it/s] 79%|███████▉  | 8471/10711 [1:33:36<18:22,  2.03it/s] 79%|███████▉  | 8472/10711 [1:33:37<18:21,  2.03it/s] 79%|███████▉  | 8473/10711 [1:33:37<18:20,  2.03it/s] 79%|███████▉  | 8474/10711 [1:33:38<18:19,  2.03it/s] 79%|███████▉  | 8475/10711 [1:33:38<18:19,  2.03it/s]{'loss': 3.4001, 'grad_norm': 0.20166611671447754, 'learning_rate': 0.00012700251182297712, 'epoch': 0.79}
                                                       79%|███████▉  | 8475/10711 [1:33:38<18:19,  2.03it/s] 79%|███████▉  | 8476/10711 [1:33:39<18:22,  2.03it/s] 79%|███████▉  | 8477/10711 [1:33:39<18:21,  2.03it/s] 79%|███████▉  | 8478/10711 [1:33:40<18:19,  2.03it/s] 79%|███████▉  | 8479/10711 [1:33:40<18:18,  2.03it/s] 79%|███████▉  | 8480/10711 [1:33:41<18:17,  2.03it/s] 79%|███████▉  | 8481/10711 [1:33:41<18:16,  2.03it/s] 79%|███████▉  | 8482/10711 [1:33:42<18:15,  2.03it/s] 79%|███████▉  | 8483/10711 [1:33:42<18:16,  2.03it/s] 79%|███████▉  | 8484/10711 [1:33:43<18:15,  2.03it/s] 79%|███████▉  | 8485/10711 [1:33:43<18:15,  2.03it/s] 79%|███████▉  | 8486/10711 [1:33:44<18:13,  2.04it/s] 79%|███████▉  | 8487/10711 [1:33:44<18:12,  2.04it/s] 79%|███████▉  | 8488/10711 [1:33:45<18:12,  2.04it/s] 79%|███████▉  | 8489/10711 [1:33:45<18:09,  2.04it/s] 79%|███████▉  | 8490/10711 [1:33:46<18:09,  2.04it/s] 79%|███████▉  | 8491/10711 [1:33:46<18:11,  2.03it/s] 79%|███████▉  | 8492/10711 [1:33:47<18:09,  2.04it/s] 79%|███████▉  | 8493/10711 [1:33:47<18:09,  2.04it/s] 79%|███████▉  | 8494/10711 [1:33:48<18:08,  2.04it/s] 79%|███████▉  | 8495/10711 [1:33:48<18:08,  2.04it/s] 79%|███████▉  | 8496/10711 [1:33:49<18:06,  2.04it/s] 79%|███████▉  | 8497/10711 [1:33:49<18:07,  2.04it/s] 79%|███████▉  | 8498/10711 [1:33:50<18:06,  2.04it/s] 79%|███████▉  | 8499/10711 [1:33:50<18:05,  2.04it/s] 79%|███████▉  | 8500/10711 [1:33:51<18:04,  2.04it/s]{'loss': 3.4027, 'grad_norm': 0.19495181739330292, 'learning_rate': 0.0001243017941155663, 'epoch': 0.79}
                                                       79%|███████▉  | 8500/10711 [1:33:51<18:04,  2.04it/s] 79%|███████▉  | 8501/10711 [1:33:51<18:07,  2.03it/s] 79%|███████▉  | 8502/10711 [1:33:52<18:07,  2.03it/s] 79%|███████▉  | 8503/10711 [1:33:52<18:05,  2.03it/s] 79%|███████▉  | 8504/10711 [1:33:53<18:05,  2.03it/s] 79%|███████▉  | 8505/10711 [1:33:53<18:04,  2.03it/s] 79%|███████▉  | 8506/10711 [1:33:54<18:03,  2.03it/s] 79%|███████▉  | 8507/10711 [1:33:54<18:02,  2.04it/s] 79%|███████▉  | 8508/10711 [1:33:55<18:03,  2.03it/s] 79%|███████▉  | 8509/10711 [1:33:55<18:02,  2.03it/s] 79%|███████▉  | 8510/10711 [1:33:56<18:00,  2.04it/s] 79%|███████▉  | 8511/10711 [1:33:56<17:59,  2.04it/s] 79%|███████▉  | 8512/10711 [1:33:57<17:59,  2.04it/s] 79%|███████▉  | 8513/10711 [1:33:57<17:58,  2.04it/s] 79%|███████▉  | 8514/10711 [1:33:58<17:57,  2.04it/s] 79%|███████▉  | 8515/10711 [1:33:58<17:57,  2.04it/s] 80%|███████▉  | 8516/10711 [1:33:59<17:57,  2.04it/s] 80%|███████▉  | 8517/10711 [1:33:59<17:56,  2.04it/s] 80%|███████▉  | 8518/10711 [1:34:00<17:57,  2.03it/s] 80%|███████▉  | 8519/10711 [1:34:00<17:58,  2.03it/s] 80%|███████▉  | 8520/10711 [1:34:01<17:55,  2.04it/s] 80%|███████▉  | 8521/10711 [1:34:01<17:56,  2.03it/s] 80%|███████▉  | 8522/10711 [1:34:02<17:55,  2.04it/s] 80%|███████▉  | 8523/10711 [1:34:02<17:54,  2.04it/s] 80%|███████▉  | 8524/10711 [1:34:03<17:54,  2.04it/s] 80%|███████▉  | 8525/10711 [1:34:03<17:54,  2.03it/s]{'loss': 3.3902, 'grad_norm': 0.19743217527866364, 'learning_rate': 0.00012162601962834451, 'epoch': 0.8}                                                      
 80%|███████▉  | 8525/10711 [1:34:03<17:54,  2.03it/s] 80%|███████▉  | 8526/10711 [1:34:03<17:57,  2.03it/s] 80%|███████▉  | 8527/10711 [1:34:04<17:57,  2.03it/s] 80%|███████▉  | 8528/10711 [1:34:04<17:54,  2.03it/s] 80%|███████▉  | 8529/10711 [1:34:05<17:54,  2.03it/s] 80%|███████▉  | 8530/10711 [1:34:05<17:53,  2.03it/s] 80%|███████▉  | 8531/10711 [1:34:06<17:52,  2.03it/s] 80%|███████▉  | 8532/10711 [1:34:06<17:53,  2.03it/s] 80%|███████▉  | 8533/10711 [1:34:07<17:51,  2.03it/s] 80%|███████▉  | 8534/10711 [1:34:07<17:51,  2.03it/s] 80%|███████▉  | 8535/10711 [1:34:08<17:50,  2.03it/s] 80%|███████▉  | 8536/10711 [1:34:08<17:48,  2.03it/s] 80%|███████▉  | 8537/10711 [1:34:09<17:47,  2.04it/s] 80%|███████▉  | 8538/10711 [1:34:09<17:47,  2.04it/s] 80%|███████▉  | 8539/10711 [1:34:10<17:47,  2.03it/s] 80%|███████▉  | 8540/10711 [1:34:10<17:46,  2.04it/s] 80%|███████▉  | 8541/10711 [1:34:11<17:47,  2.03it/s] 80%|███████▉  | 8542/10711 [1:34:11<17:46,  2.03it/s] 80%|███████▉  | 8543/10711 [1:34:12<17:46,  2.03it/s] 80%|███████▉  | 8544/10711 [1:34:12<17:46,  2.03it/s] 80%|███████▉  | 8545/10711 [1:34:13<17:44,  2.03it/s] 80%|███████▉  | 8546/10711 [1:34:13<17:44,  2.03it/s] 80%|███████▉  | 8547/10711 [1:34:14<17:44,  2.03it/s] 80%|███████▉  | 8548/10711 [1:34:14<17:42,  2.04it/s] 80%|███████▉  | 8549/10711 [1:34:15<17:43,  2.03it/s] 80%|███████▉  | 8550/10711 [1:34:15<17:41,  2.04it/s]{'loss': 3.3927, 'grad_norm': 0.19309531152248383, 'learning_rate': 0.00011897536601036918, 'epoch': 0.8}
                                                       80%|███████▉  | 8550/10711 [1:34:15<17:41,  2.04it/s] 80%|███████▉  | 8551/10711 [1:34:16<17:43,  2.03it/s] 80%|███████▉  | 8552/10711 [1:34:16<17:43,  2.03it/s] 80%|███████▉  | 8553/10711 [1:34:17<17:42,  2.03it/s] 80%|███████▉  | 8554/10711 [1:34:17<17:42,  2.03it/s] 80%|███████▉  | 8555/10711 [1:34:18<17:41,  2.03it/s] 80%|███████▉  | 8556/10711 [1:34:18<17:41,  2.03it/s] 80%|███████▉  | 8557/10711 [1:34:19<17:40,  2.03it/s] 80%|███████▉  | 8558/10711 [1:34:19<17:40,  2.03it/s] 80%|███████▉  | 8559/10711 [1:34:20<17:40,  2.03it/s] 80%|███████▉  | 8560/10711 [1:34:20<17:38,  2.03it/s] 80%|███████▉  | 8561/10711 [1:34:21<17:37,  2.03it/s] 80%|███████▉  | 8562/10711 [1:34:21<17:37,  2.03it/s] 80%|███████▉  | 8563/10711 [1:34:22<17:36,  2.03it/s] 80%|███████▉  | 8564/10711 [1:34:22<17:37,  2.03it/s] 80%|███████▉  | 8565/10711 [1:34:23<17:35,  2.03it/s] 80%|███████▉  | 8566/10711 [1:34:23<17:34,  2.04it/s] 80%|███████▉  | 8567/10711 [1:34:24<17:33,  2.03it/s] 80%|███████▉  | 8568/10711 [1:34:24<17:33,  2.03it/s] 80%|████████  | 8569/10711 [1:34:25<17:31,  2.04it/s] 80%|████████  | 8570/10711 [1:34:25<17:31,  2.04it/s] 80%|████████  | 8571/10711 [1:34:26<17:31,  2.03it/s] 80%|████████  | 8572/10711 [1:34:26<17:30,  2.04it/s] 80%|████████  | 8573/10711 [1:34:27<17:30,  2.03it/s] 80%|████████  | 8574/10711 [1:34:27<17:30,  2.03it/s] 80%|████████  | 8575/10711 [1:34:28<17:30,  2.03it/s]{'loss': 3.4009, 'grad_norm': 0.19332259893417358, 'learning_rate': 0.00011635000924288197, 'epoch': 0.8}                                                      
 80%|████████  | 8575/10711 [1:34:28<17:30,  2.03it/s] 80%|████████  | 8576/10711 [1:34:28<17:33,  2.03it/s] 80%|████████  | 8577/10711 [1:34:29<17:32,  2.03it/s] 80%|████████  | 8578/10711 [1:34:29<17:30,  2.03it/s] 80%|████████  | 8579/10711 [1:34:30<17:29,  2.03it/s] 80%|████████  | 8580/10711 [1:34:30<17:29,  2.03it/s] 80%|████████  | 8581/10711 [1:34:31<17:28,  2.03it/s] 80%|████████  | 8582/10711 [1:34:31<17:26,  2.03it/s] 80%|████████  | 8583/10711 [1:34:32<17:25,  2.04it/s] 80%|████████  | 8584/10711 [1:34:32<17:27,  2.03it/s] 80%|████████  | 8585/10711 [1:34:33<17:26,  2.03it/s] 80%|████████  | 8586/10711 [1:34:33<17:25,  2.03it/s] 80%|████████  | 8587/10711 [1:34:34<17:24,  2.03it/s] 80%|████████  | 8588/10711 [1:34:34<17:23,  2.03it/s] 80%|████████  | 8589/10711 [1:34:34<17:22,  2.04it/s] 80%|████████  | 8590/10711 [1:34:35<17:23,  2.03it/s] 80%|████████  | 8591/10711 [1:34:35<17:22,  2.03it/s] 80%|████████  | 8592/10711 [1:34:36<17:22,  2.03it/s] 80%|████████  | 8593/10711 [1:34:36<17:22,  2.03it/s] 80%|████████  | 8594/10711 [1:34:37<17:19,  2.04it/s] 80%|████████  | 8595/10711 [1:34:37<17:20,  2.03it/s] 80%|████████  | 8596/10711 [1:34:38<17:20,  2.03it/s] 80%|████████  | 8597/10711 [1:34:38<17:18,  2.04it/s] 80%|████████  | 8598/10711 [1:34:39<17:17,  2.04it/s] 80%|████████  | 8599/10711 [1:34:39<17:18,  2.03it/s] 80%|████████  | 8600/10711 [1:34:40<17:16,  2.04it/s]                                                      {'loss': 3.3908, 'grad_norm': 0.19132378697395325, 'learning_rate': 0.00011375012362762571, 'epoch': 0.8}
 80%|████████  | 8600/10711 [1:34:40<17:16,  2.04it/s] 80%|████████  | 8601/10711 [1:34:40<17:19,  2.03it/s] 80%|████████  | 8602/10711 [1:34:41<17:18,  2.03it/s] 80%|████████  | 8603/10711 [1:34:41<17:17,  2.03it/s] 80%|████████  | 8604/10711 [1:34:42<17:16,  2.03it/s] 80%|████████  | 8605/10711 [1:34:42<17:15,  2.03it/s] 80%|████████  | 8606/10711 [1:34:43<17:13,  2.04it/s] 80%|████████  | 8607/10711 [1:34:43<17:15,  2.03it/s] 80%|████████  | 8608/10711 [1:34:44<17:14,  2.03it/s] 80%|████████  | 8609/10711 [1:34:44<17:13,  2.03it/s] 80%|████████  | 8610/10711 [1:34:45<17:12,  2.03it/s] 80%|████████  | 8611/10711 [1:34:45<17:11,  2.04it/s] 80%|████████  | 8612/10711 [1:34:46<17:10,  2.04it/s] 80%|████████  | 8613/10711 [1:34:46<17:09,  2.04it/s] 80%|████████  | 8614/10711 [1:34:47<17:10,  2.04it/s] 80%|████████  | 8615/10711 [1:34:47<17:09,  2.04it/s] 80%|████████  | 8616/10711 [1:34:48<17:09,  2.03it/s] 80%|████████  | 8617/10711 [1:34:48<17:09,  2.03it/s] 80%|████████  | 8618/10711 [1:34:49<17:09,  2.03it/s] 80%|████████  | 8619/10711 [1:34:49<17:07,  2.04it/s] 80%|████████  | 8620/10711 [1:34:50<17:06,  2.04it/s] 80%|████████  | 8621/10711 [1:34:50<17:06,  2.04it/s] 80%|████████  | 8622/10711 [1:34:51<17:07,  2.03it/s] 81%|████████  | 8623/10711 [1:34:51<17:06,  2.03it/s] 81%|████████  | 8624/10711 [1:34:52<17:05,  2.04it/s] 81%|████████  | 8625/10711 [1:34:52<17:05,  2.03it/s]{'loss': 3.3872, 'grad_norm': 0.2002832591533661, 'learning_rate': 0.000111175881775271, 'epoch': 0.81}
                                                       81%|████████  | 8625/10711 [1:34:52<17:05,  2.03it/s] 81%|████████  | 8626/10711 [1:34:53<17:06,  2.03it/s] 81%|████████  | 8627/10711 [1:34:53<17:05,  2.03it/s] 81%|████████  | 8628/10711 [1:34:54<17:04,  2.03it/s] 81%|████████  | 8629/10711 [1:34:54<17:03,  2.03it/s] 81%|████████  | 8630/10711 [1:34:55<17:02,  2.03it/s] 81%|████████  | 8631/10711 [1:34:55<17:03,  2.03it/s] 81%|████████  | 8632/10711 [1:34:56<17:03,  2.03it/s] 81%|████████  | 8633/10711 [1:34:56<17:03,  2.03it/s] 81%|████████  | 8634/10711 [1:34:57<17:02,  2.03it/s] 81%|████████  | 8635/10711 [1:34:57<17:00,  2.03it/s] 81%|████████  | 8636/10711 [1:34:58<17:00,  2.03it/s] 81%|████████  | 8637/10711 [1:34:58<17:00,  2.03it/s] 81%|████████  | 8638/10711 [1:34:59<16:58,  2.03it/s] 81%|████████  | 8639/10711 [1:34:59<16:58,  2.03it/s] 81%|████████  | 8640/10711 [1:35:00<16:59,  2.03it/s] 81%|████████  | 8641/10711 [1:35:00<16:56,  2.04it/s] 81%|████████  | 8642/10711 [1:35:01<16:55,  2.04it/s] 81%|████████  | 8643/10711 [1:35:01<16:55,  2.04it/s] 81%|████████  | 8644/10711 [1:35:02<16:55,  2.04it/s] 81%|████████  | 8645/10711 [1:35:02<16:54,  2.04it/s] 81%|████████  | 8646/10711 [1:35:03<16:54,  2.04it/s] 81%|████████  | 8647/10711 [1:35:03<16:53,  2.04it/s] 81%|████████  | 8648/10711 [1:35:03<16:53,  2.04it/s] 81%|████████  | 8649/10711 [1:35:04<16:51,  2.04it/s] 81%|████████  | 8650/10711 [1:35:04<16:51,  2.04it/s]                                                      {'loss': 3.3988, 'grad_norm': 0.20013058185577393, 'learning_rate': 0.0001086274545939574, 'epoch': 0.81}
 81%|████████  | 8650/10711 [1:35:04<16:51,  2.04it/s] 81%|████████  | 8651/10711 [1:35:05<16:53,  2.03it/s] 81%|████████  | 8652/10711 [1:35:05<16:52,  2.03it/s] 81%|████████  | 8653/10711 [1:35:06<16:51,  2.03it/s] 81%|████████  | 8654/10711 [1:35:06<16:51,  2.03it/s] 81%|████████  | 8655/10711 [1:35:07<16:49,  2.04it/s] 81%|████████  | 8656/10711 [1:35:07<16:49,  2.04it/s] 81%|████████  | 8657/10711 [1:35:08<16:49,  2.04it/s] 81%|████████  | 8658/10711 [1:35:08<16:49,  2.03it/s] 81%|████████  | 8659/10711 [1:35:09<16:50,  2.03it/s] 81%|████████  | 8660/10711 [1:35:09<16:48,  2.03it/s] 81%|████████  | 8661/10711 [1:35:10<16:47,  2.04it/s] 81%|████████  | 8662/10711 [1:35:10<16:47,  2.03it/s] 81%|████████  | 8663/10711 [1:35:11<16:46,  2.03it/s] 81%|████████  | 8664/10711 [1:35:11<16:45,  2.04it/s] 81%|████████  | 8665/10711 [1:35:12<16:45,  2.03it/s] 81%|████████  | 8666/10711 [1:35:12<16:45,  2.03it/s] 81%|████████  | 8667/10711 [1:35:13<16:44,  2.04it/s] 81%|████████  | 8668/10711 [1:35:13<16:45,  2.03it/s] 81%|████████  | 8669/10711 [1:35:14<16:44,  2.03it/s] 81%|████████  | 8670/10711 [1:35:14<16:42,  2.04it/s] 81%|████████  | 8671/10711 [1:35:15<16:43,  2.03it/s] 81%|████████  | 8672/10711 [1:35:15<16:42,  2.03it/s] 81%|████████  | 8673/10711 [1:35:16<16:41,  2.03it/s] 81%|████████  | 8674/10711 [1:35:16<16:42,  2.03it/s] 81%|████████  | 8675/10711 [1:35:17<16:40,  2.03it/s]                                                      {'loss': 3.3984, 'grad_norm': 0.19685864448547363, 'learning_rate': 0.00010610501127794597, 'epoch': 0.81}
 81%|████████  | 8675/10711 [1:35:17<16:40,  2.03it/s] 81%|████████  | 8676/10711 [1:35:17<16:42,  2.03it/s] 81%|████████  | 8677/10711 [1:35:18<16:41,  2.03it/s] 81%|████████  | 8678/10711 [1:35:18<16:39,  2.03it/s] 81%|████████  | 8679/10711 [1:35:19<16:38,  2.03it/s] 81%|████████  | 8680/10711 [1:35:19<16:38,  2.03it/s] 81%|████████  | 8681/10711 [1:35:20<16:37,  2.04it/s] 81%|████████  | 8682/10711 [1:35:20<16:36,  2.04it/s] 81%|████████  | 8683/10711 [1:35:21<16:37,  2.03it/s] 81%|████████  | 8684/10711 [1:35:21<16:37,  2.03it/s] 81%|████████  | 8685/10711 [1:35:22<16:36,  2.03it/s] 81%|████████  | 8686/10711 [1:35:22<16:35,  2.03it/s] 81%|████████  | 8687/10711 [1:35:23<16:33,  2.04it/s] 81%|████████  | 8688/10711 [1:35:23<16:33,  2.04it/s] 81%|████████  | 8689/10711 [1:35:24<16:34,  2.03it/s] 81%|████████  | 8690/10711 [1:35:24<16:32,  2.04it/s] 81%|████████  | 8691/10711 [1:35:25<16:32,  2.04it/s] 81%|████████  | 8692/10711 [1:35:25<16:33,  2.03it/s] 81%|████████  | 8693/10711 [1:35:26<16:32,  2.03it/s] 81%|████████  | 8694/10711 [1:35:26<16:32,  2.03it/s] 81%|████████  | 8695/10711 [1:35:27<16:31,  2.03it/s] 81%|████████  | 8696/10711 [1:35:27<16:29,  2.04it/s] 81%|████████  | 8697/10711 [1:35:28<16:29,  2.03it/s] 81%|████████  | 8698/10711 [1:35:28<16:27,  2.04it/s] 81%|████████  | 8699/10711 [1:35:29<16:30,  2.03it/s] 81%|████████  | 8700/10711 [1:35:29<16:28,  2.03it/s]                                                      {'loss': 3.3828, 'grad_norm': 0.20248420536518097, 'learning_rate': 0.00010360871929638605, 'epoch': 0.81}
 81%|████████  | 8700/10711 [1:35:29<16:28,  2.03it/s] 81%|████████  | 8701/10711 [1:35:30<16:29,  2.03it/s] 81%|████████  | 8702/10711 [1:35:30<16:27,  2.03it/s] 81%|████████▏ | 8703/10711 [1:35:31<16:26,  2.04it/s] 81%|████████▏ | 8704/10711 [1:35:31<16:26,  2.04it/s] 81%|████████▏ | 8705/10711 [1:35:32<16:25,  2.04it/s] 81%|████████▏ | 8706/10711 [1:35:32<16:25,  2.03it/s] 81%|████████▏ | 8707/10711 [1:35:32<16:25,  2.03it/s] 81%|████████▏ | 8708/10711 [1:35:33<16:24,  2.04it/s] 81%|████████▏ | 8709/10711 [1:35:33<16:23,  2.04it/s] 81%|████████▏ | 8710/10711 [1:35:34<16:22,  2.04it/s] 81%|████████▏ | 8711/10711 [1:35:34<16:22,  2.04it/s] 81%|████████▏ | 8712/10711 [1:35:35<16:21,  2.04it/s] 81%|████████▏ | 8713/10711 [1:35:35<16:21,  2.04it/s] 81%|████████▏ | 8714/10711 [1:35:36<16:21,  2.03it/s] 81%|████████▏ | 8715/10711 [1:35:36<16:20,  2.04it/s] 81%|████████▏ | 8716/10711 [1:35:37<16:20,  2.04it/s] 81%|████████▏ | 8717/10711 [1:35:37<16:20,  2.03it/s] 81%|████████▏ | 8718/10711 [1:35:38<16:20,  2.03it/s] 81%|████████▏ | 8719/10711 [1:35:38<16:19,  2.03it/s] 81%|████████▏ | 8720/10711 [1:35:39<16:18,  2.03it/s] 81%|████████▏ | 8721/10711 [1:35:39<16:18,  2.03it/s] 81%|████████▏ | 8722/10711 [1:35:40<16:17,  2.04it/s] 81%|████████▏ | 8723/10711 [1:35:40<16:16,  2.04it/s] 81%|████████▏ | 8724/10711 [1:35:41<16:15,  2.04it/s] 81%|████████▏ | 8725/10711 [1:35:41<16:15,  2.04it/s]                                                      {'loss': 3.3982, 'grad_norm': 0.19124123454093933, 'learning_rate': 0.00010113874438219761, 'epoch': 0.81}
 81%|████████▏ | 8725/10711 [1:35:41<16:15,  2.04it/s] 81%|████████▏ | 8726/10711 [1:35:42<16:16,  2.03it/s] 81%|████████▏ | 8727/10711 [1:35:42<16:15,  2.03it/s] 81%|████████▏ | 8728/10711 [1:35:43<16:14,  2.04it/s] 81%|████████▏ | 8729/10711 [1:35:43<16:13,  2.04it/s] 82%|████████▏ | 8730/10711 [1:35:44<16:13,  2.04it/s] 82%|████████▏ | 8731/10711 [1:35:44<16:13,  2.03it/s] 82%|████████▏ | 8732/10711 [1:35:45<16:13,  2.03it/s] 82%|████████▏ | 8733/10711 [1:35:45<16:13,  2.03it/s] 82%|████████▏ | 8734/10711 [1:35:46<16:11,  2.03it/s] 82%|████████▏ | 8735/10711 [1:35:46<16:11,  2.03it/s] 82%|████████▏ | 8736/10711 [1:35:47<16:10,  2.03it/s] 82%|████████▏ | 8737/10711 [1:35:47<16:09,  2.04it/s] 82%|████████▏ | 8738/10711 [1:35:48<16:09,  2.04it/s] 82%|████████▏ | 8739/10711 [1:35:48<16:09,  2.03it/s] 82%|████████▏ | 8740/10711 [1:35:49<16:08,  2.04it/s] 82%|████████▏ | 8741/10711 [1:35:49<16:07,  2.04it/s] 82%|████████▏ | 8742/10711 [1:35:50<16:07,  2.04it/s] 82%|████████▏ | 8743/10711 [1:35:50<16:05,  2.04it/s] 82%|████████▏ | 8744/10711 [1:35:51<16:04,  2.04it/s] 82%|████████▏ | 8745/10711 [1:35:51<16:05,  2.04it/s] 82%|████████▏ | 8746/10711 [1:35:52<16:04,  2.04it/s] 82%|████████▏ | 8747/10711 [1:35:52<16:03,  2.04it/s] 82%|████████▏ | 8748/10711 [1:35:53<16:03,  2.04it/s] 82%|████████▏ | 8749/10711 [1:35:53<16:03,  2.04it/s] 82%|████████▏ | 8750/10711 [1:35:54<16:02,  2.04it/s]                                                      {'loss': 3.3942, 'grad_norm': 0.19897499680519104, 'learning_rate': 9.869525052106665e-05, 'epoch': 0.82}
 82%|████████▏ | 8750/10711 [1:35:54<16:02,  2.04it/s] 82%|████████▏ | 8751/10711 [1:35:54<16:04,  2.03it/s] 82%|████████▏ | 8752/10711 [1:35:55<16:02,  2.03it/s] 82%|████████▏ | 8753/10711 [1:35:55<16:02,  2.03it/s] 82%|████████▏ | 8754/10711 [1:35:56<16:02,  2.03it/s] 82%|████████▏ | 8755/10711 [1:35:56<16:01,  2.04it/s] 82%|████████▏ | 8756/10711 [1:35:57<16:00,  2.04it/s] 82%|████████▏ | 8757/10711 [1:35:57<16:00,  2.03it/s] 82%|████████▏ | 8758/10711 [1:35:58<15:59,  2.03it/s] 82%|████████▏ | 8759/10711 [1:35:58<16:00,  2.03it/s] 82%|████████▏ | 8760/10711 [1:35:59<15:59,  2.03it/s] 82%|████████▏ | 8761/10711 [1:35:59<15:57,  2.04it/s] 82%|████████▏ | 8762/10711 [1:36:00<15:56,  2.04it/s] 82%|████████▏ | 8763/10711 [1:36:00<15:57,  2.03it/s] 82%|████████▏ | 8764/10711 [1:36:00<15:56,  2.04it/s] 82%|████████▏ | 8765/10711 [1:36:01<15:55,  2.04it/s] 82%|████████▏ | 8766/10711 [1:36:01<15:55,  2.04it/s] 82%|████████▏ | 8767/10711 [1:36:02<15:54,  2.04it/s] 82%|████████▏ | 8768/10711 [1:36:02<15:54,  2.03it/s] 82%|████████▏ | 8769/10711 [1:36:03<15:54,  2.04it/s] 82%|████████▏ | 8770/10711 [1:36:03<15:52,  2.04it/s] 82%|████████▏ | 8771/10711 [1:36:04<15:52,  2.04it/s] 82%|████████▏ | 8772/10711 [1:36:04<15:53,  2.03it/s] 82%|████████▏ | 8773/10711 [1:36:05<15:51,  2.04it/s] 82%|████████▏ | 8774/10711 [1:36:05<15:59,  2.02it/s] 82%|████████▏ | 8775/10711 [1:36:06<15:57,  2.02it/s]{'loss': 3.3937, 'grad_norm': 0.1963823139667511, 'learning_rate': 9.62783999405592e-05, 'epoch': 0.82}                                                      
 82%|████████▏ | 8775/10711 [1:36:06<15:57,  2.02it/s] 82%|████████▏ | 8776/10711 [1:36:06<15:56,  2.02it/s] 82%|████████▏ | 8777/10711 [1:36:07<15:54,  2.03it/s] 82%|████████▏ | 8778/10711 [1:36:07<15:52,  2.03it/s] 82%|████████▏ | 8779/10711 [1:36:08<15:51,  2.03it/s] 82%|████████▏ | 8780/10711 [1:36:08<15:50,  2.03it/s] 82%|████████▏ | 8781/10711 [1:36:09<15:48,  2.03it/s] 82%|████████▏ | 8782/10711 [1:36:09<15:49,  2.03it/s] 82%|████████▏ | 8783/10711 [1:36:10<15:49,  2.03it/s] 82%|████████▏ | 8784/10711 [1:36:10<15:48,  2.03it/s] 82%|████████▏ | 8785/10711 [1:36:11<15:47,  2.03it/s] 82%|████████▏ | 8786/10711 [1:36:11<15:46,  2.03it/s] 82%|████████▏ | 8787/10711 [1:36:12<15:47,  2.03it/s] 82%|████████▏ | 8788/10711 [1:36:12<15:46,  2.03it/s] 82%|████████▏ | 8789/10711 [1:36:13<15:46,  2.03it/s] 82%|████████▏ | 8790/10711 [1:36:13<15:45,  2.03it/s] 82%|████████▏ | 8791/10711 [1:36:14<15:44,  2.03it/s] 82%|████████▏ | 8792/10711 [1:36:14<15:42,  2.04it/s] 82%|████████▏ | 8793/10711 [1:36:15<15:42,  2.03it/s] 82%|████████▏ | 8794/10711 [1:36:15<15:42,  2.03it/s] 82%|████████▏ | 8795/10711 [1:36:16<15:41,  2.04it/s] 82%|████████▏ | 8796/10711 [1:36:16<15:41,  2.03it/s] 82%|████████▏ | 8797/10711 [1:36:17<15:41,  2.03it/s] 82%|████████▏ | 8798/10711 [1:36:17<15:40,  2.03it/s] 82%|████████▏ | 8799/10711 [1:36:18<15:41,  2.03it/s] 82%|████████▏ | 8800/10711 [1:36:18<15:40,  2.03it/s]                                                      {'loss': 3.3825, 'grad_norm': 0.1955847442150116, 'learning_rate': 9.388835309934984e-05, 'epoch': 0.82}
 82%|████████▏ | 8800/10711 [1:36:18<15:40,  2.03it/s] 82%|████████▏ | 8801/10711 [1:36:19<15:40,  2.03it/s] 82%|████████▏ | 8802/10711 [1:36:19<15:39,  2.03it/s] 82%|████████▏ | 8803/10711 [1:36:20<15:38,  2.03it/s] 82%|████████▏ | 8804/10711 [1:36:20<15:37,  2.03it/s] 82%|████████▏ | 8805/10711 [1:36:21<15:38,  2.03it/s] 82%|████████▏ | 8806/10711 [1:36:21<15:36,  2.03it/s] 82%|████████▏ | 8807/10711 [1:36:22<15:35,  2.03it/s] 82%|████████▏ | 8808/10711 [1:36:22<15:47,  2.01it/s] 82%|████████▏ | 8809/10711 [1:36:23<15:41,  2.02it/s] 82%|████████▏ | 8810/10711 [1:36:23<15:39,  2.02it/s] 82%|████████▏ | 8811/10711 [1:36:24<15:37,  2.03it/s] 82%|████████▏ | 8812/10711 [1:36:24<15:35,  2.03it/s] 82%|████████▏ | 8813/10711 [1:36:25<15:34,  2.03it/s] 82%|████████▏ | 8814/10711 [1:36:25<15:33,  2.03it/s] 82%|████████▏ | 8815/10711 [1:36:26<15:32,  2.03it/s] 82%|████████▏ | 8816/10711 [1:36:26<15:31,  2.03it/s] 82%|████████▏ | 8817/10711 [1:36:27<18:09,  1.74it/s] 82%|████████▏ | 8818/10711 [1:36:27<17:20,  1.82it/s] 82%|████████▏ | 8819/10711 [1:36:28<16:45,  1.88it/s] 82%|████████▏ | 8820/10711 [1:36:28<16:21,  1.93it/s] 82%|████████▏ | 8821/10711 [1:36:29<16:05,  1.96it/s] 82%|████████▏ | 8822/10711 [1:36:29<15:53,  1.98it/s] 82%|████████▏ | 8823/10711 [1:36:30<15:45,  2.00it/s] 82%|████████▏ | 8824/10711 [1:36:30<15:39,  2.01it/s] 82%|████████▏ | 8825/10711 [1:36:31<15:34,  2.02it/s]                                                      {'loss': 3.3902, 'grad_norm': 0.19649238884449005, 'learning_rate': 9.152526867656891e-05, 'epoch': 0.82}
 82%|████████▏ | 8825/10711 [1:36:31<15:34,  2.02it/s] 82%|████████▏ | 8826/10711 [1:36:31<15:34,  2.02it/s] 82%|████████▏ | 8827/10711 [1:36:32<15:30,  2.02it/s] 82%|████████▏ | 8828/10711 [1:36:32<15:27,  2.03it/s] 82%|████████▏ | 8829/10711 [1:36:33<15:26,  2.03it/s] 82%|████████▏ | 8830/10711 [1:36:33<15:25,  2.03it/s] 82%|████████▏ | 8831/10711 [1:36:34<19:19,  1.62it/s] 82%|████████▏ | 8832/10711 [1:36:35<18:08,  1.73it/s] 82%|████████▏ | 8833/10711 [1:36:35<17:18,  1.81it/s] 82%|████████▏ | 8834/10711 [1:36:36<16:43,  1.87it/s] 82%|████████▏ | 8835/10711 [1:36:36<16:17,  1.92it/s] 82%|████████▏ | 8836/10711 [1:36:37<16:00,  1.95it/s] 83%|████████▎ | 8837/10711 [1:36:37<15:47,  1.98it/s] 83%|████████▎ | 8838/10711 [1:36:38<15:39,  1.99it/s] 83%|████████▎ | 8839/10711 [1:36:38<15:32,  2.01it/s] 83%|████████▎ | 8840/10711 [1:36:39<15:29,  2.01it/s] 83%|████████▎ | 8841/10711 [1:36:39<15:25,  2.02it/s] 83%|████████▎ | 8842/10711 [1:36:40<15:23,  2.02it/s] 83%|████████▎ | 8843/10711 [1:36:40<15:20,  2.03it/s] 83%|████████▎ | 8844/10711 [1:36:41<15:17,  2.03it/s] 83%|████████▎ | 8845/10711 [1:36:41<15:17,  2.03it/s] 83%|████████▎ | 8846/10711 [1:36:42<15:16,  2.04it/s] 83%|████████▎ | 8847/10711 [1:36:42<15:14,  2.04it/s] 83%|████████▎ | 8848/10711 [1:36:43<15:15,  2.04it/s] 83%|████████▎ | 8849/10711 [1:36:43<15:14,  2.04it/s] 83%|████████▎ | 8850/10711 [1:36:43<15:13,  2.04it/s]{'loss': 3.3846, 'grad_norm': 0.19326777756214142, 'learning_rate': 8.918930356126792e-05, 'epoch': 0.83}
                                                       83%|████████▎ | 8850/10711 [1:36:43<15:13,  2.04it/s] 83%|████████▎ | 8851/10711 [1:36:44<15:15,  2.03it/s] 83%|████████▎ | 8852/10711 [1:36:44<15:14,  2.03it/s] 83%|████████▎ | 8853/10711 [1:36:45<15:13,  2.03it/s] 83%|████████▎ | 8854/10711 [1:36:45<15:12,  2.04it/s] 83%|████████▎ | 8855/10711 [1:36:46<15:11,  2.04it/s] 83%|████████▎ | 8856/10711 [1:36:46<15:10,  2.04it/s] 83%|████████▎ | 8857/10711 [1:36:47<15:11,  2.03it/s] 83%|████████▎ | 8858/10711 [1:36:47<15:10,  2.04it/s] 83%|████████▎ | 8859/10711 [1:36:48<15:09,  2.04it/s] 83%|████████▎ | 8860/10711 [1:36:49<17:38,  1.75it/s] 83%|████████▎ | 8861/10711 [1:36:49<16:52,  1.83it/s] 83%|████████▎ | 8862/10711 [1:36:50<16:21,  1.88it/s] 83%|████████▎ | 8863/10711 [1:36:50<15:58,  1.93it/s] 83%|████████▎ | 8864/10711 [1:36:51<15:42,  1.96it/s] 83%|████████▎ | 8865/10711 [1:36:51<15:31,  1.98it/s] 83%|████████▎ | 8866/10711 [1:36:52<15:24,  2.00it/s] 83%|████████▎ | 8867/10711 [1:36:52<15:17,  2.01it/s] 83%|████████▎ | 8868/10711 [1:36:53<15:14,  2.02it/s] 83%|████████▎ | 8869/10711 [1:36:53<15:11,  2.02it/s] 83%|████████▎ | 8870/10711 [1:36:54<15:08,  2.03it/s] 83%|████████▎ | 8871/10711 [1:36:54<15:06,  2.03it/s] 83%|████████▎ | 8872/10711 [1:36:55<15:06,  2.03it/s] 83%|████████▎ | 8873/10711 [1:36:55<15:04,  2.03it/s] 83%|████████▎ | 8874/10711 [1:36:56<15:04,  2.03it/s] 83%|████████▎ | 8875/10711 [1:36:56<15:03,  2.03it/s]{'loss': 3.3847, 'grad_norm': 0.1968987137079239, 'learning_rate': 8.688061284200266e-05, 'epoch': 0.83}
                                                       83%|████████▎ | 8875/10711 [1:36:56<15:03,  2.03it/s] 83%|████████▎ | 8876/10711 [1:36:57<15:03,  2.03it/s] 83%|████████▎ | 8877/10711 [1:36:57<15:02,  2.03it/s] 83%|████████▎ | 8878/10711 [1:36:58<15:01,  2.03it/s] 83%|████████▎ | 8879/10711 [1:36:58<14:59,  2.04it/s] 83%|████████▎ | 8880/10711 [1:36:58<14:59,  2.04it/s] 83%|████████▎ | 8881/10711 [1:36:59<15:00,  2.03it/s] 83%|████████▎ | 8882/10711 [1:36:59<15:00,  2.03it/s] 83%|████████▎ | 8883/10711 [1:37:00<14:58,  2.03it/s] 83%|████████▎ | 8884/10711 [1:37:00<14:57,  2.04it/s] 83%|████████▎ | 8885/10711 [1:37:01<14:57,  2.03it/s] 83%|████████▎ | 8886/10711 [1:37:01<14:56,  2.04it/s] 83%|████████▎ | 8887/10711 [1:37:02<14:56,  2.03it/s] 83%|████████▎ | 8888/10711 [1:37:02<14:55,  2.04it/s] 83%|████████▎ | 8889/10711 [1:37:03<14:56,  2.03it/s] 83%|████████▎ | 8890/10711 [1:37:03<14:54,  2.03it/s] 83%|████████▎ | 8891/10711 [1:37:04<14:54,  2.03it/s] 83%|████████▎ | 8892/10711 [1:37:04<14:53,  2.04it/s] 83%|████████▎ | 8893/10711 [1:37:05<14:52,  2.04it/s] 83%|████████▎ | 8894/10711 [1:37:05<14:54,  2.03it/s] 83%|████████▎ | 8895/10711 [1:37:06<14:52,  2.03it/s] 83%|████████▎ | 8896/10711 [1:37:06<14:52,  2.03it/s] 83%|████████▎ | 8897/10711 [1:37:07<14:51,  2.03it/s] 83%|████████▎ | 8898/10711 [1:37:07<14:50,  2.04it/s] 83%|████████▎ | 8899/10711 [1:37:08<14:50,  2.03it/s] 83%|████████▎ | 8900/10711 [1:37:08<14:50,  2.03it/s]{'loss': 3.3816, 'grad_norm': 0.19427379965782166, 'learning_rate': 8.459934979653705e-05, 'epoch': 0.83}                                                      
 83%|████████▎ | 8900/10711 [1:37:08<14:50,  2.03it/s] 83%|████████▎ | 8901/10711 [1:37:09<14:50,  2.03it/s] 83%|████████▎ | 8902/10711 [1:37:09<14:50,  2.03it/s] 83%|████████▎ | 8903/10711 [1:37:10<14:48,  2.04it/s] 83%|████████▎ | 8904/10711 [1:37:10<14:47,  2.04it/s] 83%|████████▎ | 8905/10711 [1:37:11<14:48,  2.03it/s] 83%|████████▎ | 8906/10711 [1:37:11<14:47,  2.03it/s] 83%|████████▎ | 8907/10711 [1:37:12<14:46,  2.04it/s] 83%|████████▎ | 8908/10711 [1:37:12<14:45,  2.04it/s] 83%|████████▎ | 8909/10711 [1:37:13<14:44,  2.04it/s] 83%|████████▎ | 8910/10711 [1:37:13<14:43,  2.04it/s] 83%|████████▎ | 8911/10711 [1:37:14<14:42,  2.04it/s] 83%|████████▎ | 8912/10711 [1:37:14<14:42,  2.04it/s] 83%|████████▎ | 8913/10711 [1:37:15<14:42,  2.04it/s] 83%|████████▎ | 8914/10711 [1:37:15<14:42,  2.04it/s] 83%|████████▎ | 8915/10711 [1:37:16<14:43,  2.03it/s] 83%|████████▎ | 8916/10711 [1:37:16<14:42,  2.04it/s] 83%|████████▎ | 8917/10711 [1:37:17<14:41,  2.04it/s] 83%|████████▎ | 8918/10711 [1:37:17<14:40,  2.04it/s] 83%|████████▎ | 8919/10711 [1:37:18<14:40,  2.04it/s] 83%|████████▎ | 8920/10711 [1:37:18<14:39,  2.04it/s] 83%|████████▎ | 8921/10711 [1:37:19<14:38,  2.04it/s] 83%|████████▎ | 8922/10711 [1:37:19<14:38,  2.04it/s] 83%|████████▎ | 8923/10711 [1:37:20<14:38,  2.04it/s] 83%|████████▎ | 8924/10711 [1:37:20<14:37,  2.04it/s] 83%|████████▎ | 8925/10711 [1:37:21<14:37,  2.04it/s]{'loss': 3.3908, 'grad_norm': 0.19440726935863495, 'learning_rate': 8.23456658816672e-05, 'epoch': 0.83}                                                      
 83%|████████▎ | 8925/10711 [1:37:21<14:37,  2.04it/s] 83%|████████▎ | 8926/10711 [1:37:21<14:38,  2.03it/s] 83%|████████▎ | 8927/10711 [1:37:22<14:36,  2.04it/s] 83%|████████▎ | 8928/10711 [1:37:22<14:36,  2.03it/s] 83%|████████▎ | 8929/10711 [1:37:23<14:35,  2.04it/s] 83%|████████▎ | 8930/10711 [1:37:23<14:34,  2.04it/s] 83%|████████▎ | 8931/10711 [1:37:24<14:34,  2.04it/s] 83%|████████▎ | 8932/10711 [1:37:24<14:35,  2.03it/s] 83%|████████▎ | 8933/10711 [1:37:25<14:34,  2.03it/s] 83%|████████▎ | 8934/10711 [1:37:25<14:34,  2.03it/s] 83%|████████▎ | 8935/10711 [1:37:26<14:32,  2.04it/s] 83%|████████▎ | 8936/10711 [1:37:26<14:30,  2.04it/s] 83%|████████▎ | 8937/10711 [1:37:27<14:31,  2.04it/s] 83%|████████▎ | 8938/10711 [1:37:27<14:31,  2.03it/s] 83%|████████▎ | 8939/10711 [1:37:27<14:30,  2.04it/s] 83%|████████▎ | 8940/10711 [1:37:28<14:30,  2.03it/s] 83%|████████▎ | 8941/10711 [1:37:28<14:29,  2.03it/s] 83%|████████▎ | 8942/10711 [1:37:29<14:28,  2.04it/s] 83%|████████▎ | 8943/10711 [1:37:29<14:27,  2.04it/s] 84%|████████▎ | 8944/10711 [1:37:30<14:27,  2.04it/s] 84%|████████▎ | 8945/10711 [1:37:30<14:26,  2.04it/s] 84%|████████▎ | 8946/10711 [1:37:31<14:25,  2.04it/s] 84%|████████▎ | 8947/10711 [1:37:31<14:27,  2.03it/s] 84%|████████▎ | 8948/10711 [1:37:32<14:26,  2.03it/s] 84%|████████▎ | 8949/10711 [1:37:32<14:25,  2.04it/s] 84%|████████▎ | 8950/10711 [1:37:33<14:25,  2.03it/s]                                                      {'loss': 3.3921, 'grad_norm': 0.1944623440504074, 'learning_rate': 8.011971072316493e-05, 'epoch': 0.84}
 84%|████████▎ | 8950/10711 [1:37:33<14:25,  2.03it/s] 84%|████████▎ | 8951/10711 [1:37:33<14:26,  2.03it/s] 84%|████████▎ | 8952/10711 [1:37:34<14:24,  2.03it/s] 84%|████████▎ | 8953/10711 [1:37:34<14:23,  2.04it/s] 84%|████████▎ | 8954/10711 [1:37:35<14:22,  2.04it/s] 84%|████████▎ | 8955/10711 [1:37:35<14:22,  2.04it/s] 84%|████████▎ | 8956/10711 [1:37:36<14:21,  2.04it/s] 84%|████████▎ | 8957/10711 [1:37:36<14:21,  2.04it/s] 84%|████████▎ | 8958/10711 [1:37:37<14:21,  2.04it/s] 84%|████████▎ | 8959/10711 [1:37:37<14:19,  2.04it/s] 84%|████████▎ | 8960/10711 [1:37:38<14:19,  2.04it/s] 84%|████████▎ | 8961/10711 [1:37:38<14:18,  2.04it/s] 84%|████████▎ | 8962/10711 [1:37:39<14:18,  2.04it/s] 84%|████████▎ | 8963/10711 [1:37:39<14:18,  2.04it/s] 84%|████████▎ | 8964/10711 [1:37:40<14:18,  2.04it/s] 84%|████████▎ | 8965/10711 [1:37:40<14:17,  2.04it/s] 84%|████████▎ | 8966/10711 [1:37:41<14:17,  2.04it/s] 84%|████████▎ | 8967/10711 [1:37:41<14:17,  2.03it/s] 84%|████████▎ | 8968/10711 [1:37:42<14:18,  2.03it/s] 84%|████████▎ | 8969/10711 [1:37:42<14:16,  2.03it/s] 84%|████████▎ | 8970/10711 [1:37:43<14:15,  2.03it/s] 84%|████████▍ | 8971/10711 [1:37:43<14:15,  2.03it/s] 84%|████████▍ | 8972/10711 [1:37:44<14:16,  2.03it/s] 84%|████████▍ | 8973/10711 [1:37:44<14:14,  2.03it/s] 84%|████████▍ | 8974/10711 [1:37:45<14:14,  2.03it/s] 84%|████████▍ | 8975/10711 [1:37:45<14:14,  2.03it/s]                                                      {'loss': 3.3867, 'grad_norm': 0.1976030319929123, 'learning_rate': 7.792163210584491e-05, 'epoch': 0.84}
 84%|████████▍ | 8975/10711 [1:37:45<14:14,  2.03it/s] 84%|████████▍ | 8976/10711 [1:37:46<14:14,  2.03it/s] 84%|████████▍ | 8977/10711 [1:37:46<14:13,  2.03it/s] 84%|████████▍ | 8978/10711 [1:37:47<14:13,  2.03it/s] 84%|████████▍ | 8979/10711 [1:37:47<14:10,  2.04it/s] 84%|████████▍ | 8980/10711 [1:37:48<14:10,  2.03it/s] 84%|████████▍ | 8981/10711 [1:37:48<14:10,  2.04it/s] 84%|████████▍ | 8982/10711 [1:37:49<14:09,  2.03it/s] 84%|████████▍ | 8983/10711 [1:37:49<14:09,  2.03it/s] 84%|████████▍ | 8984/10711 [1:37:50<14:08,  2.03it/s] 84%|████████▍ | 8985/10711 [1:37:50<14:07,  2.04it/s] 84%|████████▍ | 8986/10711 [1:37:51<14:07,  2.04it/s] 84%|████████▍ | 8987/10711 [1:37:51<14:06,  2.04it/s] 84%|████████▍ | 8988/10711 [1:37:52<14:06,  2.04it/s] 84%|████████▍ | 8989/10711 [1:37:52<14:05,  2.04it/s] 84%|████████▍ | 8990/10711 [1:37:53<14:06,  2.03it/s] 84%|████████▍ | 8991/10711 [1:37:53<14:04,  2.04it/s] 84%|████████▍ | 8992/10711 [1:37:54<14:03,  2.04it/s] 84%|████████▍ | 8993/10711 [1:37:54<14:03,  2.04it/s] 84%|████████▍ | 8994/10711 [1:37:55<14:03,  2.04it/s] 84%|████████▍ | 8995/10711 [1:37:55<14:01,  2.04it/s] 84%|████████▍ | 8996/10711 [1:37:55<14:01,  2.04it/s] 84%|████████▍ | 8997/10711 [1:37:56<14:01,  2.04it/s] 84%|████████▍ | 8998/10711 [1:37:56<14:00,  2.04it/s] 84%|████████▍ | 8999/10711 [1:37:57<14:00,  2.04it/s] 84%|████████▍ | 9000/10711 [1:37:57<14:00,  2.04it/s]{'loss': 3.3826, 'grad_norm': 0.20132820308208466, 'learning_rate': 7.575157596375221e-05, 'epoch': 0.84}
                                                       84%|████████▍ | 9000/10711 [1:37:57<14:00,  2.04it/s] 84%|████████▍ | 9001/10711 [1:37:58<14:00,  2.03it/s] 84%|████████▍ | 9002/10711 [1:37:58<14:00,  2.03it/s] 84%|████████▍ | 9003/10711 [1:37:59<14:01,  2.03it/s] 84%|████████▍ | 9004/10711 [1:37:59<13:58,  2.04it/s] 84%|████████▍ | 9005/10711 [1:38:00<13:58,  2.04it/s] 84%|████████▍ | 9006/10711 [1:38:00<13:57,  2.03it/s] 84%|████████▍ | 9007/10711 [1:38:01<13:57,  2.04it/s] 84%|████████▍ | 9008/10711 [1:38:01<13:56,  2.04it/s] 84%|████████▍ | 9009/10711 [1:38:02<13:57,  2.03it/s] 84%|████████▍ | 9010/10711 [1:38:02<13:55,  2.03it/s] 84%|████████▍ | 9011/10711 [1:38:03<13:56,  2.03it/s] 84%|████████▍ | 9012/10711 [1:38:03<13:55,  2.03it/s] 84%|████████▍ | 9013/10711 [1:38:04<13:54,  2.03it/s] 84%|████████▍ | 9014/10711 [1:38:04<13:53,  2.04it/s] 84%|████████▍ | 9015/10711 [1:38:05<13:53,  2.03it/s] 84%|████████▍ | 9016/10711 [1:38:05<13:53,  2.03it/s] 84%|████████▍ | 9017/10711 [1:38:06<13:52,  2.03it/s] 84%|████████▍ | 9018/10711 [1:38:06<13:52,  2.03it/s] 84%|████████▍ | 9019/10711 [1:38:07<13:50,  2.04it/s] 84%|████████▍ | 9020/10711 [1:38:07<13:51,  2.03it/s] 84%|████████▍ | 9021/10711 [1:38:08<13:51,  2.03it/s] 84%|████████▍ | 9022/10711 [1:38:08<13:50,  2.03it/s] 84%|████████▍ | 9023/10711 [1:38:09<13:50,  2.03it/s] 84%|████████▍ | 9024/10711 [1:38:09<13:49,  2.03it/s] 84%|████████▍ | 9025/10711 [1:38:10<13:48,  2.03it/s]                                                      {'loss': 3.3858, 'grad_norm': 0.1921374648809433, 'learning_rate': 7.360968637047377e-05, 'epoch': 0.84}
 84%|████████▍ | 9025/10711 [1:38:10<13:48,  2.03it/s] 84%|████████▍ | 9026/10711 [1:38:10<13:49,  2.03it/s] 84%|████████▍ | 9027/10711 [1:38:11<13:48,  2.03it/s] 84%|████████▍ | 9028/10711 [1:38:11<13:48,  2.03it/s] 84%|████████▍ | 9029/10711 [1:38:12<13:47,  2.03it/s] 84%|████████▍ | 9030/10711 [1:38:12<13:46,  2.03it/s] 84%|████████▍ | 9031/10711 [1:38:13<13:46,  2.03it/s] 84%|████████▍ | 9032/10711 [1:38:13<13:45,  2.03it/s] 84%|████████▍ | 9033/10711 [1:38:14<13:42,  2.04it/s] 84%|████████▍ | 9034/10711 [1:38:14<13:43,  2.04it/s] 84%|████████▍ | 9035/10711 [1:38:15<13:43,  2.04it/s] 84%|████████▍ | 9036/10711 [1:38:15<13:42,  2.04it/s] 84%|████████▍ | 9037/10711 [1:38:16<13:42,  2.04it/s] 84%|████████▍ | 9038/10711 [1:38:16<13:42,  2.03it/s] 84%|████████▍ | 9039/10711 [1:38:17<13:41,  2.04it/s] 84%|████████▍ | 9040/10711 [1:38:17<13:41,  2.03it/s] 84%|████████▍ | 9041/10711 [1:38:18<13:40,  2.04it/s] 84%|████████▍ | 9042/10711 [1:38:18<13:39,  2.04it/s] 84%|████████▍ | 9043/10711 [1:38:19<13:38,  2.04it/s] 84%|████████▍ | 9044/10711 [1:38:19<13:38,  2.04it/s] 84%|████████▍ | 9045/10711 [1:38:20<13:37,  2.04it/s] 84%|████████▍ | 9046/10711 [1:38:20<13:36,  2.04it/s] 84%|████████▍ | 9047/10711 [1:38:21<13:37,  2.04it/s] 84%|████████▍ | 9048/10711 [1:38:21<13:36,  2.04it/s] 84%|████████▍ | 9049/10711 [1:38:22<13:35,  2.04it/s] 84%|████████▍ | 9050/10711 [1:38:22<13:35,  2.04it/s]                                                      {'loss': 3.3868, 'grad_norm': 0.19433465600013733, 'learning_rate': 7.149610552957348e-05, 'epoch': 0.84}
 84%|████████▍ | 9050/10711 [1:38:22<13:35,  2.04it/s] 85%|████████▍ | 9051/10711 [1:38:23<13:36,  2.03it/s] 85%|████████▍ | 9052/10711 [1:38:23<13:35,  2.03it/s] 85%|████████▍ | 9053/10711 [1:38:24<13:35,  2.03it/s] 85%|████████▍ | 9054/10711 [1:38:24<13:33,  2.04it/s] 85%|████████▍ | 9055/10711 [1:38:24<13:34,  2.03it/s] 85%|████████▍ | 9056/10711 [1:38:25<13:33,  2.04it/s] 85%|████████▍ | 9057/10711 [1:38:25<13:32,  2.04it/s] 85%|████████▍ | 9058/10711 [1:38:26<13:32,  2.04it/s] 85%|████████▍ | 9059/10711 [1:38:26<13:30,  2.04it/s] 85%|████████▍ | 9060/10711 [1:38:27<13:30,  2.04it/s] 85%|████████▍ | 9061/10711 [1:38:27<13:30,  2.04it/s] 85%|████████▍ | 9062/10711 [1:38:28<13:30,  2.04it/s] 85%|████████▍ | 9063/10711 [1:38:28<13:29,  2.04it/s] 85%|████████▍ | 9064/10711 [1:38:29<13:29,  2.03it/s] 85%|████████▍ | 9065/10711 [1:38:29<13:29,  2.03it/s] 85%|████████▍ | 9066/10711 [1:38:30<13:28,  2.04it/s] 85%|████████▍ | 9067/10711 [1:38:30<13:27,  2.04it/s] 85%|████████▍ | 9068/10711 [1:38:31<13:26,  2.04it/s] 85%|████████▍ | 9069/10711 [1:38:31<13:26,  2.04it/s] 85%|████████▍ | 9070/10711 [1:38:32<13:26,  2.03it/s] 85%|████████▍ | 9071/10711 [1:38:32<13:26,  2.03it/s] 85%|████████▍ | 9072/10711 [1:38:33<13:25,  2.04it/s] 85%|████████▍ | 9073/10711 [1:38:33<13:25,  2.03it/s] 85%|████████▍ | 9074/10711 [1:38:34<13:25,  2.03it/s] 85%|████████▍ | 9075/10711 [1:38:34<13:24,  2.03it/s]                                                      {'loss': 3.3902, 'grad_norm': 0.1968802511692047, 'learning_rate': 6.941097376515044e-05, 'epoch': 0.85}
 85%|████████▍ | 9075/10711 [1:38:34<13:24,  2.03it/s] 85%|████████▍ | 9076/10711 [1:38:35<13:43,  1.98it/s] 85%|████████▍ | 9077/10711 [1:38:35<13:36,  2.00it/s] 85%|████████▍ | 9078/10711 [1:38:36<13:32,  2.01it/s] 85%|████████▍ | 9079/10711 [1:38:36<13:28,  2.02it/s] 85%|████████▍ | 9080/10711 [1:38:37<13:27,  2.02it/s] 85%|████████▍ | 9081/10711 [1:38:37<13:24,  2.03it/s] 85%|████████▍ | 9082/10711 [1:38:38<13:23,  2.03it/s] 85%|████████▍ | 9083/10711 [1:38:38<13:21,  2.03it/s] 85%|████████▍ | 9084/10711 [1:38:39<13:20,  2.03it/s] 85%|████████▍ | 9085/10711 [1:38:39<13:21,  2.03it/s] 85%|████████▍ | 9086/10711 [1:38:40<13:19,  2.03it/s] 85%|████████▍ | 9087/10711 [1:38:40<13:18,  2.03it/s] 85%|████████▍ | 9088/10711 [1:38:41<13:19,  2.03it/s] 85%|████████▍ | 9089/10711 [1:38:41<13:17,  2.03it/s] 85%|████████▍ | 9090/10711 [1:38:42<13:17,  2.03it/s] 85%|████████▍ | 9091/10711 [1:38:42<13:15,  2.04it/s] 85%|████████▍ | 9092/10711 [1:38:43<13:14,  2.04it/s] 85%|████████▍ | 9093/10711 [1:38:43<13:14,  2.04it/s] 85%|████████▍ | 9094/10711 [1:38:44<13:13,  2.04it/s] 85%|████████▍ | 9095/10711 [1:38:44<13:13,  2.04it/s] 85%|████████▍ | 9096/10711 [1:38:45<13:12,  2.04it/s] 85%|████████▍ | 9097/10711 [1:38:45<13:11,  2.04it/s] 85%|████████▍ | 9098/10711 [1:38:46<13:11,  2.04it/s] 85%|████████▍ | 9099/10711 [1:38:46<13:11,  2.04it/s] 85%|████████▍ | 9100/10711 [1:38:47<13:10,  2.04it/s]{'loss': 3.3858, 'grad_norm': 0.19305166602134705, 'learning_rate': 6.73544295125228e-05, 'epoch': 0.85}
                                                       85%|████████▍ | 9100/10711 [1:38:47<13:10,  2.04it/s] 85%|████████▍ | 9101/10711 [1:38:47<13:10,  2.04it/s] 85%|████████▍ | 9102/10711 [1:38:48<13:10,  2.03it/s] 85%|████████▍ | 9103/10711 [1:38:48<13:09,  2.04it/s] 85%|████████▍ | 9104/10711 [1:38:49<13:08,  2.04it/s] 85%|████████▌ | 9105/10711 [1:38:49<13:10,  2.03it/s] 85%|████████▌ | 9106/10711 [1:38:50<13:09,  2.03it/s] 85%|████████▌ | 9107/10711 [1:38:50<13:08,  2.03it/s] 85%|████████▌ | 9108/10711 [1:38:51<13:08,  2.03it/s] 85%|████████▌ | 9109/10711 [1:38:51<13:07,  2.03it/s] 85%|████████▌ | 9110/10711 [1:38:52<13:06,  2.04it/s] 85%|████████▌ | 9111/10711 [1:38:52<13:06,  2.04it/s] 85%|████████▌ | 9112/10711 [1:38:53<13:05,  2.04it/s] 85%|████████▌ | 9113/10711 [1:38:53<13:04,  2.04it/s] 85%|████████▌ | 9114/10711 [1:38:54<13:05,  2.03it/s] 85%|████████▌ | 9115/10711 [1:38:54<13:04,  2.03it/s] 85%|████████▌ | 9116/10711 [1:38:55<13:02,  2.04it/s] 85%|████████▌ | 9117/10711 [1:38:55<13:02,  2.04it/s] 85%|████████▌ | 9118/10711 [1:38:55<13:01,  2.04it/s] 85%|████████▌ | 9119/10711 [1:38:56<13:01,  2.04it/s] 85%|████████▌ | 9120/10711 [1:38:56<13:01,  2.04it/s] 85%|████████▌ | 9121/10711 [1:38:57<13:02,  2.03it/s] 85%|████████▌ | 9122/10711 [1:38:57<13:02,  2.03it/s] 85%|████████▌ | 9123/10711 [1:38:58<13:01,  2.03it/s] 85%|████████▌ | 9124/10711 [1:38:58<12:59,  2.04it/s] 85%|████████▌ | 9125/10711 [1:38:59<12:58,  2.04it/s]{'loss': 3.3852, 'grad_norm': 0.19392450153827667, 'learning_rate': 6.532660930903739e-05, 'epoch': 0.85}                                                      
 85%|████████▌ | 9125/10711 [1:38:59<12:58,  2.04it/s] 85%|████████▌ | 9126/10711 [1:38:59<13:00,  2.03it/s] 85%|████████▌ | 9127/10711 [1:39:00<12:58,  2.03it/s] 85%|████████▌ | 9128/10711 [1:39:00<12:58,  2.03it/s] 85%|████████▌ | 9129/10711 [1:39:01<13:11,  2.00it/s] 85%|████████▌ | 9130/10711 [1:39:01<13:06,  2.01it/s] 85%|████████▌ | 9131/10711 [1:39:02<13:03,  2.02it/s] 85%|████████▌ | 9132/10711 [1:39:02<12:59,  2.03it/s] 85%|████████▌ | 9133/10711 [1:39:03<12:58,  2.03it/s] 85%|████████▌ | 9134/10711 [1:39:03<12:56,  2.03it/s] 85%|████████▌ | 9135/10711 [1:39:04<12:55,  2.03it/s] 85%|████████▌ | 9136/10711 [1:39:04<12:55,  2.03it/s] 85%|████████▌ | 9137/10711 [1:39:05<12:53,  2.04it/s] 85%|████████▌ | 9138/10711 [1:39:05<12:53,  2.03it/s] 85%|████████▌ | 9139/10711 [1:39:06<12:53,  2.03it/s] 85%|████████▌ | 9140/10711 [1:39:06<12:52,  2.03it/s] 85%|████████▌ | 9141/10711 [1:39:07<12:51,  2.03it/s] 85%|████████▌ | 9142/10711 [1:39:07<12:51,  2.03it/s] 85%|████████▌ | 9143/10711 [1:39:08<12:50,  2.03it/s] 85%|████████▌ | 9144/10711 [1:39:08<12:49,  2.04it/s] 85%|████████▌ | 9145/10711 [1:39:09<12:49,  2.03it/s] 85%|████████▌ | 9146/10711 [1:39:09<12:49,  2.03it/s] 85%|████████▌ | 9147/10711 [1:39:10<12:48,  2.04it/s] 85%|████████▌ | 9148/10711 [1:39:10<12:48,  2.03it/s] 85%|████████▌ | 9149/10711 [1:39:11<12:47,  2.04it/s] 85%|████████▌ | 9150/10711 [1:39:11<12:45,  2.04it/s]                                                      {'loss': 3.3867, 'grad_norm': 0.19607539474964142, 'learning_rate': 6.33276477850036e-05, 'epoch': 0.85}
 85%|████████▌ | 9150/10711 [1:39:11<12:45,  2.04it/s] 85%|████████▌ | 9151/10711 [1:39:12<12:47,  2.03it/s] 85%|████████▌ | 9152/10711 [1:39:12<12:45,  2.04it/s] 85%|████████▌ | 9153/10711 [1:39:13<12:44,  2.04it/s] 85%|████████▌ | 9154/10711 [1:39:13<12:44,  2.04it/s] 85%|████████▌ | 9155/10711 [1:39:14<12:44,  2.04it/s] 85%|████████▌ | 9156/10711 [1:39:14<12:42,  2.04it/s] 85%|████████▌ | 9157/10711 [1:39:15<12:42,  2.04it/s] 86%|████████▌ | 9158/10711 [1:39:15<12:42,  2.04it/s] 86%|████████▌ | 9159/10711 [1:39:16<12:41,  2.04it/s] 86%|████████▌ | 9160/10711 [1:39:16<12:40,  2.04it/s] 86%|████████▌ | 9161/10711 [1:39:17<12:41,  2.04it/s] 86%|████████▌ | 9162/10711 [1:39:17<12:40,  2.04it/s] 86%|████████▌ | 9163/10711 [1:39:18<12:40,  2.04it/s] 86%|████████▌ | 9164/10711 [1:39:18<12:40,  2.03it/s] 86%|████████▌ | 9165/10711 [1:39:19<12:38,  2.04it/s] 86%|████████▌ | 9166/10711 [1:39:19<12:38,  2.04it/s] 86%|████████▌ | 9167/10711 [1:39:20<12:37,  2.04it/s] 86%|████████▌ | 9168/10711 [1:39:20<12:37,  2.04it/s] 86%|████████▌ | 9169/10711 [1:39:21<12:35,  2.04it/s] 86%|████████▌ | 9170/10711 [1:39:21<12:34,  2.04it/s] 86%|████████▌ | 9171/10711 [1:39:22<12:36,  2.04it/s] 86%|████████▌ | 9172/10711 [1:39:22<12:35,  2.04it/s] 86%|████████▌ | 9173/10711 [1:39:23<12:34,  2.04it/s] 86%|████████▌ | 9174/10711 [1:39:23<12:33,  2.04it/s] 86%|████████▌ | 9175/10711 [1:39:24<12:33,  2.04it/s]{'loss': 3.3832, 'grad_norm': 0.1917678266763687, 'learning_rate': 6.135767765475653e-05, 'epoch': 0.86}
                                                       86%|████████▌ | 9175/10711 [1:39:24<12:33,  2.04it/s] 86%|████████▌ | 9176/10711 [1:39:24<12:34,  2.03it/s] 86%|████████▌ | 9177/10711 [1:39:24<12:34,  2.03it/s] 86%|████████▌ | 9178/10711 [1:39:25<12:33,  2.04it/s] 86%|████████▌ | 9179/10711 [1:39:25<12:32,  2.04it/s] 86%|████████▌ | 9180/10711 [1:39:26<12:32,  2.03it/s] 86%|████████▌ | 9181/10711 [1:39:26<12:31,  2.04it/s] 86%|████████▌ | 9182/10711 [1:39:27<12:31,  2.03it/s] 86%|████████▌ | 9183/10711 [1:39:27<12:31,  2.03it/s] 86%|████████▌ | 9184/10711 [1:39:28<12:30,  2.03it/s] 86%|████████▌ | 9185/10711 [1:39:28<12:28,  2.04it/s] 86%|████████▌ | 9186/10711 [1:39:29<12:28,  2.04it/s] 86%|████████▌ | 9187/10711 [1:39:29<12:28,  2.04it/s] 86%|████████▌ | 9188/10711 [1:39:30<12:27,  2.04it/s] 86%|████████▌ | 9189/10711 [1:39:30<12:38,  2.01it/s] 86%|████████▌ | 9190/10711 [1:39:31<12:35,  2.01it/s] 86%|████████▌ | 9191/10711 [1:39:31<12:32,  2.02it/s] 86%|████████▌ | 9192/10711 [1:39:32<12:29,  2.03it/s] 86%|████████▌ | 9193/10711 [1:39:32<12:28,  2.03it/s] 86%|████████▌ | 9194/10711 [1:39:33<12:27,  2.03it/s] 86%|████████▌ | 9195/10711 [1:39:33<12:26,  2.03it/s] 86%|████████▌ | 9196/10711 [1:39:34<12:27,  2.03it/s] 86%|████████▌ | 9197/10711 [1:39:34<12:26,  2.03it/s] 86%|████████▌ | 9198/10711 [1:39:35<12:25,  2.03it/s] 86%|████████▌ | 9199/10711 [1:39:35<12:24,  2.03it/s] 86%|████████▌ | 9200/10711 [1:39:36<12:23,  2.03it/s]{'loss': 3.3931, 'grad_norm': 0.1946510225534439, 'learning_rate': 5.941682970784446e-05, 'epoch': 0.86}
                                                       86%|████████▌ | 9200/10711 [1:39:36<12:23,  2.03it/s] 86%|████████▌ | 9201/10711 [1:39:36<12:24,  2.03it/s] 86%|████████▌ | 9202/10711 [1:39:37<12:22,  2.03it/s] 86%|████████▌ | 9203/10711 [1:39:37<12:21,  2.03it/s] 86%|████████▌ | 9204/10711 [1:39:38<12:22,  2.03it/s] 86%|████████▌ | 9205/10711 [1:39:38<12:21,  2.03it/s] 86%|████████▌ | 9206/10711 [1:39:39<12:20,  2.03it/s] 86%|████████▌ | 9207/10711 [1:39:39<12:20,  2.03it/s] 86%|████████▌ | 9208/10711 [1:39:40<12:18,  2.03it/s] 86%|████████▌ | 9209/10711 [1:39:40<12:17,  2.04it/s] 86%|████████▌ | 9210/10711 [1:39:41<12:17,  2.03it/s] 86%|████████▌ | 9211/10711 [1:39:41<12:16,  2.04it/s] 86%|████████▌ | 9212/10711 [1:39:42<12:15,  2.04it/s] 86%|████████▌ | 9213/10711 [1:39:42<12:16,  2.03it/s] 86%|████████▌ | 9214/10711 [1:39:43<12:15,  2.04it/s] 86%|████████▌ | 9215/10711 [1:39:43<12:14,  2.04it/s] 86%|████████▌ | 9216/10711 [1:39:44<12:14,  2.03it/s] 86%|████████▌ | 9217/10711 [1:39:44<12:13,  2.04it/s] 86%|████████▌ | 9218/10711 [1:39:45<12:13,  2.04it/s] 86%|████████▌ | 9219/10711 [1:39:45<12:13,  2.03it/s] 86%|████████▌ | 9220/10711 [1:39:46<12:12,  2.03it/s] 86%|████████▌ | 9221/10711 [1:39:46<12:13,  2.03it/s] 86%|████████▌ | 9222/10711 [1:39:47<12:12,  2.03it/s] 86%|████████▌ | 9223/10711 [1:39:47<12:13,  2.03it/s] 86%|████████▌ | 9224/10711 [1:39:48<12:13,  2.03it/s] 86%|████████▌ | 9225/10711 [1:39:48<12:11,  2.03it/s]                                                      {'loss': 3.3754, 'grad_norm': 0.1941731721162796, 'learning_rate': 5.750523280034636e-05, 'epoch': 0.86}
 86%|████████▌ | 9225/10711 [1:39:48<12:11,  2.03it/s] 86%|████████▌ | 9226/10711 [1:39:49<12:12,  2.03it/s] 86%|████████▌ | 9227/10711 [1:39:49<12:10,  2.03it/s] 86%|████████▌ | 9228/10711 [1:39:50<12:10,  2.03it/s] 86%|████████▌ | 9229/10711 [1:39:50<12:09,  2.03it/s] 86%|████████▌ | 9230/10711 [1:39:51<12:08,  2.03it/s] 86%|████████▌ | 9231/10711 [1:39:51<12:08,  2.03it/s] 86%|████████▌ | 9232/10711 [1:39:52<12:07,  2.03it/s] 86%|████████▌ | 9233/10711 [1:39:52<12:05,  2.04it/s] 86%|████████▌ | 9234/10711 [1:39:53<12:05,  2.03it/s] 86%|████████▌ | 9235/10711 [1:39:53<12:05,  2.03it/s] 86%|████████▌ | 9236/10711 [1:39:54<12:04,  2.04it/s] 86%|████████▌ | 9237/10711 [1:39:54<12:04,  2.03it/s] 86%|████████▌ | 9238/10711 [1:39:55<12:05,  2.03it/s] 86%|████████▋ | 9239/10711 [1:39:55<12:04,  2.03it/s] 86%|████████▋ | 9240/10711 [1:39:55<12:04,  2.03it/s] 86%|████████▋ | 9241/10711 [1:39:56<12:03,  2.03it/s] 86%|████████▋ | 9242/10711 [1:39:56<12:02,  2.03it/s] 86%|████████▋ | 9243/10711 [1:39:57<12:02,  2.03it/s] 86%|████████▋ | 9244/10711 [1:39:57<12:01,  2.03it/s] 86%|████████▋ | 9245/10711 [1:39:58<12:00,  2.03it/s] 86%|████████▋ | 9246/10711 [1:39:58<12:00,  2.03it/s] 86%|████████▋ | 9247/10711 [1:39:59<11:59,  2.04it/s] 86%|████████▋ | 9248/10711 [1:39:59<11:59,  2.03it/s] 86%|████████▋ | 9249/10711 [1:40:00<11:58,  2.03it/s] 86%|████████▋ | 9250/10711 [1:40:00<11:58,  2.03it/s]                                                      {'loss': 3.3845, 'grad_norm': 0.19551090896129608, 'learning_rate': 5.562301384631696e-05, 'epoch': 0.86}
 86%|████████▋ | 9250/10711 [1:40:00<11:58,  2.03it/s] 86%|████████▋ | 9251/10711 [1:40:01<11:58,  2.03it/s] 86%|████████▋ | 9252/10711 [1:40:01<11:57,  2.03it/s] 86%|████████▋ | 9253/10711 [1:40:02<11:57,  2.03it/s] 86%|████████▋ | 9254/10711 [1:40:02<11:57,  2.03it/s] 86%|████████▋ | 9255/10711 [1:40:03<11:56,  2.03it/s] 86%|████████▋ | 9256/10711 [1:40:03<11:56,  2.03it/s] 86%|████████▋ | 9257/10711 [1:40:04<11:55,  2.03it/s] 86%|████████▋ | 9258/10711 [1:40:04<11:53,  2.04it/s] 86%|████████▋ | 9259/10711 [1:40:05<11:54,  2.03it/s] 86%|████████▋ | 9260/10711 [1:40:05<11:52,  2.04it/s] 86%|████████▋ | 9261/10711 [1:40:06<11:52,  2.04it/s] 86%|████████▋ | 9262/10711 [1:40:06<11:51,  2.04it/s] 86%|████████▋ | 9263/10711 [1:40:07<11:52,  2.03it/s] 86%|████████▋ | 9264/10711 [1:40:07<11:52,  2.03it/s] 86%|████████▋ | 9265/10711 [1:40:08<11:51,  2.03it/s] 87%|████████▋ | 9266/10711 [1:40:08<11:50,  2.03it/s] 87%|████████▋ | 9267/10711 [1:40:09<11:49,  2.04it/s] 87%|████████▋ | 9268/10711 [1:40:09<11:48,  2.04it/s] 87%|████████▋ | 9269/10711 [1:40:10<11:48,  2.04it/s] 87%|████████▋ | 9270/10711 [1:40:10<11:47,  2.04it/s] 87%|████████▋ | 9271/10711 [1:40:11<11:47,  2.04it/s] 87%|████████▋ | 9272/10711 [1:40:11<11:47,  2.03it/s] 87%|████████▋ | 9273/10711 [1:40:12<11:46,  2.04it/s] 87%|████████▋ | 9274/10711 [1:40:12<11:46,  2.03it/s] 87%|████████▋ | 9275/10711 [1:40:13<11:45,  2.04it/s]{'loss': 3.3826, 'grad_norm': 0.19426076114177704, 'learning_rate': 5.377029780935982e-05, 'epoch': 0.87}
                                                       87%|████████▋ | 9275/10711 [1:40:13<11:45,  2.04it/s] 87%|████████▋ | 9276/10711 [1:40:13<11:45,  2.03it/s] 87%|████████▋ | 9277/10711 [1:40:14<11:45,  2.03it/s] 87%|████████▋ | 9278/10711 [1:40:14<11:44,  2.03it/s] 87%|████████▋ | 9279/10711 [1:40:15<11:44,  2.03it/s] 87%|████████▋ | 9280/10711 [1:40:15<11:43,  2.03it/s] 87%|████████▋ | 9281/10711 [1:40:16<11:42,  2.03it/s] 87%|████████▋ | 9282/10711 [1:40:16<11:41,  2.04it/s] 87%|████████▋ | 9283/10711 [1:40:17<11:41,  2.04it/s] 87%|████████▋ | 9284/10711 [1:40:17<11:41,  2.03it/s] 87%|████████▋ | 9285/10711 [1:40:18<11:39,  2.04it/s] 87%|████████▋ | 9286/10711 [1:40:18<11:39,  2.04it/s] 87%|████████▋ | 9287/10711 [1:40:19<11:39,  2.04it/s] 87%|████████▋ | 9288/10711 [1:40:19<11:38,  2.04it/s] 87%|████████▋ | 9289/10711 [1:40:20<11:38,  2.04it/s] 87%|████████▋ | 9290/10711 [1:40:20<11:37,  2.04it/s] 87%|████████▋ | 9291/10711 [1:40:21<11:36,  2.04it/s] 87%|████████▋ | 9292/10711 [1:40:21<11:35,  2.04it/s] 87%|████████▋ | 9293/10711 [1:40:22<11:35,  2.04it/s] 87%|████████▋ | 9294/10711 [1:40:22<11:35,  2.04it/s] 87%|████████▋ | 9295/10711 [1:40:23<11:34,  2.04it/s] 87%|████████▋ | 9296/10711 [1:40:23<11:34,  2.04it/s] 87%|████████▋ | 9297/10711 [1:40:24<11:34,  2.04it/s] 87%|████████▋ | 9298/10711 [1:40:24<11:33,  2.04it/s] 87%|████████▋ | 9299/10711 [1:40:24<11:33,  2.04it/s] 87%|████████▋ | 9300/10711 [1:40:25<11:32,  2.04it/s]{'loss': 3.379, 'grad_norm': 0.19220158457756042, 'learning_rate': 5.1947207694332255e-05, 'epoch': 0.87}                                                      
 87%|████████▋ | 9300/10711 [1:40:25<11:32,  2.04it/s] 87%|████████▋ | 9301/10711 [1:40:25<11:32,  2.04it/s] 87%|████████▋ | 9302/10711 [1:40:26<11:32,  2.04it/s] 87%|████████▋ | 9303/10711 [1:40:26<11:32,  2.03it/s] 87%|████████▋ | 9304/10711 [1:40:27<11:31,  2.04it/s] 87%|████████▋ | 9305/10711 [1:40:27<11:30,  2.04it/s] 87%|████████▋ | 9306/10711 [1:40:28<11:30,  2.03it/s] 87%|████████▋ | 9307/10711 [1:40:28<11:29,  2.04it/s] 87%|████████▋ | 9308/10711 [1:40:29<11:29,  2.03it/s] 87%|████████▋ | 9309/10711 [1:40:29<11:29,  2.03it/s] 87%|████████▋ | 9310/10711 [1:40:30<11:27,  2.04it/s] 87%|████████▋ | 9311/10711 [1:40:30<11:26,  2.04it/s] 87%|████████▋ | 9312/10711 [1:40:31<11:26,  2.04it/s] 87%|████████▋ | 9313/10711 [1:40:31<11:26,  2.04it/s] 87%|████████▋ | 9314/10711 [1:40:32<11:25,  2.04it/s] 87%|████████▋ | 9315/10711 [1:40:32<11:26,  2.03it/s] 87%|████████▋ | 9316/10711 [1:40:33<11:25,  2.04it/s] 87%|████████▋ | 9317/10711 [1:40:33<11:23,  2.04it/s] 87%|████████▋ | 9318/10711 [1:40:34<11:23,  2.04it/s] 87%|████████▋ | 9319/10711 [1:40:34<11:23,  2.04it/s] 87%|████████▋ | 9320/10711 [1:40:35<11:23,  2.03it/s] 87%|████████▋ | 9321/10711 [1:40:35<11:24,  2.03it/s] 87%|████████▋ | 9322/10711 [1:40:36<11:23,  2.03it/s] 87%|████████▋ | 9323/10711 [1:40:36<11:23,  2.03it/s] 87%|████████▋ | 9324/10711 [1:40:37<11:21,  2.03it/s] 87%|████████▋ | 9325/10711 [1:40:37<11:20,  2.04it/s]                                                      {'loss': 3.3798, 'grad_norm': 0.19888725876808167, 'learning_rate': 5.0153864539177416e-05, 'epoch': 0.87}
 87%|████████▋ | 9325/10711 [1:40:37<11:20,  2.04it/s] 87%|████████▋ | 9326/10711 [1:40:38<11:22,  2.03it/s] 87%|████████▋ | 9327/10711 [1:40:38<11:21,  2.03it/s] 87%|████████▋ | 9328/10711 [1:40:39<11:20,  2.03it/s] 87%|████████▋ | 9329/10711 [1:40:39<11:19,  2.03it/s] 87%|████████▋ | 9330/10711 [1:40:40<11:18,  2.03it/s] 87%|████████▋ | 9331/10711 [1:40:40<11:18,  2.04it/s] 87%|████████▋ | 9332/10711 [1:40:41<11:17,  2.04it/s] 87%|████████▋ | 9333/10711 [1:40:41<11:18,  2.03it/s] 87%|████████▋ | 9334/10711 [1:40:42<11:17,  2.03it/s] 87%|████████▋ | 9335/10711 [1:40:42<11:16,  2.03it/s] 87%|████████▋ | 9336/10711 [1:40:43<11:16,  2.03it/s] 87%|████████▋ | 9337/10711 [1:40:43<11:15,  2.03it/s] 87%|████████▋ | 9338/10711 [1:40:44<11:14,  2.03it/s] 87%|████████▋ | 9339/10711 [1:40:44<11:14,  2.04it/s] 87%|████████▋ | 9340/10711 [1:40:45<11:13,  2.04it/s] 87%|████████▋ | 9341/10711 [1:40:45<11:12,  2.04it/s] 87%|████████▋ | 9342/10711 [1:40:46<11:11,  2.04it/s] 87%|████████▋ | 9343/10711 [1:40:46<11:11,  2.04it/s] 87%|████████▋ | 9344/10711 [1:40:47<11:11,  2.04it/s] 87%|████████▋ | 9345/10711 [1:40:47<11:10,  2.04it/s] 87%|████████▋ | 9346/10711 [1:40:48<11:10,  2.04it/s] 87%|████████▋ | 9347/10711 [1:40:48<11:10,  2.04it/s] 87%|████████▋ | 9348/10711 [1:40:49<11:09,  2.04it/s] 87%|████████▋ | 9349/10711 [1:40:49<11:09,  2.03it/s] 87%|████████▋ | 9350/10711 [1:40:50<11:09,  2.03it/s]{'loss': 3.3922, 'grad_norm': 0.19933876395225525, 'learning_rate': 4.839038740688917e-05, 'epoch': 0.87}
                                                       87%|████████▋ | 9350/10711 [1:40:50<11:09,  2.03it/s] 87%|████████▋ | 9351/10711 [1:40:50<11:09,  2.03it/s] 87%|████████▋ | 9352/10711 [1:40:51<11:08,  2.03it/s] 87%|████████▋ | 9353/10711 [1:40:51<11:08,  2.03it/s] 87%|████████▋ | 9354/10711 [1:40:52<11:06,  2.03it/s] 87%|████████▋ | 9355/10711 [1:40:52<11:06,  2.03it/s] 87%|████████▋ | 9356/10711 [1:40:53<11:06,  2.03it/s] 87%|████████▋ | 9357/10711 [1:40:53<11:05,  2.04it/s] 87%|████████▋ | 9358/10711 [1:40:53<11:04,  2.03it/s] 87%|████████▋ | 9359/10711 [1:40:54<11:04,  2.03it/s] 87%|████████▋ | 9360/10711 [1:40:54<11:03,  2.04it/s] 87%|████████▋ | 9361/10711 [1:40:55<11:03,  2.03it/s] 87%|████████▋ | 9362/10711 [1:40:55<11:03,  2.03it/s] 87%|████████▋ | 9363/10711 [1:40:56<11:01,  2.04it/s] 87%|████████▋ | 9364/10711 [1:40:56<11:01,  2.04it/s] 87%|████████▋ | 9365/10711 [1:40:57<11:01,  2.03it/s] 87%|████████▋ | 9366/10711 [1:40:57<11:00,  2.04it/s] 87%|████████▋ | 9367/10711 [1:40:58<11:00,  2.04it/s] 87%|████████▋ | 9368/10711 [1:40:58<10:59,  2.04it/s] 87%|████████▋ | 9369/10711 [1:40:59<10:58,  2.04it/s] 87%|████████▋ | 9370/10711 [1:40:59<10:58,  2.04it/s] 87%|████████▋ | 9371/10711 [1:41:00<10:59,  2.03it/s] 87%|████████▋ | 9372/10711 [1:41:00<10:57,  2.04it/s] 88%|████████▊ | 9373/10711 [1:41:01<10:57,  2.03it/s] 88%|████████▊ | 9374/10711 [1:41:01<10:56,  2.04it/s] 88%|████████▊ | 9375/10711 [1:41:02<10:56,  2.03it/s]{'loss': 3.3751, 'grad_norm': 0.19530467689037323, 'learning_rate': 4.665689337760737e-05, 'epoch': 0.88}
                                                       88%|████████▊ | 9375/10711 [1:41:02<10:56,  2.03it/s] 88%|████████▊ | 9376/10711 [1:41:02<10:57,  2.03it/s] 88%|████████▊ | 9377/10711 [1:41:03<10:56,  2.03it/s] 88%|████████▊ | 9378/10711 [1:41:03<10:54,  2.04it/s] 88%|████████▊ | 9379/10711 [1:41:04<10:54,  2.03it/s] 88%|████████▊ | 9380/10711 [1:41:04<10:53,  2.04it/s] 88%|████████▊ | 9381/10711 [1:41:05<10:52,  2.04it/s] 88%|████████▊ | 9382/10711 [1:41:05<10:52,  2.04it/s] 88%|████████▊ | 9383/10711 [1:41:06<10:51,  2.04it/s] 88%|████████▊ | 9384/10711 [1:41:06<10:51,  2.04it/s] 88%|████████▊ | 9385/10711 [1:41:07<10:50,  2.04it/s] 88%|████████▊ | 9386/10711 [1:41:07<10:51,  2.03it/s] 88%|████████▊ | 9387/10711 [1:41:08<10:50,  2.04it/s] 88%|████████▊ | 9388/10711 [1:41:08<10:49,  2.04it/s] 88%|████████▊ | 9389/10711 [1:41:09<10:49,  2.04it/s] 88%|████████▊ | 9390/10711 [1:41:09<10:48,  2.04it/s] 88%|████████▊ | 9391/10711 [1:41:10<10:47,  2.04it/s] 88%|████████▊ | 9392/10711 [1:41:10<10:47,  2.04it/s] 88%|████████▊ | 9393/10711 [1:41:11<10:46,  2.04it/s] 88%|████████▊ | 9394/10711 [1:41:11<10:47,  2.03it/s] 88%|████████▊ | 9395/10711 [1:41:12<10:47,  2.03it/s] 88%|████████▊ | 9396/10711 [1:41:12<10:47,  2.03it/s] 88%|████████▊ | 9397/10711 [1:41:13<10:45,  2.03it/s] 88%|████████▊ | 9398/10711 [1:41:13<10:45,  2.03it/s] 88%|████████▊ | 9399/10711 [1:41:14<10:44,  2.04it/s] 88%|████████▊ | 9400/10711 [1:41:14<10:42,  2.04it/s]{'loss': 3.3879, 'grad_norm': 0.1935831606388092, 'learning_rate': 4.495349754084399e-05, 'epoch': 0.88}                                                      
 88%|████████▊ | 9400/10711 [1:41:14<10:42,  2.04it/s] 88%|████████▊ | 9401/10711 [1:41:15<10:44,  2.03it/s] 88%|████████▊ | 9402/10711 [1:41:15<10:43,  2.04it/s] 88%|████████▊ | 9403/10711 [1:41:16<10:41,  2.04it/s] 88%|████████▊ | 9404/10711 [1:41:16<10:42,  2.04it/s] 88%|████████▊ | 9405/10711 [1:41:17<10:40,  2.04it/s] 88%|████████▊ | 9406/10711 [1:41:17<10:39,  2.04it/s] 88%|████████▊ | 9407/10711 [1:41:18<10:39,  2.04it/s] 88%|████████▊ | 9408/10711 [1:41:18<10:38,  2.04it/s] 88%|████████▊ | 9409/10711 [1:41:19<10:39,  2.04it/s] 88%|████████▊ | 9410/10711 [1:41:19<10:38,  2.04it/s] 88%|████████▊ | 9411/10711 [1:41:20<10:38,  2.04it/s] 88%|████████▊ | 9412/10711 [1:41:20<10:38,  2.04it/s] 88%|████████▊ | 9413/10711 [1:41:20<10:37,  2.04it/s] 88%|████████▊ | 9414/10711 [1:41:21<10:38,  2.03it/s] 88%|████████▊ | 9415/10711 [1:41:21<10:36,  2.03it/s] 88%|████████▊ | 9416/10711 [1:41:22<10:35,  2.04it/s] 88%|████████▊ | 9417/10711 [1:41:22<10:35,  2.04it/s] 88%|████████▊ | 9418/10711 [1:41:23<10:35,  2.04it/s] 88%|████████▊ | 9419/10711 [1:41:23<10:34,  2.03it/s] 88%|████████▊ | 9420/10711 [1:41:24<10:34,  2.03it/s] 88%|████████▊ | 9421/10711 [1:41:24<10:34,  2.03it/s] 88%|████████▊ | 9422/10711 [1:41:25<10:32,  2.04it/s] 88%|████████▊ | 9423/10711 [1:41:25<10:33,  2.03it/s] 88%|████████▊ | 9424/10711 [1:41:26<10:32,  2.04it/s] 88%|████████▊ | 9425/10711 [1:41:26<10:30,  2.04it/s]{'loss': 3.3716, 'grad_norm': 0.19414310157299042, 'learning_rate': 4.328031298784313e-05, 'epoch': 0.88}                                                      
 88%|████████▊ | 9425/10711 [1:41:26<10:30,  2.04it/s] 88%|████████▊ | 9426/10711 [1:41:27<10:33,  2.03it/s] 88%|████████▊ | 9427/10711 [1:41:27<10:31,  2.03it/s] 88%|████████▊ | 9428/10711 [1:41:28<10:30,  2.04it/s] 88%|████████▊ | 9429/10711 [1:41:28<10:30,  2.03it/s] 88%|████████▊ | 9430/10711 [1:41:29<10:29,  2.03it/s] 88%|████████▊ | 9431/10711 [1:41:29<10:28,  2.04it/s] 88%|████████▊ | 9432/10711 [1:41:30<10:28,  2.03it/s] 88%|████████▊ | 9433/10711 [1:41:30<10:27,  2.04it/s] 88%|████████▊ | 9434/10711 [1:41:31<10:27,  2.03it/s] 88%|████████▊ | 9435/10711 [1:41:31<10:27,  2.03it/s] 88%|████████▊ | 9436/10711 [1:41:32<10:25,  2.04it/s] 88%|████████▊ | 9437/10711 [1:41:32<10:25,  2.04it/s] 88%|████████▊ | 9438/10711 [1:41:33<10:24,  2.04it/s] 88%|████████▊ | 9439/10711 [1:41:33<10:24,  2.04it/s] 88%|████████▊ | 9440/10711 [1:41:34<10:23,  2.04it/s] 88%|████████▊ | 9441/10711 [1:41:34<10:23,  2.04it/s] 88%|████████▊ | 9442/10711 [1:41:35<10:22,  2.04it/s] 88%|████████▊ | 9443/10711 [1:41:35<10:21,  2.04it/s] 88%|████████▊ | 9444/10711 [1:41:36<10:21,  2.04it/s] 88%|████████▊ | 9445/10711 [1:41:36<10:22,  2.03it/s] 88%|████████▊ | 9446/10711 [1:41:37<10:20,  2.04it/s] 88%|████████▊ | 9447/10711 [1:41:37<10:20,  2.04it/s] 88%|████████▊ | 9448/10711 [1:41:38<10:20,  2.04it/s] 88%|████████▊ | 9449/10711 [1:41:38<10:19,  2.04it/s] 88%|████████▊ | 9450/10711 [1:41:39<10:18,  2.04it/s]                                                      {'loss': 3.3769, 'grad_norm': 0.18953394889831543, 'learning_rate': 4.163745080407189e-05, 'epoch': 0.88}
 88%|████████▊ | 9450/10711 [1:41:39<10:18,  2.04it/s] 88%|████████▊ | 9451/10711 [1:41:39<10:19,  2.03it/s] 88%|████████▊ | 9452/10711 [1:41:40<10:17,  2.04it/s] 88%|████████▊ | 9453/10711 [1:41:40<10:17,  2.04it/s] 88%|████████▊ | 9454/10711 [1:41:41<10:18,  2.03it/s] 88%|████████▊ | 9455/10711 [1:41:41<10:16,  2.04it/s] 88%|████████▊ | 9456/10711 [1:41:42<10:16,  2.04it/s] 88%|████████▊ | 9457/10711 [1:41:42<10:16,  2.03it/s] 88%|████████▊ | 9458/10711 [1:41:43<10:15,  2.04it/s] 88%|████████▊ | 9459/10711 [1:41:43<10:14,  2.04it/s] 88%|████████▊ | 9460/10711 [1:41:44<10:14,  2.04it/s] 88%|████████▊ | 9461/10711 [1:41:44<10:14,  2.03it/s] 88%|████████▊ | 9462/10711 [1:41:45<10:14,  2.03it/s] 88%|████████▊ | 9463/10711 [1:41:45<10:13,  2.04it/s] 88%|████████▊ | 9464/10711 [1:41:46<10:13,  2.03it/s] 88%|████████▊ | 9465/10711 [1:41:46<10:12,  2.03it/s] 88%|████████▊ | 9466/10711 [1:41:47<10:11,  2.04it/s] 88%|████████▊ | 9467/10711 [1:41:47<10:10,  2.04it/s] 88%|████████▊ | 9468/10711 [1:41:48<10:10,  2.04it/s] 88%|████████▊ | 9469/10711 [1:41:48<10:09,  2.04it/s] 88%|████████▊ | 9470/10711 [1:41:48<10:08,  2.04it/s] 88%|████████▊ | 9471/10711 [1:41:49<10:09,  2.03it/s] 88%|████████▊ | 9472/10711 [1:41:49<10:08,  2.04it/s] 88%|████████▊ | 9473/10711 [1:41:50<10:07,  2.04it/s] 88%|████████▊ | 9474/10711 [1:41:50<10:07,  2.04it/s] 88%|████████▊ | 9475/10711 [1:41:51<10:06,  2.04it/s]{'loss': 3.374, 'grad_norm': 0.19003921747207642, 'learning_rate': 4.0025020061845553e-05, 'epoch': 0.88}                                                      
 88%|████████▊ | 9475/10711 [1:41:51<10:06,  2.04it/s] 88%|████████▊ | 9476/10711 [1:41:51<10:06,  2.04it/s] 88%|████████▊ | 9477/10711 [1:41:52<10:06,  2.04it/s] 88%|████████▊ | 9478/10711 [1:41:52<10:06,  2.03it/s] 88%|████████▊ | 9479/10711 [1:41:53<10:05,  2.04it/s] 89%|████████▊ | 9480/10711 [1:41:53<10:04,  2.04it/s] 89%|████████▊ | 9481/10711 [1:41:54<10:04,  2.03it/s] 89%|████████▊ | 9482/10711 [1:41:54<10:03,  2.04it/s] 89%|████████▊ | 9483/10711 [1:41:55<10:02,  2.04it/s] 89%|████████▊ | 9484/10711 [1:41:55<10:02,  2.04it/s] 89%|████████▊ | 9485/10711 [1:41:56<10:01,  2.04it/s] 89%|████████▊ | 9486/10711 [1:41:56<10:01,  2.04it/s] 89%|████████▊ | 9487/10711 [1:41:57<10:01,  2.04it/s] 89%|████████▊ | 9488/10711 [1:41:57<10:00,  2.04it/s] 89%|████████▊ | 9489/10711 [1:41:58<09:59,  2.04it/s] 89%|████████▊ | 9490/10711 [1:41:58<10:00,  2.03it/s] 89%|████████▊ | 9491/10711 [1:41:59<09:59,  2.04it/s] 89%|████████▊ | 9492/10711 [1:41:59<09:58,  2.04it/s] 89%|████████▊ | 9493/10711 [1:42:00<09:58,  2.04it/s] 89%|████████▊ | 9494/10711 [1:42:00<09:57,  2.04it/s] 89%|████████▊ | 9495/10711 [1:42:01<09:56,  2.04it/s] 89%|████████▊ | 9496/10711 [1:42:01<09:57,  2.03it/s] 89%|████████▊ | 9497/10711 [1:42:02<09:55,  2.04it/s] 89%|████████▊ | 9498/10711 [1:42:02<09:55,  2.04it/s] 89%|████████▊ | 9499/10711 [1:42:03<09:55,  2.04it/s] 89%|████████▊ | 9500/10711 [1:42:03<09:54,  2.04it/s]                                                      {'loss': 3.3835, 'grad_norm': 0.19382645189762115, 'learning_rate': 3.8443127813086284e-05, 'epoch': 0.89}
 89%|████████▊ | 9500/10711 [1:42:03<09:54,  2.04it/s] 89%|████████▊ | 9501/10711 [1:42:04<09:55,  2.03it/s] 89%|████████▊ | 9502/10711 [1:42:04<09:54,  2.03it/s] 89%|████████▊ | 9503/10711 [1:42:05<09:54,  2.03it/s] 89%|████████▊ | 9504/10711 [1:42:05<09:53,  2.03it/s] 89%|████████▊ | 9505/10711 [1:42:06<09:52,  2.03it/s] 89%|████████▊ | 9506/10711 [1:42:06<09:51,  2.04it/s] 89%|████████▉ | 9507/10711 [1:42:07<09:51,  2.04it/s] 89%|████████▉ | 9508/10711 [1:42:07<09:50,  2.04it/s] 89%|████████▉ | 9509/10711 [1:42:08<09:49,  2.04it/s] 89%|████████▉ | 9510/10711 [1:42:08<09:49,  2.04it/s] 89%|████████▉ | 9511/10711 [1:42:09<09:49,  2.04it/s] 89%|████████▉ | 9512/10711 [1:42:09<09:48,  2.04it/s] 89%|████████▉ | 9513/10711 [1:42:10<09:47,  2.04it/s] 89%|████████▉ | 9514/10711 [1:42:10<09:48,  2.03it/s] 89%|████████▉ | 9515/10711 [1:42:11<09:46,  2.04it/s] 89%|████████▉ | 9516/10711 [1:42:11<09:46,  2.04it/s] 89%|████████▉ | 9517/10711 [1:42:12<09:46,  2.04it/s] 89%|████████▉ | 9518/10711 [1:42:12<09:45,  2.04it/s] 89%|████████▉ | 9519/10711 [1:42:13<09:44,  2.04it/s] 89%|████████▉ | 9520/10711 [1:42:13<09:44,  2.04it/s] 89%|████████▉ | 9521/10711 [1:42:14<09:44,  2.04it/s] 89%|████████▉ | 9522/10711 [1:42:14<09:42,  2.04it/s] 89%|████████▉ | 9523/10711 [1:42:15<09:42,  2.04it/s] 89%|████████▉ | 9524/10711 [1:42:15<09:42,  2.04it/s] 89%|████████▉ | 9525/10711 [1:42:16<09:41,  2.04it/s]{'loss': 3.3793, 'grad_norm': 0.1930091232061386, 'learning_rate': 3.689187908221531e-05, 'epoch': 0.89}
                                                       89%|████████▉ | 9525/10711 [1:42:16<09:41,  2.04it/s] 89%|████████▉ | 9526/10711 [1:42:16<11:18,  1.75it/s] 89%|████████▉ | 9527/10711 [1:42:17<10:49,  1.82it/s] 89%|████████▉ | 9528/10711 [1:42:17<10:28,  1.88it/s] 89%|████████▉ | 9529/10711 [1:42:18<10:13,  1.93it/s] 89%|████████▉ | 9530/10711 [1:42:18<10:03,  1.96it/s] 89%|████████▉ | 9531/10711 [1:42:19<09:55,  1.98it/s] 89%|████████▉ | 9532/10711 [1:42:19<09:50,  2.00it/s] 89%|████████▉ | 9533/10711 [1:42:20<09:45,  2.01it/s] 89%|████████▉ | 9534/10711 [1:42:20<09:43,  2.02it/s] 89%|████████▉ | 9535/10711 [1:42:21<09:40,  2.02it/s] 89%|████████▉ | 9536/10711 [1:42:21<09:38,  2.03it/s] 89%|████████▉ | 9537/10711 [1:42:22<09:39,  2.03it/s] 89%|████████▉ | 9538/10711 [1:42:22<09:37,  2.03it/s] 89%|████████▉ | 9539/10711 [1:42:23<09:35,  2.04it/s] 89%|████████▉ | 9540/10711 [1:42:23<09:35,  2.03it/s] 89%|████████▉ | 9541/10711 [1:42:24<09:35,  2.03it/s] 89%|████████▉ | 9542/10711 [1:42:24<09:34,  2.04it/s] 89%|████████▉ | 9543/10711 [1:42:25<09:32,  2.04it/s] 89%|████████▉ | 9544/10711 [1:42:25<09:32,  2.04it/s] 89%|████████▉ | 9545/10711 [1:42:26<09:33,  2.03it/s] 89%|████████▉ | 9546/10711 [1:42:26<09:31,  2.04it/s] 89%|████████▉ | 9547/10711 [1:42:27<09:31,  2.04it/s] 89%|████████▉ | 9548/10711 [1:42:27<09:31,  2.04it/s] 89%|████████▉ | 9549/10711 [1:42:28<09:30,  2.04it/s] 89%|████████▉ | 9550/10711 [1:42:28<09:30,  2.04it/s]{'loss': 3.3837, 'grad_norm': 0.19444920122623444, 'learning_rate': 3.537137685918074e-05, 'epoch': 0.89}
                                                       89%|████████▉ | 9550/10711 [1:42:28<09:30,  2.04it/s] 89%|████████▉ | 9551/10711 [1:42:29<09:31,  2.03it/s] 89%|████████▉ | 9552/10711 [1:42:29<09:29,  2.04it/s] 89%|████████▉ | 9553/10711 [1:42:30<09:29,  2.03it/s] 89%|████████▉ | 9554/10711 [1:42:30<09:28,  2.04it/s] 89%|████████▉ | 9555/10711 [1:42:31<09:27,  2.04it/s] 89%|████████▉ | 9556/10711 [1:42:31<09:26,  2.04it/s] 89%|████████▉ | 9557/10711 [1:42:31<09:27,  2.03it/s] 89%|████████▉ | 9558/10711 [1:42:32<09:26,  2.04it/s] 89%|████████▉ | 9559/10711 [1:42:32<09:26,  2.03it/s] 89%|████████▉ | 9560/10711 [1:42:33<09:25,  2.03it/s] 89%|████████▉ | 9561/10711 [1:42:33<09:24,  2.04it/s] 89%|████████▉ | 9562/10711 [1:42:34<09:23,  2.04it/s] 89%|████████▉ | 9563/10711 [1:42:34<09:23,  2.04it/s] 89%|████████▉ | 9564/10711 [1:42:35<09:22,  2.04it/s] 89%|████████▉ | 9565/10711 [1:42:35<09:22,  2.04it/s] 89%|████████▉ | 9566/10711 [1:42:36<09:22,  2.04it/s] 89%|████████▉ | 9567/10711 [1:42:36<09:22,  2.04it/s] 89%|████████▉ | 9568/10711 [1:42:37<09:20,  2.04it/s] 89%|████████▉ | 9569/10711 [1:42:37<09:20,  2.04it/s] 89%|████████▉ | 9570/10711 [1:42:38<09:19,  2.04it/s] 89%|████████▉ | 9571/10711 [1:42:38<09:18,  2.04it/s] 89%|████████▉ | 9572/10711 [1:42:39<09:18,  2.04it/s] 89%|████████▉ | 9573/10711 [1:42:39<09:18,  2.04it/s] 89%|████████▉ | 9574/10711 [1:42:40<10:48,  1.75it/s] 89%|████████▉ | 9575/10711 [1:42:41<10:21,  1.83it/s]                                                      {'loss': 3.3791, 'grad_norm': 0.1898709386587143, 'learning_rate': 3.388172209261925e-05, 'epoch': 0.89}
 89%|████████▉ | 9575/10711 [1:42:41<10:21,  1.83it/s] 89%|████████▉ | 9576/10711 [1:42:41<10:02,  1.88it/s] 89%|████████▉ | 9577/10711 [1:42:42<09:47,  1.93it/s] 89%|████████▉ | 9578/10711 [1:42:42<09:39,  1.96it/s] 89%|████████▉ | 9579/10711 [1:42:43<09:31,  1.98it/s] 89%|████████▉ | 9580/10711 [1:42:43<09:25,  2.00it/s] 89%|████████▉ | 9581/10711 [1:42:44<09:22,  2.01it/s] 89%|████████▉ | 9582/10711 [1:42:44<09:19,  2.02it/s] 89%|████████▉ | 9583/10711 [1:42:45<09:17,  2.02it/s] 89%|████████▉ | 9584/10711 [1:42:45<09:15,  2.03it/s] 89%|████████▉ | 9585/10711 [1:42:46<09:15,  2.03it/s] 89%|████████▉ | 9586/10711 [1:42:46<09:13,  2.03it/s] 90%|████████▉ | 9587/10711 [1:42:46<09:11,  2.04it/s] 90%|████████▉ | 9588/10711 [1:42:47<09:11,  2.04it/s] 90%|████████▉ | 9589/10711 [1:42:47<09:11,  2.04it/s] 90%|████████▉ | 9590/10711 [1:42:48<09:09,  2.04it/s] 90%|████████▉ | 9591/10711 [1:42:48<09:09,  2.04it/s] 90%|████████▉ | 9592/10711 [1:42:49<09:08,  2.04it/s] 90%|████████▉ | 9593/10711 [1:42:49<09:09,  2.04it/s] 90%|████████▉ | 9594/10711 [1:42:50<09:08,  2.04it/s] 90%|████████▉ | 9595/10711 [1:42:50<09:08,  2.04it/s] 90%|████████▉ | 9596/10711 [1:42:51<09:08,  2.03it/s] 90%|████████▉ | 9597/10711 [1:42:51<09:07,  2.04it/s] 90%|████████▉ | 9598/10711 [1:42:52<09:06,  2.04it/s] 90%|████████▉ | 9599/10711 [1:42:52<09:06,  2.04it/s] 90%|████████▉ | 9600/10711 [1:42:53<09:05,  2.04it/s]{'loss': 3.3783, 'grad_norm': 0.19272033870220184, 'learning_rate': 3.2423013683154366e-05, 'epoch': 0.9}
                                                       90%|████████▉ | 9600/10711 [1:42:53<09:05,  2.04it/s] 90%|████████▉ | 9601/10711 [1:42:53<09:06,  2.03it/s] 90%|████████▉ | 9602/10711 [1:42:54<09:05,  2.03it/s] 90%|████████▉ | 9603/10711 [1:42:54<09:04,  2.03it/s] 90%|████████▉ | 9604/10711 [1:42:55<09:04,  2.03it/s] 90%|████████▉ | 9605/10711 [1:42:55<09:02,  2.04it/s] 90%|████████▉ | 9606/10711 [1:42:56<09:02,  2.04it/s] 90%|████████▉ | 9607/10711 [1:42:56<09:02,  2.04it/s] 90%|████████▉ | 9608/10711 [1:42:57<09:01,  2.04it/s] 90%|████████▉ | 9609/10711 [1:42:57<09:00,  2.04it/s] 90%|████████▉ | 9610/10711 [1:42:58<09:00,  2.04it/s] 90%|████████▉ | 9611/10711 [1:42:58<08:59,  2.04it/s] 90%|████████▉ | 9612/10711 [1:42:59<08:58,  2.04it/s] 90%|████████▉ | 9613/10711 [1:42:59<08:59,  2.03it/s] 90%|████████▉ | 9614/10711 [1:43:00<08:59,  2.03it/s] 90%|████████▉ | 9615/10711 [1:43:00<08:58,  2.04it/s] 90%|████████▉ | 9616/10711 [1:43:01<08:58,  2.04it/s] 90%|████████▉ | 9617/10711 [1:43:01<08:58,  2.03it/s] 90%|████████▉ | 9618/10711 [1:43:02<08:57,  2.03it/s] 90%|████████▉ | 9619/10711 [1:43:02<08:56,  2.03it/s] 90%|████████▉ | 9620/10711 [1:43:03<08:55,  2.04it/s] 90%|████████▉ | 9621/10711 [1:43:03<08:54,  2.04it/s] 90%|████████▉ | 9622/10711 [1:43:04<08:54,  2.04it/s] 90%|████████▉ | 9623/10711 [1:43:04<08:55,  2.03it/s] 90%|████████▉ | 9624/10711 [1:43:05<08:53,  2.04it/s] 90%|████████▉ | 9625/10711 [1:43:05<08:53,  2.03it/s]{'loss': 3.3801, 'grad_norm': 0.19075414538383484, 'learning_rate': 3.099534847683055e-05, 'epoch': 0.9}                                                      
 90%|████████▉ | 9625/10711 [1:43:05<08:53,  2.03it/s] 90%|████████▉ | 9626/10711 [1:43:06<08:54,  2.03it/s] 90%|████████▉ | 9627/10711 [1:43:06<08:53,  2.03it/s] 90%|████████▉ | 9628/10711 [1:43:07<08:52,  2.03it/s] 90%|████████▉ | 9629/10711 [1:43:07<08:51,  2.04it/s] 90%|████████▉ | 9630/10711 [1:43:08<08:51,  2.03it/s] 90%|████████▉ | 9631/10711 [1:43:08<08:51,  2.03it/s] 90%|████████▉ | 9632/10711 [1:43:09<08:50,  2.03it/s] 90%|████████▉ | 9633/10711 [1:43:09<08:50,  2.03it/s] 90%|████████▉ | 9634/10711 [1:43:10<08:50,  2.03it/s] 90%|████████▉ | 9635/10711 [1:43:10<08:49,  2.03it/s] 90%|████████▉ | 9636/10711 [1:43:11<08:48,  2.03it/s] 90%|████████▉ | 9637/10711 [1:43:11<08:47,  2.04it/s] 90%|████████▉ | 9638/10711 [1:43:12<08:48,  2.03it/s] 90%|████████▉ | 9639/10711 [1:43:12<08:47,  2.03it/s] 90%|█████████ | 9640/10711 [1:43:13<08:46,  2.03it/s] 90%|█████████ | 9641/10711 [1:43:13<08:46,  2.03it/s] 90%|█████████ | 9642/10711 [1:43:14<08:45,  2.03it/s] 90%|█████████ | 9643/10711 [1:43:14<08:45,  2.03it/s] 90%|█████████ | 9644/10711 [1:43:14<08:44,  2.03it/s] 90%|█████████ | 9645/10711 [1:43:15<08:43,  2.04it/s] 90%|█████████ | 9646/10711 [1:43:15<08:42,  2.04it/s] 90%|█████████ | 9647/10711 [1:43:16<08:42,  2.04it/s] 90%|█████████ | 9648/10711 [1:43:16<08:42,  2.04it/s] 90%|█████████ | 9649/10711 [1:43:17<08:40,  2.04it/s] 90%|█████████ | 9650/10711 [1:43:17<08:40,  2.04it/s]                                                      {'loss': 3.3821, 'grad_norm': 0.19195911288261414, 'learning_rate': 2.9598821258682628e-05, 'epoch': 0.9}
 90%|█████████ | 9650/10711 [1:43:17<08:40,  2.04it/s] 90%|█████████ | 9651/10711 [1:43:18<08:40,  2.03it/s] 90%|█████████ | 9652/10711 [1:43:18<08:40,  2.04it/s] 90%|█████████ | 9653/10711 [1:43:19<08:39,  2.04it/s] 90%|█████████ | 9654/10711 [1:43:19<08:38,  2.04it/s] 90%|█████████ | 9655/10711 [1:43:20<08:38,  2.04it/s] 90%|█████████ | 9656/10711 [1:43:20<08:38,  2.04it/s] 90%|█████████ | 9657/10711 [1:43:21<08:37,  2.04it/s] 90%|█████████ | 9658/10711 [1:43:21<08:37,  2.04it/s] 90%|█████████ | 9659/10711 [1:43:22<08:36,  2.04it/s] 90%|█████████ | 9660/10711 [1:43:22<08:35,  2.04it/s] 90%|█████████ | 9661/10711 [1:43:23<08:35,  2.04it/s] 90%|█████████ | 9662/10711 [1:43:23<08:34,  2.04it/s] 90%|█████████ | 9663/10711 [1:43:24<08:34,  2.04it/s] 90%|█████████ | 9664/10711 [1:43:24<08:34,  2.04it/s] 90%|█████████ | 9665/10711 [1:43:25<08:34,  2.03it/s] 90%|█████████ | 9666/10711 [1:43:25<08:33,  2.03it/s] 90%|█████████ | 9667/10711 [1:43:26<08:33,  2.03it/s] 90%|█████████ | 9668/10711 [1:43:26<08:32,  2.03it/s] 90%|█████████ | 9669/10711 [1:43:27<08:31,  2.04it/s] 90%|█████████ | 9670/10711 [1:43:27<08:30,  2.04it/s] 90%|█████████ | 9671/10711 [1:43:28<08:30,  2.04it/s] 90%|█████████ | 9672/10711 [1:43:28<08:29,  2.04it/s] 90%|█████████ | 9673/10711 [1:43:29<08:29,  2.04it/s] 90%|█████████ | 9674/10711 [1:43:29<08:28,  2.04it/s] 90%|█████████ | 9675/10711 [1:43:30<08:28,  2.04it/s]{'loss': 3.3788, 'grad_norm': 0.1917620152235031, 'learning_rate': 2.8233524746443416e-05, 'epoch': 0.9}
                                                       90%|█████████ | 9675/10711 [1:43:30<08:28,  2.04it/s] 90%|█████████ | 9676/10711 [1:43:30<08:29,  2.03it/s] 90%|█████████ | 9677/10711 [1:43:31<08:28,  2.03it/s] 90%|█████████ | 9678/10711 [1:43:31<08:28,  2.03it/s] 90%|█████████ | 9679/10711 [1:43:32<08:27,  2.04it/s] 90%|█████████ | 9680/10711 [1:43:32<08:26,  2.04it/s] 90%|█████████ | 9681/10711 [1:43:33<08:26,  2.03it/s] 90%|█████████ | 9682/10711 [1:43:33<08:25,  2.04it/s] 90%|█████████ | 9683/10711 [1:43:34<08:25,  2.03it/s] 90%|█████████ | 9684/10711 [1:43:34<08:25,  2.03it/s] 90%|█████████ | 9685/10711 [1:43:35<08:23,  2.04it/s] 90%|█████████ | 9686/10711 [1:43:35<08:23,  2.03it/s] 90%|█████████ | 9687/10711 [1:43:36<08:23,  2.03it/s] 90%|█████████ | 9688/10711 [1:43:36<08:22,  2.03it/s] 90%|█████████ | 9689/10711 [1:43:37<08:22,  2.03it/s] 90%|█████████ | 9690/10711 [1:43:37<08:21,  2.04it/s] 90%|█████████ | 9691/10711 [1:43:38<08:20,  2.04it/s] 90%|█████████ | 9692/10711 [1:43:38<08:20,  2.04it/s] 90%|█████████ | 9693/10711 [1:43:39<08:20,  2.04it/s] 91%|█████████ | 9694/10711 [1:43:39<08:19,  2.04it/s] 91%|█████████ | 9695/10711 [1:43:40<08:18,  2.04it/s] 91%|█████████ | 9696/10711 [1:43:40<08:17,  2.04it/s] 91%|█████████ | 9697/10711 [1:43:41<08:17,  2.04it/s] 91%|█████████ | 9698/10711 [1:43:41<08:16,  2.04it/s] 91%|█████████ | 9699/10711 [1:43:42<08:15,  2.04it/s] 91%|█████████ | 9700/10711 [1:43:42<08:16,  2.04it/s]{'loss': 3.3783, 'grad_norm': 0.1931639015674591, 'learning_rate': 2.6899549584388227e-05, 'epoch': 0.91}                                                      
 91%|█████████ | 9700/10711 [1:43:42<08:16,  2.04it/s] 91%|█████████ | 9701/10711 [1:43:42<08:16,  2.04it/s] 91%|█████████ | 9702/10711 [1:43:43<08:14,  2.04it/s] 91%|█████████ | 9703/10711 [1:43:43<08:14,  2.04it/s] 91%|█████████ | 9704/10711 [1:43:44<08:14,  2.04it/s] 91%|█████████ | 9705/10711 [1:43:44<08:13,  2.04it/s] 91%|█████████ | 9706/10711 [1:43:45<08:12,  2.04it/s] 91%|█████████ | 9707/10711 [1:43:45<08:12,  2.04it/s] 91%|█████████ | 9708/10711 [1:43:46<08:11,  2.04it/s] 91%|█████████ | 9709/10711 [1:43:46<08:10,  2.04it/s] 91%|█████████ | 9710/10711 [1:43:47<08:10,  2.04it/s] 91%|█████████ | 9711/10711 [1:43:47<08:10,  2.04it/s] 91%|█████████ | 9712/10711 [1:43:48<08:09,  2.04it/s] 91%|█████████ | 9713/10711 [1:43:48<08:09,  2.04it/s] 91%|█████████ | 9714/10711 [1:43:49<08:09,  2.04it/s] 91%|█████████ | 9715/10711 [1:43:49<08:08,  2.04it/s] 91%|█████████ | 9716/10711 [1:43:50<08:08,  2.04it/s] 91%|█████████ | 9717/10711 [1:43:50<08:08,  2.04it/s] 91%|█████████ | 9718/10711 [1:43:51<08:07,  2.04it/s] 91%|█████████ | 9719/10711 [1:43:51<08:06,  2.04it/s] 91%|█████████ | 9720/10711 [1:43:52<08:06,  2.04it/s] 91%|█████████ | 9721/10711 [1:43:52<08:05,  2.04it/s] 91%|█████████ | 9722/10711 [1:43:53<08:05,  2.04it/s] 91%|█████████ | 9723/10711 [1:43:53<08:05,  2.04it/s] 91%|█████████ | 9724/10711 [1:43:54<08:04,  2.04it/s] 91%|█████████ | 9725/10711 [1:43:54<08:03,  2.04it/s]{'loss': 3.3727, 'grad_norm': 0.19146712124347687, 'learning_rate': 2.5596984337316165e-05, 'epoch': 0.91}
                                                       91%|█████████ | 9725/10711 [1:43:54<08:03,  2.04it/s] 91%|█████████ | 9726/10711 [1:43:55<08:04,  2.03it/s] 91%|█████████ | 9727/10711 [1:43:55<08:03,  2.03it/s] 91%|█████████ | 9728/10711 [1:43:56<08:02,  2.04it/s] 91%|█████████ | 9729/10711 [1:43:56<08:02,  2.04it/s] 91%|█████████ | 9730/10711 [1:43:57<08:01,  2.04it/s] 91%|█████████ | 9731/10711 [1:43:57<08:01,  2.04it/s] 91%|█████████ | 9732/10711 [1:43:58<08:00,  2.04it/s] 91%|█████████ | 9733/10711 [1:43:58<08:00,  2.03it/s] 91%|█████████ | 9734/10711 [1:43:59<08:00,  2.04it/s] 91%|█████████ | 9735/10711 [1:43:59<07:59,  2.04it/s] 91%|█████████ | 9736/10711 [1:44:00<07:58,  2.04it/s] 91%|█████████ | 9737/10711 [1:44:00<07:58,  2.04it/s] 91%|█████████ | 9738/10711 [1:44:01<07:57,  2.04it/s] 91%|█████████ | 9739/10711 [1:44:01<07:57,  2.03it/s] 91%|█████████ | 9740/10711 [1:44:02<07:57,  2.03it/s] 91%|█████████ | 9741/10711 [1:44:02<07:56,  2.03it/s] 91%|█████████ | 9742/10711 [1:44:03<07:56,  2.03it/s] 91%|█████████ | 9743/10711 [1:44:03<07:55,  2.04it/s] 91%|█████████ | 9744/10711 [1:44:04<07:54,  2.04it/s] 91%|█████████ | 9745/10711 [1:44:04<07:54,  2.04it/s] 91%|█████████ | 9746/10711 [1:44:05<07:53,  2.04it/s] 91%|█████████ | 9747/10711 [1:44:05<07:53,  2.03it/s] 91%|█████████ | 9748/10711 [1:44:06<07:52,  2.04it/s] 91%|█████████ | 9749/10711 [1:44:06<07:52,  2.04it/s] 91%|█████████ | 9750/10711 [1:44:07<07:52,  2.04it/s]{'loss': 3.3878, 'grad_norm': 0.19287119805812836, 'learning_rate': 2.4325915484670834e-05, 'epoch': 0.91}
                                                       91%|█████████ | 9750/10711 [1:44:07<07:52,  2.04it/s] 91%|█████████ | 9751/10711 [1:44:07<07:52,  2.03it/s] 91%|█████████ | 9752/10711 [1:44:08<07:51,  2.03it/s] 91%|█████████ | 9753/10711 [1:44:08<07:51,  2.03it/s] 91%|█████████ | 9754/10711 [1:44:09<07:50,  2.04it/s] 91%|█████████ | 9755/10711 [1:44:09<07:49,  2.03it/s] 91%|█████████ | 9756/10711 [1:44:09<07:49,  2.03it/s] 91%|█████████ | 9757/10711 [1:44:10<07:48,  2.04it/s] 91%|█████████ | 9758/10711 [1:44:10<07:48,  2.04it/s] 91%|█████████ | 9759/10711 [1:44:11<07:47,  2.03it/s] 91%|█████████ | 9760/10711 [1:44:11<07:46,  2.04it/s] 91%|█████████ | 9761/10711 [1:44:12<07:46,  2.04it/s] 91%|█████████ | 9762/10711 [1:44:12<07:45,  2.04it/s] 91%|█████████ | 9763/10711 [1:44:13<07:45,  2.04it/s] 91%|█████████ | 9764/10711 [1:44:13<07:45,  2.04it/s] 91%|█████████ | 9765/10711 [1:44:14<07:45,  2.03it/s] 91%|█████████ | 9766/10711 [1:44:14<07:44,  2.04it/s] 91%|█████████ | 9767/10711 [1:44:15<07:42,  2.04it/s] 91%|█████████ | 9768/10711 [1:44:15<07:42,  2.04it/s] 91%|█████████ | 9769/10711 [1:44:16<07:42,  2.04it/s] 91%|█████████ | 9770/10711 [1:44:16<07:40,  2.04it/s] 91%|█████████ | 9771/10711 [1:44:17<07:40,  2.04it/s] 91%|█████████ | 9772/10711 [1:44:17<07:40,  2.04it/s] 91%|█████████ | 9773/10711 [1:44:18<07:39,  2.04it/s] 91%|█████████▏| 9774/10711 [1:44:18<07:39,  2.04it/s] 91%|█████████▏| 9775/10711 [1:44:19<07:39,  2.04it/s]{'loss': 3.3725, 'grad_norm': 0.19481733441352844, 'learning_rate': 2.3086427414798438e-05, 'epoch': 0.91}
                                                       91%|█████████▏| 9775/10711 [1:44:19<07:39,  2.04it/s] 91%|█████████▏| 9776/10711 [1:44:19<07:39,  2.04it/s] 91%|█████████▏| 9777/10711 [1:44:20<07:38,  2.04it/s] 91%|█████████▏| 9778/10711 [1:44:20<07:38,  2.04it/s] 91%|█████████▏| 9779/10711 [1:44:21<07:37,  2.04it/s] 91%|█████████▏| 9780/10711 [1:44:21<07:37,  2.04it/s] 91%|█████████▏| 9781/10711 [1:44:22<07:36,  2.04it/s] 91%|█████████▏| 9782/10711 [1:44:22<07:36,  2.04it/s] 91%|█████████▏| 9783/10711 [1:44:23<07:35,  2.04it/s] 91%|█████████▏| 9784/10711 [1:44:23<07:34,  2.04it/s] 91%|█████████▏| 9785/10711 [1:44:24<07:34,  2.04it/s] 91%|█████████▏| 9786/10711 [1:44:24<07:33,  2.04it/s] 91%|█████████▏| 9787/10711 [1:44:25<07:33,  2.04it/s] 91%|█████████▏| 9788/10711 [1:44:25<07:39,  2.01it/s] 91%|█████████▏| 9789/10711 [1:44:26<07:37,  2.02it/s] 91%|█████████▏| 9790/10711 [1:44:26<07:35,  2.02it/s] 91%|█████████▏| 9791/10711 [1:44:27<07:34,  2.02it/s] 91%|█████████▏| 9792/10711 [1:44:27<07:32,  2.03it/s] 91%|█████████▏| 9793/10711 [1:44:28<07:31,  2.03it/s] 91%|█████████▏| 9794/10711 [1:44:28<07:31,  2.03it/s] 91%|█████████▏| 9795/10711 [1:44:29<07:29,  2.04it/s] 91%|█████████▏| 9796/10711 [1:44:29<07:29,  2.04it/s] 91%|█████████▏| 9797/10711 [1:44:30<07:29,  2.03it/s] 91%|█████████▏| 9798/10711 [1:44:30<07:28,  2.04it/s] 91%|█████████▏| 9799/10711 [1:44:31<07:28,  2.03it/s] 91%|█████████▏| 9800/10711 [1:44:31<07:27,  2.04it/s]                                                      {'loss': 3.3785, 'grad_norm': 0.1921272873878479, 'learning_rate': 2.1878602419345083e-05, 'epoch': 0.91}
 91%|█████████▏| 9800/10711 [1:44:31<07:27,  2.04it/s] 92%|█████████▏| 9801/10711 [1:44:32<07:27,  2.03it/s] 92%|█████████▏| 9802/10711 [1:44:32<07:27,  2.03it/s] 92%|█████████▏| 9803/10711 [1:44:33<07:26,  2.04it/s] 92%|█████████▏| 9804/10711 [1:44:33<07:25,  2.03it/s] 92%|█████████▏| 9805/10711 [1:44:34<07:25,  2.03it/s] 92%|█████████▏| 9806/10711 [1:44:34<07:24,  2.03it/s] 92%|█████████▏| 9807/10711 [1:44:35<07:24,  2.03it/s] 92%|█████████▏| 9808/10711 [1:44:35<07:24,  2.03it/s] 92%|█████████▏| 9809/10711 [1:44:36<07:23,  2.03it/s] 92%|█████████▏| 9810/10711 [1:44:36<07:22,  2.04it/s] 92%|█████████▏| 9811/10711 [1:44:37<07:22,  2.03it/s] 92%|█████████▏| 9812/10711 [1:44:37<07:21,  2.04it/s] 92%|█████████▏| 9813/10711 [1:44:38<07:20,  2.04it/s] 92%|█████████▏| 9814/10711 [1:44:38<07:20,  2.04it/s] 92%|█████████▏| 9815/10711 [1:44:38<07:19,  2.04it/s] 92%|█████████▏| 9816/10711 [1:44:39<07:19,  2.04it/s] 92%|█████████▏| 9817/10711 [1:44:39<07:18,  2.04it/s] 92%|█████████▏| 9818/10711 [1:44:40<07:18,  2.04it/s] 92%|█████████▏| 9819/10711 [1:44:40<07:17,  2.04it/s] 92%|█████████▏| 9820/10711 [1:44:41<07:17,  2.04it/s] 92%|█████████▏| 9821/10711 [1:44:41<07:16,  2.04it/s] 92%|█████████▏| 9822/10711 [1:44:42<07:16,  2.04it/s] 92%|█████████▏| 9823/10711 [1:44:42<07:15,  2.04it/s] 92%|█████████▏| 9824/10711 [1:44:43<07:14,  2.04it/s] 92%|█████████▏| 9825/10711 [1:44:43<07:14,  2.04it/s]{'loss': 3.3738, 'grad_norm': 0.19533707201480865, 'learning_rate': 2.070252068779366e-05, 'epoch': 0.92}                                                      
 92%|█████████▏| 9825/10711 [1:44:43<07:14,  2.04it/s] 92%|█████████▏| 9826/10711 [1:44:44<07:14,  2.04it/s] 92%|█████████▏| 9827/10711 [1:44:44<07:13,  2.04it/s] 92%|█████████▏| 9828/10711 [1:44:45<07:13,  2.04it/s] 92%|█████████▏| 9829/10711 [1:44:45<07:13,  2.04it/s] 92%|█████████▏| 9830/10711 [1:44:46<07:12,  2.03it/s] 92%|█████████▏| 9831/10711 [1:44:46<07:12,  2.03it/s] 92%|█████████▏| 9832/10711 [1:44:47<07:12,  2.03it/s] 92%|█████████▏| 9833/10711 [1:44:47<07:10,  2.04it/s] 92%|█████████▏| 9834/10711 [1:44:48<07:10,  2.04it/s] 92%|█████████▏| 9835/10711 [1:44:48<07:10,  2.04it/s] 92%|█████████▏| 9836/10711 [1:44:49<07:09,  2.04it/s] 92%|█████████▏| 9837/10711 [1:44:49<07:09,  2.03it/s] 92%|█████████▏| 9838/10711 [1:44:50<07:09,  2.03it/s] 92%|█████████▏| 9839/10711 [1:44:50<07:09,  2.03it/s] 92%|█████████▏| 9840/10711 [1:44:51<07:08,  2.03it/s] 92%|█████████▏| 9841/10711 [1:44:51<07:07,  2.03it/s] 92%|█████████▏| 9842/10711 [1:44:52<07:06,  2.04it/s] 92%|█████████▏| 9843/10711 [1:44:52<07:06,  2.04it/s] 92%|█████████▏| 9844/10711 [1:44:53<07:05,  2.04it/s] 92%|█████████▏| 9845/10711 [1:44:53<07:04,  2.04it/s] 92%|█████████▏| 9846/10711 [1:44:54<07:04,  2.04it/s] 92%|█████████▏| 9847/10711 [1:44:54<07:04,  2.04it/s] 92%|█████████▏| 9848/10711 [1:44:55<07:03,  2.04it/s] 92%|█████████▏| 9849/10711 [1:44:55<07:02,  2.04it/s] 92%|█████████▏| 9850/10711 [1:44:56<07:02,  2.04it/s]                                                      {'loss': 3.377, 'grad_norm': 0.1922684758901596, 'learning_rate': 1.955826030213964e-05, 'epoch': 0.92}
 92%|█████████▏| 9850/10711 [1:44:56<07:02,  2.04it/s] 92%|█████████▏| 9851/10711 [1:44:56<07:02,  2.04it/s] 92%|█████████▏| 9852/10711 [1:44:57<07:02,  2.04it/s] 92%|█████████▏| 9853/10711 [1:44:57<07:01,  2.04it/s] 92%|█████████▏| 9854/10711 [1:44:58<07:00,  2.04it/s] 92%|█████████▏| 9855/10711 [1:44:58<07:00,  2.04it/s] 92%|█████████▏| 9856/10711 [1:44:59<07:00,  2.03it/s] 92%|█████████▏| 9857/10711 [1:44:59<06:59,  2.04it/s] 92%|█████████▏| 9858/10711 [1:45:00<06:58,  2.04it/s] 92%|█████████▏| 9859/10711 [1:45:00<06:59,  2.03it/s] 92%|█████████▏| 9860/10711 [1:45:01<06:58,  2.04it/s] 92%|█████████▏| 9861/10711 [1:45:01<06:56,  2.04it/s] 92%|█████████▏| 9862/10711 [1:45:02<06:56,  2.04it/s] 92%|█████████▏| 9863/10711 [1:45:02<06:56,  2.03it/s] 92%|█████████▏| 9864/10711 [1:45:03<06:55,  2.04it/s] 92%|█████████▏| 9865/10711 [1:45:03<06:55,  2.03it/s] 92%|█████████▏| 9866/10711 [1:45:04<06:55,  2.04it/s] 92%|█████████▏| 9867/10711 [1:45:04<06:54,  2.04it/s] 92%|█████████▏| 9868/10711 [1:45:05<06:53,  2.04it/s] 92%|█████████▏| 9869/10711 [1:45:05<06:53,  2.04it/s] 92%|█████████▏| 9870/10711 [1:45:05<06:53,  2.04it/s] 92%|█████████▏| 9871/10711 [1:45:06<06:52,  2.04it/s] 92%|█████████▏| 9872/10711 [1:45:06<06:51,  2.04it/s] 92%|█████████▏| 9873/10711 [1:45:07<06:51,  2.04it/s] 92%|█████████▏| 9874/10711 [1:45:07<06:51,  2.04it/s] 92%|█████████▏| 9875/10711 [1:45:08<06:50,  2.04it/s]{'loss': 3.3703, 'grad_norm': 0.19335933029651642, 'learning_rate': 1.8445897231706866e-05, 'epoch': 0.92}
                                                       92%|█████████▏| 9875/10711 [1:45:08<06:50,  2.04it/s] 92%|█████████▏| 9876/10711 [1:45:08<06:51,  2.03it/s] 92%|█████████▏| 9877/10711 [1:45:09<06:50,  2.03it/s] 92%|█████████▏| 9878/10711 [1:45:09<06:49,  2.03it/s] 92%|█████████▏| 9879/10711 [1:45:10<06:48,  2.04it/s] 92%|█████████▏| 9880/10711 [1:45:10<06:48,  2.04it/s] 92%|█████████▏| 9881/10711 [1:45:11<06:47,  2.03it/s] 92%|█████████▏| 9882/10711 [1:45:11<06:47,  2.04it/s] 92%|█████████▏| 9883/10711 [1:45:12<06:46,  2.04it/s] 92%|█████████▏| 9884/10711 [1:45:12<06:46,  2.04it/s] 92%|█████████▏| 9885/10711 [1:45:13<06:45,  2.04it/s] 92%|█████████▏| 9886/10711 [1:45:13<06:44,  2.04it/s] 92%|█████████▏| 9887/10711 [1:45:14<06:44,  2.04it/s] 92%|█████████▏| 9888/10711 [1:45:14<06:44,  2.04it/s] 92%|█████████▏| 9889/10711 [1:45:15<06:43,  2.04it/s] 92%|█████████▏| 9890/10711 [1:45:15<06:43,  2.03it/s] 92%|█████████▏| 9891/10711 [1:45:16<06:42,  2.04it/s] 92%|█████████▏| 9892/10711 [1:45:16<06:41,  2.04it/s] 92%|█████████▏| 9893/10711 [1:45:17<06:41,  2.04it/s] 92%|█████████▏| 9894/10711 [1:45:17<06:41,  2.04it/s] 92%|█████████▏| 9895/10711 [1:45:18<06:40,  2.04it/s] 92%|█████████▏| 9896/10711 [1:45:18<06:40,  2.03it/s] 92%|█████████▏| 9897/10711 [1:45:19<06:40,  2.03it/s] 92%|█████████▏| 9898/10711 [1:45:19<06:39,  2.04it/s] 92%|█████████▏| 9899/10711 [1:45:20<06:38,  2.04it/s] 92%|█████████▏| 9900/10711 [1:45:20<06:38,  2.04it/s]{'loss': 3.3752, 'grad_norm': 0.19110597670078278, 'learning_rate': 1.7365505328104604e-05, 'epoch': 0.92}
                                                       92%|█████████▏| 9900/10711 [1:45:20<06:38,  2.04it/s] 92%|█████████▏| 9901/10711 [1:45:21<06:38,  2.03it/s] 92%|█████████▏| 9902/10711 [1:45:21<06:37,  2.04it/s] 92%|█████████▏| 9903/10711 [1:45:22<06:36,  2.04it/s] 92%|█████████▏| 9904/10711 [1:45:22<06:36,  2.04it/s] 92%|█████████▏| 9905/10711 [1:45:23<06:35,  2.04it/s] 92%|█████████▏| 9906/10711 [1:45:23<06:35,  2.03it/s] 92%|█████████▏| 9907/10711 [1:45:24<06:35,  2.03it/s] 93%|█████████▎| 9908/10711 [1:45:24<06:34,  2.03it/s] 93%|█████████▎| 9909/10711 [1:45:25<06:34,  2.03it/s] 93%|█████████▎| 9910/10711 [1:45:25<06:33,  2.03it/s] 93%|█████████▎| 9911/10711 [1:45:26<06:33,  2.03it/s] 93%|█████████▎| 9912/10711 [1:45:26<06:32,  2.03it/s] 93%|█████████▎| 9913/10711 [1:45:27<06:32,  2.03it/s] 93%|█████████▎| 9914/10711 [1:45:27<06:32,  2.03it/s] 93%|█████████▎| 9915/10711 [1:45:28<06:31,  2.03it/s] 93%|█████████▎| 9916/10711 [1:45:28<06:30,  2.03it/s] 93%|█████████▎| 9917/10711 [1:45:29<06:30,  2.03it/s] 93%|█████████▎| 9918/10711 [1:45:29<06:29,  2.03it/s] 93%|█████████▎| 9919/10711 [1:45:30<06:29,  2.03it/s] 93%|█████████▎| 9920/10711 [1:45:30<06:28,  2.03it/s] 93%|█████████▎| 9921/10711 [1:45:31<06:28,  2.03it/s] 93%|█████████▎| 9922/10711 [1:45:31<06:28,  2.03it/s] 93%|█████████▎| 9923/10711 [1:45:32<06:27,  2.03it/s] 93%|█████████▎| 9924/10711 [1:45:32<06:27,  2.03it/s] 93%|█████████▎| 9925/10711 [1:45:33<06:26,  2.03it/s]{'loss': 3.3714, 'grad_norm': 0.19519636034965515, 'learning_rate': 1.6317156320323378e-05, 'epoch': 0.93}
                                                       93%|█████████▎| 9925/10711 [1:45:33<06:26,  2.03it/s] 93%|█████████▎| 9926/10711 [1:45:33<06:27,  2.03it/s] 93%|█████████▎| 9927/10711 [1:45:34<06:26,  2.03it/s] 93%|█████████▎| 9928/10711 [1:45:34<06:25,  2.03it/s] 93%|█████████▎| 9929/10711 [1:45:34<06:24,  2.03it/s] 93%|█████████▎| 9930/10711 [1:45:35<06:24,  2.03it/s] 93%|█████████▎| 9931/10711 [1:45:35<06:23,  2.03it/s] 93%|█████████▎| 9932/10711 [1:45:36<06:23,  2.03it/s] 93%|█████████▎| 9933/10711 [1:45:36<06:22,  2.03it/s] 93%|█████████▎| 9934/10711 [1:45:37<06:21,  2.03it/s] 93%|█████████▎| 9935/10711 [1:45:37<06:21,  2.04it/s] 93%|█████████▎| 9936/10711 [1:45:38<06:20,  2.03it/s] 93%|█████████▎| 9937/10711 [1:45:38<06:20,  2.04it/s] 93%|█████████▎| 9938/10711 [1:45:39<06:19,  2.04it/s] 93%|█████████▎| 9939/10711 [1:45:39<06:19,  2.04it/s] 93%|█████████▎| 9940/10711 [1:45:40<06:18,  2.04it/s] 93%|█████████▎| 9941/10711 [1:45:40<06:18,  2.04it/s] 93%|█████████▎| 9942/10711 [1:45:41<06:17,  2.04it/s] 93%|█████████▎| 9943/10711 [1:45:41<06:17,  2.03it/s] 93%|█████████▎| 9944/10711 [1:45:42<06:16,  2.04it/s] 93%|█████████▎| 9945/10711 [1:45:42<06:16,  2.04it/s] 93%|█████████▎| 9946/10711 [1:45:43<06:16,  2.03it/s] 93%|█████████▎| 9947/10711 [1:45:43<06:15,  2.04it/s] 93%|█████████▎| 9948/10711 [1:45:44<06:14,  2.04it/s] 93%|█████████▎| 9949/10711 [1:45:44<06:14,  2.04it/s] 93%|█████████▎| 9950/10711 [1:45:45<06:13,  2.04it/s]                                                      {'loss': 3.3703, 'grad_norm': 0.18972358107566833, 'learning_rate': 1.5300919809973667e-05, 'epoch': 0.93}
 93%|█████████▎| 9950/10711 [1:45:45<06:13,  2.04it/s] 93%|█████████▎| 9951/10711 [1:45:45<06:13,  2.03it/s] 93%|█████████▎| 9952/10711 [1:45:46<06:12,  2.03it/s] 93%|█████████▎| 9953/10711 [1:45:46<06:12,  2.04it/s] 93%|█████████▎| 9954/10711 [1:45:47<06:12,  2.03it/s] 93%|█████████▎| 9955/10711 [1:45:47<06:11,  2.04it/s] 93%|█████████▎| 9956/10711 [1:45:48<06:11,  2.03it/s] 93%|█████████▎| 9957/10711 [1:45:48<06:10,  2.04it/s] 93%|█████████▎| 9958/10711 [1:45:49<06:09,  2.04it/s] 93%|█████████▎| 9959/10711 [1:45:49<06:09,  2.03it/s] 93%|█████████▎| 9960/10711 [1:45:50<06:09,  2.03it/s] 93%|█████████▎| 9961/10711 [1:45:50<06:08,  2.03it/s] 93%|█████████▎| 9962/10711 [1:45:51<06:08,  2.03it/s] 93%|█████████▎| 9963/10711 [1:45:51<06:07,  2.03it/s] 93%|█████████▎| 9964/10711 [1:45:52<06:06,  2.04it/s] 93%|█████████▎| 9965/10711 [1:45:52<06:06,  2.04it/s] 93%|█████████▎| 9966/10711 [1:45:53<06:05,  2.04it/s] 93%|█████████▎| 9967/10711 [1:45:53<06:05,  2.04it/s] 93%|█████████▎| 9968/10711 [1:45:54<06:04,  2.04it/s] 93%|█████████▎| 9969/10711 [1:45:54<06:04,  2.03it/s] 93%|█████████▎| 9970/10711 [1:45:55<06:04,  2.03it/s] 93%|█████████▎| 9971/10711 [1:45:55<06:03,  2.03it/s] 93%|█████████▎| 9972/10711 [1:45:56<06:03,  2.04it/s] 93%|█████████▎| 9973/10711 [1:45:56<06:02,  2.03it/s] 93%|█████████▎| 9974/10711 [1:45:57<06:02,  2.04it/s] 93%|█████████▎| 9975/10711 [1:45:57<06:01,  2.04it/s]                                                      {'loss': 3.3806, 'grad_norm': 0.19792792201042175, 'learning_rate': 1.4316863266664482e-05, 'epoch': 0.93}
 93%|█████████▎| 9975/10711 [1:45:57<06:01,  2.04it/s] 93%|█████████▎| 9976/10711 [1:45:58<06:01,  2.03it/s] 93%|█████████▎| 9977/10711 [1:45:58<06:00,  2.03it/s] 93%|█████████▎| 9978/10711 [1:45:59<06:00,  2.03it/s] 93%|█████████▎| 9979/10711 [1:45:59<06:00,  2.03it/s] 93%|█████████▎| 9980/10711 [1:46:00<05:59,  2.04it/s] 93%|█████████▎| 9981/10711 [1:46:00<05:58,  2.04it/s] 93%|█████████▎| 9982/10711 [1:46:01<05:58,  2.04it/s] 93%|█████████▎| 9983/10711 [1:46:01<05:57,  2.04it/s] 93%|█████████▎| 9984/10711 [1:46:02<05:56,  2.04it/s] 93%|█████████▎| 9985/10711 [1:46:02<05:56,  2.04it/s] 93%|█████████▎| 9986/10711 [1:46:03<05:56,  2.04it/s] 93%|█████████▎| 9987/10711 [1:46:03<05:55,  2.04it/s] 93%|█████████▎| 9988/10711 [1:46:03<05:55,  2.04it/s] 93%|█████████▎| 9989/10711 [1:46:04<05:54,  2.04it/s] 93%|█████████▎| 9990/10711 [1:46:04<05:53,  2.04it/s] 93%|█████████▎| 9991/10711 [1:46:05<05:53,  2.04it/s] 93%|█████████▎| 9992/10711 [1:46:05<05:53,  2.04it/s] 93%|█████████▎| 9993/10711 [1:46:06<05:53,  2.03it/s] 93%|█████████▎| 9994/10711 [1:46:06<05:52,  2.03it/s] 93%|█████████▎| 9995/10711 [1:46:07<05:51,  2.04it/s] 93%|█████████▎| 9996/10711 [1:46:07<05:51,  2.04it/s] 93%|█████████▎| 9997/10711 [1:46:08<05:50,  2.03it/s] 93%|█████████▎| 9998/10711 [1:46:08<05:50,  2.04it/s] 93%|█████████▎| 9999/10711 [1:46:09<05:49,  2.04it/s] 93%|█████████▎| 10000/10711 [1:46:09<05:49,  2.03it/s]{'loss': 3.3779, 'grad_norm': 0.1929389089345932, 'learning_rate': 1.3365052023523839e-05, 'epoch': 0.93}                                                       
 93%|█████████▎| 10000/10711 [1:46:09<05:49,  2.03it/s] 93%|█████████▎| 10001/10711 [1:46:10<05:49,  2.03it/s] 93%|█████████▎| 10002/10711 [1:46:10<05:48,  2.04it/s] 93%|█████████▎| 10003/10711 [1:46:11<05:48,  2.03it/s] 93%|█████████▎| 10004/10711 [1:46:11<05:47,  2.03it/s] 93%|█████████▎| 10005/10711 [1:46:12<05:47,  2.03it/s] 93%|█████████▎| 10006/10711 [1:46:12<05:46,  2.04it/s] 93%|█████████▎| 10007/10711 [1:46:13<05:45,  2.04it/s] 93%|█████████▎| 10008/10711 [1:46:13<05:45,  2.04it/s] 93%|█████████▎| 10009/10711 [1:46:14<05:44,  2.04it/s] 93%|█████████▎| 10010/10711 [1:46:14<05:44,  2.03it/s] 93%|█████████▎| 10011/10711 [1:46:15<05:43,  2.04it/s] 93%|█████████▎| 10012/10711 [1:46:15<05:43,  2.03it/s] 93%|█████████▎| 10013/10711 [1:46:16<05:43,  2.03it/s] 93%|█████████▎| 10014/10711 [1:46:16<05:42,  2.03it/s] 94%|█████████▎| 10015/10711 [1:46:17<05:41,  2.04it/s] 94%|█████████▎| 10016/10711 [1:46:17<05:41,  2.04it/s] 94%|█████████▎| 10017/10711 [1:46:18<05:41,  2.03it/s] 94%|█████████▎| 10018/10711 [1:46:18<05:40,  2.03it/s] 94%|█████████▎| 10019/10711 [1:46:19<05:39,  2.04it/s] 94%|█████████▎| 10020/10711 [1:46:19<05:39,  2.03it/s] 94%|█████████▎| 10021/10711 [1:46:20<05:39,  2.03it/s] 94%|█████████▎| 10022/10711 [1:46:20<05:38,  2.04it/s] 94%|█████████▎| 10023/10711 [1:46:21<05:37,  2.04it/s] 94%|█████████▎| 10024/10711 [1:46:21<05:37,  2.03it/s] 94%|█████████▎| 10025/10711 [1:46:22<05:36,  2.04it/s]{'loss': 3.3758, 'grad_norm': 0.19243450462818146, 'learning_rate': 1.2445549272861622e-05, 'epoch': 0.94}
                                                        94%|█████████▎| 10025/10711 [1:46:22<05:36,  2.04it/s] 94%|█████████▎| 10026/10711 [1:46:22<05:36,  2.03it/s] 94%|█████████▎| 10027/10711 [1:46:23<05:36,  2.03it/s] 94%|█████████▎| 10028/10711 [1:46:23<05:35,  2.03it/s] 94%|█████████▎| 10029/10711 [1:46:24<05:35,  2.03it/s] 94%|█████████▎| 10030/10711 [1:46:24<05:35,  2.03it/s] 94%|█████████▎| 10031/10711 [1:46:25<05:34,  2.03it/s] 94%|█████████▎| 10032/10711 [1:46:25<05:33,  2.03it/s] 94%|█████████▎| 10033/10711 [1:46:26<05:33,  2.03it/s] 94%|█████████▎| 10034/10711 [1:46:26<05:32,  2.03it/s] 94%|█████████▎| 10035/10711 [1:46:27<05:32,  2.03it/s] 94%|█████████▎| 10036/10711 [1:46:27<05:32,  2.03it/s] 94%|█████████▎| 10037/10711 [1:46:28<05:31,  2.03it/s] 94%|█████████▎| 10038/10711 [1:46:28<05:30,  2.03it/s] 94%|█████████▎| 10039/10711 [1:46:29<05:30,  2.03it/s] 94%|█████████▎| 10040/10711 [1:46:29<05:29,  2.03it/s] 94%|█████████▎| 10041/10711 [1:46:30<05:29,  2.03it/s] 94%|█████████▍| 10042/10711 [1:46:30<05:28,  2.04it/s] 94%|█████████▍| 10043/10711 [1:46:31<05:28,  2.04it/s] 94%|█████████▍| 10044/10711 [1:46:31<05:27,  2.04it/s] 94%|█████████▍| 10045/10711 [1:46:31<05:27,  2.04it/s] 94%|█████████▍| 10046/10711 [1:46:32<05:26,  2.03it/s] 94%|█████████▍| 10047/10711 [1:46:32<05:26,  2.04it/s] 94%|█████████▍| 10048/10711 [1:46:33<05:25,  2.04it/s] 94%|█████████▍| 10049/10711 [1:46:33<05:25,  2.04it/s] 94%|█████████▍| 10050/10711 [1:46:34<05:24,  2.04it/s]                                                       {'loss': 3.3716, 'grad_norm': 0.18956796824932098, 'learning_rate': 1.1558416061973831e-05, 'epoch': 0.94}
 94%|█████████▍| 10050/10711 [1:46:34<05:24,  2.04it/s] 94%|█████████▍| 10051/10711 [1:46:34<05:24,  2.03it/s] 94%|█████████▍| 10052/10711 [1:46:35<05:24,  2.03it/s] 94%|█████████▍| 10053/10711 [1:46:35<05:23,  2.04it/s] 94%|█████████▍| 10054/10711 [1:46:36<05:22,  2.04it/s] 94%|█████████▍| 10055/10711 [1:46:36<05:21,  2.04it/s] 94%|█████████▍| 10056/10711 [1:46:37<05:21,  2.04it/s] 94%|█████████▍| 10057/10711 [1:46:37<05:20,  2.04it/s] 94%|█████████▍| 10058/10711 [1:46:38<05:20,  2.04it/s] 94%|█████████▍| 10059/10711 [1:46:38<05:20,  2.03it/s] 94%|█████████▍| 10060/10711 [1:46:39<05:19,  2.04it/s] 94%|█████████▍| 10061/10711 [1:46:39<05:19,  2.03it/s] 94%|█████████▍| 10062/10711 [1:46:40<05:18,  2.04it/s] 94%|█████████▍| 10063/10711 [1:46:40<05:18,  2.04it/s] 94%|█████████▍| 10064/10711 [1:46:41<05:17,  2.04it/s] 94%|█████████▍| 10065/10711 [1:46:41<05:17,  2.04it/s] 94%|█████████▍| 10066/10711 [1:46:42<05:16,  2.04it/s] 94%|█████████▍| 10067/10711 [1:46:42<05:16,  2.04it/s] 94%|█████████▍| 10068/10711 [1:46:43<05:15,  2.04it/s] 94%|█████████▍| 10069/10711 [1:46:43<05:15,  2.04it/s] 94%|█████████▍| 10070/10711 [1:46:44<05:14,  2.04it/s] 94%|█████████▍| 10071/10711 [1:46:44<05:14,  2.04it/s] 94%|█████████▍| 10072/10711 [1:46:45<05:13,  2.04it/s] 94%|█████████▍| 10073/10711 [1:46:45<05:12,  2.04it/s] 94%|█████████▍| 10074/10711 [1:46:46<05:12,  2.04it/s] 94%|█████████▍| 10075/10711 [1:46:46<05:12,  2.04it/s]{'loss': 3.3771, 'grad_norm': 0.19201360642910004, 'learning_rate': 1.0703711289089591e-05, 'epoch': 0.94}
                                                        94%|█████████▍| 10075/10711 [1:46:46<05:12,  2.04it/s] 94%|█████████▍| 10076/10711 [1:46:47<05:13,  2.03it/s] 94%|█████████▍| 10077/10711 [1:46:47<05:12,  2.03it/s] 94%|█████████▍| 10078/10711 [1:46:48<05:11,  2.03it/s] 94%|█████████▍| 10079/10711 [1:46:48<05:11,  2.03it/s] 94%|█████████▍| 10080/10711 [1:46:49<05:10,  2.03it/s] 94%|█████████▍| 10081/10711 [1:46:49<05:09,  2.03it/s] 94%|█████████▍| 10082/10711 [1:46:50<05:09,  2.03it/s] 94%|█████████▍| 10083/10711 [1:46:50<05:08,  2.04it/s] 94%|█████████▍| 10084/10711 [1:46:51<05:07,  2.04it/s] 94%|█████████▍| 10085/10711 [1:46:51<05:07,  2.03it/s] 94%|█████████▍| 10086/10711 [1:46:52<05:06,  2.04it/s] 94%|█████████▍| 10087/10711 [1:46:52<05:06,  2.04it/s] 94%|█████████▍| 10088/10711 [1:46:53<05:05,  2.04it/s] 94%|█████████▍| 10089/10711 [1:46:53<05:05,  2.04it/s] 94%|█████████▍| 10090/10711 [1:46:54<05:04,  2.04it/s] 94%|█████████▍| 10091/10711 [1:46:54<05:04,  2.04it/s] 94%|█████████▍| 10092/10711 [1:46:55<05:04,  2.03it/s] 94%|█████████▍| 10093/10711 [1:46:55<05:03,  2.04it/s] 94%|█████████▍| 10094/10711 [1:46:56<05:03,  2.03it/s] 94%|█████████▍| 10095/10711 [1:46:56<05:02,  2.03it/s] 94%|█████████▍| 10096/10711 [1:46:57<05:02,  2.04it/s] 94%|█████████▍| 10097/10711 [1:46:57<05:01,  2.04it/s] 94%|█████████▍| 10098/10711 [1:46:58<05:01,  2.04it/s] 94%|█████████▍| 10099/10711 [1:46:58<05:00,  2.04it/s] 94%|█████████▍| 10100/10711 [1:46:59<04:59,  2.04it/s]{'loss': 3.3717, 'grad_norm': 0.1924368441104889, 'learning_rate': 9.881491699460843e-06, 'epoch': 0.94}                                                       
 94%|█████████▍| 10100/10711 [1:46:59<04:59,  2.04it/s] 94%|█████████▍| 10101/10711 [1:46:59<05:00,  2.03it/s] 94%|█████████▍| 10102/10711 [1:46:59<04:59,  2.04it/s] 94%|█████████▍| 10103/10711 [1:47:00<04:58,  2.04it/s] 94%|█████████▍| 10104/10711 [1:47:00<04:58,  2.03it/s] 94%|█████████▍| 10105/10711 [1:47:01<04:57,  2.04it/s] 94%|█████████▍| 10106/10711 [1:47:01<04:56,  2.04it/s] 94%|█████████▍| 10107/10711 [1:47:02<04:56,  2.04it/s] 94%|█████████▍| 10108/10711 [1:47:02<04:55,  2.04it/s] 94%|█████████▍| 10109/10711 [1:47:03<04:55,  2.04it/s] 94%|█████████▍| 10110/10711 [1:47:03<04:55,  2.04it/s] 94%|█████████▍| 10111/10711 [1:47:04<04:54,  2.04it/s] 94%|█████████▍| 10112/10711 [1:47:04<04:54,  2.04it/s] 94%|█████████▍| 10113/10711 [1:47:05<04:53,  2.04it/s] 94%|█████████▍| 10114/10711 [1:47:05<04:52,  2.04it/s] 94%|█████████▍| 10115/10711 [1:47:06<04:52,  2.04it/s] 94%|█████████▍| 10116/10711 [1:47:06<04:51,  2.04it/s] 94%|█████████▍| 10117/10711 [1:47:07<04:51,  2.04it/s] 94%|█████████▍| 10118/10711 [1:47:07<04:51,  2.04it/s] 94%|█████████▍| 10119/10711 [1:47:08<04:50,  2.04it/s] 94%|█████████▍| 10120/10711 [1:47:08<04:50,  2.04it/s] 94%|█████████▍| 10121/10711 [1:47:09<04:49,  2.04it/s] 95%|█████████▍| 10122/10711 [1:47:09<04:49,  2.04it/s] 95%|█████████▍| 10123/10711 [1:47:10<04:48,  2.04it/s] 95%|█████████▍| 10124/10711 [1:47:10<04:48,  2.04it/s] 95%|█████████▍| 10125/10711 [1:47:11<04:47,  2.04it/s]                                                       {'loss': 3.3609, 'grad_norm': 0.1908111721277237, 'learning_rate': 9.091811881594914e-06, 'epoch': 0.95}
 95%|█████████▍| 10125/10711 [1:47:11<04:47,  2.04it/s] 95%|█████████▍| 10126/10711 [1:47:11<04:47,  2.03it/s] 95%|█████████▍| 10127/10711 [1:47:12<04:46,  2.04it/s] 95%|█████████▍| 10128/10711 [1:47:12<04:45,  2.04it/s] 95%|█████████▍| 10129/10711 [1:47:13<04:45,  2.04it/s] 95%|█████████▍| 10130/10711 [1:47:13<04:45,  2.04it/s] 95%|█████████▍| 10131/10711 [1:47:14<04:44,  2.04it/s] 95%|█████████▍| 10132/10711 [1:47:14<04:44,  2.04it/s] 95%|█████████▍| 10133/10711 [1:47:15<04:43,  2.04it/s] 95%|█████████▍| 10134/10711 [1:47:15<04:43,  2.04it/s] 95%|█████████▍| 10135/10711 [1:47:16<04:43,  2.03it/s] 95%|█████████▍| 10136/10711 [1:47:16<04:42,  2.04it/s] 95%|█████████▍| 10137/10711 [1:47:17<04:41,  2.04it/s] 95%|█████████▍| 10138/10711 [1:47:17<04:41,  2.03it/s] 95%|█████████▍| 10139/10711 [1:47:18<04:41,  2.03it/s] 95%|█████████▍| 10140/10711 [1:47:18<04:40,  2.03it/s] 95%|█████████▍| 10141/10711 [1:47:19<04:40,  2.04it/s] 95%|█████████▍| 10142/10711 [1:47:19<04:39,  2.03it/s] 95%|█████████▍| 10143/10711 [1:47:20<04:39,  2.04it/s] 95%|█████████▍| 10144/10711 [1:47:20<04:38,  2.04it/s] 95%|█████████▍| 10145/10711 [1:47:21<04:38,  2.03it/s] 95%|█████████▍| 10146/10711 [1:47:21<04:37,  2.03it/s] 95%|█████████▍| 10147/10711 [1:47:22<04:37,  2.04it/s] 95%|█████████▍| 10148/10711 [1:47:22<04:36,  2.04it/s] 95%|█████████▍| 10149/10711 [1:47:23<04:35,  2.04it/s] 95%|█████████▍| 10150/10711 [1:47:23<04:35,  2.04it/s]{'loss': 3.379, 'grad_norm': 0.1916404813528061, 'learning_rate': 8.3347242636303e-06, 'epoch': 0.95}                                                       
 95%|█████████▍| 10150/10711 [1:47:23<04:35,  2.04it/s] 95%|█████████▍| 10151/10711 [1:47:24<04:35,  2.03it/s] 95%|█████████▍| 10152/10711 [1:47:24<04:34,  2.03it/s] 95%|█████████▍| 10153/10711 [1:47:25<04:34,  2.03it/s] 95%|█████████▍| 10154/10711 [1:47:25<04:34,  2.03it/s] 95%|█████████▍| 10155/10711 [1:47:26<04:33,  2.03it/s] 95%|█████████▍| 10156/10711 [1:47:26<04:32,  2.03it/s] 95%|█████████▍| 10157/10711 [1:47:27<04:31,  2.04it/s] 95%|█████████▍| 10158/10711 [1:47:27<04:31,  2.04it/s] 95%|█████████▍| 10159/10711 [1:47:27<04:31,  2.04it/s] 95%|█████████▍| 10160/10711 [1:47:28<04:30,  2.03it/s] 95%|█████████▍| 10161/10711 [1:47:28<04:30,  2.04it/s] 95%|█████████▍| 10162/10711 [1:47:29<04:29,  2.03it/s] 95%|█████████▍| 10163/10711 [1:47:29<04:29,  2.03it/s] 95%|█████████▍| 10164/10711 [1:47:30<04:28,  2.04it/s] 95%|█████████▍| 10165/10711 [1:47:30<04:28,  2.03it/s] 95%|█████████▍| 10166/10711 [1:47:31<04:27,  2.03it/s] 95%|█████████▍| 10167/10711 [1:47:31<04:27,  2.04it/s] 95%|█████████▍| 10168/10711 [1:47:32<04:26,  2.03it/s] 95%|█████████▍| 10169/10711 [1:47:32<04:26,  2.04it/s] 95%|█████████▍| 10170/10711 [1:47:33<04:26,  2.03it/s] 95%|█████████▍| 10171/10711 [1:47:33<04:25,  2.03it/s] 95%|█████████▍| 10172/10711 [1:47:34<04:24,  2.04it/s] 95%|█████████▍| 10173/10711 [1:47:34<04:24,  2.03it/s] 95%|█████████▍| 10174/10711 [1:47:35<04:23,  2.04it/s] 95%|█████████▍| 10175/10711 [1:47:35<04:23,  2.03it/s]                                                       {'loss': 3.3703, 'grad_norm': 0.19302891194820404, 'learning_rate': 7.6102791098559e-06, 'epoch': 0.95}
 95%|█████████▍| 10175/10711 [1:47:35<04:23,  2.03it/s] 95%|█████████▌| 10176/10711 [1:47:36<04:23,  2.03it/s] 95%|█████████▌| 10177/10711 [1:47:36<04:22,  2.03it/s] 95%|█████████▌| 10178/10711 [1:47:37<04:22,  2.03it/s] 95%|█████████▌| 10179/10711 [1:47:37<04:21,  2.03it/s] 95%|█████████▌| 10180/10711 [1:47:38<04:20,  2.04it/s] 95%|█████████▌| 10181/10711 [1:47:38<04:20,  2.04it/s] 95%|█████████▌| 10182/10711 [1:47:39<04:19,  2.03it/s] 95%|█████████▌| 10183/10711 [1:47:39<04:19,  2.04it/s] 95%|█████████▌| 10184/10711 [1:47:40<04:19,  2.03it/s] 95%|█████████▌| 10185/10711 [1:47:40<04:18,  2.03it/s] 95%|█████████▌| 10186/10711 [1:47:41<04:17,  2.04it/s] 95%|█████████▌| 10187/10711 [1:47:41<04:17,  2.04it/s] 95%|█████████▌| 10188/10711 [1:47:42<04:16,  2.04it/s] 95%|█████████▌| 10189/10711 [1:47:42<04:16,  2.04it/s] 95%|█████████▌| 10190/10711 [1:47:43<04:15,  2.04it/s] 95%|█████████▌| 10191/10711 [1:47:43<04:15,  2.04it/s] 95%|█████████▌| 10192/10711 [1:47:44<04:14,  2.04it/s] 95%|█████████▌| 10193/10711 [1:47:44<04:14,  2.04it/s] 95%|█████████▌| 10194/10711 [1:47:45<04:13,  2.04it/s] 95%|█████████▌| 10195/10711 [1:47:45<04:13,  2.04it/s] 95%|█████████▌| 10196/10711 [1:47:46<04:12,  2.04it/s] 95%|█████████▌| 10197/10711 [1:47:46<04:12,  2.04it/s] 95%|█████████▌| 10198/10711 [1:47:47<04:11,  2.04it/s] 95%|█████████▌| 10199/10711 [1:47:47<04:11,  2.04it/s] 95%|█████████▌| 10200/10711 [1:47:48<04:10,  2.04it/s]{'loss': 3.3814, 'grad_norm': 0.18904180824756622, 'learning_rate': 6.918524517373903e-06, 'epoch': 0.95}
                                                        95%|█████████▌| 10200/10711 [1:47:48<04:10,  2.04it/s] 95%|█████████▌| 10201/10711 [1:47:48<04:10,  2.04it/s] 95%|█████████▌| 10202/10711 [1:47:49<04:09,  2.04it/s] 95%|█████████▌| 10203/10711 [1:47:49<04:09,  2.03it/s] 95%|█████████▌| 10204/10711 [1:47:50<04:09,  2.04it/s] 95%|█████████▌| 10205/10711 [1:47:50<04:08,  2.04it/s] 95%|█████████▌| 10206/10711 [1:47:51<04:07,  2.04it/s] 95%|█████████▌| 10207/10711 [1:47:51<04:07,  2.04it/s] 95%|█████████▌| 10208/10711 [1:47:52<04:06,  2.04it/s] 95%|█████████▌| 10209/10711 [1:47:52<04:06,  2.04it/s] 95%|█████████▌| 10210/10711 [1:47:53<04:05,  2.04it/s] 95%|█████████▌| 10211/10711 [1:47:53<04:05,  2.04it/s] 95%|█████████▌| 10212/10711 [1:47:54<04:04,  2.04it/s] 95%|█████████▌| 10213/10711 [1:47:54<04:04,  2.03it/s] 95%|█████████▌| 10214/10711 [1:47:55<04:04,  2.04it/s] 95%|█████████▌| 10215/10711 [1:47:55<04:03,  2.03it/s] 95%|█████████▌| 10216/10711 [1:47:55<04:03,  2.04it/s] 95%|█████████▌| 10217/10711 [1:47:56<04:02,  2.03it/s] 95%|█████████▌| 10218/10711 [1:47:56<04:02,  2.03it/s] 95%|█████████▌| 10219/10711 [1:47:57<04:02,  2.03it/s] 95%|█████████▌| 10220/10711 [1:47:57<04:01,  2.03it/s] 95%|█████████▌| 10221/10711 [1:47:58<04:00,  2.04it/s] 95%|█████████▌| 10222/10711 [1:47:58<04:00,  2.04it/s] 95%|█████████▌| 10223/10711 [1:47:59<03:59,  2.04it/s] 95%|█████████▌| 10224/10711 [1:47:59<03:59,  2.04it/s] 95%|█████████▌| 10225/10711 [1:48:00<03:58,  2.04it/s]                                                       {'loss': 3.3661, 'grad_norm': 0.19077318906784058, 'learning_rate': 6.259506412906401e-06, 'epoch': 0.95}
 95%|█████████▌| 10225/10711 [1:48:00<03:58,  2.04it/s] 95%|█████████▌| 10226/10711 [1:48:00<03:58,  2.03it/s] 95%|█████████▌| 10227/10711 [1:48:01<03:57,  2.03it/s] 95%|█████████▌| 10228/10711 [1:48:01<03:57,  2.03it/s] 95%|█████████▌| 10229/10711 [1:48:02<03:57,  2.03it/s] 96%|█████████▌| 10230/10711 [1:48:02<03:56,  2.03it/s] 96%|█████████▌| 10231/10711 [1:48:03<03:56,  2.03it/s] 96%|█████████▌| 10232/10711 [1:48:03<03:55,  2.03it/s] 96%|█████████▌| 10233/10711 [1:48:04<03:54,  2.04it/s] 96%|█████████▌| 10234/10711 [1:48:05<04:32,  1.75it/s] 96%|█████████▌| 10235/10711 [1:48:05<04:20,  1.82it/s] 96%|█████████▌| 10236/10711 [1:48:06<04:12,  1.88it/s] 96%|█████████▌| 10237/10711 [1:48:06<04:05,  1.93it/s] 96%|█████████▌| 10238/10711 [1:48:07<04:01,  1.96it/s] 96%|█████████▌| 10239/10711 [1:48:07<03:57,  1.98it/s] 96%|█████████▌| 10240/10711 [1:48:08<03:55,  2.00it/s] 96%|█████████▌| 10241/10711 [1:48:08<03:53,  2.01it/s] 96%|█████████▌| 10242/10711 [1:48:09<03:52,  2.02it/s] 96%|█████████▌| 10243/10711 [1:48:09<03:51,  2.02it/s] 96%|█████████▌| 10244/10711 [1:48:10<03:50,  2.03it/s] 96%|█████████▌| 10245/10711 [1:48:10<03:49,  2.03it/s] 96%|█████████▌| 10246/10711 [1:48:10<03:48,  2.03it/s] 96%|█████████▌| 10247/10711 [1:48:11<03:48,  2.03it/s] 96%|█████████▌| 10248/10711 [1:48:11<03:47,  2.04it/s] 96%|█████████▌| 10249/10711 [1:48:12<03:46,  2.04it/s] 96%|█████████▌| 10250/10711 [1:48:12<03:46,  2.04it/s]                                                       {'loss': 3.3782, 'grad_norm': 0.1918640285730362, 'learning_rate': 5.633268549746384e-06, 'epoch': 0.96}
 96%|█████████▌| 10250/10711 [1:48:12<03:46,  2.04it/s] 96%|█████████▌| 10251/10711 [1:48:13<03:46,  2.04it/s] 96%|█████████▌| 10252/10711 [1:48:13<03:45,  2.04it/s] 96%|█████████▌| 10253/10711 [1:48:14<03:45,  2.03it/s] 96%|█████████▌| 10254/10711 [1:48:14<03:44,  2.04it/s] 96%|█████████▌| 10255/10711 [1:48:15<03:43,  2.04it/s] 96%|█████████▌| 10256/10711 [1:48:15<03:43,  2.04it/s] 96%|█████████▌| 10257/10711 [1:48:16<03:42,  2.04it/s] 96%|█████████▌| 10258/10711 [1:48:16<03:42,  2.04it/s] 96%|█████████▌| 10259/10711 [1:48:17<03:41,  2.04it/s] 96%|█████████▌| 10260/10711 [1:48:17<03:41,  2.04it/s] 96%|█████████▌| 10261/10711 [1:48:18<03:40,  2.04it/s] 96%|█████████▌| 10262/10711 [1:48:18<03:40,  2.04it/s] 96%|█████████▌| 10263/10711 [1:48:19<03:40,  2.03it/s] 96%|█████████▌| 10264/10711 [1:48:19<03:39,  2.04it/s] 96%|█████████▌| 10265/10711 [1:48:20<03:39,  2.04it/s] 96%|█████████▌| 10266/10711 [1:48:20<03:38,  2.04it/s] 96%|█████████▌| 10267/10711 [1:48:21<03:37,  2.04it/s] 96%|█████████▌| 10268/10711 [1:48:21<03:37,  2.04it/s] 96%|█████████▌| 10269/10711 [1:48:22<03:37,  2.04it/s] 96%|█████████▌| 10270/10711 [1:48:22<03:36,  2.04it/s] 96%|█████████▌| 10271/10711 [1:48:23<03:36,  2.04it/s] 96%|█████████▌| 10272/10711 [1:48:23<03:35,  2.04it/s] 96%|█████████▌| 10273/10711 [1:48:24<03:34,  2.04it/s] 96%|█████████▌| 10274/10711 [1:48:24<03:34,  2.04it/s] 96%|█████████▌| 10275/10711 [1:48:25<03:34,  2.03it/s]{'loss': 3.3775, 'grad_norm': 0.19008630514144897, 'learning_rate': 5.039852504853004e-06, 'epoch': 0.96}
                                                        96%|█████████▌| 10275/10711 [1:48:25<03:34,  2.03it/s] 96%|█████████▌| 10276/10711 [1:48:25<03:34,  2.03it/s] 96%|█████████▌| 10277/10711 [1:48:26<03:33,  2.03it/s] 96%|█████████▌| 10278/10711 [1:48:26<03:33,  2.03it/s] 96%|█████████▌| 10279/10711 [1:48:27<03:32,  2.04it/s] 96%|█████████▌| 10280/10711 [1:48:27<03:31,  2.04it/s] 96%|█████████▌| 10281/10711 [1:48:28<03:30,  2.04it/s] 96%|█████████▌| 10282/10711 [1:48:28<03:30,  2.04it/s] 96%|█████████▌| 10283/10711 [1:48:29<04:04,  1.75it/s] 96%|█████████▌| 10284/10711 [1:48:29<03:53,  1.83it/s] 96%|█████████▌| 10285/10711 [1:48:30<03:46,  1.88it/s] 96%|█████████▌| 10286/10711 [1:48:30<03:40,  1.93it/s] 96%|█████████▌| 10287/10711 [1:48:31<03:36,  1.96it/s] 96%|█████████▌| 10288/10711 [1:48:31<03:33,  1.98it/s] 96%|█████████▌| 10289/10711 [1:48:32<03:31,  2.00it/s] 96%|█████████▌| 10290/10711 [1:48:32<03:29,  2.01it/s] 96%|█████████▌| 10291/10711 [1:48:33<03:27,  2.02it/s] 96%|█████████▌| 10292/10711 [1:48:33<03:27,  2.02it/s] 96%|█████████▌| 10293/10711 [1:48:34<03:26,  2.03it/s] 96%|█████████▌| 10294/10711 [1:48:34<03:25,  2.03it/s] 96%|█████████▌| 10295/10711 [1:48:35<03:24,  2.04it/s] 96%|█████████▌| 10296/10711 [1:48:35<03:23,  2.04it/s] 96%|█████████▌| 10297/10711 [1:48:36<03:23,  2.04it/s] 96%|█████████▌| 10298/10711 [1:48:36<03:22,  2.04it/s] 96%|█████████▌| 10299/10711 [1:48:37<03:22,  2.04it/s] 96%|█████████▌| 10300/10711 [1:48:37<03:21,  2.04it/s]                                                       {'loss': 3.3752, 'grad_norm': 0.18902276456356049, 'learning_rate': 4.479297676090788e-06, 'epoch': 0.96}
 96%|█████████▌| 10300/10711 [1:48:37<03:21,  2.04it/s] 96%|█████████▌| 10301/10711 [1:48:38<03:21,  2.03it/s] 96%|█████████▌| 10302/10711 [1:48:38<03:21,  2.03it/s] 96%|█████████▌| 10303/10711 [1:48:39<03:20,  2.03it/s] 96%|█████████▌| 10304/10711 [1:48:39<03:19,  2.04it/s] 96%|█████████▌| 10305/10711 [1:48:40<03:19,  2.04it/s] 96%|█████████▌| 10306/10711 [1:48:40<03:18,  2.04it/s] 96%|█████████▌| 10307/10711 [1:48:41<03:18,  2.04it/s] 96%|█████████▌| 10308/10711 [1:48:41<03:17,  2.04it/s] 96%|█████████▌| 10309/10711 [1:48:42<03:17,  2.04it/s] 96%|█████████▋| 10310/10711 [1:48:42<03:17,  2.04it/s] 96%|█████████▋| 10311/10711 [1:48:43<03:16,  2.04it/s] 96%|█████████▋| 10312/10711 [1:48:43<03:15,  2.04it/s] 96%|█████████▋| 10313/10711 [1:48:44<03:15,  2.04it/s] 96%|█████████▋| 10314/10711 [1:48:44<03:14,  2.04it/s] 96%|█████████▋| 10315/10711 [1:48:45<03:14,  2.04it/s] 96%|█████████▋| 10316/10711 [1:48:45<03:14,  2.04it/s] 96%|█████████▋| 10317/10711 [1:48:46<03:13,  2.03it/s] 96%|█████████▋| 10318/10711 [1:48:46<03:13,  2.03it/s] 96%|█████████▋| 10319/10711 [1:48:47<03:12,  2.03it/s] 96%|█████████▋| 10320/10711 [1:48:47<03:12,  2.04it/s] 96%|█████████▋| 10321/10711 [1:48:48<03:11,  2.03it/s] 96%|█████████▋| 10322/10711 [1:48:48<03:11,  2.03it/s] 96%|█████████▋| 10323/10711 [1:48:49<03:10,  2.04it/s] 96%|█████████▋| 10324/10711 [1:48:49<03:10,  2.03it/s] 96%|█████████▋| 10325/10711 [1:48:50<03:09,  2.03it/s]                                                       {'loss': 3.3686, 'grad_norm': 0.19163021445274353, 'learning_rate': 3.951641279614504e-06, 'epoch': 0.96}
 96%|█████████▋| 10325/10711 [1:48:50<03:09,  2.03it/s] 96%|█████████▋| 10326/10711 [1:48:50<03:09,  2.03it/s] 96%|█████████▋| 10327/10711 [1:48:51<03:08,  2.03it/s] 96%|█████████▋| 10328/10711 [1:48:51<03:08,  2.03it/s] 96%|█████████▋| 10329/10711 [1:48:52<03:07,  2.03it/s] 96%|█████████▋| 10330/10711 [1:48:52<03:07,  2.04it/s] 96%|█████████▋| 10331/10711 [1:48:53<03:06,  2.04it/s] 96%|█████████▋| 10332/10711 [1:48:53<03:06,  2.04it/s] 96%|█████████▋| 10333/10711 [1:48:53<03:05,  2.03it/s] 96%|█████████▋| 10334/10711 [1:48:54<03:05,  2.04it/s] 96%|█████████▋| 10335/10711 [1:48:54<03:04,  2.04it/s] 96%|█████████▋| 10336/10711 [1:48:55<03:03,  2.04it/s] 97%|█████████▋| 10337/10711 [1:48:55<03:03,  2.04it/s] 97%|█████████▋| 10338/10711 [1:48:56<03:02,  2.04it/s] 97%|█████████▋| 10339/10711 [1:48:56<03:02,  2.04it/s] 97%|█████████▋| 10340/10711 [1:48:57<03:01,  2.04it/s] 97%|█████████▋| 10341/10711 [1:48:57<03:01,  2.04it/s] 97%|█████████▋| 10342/10711 [1:48:58<03:01,  2.04it/s] 97%|█████████▋| 10343/10711 [1:48:58<03:00,  2.04it/s] 97%|█████████▋| 10344/10711 [1:48:59<03:00,  2.04it/s] 97%|█████████▋| 10345/10711 [1:48:59<02:59,  2.04it/s] 97%|█████████▋| 10346/10711 [1:49:00<02:59,  2.04it/s] 97%|█████████▋| 10347/10711 [1:49:00<02:58,  2.04it/s] 97%|█████████▋| 10348/10711 [1:49:01<02:58,  2.04it/s] 97%|█████████▋| 10349/10711 [1:49:01<02:57,  2.04it/s] 97%|█████████▋| 10350/10711 [1:49:02<02:57,  2.04it/s]                                                       {'loss': 3.3679, 'grad_norm': 0.18701815605163574, 'learning_rate': 3.4569183473978082e-06, 'epoch': 0.97}
 97%|█████████▋| 10350/10711 [1:49:02<02:57,  2.04it/s] 97%|█████████▋| 10351/10711 [1:49:02<02:56,  2.04it/s] 97%|█████████▋| 10352/10711 [1:49:03<02:56,  2.04it/s] 97%|█████████▋| 10353/10711 [1:49:03<02:55,  2.04it/s] 97%|█████████▋| 10354/10711 [1:49:04<02:55,  2.04it/s] 97%|█████████▋| 10355/10711 [1:49:04<02:54,  2.04it/s] 97%|█████████▋| 10356/10711 [1:49:05<02:54,  2.04it/s] 97%|█████████▋| 10357/10711 [1:49:05<02:53,  2.04it/s] 97%|█████████▋| 10358/10711 [1:49:06<02:53,  2.04it/s] 97%|█████████▋| 10359/10711 [1:49:06<02:52,  2.04it/s] 97%|█████████▋| 10360/10711 [1:49:07<02:52,  2.04it/s] 97%|█████████▋| 10361/10711 [1:49:07<02:51,  2.04it/s] 97%|█████████▋| 10362/10711 [1:49:08<02:51,  2.04it/s] 97%|█████████▋| 10363/10711 [1:49:08<02:50,  2.04it/s] 97%|█████████▋| 10364/10711 [1:49:09<02:50,  2.04it/s] 97%|█████████▋| 10365/10711 [1:49:09<02:49,  2.04it/s] 97%|█████████▋| 10366/10711 [1:49:10<02:49,  2.04it/s] 97%|█████████▋| 10367/10711 [1:49:10<02:49,  2.03it/s] 97%|█████████▋| 10368/10711 [1:49:11<02:48,  2.04it/s] 97%|█████████▋| 10369/10711 [1:49:11<02:47,  2.04it/s] 97%|█████████▋| 10370/10711 [1:49:12<02:47,  2.04it/s] 97%|█████████▋| 10371/10711 [1:49:12<02:46,  2.04it/s] 97%|█████████▋| 10372/10711 [1:49:13<02:46,  2.04it/s] 97%|█████████▋| 10373/10711 [1:49:13<02:45,  2.04it/s] 97%|█████████▋| 10374/10711 [1:49:14<02:45,  2.04it/s] 97%|█████████▋| 10375/10711 [1:49:14<02:44,  2.04it/s]                                                       {'loss': 3.3749, 'grad_norm': 0.18867570161819458, 'learning_rate': 2.995161724907658e-06, 'epoch': 0.97}
 97%|█████████▋| 10375/10711 [1:49:14<02:44,  2.04it/s] 97%|█████████▋| 10376/10711 [1:49:15<02:44,  2.03it/s] 97%|█████████▋| 10377/10711 [1:49:15<02:44,  2.03it/s] 97%|█████████▋| 10378/10711 [1:49:16<02:43,  2.03it/s] 97%|█████████▋| 10379/10711 [1:49:16<02:43,  2.03it/s] 97%|█████████▋| 10380/10711 [1:49:17<02:42,  2.04it/s] 97%|█████████▋| 10381/10711 [1:49:17<02:42,  2.04it/s] 97%|█████████▋| 10382/10711 [1:49:18<02:41,  2.03it/s] 97%|█████████▋| 10383/10711 [1:49:18<02:41,  2.04it/s] 97%|█████████▋| 10384/10711 [1:49:19<02:40,  2.04it/s] 97%|█████████▋| 10385/10711 [1:49:19<02:40,  2.04it/s] 97%|█████████▋| 10386/10711 [1:49:19<02:39,  2.04it/s] 97%|█████████▋| 10387/10711 [1:49:20<02:38,  2.04it/s] 97%|█████████▋| 10388/10711 [1:49:20<02:38,  2.04it/s] 97%|█████████▋| 10389/10711 [1:49:21<02:38,  2.04it/s] 97%|█████████▋| 10390/10711 [1:49:21<02:37,  2.04it/s] 97%|█████████▋| 10391/10711 [1:49:22<02:37,  2.04it/s] 97%|█████████▋| 10392/10711 [1:49:22<02:36,  2.03it/s] 97%|█████████▋| 10393/10711 [1:49:23<02:36,  2.04it/s] 97%|█████████▋| 10394/10711 [1:49:23<02:35,  2.03it/s] 97%|█████████▋| 10395/10711 [1:49:24<02:35,  2.03it/s] 97%|█████████▋| 10396/10711 [1:49:24<02:34,  2.04it/s] 97%|█████████▋| 10397/10711 [1:49:25<02:34,  2.04it/s] 97%|█████████▋| 10398/10711 [1:49:25<02:33,  2.04it/s] 97%|█████████▋| 10399/10711 [1:49:26<02:33,  2.04it/s] 97%|█████████▋| 10400/10711 [1:49:26<02:32,  2.04it/s]{'loss': 3.374, 'grad_norm': 0.19189412891864777, 'learning_rate': 2.5664020689238343e-06, 'epoch': 0.97}
                                                        97%|█████████▋| 10400/10711 [1:49:26<02:32,  2.04it/s] 97%|█████████▋| 10401/10711 [1:49:27<02:32,  2.03it/s] 97%|█████████▋| 10402/10711 [1:49:27<02:31,  2.03it/s] 97%|█████████▋| 10403/10711 [1:49:28<02:31,  2.03it/s] 97%|█████████▋| 10404/10711 [1:49:28<02:30,  2.03it/s] 97%|█████████▋| 10405/10711 [1:49:29<02:30,  2.04it/s] 97%|█████████▋| 10406/10711 [1:49:29<02:29,  2.04it/s] 97%|█████████▋| 10407/10711 [1:49:30<02:29,  2.03it/s] 97%|█████████▋| 10408/10711 [1:49:30<02:28,  2.04it/s] 97%|█████████▋| 10409/10711 [1:49:31<02:28,  2.03it/s] 97%|█████████▋| 10410/10711 [1:49:31<02:27,  2.03it/s] 97%|█████████▋| 10411/10711 [1:49:32<02:27,  2.03it/s] 97%|█████████▋| 10412/10711 [1:49:32<02:27,  2.03it/s] 97%|█████████▋| 10413/10711 [1:49:33<02:26,  2.03it/s] 97%|█████████▋| 10414/10711 [1:49:33<02:25,  2.04it/s] 97%|█████████▋| 10415/10711 [1:49:34<02:25,  2.04it/s] 97%|█████████▋| 10416/10711 [1:49:34<02:24,  2.04it/s] 97%|█████████▋| 10417/10711 [1:49:35<02:24,  2.04it/s] 97%|█████████▋| 10418/10711 [1:49:35<02:23,  2.04it/s] 97%|█████████▋| 10419/10711 [1:49:36<02:23,  2.04it/s] 97%|█████████▋| 10420/10711 [1:49:36<02:22,  2.04it/s] 97%|█████████▋| 10421/10711 [1:49:37<02:22,  2.04it/s] 97%|█████████▋| 10422/10711 [1:49:37<02:22,  2.03it/s] 97%|█████████▋| 10423/10711 [1:49:38<02:21,  2.03it/s] 97%|█████████▋| 10424/10711 [1:49:38<02:21,  2.03it/s] 97%|█████████▋| 10425/10711 [1:49:39<02:20,  2.03it/s]                                                       {'loss': 3.3798, 'grad_norm': 0.18920499086380005, 'learning_rate': 2.170667845503127e-06, 'epoch': 0.97}
 97%|█████████▋| 10425/10711 [1:49:39<02:20,  2.03it/s] 97%|█████████▋| 10426/10711 [1:49:39<02:20,  2.03it/s] 97%|█████████▋| 10427/10711 [1:49:40<02:19,  2.03it/s] 97%|█████████▋| 10428/10711 [1:49:40<02:19,  2.03it/s] 97%|█████████▋| 10429/10711 [1:49:41<02:18,  2.03it/s] 97%|█████████▋| 10430/10711 [1:49:41<02:18,  2.03it/s] 97%|█████████▋| 10431/10711 [1:49:42<02:17,  2.04it/s] 97%|█████████▋| 10432/10711 [1:49:42<02:17,  2.03it/s] 97%|█████████▋| 10433/10711 [1:49:43<02:16,  2.03it/s] 97%|█████████▋| 10434/10711 [1:49:43<02:16,  2.04it/s] 97%|█████████▋| 10435/10711 [1:49:44<02:15,  2.04it/s] 97%|█████████▋| 10436/10711 [1:49:44<02:15,  2.04it/s] 97%|█████████▋| 10437/10711 [1:49:45<02:14,  2.04it/s] 97%|█████████▋| 10438/10711 [1:49:45<02:13,  2.04it/s] 97%|█████████▋| 10439/10711 [1:49:46<02:13,  2.04it/s] 97%|█████████▋| 10440/10711 [1:49:46<02:13,  2.04it/s] 97%|█████████▋| 10441/10711 [1:49:47<02:12,  2.04it/s] 97%|█████████▋| 10442/10711 [1:49:47<02:12,  2.04it/s] 97%|█████████▋| 10443/10711 [1:49:48<02:11,  2.04it/s] 98%|█████████▊| 10444/10711 [1:49:48<02:11,  2.04it/s] 98%|█████████▊| 10445/10711 [1:49:48<02:10,  2.04it/s] 98%|█████████▊| 10446/10711 [1:49:49<02:10,  2.04it/s] 98%|█████████▊| 10447/10711 [1:49:49<02:09,  2.04it/s] 98%|█████████▊| 10448/10711 [1:49:50<02:09,  2.04it/s] 98%|█████████▊| 10449/10711 [1:49:50<02:08,  2.04it/s] 98%|█████████▊| 10450/10711 [1:49:51<02:07,  2.04it/s]{'loss': 3.3753, 'grad_norm': 0.1906733512878418, 'learning_rate': 1.807985328089845e-06, 'epoch': 0.98}
                                                        98%|█████████▊| 10450/10711 [1:49:51<02:07,  2.04it/s] 98%|█████████▊| 10451/10711 [1:49:51<02:07,  2.04it/s] 98%|█████████▊| 10452/10711 [1:49:52<02:07,  2.04it/s] 98%|█████████▊| 10453/10711 [1:49:52<02:06,  2.04it/s] 98%|█████████▊| 10454/10711 [1:49:53<02:06,  2.04it/s] 98%|█████████▊| 10455/10711 [1:49:53<02:05,  2.04it/s] 98%|█████████▊| 10456/10711 [1:49:54<02:05,  2.04it/s] 98%|█████████▊| 10457/10711 [1:49:54<02:04,  2.04it/s] 98%|█████████▊| 10458/10711 [1:49:55<02:04,  2.04it/s] 98%|█████████▊| 10459/10711 [1:49:55<02:03,  2.04it/s] 98%|█████████▊| 10460/10711 [1:49:56<02:03,  2.03it/s] 98%|█████████▊| 10461/10711 [1:49:56<02:02,  2.04it/s] 98%|█████████▊| 10462/10711 [1:49:57<02:02,  2.04it/s] 98%|█████████▊| 10463/10711 [1:49:57<02:01,  2.04it/s] 98%|█████████▊| 10464/10711 [1:49:58<02:01,  2.04it/s] 98%|█████████▊| 10465/10711 [1:49:58<02:00,  2.04it/s] 98%|█████████▊| 10466/10711 [1:49:59<02:00,  2.04it/s] 98%|█████████▊| 10467/10711 [1:49:59<01:59,  2.04it/s] 98%|█████████▊| 10468/10711 [1:50:00<01:59,  2.04it/s] 98%|█████████▊| 10469/10711 [1:50:00<01:58,  2.04it/s] 98%|█████████▊| 10470/10711 [1:50:01<01:58,  2.04it/s] 98%|█████████▊| 10471/10711 [1:50:01<01:57,  2.04it/s] 98%|█████████▊| 10472/10711 [1:50:02<01:57,  2.04it/s] 98%|█████████▊| 10473/10711 [1:50:02<01:56,  2.04it/s] 98%|█████████▊| 10474/10711 [1:50:03<01:56,  2.04it/s] 98%|█████████▊| 10475/10711 [1:50:03<01:55,  2.04it/s]                                                       {'loss': 3.3812, 'grad_norm': 0.1890990287065506, 'learning_rate': 1.478378595771268e-06, 'epoch': 0.98}
 98%|█████████▊| 10475/10711 [1:50:03<01:55,  2.04it/s] 98%|█████████▊| 10476/10711 [1:50:04<01:55,  2.03it/s] 98%|█████████▊| 10477/10711 [1:50:04<01:55,  2.03it/s] 98%|█████████▊| 10478/10711 [1:50:05<01:54,  2.04it/s] 98%|█████████▊| 10479/10711 [1:50:05<01:54,  2.03it/s] 98%|█████████▊| 10480/10711 [1:50:06<01:53,  2.03it/s] 98%|█████████▊| 10481/10711 [1:50:06<01:53,  2.03it/s] 98%|█████████▊| 10482/10711 [1:50:07<01:52,  2.03it/s] 98%|█████████▊| 10483/10711 [1:50:07<01:51,  2.04it/s] 98%|█████████▊| 10484/10711 [1:50:08<01:51,  2.04it/s] 98%|█████████▊| 10485/10711 [1:50:08<01:51,  2.03it/s] 98%|█████████▊| 10486/10711 [1:50:09<01:50,  2.04it/s] 98%|█████████▊| 10487/10711 [1:50:09<01:49,  2.04it/s] 98%|█████████▊| 10488/10711 [1:50:10<01:49,  2.03it/s] 98%|█████████▊| 10489/10711 [1:50:10<01:48,  2.04it/s] 98%|█████████▊| 10490/10711 [1:50:11<01:48,  2.04it/s] 98%|█████████▊| 10491/10711 [1:50:11<01:48,  2.04it/s] 98%|█████████▊| 10492/10711 [1:50:12<01:47,  2.04it/s] 98%|█████████▊| 10493/10711 [1:50:12<01:46,  2.04it/s] 98%|█████████▊| 10494/10711 [1:50:13<01:46,  2.03it/s] 98%|█████████▊| 10495/10711 [1:50:13<01:46,  2.04it/s] 98%|█████████▊| 10496/10711 [1:50:14<01:45,  2.04it/s] 98%|█████████▊| 10497/10711 [1:50:14<01:45,  2.04it/s] 98%|█████████▊| 10498/10711 [1:50:15<01:44,  2.04it/s] 98%|█████████▊| 10499/10711 [1:50:15<01:43,  2.04it/s] 98%|█████████▊| 10500/10711 [1:50:15<01:43,  2.04it/s]{'loss': 3.3729, 'grad_norm': 0.18897929787635803, 'learning_rate': 1.1818695316789807e-06, 'epoch': 0.98}
                                                        98%|█████████▊| 10500/10711 [1:50:15<01:43,  2.04it/s] 98%|█████████▊| 10501/10711 [1:50:16<01:43,  2.03it/s] 98%|█████████▊| 10502/10711 [1:50:16<01:42,  2.04it/s] 98%|█████████▊| 10503/10711 [1:50:17<01:42,  2.04it/s] 98%|█████████▊| 10504/10711 [1:50:17<01:41,  2.04it/s] 98%|█████████▊| 10505/10711 [1:50:18<01:41,  2.04it/s] 98%|█████████▊| 10506/10711 [1:50:18<01:40,  2.04it/s] 98%|█████████▊| 10507/10711 [1:50:19<01:40,  2.04it/s] 98%|█████████▊| 10508/10711 [1:50:19<01:39,  2.04it/s] 98%|█████████▊| 10509/10711 [1:50:20<01:39,  2.04it/s] 98%|█████████▊| 10510/10711 [1:50:20<01:38,  2.03it/s] 98%|█████████▊| 10511/10711 [1:50:21<01:38,  2.03it/s] 98%|█████████▊| 10512/10711 [1:50:21<01:37,  2.04it/s] 98%|█████████▊| 10513/10711 [1:50:22<01:37,  2.03it/s] 98%|█████████▊| 10514/10711 [1:50:22<01:36,  2.04it/s] 98%|█████████▊| 10515/10711 [1:50:23<01:36,  2.04it/s] 98%|█████████▊| 10516/10711 [1:50:23<01:35,  2.04it/s] 98%|█████████▊| 10517/10711 [1:50:24<01:35,  2.04it/s] 98%|█████████▊| 10518/10711 [1:50:24<01:34,  2.04it/s] 98%|█████████▊| 10519/10711 [1:50:25<01:34,  2.04it/s] 98%|█████████▊| 10520/10711 [1:50:25<01:33,  2.04it/s] 98%|█████████▊| 10521/10711 [1:50:26<01:33,  2.04it/s] 98%|█████████▊| 10522/10711 [1:50:26<01:32,  2.04it/s] 98%|█████████▊| 10523/10711 [1:50:27<01:32,  2.04it/s] 98%|█████████▊| 10524/10711 [1:50:27<01:31,  2.04it/s] 98%|█████████▊| 10525/10711 [1:50:28<01:31,  2.04it/s]{'loss': 3.378, 'grad_norm': 0.18970640003681183, 'learning_rate': 9.184778215362565e-07, 'epoch': 0.98}                                                       
 98%|█████████▊| 10525/10711 [1:50:28<01:31,  2.04it/s] 98%|█████████▊| 10526/10711 [1:50:28<01:30,  2.03it/s] 98%|█████████▊| 10527/10711 [1:50:29<01:30,  2.03it/s] 98%|█████████▊| 10528/10711 [1:50:29<01:29,  2.03it/s] 98%|█████████▊| 10529/10711 [1:50:30<01:29,  2.03it/s] 98%|█████████▊| 10530/10711 [1:50:30<01:28,  2.04it/s] 98%|█████████▊| 10531/10711 [1:50:31<01:28,  2.03it/s] 98%|█████████▊| 10532/10711 [1:50:31<01:28,  2.03it/s] 98%|█████████▊| 10533/10711 [1:50:32<01:27,  2.04it/s] 98%|█████████▊| 10534/10711 [1:50:32<01:26,  2.03it/s] 98%|█████████▊| 10535/10711 [1:50:33<01:26,  2.03it/s] 98%|█████████▊| 10536/10711 [1:50:33<01:26,  2.03it/s] 98%|█████████▊| 10537/10711 [1:50:34<01:25,  2.03it/s] 98%|█████████▊| 10538/10711 [1:50:34<01:25,  2.03it/s] 98%|█████████▊| 10539/10711 [1:50:35<01:24,  2.03it/s] 98%|█████████▊| 10540/10711 [1:50:35<01:24,  2.03it/s] 98%|█████████▊| 10541/10711 [1:50:36<01:23,  2.03it/s] 98%|█████████▊| 10542/10711 [1:50:36<01:22,  2.04it/s] 98%|█████████▊| 10543/10711 [1:50:37<01:22,  2.04it/s] 98%|█████████▊| 10544/10711 [1:50:37<01:22,  2.04it/s] 98%|█████████▊| 10545/10711 [1:50:38<01:21,  2.04it/s] 98%|█████████▊| 10546/10711 [1:50:38<01:21,  2.04it/s] 98%|█████████▊| 10547/10711 [1:50:39<01:20,  2.04it/s] 98%|█████████▊| 10548/10711 [1:50:39<01:19,  2.04it/s] 98%|█████████▊| 10549/10711 [1:50:40<01:19,  2.04it/s] 98%|█████████▊| 10550/10711 [1:50:40<01:19,  2.04it/s]                                                       {'loss': 3.3776, 'grad_norm': 0.206115260720253, 'learning_rate': 6.882209523507155e-07, 'epoch': 0.98}
 98%|█████████▊| 10550/10711 [1:50:40<01:19,  2.04it/s] 99%|█████████▊| 10551/10711 [1:50:41<01:18,  2.03it/s] 99%|█████████▊| 10552/10711 [1:50:41<01:18,  2.03it/s] 99%|█████████▊| 10553/10711 [1:50:42<01:17,  2.04it/s] 99%|█████████▊| 10554/10711 [1:50:42<01:17,  2.03it/s] 99%|█████████▊| 10555/10711 [1:50:43<01:16,  2.03it/s] 99%|█████████▊| 10556/10711 [1:50:43<01:16,  2.03it/s] 99%|█████████▊| 10557/10711 [1:50:43<01:15,  2.03it/s] 99%|█████████▊| 10558/10711 [1:50:44<01:15,  2.03it/s] 99%|█████████▊| 10559/10711 [1:50:44<01:14,  2.04it/s] 99%|█████████▊| 10560/10711 [1:50:45<01:14,  2.03it/s] 99%|█████████▊| 10561/10711 [1:50:45<01:13,  2.04it/s] 99%|█████████▊| 10562/10711 [1:50:46<01:13,  2.04it/s] 99%|█████████▊| 10563/10711 [1:50:46<01:12,  2.04it/s] 99%|█████████▊| 10564/10711 [1:50:47<01:12,  2.03it/s] 99%|█████████▊| 10565/10711 [1:50:47<01:11,  2.03it/s] 99%|█████████▊| 10566/10711 [1:50:48<01:11,  2.03it/s] 99%|█████████▊| 10567/10711 [1:50:48<01:10,  2.03it/s] 99%|█████████▊| 10568/10711 [1:50:49<01:10,  2.03it/s] 99%|█████████▊| 10569/10711 [1:50:49<01:09,  2.03it/s] 99%|█████████▊| 10570/10711 [1:50:50<01:09,  2.03it/s] 99%|█████████▊| 10571/10711 [1:50:50<01:08,  2.04it/s] 99%|█████████▊| 10572/10711 [1:50:51<01:08,  2.04it/s] 99%|█████████▊| 10573/10711 [1:50:51<01:07,  2.04it/s] 99%|█████████▊| 10574/10711 [1:50:52<01:07,  2.04it/s] 99%|█████████▊| 10575/10711 [1:50:52<01:06,  2.03it/s]                                                       {'loss': 3.37, 'grad_norm': 0.18765485286712646, 'learning_rate': 4.911142112536959e-07, 'epoch': 0.99}
 99%|█████████▊| 10575/10711 [1:50:52<01:06,  2.03it/s] 99%|█████████▊| 10576/10711 [1:50:53<01:06,  2.03it/s] 99%|█████████▊| 10577/10711 [1:50:53<01:06,  2.03it/s] 99%|█████████▉| 10578/10711 [1:50:54<01:05,  2.03it/s] 99%|█████████▉| 10579/10711 [1:50:54<01:04,  2.03it/s] 99%|█████████▉| 10580/10711 [1:50:55<01:04,  2.03it/s] 99%|█████████▉| 10581/10711 [1:50:55<01:03,  2.03it/s] 99%|█████████▉| 10582/10711 [1:50:56<01:03,  2.03it/s] 99%|█████████▉| 10583/10711 [1:50:56<01:02,  2.03it/s] 99%|█████████▉| 10584/10711 [1:50:57<01:02,  2.03it/s] 99%|█████████▉| 10585/10711 [1:50:57<01:01,  2.03it/s] 99%|█████████▉| 10586/10711 [1:50:58<01:01,  2.03it/s] 99%|█████████▉| 10587/10711 [1:50:58<01:01,  2.03it/s] 99%|█████████▉| 10588/10711 [1:50:59<01:00,  2.03it/s] 99%|█████████▉| 10589/10711 [1:50:59<01:00,  2.03it/s] 99%|█████████▉| 10590/10711 [1:51:00<00:59,  2.03it/s] 99%|█████████▉| 10591/10711 [1:51:00<00:59,  2.03it/s] 99%|█████████▉| 10592/10711 [1:51:01<00:58,  2.03it/s] 99%|█████████▉| 10593/10711 [1:51:01<00:58,  2.03it/s] 99%|█████████▉| 10594/10711 [1:51:02<00:57,  2.03it/s] 99%|█████████▉| 10595/10711 [1:51:02<00:57,  2.03it/s] 99%|█████████▉| 10596/10711 [1:51:03<00:56,  2.03it/s] 99%|█████████▉| 10597/10711 [1:51:03<00:56,  2.03it/s] 99%|█████████▉| 10598/10711 [1:51:04<00:55,  2.04it/s] 99%|█████████▉| 10599/10711 [1:51:04<00:55,  2.03it/s] 99%|█████████▉| 10600/10711 [1:51:05<00:54,  2.04it/s]{'loss': 3.3745, 'grad_norm': 0.1896664947271347, 'learning_rate': 3.27170684485012e-07, 'epoch': 0.99}                                                       
 99%|█████████▉| 10600/10711 [1:51:05<00:54,  2.04it/s] 99%|█████████▉| 10601/10711 [1:51:05<00:54,  2.03it/s] 99%|█████████▉| 10602/10711 [1:51:06<00:53,  2.03it/s] 99%|█████████▉| 10603/10711 [1:51:06<00:53,  2.03it/s] 99%|█████████▉| 10604/10711 [1:51:07<00:52,  2.03it/s] 99%|█████████▉| 10605/10711 [1:51:07<00:52,  2.03it/s] 99%|█████████▉| 10606/10711 [1:51:08<00:51,  2.03it/s] 99%|█████████▉| 10607/10711 [1:51:08<00:51,  2.03it/s] 99%|█████████▉| 10608/10711 [1:51:09<00:50,  2.04it/s] 99%|█████████▉| 10609/10711 [1:51:09<00:50,  2.04it/s] 99%|█████████▉| 10610/10711 [1:51:10<00:49,  2.03it/s] 99%|█████████▉| 10611/10711 [1:51:10<00:49,  2.03it/s] 99%|█████████▉| 10612/10711 [1:51:11<00:48,  2.03it/s] 99%|█████████▉| 10613/10711 [1:51:11<00:48,  2.03it/s] 99%|█████████▉| 10614/10711 [1:51:12<00:47,  2.04it/s] 99%|█████████▉| 10615/10711 [1:51:12<00:47,  2.03it/s] 99%|█████████▉| 10616/10711 [1:51:13<00:46,  2.04it/s] 99%|█████████▉| 10617/10711 [1:51:13<00:46,  2.04it/s] 99%|█████████▉| 10618/10711 [1:51:13<00:45,  2.03it/s] 99%|█████████▉| 10619/10711 [1:51:14<00:45,  2.03it/s] 99%|█████████▉| 10620/10711 [1:51:14<00:44,  2.03it/s] 99%|█████████▉| 10621/10711 [1:51:15<00:44,  2.03it/s] 99%|█████████▉| 10622/10711 [1:51:15<00:43,  2.04it/s] 99%|█████████▉| 10623/10711 [1:51:16<00:43,  2.03it/s] 99%|█████████▉| 10624/10711 [1:51:16<00:42,  2.03it/s] 99%|█████████▉| 10625/10711 [1:51:17<00:42,  2.04it/s]{'loss': 3.3701, 'grad_norm': 0.18791869282722473, 'learning_rate': 1.9640125652437003e-07, 'epoch': 0.99}                                                       
 99%|█████████▉| 10625/10711 [1:51:17<00:42,  2.04it/s] 99%|█████████▉| 10626/10711 [1:51:17<00:41,  2.03it/s] 99%|█████████▉| 10627/10711 [1:51:18<00:41,  2.03it/s] 99%|█████████▉| 10628/10711 [1:51:18<00:40,  2.03it/s] 99%|█████████▉| 10629/10711 [1:51:19<00:40,  2.03it/s] 99%|█████████▉| 10630/10711 [1:51:19<00:39,  2.03it/s] 99%|█████████▉| 10631/10711 [1:51:20<00:39,  2.04it/s] 99%|█████████▉| 10632/10711 [1:51:20<00:38,  2.04it/s] 99%|█████████▉| 10633/10711 [1:51:21<00:38,  2.03it/s] 99%|█████████▉| 10634/10711 [1:51:21<00:37,  2.03it/s] 99%|█████████▉| 10635/10711 [1:51:22<00:37,  2.03it/s] 99%|█████████▉| 10636/10711 [1:51:22<00:36,  2.03it/s] 99%|█████████▉| 10637/10711 [1:51:23<00:36,  2.04it/s] 99%|█████████▉| 10638/10711 [1:51:23<00:35,  2.04it/s] 99%|█████████▉| 10639/10711 [1:51:24<00:35,  2.04it/s] 99%|█████████▉| 10640/10711 [1:51:24<00:34,  2.04it/s] 99%|█████████▉| 10641/10711 [1:51:25<00:34,  2.04it/s] 99%|█████████▉| 10642/10711 [1:51:25<00:33,  2.03it/s] 99%|█████████▉| 10643/10711 [1:51:26<00:33,  2.03it/s] 99%|█████████▉| 10644/10711 [1:51:26<00:32,  2.03it/s] 99%|█████████▉| 10645/10711 [1:51:27<00:32,  2.03it/s] 99%|█████████▉| 10646/10711 [1:51:27<00:31,  2.03it/s] 99%|█████████▉| 10647/10711 [1:51:28<00:31,  2.03it/s] 99%|█████████▉| 10648/10711 [1:51:28<00:31,  2.03it/s] 99%|█████████▉| 10649/10711 [1:51:29<00:30,  2.04it/s] 99%|█████████▉| 10650/10711 [1:51:29<00:29,  2.03it/s]{'loss': 3.3655, 'grad_norm': 0.1874377578496933, 'learning_rate': 9.881460936855824e-08, 'epoch': 0.99}
                                                        99%|█████████▉| 10650/10711 [1:51:29<00:29,  2.03it/s] 99%|█████████▉| 10651/10711 [1:51:30<00:29,  2.03it/s] 99%|█████████▉| 10652/10711 [1:51:30<00:29,  2.03it/s] 99%|█████████▉| 10653/10711 [1:51:31<00:28,  2.03it/s] 99%|█████████▉| 10654/10711 [1:51:31<00:28,  2.03it/s] 99%|█████████▉| 10655/10711 [1:51:32<00:27,  2.03it/s] 99%|█████████▉| 10656/10711 [1:51:32<00:27,  2.03it/s] 99%|█████████▉| 10657/10711 [1:51:33<00:26,  2.03it/s]100%|█████████▉| 10658/10711 [1:51:33<00:26,  2.03it/s]100%|█████████▉| 10659/10711 [1:51:34<00:25,  2.03it/s]100%|█████████▉| 10660/10711 [1:51:34<00:25,  2.03it/s]100%|█████████▉| 10661/10711 [1:51:35<00:24,  2.03it/s]100%|█████████▉| 10662/10711 [1:51:35<00:24,  2.03it/s]100%|█████████▉| 10663/10711 [1:51:36<00:23,  2.03it/s]100%|█████████▉| 10664/10711 [1:51:36<00:23,  2.03it/s]100%|█████████▉| 10665/10711 [1:51:37<00:22,  2.03it/s]100%|█████████▉| 10666/10711 [1:51:37<00:22,  2.03it/s]100%|█████████▉| 10667/10711 [1:51:38<00:21,  2.03it/s]100%|█████████▉| 10668/10711 [1:51:38<00:21,  2.03it/s]100%|█████████▉| 10669/10711 [1:51:39<00:20,  2.03it/s]100%|█████████▉| 10670/10711 [1:51:39<00:20,  2.03it/s]100%|█████████▉| 10671/10711 [1:51:40<00:19,  2.03it/s]100%|█████████▉| 10672/10711 [1:51:40<00:19,  2.03it/s]100%|█████████▉| 10673/10711 [1:51:41<00:18,  2.03it/s]100%|█████████▉| 10674/10711 [1:51:41<00:18,  2.03it/s]100%|█████████▉| 10675/10711 [1:51:42<00:17,  2.04it/s]                                                       {'loss': 3.379, 'grad_norm': 0.18928231298923492, 'learning_rate': 3.4417221955240775e-08, 'epoch': 1.0}
100%|█████████▉| 10675/10711 [1:51:42<00:17,  2.04it/s]100%|█████████▉| 10676/10711 [1:51:42<00:17,  2.03it/s]100%|█████████▉| 10677/10711 [1:51:43<00:16,  2.03it/s]100%|█████████▉| 10678/10711 [1:51:43<00:16,  2.03it/s]100%|█████████▉| 10679/10711 [1:51:44<00:15,  2.03it/s]100%|█████████▉| 10680/10711 [1:51:44<00:15,  2.03it/s]100%|█████████▉| 10681/10711 [1:51:44<00:14,  2.04it/s]100%|█████████▉| 10682/10711 [1:51:45<00:14,  2.03it/s]100%|█████████▉| 10683/10711 [1:51:45<00:13,  2.04it/s]100%|█████████▉| 10684/10711 [1:51:46<00:13,  2.04it/s]100%|█████████▉| 10685/10711 [1:51:46<00:12,  2.03it/s]100%|█████████▉| 10686/10711 [1:51:47<00:12,  2.03it/s]100%|█████████▉| 10687/10711 [1:51:47<00:11,  2.03it/s]100%|█████████▉| 10688/10711 [1:51:48<00:11,  2.03it/s]100%|█████████▉| 10689/10711 [1:51:48<00:10,  2.03it/s]100%|█████████▉| 10690/10711 [1:51:49<00:10,  2.04it/s]100%|█████████▉| 10691/10711 [1:51:49<00:09,  2.04it/s]100%|█████████▉| 10692/10711 [1:51:50<00:09,  2.03it/s]100%|█████████▉| 10693/10711 [1:51:50<00:08,  2.03it/s]100%|█████████▉| 10694/10711 [1:51:51<00:08,  2.04it/s]100%|█████████▉| 10695/10711 [1:51:51<00:07,  2.03it/s]100%|█████████▉| 10696/10711 [1:51:52<00:07,  2.03it/s]100%|█████████▉| 10697/10711 [1:51:52<00:06,  2.03it/s]100%|█████████▉| 10698/10711 [1:51:53<00:06,  2.04it/s]100%|█████████▉| 10699/10711 [1:51:53<00:05,  2.04it/s]100%|█████████▉| 10700/10711 [1:51:54<00:05,  2.04it/s]{'loss': 3.3683, 'grad_norm': 0.1908016800880432, 'learning_rate': 3.213369732524285e-09, 'epoch': 1.0}
                                                       100%|█████████▉| 10700/10711 [1:51:54<00:05,  2.04it/s]100%|█████████▉| 10701/10711 [1:51:54<00:04,  2.03it/s]100%|█████████▉| 10702/10711 [1:51:55<00:04,  2.03it/s]100%|█████████▉| 10703/10711 [1:51:55<00:03,  2.03it/s]100%|█████████▉| 10704/10711 [1:51:56<00:03,  2.03it/s]100%|█████████▉| 10705/10711 [1:51:56<00:02,  2.03it/s]100%|█████████▉| 10706/10711 [1:51:57<00:02,  2.03it/s]100%|█████████▉| 10707/10711 [1:51:57<00:01,  2.03it/s]100%|█████████▉| 10708/10711 [1:51:58<00:01,  2.04it/s]100%|█████████▉| 10709/10711 [1:51:58<00:00,  2.04it/s]100%|█████████▉| 10710/10711 [1:51:59<00:00,  2.04it/s]100%|██████████| 10711/10711 [1:52:00<00:00,  1.34it/s]                                                       {'train_runtime': 6797.0137, 'train_samples_per_second': 1613.642, 'train_steps_per_second': 1.576, 'train_loss': 3.755288027657502, 'epoch': 1.0}
100%|██████████| 10711/10711 [1:53:16<00:00,  1.34it/s]100%|██████████| 10711/10711 [1:53:16<00:00,  1.58it/s]
Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.