2022-03-09 10:13:12,621 - INFO - allennlp.common.params - random_seed = 13370 2022-03-09 10:13:12,622 - INFO - allennlp.common.params - numpy_seed = 1337 2022-03-09 10:13:12,622 - INFO - allennlp.common.params - pytorch_seed = 15371 2022-03-09 10:13:12,622 - INFO - allennlp.common.checks - Pytorch version: 1.8.1+cu102 2022-03-09 10:13:12,622 - INFO - allennlp.common.params - type = default 2022-03-09 10:13:12,623 - INFO - allennlp.common.params - dataset_reader.type = qasper 2022-03-09 10:13:12,623 - INFO - allennlp.common.params - dataset_reader.max_instances = None 2022-03-09 10:13:12,623 - INFO - allennlp.common.params - dataset_reader.manual_distributed_sharding = False 2022-03-09 10:13:12,623 - INFO - allennlp.common.params - dataset_reader.manual_multiprocess_sharding = False 2022-03-09 10:13:12,623 - INFO - allennlp.common.params - dataset_reader.transformer_model_name = allenai/led-base-16384 2022-03-09 10:13:12,623 - INFO - allennlp.common.params - dataset_reader.max_query_length = 128 2022-03-09 10:13:12,623 - INFO - allennlp.common.params - dataset_reader.max_document_length = 15360 2022-03-09 10:13:12,623 - INFO - allennlp.common.params - dataset_reader.paragraph_separator = 2022-03-09 10:13:12,623 - INFO - allennlp.common.params - dataset_reader.include_global_attention_mask = True 2022-03-09 10:13:12,623 - INFO - allennlp.common.params - dataset_reader.context = full_text 2022-03-09 10:13:12,623 - INFO - allennlp.common.params - dataset_reader.for_training = True 2022-03-09 10:13:19,031 - INFO - allennlp.common.params - train_data_path = qasper-train-v0.2.json 2022-03-09 10:13:19,031 - INFO - allennlp.common.params - datasets_for_vocab_creation = None 2022-03-09 10:13:19,031 - INFO - allennlp.common.params - validation_dataset_reader.type = qasper 2022-03-09 10:13:19,032 - INFO - allennlp.common.params - validation_dataset_reader.max_instances = None 2022-03-09 10:13:19,032 - INFO - allennlp.common.params - validation_dataset_reader.manual_distributed_sharding = False 2022-03-09 10:13:19,032 - INFO - allennlp.common.params - validation_dataset_reader.manual_multiprocess_sharding = False 2022-03-09 10:13:19,032 - INFO - allennlp.common.params - validation_dataset_reader.transformer_model_name = allenai/led-base-16384 2022-03-09 10:13:19,032 - INFO - allennlp.common.params - validation_dataset_reader.max_query_length = 128 2022-03-09 10:13:19,032 - INFO - allennlp.common.params - validation_dataset_reader.max_document_length = 15360 2022-03-09 10:13:19,032 - INFO - allennlp.common.params - validation_dataset_reader.paragraph_separator = 2022-03-09 10:13:19,032 - INFO - allennlp.common.params - validation_dataset_reader.include_global_attention_mask = True 2022-03-09 10:13:19,032 - INFO - allennlp.common.params - validation_dataset_reader.context = full_text 2022-03-09 10:13:19,032 - INFO - allennlp.common.params - validation_dataset_reader.for_training = False 2022-03-09 10:13:19,033 - INFO - allennlp.common.params - validation_data_path = qasper-dev-v0.2.json 2022-03-09 10:13:19,033 - INFO - allennlp.common.params - validation_data_loader = None 2022-03-09 10:13:19,033 - INFO - allennlp.common.params - test_data_path = None 2022-03-09 10:13:19,033 - INFO - allennlp.common.params - evaluate_on_test = False 2022-03-09 10:13:19,033 - INFO - allennlp.common.params - batch_weight_key = 2022-03-09 10:13:19,033 - INFO - allennlp.common.params - data_loader.type = multiprocess 2022-03-09 10:13:19,033 - INFO - allennlp.common.params - data_loader.batch_size = 1 2022-03-09 10:13:19,033 - INFO - allennlp.common.params - data_loader.drop_last = False 2022-03-09 10:13:19,033 - INFO - allennlp.common.params - data_loader.shuffle = False 2022-03-09 10:13:19,033 - INFO - allennlp.common.params - data_loader.batch_sampler = None 2022-03-09 10:13:19,033 - INFO - allennlp.common.params - data_loader.batches_per_epoch = None 2022-03-09 10:13:19,033 - INFO - allennlp.common.params - data_loader.num_workers = 0 2022-03-09 10:13:19,033 - INFO - allennlp.common.params - data_loader.max_instances_in_memory = None 2022-03-09 10:13:19,033 - INFO - allennlp.common.params - data_loader.start_method = fork 2022-03-09 10:13:19,033 - INFO - allennlp.common.params - data_loader.cuda_device = None 2022-03-09 10:13:19,034 - INFO - tqdm - loading instances: 0it [00:00, ?it/s] 2022-03-09 10:13:19,034 - INFO - qasper_baselines.dataset_reader - Reading the dataset 2022-03-09 10:13:19,034 - INFO - qasper_baselines.dataset_reader - Reading json file at qasper-train-v0.2.json 2022-03-09 10:13:29,093 - INFO - tqdm - loading instances: 1260it [00:10, 70.30it/s] 2022-03-09 10:13:39,455 - INFO - tqdm - loading instances: 2245it [00:20, 42.07it/s] 2022-03-09 10:13:46,228 - INFO - qasper_baselines.dataset_reader - Stats: 2022-03-09 10:13:46,228 - INFO - qasper_baselines.dataset_reader - number of documents: 887 2022-03-09 10:13:46,228 - INFO - qasper_baselines.dataset_reader - number of questions: 2590 2022-03-09 10:13:46,228 - INFO - qasper_baselines.dataset_reader - number of answers: 2672 2022-03-09 10:13:46,228 - INFO - qasper_baselines.dataset_reader - questions with multiple answers: 82 2022-03-09 10:13:46,228 - INFO - qasper_baselines.dataset_reader - freeform answers: 622 2022-03-09 10:13:46,228 - INFO - qasper_baselines.dataset_reader - extractive questions: 1363 2022-03-09 10:13:46,228 - INFO - qasper_baselines.dataset_reader - answers with table or figure as evidence: 327 2022-03-09 10:13:46,228 - INFO - qasper_baselines.dataset_reader - multiple_evidence_spans_count: 838 2022-03-09 10:13:46,228 - INFO - qasper_baselines.dataset_reader - extractive questions with multiple spans: 538 2022-03-09 10:13:46,229 - INFO - qasper_baselines.dataset_reader - yes/no questions: 405 2022-03-09 10:13:46,229 - INFO - qasper_baselines.dataset_reader - answers with no evidence: 364 2022-03-09 10:13:46,229 - INFO - qasper_baselines.dataset_reader - unanswerable questions: 282 2022-03-09 10:13:46,229 - INFO - qasper_baselines.dataset_reader - number of truncated contexts: 30 2022-03-09 10:13:46,234 - INFO - allennlp.common.params - data_loader.type = multiprocess 2022-03-09 10:13:46,234 - INFO - allennlp.common.params - data_loader.batch_size = 1 2022-03-09 10:13:46,234 - INFO - allennlp.common.params - data_loader.drop_last = False 2022-03-09 10:13:46,234 - INFO - allennlp.common.params - data_loader.shuffle = False 2022-03-09 10:13:46,234 - INFO - allennlp.common.params - data_loader.batch_sampler = None 2022-03-09 10:13:46,234 - INFO - allennlp.common.params - data_loader.batches_per_epoch = None 2022-03-09 10:13:46,234 - INFO - allennlp.common.params - data_loader.num_workers = 0 2022-03-09 10:13:46,234 - INFO - allennlp.common.params - data_loader.max_instances_in_memory = None 2022-03-09 10:13:46,234 - INFO - allennlp.common.params - data_loader.start_method = fork 2022-03-09 10:13:46,234 - INFO - allennlp.common.params - data_loader.cuda_device = None 2022-03-09 10:13:46,234 - INFO - tqdm - loading instances: 0it [00:00, ?it/s] 2022-03-09 10:13:46,234 - INFO - qasper_baselines.dataset_reader - Reading the dataset 2022-03-09 10:13:46,234 - INFO - qasper_baselines.dataset_reader - Reading json file at qasper-dev-v0.2.json 2022-03-09 10:13:54,582 - INFO - qasper_baselines.dataset_reader - Stats: 2022-03-09 10:13:54,582 - INFO - qasper_baselines.dataset_reader - number of documents: 281 2022-03-09 10:13:54,582 - INFO - qasper_baselines.dataset_reader - number of questions: 1005 2022-03-09 10:13:54,582 - INFO - qasper_baselines.dataset_reader - number of answers: 1764 2022-03-09 10:13:54,582 - INFO - qasper_baselines.dataset_reader - questions with multiple answers: 744 2022-03-09 10:13:54,582 - INFO - qasper_baselines.dataset_reader - extractive questions: 962 2022-03-09 10:13:54,582 - INFO - qasper_baselines.dataset_reader - extractive questions with multiple spans: 406 2022-03-09 10:13:54,582 - INFO - qasper_baselines.dataset_reader - multiple_evidence_spans_count: 536 2022-03-09 10:13:54,582 - INFO - qasper_baselines.dataset_reader - answers with table or figure as evidence: 212 2022-03-09 10:13:54,583 - INFO - qasper_baselines.dataset_reader - freeform answers: 431 2022-03-09 10:13:54,583 - INFO - qasper_baselines.dataset_reader - yes/no questions: 208 2022-03-09 10:13:54,583 - INFO - qasper_baselines.dataset_reader - answers with no evidence: 212 2022-03-09 10:13:54,583 - INFO - qasper_baselines.dataset_reader - unanswerable questions: 163 2022-03-09 10:13:54,583 - INFO - qasper_baselines.dataset_reader - number of truncated contexts: 15 2022-03-09 10:13:54,585 - INFO - allennlp.common.params - vocabulary.type = empty 2022-03-09 10:13:54,585 - INFO - allennlp.common.params - model.type = qasper_baseline 2022-03-09 10:13:54,585 - INFO - allennlp.common.params - model.regularizer = None 2022-03-09 10:13:54,585 - INFO - allennlp.common.params - model.transformer_model_name = allenai/led-base-16384 2022-03-09 10:13:54,585 - INFO - allennlp.common.params - model.attention_dropout = 0.1 2022-03-09 10:13:54,586 - INFO - allennlp.common.params - model.attention_window_size = 1536 2022-03-09 10:13:54,586 - INFO - allennlp.common.params - model.gradient_checkpointing = True 2022-03-09 10:13:54,586 - INFO - allennlp.common.params - model.evidence_feedforward = None 2022-03-09 10:13:54,586 - INFO - allennlp.common.params - model.use_evidence_scaffold = True 2022-03-09 10:14:07,778 - INFO - allennlp.common.params - trainer.type = gradient_descent 2022-03-09 10:14:07,778 - INFO - allennlp.common.params - trainer.patience = 10 2022-03-09 10:14:07,778 - INFO - allennlp.common.params - trainer.validation_metric = +answer_f1 2022-03-09 10:14:07,778 - INFO - allennlp.common.params - trainer.num_epochs = 10 2022-03-09 10:14:07,778 - INFO - allennlp.common.params - trainer.cuda_device = 0 2022-03-09 10:14:07,778 - INFO - allennlp.common.params - trainer.grad_norm = None 2022-03-09 10:14:07,778 - INFO - allennlp.common.params - trainer.grad_clipping = 1 2022-03-09 10:14:07,779 - INFO - allennlp.common.params - trainer.distributed = False 2022-03-09 10:14:07,779 - INFO - allennlp.common.params - trainer.world_size = 1 2022-03-09 10:14:07,779 - INFO - allennlp.common.params - trainer.num_gradient_accumulation_steps = 2 2022-03-09 10:14:07,779 - INFO - allennlp.common.params - trainer.use_amp = True 2022-03-09 10:14:07,779 - INFO - allennlp.common.params - trainer.no_grad = None 2022-03-09 10:14:07,779 - INFO - allennlp.common.params - trainer.momentum_scheduler = None 2022-03-09 10:14:07,779 - INFO - allennlp.common.params - trainer.moving_average = None 2022-03-09 10:14:07,779 - INFO - allennlp.common.params - trainer.checkpointer = 2022-03-09 10:14:07,779 - INFO - allennlp.common.params - trainer.enable_default_callbacks = False 2022-03-09 10:14:09,427 - INFO - allennlp.common.params - trainer.optimizer.type = adam 2022-03-09 10:14:09,427 - INFO - allennlp.common.params - trainer.optimizer.parameter_groups = None 2022-03-09 10:14:09,428 - INFO - allennlp.common.params - trainer.optimizer.lr = 5e-05 2022-03-09 10:14:09,428 - INFO - allennlp.common.params - trainer.optimizer.betas = (0.9, 0.999) 2022-03-09 10:14:09,428 - INFO - allennlp.common.params - trainer.optimizer.eps = 1e-08 2022-03-09 10:14:09,428 - INFO - allennlp.common.params - trainer.optimizer.weight_decay = 0.0 2022-03-09 10:14:09,428 - INFO - allennlp.common.params - trainer.optimizer.amsgrad = False 2022-03-09 10:14:09,428 - INFO - allennlp.training.optimizers - Number of trainable parameters: 161846018 2022-03-09 10:14:09,430 - INFO - allennlp.common.util - The following parameters are Frozen (without gradient): 2022-03-09 10:14:09,431 - INFO - allennlp.common.util - The following parameters are Tunable (with gradient): 2022-03-09 10:14:09,431 - INFO - allennlp.common.util - transformer.led.shared.weight 2022-03-09 10:14:09,431 - INFO - allennlp.common.util - transformer.led.encoder.embed_positions.weight 2022-03-09 10:14:09,431 - INFO - allennlp.common.util - transformer.led.encoder.layers.0.self_attn.longformer_self_attn.query.weight 2022-03-09 10:14:09,431 - INFO - allennlp.common.util - transformer.led.encoder.layers.0.self_attn.longformer_self_attn.query.bias 2022-03-09 10:14:09,431 - INFO - allennlp.common.util - transformer.led.encoder.layers.0.self_attn.longformer_self_attn.key.weight 2022-03-09 10:14:09,431 - INFO - allennlp.common.util - transformer.led.encoder.layers.0.self_attn.longformer_self_attn.key.bias 2022-03-09 10:14:09,431 - INFO - allennlp.common.util - transformer.led.encoder.layers.0.self_attn.longformer_self_attn.value.weight 2022-03-09 10:14:09,431 - INFO - allennlp.common.util - transformer.led.encoder.layers.0.self_attn.longformer_self_attn.value.bias 2022-03-09 10:14:09,431 - INFO - allennlp.common.util - transformer.led.encoder.layers.0.self_attn.longformer_self_attn.query_global.weight 2022-03-09 10:14:09,431 - INFO - allennlp.common.util - transformer.led.encoder.layers.0.self_attn.longformer_self_attn.query_global.bias 2022-03-09 10:14:09,431 - INFO - allennlp.common.util - transformer.led.encoder.layers.0.self_attn.longformer_self_attn.key_global.weight 2022-03-09 10:14:09,431 - INFO - allennlp.common.util - transformer.led.encoder.layers.0.self_attn.longformer_self_attn.key_global.bias 2022-03-09 10:14:09,431 - INFO - allennlp.common.util - transformer.led.encoder.layers.0.self_attn.longformer_self_attn.value_global.weight 2022-03-09 10:14:09,431 - INFO - allennlp.common.util - transformer.led.encoder.layers.0.self_attn.longformer_self_attn.value_global.bias 2022-03-09 10:14:09,431 - INFO - allennlp.common.util - transformer.led.encoder.layers.0.self_attn.output.weight 2022-03-09 10:14:09,431 - INFO - allennlp.common.util - transformer.led.encoder.layers.0.self_attn.output.bias 2022-03-09 10:14:09,431 - INFO - allennlp.common.util - transformer.led.encoder.layers.0.self_attn_layer_norm.weight 2022-03-09 10:14:09,431 - INFO - allennlp.common.util - transformer.led.encoder.layers.0.self_attn_layer_norm.bias 2022-03-09 10:14:09,431 - INFO - allennlp.common.util - transformer.led.encoder.layers.0.fc1.weight 2022-03-09 10:14:09,432 - INFO - allennlp.common.util - transformer.led.encoder.layers.0.fc1.bias 2022-03-09 10:14:09,432 - INFO - allennlp.common.util - transformer.led.encoder.layers.0.fc2.weight 2022-03-09 10:14:09,432 - INFO - allennlp.common.util - transformer.led.encoder.layers.0.fc2.bias 2022-03-09 10:14:09,432 - INFO - allennlp.common.util - transformer.led.encoder.layers.0.final_layer_norm.weight 2022-03-09 10:14:09,432 - INFO - allennlp.common.util - transformer.led.encoder.layers.0.final_layer_norm.bias 2022-03-09 10:14:09,432 - INFO - allennlp.common.util - transformer.led.encoder.layers.1.self_attn.longformer_self_attn.query.weight 2022-03-09 10:14:09,432 - INFO - allennlp.common.util - transformer.led.encoder.layers.1.self_attn.longformer_self_attn.query.bias 2022-03-09 10:14:09,432 - INFO - allennlp.common.util - transformer.led.encoder.layers.1.self_attn.longformer_self_attn.key.weight 2022-03-09 10:14:09,432 - INFO - allennlp.common.util - transformer.led.encoder.layers.1.self_attn.longformer_self_attn.key.bias 2022-03-09 10:14:09,432 - INFO - allennlp.common.util - transformer.led.encoder.layers.1.self_attn.longformer_self_attn.value.weight 2022-03-09 10:14:09,432 - INFO - allennlp.common.util - transformer.led.encoder.layers.1.self_attn.longformer_self_attn.value.bias 2022-03-09 10:14:09,432 - INFO - allennlp.common.util - transformer.led.encoder.layers.1.self_attn.longformer_self_attn.query_global.weight 2022-03-09 10:14:09,432 - INFO - allennlp.common.util - transformer.led.encoder.layers.1.self_attn.longformer_self_attn.query_global.bias 2022-03-09 10:14:09,432 - INFO - allennlp.common.util - transformer.led.encoder.layers.1.self_attn.longformer_self_attn.key_global.weight 2022-03-09 10:14:09,432 - INFO - allennlp.common.util - transformer.led.encoder.layers.1.self_attn.longformer_self_attn.key_global.bias 2022-03-09 10:14:09,432 - INFO - allennlp.common.util - transformer.led.encoder.layers.1.self_attn.longformer_self_attn.value_global.weight 2022-03-09 10:14:09,432 - INFO - allennlp.common.util - transformer.led.encoder.layers.1.self_attn.longformer_self_attn.value_global.bias 2022-03-09 10:14:09,432 - INFO - allennlp.common.util - transformer.led.encoder.layers.1.self_attn.output.weight 2022-03-09 10:14:09,432 - INFO - allennlp.common.util - transformer.led.encoder.layers.1.self_attn.output.bias 2022-03-09 10:14:09,432 - INFO - allennlp.common.util - transformer.led.encoder.layers.1.self_attn_layer_norm.weight 2022-03-09 10:14:09,432 - INFO - allennlp.common.util - transformer.led.encoder.layers.1.self_attn_layer_norm.bias 2022-03-09 10:14:09,432 - INFO - allennlp.common.util - transformer.led.encoder.layers.1.fc1.weight 2022-03-09 10:14:09,432 - INFO - allennlp.common.util - transformer.led.encoder.layers.1.fc1.bias 2022-03-09 10:14:09,432 - INFO - allennlp.common.util - transformer.led.encoder.layers.1.fc2.weight 2022-03-09 10:14:09,432 - INFO - allennlp.common.util - transformer.led.encoder.layers.1.fc2.bias 2022-03-09 10:14:09,432 - INFO - allennlp.common.util - transformer.led.encoder.layers.1.final_layer_norm.weight 2022-03-09 10:14:09,432 - INFO - allennlp.common.util - transformer.led.encoder.layers.1.final_layer_norm.bias 2022-03-09 10:14:09,432 - INFO - allennlp.common.util - transformer.led.encoder.layers.2.self_attn.longformer_self_attn.query.weight 2022-03-09 10:14:09,432 - INFO - allennlp.common.util - transformer.led.encoder.layers.2.self_attn.longformer_self_attn.query.bias 2022-03-09 10:14:09,433 - INFO - allennlp.common.util - transformer.led.encoder.layers.2.self_attn.longformer_self_attn.key.weight 2022-03-09 10:14:09,433 - INFO - allennlp.common.util - transformer.led.encoder.layers.2.self_attn.longformer_self_attn.key.bias 2022-03-09 10:14:09,433 - INFO - allennlp.common.util - transformer.led.encoder.layers.2.self_attn.longformer_self_attn.value.weight 2022-03-09 10:14:09,433 - INFO - allennlp.common.util - transformer.led.encoder.layers.2.self_attn.longformer_self_attn.value.bias 2022-03-09 10:14:09,433 - INFO - allennlp.common.util - transformer.led.encoder.layers.2.self_attn.longformer_self_attn.query_global.weight 2022-03-09 10:14:09,433 - INFO - allennlp.common.util - transformer.led.encoder.layers.2.self_attn.longformer_self_attn.query_global.bias 2022-03-09 10:14:09,433 - INFO - allennlp.common.util - transformer.led.encoder.layers.2.self_attn.longformer_self_attn.key_global.weight 2022-03-09 10:14:09,433 - INFO - allennlp.common.util - transformer.led.encoder.layers.2.self_attn.longformer_self_attn.key_global.bias 2022-03-09 10:14:09,433 - INFO - allennlp.common.util - transformer.led.encoder.layers.2.self_attn.longformer_self_attn.value_global.weight 2022-03-09 10:14:09,433 - INFO - allennlp.common.util - transformer.led.encoder.layers.2.self_attn.longformer_self_attn.value_global.bias 2022-03-09 10:14:09,433 - INFO - allennlp.common.util - transformer.led.encoder.layers.2.self_attn.output.weight 2022-03-09 10:14:09,433 - INFO - allennlp.common.util - transformer.led.encoder.layers.2.self_attn.output.bias 2022-03-09 10:14:09,433 - INFO - allennlp.common.util - transformer.led.encoder.layers.2.self_attn_layer_norm.weight 2022-03-09 10:14:09,433 - INFO - allennlp.common.util - transformer.led.encoder.layers.2.self_attn_layer_norm.bias 2022-03-09 10:14:09,433 - INFO - allennlp.common.util - transformer.led.encoder.layers.2.fc1.weight 2022-03-09 10:14:09,433 - INFO - allennlp.common.util - transformer.led.encoder.layers.2.fc1.bias 2022-03-09 10:14:09,433 - INFO - allennlp.common.util - transformer.led.encoder.layers.2.fc2.weight 2022-03-09 10:14:09,433 - INFO - allennlp.common.util - transformer.led.encoder.layers.2.fc2.bias 2022-03-09 10:14:09,433 - INFO - allennlp.common.util - transformer.led.encoder.layers.2.final_layer_norm.weight 2022-03-09 10:14:09,433 - INFO - allennlp.common.util - transformer.led.encoder.layers.2.final_layer_norm.bias 2022-03-09 10:14:09,433 - INFO - allennlp.common.util - transformer.led.encoder.layers.3.self_attn.longformer_self_attn.query.weight 2022-03-09 10:14:09,433 - INFO - allennlp.common.util - transformer.led.encoder.layers.3.self_attn.longformer_self_attn.query.bias 2022-03-09 10:14:09,433 - INFO - allennlp.common.util - transformer.led.encoder.layers.3.self_attn.longformer_self_attn.key.weight 2022-03-09 10:14:09,433 - INFO - allennlp.common.util - transformer.led.encoder.layers.3.self_attn.longformer_self_attn.key.bias 2022-03-09 10:14:09,433 - INFO - allennlp.common.util - transformer.led.encoder.layers.3.self_attn.longformer_self_attn.value.weight 2022-03-09 10:14:09,433 - INFO - allennlp.common.util - transformer.led.encoder.layers.3.self_attn.longformer_self_attn.value.bias 2022-03-09 10:14:09,433 - INFO - allennlp.common.util - transformer.led.encoder.layers.3.self_attn.longformer_self_attn.query_global.weight 2022-03-09 10:14:09,433 - INFO - allennlp.common.util - transformer.led.encoder.layers.3.self_attn.longformer_self_attn.query_global.bias 2022-03-09 10:14:09,433 - INFO - allennlp.common.util - transformer.led.encoder.layers.3.self_attn.longformer_self_attn.key_global.weight 2022-03-09 10:14:09,434 - INFO - allennlp.common.util - transformer.led.encoder.layers.3.self_attn.longformer_self_attn.key_global.bias 2022-03-09 10:14:09,434 - INFO - allennlp.common.util - transformer.led.encoder.layers.3.self_attn.longformer_self_attn.value_global.weight 2022-03-09 10:14:09,434 - INFO - allennlp.common.util - transformer.led.encoder.layers.3.self_attn.longformer_self_attn.value_global.bias 2022-03-09 10:14:09,434 - INFO - allennlp.common.util - transformer.led.encoder.layers.3.self_attn.output.weight 2022-03-09 10:14:09,434 - INFO - allennlp.common.util - transformer.led.encoder.layers.3.self_attn.output.bias 2022-03-09 10:14:09,434 - INFO - allennlp.common.util - transformer.led.encoder.layers.3.self_attn_layer_norm.weight 2022-03-09 10:14:09,434 - INFO - allennlp.common.util - transformer.led.encoder.layers.3.self_attn_layer_norm.bias 2022-03-09 10:14:09,434 - INFO - allennlp.common.util - transformer.led.encoder.layers.3.fc1.weight 2022-03-09 10:14:09,434 - INFO - allennlp.common.util - transformer.led.encoder.layers.3.fc1.bias 2022-03-09 10:14:09,434 - INFO - allennlp.common.util - transformer.led.encoder.layers.3.fc2.weight 2022-03-09 10:14:09,434 - INFO - allennlp.common.util - transformer.led.encoder.layers.3.fc2.bias 2022-03-09 10:14:09,434 - INFO - allennlp.common.util - transformer.led.encoder.layers.3.final_layer_norm.weight 2022-03-09 10:14:09,434 - INFO - allennlp.common.util - transformer.led.encoder.layers.3.final_layer_norm.bias 2022-03-09 10:14:09,434 - INFO - allennlp.common.util - transformer.led.encoder.layers.4.self_attn.longformer_self_attn.query.weight 2022-03-09 10:14:09,434 - INFO - allennlp.common.util - transformer.led.encoder.layers.4.self_attn.longformer_self_attn.query.bias 2022-03-09 10:14:09,434 - INFO - allennlp.common.util - transformer.led.encoder.layers.4.self_attn.longformer_self_attn.key.weight 2022-03-09 10:14:09,434 - INFO - allennlp.common.util - transformer.led.encoder.layers.4.self_attn.longformer_self_attn.key.bias 2022-03-09 10:14:09,434 - INFO - allennlp.common.util - transformer.led.encoder.layers.4.self_attn.longformer_self_attn.value.weight 2022-03-09 10:14:09,434 - INFO - allennlp.common.util - transformer.led.encoder.layers.4.self_attn.longformer_self_attn.value.bias 2022-03-09 10:14:09,434 - INFO - allennlp.common.util - transformer.led.encoder.layers.4.self_attn.longformer_self_attn.query_global.weight 2022-03-09 10:14:09,434 - INFO - allennlp.common.util - transformer.led.encoder.layers.4.self_attn.longformer_self_attn.query_global.bias 2022-03-09 10:14:09,434 - INFO - allennlp.common.util - transformer.led.encoder.layers.4.self_attn.longformer_self_attn.key_global.weight 2022-03-09 10:14:09,434 - INFO - allennlp.common.util - transformer.led.encoder.layers.4.self_attn.longformer_self_attn.key_global.bias 2022-03-09 10:14:09,434 - INFO - allennlp.common.util - transformer.led.encoder.layers.4.self_attn.longformer_self_attn.value_global.weight 2022-03-09 10:14:09,434 - INFO - allennlp.common.util - transformer.led.encoder.layers.4.self_attn.longformer_self_attn.value_global.bias 2022-03-09 10:14:09,434 - INFO - allennlp.common.util - transformer.led.encoder.layers.4.self_attn.output.weight 2022-03-09 10:14:09,434 - INFO - allennlp.common.util - transformer.led.encoder.layers.4.self_attn.output.bias 2022-03-09 10:14:09,434 - INFO - allennlp.common.util - transformer.led.encoder.layers.4.self_attn_layer_norm.weight 2022-03-09 10:14:09,434 - INFO - allennlp.common.util - transformer.led.encoder.layers.4.self_attn_layer_norm.bias 2022-03-09 10:14:09,434 - INFO - allennlp.common.util - transformer.led.encoder.layers.4.fc1.weight 2022-03-09 10:14:09,434 - INFO - allennlp.common.util - transformer.led.encoder.layers.4.fc1.bias 2022-03-09 10:14:09,435 - INFO - allennlp.common.util - transformer.led.encoder.layers.4.fc2.weight 2022-03-09 10:14:09,435 - INFO - allennlp.common.util - transformer.led.encoder.layers.4.fc2.bias 2022-03-09 10:14:09,435 - INFO - allennlp.common.util - transformer.led.encoder.layers.4.final_layer_norm.weight 2022-03-09 10:14:09,435 - INFO - allennlp.common.util - transformer.led.encoder.layers.4.final_layer_norm.bias 2022-03-09 10:14:09,435 - INFO - allennlp.common.util - transformer.led.encoder.layers.5.self_attn.longformer_self_attn.query.weight 2022-03-09 10:14:09,435 - INFO - allennlp.common.util - transformer.led.encoder.layers.5.self_attn.longformer_self_attn.query.bias 2022-03-09 10:14:09,435 - INFO - allennlp.common.util - transformer.led.encoder.layers.5.self_attn.longformer_self_attn.key.weight 2022-03-09 10:14:09,435 - INFO - allennlp.common.util - transformer.led.encoder.layers.5.self_attn.longformer_self_attn.key.bias 2022-03-09 10:14:09,435 - INFO - allennlp.common.util - transformer.led.encoder.layers.5.self_attn.longformer_self_attn.value.weight 2022-03-09 10:14:09,435 - INFO - allennlp.common.util - transformer.led.encoder.layers.5.self_attn.longformer_self_attn.value.bias 2022-03-09 10:14:09,435 - INFO - allennlp.common.util - transformer.led.encoder.layers.5.self_attn.longformer_self_attn.query_global.weight 2022-03-09 10:14:09,435 - INFO - allennlp.common.util - transformer.led.encoder.layers.5.self_attn.longformer_self_attn.query_global.bias 2022-03-09 10:14:09,435 - INFO - allennlp.common.util - transformer.led.encoder.layers.5.self_attn.longformer_self_attn.key_global.weight 2022-03-09 10:14:09,435 - INFO - allennlp.common.util - transformer.led.encoder.layers.5.self_attn.longformer_self_attn.key_global.bias 2022-03-09 10:14:09,435 - INFO - allennlp.common.util - transformer.led.encoder.layers.5.self_attn.longformer_self_attn.value_global.weight 2022-03-09 10:14:09,435 - INFO - allennlp.common.util - transformer.led.encoder.layers.5.self_attn.longformer_self_attn.value_global.bias 2022-03-09 10:14:09,435 - INFO - allennlp.common.util - transformer.led.encoder.layers.5.self_attn.output.weight 2022-03-09 10:14:09,435 - INFO - allennlp.common.util - transformer.led.encoder.layers.5.self_attn.output.bias 2022-03-09 10:14:09,435 - INFO - allennlp.common.util - transformer.led.encoder.layers.5.self_attn_layer_norm.weight 2022-03-09 10:14:09,435 - INFO - allennlp.common.util - transformer.led.encoder.layers.5.self_attn_layer_norm.bias 2022-03-09 10:14:09,435 - INFO - allennlp.common.util - transformer.led.encoder.layers.5.fc1.weight 2022-03-09 10:14:09,435 - INFO - allennlp.common.util - transformer.led.encoder.layers.5.fc1.bias 2022-03-09 10:14:09,435 - INFO - allennlp.common.util - transformer.led.encoder.layers.5.fc2.weight 2022-03-09 10:14:09,435 - INFO - allennlp.common.util - transformer.led.encoder.layers.5.fc2.bias 2022-03-09 10:14:09,435 - INFO - allennlp.common.util - transformer.led.encoder.layers.5.final_layer_norm.weight 2022-03-09 10:14:09,435 - INFO - allennlp.common.util - transformer.led.encoder.layers.5.final_layer_norm.bias 2022-03-09 10:14:09,435 - INFO - allennlp.common.util - transformer.led.encoder.layernorm_embedding.weight 2022-03-09 10:14:09,435 - INFO - allennlp.common.util - transformer.led.encoder.layernorm_embedding.bias 2022-03-09 10:14:09,435 - INFO - allennlp.common.util - transformer.led.decoder.embed_positions.weight 2022-03-09 10:14:09,435 - INFO - allennlp.common.util - transformer.led.decoder.layers.0.self_attn.k_proj.weight 2022-03-09 10:14:09,435 - INFO - allennlp.common.util - transformer.led.decoder.layers.0.self_attn.k_proj.bias 2022-03-09 10:14:09,436 - INFO - allennlp.common.util - transformer.led.decoder.layers.0.self_attn.v_proj.weight 2022-03-09 10:14:09,436 - INFO - allennlp.common.util - transformer.led.decoder.layers.0.self_attn.v_proj.bias 2022-03-09 10:14:09,436 - INFO - allennlp.common.util - transformer.led.decoder.layers.0.self_attn.q_proj.weight 2022-03-09 10:14:09,436 - INFO - allennlp.common.util - transformer.led.decoder.layers.0.self_attn.q_proj.bias 2022-03-09 10:14:09,436 - INFO - allennlp.common.util - transformer.led.decoder.layers.0.self_attn.out_proj.weight 2022-03-09 10:14:09,436 - INFO - allennlp.common.util - transformer.led.decoder.layers.0.self_attn.out_proj.bias 2022-03-09 10:14:09,436 - INFO - allennlp.common.util - transformer.led.decoder.layers.0.self_attn_layer_norm.weight 2022-03-09 10:14:09,436 - INFO - allennlp.common.util - transformer.led.decoder.layers.0.self_attn_layer_norm.bias 2022-03-09 10:14:09,436 - INFO - allennlp.common.util - transformer.led.decoder.layers.0.encoder_attn.k_proj.weight 2022-03-09 10:14:09,436 - INFO - allennlp.common.util - transformer.led.decoder.layers.0.encoder_attn.k_proj.bias 2022-03-09 10:14:09,436 - INFO - allennlp.common.util - transformer.led.decoder.layers.0.encoder_attn.v_proj.weight 2022-03-09 10:14:09,436 - INFO - allennlp.common.util - transformer.led.decoder.layers.0.encoder_attn.v_proj.bias 2022-03-09 10:14:09,436 - INFO - allennlp.common.util - transformer.led.decoder.layers.0.encoder_attn.q_proj.weight 2022-03-09 10:14:09,436 - INFO - allennlp.common.util - transformer.led.decoder.layers.0.encoder_attn.q_proj.bias 2022-03-09 10:14:09,436 - INFO - allennlp.common.util - transformer.led.decoder.layers.0.encoder_attn.out_proj.weight 2022-03-09 10:14:09,436 - INFO - allennlp.common.util - transformer.led.decoder.layers.0.encoder_attn.out_proj.bias 2022-03-09 10:14:09,436 - INFO - allennlp.common.util - transformer.led.decoder.layers.0.encoder_attn_layer_norm.weight 2022-03-09 10:14:09,436 - INFO - allennlp.common.util - transformer.led.decoder.layers.0.encoder_attn_layer_norm.bias 2022-03-09 10:14:09,436 - INFO - allennlp.common.util - transformer.led.decoder.layers.0.fc1.weight 2022-03-09 10:14:09,436 - INFO - allennlp.common.util - transformer.led.decoder.layers.0.fc1.bias 2022-03-09 10:14:09,436 - INFO - allennlp.common.util - transformer.led.decoder.layers.0.fc2.weight 2022-03-09 10:14:09,436 - INFO - allennlp.common.util - transformer.led.decoder.layers.0.fc2.bias 2022-03-09 10:14:09,436 - INFO - allennlp.common.util - transformer.led.decoder.layers.0.final_layer_norm.weight 2022-03-09 10:14:09,436 - INFO - allennlp.common.util - transformer.led.decoder.layers.0.final_layer_norm.bias 2022-03-09 10:14:09,436 - INFO - allennlp.common.util - transformer.led.decoder.layers.1.self_attn.k_proj.weight 2022-03-09 10:14:09,436 - INFO - allennlp.common.util - transformer.led.decoder.layers.1.self_attn.k_proj.bias 2022-03-09 10:14:09,436 - INFO - allennlp.common.util - transformer.led.decoder.layers.1.self_attn.v_proj.weight 2022-03-09 10:14:09,436 - INFO - allennlp.common.util - transformer.led.decoder.layers.1.self_attn.v_proj.bias 2022-03-09 10:14:09,436 - INFO - allennlp.common.util - transformer.led.decoder.layers.1.self_attn.q_proj.weight 2022-03-09 10:14:09,436 - INFO - allennlp.common.util - transformer.led.decoder.layers.1.self_attn.q_proj.bias 2022-03-09 10:14:09,436 - INFO - allennlp.common.util - transformer.led.decoder.layers.1.self_attn.out_proj.weight 2022-03-09 10:14:09,436 - INFO - allennlp.common.util - transformer.led.decoder.layers.1.self_attn.out_proj.bias 2022-03-09 10:14:09,437 - INFO - allennlp.common.util - transformer.led.decoder.layers.1.self_attn_layer_norm.weight 2022-03-09 10:14:09,437 - INFO - allennlp.common.util - transformer.led.decoder.layers.1.self_attn_layer_norm.bias 2022-03-09 10:14:09,437 - INFO - allennlp.common.util - transformer.led.decoder.layers.1.encoder_attn.k_proj.weight 2022-03-09 10:14:09,437 - INFO - allennlp.common.util - transformer.led.decoder.layers.1.encoder_attn.k_proj.bias 2022-03-09 10:14:09,437 - INFO - allennlp.common.util - transformer.led.decoder.layers.1.encoder_attn.v_proj.weight 2022-03-09 10:14:09,437 - INFO - allennlp.common.util - transformer.led.decoder.layers.1.encoder_attn.v_proj.bias 2022-03-09 10:14:09,437 - INFO - allennlp.common.util - transformer.led.decoder.layers.1.encoder_attn.q_proj.weight 2022-03-09 10:14:09,437 - INFO - allennlp.common.util - transformer.led.decoder.layers.1.encoder_attn.q_proj.bias 2022-03-09 10:14:09,437 - INFO - allennlp.common.util - transformer.led.decoder.layers.1.encoder_attn.out_proj.weight 2022-03-09 10:14:09,437 - INFO - allennlp.common.util - transformer.led.decoder.layers.1.encoder_attn.out_proj.bias 2022-03-09 10:14:09,437 - INFO - allennlp.common.util - transformer.led.decoder.layers.1.encoder_attn_layer_norm.weight 2022-03-09 10:14:09,437 - INFO - allennlp.common.util - transformer.led.decoder.layers.1.encoder_attn_layer_norm.bias 2022-03-09 10:14:09,437 - INFO - allennlp.common.util - transformer.led.decoder.layers.1.fc1.weight 2022-03-09 10:14:09,437 - INFO - allennlp.common.util - transformer.led.decoder.layers.1.fc1.bias 2022-03-09 10:14:09,437 - INFO - allennlp.common.util - transformer.led.decoder.layers.1.fc2.weight 2022-03-09 10:14:09,437 - INFO - allennlp.common.util - transformer.led.decoder.layers.1.fc2.bias 2022-03-09 10:14:09,437 - INFO - allennlp.common.util - transformer.led.decoder.layers.1.final_layer_norm.weight 2022-03-09 10:14:09,437 - INFO - allennlp.common.util - transformer.led.decoder.layers.1.final_layer_norm.bias 2022-03-09 10:14:09,437 - INFO - allennlp.common.util - transformer.led.decoder.layers.2.self_attn.k_proj.weight 2022-03-09 10:14:09,437 - INFO - allennlp.common.util - transformer.led.decoder.layers.2.self_attn.k_proj.bias 2022-03-09 10:14:09,437 - INFO - allennlp.common.util - transformer.led.decoder.layers.2.self_attn.v_proj.weight 2022-03-09 10:14:09,437 - INFO - allennlp.common.util - transformer.led.decoder.layers.2.self_attn.v_proj.bias 2022-03-09 10:14:09,437 - INFO - allennlp.common.util - transformer.led.decoder.layers.2.self_attn.q_proj.weight 2022-03-09 10:14:09,437 - INFO - allennlp.common.util - transformer.led.decoder.layers.2.self_attn.q_proj.bias 2022-03-09 10:14:09,437 - INFO - allennlp.common.util - transformer.led.decoder.layers.2.self_attn.out_proj.weight 2022-03-09 10:14:09,437 - INFO - allennlp.common.util - transformer.led.decoder.layers.2.self_attn.out_proj.bias 2022-03-09 10:14:09,437 - INFO - allennlp.common.util - transformer.led.decoder.layers.2.self_attn_layer_norm.weight 2022-03-09 10:14:09,437 - INFO - allennlp.common.util - transformer.led.decoder.layers.2.self_attn_layer_norm.bias 2022-03-09 10:14:09,437 - INFO - allennlp.common.util - transformer.led.decoder.layers.2.encoder_attn.k_proj.weight 2022-03-09 10:14:09,437 - INFO - allennlp.common.util - transformer.led.decoder.layers.2.encoder_attn.k_proj.bias 2022-03-09 10:14:09,437 - INFO - allennlp.common.util - transformer.led.decoder.layers.2.encoder_attn.v_proj.weight 2022-03-09 10:14:09,437 - INFO - allennlp.common.util - transformer.led.decoder.layers.2.encoder_attn.v_proj.bias 2022-03-09 10:14:09,437 - INFO - allennlp.common.util - transformer.led.decoder.layers.2.encoder_attn.q_proj.weight 2022-03-09 10:14:09,438 - INFO - allennlp.common.util - transformer.led.decoder.layers.2.encoder_attn.q_proj.bias 2022-03-09 10:14:09,438 - INFO - allennlp.common.util - transformer.led.decoder.layers.2.encoder_attn.out_proj.weight 2022-03-09 10:14:09,438 - INFO - allennlp.common.util - transformer.led.decoder.layers.2.encoder_attn.out_proj.bias 2022-03-09 10:14:09,438 - INFO - allennlp.common.util - transformer.led.decoder.layers.2.encoder_attn_layer_norm.weight 2022-03-09 10:14:09,438 - INFO - allennlp.common.util - transformer.led.decoder.layers.2.encoder_attn_layer_norm.bias 2022-03-09 10:14:09,438 - INFO - allennlp.common.util - transformer.led.decoder.layers.2.fc1.weight 2022-03-09 10:14:09,438 - INFO - allennlp.common.util - transformer.led.decoder.layers.2.fc1.bias 2022-03-09 10:14:09,438 - INFO - allennlp.common.util - transformer.led.decoder.layers.2.fc2.weight 2022-03-09 10:14:09,438 - INFO - allennlp.common.util - transformer.led.decoder.layers.2.fc2.bias 2022-03-09 10:14:09,438 - INFO - allennlp.common.util - transformer.led.decoder.layers.2.final_layer_norm.weight 2022-03-09 10:14:09,438 - INFO - allennlp.common.util - transformer.led.decoder.layers.2.final_layer_norm.bias 2022-03-09 10:14:09,438 - INFO - allennlp.common.util - transformer.led.decoder.layers.3.self_attn.k_proj.weight 2022-03-09 10:14:09,438 - INFO - allennlp.common.util - transformer.led.decoder.layers.3.self_attn.k_proj.bias 2022-03-09 10:14:09,438 - INFO - allennlp.common.util - transformer.led.decoder.layers.3.self_attn.v_proj.weight 2022-03-09 10:14:09,438 - INFO - allennlp.common.util - transformer.led.decoder.layers.3.self_attn.v_proj.bias 2022-03-09 10:14:09,438 - INFO - allennlp.common.util - transformer.led.decoder.layers.3.self_attn.q_proj.weight 2022-03-09 10:14:09,438 - INFO - allennlp.common.util - transformer.led.decoder.layers.3.self_attn.q_proj.bias 2022-03-09 10:14:09,438 - INFO - allennlp.common.util - transformer.led.decoder.layers.3.self_attn.out_proj.weight 2022-03-09 10:14:09,438 - INFO - allennlp.common.util - transformer.led.decoder.layers.3.self_attn.out_proj.bias 2022-03-09 10:14:09,438 - INFO - allennlp.common.util - transformer.led.decoder.layers.3.self_attn_layer_norm.weight 2022-03-09 10:14:09,438 - INFO - allennlp.common.util - transformer.led.decoder.layers.3.self_attn_layer_norm.bias 2022-03-09 10:14:09,438 - INFO - allennlp.common.util - transformer.led.decoder.layers.3.encoder_attn.k_proj.weight 2022-03-09 10:14:09,438 - INFO - allennlp.common.util - transformer.led.decoder.layers.3.encoder_attn.k_proj.bias 2022-03-09 10:14:09,438 - INFO - allennlp.common.util - transformer.led.decoder.layers.3.encoder_attn.v_proj.weight 2022-03-09 10:14:09,438 - INFO - allennlp.common.util - transformer.led.decoder.layers.3.encoder_attn.v_proj.bias 2022-03-09 10:14:09,438 - INFO - allennlp.common.util - transformer.led.decoder.layers.3.encoder_attn.q_proj.weight 2022-03-09 10:14:09,438 - INFO - allennlp.common.util - transformer.led.decoder.layers.3.encoder_attn.q_proj.bias 2022-03-09 10:14:09,438 - INFO - allennlp.common.util - transformer.led.decoder.layers.3.encoder_attn.out_proj.weight 2022-03-09 10:14:09,438 - INFO - allennlp.common.util - transformer.led.decoder.layers.3.encoder_attn.out_proj.bias 2022-03-09 10:14:09,439 - INFO - allennlp.common.util - transformer.led.decoder.layers.3.encoder_attn_layer_norm.weight 2022-03-09 10:14:09,439 - INFO - allennlp.common.util - transformer.led.decoder.layers.3.encoder_attn_layer_norm.bias 2022-03-09 10:14:09,439 - INFO - allennlp.common.util - transformer.led.decoder.layers.3.fc1.weight 2022-03-09 10:14:09,439 - INFO - allennlp.common.util - transformer.led.decoder.layers.3.fc1.bias 2022-03-09 10:14:09,439 - INFO - allennlp.common.util - transformer.led.decoder.layers.3.fc2.weight 2022-03-09 10:14:09,439 - INFO - allennlp.common.util - transformer.led.decoder.layers.3.fc2.bias 2022-03-09 10:14:09,439 - INFO - allennlp.common.util - transformer.led.decoder.layers.3.final_layer_norm.weight 2022-03-09 10:14:09,439 - INFO - allennlp.common.util - transformer.led.decoder.layers.3.final_layer_norm.bias 2022-03-09 10:14:09,439 - INFO - allennlp.common.util - transformer.led.decoder.layers.4.self_attn.k_proj.weight 2022-03-09 10:14:09,439 - INFO - allennlp.common.util - transformer.led.decoder.layers.4.self_attn.k_proj.bias 2022-03-09 10:14:09,439 - INFO - allennlp.common.util - transformer.led.decoder.layers.4.self_attn.v_proj.weight 2022-03-09 10:14:09,439 - INFO - allennlp.common.util - transformer.led.decoder.layers.4.self_attn.v_proj.bias 2022-03-09 10:14:09,439 - INFO - allennlp.common.util - transformer.led.decoder.layers.4.self_attn.q_proj.weight 2022-03-09 10:14:09,439 - INFO - allennlp.common.util - transformer.led.decoder.layers.4.self_attn.q_proj.bias 2022-03-09 10:14:09,439 - INFO - allennlp.common.util - transformer.led.decoder.layers.4.self_attn.out_proj.weight 2022-03-09 10:14:09,439 - INFO - allennlp.common.util - transformer.led.decoder.layers.4.self_attn.out_proj.bias 2022-03-09 10:14:09,439 - INFO - allennlp.common.util - transformer.led.decoder.layers.4.self_attn_layer_norm.weight 2022-03-09 10:14:09,439 - INFO - allennlp.common.util - transformer.led.decoder.layers.4.self_attn_layer_norm.bias 2022-03-09 10:14:09,439 - INFO - allennlp.common.util - transformer.led.decoder.layers.4.encoder_attn.k_proj.weight 2022-03-09 10:14:09,439 - INFO - allennlp.common.util - transformer.led.decoder.layers.4.encoder_attn.k_proj.bias 2022-03-09 10:14:09,439 - INFO - allennlp.common.util - transformer.led.decoder.layers.4.encoder_attn.v_proj.weight 2022-03-09 10:14:09,439 - INFO - allennlp.common.util - transformer.led.decoder.layers.4.encoder_attn.v_proj.bias 2022-03-09 10:14:09,439 - INFO - allennlp.common.util - transformer.led.decoder.layers.4.encoder_attn.q_proj.weight 2022-03-09 10:14:09,439 - INFO - allennlp.common.util - transformer.led.decoder.layers.4.encoder_attn.q_proj.bias 2022-03-09 10:14:09,439 - INFO - allennlp.common.util - transformer.led.decoder.layers.4.encoder_attn.out_proj.weight 2022-03-09 10:14:09,439 - INFO - allennlp.common.util - transformer.led.decoder.layers.4.encoder_attn.out_proj.bias 2022-03-09 10:14:09,439 - INFO - allennlp.common.util - transformer.led.decoder.layers.4.encoder_attn_layer_norm.weight 2022-03-09 10:14:09,439 - INFO - allennlp.common.util - transformer.led.decoder.layers.4.encoder_attn_layer_norm.bias 2022-03-09 10:14:09,440 - INFO - allennlp.common.util - transformer.led.decoder.layers.4.fc1.weight 2022-03-09 10:14:09,440 - INFO - allennlp.common.util - transformer.led.decoder.layers.4.fc1.bias 2022-03-09 10:14:09,440 - INFO - allennlp.common.util - transformer.led.decoder.layers.4.fc2.weight 2022-03-09 10:14:09,440 - INFO - allennlp.common.util - transformer.led.decoder.layers.4.fc2.bias 2022-03-09 10:14:09,440 - INFO - allennlp.common.util - transformer.led.decoder.layers.4.final_layer_norm.weight 2022-03-09 10:14:09,440 - INFO - allennlp.common.util - transformer.led.decoder.layers.4.final_layer_norm.bias 2022-03-09 10:14:09,440 - INFO - allennlp.common.util - transformer.led.decoder.layers.5.self_attn.k_proj.weight 2022-03-09 10:14:09,440 - INFO - allennlp.common.util - transformer.led.decoder.layers.5.self_attn.k_proj.bias 2022-03-09 10:14:09,440 - INFO - allennlp.common.util - transformer.led.decoder.layers.5.self_attn.v_proj.weight 2022-03-09 10:14:09,440 - INFO - allennlp.common.util - transformer.led.decoder.layers.5.self_attn.v_proj.bias 2022-03-09 10:14:09,440 - INFO - allennlp.common.util - transformer.led.decoder.layers.5.self_attn.q_proj.weight 2022-03-09 10:14:09,440 - INFO - allennlp.common.util - transformer.led.decoder.layers.5.self_attn.q_proj.bias 2022-03-09 10:14:09,440 - INFO - allennlp.common.util - transformer.led.decoder.layers.5.self_attn.out_proj.weight 2022-03-09 10:14:09,440 - INFO - allennlp.common.util - transformer.led.decoder.layers.5.self_attn.out_proj.bias 2022-03-09 10:14:09,440 - INFO - allennlp.common.util - transformer.led.decoder.layers.5.self_attn_layer_norm.weight 2022-03-09 10:14:09,440 - INFO - allennlp.common.util - transformer.led.decoder.layers.5.self_attn_layer_norm.bias 2022-03-09 10:14:09,440 - INFO - allennlp.common.util - transformer.led.decoder.layers.5.encoder_attn.k_proj.weight 2022-03-09 10:14:09,440 - INFO - allennlp.common.util - transformer.led.decoder.layers.5.encoder_attn.k_proj.bias 2022-03-09 10:14:09,440 - INFO - allennlp.common.util - transformer.led.decoder.layers.5.encoder_attn.v_proj.weight 2022-03-09 10:14:09,440 - INFO - allennlp.common.util - transformer.led.decoder.layers.5.encoder_attn.v_proj.bias 2022-03-09 10:14:09,440 - INFO - allennlp.common.util - transformer.led.decoder.layers.5.encoder_attn.q_proj.weight 2022-03-09 10:14:09,440 - INFO - allennlp.common.util - transformer.led.decoder.layers.5.encoder_attn.q_proj.bias 2022-03-09 10:14:09,440 - INFO - allennlp.common.util - transformer.led.decoder.layers.5.encoder_attn.out_proj.weight 2022-03-09 10:14:09,440 - INFO - allennlp.common.util - transformer.led.decoder.layers.5.encoder_attn.out_proj.bias 2022-03-09 10:14:09,440 - INFO - allennlp.common.util - transformer.led.decoder.layers.5.encoder_attn_layer_norm.weight 2022-03-09 10:14:09,440 - INFO - allennlp.common.util - transformer.led.decoder.layers.5.encoder_attn_layer_norm.bias 2022-03-09 10:14:09,440 - INFO - allennlp.common.util - transformer.led.decoder.layers.5.fc1.weight 2022-03-09 10:14:09,440 - INFO - allennlp.common.util - transformer.led.decoder.layers.5.fc1.bias 2022-03-09 10:14:09,441 - INFO - allennlp.common.util - transformer.led.decoder.layers.5.fc2.weight 2022-03-09 10:14:09,441 - INFO - allennlp.common.util - transformer.led.decoder.layers.5.fc2.bias 2022-03-09 10:14:09,441 - INFO - allennlp.common.util - transformer.led.decoder.layers.5.final_layer_norm.weight 2022-03-09 10:14:09,441 - INFO - allennlp.common.util - transformer.led.decoder.layers.5.final_layer_norm.bias 2022-03-09 10:14:09,441 - INFO - allennlp.common.util - transformer.led.decoder.layernorm_embedding.weight 2022-03-09 10:14:09,441 - INFO - allennlp.common.util - transformer.led.decoder.layernorm_embedding.bias 2022-03-09 10:14:09,441 - INFO - allennlp.common.util - evidence_feedforward.weight 2022-03-09 10:14:09,441 - INFO - allennlp.common.util - evidence_feedforward.bias 2022-03-09 10:14:09,441 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.type = slanted_triangular 2022-03-09 10:14:09,441 - WARNING - allennlp.common.from_params - Parameter num_epochs for class SlantedTriangular was found in both **extras and in params. Using the specification found in params, but you probably put a key in a config file that you didn't need, and if it is different from what we get from **extras, you might get unexpected behavior. 2022-03-09 10:14:09,441 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.num_epochs = 10 2022-03-09 10:14:09,441 - WARNING - allennlp.common.from_params - Parameter num_steps_per_epoch for class SlantedTriangular was found in both **extras and in params. Using the specification found in params, but you probably put a key in a config file that you didn't need, and if it is different from what we get from **extras, you might get unexpected behavior. 2022-03-09 10:14:09,441 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.num_steps_per_epoch = 1336 2022-03-09 10:14:09,441 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.cut_frac = 0.1 2022-03-09 10:14:09,441 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.ratio = 32 2022-03-09 10:14:09,441 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.last_epoch = -1 2022-03-09 10:14:09,442 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.gradual_unfreezing = False 2022-03-09 10:14:09,442 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.discriminative_fine_tuning = False 2022-03-09 10:14:09,442 - INFO - allennlp.common.params - trainer.learning_rate_scheduler.decay_factor = 0.38 2022-03-09 10:14:09,442 - INFO - allennlp.common.params - type = default 2022-03-09 10:14:09,442 - INFO - allennlp.common.params - keep_serialized_model_every_num_seconds = None 2022-03-09 10:14:09,442 - INFO - allennlp.common.params - num_serialized_models_to_keep = 2 2022-03-09 10:14:09,442 - INFO - allennlp.common.params - model_save_interval = None 2022-03-09 10:14:09,442 - INFO - allennlp.common.params - trainer.callbacks.0.type = tensorboard 2022-03-09 10:14:09,442 - INFO - allennlp.common.params - trainer.callbacks.0.summary_interval = 100 2022-03-09 10:14:09,442 - INFO - allennlp.common.params - trainer.callbacks.0.distribution_interval = None 2022-03-09 10:14:09,442 - INFO - allennlp.common.params - trainer.callbacks.0.batch_size_interval = None 2022-03-09 10:14:09,442 - INFO - allennlp.common.params - trainer.callbacks.0.should_log_parameter_statistics = True 2022-03-09 10:14:09,443 - INFO - allennlp.common.params - trainer.callbacks.0.should_log_learning_rate = False 2022-03-09 10:14:09,445 - INFO - allennlp.training.trainer - Beginning training. 2022-03-09 10:14:09,445 - INFO - allennlp.training.trainer - Epoch 0/9 2022-03-09 10:14:09,445 - INFO - allennlp.training.trainer - Worker 0 memory usage: 5.6G 2022-03-09 10:14:09,445 - INFO - allennlp.training.trainer - GPU 0 memory usage: 618M 2022-03-09 10:14:09,446 - INFO - allennlp.training.trainer - Training 2022-03-09 10:14:09,446 - INFO - tqdm - 0%| | 0/1336 [00:00