Upload 15 files

Browse files

Files changed (15) hide show

README.md +52 -0
added_tokens.json +3 -0
all_results.json +8 -0
config.json +48 -0
model-00001-of-00002.safetensors +3 -0
model-00002-of-00002.safetensors +3 -0
model.safetensors.index.json +789 -0
predict_results.txt +101 -0
special_tokens_map.json +15 -0
spm.model +3 -0
tokenizer.json +0 -0
tokenizer_config.json +58 -0
train_results.json +8 -0
trainer_state.json +58 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,52 @@

+---
+license: mit
+base_model: microsoft/deberta-v2-xxlarge
+tags:
+- generated_from_trainer
+model-index:
+- name: results_deberta_medium
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# results_deberta_medium
+This model is a fine-tuned version of [microsoft/deberta-v2-xxlarge](https://huggingface.co/microsoft/deberta-v2-xxlarge) on an unknown dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 2e-05
+- train_batch_size: 4
+- eval_batch_size: 8
+- seed: 8446
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 11.0
+### Training results
+### Framework versions
+- Transformers 4.39.0.dev0
+- Pytorch 2.2.1+cu121
+- Datasets 2.18.0
+- Tokenizers 0.15.2

added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 11.0,
+    "train_loss": 0.703608925559304,
+    "train_runtime": 3543.902,
+    "train_samples": 799,
+    "train_samples_per_second": 2.48,
+    "train_steps_per_second": 0.621
+}

config.json ADDED Viewed

	@@ -0,0 +1,48 @@

+{
+  "_name_or_path": "microsoft/deberta-v2-xxlarge",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_head_size": 64,
+  "attention_probs_dropout_prob": 0.1,
+  "conv_act": "gelu",
+  "conv_kernel_size": 3,
+  "finetuning_task": "text-classification",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1536,
+  "id2label": {
+    "0": "0",
+    "1": "1"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 6144,
+  "label2id": {
+    "0": 0,
+    "1": 1
+  },
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 24,
+  "num_hidden_layers": 48,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 1536,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "problem_type": "single_label_classification",
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.39.0.dev0",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d6785ccc4de9b500fc1e8289afada5db949b2684d0faf95fd39342d8eaa9d0f6
+size 4999085984

model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3050c3daa052ce66c944cad932dd363a4fbb010fe2cdda53f8835ca7390bc737
+size 1268666408

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,789 @@

+{
+  "metadata": {
+    "total_size": 6267654152
+  },
+  "weight_map": {
+    "classifier.bias": "model-00002-of-00002.safetensors",
+    "classifier.weight": "model-00002-of-00002.safetensors",
+    "deberta.embeddings.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.embeddings.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.embeddings.word_embeddings.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.conv.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.conv.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.conv.conv.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.conv.conv.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.0.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.0.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.0.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.0.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.0.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.0.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.0.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.0.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.0.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.0.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.0.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.0.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.0.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.0.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.0.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.0.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.1.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.1.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.1.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.1.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.1.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.1.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.1.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.1.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.1.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.1.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.1.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.1.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.1.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.1.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.1.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.1.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.10.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.10.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.10.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.10.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.10.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.10.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.10.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.10.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.10.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.10.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.10.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.10.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.10.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.10.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.10.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.10.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.11.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.11.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.11.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.11.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.11.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.11.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.11.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.11.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.11.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.11.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.11.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.11.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.11.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.11.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.11.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.11.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.12.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.12.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.12.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.12.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.12.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.12.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.12.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.12.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.12.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.12.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.12.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.12.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.12.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.12.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.12.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.12.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.13.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.13.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.13.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.13.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.13.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.13.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.13.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.13.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.13.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.13.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.13.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.13.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.13.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.13.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.13.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.13.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.14.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.14.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.14.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.14.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.14.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.14.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.14.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.14.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.14.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.14.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.14.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.14.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.14.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.14.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.14.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.14.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.15.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.15.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.15.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.15.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.15.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.15.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.15.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.15.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.15.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.15.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.15.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.15.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.15.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.15.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.15.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.15.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.16.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.16.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.16.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.16.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.16.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.16.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.16.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.16.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.16.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.16.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.16.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.16.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.16.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.16.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.16.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.16.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.17.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.17.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.17.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.17.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.17.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.17.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.17.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.17.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.17.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.17.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.17.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.17.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.17.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.17.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.17.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.17.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.18.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.18.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.18.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.18.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.18.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.18.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.18.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.18.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.18.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.18.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.18.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.18.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.18.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.18.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.18.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.18.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.19.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.19.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.19.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.19.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.19.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.19.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.19.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.19.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.19.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.19.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.19.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.19.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.19.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.19.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.19.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.19.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.2.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.2.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.2.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.2.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.2.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.2.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.2.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.2.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.2.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.2.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.2.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.2.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.2.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.2.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.2.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.2.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.20.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.20.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.20.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.20.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.20.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.20.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.20.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.20.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.20.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.20.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.20.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.20.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.20.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.20.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.20.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.20.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.21.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.21.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.21.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.21.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.21.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.21.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.21.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.21.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.21.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.21.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.21.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.21.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.21.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.21.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.21.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.21.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.22.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.22.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.22.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.22.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.22.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.22.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.22.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.22.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.22.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.22.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.22.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.22.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.22.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.22.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.22.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.22.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.23.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.23.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.23.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.23.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.23.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.23.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.23.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.23.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.23.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.23.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.23.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.23.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.23.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.23.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.23.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.23.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.24.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.24.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.24.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.24.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.24.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.24.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.24.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.24.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.24.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.24.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.24.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.24.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.24.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.24.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.24.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.24.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.25.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.25.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.25.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.25.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.25.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.25.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.25.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.25.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.25.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.25.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.25.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.25.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.25.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.25.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.25.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.25.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.26.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.26.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.26.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.26.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.26.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.26.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.26.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.26.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.26.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.26.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.26.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.26.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.26.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.26.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.26.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.26.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.27.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.27.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.27.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.27.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.27.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.27.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.27.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.27.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.27.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.27.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.27.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.27.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.27.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.27.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.27.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.27.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.28.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.28.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.28.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.28.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.28.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.28.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.28.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.28.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.28.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.28.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.28.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.28.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.28.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.28.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.28.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.28.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.29.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.29.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.29.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.29.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.29.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.29.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.29.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.29.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.29.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.29.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.29.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.29.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.29.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.29.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.29.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.29.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.3.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.3.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.3.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.3.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.3.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.3.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.3.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.3.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.3.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.3.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.3.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.3.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.3.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.3.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.3.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.3.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.30.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.30.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.30.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.30.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.30.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.30.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.30.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.30.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.30.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.30.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.30.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.30.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.30.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.30.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.30.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.30.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.31.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.31.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.31.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.31.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.31.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.31.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.31.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.31.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.31.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.31.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.31.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.31.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.31.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.31.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.31.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.31.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.32.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.32.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.32.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.32.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.32.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.32.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.32.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.32.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.32.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.32.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.32.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.32.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.32.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.32.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.32.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.32.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.33.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.33.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.33.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.33.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.33.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.33.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.33.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.33.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.33.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.33.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.33.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.33.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.33.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.33.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.33.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.33.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.34.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.34.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.34.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.34.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.34.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.34.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.34.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.34.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.34.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.34.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.34.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.34.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.34.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.34.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.34.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.34.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.35.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.35.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.35.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.35.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.35.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.35.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.35.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.35.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.35.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.35.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.35.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.35.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.35.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.35.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.35.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.35.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.36.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.36.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.36.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.36.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.36.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.36.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.36.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.36.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.36.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.36.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.36.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.36.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.36.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.36.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.36.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.36.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.37.attention.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.37.attention.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.37.attention.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.37.attention.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.37.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.37.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.37.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.37.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.37.attention.self.value_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.37.attention.self.value_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.37.intermediate.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.37.intermediate.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.37.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.37.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.37.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.37.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.38.attention.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.38.attention.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.38.attention.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.38.attention.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.38.attention.self.key_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.38.attention.self.key_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.38.attention.self.query_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.38.attention.self.query_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.38.attention.self.value_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.38.attention.self.value_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.38.intermediate.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.38.intermediate.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.38.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.38.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.38.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.38.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.39.attention.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.39.attention.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.39.attention.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.39.attention.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.39.attention.self.key_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.39.attention.self.key_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.39.attention.self.query_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.39.attention.self.query_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.39.attention.self.value_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.39.attention.self.value_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.39.intermediate.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.39.intermediate.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.39.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.39.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.39.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.39.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.4.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.4.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.4.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.4.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.4.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.4.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.4.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.4.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.4.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.4.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.4.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.4.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.4.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.4.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.4.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.4.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.40.attention.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.40.attention.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.40.attention.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.40.attention.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.40.attention.self.key_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.40.attention.self.key_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.40.attention.self.query_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.40.attention.self.query_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.40.attention.self.value_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.40.attention.self.value_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.40.intermediate.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.40.intermediate.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.40.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.40.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.40.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.40.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.41.attention.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.41.attention.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.41.attention.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.41.attention.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.41.attention.self.key_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.41.attention.self.key_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.41.attention.self.query_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.41.attention.self.query_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.41.attention.self.value_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.41.attention.self.value_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.41.intermediate.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.41.intermediate.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.41.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.41.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.41.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.41.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.42.attention.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.42.attention.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.42.attention.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.42.attention.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.42.attention.self.key_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.42.attention.self.key_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.42.attention.self.query_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.42.attention.self.query_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.42.attention.self.value_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.42.attention.self.value_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.42.intermediate.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.42.intermediate.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.42.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.42.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.42.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.42.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.43.attention.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.43.attention.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.43.attention.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.43.attention.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.43.attention.self.key_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.43.attention.self.key_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.43.attention.self.query_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.43.attention.self.query_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.43.attention.self.value_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.43.attention.self.value_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.43.intermediate.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.43.intermediate.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.43.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.43.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.43.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.43.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.44.attention.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.44.attention.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.44.attention.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.44.attention.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.44.attention.self.key_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.44.attention.self.key_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.44.attention.self.query_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.44.attention.self.query_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.44.attention.self.value_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.44.attention.self.value_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.44.intermediate.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.44.intermediate.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.44.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.44.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.44.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.44.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.45.attention.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.45.attention.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.45.attention.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.45.attention.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.45.attention.self.key_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.45.attention.self.key_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.45.attention.self.query_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.45.attention.self.query_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.45.attention.self.value_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.45.attention.self.value_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.45.intermediate.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.45.intermediate.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.45.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.45.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.45.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.45.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.46.attention.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.46.attention.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.46.attention.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.46.attention.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.46.attention.self.key_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.46.attention.self.key_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.46.attention.self.query_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.46.attention.self.query_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.46.attention.self.value_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.46.attention.self.value_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.46.intermediate.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.46.intermediate.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.46.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.46.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.46.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.46.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.47.attention.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.47.attention.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.47.attention.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.47.attention.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.47.attention.self.key_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.47.attention.self.key_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.47.attention.self.query_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.47.attention.self.query_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.47.attention.self.value_proj.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.47.attention.self.value_proj.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.47.intermediate.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.47.intermediate.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.47.output.LayerNorm.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.47.output.LayerNorm.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.47.output.dense.bias": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.47.output.dense.weight": "model-00002-of-00002.safetensors",
+    "deberta.encoder.layer.5.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.5.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.5.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.5.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.5.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.5.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.5.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.5.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.5.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.5.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.5.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.5.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.5.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.5.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.5.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.5.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.6.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.6.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.6.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.6.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.6.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.6.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.6.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.6.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.6.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.6.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.6.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.6.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.6.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.6.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.6.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.6.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.7.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.7.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.7.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.7.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.7.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.7.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.7.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.7.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.7.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.7.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.7.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.7.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.7.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.7.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.7.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.7.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.8.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.8.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.8.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.8.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.8.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.8.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.8.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.8.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.8.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.8.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.8.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.8.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.8.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.8.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.8.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.8.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.9.attention.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.9.attention.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.9.attention.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.9.attention.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.9.attention.self.key_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.9.attention.self.key_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.9.attention.self.query_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.9.attention.self.query_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.9.attention.self.value_proj.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.9.attention.self.value_proj.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.9.intermediate.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.9.intermediate.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.9.output.LayerNorm.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.9.output.LayerNorm.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.9.output.dense.bias": "model-00001-of-00002.safetensors",
+    "deberta.encoder.layer.9.output.dense.weight": "model-00001-of-00002.safetensors",
+    "deberta.encoder.rel_embeddings.weight": "model-00002-of-00002.safetensors",
+    "pooler.dense.bias": "model-00002-of-00002.safetensors",
+    "pooler.dense.weight": "model-00002-of-00002.safetensors"
+  }
+}

predict_results.txt ADDED Viewed

	@@ -0,0 +1,101 @@

+index	prediction
+0	1
+1	1
+2	1
+3	1
+4	1
+5	1
+6	1
+7	1
+8	1
+9	1
+10	1
+11	1
+12	1
+13	1
+14	1
+15	1
+16	1
+17	1
+18	1
+19	1
+20	1
+21	1
+22	1
+23	1
+24	1
+25	1
+26	1
+27	1
+28	1
+29	1
+30	1
+31	1
+32	1
+33	1
+34	1
+35	1
+36	1
+37	1
+38	1
+39	1
+40	1
+41	1
+42	1
+43	1
+44	1
+45	1
+46	1
+47	1
+48	1
+49	1
+50	1
+51	1
+52	1
+53	1
+54	1
+55	1
+56	1
+57	1
+58	1
+59	1
+60	1
+61	1
+62	1
+63	1
+64	1
+65	1
+66	1
+67	1
+68	1
+69	1
+70	1
+71	1
+72	1
+73	1
+74	1
+75	1
+76	1
+77	1
+78	1
+79	1
+80	1
+81	1
+82	1
+83	1
+84	1
+85	1
+86	1
+87	1
+88	1
+89	1
+90	1
+91	1
+92	1
+93	1
+94	1
+95	1
+96	1
+97	1
+98	1
+99	1

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

spm.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5598d5e96f339a8d980c15f9afd405a2e5e1be7db41de3ed13b0f03fac1e8c17
+size 2447305

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 11.0,
+    "train_loss": 0.703608925559304,
+    "train_runtime": 3543.902,
+    "train_samples": 799,
+    "train_samples_per_second": 2.48,
+    "train_steps_per_second": 0.621
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 11.0,
+  "eval_steps": 500,
+  "global_step": 2200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 2.5,
+      "grad_norm": 2.6582741737365723,
+      "learning_rate": 1.5454545454545454e-05,
+      "loss": 0.7137,
+      "step": 500
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 11.646175384521484,
+      "learning_rate": 1.0909090909090909e-05,
+      "loss": 0.7078,
+      "step": 1000
+    },
+    {
+      "epoch": 7.5,
+      "grad_norm": 3.0001232624053955,
+      "learning_rate": 6.363636363636364e-06,
+      "loss": 0.7022,
+      "step": 1500
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 5.156288146972656,
+      "learning_rate": 1.8181818181818183e-06,
+      "loss": 0.6967,
+      "step": 2000
+    },
+    {
+      "epoch": 11.0,
+      "step": 2200,
+      "total_flos": 3.697260574382285e+16,
+      "train_loss": 0.703608925559304,
+      "train_runtime": 3543.902,
+      "train_samples_per_second": 2.48,
+      "train_steps_per_second": 0.621
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 2200,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 11,
+  "save_steps": 500,
+  "total_flos": 3.697260574382285e+16,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e3658aba883b07b41bb50c86cfd13ed9f2fac6bc1987555ed0925809601c49d2
+size 4920