gpantaz commited on Apr 22

Commit

420393a

•

1 Parent(s): 4635763

Upload folder using huggingface_hub

Browse files

Files changed (35) hide show

checkpoint-36513/config.json +33 -0
checkpoint-36513/generation_config.json +6 -0
checkpoint-36513/model-00001-of-00002.safetensors +3 -0
checkpoint-36513/model-00002-of-00002.safetensors +3 -0
checkpoint-36513/model.safetensors.index.json +717 -0
checkpoint-36513/optimizer.pt +3 -0
checkpoint-36513/rng_state_0.pth +3 -0
checkpoint-36513/rng_state_1.pth +3 -0
checkpoint-36513/scheduler.pt +3 -0
checkpoint-36513/trainer_state.json +0 -0
checkpoint-36513/training_args.bin +3 -0
checkpoint-40570/config.json +33 -0
checkpoint-40570/generation_config.json +6 -0
checkpoint-40570/model-00001-of-00002.safetensors +3 -0
checkpoint-40570/model-00002-of-00002.safetensors +3 -0
checkpoint-40570/model.safetensors.index.json +717 -0
checkpoint-40570/optimizer.pt +3 -0
checkpoint-40570/rng_state_0.pth +3 -0
checkpoint-40570/rng_state_1.pth +3 -0
checkpoint-40570/scheduler.pt +3 -0
checkpoint-40570/trainer_state.json +0 -0
checkpoint-40570/training_args.bin +3 -0
checkpoint-final/config.json +33 -0
checkpoint-final/generation_config.json +6 -0
checkpoint-final/model-00001-of-00002.safetensors +3 -0
checkpoint-final/model-00002-of-00002.safetensors +3 -0
checkpoint-final/model.safetensors.index.json +717 -0
checkpoint-final/optimizer.pt +3 -0
checkpoint-final/scheduler.pt +3 -0
checkpoint-final/trainer_state.json +0 -0
checkpoint-final/training_args.bin +3 -0
runs/Apr21_22-48-14_gpantaz-mamba-gpu3/events.out.tfevents.1713736112.gpantaz-mamba-gpu3.6464.0 +3 -0
runs/Apr21_23-10-33_gpantaz-mamba-gpu3/events.out.tfevents.1713737453.gpantaz-mamba-gpu3.9017.0 +3 -0
runs/Apr21_23-12-54_gpantaz-mamba-gpu3/events.out.tfevents.1713737592.gpantaz-mamba-gpu3.9956.0 +3 -0
runs/Apr21_23-20-39_gpantaz-mamba-gpu3/events.out.tfevents.1713738057.gpantaz-mamba-gpu3.11832.0 +3 -0

checkpoint-36513/config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "EleutherAI/pythia-1b",
+  "architectures": [
+    "VLCLIPGPTNeoXForCausalLM"
+  ],
+  "attention_bias": true,
+  "attention_dropout": 0.0,
+  "bos_token_id": 0,
+  "classifier_dropout": 0.1,
+  "eos_token_id": 0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.0,
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 2048,
+  "model_type": "gpt_neox",
+  "num_attention_heads": 8,
+  "num_hidden_layers": 16,
+  "rope_scaling": null,
+  "rotary_emb_base": 10000,
+  "rotary_pct": 0.25,
+  "select_feature": "patch",
+  "select_layer": -2,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.37.1",
+  "use_cache": true,
+  "use_parallel_residual": true,
+  "vision_encoder_name": "timm/eva02_large_patch14_clip_224",
+  "vocab_size": 50304
+}

checkpoint-36513/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 0,
+  "eos_token_id": 0,
+  "transformers_version": "4.37.1"
+}

checkpoint-36513/model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:33748a77364e4b5ea7781d712fa8ffc945b74c8688f066cbcffbb87fef049def
+size 4997232072

checkpoint-36513/model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f53b941057b24d5188398bb6e62e6dfdd8059d1c70a6038d194a0b7bf7d9d507
+size 288429600

checkpoint-36513/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,717 @@

+{
+  "metadata": {
+    "total_size": 5285580544
+  },
+  "weight_map": {
+    "embed_out.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.embed_in.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vision_embed_tokens.0.bias": "model-00002-of-00002.safetensors",
+    "vision_embed_tokens.0.weight": "model-00002-of-00002.safetensors",
+    "vision_embed_tokens.2.bias": "model-00002-of-00002.safetensors",
+    "vision_embed_tokens.2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.0.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.18.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.18.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.19.attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.attn.norm.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.attn.norm.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.attn.proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.attn.proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.mlp.fc1_g.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.mlp.fc1_g.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.mlp.fc1_x.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.mlp.fc1_x.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.mlp.norm.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.mlp.norm.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.norm1.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.norm1.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.norm2.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.norm2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.2.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.20.attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.attn.norm.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.attn.norm.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.attn.proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.attn.proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.mlp.fc1_g.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.mlp.fc1_g.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.mlp.fc1_x.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.mlp.fc1_x.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.mlp.norm.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.mlp.norm.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.norm1.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.norm1.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.norm2.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.norm2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.attn.norm.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.attn.norm.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.attn.proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.attn.proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.mlp.fc1_g.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.mlp.fc1_g.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.mlp.fc1_x.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.mlp.fc1_x.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.mlp.norm.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.mlp.norm.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.norm1.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.norm1.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.norm2.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.norm2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.attn.norm.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.attn.norm.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.attn.proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.attn.proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.mlp.fc1_g.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.mlp.fc1_g.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.mlp.fc1_x.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.mlp.fc1_x.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.mlp.norm.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.mlp.norm.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.norm1.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.norm1.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.norm2.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.norm2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.attn.norm.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.attn.norm.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.attn.proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.attn.proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.mlp.fc1_g.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.mlp.fc1_g.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.mlp.fc1_x.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.mlp.fc1_x.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.mlp.norm.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.mlp.norm.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.norm1.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.norm1.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.norm2.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.norm2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.3.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.cls_token": "model-00001-of-00002.safetensors",
+    "vision_encoder.norm.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.norm.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.patch_embed.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.patch_embed.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.pos_embed": "model-00001-of-00002.safetensors"
+  }
+}

checkpoint-36513/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:004d397c91b70a5e171f9e401d44f1f98c6de8dc4eafb0a3278b1afd74a98395
+size 8144790622

checkpoint-36513/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dceddadb5f65b8a500f4cff9ccece710fd3f542e8476f7f407452082f397725e
+size 14512

checkpoint-36513/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0d11f3094b4918b07c7c2bd63273da62eb431adb4f07bb98f70bb671bb7c30b7
+size 14512

checkpoint-36513/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:944e2112ca8150c071da5f4a4969c5d88c4f149803cad42db8a2a60e0c009d7e
+size 1064

checkpoint-36513/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-36513/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:08ce939e522ea614879ddb3fd2e44e03c23e1755c44e09d03a427027b54e53d4
+size 4792

checkpoint-40570/config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "EleutherAI/pythia-1b",
+  "architectures": [
+    "VLCLIPGPTNeoXForCausalLM"
+  ],
+  "attention_bias": true,
+  "attention_dropout": 0.0,
+  "bos_token_id": 0,
+  "classifier_dropout": 0.1,
+  "eos_token_id": 0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.0,
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 2048,
+  "model_type": "gpt_neox",
+  "num_attention_heads": 8,
+  "num_hidden_layers": 16,
+  "rope_scaling": null,
+  "rotary_emb_base": 10000,
+  "rotary_pct": 0.25,
+  "select_feature": "patch",
+  "select_layer": -2,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.37.1",
+  "use_cache": true,
+  "use_parallel_residual": true,
+  "vision_encoder_name": "timm/eva02_large_patch14_clip_224",
+  "vocab_size": 50304
+}

checkpoint-40570/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 0,
+  "eos_token_id": 0,
+  "transformers_version": "4.37.1"
+}

checkpoint-40570/model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ddac709349cec8e75291c62a58f612fd703cddbc23d6b036c2279f90d2802428
+size 4997232072

checkpoint-40570/model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:551d7cbdcb74f8ccfc9bec2b2bc7f376bd552cf0c9ed87d67875810fab23cee5
+size 288429600

checkpoint-40570/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,717 @@

+{
+  "metadata": {
+    "total_size": 5285580544
+  },
+  "weight_map": {
+    "embed_out.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.embed_in.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vision_embed_tokens.0.bias": "model-00002-of-00002.safetensors",
+    "vision_embed_tokens.0.weight": "model-00002-of-00002.safetensors",
+    "vision_embed_tokens.2.bias": "model-00002-of-00002.safetensors",
+    "vision_embed_tokens.2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.0.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.18.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.18.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.19.attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.attn.norm.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.attn.norm.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.attn.proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.attn.proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.mlp.fc1_g.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.mlp.fc1_g.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.mlp.fc1_x.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.mlp.fc1_x.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.mlp.norm.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.mlp.norm.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.norm1.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.norm1.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.norm2.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.norm2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.2.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.20.attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.attn.norm.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.attn.norm.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.attn.proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.attn.proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.mlp.fc1_g.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.mlp.fc1_g.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.mlp.fc1_x.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.mlp.fc1_x.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.mlp.norm.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.mlp.norm.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.norm1.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.norm1.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.norm2.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.norm2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.attn.norm.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.attn.norm.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.attn.proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.attn.proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.mlp.fc1_g.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.mlp.fc1_g.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.mlp.fc1_x.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.mlp.fc1_x.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.mlp.norm.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.mlp.norm.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.norm1.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.norm1.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.norm2.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.norm2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.attn.norm.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.attn.norm.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.attn.proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.attn.proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.mlp.fc1_g.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.mlp.fc1_g.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.mlp.fc1_x.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.mlp.fc1_x.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.mlp.norm.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.mlp.norm.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.norm1.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.norm1.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.norm2.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.norm2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.attn.norm.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.attn.norm.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.attn.proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.attn.proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.mlp.fc1_g.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.mlp.fc1_g.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.mlp.fc1_x.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.mlp.fc1_x.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.mlp.norm.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.mlp.norm.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.norm1.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.norm1.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.norm2.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.norm2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.3.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.cls_token": "model-00001-of-00002.safetensors",
+    "vision_encoder.norm.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.norm.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.patch_embed.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.patch_embed.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.pos_embed": "model-00001-of-00002.safetensors"
+  }
+}

checkpoint-40570/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:56f55cc388fdbff8bbfc2ca2fcf113e905357fc706a71a8e113380efaa064364
+size 8144790622

checkpoint-40570/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c97c236549159fd263cc4faedd9bc01864ba290667fbe7a834281987ed4caef8
+size 14512

checkpoint-40570/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e67e2be4a1e3a6205865dc1c101fe504a1d2894f9cc4ff1b2b9473985b684529
+size 14512

checkpoint-40570/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:58250fe1dd84fd85660cee4bb7c7aca0811a7569cf941e6f4f9bfca28b2b4f62
+size 1064

checkpoint-40570/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-40570/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:08ce939e522ea614879ddb3fd2e44e03c23e1755c44e09d03a427027b54e53d4
+size 4792

checkpoint-final/config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "EleutherAI/pythia-1b",
+  "architectures": [
+    "VLCLIPGPTNeoXForCausalLM"
+  ],
+  "attention_bias": true,
+  "attention_dropout": 0.0,
+  "bos_token_id": 0,
+  "classifier_dropout": 0.1,
+  "eos_token_id": 0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.0,
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 2048,
+  "model_type": "gpt_neox",
+  "num_attention_heads": 8,
+  "num_hidden_layers": 16,
+  "rope_scaling": null,
+  "rotary_emb_base": 10000,
+  "rotary_pct": 0.25,
+  "select_feature": "patch",
+  "select_layer": -2,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.37.1",
+  "use_cache": true,
+  "use_parallel_residual": true,
+  "vision_encoder_name": "timm/eva02_large_patch14_clip_224",
+  "vocab_size": 50304
+}

checkpoint-final/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 0,
+  "eos_token_id": 0,
+  "transformers_version": "4.37.1"
+}

checkpoint-final/model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ddac709349cec8e75291c62a58f612fd703cddbc23d6b036c2279f90d2802428
+size 4997232072

checkpoint-final/model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:551d7cbdcb74f8ccfc9bec2b2bc7f376bd552cf0c9ed87d67875810fab23cee5
+size 288429600

checkpoint-final/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,717 @@

+{
+  "metadata": {
+    "total_size": 5285580544
+  },
+  "weight_map": {
+    "embed_out.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.embed_in.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.attention.dense.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.attention.dense.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.attention.query_key_value.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.attention.query_key_value.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.mlp.dense_4h_to_h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.mlp.dense_4h_to_h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.mlp.dense_h_to_4h.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.mlp.dense_h_to_4h.weight": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "gpt_neox.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vision_embed_tokens.0.bias": "model-00002-of-00002.safetensors",
+    "vision_embed_tokens.0.weight": "model-00002-of-00002.safetensors",
+    "vision_embed_tokens.2.bias": "model-00002-of-00002.safetensors",
+    "vision_embed_tokens.2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.0.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.0.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.1.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.10.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.11.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.12.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.13.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.14.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.15.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.16.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.17.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.18.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.18.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.18.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.19.attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.attn.norm.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.attn.norm.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.attn.proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.attn.proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.mlp.fc1_g.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.mlp.fc1_g.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.mlp.fc1_x.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.mlp.fc1_x.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.mlp.norm.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.mlp.norm.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.norm1.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.norm1.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.norm2.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.19.norm2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.2.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.2.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.20.attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.attn.norm.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.attn.norm.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.attn.proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.attn.proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.mlp.fc1_g.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.mlp.fc1_g.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.mlp.fc1_x.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.mlp.fc1_x.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.mlp.norm.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.mlp.norm.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.norm1.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.norm1.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.norm2.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.20.norm2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.attn.norm.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.attn.norm.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.attn.proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.attn.proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.mlp.fc1_g.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.mlp.fc1_g.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.mlp.fc1_x.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.mlp.fc1_x.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.mlp.norm.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.mlp.norm.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.norm1.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.norm1.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.norm2.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.21.norm2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.attn.norm.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.attn.norm.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.attn.proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.attn.proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.mlp.fc1_g.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.mlp.fc1_g.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.mlp.fc1_x.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.mlp.fc1_x.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.mlp.norm.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.mlp.norm.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.norm1.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.norm1.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.norm2.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.22.norm2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.attn.norm.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.attn.norm.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.attn.proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.attn.proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.mlp.fc1_g.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.mlp.fc1_g.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.mlp.fc1_x.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.mlp.fc1_x.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.mlp.norm.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.mlp.norm.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.norm1.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.norm1.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.norm2.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.23.norm2.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.blocks.3.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.3.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.4.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.5.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.6.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.7.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.8.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.attn.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.attn.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.mlp.fc1_g.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.mlp.fc1_g.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.mlp.fc1_x.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.mlp.fc1_x.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.mlp.norm.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.mlp.norm.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.norm1.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.norm1.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.norm2.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.blocks.9.norm2.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.cls_token": "model-00001-of-00002.safetensors",
+    "vision_encoder.norm.bias": "model-00002-of-00002.safetensors",
+    "vision_encoder.norm.weight": "model-00002-of-00002.safetensors",
+    "vision_encoder.patch_embed.proj.bias": "model-00001-of-00002.safetensors",
+    "vision_encoder.patch_embed.proj.weight": "model-00001-of-00002.safetensors",
+    "vision_encoder.pos_embed": "model-00001-of-00002.safetensors"
+  }
+}

checkpoint-final/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:56f55cc388fdbff8bbfc2ca2fcf113e905357fc706a71a8e113380efaa064364
+size 8144790622

checkpoint-final/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:58250fe1dd84fd85660cee4bb7c7aca0811a7569cf941e6f4f9bfca28b2b4f62
+size 1064

checkpoint-final/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-final/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:08ce939e522ea614879ddb3fd2e44e03c23e1755c44e09d03a427027b54e53d4
+size 4792

runs/Apr21_22-48-14_gpantaz-mamba-gpu3/events.out.tfevents.1713736112.gpantaz-mamba-gpu3.6464.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:175ab1bbe314b36fb9101c1f7fe0d09be42d1dfa6caef2a276f2e823a34bc41d
+size 4661

runs/Apr21_23-10-33_gpantaz-mamba-gpu3/events.out.tfevents.1713737453.gpantaz-mamba-gpu3.9017.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:49634f35430213c088a6f5f0a6f769499f9fd01faaae1721efcc87b08e5ea97b
+size 7741

runs/Apr21_23-12-54_gpantaz-mamba-gpu3/events.out.tfevents.1713737592.gpantaz-mamba-gpu3.9956.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:158acc534471f3c41d594812aba8fd2e5195206439b9f579f1fa222399d9337f
+size 113395

runs/Apr21_23-20-39_gpantaz-mamba-gpu3/events.out.tfevents.1713738057.gpantaz-mamba-gpu3.11832.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a988e32c1b70022deec0019e9791a91f6509ee600ae2ccb9ee681ecf64382d4c
+size 6449431