Upload PhiForCausalLM

Browse files

Files changed (4) hide show

model-00001-of-00003.safetensors +2 -2
model-00002-of-00003.safetensors +2 -2
model-00003-of-00003.safetensors +2 -2
model.safetensors.index.json +196 -68

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:68b3ab3423888a2b8e5e0a47624f048ec3b94b8fc885fdb9b3f7919db3622b38
-size 4929899720

 version https://git-lfs.github.com/spec/v1
+oid sha256:79303c24a52ef750bed811626ed2c410c48d75e22ac71836e9bbdf9465d6f939
+size 4982355512

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:70dcfc7ae5c14d11d279bf56a0acf643fd5a1e2bfe8c24229d7ce29a0a63f42b
-size 4930096008

 version https://git-lfs.github.com/spec/v1
+oid sha256:f519aca82a13b5deae1bbc8904ca8da3591da2f4442bdca2d21dcd9ac52b8cca
+size 4982541984

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3b14c9f3e0c5c7a35d50129b31fd928571cd94319f7d172ca0e278e9bab6f944
-size 1258775496

 version https://git-lfs.github.com/spec/v1
+oid sha256:552a5498455c5a270bafc58f09c6914b76a474e3f75bcfcb39562d800f00b147
+size 1153887616

model.safetensors.index.json CHANGED Viewed

@@ -16,8 +16,12 @@
     "model.layers.0.mlp.fc2.weight": "model-00001-of-00003.safetensors",
     "model.layers.0.self_attn.dense.bias": "model-00001-of-00003.safetensors",
     "model.layers.0.self_attn.dense.weight": "model-00001-of-00003.safetensors",
-    "model.layers.0.self_attn.query_key_value.bias": "model-00001-of-00003.safetensors",
-    "model.layers.0.self_attn.query_key_value.weight": "model-00001-of-00003.safetensors",
     "model.layers.1.input_layernorm.bias": "model-00001-of-00003.safetensors",
     "model.layers.1.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.1.mlp.fc1.bias": "model-00001-of-00003.safetensors",
@@ -26,8 +30,12 @@
     "model.layers.1.mlp.fc2.weight": "model-00001-of-00003.safetensors",
     "model.layers.1.self_attn.dense.bias": "model-00001-of-00003.safetensors",
     "model.layers.1.self_attn.dense.weight": "model-00001-of-00003.safetensors",
-    "model.layers.1.self_attn.query_key_value.bias": "model-00001-of-00003.safetensors",
-    "model.layers.1.self_attn.query_key_value.weight": "model-00001-of-00003.safetensors",
     "model.layers.10.input_layernorm.bias": "model-00001-of-00003.safetensors",
     "model.layers.10.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.10.mlp.fc1.bias": "model-00001-of-00003.safetensors",
@@ -36,8 +44,12 @@
     "model.layers.10.mlp.fc2.weight": "model-00001-of-00003.safetensors",
     "model.layers.10.self_attn.dense.bias": "model-00001-of-00003.safetensors",
     "model.layers.10.self_attn.dense.weight": "model-00001-of-00003.safetensors",
-    "model.layers.10.self_attn.query_key_value.bias": "model-00001-of-00003.safetensors",
-    "model.layers.10.self_attn.query_key_value.weight": "model-00001-of-00003.safetensors",
     "model.layers.11.input_layernorm.bias": "model-00001-of-00003.safetensors",
     "model.layers.11.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.11.mlp.fc1.bias": "model-00001-of-00003.safetensors",
@@ -46,8 +58,12 @@
     "model.layers.11.mlp.fc2.weight": "model-00001-of-00003.safetensors",
     "model.layers.11.self_attn.dense.bias": "model-00001-of-00003.safetensors",
     "model.layers.11.self_attn.dense.weight": "model-00001-of-00003.safetensors",
-    "model.layers.11.self_attn.query_key_value.bias": "model-00001-of-00003.safetensors",
-    "model.layers.11.self_attn.query_key_value.weight": "model-00001-of-00003.safetensors",
     "model.layers.12.input_layernorm.bias": "model-00001-of-00003.safetensors",
     "model.layers.12.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.12.mlp.fc1.bias": "model-00001-of-00003.safetensors",
@@ -56,8 +72,12 @@
     "model.layers.12.mlp.fc2.weight": "model-00001-of-00003.safetensors",
     "model.layers.12.self_attn.dense.bias": "model-00001-of-00003.safetensors",
     "model.layers.12.self_attn.dense.weight": "model-00001-of-00003.safetensors",
-    "model.layers.12.self_attn.query_key_value.bias": "model-00001-of-00003.safetensors",
-    "model.layers.12.self_attn.query_key_value.weight": "model-00001-of-00003.safetensors",
     "model.layers.13.input_layernorm.bias": "model-00001-of-00003.safetensors",
     "model.layers.13.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.13.mlp.fc1.bias": "model-00001-of-00003.safetensors",
@@ -66,8 +86,12 @@
     "model.layers.13.mlp.fc2.weight": "model-00001-of-00003.safetensors",
     "model.layers.13.self_attn.dense.bias": "model-00001-of-00003.safetensors",
     "model.layers.13.self_attn.dense.weight": "model-00001-of-00003.safetensors",
-    "model.layers.13.self_attn.query_key_value.bias": "model-00001-of-00003.safetensors",
-    "model.layers.13.self_attn.query_key_value.weight": "model-00001-of-00003.safetensors",
     "model.layers.14.input_layernorm.bias": "model-00002-of-00003.safetensors",
     "model.layers.14.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.14.mlp.fc1.bias": "model-00002-of-00003.safetensors",
@@ -76,8 +100,12 @@
     "model.layers.14.mlp.fc2.weight": "model-00002-of-00003.safetensors",
     "model.layers.14.self_attn.dense.bias": "model-00002-of-00003.safetensors",
     "model.layers.14.self_attn.dense.weight": "model-00002-of-00003.safetensors",
-    "model.layers.14.self_attn.query_key_value.bias": "model-00002-of-00003.safetensors",
-    "model.layers.14.self_attn.query_key_value.weight": "model-00002-of-00003.safetensors",
     "model.layers.15.input_layernorm.bias": "model-00002-of-00003.safetensors",
     "model.layers.15.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.15.mlp.fc1.bias": "model-00002-of-00003.safetensors",
@@ -86,8 +114,12 @@
     "model.layers.15.mlp.fc2.weight": "model-00002-of-00003.safetensors",
     "model.layers.15.self_attn.dense.bias": "model-00002-of-00003.safetensors",
     "model.layers.15.self_attn.dense.weight": "model-00002-of-00003.safetensors",
-    "model.layers.15.self_attn.query_key_value.bias": "model-00002-of-00003.safetensors",
-    "model.layers.15.self_attn.query_key_value.weight": "model-00002-of-00003.safetensors",
     "model.layers.16.input_layernorm.bias": "model-00002-of-00003.safetensors",
     "model.layers.16.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.16.mlp.fc1.bias": "model-00002-of-00003.safetensors",
@@ -96,8 +128,12 @@
     "model.layers.16.mlp.fc2.weight": "model-00002-of-00003.safetensors",
     "model.layers.16.self_attn.dense.bias": "model-00002-of-00003.safetensors",
     "model.layers.16.self_attn.dense.weight": "model-00002-of-00003.safetensors",
-    "model.layers.16.self_attn.query_key_value.bias": "model-00002-of-00003.safetensors",
-    "model.layers.16.self_attn.query_key_value.weight": "model-00002-of-00003.safetensors",
     "model.layers.17.input_layernorm.bias": "model-00002-of-00003.safetensors",
     "model.layers.17.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.17.mlp.fc1.bias": "model-00002-of-00003.safetensors",
@@ -106,8 +142,12 @@
     "model.layers.17.mlp.fc2.weight": "model-00002-of-00003.safetensors",
     "model.layers.17.self_attn.dense.bias": "model-00002-of-00003.safetensors",
     "model.layers.17.self_attn.dense.weight": "model-00002-of-00003.safetensors",
-    "model.layers.17.self_attn.query_key_value.bias": "model-00002-of-00003.safetensors",
-    "model.layers.17.self_attn.query_key_value.weight": "model-00002-of-00003.safetensors",
     "model.layers.18.input_layernorm.bias": "model-00002-of-00003.safetensors",
     "model.layers.18.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.18.mlp.fc1.bias": "model-00002-of-00003.safetensors",
@@ -116,8 +156,12 @@
     "model.layers.18.mlp.fc2.weight": "model-00002-of-00003.safetensors",
     "model.layers.18.self_attn.dense.bias": "model-00002-of-00003.safetensors",
     "model.layers.18.self_attn.dense.weight": "model-00002-of-00003.safetensors",
-    "model.layers.18.self_attn.query_key_value.bias": "model-00002-of-00003.safetensors",
-    "model.layers.18.self_attn.query_key_value.weight": "model-00002-of-00003.safetensors",
     "model.layers.19.input_layernorm.bias": "model-00002-of-00003.safetensors",
     "model.layers.19.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.19.mlp.fc1.bias": "model-00002-of-00003.safetensors",
@@ -126,8 +170,12 @@
     "model.layers.19.mlp.fc2.weight": "model-00002-of-00003.safetensors",
     "model.layers.19.self_attn.dense.bias": "model-00002-of-00003.safetensors",
     "model.layers.19.self_attn.dense.weight": "model-00002-of-00003.safetensors",
-    "model.layers.19.self_attn.query_key_value.bias": "model-00002-of-00003.safetensors",
-    "model.layers.19.self_attn.query_key_value.weight": "model-00002-of-00003.safetensors",
     "model.layers.2.input_layernorm.bias": "model-00001-of-00003.safetensors",
     "model.layers.2.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.2.mlp.fc1.bias": "model-00001-of-00003.safetensors",
@@ -136,8 +184,12 @@
     "model.layers.2.mlp.fc2.weight": "model-00001-of-00003.safetensors",
     "model.layers.2.self_attn.dense.bias": "model-00001-of-00003.safetensors",
     "model.layers.2.self_attn.dense.weight": "model-00001-of-00003.safetensors",
-    "model.layers.2.self_attn.query_key_value.bias": "model-00001-of-00003.safetensors",
-    "model.layers.2.self_attn.query_key_value.weight": "model-00001-of-00003.safetensors",
     "model.layers.20.input_layernorm.bias": "model-00002-of-00003.safetensors",
     "model.layers.20.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.20.mlp.fc1.bias": "model-00002-of-00003.safetensors",
@@ -146,8 +198,12 @@
     "model.layers.20.mlp.fc2.weight": "model-00002-of-00003.safetensors",
     "model.layers.20.self_attn.dense.bias": "model-00002-of-00003.safetensors",
     "model.layers.20.self_attn.dense.weight": "model-00002-of-00003.safetensors",
-    "model.layers.20.self_attn.query_key_value.bias": "model-00002-of-00003.safetensors",
-    "model.layers.20.self_attn.query_key_value.weight": "model-00002-of-00003.safetensors",
     "model.layers.21.input_layernorm.bias": "model-00002-of-00003.safetensors",
     "model.layers.21.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.21.mlp.fc1.bias": "model-00002-of-00003.safetensors",
@@ -156,8 +212,12 @@
     "model.layers.21.mlp.fc2.weight": "model-00002-of-00003.safetensors",
     "model.layers.21.self_attn.dense.bias": "model-00002-of-00003.safetensors",
     "model.layers.21.self_attn.dense.weight": "model-00002-of-00003.safetensors",
-    "model.layers.21.self_attn.query_key_value.bias": "model-00002-of-00003.safetensors",
-    "model.layers.21.self_attn.query_key_value.weight": "model-00002-of-00003.safetensors",
     "model.layers.22.input_layernorm.bias": "model-00002-of-00003.safetensors",
     "model.layers.22.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.22.mlp.fc1.bias": "model-00002-of-00003.safetensors",
@@ -166,8 +226,12 @@
     "model.layers.22.mlp.fc2.weight": "model-00002-of-00003.safetensors",
     "model.layers.22.self_attn.dense.bias": "model-00002-of-00003.safetensors",
     "model.layers.22.self_attn.dense.weight": "model-00002-of-00003.safetensors",
-    "model.layers.22.self_attn.query_key_value.bias": "model-00002-of-00003.safetensors",
-    "model.layers.22.self_attn.query_key_value.weight": "model-00002-of-00003.safetensors",
     "model.layers.23.input_layernorm.bias": "model-00002-of-00003.safetensors",
     "model.layers.23.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.23.mlp.fc1.bias": "model-00002-of-00003.safetensors",
@@ -176,8 +240,12 @@
     "model.layers.23.mlp.fc2.weight": "model-00002-of-00003.safetensors",
     "model.layers.23.self_attn.dense.bias": "model-00002-of-00003.safetensors",
     "model.layers.23.self_attn.dense.weight": "model-00002-of-00003.safetensors",
-    "model.layers.23.self_attn.query_key_value.bias": "model-00002-of-00003.safetensors",
-    "model.layers.23.self_attn.query_key_value.weight": "model-00002-of-00003.safetensors",
     "model.layers.24.input_layernorm.bias": "model-00002-of-00003.safetensors",
     "model.layers.24.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.24.mlp.fc1.bias": "model-00002-of-00003.safetensors",
@@ -186,8 +254,12 @@
     "model.layers.24.mlp.fc2.weight": "model-00002-of-00003.safetensors",
     "model.layers.24.self_attn.dense.bias": "model-00002-of-00003.safetensors",
     "model.layers.24.self_attn.dense.weight": "model-00002-of-00003.safetensors",
-    "model.layers.24.self_attn.query_key_value.bias": "model-00002-of-00003.safetensors",
-    "model.layers.24.self_attn.query_key_value.weight": "model-00002-of-00003.safetensors",
     "model.layers.25.input_layernorm.bias": "model-00002-of-00003.safetensors",
     "model.layers.25.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.25.mlp.fc1.bias": "model-00002-of-00003.safetensors",
@@ -196,8 +268,12 @@
     "model.layers.25.mlp.fc2.weight": "model-00002-of-00003.safetensors",
     "model.layers.25.self_attn.dense.bias": "model-00002-of-00003.safetensors",
     "model.layers.25.self_attn.dense.weight": "model-00002-of-00003.safetensors",
-    "model.layers.25.self_attn.query_key_value.bias": "model-00002-of-00003.safetensors",
-    "model.layers.25.self_attn.query_key_value.weight": "model-00002-of-00003.safetensors",
     "model.layers.26.input_layernorm.bias": "model-00002-of-00003.safetensors",
     "model.layers.26.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.26.mlp.fc1.bias": "model-00002-of-00003.safetensors",
@@ -206,8 +282,12 @@
     "model.layers.26.mlp.fc2.weight": "model-00002-of-00003.safetensors",
     "model.layers.26.self_attn.dense.bias": "model-00002-of-00003.safetensors",
     "model.layers.26.self_attn.dense.weight": "model-00002-of-00003.safetensors",
-    "model.layers.26.self_attn.query_key_value.bias": "model-00002-of-00003.safetensors",
-    "model.layers.26.self_attn.query_key_value.weight": "model-00002-of-00003.safetensors",
     "model.layers.27.input_layernorm.bias": "model-00002-of-00003.safetensors",
     "model.layers.27.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.27.mlp.fc1.bias": "model-00002-of-00003.safetensors",
@@ -216,8 +296,12 @@
     "model.layers.27.mlp.fc2.weight": "model-00002-of-00003.safetensors",
     "model.layers.27.self_attn.dense.bias": "model-00002-of-00003.safetensors",
     "model.layers.27.self_attn.dense.weight": "model-00002-of-00003.safetensors",
-    "model.layers.27.self_attn.query_key_value.bias": "model-00002-of-00003.safetensors",
-    "model.layers.27.self_attn.query_key_value.weight": "model-00002-of-00003.safetensors",
     "model.layers.28.input_layernorm.bias": "model-00002-of-00003.safetensors",
     "model.layers.28.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.28.mlp.fc1.bias": "model-00002-of-00003.safetensors",
@@ -226,18 +310,26 @@
     "model.layers.28.mlp.fc2.weight": "model-00002-of-00003.safetensors",
     "model.layers.28.self_attn.dense.bias": "model-00002-of-00003.safetensors",
     "model.layers.28.self_attn.dense.weight": "model-00002-of-00003.safetensors",
-    "model.layers.28.self_attn.query_key_value.bias": "model-00002-of-00003.safetensors",
-    "model.layers.28.self_attn.query_key_value.weight": "model-00002-of-00003.safetensors",
-    "model.layers.29.input_layernorm.bias": "model-00003-of-00003.safetensors",
-    "model.layers.29.input_layernorm.weight": "model-00003-of-00003.safetensors",
     "model.layers.29.mlp.fc1.bias": "model-00002-of-00003.safetensors",
     "model.layers.29.mlp.fc1.weight": "model-00002-of-00003.safetensors",
-    "model.layers.29.mlp.fc2.bias": "model-00003-of-00003.safetensors",
-    "model.layers.29.mlp.fc2.weight": "model-00003-of-00003.safetensors",
     "model.layers.29.self_attn.dense.bias": "model-00002-of-00003.safetensors",
     "model.layers.29.self_attn.dense.weight": "model-00002-of-00003.safetensors",
-    "model.layers.29.self_attn.query_key_value.bias": "model-00002-of-00003.safetensors",
-    "model.layers.29.self_attn.query_key_value.weight": "model-00002-of-00003.safetensors",
     "model.layers.3.input_layernorm.bias": "model-00001-of-00003.safetensors",
     "model.layers.3.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.3.mlp.fc1.bias": "model-00001-of-00003.safetensors",
@@ -246,8 +338,12 @@
     "model.layers.3.mlp.fc2.weight": "model-00001-of-00003.safetensors",
     "model.layers.3.self_attn.dense.bias": "model-00001-of-00003.safetensors",
     "model.layers.3.self_attn.dense.weight": "model-00001-of-00003.safetensors",
-    "model.layers.3.self_attn.query_key_value.bias": "model-00001-of-00003.safetensors",
-    "model.layers.3.self_attn.query_key_value.weight": "model-00001-of-00003.safetensors",
     "model.layers.30.input_layernorm.bias": "model-00003-of-00003.safetensors",
     "model.layers.30.input_layernorm.weight": "model-00003-of-00003.safetensors",
     "model.layers.30.mlp.fc1.bias": "model-00003-of-00003.safetensors",
@@ -256,8 +352,12 @@
     "model.layers.30.mlp.fc2.weight": "model-00003-of-00003.safetensors",
     "model.layers.30.self_attn.dense.bias": "model-00003-of-00003.safetensors",
     "model.layers.30.self_attn.dense.weight": "model-00003-of-00003.safetensors",
-    "model.layers.30.self_attn.query_key_value.bias": "model-00003-of-00003.safetensors",
-    "model.layers.30.self_attn.query_key_value.weight": "model-00003-of-00003.safetensors",
     "model.layers.31.input_layernorm.bias": "model-00003-of-00003.safetensors",
     "model.layers.31.input_layernorm.weight": "model-00003-of-00003.safetensors",
     "model.layers.31.mlp.fc1.bias": "model-00003-of-00003.safetensors",
@@ -266,8 +366,12 @@
     "model.layers.31.mlp.fc2.weight": "model-00003-of-00003.safetensors",
     "model.layers.31.self_attn.dense.bias": "model-00003-of-00003.safetensors",
     "model.layers.31.self_attn.dense.weight": "model-00003-of-00003.safetensors",
-    "model.layers.31.self_attn.query_key_value.bias": "model-00003-of-00003.safetensors",
-    "model.layers.31.self_attn.query_key_value.weight": "model-00003-of-00003.safetensors",
     "model.layers.4.input_layernorm.bias": "model-00001-of-00003.safetensors",
     "model.layers.4.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.4.mlp.fc1.bias": "model-00001-of-00003.safetensors",
@@ -276,8 +380,12 @@
     "model.layers.4.mlp.fc2.weight": "model-00001-of-00003.safetensors",
     "model.layers.4.self_attn.dense.bias": "model-00001-of-00003.safetensors",
     "model.layers.4.self_attn.dense.weight": "model-00001-of-00003.safetensors",
-    "model.layers.4.self_attn.query_key_value.bias": "model-00001-of-00003.safetensors",
-    "model.layers.4.self_attn.query_key_value.weight": "model-00001-of-00003.safetensors",
     "model.layers.5.input_layernorm.bias": "model-00001-of-00003.safetensors",
     "model.layers.5.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.5.mlp.fc1.bias": "model-00001-of-00003.safetensors",
@@ -286,8 +394,12 @@
     "model.layers.5.mlp.fc2.weight": "model-00001-of-00003.safetensors",
     "model.layers.5.self_attn.dense.bias": "model-00001-of-00003.safetensors",
     "model.layers.5.self_attn.dense.weight": "model-00001-of-00003.safetensors",
-    "model.layers.5.self_attn.query_key_value.bias": "model-00001-of-00003.safetensors",
-    "model.layers.5.self_attn.query_key_value.weight": "model-00001-of-00003.safetensors",
     "model.layers.6.input_layernorm.bias": "model-00001-of-00003.safetensors",
     "model.layers.6.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.6.mlp.fc1.bias": "model-00001-of-00003.safetensors",
@@ -296,8 +408,12 @@
     "model.layers.6.mlp.fc2.weight": "model-00001-of-00003.safetensors",
     "model.layers.6.self_attn.dense.bias": "model-00001-of-00003.safetensors",
     "model.layers.6.self_attn.dense.weight": "model-00001-of-00003.safetensors",
-    "model.layers.6.self_attn.query_key_value.bias": "model-00001-of-00003.safetensors",
-    "model.layers.6.self_attn.query_key_value.weight": "model-00001-of-00003.safetensors",
     "model.layers.7.input_layernorm.bias": "model-00001-of-00003.safetensors",
     "model.layers.7.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.7.mlp.fc1.bias": "model-00001-of-00003.safetensors",
@@ -306,8 +422,12 @@
     "model.layers.7.mlp.fc2.weight": "model-00001-of-00003.safetensors",
     "model.layers.7.self_attn.dense.bias": "model-00001-of-00003.safetensors",
     "model.layers.7.self_attn.dense.weight": "model-00001-of-00003.safetensors",
-    "model.layers.7.self_attn.query_key_value.bias": "model-00001-of-00003.safetensors",
-    "model.layers.7.self_attn.query_key_value.weight": "model-00001-of-00003.safetensors",
     "model.layers.8.input_layernorm.bias": "model-00001-of-00003.safetensors",
     "model.layers.8.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.8.mlp.fc1.bias": "model-00001-of-00003.safetensors",
@@ -316,8 +436,12 @@
     "model.layers.8.mlp.fc2.weight": "model-00001-of-00003.safetensors",
     "model.layers.8.self_attn.dense.bias": "model-00001-of-00003.safetensors",
     "model.layers.8.self_attn.dense.weight": "model-00001-of-00003.safetensors",
-    "model.layers.8.self_attn.query_key_value.bias": "model-00001-of-00003.safetensors",
-    "model.layers.8.self_attn.query_key_value.weight": "model-00001-of-00003.safetensors",
     "model.layers.9.input_layernorm.bias": "model-00001-of-00003.safetensors",
     "model.layers.9.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.9.mlp.fc1.bias": "model-00001-of-00003.safetensors",
@@ -326,7 +450,11 @@
     "model.layers.9.mlp.fc2.weight": "model-00001-of-00003.safetensors",
     "model.layers.9.self_attn.dense.bias": "model-00001-of-00003.safetensors",
     "model.layers.9.self_attn.dense.weight": "model-00001-of-00003.safetensors",
-    "model.layers.9.self_attn.query_key_value.bias": "model-00001-of-00003.safetensors",
-    "model.layers.9.self_attn.query_key_value.weight": "model-00001-of-00003.safetensors"
   }
 }

     "model.layers.0.mlp.fc2.weight": "model-00001-of-00003.safetensors",
     "model.layers.0.self_attn.dense.bias": "model-00001-of-00003.safetensors",
     "model.layers.0.self_attn.dense.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
     "model.layers.1.input_layernorm.bias": "model-00001-of-00003.safetensors",
     "model.layers.1.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.1.mlp.fc1.bias": "model-00001-of-00003.safetensors",
     "model.layers.1.mlp.fc2.weight": "model-00001-of-00003.safetensors",
     "model.layers.1.self_attn.dense.bias": "model-00001-of-00003.safetensors",
     "model.layers.1.self_attn.dense.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
     "model.layers.10.input_layernorm.bias": "model-00001-of-00003.safetensors",
     "model.layers.10.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.10.mlp.fc1.bias": "model-00001-of-00003.safetensors",
     "model.layers.10.mlp.fc2.weight": "model-00001-of-00003.safetensors",
     "model.layers.10.self_attn.dense.bias": "model-00001-of-00003.safetensors",
     "model.layers.10.self_attn.dense.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
     "model.layers.11.input_layernorm.bias": "model-00001-of-00003.safetensors",
     "model.layers.11.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.11.mlp.fc1.bias": "model-00001-of-00003.safetensors",
     "model.layers.11.mlp.fc2.weight": "model-00001-of-00003.safetensors",
     "model.layers.11.self_attn.dense.bias": "model-00001-of-00003.safetensors",
     "model.layers.11.self_attn.dense.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
     "model.layers.12.input_layernorm.bias": "model-00001-of-00003.safetensors",
     "model.layers.12.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.12.mlp.fc1.bias": "model-00001-of-00003.safetensors",
     "model.layers.12.mlp.fc2.weight": "model-00001-of-00003.safetensors",
     "model.layers.12.self_attn.dense.bias": "model-00001-of-00003.safetensors",
     "model.layers.12.self_attn.dense.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
     "model.layers.13.input_layernorm.bias": "model-00001-of-00003.safetensors",
     "model.layers.13.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.13.mlp.fc1.bias": "model-00001-of-00003.safetensors",
     "model.layers.13.mlp.fc2.weight": "model-00001-of-00003.safetensors",
     "model.layers.13.self_attn.dense.bias": "model-00001-of-00003.safetensors",
     "model.layers.13.self_attn.dense.weight": "model-00001-of-00003.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
     "model.layers.14.input_layernorm.bias": "model-00002-of-00003.safetensors",
     "model.layers.14.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.14.mlp.fc1.bias": "model-00002-of-00003.safetensors",
     "model.layers.14.mlp.fc2.weight": "model-00002-of-00003.safetensors",
     "model.layers.14.self_attn.dense.bias": "model-00002-of-00003.safetensors",
     "model.layers.14.self_attn.dense.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
     "model.layers.15.input_layernorm.bias": "model-00002-of-00003.safetensors",
     "model.layers.15.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.15.mlp.fc1.bias": "model-00002-of-00003.safetensors",
     "model.layers.15.mlp.fc2.weight": "model-00002-of-00003.safetensors",
     "model.layers.15.self_attn.dense.bias": "model-00002-of-00003.safetensors",
     "model.layers.15.self_attn.dense.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
     "model.layers.16.input_layernorm.bias": "model-00002-of-00003.safetensors",
     "model.layers.16.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.16.mlp.fc1.bias": "model-00002-of-00003.safetensors",
     "model.layers.16.mlp.fc2.weight": "model-00002-of-00003.safetensors",
     "model.layers.16.self_attn.dense.bias": "model-00002-of-00003.safetensors",
     "model.layers.16.self_attn.dense.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
     "model.layers.17.input_layernorm.bias": "model-00002-of-00003.safetensors",
     "model.layers.17.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.17.mlp.fc1.bias": "model-00002-of-00003.safetensors",
     "model.layers.17.mlp.fc2.weight": "model-00002-of-00003.safetensors",
     "model.layers.17.self_attn.dense.bias": "model-00002-of-00003.safetensors",
     "model.layers.17.self_attn.dense.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
     "model.layers.18.input_layernorm.bias": "model-00002-of-00003.safetensors",
     "model.layers.18.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.18.mlp.fc1.bias": "model-00002-of-00003.safetensors",
     "model.layers.18.mlp.fc2.weight": "model-00002-of-00003.safetensors",
     "model.layers.18.self_attn.dense.bias": "model-00002-of-00003.safetensors",
     "model.layers.18.self_attn.dense.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
     "model.layers.19.input_layernorm.bias": "model-00002-of-00003.safetensors",
     "model.layers.19.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.19.mlp.fc1.bias": "model-00002-of-00003.safetensors",
     "model.layers.19.mlp.fc2.weight": "model-00002-of-00003.safetensors",
     "model.layers.19.self_attn.dense.bias": "model-00002-of-00003.safetensors",
     "model.layers.19.self_attn.dense.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
     "model.layers.2.input_layernorm.bias": "model-00001-of-00003.safetensors",
     "model.layers.2.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.2.mlp.fc1.bias": "model-00001-of-00003.safetensors",
     "model.layers.2.mlp.fc2.weight": "model-00001-of-00003.safetensors",
     "model.layers.2.self_attn.dense.bias": "model-00001-of-00003.safetensors",
     "model.layers.2.self_attn.dense.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
     "model.layers.20.input_layernorm.bias": "model-00002-of-00003.safetensors",
     "model.layers.20.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.20.mlp.fc1.bias": "model-00002-of-00003.safetensors",
     "model.layers.20.mlp.fc2.weight": "model-00002-of-00003.safetensors",
     "model.layers.20.self_attn.dense.bias": "model-00002-of-00003.safetensors",
     "model.layers.20.self_attn.dense.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
     "model.layers.21.input_layernorm.bias": "model-00002-of-00003.safetensors",
     "model.layers.21.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.21.mlp.fc1.bias": "model-00002-of-00003.safetensors",
     "model.layers.21.mlp.fc2.weight": "model-00002-of-00003.safetensors",
     "model.layers.21.self_attn.dense.bias": "model-00002-of-00003.safetensors",
     "model.layers.21.self_attn.dense.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
     "model.layers.22.input_layernorm.bias": "model-00002-of-00003.safetensors",
     "model.layers.22.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.22.mlp.fc1.bias": "model-00002-of-00003.safetensors",
     "model.layers.22.mlp.fc2.weight": "model-00002-of-00003.safetensors",
     "model.layers.22.self_attn.dense.bias": "model-00002-of-00003.safetensors",
     "model.layers.22.self_attn.dense.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
     "model.layers.23.input_layernorm.bias": "model-00002-of-00003.safetensors",
     "model.layers.23.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.23.mlp.fc1.bias": "model-00002-of-00003.safetensors",
     "model.layers.23.mlp.fc2.weight": "model-00002-of-00003.safetensors",
     "model.layers.23.self_attn.dense.bias": "model-00002-of-00003.safetensors",
     "model.layers.23.self_attn.dense.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
     "model.layers.24.input_layernorm.bias": "model-00002-of-00003.safetensors",
     "model.layers.24.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.24.mlp.fc1.bias": "model-00002-of-00003.safetensors",
     "model.layers.24.mlp.fc2.weight": "model-00002-of-00003.safetensors",
     "model.layers.24.self_attn.dense.bias": "model-00002-of-00003.safetensors",
     "model.layers.24.self_attn.dense.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
     "model.layers.25.input_layernorm.bias": "model-00002-of-00003.safetensors",
     "model.layers.25.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.25.mlp.fc1.bias": "model-00002-of-00003.safetensors",
     "model.layers.25.mlp.fc2.weight": "model-00002-of-00003.safetensors",
     "model.layers.25.self_attn.dense.bias": "model-00002-of-00003.safetensors",
     "model.layers.25.self_attn.dense.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
     "model.layers.26.input_layernorm.bias": "model-00002-of-00003.safetensors",
     "model.layers.26.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.26.mlp.fc1.bias": "model-00002-of-00003.safetensors",
     "model.layers.26.mlp.fc2.weight": "model-00002-of-00003.safetensors",
     "model.layers.26.self_attn.dense.bias": "model-00002-of-00003.safetensors",
     "model.layers.26.self_attn.dense.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
     "model.layers.27.input_layernorm.bias": "model-00002-of-00003.safetensors",
     "model.layers.27.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.27.mlp.fc1.bias": "model-00002-of-00003.safetensors",
     "model.layers.27.mlp.fc2.weight": "model-00002-of-00003.safetensors",
     "model.layers.27.self_attn.dense.bias": "model-00002-of-00003.safetensors",
     "model.layers.27.self_attn.dense.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
     "model.layers.28.input_layernorm.bias": "model-00002-of-00003.safetensors",
     "model.layers.28.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.28.mlp.fc1.bias": "model-00002-of-00003.safetensors",
     "model.layers.28.mlp.fc2.weight": "model-00002-of-00003.safetensors",
     "model.layers.28.self_attn.dense.bias": "model-00002-of-00003.safetensors",
     "model.layers.28.self_attn.dense.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.29.input_layernorm.bias": "model-00002-of-00003.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "model.layers.29.mlp.fc1.bias": "model-00002-of-00003.safetensors",
     "model.layers.29.mlp.fc1.weight": "model-00002-of-00003.safetensors",
+    "model.layers.29.mlp.fc2.bias": "model-00002-of-00003.safetensors",
+    "model.layers.29.mlp.fc2.weight": "model-00002-of-00003.safetensors",
     "model.layers.29.self_attn.dense.bias": "model-00002-of-00003.safetensors",
     "model.layers.29.self_attn.dense.weight": "model-00002-of-00003.safetensors",
+    "model.layers.29.self_attn.k_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.29.self_attn.q_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.29.self_attn.v_proj.bias": "model-00002-of-00003.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
     "model.layers.3.input_layernorm.bias": "model-00001-of-00003.safetensors",
     "model.layers.3.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.3.mlp.fc1.bias": "model-00001-of-00003.safetensors",
     "model.layers.3.mlp.fc2.weight": "model-00001-of-00003.safetensors",
     "model.layers.3.self_attn.dense.bias": "model-00001-of-00003.safetensors",
     "model.layers.3.self_attn.dense.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
     "model.layers.30.input_layernorm.bias": "model-00003-of-00003.safetensors",
     "model.layers.30.input_layernorm.weight": "model-00003-of-00003.safetensors",
     "model.layers.30.mlp.fc1.bias": "model-00003-of-00003.safetensors",
     "model.layers.30.mlp.fc2.weight": "model-00003-of-00003.safetensors",
     "model.layers.30.self_attn.dense.bias": "model-00003-of-00003.safetensors",
     "model.layers.30.self_attn.dense.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.k_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.q_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.v_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
     "model.layers.31.input_layernorm.bias": "model-00003-of-00003.safetensors",
     "model.layers.31.input_layernorm.weight": "model-00003-of-00003.safetensors",
     "model.layers.31.mlp.fc1.bias": "model-00003-of-00003.safetensors",
     "model.layers.31.mlp.fc2.weight": "model-00003-of-00003.safetensors",
     "model.layers.31.self_attn.dense.bias": "model-00003-of-00003.safetensors",
     "model.layers.31.self_attn.dense.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.k_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.q_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.v_proj.bias": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
     "model.layers.4.input_layernorm.bias": "model-00001-of-00003.safetensors",
     "model.layers.4.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.4.mlp.fc1.bias": "model-00001-of-00003.safetensors",
     "model.layers.4.mlp.fc2.weight": "model-00001-of-00003.safetensors",
     "model.layers.4.self_attn.dense.bias": "model-00001-of-00003.safetensors",
     "model.layers.4.self_attn.dense.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
     "model.layers.5.input_layernorm.bias": "model-00001-of-00003.safetensors",
     "model.layers.5.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.5.mlp.fc1.bias": "model-00001-of-00003.safetensors",
     "model.layers.5.mlp.fc2.weight": "model-00001-of-00003.safetensors",
     "model.layers.5.self_attn.dense.bias": "model-00001-of-00003.safetensors",
     "model.layers.5.self_attn.dense.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
     "model.layers.6.input_layernorm.bias": "model-00001-of-00003.safetensors",
     "model.layers.6.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.6.mlp.fc1.bias": "model-00001-of-00003.safetensors",
     "model.layers.6.mlp.fc2.weight": "model-00001-of-00003.safetensors",
     "model.layers.6.self_attn.dense.bias": "model-00001-of-00003.safetensors",
     "model.layers.6.self_attn.dense.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
     "model.layers.7.input_layernorm.bias": "model-00001-of-00003.safetensors",
     "model.layers.7.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.7.mlp.fc1.bias": "model-00001-of-00003.safetensors",
     "model.layers.7.mlp.fc2.weight": "model-00001-of-00003.safetensors",
     "model.layers.7.self_attn.dense.bias": "model-00001-of-00003.safetensors",
     "model.layers.7.self_attn.dense.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
     "model.layers.8.input_layernorm.bias": "model-00001-of-00003.safetensors",
     "model.layers.8.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.8.mlp.fc1.bias": "model-00001-of-00003.safetensors",
     "model.layers.8.mlp.fc2.weight": "model-00001-of-00003.safetensors",
     "model.layers.8.self_attn.dense.bias": "model-00001-of-00003.safetensors",
     "model.layers.8.self_attn.dense.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
     "model.layers.9.input_layernorm.bias": "model-00001-of-00003.safetensors",
     "model.layers.9.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "model.layers.9.mlp.fc1.bias": "model-00001-of-00003.safetensors",
     "model.layers.9.mlp.fc2.weight": "model-00001-of-00003.safetensors",
     "model.layers.9.self_attn.dense.bias": "model-00001-of-00003.safetensors",
     "model.layers.9.self_attn.dense.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00003.safetensors"
   }
 }