Upload LlamaForCausalLM

Browse files

Files changed (5) hide show

config.json +2 -2
generation_config.json +4 -1
model-00001-of-00002.safetensors +2 -2
model-00002-of-00002.safetensors +2 -2
model.safetensors.index.json +43 -43

config.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-  "_name_or_path": "meta-llama/Meta-Llama-3-8B",
   "architectures": [
     "LlamaForCausalLM"
   ],
   "attention_bias": false,
   "attention_dropout": 0.0,
   "bos_token_id": 128000,
-  "eos_token_id": 128001,
   "hidden_act": "silu",
   "hidden_size": 4096,
   "initializer_range": 0.02,

 {
+  "_name_or_path": "meta-llama/Meta-Llama-3-8B-instruct",
   "architectures": [
     "LlamaForCausalLM"
   ],
   "attention_bias": false,
   "attention_dropout": 0.0,
   "bos_token_id": 128000,
+  "eos_token_id": 128009,
   "hidden_act": "silu",
   "hidden_size": 4096,
   "initializer_range": 0.02,

generation_config.json CHANGED Viewed

@@ -1,7 +1,10 @@
 {
   "bos_token_id": 128000,
   "do_sample": true,
-  "eos_token_id": 128001,
   "max_length": 4096,
   "temperature": 0.6,
   "top_p": 0.9,

 {
   "bos_token_id": 128000,
   "do_sample": true,
+  "eos_token_id": [
+    128001,
+    128009
+  ],
   "max_length": 4096,
   "temperature": 0.6,
   "top_p": 0.9,

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d41473ac2c2bf03fee50a52fc202e433fabb9c9c2f32a66f7d290634d59a0fa
-size 4994513900

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f4d36ebcda7dafe986b657b34d47958ecdd37b6ae2c997a140afaddee73dd29
+size 4983490991

model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2afe22afc39607165c7dc0c62dc135f8558d0a0406f9ea25133fd445c0690b11
-size 2894068673

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ab23e701e017b606c350c3ec215e11c37ca4ed81ab22086f1f377075b536c52
+size 2988978828

model.safetensors.index.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "metadata": {
-    "total_size": 7888342613
   },
   "weight_map": {
     "lm_head.modules_to_save.default.weight": "model-00002-of-00002.safetensors",
@@ -993,15 +993,15 @@
     "model.layers.23.self_attn.v_proj.base_layer.weight.quant_state.bitsandbytes__nf4": "model-00001-of-00002.safetensors",
     "model.layers.23.self_attn.v_proj.lora_A.default.weight": "model-00001-of-00002.safetensors",
     "model.layers.23.self_attn.v_proj.lora_B.default.weight": "model-00001-of-00002.safetensors",
-    "model.layers.24.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.24.mlp.down_proj.base_layer.weight": "model-00001-of-00002.safetensors",
-    "model.layers.24.mlp.down_proj.base_layer.weight.absmax": "model-00001-of-00002.safetensors",
-    "model.layers.24.mlp.down_proj.base_layer.weight.nested_absmax": "model-00001-of-00002.safetensors",
-    "model.layers.24.mlp.down_proj.base_layer.weight.nested_quant_map": "model-00001-of-00002.safetensors",
-    "model.layers.24.mlp.down_proj.base_layer.weight.quant_map": "model-00001-of-00002.safetensors",
-    "model.layers.24.mlp.down_proj.base_layer.weight.quant_state.bitsandbytes__nf4": "model-00001-of-00002.safetensors",
-    "model.layers.24.mlp.down_proj.lora_A.default.weight": "model-00001-of-00002.safetensors",
-    "model.layers.24.mlp.down_proj.lora_B.default.weight": "model-00001-of-00002.safetensors",
     "model.layers.24.mlp.gate_proj.base_layer.weight": "model-00001-of-00002.safetensors",
     "model.layers.24.mlp.gate_proj.base_layer.weight.absmax": "model-00001-of-00002.safetensors",
     "model.layers.24.mlp.gate_proj.base_layer.weight.nested_absmax": "model-00001-of-00002.safetensors",
@@ -1010,15 +1010,15 @@
     "model.layers.24.mlp.gate_proj.base_layer.weight.quant_state.bitsandbytes__nf4": "model-00001-of-00002.safetensors",
     "model.layers.24.mlp.gate_proj.lora_A.default.weight": "model-00001-of-00002.safetensors",
     "model.layers.24.mlp.gate_proj.lora_B.default.weight": "model-00001-of-00002.safetensors",
-    "model.layers.24.mlp.up_proj.base_layer.weight": "model-00001-of-00002.safetensors",
-    "model.layers.24.mlp.up_proj.base_layer.weight.absmax": "model-00001-of-00002.safetensors",
-    "model.layers.24.mlp.up_proj.base_layer.weight.nested_absmax": "model-00001-of-00002.safetensors",
-    "model.layers.24.mlp.up_proj.base_layer.weight.nested_quant_map": "model-00001-of-00002.safetensors",
-    "model.layers.24.mlp.up_proj.base_layer.weight.quant_map": "model-00001-of-00002.safetensors",
-    "model.layers.24.mlp.up_proj.base_layer.weight.quant_state.bitsandbytes__nf4": "model-00001-of-00002.safetensors",
-    "model.layers.24.mlp.up_proj.lora_A.default.weight": "model-00001-of-00002.safetensors",
-    "model.layers.24.mlp.up_proj.lora_B.default.weight": "model-00001-of-00002.safetensors",
-    "model.layers.24.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.24.self_attn.k_proj.base_layer.weight": "model-00001-of-00002.safetensors",
     "model.layers.24.self_attn.k_proj.base_layer.weight.absmax": "model-00001-of-00002.safetensors",
     "model.layers.24.self_attn.k_proj.base_layer.weight.nested_absmax": "model-00001-of-00002.safetensors",
@@ -1077,14 +1077,14 @@
     "model.layers.25.mlp.up_proj.lora_A.default.weight": "model-00002-of-00002.safetensors",
     "model.layers.25.mlp.up_proj.lora_B.default.weight": "model-00002-of-00002.safetensors",
     "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.25.self_attn.k_proj.base_layer.weight": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.k_proj.base_layer.weight.absmax": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.k_proj.base_layer.weight.nested_absmax": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.k_proj.base_layer.weight.nested_quant_map": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.k_proj.base_layer.weight.quant_map": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.k_proj.base_layer.weight.quant_state.bitsandbytes__nf4": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.k_proj.lora_A.default.weight": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.k_proj.lora_B.default.weight": "model-00001-of-00002.safetensors",
     "model.layers.25.self_attn.o_proj.base_layer.weight": "model-00002-of-00002.safetensors",
     "model.layers.25.self_attn.o_proj.base_layer.weight.absmax": "model-00002-of-00002.safetensors",
     "model.layers.25.self_attn.o_proj.base_layer.weight.nested_absmax": "model-00002-of-00002.safetensors",
@@ -1093,22 +1093,22 @@
     "model.layers.25.self_attn.o_proj.base_layer.weight.quant_state.bitsandbytes__nf4": "model-00002-of-00002.safetensors",
     "model.layers.25.self_attn.o_proj.lora_A.default.weight": "model-00002-of-00002.safetensors",
     "model.layers.25.self_attn.o_proj.lora_B.default.weight": "model-00002-of-00002.safetensors",
-    "model.layers.25.self_attn.q_proj.base_layer.weight": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.q_proj.base_layer.weight.absmax": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.q_proj.base_layer.weight.nested_absmax": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.q_proj.base_layer.weight.nested_quant_map": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.q_proj.base_layer.weight.quant_map": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.q_proj.base_layer.weight.quant_state.bitsandbytes__nf4": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.q_proj.lora_A.default.weight": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.q_proj.lora_B.default.weight": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.v_proj.base_layer.weight": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.v_proj.base_layer.weight.absmax": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.v_proj.base_layer.weight.nested_absmax": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.v_proj.base_layer.weight.nested_quant_map": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.v_proj.base_layer.weight.quant_map": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.v_proj.base_layer.weight.quant_state.bitsandbytes__nf4": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.v_proj.lora_A.default.weight": "model-00001-of-00002.safetensors",
-    "model.layers.25.self_attn.v_proj.lora_B.default.weight": "model-00001-of-00002.safetensors",
     "model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.26.mlp.down_proj.base_layer.weight": "model-00002-of-00002.safetensors",
     "model.layers.26.mlp.down_proj.base_layer.weight.absmax": "model-00002-of-00002.safetensors",

 {
   "metadata": {
+    "total_size": 7972228691
   },
   "weight_map": {
     "lm_head.modules_to_save.default.weight": "model-00002-of-00002.safetensors",
     "model.layers.23.self_attn.v_proj.base_layer.weight.quant_state.bitsandbytes__nf4": "model-00001-of-00002.safetensors",
     "model.layers.23.self_attn.v_proj.lora_A.default.weight": "model-00001-of-00002.safetensors",
     "model.layers.23.self_attn.v_proj.lora_B.default.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.down_proj.base_layer.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.down_proj.base_layer.weight.absmax": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.down_proj.base_layer.weight.nested_absmax": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.down_proj.base_layer.weight.nested_quant_map": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.down_proj.base_layer.weight.quant_map": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.down_proj.base_layer.weight.quant_state.bitsandbytes__nf4": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.down_proj.lora_A.default.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.down_proj.lora_B.default.weight": "model-00002-of-00002.safetensors",
     "model.layers.24.mlp.gate_proj.base_layer.weight": "model-00001-of-00002.safetensors",
     "model.layers.24.mlp.gate_proj.base_layer.weight.absmax": "model-00001-of-00002.safetensors",
     "model.layers.24.mlp.gate_proj.base_layer.weight.nested_absmax": "model-00001-of-00002.safetensors",
     "model.layers.24.mlp.gate_proj.base_layer.weight.quant_state.bitsandbytes__nf4": "model-00001-of-00002.safetensors",
     "model.layers.24.mlp.gate_proj.lora_A.default.weight": "model-00001-of-00002.safetensors",
     "model.layers.24.mlp.gate_proj.lora_B.default.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.mlp.up_proj.base_layer.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.up_proj.base_layer.weight.absmax": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.up_proj.base_layer.weight.nested_absmax": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.up_proj.base_layer.weight.nested_quant_map": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.up_proj.base_layer.weight.quant_map": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.up_proj.base_layer.weight.quant_state.bitsandbytes__nf4": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.up_proj.lora_A.default.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.up_proj.lora_B.default.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.24.self_attn.k_proj.base_layer.weight": "model-00001-of-00002.safetensors",
     "model.layers.24.self_attn.k_proj.base_layer.weight.absmax": "model-00001-of-00002.safetensors",
     "model.layers.24.self_attn.k_proj.base_layer.weight.nested_absmax": "model-00001-of-00002.safetensors",
     "model.layers.25.mlp.up_proj.lora_A.default.weight": "model-00002-of-00002.safetensors",
     "model.layers.25.mlp.up_proj.lora_B.default.weight": "model-00002-of-00002.safetensors",
     "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.k_proj.base_layer.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.k_proj.base_layer.weight.absmax": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.k_proj.base_layer.weight.nested_absmax": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.k_proj.base_layer.weight.nested_quant_map": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.k_proj.base_layer.weight.quant_map": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.k_proj.base_layer.weight.quant_state.bitsandbytes__nf4": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.k_proj.lora_A.default.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.k_proj.lora_B.default.weight": "model-00002-of-00002.safetensors",
     "model.layers.25.self_attn.o_proj.base_layer.weight": "model-00002-of-00002.safetensors",
     "model.layers.25.self_attn.o_proj.base_layer.weight.absmax": "model-00002-of-00002.safetensors",
     "model.layers.25.self_attn.o_proj.base_layer.weight.nested_absmax": "model-00002-of-00002.safetensors",
     "model.layers.25.self_attn.o_proj.base_layer.weight.quant_state.bitsandbytes__nf4": "model-00002-of-00002.safetensors",
     "model.layers.25.self_attn.o_proj.lora_A.default.weight": "model-00002-of-00002.safetensors",
     "model.layers.25.self_attn.o_proj.lora_B.default.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.q_proj.base_layer.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.q_proj.base_layer.weight.absmax": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.q_proj.base_layer.weight.nested_absmax": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.q_proj.base_layer.weight.nested_quant_map": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.q_proj.base_layer.weight.quant_map": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.q_proj.base_layer.weight.quant_state.bitsandbytes__nf4": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.q_proj.lora_A.default.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.q_proj.lora_B.default.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.v_proj.base_layer.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.v_proj.base_layer.weight.absmax": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.v_proj.base_layer.weight.nested_absmax": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.v_proj.base_layer.weight.nested_quant_map": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.v_proj.base_layer.weight.quant_map": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.v_proj.base_layer.weight.quant_state.bitsandbytes__nf4": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.v_proj.lora_A.default.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.v_proj.lora_B.default.weight": "model-00002-of-00002.safetensors",
     "model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.26.mlp.down_proj.base_layer.weight": "model-00002-of-00002.safetensors",
     "model.layers.26.mlp.down_proj.base_layer.weight.absmax": "model-00002-of-00002.safetensors",