Spaces:

tttoaster
/

SEED-X-17B

Build error

App Files Files Community

yuyingge commited on May 4

Commit

6605b7c

•

1 Parent(s): 59773a0

Upload Demo

Browse files

Files changed (20) hide show

configs/clm_models/agent_seed_x_i.yaml +1 -1
configs/clm_models/llm_seed_x_i.yaml +1 -1
configs/sdxl_adapter/sdxl_qwen_vit_resampler_l4_q64_pretrain_no_normalize.yaml +1 -1
configs/tokenizer/clm_llama_tokenizer_224loc_anyres.yaml +1 -1
pretrained/cvlm_llama2_tokenizer_100img_and_224loc_addpatch/added_tokens.json +332 -0
pretrained/cvlm_llama2_tokenizer_100img_and_224loc_addpatch/special_tokens_map.json +24 -0
pretrained/cvlm_llama2_tokenizer_100img_and_224loc_addpatch/tokenizer.model +3 -0
pretrained/cvlm_llama2_tokenizer_100img_and_224loc_addpatch/tokenizer_config.json +34 -0
pretrained/seed_detokenizer/first_stage/pytorch_model.bin +3 -0
pretrained/seed_x_i/agent/pytorch_model.bin +3 -0
pretrained/seed_x_i/llm/config.json +26 -0
pretrained/seed_x_i/llm/generation_config.json +9 -0
pretrained/seed_x_i/llm/pytorch_model-00001-of-00006.bin +3 -0
pretrained/seed_x_i/llm/pytorch_model-00002-of-00006.bin +3 -0
pretrained/seed_x_i/llm/pytorch_model-00003-of-00006.bin +3 -0
pretrained/seed_x_i/llm/pytorch_model-00004-of-00006.bin +3 -0
pretrained/seed_x_i/llm/pytorch_model-00005-of-00006.bin +3 -0
pretrained/seed_x_i/llm/pytorch_model-00006-of-00006.bin +3 -0
pretrained/seed_x_i/llm/pytorch_model.bin.index.json +410 -0
start.py +1 -1

configs/clm_models/agent_seed_x_i.yaml CHANGED Viewed

@@ -20,4 +20,4 @@ mse: True
 lm_loss_scale: 1.0
 rec_loss_scale: 6.0
-pretrained_model_path: https://huggingface.co/AILab-CVC/SEED-X-17B/blob/main/seed_x_i/agent/pytorch_model.bin

 lm_loss_scale: 1.0
 rec_loss_scale: 6.0
+pretrained_model_path: pretrained/seed_x_i/agent/pytorch_model.bin

configs/clm_models/llm_seed_x_i.yaml CHANGED Viewed

@@ -1,3 +1,3 @@
 _target_: src.models.mllm.modeling_llama_xformer.LlamaForCausalLM.from_pretrained
-pretrained_model_name_or_path: https://huggingface.co/AILab-CVC/SEED-X-17B/tree/main/seed_x_i/llm
 low_cpu_mem_usage: True

 _target_: src.models.mllm.modeling_llama_xformer.LlamaForCausalLM.from_pretrained
+pretrained_model_name_or_path: pretrained/seed_x_i/llm
 low_cpu_mem_usage: True

configs/sdxl_adapter/sdxl_qwen_vit_resampler_l4_q64_pretrain_no_normalize.yaml CHANGED Viewed

@@ -15,4 +15,4 @@ resampler:
 vit_down: True
-pretrained_model_path: https://huggingface.co/AILab-CVC/SEED-X-17B/blob/main/seed_detokenizer/first_stage/pytorch_model.bin


15
16	vit_down: True
17
18	+ pretrained_model_path: pretrained/seed_detokenizer/first_stage/pytorch_model.bin

configs/tokenizer/clm_llama_tokenizer_224loc_anyres.yaml CHANGED Viewed

	@@ -1,2 +1,2 @@
1	_target_: transformers.LlamaTokenizer.from_pretrained
2	- pretrained_model_name_or_path: ~~https://huggingface.co~~/~~AILab-CVC/SEED-X-17B/tree/main/~~cvlm_llama2_tokenizer_100img_and_224loc_addpatch


1	_target_: transformers.LlamaTokenizer.from_pretrained
2	+ pretrained_model_name_or_path: pretrained/cvlm_llama2_tokenizer_100img_and_224loc_addpatch

pretrained/cvlm_llama2_tokenizer_100img_and_224loc_addpatch/added_tokens.json ADDED Viewed

	@@ -0,0 +1,332 @@

+{
+  "</img>": 32101,
+  "</patch>": 32103,
+  "<box_end>": 32329,
+  "<box_start>": 32328,
+  "<img>": 32100,
+  "<img_00000>": 32000,
+  "<img_00001>": 32001,
+  "<img_00002>": 32002,
+  "<img_00003>": 32003,
+  "<img_00004>": 32004,
+  "<img_00005>": 32005,
+  "<img_00006>": 32006,
+  "<img_00007>": 32007,
+  "<img_00008>": 32008,
+  "<img_00009>": 32009,
+  "<img_00010>": 32010,
+  "<img_00011>": 32011,
+  "<img_00012>": 32012,
+  "<img_00013>": 32013,
+  "<img_00014>": 32014,
+  "<img_00015>": 32015,
+  "<img_00016>": 32016,
+  "<img_00017>": 32017,
+  "<img_00018>": 32018,
+  "<img_00019>": 32019,
+  "<img_00020>": 32020,
+  "<img_00021>": 32021,
+  "<img_00022>": 32022,
+  "<img_00023>": 32023,
+  "<img_00024>": 32024,
+  "<img_00025>": 32025,
+  "<img_00026>": 32026,
+  "<img_00027>": 32027,
+  "<img_00028>": 32028,
+  "<img_00029>": 32029,
+  "<img_00030>": 32030,
+  "<img_00031>": 32031,
+  "<img_00032>": 32032,
+  "<img_00033>": 32033,
+  "<img_00034>": 32034,
+  "<img_00035>": 32035,
+  "<img_00036>": 32036,
+  "<img_00037>": 32037,
+  "<img_00038>": 32038,
+  "<img_00039>": 32039,
+  "<img_00040>": 32040,
+  "<img_00041>": 32041,
+  "<img_00042>": 32042,
+  "<img_00043>": 32043,
+  "<img_00044>": 32044,
+  "<img_00045>": 32045,
+  "<img_00046>": 32046,
+  "<img_00047>": 32047,
+  "<img_00048>": 32048,
+  "<img_00049>": 32049,
+  "<img_00050>": 32050,
+  "<img_00051>": 32051,
+  "<img_00052>": 32052,
+  "<img_00053>": 32053,
+  "<img_00054>": 32054,
+  "<img_00055>": 32055,
+  "<img_00056>": 32056,
+  "<img_00057>": 32057,
+  "<img_00058>": 32058,
+  "<img_00059>": 32059,
+  "<img_00060>": 32060,
+  "<img_00061>": 32061,
+  "<img_00062>": 32062,
+  "<img_00063>": 32063,
+  "<img_00064>": 32064,
+  "<img_00065>": 32065,
+  "<img_00066>": 32066,
+  "<img_00067>": 32067,
+  "<img_00068>": 32068,
+  "<img_00069>": 32069,
+  "<img_00070>": 32070,
+  "<img_00071>": 32071,
+  "<img_00072>": 32072,
+  "<img_00073>": 32073,
+  "<img_00074>": 32074,
+  "<img_00075>": 32075,
+  "<img_00076>": 32076,
+  "<img_00077>": 32077,
+  "<img_00078>": 32078,
+  "<img_00079>": 32079,
+  "<img_00080>": 32080,
+  "<img_00081>": 32081,
+  "<img_00082>": 32082,
+  "<img_00083>": 32083,
+  "<img_00084>": 32084,
+  "<img_00085>": 32085,
+  "<img_00086>": 32086,
+  "<img_00087>": 32087,
+  "<img_00088>": 32088,
+  "<img_00089>": 32089,
+  "<img_00090>": 32090,
+  "<img_00091>": 32091,
+  "<img_00092>": 32092,
+  "<img_00093>": 32093,
+  "<img_00094>": 32094,
+  "<img_00095>": 32095,
+  "<img_00096>": 32096,
+  "<img_00097>": 32097,
+  "<img_00098>": 32098,
+  "<img_00099>": 32099,
+  "<loc-0>": 32104,
+  "<loc-100>": 32204,
+  "<loc-101>": 32205,
+  "<loc-102>": 32206,
+  "<loc-103>": 32207,
+  "<loc-104>": 32208,
+  "<loc-105>": 32209,
+  "<loc-106>": 32210,
+  "<loc-107>": 32211,
+  "<loc-108>": 32212,
+  "<loc-109>": 32213,
+  "<loc-10>": 32114,
+  "<loc-110>": 32214,
+  "<loc-111>": 32215,
+  "<loc-112>": 32216,
+  "<loc-113>": 32217,
+  "<loc-114>": 32218,
+  "<loc-115>": 32219,
+  "<loc-116>": 32220,
+  "<loc-117>": 32221,
+  "<loc-118>": 32222,
+  "<loc-119>": 32223,
+  "<loc-11>": 32115,
+  "<loc-120>": 32224,
+  "<loc-121>": 32225,
+  "<loc-122>": 32226,
+  "<loc-123>": 32227,
+  "<loc-124>": 32228,
+  "<loc-125>": 32229,
+  "<loc-126>": 32230,
+  "<loc-127>": 32231,
+  "<loc-128>": 32232,
+  "<loc-129>": 32233,
+  "<loc-12>": 32116,
+  "<loc-130>": 32234,
+  "<loc-131>": 32235,
+  "<loc-132>": 32236,
+  "<loc-133>": 32237,
+  "<loc-134>": 32238,
+  "<loc-135>": 32239,
+  "<loc-136>": 32240,
+  "<loc-137>": 32241,
+  "<loc-138>": 32242,
+  "<loc-139>": 32243,
+  "<loc-13>": 32117,
+  "<loc-140>": 32244,
+  "<loc-141>": 32245,
+  "<loc-142>": 32246,
+  "<loc-143>": 32247,
+  "<loc-144>": 32248,
+  "<loc-145>": 32249,
+  "<loc-146>": 32250,
+  "<loc-147>": 32251,
+  "<loc-148>": 32252,
+  "<loc-149>": 32253,
+  "<loc-14>": 32118,
+  "<loc-150>": 32254,
+  "<loc-151>": 32255,
+  "<loc-152>": 32256,
+  "<loc-153>": 32257,
+  "<loc-154>": 32258,
+  "<loc-155>": 32259,
+  "<loc-156>": 32260,
+  "<loc-157>": 32261,
+  "<loc-158>": 32262,
+  "<loc-159>": 32263,
+  "<loc-15>": 32119,
+  "<loc-160>": 32264,
+  "<loc-161>": 32265,
+  "<loc-162>": 32266,
+  "<loc-163>": 32267,
+  "<loc-164>": 32268,
+  "<loc-165>": 32269,
+  "<loc-166>": 32270,
+  "<loc-167>": 32271,
+  "<loc-168>": 32272,
+  "<loc-169>": 32273,
+  "<loc-16>": 32120,
+  "<loc-170>": 32274,
+  "<loc-171>": 32275,
+  "<loc-172>": 32276,
+  "<loc-173>": 32277,
+  "<loc-174>": 32278,
+  "<loc-175>": 32279,
+  "<loc-176>": 32280,
+  "<loc-177>": 32281,
+  "<loc-178>": 32282,
+  "<loc-179>": 32283,
+  "<loc-17>": 32121,
+  "<loc-180>": 32284,
+  "<loc-181>": 32285,
+  "<loc-182>": 32286,
+  "<loc-183>": 32287,
+  "<loc-184>": 32288,
+  "<loc-185>": 32289,
+  "<loc-186>": 32290,
+  "<loc-187>": 32291,
+  "<loc-188>": 32292,
+  "<loc-189>": 32293,
+  "<loc-18>": 32122,
+  "<loc-190>": 32294,
+  "<loc-191>": 32295,
+  "<loc-192>": 32296,
+  "<loc-193>": 32297,
+  "<loc-194>": 32298,
+  "<loc-195>": 32299,
+  "<loc-196>": 32300,
+  "<loc-197>": 32301,
+  "<loc-198>": 32302,
+  "<loc-199>": 32303,
+  "<loc-19>": 32123,
+  "<loc-1>": 32105,
+  "<loc-200>": 32304,
+  "<loc-201>": 32305,
+  "<loc-202>": 32306,
+  "<loc-203>": 32307,
+  "<loc-204>": 32308,
+  "<loc-205>": 32309,
+  "<loc-206>": 32310,
+  "<loc-207>": 32311,
+  "<loc-208>": 32312,
+  "<loc-209>": 32313,
+  "<loc-20>": 32124,
+  "<loc-210>": 32314,
+  "<loc-211>": 32315,
+  "<loc-212>": 32316,
+  "<loc-213>": 32317,
+  "<loc-214>": 32318,
+  "<loc-215>": 32319,
+  "<loc-216>": 32320,
+  "<loc-217>": 32321,
+  "<loc-218>": 32322,
+  "<loc-219>": 32323,
+  "<loc-21>": 32125,
+  "<loc-220>": 32324,
+  "<loc-221>": 32325,
+  "<loc-222>": 32326,
+  "<loc-223>": 32327,
+  "<loc-22>": 32126,
+  "<loc-23>": 32127,
+  "<loc-24>": 32128,
+  "<loc-25>": 32129,
+  "<loc-26>": 32130,
+  "<loc-27>": 32131,
+  "<loc-28>": 32132,
+  "<loc-29>": 32133,
+  "<loc-2>": 32106,
+  "<loc-30>": 32134,
+  "<loc-31>": 32135,
+  "<loc-32>": 32136,
+  "<loc-33>": 32137,
+  "<loc-34>": 32138,
+  "<loc-35>": 32139,
+  "<loc-36>": 32140,
+  "<loc-37>": 32141,
+  "<loc-38>": 32142,
+  "<loc-39>": 32143,
+  "<loc-3>": 32107,
+  "<loc-40>": 32144,
+  "<loc-41>": 32145,
+  "<loc-42>": 32146,
+  "<loc-43>": 32147,
+  "<loc-44>": 32148,
+  "<loc-45>": 32149,
+  "<loc-46>": 32150,
+  "<loc-47>": 32151,
+  "<loc-48>": 32152,
+  "<loc-49>": 32153,
+  "<loc-4>": 32108,
+  "<loc-50>": 32154,
+  "<loc-51>": 32155,
+  "<loc-52>": 32156,
+  "<loc-53>": 32157,
+  "<loc-54>": 32158,
+  "<loc-55>": 32159,
+  "<loc-56>": 32160,
+  "<loc-57>": 32161,
+  "<loc-58>": 32162,
+  "<loc-59>": 32163,
+  "<loc-5>": 32109,
+  "<loc-60>": 32164,
+  "<loc-61>": 32165,
+  "<loc-62>": 32166,
+  "<loc-63>": 32167,
+  "<loc-64>": 32168,
+  "<loc-65>": 32169,
+  "<loc-66>": 32170,
+  "<loc-67>": 32171,
+  "<loc-68>": 32172,
+  "<loc-69>": 32173,
+  "<loc-6>": 32110,
+  "<loc-70>": 32174,
+  "<loc-71>": 32175,
+  "<loc-72>": 32176,
+  "<loc-73>": 32177,
+  "<loc-74>": 32178,
+  "<loc-75>": 32179,
+  "<loc-76>": 32180,
+  "<loc-77>": 32181,
+  "<loc-78>": 32182,
+  "<loc-79>": 32183,
+  "<loc-7>": 32111,
+  "<loc-80>": 32184,
+  "<loc-81>": 32185,
+  "<loc-82>": 32186,
+  "<loc-83>": 32187,
+  "<loc-84>": 32188,
+  "<loc-85>": 32189,
+  "<loc-86>": 32190,
+  "<loc-87>": 32191,
+  "<loc-88>": 32192,
+  "<loc-89>": 32193,
+  "<loc-8>": 32112,
+  "<loc-90>": 32194,
+  "<loc-91>": 32195,
+  "<loc-92>": 32196,
+  "<loc-93>": 32197,
+  "<loc-94>": 32198,
+  "<loc-95>": 32199,
+  "<loc-96>": 32200,
+  "<loc-97>": 32201,
+  "<loc-98>": 32202,
+  "<loc-99>": 32203,
+  "<loc-9>": 32113,
+  "<patch>": 32102
+}

pretrained/cvlm_llama2_tokenizer_100img_and_224loc_addpatch/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<unk>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

pretrained/cvlm_llama2_tokenizer_100img_and_224loc_addpatch/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

pretrained/cvlm_llama2_tokenizer_100img_and_224loc_addpatch/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "clean_up_tokenization_spaces": false,
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "legacy": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": null,
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

pretrained/seed_detokenizer/first_stage/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a06a56bcfe123b5a01f91fde57999879060cb1155ebfea1b75861d14db7a0c72
+size 2427381181

pretrained/seed_x_i/agent/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:69a5b99cd19455d20cd0208119315cc0b913c8e77b2768d2c0a0c2f1256375e0
+size 860741046

pretrained/seed_x_i/llm/config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "_name_or_path": "/chat_sh/share_300719895/user/yuyingge/jinguo_code/DiscreteLearning_debug/train_output/04_08_seedx_llama13b_vitg_448_anyres_pretrain/checkpoint-36000-merged/llm",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 5120,
+  "initializer_range": 0.02,
+  "intermediate_size": 13824,
+  "max_position_embeddings": 2048,
+  "model_type": "llama",
+  "num_attention_heads": 40,
+  "num_hidden_layers": 40,
+  "num_key_value_heads": 40,
+  "pad_token_id": 0,
+  "pretraining_tp": 2,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.30.2",
+  "use_cache": true,
+  "vocab_size": 32330
+}

pretrained/seed_x_i/llm/generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "temperature": 0.9,
+  "top_p": 0.6,
+  "transformers_version": "4.30.2"
+}

pretrained/seed_x_i/llm/pytorch_model-00001-of-00006.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4ba0ab7334b44e0f357358e51236f45b169321eb4ca6bac67866d01c6db1b0cb
+size 9963302283

pretrained/seed_x_i/llm/pytorch_model-00002-of-00006.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d8e8680f3d78b862ac53f7d655db9e6f30ccbc21871c620a2fc16180024c09fd
+size 9940856385

pretrained/seed_x_i/llm/pytorch_model-00003-of-00006.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6da3743abde1180acffa6cba85275e60cc1faf96b89de7d17c1b5a1ee2357016
+size 9940856943

pretrained/seed_x_i/llm/pytorch_model-00004-of-00006.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3559641543783cd66fb65c2c728f9078b8d9b84d260282ebb79ea330f43014b1
+size 9867415289

pretrained/seed_x_i/llm/pytorch_model-00005-of-00006.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d2c02f6e5b5669d2a919194106dc2577bc47d34f36da9ed3a4e17c2d7bbffd1c
+size 9867456961

pretrained/seed_x_i/llm/pytorch_model-00006-of-00006.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2d1d6d1d5ee4fc7b5b3693db36d5eb623ebf8b1826a0a4e923dabddffecdb7b4
+size 2497234607

pretrained/seed_x_i/llm/pytorch_model.bin.index.json ADDED Viewed

	@@ -0,0 +1,410 @@

+{
+  "metadata": {
+    "total_size": 52076984320
+  },
+  "weight_map": {
+    "lm_head.weight": "pytorch_model-00006-of-00006.bin",
+    "model.embed_tokens.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.0.input_layernorm.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.0.mlp.down_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.0.mlp.gate_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.0.mlp.up_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.0.post_attention_layernorm.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.0.self_attn.k_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.0.self_attn.o_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.0.self_attn.q_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.0.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00006.bin",
+    "model.layers.0.self_attn.v_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.1.input_layernorm.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.1.mlp.down_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.1.mlp.gate_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.1.mlp.up_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.1.post_attention_layernorm.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.1.self_attn.k_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.1.self_attn.o_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.1.self_attn.q_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.1.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00006.bin",
+    "model.layers.1.self_attn.v_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.10.input_layernorm.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.10.mlp.down_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.10.mlp.gate_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.10.mlp.up_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.10.post_attention_layernorm.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.10.self_attn.k_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.10.self_attn.o_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.10.self_attn.q_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.10.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00006.bin",
+    "model.layers.10.self_attn.v_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.11.input_layernorm.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.11.mlp.down_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.11.mlp.gate_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.11.mlp.up_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.11.post_attention_layernorm.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.11.self_attn.k_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.11.self_attn.o_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.11.self_attn.q_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.11.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00006.bin",
+    "model.layers.11.self_attn.v_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.12.input_layernorm.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.12.mlp.down_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.12.mlp.gate_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.12.mlp.up_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.12.post_attention_layernorm.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.12.self_attn.k_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.12.self_attn.o_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.12.self_attn.q_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.12.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00006.bin",
+    "model.layers.12.self_attn.v_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.13.input_layernorm.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.13.mlp.down_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.13.mlp.gate_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.13.mlp.up_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.13.post_attention_layernorm.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.13.self_attn.k_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.13.self_attn.o_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.13.self_attn.q_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.13.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00006.bin",
+    "model.layers.13.self_attn.v_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.14.input_layernorm.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.14.mlp.down_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.14.mlp.gate_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.14.mlp.up_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.14.post_attention_layernorm.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.14.self_attn.k_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.14.self_attn.o_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.14.self_attn.q_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.14.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00006.bin",
+    "model.layers.14.self_attn.v_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.15.input_layernorm.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.15.mlp.down_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.15.mlp.gate_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.15.mlp.up_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.15.post_attention_layernorm.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.15.self_attn.k_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.15.self_attn.o_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.15.self_attn.q_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.15.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00006.bin",
+    "model.layers.15.self_attn.v_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.16.input_layernorm.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.16.mlp.down_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.16.mlp.gate_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.16.mlp.up_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.16.post_attention_layernorm.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.16.self_attn.k_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.16.self_attn.o_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.16.self_attn.q_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.16.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00006.bin",
+    "model.layers.16.self_attn.v_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.17.input_layernorm.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.17.mlp.down_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.17.mlp.gate_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.17.mlp.up_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.17.post_attention_layernorm.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.17.self_attn.k_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.17.self_attn.o_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.17.self_attn.q_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.17.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00006.bin",
+    "model.layers.17.self_attn.v_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.18.input_layernorm.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.18.mlp.down_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.18.mlp.gate_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.18.mlp.up_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.18.post_attention_layernorm.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.18.self_attn.k_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.18.self_attn.o_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.18.self_attn.q_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.18.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00006.bin",
+    "model.layers.18.self_attn.v_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.19.input_layernorm.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.19.mlp.down_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.19.mlp.gate_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.19.mlp.up_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.19.post_attention_layernorm.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.19.self_attn.k_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.19.self_attn.o_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.19.self_attn.q_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.19.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00006.bin",
+    "model.layers.19.self_attn.v_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.2.input_layernorm.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.2.mlp.down_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.2.mlp.gate_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.2.mlp.up_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.2.post_attention_layernorm.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.2.self_attn.k_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.2.self_attn.o_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.2.self_attn.q_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.2.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00006.bin",
+    "model.layers.2.self_attn.v_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.20.input_layernorm.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.20.mlp.down_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.20.mlp.gate_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.20.mlp.up_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.20.post_attention_layernorm.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.20.self_attn.k_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.20.self_attn.o_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.20.self_attn.q_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.20.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00006.bin",
+    "model.layers.20.self_attn.v_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.21.input_layernorm.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.21.mlp.down_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.21.mlp.gate_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.21.mlp.up_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.21.post_attention_layernorm.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.21.self_attn.k_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.21.self_attn.o_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.21.self_attn.q_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.21.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00006.bin",
+    "model.layers.21.self_attn.v_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.22.input_layernorm.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.22.mlp.down_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.22.mlp.gate_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.22.mlp.up_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.22.post_attention_layernorm.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.22.self_attn.k_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.22.self_attn.o_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.22.self_attn.q_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.22.self_attn.rotary_emb.inv_freq": "pytorch_model-00003-of-00006.bin",
+    "model.layers.22.self_attn.v_proj.weight": "pytorch_model-00003-of-00006.bin",
+    "model.layers.23.input_layernorm.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.23.mlp.down_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.23.mlp.gate_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.23.mlp.up_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.23.post_attention_layernorm.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.23.self_attn.k_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.23.self_attn.o_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.23.self_attn.q_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.23.self_attn.rotary_emb.inv_freq": "pytorch_model-00004-of-00006.bin",
+    "model.layers.23.self_attn.v_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.24.input_layernorm.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.24.mlp.down_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.24.mlp.gate_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.24.mlp.up_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.24.post_attention_layernorm.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.24.self_attn.k_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.24.self_attn.o_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.24.self_attn.q_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.24.self_attn.rotary_emb.inv_freq": "pytorch_model-00004-of-00006.bin",
+    "model.layers.24.self_attn.v_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.25.input_layernorm.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.25.mlp.down_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.25.mlp.gate_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.25.mlp.up_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.25.post_attention_layernorm.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.25.self_attn.k_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.25.self_attn.o_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.25.self_attn.q_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.25.self_attn.rotary_emb.inv_freq": "pytorch_model-00004-of-00006.bin",
+    "model.layers.25.self_attn.v_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.26.input_layernorm.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.26.mlp.down_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.26.mlp.gate_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.26.mlp.up_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.26.post_attention_layernorm.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.26.self_attn.k_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.26.self_attn.o_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.26.self_attn.q_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.26.self_attn.rotary_emb.inv_freq": "pytorch_model-00004-of-00006.bin",
+    "model.layers.26.self_attn.v_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.27.input_layernorm.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.27.mlp.down_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.27.mlp.gate_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.27.mlp.up_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.27.post_attention_layernorm.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.27.self_attn.k_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.27.self_attn.o_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.27.self_attn.q_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.27.self_attn.rotary_emb.inv_freq": "pytorch_model-00004-of-00006.bin",
+    "model.layers.27.self_attn.v_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.28.input_layernorm.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.28.mlp.down_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.28.mlp.gate_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.28.mlp.up_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.28.post_attention_layernorm.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.28.self_attn.k_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.28.self_attn.o_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.28.self_attn.q_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.28.self_attn.rotary_emb.inv_freq": "pytorch_model-00004-of-00006.bin",
+    "model.layers.28.self_attn.v_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.29.input_layernorm.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.29.mlp.down_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.29.mlp.gate_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.29.mlp.up_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.29.post_attention_layernorm.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.29.self_attn.k_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.29.self_attn.o_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.29.self_attn.q_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.29.self_attn.rotary_emb.inv_freq": "pytorch_model-00004-of-00006.bin",
+    "model.layers.29.self_attn.v_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.3.input_layernorm.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.3.mlp.down_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.3.mlp.gate_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.3.mlp.up_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.3.post_attention_layernorm.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.3.self_attn.k_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.3.self_attn.o_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.3.self_attn.q_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.3.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00006.bin",
+    "model.layers.3.self_attn.v_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.30.input_layernorm.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.30.mlp.down_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.30.mlp.gate_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.30.mlp.up_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.30.post_attention_layernorm.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.30.self_attn.k_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.30.self_attn.o_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.30.self_attn.q_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.30.self_attn.rotary_emb.inv_freq": "pytorch_model-00004-of-00006.bin",
+    "model.layers.30.self_attn.v_proj.weight": "pytorch_model-00004-of-00006.bin",
+    "model.layers.31.input_layernorm.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.31.mlp.down_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.31.mlp.gate_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.31.mlp.up_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.31.post_attention_layernorm.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.31.self_attn.k_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.31.self_attn.o_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.31.self_attn.q_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.31.self_attn.rotary_emb.inv_freq": "pytorch_model-00005-of-00006.bin",
+    "model.layers.31.self_attn.v_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.32.input_layernorm.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.32.mlp.down_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.32.mlp.gate_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.32.mlp.up_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.32.post_attention_layernorm.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.32.self_attn.k_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.32.self_attn.o_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.32.self_attn.q_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.32.self_attn.rotary_emb.inv_freq": "pytorch_model-00005-of-00006.bin",
+    "model.layers.32.self_attn.v_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.33.input_layernorm.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.33.mlp.down_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.33.mlp.gate_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.33.mlp.up_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.33.post_attention_layernorm.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.33.self_attn.k_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.33.self_attn.o_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.33.self_attn.q_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.33.self_attn.rotary_emb.inv_freq": "pytorch_model-00005-of-00006.bin",
+    "model.layers.33.self_attn.v_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.34.input_layernorm.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.34.mlp.down_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.34.mlp.gate_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.34.mlp.up_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.34.post_attention_layernorm.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.34.self_attn.k_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.34.self_attn.o_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.34.self_attn.q_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.34.self_attn.rotary_emb.inv_freq": "pytorch_model-00005-of-00006.bin",
+    "model.layers.34.self_attn.v_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.35.input_layernorm.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.35.mlp.down_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.35.mlp.gate_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.35.mlp.up_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.35.post_attention_layernorm.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.35.self_attn.k_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.35.self_attn.o_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.35.self_attn.q_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.35.self_attn.rotary_emb.inv_freq": "pytorch_model-00005-of-00006.bin",
+    "model.layers.35.self_attn.v_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.36.input_layernorm.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.36.mlp.down_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.36.mlp.gate_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.36.mlp.up_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.36.post_attention_layernorm.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.36.self_attn.k_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.36.self_attn.o_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.36.self_attn.q_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.36.self_attn.rotary_emb.inv_freq": "pytorch_model-00005-of-00006.bin",
+    "model.layers.36.self_attn.v_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.37.input_layernorm.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.37.mlp.down_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.37.mlp.gate_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.37.mlp.up_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.37.post_attention_layernorm.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.37.self_attn.k_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.37.self_attn.o_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.37.self_attn.q_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.37.self_attn.rotary_emb.inv_freq": "pytorch_model-00005-of-00006.bin",
+    "model.layers.37.self_attn.v_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.38.input_layernorm.weight": "pytorch_model-00006-of-00006.bin",
+    "model.layers.38.mlp.down_proj.weight": "pytorch_model-00006-of-00006.bin",
+    "model.layers.38.mlp.gate_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.38.mlp.up_proj.weight": "pytorch_model-00006-of-00006.bin",
+    "model.layers.38.post_attention_layernorm.weight": "pytorch_model-00006-of-00006.bin",
+    "model.layers.38.self_attn.k_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.38.self_attn.o_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.38.self_attn.q_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.38.self_attn.rotary_emb.inv_freq": "pytorch_model-00005-of-00006.bin",
+    "model.layers.38.self_attn.v_proj.weight": "pytorch_model-00005-of-00006.bin",
+    "model.layers.39.input_layernorm.weight": "pytorch_model-00006-of-00006.bin",
+    "model.layers.39.mlp.down_proj.weight": "pytorch_model-00006-of-00006.bin",
+    "model.layers.39.mlp.gate_proj.weight": "pytorch_model-00006-of-00006.bin",
+    "model.layers.39.mlp.up_proj.weight": "pytorch_model-00006-of-00006.bin",
+    "model.layers.39.post_attention_layernorm.weight": "pytorch_model-00006-of-00006.bin",
+    "model.layers.39.self_attn.k_proj.weight": "pytorch_model-00006-of-00006.bin",
+    "model.layers.39.self_attn.o_proj.weight": "pytorch_model-00006-of-00006.bin",
+    "model.layers.39.self_attn.q_proj.weight": "pytorch_model-00006-of-00006.bin",
+    "model.layers.39.self_attn.rotary_emb.inv_freq": "pytorch_model-00006-of-00006.bin",
+    "model.layers.39.self_attn.v_proj.weight": "pytorch_model-00006-of-00006.bin",
+    "model.layers.4.input_layernorm.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.4.mlp.down_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.4.mlp.gate_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.4.mlp.up_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.4.post_attention_layernorm.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.4.self_attn.k_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.4.self_attn.o_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.4.self_attn.q_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.4.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00006.bin",
+    "model.layers.4.self_attn.v_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.5.input_layernorm.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.5.mlp.down_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.5.mlp.gate_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.5.mlp.up_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.5.post_attention_layernorm.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.5.self_attn.k_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.5.self_attn.o_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.5.self_attn.q_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.5.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00006.bin",
+    "model.layers.5.self_attn.v_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.6.input_layernorm.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.6.mlp.down_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.6.mlp.gate_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.6.mlp.up_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.6.post_attention_layernorm.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.6.self_attn.k_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.6.self_attn.o_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.6.self_attn.q_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.6.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00006.bin",
+    "model.layers.6.self_attn.v_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.7.input_layernorm.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.7.mlp.down_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.7.mlp.gate_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.7.mlp.up_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.7.post_attention_layernorm.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.7.self_attn.k_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.7.self_attn.o_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.7.self_attn.q_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.7.self_attn.rotary_emb.inv_freq": "pytorch_model-00001-of-00006.bin",
+    "model.layers.7.self_attn.v_proj.weight": "pytorch_model-00001-of-00006.bin",
+    "model.layers.8.input_layernorm.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.8.mlp.down_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.8.mlp.gate_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.8.mlp.up_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.8.post_attention_layernorm.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.8.self_attn.k_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.8.self_attn.o_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.8.self_attn.q_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.8.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00006.bin",
+    "model.layers.8.self_attn.v_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.9.input_layernorm.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.9.mlp.down_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.9.mlp.gate_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.9.mlp.up_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.9.post_attention_layernorm.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.9.self_attn.k_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.9.self_attn.o_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.9.self_attn.q_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.layers.9.self_attn.rotary_emb.inv_freq": "pytorch_model-00002-of-00006.bin",
+    "model.layers.9.self_attn.v_proj.weight": "pytorch_model-00002-of-00006.bin",
+    "model.norm.weight": "pytorch_model-00006-of-00006.bin"
+  }
+}

start.py CHANGED Viewed

@@ -7,7 +7,7 @@ if __name__ == '__main__':
                       '--visual_encoder', 'configs/visual_encoder/qwen_vitg_448.yaml', \
                       '--sd_adapter', 'configs/sdxl_adapter/sdxl_qwen_vit_resampler_l4_q64_pretrain_no_normalize.yaml', \
                       '--agent', 'configs/clm_models/agent_seed_x_i.yaml', \
-                      '--diffusion_path', 'https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0', \
                       '--port', '7890', '--llm_device', 'cuda:0', '--vit_sd_device', 'cuda:0', '--multi_resolution', 'True', '--has_bbox']
     frontend_comand = ['python3', 'src/demo/seed_llama_gradio.py', '--server_port', '7860', '--request_address', 'http://127.0.0.1:7890/generate']

                       '--visual_encoder', 'configs/visual_encoder/qwen_vitg_448.yaml', \
                       '--sd_adapter', 'configs/sdxl_adapter/sdxl_qwen_vit_resampler_l4_q64_pretrain_no_normalize.yaml', \
                       '--agent', 'configs/clm_models/agent_seed_x_i.yaml', \
+                      '--diffusion_path', 'stabilityai/stable-diffusion-xl-base-1.0', \
                       '--port', '7890', '--llm_device', 'cuda:0', '--vit_sd_device', 'cuda:0', '--multi_resolution', 'True', '--has_bbox']
     frontend_comand = ['python3', 'src/demo/seed_llama_gradio.py', '--server_port', '7860', '--request_address', 'http://127.0.0.1:7890/generate']