'优化模型量化损失'

Files changed (6) hide show

README.md CHANGED Viewed

@@ -16,7 +16,7 @@ tags:
 ### 【模型更新日期】
-``` 2024-06-06 00:20 ```
 ### 【模型大小】
 `6.9GB`
@@ -24,15 +24,14 @@ tags:
 ### 【06-06 情况告知】
 1. 目前需要用vllm entrypoint的方式来启动模型。
-2. 这个模型我也来回折腾了好几轮，不好量化。
-原因在于原作者用了一个比较大胆的 `layernorm_epsilon: 1.5625e-07`。
-这个数值下训练出来的模型，用`fp16/half`及难保质。
-3. 模型现在已经校准的差不多了，目前以`2024-06-06 00:20`的版本为准。
-4. 打比赛的同学，我更推荐使用int8模型 [GLM-4-9B-Chat-GPTQ-Int8-量化修复](https://www.modelscope.cn/models/tclf90/glm-4-9b-chat-GPTQ-Int8)，这个模型更鲁棒。
 ### 【更新日志】
 ```
 2004-06-06 00:20
 1. 模型重新校准
 2. 修复layernorm_epsilon数值不对的问题

 ### 【模型更新日期】
+``` 2024-06-18 ```
 ### 【模型大小】
 `6.9GB`
 ### 【06-06 情况告知】
 1. 目前需要用vllm entrypoint的方式来启动模型。
+2. 打比赛的同学，我更推荐使用int8模型 [GLM-4-9B-Chat-GPTQ-Int8-量化修复](https://www.modelscope.cn/models/tclf90/glm-4-9b-chat-GPTQ-Int8)，这个模型更鲁棒。
 ### 【更新日志】
 ```
+2004-06-18
+1. 优化模型量化损失
 2004-06-06 00:20
 1. 模型重新校准
 2. 修复layernorm_epsilon数值不对的问题

config.json CHANGED Viewed

@@ -28,7 +28,7 @@
   "hidden_dropout": 0.0,
   "hidden_size": 4096,
   "kv_channels": 128,
-  "layernorm_epsilon": 2e-06,
   "model_type": "chatglm",
   "multi_query_attention": true,
   "multi_query_group_num": 2,

   "hidden_dropout": 0.0,
   "hidden_size": 4096,
   "kv_channels": 128,
+  "layernorm_epsilon": 1e-06,
   "model_type": "chatglm",
   "multi_query_attention": true,
   "multi_query_group_num": 2,

generation_config.json CHANGED Viewed

@@ -5,6 +5,5 @@
     151336,
     151338
   ],
-  "pad_token_id": 151329,
   "transformers_version": "4.40.2"
 }

     151336,
     151338
   ],
   "transformers_version": "4.40.2"
 }

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:608cf244087fcfd5906dc2fd7d1aadf50c1af0b0200367233041b5dfe79e55bb
 size 4995499776

 version https://git-lfs.github.com/spec/v1
+oid sha256:e09f83f719809cb5eb4b33e6a9a4ffa978d4e3c595f54e99ee90d6698b57852f
 size 4995499776

model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:11781ced3a34947f3d4872aad2ca650488cbff962d825d5b1f192e9a3be0628b
 size 1893310824

 version https://git-lfs.github.com/spec/v1
+oid sha256:022c89d2200edfe4f4e3ea2a4c0386579d36bbd23f0861cb5194e871540ea8c0
 size 1893310824

modeling_chatglm.py CHANGED Viewed

@@ -324,7 +324,7 @@ class SelfAttention(torch.nn.Module):
         )
     def forward(
-            self, hidden_states, attention_mask, rotary_pos_emb, kv_cache=None, use_cache=True
     ):
         # hidden_states: [b, sq, h]

         )
     def forward(
+            self, hidden_states, attention_mask, rotary_pos_emb=None, kv_cache=None, use_cache=True
     ):
         # hidden_states: [b, sq, h]