shareAI
/

llama2-13b-Chinese-chat

@@ -13,8 +13,7 @@ tags:
 - chatgpt
 ---
 广告：优秀对话llm的训练离不开高质量的多轮对话数据集，如果你也想成为志愿者欢迎加入QQ群：130920969，共同进行优质数据集的交流、收集和建设工作
-在中文sharegpt数据集上训练得到的llama2 Chinese chat 13b，为减轻文件大小负担这里只放出了adapter的权重
 请拉取https://huggingface.co/TheBloke/Llama-2-13B-fp16 作为基础权重，使用如下脚步执行合并得到可工作的总权重：
 ```python
@@ -46,6 +45,63 @@ print("merge success")
 tokenizer.save_pretrained(save_path)
 model.save_pretrained(save_path)
 print("save done.")
 ```
 推荐使用firefly项目继续进行训练。
 ## Training procedure
@@ -65,4 +121,9 @@ The following `bitsandbytes` quantization config was used during training:
 - PEFT 0.4.0.dev0
-训练1个epoch，loss 0.9，实测用中文对话体验优于baichuan13b(仅主观感受)。还有很大潜力，建议作为底座把文件拉回去继续调优。

 - chatgpt
 ---
 广告：优秀对话llm的训练离不开高质量的多轮对话数据集，如果你也想成为志愿者欢迎加入QQ群：130920969，共同进行优质数据集的交流、收集和建设工作
+项目在中文sharegpt数据集上训练得到的llama2 Chinese chat 13b，为减轻文件大小负担这里只放出了adapter的权重
 请拉取https://huggingface.co/TheBloke/Llama-2-13B-fp16 作为基础权重，使用如下脚步执行合并得到可工作的总权重：
 ```python
 tokenizer.save_pretrained(save_path)
 model.save_pretrained(save_path)
 print("save done.")
+```
+合并后，体验对话：
+```python
+from transformers import AutoModelForCausalLM, AutoTokenizer
+import torch
+def main():
+    model_name = '/data/llama2-13b-Chinese-chat_v1'
+    device = 'cuda'
+    max_new_tokens = 500    # 每轮对话最多生成多少个token
+    history_max_len = 2000  # 模型记忆的最大token长度
+    top_p = 0.9
+    temperature = 0.35 # 越大模型越浪
+    repetition_penalty = 1.2 # 如果模型出现重复说话可以调节该系数
+    # 加载模型
+    model = AutoModelForCausalLM.from_pretrained(
+        model_name,
+        trust_remote_code=True,
+        low_cpu_mem_usage=True,
+        torch_dtype=torch.float16,
+        device_map='auto'
+    ).to(device).eval()
+    tokenizer = AutoTokenizer.from_pretrained(
+        model_name,
+        trust_remote_code=True,
+        # llama不支持fast
+        use_fast=False if model.config.model_type == 'llama' else True
+    )
+    # 记录所有历史记录
+    history_token_ids = tokenizer('<s>', return_tensors="pt").input_ids
+    # 开始对话
+    user_input = input('User：')
+    while True:
+        user_input = '{}</s>'.format(user_input)
+        user_input_ids = tokenizer(user_input, return_tensors="pt", add_special_tokens=False).input_ids
+        history_token_ids = torch.concat((history_token_ids, user_input_ids), dim=1)
+        model_input_ids = history_token_ids[:, -history_max_len:].to(device)
+        with torch.no_grad():
+            outputs = model.generate(
+                input_ids=model_input_ids, max_new_tokens=max_new_tokens, do_sample=True, top_p=top_p,
+                temperature=temperature, repetition_penalty=repetition_penalty, eos_token_id=tokenizer.eos_token_id
+            )
+        model_input_ids_len = model_input_ids.size(1)
+        response_ids = outputs[:, model_input_ids_len:]
+        history_token_ids = torch.concat((history_token_ids, response_ids.cpu()), dim=1)
+        response = tokenizer.batch_decode(response_ids)
+        print("Bot：" + response[0].strip().replace('</s>', ""))
+        user_input = input('User：')
+if __name__ == '__main__':
+    main()
 ```
 推荐使用firefly项目继续进行训练。
 ## Training procedure
 - PEFT 0.4.0.dev0
+训练1个epoch，loss 0.9，实测用中文对话体验优于baichuan13b(仅主观感受)。还有很大潜力，建议作为底座把文件拉回去继续调优。
+感谢：
+- LLaMA2
+- Firefly项目
+- shareGPT中文数据集的建设者们