--- license: apache-2.0 ---

[![Code License](https://img.shields.io/badge/Code%20License-Apache_2.0-brightgreen.svg)](./LICENSE) [![Data License](https://img.shields.io/badge/Data%20License-CC_BY_NC_4.0-red.svg)](./LICENSE_DATA) [![Model License](https://img.shields.io/badge/Model%20License-YAYI-blue.svg)](./LICENSE_MODEL) [[📖README](./README.md)] [[🤗HF Repo](https://huggingface.co/wenge-research)] [[🔗网页端](https://yayi.wenge.com)] 中文 | [English](./README_EN.md)

## 目录 - [目录](#目录) - [介绍](#介绍) - [模型地址](#模型地址) - [评测结果](#评测结果) - [推理](#推理) - [环境安装](#环境安装) - [Base 模型推理代码](#base-模型推理代码) - [模型微调](#模型微调) - [环境安装](#环境安装-1) - [全参训练](#全参训练) - [LoRA 微调](#lora-微调) - [预训练数据](#预训练数据) - [分词器](#分词器) - [Loss 曲线](#loss-曲线) - [相关协议](#相关协议) - [开源协议](#开源协议) - [引用](#引用) ## 介绍 YAYI 2 是中科闻歌研发的**新一代开源大语言模型**，包括 Base 和 Chat 版本，参数规模为 30B，并采用了超过 2 万亿 Tokens 的高质量、多语言语料进行预训练。针对通用和特定领域的应用场景，我们采用了百万级指令进行微调，同时借助人类反馈强化学习方法，以更好地使模型与人类价值观对齐。本次开源的模型为 YAYI2-30B Base 模型。我们希望通过雅意大模型的开源来促进中文预训练大模型开源社区的发展，并积极为此做出贡献。通过开源，我们与每一位合作伙伴共同构建雅意大模型生态。更多技术细节，敬请期待我们的的技术报告🔥。 ## 模型地址 | 模型名称 | 上下文长度 | 🤗 HF模型标识 | 下载地址 | |:----------|:----------:|:----------:|----------:| | YAYI2-30B | 4096 | wenge-research/yayi2-30b| [模型下载](https://huggingface.co/wenge-research/yayi2-30b)| ## 评测结果我们在多个基准数据集上进行了评测，包括 C-Eval、MMLU、 CMMLU、AGIEval、GAOKAO-Bench、GSM8K、MATH、BBH、HumanEval 以及 MBPP。我们考察了模型在语言理解、学科知识、数学推理、逻辑推理以及代码生成方面的表现。YAYI 2 模型在与其规模相近的开源模型中展现出了显著的性能提升。

	学科知识					数学		逻辑推理	代码
模型	C-Eval(val)	MMLU	AGIEval	CMMLU	GAOKAO-Bench	GSM8K	MATH	BBH	HumanEval	MBPP
	5-shot	5-shot	3/0-shot	5-shot	0-shot	8/4-shot	4-shot	3-shot	0-shot	3-shot
MPT-30B	-	46.9	33.8	-	-	15.2	3.1	38.0	25.0	32.8
Falcon-40B	-	55.4	37.0	-	-	19.6	5.5	37.1	0.6	29.8
LLaMA2-34B	-	62.6	43.4	-	-	42.2	6.2	44.1	22.6	33.0
Baichuan2-13B	59.0	59.5	37.4	61.3	45.6	52.6	10.1	49.0	17.1	30.8
Qwen-14B	71.7	67.9	51.9	70.2	62.5	61.6	25.2	53.7	32.3	39.8
InternLM-20B	58.8	62.1	44.6	59.0	45.5	52.6	7.9	52.5	25.6	35.6
Aquila2-34B	98.5	76.0	43.8	78.5	37.8	50.0	17.8	42.5	0.0	41.0
Yi-34B	81.8	76.3	56.5	82.6	68.3	67.6	15.9	66.4	26.2	38.2
YAYI2-30B	80.9	80.5	62.0	84.0	64.4	71.2	14.8	54.5	53.1	45.8

我们使用 [OpenCompass Github 仓库](https://github.com/open-compass/opencompass) 提供的源代码进行了评测。对于对比模型，我们列出了他们在 [OpenCompass](https://opencompass.org.cn) 榜单上的评测结果，截止日期为 2023年12月15日。对于其他尚未在 [OpenCompass](https://opencompass.org.cn/leaderboard-llm) 平台参与评测的模型，包括 MPT、Falcon 和 LLaMa 2，我们采用了 [LLaMA 2](https://arxiv.org/abs/2307.09288) 报告的结果。 ## 推理我们提供简单的示例来说明如何快速使用 `YAYI2-30B` 进行推理。该示例可在单张 A100/A800 上运行。 ### 环境安装 1. 克隆本仓库内容到本地环境 ```bash git clone https://github.com/wenge-research/YAYI2.git cd YAYI2 ``` 2. 创建 conda 虚拟环境 ```bash conda create --name yayi_inference_env python=3.10 conda activate yayi_inference_env ``` 请注意，本项目需要 Python 3.8 或更高版本。 3. 安装依赖 ``` pip install -r requirements.txt ``` ### Base 模型推理代码 ```python >>> from transformers import AutoModelForCausalLM, AutoTokenizer >>> tokenizer = AutoTokenizer.from_pretrained("wenge-research/yayi2-30b", trust_remote_code=True) >>> model = AutoModelForCausalLM.from_pretrained("wenge-research/yayi2-30b", device_map="auto", trust_remote_code=True) >>> inputs = tokenizer('The winter in Beijing is', return_tensors='pt') >>> inputs = inputs.to('cuda') >>> pred = model.generate( **inputs, max_new_tokens=256, eos_token_id=tokenizer.eos_token_id, do_sample=True, repetition_penalty=1.2, temperature=0.4, top_k=100, top_p=0.8 ) >>> print(tokenizer.decode(pred.cpu()[0], skip_special_tokens=True)) ``` 当您首次访问时，需要下载并加载模型，可能会花费一些时间。 ## 模型微调本项目支持基于分布式训练框架 deepspeed 进行指令微调，配置好环境并执行相应脚本即可启动全参数微调或 LoRA 微调。 ### 环境安装 1. 创建 conda 虚拟环境： ```bash conda create --name yayi_train_env python=3.10 conda activate yayi_train_env ``` 2. 安装依赖： ```bash pip install -r requirements.txt ``` 3. 安装 accelerate： ```bash pip install --upgrade accelerate ``` 4. 安装 flashattention： ```bash pip install flash-attn==2.0.3 --no-build-isolation pip install triton==2.0.0.dev20221202 --no-deps ``` ### 全参训练 * 数据格式：参考 `data/yayi_train_example.json`，是一个标准 JSON 文件，每条数据由 `"system" `和 `"conversations"` 组成，其中 `"system"` 为全局角色设定信息，可为空字符串，`"conversations"` 是由 human 和 yayi 两种角色交替进行的多轮对话内容。 * 运行说明：运行以下命令即可开始全参数微调雅意模型，该命令支持多机多卡训练，建议使用 16*A100(80G) 或以上硬件配置。 ```bash deepspeed --hostfile config/hostfile \ --module training.trainer_yayi2 \ --report_to "tensorboard" \ --data_path "./data/yayi_train_example.json" \ --model_name_or_path "your_model_path" \ --output_dir "./output" \ --model_max_length 2048 \ --num_train_epochs 1 \ --per_device_train_batch_size 1 \ --gradient_accumulation_steps 1 \ --evaluation_strategy "no" \ --save_strategy "steps" \ --save_steps 500 \ --save_total_limit 10 \ --learning_rate 5e-6 \ --warmup_steps 2000 \ --lr_scheduler_type cosine \ --logging_steps 1 \ --gradient_checkpointing True \ --deepspeed "./config/deepspeed.json" \ --bf16 True ``` 或者通过命令行启动： ```bash bash scripts/start.sh ``` ### LoRA 微调 * 数据格式：同上，参考 data/yayi_train_example_multi_rounds.json。 * 运行以下命令即可开始 LoRA 微调雅意模型。 ```bash bash scripts/start_lora.sh ``` ## 预训练数据 * 在预训练阶段，我们除了使用互联网数据训练模型的语言能力，还添加了通用精选数据和领域数据增强模型的专业技能。数据分布情况如下： ![data distribution](assets/data_distribution.jpg) * 我们构建了一套全方位提升数据质量的数据处理流水线，包括标准化、启发式清洗、多级去重、毒性过滤等四个模块。我们共收集了 240TB 原始数据，预处理后仅剩 10.6TB 高质量数据。整体流程如下： ![data process](assets/data_process.png) ## 分词器 * YAYI 2 采用 Byte-Pair Encoding（BPE）作为分词算法，使用 500GB 高质量多语种语料进行训练，包括汉语、英语、法语、俄语等十余种常用语言，词表大小为 81920。 * 我们对数字进行逐位拆分，以便进行数学相关推理；在词表中手动添加大量 html 标识符和常见标点符号，以提高分词准确性。同时，我们预设了200个保留位，以便未来可能的应用，例如在指令微调阶段添加标识符。由于是字节级别的分词算法，YAYI 2 Tokenizer 可以覆盖未知字符。 * 我们采样了单条长度为 1万 Tokens 的数据形成评价数据集，涵盖中文、英文和一些常见小语种，并计算了模型的压缩比。 ![Alt text](assets/compression_rate.png) * 压缩比越低通常表示分词器具有更高效率的性能。 ## Loss 曲线 YAYI 2 模型的 loss 曲线见下图： ![loss](assets/loss.png) ## 相关协议 ### 开源协议本项目中的代码依照 [Apache-2.0](LICENSE) 协议开源，社区使用 YAYI 2 模型和数据需要遵循[雅意YAYI 2 模型社区许可协议](YAYI2_Community_License)。若您需要将雅意 YAYI 2系列模型或其衍生品用作商业用途，请根据[《雅意 YAYI 2 模型商用许可协议》](YAYI2_Commercial_License)将商用许可申请登记信息发送至指定邮箱yayi@wenge.com。审核通过后，雅意将授予您商用版权许可，请遵循协议中的商业许可限制。 ### 引用如果您在工作中使用了我们的模型，请引用我们的论文： ``` @article{YAYI 2, author = {Yin Luo, Qingchao Kong, Nan Xu, et.al.}}, title = {YAYI 2: Multilingual Open Source Large Language Models}, journal = {arXiv preprint arXiv}, year = {2023} ```