中文微型Llama2基础模型

English 简体中文

这是一个参数量115M左右的超微型小模型，采用Llama2架构，这里上传的版本是预训练版本，尚未进行SFT。近期将会推出SFT后的聊天版本。

这个超微型模型开发的目标是：

演练从0开始预训练一个基础大语言模型的全过程
为开发大参数模型提供了一个可快速部署的环境，毕竟加载大模型非常耗时，不利于快速的迭代开发和调试
可以在消费级显卡上快速的调优参数，重现各种论文中的优化算法。

训练数据：

收集了429本中文网络玄幻小说，整理为txt纯文本，除掉字符数少于10的行和超过4096字符的行，作为预训练的基础数据。

整理后的txt文件尺寸是3.3G，包含868M中文字符，18M行

中文分词器：

模型的分词器(tokenizer)也是重新训练的，没有使用现有的分词器。

训练参数：

最长行(Max Sentence Length): 2657
词汇量(Vocab Size): 32000
正则化规则(Normalization Rule): identity
覆盖率(Character coverage): 0.9995

和标准的Llama2分词器比较如下：

	Llama2	Baby Llama2
tokens	32000	65534
model_max_length	4096	4096
白日依山尽，黄河入海流。欲穷千里目，更上一层楼。	:['▁', '白', '日', '<0xE4>', '<0xBE>', '<0x9D>', '山', '<0xE5>', '<0xB0>', '<0xBD>', '，', '黄', '河', '入', '海', '流', '。', '<0xE6>', '<0xAC>', '<0xB2>', '<0xE7>', '<0xA9>', '<0xB7>', '千', '里', '目', '，', '更', '上', '一', '<0xE5>', '<0xB1>', '<0x82>', '<0xE6>', '<0xA5>', '<0xBC>', '。']	['▁白', '日', '依山', '尽', ',', '黄河', '入海', '流', '。', '欲', '穷', '千里', '目', ',', '更', '上一层', '楼', '。']
	[1, 29871, 30868, 30325, 231, 193, 160, 30329, 232, 179, 192, 30214, 31491, 30828, 30752, 30581, 31151, 30267, 233, 175, 181, 234, 172, 186, 31159, 30755, 30895, 30214, 31100, 30429, 30287, 232, 180, 133, 233, 168, 191, 30267]	[65534, 1764, 63106, 62484, 63203, 62793, 14729, 29082, 63130, 62795, 63920, 64266, 3271, 63038, 62793, 63007, 17116, 63636, 62795]
The primary use of LLaMA is research on large language models, including BERT, XLNet, and RoBERTa.	:['▁The', '▁primary', '▁use', '▁of', '▁L', 'La', 'MA', '▁is', '▁research', '▁on', '▁large', '▁language', '▁models', ',', '▁including', '▁B', 'ERT', ',', '▁X', 'L', 'Net', ',', '▁and', '▁Ro', 'BER', 'T', 'a', '.']	:['▁T', 'h', 'e', '▁p', 'ri', 'm', 'ar', 'y', '▁', 'u', 'se', '▁o', 'f', '▁', '<0x4C>', '<0x4C>', 'a', 'M', 'A', '▁i', 's', '▁', 're', 'se', 'ar', 'ch', '▁o', 'n', '▁', 'l', 'ar', 'g', 'e', '▁', 'l', 'ang', 'ua', 'g', 'e', '▁m', 'od', 'e', 'ls', ',', '▁', 'in', 'c', 'lu', 'd', 'i', 'ng', '▁', '<0x42>', '<0x45>', '<0x52>', 'T', ',', '▁', 'X', '<0x4C>', '<0x4E>', 'e', 't', ',', '▁', 'an', 'd', '▁', '<0x52>', 'o', '<0x42>', '<0x45>', '<0x52>', 'T', 'a', '.']
	[1, 450, 7601, 671, 310, 365, 5661, 1529, 338, 5925, 373, 2919, 4086, 4733, 29892, 3704, 350, 20161, 29892, 1060, 29931, 6779, 29892, 322, 1528, 13635, 29911, 29874, 29889]	[65534, 14962, 63590, 64211, 27052, 16426, 63475, 13594, 64158, 62797, 63569, 11279, 13719, 65368, 62797, 81, 81, 63518, 64918, 64752, 24145, 63338, 62797, 44186, 11279, 13594, 9251, 13719, 63541, 62797, 64399, 13594, 64101, 64211, 62797, 64399, 37035, 36500, 64101, 64211, 2939, 11320, 64211, 53670, 62793, 62797, 18944, 63603, 14575, 64096, 63484, 1171, 62797, 71, 74, 87, 64760, 62793, 62797, 65257, 81, 83, 64211, 63073, 62793, 62797, 6604, 64096, 62797, 87, 63143, 71, 74, 87, 64760, 63518, 62801]

Llama2分词器是32000个token，针对英文字符进行了优化；而Baby LLama2是65534个token，只包括了中文。

可以看到针对中文文本和英文文本的向量化比较上，Baby Llama2中文向量化优于标准Llama2，而英文向量化弱于Llama2。

全量训练语料处理

全量训练前，先对语料进行向量化处理。用刚刚训练的分词器（tokenzier）逐行读取网络小说的txt文件，每一行都做向量化，并在行尾增加eos_token_id做区分。然后将所有处理好的二进制数据以二维np.uint16数组的形式存储到磁盘上，数据维度为[-1: max_sentence_length]