---
license: apache-2.0
datasets:
- 52AI/TinyStoriesZh
language:
- zh
library_name: transformers
---

# Llama2中文童话小模型（93M）


## 模型背景

本模型采用 [llama2.c](https://github.com/karpathy/llama2.c) 提供的代码和工具，训练了一个参数量93M的中文小模型。它的tokenizer是从语料中重新训练的，仅包含3000个中文字符，采用BPE算法实现，tokenizer.model仅有38K。

数量的数据集来自[TinyStoriesZh](https://huggingface.co/datasets/52AI/TinyStoriesZh/tree/main)，合并了1M和2M的数据集，总字符数量199,536,607，汉字数量2492，共计1,124,957行。从中随机抽取800,000训练3K的tokenizer

模型的训练参数如下：

| 参数          | 值   |
| ------------- | ---- |
| dim           | 768  |
| n_heads       | 12   |
| n_layers      | 12   |
| kv_heads      | 12   |
| batch_size    | 24   |
| max_seq_len   | 768  |
| hidden_dim    | 2268 |
| dropout       | 0.1  |
| learning rate | 3e-4 |

## 训练细节

训练在单卡A10G的服务器上运行了大约18小时，共3个epoch

| Key        | Value         |
| ---------- | ------------- |
| iteration  | 22,940        |
| loss/eval  | 1.3784        |
| loss/train | 1.2773        |
| lr         | 0.00003       |
| tokens     | 9,020,375,040 |

## 模型表现

```bash
git clone https://github.com/karpathy/llama2.c
cd llama2.c
make run
```

运行推理

```bash
./run ./llama2c-93MB.bin -t 0.9
```

结果如下

```txt
▁从前，有一个小女孩，名叫莉莉。有一天，莉莉的妈妈让她帮忙洗衣服。莉莉很乐意帮忙，并把一件
衬衫放进了洗衣机。突然，莉莉听到了奇怪的声音。▁“那是什么？”她问她妈妈。“这只是洗衣机。我们需要确保衣服干净，”她妈妈回答道。莉莉感到很安心，因为她帮助了妈妈。他们把所有的衣服都拿出
来，放进洗衣机里。洗完衣服后，莉莉的妈妈说：“干得好，莉莉！你真是个好帮手。”莉莉笑了，也为自己感到骄傲。她拥抱妈妈说：“妈妈，谢谢你让我帮忙洗衣服。”

▁从前，有一位高大强壮的超级英雄。他肌肉发达，可以举起重物。他喜欢帮助别人，并且非常坚强。
有一天，他去公园散步，看到一只小狗被困在树上。超级英雄想帮助那只狗。他爬上树，把狗从树枝上扶下来。狗很高兴，舔着超级英雄的脸表示感谢。超级英雄微笑着继续前行。他很高兴自己能够用自己的肌肉帮助这只狗，并结识了一个新朋友。

▁从前，有一只兔子，名叫雷米。雷米喜欢和他的朋友们一起跳来跳去玩耍。有一天，雷米和他的朋友
们正在玩捉迷藏，这时他们看到了一大堆干草。他们正在扔掉，突然干草碎成了碎片。弗雷米和他的朋友们很害怕，但他们知道他们必须帮忙。他们请他们的朋友兔子山姆帮他们捡干草。萨姆很勇敢，没有把干草分开。他们把干草拿到池塘里，把它分成小块。大家坐下来吃饭，雷米和山姆很高兴他们帮助了他们。从那天起，雷米就被称为森林里最勇敢的小兔子，总是在附近玩耍。

▁从前，有一个小女孩，名叫莉莉。她喜欢在外面玩耍并探索周围的世界。有一天，她在地上发现了一
块闪闪发光的石头。它是如此美丽和闪闪发光，她想永远保留它。但后来，莉莉的朋友过来看到了这块石头。她也想要它，但莉莉不想分享。她的朋友感到很难过，就回家了。那天晚些时候，莉莉意识到她不分享她的石头是自私的。她感到很难过，决定把石头送给她的朋友。她的朋友很高兴，他们一起玩了一整天。莉莉了解到分享很重要，自私会让别人感到难过。
```

可以看到93M的模型参数量虽然少，但是仍然具有一定的逻辑能力，故事可以保持基本的自洽。

## 小模型的意义

小模型的能力虽然有限，但是它在一下几个方面是具有非凡意义的

1. 可以促进对模型原理的理解。俗话说“麻雀虽小五脏俱全”，小模型规模虽然小，但是具有llama2标准架构，方便学习和理解模型训练的原理
2. 加速调试。在开发大模型app时，可以用小模型加快启动和运行的速度，方便快速迭代开发
3. 嵌入式。在游戏这种需要快速反馈，并且存在高并发的环境中，小模型比大模型具有更强的优势。

## 感谢

1. [llama2.c](https://github.com/karpathy/llama2.c)
2. [llama2.c-zh](https://github.com/chenyangMl/llama2.c-zh)
3. [TinyStoriesZh](https://huggingface.co/datasets/52AI/TinyStoriesZh/tree/main)