Text Generation
Transformers
PyTorch
Chinese
llama
text-generation-inference
Inference Endpoints
Edit model card

TinyStoriesAdv_215M

alt text

keywords: grade school level, large language model, small language model, tiny language model, super tiny language model, 小学生知识水平,大语言模型,小语言模型,迷你语言模型, llm, slm.

超迷你的玩具模型,只能讲中文,可以回答一些小学生的常识问题。幻觉严重。但是很有趣。 受到TinyStoriesPhi2等论文的启发,使用了自己制作的全合成的数据库 https://huggingface.co/datasets/fzmnm/TinyStoriesAdv-zh

采用了类似Qwen的架构。

dim=896;n_layers=24;n_heads=14;n_kv_heads=2;max_seq_len=1024;embedding_weight_tying=True;
tokens_per_iteration=524288
dropout=0.1
warmup_iters=1000;stable_iters=9000

A100上14小时即可训练完毕。 这个是预训练版本,没有进行偏好微调。

用法:

from transformers import pipeline

generator = pipeline('text-generation', model='fzmnm/TinyStoriesAdv_92M')
story_prompt = "问:什么是鹦鹉?"
generated_story = generator(story_prompt, max_length=256, truncation=True)

print(generated_story[0]['generated_text'])

试玩:

temperature=0
cherry_picking=True

问:什么是鹦鹉?

答:鹦鹉是一种非常聪明的鸟类,它们有着灰色或黑色的羽毛,还能学会说话。有些鹦鹉能学会使用简单的词汇和短语,学习模仿声音。

问:什么是大象?

答:大象是一种非常大的动物,有长长的鼻子和大大的耳朵,它们是非常温和的动物哦!

问:谁是李白?

答:李白是唐代著名的诗人,被誉为“诗仙”。

问:什么是黑洞?

答:黑洞是一种非常神秘的天体,它的引力超强,连光都逃不出来的。

问:肚子疼怎么办

答:别担心,小助手告诉你的!首先,你要保持冷静,慢慢想办法解决问题。

问:晚上睡不着怎么办?

答:可以在床头放一个柔软的枕头,让颈部放松,然后找一个舒舒服服的地方,比如一个舒服的床垫,躺下去感受一下安全。

从前有个胖鹦鹉,胖得飞不动。

有一天,胖鹦鹉看到一个小女孩在哭。她问小女孩:“你为什么哭?” 小女孩说:“我弄丢了我的玩具,我找不到它了。” 胖鹦鹉想帮助小女孩。胖鹦鹉飞到小女孩身边说:“我会帮你找到你的玩具。” 小女孩很高兴地说:“谢谢你,胖鹦鹉!” 胖鹦鹉飞走了,找到了玩具。小女孩非常高兴,感谢胖鹦鹉。从那天起,胖鹦鹉和小女孩成为了好朋友。他们每天一起玩耍,胖鹦鹉再也没有弄丢过它。小女孩和胖鹦鹉成为了最好的朋友,他们过上了幸福快乐的生活。

从前有个小姑娘从来不洗脸。孔子说:“你们两个都去吧,别见怪。”她们去了河边,见到了那个小姑娘。小姑娘哭着说:“我只是想看看你。”孔子连忙跟她们去了。 到了河边,孔子把姑娘放入水中,看到她的脸清晰,但是眼睛还是模糊。孔子又对姑娘说:“把头伸出 来,我有个愿望。你想要什么?”姑娘把头伸出来,果然看到孔子的眼睛没什么反应。孔子知道姑娘的心意,把姑娘变成了一条蛇,感到很是惊讶。过了几天,孔子的病好了些。他想着再次见到姑娘,心里充满了希望。他对姑娘说:“我的姑娘,你现 在可以走了,我很高兴再见到你。”姑娘点头同意,她的身影消失了。孔子看着她,心里也暗暗高兴。日子一天天过去,刘备来到河边,听说一个女人哭了,因为她的狗咬了她的狗。这时,孔子看到这只狗,不由得生出怜悯之心。他对姑娘说:“我可以帮你,但你要把我的心给我。”姑娘点头答应,把狗叼给孔子。就在她要离开的时候,狗突然扑向她,咬了她一口。刘夫人痛苦地大 叫,狗吓得不知所措。孔子看到这一幕,心里非常疼惜。他去找巫婆,告诉了巫婆个明智的决定。巫婆说:“我们必须对付狗,这样才能找到它。”孔子连晚都没敢离开。巫婆因为担心,决定找其他办法来对付狗。

Downloads last month
9
Inference API
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Datasets used to train fzmnm/TinyStoriesAdv_215M