模型和 phi2 的关系是什么?
#1
by
xianf
- opened
很棒的想法,把 phi2 实现到中文上。但是 phi2 是使用一定的 topic 和 token 从 GPT 生成了一定量级的伪数据来训练的。这个模型和 phi2 的关系好像并不大?还是说联系是,选择的预训练数据都是知识型的数据,而不是 common crawl 这种通用数据?
模型结构是 phi2 ,但参数不一样,是小模型。预训练数据、sft数据、dpo数据和微软 phi2不一样,我这都是中文的,其他语种很少。预训练数据就属于知识型数据了,通用数据太大了我这跑不动,github仓库的dev分支有合并wiki数据的预训练处理代码,有需要你可以参考下。
charent
changed discussion status to
closed
charent
changed discussion status to
open