之後會有從頭開始預訓練的模型嗎?
#1
by
win10
- opened
也許以聯發科的體量能研發從頭開始預訓練的大模型
也有非transformer的模型架構
例如:mamba、RWKV等
不一定要直接使用已完成的架構訓練,團隊應該先改編架構後訓練,rwkv的官方實作都不是最新的v6。
RWKV: https://github.com/RWKV/RWKV-infctx-trainer
https://github.com/BlinkDL/RWKV-LM
mamba: https://github.com/state-spaces/mamba
您好,
謝謝您的建議。
Jeff