Mae'r model LLM yn seiliedig ar microsoft/phi-2, gyda hyfforddiant parhaus ar 100k llinell o ddata Cymreig o'r dataset allenai/MADLAD-400 am 1 Epoch.

Pwrpas y model yw fod yn gychwyn i hyfforddiant cywrain pellach i greu casgliad o LLMs Cymreig penodol.

Contains information from allenai/MADLAD-400 which is made available under the ODC Attribution License.

