metadata

license: apache-2.0

Model Card for Model ID

Welcome

If you find this model helpful, please like this model and star us on https://github.com/LianjiaTech/BELLE !

📝Belle-VL

背景介绍

社区目前已经有很多多模态大语言模型相关开源工作，但大多以英文能力为主，比如LLava,CogVLM等，而中文多模态大语言模型比如VisualGLM-6B、Qwen-VL的语言模型基座均较小，实际应用中很难兼顾视觉和语言能力，因此Belle-VL选择基于更强的语言模型基座来扩展模型的视觉能力，为社区提供更加灵活的选择。

模型简介

在模型结构方面，我们主要参考的Qwen-VL模型，原始Qwen-VL是基于Qwen7B模型训练而来，基座能力相对较弱，因此Belle-VL将语言模型扩展成了Qwen14B-chat，在中文语言能力和视觉能力方面可以兼顾，具备更好的扩展性。

训练策略

原始Qwen-vl采用了三阶段的训练方式,包括预训练、多任务训练和指令微调，依赖较大的数据和机器资源。受LLava1.5的启发，多模态指令微调比预训练更加重要，因此我们采用了两阶段的训练方式，如下图所示：

训练数据

预训练数据：预训练数据主要是基于LLava 的558k英文指令数据及其对应的中文翻译数据，此外我们还收集了Flickr30k-CNA 以及从AI Challenger随机选取的100k数据
多模态指令数据：指令微调阶段，数据主要来自LLava, LRV-Instruction, LLaVAR,LVIS-INSTRUCT4V等开源项目，我们也对其中部分数据进行了翻译，在此真诚的感谢他们为开源所做出的贡献！

MME Benchmark

Category	Score
Perception	1595.34
Existence	190
Count	150
Position	130
Color	175
Posters	166.33
Celebrity	136.76
Scene	156.25
Landmark	174
Artwork	139.5
OCR	177.5
Cognition	332.14
CommonsenseReasoning	127.14
Numerical calculation	47.5
Text translation	102.5
code_reasoning	55