Model Card for blip2zh-chatglm-6b

blip2 base model: bert-base-chinese
Vision encoder: eva-clip-vit-g
Language model: chatglm-6b at <a rel="nofollow" href="https://huggingface.co/THUDM/chatglm-6b/commit/9324de70a93207c9a310cf99d5d6261791489691">commit

Model Details

blip2zh-chatglm-6b是基于blip2训练的中文多模态聊天模型。具有基本的图像理解能力。由于blip2的训练方式不会对语言模型进行微调，因此在纯文本对话中的行为可以保持和原始chatglm一致。

注意：由于目前模型仅经过blip2两阶段图文对齐预训练，没有包括vqa或者指令微调等具体下游任务的训练，因此依然容易生成不符合预期的内容。

模型参数包含了图像编码器，blip2和chatglm-6b。

加载模型及推理可以参考api的实现

受限于中文数据集，目前图像理解能力依然有限，会产生无关或者错误的内容。目前没有引入多轮对话训练以及指令微调。多轮对话可能会受到上下文的干扰。并且同样受限于chatglm-6b本身的对话效果。

基于blip2的两阶段训练方法