jzsues
/

llava-qwen1.5-4b-chat

Visual Question Answering

text-generation

Inference Endpoints

Model card Files Files and versions Community

jzsues commited on Mar 17

Commit

49a856d

•

1 Parent(s): c6549a0

Update README.md

Files changed (1) hide show

README.md +4 -2

README.md CHANGED Viewed

@@ -2,8 +2,10 @@
 language:
 - zh
 - en
-library_name: adapter-transformers
 pipeline_tag: visual-question-answering
 ---
 # Model
@@ -11,7 +13,7 @@ pipeline_tag: visual-question-answering
 llava-qwen1.5-4b-chat is a lightweight multimodal models base on [LLaVA architecture](https://llava-vl.github.io/).
 - Language Model: [Qwen/Qwen1.5-4B-Chat](https://huggingface.co/Qwen/Qwen1.5-4B-Chat)
 - Vision Encoder: [google/siglip-so400m-patch14-384](https://huggingface.co/google/siglip-so400m-patch14-384)
-- Paramters Count: 4,388,102,720
 ## Evaluation
 ### MMBench

 language:
 - zh
 - en
 pipeline_tag: visual-question-answering
+datasets:
+- Lin-Chen/ShareGPT4V
+- liuhaotian/LLaVA-Pretrain
 ---
 # Model
 llava-qwen1.5-4b-chat is a lightweight multimodal models base on [LLaVA architecture](https://llava-vl.github.io/).
 - Language Model: [Qwen/Qwen1.5-4B-Chat](https://huggingface.co/Qwen/Qwen1.5-4B-Chat)
 - Vision Encoder: [google/siglip-so400m-patch14-384](https://huggingface.co/google/siglip-so400m-patch14-384)
+- Total Paramters: 4,388,102,720
 ## Evaluation
 ### MMBench