Edit model card

Tanuki-8B-vision

モデルについて

Tanuki-8B-visionは、LLaVA1.5に基づく視覚言語モデルです。言語モデルとして、Tanuki-8bのphase1モデル、画像エンコーダとしてgoogle/siglip-so400m-patch14-384を使用しています。

背景

  • 近年、視覚言語モデル(VLM)が注目されている一方で、商用利用可能な日本語データセットは限られています。本プロジェクトでは、データの合成を活用してこの課題に取り組むとともに、80億パラメータ(Tanuki-8B-vision)および500億パラメータ(Tanuki-8x8B-vision-exp)のVLMを開発しました
  • VLM開発は、GENIAC 松尾研 LLM開発プロジェクトの主要な開発目標としてではなく、有志の参加者によって実験的に行われました

使用したコード

学習

https://github.com/matsuolab/nedo_project_code/tree/team_hatakeyama_phase2/team_hatakeyama_phase2/multimodal/LLaVA-JP

データ合成

https://github.com/matsuolab/nedo_project_code/tree/team_hatakeyama_phase2/team_hatakeyama_phase2/multimodal/create-data-for-vlm

評価

https://github.com/matsuolab/nedo_project_code/tree/team_hatakeyama_phase2/team_hatakeyama_phase2/multimodal/heron

使い方

colab(model_pathは要変更)

https://github.com/matsuolab/nedo_project_code/blob/team_hatakeyama_phase2/team_hatakeyama_phase2/multimodal/LLaVA-JP/demo_llava_gradio.ipynb

ローカル

https://github.com/matsuolab/nedo_project_code/blob/team_hatakeyama_phase2/team_hatakeyama_phase2/multimodal/LLaVA-JP/demo_llava_gradio.py

評価

Heron VLM リーダーボード

GPT-4による評価 (gpt-4-turbo-2024-04-09) image/png

Downloads last month
58
Safetensors
Model size
7.97B params
Tensor type
BF16
·
Inference API
Unable to determine this model's library. Check the docs .

Space using weblab-GENIAC/Tanuki-8B-vision 1