LongVA

🌐 Blog | 📃 Paper | 🤗 Hugging Face | 🎥 Demo

Long context capability can zero-shot transfer from language to vision.

LongVA can process 2000 frames or over 200K visual tokens. It achieves state-of-the-art performance on Video-MME among 7B models.