README.md · Vision-CAIR/LongVU_Qwen2_7B

metadata

datasets:
  - shenxq/OneVision
base_model:
  - Qwen/Qwen2-7B-Instruct

@misc{shen2024longvuspatiotemporaladaptivecompression,
      title={LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding}, 
      author={Xiaoqian Shen and Yunyang Xiong and Changsheng Zhao and Lemeng Wu and Jun Chen and Chenchen Zhu and Zechun Liu and Fanyi Xiao and Balakrishnan Varadarajan and Florian Bordes and Zhuang Liu and Hu Xu and Hyunwoo J. Kim and Bilge Soran and Raghuraman Krishnamoorthi and Mohamed Elhoseiny and Vikas Chandra},
      year={2024},
      eprint={2410.17434},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2410.17434}, 
}