A Picture is Worth More Than 77 Text Tokens: Evaluating CLIP-Style Models on Dense Captions
Paper
•
2312.08578
•
Published
•
16
Note 提出了一个数据集用于评估VLM对于image-text pair的理解程度。该数据集由图片和caption组成,其中包含图片不同region的子caption。