MMStar是一个旨在评估大型视觉语言模型多模态能力的基准测试集,包含1500个精心挑选的视觉语言样本,涵盖了6个核心能力和18个细分维度。每个样本都经过了人工审查,确保具有视觉依赖性,最小化数据泄露,并需要高级多模态能力来解决。除了传统的准确性指标外,MMStar还提出了两个新的指标来衡量数据泄露和多模态训练的实际性能增益。研究人员可以使用MMStar评估视觉语言模型在多个任务上的多模态能力,并借助新的指标发现模型中存在的潜在问题。
1. 1500个高质量视觉语言样本;2. 覆盖6个核心能力和18个细分维度;3. 人工审查确保视觉依赖性和最小化数据泄露;4. 提出多模态增益和数据泄露两个新指标;5. 基准测试16种顶尖视觉语言模型。
MMStar具有高质量的样本集,覆盖全面的多模态能力评估维度,并提出了新的指标来综合评价模型性能。
1. 研究人员使用MMStar评估自己训练的视觉语言模型在不同任务上的表现;2. 模型开发者通过MMStar发现并解决数据泄露问题。
通过MMStar进行评估可以帮助发现模型存在的潜在问题,并提供改进的指导和启发。