2023 年 3 月,Google 发布了对话大语言模型 Bard,一经推出便受到了广泛关注。7 月,谷歌发布了一次重大更新—— Bard 目前能够处理图像输入,解锁了多模态信息理解能力。那么 Bard 对图像理解的能力究竟如何,我们将用 MMBench 为大家揭晓答案。
https://opencompass.org.cn/mmbench
(欢迎使用,文末点击阅读原文可直达)
测试设置
本次测试在 MMBench 的测试集上进行,测试集全集共 1798 个问题。由于 Bard 拒绝回答关于以人为主体的图像的问题,在与其他模型比较时,我们去除了四个与人关系密切的能力维度(Image Emotion, Identity Reasoning, Social Relation,Action Recognition),并移除了其余能力维度中 Bard 拒绝回答的问题。清洗后的测试集子集包含 16 个能力维度,共 1226 个问题。
全维度对比
向上滑动阅览
在横向对比 Bard 的性能时,我们选择了两个在 MMBench 上表现优异的开源多模态大模型,Otter 和 Shikra 作为 Bard 的对手,各个任务上的性能对比如图所示。总体来说,Bard 在 MMBench 上取得了十分优秀的性能,所有题目准确率达到了 51%。在各个任务中,Bard 擅长常识推理类任务,比如自然关系推断(Nature Relation)任务准确率达 62.3%,物理关系推断(Physical Relation)任务准确率达 45.2%,远超其他模型。但同时,我们也发现 Bard 在处理图像空间关系相关的任务上表现不佳,如空间关系(Spatial Relationship)任务和物体定位(Object Localization)任务。这也许说明 Bard 没有像 Shikra 等模型一样在训练时引入视觉定位任务来增强图像感知能力。
问答实例
为了更直观地了解 Bard 的多模态理解能力,我们选取了一些 MMBench 中的对话实例。
上图中,黄色为提出的问题,蓝色为 Bard 的回复,橙色为 LLaVA 的回复。可以看到,在左侧的例子中,Bard 首先对图片内容进行了梳理、提取了问题相关的信息、并给出了有序整理后的回答。而在右侧例子中,Bard 准确地提取了卡通形象的概念,并根据问题给出了针对性回答,并没有受图片卡通化内容的影响。这两个例子展现了 Bard 在处理复杂情形和常识推理问题上的优势。
而 Bard 也有明显的短处。如上图中对图片风格和图片质量的辨析任务,这两个任务的共同点是图片内容(如右图中苹果)和任务问题(图片质量)并不相关。而 Bard 在回答中显示出了对图片内容提取的强倾向性,没能给出问题的正确答案。而在图片风格和图片质量这两类任务上,Bard 分别取得了 50% 和 7% 的准确率,相较于其他模型略显逊色。
值得一提的是,在上述对话实例中,Bard 都给出了条理清晰的答案,并在合适的地方运用如表格等来进一步说明。我们发现,在所有问答对话中,Bard 遵循着严格的回答格式:首先给出预测选项——提供详尽的分析——并对非正确选项进行解释。从这个角度来说,Bard 作为对话机器人有很强的指令跟随能力和十分优秀的对话风格。
总结
本文对 Bard 多模态模型的性能进行了深入分析,并在 MMBench 客观评测集上与其他开源多模态大模型进行了比较。总体来说,Bard 在 MMBench 上表现优异,具有清晰的答案结构和出色的对话风格,尤其在常识推理类任务中表现十分突出,但在处理图像空间关系相关的任务和图片风格、质量辨析任务上表现欠佳。
前段时间我们已经开源了 MMBench,目前已经有多个社区模型在 MMBench 进行了评测,我们也欢迎大家积极地将自己的模型在 MMBench 上进行测试。
官网:
https://opencompass.org.cn/mmbench
Paper:
https://arxiv.org/pdf/2307.06281.pdf
代码库:
https://github.com/InternLM/opencompass