新方法利用视觉语言模型将原本需要人类判断的对比过程形式化。
会议:CVPR 2024
什么使两张图像相似?这个问题对计算机视觉系统的训练至关重要,但 notoriously 难以回答。因为对人类观察者而言,图像相似性不仅是视觉上的,更是概念上的:像素模式截然不同的图像可能表达相同的概念。
在今年计算机视觉与模式识别会议(CVPR)上发表的论文中,提出了一种测量两张图像之间概念距离的方法。该方法通过大型视觉语言模型实现双重应用:首先生成每个图像的多长度描述,随后计算每个描述指向任一图像的概率。
该方法示例,将概念距离(x轴)量化为描述长度(y轴)的函数
核心思想是评估可区分性随描述长度的变化:若两张图像可通过简短描述轻松区分,则相似度低;若需要大量文本才能可靠区分,则相似度高。由于该方法依赖于逐步细化的自然语言描述,同时具备可解释性:人类观察者可轻松理解图像获得特定相似度分数的原因。
通过与最先进的对比学习嵌入技术在两个人类标注图像相似度的数据集上对比,该方法平均比现有技术更好地预测人类标注结果9%。
该方法通过先构建准确图像描述再考虑描述间差异的方式,解决了上述所有难题:
模型从假设空间和图像空间出发:
给定两张图像A和B及各自特定长度的近最优描述:
距离随假设长度的变化率反映相似性:变化慢表示难区分(相似度高),变化快表示易区分。单一相似度评分使用距离函数在假设长度范围内的曲线下面积。
当前仅使用视觉语言模型的文本输出测量距离,未来可能通过直接测量视觉属性提供额外区分层,同时避免对随机性或对抗操纵的敏感性。相关探索已在持续进行中。
研究领域:计算机视觉
标签:视觉语言模型(VLMs),可解释AI
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。