大型视觉语言模型,如CLIPs,已经彻底改变了现代机器学习。CLIPs在分布偏移下展现出了很好的泛化能力,这一结论得到了越来越多的文献支持。 然而,用于评估CLIPs的数据集主要是为ImageNet基准设计的变体,这可能不能完全反映例如在LAION上预训练的CLIPs对虚假相关性的鲁棒性。为了弥补这一差距,作者收集了一个名为CounterAnimal的真实世界数据集,其中包含了动物照片中真实存在的虚假特征。CounterAnimal包括:a)常见组:包含常见背景下的动物,以及b)对抗组:包含不常见背景下的动物。 从常见组到对抗组性能的下降量化了模型在预测动物时对虚假特征(即背景)的依赖。作者发现,无论是在LAION还是OpenAI数据上训练的CLIPs,在对抗组上的性能都有显著下降。 令人惊讶的是,作者观察到,与CLIPs相比,在ImageNet上训练的单模态模型更具鲁棒性。作者提供了CLIPs仍然学习虚假特征的理论和实证解释。作者的发现表明,分布偏移对于CLIPs来说仍然是一个未解决的问题,当评估在规模和分布上有显著差异的数据上预训练的基础模型时,需要谨慎对待测试设置。
大型视觉语言模型(LVLMs)能够将图像和文本表示对齐,以理解跨越前所未有的真实世界数据规模的图像中的普遍关系,这已经在现代机器学习中呈现出显著的范式转变。许多先进的LVLM作品,如CLIP、ALIGN、BASIC、Flamingo和BLIP,已经在广泛的视觉和多模态任务中展现出卓越的性能,大幅超过了传统的ImageNet训练模型。因此,LVLMs的巨大成功使得社区的焦点从ImageNet基准测试转向了如LAION这样的网络规模的多模态数据集。
LVLMs的一个关键特征是在对各种基于ImageNet的数据分布偏移的有效鲁棒性方面取得了令人印象深刻的改进,这得益于大规模的对比语言图像预训练(CLIP)。性能的提升似乎表明CLIP解决了数据分布偏移,并引发了对CLIP鲁棒性的丰富讨论。然而,一个不容忽视的问题是,用于测试CLIP模型鲁棒性的采用数据集主要是为基于ImageNet的模型设计的,由于各种问题,如数据污染,这可能并不能完全反映CLIP的情况。这提出了一个重要的研究问题:
是否存在一个基准可以反映CLIPs对虚假特征的确切依赖性?
为了回答这个问题,作者收集了一个名为CounterAnimal的新数据集,该数据集专门用于量化CLIP对现实世界中虚假特征的鲁棒性。图1展示了几个CounterAnimal的例子,其中数据被分为两组:
常见部分捕捉了一些现实世界中的偏见,这些偏见是CLIP在基于网络规模数据训练时可能自然继承的。因此,通过比较常见组与对抗组的性能,人们可以量化CLIP在多大程度上依赖于虚假特征。
CounterAnimal数据集是基于从iNaturalist2收集的原始照片创建的。构建流程包括4个步骤:
最终得到的 dataset 包含7,174张常见照片和5,926张反照片,总共覆盖了45个动物类别。在假象发现中使用的参考CLIP模型是CLIP-LAION400M-ViT/B/32(参见附录B中的模型命名规则)。
作者评估了具有不同 Backbone 网络的CLIP模型,例如ViT,以及不同的预训练数据集,例如LAION。作者还考虑了更先进的LVLM,如MiniGPT4和LLaVA。作者对不同模型系列采用了两种评估设置(参见附录C),
作者在表1和图2中提供了一些结果,以下是一些关键观察点:
CLIP模型仍然学习虚假的相关性。 在表1中,作者观察到对于这些示例类别,从常见组到对立组,CLIP-LAION400M-ViT/B/32预训练权重的准确度显著下降。此外,CLIP-LAION400M-ViT/B/32中观察到的偏见也推广到其他在LAION400M上预训练的模型,见图5(a)。因此,CLIP可能仍然在学习LAION400M中的虚假特征,这些特征可以被CounterAnimal捕捉到。
CounterAnimal反映了大规模预训练数据集中的普遍偏见。 在图2中,作者评估了更广泛的CLIP模型,以及各种 Backbone 网络和预训练数据集。作者观察到,其他CLIP预训练权重在从常见组到对立组时也显示出非微不足道的性能下降。这暗示了CounterAnimal描述了一些普遍存在于大规模现实世界多模态数据集中的虚假相关性。
ImageNet模型对CounterAnimal捕获的虚假相关性更为鲁棒。 图2展示了ImageNet训练的模型(红色表示)的性能。与LVLMs(蓝色表示)相比,作者发现ImageNet模型对所呈现的虚假相关性表现出更好的鲁棒性。从图2中可以看出,ImageNet模型在对抗组上的性能更优越,与CLIPs相比,性能相似。作者的发现与之前使用ImageNet变体评估分布偏移的研究相矛盾,表明CLIP并不一定比ImageNet模型具有更好的泛化能力。
更大的CLIP模型更健壮。 如图中2所示,作者用标记的大小和颜色深浅来分别指示 Backbone 网络的规模和预训练数据集的大小。总体来看,更大的CLIP Backbone 网络(即更大的标记)可以提高对抗性能,这意味着扩大 Backbone 网络的规模可能增强对虚假特征的鲁棒性。相比之下,增加预训练数据集的规模(即颜色更深的标记)并没有带来同样的改进,这意味着仅靠收集更多数据并不能在很大程度上纠正偏差,这为除了数据中心视角之外,提供了新的理解。
在高质量数据上训练的CLIP模型更具鲁棒性。 作者区分了两类CLIP模型,一是那些在高质量数据集上进行预训练的,即DataComp (CLIP-DC) 和数据过滤网络 (CLIP-DFN),二是那些在其他缺乏严格筛选的数据集上进行预训练的 (CLIP)。作者观察到,在高质量数据上进行预训练的CLIP模型通常表现出更优越的鲁棒性,这表明提升数据质量仍然是抵抗虚假特征的一个有希望的方法。
CLIP目标可能无法提供额外的鲁棒性。 作为作者实证观察的补充,作者还提供了理论解释,说明为什么CLIP会学习到虚假特征。作者进行了确认性实验,这些实验对预训练的CLIP进行微调,使其适应带有合成虚假特征的数据集,进一步验证了CLIP目标不能比标准的单模态监督训练提供额外的鲁棒性。
与之前工作的比较。 就作者所知,作者的工作首次提出了一个系统的数据整理方法及评估CLIP鲁棒性的基准,这补充了关于理解CLIP的文献。尽管有几项开创性工作讨论了LVLMs的失败案例,但它们在质量或规模上有限,可能无法完全反映CLIP的鲁棒性。具体来说,利用其他单模态或多模态模型来检测学习到的捷径。然而,整理的数据集的质量在很大程度上依赖于所引用模型的鲁棒性。由检测到的虚假相关性局限于特定的类别或 Backbone 网络,可能无法系统地反映一般大规模多模态预训练数据集的偏见。此外,作者的工作还解释了为什么像MiniGPT-4或LLaVA这样的LVLMs会产生幻觉目标,因为LVLMs通常结合了训练过的CLIP编码器来提取视觉信号。
此外,作者的结果挑战了之前由在ImageNet变体测试集上评估的令人印象深刻的鲁棒性改进所启发的信念。作者的发现表明,分布偏移对于CLIPs来说仍然是一个待解决的问题。在评估基于与常规基于ImageNet的模型在规模和分布上有显著差异的预训练基础模型时,作者需要对测试设置保持谨慎。
作者介绍了作者新数据集CounterAnimal的策展流程,该流程专为CLIPs设计,以研究伪相关。该流程包括以下4个步骤:
数据收集。 作者 Query ImageNet-1K数据集中的动物名称,并通过iNaturalist的搜索界面收集原始数据。作者获取每个类别最新的300-800张照片,并根据 Query 标签进行组织。
数据整理。 收集的原始样本极易受到各种噪声和模糊性的影响。因此,作者手动清理以下任何一种情况的低质量样本:
标签噪声。它与那些不属于相关 Query 类别的照片的情况相关联。
特征噪声。它与那些包含严重特征损坏的照片的情况相关。
歧义性。它涉及到包含多个目标类别的照片的情况。
清晰度。它与那些动物目标不在主要位置的照片的情况相关。
背景标注。 作者考虑了一种典型的虚假特征形式,即照片背景中包含某些虚假特征。为了识别出表现出对CLIPs这种偏见的数据,作者手动标注了精选数据的背景。背景标签的类别空间定义如下:
请注意,由于真实世界背景固有的模糊性,背景类的空间并不是完全正交的。尽管如此,作者仍然尽力在每个类别内辨别指定的背景标签。
虚假发现。 对于每个类别,作者通过比较不同背景样本上的性能来量化虚假相关对CLIP的影响。作者将那些类别视为包含虚假特征,在改变背景时,作者观察到准确度大幅下降。在具体实施中,作者采用CLIP-LAION400M-ViT/B/32的预训练权重进行评估,其中其文本编码器的提示为 "A photo of .",而 的空间是ImageNet-1K类名,即1对1000的设置。然后,当改变背景时,CLIP模型的零样本准确度变化超过5%的类别被认为是CLIP学习到虚假特征的案例。与保留下来的类别和背景相关的数据被用来创建作者最终的数据库。CLIP准确度最高的照片被分配到常见组,而CLIP准确度最低的照片被分配到对立组。
当CLIP模型采用数据捷径时,模型性能将与常见组中呈现的背景高度相关。在关联的对照组中,性能也将受到影响。作者的数据组织方式为评估虚假相关性提供了一种便捷方法(参见附录A)。
作者在表2和图3中总结了作者的数据集的关键特性,包括详细的物体/背景名称以及常见组和对照组的数据量。作者还在图4中可视化了不同类别之间的零样本性能差距,使用CLIP-LAION400M-ViT/B/32作为作者参考的CLIP模型。作者的初步结果表明,CLIP模型严重依赖于背景,这促使作者在后续中进行更全面的分析。
作者在CounterAnimal数据集上对一系列CLIP模型进行评估,以检验它们的零样本性能。对于每个类别,作者使用在数据收集过程中预先定义的提示,即 "A photo of ."。该提示通过文本编码器,而图像通过图像编码器,分别生成文本和图像嵌入。作者计算它们之间的余弦相似度,即,并将图像分类到相似度最高的类别,即。默认情况下,作者使用ImageNet-1K数据集的标签空间,并按照1 vs. 1000的设置报告top-1准确率。
此外,在涉及更先进的LVLM时,作者采用1 vs. 20的设置,其中作者使用关于CLIP-LAION400M-ViT/B/32的前20个最易混淆的类别作为候选标签空间。为了可复现性,作者从OpenCLIP采用预训练的CLIP预训练权重,以及从PyTorch仓库中ImageNet训练的模型预训练权重。模型命名规则在附录B中,评估细节在附录C中进一步讨论。
作者的实验主要集中在对CounterAnimal进行评估和分析。在第五章1节中,作者检验了所捕获的虚假相关性的普遍性。在第五章2节中,作者探索了可能影响CLIPs鲁棒性的潜在方面。在第五章3节中,作者将评估扩展到来自不同训练范式的更广泛模型家族。
在第二部分,作者使用CLIP-LAION400M-ViT/B/32发现虚假相关性,并收集相关数据构建CounterAnimal数据集。随后出现了一个关键问题:作者的数据集是否可以作为一般性的基准来检验CLIP与其他预训练数据集和架构之间的虚假相关性?因此,作者探讨了CounterAnimal中的偏见是否会妨碍其他CLIP的鲁棒性,考虑了两种情况:a) 固定预训练数据集而变化架构;b) 固定架构而变化预训练数据集。
变化的主干网络。 作者将预训练数据集固定为LAION400M,并在ViT家族中探索了另外两种主干网络,即ViT/B/16和ViT/L/14。它们的零样本实验结果展示在图5(a)中。正如作者所看到的,对于ViT/B/16和ViT/L/14,仍然存在超过17个百分点的下降。这表明CounterAnimal数据集捕捉到了一些通常在LAION400M中常见的普遍的虚假变化。
变化预训练数据集。 作者固定主干网络为ViT/B/32,并考虑其他预训练数据集。在这里,作者考虑了LAION2B以及OpenAI使用的闭源数据集。它们的共同和相反的结果在图5(b)中进行了总结。对于在LAION2B和OpenAI训练的CLIP来说,伪特征退化了零样本鲁棒性。因此,作者的CounterAnimal数据集包含了一些现实世界的偏移,这些偏移通常包含在大规模预训练数据中,无论主干网络如何。关于图5的更详细的类别结果可以在附录E中找到。
作者将评估扩展到具有不同参数规模和预训练数据的更广泛的CLIPs。主要结果总结在表3中,并在图2(a)中进一步描绘。总的来说,所有考虑的CLIP配置的性能下降都可以观察到,这表明各种规模的CLIP仍然在学习虚假特征。更具体地说,作者研究了CLIP中参数规模和预训练数据规模对虚假特征敏感性的影响。作者排除了ViT/B/32和LAION400M,以避免数据收集带来的偏差。
扩大预训练数据规模。 为了测试扩大预训练数据集规模的影响,作者考虑了两种CLIP Backbone 网络,分别是ViT/B/16和ViT/L/14,以及一系列规模逐渐增大的预训练数据集。结果在图6中给出。作者观察到,扩大数据规模并不一定能减少性能下降,这表明仅靠增加预训练数据的规模并不能增强鲁棒性。一种可能的解释是,更大的数据集并不一定意味着偏见更少,而CLIP可能会学习到这些虚假的相关性。
扩大CLIP模型规模。 同样,作者探讨了模型规模与虚假相关性的联系。在图7中,作者考虑了两个预训练数据集,分别是LAION2B和OpenAI的闭源数据集,以及按规模增加的相关 Backbone 网络。作者观察到一个明确趋势,表明更大型的模型对虚假相关性展现出更强的鲁棒性。这可能告诉作者,大型模型拥有更强的泛化能力,使它们更不容易受到虚假特征的捷径影响。
数据质量很重要。 此外,作者观察到使用DataComp和DFN训练的CLIPs(用标记)获得的结果在不同 Backbone 网络上表现出更好的性能和较小的下降。图8提供了它们的比较。作者注意到这些数据集已经经过了严格的过滤,因此拥有高质量的数据。这可能表明提升预训练数据集的质量仍然是一条有望提高鲁棒性的途径。
作者将评估扩展到更广泛的模型系列,包括 ImageNet-1K 监督模型以及更先进的LVLMs,即 MiniGPT4 和 LLaVA。
ImageNet模型。作者首先将评估扩展到包括ImageNet训练的模型。结果总结在表4中。
图9展示了与ImageNet训练模型相比,各种CLIP模型的准确度下降情况。令人惊讶的是,作者发现ImageNet模型对于CounterAnimal数据集中的虚假特征更具鲁棒性。这一发现可能与常见的观点相矛盾,即CLIP模型相对于单模态监督学习通常更能抵抗虚假相关性。
作者推测,作者的CounterAnimal数据集反映了真实世界中多模态训练场景中的偏见。然而,这种偏见可能对ImageNet模型影响并不大。这表明,大规模多模态数据中的虚假相关性与传统单模态监督学习中广泛使用的ImageNet场景中的虚假相关性是不同的。这些发现强调了作者提出的数据集的重要性,它特别适合于研究大规模视觉-语言预训练中的虚假相关性。
高级LVLMs。 作者进一步评估了更高级的LVLMs,这些模型将CLIP视觉编码器与像Vicuna这样的高级大型语言模型对齐。为了降低推理成本,作者的评估遵循1对比20的设置。作者在表5中总结了它们的结果,以及几个CLIP模型的1对比20的结果(更多结果参见附录E)。作者在图2(b)中进一步展示了完整的结果。正如作者所看到的,这些高级LVLMs的性能较低但下降幅度较小,但CounterAnimal中的虚假特征仍然会影响它们。
为了更好地理解所观察到的现象,作者提出了一个理论分析,解释为什么CLIPs依赖于虚假特征。作者从建立多模态对比学习的分析框架开始,遵循(Xue等人,2023)的方法。
由于篇幅限制,作者将更多的理论细节及证明放在附录D中。直观地说,定理6.2意味着一旦目标标题与图像背景部分之间存在相对较强的相关性,CLIP就会学习将背景(即虚假特征)与目标标题对齐。尽管作者的理论讨论了一个简单的情况,即一个不变特征和一个虚假特征,但可能存在更多描述目标的特征,甚至有更多描述背景的特征。一旦背景特征中的任何一个与目标标题存在虚假相关性,CLIP将无法稳健地将目标的视觉特征与其标题对齐。
为了验证作者的理论,作者按照(Ahmed等人,2021)构建了名为ColoredCOCO的多模态数据集。它包含9个类别,训练部分的虚假相关性为80%,即每个类别与一个特定偏好的颜色有80%的相关性,而20%均匀地与10种不同随机选择的颜色相关,参见图11。OOD数据集是随机与其他8种偏好的颜色相关的类别构建的。作者考虑了两种具有不同描述性的提示:a) obj: "一张<物体标签>的照片" 和 b) objbkg: "一个<物体标签>在<颜色标签>背景下的照片",其中包含物体或者物体和背景两者。
作者使用CLIP目标对预训练的CLIP模型进行调整,这已被证明对分布偏移最为健壮。此外,作者还结合了基于ERM目标在图像编码器上用新的MLP进行完全微调的 Baseline 。如图10所示,基于任一提示的CLIP目标微调并没有提供比vanilla完全微调更实质性的健壮性。这些结果进一步验证了作者的理论。然而,CLIPs的健壮性降低也可能是由CLIP中BERT编码器的语言理解能力较弱引起的。为此,作者还进行了在完美语言编码器设置下的附加实验。结果在附录D.4中给出。然而,作者发现即使有完美的标题,CLIPs仍然表现得与ERM相似,并且容易受到分布偏移的影响。
本文提出的AI模型在目标检测任务上展现了最先进的表现。通过整合特征金字塔网络和注意力机制等先进技术,该模型在准确性和效率上取得了显著的提升。实验结果验证了作者所采用方法的有效性,并表明它有潜力应用于各种现实世界场景中。
本文研究了大规模视觉语言模型(LVLMs)对虚假相关性的鲁棒性,特别关注了CLIP模型。由于先前对CLIP模型的评估基准主要是针对ImageNet训练分布,作者引入了一个新数据集CounterAnimal,该数据集表征了动物与背景之间的自然虚假相关性。然后作者在CounterAnimal上评估了不同的CLIP模型。作者的结果表明了一个惊人的发现,即CLIP模型在进行零样本预测时仍然依赖于虚假特征,其鲁棒性甚至低于传统的ImageNet模型。这挑战了人们对CLIP模型强大鲁棒性的普遍看法,呼吁人们对LVLMs进行更清醒的认识。此外,作者观察到可以通过例如增加 Backbone 网络的规模和提高预训练数据质量来增强CLIP的鲁棒性。作者还对CLIP模型学习偏差的原因进行了理论分析。总的来说,作者希望作者的工作能启发后续对鲁棒性的研究,提高LVLMs在开放世界中的可靠性。
[1].Do CLIPs Always Generalize Better than ImageNet Models?.