
在本研究中,作者针对实际世界中的一个具有挑战性的任务:无上下文虚假信息检测进行研究,该任务通过将真实图像与错误的描述配对来创建假新闻。 目前针对此任务的现有方法假设大量 Token 数据的可用性,这在实际世界中往往不切实际,因为它需要大量的手动干预和领域专业知识。 相反,由于获取大量 未标注 的图像-文本对集要容易得多,因此,作者提出了一种半监督协议,其中模型可以访问有限数量的 Token 图像-文本对集和大量 未标注 的配对。此外,虚假新闻的出现要比真实新闻少得多,因此数据集往往高度不平衡,这使得任务更加具有挑战性。 为了实现这一目标,作者提出了一种新颖的框架,即从视觉-语言模型(CoVLM)1中得到的共识,该框架使用从 Token 数据中推导出的阈值来为 未标注 的配对生成强健的伪标签。这种方法可以自动确定模型选择确信伪标签的正确阈值参数。 在具有挑战性的各种条件下的基准数据集上的实验结果以及与最先进方法的比较,证明了作者的框架的有效性。
社交媒体上的假新闻蔓延使得假新闻检测成为保持信息完整性的关键任务,保护公共言论,并防止信任侵蚀[1]。生成假新闻的越来越受欢迎的方法是将真实图像与误导/不正确的标题配对,因为这样需要最小的努力和技术专业知识。图1展示了来自基准新闻CLIPings数据集[4]的真实和假图像-文本配对的一些例子。假新闻通常在视觉内容和伴随文本之间存在差异,而真实新闻则往往在图像和文本之间具有连贯的关系。
识别这些微妙的差异可以帮助确定给定的图像-文本配对是真实的还是虚假的。因此,现有脱离上下文的虚假信息检测或多模态假新闻检测(MFND)框架的目标是分析大量训练数据以学习这些差异,这些差异被用来推理给定的测试图像-文本配对是真实的还是虚假的。

图像与自然语言联合表示是多模态机器学习领域的重要进展之一[5,6,7]。例如,CLIP(对比语言-图像预训练)模型[8]通过在图像-标题对的大量数据集上进行训练,弥合了图像和自然语言之间的鸿沟。利用这些模型进行MFND任务的方法显示出前景。然而,这些方法完全依赖于有监督数据,即 Token 为真实或虚假的图像-文本对。标注大量数据的工作非常耗时且需要专业知识。
例如,验证如图1所示的新闻声明"反政府抗议者在外议会大楼曼谷挥舞泰国国旗"需要国际事务的重大专业知识,并且需要熟练掌握全球政治动态的专业人士。相反,收集无标注的图像-文本对要简单得多。在本文中,作者提出了一种实际可行的半监督MFND(SS-MFND)协议,其中模型可以访问少量 Token 的图像-文本对和大量 未标注 的对。
半监督学习中最成功的利用无标签数据的方法之一是先在 Token 数据上训练模型,然后为无标签数据生成伪标签,并将确信的伪标签纳入训练过程[16]。尽管像FixMatch[16]、Adsh[17]和FreeMatch[18]这样的方法通过利用大量可用无标签数据证明了对于单模态数据的有效性,但在半监督多模态融合与导航(MFND)中,它们在捕捉真实和虚假图像-文本对之间的复杂关系方面存在不足。
为了应对这一挑战并生成对无标签图像-文本对具有强大伪标签,作者提出了一种新颖的方法CoVLM,该方法利用两个视觉语言模型(VLMs)的共识,即CLIP(对比语言-图像预训练)[8]和BLIP(自举语言-图像预训练)[19]。BLIP模型为给定的图像生成描述性文本,然后与原始文本结合生成强大的伪标签。两个模型(CLIP,BLIP)的共识确保了伪标签的强度。图2提供了使用CLIP和BLIP模型概述的CoVLM。

另一个挑战是,从新闻文章、博客、帖子等来源收集的图像-文本对的真实配对数量远多于虚假配对数量。这导致了严重的类别不平衡数据,从而使任务变得非常困难。由于新闻CLIPpings数据是人工创建和平衡的,它并不适合分析算法在更真实的非平衡情况下的性能。受到关于不平衡半监督学习在分类任务中的丰富文献的启发,作者在有标签和无标签数据中引入这些不平衡,以评估所提出方法在这些真实条件下的性能。
为此,本工作的贡献可以总结如下:
迄今为止,这是第一项针对半监督多模态假新闻检测任务进行研究的论文。
作者提出了一种新颖的框架CoVLM,该框架利用视觉语言模型生成强大的伪标签,用于无标签图像文本训练对。
广泛的实验在广泛使用的MFND数据集上进行了验证,这些数据集包括NewsCLIPpings [4], GossipCop [28],和PolitiFact [29],证明了所提出方法的有效性。
2 Related Work
在本节中,作者将简要讨论关于假新闻检测和半监督学习的相关工作。
单模态虚假新闻检测: 传统虚假新闻检测方法通常专注于分析单一模态,如文本或图像内容单独分析。
(i)图像分析:以前的研究已经探索了图像法医特征、语义信息以及统计属性来检测篡改[30]。识别图像篡改的技术可以揭示虚假的迹象[31]。此外,常识不一致和图像质量差也可以成为虚假新闻的警示信号。
(ii)文本分析:在文本格式中验证逻辑一致性对于检测虚假新闻至关重要[34]。检查语法错误、不寻常的写作风格或特定的修辞结构也可以提供线索。然而,语言和视觉模式都可以受到特定事件和相关领域知识的影响。为
了解决这个挑战,Nan等人[36]提出利用域门来结合来自不同专家的表示,使他们的模型能够在文本模态中处理多域虚假新闻传播。尽管这些单模态特征提供了有价值的洞察,并在区分虚假新闻方面发挥了重要作用,但它们忽略了多模态的几个关键方面 - 文本和图像内容之间的关联和一致性。当这些单模态方法应用于多模态新闻时,这个遗漏可能会阻碍这些方法的整体有效性。
多模态虚假新闻检测: MFND 关注于利用文本和图像模态来检测虚假新闻。已经提出了几种方法来解决这个任务,其中一些著名的方法包括 SAFE [37],文化算法 [38],文本、视觉和语义信息的组合 [39],细粒度分类 [40],FND-CLIP [14],ETMA [41],SAMPLE [15],DeBERTNeXT [42] 和 Tri Transformer-BLIP [43]。最近,研究行人也开始从互联网上收集证据来确定图像文本对的 authenticity,在这个方向上的一些著名工作包括 NewsCLIPpings [4],一致性检查网络 [9],SEN [10],OOCD [11],SNIFFER [12],零样本方法 [44],EVVER-Net [45],以及 MMFakeBench [13]。
但是,所有这些方法都假设整个训练数据已经 Token ,这在实际场景中是非常困难的,因为需要大量的人为干预。因此,作者提出了一种现实世界的半监督设置,可以利用 未标注 的数据和一些 Token 的配对来解决这个问题。
半监督学习: 在半监督学习中(SSL),已经开发出各种方法来有效利用 未标注 的单模态数据以提高模型性能。在图像领域,文献中已经提出了许多方法 。FixMatch 是一项重要的工作,结合了一致性正则化和伪标签,并使用固定阈值。在 FixMatch 的基础上,Adsh 提出使用不同阈值针对不同类别来帮助弱势类提高准确度。
文本领域的半监督学习也得到了广泛探索,并随着新方法和方法的演变而不断演变。这些工作主要集中在图像或文本领域中的单个模态,但在作者的研究中,作者的目标是关注涉及图像和文本半监督成分的假新闻检测。

在作者的工作中,受到MFND领域最近文献的启发,作者利用强大的CLIP模型,因为它具有共享的潜在空间,这是从图像-标题对中学习的。为了有效地利用 未标注 的数据,作者希望生成强大的伪标签,这些伪标签可以用于进一步训练模型。
CoVLM的核心思想是利用另一个视觉语言模型BLIP的额外指导,可以将输入图像转换为描述性文本。生成的文本与原始图像-文本对相结合,基于从 Token 数据派生出的阈值参数创建强大的伪标签。确定 未标注 数据伪标签的阈值参数的直觉详细在4.1节中解释。
4.2节解释了如何从 Token 数据中获得阈值参数。最后,4.3节概述了完整的训练过程,包括使用伪标签结合 Token 和 未标注 数据进行训练。
在这篇论文中,作者将解释如何为训练集中的未标注数据确定稳健的伪标签。仅使用CLIP模型来生成真/假伪标签具有挑战性,因为真实的假图像文本对在语义上非常接近,很难区分它们与实际真实对。为了解决这个问题,作者提出了一种共识机制,该机制基于两种视觉语言模型(VLMs)CLIP和BLIP。
首先,将每个未标注图像通过BLIP进行处理,得到生成的描述符。从CLIP模型中获得的这个未标注图像文本对的图像和文本嵌入分别表示为,通过图像和文本编码器分别处理图像和文本。同时,作者计算BLIP生成的文本描述符的嵌入。
对于真实的图像文本对,它们在CLIP共享潜在空间中的对应嵌入将相对较近,这通过CLIP共识得分来衡量,其中表示两个向量的内积,衡量它们之间的相似性。类似地,BLIP共识得分,该得分通过BLIP生成的文本嵌入和原始文本的嵌入计算,,对于真实对较高,对于假对较低。因此,对于真实的图像文本对,两个得分都较高,而对于假对,两个得分都较低,因为图像和文本会不同意,此外,原始和生成的文本也会相差很远。这种模型共识确保了为未标注数据生成稳健的伪标签。在模型不同意的情况下,不使用这些未标注样本进行训练。
请注意,在稍后的训练实例中,这个特定的图像文本对可以分配一个确切的伪标签,并可以为此贡献模型训练。完整的多模态共识生成的伪标签如下:

阈值边界参数和在伪标签和真实标签的决策过程中起着关键作用,且与数据集密切相关。作者利用训练数据集的标注部分来自动获取这些参数。图3展示了根据CLIP和BLIP模型使用模型共识将伪标签分配给图像-文本对。接下来,作者讨论如何估计这些边界阈值。

作者利用可用的 Token 数据自动确定阈值参数,这消除了为每个数据集手动调整参数的负担。对于一个 Token 图像-文本对 ,BLIP 生成的描述符可以表示为 。现在,给定图像和文本对 CLIP 嵌入分别为 和 ,BLIP 生成的文本描述符的嵌入为 。如图4 所示,作者计算 BLIP 模型的一致性得分 ,以及 CLIP 模型的一致性得分 对于所有 Token 样本。
使用标签 ,作者计算这些得分(对于真实和伪造样本)的平均值以获得这些阈值参数。具体而言,真实类别的阈值参数计算为 ,(对于模型得分 的下标 省略,以便清晰起见)。类似地,作者计算假类别的参数。使用这些参数为 未标注 数据获得伪标签后,模型继续使用 Token 和 未标注 数据进行训练,如下一节所述。图5 说明了 CoVLM 框架的统一训练过程。


现在,作者描述了利用 Token 和 未标注 输入的提出的半监督MFND框架的完整训练过程。在训练期间,CLIP图像编码器的最后几层以及两个全连接层被学习。对于图像-文本对,预测输出为,其中表示哈达马乘法(逐元素乘法)。
学习 Token 数据:对于 Token 数据集,模型预测和真实标签之间的交叉熵损失被计算。令表示模型对第图像-描述符对的预测输出,为真实标签。二进制交叉熵损失的计算如下:

在解决MFND任务时,作者核心的假设是:真实的图像-文本对在嵌入空间中会更接近,而虚假的对则会很远, 未标注 的图像-文本对的伪标签也依赖于这个原则。为了在网络中实现这一思想,作者提出了一种额外的聚类目标,灵感来自对比损失,可以表示为:

这一目标促使真实图像-文本对在嵌入空间中靠得更近,并将虚假对推开。尽管这种损失仅针对 Token 数据,但它有助于 未标注 数据的伪标签过程。
正如之前所提到的,作者使用模型共识为 未标注 的数据生成伪标签,其中满足方程1中标准的自信伪标签被用于训练模型,具体如下:

这里,表示模型对第j个 未标注 图像-标题对 的预测输出,因此模型训练的总损失可以表示为
是一个超参数,用于平衡对比损失的贡献。完整的训练过程可概括在算法1中。训练完成后,BLIP 模型不需要在推理时存储,只需使用训练好的 CLIP 模型进行推理,如算法2所述。


在这里,作者讨论了数据集和实现细节,然后是实验结果。
作者在三个知名的多模态虚假新闻检测数据集[4]:NewsCLIPpings [4], GossipCop [28] 和PolitiFact [29] 上训练和评估所提出的方法。
(i)NewsCLIPpings:旨在解决从廉价伪造到复杂深度伪造的误导信息日益增长的威胁,该数据集提供了未受操纵但上下文不匹配的图像-文本对。
(ii)GossipCop:反映了与名人相关的误导信息的广泛性。
(iii)PolitiFact:用于事实核查的新闻文章。
据作者所知,尚无关于SS-MFND的研究。因此,作者将现有数据集划分为 Token 部分和 未标注 部分,创建了SS-MFND协议。
表1展示了每个数据集在半监督MFND任务中的训练、验证和测试阶段的样本详细划分。
作者还进行了不同比例的 Token 和 未标注 数据的实验,以测试所提出方法的可鲁棒性。

作者使用CLIP-ViT/B32 [8]作为图像和文本编码的基础模型,并使用BLIP captioning大型模型[19]进行图像描述。CLIP模型的输出特征经过两个全连接层进行分类,其中包含 BatchNorm 和 Dropout。
在主要的训练阶段之前,作者将视觉语言模型(VLMs)使用 Token 数据进行微调,作为 Warm up 步骤。在 Warm up 之后,作者在所有数据集上训练模型40个周期,批量大小为64。在前20个周期中,学习率设置为,然后遵循CosineAnnealing调度器进行剩余的周期训练。
Adam优化器与这种学习率调度器相结合,用于训练过程。所有实验均在NVIDIA RTX 2080 GPU上使用PyTorch库进行。
由于目前尚无针对SS-MFND任务的相关工作,作者创建了自己的强基准进行比较。首先,作者考虑使用交叉熵损失对CLIP模型进行有监督训练,称为Sup@5%,作为作者实验的下界。此外,作者还考虑使用100% Token 数据的有监督训练(也称为Sup@100%),代表利用 未标注 数据和给定模型所能达到的上界和最佳性能。
此外,作者还包括三种使用针对单一模态的先进半监督方法(已在此处适应为作者任务而作调整)提出的强基准:FixMatch [16],FreeMatch* [18],和Adsh [17]。
这些方法通过不同的阈值方案利用 未标注 数据学习模型表示。FixMatch采用固定阈值,而FreeMatch使用可学习的阈值参数,灵感来自FreeMatch [18]。由于作者的方法关注获取最优阈值参数,作者将具有可学习阈值参数的版本称为FreeMatch,而Adsh根据类依赖生成自适应阈值。
作者对这些方法进行了广泛调整以获得最佳阈值参数,并报告了它们的最佳性能。受MFND文献启发,作者将标准测试准确性作为比较性能指标。
表2报告了在半监督MFND任务下,针对NewsCLIPings[4],GossipCop[28]和PolitiFact[29]数据集的实验结果。对于NewsCLIPpings,仅使用5%的标注数据(Sup@5%)训练的CLIP模型达到了65.57%的准确率。
利用半监督阈值方法没有显示出显著的改进,在某些情况下甚至降低了性能。这表明针对图像分类(单模态情况)提出的基于对数空间的阈值方法可能无法捕捉到真实与虚假图像-文本对之间的复杂关系。相比之下,提出的CoVLM方法通过有效利用未标注数据实现了1.77%的改进。

对于 GossipCop数据集,仅使用5%的 Token 数据时, Baseline 准确率为51.91%。然而,提出的CoVLM显著提高了这一性能,实现了76.42%。在PolitiFact数据集上, Baseline 有监督准确率为50.78%。在这里,CoVLM展示了显著的改进,实现了60.00%。尽管在这些数据集中仍有改进的空间以达到上限,但CoVLM在显著程度上超过了最先进的半监督方法。
图6展示了CoVLM方法在三个不同的数据集(新闻CLIPpings、GossipCop和PolitiFact)上识别真实和虚假新闻的有效性。在第一行,这些图像-文本对来自真实类别,但在没有CoVLM的情况下被错误地预测为虚假新闻;在有CoVLM的情况下,它们被正确地预测为真实新闻。相比之下,在第二行,这些没有CoVLM的情况下被错误地分类为真实故事但被正确识别为虚假新闻的实例。

在本节中,作者分析了数据不平衡对MFND任务的影响,训练过程中 未标注 数据数量的影响,以及提出的CoVLM方法中每个损失组件的影响。
正如之前提到的,在实际的MFND任务中,图像-文本对的数据不平衡问题使其更具挑战性。这主要是因为真实的图像-文本对的数量通常远高于虚假的。为了模拟这种具有挑战性的场景,作者参考了类不平衡半监督学习[17],用9:1的比例合成新闻CLIPings数据集的不平衡,即在每10个样本中,9个是真实的,1个是虚假的,无论是 Token 数据还是 未标注 数据。这种不平衡使得任务更具挑战性,并可能导致模型倾向于将每个样本都预测为真实,除非采取适当的措施来处理这种不平衡。
表3显示了这种不平衡的SS-MFND协议的实验结果。作者观察到,在这个场景中,像FixMatch和Adsh这样的方法有助于极大地提高 Baseline 性能。但提出的CoVLM框架显著优于其他所有方法,其结果接近于平衡情况。

在实际应用中,用于训练模型的未标注数据量可能会有所不同。为了在这些条件下分析所提出的框架,作者对新闻CLIPpings数据集进行了评估,该数据集上的测试准确性如图7所示。
性能通过相对 Token 数据的不同数量的无标签数据进行调整。在这些案例中, Token 数据(5%)保持不变,只有无标签数据发生变化。具体而言,作者使用无标签数据数量作为 Token 数据数量的0倍、1倍、2倍、4倍、10倍。从图7中,作者可以观察到在平衡和失衡情况下,模型的性能在大约4倍 Token 数据数量时达到饱和。
提出的框架使用三个损失组成部分进行训练。为了证明每个建议组成部分的重要性,作者在新闻CLIPpings数据集上进行了消融研究。表4展示了平衡和不平衡情况下的结果。第一行表示仅使用 Token 交叉熵损失()训练的模型,实际上是在没有额外指导的情况下微调CLIP。添加对比聚类损失()显著提高了性能,通过强制实现真实和假样本对之间的更好分离。最后,将 未标注 数据损失()与从CLIP和BLIP共识生成的强健伪标签相结合,进一步提高了性能,展示了CoVLM在半监督MFND方面的优势。

在本文中,作者提出了CoVLM,一种用于半监督多模态虚假新闻检测的新颖框架,旨在在有限的 Token 数据和大量 未标注 数据下有效运行。
通过利用CLIP和BLIP两种视觉语言模型的共识,CoVLM生成强大且准确的伪标签,捕捉图像和文本之间的复杂关系。
作者在诸如NewsCLIPpings,GossipCop和PolitiFact等基准数据集上的广泛实验证明了CoVLM的有效性。此外,CoVLM有效地处理了数据不平衡问题,在数据集不平衡时仍然保持了其性能,以反映真实世界的情况。
本工作在多模态虚假新闻检测方面取得了重大进展,为利用 Token 和 未标注 数据提供了实用解决方案。
CoVLM: Leveraging Consensus from Vision-Language Models for Semi-supervised Multi-modal Fake News Detection.