论文题目:MLLM Can See? Dynamic Correction Decoding for Hallucination Mitigation
本文作者:王晨曦(浙江大学)、陈想(浙江大学)、张宁豫(浙江大学)、田博中(浙江大学)、徐浩铭(浙江大学)、邓淑敏(新加坡国立大学)、陈华钧(浙江大学)
发表会议:ICLR 2025
论文链接:https://www.arxiv.org/abs/2410.11779
代码链接:https://github.com/zjunlp/Deco
欢迎转载,转载请注明出处
一、引言
多模态大模型(MLLMs)的幻觉现象已成为制约其可靠应用的关键瓶颈,然而其内在机制尚未得到充分解释。本工作通过机理分析发现了一个重要现象:当MLLMs在最终输出层生成图像中不存在的虚假物体时,其早期中间层实际上能够正确判断该物体的存在性。这揭示出语言模态的强知识先验在解码过程中逐渐压制了视觉证据,最终导致语义漂移的深层机制。
基于此发现,我们提出了动态校正解码方法DeCo(Dynamic Correction Decoding)。该方法的核心创新在于:首先通过跨层定位技术识别关键中间层的信息表征,继而将早期层获得的可靠视觉证据按动态权重注入最终层的逻辑值计算。这种分层校正机制实现了知识先验与视觉感知的协同优化,在保留模型知识优势的同时有效抑制了视觉信息的衰减过程。
在应用层面,DeCo具有三个优势:(1)模型无关性:无需修改模型架构或进行微调,可灵活适配不同结构的MLLMs;(2)动态适应性:自动确定最优校正层和融合比例;(3)策略兼容性:可与束搜索、温度采样等主流解码策略集成,且推理效率仅产生少量额外开销。
总的来说,区别于传统的事后修正方法,DeCo通过实时监测模型内部表征的动态变化,在解码过程中主动介入信息整合过程。这种"定位-修正"的模型干预策略,能够对输出logits进行定向校正,实现推理过程中进行实时幻觉抑制。
二、动机
这篇工作的动机来源于在分析MLLM在Image caption任务中产生幻觉的例子。我们观察这段描述性句子中的幻觉(橙色)和非幻觉(绿色或者其他颜色)token,包含物体、属性类型。通过输出每一层预测此位置token的top-4 tokens的概率,我们发现在非幻觉token的位置(如"people","left"),往往在前置层到末层正确的token都具有比较高的概率。而在幻觉token的位置(如"green","bird"),尽管正确的token在前置层有较高的概率(18-25层的"blue"和"umbrella"),但是在末层的概率急剧下降甚至低于错误的token(如"green","bird"),这导致了最后幻觉的发生。
为了便于统计性的研究产生幻觉的原因,接下来我们都只将关注于物体类型的token在Image caption任务上的情况。
三、产生幻觉物体的原因
发现一:MLLM其实一定程度上知道某些物体是否存在
实验设置:我们先在真实的Image Caption(AMBER数据集)输出中提取object,然后构建提示 "USER: Describe the image. ASSISTANT: The image contains {obj}" 输入进MLLM。我们提取MLLM的语言模型的每一层输出序列的最后一个位置的表征作为输入,来输入二元分类器用以判断MLLM是否能判断此token存在(每一层会用POPE数据集构建类似的提示训练这样的一个分类器)。
结论:如图a所示,我们发现在正确生成的物体类token上,效果最好的分类器效果能达到95%的准确率。而在MLLM生成错误的token上,MLLM尽然也有将近80%的准确率,同时在POPE的测试集上的效果也不错。如图b所示,我们发现在前置层的准确率最高超过了末层的准确率。这证明了MLLM其实本能够正确判断哪些物体是否存在,所以是什么因素造成了MLLM仍然生成这些不存在的物体。
发现二:MLLM中的语言先验抑制了本能正确识别的视觉信息
我们依然在Image Caption任务中,选择了500张图片的caption,然后从中提取全部生成了幻觉物体的位置。然后将前置提示重新输入模型中,观察预测下一个位置的概率最大的前几个token,记为候选词表(top-p=0.9 截断获得)。具体来说,如果候选词表存在某一个token是非幻觉token,且其在第i层的概率大于幻觉token(是最后一层输出的概率最大的token)的概率,则记此非幻觉token为激活的真值token,具体定义如下:
其中 是候选token词表,代表激活真值token,代表幻觉token(此token是该发生幻觉位置处概率最大的token)
我们统计了全部样本中每一层的真值token数量,如下图所示。可以发现激活真值token大多集中在20-28层左右,28层以后这激活真值token数量急剧下降。同时我们尝试不输入图片,以预测下一个位置上的token情况。我们发现不输入图像时概率最大的token和输入图像时生成的幻觉token重合率高达91.05%。这说明了MLLM仍保持语言基座模型的预测,MLLM的语言先验抑制了对视觉信息的正确表达。
四、动态解码策略
根据前面的发现,我们自然的想通过提高真值token的概率来达到缓解幻觉现象的目的。因此我们直接考虑将前置层(如:20-28层中的某一层)的输出直接按比例加入最后一层的输出以达到控制模型行为的目的,DeCo方法图如下:
具体来说,在模型循环生成token的过程中。
(1)我们先用top-p截取最后一层输出的token作为候选词表,然后观察候选词表中token在前置层的概率。这里我们直接取在选定层区间内(如:20-28)层,概率最大的token。将此token所在的前置层记为Anchor Layer(如第24层)。
(2)其次我们需要将Anchor Layer输出的logits按比例加入最后一层的logits。具体来说,如果直接静态不变的按比例加入会一定程度上破坏生成的质量改变原有生成风格。因此我们考虑引入软调制系数,即Anchor Layer的最大概率。概率越大代表模型对此token自信心越大,反之自信心越小,我们希望能慎重调控模型生成,具体公式如下:
其中代表的是选择层的区间,为静态的放大前置层知识的倍数。
五、实验与分析
实验设置
我们在四种常见的MLLMs,如:InstructBLIP、MiniGPT-4、LLaVA-1.5、Qwen-VL测试DeCo的效果,同时将DeCo和贪婪解码、束搜索、核采样结合分别于经典的解码基线对比。我们分别在Image Caption、POPE、MME和GPT评估进行测试。
主实验结果
物体类型幻觉缓解效果。我们在来自MSCOCO的500张图片(与OPERA论文中选择的图片数据相同)上让模型完成Image caption的任务,然后用CHAIR指标评估物体类型幻觉的程度。DeCo在四种模型和其他解码方法相比都展现了缓解幻觉的显著优势,如表2。同时我们也使用了POPE基准来测试在物体类型的视觉问答,DeCo也展示出了较好的效果,如表3。
通用能力基准表现。DeCo在其他测试通用能力的基准如MME, MMVet上也展示了超越基线的优势,如图5和表9。
我们还测试了DeCo生成的图像描述在GPT-4o下的打分情况,具体包含准确度、详细性和一致性。尽管DeCo在部分方法上的详细性和一致性有所损失,但总体上尤其是在准确度方面表现出色。
分析实验
时延吞吐分析。相比于之前的工作,DeCo仅在一次前向传播中花少量的成本计算所需的前置层信息,因此时延要大幅下降近似于传统的解码方法。
干预选择Anchor Layer分析。为了建议前置层选择的可靠性,我们对于选中的前置层施加一个扰动,具体来说直接在选择的层号上加上[-5,5]之间的整数后作为选择的层。可以发现,经过扰动后的DeCo在图像描述任务上生成了更多的幻觉物体。
缓解滚雪球现象。在实验中,我们发现DeCo也能一定程度上抑制滚雪球式的幻觉现象。在已经发生的幻觉场景下,DeCo抑制了继续生成幻觉,表现了潜在的优势。
六、总结与未来展望
本文总结
在这篇工作中,我们的实验发现了尽管MLLM能够在前置层正确识别出物体是否存在,但是由于语言模型的先验抑制了视觉信息的正确表达,MLLM还是生成了不存在的物体。为此,我们提出了将前置层的知识注入到末层的输出的约束解码策略DeCo,这在图像描述、通用能力测试基准、GPT-4o评估上都取得了出色的效果。
相关工作总结
结合当前的研究,我们推测在LLMs(大语言模型)和MLLMs(多模态大语言模型)中观察到的这一现象可能是由于Transformer架构的特性,特别是注意力机制中的锚定标记效应所导致的,这会在处理长序列时造成信息丢失。例如,在MLLMs中,单个token可能不足以总结来自长序列视觉标记的信息。而另一项研究表明,查询中多个条件的知识会互相掩蔽将导致LLM产生幻觉。在多模态场景中,图像信息代表了一个独特的条件。当文本模态掩蔽了与图像相关的条件时,可能会导致视觉感知中的幻觉。本质上,这反映了注意力机制中信息流的丢失。总体而言,从架构的角度来看,LLMs和MLLMs中的幻觉是由于Transformer的注意力模式在处理此类交互时的不完善所导致的。
未来展望
(1)在未来的研究中,可以考虑采用统一的视角来探究大语言模型和多模态大模型中幻觉的根本原因。
(2)幻觉是大模型短期内难以解决的难题,但经过目前缓解幻觉的工作来看,面向机理的方法,如约束解码带来的效果是有限的,同时平衡可信性和丰富性也是亟待研究。
(3)如何让模型自行探索避免生成幻觉token是一个潜力的发展方向。而近期出现的推理模型通过强化学习训练能够在各种基准上大大超越base模型,面向结果的幻觉问题似乎被极大的缓解了。
(4)此外,现阶段存在新的幻觉问题,如思考过程中产生的逻辑矛盾幻觉,其幻觉产生的深层机理也有待探索和解决。