Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >上交通/重庆大学/质谱AI 提出 ICT 方法:一种即插即用的解决方案,减轻LVLMs幻觉问题 !

上交通/重庆大学/质谱AI 提出 ICT 方法:一种即插即用的解决方案,减轻LVLMs幻觉问题 !

作者头像
AIGC 先锋科技
发布于 2025-01-07 00:15:15
发布于 2025-01-07 00:15:15
1720
举报
文章被收录于专栏:AIGC 先锋科技AIGC 先锋科技

尽管最近在理解和响应复杂视觉文本上下文中实现了大规模视觉语言模型(LVLMs)的突破,但它们固有的假象倾向限制了在需要高精度实际场景中的实际应用。

现有方法通常要么使用额外的数据微调LVLMs,这需要额外的手工标注和计算资源,要么在解码阶段进行比较,这可能会在推理过程中引入推理开销,同时消除推理所需的有用语言先验知识。

因此,作者提出了一种轻量级的、无需训练的方法 ICT,该方法计算一个干预方向,使模型关注不同视觉信息的 Level ,增强对高层次和精细视觉细节的关注。

在正向传播阶段,干预应用于编码整体图像信息和细粒度物体细节的注意力头,有效地减轻了过度语言先验现象,从而减轻了假象。

大量实验表明,ICT 在少量数据下实现了强大的性能,并且可以在不同的数据集和模型之间很好地泛化。

1 Introduction

近年来大型视觉语言模型(LVLMs)在处理复杂现实世界任务方面取得了显著的进步。然而,LVLMs经常生成与视觉输入不一致的文本输出,例如在图像中错误判断物体的存在或在描述物体属性时准确性不足[55, 72]。这个问题通常被称为_物体错觉现象_[55],这严重限制了LVLMs在高风险场景中的适用性,例如自动驾驶[94]和医疗手术[35, 82]。以前的研究表明,LVLMs中产生错觉的主要原因如下:

1)大型语言模型(LLMs),如Vicuna[12],与视觉编码器(如CLIP[67])相比具有显著更强的参数和能力。这导致过强的语言先验,使模型过度依赖语言线索而忽视视觉输入。

2)当前的视觉解码器往往难以准确捕捉细粒度的视觉语义,导致图像中物体属性的详细错误,如颜色和数量。

根据上述两个问题,以前在LVLM中缓解幻觉现象的方法可以分为三个主要方法:

1)使用额外数据进行微调: 这种方法涉及引入高质量的标注数据,以更好地将模型的行为与人类解释对齐,有效教导模型更关注视觉信息 。然而,这种方法不仅需要耗时的手工标注,还涉及更新模型参数,需要大量的计算资源,从而限制了其可扩展性。

2)感知增强: 这种方法将深度图和分割图等附加信息作为辅助输入,帮助视觉编码器捕获更详细的视觉特征,从而减少幻觉。然而,它通常需要手动选择辅助特征,这限制了它在不同任务上的泛化能力。

3)对比解码: 这种方法在不需要额外训练的情况下缓解幻觉。它通过应用模糊、旋转或裁剪等变换来对原始视觉输入进行诱导,从而产生幻觉。在解码阶段,与这些诱导的幻觉相关的 Token 会被惩罚,从而减轻语言先验的影响 。然而,像VCD这样的方法通常会无差别地消除所有语言先验,包括那些可能有益的先验。如图1所示,原始模型识别到Curry拿高尔夫球杆,并利用语言先验识别Curry是一名篮球运动员。这个语言先验对于实现准确解释是有价值的。但是,通过对比解码,这个有用的先验也被移除了,这可能会无意中导致幻觉。

为了应对LVLMs中减轻幻觉的挑战,作者提出了一种图像-目标跨 Level 可信干预(ICT)方法,这是一种训练免费、即插即用的方法,适用于前向传播阶段。与对比解码不同,作者的方法不会消除语言先验知识来减少模型对文本语义的过度依赖。相反,它在前向传播过程中进行干预,以增强模型对综合视觉信息和精细物体细节的关注。作者研究了当模型产生正确响应和幻觉响应时,注意力头的激活模式。这种分析使作者能够识别出激活值偏差,这些偏差可以将模型从“不可信”转变为“可信”。根据先前的研究[8, 19, 80],表明多头注意力机制中的不同头编码信息在不同的粒度 Level ,作者对每个头训练二分类器,以确定哪些头编码整体视觉信息,哪些捕获详细视觉特征。在正向传播过程中,作者根据识别出的粒度 Level 调整这些头的激活值,从而增强模型对相关视觉特征的注意力,并减少幻觉的可能性。如图1所示,在应用ICT后,模型能够更专注于图像内部的细节,如识别出Curry,同时利用有益的语言先验知识(例如,Curry是一名篮球运动员)进行推理和得出正确答案。由于干预的位移向量是预先计算的,ICT在正向传播过程中不会引入额外的延迟。

作者的实验表明,对于LLaVA-v1.5 [52]和Qwen-VL [5],应用IC(信息增益)在POPE基准上平均提高了6.27%,在MME基准上提高了67.37分。此外,IC展示了跨数据集泛化和模型无关的泛化性。作者的贡献可以总结为:

作者提出了图像-目标跨层可信干预(ICT),这是一种新颖的、无训练的、即插即用的方法,可以通过在正向传播过程中增强对整体视觉信息和细粒度目标细节的关注,有效地减少LVLMs中的幻觉,同时不消除有益的语言先验知识。

不同于现有的对比解码方法,作者引入了一种干预机制,该机制在正向传播过程中运行,而不是解码阶段。这使得ICT能够与现有解码策略正交且互补,同时不引入任何额外的延迟。

经过在LLaVA-v1.5和Qwen-VL上的广泛实验,证明信息通信技术(ICT)显著提高了在POPE和MME基准测试上的性能,同时保持了跨数据集和模型无关的泛化性。

2 Related Work

Large Vision-Language Models

随着LLM(大规模语言模型)的成功,研究行人开始探索多模态领域。利用LLM的强大能力,大型视觉语言模型将视觉编码器和特征 Projector 集成到强大的LLM中,使它们能够根据视觉和文本输入理解和生成内容。这些模型通常经过两个训练阶段,即预训练阶段和微调阶段。预训练阶段的主要目的是对文本和视觉特征进行对齐,而微调阶段的目标是进一步弥合视觉和语言之间的模态差距,同时提高它们的指令遵循能力和在特定下游任务上的性能。早期的尝试,如FLamingo [2],Gemini [78],和BLIP-2 [44],已经显示出令人鼓舞的结果。最近的工作,如LLaVA-v1.5 [54],Qwen2-VL [83],和xgen-mm [91],进一步推动了这一领域的发展,极大地提高了这些模型的能力。为了增强视觉表示和语言表示的一致性,已经做出了许多努力,包括使用更高分辨率的视觉编码器,转移到更大和更强大的LLM,采用强化学习技术如RLHF [61, 97]等。尽管已经取得了显著的进展,LVLMs仍然存在严重的错觉,这限制了它们在现实世界场景中的大规模应用潜力。

Mitigating Hallucinations in LVLMs

为了理解幻觉的原因,已经做出了许多努力。现有减轻幻觉的方法可以根据发生的阶段大致分为两类。第一类关注训练阶段。大部分落入这一类的工作都引入了额外的或精选的数据集,这些工作通常为与幻觉相关的任务专门设计数据集或改进数据清理方法[68, 74],或引入新的训练目标。虽然有效,但这些方法通常需要进行广泛的训练,既耗时又费力。第二类关注推理阶段,通常涉及基于CD的[47]新解码策略。另一种方法是生成和纠正潜在的幻觉[18, 37, 59],等等。此外,一些研究行人通过调整分配给图像的注意权重或图像的相关部分[3]来解决幻觉。其他工作包括基于 Prompt 的方法,利用外部工具[11, 95, 103]或外部知识[17, 28, 65]等。

然而,对于大型视觉语言模型来说,其中一个最重要的特征——推理阶段的激活空间仍然被严重忽视。因此,作者的研究旨在在推理阶段进行 Head 干预,为大型视觉语言模型的更有效应用奠定基础。

3 Task Formulation

给定一个由参数化的LVLM模型,该模型处理一个文本输入和视觉输入,其中和分别表示文本和视觉输入的序列长度。模型将文本和视觉序列连接起来形成一个统一的输入,然后通过层 Transformer 架构进行处理。在每个层中,连接输入进行多头自注意力计算,计算方法如下:

表示第 个头在第 层的注意力操作, 是输出投影矩阵,其中 表示每个 Head 的维数, 表示 Head 的数量。随后,模型根据第 层的输出进行自回归预测下一个 Token :

$$p(y_{t}\mid y_{<t})=softmax(fc(\mathbf{h}_{t}^{(l)})), \tag{2}="" $$=""是一个将-维向量映射到词汇大小为的概率分布的仿射层。

4 Methodology

在本节中,作者引入了两个 Level 的细粒度干预模块。第一个模块使LVLM能够专注于图像,从而减少对语言先验的过度依赖。第二个模块鼓励LVLM更加关注图像目标,有助于减轻关键目标的遗漏,减少幻觉。

Intervention at Image-Level

该模块旨在识别与整体图像信息相关的注意力头,并针对这些头应用定向干预措施。这种方法在增强模型对视觉输入的关注的同时,降低了语言先验的影响。

如图2所示,考虑一组图像-问题对,记作,每个对都来自POPE数据集,并 Token 为“是”。在这里,的形式为“图片中/有/个[目标]?”对于每个问题,作者提取指定的目标,并将问题重新表述为“图片中的[目标]是什么?”然后,对于每个图像,作者按照[26]中的前向扩散过程逐步添加高斯噪声,从而得到最终的模糊图像:

在步骤t处,噪声方差表示。最后,作者构建了一个修改后的数据集,以获取图像 Level 的干预向量。然后,作者将与问题连接,形成答案,从而得到同一样本的可靠和不可靠数据对和。

对于每个样本,作者将最后一个 Token 的表示视为多模态数据的融合表示,并从可信和不信任数据的个头中提取注意力激活,分别表示为和,其中。根据可信激活和不信任激活从所有样本对中获得的激活位移向量,作者可以计算以下激活位移向量,以鼓励模型更关注视觉信息:

接下来,作者为每个 Head 训练一个二分类分类器 ,使用 B 个样本对进行训练,以检测哪些 Head 编码了图像级信息,特别是那些能更好地区分信任样本对和不信任样本对的 Head :

当 为所选干预头的数量, 是一个指示函数,当 时为 ,否则为 , 表示干预的强度。使用 对编码图像信息的 Head 进行图像级干预后,模型增强了视觉 Level 的可信度,更加关注视觉信息,从而减轻了过度强大的语言先验的影响。

Intervention at Object-Level

在提升模型在图像层面的可信度之后,为了增加模型对图像细节的关注度,从而减少由于遗漏细节而产生的幻觉,需要进行更精细的目标层面的干预。

最后,作者将图像级和目标级干预模块集成在一起,创建一个统一的方法,以加强模型对整体视觉上下文和更精细的物体特定细节的关注,具体如下:

通过结合这些干预措施,模型获得了一个平衡的注意力机制,该机制在依赖语言先验的同时增强了对于不同粒度 Level 的重要视觉线索的敏感性,从而减轻了幻觉的发生。

5 Experiments

Experimental Setup

Datasets and Metrics.

POPE[48] (基于投票的目标检测评估)是一个用于评估LVLMs在图像中识别特定物体存在的能力,从而确定目标 Level 的幻觉。它使用基于目标标注的Yes/No问题,包括准确性、精确度、召回率和F1分数等指标。数据集是平衡的,其中50%的 Query 针对现有物体,50%针对非现有物体,并采用三种采样策略:随机、流行和对抗性。该评估方法借鉴了MSCOCO [49]、A-OKVQA [73]和GQA [32]等数据集,评估了27,000个 Query -回答对,以衡量模型性能。

MME[20] (多模态大型语言模型评估) 基准旨在全面评估不同维度上的LVLMs的性能。它包括十个注重感知的任务和四个与认知相关的任务。MME基准通过关注目标存在和计数子集来专门评估目标 Level 的幻觉,而属性 Level 的幻觉则通过关注目标位置和颜色相关的子集进行评估。评估指标是准确率,提供了对模型在各种任务上性能的定量衡量。

Baseline 模型作者采用广泛使用的LLaVA-v1.5 [52]和Qwen-VL [5]模型作为作者的 Baseline LVLMs。作者比较了两个在解码阶段消除LVLMs的语言先验以减轻幻觉的 Baseline 模型:VCD [43]和Opera [31]。

实现细节在实验中,作者利用了COCO随机子集的1,500个问答对,其中回答为"Yes",来训练干预位移向量。随后,作者在具有显著分布差异的两个数据集上评估了ICT方法:POPE和MME。这一评估旨在评估ICT在多种数据分布下的泛化性和鲁棒性。对于每个注意力头,作者使用支持向量机(SVMs)[15]作为分类器,并进行了2重交叉验证以评估分类准确性。在实验中,作者设置α=β,并通过网格搜索确定了α、β和K的最优值。附录A提供了详细的超参数配置。所有实验都是在配备了8个H800 GPU的系统上进行的。

Main Results

结果在 POPE.表1 呈现了 LLaVA-v1.5 和 Qwen-VL 在 POPE 数据集的九个子集上的结果。通过比较这些方法,作者可以得出以下结论:

1) 应用 ICT 导致 LLaVA-v1.5 和 Qwen-VL 在9个子集上的 F1 分数平均提高了 7.09% 和 5.44%,分别高于之前的对比解码 sota 基准(Opera)的 2.19% 和 1.14%。这种改进可以归因于 ICT 没有消除语言先验,可能提供有用的信息。相反,它增强了模型对各种视觉信息 Level 的关注,从而减少了模型过分依赖语言先验的趋势,并减轻了幻觉的发生。

2) 在图像 Level 和目标 Level 分别进行干预,平均 F1 分数提高了 5.76% 和 5.47%。这表明增强 LVLMs 对图像信息各 Level 的关注可以有效地减轻幻觉。此外,由于目标 Level 干预也暗示着模型对更广泛的图像信息集中注意力,因此它实现了相对较高的性能改进。

3) 使用来自 MSCOCO 随机子集的 1,500 个样本训练的干预转移向量在 MSCOCO 随机子集上实现了平均 F1 分数的 7.67% 改进,在其余 8 个具有不同分布的子集上实现了平均 6.09% 的改进。这表明 ICT 有效泛化,得到的干预向量捕捉了一般指向可信度的方向,而不仅仅是拟合特定数据集。

6 Analysis and Discussions

Inference Latency across Different Methods

在表2中,作者比较了两种不同代表性方法的推理效率与作者的提出方法。值得注意的是,基于CD的方法导致推理时间显著增加(2.1至3.6倍更慢),而作者的方法对推理效率几乎没有影响。作者归因于这个事实,即VCD和OPERA要么需要多次推理运行,要么在推理过程中涉及大量额外的计算。相比之下,ICT在推理过程中没有增加额外的计算成本,进一步突显了作者的方法的优势。

Generalizability between Different Models

为了验证推导出的激活位移向量在某种程度上代表了模型与真实性的对齐,作者探讨了这些位移是否可以转移至其他模型。具体而言,作者将从LLaVA-v1.5获得的激活位移向量应用于COCO随机子集的Qwen-VL中进行干预。然后,作者在具有与COCO显著不同的分布的GQA数据集上评估了这种干预的一般化效果。表3中的结果表明,与未修改的模型相比,ICC-LLaVA-v1.5在F1得分上平均提高了4.62%,在准确率上提高了4.64%。此外,作者使用t-SNE来可视化LLaVA-v1.5和Qwen-VL中不同层之间的偏移向量。图4显示了两种模型在第16层和第18层的多头注意力层级的目标级和图像级位移向量。

从图中,作者可以观察到在第16层,图像级位移向量(蓝色和黄色)相对较近,表明模型在编码图像级信息方面存在一定程度的相似性。然而,目标级位移向量(红色和绿色)更为显著,反映了模型在编码精细物体细节方面的特定特征。在第18层,两种模型的图像级和目标级位移向量具有很高的相似性,表明生成的激活位移向量代表了通用的位移向量,引导模型更关注视觉信息。

Impact of Hyperparameters on Performance

作者提出的ICC主要依赖于两个关键超参数:干预强度α和参与干预的头数K。为了研究这些超参数对性能的影响,作者固定其中一个参数,并在POPE COCO随机子集上计算LLaVA-v1.5和Qwen-VL的平均F1得分。结果如图6所示,作者可以观察到,当α为负值时,表示反向干预减少模型对视觉信息的关注,此时模型性能下降。当α过小时,模型没有得到足够的干预,导致结果不尽如人意。相反,当α过大时,干预变得过于强烈,破坏了模型的基础能力,导致性能下降。对于超参数K,作者发现当K过小时,某些编码相关视觉信息的注意力头没有得到充分的干预,导致性能不佳。相反,当K过大时,编码无关信息的注意力头被无必要地干预,导致性能下降。

Analysis of Attention Heads for Visual Information Encoding

在图7中,作者呈现了在32层LLaVA-v1.5模型中的1024个多头自注意力头中,图像级和物体级特征的分类准确性。这一分析有助于确定哪些头编码整体视觉信息,哪些头捕捉细微视觉细节。从图中,作者可以观察到编码整体视觉信息的注意力头主要位于模型的早期层,例如第4层和第10层。相比之下,捕捉细微视觉细节的注意力头更集中在模型的后期层,例如第20层和第22层。

Case Study and Error Analysis

在图5中,作者针对POPE和LLaVA-Bench数据集展示了一个案例研究,展示了每个问题文本 Token 对视觉 Token 的注意力比例。如图所示,在应用ICT后,模型将更多的注意力分配给视觉 Token ,尤其是与问题相关的目标 Token (例如,“马”和“水果”)。通过优先考虑视觉信息,ICT正确地识别出图像中没有马,而VCD错误地认为马在图像中存在,这是因为对视觉线索的关注不足。然而,当问到:“图片中有多少未切的果实?”,VCD错误地回答“两个”,这是因为对视觉细节的关注不足。尽管ICT正确地识别出图像中一共有四个果实,但这个问题需要不仅关注视觉内容,还需要在文本模态内进行推理。模型需要不仅识别出果实的总体数量,还需要关注“未切”这个属性。由于它未能将这一信息纳入考虑,ICT给出了错误的答案。

7 Conclusion and Limitations

在本文中,作者通过提出图像-目标跨级可信干预(ICT),一种无需训练且可即插即用的方法,来减轻LVLMs中的目标虚幻问题。在正向传播过程中,ICT能够增强模型在图像级和目标级视觉信息上的关注度。作者的实验表明,ICT显著降低了虚幻现象,同时提高了通用推理能力。结果证实,ICT有效降低了过度依赖语言先验,在多样视觉环境中提高了准确性和鲁棒性。

局限性。 作者的方法需要访问模型的权重,因此无法应用于封闭源模型。此外,作者仅在图像上使用高斯模糊作为变换方法。未来的研究可以探索使用生成方法来转换图像。

参考文献

[0]. ICT: Image-Object Cross-Level Trusted Intervention for Mitigating Object Hallucination in Large Vision-Language Models.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-01-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
​中科大 & 腾讯微信 & 新加坡国立大学 & 复旦等 将视觉特征与 LLM 的参数空间对齐,LoRA 再升级, 效率更上一层!
大型语言模型(LLM)在大多数自然语言任务上取得了令人鼓舞的性能,并在解决现实世界问题中展现出了强大的泛化能力。从LLM派生出的多模态大型语言模型(MLLM)通过感知现实世界的视觉信息,向人工通用智能(AGI)迈出了一步。因此,感知视觉信息的方式是从LLM向MLLM转变的关键。
AIGC 先锋科技
2024/07/08
3510
​中科大 & 腾讯微信 & 新加坡国立大学 & 复旦等 将视觉特征与 LLM 的参数空间对齐,LoRA 再升级, 效率更上一层!
无需训练,多路径推理机制,利用 LVLMs 的内生能力减轻错觉!
视觉语言模型(LVLMs)已经成为人工智能领域不可或缺的里程碑。这些由LVLMs模型自动生成的具有上下文相关性的文本描述可以广泛应用于各个领域,如图1所示,如医疗健康,自主系统机器人等。
AIGC 先锋科技
2024/09/25
2050
无需训练,多路径推理机制,利用 LVLMs 的内生能力减轻错觉!
浙江大学 & 蚂蚁集团提出 PAI,一种无需训练减少 LVLM 幻觉的方法 !
最近,大型视觉-语言模型(LVLMs)取得了显著进展,在多种任务上展现了卓越的能力。然而,这些模型仍存在幻觉现象。具体来说,模型生成的文本内容与实际接收的视觉输入之间往往存在不匹配[25]。
AIGC 先锋科技
2024/08/05
2700
浙江大学 & 蚂蚁集团提出 PAI,一种无需训练减少 LVLM 幻觉的方法 !
零开销,消除图像幻觉!基于零空间投影挖掘正常样本特征 | CVPR 2025
当前大型视觉语言模型(LVLMs)普遍存在「物体幻觉」问题:模型会凭空生成图像中不存在的物体描述。
新智元
2025/06/28
1070
零开销,消除图像幻觉!基于零空间投影挖掘正常样本特征 | CVPR 2025
港中文提出少即是多,高效多模LLMs的简单但有效的令牌减少方法 !
随着大规模语言模型(MLLM)的快速发展,它们在各种领域展现出优越甚至超人的性能。然而,这种进步伴随着这些模型消耗资源的显著增加。因此,研究社区开始更加关注开发高效的大型语言模型。
AIGC 先锋科技
2024/10/12
1940
港中文提出少即是多,高效多模LLMs的简单但有效的令牌减少方法 !
CVPR 2024 | 多模态大模型幻觉原因找到了!
OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospection-Allocation
数据派THU
2024/04/16
8990
CVPR 2024 | 多模态大模型幻觉原因找到了!
将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B
对于大型视觉语言模型(LVLM)而言,扩展模型可以有效提高模型性能。然而,扩大参数规模会显著增加训练和推理成本,因为计算中每个 token 都会激活所有模型参数。
机器之心
2024/02/06
2670
将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B
3B模型不输7B LLaVA!北大多模态MoE模型登GitHub热榜
北大联合中山大学、腾讯等机构推出的新模型MoE-LLaVA,登上了GitHub热榜。
量子位
2024/02/22
6740
3B模型不输7B LLaVA!北大多模态MoE模型登GitHub热榜
ICLR 2025 | 多模态大模型总&quot;胡说八道&quot;?「定位-修正」实现生成过程的幻觉抑制
论文题目:MLLM Can See? Dynamic Correction Decoding for Hallucination Mitigation
DrugAI
2025/03/28
2560
ICLR 2025 | 多模态大模型总&quot;胡说八道&quot;?「定位-修正」实现生成过程的幻觉抑制
12%计算量就能媲美原模型,Adobe、罗切斯特大学等提出YOPO剪枝技术
本篇论文的核心作者包括罗切斯特大学的博士研究生张泽良,指导教师徐辰良副教授,以及来自Adobe的研究员赵文天,万锟和李宇哲。
机器之心
2025/02/14
830
12%计算量就能媲美原模型,Adobe、罗切斯特大学等提出YOPO剪枝技术
每日学术速递3.26 (New! 一图速览)
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
AiCharm
2025/03/27
1390
每日学术速递3.26 (New! 一图速览)
中山大学 & 华为诺亚实验室提出 HiRes-LLaVA 框架,解决切片的高分辨率LVLM引起的输入碎片化问题 !
近期在大型视觉-语言模型(LVLMs)方面的进展显著提高了视觉-语言任务的能力,促进了理解、推理和交互的改进。早期的LVLMs[34; 82; 44]以低分辨率处理图像,通常是,这限制了它们捕捉详细视觉信息的能力。这种局限性常常导致对图像中物体及其上下文关系的识别不准确[17; 41]。
AIGC 先锋科技
2024/07/31
3810
中山大学 & 华为诺亚实验室提出 HiRes-LLaVA 框架,解决切片的高分辨率LVLM引起的输入碎片化问题 !
上交通和英国格拉斯哥大学提出 SEMPose: 一种用于多目标姿态估计的单端到端网络 !
在机器视觉领域,六自由度(6D)位姿估计起着至关重要的作用。这种技术可以测量物体的位置(沿x、y、z轴的坐标)和方向(俯仰角、偏航角)。因此,它可以帮助机器人准确理解物体的空间姿态,这对于机器人抓取、移动或操作物体[1]至关重要。在这些过程中,常常会遇到需要估计多个物体的场景。这些物体通常大小不一,并且可能会相互遮挡。然而,尽管6D位姿估计技术取得了显著的进展,但现有的方法在处理多物体场景时仍然存在困难。
未来先知
2024/12/19
2840
上交通和英国格拉斯哥大学提出 SEMPose: 一种用于多目标姿态估计的单端到端网络 !
每日学术速递2.26
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
AiCharm
2025/02/27
1621
每日学术速递2.26
清华大学与智谱 AI 联合推出 CogAgent:基于多模态大模型的 GUI Agent,具备视觉问答、视觉定位等能力
近日,清华 KEG 实验室与智谱 AI 联合推出了视觉 GUI Agent——CogAgent,CogAgent 是一个通用的视觉理解大模型,具备视觉问答、视觉定位(Grounding)、GUI Agent 等多种能力,可接受 1120×1120 的高分辨率图像输入。在 9 个经典的图像理解榜单上(含 VQAv2,STVQA, DocVQA,TextVQA,MM-VET,POPE 等)取得了通用能力第一的成绩,并在涵盖电脑、手机的 GUI Agent 数据集上(含 Mind2Web,AITW 等),大幅超过基于 LLM 的 Agent,取得第一。
深度学习与Python
2024/01/04
7180
清华大学与智谱 AI 联合推出 CogAgent:基于多模态大模型的 GUI Agent,具备视觉问答、视觉定位等能力
大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二)
“ 本文及上一篇综述了最近关于语言模型中幻觉问题的研究进展,主要集中在ChatGPT发布后的研究。文章讨论了如何评估、追踪和消除幻觉,并探讨了现有挑战和未来方向。希望本文能为对LLM幻觉问题感兴趣的朋友提供有价值的资源,促进LLM的实际应用。”
技术人生黄勇
2024/07/19
9140
大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二)
Tri-HE基准:量化视觉语言模型中的目标和关系幻觉 !
大型视觉语言模型(LVLMs)引起了广泛关注。尽管性能优越,但现有研究主要关注提高LVLMs的有用性,而没有仔细考虑LVLMs生成的响应的可靠性。然而,最近的研究已经观察到LVLMs存在严重的错觉,即LVLMs可能会生成给定图像中不存在的信息,这可能是由于在视觉指令调优过程中训练不足导致的。图1(a)提供了一个典型的例子,其中LaVA[2]模型认为该位置很繁忙,仅仅因为它识别这是一个有几个人存在的地方的火车站。
AIGC 先锋科技
2024/11/25
1310
Tri-HE基准:量化视觉语言模型中的目标和关系幻觉 !
小算力LVLMs,gpt4平替
LVLMs是干什么的?其实非常好理解,简单来说就是GPT4o干的事情,输入一张图片和一句话,LVLMs会给出一个回答。GPT4目前是闭源的,目前开源的做法都是想法了接近gpt4的性能。而对于研究人员而言,没有强大的算力的支持,也只能在一些小规模的LVLMs上寻找一些方法上的创新。下面将介绍一种MOE-LLaVA的方法。
Srlua
2025/01/02
1110
小算力LVLMs,gpt4平替
H-POPE框架:探究大型视觉语言模型在属性赋予中的幻觉来源 !
近年来多模态模型的最新进展已经使得各种令人印象深刻的能力变得可行。例如,这些模型可以生成对给定图像的详尽描述,从而反映出对文本和视觉领域的理解。尽管它们取得了有前途的进展,但现有的模型通常会受到一种称为“幻觉”的现象的影响,这种现象不仅降低了模型的性能,而且引发了关于安全和可靠性的问题。为了理解和评估LVLMs中的幻觉,已经提出了几个基准测试。具体来说,《Caption Hallucination Assessment with Image Relevance》(CHAIR)[9] 表明,当要求提供对给定图像的准确描述时,这些模型的响应通常包括实际上不存在的物体[9]。此外,《Polling-based Object Probing Evaluation》(POPE)[5] 表明,这些模型倾向于确认图像中不存在的物体存在,如果它经常与其他图像中的物体共同出现。
AIGC 先锋科技
2024/12/25
1580
H-POPE框架:探究大型视觉语言模型在属性赋予中的幻觉来源 !
AWS 提出 TAP-VL: 针对增强视觉语言模型的文本布局感知预训练 !
大型视觉语言(VL)模型已成为人工智能领域的一个关键研究领域,在多模态推理方面取得了显著进展。这些架构通过将视觉编码器与大型语言模型(LLM)通过翻译模块集成,在视觉和文本数据之间建立桥梁。这个模块将视觉编码器投影到文本嵌入空间。
AIGC 先锋科技
2024/12/19
1710
AWS 提出 TAP-VL: 针对增强视觉语言模型的文本布局感知预训练 !
推荐阅读
​中科大 & 腾讯微信 & 新加坡国立大学 & 复旦等 将视觉特征与 LLM 的参数空间对齐,LoRA 再升级, 效率更上一层!
3510
无需训练,多路径推理机制,利用 LVLMs 的内生能力减轻错觉!
2050
浙江大学 & 蚂蚁集团提出 PAI,一种无需训练减少 LVLM 幻觉的方法 !
2700
零开销,消除图像幻觉!基于零空间投影挖掘正常样本特征 | CVPR 2025
1070
港中文提出少即是多,高效多模LLMs的简单但有效的令牌减少方法 !
1940
CVPR 2024 | 多模态大模型幻觉原因找到了!
8990
将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B
2670
3B模型不输7B LLaVA!北大多模态MoE模型登GitHub热榜
6740
ICLR 2025 | 多模态大模型总&quot;胡说八道&quot;?「定位-修正」实现生成过程的幻觉抑制
2560
12%计算量就能媲美原模型,Adobe、罗切斯特大学等提出YOPO剪枝技术
830
每日学术速递3.26 (New! 一图速览)
1390
中山大学 & 华为诺亚实验室提出 HiRes-LLaVA 框架,解决切片的高分辨率LVLM引起的输入碎片化问题 !
3810
上交通和英国格拉斯哥大学提出 SEMPose: 一种用于多目标姿态估计的单端到端网络 !
2840
每日学术速递2.26
1621
清华大学与智谱 AI 联合推出 CogAgent:基于多模态大模型的 GUI Agent,具备视觉问答、视觉定位等能力
7180
大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二)
9140
Tri-HE基准:量化视觉语言模型中的目标和关系幻觉 !
1310
小算力LVLMs,gpt4平替
1110
H-POPE框架:探究大型视觉语言模型在属性赋予中的幻觉来源 !
1580
AWS 提出 TAP-VL: 针对增强视觉语言模型的文本布局感知预训练 !
1710
相关推荐
​中科大 & 腾讯微信 & 新加坡国立大学 & 复旦等 将视觉特征与 LLM 的参数空间对齐,LoRA 再升级, 效率更上一层!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档