CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
Power by Kimi&苏神 编辑丨AiCharm
Subjects: cs.CV
1.VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
标题: VITA-1.5: 迈向 GPT-4o 级别的实时视觉和语音交互
作者:Chaoyou Fu, Haojia Lin, Xiong Wang, Yi-Fan Zhang, Yunhang Shen, Xiaoyu Liu, Yangze Li, Zuwei Long, Heting Gao, Ke Li, Xiawu Zheng, Rongrong Ji, Xing Sun, Caifeng Shan, Ran He
文章链接:https://arxiv.org/pdf/2501.01957
项目代码:https://github.com/VITA-MLLM/VITA
摘要:
最近的多模态大型语言模型 (MLLM) 通常侧重于整合视觉和文本模态,而较少强调语音在增强交互中的作用。然而,语音在多模态对话系统中起着至关重要的作用,由于基本模态差异,在视觉和语音任务中实现高性能仍然是一个重大挑战。在本文中,我们提出了一种精心设计的多阶段训练方法,逐步训练 LLM 来理解视觉和语音信息,最终实现流畅的视觉和语音交互。我们的方法不仅保留了强大的视觉语言能力,而且无需单独的 ASR 和 TTS 模块即可实现高效的语音转语音对话功能,从而显着加快了多模式端到端响应速度。通过将我们的方法与图像、视频和语音任务基准中最先进的方法进行比较,我们证明了我们的模型配备了强大的视觉和语音功能,可以进行近乎实时的视觉和语音交互。
这篇论文试图解决什么问题?
这篇论文提出了一个名为VITA-1.5的多模态大型语言模型(MLLM),旨在解决以下几个关键问题:
综上所述,论文的核心贡献在于提出了一个能够理解视觉和语音信息,并能够实现流畅视觉和语音交互的多模态大型语言模型VITA-1.5,同时在多个基准测试中展示了其强大的视觉和语音能力。
论文如何解决这个问题?
论文通过提出一个多阶段训练方法来解决上述问题,具体步骤如下:
通过这种分阶段的训练策略,VITA-1.5能够在不同模态间逐步建立联系,同时保持和增强每种模态的性能,最终实现了一个能够进行高效视觉和语音交互的多模态大型语言模型,无需依赖于独立的ASR和TTS模块。
论文做了哪些实验?
论文中进行了一系列实验来评估VITA-1.5模型的性能,这些实验主要分为以下几个方面:
这些实验全面评估了VITA-1.5在视觉、语言和音频模态上的性能,并与现有的开源和专有模型进行了比较,证明了VITA-1.5在多模态交互领域的竞争力。
论文的主要内容:
这篇论文提出了VITA-1.5,一个多模态大型语言模型(MLLM),旨在通过整合视觉、语言和语音模态,实现高效的实时视觉和语音交互。以下是论文的主要内容总结:
问题陈述:
现有的多模态大型语言模型主要关注视觉和文本的整合,而忽视了语音在多模态交互中的重要性。
视觉和语音模态之间的根本差异导致了训练中的冲突,影响模型性能。
传统语音到语音系统依赖于ASR和TTS模块,增加了延迟,降低了实时交互的实用性。
VITA-1.5模型:
提出了VITA-1.5,一个通过三阶段训练方法逐步整合视觉和语音数据的多模态LLM。
模型架构包括视觉编码器、音频编码器、适配器和LLM,以及端到端的语音生成模块。
多阶段训练策略:
第一阶段:视觉-语言训练,包括视觉对齐、视觉理解和视觉SFT。
第二阶段:音频输入调整,包括音频对齐和音频SFT。
第三阶段:音频输出调整,包括编解码器训练和NAR+AR解码器训练。
实验评估:
在多个图像、视频和语音理解基准上评估VITA-1.5的性能,并与开源和专有模型进行比较。
VITA-1.5在视觉和语音任务上展现出与领先模型相当的性能,并在某些方面实现了显著改进。
结论:
VITA-1.5通过精心设计的训练策略,成功整合了视觉和语音模态,无需依赖ASR和TTS模块即可实现高效的语音到语音交互。
该模型在多模态基准测试中表现出色,证明了其在实时多模态交互领域的潜力。
未来工作:
论文指出了进一步探索的方向,包括提高视频理解能力、优化语音识别和合成、增强多模态融合策略等。
总体而言,VITA-1.5模型通过其创新的三阶段训练方法,在多模态交互领域取得了重要进展,为实现更自然、更高效的人机交互提供了新的可能性。
2.VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment
标题: VideoLifter:通过快速分层立体对齐将视频提升到 3D
作者:Wenyan Cong, Kevin Wang, Jiahui Lei, Colton Stearns, Yuanhao Cai, Dilin Wang, Rakesh Ranjan, Matt Feiszli, Leonidas Guibas, Zhangyang Wang, Weiyao Wang, Zhiwen Fan
文章链接:https://arxiv.org/abs/2304.05977
项目代码:https://videolifter.github.io/
摘要:
从单目视频中高效重建准确的 3D 模型是计算机视觉中的一项关键挑战,对于推进虚拟现实、机器人技术和场景理解中的应用至关重要。现有方法通常需要预先计算的相机参数和逐帧重建管道,这容易产生误差累积并带来巨大的计算开销。为了解决这些限制,我们引入了 VideoLifter,这是一个新颖的框架,它利用可学习模型中的几何先验来直接从视频序列逐步优化全局稀疏到密集的 3D 表示。VideoLifter 将视频序列分割到本地窗口中,在那里它匹配和注册帧,构建一致的片段,并按层次结构对齐它们以生成统一的 3D 模型。通过跨帧和片段跟踪和传播稀疏点对应关系,VideoLifter 可以逐步优化摄像机姿势和 3D 结构,最大限度地减少重投影误差,从而提高准确性和稳健性。这种方法显著加快了重建过程,将训练时间缩短了 82% 以上,同时在视觉保真度和计算效率方面超过了当前最先进的方法。
这篇论文试图解决什么问题?
这篇论文试图解决的主要问题是:**从单目视频中高效且准确地重建3D模型**。具体来说,这项工作旨在解决以下几个关键挑战:
为了克服现有方法的局限性,论文提出了VideoLifter,这是一个新颖的框架,它利用可学习模型的几何先验来增量优化从视频中直接得到的全局稀疏到密集的3D表示。通过跟踪和传播稀疏点对应关系跨帧和片段,VideoLifter增量式地优化相机姿态和3D结构,最小化重投影误差,以提高准确性和鲁棒性。这种方法显著加快了重建过程,减少了训练时间,同时在视觉保真度和计算效率方面超越了当前的最先进方法。
论文如何解决这个问题?
论文通过提出一个名为**VideoLifter**的框架来解决从单目视频中高效且准确地重建3D模型的问题。该框架包含两个关键创新点:
论文做了哪些实验?
论文中进行了以下实验来评估VideoLifter框架的性能:
这些实验结果表明,VideoLifter在不需要预先计算的相机参数的情况下,能够从普通视频中实现高质量的3D重建,并显著降低计算需求。
论文的主要内容:
这篇论文介绍了一个名为VideoLifter的新框架,旨在从单目视频中高效且准确地重建3D模型。以下是论文的主要内容总结:
总体而言,VideoLifter通过其创新的框架和方法,解决了从单目视频中高效且准确地重建3D场景的挑战,并在多个数据集上展示了其优越的性能。
3.Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding
标题:通过模态间相关校准解码减轻大型视觉语言模型的幻觉
作者: Jiaming Li, Jiacheng Zhang, Zequn Jie, Lin Ma, Guanbin Li
文章链接:https://arxiv.org/abs/2501.01926
项目代码:https://github.com/lijm48/IMCCD
摘要:
大型视觉语言模型 (LVLM) 在下游多模态任务的视觉语言理解方面表现出卓越的能力。尽管取得了成功,但 LVLM 在复杂的生成任务中仍然会产生幻觉,导致视觉输入和生成内容不一致。为了解决这个问题,一些方法引入了推理时间干预,例如对比解码和注意力校正,以减少对语言先验的过度依赖。然而,这些方法忽略了由虚假模态间相关性引起的幻觉。在本文中,我们提出了一种模态间相关校准解码 (IMCCD) 方法,以免训练的方式减轻 LVLM 中的幻觉。在这种方法中,我们设计了一个跨模态价值增强解码 (CMVED) 模块,通过一种新的对比解码机制来缓解幻觉。在估计扭曲分布的过程中,CMVED 掩盖了与显著的跨模态注意力权重相关的价值向量,这解决了单模态过度依赖和误导性模态间相关性的问题。此外,内容驱动的注意力优化 (CDAR) 模块优化了跨模态的注意力权重,指导 LVLM 专注于重要的视觉内容。不同幻觉基准的实验结果验证了我们的方法在减少 LVLM 文本生成中的幻觉方面优于现有的最先进技术。
这篇论文试图解决什么问题?
这篇论文试图解决大型视觉语言模型(LVLMs)在复杂生成任务中产生幻觉的问题。幻觉指的是LVLMs生成的文本内容在语义上连贯,但与给定图像中的真实对象不一致,导致其在可靠应用中受到限制。具体来说,论文中提到尽管LVLMs在视觉语言理解方面取得了显著进展,但它们在生成响应时仍存在幻觉问题,这表现为生成的文本内容与视觉输入不一致。为了解决这一问题,论文提出了一种名为“跨模态相关性校准解码”(Inter-Modality Correlation Calibration Decoding, IMCCD)的方法,以减少LVLMs文本生成中的幻觉现象。
论文如何解决这个问题?
论文提出了一种名为“跨模态相关性校准解码”(Inter-Modality Correlation Calibration Decoding, IMCCD)的方法来解决大型视觉语言模型(LVLMs)在文本生成中的幻觉问题。IMCCD方法包含两个关键组件:
这两个模块共同作用,旨在通过对比解码减轻由于单模态过度依赖和虚假跨模态相关性引起的幻觉,并通过内容驱动的注意力细化来增强模型对视觉内容的关注,从而提高LVLMs在文本生成任务中的可靠性和准确性
论文做了哪些实验?
论文中进行了一系列实验来验证所提出的IMCCD方法在减少大型视觉语言模型(LVLMs)幻觉方面的效果。具体的实验包括:
数据集和评估指标:
使用了POPE和MME这两个广泛使用的LVLMs幻觉缓解基准数据集,以及MS-COCO验证集上的CHAIR指标来评估图像描述任务中的幻觉情况。
模型和实现细节:
将IMCCD方法与两个流行的LVLMs模型集成,分别是LLaVA1.5和InstructBLIP,这两个模型都采用了Vicuna 7B作为语言模型。
实验结果:
POPE数据集:比较了IMCCD方法与现有的三种对比解码方法(包括VCD和ICD)在不同子集上的性能,IMCCD在减少对象存在幻觉方面优于现有方法。
CHAIR指标:在MS-COCO验证集上评估了IMCCD方法在图像描述任务中的性能,并与基线方法和其他对比解码方法进行了比较,IMCCD在CHAIRi和CHAIRs指标上取得了更好的性能。
MME数据集:在MME幻觉子集和MME完整集上进行了比较,IMCCD在缓解对象级和属性级幻觉方面取得了最佳成绩。
消融研究和分析:
对IMCCD框架中的各个组件(CMVED和CDAR)进行了消融研究,以展示每个组件对整体性能的贡献。
对所使用的扭曲方法进行了消融研究,比较了传统的注意力掩码策略、值向量噪声添加和值向量掩码(即本文提出的方法)在缓解幻觉方面的效果。
分析了IMCCD方法在统计上显著的对象存在情况下缓解幻觉的能力,展示了该方法在减少由虚假跨模态相关性引起的幻觉方面的有效性。
结论:
论文通过广泛的实验验证了IMCCD方法在不同基准数据集和LVLMs上减少幻觉方面的有效性。
这些实验结果表明,IMCCD方法能够有效地减少LVLMs在文本生成中的幻觉,提高了模型的可靠性和准确性。
论文的主要内容:
这篇论文的主要内容包括以下几个方面:
总体而言,这篇论文针对LVLMs在多模态任务中出现的幻觉问题,提出了一种有效的解决方案,并通过实验验证了其有效性,为未来在这一领域的研究提供了新的方向。