Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >中科院/中科大/芝加哥大学创新动态Token合并框架,无需微调,依然强大,零样本视频理解的突破性进展!

中科院/中科大/芝加哥大学创新动态Token合并框架,无需微调,依然强大,零样本视频理解的突破性进展!

作者头像
AIGC 先锋科技
发布于 2025-01-07 00:15:22
发布于 2025-01-07 00:15:22
3090
举报
文章被收录于专栏:AIGC 先锋科技AIGC 先锋科技

最近多模态大型语言模型(MLLMs)的先进发展,为视频理解开辟了新的途径。然而,在零样本视频任务中实现高保真度仍然具有挑战性。

传统的视频处理方法严重依赖微调以捕捉细腻的空间-时间细节,这导致数据和计算成本巨大。相比之下,无训练方法虽然高效,但在保留复杂视频内容中的上下文丰富特征方面往往缺乏鲁棒性。

因此,作者提出了一种新颖的动态 Token 合并框架,用于零样本视频理解,该框架在适应性优化 Token 效率的同时,保持关键场景细节。该框架将层次化帧选择和二分 Token 合并策略相结合,动态聚类关键帧并选择性地压缩 Token 序列,在计算效率与语义丰富性之间取得了平衡。

在多个基准测试上的广泛实验表明,与微调和无训练方法相比,该方法实现了优越的性能,并创下了零样本视频理解的新最先进水平。

1 Introduction

近年来,视频理解取得了显著进展,这主要得益于多模态大型语言模型(MLLMs)的快速发展。传统的视频理解方法通常依赖于特定的训练,将视频帧与自然语言对齐,利用空间-时间线索在视频序列之间构建连贯的故事 [2, 19, 20]。相比之下,基于MLLM的方法提供了一个更灵活和泛化的框架,在预训练阶段融合了多个数据模态的多样化开放世界知识 。通过利用这种预训练知识,MLLM可以动态地适应各种任务,如字幕生成 [39],问答 [11],检索 [9],以及针对各种视频内容进行零样本或少样本推理 [5]。基于MLLM的视频理解方法通常分为两类:一类需要领域特定的微调 ,另一类则是完全不需要训练 [6, 12, 31, 35]。

许多时候,这些方法在准确性和效率之间存在权衡。尽管微调模型通常通过调整其能力以适应特定任务来获得更高的准确性,但这需要大量的 Token 数据和增加的计算资源。相比之下,无训练方法更有效率和灵活,利用预训练MLLMs的泛化能力进行零样本推理。然而,在某些设置中,可能需要更深入的理解,如特定的推理任务或不同的视频类型,因此在这些设置中,平衡这些权衡仍是一个关键的挑战,以推进基于MLLM的视频理解。

尽管零样本学习方法具有零成本适应性的显著优势,但在不进行特定微调或逐帧标注的情况下,保留帧间关键的空间-时间细节是一个核心挑战。现有工作经常在保留语义丰富性和保持计算效率之间做出权衡。例如,许多方法减少帧数并执行激进的分词池化,这可能会失去在上下文中具有重要意义的帧或捕捉微妙动作的视觉分词。因此,现有方法难以在适应视频内容的时间复杂性变化的同时,在保持语义忠实度和提高分词效率之间达到平衡。

为此,作者提出了DvTo,一种新颖的Dvnamic Token合并方法,该方法利用层次帧选择和细粒度二分Token压缩方法。DvTo在有效保留关键空间-时间信息的同时,显著减少了Token的冗余。具体来说,作者的方法在层次时间尺度上动态聚类关键帧,使其能够适应性捕捉关键事件,而无需使用刚性的采样策略。此外,通过实现二分Token合并机制,作者根据每个帧的语义内容优化Token计数,在计算限制下支持更丰富的视频表示。

通过采用这种动态、自适应的框架,DvTo在零样本视频理解方面取得了优越性能,超过了微调模型和其他无训练方法。本文的贡献包括:

一种新颖的分级二分合并策略,该策略动态地选择关键帧并执行自适应 Token 合并,以优化时空保真度和在扩展帧序列中实现更精细的特征保留。

综合多个基准的全面评估,展示了DvTo在理解和计算效率方面均优于现有方法,包括既定模型微调方法,也包括无训练方法。

2 Related Work

Video Large Language Models

近年来,视频语言模型取得了显著的进步。VideoCatGPT[1]从每一帧中获取特征,并使用空间和时间池化两种操作进行结合,然后将它们输入大型语言模型。LLaMA-VID[17] 利用双 Token 方法有效地压缩视频 Token ,通过区分上下文和内容。Vista-LLaMA[21]提出了EDVT-Attention以及一个强调视觉 Token 而减少时间 Token 的连续视觉 Projector 。

Video-LLaVA[18]在图像和视频编码器之前对它们进行对齐,使得它们可以在图像和视频任务上共享投影和联合训练,从而映射到语言空间。VideoChat[15]利用交叉注意力压缩视频 Token 、用户 Query 和会话上下文。Video-LLaMA[38]引入了Video Q-Former和Audio Q-Former,允许在视频理解中集成多个模态。相比之下,Video-LLaMA2[7]设计了一个空间-时间卷积连接器来替代Q-Former进行空间-时间表示学习。Chat-UniVi[10]开发了一个用于图像和视频的统一模型,使用动态 Token 合并和k-NN来简化空间和时间 Token 。SeViLA[36]专注于检测和提取与 Query 相关的关键帧,并分析视频,通过将这些关键帧转换为视频 Token 。

Training-free Video LLMs

近期研究探索并证明了图像语言模型(Image LLMs)在视频理解场景下无需额外微调即可应用。FreeVA [31] 探索了影响视频理解性能的不同空间-时间池化策略和来自闭源 GPT 评估的版本。 IG-VLM [12] 设计了图像网格格式,并将多个视频帧组装成图像,然后将其发送到图像语言模型。SlowFast-LLaVA [35](简称 SF-LLaVA)引入了一种新的融合技术,用于短期与长期采样以及各种池化策略。

这些方法在各种视频基准测试上取得了有前途的结果,但它们有两个主要局限性。首先,它们都将以固定长度统一采样视频帧,作为视频的表示。这种方法在视频中不可避免地丢失了重要的事件信息。尽管 SF-LLaVA 比其他方法采样了更长的序列,但其设计使用少量 Token 无法捕捉到每帧丰富的空间信息。此外,所采用的平均或最大池化方法无法充分保留动作在时间维度上的显著变化。在本文中,作者提出了一种新的方法,可以动态选择帧并合并视觉 Token ,使作者能够全面且高效地捕捉到每个视频的完整语义信息。作者还扩展了采样视频帧序列到100或更多帧,以提高在较长视频理解任务上的性能。

3 Method

为了减少在分词压缩过程中关键信息的损失,作者引入了一种分层二分图合并机制。首先,对于一个均匀采样N帧的视频,视频帧由视觉编码器分别编码,生成视觉 Token 。这些 Token 随后由 Token 聚合模块处理,从粗粒度特征转换到细粒度特征。

Coarse-grained Hierarchical Clustering

对于视频的第N帧 Token 序列,其中,作者定义一个有向图,其中C是节点集(即需要聚类的点),边E连接特征空间中的节点。以前的研究表明,深度层倾向于在图像中[14, 26]聚合全局语义,因此作者收集每个的[CLS] Token ,并将其作为视频的压缩表示。时间戳定义为。作者通过计算帧与帧之间的特征空间距离并调整它们以表示时间位置来构建。

和 分别表示 [CLS] Token Embedding 。内积在 L2 正则化特征向量上计算,以保持距离在 [0, 1] 范围内。 作为基于序列长度的加权机制。最后,作者通过保留每个节点最接近的节点并设置其他边为零来构建 1-NN 图。

1-NN时序图定义了一个邻接矩阵,其中每个节点根据时间加权距离与最近邻居相连。通过设置使链接对称,以编码空间-时间距离,并形成便于聚类的连通分量。等式2中的图的连通分量自动将数据聚类。当只剩下一个聚类时,作者递归地根据特征的聚类平均值合并这些聚类,并选择第二个最大的聚类进行视频分割。作者用表示聚类中的帧的索引集。因此,第个聚类内的帧可以表示为:

作者对每个聚类中的帧进行均匀采样,并将其组合为关键帧序列 ,其中 是聚类的数量。聚类可以提供当前视频序列中包含的事件的分布,从而指导后续步骤的细粒度合并。

Fine-grained Dynamic Bipartite Merging

之前的[12, 31, 35]方法要么简单地将帧连接起来并为VLM设计 Prompt ,要么对每个图像 Token 使用池化方法构建视频表示。为提出一种新颖的方法,有效构建从选定帧中选取的视频表示。

在通过之前描述的方法获取帧序列的分割后,作者实现了一种动态二分 Token 合并方法,该方法灵感来源于ToMe[3],以最小化视觉 Token 的数量。对于中的每个单独帧,作者依次将 Token 分成两个非重叠 Token 集,其中包含 Token ,,其中包含 Token ,在每一步中,初始。作者将用于动态合并图像以在固定视觉 Token 长度下保留更多 Token 。为了获得相似度得分,每个视觉 Token 在通道维度上分成个头,每个头具有个通道。对于每个 Token 对,相似度得分通过应用公式(4)对所有头求平均余弦相似度得分得到。

其中, 和 分别表示集合 和 中第 个 Patch 特征 的索引和第 个视觉 Token 的索引。作者选择相似度得分最高的 Top- 个 Token 对并通过池化组合匹配 Token 。最后,将两个集合中剩余的 Token 合并在一起,形成 个 Token ,经过第 步后完成。最后,作者将从 到 的视频特征进行高效编码,以减少原始视觉 Token 序列中的冗余。

4 Experiment

为了评估DyTo,作者使用了超过10个基准测试,这些测试涵盖了方法在结构化和开放式视频问答(VQA)方面的能力,特别是使用了多项选择和GPT辅助的基准测试。

Evaluation Benchmarks

结构化的VQA基准测试。对于结构化的VQA,作者在一系列多种选择题基准测试上评估DyTo,包括NextQA [32]、VideoMME [8]、EgoSchema [24]、STAR [30]和IntentQA [13],这些测试都旨在量化模型在预定义选项中选择正确答案的准确性。这些基准测试共同为DyTo提供了全面的评估,以解释复杂的、多模态数据,并在任务结构的不同 Level 上生成准确、上下文丰富的响应。此外,作者在VideoMME [8]基准测试的"无子"配置下进行了实验,该配置限制了访问字幕,从而隔离了模型在视频理解中依赖视觉和时间线索的能力。

开放式VQA基准测试。对于开放式VQA任务,作者在MSVD-QA[4]、MSRVTT-QA[33]、TGIF-QA[16]和ActivityNet-QA[37]基准测试上评估DyTo的零样本性能。这些基准测试要求模型自主生成自由形式回答,模拟实际世界的问题回答情境,需要对视频内容进行细腻的理解。

与先前的方法一致,作者使用视频GPT生成基准测试22作为评估文本生成能力的主要基准,评估包括信息正确性(CI)、细节导向性(DO)、上下文理解(CU)、时间理解(TU)和一致性(CO)在内的五个关键维度。遵循Wu[31]的研究,作者使用 GPT-3.5-Turbo-0125 以确保与其他方法的公平比较。

Experimental Setup

实现细节。所有评估可以在单个Nvidia A100 80G显卡上进行。为了加速推理,作者使用配备8张Nvidia A100 80G显卡的Linux服务器。DyTo基于LLaVACXT模型系列,预训练权重可在HuggingFace1上找到。作者实现了旋转位置嵌入(RoPE)并应用一个缩放因子2,将原始上下文长度从4096扩展到8192个 Token 。

输入视频和模型设置。在作者的方法中,作者统一地将每个视频样本到N=100帧。每帧都进行重新缩放,以匹配视觉编码器的输入尺寸,然后输出24×24+[CLS]视觉 Token 加上一个[CLS] Token 。

遵循Sarfraz等人[27]的做法,作者将[CLS] Token 作为每帧的粗粒度特征,然后使用N次 层次聚类 (SS3.1)将序列分为K个簇。

由于硬件限制,作者将视觉 Token 序列长度 设置为 3680 或 7200,分别对应模型大小为 7B 和 34B。为了在控制 Token 冗余的同时优化特征表示,作者使用 动态调整合并比例。此外,作者将头数 设置为 16,与 CLIP-VIT/L 相匹配。根据 Wu [31] 和 Xu 等人 [35] 的研究,作者在第一轮固定初始合并比例 ,以确保在整个序列上实现最佳性能。

Main Results

结构化的VQA基准测试。如表1所示,DyTo在各种基准测试中始终优于多个微调模型和无训练模型,包括ExTQA [32],VideoMME [8],EgoSchema [24],STAR [30],以及IntentQA [13]。值得注意的是,DyTo展示了其在多样化视频理解环境中的适应性,即使与使用广泛微调的模型相比,也实现了优越的准确率。例如,在NExTQA上,DyTo达到了65.7%的准确率,刷新了最先进性能。同样,EgoSchema,IntentQA,STAR和VideoMME上的性能也说明了DyTo在处理视频内容中的特定任务推理的有效性,通常在这些需要精细的时间和上下文理解的场景中保持准确性优势。

作者的实验表明,层次聚类和二分合并策略对它的准确性有显著贡献。聚类方法在保留语义丰富性的同时捕获帧间关键事件,支持无计算开销的健壮性问题回答性能。此外,提出的动态 Token 合并方法在保留关键上下文信息方面优于传统池化方法,这可能导致过度简化 Token 表示,从而可能失去对准确响应选择至关重要的动作细节。

开放式VQA基准测试。在开放式设置中,如表2所示,DyTo展示了强大的零样本学习能力。它在包括MSVD-QA [4]、MSRVTT-QA [33]、TGIF-QA [16]和ActivityNet-QA [37]等基准测试中,始终优于现有方法。此外,DyTo在VideoCatGPT [22]上表现尤为出色,甚至超过了需要微调的方法,这突显了其在零样本设置下的鲁棒性。DyTo在不进行微调的情况下,仍能保持高精度,这进一步证明了其适应性框架在处理开放式、真实世界VQA任务方面的强大能力,实现了在正确性、上下文理解和时间理解等维度的高分。

5 Analysis

Scaling Up Model Sizes

如图3所示,显著扩大模型大小可以显著提升DyTo在结构化VQA任务上的性能,这在表1中显示的7B性能上有显著提升。具体而言,当模型大小达到34B时,DyTo在NExTQA[32]上的准确率提高了7.2%,在EgoSchema[24]上的准确率提高了8.2%,在STAR[30]上的准确率提高了7.9%。这些更显著的提升反映了该方法在捕捉和推理复杂时空交互上的增强能力,尤其是在需要细微语境理解的任务中。

与其他在340亿参数下的无训练方法相比,DyTo在各项基准测试中始终优于IG-VLM [12]和SlowFast-LLaVA [35],在如VideoMME [8]等任务上具有准确性优势。这表明所提出的层次聚类和二分 Token 合并机制在利用额外模型容量保留关键语义信息方面特别有效,即使没有微调也是如此。

在表4中展示的开放式VQA任务中,作者的34B模型在表2中的7B模型之上,强调了作者的方法的扩展性。例如,DyTo在正确性和上下文理解维度上实现了2.3点的平均提升,同时还在细节方向和时间理解方面取得了改进。这些收益进一步突出了DyTo自适应框架的健壮性,该框架可以有效地与模型大小扩展,为各种VQA基准测试提供更多上下文丰富和时间准确的回答。

作者分析了DyTo在不同的视频长度下的性能,以更好地展示其健壮性,特别是在保持较长视频的准确性方面。如图3_左_所示,尽管DyTo的性能在视频长度增加时会有些下降,但下降幅度是有限的。图4:视频上的采样方法和聚类模块输出可视化。作者的方法提供的视频表示帧比其他方法更全面。

与其他方法(如 IG-VLM [12] 和 SlowFast-LLaVA [35])相比,DyTo 的稳定性显著降低。这主要归因于 DyTo 的自适应、视频相关的动态 Token 合并,这有效地优先考虑了关键帧和上下文 Token ,即使在视频序列变长时也能保留关键信息。

在图3_右_, 作者进一步研究了增加采样帧数对扩展视频性能的影响。随着采样帧数的增加,DyTo在较长视频上的准确性显著提高,这表明它比竞争方法更有效地捕捉到详细的时序和上下文信息。这种改进突显了DyTo的分层聚类和半分 Token 合并的优势,它们能够动态地调整到代表关键时刻的采样帧,以确保对视频的更全面和准确的理解。

这表明在不同的视频长度下具有强大的泛化能力,加强了DyTo在管理多样化内容规模时不会出现显著的准确性损失或需要微调的优势。

Visualizations of Hierarchical Clustering

为了进一步说明DyTo在采样和分割方面的改进,图4展示了作者方法得到的聚类输出以及其他方法,包括IG-VLM [12]和SlowFast-LLaVA [35]。通过匈牙利匹配映射视频事件,作者证明DyTo在准确捕捉和分割所有关键事件(无遗漏)方面具有明显优势。与IG-VLM和SlowFast-LLaVA不同,它们可能由于未从这些关键帧中采样而错过某些事件(例如IG-VLM完全遗漏了视频的第一帧),DyTo可靠地识别每个段的时空边界,从而允许精确的关键帧选择。

具体来说,尽管SlowFast-LLaVA通过以粗粒度的 Token (如图4中较小的红点所示)采样50帧作为快速部分输入,试图减轻这一限制,但其主要性能仍然严重依赖于携带主要时间负荷的10帧(慢速部分)[35]。此外,图5中,每种颜色代表在时间上划分的不同事件,突显了DyTo的聚类自然地将视频内容以时间一致的方式组织。这有助于DyTo在关键帧选择上实现更高的保真度,使其更适合需要全面、针对性的视频理解的场景。

Visualizations of Dynamic Bipartite Merging

为了有效地理解动态 Token 合并的有效性,作者提供了一种可视化方法,将作者的方法与池化方法进行比较。如图6所示,所提出的方法在保持目标的动作的同时,竭力防止原始空间信息的破坏。作者将常数合并比例r=288设置为方便与池化方法进行比较,而r是DyTo中的动态整数值,其值会根据聚类的数量而变化。重要的是要强调,作者提出的 Token 合并方法无需任何标签即可运行。为了创建图6中的可视化,作者跟随每个最终合并的 Token 回溯到其原始输入块。对于每个 Token ,作者使用该区域的平均颜色为其相应的输入块着色,称为"Patchified",以保证不同 Token 的区分。为了确保不同 Token 可区分开来,作者为每个 Token 分配一个随机的边框颜色。需要注意的是, Token 不一定对应连续的输入区域。空间信息仅来自位置编码。

Qualitative Case Study

图9从NExTQA基准测试中提供了一个定性说明,展示了DyTo在复杂零样本视频理解场景中的强大性能。在这个实例中,DyTo准确地识别并保留了关键的视觉细节,如婴儿车上的红色玩具,孩子的服装,以及建筑背景。由于简单的统一采样和池化方法,IG-VLM和SlowFast-LLaVA都输出了幻觉内容(分别背着书包和拿着一碗麦片)。与这些方法不同,DyTo捕捉到了细微的视觉线索和上下文元素。DyTo的分层聚类,该策略动态地分割视频帧,以及其二分合并策略,避免过度压缩可能导致语义损失,导致对场景理解的更详细和准确。

6 Conclusion and Future Work

在本文中,我们介绍了DYTO,这是一个专为零样本视频理解中的动态令牌合并而设计的无需训练的框架。通过分层帧选择和二分图令牌合并的新颖组合,DYTO在保持语义丰富性的同时,解决了提高计算效率的挑战。

实验结果证明,DYTO在多个结构化和开放式视频问答(VQA)基准测试中实现了最先进的性能,超过了微调和其他无需训练的模型。

通过根据帧内容动态调整令牌粒度,DYTO成功地捕捉了关键的空间-时间细节,提供了一个可扩展的解决方案,能够适应不同视频长度和复杂性的需求。

DYTO不仅在零样本视频任务中设定了新的标准,而且为更高效和具有上下文感知能力的视频理解铺平了道路。

未来的工作可能会探索将DYTO扩展到增强令牌适应性,以适用于实时应用,进一步推动无需训练的视频理解的发展。

参考文献

[0]. Beyond Training: Dynamic Token Merging for Zero-Shot Video Understanding.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-01-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
​新加坡 & 纽约大学 & 字节 提出 PLLaVA | 简单高效视频语言模型适应方法,超越GPT4V,突破资源限制 !
多模态大型语言模型(MLLMs)在训练大规模图像-文本对时已显示出在图像理解方面的卓越能力。与图像领域类似,最近的视频理解模型也探索了类似的流程,在大规模视频-文本数据上对LLMs进行微调。然而,这种方法需要高昂的计算资源和视频数据标注成本。一种更为实用的方法是调整预先训练好的图像领域MLLMs以适应视频数据。
AIGC 先锋科技
2024/07/08
5270
​新加坡 & 纽约大学 & 字节 提出 PLLaVA | 简单高效视频语言模型适应方法,超越GPT4V,突破资源限制 !
斯坦福大学 & 亚马逊 AI 探索视觉-语言模型的前沿,当前方法与未来方向的调查!
大型语言模型(LLM)的出现标志着人工智能一个转型时代的开始, Reshape 了整个领域。跨越学术界和工业界的研究实验室正积极参与一场竞争,以推进LLM的能力。然而,一个值得注意的限制已经显现出来——这些模型仅限于处理单一类型的数据,特别是文本。这一限制凸显了在追求完善LLM以跨多个模态无缝运行的过程中一个关键挑战,这标志着在AI领域进一步创新的一个重要方向。
AIGC 先锋科技
2024/07/08
3810
斯坦福大学 & 亚马逊  AI 探索视觉-语言模型的前沿,当前方法与未来方向的调查!
中科大提出 ShareGPT4Video ,突破视频标注挑战,推动 LVLMs和 T2VMs 的发展!
多模态学习近期在大型语言模型的推动下,已经在图像文本对话和文本到图像生成任务上取得了进展。这激发了向视频理解和生成任务的转向,允许用户在视频和语言模态间进行交互。因此,桥接前述模态的详细且高保真的视频标题对于推进该领域的发展至关重要。
AIGC 先锋科技
2024/07/08
4950
中科大提出 ShareGPT4Video ,突破视频标注挑战,推动 LVLMs和 T2VMs 的发展!
轻量级视频压缩(LVC):以最小成本迁移长视频理解能力,解决VLMs采样问题并提升多模型性能 !
大语言模型(LLMs)的快速发展推动了视频理解研究范式的转变,从传统的以视觉为中心的方法转向利用跨模态对齐能力的基于LLM的框架。这种由LLM驱动的革命体现在两种主要架构中:在视频-文本对齐数据上预训练的视频LLMs[3, 16, 23]和以图像-文本对齐[19, 25]为核心的视觉语言模型(VLMs)。
AIGC 先锋科技
2025/05/14
1070
轻量级视频压缩(LVC):以最小成本迁移长视频理解能力,解决VLMs采样问题并提升多模型性能 !
多榜单登顶!华为 & 哈工深团队提出 AdaReTaKe,突破长视频理解极限
随着视频内容的重要性日益提升,如何处理理解长视频成为多模态大模型面临的关键挑战。长视频理解能力,对于智慧安防、智能体的长期记忆以及多模态深度思考能力有着重要价值。
机器之心
2025/04/05
2500
多榜单登顶!华为 & 哈工深团队提出 AdaReTaKe,突破长视频理解极限
每周AI论文速递(240722-240726)
大语言模型 (LLMs) 本应提供准确答案,但往往出现推理不足或生成虚构内容的问题。为此,一系列以“自-”为前缀的研究,如自一致性 (Self-Consistency)、自改进 (Self-Improve) 和自精炼 (Self-Refine) 应运而生。这些研究共同点在于:利用 LLMs 自身的评估和更新机制来解决上述问题。然而,当前的调查研究多侧重于分类,而未深入探讨这些研究背后的动机,因此缺乏一个统一的总结视角。本文中,我们提出一个名为内部一致性 (Internal Consistency) 的理论框架,该框架为诸如推理缺失和幻觉生成等现象提供了统一的解释。内部一致性通过采样方法,评估 LLMs 的潜在层、解码层和响应层之间的一致性。基于内部一致性框架,我们进一步提出一个简洁而有效的理论框架——自反馈 (Self-Feedback),该框架能够深入挖掘内部一致性。自反馈框架包含两个核心模块:自我评估 (Self-Evaluation) 和自我更新 (Self-Update),并已在多项研究中得到应用。我们系统地根据任务类型和工作领域对这些研究进行分类;总结了相关的评估方法和基准;并深入探讨了“自反馈是否真的有效?”这一核心问题。我们提出了几个关键观点,包括“内部一致性的沙漏进化”、“一致性即(几乎)正确性”假设和“潜在与显式推理的悖论”。此外,我们还概述了未来研究的可能方向。相关实验代码、参考文献和统计数据已开源,可访问 https://github.com/IAAR-Shanghai/ICSFSurvey 获取。
叶子的技术碎碎念
2025/04/08
1450
每周AI论文速递(240722-240726)
字节提出 LLaVA-OneVision :首个突破多模态模型性能瓶颈的开源大型模型 !
人工智能的核心愿望之一就是构建具有大规模视觉语言模型的通用助手[67]。LLaVA-OneVision是一个开源模型,致力于推进构建具有大规模视觉语言助手的(LLaVA)[83]研究,该助手可以适应各种指令,在野外完成各种计算机视觉任务。作为一种既省钱又高效的做法,它通常通过连接视觉编码器与大规模语言模型(LLM)来实现。
AIGC 先锋科技
2024/08/14
1.5K0
字节提出 LLaVA-OneVision :首个突破多模态模型性能瓶颈的开源大型模型 !
字节提出 MammothModa | 超越 LLaVA,集成视觉能力的多模态大型语言模型 !
近期,多模态大型语言模型(MLLMs)因其能够理解和生成受视觉输入影响的语言而受到了广泛关注。这些模型融合了视觉和文本数据,使得应用范围涵盖了图像字幕生成、视觉问答和视频分析等众多领域。尽管取得了进展,但许多MLLM在有效结合高分辨率和长时程视觉输入与复杂的语言理解方面,同时保持简洁和高效性方面仍面临挑战。
AIGC 先锋科技
2024/07/11
3080
字节提出 MammothModa | 超越 LLaVA,集成视觉能力的多模态大型语言模型 !
普林斯顿 & AWS & Apple 提出 RAVEN | 多任务检索增强视觉-语言模型框架,突破资源密集型预训练的限制 !
NLP模型规模快速增长,正如OpenAI的LLM发展所示,从GPT-2的15亿参数到GPT-3的1750亿(Brown et al., 2020),再到GPT-4的超一万亿,这引起了越来越多的关注。这一趋势需要更多的数据和计算能力,导致更高的碳排放,并为资源较少的研究行人带来重大障碍。作为回应,该领域正在转向如检索增强生成等方法,该方法将外部非参数的世界知识融入到预训练的语言模型中,无需将所有信息直接编码到模型的参数中。然而,这种策略在视觉-语言模型(VLMs)中尚未广泛应用,这些模型处理图像和文本数据,通常更加资源密集型。此外,VLMs通常依赖如LAION-5B 这样的大规模数据集,通过检索增强提供了显著提升性能的机会。
AIGC 先锋科技
2024/07/08
3640
普林斯顿 &  AWS & Apple 提出  RAVEN | 多任务检索增强视觉-语言模型框架,突破资源密集型预训练的限制 !
中山大学 & 华为诺亚实验室提出 HiRes-LLaVA 框架,解决切片的高分辨率LVLM引起的输入碎片化问题 !
近期在大型视觉-语言模型(LVLMs)方面的进展显著提高了视觉-语言任务的能力,促进了理解、推理和交互的改进。早期的LVLMs[34; 82; 44]以低分辨率处理图像,通常是,这限制了它们捕捉详细视觉信息的能力。这种局限性常常导致对图像中物体及其上下文关系的识别不准确[17; 41]。
AIGC 先锋科技
2024/07/31
3620
中山大学 & 华为诺亚实验室提出 HiRes-LLaVA 框架,解决切片的高分辨率LVLM引起的输入碎片化问题 !
英伟达 & MIT 提出 LongVILA ,从 8 帧到 1024 帧 如何实现长视频理解的飞跃 ?
将多个模态理解的集成与长序列能力的集成非常重要。支持更多模态的基础模型可以接受更灵活的输入信号,使人们可以以更多样化的方式与模型进行交互,例如类似 GPT-40 式的多模态聊天机器人,多模态网页代理(Koh 等人,2024年)和现实世界机器人基础模型(Brohan 等人,2022年、2023年;Padalkar 等人,2023年)。更长的上下文允许模型处理更多信息,例如更长的文档,仓库 Level 的代码库和小时的视频,这同样提供了现实世界应用所要求的功能。
AIGC 先锋科技
2024/08/27
5320
英伟达 & MIT 提出 LongVILA ,从 8 帧到 1024 帧 如何实现长视频理解的飞跃 ?
MiniGPT-Med | 多模态模型在医疗报告生成与疾病检测中取得突破性进展 !
图像文本数据在各个领域的数量激增以及视觉语言建模的进步为生成式预训练领域的研究开辟了道路。这个创新时代以GPT-4(Achiam等人,2023)和Gemini(团队等人,2023)等多模态模型的涌现为标志。这些进步意味着作者在处理和理解复杂数据方面的能力向前跃进了一步。尽管取得了这些进展,但在医疗领域采用多模态大型语言模型(LLM)仍然有限。医疗领域对数据复杂性、敏感性和特定性的独特要求凸显了需要量身定制的办法来发挥LLM在转变医疗研究和实践中的潜力。已经推出了许多为医疗应用设计的模型,但它们通常针对特定任务表现出高度的专门化。这种专业化限制了它们的适应性,尤其是在执行多样化的医疗应用时。例如,像Med-Flamingo 和 XrayGPT(Thawkar等人,2023)这样的模型主要是为医疗报告生成和医疗视觉问题回答等任务而定制的。然而,它们在需要视觉定位技能的关键领域(医疗领域的至关重要组成部分)如疾病检测方面缺乏能力。为了弥补这一不足,作者推出了MiniGPT-Med,一个能够熟练处理定位和非定位任务的统一模型。作者推出了MiniGPT-Med,这是一个为医疗领域的各种任务而设计的多功能模型,包括但不限于医疗报告生成、医疗视觉问题回答和疾病识别。MiniGPT-Med建立在大型语言模型(LLM)的架构之上,这些模型已经展示了出色的生成能力和广泛的语文学,包括医学知识。借鉴LLM在广泛的视觉语言应用中的成功,如最近的Zhu等人(2023年);Chen等人(2023年);Li等人(2024年)的研究所示,作者的模型采用了类似于 MiniGPT-v2 的设计,使用LLaMA-2语言模型作为通用接口。此外,作者融入了不同的任务标识符,以提高模型准确执行各种医疗视觉语言技能的能力。通过广泛的实验,作者证明了作者的模型在医疗视觉语言任务范围内表现出强大的性能,包括医疗报告生成、医疗视觉问题回答和疾病检测。作者将作者的模型与专业化和通用化 Baseline 模型进行了基准测试,结果显示作者的方法在所有评估任务中取得了强大的成果。值得注意的是,在医疗报告生成领域,作者的模型达到了最先进的表现,BERT-Sim上超过最佳 Baseline 模型19%,CheXbert-Sim上超过5.2%。这表明作者的模型在多样化的医疗视觉语言任务上具有强大的生成能力。
AIGC 先锋科技
2024/07/20
8840
MiniGPT-Med | 多模态模型在医疗报告生成与疾病检测中取得突破性进展 !
Cosmos-Reason1模型:借助层次化与二维本体实现物理AI推理,经四阶段训练及评估展现显著性能提升 !
物理AI系统需要在物理世界中感知、理解和执行复杂的动作。本文介绍了Cosmos-Reason1模型,该模型能够通过长期推理过程理解物理世界,并以自然语言生成适当的具身决策(例如,下一步行动)。
未来先知
2025/04/18
1410
Cosmos-Reason1模型:借助层次化与二维本体实现物理AI推理,经四阶段训练及评估展现显著性能提升 !
每周AI论文速递(241202-241206)
尽管视觉-语言-动作 (VLA) 模型在多种机器人任务中取得了进展,但其泛化能力受限,主要因完全依赖成功轨迹的行为克隆。此外,这些模型常针对不同设置下的专家演示进行微调,导致分布偏差,限制了其对多样化操作目标(如效率、安全性和任务完成度)的适应性。为此,我们提出 GRAPE: 通过偏好对齐泛化机器人策略。具体来说,GRAPE 在轨迹层面对齐 VLA,并从成功与失败试验中隐式建模奖励,以提升对多样化任务的泛化能力。同时,GRAPE 将复杂任务分解为独立阶段,并通过大型视觉-语言模型提出的关键点,利用定制时空约束自动引导偏好建模。这些约束灵活,可根据不同目标(如安全性、效率或任务成功)进行定制。我们在真实与模拟环境中广泛评估 GRAPE。实验显示,GRAPE 显著提升最先进 VLA 模型的性能,领域内与未见任务的成功率分别提高 51.79% 和 60.36%。此外,GRAPE 可与多种目标对齐,如安全性与效率,分别降低碰撞率 44.31% 和轨迹步长 11.15%。所有代码、模型及数据均可在 https://grape-vla.github.io/ 获取。
叶子的技术碎碎念
2025/04/08
760
每周AI论文速递(241202-241206)
最强全模态模型Ola-7B横扫图像、视频、音频主流榜单,腾讯混元Research&清华&NTU联手打造
Ola 是腾讯混元 Research、清华大学智能视觉实验室(i-Vision Group)和南洋理工大学 S-Lab 的合作项目。本文的共同第一作者为清华大学自动化系博士生刘祖炎和南洋理工大学博士生董宇昊,本文的通讯作者为腾讯高级研究员饶永铭和清华大学自动化系鲁继文教授。
机器之心
2025/02/19
1200
最强全模态模型Ola-7B横扫图像、视频、音频主流榜单,腾讯混元Research&清华&NTU联手打造
清华 & 港中文 & 香港科技 深入探究 LLM, 利用大型语言模型理解视频和动作序列的多模态人类行为!
理解人类行为,如细粒度标注和分析,在以人为中心的多模态智能领域[21, 25, 93]至关重要,并且可以从人机交互和机器人技术到医疗保健和安保的具身智能中受益。
AIGC 先锋科技
2024/07/08
5850
清华 &  港中文 & 香港科技 深入探究 LLM, 利用大型语言模型理解视频和动作序列的多模态人类行为!
清华提出 VoCo-LLaMA | 使用LLMs 进行视觉压缩,FLOPs 减少 94.8%,推理时间加快 69.6% !
视觉语言模型的出现导致了视觉理解的显著进步。特别是,高分辨率图像编码[7; 8]和更多视频帧的融合[9; 10]分别提高了大型视觉语言模型和大型视频语言模型的能力。然而,大量的视觉标记占据了大型语言模型宝贵的上下文窗口的大部分,导致了高昂的计算成本,如图1(a)所示。例如,在使用LLaVA-1.6[7]中的高分辨率图像输入时,一个分辨率为672×672的单个图像被划分为四个较小的块,每个块以336×336的分辨率进行编码。这个过程产生了包含2304个视觉标记的图像表示,占据了超过一半的上下文长度。此外,随着输入图像数量的增加,文本的上下文窗口将进一步受限。例如,Vicuna-1.5[11]在其4k上下文长度内只能处理大约7帧(7×576=4032个标记),考虑到文本输入。[9, 10]研究了将上下文长度扩展到百万级以缓解这个问题的影响,但这需要昂贵的计算资源(例如,[9]需要超过1000个v4 TPU)以及数据准备和框架开发方面的工程努力。
AIGC 先锋科技
2024/07/08
4000
清华提出 VoCo-LLaMA | 使用LLMs 进行视觉压缩,FLOPs 减少 94.8%,推理时间加快 69.6% !
仅缩小视觉Token位置编码间隔,轻松让多模态大模型理解百万Token!清华大学,香港大学,上海AI Lab新突破
本文共同一作为葛俊岐 (清华大学本科生),陈子熠 (清华大学本科生),林锦涛 (香港大学博士生),祝金国 (上海 AI Lab 青年研究员)。本文的通讯作者是朱锡洲,他的研究方向是视觉基础模型和多模态基础模型,代表作有 Deformable DETR、DCN v2 等。
机器之心
2025/02/03
990
仅缩小视觉Token位置编码间隔,轻松让多模态大模型理解百万Token!清华大学,香港大学,上海AI Lab新突破
李飞飞谢赛宁:多模态LLM「空间大脑」觉醒,惊现世界模型雏形!
更震撼的是,MLLM的空间推理能力虽然仍是瓶颈,但这些模型中,已经出现了局部世界模型和空间意识的迹象!
新智元
2025/02/15
1860
李飞飞谢赛宁:多模态LLM「空间大脑」觉醒,惊现世界模型雏形!
中科大 & 腾讯微信提出 EE-MLLM,一种数据高效和计算高效的多模大型语言模型!
近年来,由于在各种自然语言任务上的惊人表现,大型语言模型(LLM)受到了广泛关注。然而,实际场景往往涉及不仅仅是语言模态,因此将LLM扩展到多模态LLM至关重要。拓展的关键在于进行模态对齐,即学习将剩余模态以相同语义映射到预训练LLM特征空间的对应语言模态。
AIGC 先锋科技
2024/08/30
2910
中科大 & 腾讯微信提出 EE-MLLM,一种数据高效和计算高效的多模大型语言模型!
推荐阅读
​新加坡 & 纽约大学 & 字节 提出 PLLaVA | 简单高效视频语言模型适应方法,超越GPT4V,突破资源限制 !
5270
斯坦福大学 & 亚马逊 AI 探索视觉-语言模型的前沿,当前方法与未来方向的调查!
3810
中科大提出 ShareGPT4Video ,突破视频标注挑战,推动 LVLMs和 T2VMs 的发展!
4950
轻量级视频压缩(LVC):以最小成本迁移长视频理解能力,解决VLMs采样问题并提升多模型性能 !
1070
多榜单登顶!华为 & 哈工深团队提出 AdaReTaKe,突破长视频理解极限
2500
每周AI论文速递(240722-240726)
1450
字节提出 LLaVA-OneVision :首个突破多模态模型性能瓶颈的开源大型模型 !
1.5K0
字节提出 MammothModa | 超越 LLaVA,集成视觉能力的多模态大型语言模型 !
3080
普林斯顿 & AWS & Apple 提出 RAVEN | 多任务检索增强视觉-语言模型框架,突破资源密集型预训练的限制 !
3640
中山大学 & 华为诺亚实验室提出 HiRes-LLaVA 框架,解决切片的高分辨率LVLM引起的输入碎片化问题 !
3620
英伟达 & MIT 提出 LongVILA ,从 8 帧到 1024 帧 如何实现长视频理解的飞跃 ?
5320
MiniGPT-Med | 多模态模型在医疗报告生成与疾病检测中取得突破性进展 !
8840
Cosmos-Reason1模型:借助层次化与二维本体实现物理AI推理,经四阶段训练及评估展现显著性能提升 !
1410
每周AI论文速递(241202-241206)
760
最强全模态模型Ola-7B横扫图像、视频、音频主流榜单,腾讯混元Research&清华&NTU联手打造
1200
清华 & 港中文 & 香港科技 深入探究 LLM, 利用大型语言模型理解视频和动作序列的多模态人类行为!
5850
清华提出 VoCo-LLaMA | 使用LLMs 进行视觉压缩,FLOPs 减少 94.8%,推理时间加快 69.6% !
4000
仅缩小视觉Token位置编码间隔,轻松让多模态大模型理解百万Token!清华大学,香港大学,上海AI Lab新突破
990
李飞飞谢赛宁:多模态LLM「空间大脑」觉醒,惊现世界模型雏形!
1860
中科大 & 腾讯微信提出 EE-MLLM,一种数据高效和计算高效的多模大型语言模型!
2910
相关推荐
​新加坡 & 纽约大学 & 字节 提出 PLLaVA | 简单高效视频语言模型适应方法,超越GPT4V,突破资源限制 !
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档