CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
Subjects: cs.CV
1.Dual Prototype Evolving for Test-Time Generalization of Vision-Language Models
标题:用于视觉语言模型测试时泛化的双原型演化
作者: Ce Zhang, Simon Stepputtis, Katia Sycara, Yaqi Xie
文章链接:https://arxiv.org/abs/2410.12790
项目代码:https://zhangce01.github.io/DPE-CLIP/
摘要:
测试时适应使模型能够利用未标记的测试样本推广到不同的数据,在现实场景中具有重要价值。最近,研究人员将此设置应用于先进的预训练视觉语言模型(VLM),开发了测试时提示调整等方法,以进一步扩展其实际适用性。然而,这些方法通常只关注从单一模态调整 VLM,并且随着处理更多样本而无法积累特定于任务的知识。为了解决这个问题,我们引入了双原型进化(DPE),这是一种新颖的 VLM 测试时适应方法,可以有效地从多模态中积累特定于任务的知识。具体来说,我们创建并发展了两组原型(文本和视觉),以在测试期间逐步捕获目标类的更准确的多模式表示。此外,为了促进一致的多模态表示,我们为每个测试样本引入并优化可学习残差,以对齐两种模态的原型。对 15 个基准数据集的广泛实验结果表明,我们提出的 DPE 始终优于以前最先进的方法,同时还表现出有竞争力的计算效率。代码可在此 https URL获取。
这篇论文试图解决什么问题?
这篇论文试图解决的问题是如何在没有标注样本的情况下,提高大规模视觉语言模型(VLMs)在测试阶段对多样化数据的泛化能力。具体来说,论文关注以下几个关键点:
- 测试时适应性(Test-time Adaptation):在现实世界的应用场景中,模型往往需要在无法重新访问源数据的情况下,对未见过的领域(out-of-distribution domains)进行有效的预测。传统的域适应方法依赖于有标注的源域和目标域数据,但在许多实际情况下,我们只能访问到预训练好的模型和未标注的目标域数据。
- 多模态知识累积:现有的一些测试时适应性方法,如测试时提示调整(test-time prompt tuning),通常只关注单一模态(如文本或视觉)的调整,而忽略了从多模态数据中累积任务特定知识的重要性。
- 模型的零样本(Zero-Shot)泛化能力:大规模预训练的VLMs(如CLIP)虽然在一些任务上展现了惊人的零样本能力,但在面对分布偏移时性能会显著下降。如何有效地利用目标域的未标注数据来提升模型在新领域的适应性和泛化能力是一个挑战。
为了解决这些问题,论文提出了一种名为**双重原型演化(Dual Prototype Evolving, DPE)**的新方法。DPE通过在测试时从文本和视觉两个模态创建并演化两组原型(prototypes),逐步捕获目标类别的更准确的多模态表示。此外,DPE还引入了可学习的残差参数来优化每个测试样本的原型,以增强模型的零样本泛化能力。通过在多个基准数据集上的广泛实验,论文证明了DPE在提高VLMs测试时泛化能力方面的有效性,并展示了其在计算效率方面的竞争性。
论文如何解决这个问题?
论文通过提出一种新颖的测试时适应方法——双重原型演化(Dual Prototype Evolving, DPE)来解决上述问题。DPE 方法的核心思想和解决策略如下:
- 双重原型演化:
- 文本原型演化:使用多个上下文提示模板为每个类别生成多个文本描述,并计算这些描述在嵌入空间中的原型。通过累积平均的方式在线更新这些原型,以从测试样本中提取历史知识。
- 视觉原型演化:利用优先队列策略存储每个类别的顶部图像特征,并对称计算随时间演化的视觉原型。优先队列根据测试样本的自熵来更新,以确保积累高置信度的样本。
- 原型残差学习:
- 为每个测试样本引入可学习的残差参数,直接在嵌入空间中优化多模态原型,而无需通过文本编码器回传梯度。
- 通过无监督的熵最小化目标和额外的对齐损失,优化这些残差参数以促进一致的多模态表示。
- 跨模态对齐:
- 引入对齐损失,使用对比学习的方法使同一类别的原型更接近,不同类别的原型更远离,确保多模态原型的一致性。
- 测试时适应:
- DPE 方法仅利用未标记的目标数据流在测试时适应模型,无需访问源数据或目标域的标记样本。
- 效率和性能:
- DPE 方法在保持计算效率的同时实现了优于现有最先进方法的性能。它只需要在测试时优化嵌入空间中的多模态原型,显著减少了测试时的计算负担。
通过上述策略,DPE 方法能够有效地累积任务特定知识,并在测试时逐步捕获更准确的多模态表示,从而提高了 VLMs 在多样化数据上的泛化能力。论文通过在多个基准数据集上的广泛实验验证了 DPE 方法的有效性,并展示了其在计算效率方面的优势。
论文做了哪些实验?
根据论文内容,作者进行了一系列实验来评估和验证所提出的双重原型演化(DPE)方法的性能。实验主要分为以下几个方面:
- 自然分布偏移的鲁棒性测试:
- 作者在ImageNet数据集及其变体(包括ImageNet-A、ImageNet-V2、ImageNet-R和ImageNet-Sketch)上测试了DPE方法的性能,以评估模型在面对自然分布偏移时的鲁棒性。
- 跨数据集泛化能力测试:
- 作者在10个不同的细粒度识别数据集上进行了测试,这些数据集包括Caltech101、StanfordCars、DTD、EuroSAT、Flowers102、Food101、OxfordPets、SUN397和UCF101。这一测试旨在评估DPE方法在不同领域分布上的泛化能力。
- 与现有方法的性能比较:
- 作者将DPE方法与其他现有的测试时适应方法(如TPT、DiffTPT、TDA等)进行了比较,以展示DPE在各种场景下的性能优势。
- 效率比较:
- 作者对比了DPE方法与其他方法在测试时的效率,包括计算时间和准确率的提升,以展示DPE在实际应用中的可行性。
- 消融研究:
- 作者进行了一系列消融实验来分析DPE方法中不同组件(如文本原型演化、视觉原型演化和原型残差学习)对整体性能的贡献,以及不同超参数设置对性能的影响。
- 敏感性分析:
- 对于DPE方法中的一些关键超参数(如累积平均的衰减率、优先队列的大小等),作者进行了敏感性分析,以确定这些参数对模型性能的具体影响。
通过这些实验,作者不仅验证了DPE方法在提高VLMs测试时泛化能力方面的有效性,还展示了其在计算效率方面的优势,并深入分析了不同组件和设计选择对性能的影响。这些实验结果为DPE方法的实用性和可靠性提供了有力的支持。
论文的主要内容:
这篇论文的主要内容包括以下几个方面:
- 问题定义:论文针对的问题是,如何使预训练的视觉语言模型(VLMs)在测试阶段能够适应多样化的数据分布,即使没有目标领域的标注样本。
- 现有方法的局限性:论文指出,现有的测试时适应方法通常只关注单一模态的调整,忽略了多模态知识累积的重要性,并且不能有效地从处理过的样本中累积任务特定的知识。
- DPE方法的提出:为了解决上述问题,论文提出了一种新颖的测试时适应方法——双重原型演化(Dual Prototype Evolving, DPE)。DPE通过创建并逐步演化两套多模态原型(文本和视觉),来捕获目标类别的更准确的多模态表示。
- 方法细节:
- 文本原型演化:利用多个上下文提示模板生成文本描述的原型,并通过累积平均的方式在线更新这些原型。
- 视觉原型演化:使用优先队列策略存储并更新每个类别的视觉原型。
- 原型残差学习:为每个测试样本引入可学习的残差参数,以优化原型并提升模型的零样本泛化能力。
- 跨模态对齐:通过引入对齐损失来保证多模态原型的一致性。
- 实验验证:通过在多个基准数据集上进行广泛的实验,论文验证了DPE方法在提高VLMs测试时泛化能力方面的有效性,并展示了其在计算效率方面的优势。
- 主要贡献:
- 提出了一种新颖的测试时适应方法DPE,该方法可以有效地累积任务特定的多模态知识。
- 引入了原型残差学习,优化每个测试样本的原型以提升模型的零样本泛化能力。
- 在多个数据集上证明了DPE方法的有效性,并展示了其在计算效率方面的优势。
- 未来工作:论文也指出了一些潜在的研究方向,包括研究更高效的在线学习策略、探索跨模态学习的深化、以及将DPE扩展到更广泛的数据集和应用场景等。
2.The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio
标题:多模态的诅咒:评估跨语言、视觉和音频的大型多模态模型的幻觉
作者:Sicong Leng, Yun Xing, Zesen Cheng, Yang Zhou, Hang Zhang, Xin Li, Deli Zhao, Shijian Lu, Chunyan Miao, Lidong Bing
文章链接:https://arxiv.org/abs/2304.05977
项目代码:http://cmm-damovl.site/
摘要:
大型多模态模型 (LMM) 的最新进展显着提高了跨不同任务的性能,并不断努力进一步集成视频和音频等其他模态。然而,大多数现有的 LMM 仍然容易受到幻觉的影响,即事实的多模态输入和生成的文本输出之间的差异,这限制了它们在各种现实场景中的适用性。本文首次系统地研究了 LMM 中的幻觉,涉及三种最常见的模式:语言、视觉和音频。我们的研究揭示了幻觉的两个关键因素:过度依赖单峰先验和虚假的模态间相关性。为了应对这些挑战,我们引入了多模态诅咒 (CMM) 基准,该基准全面评估 LMM 中的幻觉,并对其根本问题进行详细分析。我们的研究结果强调了关键的漏洞,包括模态整合的不平衡和训练数据的偏差,强调了平衡跨模态学习和增强幻觉缓解策略的必要性。根据我们的观察和发现,我们提出了可以提高 LMM 可靠性的潜在研究方向。
这篇论文试图解决什么问题?
这篇论文探讨了大型多模态模型(Large Multimodal Models, LMMs)在处理语言、视觉和音频等多种模态输入时出现的“幻觉”问题。幻觉是指模型生成的文本输出与实际的多模态输入不一致的现象,这限制了这些模型在现实世界场景中的应用。具体来说,论文试图解决以下问题:
- 幻觉的成因:研究了导致LMMs产生幻觉的两个关键因素,即对单一模态先验的过度依赖(overreliance on unimodal priors)和虚假的跨模态关联(spurious inter-modality correlations)。
- 系统的评估方法:提出了一个名为“The Curse of Multi-Modalities (CMM)”的基准测试,这是首次系统地评估LMMs在涉及语言、视觉和音频三种最常见模态时的幻觉问题。
- 评估框架:CMM基准测试通过对象级和事件级探测,将幻觉评估转化为二元分类任务,提供了一个详细的分析框架,以诊断LMMs的潜在问题。
- 模型的改进方向:基于观察和发现,论文提出了可能的研究方向,以增强LMMs的可靠性,包括平衡跨模态学习和增强幻觉缓解策略。
总的来说,这篇论文试图通过系统地研究和评估LMMs中的幻觉问题,揭示当前模型的关键弱点,并为开发更可靠和健壮的多模态系统提供指导。
论文如何解决这个问题?
论文通过以下几个步骤来解决大型多模态模型(LMMs)中的幻觉问题:
- 系统性研究:首先,论文对LMMs在处理语言、视觉和音频输入时产生的幻觉进行了系统的分析,识别了两个关键因素:对单一模态先验的过度依赖(unimodal priors)和虚假的跨模态关联(spurious inter-modality correlations)。
- 构建基准(CMM):为了全面评估LMMs中的幻觉问题,论文提出了一个名为“The Curse of Multi-Modalities”(CMM)的基准测试。这个基准测试涵盖了多种跨模态场景,并通过对象级和事件级探测将幻觉评估转化为二元分类任务。
- 诊断指标:CMM基准测试定义了感知准确率(Perception Accuracy, PA)和幻觉抵抗率(Hallucination Resistance, HR)这两个核心指标,用于衡量模型的感知能力和抵抗幻觉的能力。
- 数据构成和评估设置:CMM基准测试手动收集了1200个样本(包括仅视频、仅音频或视频-音频对),并为每个样本设计了两个特定模态的探测问题,以评估LMMs如何处理多模态输入。
- 分析和讨论:通过在CMM基准测试上评估多种最先进的LMMs,论文揭示了模型的局限性,并讨论了多模态学习中的根本挑战。论文还指出了未来可能的研究方向,以减轻幻觉并增强LMM的可靠性。
- 提出改进方向:基于观察和发现,论文建议了潜在的研究方向,包括创建平衡的多模态训练数据集、实施动态融合策略、微调LMMs以减少对语言先验的过度依赖,以及建立平衡的安全对齐策略,以确保对模糊输入的准确解释。
通过这些步骤,论文不仅诊断了当前LMMs的关键弱点,还为开发更可靠和健壮的多模态系统提供了指导。
论文做了哪些实验?
根据论文内容,作者进行了以下实验来评估和分析幻觉现象:
- 案例研究:作者通过一系列案例研究来验证他们对幻觉产生的假设,特别是关于模型对单一模态信息的过度依赖。这些案例研究包括:
- 视觉主导(Visual Dominance):通过逐渐模糊视频内容来减少视觉信息,观察模型响应的变化。
- 音频主导(Audio Dominance):通过向音频轨道添加噪声来降低音频质量,观察模型响应的变化。
- 语言主导(Language Dominance):通过模糊包含关键视觉信息的视频来测试模型对语言先验的依赖。
- 定量验证:作者通过定量实验来验证虚假跨模态关联对幻觉的影响。他们为每种虚假跨模态关联子类型(Visual-Language, Audio-Language, Visual-Audio-Language)策划了200个样本,并观察了模型在这些样本上的表现。
- 构建CMM基准测试:作者构建了一个全面的基准测试,名为“The Curse of Multi-Modalities (CMM)”,用于评估LMMs中的幻觉。这个基准测试包括了1200个视频/音频/视频-音频样本,并包含了2400个探测问题,这些问题均匀分布在查询存在和不存在的对象/事件之间。
- 评估不同的LMMs:作者在CMM基准测试上评估了一系列最新的LMMs,包括能够处理视觉和音频输入的模型、仅视觉的模型和仅音频的模型。他们使用了感知准确率(Perception Accuracy, PA)和幻觉抵抗率(Hallucination Resistance, HR)这两个核心指标来评估模型。
- 分析和讨论:作者分析了不同LMMs在CMM基准测试上的表现,并讨论了模型的局限性和多模态学习中的根本挑战。他们还探讨了不同的探测粒度(对象级和事件级)和模态对模型性能的影响。
这些实验为理解LMMs中的幻觉问题提供了实证基础,并为如何减轻这些幻觉、提高模型的可靠性提供了见解。
论文的主要内容:
这篇论文的主要内容包括以下几个方面:
- 问题阐述:论文首先指出了大型多模态模型(LMMs)在处理涉及语言、视觉和音频等多种模态的数据时容易受到幻觉问题的影响。幻觉是指模型生成的输出与实际输入的多模态数据不一致的现象,这限制了这些模型在现实世界场景中的应用。
- 幻觉成因分析:论文分析了导致LMMs产生幻觉的两个关键因素:对单一模态先验的过度依赖(如语言、视觉或音频),以及虚假的跨模态关联(即模型学习到的在训练数据中统计显著但缺乏实际因果关系的模态间关联)。
- CMM基准测试:为了全面评估LMMs中的幻觉问题,论文提出了一个名为“The Curse of Multi-Modalities”(CMM)的基准测试。这个基准测试包括1200个视频/音频/视频-音频样本,并包含了2400个探测问题,这些问题均匀分布在查询存在和不存在的对象/事件之间。
- 实验评估:论文在CMM基准测试上评估了一系列最新的LMMs,包括能够处理视觉和音频输入的模型、仅视觉的模型和仅音频的模型。使用感知准确率(PA)和幻觉抵抗率(HR)这两个核心指标来评估模型。
- 分析与讨论:通过实验评估,论文揭示了当前LMMs的一些关键弱点,例如不平衡的多模态整合和由训练数据集引起的偏见。论文还讨论了多模态学习中的根本挑战,并提出了未来可能的研究方向,以减轻幻觉并增强LMM的可靠性。
- 未来研究方向:基于观察和发现,论文建议了几个潜在的研究方向,包括创建平衡的多模态训练数据集、实施动态融合策略、微调LMMs以减少对语言先验的过度依赖,以及建立平衡的安全对齐策略,以确保对模糊输入的准确解释。
总的来说,这篇论文通过系统的分析、基准测试和实验评估,为理解和解决LMMs中的幻觉问题提供了深入的见解,并为未来的研究提供了明确的方向。
3.Long-LRM: Long-sequence Large Reconstruction Model for Wide-coverage Gaussian Splats
标题:Long-LRM:宽覆盖高斯图谱的长序列大型重建模型
作者:Chen Ziwen, Hao Tan, Kai Zhang, Sai Bi, Fujun Luan, Yicong Hong, Li Fuxin, Zexiang Xu
文章链接:https://arxiv.org/abs/2410.12781
项目代码:https://arthurhero.github.io/projects/llrm/
摘要:
我们提出了 Long-LRM,一种可推广的 3D 高斯重建模型,能够从长输入图像序列重建大场景。具体来说,我们的模型可以在单个 A100 80G GPU 上仅 1.3 秒内处理 32 个分辨率为 960x540 的源图像。我们的架构混合了最新的 Mamba2 块和经典的 Transformer 块,与之前的工作相比,它允许处理更多的令牌,并通过有效的令牌合并和平衡质量和效率的高斯修剪步骤来增强。与之前的前馈模型仅限于处理 1~4 个输入图像并且只能重建大场景的一小部分不同,Long-LRM 在单个前馈步骤中重建整个场景。在 DL3DV-140 和 Tanks and Temples 等大型场景数据集上,我们的方法实现了与基于优化的方法相当的性能,同时效率提高了两个数量级。
这篇论文试图解决什么问题?
这篇论文提出了一个名为Long-LRM的3D高斯重建模型,旨在解决从长序列输入图像中快速、准确地重建大规模场景的问题。具体来说,该模型能够处理高达32幅960×540分辨率的源图像,并在单个A100 80G GPU上仅用1.3秒就能完成重建。这项工作的主要贡献和解决的问题可以总结如下:
- 处理长序列输入:之前的3D高斯模型(3D GS)通常只能处理1到4幅输入图像,而Long-LRM能够处理多达32幅广泛位移的多视图图像,这使得它能够覆盖更宽广的视场并重建大型真实世界场景。
- 快速重建:与需要独立优化每个场景的现有模型相比,Long-LRM避免了逐场景优化,实现了快速的前馈(feed-forward)重建。这使得它在大规模场景数据集上的性能与基于优化的方法相当,同时在效率上提高了两个数量级。
- 高分辨率重建:Long-LRM能够在高分辨率(960×540)下工作,这在以往的模型中是难以实现的,因为它们通常受限于内存和计算资源。
- 高效的架构设计:通过结合Mamba2块和传统的transformer块,Long-LRM实现了高效的序列长上下文推理,同时保留了全局上下文信息。此外,通过引入令牌合并模块和高斯修剪步骤,进一步平衡了质量和效率。
- 广泛的视场覆盖和高质量的重建:Long-LRM能够生成具有高渲染质量的新视角图像,与基于优化的3D高斯溅射(3D GS)方法相比,有时甚至能够超越。
总的来说,这项工作的主要贡献在于提出了一种能够处理长序列输入图像并快速重建大规模场景的3D高斯重建模型,这在计算机视觉领域,尤其是在3D内容创建、虚拟现实/增强现实、自动驾驶和机器人技术等领域具有重要的应用价值。
论文如何解决这个问题?
论文通过提出一个新颖的3D高斯重建模型Long-LRM来解决快速、准确重建大规模场景的问题。具体的解决方案包括以下几个关键点:
- 混合架构:Long-LRM采用了一种混合架构,结合了Mamba2块和传统的Transformer块。这种混合架构既能有效处理长序列输入,又能保留全局上下文信息,平衡了质量和效率。
- 高效处理长序列:为了应对长序列输入的挑战,Long-LRM利用了Mamba2块的线性时间复杂度优势,处理长序列输入,同时通过Transformer块捕捉全局上下文。
- 令牌合并和高斯修剪:Long-LRM引入了令牌合并模块来减少网络处理过程中的令牌数量,以及高斯修剪步骤来鼓励模型高效使用高斯函数,从而提高处理效率。
- 长上下文推理:Long-LRM通过Mamba2块和Transformer块的结合,实现了高效的序列长上下文推理,这对于3D重建是至关重要的。
- 训练策略:Long-LRM采用了一种从低分辨率到高分辨率的课程训练策略,分阶段训练模型,逐步提高图像分辨率,以提高训练效率。
- 优化训练目标:Long-LRM引入了额外的正则化损失项,包括深度正则化和不透明度正则化,以提高训练稳定性和推理效率。
- 大规模数据集训练:Long-LRM在大规模的DL3DV数据集上进行训练,该数据集包含了约10K个多样的室内外场景,这有助于模型学习广泛的3D结构和外观。
- 零拍摄推理:Long-LRM能够对未见过的场景进行零拍摄推理,即在没有额外优化步骤的情况下,直接从前馈网络预测中重建新的场景。
通过这些方法,Long-LRM能够在1.3秒内处理32个960×540分辨率的输入图像,并生成具有高渲染质量的新视角图像,与需要13分钟优化的基于优化的3D高斯溅射方法相比,实现了显著的效率提升。
论文做了哪些实验?
根据论文内容,作者进行了以下实验来验证Long-LRM模型的性能:
- 数据集:
- 使用了DL3DV数据集进行训练和测试,该数据集包含约10K个多样的室内外场景,用于3D重建和新视角合成。
- 还在Tanks and Temples数据集上进行了零拍摄推理,这是另一个真实世界场景数据集,用于新视角合成。
- 实现和实验细节:
- 模型架构由24个块组成,其中每7个Mamba2块后跟1个Transformer块,重复3次。
- 使用了从低分辨率到高分辨率的课程训练策略,分别在256×256、512×512和960×540的分辨率下进行训练。
- 采用了AdamW优化器,并使用了学习率预热和余弦衰减策略。
- 在评估期间,使用K-means聚类来选择输入视图,确保场景的覆盖。
- 定量比较:
- 与优化型3D Gaussian splatting (3D GS) 方法进行了比较,考虑了16个和32个输入视图设置。
- 在DL3DV-140 Benchmark和Tanks and Temples数据集上,从重建质量(如PSNR、SSIM、LPIPS)和重建时间两个方面进行了评估。
- 结果显示,Long-LRM在1.3秒内完成了从32个高分辨率输入图像的重建,比3D GS优化快600倍。
- 定性比较:
- 提供了与3D GS优化结果的可视化比较,展示了Long-LRM在不同场景下实现的宽覆盖率高斯重建和新视角合成。
- 通过图像展示了Long-LRM在保持高重建质量的同时,能够更有效地处理输入视图范围广泛的挑战。
- 消融研究:
- 对模型架构进行了消融研究,探讨了不同架构变体对训练效率和重建质量的影响。
- 研究了不透明度损失和深度监督对模型重建质量及高斯使用情况的影响。
- 探讨了不透明度损失和输入大小对高斯使用情况的影响。
- 模型性能分析:
- 分析了Long-LRM模型在不同输入条件下的性能,包括对不同数量的输入视图和不同分辨率下的性能进行了评估。
- 讨论了模型在处理超长序列时的局限性,并对未来工作提出了改进方向。
这些实验验证了Long-LRM在处理大规模场景3D重建任务时的有效性和高效率,并与现有技术进行了比较。通过消融研究和性能分析,进一步展示了所提方法的优势和潜在的改进空间。
论文的主要内容:
这篇论文提出了一个名为Long-LRM的3D高斯重建模型,旨在实现从长序列输入图像中快速、高质量地重建大规模场景。以下是论文的主要内容总结:
- 问题背景:
- 3D重建是计算机视觉领域的一个基础问题,对于3D内容创建、VR/AR、自动驾驶等领域有重要应用。
- 现有方法如NeRF和基于辐射场的方法在重建高质量3D场景方面展现了潜力,但它们需要对每个场景独立优化,效率较低。
- 3D高斯溅射(GS)提高了重建效率,但仍然需要长时间的优化过程。
- 研究目标:
- 提出一种新的3D GS模型,能够处理长序列输入图像,快速重建整个大规模场景,无需逐场景优化。
- 主要贡献:
- Long-LRM模型能够处理高达32个960×540分辨率的输入图像,并在1.3秒内完成重建。
- 采用了混合架构,结合了Mamba2块和Transformer块,有效处理长序列输入,同时保留全局上下文信息。
- 引入了令牌合并和高斯修剪技术,进一步提高了模型的效率和重建质量。
- 在大规模场景数据集上实现了与基于优化方法相当的性能,但效率提高了两个数量级。
- 方法细节:
- Long-LRM将输入图像分割成一系列令牌,通过混合架构处理这些令牌,最终输出像素对齐的高斯原语。
- 利用Mamba2块的线性时间复杂度优势处理长序列输入,同时通过Transformer块捕捉全局上下文。
- 引入了令牌合并模块减少令牌数量,以及高斯修剪步骤鼓励高效使用高斯原语。
- 在DL3DV数据集上进行了训练和评估,并在Tanks and Temples数据集上进行了零拍摄推理。
- 实验结果:
- 在DL3DV-140和Tanks and Temples数据集上,Long-LRM在1.3秒内完成了32个高分辨率输入图像的重建,比基于优化的3D GS方法快600倍。
- 定量和定性结果表明,Long-LRM在重建质量和效率上都优于现有技术。
- 未来工作:
- 探索处理超长序列的方法,以进一步提升模型性能。
- 提高模型对不同视场(FOV)的泛化能力。
- 进一步优化模型以提高实时性和交互性。
总体而言,Long-LRM通过其创新的架构和训练策略,在大规模场景的快速3D重建方面取得了显著进展,为未来相关研究和应用奠定了基础。