首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >视觉语言导航的发展趋势:基于基础模型的系统化综述

视觉语言导航的发展趋势:基于基础模型的系统化综述

作者头像
一点人工一点智能
发布于 2025-07-27 03:01:44
发布于 2025-07-27 03:01:44
2170
举报
编辑:陈萍萍的公主@一点人工一点智能

论文链接:https://arxiv.org/abs/2407.07035

VLN研究的新纪元

这篇综述论文,系统性地回顾了视觉与语言导航(VLN)领域在基础模型时代的最新进展与研究范式转变。论文摘要开宗明义地指出,随着基础模型(Foundation Models)的显著成就,VLN研究的挑战与方法论正在被重新塑造。

与以往VLN综述不同,本文采用了一种自上而下的视角,通过一个原则性的框架——具体化为LAW(世界模型、人类模型和VLN智能体)框架,来组织对当前方法和未来机遇的讨论,特别强调了利用基础模型解决VLN挑战的创新途径。

引言进一步阐述了发展能够与人类及其周围环境交互的具身智能体(Embodied Agents)是人工智能的长期目标之一。VLN作为一种多模态协作任务形式化设定,要求智能体遵循人类指令、探索3D环境并进行情境化交流。

论文明确指出,传统VLN研究主要关注多模态注意力学习和策略学习,而基础模型的兴起将研究焦点扩展到了通用视觉与语言表示预训练、任务规划、常识推理以及向真实环境泛化等新方向。

尤为重要的是,作者团队注意到先前VLN综述(如Gu等人2022年、Park和Kim 2023年以及Wu等人2024年的工作)属于"前基础模型时代",缺乏对这一变革性技术的全面概述,特别是大型语言模型(LLMs)在VLN任务中的应用尚未得到充分讨论。

因此,本文的双重目标是:一方面记录进展并探索基础模型在该领域的潜在角色;另一方面为从事基础模型研究的人员系统化组织VLN中的各类挑战与解决方案。

从认知科学的角度,作者还探讨了VLN任务的认知基础,引用了Gallistel(1990)关于导航基本机制的研究,包括依赖环境地标的"领航"(piloting)和通过自我运动感知计算位移与方向变化的"路径整合"(path integration)。

这些生物学启发为人工导航系统的设计提供了理论依据,同时也暗示了基础模型如何可能模拟这些认知功能。论文通过这种跨学科的视角,不仅梳理了技术发展脉络,更为VLN研究的未来方向奠定了坚实的理论基础。

背景与任务定义

"背景与任务定义"系统性地构建了VLN研究的理论基础和实际问题框架。从认知科学的角度,作者首先回顾了人类和其他导航动物展现出的环境理解与策略能力,引用了Rodrigo(2002)、Brand等人(2015)和Lingwood等人(2018)的研究,强调了空间导航中的"认知地图假说"(cognitive map hypothesis)——大脑形成统一的空间表征以支持记忆和引导导航。

Tolman(1948)关于老鼠在熟悉路径被阻断时仍能选择正确新路径的经典观察,以及O'Keefe和Dostrovsky(1971)发现的海马位置细胞(place cells),都为人工导航系统的设计提供了生物学启示。

这些神经科学发现表明,自然智能中的空间认知依赖于allocentric(以环境为中心的)坐标系统,这一见解对设计具有类似空间推理能力的人工系统至关重要。

在任务定义方面,论文清晰地形式化了标准VLN问题:智能体在指定位置接收人类语言指令序列,通过自我中心的视觉视角在环境中导航,生成一系列离散视图或低级动作(如"前进0.25米")的轨迹。

成功的导航被定义为智能体到达距离目标指定范围内(如3米)。作者特别指出,现代VLN任务已从简单导航扩展到包含信息交换(请求帮助或自由形式语言交流)以及操作(manipulation)和物体检测等附加任务的更复杂场景。

这一扩展反映了VLN研究向更真实、更具交互性的方向发展,也对基础模型提出了更高要求——不仅需要理解语言和视觉输入,还需具备多任务协调能力。

论文通过精心设计的表1(现有VLN基准总结)展示了该领域的多样性和复杂性。该表从四个关键维度对主流VLN基准进行了分类:

· 导航发生的世界(室内/室外域及具体环境)

· 涉及的人类交互类型(单轮/多轮交互、自由形式对话/受限对话/多指令格式、动作导向/目标导向的语言粒度)

· VLN智能体特性(家用机器人/自动驾驶车辆/自主飞行器等类型,基于图/离散/连续的动作空间,以及操作和物体检测等附加任务)

· 数据集收集方法(人工生成/模板化文本,人工执行/规划器生成的路线演示)

这种系统分类不仅为读者提供了全景式概览,更揭示了不同基准所针对的具体研究挑战,为后续方法论讨论奠定了基础。例如,Matterport3D模拟器中的Room-to-Room(R2R)数据集强调细粒度导航指令跟随,而其多语言变体Room-across-Room(RxR)则引入了英语、印地语和泰卢固语指令,增加了语言多样性挑战。

世界模型:环境表示与泛化能力

"世界模型"深入探讨了VLN智能体如何学习并表征视觉环境这一核心问题。世界模型作为智能体理解外部环境、预测动作如何改变世界状态的关键抽象,在VLN系统中扮演着至关重要的角色。论文从历史记忆和跨环境泛化两个关键挑战展开讨论,系统梳理了基础模型时代的技术演进。

在历史记忆方面,早期LSTM隐含状态作为导航历史记忆的局限性促使研究者探索更先进的编码技术。

Hong等人(2021)提出使用上一步的单一[CLS]token编码历史信息,而Lin等人(2022a)则引入了变长记忆框架,在记忆库中存储多步动作激活。这些方法虽然有效,但受限于逐步token更新的需求,难以高效检索任意导航步骤的历史编码。

Chen等人(2021b)的创新性工作提出了分层设计的全景编码器-历史编码器架构,分别处理全景视图中的空间关系和导航历史中的时间动态,消除了对循环更新状态token的依赖,实现了大规模指令-路径对的高效预训练。

随着LLM导航智能体的兴起,Zhou等人(2024b)和Chen等人(2024a)探索了将视觉环境转化为文本描述的新范式,其中导航历史被编码为带有相对空间信息(如航向、仰角和距离)的图像描述序列。

这种文本化世界表示充分利用了LLMs强大的序列建模能力,但也面临着视觉细节丢失的挑战。

跨环境泛化是VLN的另一核心挑战。传统方法通过语义分割特征(Tan等人2019)、训练期间的环境dropout或最大化不同环境中语义对齐图像对的相似性(Li等人2019b)来提升泛化能力。基础模型时代则主要沿着两个方向推进:预训练视觉表示和环境增强。

Shen等人(2022)用CLIP视觉编码器取代传统ResNet,利用图像-文本对的对比损失自然实现了图像与指令的更好对齐;Wang等人(2022b)进一步探索了从视频数据迁移学习视觉表示,证明了时间信息对导航的重要性。在环境增强方面,Li等人(2022b)的EnvEdit、Liu等人(2021)的EnvMix、Zhu等人(2023)的KED和He等人(2024a)的FDA通过改变现有Matterport3D环境生成合成数据;Koh等人(2021)的Pathdreamer和Koh等人(2023)的SE3DS则能根据当前观察合成未来步的环境视图作为增强数据。

这些技术进步共同推动了VLN从有限环境训练向大规模预训练范式的转变,其中Li和Bansal(2024)、Kamath等人(2023)和Chen等人(2022b)的工作表明,领域内大规模预训练的多模态Transformer比从通用VLM(如Oscar和LXMERT)初始化的模型更为有效。

人类模型:指令理解与交互沟通

"人类模型"聚焦VLN智能体如何理解并解释人类提供的自然语言指令这一关键问题。人类模型使智能体能够根据具体情境理解语言指令,从而完成导航任务。论文重点讨论了模糊指令解析和跨环境指令泛化两大挑战,展示了基础模型如何在这些问题上带来突破性进展。

模糊指令问题在单轮导航场景中尤为突出,智能体仅接收初始指令而无法通过进一步交互澄清。

Zhang和Kordjamshidi(2023)指出,这类指令可能包含当前视图中不可见的地标,或多个视图中均可见的难以区分的地标。基础模型通过提供丰富的感知上下文和常识知识,使智能体能够更好地解决这类模糊性。

VLN-Trans(Zhang和Kordjamshidi 2023)利用CLIP识别可见且独特的物体,构建易于遵循的子指令来预训练翻译器,将原始模糊指令转换为更易理解的子指令表示。

LANA+(Wang等人2023a)则采用CLIP查询视觉全景观察中的地标语义标签,选择排名靠前的文本线索作为显著地标表示。

KERM(Li等人2023a)提出了知识增强推理模型,检索导航视图的语言描述知识事实;而NavHint(Zhang等人2024b)构建的提示数据集则提供详细视觉描述,帮助智能体全面理解视觉环境而非仅关注指令中提到的物体。

LLMs的常识推理能力也被用于澄清或纠正指令中的模糊地标,Lin等人(2024b)利用LLMs提供开放世界地标共现常识,并进行CLIP驱动的地标发现。

信息寻求是解决模糊指令的另一直接途径,涉及三个关键挑战:决定何时求助、生成信息寻求问题(如下一步动作、物体和方向)以及提供查询信息的oracle机制。基础模型在这一框架中可扮演两种角色:信息寻求模型或人类助手/信息提供模型的代理。

初步研究表明,通过符合预测(Ren等人2023)或上下文学习(Chen等人2023c)等技术,LLMs可作为信息寻求模型决定何时及询问什么。作为信息提供者,基础模型扮演具有oracle信息(如目的地位置和环境地图)的助手角色。

VLN-Copilot(Qiao等人2024)使智能体在遇到困惑时主动寻求帮助,LLM作为副驾驶促进导航;Fan等人(2023b)则展示了GPT-3能够逐步分解训练数据中的真实响应,帮助训练基于SwinBert(Lin等人2022b)视频语言模型的oracle模型。

在指令泛化方面,基础模型通过预训练表示和指令生成数据增强两条路径提升智能体的语言理解泛化能力。

PRESS(Li等人2019b)微调预训练语言模型BERT获得泛化更好的文本表示;多模态Transformer如VLN-BERT(Majumdar等人2020)和PREVALENT(Hao等人2020)通过在网络收集的大规模文本-图像对上预训练,获得更通用的视觉-语言表示。

Airbert(Guhur等人2021b)训练ViLBERT类似架构从互联网图像-标题对学习文本表示;CLEAR(Li等人2022a)学习捕捉指令背后视觉概念的跨语言表示。

ProbES(Liang等人2022)通过采样轨迹自我探索环境,并利用CLIP检测到的运动和物体短语自动构建对应指令,同时采用基于提示的学习促进语言嵌入快速适应。

指令合成是提升泛化能力的另一重要方法。早期工作采用Speaker-Follower框架(Fried等人2018)训练离线说话者(指令生成器)生成新指令,但Zhao等人(2021)发现这些生成指令质量较低。

Marky(Wang等人2022a)通过多模态多语言T5模型与文本对齐视觉地标对应,在未见环境中实现接近人类质量的R2R风格路径指令。

PASTS(Wang等人2023c)引入进度感知时空Transformer说话者,更好地利用序列化多视觉和动作特征。

SAS(Gopinathan等人2024)利用环境中的语义和结构线索生成具有丰富空间信息的指令。SRDF(Wang等人2023h)通过迭代自训练构建强大的指令生成器。

此外,一些研究(Liang等人2022;Lin等人2024b)探索了在导航过程中实时生成指令,如LANA(Wang等人2023e)提出的既能执行导航指令又能提供路线描述的语言能力导航智能体。

VLN智能体:推理、规划与基础模型应用

"VLN智能体"深入探讨了如何构建具备具身推理与规划能力的VLN智能体这一核心问题。在拥有世界模型和人类模型的基础上,VLN智能体需要发展高级认知能力来支持决策过程。论文从grounding与推理、规划以及基础模型直接作为VLN智能体三个维度系统梳理了最新进展。

5.1 grounding与推理

与传统视觉语言任务(如VQA和图像描述生成)不同,VLN智能体需要推理指令和环境中的时空动态关系。早期方法主要依赖显式语义建模或辅助任务设计来获得这种能力,而基础模型时代则转向通过专门设计的预训练任务来获取这些能力。

显式语义 grounding方面,Hong等人(2020b)通过建模运动和地标,He等人(2021)利用视觉-语言对齐监督,Zhang和Kordjamshidi(2022b)分析指令中的空间关系,An等人(2021)考虑邻居视图增强。这些工作显式建模了视觉和语言模态中的语义关系。Lin等人(2023a)探索了基于基础模型的显式 grounding,提出动作原子概念学习,将视觉观察映射到概念空间促进多模态对齐。

预训练VLN基础模型已成为提升智能体 grounding能力的主流方法。Lin等人(2021)提出了专门针对场景和物体 grounding设计的预训练任务;LOViS(Zhang和Kordjamshidi 2022a)设计了两个专用预训练任务分别增强方向感和视觉信息处理;HOP(Qiao等人2022)提出了历史与顺序感知的预训练范式,强调历史信息和轨迹顺序;Li和Bansal(2023)发现预测未来视图语义的能力有助于长路径导航性能;Dou等人(2023)设计了掩码路径建模目标,要求重建随机掩码子路径的原始路径;Cui等人(2023)则提出通过预测 grounding实体并将其与文本对齐的实体感知预训练。

5.2 规划能力

动态规划使VLN智能体能够适应环境变化并实时改进导航策略。论文梳理了基于图的规划器和基于LLM的规划器两类主要方法。

基于图的规划器方面,Wang等人(2021)和Chen等人(2022c)通过全局图信息增强局部动作空间;Gao等人(2023)采用区域选择的分层规划策略,结合高层区域选择和低层节点选择;Liu等人(2023a)在基于图边界的全局和局部动作空间中增加网格级动作以实现更精确预测。

在连续环境中,Krantz等人(2021)和Hong等人(2022)采用分层规划方法,通过预测的局部可导航图选择局部路径点而非低级动作。CM2(Georgakis等人2022)通过在局部地图中 grounding指令促进轨迹规划;An等人(2024)构建全局拓扑图或网格地图辅助基于地图的全局规划;Wang等人(2024a)则使用视频预测模型或神经辐射表示模型预测多个未来路径点,基于预测候选路径点的长期效应规划最佳动作。

基于LLM的规划器利用LLMs的常识知识生成文本计划。LLM-Planner(Song等人2023)创建由子目标组成的详细计划,并根据预定义程序模式整合检测到的物体实时调整计划;Mic(Qiao等人2023b)和A²Nav(Chen等人2023b)专门将导航任务分解为详细文本指令,前者从静态和动态视角生成逐步计划,后者使用GPT-3将指令解析为可操作子任务;ThinkBot(Lu等人2023)采用思维链推理生成与交互物体的缺失动作;VL-Map(Huang等人2023a)使用代码编写LLMs将导航指令分解为顺序的、目标相关函数(遵循Code-as-Policy框架),并利用动态构建的可查询地图指导这些目标的执行;SayNav(Rajvanshi等人2024)将探索环境的3D场景图作为LLMs输入,生成导航器可行且符合上下文的高层计划。

5.3 基础模型作为VLN智能体

基础模型的出现彻底改变了VLN智能体的架构设计。从Anderson等人(2018)提出的Seq2Seq框架(LSTM加注意力机制),逐步演变为Transformer,直至当前的大型预训练系统。

视觉语言模型(VLMs)作为智能体是主流方法(Hong等人2021;Qi等人2021),这些单流VLMs同时处理语言、视觉和历史token,执行跨模态token的自注意力以捕捉文本-视觉对应关系,进而推断动作概率。

在零样本VLN中,CLIP-NAV(Dorbala等人2022)利用CLIP获取描述目标物体的自然语言指代表达式并做出序列导航决策;VLN-CE智能体(Krantz等人2020)通过路径点预测器获得局部可导航图,使DE中的基础模型能适应连续环境。

大型语言模型(LLMs)作为智能体展现了强大潜力。NavGPT(Zhou等人2024b)和MapGPT(Chen等人2024a)展示了零样本导航可行性,前者使用GPT-4自主生成动作,后者将拓扑图转化为全局探索提示;DiscussNav(Long等人2024b)部署多个领域特定VLN专家(指令分析专家、视觉感知专家、完成度估计专家和决策测试专家)自动化并减少导航任务中的人类参与;MC-GPT(Zhan等人2024b)采用记忆拓扑地图和人类导航示例多样化策略;InstructNav(Long等人2024a)通过多源价值图将导航分解为子任务有效执行。

不同于零样本使用,一些工作(Zheng等人2024a;Zhang等人2024a)微调LLMs以有效解决具身导航任务。NavCoT(Lin等人2024a)通过模拟未来环境,将LLMs转化为世界模型和导航推理智能体,简化决策过程。

挑战与未来方向

"挑战与未来方向"从基准测试、世界模型、人类模型、智能体模型和实际部署五个维度,系统分析了当前VLN研究面临的核心挑战和潜在突破方向。这一部分不仅总结了现有技术的局限性,更为领域未来发展提供了前瞻性指导。

1)在基准测试方面,论文指出当前VLN数据集在质量、多样性、偏见和可扩展性方面存在明显局限。

例如R2R数据集中的指令-轨迹对偏向最短路径,不能准确反映现实导航场景。作者提出了三个关键改进方向:统一且真实的任务和平台、动态环境考量以及从室内到室外的扩展。

统一平台如OVMM(Yenamandra等人2023)可实现模拟与真实世界设置的标准化测试;BEHAVIOR-1K(Li等人2024a)则提供了日常家庭活动的虚拟交互生态基准。动态环境挑战方面,HAZARD(Zhou等人2024c)、Habitat 3.0(Puig等人2024)和HA-VLN(Li等人2024b)考虑了动态变化环境,为研究提供了良好起点。

室外导航(如自动驾驶和飞行器)也开始受到关注,早期研究通过提示工程(Shah等人2023)或微调LLMs预测动作和轨迹(Chen等人2024b),而真实驾驶视频(Xu等人2024a)、模拟驾驶数据(Wang等人2023d)及其组合(Sima等人2023)被用于指令调优,使基础模型学习预测未来油门和转向角度。

2)世界模型方面,论文强调VLN本质上是3D任务,但当前研究主要使用强大的通用2D表示,在3D空间语言理解方面存在不足(Zhang等人2024c)。

虽然已有多种显式3D表示被开发,如各种语义SLAM和体积表示(Chaplot等人2020;Zhang等人2024e),但这些表示将物体集限制为封闭集,难以应对自然语言的开放词汇场景。

Jatavallabhula等人(2023)和Chen等人(2023a)通过将CLIP的多视图图像特征集成到3D体素网格或自上而下特征图中开发可查询地图/场景表示;Gu等人(2024)则利用场景图表示空间关系。3D基础模型(如Hong等人2024的LRM、Yang等人2024的LLM-Grounder)的兴起为VLN智能体更好地感知3D环境提供了新机遇。

3)人类模型方面,先前研究主要采用说话者-听者范式或受限QA对话(Thomason等人2020)。

新近基准如Banerjee等人(2021)和Padmakumar等人(2022)开始支持完全自由形式的对话指令,智能体可提问、提议、解释、建议、澄清和协商。当前方法仍依赖基于规则的对话模板(Zhang等人2023),虽然可能包含基础模型组件。

Huang等人(2024b)使用模拟导航视频配对的人类-人类对话数据在视频语言模型上进行对话调优,展示了增强的对话生成能力。未来研究需要整合基础模型进行情境任务导向对话管理(Ulmer等人2024),或探索现有基础模型用于任务导向对话(He等人2022)。

4)智能体模型方面,论文讨论了将基础模型整合到导航任务中的三大挑战:缺乏具身经验、幻觉问题以及LLMs在规划与推理中的局限性。

基础模型主要从互联网数据训练,缺乏具身经验(Mu等人2024),需要微调以实现鲁棒的智能体决策(Zhai等人2024)。

新兴的具身基础模型如PaLM-E(Driess等人2023)和Octopus(Yang等人2025)通过跨多具身任务微调基础模型,弥合了智能体对视觉、语言和具身动作理解之间的差距。幻觉问题表现为生成不存在物体导致错误信息(Li等人2023c),Chen等人(2024c)专门研究了视觉语言模型中的多物体幻觉问题。

PlanBench(Valmeekam等人2022)和CogEval(Momennejad等人2023)评估表明,LLMs在复杂规划任务中存在局限性,但在VLN相对受限的动作空间和规划要求下,LLMs提供逐步粗粒度指令已被证明有效。

5)实际部署方面,模拟设置通常缺乏真实环境的复杂性和变异性,导致感知差距和具身化差距。

Wang等人(2024b)探索使用语义地图和3D特征场为单目机器人提供全景感知;He等人(2024b)的机器人远程操作技术为扩展真实人机通信的VLN数据提供了替代方案。这些技术进步正在缩小模拟与现实的鸿沟,为VLN系统在真实世界的应用铺平道路。

总结与影响

结尾部分既反思了基础模型在VLN领域发展的社会影响,也明确了研究的支持来源。这部分虽然篇幅较短,但提出了该领域研究必须面对的重要伦理和社会责任问题。

在更广泛的影响方面,作者明确指出基础模型虽然为推进视觉与语言导航带来巨大希望,但也必须认真解决其伦理、法律和社会影响。由于这些模型是在海量的网络规模数据上预训练的,它们可能带有固有偏见,导致对多语言用户等群体的公平性问题。当涉及持续模型训练时,特别是在家庭机器人等实际应用中,必须承认并减轻对用户隐私的潜在风险。这些考量对于负责任的AI发展至关重要,特别是在涉及具身智能体与人类密切交互的应用场景中。Zhang等人(2024d)最近研究了视觉语言模型如何表示空间以及在模糊性下对不同空间参考框架的处理,这类工作有助于理解并最终缓解模型中的潜在偏见。

从技术采纳角度看,基础模型在VLN中的应用呈现出明显的技术融合趋势。传统机器人技术中的SLAM、计算机视觉中的场景理解、自然语言处理中的对话系统与新兴的基础模型能力正在VLN领域产生深度交叉。这种融合既创造了前所未有的机会,也带来了跨学科整合的挑战。例如,机器人领域强调的鲁棒性和安全性如何与基础模型的灵活性和泛化能力平衡,仍是开放问题。

论文最后简要致谢了支持本研究的资助机构,包括美国陆军研究办公室(ARO)、国家科学基金会(NSF)和海军研究办公室(ONR)的多项资助。这些支持反映了VLN研究在国防和民用领域的双重价值,也暗示了该技术在服务机器人、自动驾驶和智能助理等应用中的广阔前景。

总体而言,这篇综述通过LAW框架系统组织了VLN领域的快速发展,不仅总结了基础模型带来的范式转变,更指明了未来研究的挑战与机遇。从世界模型的3D表示、人类模型的自然对话能力到智能体模型的具身推理,VLN研究正在向更通用、更鲁棒、更可解释的方向发展。随着技术的进步,如何确保这些系统安全、公平且有益地融入人类社会,将成为研究者必须持续关注的核心议题。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-07-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一点人工一点智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档