文章:Delving into the Devils of Bird’s-eye-view Perception: A Review, Evaluation and Recipe
作者:Hongyang Li∗y, Chonghao Sima∗, Jifeng Dai∗, Wenhai Wang∗, Lewei Lu∗y, Huijie Wang
编辑:点云PCL
来源:https://arxiv.org/pdf/2209.05324.pdf
摘要
学习如何在鸟瞰图(BEV)中学习强大的特征已经成为当前感知任务中的热点,引起了工业界和学术界的广泛关注。对于大多数自动驾驶算法,传统方法是在前视或透视视图中执行检测、分割、跟踪等任务,随着传感器配置越来越复杂,将来自不同传感器的多源信息融合到一个统一的视图中并表示特征变得至关重要, BEV感知具有多个优点,例如用BEV表示周围场景直观易懂、容易融合;用BEV表示物体最适合于规划和/或控制中的后续模块。BEV感知的核心问题在于:
(a)如何通过视图转换从透视视图到BEV中重建丢失的3D信息;
(b)如何在BEV网络中获取地面真值;
(c)如何设计流程以整合来自不同传感器和视图的特征;
(d)如何根据不同场景中传感器配置的变化来调整和推广算法。
在本文中,我们回顾了最近在BEV感知领域的工作,并对不同解决方案进行了深入分析,还描述了工业界中BEV方法的几种系统性设计。此外提供了一系列实用指南,以提高BEV感知任务的性能,包括相机、激光雷达和融合输入。最后指出了该领域未来的研究方向,我们希望这份报告能够为社区提供一些启示,并鼓励更多的研究努力投入到BEV感知领域中,我们维护一个活跃的代码库,以收集最新的工作并提供一些技巧,网址为https://github.com/OpenDriveLab/BEVPerception-Survey-Recipe.git。
主要贡献
在自动驾驶中,将三维几何重建与物理感知任务相结合,形成了一个真实世界,随着传感器的种类和数量越来越复杂,从不同视角表示特征以形成统一的视角变得至关重要,众所周知的俯视图(BEV)是作为统一表示的自然且直观的选择视角,与在二维视觉领域广泛研究的前视图或透视图相比,BEV表示具有几个固有的优点。首先,它没有在二维任务中常见的遮挡或尺度问题,能够更好地解决具有遮挡或复杂交通的车辆识别问题。此外,以这种形式表示物体或道路元素将有利于后续模块(如规划、控制)的开发和部署。
在本文将BEV感知表示为指示用BEV视角表示自动驾驶的所有视觉算法,请注意,我们并不打算夸大BEV感知作为一个新的研究概念;相反,如何在BEV视角下制定新的方案或框架以更好地融合来自多个传感器输入的特征,值得社区更多的关注。本文介绍了BEV感知研究的三个主要方面,分别是相机BEV、LiDAR BEV和BEV融合。其中,BEV相机指的是从多个周围相机获取的仅视觉或以视觉为中心的算法,用于3D目标检测或分割;BEV LiDAR描述了点云输入的检测或分割任务;BEV融合则描述了来自多个传感器输入(如相机、LiDAR、GNSS、里程计、高清地图、CAN总线等)的融合机制。
图1:BEV感知的总体概览,包括三个子部分,基于输入模态,BEV感知是建立在一系列基本任务之上的通用任务,为了更好地完整自动驾驶中的整个感知算法,我们也列出了其他主题(例如基础模型)。
如图1所示,将基本感知算法(分类、检测、分割、跟踪等)与自动驾驶任务分为三个层次,其中BEV感知的概念位于中间,根据传感器输入层、基本任务和产品场景的不同组合,某个BEV感知算法可以相应地表示。例如,M2BEV [3] 和BEVFormer [4] 属于BEV相机,使用多个相机进行3D目标检测和BEV地图分割等多个任务。BEVFusion [5]在BEV空间中设计了一种融合策略,可以同时从相机和LiDAR输入中进行3D检测和跟踪,Tesla [6]发布了其系统化的方案,可以在矢量空间(BEV)中检测对象和车道线,用于L2级智能导航和智能召唤功能。
本次调查的主要贡献有三个:
1)全面回顾了近年来BEV感知研究的整体情况,包括高层次的哲学思考和深入细致的讨论。
2)详细分析了BEV感知文献,涉及深度估计、视角转换、传感器融合、领域自适应等核心问题。此外,还介绍和讨论了几个重要的工业系统级BEV感知设计。
3)不仅提供了理论贡献,还提供了实用的操作指南,以提高各种BEV感知任务的性能,这种实用的指南可以帮助社区以快速和轻松的方式提高性能。
相关介绍
3D感知中的基础知识
基于单目相机的目标检测:基于单目相机的方法以RGB图像作为输入,尝试预测每个对象的3D位置和类别,单目3D检测的主要挑战在于RGB图像缺乏深度信息,因此这些方法需要预测深度,由于从单个图像估计深度是一个不适定的问题,通常基于单目相机的方法的性能低于基于LiDAR的方法。
LiDAR检测和分割:LiDAR使用一组点在3D空间中描述周围环境,这些点捕捉了对象的几何信息,尽管缺乏颜色和纹理信息以及有限的感知范围,但由于深度先验,基于LiDAR的方法的性能远远优于基于相机的方法。
传感器融合:现代自动驾驶汽车配备了不同的传感器,如相机、LiDAR和雷达。每种传感器都有优缺点,相机数据包含密集的颜色和纹理信息,但无法捕获深度信息,LiDAR提供准确的深度和结构信息,但受到有限的范围和稀疏性的限制,毫米波雷达比LiDAR更稀疏,但具有更长的感知范围,并且可以捕获运动物体的信息,理想情况下,传感器融合将推动感知系统的上限性能,然而如何融合来自不同模态的数据仍然是一个具有挑战性的问题。
数据集和评估指标
介绍一些流行的自动驾驶数据集和常见的评估指标,表1总结了BEV感知的主要基准测试的主要统计数据。通常,一个数据集包含各种场景,每个场景在不同的数据集中长度不同,总时长范围从几十分钟到数百小时不等。对于BEV感知任务,3D边界框标注和3D分割标注是必不可少的,高精度地图配置已成为主流趋势,大多数数据集可以在不同的任务中使用。
主要内容
从学术界和工业界的角度详细描述了BEV感知的各种视角。表2总结了基于输入数据和任务类型的BEV感知文献分类,按时间顺序排列,我们可以看到,有越来越多的BEV感知研究发表在顶尖会议上,任务主题以及制定的流程可以是多种多样的,表明3D自动驾驶社区正在蓬勃发展。
表3描述了流行排行榜上3D物体检测和分割的性能提升情况,我们可以观察到,随着BEV感知知识的发展,性能提升显著。
相机BEV
相较于基于 LiDAR 的 3D 感知,仅基于相机的 3D 感知因为是一个非筛选问题而备受学术界的关注,因此值得探索。其核心问题在于,2D 图像自然不保留 3D 信息,因此当从 2D 图像中提取深度信息时,难以获得准确的物体 3D 定位。仅基于相机的 3D 感知可以分为三个领域:单相机配置、双目配置和多相机配置,它们有不同的技能来解决深度问题,由于多相机方法通常从单相机基线开始,因此我们也从单目(单相机)基线设置开始。在下文中,“2D 空间”指相对于相机平面坐标的透视图,“3D 空间”指真实世界空间中的世界坐标,“BEV 空间”指鸟瞰视角,如图2所示,一般的单目相机仅 3D 感知系统可以分为三个部分:2D 特征提取器、视图转换模块(可选)和 3D 解码器。
图2:BEV Camera(仅基于相机的感知)的一般流程。包括2D特征提取器、视角转换和3D解码器三个部分。在视角转换中,有两种方式编码3D信息——一种是从2D特征预测深度信息,另一种是从3D空间中采样2D特征。
图3:视角变换分类法,从2D到3D,基于LSS的方法]预测每个像素的深度分布,而立体视觉方法将2D特征沿着由代价体构建的视锥散射,从3D到2D,基于单应性矩阵的方法假设稀疏的3D采样点并通过相机参数将它们投影到2D平面,纯网络方法使用MLP或transformer隐式地建模从3D空间到2D平面的投影矩阵。
激光雷达BEV
图4描述了BEV激光雷达感知的一般流程,提取的点云特征被转换为BEV特征图,通用的检测生成3D预测结果,在特征提取部分,主要有两个分支将点云数据转换为BEV表示,根据流程顺序将这两个选项分别称为pre-BEV和post-BEV,表示骨干网络的输入是否来自3D表示或BEV表示。
图4:BEV LiDAR感知的一般流程。有两个主要分支将点云数据转换为BEV表示。上面的分支在3D空间中提取点云特征,提供更准确的检测结果。下面的分支在2D空间中提取BEV特征,提供更高效的网络。
融合BEV
逆透视变换(IPM)是一种利用相机的内部和外部矩阵的几何约束将像素映射到BEV平面的方法,尽管由于平地假设而不准确,但它提供了图像和点云可以在BEV中统一的可能性。Lift-splat-shoot(LSS)是第一种预测图像特征的深度分布的方法,引入神经网络来学习病态的相机到激光雷达的转换问题。图5b显示了将图像和点云数据融合的通用流程。使用模态特定的特征提取器分别在透视视图和BEV中提取特征。在转换为BEV表示之后,来自不同传感器的特征图进行融合。也可以引入时间和自我运动信息到BEV表示中。
图5:适用于学术界和工业界的两种BEV融合算法设计,主要差异在于2D到3D转换和融合模块,在PV感知流程(a)中,不同算法的结果首先被转换到3D空间中,然后使用先验或手工规则进行融合,BEV感知流程(b)首先将PV特征转换为BEV,然后融合特征以获得最终预测结果,从而保留大部分原始信息并避免人工设计
BEV感知的工业应用
近年来,BEV感知在工业界越来越受欢迎。在本节中,我们描述了系统层面上的BEV感知架构设计。图5展示了工业应用中传感器融合的两种典型范式。在BEV感知研究之前,大多数自动驾驶公司都是基于透视视角输入构建感知系统。如图5a所示,对于透视视角(PV)管道,LiDAR轨迹直接生成3D结果。从图像中获得的3D结果则是基于几何先验从2D结果进行转换的。然后我们利用一些手工设计的方法将来自图像和LiDAR的预测结果进行融合,但这些方法在实际场景中并不总是表现良好。相反,基于BEV的方法如图5b所示,通过神经网络进行2D到3D的转换,并整合特征而不是直接使用不同模态的检测输出结果,从而实现较少的手工设计和更好的鲁棒性。
图6总结了全球各公司提出的各种BEV感知架构。请注意,本文所介绍的所有信息都来自公共资源;对于不同计划之间的比较和分析是基于事实的。图6中的BEV融合架构遵循如图5b所示的流程,包括输入数据、特征提取器、PV到BEV转换、特征融合模块、时间和空间模块以及预测。
图6:工业公司的BEV架构比较。这些范例都遵循与图5b相同的工作流程(输入传感器可能会有所不同)。首先,它们使用主干网络对输入数据进行编码,并通过变换器进行BEV投影。然后,BEV特征在时间和空间上进行融合。最后,它们使用不同的头部对BEV特征进行解码。每种设计都存在细微的差异。特斯拉以相机图像和IMU作为输入,而Horizon和HAOMO还额外接受点云作为输入。不同架构中的主干网络也有所不同。
总结
在本次调查中,我们对最近几年的BEV感知进行了全面的回顾,并根据我们在BEV设计流程中的分析提供了实用的建议,未来的重大挑战和发展方向可能包括:
(a)如何设计更准确的深度估计器;
(b)如何在新型融合机制中更好地对齐来自多个传感器的特征表示;
(c)如何设计一个无需参数的网络,使算法性能不受姿态变化或传感器位置的限制,从而在各种情况下实现更好的泛化能力;
(d)如何将基础模型的成功知识融入到BEV感知中以促进其发展。