文章:Fisheye Camera and Ultrasonic Sensor Fusion For Near-Field Obstacle Perception in Bird’s-Eye-View
作者:Arindam Das, Sudarshan Paul, Niko Scholz, Akhilesh Kumar Malviya, Ganesh Sistu
编辑:点云PCL
摘要
准确识别障碍物在自动驾驶的近场感知是一个基本挑战。传统上,鱼眼摄像头经常用于全方位环视感知,包括后视障碍物定位。然而,在低光条件、夜间或强烈阳光照射下,这类摄像头的性能可能会显著下降。相反成本较低的传感器,如超声波传感器,在这些条件下往往基本不受影响。因此提出了我们所知道的第一个专为在鸟瞰图(BEV)中高效感知障碍物而定制的端到端多模态融合模型,利用了鱼眼摄像头和超声波传感器。首先使用ResNeXt-50作为一组单模态编码器,提取特定于每种模态的特征。随后与可见光谱相关的特征空间经过变换,转换成BEV。通过串联实现这两种模态的融合。同时,基于超声波谱的单模态特征图通过内容感知膨胀卷积,用于缓解两个传感器之间在融合特征空间中的传感器错位。最后融合特征由两阶段的语义占用解码器利用,生成用于精确障碍物感知的基于网格的预测。我们进行了系统性的研究,以确定两个传感器的多模态融合的最佳策略。提供了有关数据集创建程序、标注准则的见解,并进行了彻底的数据分析,以确保对所有场景的充分覆盖。在应用于我们的数据集时,实验结果强调了我们提出的多模态融合方法的稳健性和有效性。
主要贡献
超声波传感器的障碍物感知 超声波传感器通过回波定位来感知环境,支持高级驾驶辅助系统(ADAS)。这些系统可以检测障碍物,并通过人机界面(HMI)的视觉或听觉信号通知驾驶员。图2(a)展示了用于检测未分类障碍物的一组超声波传感器系统的一般设置。
图2: (a) 超声波传感器和鱼眼摄像头的安装位置。十二个超声波传感器显示为车辆轮廓上的灰色框,后部鱼眼摄像头显示为车辆后部的粉色点,两个符号均未按实际传感器的比例绘制。(b) 对一个示例网格单元和一个示例信号路径进行超声波网格地图填充的示意图。网格图并非按比例绘制。
为了实现可靠的近场感知,本文的重点是从鸟瞰图中识别障碍物。超声波传感器是一种适合与鱼眼摄像头结合的技术,它们提供经济实惠的短至中程目标检测,低功耗,对物体的颜色或材质不敏感,对环境光不敏感,因此在自动驾驶中非常有价值。本文介绍了一种端到端的基于卷积神经网络(CNN)的融合模型,旨在通过利用鱼眼和超声波传感器数据进行鸟瞰图中的障碍物感知。通过使用预处理步骤,超声波传感器生成的原始回波幅度被转换成可以作为卷积神经网络(CNN)输入的图像。使用标准编码器从每个传感器提取单模态特征,然后融合它们以产生模态不可知的特征。最后,多模态特征被转换成鸟瞰图,接着是一个进行像素级分类的语义分割解码器,用于障碍物识别。本工作的主要贡献总结如下:
内容概述
用于近场感知的汽车传感器
汽车传感器,如超声波传感器、全景摄像头、雷达、激光雷达(LiDAR)和长距离前置摄像头如图3所示,被战略性地安装在车辆周围,以推断车辆附近的物体和障碍物。它们对于诸如停车辅助、盲点监测和在低速和复杂城市环境中进行碰撞回避等任务至关重要。随着自动驾驶的不断发展,准确的近场传感器对于确保自动驾驶车辆在具有挑战性的现实场景中的安全和成功至关重要。
鱼眼摄像头和超声波传感器的作用:鱼眼摄像头广泛用于汽车近距离感知,而超声波传感器则提供可靠、低功耗和经济有效的检测有限到中等距离内物体的手段,用于增强障碍物回避能力和简化停车操作。其他相关传感器:
* 短程雷达(SRR):用于近场操作,但容易产生高误报。
* 中程雷达(MRR):适用于检测相邻车道的汽车,但在高速驾驶场景中受到限制。
* 长程雷达(LRR):适用于高速公路场景,但提供的数据分辨率较低。
* 长程前置摄像头:具有高分辨率数据,适用于密集任务,但在恶劣天气条件下性能受到影响,视场受限。
* 固态激光雷达:较为紧凑和坚固,具有较低成本,适用于大规模生产,但可能受到视场和分辨率的限制。
图3:典型感知堆栈中使用的各种汽车传感器,在单模态或多模态设置中
数据集创建
记录的超声波数据包括来自汽车前后保险杠上的十二个超声波传感器的回波振幅。由于我们感兴趣的区域是后视鱼眼摄像头的视场,因此我们只使用六个后置超声波传感器的数据,参见图2(a),其中显示了超声波传感器和后鱼眼摄像头在车辆上的示例安装位置。
数据采集
这里详细了解了记录超声波数据的过程,这些数据包括来自汽车前后保险杠上十二个超声波传感器的回波振幅。由于我们关注的是后鱼眼摄像头的视场,我们只使用了六个后置超声波传感器的数据。将传感器安装在汽车保险杠上将导致六个超声波传感器的视场存在重叠,因此在任何给定时间内,后鱼眼摄像头的整个近场将位于多个超声波信号的视场内,如图5所示。超声波传感器通过主动和被动监听回波的方式来感知周围物体。我们了解了超声波传感器的视场限制以及数据采集中的两个挑战:超声波数据与鱼眼图像数据处于不同领域,以及二者的采集频率不同。
图5:超声波传感器系统的估计视场,实际视场还取决于被观测对象。回波在传感器轴上最强,对于偏离轴线的物体而言,回波会减弱。
预处理
这里介绍了数据预处理的步骤,以确保超声波数据和鱼眼图像数据能够在特征空间中融合。选择鸟瞰图透视图作为共同领域,并通过网格结构将超声波数据转换为该领域的表示。超声波数据的回波振幅通过插值和角度衰减等方法分布到网格上。为了同步两个不同领域的数据,我们为每个相机图像帧导出一个超声波鸟瞰图,并使用里程表信息来补偿车辆在采集超声波数据和记录鱼眼图像之间的运动。鱼眼图像数据以2百万像素使用全景摄像头系统(SVS)相机录制,每秒30帧,而后保险杠系统的超声波测量以34毫秒至85毫秒之间的不规则间隔到达。分布有两个主要模式,分别为40毫秒和80毫秒,如图6所示。这两个部分共同构成了数据集的准备阶段,解决了将超声波和图像数据整合到一个一致的框架中的挑战。
图6:一个示例场景中连续超声波包时间戳之间的差异直方图,两个主要模式约在40毫秒和80毫秒附近,是由于测量间隔长于40毫秒的更新周期造成的。
数据集统计
本研究的数据集共包含35个场景,涵盖了自车后方的丰富信息,包括鱼眼摄像头和超声波传感器的数据,以及它们在鸟瞰图中的语义地面真值标注。通过直方图和热力图的呈现,我们详细分析了障碍物与自车的距离分布,强调了近距离障碍物的普遍存在性。热力图的观察结果显示,捕获的障碍物不仅集中在自车附近,而且横跨了自车视野的多个区域。
图7,(a)中生成的直方图图示表明,大多数障碍物集中在0-2米的范围内,突显了近距离障碍物的普遍存在性。(b)展示了在鸟瞰图空间中感知到的障碍物的空间分布。
数据集划分
该数据集包含15,928帧,包括鱼眼RGB图像、超声波鸟瞰图和BEV中的地面真值分割掩码。数据集的障碍物语义标注从鸟瞰图的透视图执行,共涉及约8个不同类别的障碍物。数据集被划分为训练集(24个场景)、验证集(3个场景)和测试集(8个场景),并特别考虑了室内和室外场景的平衡分配。这种系统的划分为模型的训练和评估提供了充分的数据基础。
方法概述
提出的方法的示意图如图9所示,为了从每种模态独立提取特征,采用了两个单独的单模编码器。利用可见光谱,获取的单模特征被转换成鸟瞰视图空间。随后,利用CamFuse模块将这些特征与超声波专用编码器的特征进行融合。最后多模态鸟瞰视图特征通过两阶段深度语义占用解码器进行处理。这种迭代解码优化了融合特征,提高了对每个网格的障碍物预测的精度。该方法是建立在Roddick等人的基础工作之上。
图8:来自我们自定义数据集的样本多模态图像和注释。从后视摄像头捕获的鱼眼图像(第一列和第四列);相应的超声波鸟瞰图显示在第三列和第六列;障碍物的分割蒙版以鸟瞰视角投影可见于第二列和第五列。
单模编码器:为了应对可见光谱中不同障碍物类型的显著语义表示差异,使用ResNeXt-50作为可见光谱的单模编码器(Ev),另一实例(Ebev u)用于学习BEV中的超声波特定特征。采用特征金字塔网络,将透视特征转换成BEV,以及一系列残差块和上采样操作,以提取和调整多尺度特征。
图1,基于语义的图匹配方法的一个实例
鸟瞰视图投影:通过对BEV中特定距离的金字塔块进行垂直裁剪,确保了在重新投影回相应金字塔块的特征图时,准确表示世界坐标空间中特定网格区域。采用基于Kannala-Brandt相机模型的鱼眼相机,通过膨胀卷积和特定转换将特征图映射到正交鸟瞰视图空间。
内容感知膨胀和多模态特征融合(CaMFuse):通过内容感知膨胀卷积处理超声波BEV特征空间,以适应其稀疏性。CaMFuse模块通过融合鱼眼和超声波BEV特征,合成模态不可知特征,解决了感知模态的不同表示和传感器错位可能导致的问题。
语义占用预测:提出了一个两阶段的多尺度语义占用解码器,通过对CaMFuse生成的BEV特征图进行处理,预测BEV网格中的障碍物占用概率。解码器包括连续的残差块,旨在保留空间特征并利用汽车场景的上下文,以提高对不同障碍物类型的先验几何形状的学习。
实验
定量研究
该工作是首次尝试创建一个多传感器解决方案,集成了鱼眼相机和超声波传感器,用于后视障碍物感知。由于不存在直接比较的先前工作,鉴于没有公开适用于我们特定用例的数据集,我们依赖于我们的定制数据集来呈现和讨论获得的结果。
环境的作用:环境在任何计算机视觉算法中都起着至关重要的作用,因为不同场景之间存在多样的照明条件,如图4所示。在表I中,我们在室内和室外场景中对我们提出的方法进行了比较分析。我们的评估包括单模态和多模态模型的性能。我们的结果表明,在所有评估指标中,使用多模态数据训练的模型性能更优越。然而,由于该任务被定义为回归问题,仅使用超声输入训练的模型对召回、Dice分数、精度和IoU不适用。
障碍物类型:我们的数据集涵盖了各种障碍物类型,如表III所示,以考虑不同报告中频繁记录的障碍物。不同障碍物的异质几何和语义特征强调了对每个对象类别进行全面评估的重要性。这种方法为模型行为提供了有价值的见解,并突显了失败实例。表中呈现的结果概述表明,在所有障碍物类型中,多模态模型胜过单模态替代方案。这种卓越性能不仅限于简单的障碍物存在识别,还延伸到精确的定位,如规范化距离和欧几里德距离等指标所证明的。
障碍物位置:障碍物位置是验证模型的泛化能力的另一个方面,因为鱼眼相机的语义表示和超声波传感器的响应基于对象的位置而异。在我们的数据集中,我们将障碍物的位置组织成三个不同的类别 - 角(两个极端端点),中央(恰好在中间),和偏心(除角和中央以外的任何位置),如图10所示。
图10:展示不同障碍位置的样本 - 角落(左)、中心(中)、离心(右)。顶部:鱼眼图像;底部:超声波BEV地图
表IV中呈现了针对每个障碍物位置类别的评估,其中多模态模型被证明在比单模态提案更准确地定位障碍物方面更为出色,如欧几里德距离所示。
障碍物距离:障碍物距离在评估模型在障碍物感知中的精度方面起着关键作用。表V展示了一个涵盖了四个不同障碍物距离的综合度量集。我们的发现表明,在所有测得的参数中,多模态模型在比较上表现更为出色。
自车速度:自车速度直接影响所有传感器的感知堆栈,因为自车运动会导致可见光谱上的模糊。为了检查在自车行驶时我们的多模态模型的性能,我们在表VI中报告了相同一组度量。总的来说,多模态模型表现出(a)在所有提案中的优越性,(b)在所有自车速度下的平等有效性,并且(c)在运动状态下展现出强大的鲁棒性,同时在定位障碍物方面非常精准。
定性研究
图12展示了所提出方法的定性结果,以及使用单模态输入训练的模型。有些情况下,基于RGB输入的单模态模型完全无法检测到障碍物,这可以在图12的第四行和第六列的第三行中看到。值得注意的是,在单模态模型成功检测到障碍物的情况下,由于分割输出覆盖的不足,它可能会无意中对潜在的危险的自车运动规划产生影响。相反,仅使用超声BEV地图进行训练的另一个单模态模型可以在本文第一行和第四列的第四行中展现出合理的定位性能,但在第四行的其他列中可能会观察到相反的行为。我们提出的多模态模型在各种场景、障碍物类型和距离方面的性能持续卓越,超越了单模态模型(行 → 第三行和第四行)在规范化误差和欧几里德距离方面的性能,为BEV上的障碍物感知提供了强大的解决方案。多模态预测与其在BEV中的对应地面实况一起,通过投影回输入鱼眼图像空间,以允许进一步的可视化在第七和第八行中展示。
图. 12:所提方法的定性结果
单模态 vs. 多模态感知
无论在测试的场景和条件下,多模态感知,将不同传感器模态的信息结合起来,始终在性能上优于单模态模型。在图11中,累积绝对距离误差图说明了90%的测试样本表现出几乎零米的绝对距离误差。然而,考虑到仅使用可见传感器数据训练的模型,它显示出绝对距离误差在1-2米和仅使用超声数据训练的单模态模型中为3-4米的范围。这一验证证实,专门针对特定传感器的模型缺乏在各种情境下持续提供高性能的必要泛化能力,尤其是与多模态模型相比。多模态感知的好处是双重的:它增强了系统检测和定位障碍物的能力,并且在各种环境和运动条件下显着提高了模型的鲁棒性。
图. 11: 多模态、超声波和可见数据训练的模型的比较分析
总结
本文引入了一种新颖的端到端深度学习架构,用于鸟瞰视图中的多模态障碍物感知,结合了鱼眼相机和超声波传感器。将鱼眼相机图像投影到鸟瞰视图中,然后使用内容感知膨胀和多模态特征融合模块与超声波传感器进行融合,以减小两个传感器之间的领域差距。我们提供了创建类似多传感器数据集的清晰步骤、数据捕捉策略和传感器特定预处理细节。我们还提出了绝对距离误差和归一化距离这两个自定义指标,以准确评估鸟瞰视图中障碍物感知的性能。通过对我们内部数据集进行的彻底实验研究表明,多模态模型在性能上显著优于单模态提案。在未来的工作中,我们计划引入其他汽车传感器,并将它们与鱼眼相机和超声波传感器进行融合,以完成其他相关任务,实现完整的环视系统。