首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >具有异构元数据的卷积神经网络:CNN元数据处理方式回顾

具有异构元数据的卷积神经网络:CNN元数据处理方式回顾

作者头像
deephub
发布于 2020-05-09 08:34:47
发布于 2020-05-09 08:34:47
1.5K0
举报
文章被收录于专栏:DeepHub IMBADeepHub IMBA

自动驾驶中,卷积神经网络是用于各种感知任务的必备工具。尽管CNN擅长从摄像机图像(或视频剪辑形式的序列)中提取信息,但我们毕竟不断遇到各种不适合卷积神经网络的元数据。

直接在元数据上使用CNN可能不是一个好主意

按照传统定义,元数据是指用于描述其他数据的一组数据。在本文中,根据元数据的定义:

  • 元数据是一种伴随相机图像数据作为辅助信息的异构,非结构化或无序数据。按照传统的定义,这些数据“描述”了相机数据。
  • 元数据的大小通常比相机图像数据小得多,每个图像的数量从几到最多几百个不等。
  • 与图像数据不同,元数据不能用规则的网格表示,并且每个图像的元数据长度可能不是恒定的。

所有这些属性使CNN难以直接使用元数据,因为CNN假定网格上的数据间隔是规则的,并且网格上的相邻数据也具有紧密的空间或语义关系。

我遇到的元数据类型可以分为以下几类:

  • 可能会影响传感器观察的传感器参数:相机内部/外部
  • 不同类型的传感器数据:雷达针或激光雷达点云
  • 两组数据之间的对应/关联

一种特殊情况是激光雷达点云数据。一帧典型的激光雷达点云通常具有数十万个点,伴随一帧或几帧摄像机图像。激光雷达点云的信息如此丰富,以至于它们本身可以构成独立的感知管道和相机感知的基础。因此,很少将其视为相机数据的辅助信息,所以它不是此处考虑的典型元数据类型。对于点云数据,人们已经开发了特定的神经网络体系结构,例如PointNet或图形神经网络(GNN),可以直接使用点云数据,这超出了本文的范围。

下面我们回顾一下最近文献中提出的使用卷积神经网络处理元数据的不同方式。

相机参数

深度学习在SLAM的许多方面都取得了重大进展,其中之一是单眼深度估计。单眼深度估计本质上是不适合本文讨论的研究的,并且由于单眼图像缺乏规模,在一个数据集上训练的模型通常不能很好地推广到其他数据集。这与常规对象检测形成了鲜明的对比,在常规对象检测中,对象检测器的性能不依赖于特定的相机模型(要知道哪种相机模型拍摄了COCO数据集中的数十万张图像,这真是一场噩梦。)

使用不同焦距镜头拍摄的同一场景

相机的固有特性,尤其是镜头的焦距,决定了单眼图像中缺少的比例因子。一般而言,无法判断是从距离物体较远的位置使用焦距较长的相机拍摄的图像还是在距物体较近的位置使用焦距较短的相机拍摄的图像。

单眼图像的尺度模糊性

因此,模型训练和相关结论通常是在使用同一相机(或至少使用相同传感器和镜头规格的相机)收集的一个数据集上进行的。如果更改相机模型,则必须收集一个全新的数据集并注释距离后再次训练模型。

幸运的是,在自动驾驶和其他工业应用中,相机的内在特性很容易从相机制造商那里获得,并且在相机的整个使用寿命中相对固定。我们可以将这些数据运用于单眼深度预测网络吗?

相机固有特性具有四个自由度,行和列方向的焦距f_x和f_y已通过像素大小归一化,而c_x和c_y是主点的像素位置。我能想到的一个简单的解决方案是将这四个数字与深度解码器融合在特征图的顶部,并添加一个全连接层以将这四个数字融合。CAM-Convs:适用于单视图深度的相机感知多尺度卷积(CVPR 2019)通过将数据处理为伪图像提出了一种更好的解决方案。

CAM-Convs:摄像机感知的多尺度卷积

Cam-Conv从Uber的CoordConv中获得了很多启发(卷积神经网络和CoordConv解决方案的有趣教训,NeurIPS 2018)。CoordConv将两个网格的网格通道连接到原始图像和中间特征图,以对位置信息进行编码。Cam-Conv建立在CoordConv的顶部,首先将CoordConv的原点从左上角移动到主点,从而创建了两个居中坐标(cc)贴图。这两个通道对主要点信息进行编码。然后通过将cc通道除以相机焦距f并取反正切来计算视场(fov)映射,这基本上可以计算出每个像素的方位角和仰角。这两个通道对焦距信息进行编码。最后,归一化坐标(nc)映射也被连接到特征映射(本质上是归一化的CoordCon)。

图像中像素的方位角和仰角(改编自src)

实际上,CoordConv本身可以看作是将坐标信息编码到卷积神经网络的一种情况。它为卷积神经网络提供了平移方差的功能,对于学习位置敏感的数据非常有用。

替代方法:归一化焦距和归一化像平面

Cam-Conv论文中还有另一件事值得一提。如上所述,无法判断是使用更长焦距的相机拍摄还是近距离拍摄。从另一个角度来看,即使两个摄像机具有相同的3D距离,但从相同的位置由不同焦距的两个摄像机成像的同一对象也会出现不同的外观。

Cam-Conv的一种替代方法是使用标称焦距。所有地面距离都根据标称焦距缩放,并用于训练模型。然后在推理过程中,通过考虑相机的实际焦距,将预测距离缩放回实际距离。当然,以上讨论是基于相同图像传感器的假设。如果传感器的物理像素大小也发生变化,我们可以采用类似的想法,即假设视野狭窄(图像大小<<焦距),标称像素大小。相比之下,Cam-Conv是适应各种相机型号的更合适的方法。

这与MonoLoco(ICCV 2019)用于行人距离估计的方法密切相关。在图像上找到关键点之后,然后再导入MLP,图像坐标将以单位深度Z = 1投影到标准化图像平面。这有助于防止模型过度适合任何特定的相机。这基本上考虑了焦距和传感器像素大小对视物大小的影响。

非相机传感器数据

在自动驾驶中,摄像机图像以外的传感器数据通常可用于增加传感器冗余度和系统稳定性。如今,ADAS传感器套件中的一种常用的传感器(常用的摄像头除外)是雷达。

截止到今天,大多数商用雷达都抽出了极为稀疏的雷达点(根据不同的雷达型号,每帧数目不定,每帧最大数目为32到128个点)。这比激光雷达传感器每次扫描的数十万个点小三到四个数量级。因此,很自然地将雷达数据(或雷达引脚)视为一种补充和描述相机图像的元数据。 下面是对同一场景中商用雷达和激光雷达数据的密度的直观比较,这在自动驾驶中非常具有代表性。

相同场景的一般雷达点云和激光雷达点云的比较(来自nuScenes数据集)

注意:还有更先进的雷达系统,每帧输出数百或数千个点,但是这些所谓的高分辨率“成像雷达”(例如Astyx的成像雷达)在商业上受到限制,并且成本要比传统雷达高得多 。

关于仅对激光雷达数据或激光雷达和摄像机的融合(例如Frustum PointNet,AVOD,MV3D等)执行3D对象检测的文献很多。很少有文献基于稀疏的雷达和摄像机的融合。这是由于缺乏带有雷达数据的公共数据集,也是由于雷达数据的嘈杂性质和海拔信息的缺乏。因此,我希望nuScenes数据集的发布能引起人们对该领域的关注,当然仍需深入研究。

将雷达和图像数据融合流方法是找到将雷达数据“压缩”到图像的方法。在远距离检测:使用雷达和视觉进行远距离车辆检测(ICRA 2019)中,每帧数量不等的雷达数据被编码为2通道图像,且空间图像大小与摄像机图像相同,一个通道编码范围(距离测量) ,另一个编码速度(径向速度)。每个雷达引脚都标记为一个圆圈,而不是单个像素,以增加训练过程中每个点的影响,并在方位和高度上反映雷达测量的嘈杂性质。使用从雷达到摄像机的外部校准以及摄像机的固有校准,将雷达引脚投射到摄像机图像上。融合网络相对简单,我将在这里跳过,因为我们的重点是CNN的雷达数据表示。

使用两通道伪图像对雷达信息进行编码

在RVNet:单眼相机和雷达的深度传感器融合用于在恶劣的环境中的基于图像的障碍物检测(PSIVT 2019),雷达引脚也投射到相机的图像平面上并形成稀疏的雷达图像。这次它具有三个通道:深度,横向速度和纵向速度。注意,这里的速度由自身运动进行补充,因此不能由测距率的单个通道表示。(作者还提出了一种密集的雷达图像编码方法,这对我来说没有意义,因此在此省略。)

RVNet使用自身运动补充速度

在以上两种方法中,都是将雷达引脚投影到摄像机图像上。投影点可以用作单个像素,也可以提供恒定的空间范围。改善此问题的一种可能的方法是根据距离使用各种大小的磁盘,例如RRPN(Radar Region Proposal Network,ICIP 2019)使用的磁盘。从理论上讲,这可以更好地反映雷达引脚的空间不确定性,因为从理论上讲,附近雷达引脚的投影比远处的雷达引脚的横向空间不确定性更大。

CRF-Net:一种用于对象检测的基于深度学习的雷达和相机传感器融合架构(SDF 2019)将雷达点绘制为垂直线。线条从地面开始向上延伸3米,因此在垂直方向上未均匀地绘制。Parse Geometry from a Line (ICRA 2017)也使用类似的技术将单线激光雷达测量结果压缩为密集的数据结构

Densify radar pins with vertical lines(CRF-Net,2019)

Densify one-line Lidar measurement (Parse Geometry from One Line, ICRA 2017)

此外,上述RRPN(雷达区域提议网络)也提出了一种很好的方式,可以从雷达生成区域入手。这是基于以下观察结果:nuScenes数据集中的几乎每个对象都具有相应的雷达引脚,因此雷达数据可用作合适的区域建议方法。为了适应雷达测量的空间不确定性,锚点并不总是位于中心。

RRPN使用嘈杂的雷达数据和移动的锚点进行目标检测

总之,以上所有方法(RRPN除外)都是将雷达引脚转换为伪图像,然后使用CNN提取其更高级别的信息。

激光雷达点云

如上所述,由于点云的密集性质,可以直接在激光雷达数据之上执行对象检测。因此,将激光雷达数据作为相机图像的元数据查看是不合适的。然而,从点云数据的数量变化不规则(不均匀分布在规则网格上)的意义上来说,激光雷达数据像一般雷达数据一样是非结构化的。

在将激光雷达数据和图像数据导入神经网络之前,已经进行了许多努力来进行数据的早期融合MV3D:用于自动驾驶的多视图3D对象检测网络(CVPR 2017)将激光雷达点转换为两种伪图像类型:鸟瞰图(BEV)和前视图(FV)。BEV地图是具有0.1 m分辨率的离散化网格,具有多个高度图,一个密度图和一个强度图。FV遵循VeloFCN的惯例:使用全卷积网络从3D激光雷达进行车辆检测(RSS 2016),请注意,这不同于将点从激光雷达投影到相机图像。然后,三个不同的网络从BEV图像,FV图像和RGB图像中提取特征,将这些特征连接起来进行融合

LaserNet:一种用于自动驾驶的高效概率3D对象检测器(Arxiv,2019)提出了另一种编码激光雷达点的方法。RV(范围视图)是通过将激光ID直接映射到行并将方位角离散化为列而生成的。这种表示的优点是它自然紧凑。它具有五个通道:范围(距离),高度,方位角,强度和一个指示单元格是否包含点的标记。

LaserNet的激光雷达点表示

总之,尽管密度比一般雷达高,但激光雷达点也可以打包成伪图像供CNN使用。与通过全连接层来使用稀疏元数据的替代方法类似,我们还可以通过PointNet(CVPR 2017)直接使用无序点云数据。

通讯/关联数据

元数据的另一种类型是关联数据,例如,交通信号灯与车道关联。元数据融合:用于交通灯和车道分配的深度元数据融合(IEEE RA-L 2019)提出了一种数据融合方法,用于融合交通灯,车道箭头和车道标记检测结果的异构元数据。元数据以**元数据特征图(MFM)**的形式编码,并与来自相机图像的中间特征融合。MFM本质上是二进制注意力图。关联数据的真实性和预测值也被编码为表示横向空间位置的一维向量。

元数据功能图(MFM)将元数据与相机图像融合

在此过程中,元数据特征图(MFM)逐项与前F = 12层相乘。事实证明,这比将MFM与图像特征图直接连接要好一些。

具有IPM的摄像机图像的元数据功能图(MFM)

物体检测结果

有时,将对象检测边界框输入其他学习管道很有用。但是,边界框的数量不是恒定的-从这个角度来看,它们也可以视为元数据。一种方法是将边界框转换为热图。在ROLO:用于视觉对象跟踪的空间监督循环卷积神经网络中,对象检测结果转换为热图,以指导学习视频对象检测和跟踪过程中在空间和时间上都一致的特征。

ROLO将对象检测结果(仅一个对象)转换为热图

在通过关联嵌入的像素到图形(NIPS 2017)一文中,可以通过将对象检测的格式设置为两个通道来融合先前的检测,其中一个通道由边界框中心的一个热激活组成,另一个通道提供边界框的二进制掩码。可以在这两个通道上显示多个框,第二个框指示其掩码的并集。如果边界框太多,导致蒙版通道变得过于拥挤,则通过边界框锚点将蒙版分开,并将它们放入不同的通道。

为了降低计算成本,这些额外的输入未集成在输入层中,而是在多层卷积之后合并。

总结

  • 注意元数据通常是无序的,并且不位于常规网格上。每个图像的元数据数量通常也是不确定的,因此难以使用具有固定输入维度的固定神经网络结构。
  • 如果元数据每个摄像机图像的长度固定,则有可能使用全连接层将这些元数据与摄像机特征图融合。
  • 如果元数据是无序的,例如一般雷达或激光雷达点云数据,则替代方法是使用不改变输入顺序排列的PointNet结构。
  • 使用CNN处理元数据的最通用方法是将元数据转换为具有规则网格间距的某种形式的伪图像。这应该是最好的,或者可以将其转换为与图像数据相同的空间域。

参考文献

  • CoordConv: An Intriguing Failing of Convolutional Neural Networks and the CoordConv Solution, NeurIPS 2018
  • CAM-Convs: Camera-Aware Multi-Scale Convolutions for Single-View Depth, CVPR 2019
  • MonoLoco: Monocular 3D Pedestrian Localization and Uncertainty Estimation, ICCV 2019
  • Distant Detection: Distant Vehicle Detection Using Radar and Vision, ICRA 2019
  • RVNet: Deep Sensor Fusion of Monocular Camera and Radar for Image-based Obstacle Detection in Challenging Environments (PSIVT 2019)
  • CRF-Net: A Deep Learning-based Radar and Camera Sensor Fusion Architecture for Object Detection, SDF 2019
  • RRPN: Radar Region Proposal Network, ICIP 2019
  • Parse Geometry from a Line: Parse Geometry from a Line: Monocular Depth Estimation with Partial Laser Observation, ICRA 2017
  • LaserNet: An Efficient Probabilistic 3D Object Detector for Autonomous Driving, Arxiv 2019
  • VeloFCN: Vehicle Detection from 3D Lidar Using Fully Convolutional Network, RSS 2016
  • MV3D: Multi-View 3D Object Detection Network for Autonomous Driving, CVPR 2017
  • Metadata Fusion: Deep Metadata Fusion for Traffic Light to Lane Assignment, IEEE RA-L 2019
  • ROLO: Spatially Supervised Recurrent Convolutional Neural Networks for Visual Object Tracking, ISCAS 2016
  • Pixels to Graphs by Associative Embedding, NIPS 2017

本文最初在《迈向数据科学》上发表,并在得到作者许可的情况下重新发布到TOPBOTS。

作者:Patrick Langechuan Liu

deephub翻译组:孟翔杰

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-04-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DeepHub IMBA 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Camera-Lidar投影:2D-3D导航
激光雷达和照相机是用于感知和理解场景的两个基本传感器。他们建立周边环境模型、提供检测和确定其他对象位置的方法,从而为机器人提供了安全导航所需的丰富语义信息。许多研究人员已开始探索用于精确3D对象检测的多模式深度学习模型。Aptiv开发的PointPainting [1]算法是一个非常有趣的例子。
小白学视觉
2020/07/24
2.9K0
Camera-Lidar投影:2D-3D导航
K-Radar:适用于各种天气条件的自动驾驶4D雷达物体检测
文章:K-Radar: 4D Radar Object Detection for Autonomous Driving in Various Weather Conditions
点云PCL博主
2023/12/11
9280
K-Radar:适用于各种天气条件的自动驾驶4D雷达物体检测
自动驾驶:Lidar 3D传感器点云数据和2D图像数据的融合标注
自动驾驶汽车的发展已经见证了硬件传感器记录感官数据的容量和准确度的发展。传感器的数量增加了,新一代传感器正在记录更高的分辨率和更准确的测量结果。在本文中,我们将探讨传感器融合如何在涉及环环相扣的数据标记过程中实现更高程度的自动化。
deephub
2020/12/24
3.4K0
BEVFusion
多传感器融合对于精确可靠的自动驾驶系统是必不可少的。 最近的方法是基于点级融合:用摄像机特征增强LIDAR点云。 然而,相机到激光雷达的投影会丢弃相机特征的语义密度(semantic density),阻碍了这种方法的有效性,尤其是对于面向语义的任务(如三维场景分割)。
为为为什么
2024/09/05
6470
BEVFusion
当视觉遇到毫米波雷达:自动驾驶的三维目标感知基准
文章:Vision meets mmWave Radar: 3D Object Perception Benchmark for Autonomous Driving
点云PCL博主
2023/12/12
9030
当视觉遇到毫米波雷达:自动驾驶的三维目标感知基准
自动驾驶中的三维目标检测综述
文章:3D Object Detection for Autonomous Driving: A Survey
点云PCL博主
2022/02/10
1.8K0
自动驾驶中的三维目标检测综述
从2D到3D的目标检测综述
论文阅读模块将分享点云处理,SLAM,三维视觉,高精地图相关的文章。公众号致力于理解三维视觉领域相关内容的干货分享,欢迎各位加入我,我们一起每天一篇文章阅读,开启分享之旅,有兴趣的可联系微信dianyunpcl@163.com。
点云PCL博主
2020/11/19
2.3K0
从2D到3D的目标检测综述
基于线段的激光雷达和单目联合曲面重建
在缺乏鲁棒的视觉特征的环境中,运动结构(SfM)通常无法估计准确的姿势,在这种情况下,最终3D网格的质量会降低,克服这个问题的,一种方法是将单目相机的数据与激光雷达的数据结合起来。这种联合传感器的方法可以捕捉环境中精细的细节和纹理,同时仍能准确地表示无特征的对象,然而,由于这两种传感器的特性根本不同,因此融合这两种传感器模式是非常具有挑战性。
点云PCL博主
2021/12/01
9850
基于线段的激光雷达和单目联合曲面重建
基于 Transformer 的多模态融合方法用于语义分割 !
环境语义分割是自动驾驶中的一个挑战性课题,并在诸如操纵、路径规划和场景理解等智能车辆相关研究中发挥着关键作用。由于深度神经网络的进步,特别是卷积神经网络(CNN),以及开放数据集的可用性,语义分割领域已取得了巨大进展。早期研究采用相机的RGB图像作为输入,并用具有相对单调场景的数据集进行测试。近年来,感知传感器行业的蓬勃发展以及严格的安全要求推动了涉及不同传感器和综合场景的语义分割研究。在各种研究中,激光雷达传感器(LiDAR)参与最多。流行的仅激光雷达方法包括VoxNet[6]、PointNet[7]和RotationNet[8]。然而,多模态传感器融合被视为解决自动驾驶问题的有前途的技术,并已成为语义分割的主流选择。
未来先知
2024/08/20
1.5K0
基于 Transformer 的多模态融合方法用于语义分割 !
面向自动驾驶的三维目标检测研究综述
文章:3D Object Detection for Autonomous Driving: A Survey
点云PCL博主
2022/02/10
1.5K0
面向自动驾驶的三维目标检测研究综述
无人驾驶系统-感知
环境感知确保了无人车对环境的理解和把握,无人驾驶系统的环境感知部分通常需要获取周围环境的大量信息,具体来说包括:障碍物的位置,速度以及可能的行为,可行驶的区域,交通规则等等。无人车通常是通过融合激光雷达(Lidar),相机(Camera),毫米波雷达(Millimeter Wave Radar)等多种传感器的数据来获取这些信息,本节我们主要介绍一下激光雷达和摄像机在无人驾驶感知中的应用。
Must
2020/07/28
7310
无人驾驶系统-感知
商汤科技提出 SparseLIF | 高性能全稀疏3D目标检测器,性能 & 鲁棒性 达到 SOTA 水平!
在提交之时(2024/03/08),SparseLIF在nuScenes数据集上取得了最先进的性能,在验证集和测试基准上都排名第一,明显优于所有最先进的3D目标检测器。
AIGC 先锋科技
2024/07/08
7500
商汤科技提出 SparseLIF | 高性能全稀疏3D目标检测器,性能 & 鲁棒性 达到 SOTA 水平!
论文翻译:Deep Learning on Radar Centric 3D Object Detection
即使许多现有的3D目标检测算法主要依赖于摄像头和LiDAR,但camera和LiDAR容易受到恶劣天气和光照条件的影响。radar能够抵抗这种情况。近期研究表明可以将深度神经网路应用于雷达数据。本论文提出一种基于深度学习的radar 3D 目标检测。据我们所知,我们是第一个展示基于深度学习的radar 3D 目标检测模型,该模型是在雷达的公共数据集上训练所得。为了克服缺乏雷达标记数据的问题,我们利用大量的LiDAR点云数据,将其转换为类似radar的点云数据和有效的雷达数据增强技术。
yzh
2020/11/09
1.1K0
BEVCar | 融合雷达,颠覆夜间与恶劣天气下的机器人视觉分割!
移动机器人,如自动驾驶车辆,严重依赖于对其环境的准确和健壮的感知。因此,机器人平台通常配备有各种传感器[1, 2, 3],每种传感器提供互补的信息。例如,环视摄像头提供密集的RGB图像,而激光雷达或雷达系统提供稀疏的深度测量。然而,由于这些不同模态的数据结构本质上的不同,融合这些数据提出了一个重大挑战。解决这一挑战的常用方法是采用鸟瞰视图(BEV)表示作为共享参考框架[4, 5, 6, 7, 8, 9]。
AIGC 先锋科技
2024/07/08
5050
BEVCar | 融合雷达,颠覆夜间与恶劣天气下的机器人视觉分割!
双雷达数据集:用于自动驾驶的双雷达多模态数据集
文章:Dual Radar: A Multi-modal Dataset with Dual 4D Radar for Autononous Driving
点云PCL博主
2023/10/30
8780
双雷达数据集:用于自动驾驶的双雷达多模态数据集
有福利送书 | 3D对象检测检测概述
点击上方蓝字关注我们 微信公众号:OpenCV学堂 关注获取更多计算机视觉与深度学习知识 将3D对象检测方法分为三类:单目图像,点云以及基于融合的方法。基于单目图像的方法。       尽管2D对象的检测已解决,并已在多个数据集中得到成功应用。但KITTI数据集对对象检测,提出了挑战的特定设置。而这些设置,对于大多数驾驶环境都是常见的,包括小的、被遮挡的或被截断的物体,以及高度饱和的区域或阴影。此外,图像平面上的2D检测,还不足以提供可靠的驱动系统。此类应用需要更精确的3D空间定位和尺寸估算。本节将重点介
OpenCV学堂
2022/08/29
8120
有福利送书 | 3D对象检测检测概述
自动驾驶中图像与点云融合的深度学习研究进展综述
文章:Deep Learning for Image and Point Cloud Fusion in Autonomous Driving: A Review
3D视觉工坊
2020/11/11
3.7K0
自动驾驶中图像与点云融合的深度学习研究进展综述
​四大院校携手 GraphBEV | 将激光雷达和相机信息融合到BEV,比 BEVFusion性能高出8.3% !
三维目标检测是自动驾驶系统的一个关键组成部分,旨在准确识别和定位汽车、行人以及三维环境中的其他元素[49, 58]。为了鲁棒和高品质的检测,当前的实践主要遵循像BEVFusion[29, 34]这样的多模态融合范式。不同的模态通常提供互补的信息。例如,图像含有丰富的语义表示,但缺乏深度信息。相比之下,点云提供了几何和深度信息,但却是稀疏的且缺乏语义信息。因此,有效利用多模态数据的优势同时减轻其局限性,对于提高感知系统的鲁棒性和准确性至关重要[58]。
AIGC 先锋科技
2024/07/08
1.2K0
​四大院校携手 GraphBEV  |  将激光雷达和相机信息融合到BEV,比 BEVFusion性能高出8.3% !
简述:机器人BEV检测中的相机-毫米波雷达融合
论文:Vision-RADAR fusion for Robotics BEV Detections: A Survey
一点人工一点智能
2023/10/21
9780
简述:机器人BEV检测中的相机-毫米波雷达融合
深度|详解自动驾驶核心部件激光雷达,它凭什么卖70万美元?
【新智元导读】作为自动驾驶汽车的核心部件之一,激光雷达传感器以昂贵出名,此前的价格高达70万美元,远超普通汽车。自动驾驶研究专家黄武陵在本文中介绍了激光雷达传感器的关键作用和激光雷达传感器在环境感知中
新智元
2018/03/26
1.7K0
深度|详解自动驾驶核心部件激光雷达,它凭什么卖70万美元?
推荐阅读
相关推荐
Camera-Lidar投影:2D-3D导航
更多 >
领券
一站式MCP教程库,解锁AI应用新玩法
涵盖代码开发、场景应用、自动测试全流程,助你从零构建专属AI助手
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档