Loading [MathJax]/jax/output/CommonHTML/jax.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Fast-BEV 简单快速的纯视觉全卷积BEV框架

Fast-BEV 简单快速的纯视觉全卷积BEV框架

作者头像
为为为什么
发布于 2024-09-06 04:24:08
发布于 2024-09-06 04:24:08
5170
举报
文章被收录于专栏:又见苍岚又见苍岚

Fast-BEV 是一种用于自动驾驶系统的先进技术,它专注于提高多摄像头图像到 3D bounding box 和速度预测的实时性能,本文记录相关内容。

简介

自动驾驶系统分为三个层级:感知层,决策层,执行层,快速且准确的感知系统,是自动驾驶技术的关键。

目前,基于纯相机的BEV视图展现出了不同于传统方法的巨大潜力:3D感知能力强,成本低,既可单独表达,也可同时处理多个任务。但目前大多数BEV方案占用资源大,或性能不佳。基于这些缺陷,一种Fast BEV框架被提出,它能够在车载芯片上执行更快的BEV感知。该算法可使Fast BEV在快速部署,快速运算的同时,还可以保证高性能。

近两年,BEV感知在自动驾驶领域里发展的如火如荼,从而受到了越来越多专业人士的关注。不过,大多数现有的BEV技术,例如基于transformer的BevFormer、基于深度转换的BevDepth等等,均对算力的要求颇高,尤其对于车载芯片Xavier, Orin, Tesla T4等来讲,多少有点吃不消。在Fast-BEV这篇论文论文中,作者提出了一种对车载芯片友好的且简单轻便的BEV新框架。

论文: https://arxiv.org/abs/2301.12511

代码: https://github.com/Sense-GVT/Fast-BEV

背景

对于自动驾驶来说,一个快速准确的 3D 感知系统是很有必要的。经典方法,例如:Pointpillars、Voxlnet等,强烈依赖基于激光雷达点云提供的准确3D信息。然而,激光雷达传感器通常要花费数千美元,为此在汽车上应用起来成本过高。最近基于纯相机的鸟瞰图 (BEV) 方法显示出了巨大潜力,它的3D感知能力不仅令人印象深刻,如图1所示,而且还可以极大地降低经济成本。BEV方法基本上遵循着如下范式:首先将多目环视相机的图像特征从二维图像空间转换至汽车坐标系下的三维BEV特征空间,然后采用特定的head结构应用于统一的BEV特征,以便执行定制的3D任务,统一的BEV特征可以高效且灵活的执行单个任务或同时执行多项任务,例如:3D 检测、分割等多种任务。

经典3D感知算法常需要依赖激光雷达传感器,通常价格十分昂贵。相比之下,基于纯相机的BEV途径3D感知能力强,成本低。BEV视图的转换途径为:将多摄像机的2D视图基于汽车为中心坐标,形成3D鸟瞰视图。现有的方法为基于查询的 transformation 方法和基于深度变换的方法。

这些方法通常需要难以加速的体素池操作,在不支持CUDA加速推理库的芯片上难以运行,并且运算耗时大。基于这些结构,本文提出了Fast-Ray转换,借助于“查找表”和“多视图到一个体素”操作,将BEV转换加速到一个新的水平。基于Fast Ray变换,论文进一步提出了Fast BEV,这是一种更快、更强的全卷积BEV感知框架,无需昂贵的视图transformer或深度表示。所提出的快速BEV包括五个部分,Fast-Ray变换、多尺度图像编码器、高效BEV编码器、数据增强和时间融合,这些共同构成了一个框架,赋予Fast BEV快速推理速度和有竞争力的性能。

方法

Fast BEV共分为5个模块:Fast-Ray转换器,多尺度图像编码器,高效BEV编码器,数据增强,时态融合变换器。

1.Fast-Ray转换器: 视图转换是将特征从2D图像空间转换到3D BEV空间的关键组件。这种方式优点是,一旦获得了相机的内在/外在参数,就可以很容易地知道2D到3D的投影。基于这一假设,本文从两个角度进一步加速该过程:预计算投影索引(查找表)和密集体素特征生成(多视图到一个体素)。

一般来说,从图像特征从二维图像空间投影至三维BEV体素空间会占据着大量的耗时,为此作者提出了两种优化手段来加速这个模块的计算:一是预计算一个固定的投影索引,构建出一个LUT查询表;二是将所有的相机图像特征一次性投影至同一个密集的BEV体素空间下,从来避免复杂的聚合操作。

在标定获取到每个相机的内参以及相机至车辆坐标系的外参后,可以很容易的计算出二维图像特征空间至三维BEV体素空间之间的投影关系,因为不像之前的DevDepth有依赖于深度预测结果和BevFormer的transformer模式造成的投影关系变动,为此可以把这种投影索引直接写死并存储下来,而不用每次推理时都重新计算索引。如图3所示,对三维BEV体素空间下的每一个体素,直接构建其与每一个相机索引及对应相机图像特征二维坐标系(x,y)之间投影关系。

在BevFormer中,每一个相机图像特征都会各自投影至一个稀疏的BEV体素空间里,为此便需要一个复杂的聚合操作来将多个不同的BEV体素空间集成到一起,见图4a所示。而Fast-BEV为了避免聚合这种复杂操作,则是将所有相机图像特征直接投影至同一个密集的BEV体素空间下,见图4b所示。这个加速投影便是通过上面构建的LUT表来完成的,多视图相机图像特征投影至同一个体素空间的过程如图所示。

2.多尺度图像编码器: 使用 fast-ray 转换器可将多张图像输入到图像编码器中,最终得到4级特征,然后在图像编码器输出部分采用了三层多尺度FPN结构。FPN的每一层通过1*1卷积,将以下层上采样后的相同大小的特征进行融合,最终得到F1=4;F1=8;F1=16 3级综合图像特征作为输出。

如下图所示,6张多目环视相机图像 IRH×W×3输入给 ResNet-50 网络提取多尺度 backbone 特征,并后接了3层特征金字塔结构,其中每层特征金字塔层均融合了当前层特征与深层特征上采样来的特征,最终获得了 𝐹_{1F1/4_{1/F1/8{1/1F1/16度图像特征输出。 在得到多视图相机图像的多尺度图像特征 𝐹={𝑅^{𝑁变换,将多尺度图像特征 投影至多尺度BEV特征空间,得到: 𝑉={𝑅^{𝑋_𝑖×𝑌_𝑖×𝑍×

3.高效BEV编码器: BEV作为4D张量需要大量计算,可使用三位缩减操作加快其运算速度,从而避免3D卷积占用大量内存。此外,BEV编码器的块数和3D体素分辨率的大小对性能影响相对较小,但占用了较大的速度消耗,因此更少的块和更小的体素分辨率也更为关键。

BEV 特征𝑉是一个4维的向量,如果使用时间融合操作将特征堆叠在一块,会使得BEV编码模块产生大量的计算。为了加速BEV编码的计算,通常需要使用S2C、MSCF、MFCF三种算子来降低计算量。S2C操作用于将4维的体素向量 𝑉BEV向量 𝑉∈𝑅^{𝑋×耗内存的3D卷积算子。因为BEV特征本身就是一个多尺度的,即 [200,150,100]样的方式,把低尺度的BEV特征放大到同一尺度 200×200 ,然后再&MFCF 操作在通道维度上进行多尺度多帧特征连接,即

$$ 𝐹𝑢𝑠𝑒(𝑉_𝑖|𝑉_𝑖) ∈ 𝑅^{𝑋_𝑖×𝑌_𝑖×(𝑍𝐶𝐹_{𝑠𝑐𝑎𝑙𝑒𝑠}𝑇_{𝑓𝑟𝑎𝑚𝑒𝑠})} ⇒ 𝑉_𝑖 | 𝑉_𝑖 ∈ 𝑅^{𝑋_𝑖×𝑌_𝑖×𝐶_{𝑀𝑆𝐶𝐹 \& 𝑀𝐹𝐶𝐹}},𝑖∈3−𝑙𝑒𝑣𝑒𝑙 $$

从而可以将原有的高参数量融合至低参数量,并最终加速BEV编码的计算时间。

4.数据增强: 本研究为图像空间和BEV空间添加了数据增强。如果对图像应用数据增强,还需要改变相机固有矩阵。对于增强操作,基本上遵循常见的操作,例如翻转、裁剪和旋转。BEV增强变换可以通过相应地修改相机外部矩阵来控制,增强后,需要对3D gt框进行同步变更,而且还需要修改对应的外参矩阵。

5.时态融合变换器: 本研究将历史帧引入到当前帧中以进行时间特征融合。通过空间对齐操作和级联操作,将历史帧的特征与当前帧的对应特征融合。时间融合可以被认为是帧级的特征增强,在一定范围内较长的时间序列可以带来更多的性能增益。

和主流方法的Latency进行比较,结果如下图:

结论

经测试,Fast BEV有着以下优势:可在使用低计算能力芯片进行部署,可在非GPU芯片上部署,扩展能力强。随着技术的发展,许多自动驾驶制造商已经开始放弃激光雷达,只使用纯视觉进行感知。在实际开发中,模型放大或数据放大通常基于从真实车辆收集的数据,以利用数据潜力提高性能。在这种情况下,基于深度监控的解决方案遇到瓶颈,而Fast BEV不引入任何深度信息,可以更好地应用。

原始论文

参考资料

文章链接:

https://cloud.tencent.com/developer/article/2449580

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-9-5,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Fast-BEV:简单快速的BEV框架
自动驾驶系统分为三个层级:感知层,决策层,执行层,快速且准确的感知系统,是自动驾驶技术的关键。
一点人工一点智能
2023/08/25
1.3K0
Fast-BEV:简单快速的BEV框架
FastBEV论文解读复现
本文介绍了一种名为Fast-BEV的快速且强大的鸟瞰视图感知基线框架,旨在解决现有BEV解决方案在执行车辆内推理时需要大量资源或性能不佳的问题。该框架包括五个部分:一种轻量级部署友好的视角转换方法、一个多尺度图像编码器、一个专门设计用于加速车辆内推断的高效BEV编码器、一种强数据增强策略以及一种多帧特征融合机制。实验结果表明,该框架能够在当前流行的车辆芯片上实现高精度和高速度的鸟瞰视图感知任务,并取得了与先前工作相比更好的性能。
Srlua
2024/11/28
1760
FastBEV论文解读复现
从论文到代码、从前沿研究到工业落地,全面了解BEV感知
机器之心专栏 作者:OpenDriveLab BEV(Bird’s-eye-view) 感知研究对自动驾驶领域影响巨大,关于 BEV 你需要了解哪些内容,本文通过 BEVPerception Survey 为你揭晓答案。 BEV 感知到底是什么?自动驾驶的学术界和工业界又都在关注 BEV 感知的什么内容?本文将会为你揭晓答案。 在自动驾驶领域中,让感知模型学习强大的鸟瞰图(BEV)表征是一种趋势,并且已经引起了工业界和学术界的广泛关注。相比于之前自动驾驶领域中的大多数基于在前视图或透视图中执行检测、分割、
机器之心
2023/02/23
5490
从论文到代码、从前沿研究到工业落地,全面了解BEV感知
超详细 BEV 感知技术研究综述、BEV 感知实用工具箱Toolbox 及相关数据集分享
原文:超详细 BEV 感知技术研究综述、BEV 感知实用工具箱Toolbox 及相关数据集分享
一点人工一点智能
2023/02/17
6910
超详细 BEV 感知技术研究综述、BEV 感知实用工具箱Toolbox 及相关数据集分享
【ADAS】万字文告诉你Transformer在BEV、3D检测、2D检测、Lane检测的应用,量化与加速
近年来,自动驾驶已成为一个快速发展的领域,旨在为人类驾驶员提供自动化和智能系统。自动驾驶技术的成功部署有望显著提高交通系统的安全性和效率。在过去的二十年里,为自动驾驶开发了一系列数据驱动技术,从传统的基于规则的方法到先进的机器学习方法。
公众号-arXiv每日学术速递
2023/08/26
2.5K0
【ADAS】万字文告诉你Transformer在BEV、3D检测、2D检测、Lane检测的应用,量化与加速
纯卷积BEV模型的巅峰战力 | BEVENet不用Transformer一样成就ADAS的量产未来
近年来,在自动驾驶领域,鸟瞰视角(BEV)空间中的3D目标检测取得了很大的进展。作为激光雷达(LiDAR)方法的替代方案,使用周围摄像头生成伪激光雷达点在自动驾驶领域被视为一种既经济又具有前景的解决方案。因此,为了将感知任务集成到BEV空间中,提出了许多方法。
集智书童公众号
2023/12/19
1.4K0
纯卷积BEV模型的巅峰战力 | BEVENet不用Transformer一样成就ADAS的量产未来
自动驾驶传感器"内卷"新思路:让AI自己决定该看摄像头还是雷达
研究提出了一种创新的跨视角雷达-相机融合框架,通过查询机制实现了多模态特征的自适应采样,显著提升了自动驾驶环境下的3D目标检测性能。文章将从研究背景与动机、方法架构设计、关键技术创新、实验验证以及应用价值五个维度进行系统分析,重点剖析其核心算法原理与工程实现细节。
一点人工一点智能
2025/06/07
1380
自动驾驶传感器"内卷"新思路:让AI自己决定该看摄像头还是雷达
M^2BEV: 统一的鸟瞰图表示的多相机联合3D检测和分割
文章:M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified Bird’s-Eye View Representation
点云PCL博主
2023/08/21
6800
M^2BEV: 统一的鸟瞰图表示的多相机联合3D检测和分割
精华文稿|视觉自动驾驶最新技术路线浅析
自动驾驶是逐渐从预言阶段向工业化阶段的一个过渡,具体表现可分为4点。首先,在大数据的背景下,数据集的规模在快速扩张导致以前在小规模数据集上开发原型的细节会被大量过滤掉,能在大规模数据上有效的工作才会被留下来。其次是关注点的切换,从单目切换到多目场景,导致复杂度提升。然后是倾向于对应用友好的设计,如输出的空间从图像空间向BEV空间的转移。
一点人工一点智能
2023/01/11
6820
精华文稿|视觉自动驾驶最新技术路线浅析
Occ-BEV:通过3D场景重建实现多相机统一预训练
文章:Occ-BEV: Multi-Camera Unified Pre-training via 3D Scene Reconstruction
点云PCL博主
2023/08/21
8410
Occ-BEV:通过3D场景重建实现多相机统一预训练
清华大学&英伟达最新|Occ3D:通用全面的大规模3D Occupancy预测基准
自动驾驶感知需要对3D几何和语义进行建模。现有的方法通常侧重于估计3D边界框,忽略了更精细的几何细节,难以处理一般的、词汇表外的目标。为了克服这些限制,本文引入了一种新的3D占用预测任务,旨在从多视图图像中估计目标的详细占用和语义。为了促进这项任务,作者开发了一个标签生成pipeline,为给定场景生成密集的、可感知的标签。该pipeline包括点云聚合、点标签和遮挡处理。作者基于Waymo开放数据集和nuScenes数据集构造了两个基准,从而产生了Occ3D Waymo和Occ3D nuScene基准。最后,作者提出了一个模型,称为“粗略到精细占用”(CTF-Occ)网络。这证明了在3D占用预测任务中的优越性能。这种方法以粗略到精细的方式解决了对更精细的几何理解的需求。
公众号-arXiv每日学术速递
2023/08/26
1.3K0
清华大学&英伟达最新|Occ3D:通用全面的大规模3D Occupancy预测基准
MamBEV:基于 Mamba 框架与 SSM 跨注意力机制,提升 3D 视觉感知任务计算及内存效率并超越现有基准 !
自动构建物体周围环境的鸟瞰视图(BEV)对于自动驾驶和驾驶辅助系统等任务非常有益(Wang等,2023a)。这些方法通常会整合多视角摄像头接收到的信号,并将其转换为周围环境的俯视图。此外,由于这些系统在移动边缘环境中运行,因此在考虑构建准确性的同时还需关注计算成本(Ke等,2024)。
未来先知
2025/04/16
2310
MamBEV:基于 Mamba 框架与 SSM 跨注意力机制,提升 3D 视觉感知任务计算及内存效率并超越现有基准 !
一文全览 | 2023最新环视自动驾驶3D检测综述!
基于视觉的3D检测任务是感知自动驾驶系统的基本任务,这在许多研究人员和自动驾驶工程师中引起了极大的兴趣。然而,使用带有相机的2D传感器输入数据实现相当好的3D BEV(鸟瞰图)性能并不是一项容易的任务。本文对现有的基于视觉的3D检测方法进行了综述,聚焦于自动驾驶。论文利用Vision BEV检测方法对60多篇论文进行了详细分析,并强调了不同的分类,以详细了解常见趋势。此外还强调了文献和行业趋势如何转向基于环视图像的方法,并记下了该方法解决的特殊情况的想法。总之,基于当前技术的缺点,包括协作感知的方向,论文为未来的研究提出了3D视觉技术的想法。
集智书童公众号
2023/09/04
1.3K0
一文全览 | 2023最新环视自动驾驶3D检测综述!
BEVCar | 融合雷达,颠覆夜间与恶劣天气下的机器人视觉分割!
移动机器人,如自动驾驶车辆,严重依赖于对其环境的准确和健壮的感知。因此,机器人平台通常配备有各种传感器[1, 2, 3],每种传感器提供互补的信息。例如,环视摄像头提供密集的RGB图像,而激光雷达或雷达系统提供稀疏的深度测量。然而,由于这些不同模态的数据结构本质上的不同,融合这些数据提出了一个重大挑战。解决这一挑战的常用方法是采用鸟瞰视图(BEV)表示作为共享参考框架[4, 5, 6, 7, 8, 9]。
AIGC 先锋科技
2024/07/08
4030
BEVCar | 融合雷达,颠覆夜间与恶劣天气下的机器人视觉分割!
融合点云与图像的环境目标检测研究进展
在数字仿真技术应用领域,特别是在自动驾驶技术的发展中,目标检测是至关重要的一环,它涉及到对周围环境中物体的感知,为智能装备的决策和规划提供了关键信息。
一点人工一点智能
2024/03/22
2K0
融合点云与图像的环境目标检测研究进展
重塑路侧BEV感知!BEVSpread:全新体素化暴力涨点(浙大&百度)
基于视觉的路侧3D目标检测在自动驾驶领域引起了越来越多的关注,因其在减少盲点和扩大感知范围方面具有不可忽略的优势。而先前的工作主要集中在准确估计2D到3D映射的深度或高度,忽略了体素化过程中的位置近似误差。受此启发,我们提出了一种新的体素化策略来减少这种误差,称为BEVSpread。具体而言,BEVSpread不是将包含在截头体点中的图像特征带到单个BEV网格,而是将每个截头体点作为源,并使用自适应权重将图像特征扩展到周围的BEV网格。为了实现更好的特征传递性能,设计了一个特定的权重函数,根据距离和深度动态控制权重的衰减速度。在定制的CUDA并行加速的帮助下,BEVSpread实现了与原始体素化相当的推理时间。在两个大型路侧基准上进行的大量实验表明,作为一种插件,BEVSpread可以显著提高现有基于frustum的BEV方法。在车辆、行人和骑行人几类中,提升幅度为(1.12,5.26,3.01)AP。
公众号-arXiv每日学术速递
2024/06/28
5580
重塑路侧BEV感知!BEVSpread:全新体素化暴力涨点(浙大&百度)
​四大院校携手 GraphBEV | 将激光雷达和相机信息融合到BEV,比 BEVFusion性能高出8.3% !
三维目标检测是自动驾驶系统的一个关键组成部分,旨在准确识别和定位汽车、行人以及三维环境中的其他元素[49, 58]。为了鲁棒和高品质的检测,当前的实践主要遵循像BEVFusion[29, 34]这样的多模态融合范式。不同的模态通常提供互补的信息。例如,图像含有丰富的语义表示,但缺乏深度信息。相比之下,点云提供了几何和深度信息,但却是稀疏的且缺乏语义信息。因此,有效利用多模态数据的优势同时减轻其局限性,对于提高感知系统的鲁棒性和准确性至关重要[58]。
AIGC 先锋科技
2024/07/08
1K0
​四大院校携手 GraphBEV  |  将激光雷达和相机信息融合到BEV,比 BEVFusion性能高出8.3% !
3D车道线检测能否成为自动驾驶的核心?盘一盘近三年的SOTA论文!
车道线检测是自动驾驶与计算机视觉领域中的重要研究方向,3D车道线任务更是近几年的研究热点,下面为大家盘点下近三年的一些工作!
一点人工一点智能
2023/02/06
1.9K0
3D车道线检测能否成为自动驾驶的核心?盘一盘近三年的SOTA论文!
做自动驾驶涉及哪些技术?超全总结上线
自2004/05年DARPA的“大挑战”(rural)和2007年的“城市挑战”以来,自动驾驶一直是人工智能应用中最活跃的领域。
博文视点Broadview
2023/09/09
1.3K0
做自动驾驶涉及哪些技术?超全总结上线
复旦多模态 3D 检测最新成果 DeepInteraction!,融合感知算法刷新 SOTA !
安全自主驾驶依赖于可靠的场景感知,核心任务是定位和识别周围3D世界中的决策性物体。为增强感知能力,激光雷达和摄像头传感器在大多数当前自主车辆中同时使用,分别提供点云和RGB图像。两种模式由于其不同的感知特性而表现出自然而强烈互补作用。点云涉及必要的局部化和几何信息,表示稀疏;而图像在高分辨率下提供丰富的外观和语义信息。因此,跨模态的专门信息融合对于强大的场景感知变得至关重要。
AIGC 先锋科技
2024/08/27
6170
复旦多模态 3D 检测最新成果  DeepInteraction!,融合感知算法刷新 SOTA !
推荐阅读
Fast-BEV:简单快速的BEV框架
1.3K0
FastBEV论文解读复现
1760
从论文到代码、从前沿研究到工业落地,全面了解BEV感知
5490
超详细 BEV 感知技术研究综述、BEV 感知实用工具箱Toolbox 及相关数据集分享
6910
【ADAS】万字文告诉你Transformer在BEV、3D检测、2D检测、Lane检测的应用,量化与加速
2.5K0
纯卷积BEV模型的巅峰战力 | BEVENet不用Transformer一样成就ADAS的量产未来
1.4K0
自动驾驶传感器"内卷"新思路:让AI自己决定该看摄像头还是雷达
1380
M^2BEV: 统一的鸟瞰图表示的多相机联合3D检测和分割
6800
精华文稿|视觉自动驾驶最新技术路线浅析
6820
Occ-BEV:通过3D场景重建实现多相机统一预训练
8410
清华大学&英伟达最新|Occ3D:通用全面的大规模3D Occupancy预测基准
1.3K0
MamBEV:基于 Mamba 框架与 SSM 跨注意力机制,提升 3D 视觉感知任务计算及内存效率并超越现有基准 !
2310
一文全览 | 2023最新环视自动驾驶3D检测综述!
1.3K0
BEVCar | 融合雷达,颠覆夜间与恶劣天气下的机器人视觉分割!
4030
融合点云与图像的环境目标检测研究进展
2K0
重塑路侧BEV感知!BEVSpread:全新体素化暴力涨点(浙大&百度)
5580
​四大院校携手 GraphBEV | 将激光雷达和相机信息融合到BEV,比 BEVFusion性能高出8.3% !
1K0
3D车道线检测能否成为自动驾驶的核心?盘一盘近三年的SOTA论文!
1.9K0
做自动驾驶涉及哪些技术?超全总结上线
1.3K0
复旦多模态 3D 检测最新成果 DeepInteraction!,融合感知算法刷新 SOTA !
6170
相关推荐
Fast-BEV:简单快速的BEV框架
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档