Loading [MathJax]/jax/output/CommonHTML/jax.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Fast-BEV 简单快速的纯视觉全卷积BEV框架

Fast-BEV 简单快速的纯视觉全卷积BEV框架

作者头像
为为为什么
发布于 2024-09-06 04:24:08
发布于 2024-09-06 04:24:08
6690
举报
文章被收录于专栏:又见苍岚又见苍岚

Fast-BEV 是一种用于自动驾驶系统的先进技术,它专注于提高多摄像头图像到 3D bounding box 和速度预测的实时性能,本文记录相关内容。

简介

自动驾驶系统分为三个层级:感知层,决策层,执行层,快速且准确的感知系统,是自动驾驶技术的关键。

目前,基于纯相机的BEV视图展现出了不同于传统方法的巨大潜力:3D感知能力强,成本低,既可单独表达,也可同时处理多个任务。但目前大多数BEV方案占用资源大,或性能不佳。基于这些缺陷,一种Fast BEV框架被提出,它能够在车载芯片上执行更快的BEV感知。该算法可使Fast BEV在快速部署,快速运算的同时,还可以保证高性能。

近两年,BEV感知在自动驾驶领域里发展的如火如荼,从而受到了越来越多专业人士的关注。不过,大多数现有的BEV技术,例如基于transformer的BevFormer、基于深度转换的BevDepth等等,均对算力的要求颇高,尤其对于车载芯片Xavier, Orin, Tesla T4等来讲,多少有点吃不消。在Fast-BEV这篇论文论文中,作者提出了一种对车载芯片友好的且简单轻便的BEV新框架。

论文: https://arxiv.org/abs/2301.12511

代码: https://github.com/Sense-GVT/Fast-BEV

背景

对于自动驾驶来说,一个快速准确的 3D 感知系统是很有必要的。经典方法,例如:Pointpillars、Voxlnet等,强烈依赖基于激光雷达点云提供的准确3D信息。然而,激光雷达传感器通常要花费数千美元,为此在汽车上应用起来成本过高。最近基于纯相机的鸟瞰图 (BEV) 方法显示出了巨大潜力,它的3D感知能力不仅令人印象深刻,如图1所示,而且还可以极大地降低经济成本。BEV方法基本上遵循着如下范式:首先将多目环视相机的图像特征从二维图像空间转换至汽车坐标系下的三维BEV特征空间,然后采用特定的head结构应用于统一的BEV特征,以便执行定制的3D任务,统一的BEV特征可以高效且灵活的执行单个任务或同时执行多项任务,例如:3D 检测、分割等多种任务。

经典3D感知算法常需要依赖激光雷达传感器,通常价格十分昂贵。相比之下,基于纯相机的BEV途径3D感知能力强,成本低。BEV视图的转换途径为:将多摄像机的2D视图基于汽车为中心坐标,形成3D鸟瞰视图。现有的方法为基于查询的 transformation 方法和基于深度变换的方法。

这些方法通常需要难以加速的体素池操作,在不支持CUDA加速推理库的芯片上难以运行,并且运算耗时大。基于这些结构,本文提出了Fast-Ray转换,借助于“查找表”和“多视图到一个体素”操作,将BEV转换加速到一个新的水平。基于Fast Ray变换,论文进一步提出了Fast BEV,这是一种更快、更强的全卷积BEV感知框架,无需昂贵的视图transformer或深度表示。所提出的快速BEV包括五个部分,Fast-Ray变换、多尺度图像编码器、高效BEV编码器、数据增强和时间融合,这些共同构成了一个框架,赋予Fast BEV快速推理速度和有竞争力的性能。

方法

Fast BEV共分为5个模块:Fast-Ray转换器,多尺度图像编码器,高效BEV编码器,数据增强,时态融合变换器。

1.Fast-Ray转换器: 视图转换是将特征从2D图像空间转换到3D BEV空间的关键组件。这种方式优点是,一旦获得了相机的内在/外在参数,就可以很容易地知道2D到3D的投影。基于这一假设,本文从两个角度进一步加速该过程:预计算投影索引(查找表)和密集体素特征生成(多视图到一个体素)。

一般来说,从图像特征从二维图像空间投影至三维BEV体素空间会占据着大量的耗时,为此作者提出了两种优化手段来加速这个模块的计算:一是预计算一个固定的投影索引,构建出一个LUT查询表;二是将所有的相机图像特征一次性投影至同一个密集的BEV体素空间下,从来避免复杂的聚合操作。

在标定获取到每个相机的内参以及相机至车辆坐标系的外参后,可以很容易的计算出二维图像特征空间至三维BEV体素空间之间的投影关系,因为不像之前的DevDepth有依赖于深度预测结果和BevFormer的transformer模式造成的投影关系变动,为此可以把这种投影索引直接写死并存储下来,而不用每次推理时都重新计算索引。如图3所示,对三维BEV体素空间下的每一个体素,直接构建其与每一个相机索引及对应相机图像特征二维坐标系(x,y)之间投影关系。

在BevFormer中,每一个相机图像特征都会各自投影至一个稀疏的BEV体素空间里,为此便需要一个复杂的聚合操作来将多个不同的BEV体素空间集成到一起,见图4a所示。而Fast-BEV为了避免聚合这种复杂操作,则是将所有相机图像特征直接投影至同一个密集的BEV体素空间下,见图4b所示。这个加速投影便是通过上面构建的LUT表来完成的,多视图相机图像特征投影至同一个体素空间的过程如图所示。

2.多尺度图像编码器: 使用 fast-ray 转换器可将多张图像输入到图像编码器中,最终得到4级特征,然后在图像编码器输出部分采用了三层多尺度FPN结构。FPN的每一层通过1*1卷积,将以下层上采样后的相同大小的特征进行融合,最终得到F1=4;F1=8;F1=16 3级综合图像特征作为输出。

如下图所示,6张多目环视相机图像 输入给 ResNet-50 网络提取多尺度 backbone 特征,并后接了3层特征金字塔结构,其中每层特征金字塔层均融合了当前层特征与深层特征上采样来的特征,最终获得了 𝐹_{1_{1/{1/1度图像特征输出。 在得到多视图相机图像的多尺度图像特征 𝐹={𝑅^{𝑁变换,将多尺度图像特征 投影至多尺度BEV特征空间,得到: 𝑉={𝑅^{𝑋_𝑖×𝑌_𝑖×𝑍×

3.高效BEV编码器: BEV作为4D张量需要大量计算,可使用三位缩减操作加快其运算速度,从而避免3D卷积占用大量内存。此外,BEV编码器的块数和3D体素分辨率的大小对性能影响相对较小,但占用了较大的速度消耗,因此更少的块和更小的体素分辨率也更为关键。

BEV 特征𝑉是一个4维的向量,如果使用时间融合操作将特征堆叠在一块,会使得BEV编码模块产生大量的计算。为了加速BEV编码的计算,通常需要使用S2C、MSCF、MFCF三种算子来降低计算量。S2C操作用于将4维的体素向量 𝑉BEV向量 𝑉∈𝑅^{𝑋×耗内存的3D卷积算子。因为BEV特征本身就是一个多尺度的,即 [200,150,100]样的方式,把低尺度的BEV特征放大到同一尺度 200×200 ,然后再&MFCF 操作在通道维度上进行多尺度多帧特征连接,即

$$ 𝐹𝑢𝑠𝑒(𝑉_𝑖|𝑉_𝑖) ∈ 𝑅^{𝑋_𝑖×𝑌_𝑖×(𝑍𝐶𝐹_{𝑠𝑐𝑎𝑙𝑒𝑠}𝑇_{𝑓𝑟𝑎𝑚𝑒𝑠})} ⇒ 𝑉_𝑖 | 𝑉_𝑖 ∈ 𝑅^{𝑋_𝑖×𝑌_𝑖×𝐶_{𝑀𝑆𝐶𝐹 \& 𝑀𝐹𝐶𝐹}},𝑖∈3−𝑙𝑒𝑣𝑒𝑙 $$

从而可以将原有的高参数量融合至低参数量,并最终加速BEV编码的计算时间。

4.数据增强: 本研究为图像空间和BEV空间添加了数据增强。如果对图像应用数据增强,还需要改变相机固有矩阵。对于增强操作,基本上遵循常见的操作,例如翻转、裁剪和旋转。BEV增强变换可以通过相应地修改相机外部矩阵来控制,增强后,需要对3D gt框进行同步变更,而且还需要修改对应的外参矩阵。

5.时态融合变换器: 本研究将历史帧引入到当前帧中以进行时间特征融合。通过空间对齐操作和级联操作,将历史帧的特征与当前帧的对应特征融合。时间融合可以被认为是帧级的特征增强,在一定范围内较长的时间序列可以带来更多的性能增益。

和主流方法的Latency进行比较,结果如下图:

结论

经测试,Fast BEV有着以下优势:可在使用低计算能力芯片进行部署,可在非GPU芯片上部署,扩展能力强。随着技术的发展,许多自动驾驶制造商已经开始放弃激光雷达,只使用纯视觉进行感知。在实际开发中,模型放大或数据放大通常基于从真实车辆收集的数据,以利用数据潜力提高性能。在这种情况下,基于深度监控的解决方案遇到瓶颈,而Fast BEV不引入任何深度信息,可以更好地应用。

原始论文

参考资料

文章链接:

https://cloud.tencent.com/developer/article/2449580

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-9-5,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Fast-BEV:简单快速的BEV框架
自动驾驶系统分为三个层级:感知层,决策层,执行层,快速且准确的感知系统,是自动驾驶技术的关键。
一点人工一点智能
2023/08/25
1.5K0
Fast-BEV:简单快速的BEV框架
​四大院校携手 GraphBEV | 将激光雷达和相机信息融合到BEV,比 BEVFusion性能高出8.3% !
三维目标检测是自动驾驶系统的一个关键组成部分,旨在准确识别和定位汽车、行人以及三维环境中的其他元素[49, 58]。为了鲁棒和高品质的检测,当前的实践主要遵循像BEVFusion[29, 34]这样的多模态融合范式。不同的模态通常提供互补的信息。例如,图像含有丰富的语义表示,但缺乏深度信息。相比之下,点云提供了几何和深度信息,但却是稀疏的且缺乏语义信息。因此,有效利用多模态数据的优势同时减轻其局限性,对于提高感知系统的鲁棒性和准确性至关重要[58]。
AIGC 先锋科技
2024/07/08
1.1K0
​四大院校携手 GraphBEV  |  将激光雷达和相机信息融合到BEV,比 BEVFusion性能高出8.3% !
BEVCar | 融合雷达,颠覆夜间与恶劣天气下的机器人视觉分割!
移动机器人,如自动驾驶车辆,严重依赖于对其环境的准确和健壮的感知。因此,机器人平台通常配备有各种传感器[1, 2, 3],每种传感器提供互补的信息。例如,环视摄像头提供密集的RGB图像,而激光雷达或雷达系统提供稀疏的深度测量。然而,由于这些不同模态的数据结构本质上的不同,融合这些数据提出了一个重大挑战。解决这一挑战的常用方法是采用鸟瞰视图(BEV)表示作为共享参考框架[4, 5, 6, 7, 8, 9]。
AIGC 先锋科技
2024/07/08
4650
BEVCar | 融合雷达,颠覆夜间与恶劣天气下的机器人视觉分割!
【ADAS】万字文告诉你Transformer在BEV、3D检测、2D检测、Lane检测的应用,量化与加速
近年来,自动驾驶已成为一个快速发展的领域,旨在为人类驾驶员提供自动化和智能系统。自动驾驶技术的成功部署有望显著提高交通系统的安全性和效率。在过去的二十年里,为自动驾驶开发了一系列数据驱动技术,从传统的基于规则的方法到先进的机器学习方法。
公众号-arXiv每日学术速递
2023/08/26
2.6K0
【ADAS】万字文告诉你Transformer在BEV、3D检测、2D检测、Lane检测的应用,量化与加速
精华文稿|视觉自动驾驶最新技术路线浅析
自动驾驶是逐渐从预言阶段向工业化阶段的一个过渡,具体表现可分为4点。首先,在大数据的背景下,数据集的规模在快速扩张导致以前在小规模数据集上开发原型的细节会被大量过滤掉,能在大规模数据上有效的工作才会被留下来。其次是关注点的切换,从单目切换到多目场景,导致复杂度提升。然后是倾向于对应用友好的设计,如输出的空间从图像空间向BEV空间的转移。
一点人工一点智能
2023/01/11
6950
精华文稿|视觉自动驾驶最新技术路线浅析
重塑路侧BEV感知!BEVSpread:全新体素化暴力涨点(浙大&百度)
基于视觉的路侧3D目标检测在自动驾驶领域引起了越来越多的关注,因其在减少盲点和扩大感知范围方面具有不可忽略的优势。而先前的工作主要集中在准确估计2D到3D映射的深度或高度,忽略了体素化过程中的位置近似误差。受此启发,我们提出了一种新的体素化策略来减少这种误差,称为BEVSpread。具体而言,BEVSpread不是将包含在截头体点中的图像特征带到单个BEV网格,而是将每个截头体点作为源,并使用自适应权重将图像特征扩展到周围的BEV网格。为了实现更好的特征传递性能,设计了一个特定的权重函数,根据距离和深度动态控制权重的衰减速度。在定制的CUDA并行加速的帮助下,BEVSpread实现了与原始体素化相当的推理时间。在两个大型路侧基准上进行的大量实验表明,作为一种插件,BEVSpread可以显著提高现有基于frustum的BEV方法。在车辆、行人和骑行人几类中,提升幅度为(1.12,5.26,3.01)AP。
公众号-arXiv每日学术速递
2024/06/28
6220
重塑路侧BEV感知!BEVSpread:全新体素化暴力涨点(浙大&百度)
清华大学&英伟达最新|Occ3D:通用全面的大规模3D Occupancy预测基准
自动驾驶感知需要对3D几何和语义进行建模。现有的方法通常侧重于估计3D边界框,忽略了更精细的几何细节,难以处理一般的、词汇表外的目标。为了克服这些限制,本文引入了一种新的3D占用预测任务,旨在从多视图图像中估计目标的详细占用和语义。为了促进这项任务,作者开发了一个标签生成pipeline,为给定场景生成密集的、可感知的标签。该pipeline包括点云聚合、点标签和遮挡处理。作者基于Waymo开放数据集和nuScenes数据集构造了两个基准,从而产生了Occ3D Waymo和Occ3D nuScene基准。最后,作者提出了一个模型,称为“粗略到精细占用”(CTF-Occ)网络。这证明了在3D占用预测任务中的优越性能。这种方法以粗略到精细的方式解决了对更精细的几何理解的需求。
公众号-arXiv每日学术速递
2023/08/26
1.4K0
清华大学&英伟达最新|Occ3D:通用全面的大规模3D Occupancy预测基准
M^2BEV: 统一的鸟瞰图表示的多相机联合3D检测和分割
文章:M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified Bird’s-Eye View Representation
点云PCL博主
2023/08/21
7460
M^2BEV: 统一的鸟瞰图表示的多相机联合3D检测和分割
CVPR 2020丨基于点云的3D物体检测新框架
本文介绍的是CVPR2020入选论文《HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection》,作者来自元戎启行。
深度学习技术前沿公众号博主
2020/05/25
1.2K0
CVPR 2020丨基于点云的3D物体检测新框架
BEV模型部署全栈教程(3D检测+车道线+Occ)
鸟瞰视角(Bird's Eye View,简称BEV)是一种从上方观看对象或场景的视角,就像鸟在空中俯视地面一样。在自动驾驶和机器人领域,通过传感器(如LiDAR和摄像头)获取的数据通常会被转换成BEV表示,以便更好地进行物体检测、路径规划等任务。BEV能够将复杂的三维环境简化为二维图像,这对于在实时系统中进行高效的计算尤其重要。
奔跑企鹅907340320
2024/10/08
7990
超详细 BEV 感知技术研究综述、BEV 感知实用工具箱Toolbox 及相关数据集分享
原文:超详细 BEV 感知技术研究综述、BEV 感知实用工具箱Toolbox 及相关数据集分享
一点人工一点智能
2023/02/17
7200
超详细 BEV 感知技术研究综述、BEV 感知实用工具箱Toolbox 及相关数据集分享
MamBEV:基于 Mamba 框架与 SSM 跨注意力机制,提升 3D 视觉感知任务计算及内存效率并超越现有基准 !
自动构建物体周围环境的鸟瞰视图(BEV)对于自动驾驶和驾驶辅助系统等任务非常有益(Wang等,2023a)。这些方法通常会整合多视角摄像头接收到的信号,并将其转换为周围环境的俯视图。此外,由于这些系统在移动边缘环境中运行,因此在考虑构建准确性的同时还需关注计算成本(Ke等,2024)。
未来先知
2025/04/16
4280
MamBEV:基于 Mamba 框架与 SSM 跨注意力机制,提升 3D 视觉感知任务计算及内存效率并超越现有基准 !
万字综述 | 自动驾驶多传感器融合感知
原文:Multi-modal Sensor Fusion for Auto Driving Perception: A Survey
一点人工一点智能
2022/10/07
5.4K0
万字综述 | 自动驾驶多传感器融合感知
从论文到代码、从前沿研究到工业落地,全面了解BEV感知
机器之心专栏 作者:OpenDriveLab BEV(Bird’s-eye-view) 感知研究对自动驾驶领域影响巨大,关于 BEV 你需要了解哪些内容,本文通过 BEVPerception Survey 为你揭晓答案。 BEV 感知到底是什么?自动驾驶的学术界和工业界又都在关注 BEV 感知的什么内容?本文将会为你揭晓答案。 在自动驾驶领域中,让感知模型学习强大的鸟瞰图(BEV)表征是一种趋势,并且已经引起了工业界和学术界的广泛关注。相比于之前自动驾驶领域中的大多数基于在前视图或透视图中执行检测、分割、
机器之心
2023/02/23
5670
从论文到代码、从前沿研究到工业落地,全面了解BEV感知
做自动驾驶涉及哪些技术?超全总结上线
自2004/05年DARPA的“大挑战”(rural)和2007年的“城市挑战”以来,自动驾驶一直是人工智能应用中最活跃的领域。
博文视点Broadview
2023/09/09
1.3K0
做自动驾驶涉及哪些技术?超全总结上线
深入探究鸟瞰图感知问题综述
文章:Delving into the Devils of Bird’s-eye-view Perception: A Review, Evaluation and Recipe
点云PCL博主
2023/08/21
8080
深入探究鸟瞰图感知问题综述
纯卷积BEV模型的巅峰战力 | BEVENet不用Transformer一样成就ADAS的量产未来
近年来,在自动驾驶领域,鸟瞰视角(BEV)空间中的3D目标检测取得了很大的进展。作为激光雷达(LiDAR)方法的替代方案,使用周围摄像头生成伪激光雷达点在自动驾驶领域被视为一种既经济又具有前景的解决方案。因此,为了将感知任务集成到BEV空间中,提出了许多方法。
集智书童公众号
2023/12/19
1.5K0
纯卷积BEV模型的巅峰战力 | BEVENet不用Transformer一样成就ADAS的量产未来
自动驾驶传感器"内卷"新思路:让AI自己决定该看摄像头还是雷达
研究提出了一种创新的跨视角雷达-相机融合框架,通过查询机制实现了多模态特征的自适应采样,显著提升了自动驾驶环境下的3D目标检测性能。文章将从研究背景与动机、方法架构设计、关键技术创新、实验验证以及应用价值五个维度进行系统分析,重点剖析其核心算法原理与工程实现细节。
一点人工一点智能
2025/06/07
2580
自动驾驶传感器"内卷"新思路:让AI自己决定该看摄像头还是雷达
Occ-BEV:通过3D场景重建实现多相机统一预训练
文章:Occ-BEV: Multi-Camera Unified Pre-training via 3D Scene Reconstruction
点云PCL博主
2023/08/21
9100
Occ-BEV:通过3D场景重建实现多相机统一预训练
Simple-BEV:多传感器BEV感知中真正重要的是什么?
文章:Simple-BEV: What Really Matters for Multi-Sensor BEV Perception? 作者:Adam W. Harley , Zhaoyuan Fan
点云PCL博主
2023/08/21
6280
Simple-BEV:多传感器BEV感知中真正重要的是什么?
推荐阅读
Fast-BEV:简单快速的BEV框架
1.5K0
​四大院校携手 GraphBEV | 将激光雷达和相机信息融合到BEV,比 BEVFusion性能高出8.3% !
1.1K0
BEVCar | 融合雷达,颠覆夜间与恶劣天气下的机器人视觉分割!
4650
【ADAS】万字文告诉你Transformer在BEV、3D检测、2D检测、Lane检测的应用,量化与加速
2.6K0
精华文稿|视觉自动驾驶最新技术路线浅析
6950
重塑路侧BEV感知!BEVSpread:全新体素化暴力涨点(浙大&百度)
6220
清华大学&英伟达最新|Occ3D:通用全面的大规模3D Occupancy预测基准
1.4K0
M^2BEV: 统一的鸟瞰图表示的多相机联合3D检测和分割
7460
CVPR 2020丨基于点云的3D物体检测新框架
1.2K0
BEV模型部署全栈教程(3D检测+车道线+Occ)
7990
超详细 BEV 感知技术研究综述、BEV 感知实用工具箱Toolbox 及相关数据集分享
7200
MamBEV:基于 Mamba 框架与 SSM 跨注意力机制,提升 3D 视觉感知任务计算及内存效率并超越现有基准 !
4280
万字综述 | 自动驾驶多传感器融合感知
5.4K0
从论文到代码、从前沿研究到工业落地,全面了解BEV感知
5670
做自动驾驶涉及哪些技术?超全总结上线
1.3K0
深入探究鸟瞰图感知问题综述
8080
纯卷积BEV模型的巅峰战力 | BEVENet不用Transformer一样成就ADAS的量产未来
1.5K0
自动驾驶传感器"内卷"新思路:让AI自己决定该看摄像头还是雷达
2580
Occ-BEV:通过3D场景重建实现多相机统一预训练
9100
Simple-BEV:多传感器BEV感知中真正重要的是什么?
6280
相关推荐
Fast-BEV:简单快速的BEV框架
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档