首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >BEV模型部署全栈教程(3D检测+车道线+Occ)

BEV模型部署全栈教程(3D检测+车道线+Occ)

原创
作者头像
奔跑企鹅907340320
发布于 2024-10-08 00:49:45
发布于 2024-10-08 00:49:45
9540
举报

一、什么是BEV?

鸟瞰视角(Bird's Eye View,简称BEV)是一种从上方观看对象或场景的视角,就像鸟在空中俯视地面一样。在自动驾驶和机器人领域,通过传感器(如LiDAR和摄像头)获取的数据通常会被转换成BEV表示,以便更好地进行物体检测、路径规划等任务。BEV能够将复杂的三维环境简化为二维图像,这对于在实时系统中进行高效的计算尤其重要。

二、BEV的优势

简化的视角: BEV将三维空间简化为二维,这样可以在计算和存储上节省大量资源。

视觉效果: BEV提供了一种独特的视觉效果,使得场景中的物体和空间关系更加清晰可见。

方便处理: 在BEV中处理物体检测、跟踪和分类等任务相较于直接在原始3D数据中处理要简单得多。

便于融合和下游任务处理:与lidar融合更为方便,对下游路径规划控制等任务也更友好。通用坐标系

尺度一致:相机检测会出现近大远小的情况,BEV同类目标尺度差异几乎没有,更容易学习特征尺度一致性

BEV 是特斯拉自动驾驶系统中的一种模型,是一种基于图像的模型,用于将车辆周围的环境信息转换为平面图。BEV 模型可以通过多个摄像头捕捉到的图像来生成车辆周围的环境信息,然后将这些信息转换为平面图,以便自动驾驶系统进行处理和分析。

特斯拉采用 8 个摄像头采集图像进行有效融合,通过校正后,一并输入到神经网络。顺便科普一下,神经网络就是通过一组算法模拟人脑,是一种称为深度学习过程,还可以从错误中不断改进。

在自动驾驶中,神经网络 对采集到的图像提取特征,进行关联后,投影到一个矢量空间,就可以实现反映周围环境的鸟瞰图BEV的效果

三、目前最火最常用的视觉BEV模型是哪一个?

目前最火和常用的视觉BEV(Bird's Eye View)模型之一是BEVDet。这个模型特别受到关注,尤其是在自动驾驶领域,因为它直接在BEV空间中进行目标检测,能够有效整合来自多个摄像头的视觉信息,实现对环境的3D理解。BEVDet因其在车辆环视视频中的应用和能输出目标的3D检测框而广受好评,适用于需要精确空间感知的场景。

除了BEVDet,还有其他一些流行的BEV相关算法如DETR3D、BEVFormer、BEVDet4D、PETR和BEVDepth等,它们各自在不同的应用场景和性能指标上有其独特优势,但BEVDet以其实际应用中的表现和广泛的接纳度,可以视为当前一个亮点。不过,具体哪个模型最火或最常用可能还会随时间、最新研究进展及实际应用需求的变化而变化,因此持续关注最新的研究成果和行业动态是很重要的。

四、BEVFormer技术

对于自动驾驶车辆来说,对BEV空间中目标的类型可以大概分为以下两类:

不经常变化的目标: 如可行使区域,路面,车道,建筑物,植被,信号灯等一些其他未分类的静态物体

可变的目标: 即可以移动的物体,如行人、骑行人、汽车、卡车、锥桶等。

这种分类的目的是方便自动驾驶系统进行后续的驾驶规划和控制。在BEV的感知阶段,算法根据物体出现在BEV网格上的概率进行打分,并通过Softmax函数对概率进行归一化处理,最后选择概率最高的物体类型对应的网格的类别预测结果

五、多传感器融合

BEV 融合派在自动驾驶领域的主要任务是融合各类传感器的数据,包括摄像头、激光雷达、毫米波雷达以及高精度地图等。这种融合机制可以充分利用各个传感器的优势,提高自动驾驶系统对周围环境的感知和理解能力。

激光雷达的优势在于可以直接测量物体的距离,其精度远高于视觉推测的场景深度。激光雷达通常将测量结果转化为深度数据或点云,这两种数据形式的应用历史悠久,成熟的算法可以直接借用,从而减少了开发的工作量。

此外,激光雷达在夜间或恶劣天气条件下仍能正常工作,而在这种情况下,摄像头可能会受到很大影响,导致无法准确感知周围环境。

总之,融合派的目标是有效整合多传感器数据,使自动驾驶系统在各种复杂条件下获得更全面、更准确的环境感知,从而提高驾驶的安全性和可靠性。融合技术在自动驾驶领域发挥着关键作用。它融合了来自不同传感器的信息,使整个系统能更好地感知和理解周围环境,做出更准确的决策和规划。

六、数据需求

数据量需求较大:

由于2D -> 3D 的部分我们使用的是 MLP,非常容易过拟合。

视觉上 3D 本身的 augmentation 很难做,而且对于硬件标定有依赖。

生成难度也较大:目前阶段还大量使用激光来辅助数据生成,但是这样的方案由于传感器的原因,在未来是没法扩展的。这也是目前阶段我们在尝试考虑的一个问题。

随着多目任务的引入,带来了一个很难避免的问题:模型和相机的布置基本处于一个硬绑定的状态。对于普通的公司,必须面对这个问题:怎么样可以用尽量少的数据、更快的适配新的车型。在我看来这是一个体系化的解决方案,数据、硬件、算法、工程,都需要针对这一问题作出适应。

目前来看,特斯拉的 4D 标注在静态元素上确实是一个比较符合逻辑的方案,成本和效率都比较高(当然也会有一些问题)。但是动态元素上的工作,我们还在考虑。

七、小结

总的来说,自下而上和自上而下两种方法在 BEV 研究中都得到了广泛应用。自下而上的方法适用于早期的 BEV 研究,如 LSS 和 BEVDet 等。自上而下法更倾向于使用 Transformer 等模型,利用全局感知能力,并在一些最新工作中取得了显著成果,如上海 AILab 团队的 BEVFormer。这两种方法各有优势,可以互为补充,为自动驾驶中的 BEV 感知发展提供丰富的技术选择

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
多模态融合3D目标检测:从LiDAR-Camera到毫米波雷达的跨模态实战
在特斯拉最新HW4.0架构中,已实现纯视觉+毫米波雷达的融合方案,通过4D毫米波雷达(带高度信息)部分替代LiDAR功能,验证了多模态融合的降本潜力。
飞奔的企鹅1257733040
2025/09/05
4750
Fast-BEV:简单快速的BEV框架
自动驾驶系统分为三个层级:感知层,决策层,执行层,快速且准确的感知系统,是自动驾驶技术的关键。
一点人工一点智能
2023/08/25
1.6K0
Fast-BEV:简单快速的BEV框架
Fast-BEV 简单快速的纯视觉全卷积BEV框架
自动驾驶系统分为三个层级:感知层,决策层,执行层,快速且准确的感知系统,是自动驾驶技术的关键。
为为为什么
2024/09/06
7930
Fast-BEV 简单快速的纯视觉全卷积BEV框架
【ADAS】万字文告诉你Transformer在BEV、3D检测、2D检测、Lane检测的应用,量化与加速
近年来,自动驾驶已成为一个快速发展的领域,旨在为人类驾驶员提供自动化和智能系统。自动驾驶技术的成功部署有望显著提高交通系统的安全性和效率。在过去的二十年里,为自动驾驶开发了一系列数据驱动技术,从传统的基于规则的方法到先进的机器学习方法。
公众号-arXiv每日学术速递
2023/08/26
2.8K0
【ADAS】万字文告诉你Transformer在BEV、3D检测、2D检测、Lane检测的应用,量化与加速
BEVCar | 融合雷达,颠覆夜间与恶劣天气下的机器人视觉分割!
移动机器人,如自动驾驶车辆,严重依赖于对其环境的准确和健壮的感知。因此,机器人平台通常配备有各种传感器[1, 2, 3],每种传感器提供互补的信息。例如,环视摄像头提供密集的RGB图像,而激光雷达或雷达系统提供稀疏的深度测量。然而,由于这些不同模态的数据结构本质上的不同,融合这些数据提出了一个重大挑战。解决这一挑战的常用方法是采用鸟瞰视图(BEV)表示作为共享参考框架[4, 5, 6, 7, 8, 9]。
AIGC 先锋科技
2024/07/08
5250
BEVCar | 融合雷达,颠覆夜间与恶劣天气下的机器人视觉分割!
马斯克一觉醒来,纯视觉NOA已在中国开跑:上海闹市一镜到底0接管,高速城区全都不用自己开
视频中极越01一镜到底、全程不接管、带领航辅助,而且ODD包含高速、城市以及泊车场景,全程解放用户不用自己开。
量子位
2023/10/25
3350
马斯克一觉醒来,纯视觉NOA已在中国开跑:上海闹市一镜到底0接管,高速城区全都不用自己开
自动驾驶权威评测世界第一,鉴智机器人推出纯视觉3D感知新范式
日前,在自动驾驶权威评测集 nuScenes 上,鉴智机器人凭借提出的纯视觉自动驾驶 3D 感知新范式 BEVDet,以绝对优势获得纯视觉 3D 目标检测世界第一的成绩。BEVDet 是首个公开的同时兼具高性能、扩展性和实用性的 BEV 空间 3D 感知范式,以 BEVDet 为核心的系列技术将有希望解决视觉为主自动驾驶解决方案中视觉雷达、4D 感知、实时局部地图等关键问题,未来将应用于鉴智机器人以视觉雷达为核心的高级别自动驾驶等产品和解决方案中,为自动驾驶的大规模量产发挥关键的作用。
机器之心
2021/12/27
8050
自动驾驶权威评测世界第一,鉴智机器人推出纯视觉3D感知新范式
Occ-BEV:通过3D场景重建实现多相机统一预训练
文章:Occ-BEV: Multi-Camera Unified Pre-training via 3D Scene Reconstruction
点云PCL博主
2023/08/21
9640
Occ-BEV:通过3D场景重建实现多相机统一预训练
YOLO还真行 | 2D检测教3D检测做事情,YOLOv7让BEVFusion无痛涨6个点,长尾也解决了
3D目标检测是自动驾驶车辆(AV)感知堆栈的至关重要组成部分。为了促进3D感知研究,AV行业已经发布了许多大规模的多模态数据集。然而,尽管在检测常见类别(如汽车和公交车)方面取得了显著改进,最先进的检测器在罕见类别(如_stromler_和_debris_)上的表现仍然不佳,这可能会影响下游规划,从而催生了_长尾3D检测_(LT3D)的研究。
集智书童公众号
2023/12/26
2.2K0
YOLO还真行 | 2D检测教3D检测做事情,YOLOv7让BEVFusion无痛涨6个点,长尾也解决了
一文全览 | 2023最新环视自动驾驶3D检测综述!
基于视觉的3D检测任务是感知自动驾驶系统的基本任务,这在许多研究人员和自动驾驶工程师中引起了极大的兴趣。然而,使用带有相机的2D传感器输入数据实现相当好的3D BEV(鸟瞰图)性能并不是一项容易的任务。本文对现有的基于视觉的3D检测方法进行了综述,聚焦于自动驾驶。论文利用Vision BEV检测方法对60多篇论文进行了详细分析,并强调了不同的分类,以详细了解常见趋势。此外还强调了文献和行业趋势如何转向基于环视图像的方法,并记下了该方法解决的特殊情况的想法。总之,基于当前技术的缺点,包括协作感知的方向,论文为未来的研究提出了3D视觉技术的想法。
集智书童公众号
2023/09/04
1.5K0
一文全览 | 2023最新环视自动驾驶3D检测综述!
CVPR 2023 | 多车协作让纯视觉3D目标探测媲美激光雷达
机器之心发布 机器之心编辑部 摄像头能否实现激光雷达的检测效果,以更低成本实现自动驾驶感知?在最新的 CVPR2023 论文《Collaboration helps camera overtake LiDAR in 3D detection》中,来自上海交通大学、加州大学洛杉矶分校、以及上海人工智能实验室的研究者提出了纯视觉协作探测方法(CoCa3D),通过让多个基于纯视觉的智能车高效协作,在 3D 目标探测效果上,接近甚至超越基于激光雷达的智能车。 论文标题:Collaboration Helps Ca
机器之心
2023/05/01
3970
CVPR 2023 | 多车协作让纯视觉3D目标探测媲美激光雷达
清华大学&英伟达最新|Occ3D:通用全面的大规模3D Occupancy预测基准
自动驾驶感知需要对3D几何和语义进行建模。现有的方法通常侧重于估计3D边界框,忽略了更精细的几何细节,难以处理一般的、词汇表外的目标。为了克服这些限制,本文引入了一种新的3D占用预测任务,旨在从多视图图像中估计目标的详细占用和语义。为了促进这项任务,作者开发了一个标签生成pipeline,为给定场景生成密集的、可感知的标签。该pipeline包括点云聚合、点标签和遮挡处理。作者基于Waymo开放数据集和nuScenes数据集构造了两个基准,从而产生了Occ3D Waymo和Occ3D nuScene基准。最后,作者提出了一个模型,称为“粗略到精细占用”(CTF-Occ)网络。这证明了在3D占用预测任务中的优越性能。这种方法以粗略到精细的方式解决了对更精细的几何理解的需求。
公众号-arXiv每日学术速递
2023/08/26
1.5K0
清华大学&英伟达最新|Occ3D:通用全面的大规模3D Occupancy预测基准
K-Radar:适用于各种天气条件的自动驾驶4D雷达物体检测
文章:K-Radar: 4D Radar Object Detection for Autonomous Driving in Various Weather Conditions
点云PCL博主
2023/12/11
9600
K-Radar:适用于各种天气条件的自动驾驶4D雷达物体检测
当视觉遇到毫米波雷达:自动驾驶的三维目标感知基准
文章:Vision meets mmWave Radar: 3D Object Perception Benchmark for Autonomous Driving
点云PCL博主
2023/12/12
9180
当视觉遇到毫米波雷达:自动驾驶的三维目标感知基准
大模型来了,自动驾驶还远吗?关键看“眼睛”
感知系统是自动驾驶最重要的模块之一,被视为智能车的“眼睛”,对理解周围环境起到至关重要的作用。随着深度学习以及传感器技术的发展,感知系统呈现出迅猛的发展趋势,涌现出各种新技术,性能指标不断提升。本文将围绕感知系统架构、方法及挑战,结合驭势科技的具体实践深入探究自动驾驶感知技术。 作者 |耿秀军、李金珂、张丹、彭进展 出品 | 新程序员 感知系统架构与方法 目标的检测与跟踪是感知系统的两大基础任务,主要利用不同传感器数据输入,完成对周围障碍物的检测与跟踪,并将结果传递给下游规划控制模块完成预测、决策、规划、
AI科技大本营
2023/05/15
5660
大模型来了,自动驾驶还远吗?关键看“眼睛”
深入探究鸟瞰图感知问题综述
文章:Delving into the Devils of Bird’s-eye-view Perception: A Review, Evaluation and Recipe
点云PCL博主
2023/08/21
8770
深入探究鸟瞰图感知问题综述
超详细 BEV 感知技术研究综述、BEV 感知实用工具箱Toolbox 及相关数据集分享
原文:超详细 BEV 感知技术研究综述、BEV 感知实用工具箱Toolbox 及相关数据集分享
一点人工一点智能
2023/02/17
7510
超详细 BEV 感知技术研究综述、BEV 感知实用工具箱Toolbox 及相关数据集分享
做自动驾驶涉及哪些技术?超全总结上线
自2004/05年DARPA的“大挑战”(rural)和2007年的“城市挑战”以来,自动驾驶一直是人工智能应用中最活跃的领域。
博文视点Broadview
2023/09/09
1.4K0
做自动驾驶涉及哪些技术?超全总结上线
简述:机器人BEV检测中的相机-毫米波雷达融合
论文:Vision-RADAR fusion for Robotics BEV Detections: A Survey
一点人工一点智能
2023/10/21
9950
简述:机器人BEV检测中的相机-毫米波雷达融合
一文详解高精地图构建与SLAM感知优化建图策略
高精度地图对自动驾驶系统功能研发的影响已经越来越明显,整体上来讲主要包含但不仅限于提升车端感知性能、拓展自动驾驶新功能、动态建图等相关应用。具体体现在如下几个重要方面:
3D视觉工坊
2021/03/19
7.6K0
一文详解高精地图构建与SLAM感知优化建图策略
推荐阅读
多模态融合3D目标检测:从LiDAR-Camera到毫米波雷达的跨模态实战
4750
Fast-BEV:简单快速的BEV框架
1.6K0
Fast-BEV 简单快速的纯视觉全卷积BEV框架
7930
【ADAS】万字文告诉你Transformer在BEV、3D检测、2D检测、Lane检测的应用,量化与加速
2.8K0
BEVCar | 融合雷达,颠覆夜间与恶劣天气下的机器人视觉分割!
5250
马斯克一觉醒来,纯视觉NOA已在中国开跑:上海闹市一镜到底0接管,高速城区全都不用自己开
3350
自动驾驶权威评测世界第一,鉴智机器人推出纯视觉3D感知新范式
8050
Occ-BEV:通过3D场景重建实现多相机统一预训练
9640
YOLO还真行 | 2D检测教3D检测做事情,YOLOv7让BEVFusion无痛涨6个点,长尾也解决了
2.2K0
一文全览 | 2023最新环视自动驾驶3D检测综述!
1.5K0
CVPR 2023 | 多车协作让纯视觉3D目标探测媲美激光雷达
3970
清华大学&英伟达最新|Occ3D:通用全面的大规模3D Occupancy预测基准
1.5K0
K-Radar:适用于各种天气条件的自动驾驶4D雷达物体检测
9600
当视觉遇到毫米波雷达:自动驾驶的三维目标感知基准
9180
大模型来了,自动驾驶还远吗?关键看“眼睛”
5660
深入探究鸟瞰图感知问题综述
8770
超详细 BEV 感知技术研究综述、BEV 感知实用工具箱Toolbox 及相关数据集分享
7510
做自动驾驶涉及哪些技术?超全总结上线
1.4K0
简述:机器人BEV检测中的相机-毫米波雷达融合
9950
一文详解高精地图构建与SLAM感知优化建图策略
7.6K0
相关推荐
多模态融合3D目标检测:从LiDAR-Camera到毫米波雷达的跨模态实战
更多 >
领券
一站式MCP教程库,解锁AI应用新玩法
涵盖代码开发、场景应用、自动测试全流程,助你从零构建专属AI助手
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档