这是“汽车人参考”第392篇原创内容
“赋能智能电动汽车组织和个人成长”
近段时间,BEV感知算法频频出现在顶级会论文中,得到了行业广泛关注,正好借助BEV感知这个热点,结合AI Day上Andrej Karpathy的分享,特斯拉纯视觉的技术路线图已经清晰地呈现出来,而汽车人参考对马斯克接连干掉激光雷达、高精地图、毫米波雷达、ISP也有了更多的认知。
Step One:九头蛇统一网络架构
特斯拉Hydranet“九头蛇”把感知神经网络架构分为了Backbone(主干)、Neck(颈部)、Head(头部)三段,Backbone和Neck作为主干,进行特征提取,而Head再根据任务的具体类型,给出输出。
这个架构已经被大多数自动驾驶公司所采用,这样设计的好处是,不必为众多的感知任务(包括车辆、行人检测,车道线分割,红绿灯检测等等)单独设计神经网络。
先通过Backbone和Neck主干提取这些任务通用性特征,最终到多头(Multi-head)去优化不同任务的性能,输出多头但共享主干,即“九头蛇”。
在这个架构下,作为首创的特斯拉,很轻易就能建立战略控制点,通过Head种类的数量(超过1000个),来拉大走这条路线的玩家的差距。
Step Two:BEV干掉激光雷达和毫米波雷达
摄像头感知的是2D数据,但自动驾驶的规划和控制算法,都是在笛卡尔坐标系中展开,传感器的信息经过传感器融合后,需要转换到以自车为中心的坐标系中(Vehicle Coordinate System,VCS),即呈现出的是一个鸟瞰视角BEV(Birds Eye View)。
特斯拉另辟蹊径,省去了从2D图像平面向3D自车空间的复杂转换环节,引入BEV Layer,作为单独的一个网络层,加到了整体“九头蛇”神经网络中。
BEV本质上是一个多相机融合框架,有了这一层网络,所有摄像头的拼接在空间上就统一了,也不需要做后融合,且目标在网络识别前或识别过程中,就自动地加入了位置信息。
感知输出直接进行规划和控制,即通过BEV感知层,让摄像头像人的利用眼睛一样,具备从2D图像平面向3D自车空间的自动转换能力。
这一步,直接让马斯克可以自信地说,特斯拉自动驾驶可以不依赖激光雷达和毫米波雷达提供的三维世界信息,采用视觉摄像头就可精准将向量信息提取出来。
Step Three:时空序列干掉高精地图
九头蛇HydraNet实现了网络的统一,而多相机融合框架BEV实现了空间上的统一,进一步,特斯拉通过引入时空序列,实现时空上的统一。
具体地,特斯拉引入了时空序列特征层,通过使用具有时间维度的视频片段而非静态的图像来训练神经网络,使得感知模型具有短时间的记忆能力,即赋予了网络“短期记忆”。
短期记忆可以实现帧间连续的感知,意味着特斯拉可以选择性地对局部地图进行读写,特别是针对视野盲区和遮挡部分,在时间和空间上串到一起。
也就是神经网络拥有了实时的局部地图构建的能力,所以不需要高精地图就可实现自动驾驶。
Step Four:光子照相机干掉ISP
图像信号处理器ISP(Image Signal Processing)是摄像头的关键组成部分,将CMOS传感器获取到的原始图像,进行白平衡、动态范围调整、滤波等操作,以获得更高质量的图像,给人看或者给机器看。
马斯克认为,从光子到摄像头CMOS传感器,再到ISP做图像处理,这个链路太长了,ISP对图像的处理可能会丢失信息。
特斯拉直接采用光子照相机(Photon to Control),把原始的真实世界Raw Data直接放到这个神经网络当中,不经过ISP,这样端到端延迟可提升20%。
特斯拉的这个实践也在行业掀发了广泛讨论(轩然大波),很多企业也“一如往常”进行了跟进。
汽车人参考小结
通过这次梳理,对特斯拉纯视觉路线有新的认知,马斯克对纯视觉路线有非常系统和深度的思考,并且一直坚持初心和实践。
通过频繁的对外技术分享一点一点释放出来,一是树立技术品牌,更多的是有意识地牵引整个行业朝着自己技术方向走,包括在电动化的道路上也是同样的套路。
针对于“特斯拉热”,如何更好学习特斯拉,成为众多follower中的领先者,其实也是一门值得探讨的话题。
无论是技术层面,还是战略层面,马斯克本人、特斯拉有很多信息值得反复推敲,之后为大家分享新的认知。
汽车人参考的新书《一本书读懂无人驾驶》(化学工业出版社)已经上市,同时也在打磨有关AI组织和个人成长的方法论,从需求出发,结合行业技术洞察和商业分析,为大家服务,有兴趣可以随时联系。
本文为汽车人参考第392篇原创文章,如果您觉得文章不错,“推荐和关注”是对我最大的支持,欢迎随时和我交流。
算力至上?还能挖矿?有关自动驾驶芯片的三大伪命题
领取专属 10元无门槛券
私享最新 技术干货