最近几年,放在摄像头上的深度学习研究,发展很蓬勃。相比之下, 激光雷达 (LiDAR) 身上的学术进展并不太多。
可是,激光雷达采集的数据,有很多优点。比如空间信息丰富,比如光照不足也不影响感知,等等。
当然,也有缺点。激光雷达数据,缺乏RGB图像的原始分辨率、以及高效的阵列结构 (Array Structure) 。并且,3D点云很难在神经网络里编码。
要是能把激光雷达和摄像头,变成一台设备就好了。
激光雷达厂商Ouster,是领域内独角兽Quanergy的前联合创始人Angus Pacala,出走之后建立的新公司。
去年11月,公司推出了OS-1激光雷达,想要从这里开始,打破激光雷达与摄像头的界限。
中心思想是,只要激光雷达的数据足够好,就算专为处理RGB图像 而生的深度学习算法,也可以拿来用。
Pacala说,现在OS-1可以实时输出固定分辨率的深度图像 (Depth Image) ,信号图像 (Signal Image) 以及环境图像 (Ambient Image) 。
这些任务都不需要摄像头的参与。
数据层与数据层之间,是空间相关的。拍摄高速运动的物体,也不容易产生果冻效应 (Shutter Effects) 。
另外,OS-1的光圈,比大多数单反相机的光圈要大,适合光照不足的场景。
团队还开发了光敏度很低的光子计数ASIC,在低光照的情况下采集环境图像。
设备可以在近红外波段捕捉信号与环境信息,获得的数据,跟普通可见光图像差不太多。
这样,分析RGB图像用的算法,也可以处理激光雷达的数据。
小伙伴们还可以用Ouster (刚刚进行了固件升级) 的开源驱动,把数据转换成360度的全景动态:
传感器输出的数据,不需要预处理,就是这样的效果。
就像刚才说的,只要数据够好,就可以用那些为摄像头开发的算法,来做深度学习。
把深度、强度和环境信息,编码成向量。就像RGB图像可以编码成红绿蓝通道一样。
所以,OS-1的数据质量究竟怎么样?
Pacala说,他们用过的算法,和激光雷达的合作都很愉快。
举个栗子,他们训练了一个像素语义分类器,来分辨可以行驶的道路,其他汽车,行人,以及自行车。
这里是旧金山,在英伟达GTX 1060上运行分类器,实时生成了这样的**语义分割**效果:
这是团队做的第一个实现。
数据是逐像素的数据,所以能够无缝将2D翻译成3D帧,来做边框估计 (Bounding Box Estimation) 这类实时处理。
除此之外,团队还把深度、信号和周围环境分开,单独放进神经网络里去跑。
一个栗子,用了SuperPoint项目里预训练的神经网络,来跑强度和深度图像。
网络是在RGB图像上训练的,从来没接触过激光雷达/深度数据。初次见面,却一见如故:
Pacala说,激光雷达测距,在隧道、高速公路这样的规则几何环境里,可能不是很开心;而视觉测距,会在缺乏**质地**变化、缺乏**光照**的情况下,无所适从。
OS-1用多模态的方法,把两者结合起来,疗效就不一样。
1 + 1 > 2,这大概就是Ouster想要表达的意思。
2015年年初,Angus Pacala离开Quanergy。
同年,Ouster在硅谷成立。
2017年12月,公司宣布完成2,700万美元A轮融资,并同时推出了售价3,500美元的OS-1。
脚步不算快,但也算找到了自己要走的路。
图像语义分割算法,初步肯定了他们的成果。
不过,融合了摄像头属性的激光雷达,搭载到自动驾驶车上会有怎样的表现,还是未知。
Medium原文传送门:
https://medium.com/ouster/the-camera-is-in-the-lidar-6fcf77e7dfa6
GitHub传送门:
https://github.com/ouster-LIDAR