8月30日的直播我们邀请了51Sim CEO鲍世强以及清华AIR助理教授赵昊,共同讨论当前自动驾驶仿真难点以及新的方向。
嘉宾精彩发言及观点:
Graphics 改变了整个动画和游戏行业,但它不适合做重建;NeRF要直接改变所有的渲染框架,还需要有足够强的商业动因。
无论是规控仿真还是感知仿真,核心挑战之一是解决真实数据太死和仿真数据太假这两个问题。
感知仿真关注的重点是在路面、路上和周围的交通参与者、以及马路上的一些标识、道路标牌等这些要素的真实性,道路旁边一些建筑是不是具有真实性,其实不那么重要。
我们需要保证采集回来的数据本身价值比较高,否则可能存储数据的成本会超过数据本身的价值。
越往后发展,仿真越不是数据的生成器,而是一个数据倍增器的作用。
测试主要两个目标,一个是发现问题,另外一个是证明没有问题。
AIGC核心目的不是为了生成新的数据,而是为了帮助用户更快捷地通过自然语言的方式提高场景制作的效率。
1
NeRF带来的新方向
智车星球:传统的渲染框架和刚刚说到神经渲染框架有什么核心的区别?
赵昊:从CV界的视角来看,Modeling(建模)就是重建物理世界。这个世界上每个真实的物体都对应一个几何特征,物体本身会有一些表面的材质。这个世界上有了光,我们有一个成像模型,通过这些我们就拿到了一张图片,然后就要去解决 Inverse problem (逆问题)。这件事情从计算机视觉诞生的那一刻起,就是一个圣杯。
早期Graphics(图形学)有很多种方式去渲染,最后打赢的一派是适合做动画的和做游戏的,但是这一件东西就是这一套 rendering pipeline (渲染流水线),可能只适合做动画和游戏,但不适合做重建。
所以在2020年的时候,谷歌的Graphics专家JonBarron重新把 volume rendering(体积渲染) 给了搬出来,这就直接把Inverse rendering(反向渲染)用一种全新的思路去解决了。
而NeRF有一个比较成功的点在于用一个MLP就让大家都明白它是什么意思,所以我觉得Jon Barron的思想比较深刻,他把最后的结果以大道至简的形式呈现出来,并触发了这一场革命。当然从纯学术史的角度来讲,他一开始并不是为了重建,他一开始是为了做Novel view synthesis(新视角合成)。NeRF的volume rendering这个范式的改变,直接打开了新思路,现在NeRF的formation已经各种各样了。
总的来说,图形学改变了整个动画和游戏行业,但它不适合做重建。然后inverse rendering被NeRF又给救了回来,进而改变了我们去思考如何重建物理世界的方式。但如果NeRF要直接改变所有的渲染框架,改变整个电影和游戏工业界,甚至改变GPU的架构为它适应,我觉得还是比较遥远的事情,这更多是一个商业行为,要看后面有没有足够的商业动因。但我觉得大家对于图像真实性的不懈追求肯定一直有,我觉得是慢慢朝着那个方向改变。
智车星球:自动驾驶仿真主要是感知仿真与规控仿真,从大框架看两者都包括了仿真场景的建立、仿真执行以及仿真评价,但在具体操作上,二者有哪些区别?核心的挑战是什么?
鲍世强:如果大家对测试工作比较了解的话,就知道这个测试包括单元测试、模块测试、集成测试等,是一个从小到大的过程,在不同的开发环节,会产生不同级别的一些测试。
对于智驾的仿真测试就涉及到感知系统、定位、规控系统的测试,实际执行上又有比如说软件层面的测试,一些硬件在环方面的测试。
所以大多数情况不能泛泛来讲,要看我们到底要测什么,被测物的环节越小越集中,测试的针对性越强,如果发现了一些问题,指向性也非常明显。
感知系统单独的测试,一般通过开环、回灌的这样一些方式可能居多,其实某种程度上来讲它其实很难算仿真,因为用真实数据更多一点,当然也可以用仿真生成的虚拟数据集去做回灌,这也是未来的一个趋势。
目前规控测试更成熟一点,大家对它的确定性并没有太大的异议。
感知的仿真,我觉得其实目前还在于比较偏前瞻的领域,现在也有两种方法,一种基于传统图形的方法,另外是基于神经渲染NeRF的方式。
两者的挑战在于数据,无论是规控仿真还是感知仿真,从我的角度,可以在一个框架下来理解,可以看作是一个轴的两端,一端完全是真实数据,一端完全是虚拟数据,然后他们各有优缺点,下一步工作是去平衡两端。
真实数据它是历史上某一些时刻的记录,是一个比较死的数据,怎么让它具备一定的灵活性是一个核心挑战。而仿真数据是一个人造的东西,有的时候可能跟真实数据有一定的差异,所以我觉得核心挑战是解决真实数据太死和仿真数据太假这两个问题。
那么现在的一个趋势我觉得是互相渗透的方式,比如把真实数据的某一部分进行逻辑化和智能化,以解决真实数据太死的问题。然后依托大量真实数据去做仿真数据的合成,解决仿真数据太假的问题,我觉得这是两个核心的方向。
智车星球:您曾经提过关于感知用仿真场景的构建,下一步方向就是程序化生成结合NeRF重建,这个方向它有什么样的好处,又有哪些短板?
鲍世强:可能对现代图形没有那么了解的人一般会质疑真实感,但真实感首先并不是不可逾越的,比如我们做一个电影特效,其实可以达到非常真实的效果。但这有另外的一个问题,成本的问题,我们不可能不考虑成本去谈真实感。做感知仿真测试需要生成大量的数据,不可能每一个东西都做得和电影一样,否则成本上是完全不能承受的。所以会考虑采用一些新的技术,比如说用一些程序化生成的技术。
NeRF这个方案我认为有非常强的颠覆性,甚至对图形领域都会产生冲击,它不仅会对感知仿真领域带来一些新的思路和方案,对于传统的基于图形的体系架构也会产生一些影响。我认为这个方向非常好,他有一个非常长的长板式真实性,潜力非常大,但是目前应该还是处于相对比较早期的阶段,还需要解决很多的问题。比如性能、动静态场景的解耦、可编辑性以及生成泛化性等。我觉得NeRF的长板和短板正好跟传统图形是比较互补的,所以未来的方向可能是两者结合的一个方案。
说到真实性,因为我们是做智驾感知仿真这个专门的应用落地场景,关注的重点是在路面、路上和周围的交通参与者、以及马路上的一些标识、道路标牌等这些要素的真实性,道路旁边一些建筑是不是具有真实性,其实不那么重要。真正核心还是围绕路面交通这一特别具体的场景,能否重现一些车道线的涂改变化和破损、路面上出现的一些特种车辆、摩托车拉一些人,各种各样长尾的小概率场景,光照条件,传感器的一些工况,比如溅水,脏污,这种特点能不能针对这些具体的场景,发挥虚拟仿真技术的放大作用,通过合成数据的方式补全充一些训练数据,提升感知系统面对这些长尾场景的性能。
这里面有几个关键的要素,一个是场景的真实感,一个是场景的多样性,一个是传感器模型的精确性,一个是成本。如果你要让我排第一名,我认为应该是场景的多样性。传感器的精度和场景真实度要求是很高的,但我们可以设置一个较高的门槛,过了门槛再往上提升,它的性价比就会下降。
这时候我们要解决的重点问题就转移到怎么样通过尽量低的成本去解决场景多样性的问题。NeRF在真实性方面有很大的帮助,但是多样性的方面其实带来的改变不大,一些生成式AI的方向会更有帮助。
智车星球:激光雷达基于物理方式的建模和基于真值加噪声的建模方式,哪种更适合算法去做测试训练。
鲍世强:我们的方式还是采用实采,比如实际的某种品牌的激光雷达,它的数据采过来,看点云是什么样的,包括它的扫描的方式、强度的映射等。我们还是把激光雷达当做一个黑盒的方式来做,按物理的方式做也行,但实时性很难。
对于数据集来讲,我还是秉持这样的一个观点,目前还是在精度达到一个较高水平的基础上以最便宜的方式获得最高的多样性,实际上是目前要解决的核心的问题。其他深入的东西也许不要纠结得过于细节,这些可能对实际的结果产生的影响并没有你想象的那么大。
2
—
如何提升数据闭环效率
智车星球:现在大家都在谈数据闭环,51Sim其实也算是数据的消费者,你们是如何定义数据闭环的?数据驱动闭环仿真的挑战有哪些?
鲍世强:数据闭环我觉得概念非常大,它涉及到的流程非常长,首先是数据的采集,后边当然有很多合规性的问题,要进行脱密脱敏,
然后需要说清楚数据本身是什么数据,有一些是感知用的,有一些结构化的规控数据,有一些是给定位用的。然后就是数据怎么样去采集和利用。
目前我们碰到的最核心的问题是数据的闭环效率其实并没有那么高,绝大多数的数据实际上没有任何价值,然后就变成了怎样把有价值的数据挑出来并有效利用的问题。这里有很多的问题要去解决,比如说数据采集,研发阶段可以全量去采集,量产之后可能要通过触发式的方式进行采集。我们需要保证采集回来的数据本身价值比较高,否则后期要处理的时候,如果对数据进行挑选的效率和机制不健全,可能存储这些数据的成本会超过数据本身的价值,这个就比较悲剧了。
而且,随着大家智驾水平的不断提高,有价值的数据比例越低。这就意味着必须提升数据的采集、挖掘、有效利用的能力以及数据的识别能力。比如说新的算法可能接口改了或者中间件发生了变化,怎么样利用旧的数据,提升数据灵活性和利用率,我觉得这是一个长期话题。
比如还是拿NeRF来举例,我觉得NeRF某种程度上提升了感知数据集采和利用的灵活性,因为它比一帧一帧的图片灵活性高,我可能换一些视角和传感器配置,旧的数据还是能用。
智车星球:现在的量产的智能驾驶车在路上跑的越来越多了,车企能采集到的数据也越来越多,对于仿真来说。是能利用的数据变多了吗?
鲍世强:能利用数据是变多了,但仿真实际上是整个数据闭环的下游,我们现在的问题不是数据太少,而是数据太多的问题。
首先仿真你可以理解是一个数据生成器,仿真原本就是做一些场景做一些数据。但越往后发展,它越不是数据的生成器,它其实起到的是一个数据倍增器,或者叫放大器的作用。
比如说我们从真实世界采集到的corner case,有针对感知的,也有针对规控的,然后仿真怎样从这些数据出发去构建出更多类似的case,是仿真往后发展要解决的根本问题。
仿真本质上我觉得起到两个作用,一个叫保下限,就是当你迭代算法时,怎么保证改的东西起到正面作用而不是搞坏了其他地方,需要有测试;另一个就是刚才我说的放大器作用,我们管它叫提上限,当碰到了一些case,怎样在仿真的环境里重建。当然,我们可以先用真实数据去回放重现,然后在此基础之上看能不能产生一些额外的变化,让整个修改做一些局部的覆盖性,然后更具有代表性,我觉得这是仿真往后发展的一个核心思路。
智车星球:合成的数据它对比这种真实采集来的数据来说,它的价值有哪些?
鲍世强:合成数据现在讨论得很多,但是我觉得凭空合成3D场景这件事还是挺难的。我理解就两种方式,一种是自然语言生成图像,然后通过NeRF 把3D的场景创建出来,但这个图像怎么保证多视角的连续性是一个问题,另外一种方式是直接拿3D模型去做训练。
3D的AIGC方面我认为目前还很不成熟,难度也比较大,但是另外的一个角度其实也有人在探索,因为我们最终的目的是给比如说智驾的感知算法去进行训练或者是测试,那么是否3D场景是必须的?这其实也是可以探讨的,因为你的目的是同时生成多传感器的数据来完成训练和测试,只是要保障多传感器数据的一致性,还有一些物理的规律,也可以不构建3D场景,完全通过图像合成的方式去做。
3
AIGC助力场景描述
智车星球:现在很多车企也是在做城市NOA,跟之前高速场景下的仿真相比,你们遇见过哪些不同的问题?
鲍世强:既有的规控仿真体系,一个是基于数据回灌的logSim的体系,一个是基于WordSim的体系,一般是基于OpenX这样的一些场景描述语言。
但是进入到这个城市NOA后,场景已经非常难以描述,然后纯数据回放有很多适配性的问题,我觉得整体难度还是要大很多。
OpenX这套体系,我觉得是一套具体场景逻辑场景的体系,对于高速场景来讲可能是比较完备的。
从测试的角度来讲,测试我觉得有两个目标,一个目标是发现问题,另外一个目标其实更高级,证明没有问题,这是一个非常难的目标。通过刚才那套体系,试图在类似于高速这样的场景达到这样的目标,当然需要非常多的数据。但如果在城市的场景,你会发现描述场景就变得非常的困难,因为参与交互的车非常多。写出这样的场景本身对于一个场景制作的人员来讲,是一个技术含量非常高的工作,我们需要有新方法新思路
智车星球:AIGC对于场景描述是否是一个助力?
鲍世强:当然是一个帮助,OpenX动态场景有1.0的体系,有2.0的体系,2.0其实已经是一种类似于领域语言的方式,交互非常复杂,对于用户来讲,门槛其实非常高。面向更复杂的场景时,交互编辑效率也比较差。
目前GPT的应用很广泛,从自然语言变成这个领域相关语言的一些工作,GPT是可以做到的,当然可能需要一些比如上下文的保证和输入,怎么样和交互式场景的编辑去做结合,这是我们在做一个方向。但是核心目的不是为了生成新的数据,而是帮助用户更快捷地通过自然语言的方式提高场景制作的效率。
智车星球:OpenX系列是不是不太适合于去做对抗场景的自动生成?
鲍世强:我觉得这是两个思路,一个从测试的角度来讲,我们希望两次测试跑出来的结果是完全一致,否则这个测试就没有确定性,从测试角度来讲这其实是不可以接受的。但是另外一个角度我们可能会需要比如说有多智能体交互的智能的行为,可以和你形成一些博弈,这是另外的一个case。显然Open体系不太适合做这样的一个case。
智车星球:如何去评价真实?我们人眼看到的真实和算法看到的真实是否是一致的?
鲍世强:目前这个东西从理论上证明我认为难度还是非常大的,我们现在更多的是从实践的方向,比如说有多少比例的虚拟数据混合进来,会对实际的性能产生多大的影响,或者我拿虚拟数据训练一个模型,然后去识别一些真实的数据到大概的性能会有多少。
同时我们也在做一些交叉的验证,比如说在测试场的纯物理环境下,实际构建一个场景去触发,然后在虚拟的环境中1:1还原,去对比结果。
智车星球:现在的数据生成、训练、测试整个闭环有没有可能直接端到端来做?
鲍世强:端到端仿真我们内部叫大闭环仿真,是可以实现的,但是整个流程比较长,非常有挑战性。
现在的车堆料其实比较严重,动不动就是11个摄像头,如果做端到端的测试,相当于要生成11个摄像头的原始数据,可能还有雷达,对算力的需求是比较大的。这需要弄一个很大的台架,如果要做规模化的闭环仿真,我认为整体投入是比较大的。
最真诚的智能汽车报道
领取专属 10元无门槛券
私享最新 技术干货