DeepMind与Waymo合作，模仿进化竞争，开发更优方案训练自动驾驶AI

AiTechYun

发布于 2019-07-30 12:52:19

4590

发布于 2019-07-30 12:52:19

文章被收录于专栏：ATYUN订阅号

Waymo与DeepMind达成合作，寻找一种更有效的流程来训练和微调自动驾驶算法。

Waymo的自动驾驶车辆采用神经网络执行许多驾驶任务，从检测物体和预测其他人的行为方式，到规划汽车的下一步行动。

传统上，训练个体神经网络需要数周的微调和实验，以及大量的计算能力。现在，Waymo与DeepMind从达尔文对进化的见解中汲取灵感，使这项训练更加有效和高效。

用进化竞争训练

在高层次上，神经网络通过反复试验来学习。网络的性能在很大程度上取决于其训练方案。寻找最佳训练方案（或“超参数方案”）通常通过工程师的经验和直觉，或通过广泛的搜索来实现。

因为并行训练大量模型计算成本很高，所以研究人员通常通过在训练期间监视网络来手动调整随机搜索，定期淘汰性能最差的模型，并释放资源，以从头开始用新的随机超参数训练新网络。这种类型的手动调整可以更快地产生更好的结果，但这是劳动密集型的。

为了提高这一过程的效率，DeepMind的研究人员设计了一种基于进化竞争（PBT）自动确定良好超参数调度的方法，该方案结合了手动调整和随机搜索的优点。

与随机搜索一样，PBT也从多个由随机超参数发起的网络开始。网络定期进行评估，并以进化的方式相互竞争以求得生存。如果一个群体中的某一成员表现不佳，它就会被表现较好的成员的后代所取代。子代是性能更好的成员的副本，带有稍微突变的超参数。

PBT不需要我们从头开始重新启动培训，因为每个子代都继承其父网络的完整状态，并且超参数在整个培训过程中被积极地更新。与随机搜索相比，PBT花费更多的资源进行高参数值的训练。

Waymo的演变

DeepMind和Waymo合作的第一个实验涉及训练一个网络，该网络生成行人、骑自行车的人和骑摩托车的人周围的盒子，这些盒子被我们的传感器检测到，并命名为区域建议网络。目的是调查PBT是否可以提高神经网络的能力。

沿着两个措施检测行人：召回（神经网络识别的行人与场景中行人总数的比例）和精确度（检测到的行人实际上是行人的比例，而不是虚假的“假阳性”）。Waymo车辆使用多种神经网络等方法检测这些道路使用者，但本实验的目的是训练这个单一的神经网络，使召回率保持在99%以上，同时使用基于人群的训练减少误报。

我们从这个实验中学到了很多，首先，我们发现需要为网络创建一个真实而可靠的评估，以便我们知道神经网络在现实世界中的各种情况下部署时是否能真正表现得更好。这种评估形成了PBT用来选择一个获胜的神经网络的竞争基础。

为了确保神经网络在一般情况下表现良好，并且不仅仅记住他们在训练期间看到的示例的答案，PBT竞争评估使用一组例子“验证集”，不同于那些用于训练的“训练集”。为了验证最终表现，我们还使用神经网络在训练或比赛中从未见过的第三组示例“评估集”。

其次，我们了解到我们需要快速的评估来支持频繁的进化竞争。研究人员很少在训练中评估他们的模型，当他们这样做的时候，评估也不经常进行。PBT要求的模型每15分钟评估一次。为了实现这一点，我们利用谷歌数据中心在数百台分布式机器上并行计算。

进化竞争中多样性的力量

在这些实验中，我们注意到PBT的优势之一，为更好的网络后代分配更多资源，也可能是一个弱点，因为PBT优化了当前并且没有考虑长期结果。

这可能是一个问题，因为它会使后发神经网络处于劣势，因此具有超参数的神经网络在长期内表现得更好，没有机会成熟和成功。解决这一问题的一种方法是增加人口多样性，这可以通过简单地训练更多的人口来实现。如果种群足够大，那么具有晚开花超参数的网络存活并在后代中赶上的机会就更大。

在这些实验中，我们通过创建称为“利基”的子群体来增加多样性，其中神经网络仅允许在其自己的子群体内竞争。我们还试图通过一种称为“健康共享”的技术直接奖励多样性，在这种技术中，我们衡量人口成员之间的差异，并在竞争中赋予更多独特的神经网络优势。更大的多样性允许PBT探索更大的超参数空间。

结果

PBT使模型性能得到显著改善。对于上述实验，我们的PBT模型能够通过将误报率与其手动调整的等效物相比减少24％，实现更高的精确度，同时保持高召回率。PBT等进化方法的主要优势在于它们可以优化任意复杂的指标。PBT使我们能够超越用于训练神经网络的更新规则，以及针对我们关心的功能优化更复杂的指标，例如在高召回率下最大化精度。

PBT还节省了时间和资源。通过PBT培训的网络发现的超参数计划表现优于Waymo以前的网络，训练时间和资源只有一半。

总的来说，PBT使用随机并行搜索所使用的计算资源的一半来有效地发现更好的超参数调度。它还为研究人员节省了时间，通过将PBT直接纳入Waymo的技术基础设施，公司的研究人员只需点击一下按钮即可应用此方法，并减少调整学习率的时间。

自从完成这些实验以来，PBT已经应用于许多不同的Waymo模型，并且在帮助创造更有能力的车辆方面具有很大的潜力。

参考链接：

deepmind.com/blog/how-evolutionary-selection-can-train-more-capable-self-driving-cars/