研究人员已经缩小了最先进的计算机视觉模型的规模,以运行在低功耗设备上。
成长的烦恼:视觉识别是深度学习的最强技能。计算机视觉算法可用来分析医学图像,使自动驾驶汽车成为可能,并驱动人脸识别的发展。但是训练模型来识别视频中的动作已经变得越来越昂贵。这加剧了人们对该技术的碳足迹及其在低资源环境中越来越难以使用的担忧。
研究:麻省理工学院和 IBM沃森人工智能实验室的研究人员现在开发了一种新技术,可以在处理能力非常有限的手机或其他设备上训练视频识别模型。通常,算法将视频分割成图像帧,并在每个帧上运行识别算法。然后,它通过观察对象在随后的帧中的变化,将视频中显示的动作拼接在一起。该方法要求算法“记住”它在每一帧中看到的内容,以及它看到这些内容的顺序。这不必要,效率也低。
新方法中,算法提取每一帧对象的基本草图,并将它们叠加起来。算法可以观察草图中物体在空间中的移动,而不是记住什么时候发生了什么。在测试中,研究人员发现,这种新方法训练视频识别模型的速度是现有方法的三倍。它还能通过一台小型电脑和照相机来识别手势,这些设备的电量仅够给自行车灯照明用。
为什么很重要:这项新技术有助于减少现有计算机视觉商业应用中的延迟和计算成本。例如,它可以通过加速自动驾驶汽车对传入视觉信息的反应,让它们变得更安全。这项技术还可以解锁以前无法实现的新应用,比如让手机帮助诊断病人或分析医学图像。
分布式人工智能:随着越来越多的人工智能研究被转化为应用,对更小模型的需求将会增加。麻省理工学院和IBM的论文是这一日益增长的趋势的一部分,这种趋势是将最先进的模型缩小到更易于管理的规模。
领取专属 10元无门槛券
私享最新 技术干货