首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

IBM为机器学习开发低功耗,高性能的视觉系统

AiTechYun

编辑:chux

IBM为机器学习开发低功耗,高性能的视觉系统

机器学习算法近年来有了突飞猛进的发展。例如,像Facebook这样的最先进的系统 可以在一小时内训练图像分类算法,而不会牺牲准确性。但其中许多人都接受过使用强大GPU的高端机器的训练,随着物联网(IoT)产业向边缘计算发展,对低功耗低成本人工智能模型的需求不断增长。

IBM有前景的研究为更高效的算法奠定了基础。在CVPR会议上,该公司的研究人员发表两篇论文,分别介绍图像分类处理。

BlockDrop

第一个标题为“BlockDrop: Dynamic Interference Paths in Residual Networks”,建立在微软在2015年发布的有关Residual networks的工作基础上。Residual networks(简称ResNets)引入了神经网络中各层之间的身份连接,允许它们在训练过程中学习增量或残余。

IBM将这一想法向前推进了一步。科学家们引入了一个轻量级的二级神经网络,在本文中称为“策略网络”,在预先训练的ResNet中动态地丢弃残余块。为了确保性能收益不以精确为代价,策略网络使用最少数量的块训练并保持识别准确性。

IBM研究经理Rogerio Feris表示,“一般来说,如果向模型添加更多图层,可以提高其准确性,但是会增加计算成本,目前大多数模型的一个问题是,有一个通用的网络,在所有图像中都使用相同的计算。我们的系统可以更有效地分配资源,并准确地识别图像。”

BlockDrop将图像分类平均加快了20%,在某些情况下加快了36%,同时保持了76.4%的准确性。

论文网址:arxiv.org/abs/1711.08393

改善立体视觉

第二篇论文“A Low Power, High Throughput, Full Event-Based Stereo System”解决了图像处理中的另一个问题:立体视觉。

正如IBM研究员Alexander Andreopoulos解释的那样,人类的眼睛相距几厘米,从略微不同的角度看世界。大脑的视觉皮层将两只眼睛的图像无缝融合为一体,使我们能够感知深度,但双摄像机器人系统在协调视差方面更困难。

“在计算机视觉的情况下,相机镜头有异常,这会导致噪音并使问题复杂化,”Andreopoulos说。

研究人员的解决方案是:运行在IBM TrueNorth神经形态芯片上的系统,该系统具有针对机器学习模型进行了优化的高度并行化架构。系统使用九个处理器的集群,一对基于事件的摄像头(当它们检测到运动时只拍摄图像的摄像头)以及一台将计算分配给上述芯片的笔记本电脑,每秒算法捕获并处理400(最多达2,000)视差图。

Andreopoulos解释说,基于事件的摄像机的使用大大减少了带宽和能源消耗。“立体声算法已经存在了30多年,但大多数系统都采用积极的方法来感知世界。我们使用的方法很被动。”

总体而言,与具有高帧速率照相机的最先进系统相比,该系统在每个像素的每像素功率方面的性能提高了200倍。

这些结果为依靠低功耗,低延迟深度信息来导航世界的机器人系统带来希望。

论文网址:researcher.watson.ibm.com/researcher/files/us-aandreo/cvpr2018.pdf

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180621B1IM0D00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券