苹果首份人工智能学术论文读后感

文章来源：企鹅号 - 洪门言

日前，苹果发布了其首份关于人工智能（AI）的学术论文——“通过对抗网络使用模拟和非监督图像训练”(Learning from Simulated and Unsupervised Images through Adversarial Training)。

由于合成图像与真实图像之间存在区别，为了减少这种差异，在这篇论文中，苹果提出了“模拟+无监督”学习方法，即通过计算机生成图像或合成图像来训练算法的图像识别能力。“模拟+无监督”学习的方法的关键在于保留图片的注释信息来建模，目的是提高合成图像的真实性，然后使用精化图像的历史记录更新鉴别器。

“模拟+无监督”学习研究的本质问题是如何训练算法，而不是如何识别图像。

对于这种学习方法，苹果使用了“视觉图灵测试”进行评估。“视觉图灵测试”由来自布朗大学的研究人员在一篇论文上提出。

视觉图灵测试所测的不仅仅是计算机能否识别出人像，还会测试对图像中对象关系的理解。研究人员会就捕捉到的画面提出一系列的问题，计算机以简单的“对”或“不对”的回答来完成测试。测试所用的每一道题目都是息息相关的，每个新的提问都是基于前面问过的内容。

视觉图灵测试想看看让计算机能不能像人类那样描述一张图片（资料来源：《计算机视觉版的图灵测试出现了！》

但是这篇论文在提到视觉图灵测试的时候，实验结果里并没有提到测试算法，而是表明自动生成的精细图像在视觉上已经达到以假乱真的程度。

接下来，通过对抗训练的修正分析，论文也试图证明精细化图像的真实性：

左图：标准合成图像；中图：使用历史数据对判别网络进行更新后的图像结果；右图：使用近期历史数据对判别网络进行更新的图像结果。如图所示，使用反复训练的历史精细化图像刻产生更为真实的阴影。（资料来源：《苹果发布首份人工智能报告(全文)：瞄准AI视觉》网易智能）

那么问题来了，提高合成图像的真实性的目的达到了，但是是否能对图像识别产生作用呢？也就是说，更新后的鉴别器是否会提高图像识别能力？还有一个问题，通过对历史数据的反复验证当然能够提高合成图像的真实性，因为它参考的数据多，那么对抗训练的修正分析的意义在哪里？这篇论文并没有给出解答。

在论文的结尾，苹果说他们下一步将继续探索为合成图像建立更为逼真的精细图像，同时研究如何对视频进行处理。

总体上看，人工智能还停留在识别和精细化图片的机器学习上，但是对于物与物之间联系和逻辑仍旧无法理解。就像李飞飞说的，“计算机可能会认识３０００种车或８００种鸟……却完全没有一个整体的场景理解。”

谷歌首席科学家李飞飞

在人类主要的传播方式口头语言、文字、图像、视频中，社会技术领先并具有ＡＩ研究条件的公司（如谷歌和苹果）都在试图从图像这个领域打开局面，下一步拓展到视频领域，而最基本的文字传播却不深究，因为图像信息是比较好识别和模拟的，但文字表达是有着环境的，其中的联系太多，难以捕捉，因为在人类发展的历程中，语言有着太多的文化背景。

在对象关系理解这一点上，我们的研究方法走在了前面（比如视觉图灵测试），接下来应该思考的是，如何利用处理后的数据建模，而不是使用真实数据建库，这样有利于才有利于表达和储存本质和有效的信息，达到深度学习的效果。

（注：我本来是抱着很大的好奇心去看这个苹果论文的，但不知是翻译还是我理解的问题，总觉得这个论文的逻辑有比较大的问题，我也还存在着一些疑惑，欢迎感兴趣的同门与我来探讨。）

发表于: 2018-01-052018-01-05 23:40:28
原文链接：http://kuaibao.qq.com/s/20180105G11XOQ00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

苹果首份人工智能学术论文读后感

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐