首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

苹果首份人工智能学术论文读后感

日前,苹果发布了其首份关于人工智能(AI)的学术论文——“通过对抗网络使用模拟和非监督图像训练”(Learning from Simulated and Unsupervised Images through Adversarial Training)。

由于合成图像与真实图像之间存在区别,为了减少这种差异,在这篇论文中,苹果提出了“模拟+无监督”学习方法,即通过计算机生成图像或合成图像来训练算法的图像识别能力。“模拟+无监督”学习的方法的关键在于保留图片的注释信息来建模,目的是提高合成图像的真实性,然后使用精化图像的历史记录更新鉴别器

“模拟+无监督”学习研究的本质问题是如何训练算法,而不是如何识别图像。

对于这种学习方法,苹果使用了“视觉图灵测试”进行评估。“视觉图灵测试”由来自布朗大学的研究人员在一篇论文上提出。

视觉图灵测试所测的不仅仅是计算机能否识别出人像,还会测试对图像中对象关系的理解。研究人员会就捕捉到的画面提出一系列的问题,计算机以简单的“对”或“不对”的回答来完成测试。测试所用的每一道题目都是息息相关的,每个新的提问都是基于前面问过的内容。

视觉图灵测试想看看让计算机能不能像人类那样描述一张图片(资料来源:《计算机视觉版的图灵测试出现了!》

但是这篇论文在提到视觉图灵测试的时候,实验结果里并没有提到测试算法,而是表明自动生成的精细图像在视觉上已经达到以假乱真的程度。

接下来,通过对抗训练的修正分析,论文也试图证明精细化图像的真实性:

左图: 标准合成图像;中图:使用历史数据对判别网络进行更新后的图像结果;右图:使用近期历史数据对判别网络进行更新的图像结果。如图所示,使用反复训练的历史精细化图像刻产生更为真实的阴影。(资料来源:《苹果发布首份人工智能报告(全文):瞄准AI视觉》网易智能)

那么问题来了,提高合成图像的真实性的目的达到了,但是是否能对图像识别产生作用呢?也就是说,更新后的鉴别器是否会提高图像识别能力?还有一个问题,通过对历史数据的反复验证当然能够提高合成图像的真实性,因为它参考的数据多,那么对抗训练的修正分析的意义在哪里?这篇论文并没有给出解答。

在论文的结尾,苹果说他们下一步将继续探索为合成图像建立更为逼真的精细图像,同时研究如何对视频进行处理。

总体上看,人工智能还停留在识别和精细化图片的机器学习上,但是对于物与物之间联系和逻辑仍旧无法理解。就像李飞飞说的,“计算机可能会认识3000种车或800种鸟……却完全没有一个整体的场景理解。”

谷歌首席科学家李飞飞

在人类主要的传播方式口头语言、文字、图像、视频中,社会技术领先并具有AI研究条件的公司(如谷歌和苹果)都在试图从图像这个领域打开局面,下一步拓展到视频领域,而最基本的文字传播却不深究,因为图像信息是比较好识别和模拟的,但文字表达是有着环境的,其中的联系太多,难以捕捉,因为在人类发展的历程中,语言有着太多的文化背景。

在对象关系理解这一点上,我们的研究方法走在了前面(比如视觉图灵测试),接下来应该思考的是,如何利用处理后的数据建模,而不是使用真实数据建库,这样有利于才有利于表达和储存本质和有效的信息,达到深度学习的效果。

(注:我本来是抱着很大的好奇心去看这个苹果论文的,但不知是翻译还是我理解的问题,总觉得这个论文的逻辑有比较大的问题,我也还存在着一些疑惑,欢迎感兴趣的同门与我来探讨。)

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180105G11XOQ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券