日前,苹果发布了其首份关于人工智能(AI)的学术论文——“通过对抗网络使用模拟和非监督图像训练”(Learning from Simulated and Unsupervised Images through Adversarial Training)。
由于合成图像与真实图像之间存在区别,为了减少这种差异,在这篇论文中,苹果提出了“模拟+无监督”学习方法,即通过计算机生成图像或合成图像来训练算法的图像识别能力。“模拟+无监督”学习的方法的关键在于保留图片的注释信息来建模,目的是提高合成图像的真实性,然后使用精化图像的历史记录更新鉴别器。
“模拟+无监督”学习研究的本质问题是如何训练算法,而不是如何识别图像。
对于这种学习方法,苹果使用了“视觉图灵测试”进行评估。“视觉图灵测试”由来自布朗大学的研究人员在一篇论文上提出。
视觉图灵测试所测的不仅仅是计算机能否识别出人像,还会测试对图像中对象关系的理解。研究人员会就捕捉到的画面提出一系列的问题,计算机以简单的“对”或“不对”的回答来完成测试。测试所用的每一道题目都是息息相关的,每个新的提问都是基于前面问过的内容。
视觉图灵测试想看看让计算机能不能像人类那样描述一张图片(资料来源:《计算机视觉版的图灵测试出现了!》
但是这篇论文在提到视觉图灵测试的时候,实验结果里并没有提到测试算法,而是表明自动生成的精细图像在视觉上已经达到以假乱真的程度。
接下来,通过对抗训练的修正分析,论文也试图证明精细化图像的真实性:
左图: 标准合成图像;中图:使用历史数据对判别网络进行更新后的图像结果;右图:使用近期历史数据对判别网络进行更新的图像结果。如图所示,使用反复训练的历史精细化图像刻产生更为真实的阴影。(资料来源:《苹果发布首份人工智能报告(全文):瞄准AI视觉》网易智能)
那么问题来了,提高合成图像的真实性的目的达到了,但是是否能对图像识别产生作用呢?也就是说,更新后的鉴别器是否会提高图像识别能力?还有一个问题,通过对历史数据的反复验证当然能够提高合成图像的真实性,因为它参考的数据多,那么对抗训练的修正分析的意义在哪里?这篇论文并没有给出解答。
在论文的结尾,苹果说他们下一步将继续探索为合成图像建立更为逼真的精细图像,同时研究如何对视频进行处理。
总体上看,人工智能还停留在识别和精细化图片的机器学习上,但是对于物与物之间联系和逻辑仍旧无法理解。就像李飞飞说的,“计算机可能会认识3000种车或800种鸟……却完全没有一个整体的场景理解。”
谷歌首席科学家李飞飞
在人类主要的传播方式口头语言、文字、图像、视频中,社会技术领先并具有AI研究条件的公司(如谷歌和苹果)都在试图从图像这个领域打开局面,下一步拓展到视频领域,而最基本的文字传播却不深究,因为图像信息是比较好识别和模拟的,但文字表达是有着环境的,其中的联系太多,难以捕捉,因为在人类发展的历程中,语言有着太多的文化背景。
在对象关系理解这一点上,我们的研究方法走在了前面(比如视觉图灵测试),接下来应该思考的是,如何利用处理后的数据建模,而不是使用真实数据建库,这样有利于才有利于表达和储存本质和有效的信息,达到深度学习的效果。
(注:我本来是抱着很大的好奇心去看这个苹果论文的,但不知是翻译还是我理解的问题,总觉得这个论文的逻辑有比较大的问题,我也还存在着一些疑惑,欢迎感兴趣的同门与我来探讨。)
领取专属 10元无门槛券
私享最新 技术干货