【新智元导读】1月20日,国外多家媒体报道,暮光之城女主角 Kristen Stewart 发表了一篇关于图像风格迁移的人工智能论文,引起业内广泛讨论。不少人感叹,人工智能领域将迎来一位高颜值研究者。不过,最近 Quora上的讨论却不那么激动,众多业内人士纷纷指出,Kristen Stewart 的研究根本算不上是一篇人工智能论文,充其量只能算一篇博客,并且毫无价值,完全没有新意。
几天前,人工智能研究界忽然掀起一阵喧哗——ArXiv上出现了一篇电影《暮光之城》的女主角 Kristen Stewart 署名的学术论文,内容有关使用神经网络进行图像风格迁移的技术,并以电影《Come Swin》为案例进行研究。
国外许多媒体纷纷跟进报道,其中包括 Quartz 就使用了《Kristen Stewart (对,就是众所周知的 Kristen Stewart )刚刚发表了一篇人工智能论文》的大标题。
近日,Quora上,一些机器学习业内人士对这一话题展开了讨论,他们基本的观点是:Kristen Stewart 署名的文章根本算不上是一篇“人工智能论文”,最多只是一篇博客,从内容上来说,与 Prisma 此前的研究论文有很大的相似性,基本是重复工作。
随着人工智能越来越火,似乎任何事情都可以跟人工智能沾边,Kristen Stewart 的真实意图是什么现在不得而知,但是媒体上动辄“AI+”的大标题,确实有误导之嫌。
我们先来看一下论文的主要内容:
在摘要部分,作者写道:Neural Style Transfer 是最近开发出来的一种令人瞩目的技术,利用神经网络将一幅图像重新描绘为源图像的艺术风格。这篇论文探讨了在电影制作中使用这种技术的过程,利用 Neural Style Transfer 将影片《Come Swin》中的关键场景转换为印象主义风格绘画,《Come Swim》这部影片也正是受了印象主义风格的启发。我们记录下了如何在逐次迭代的创作过程框架中使用这种技术使画面呈现理想的结果,并提出了一种将广阔的参数空间映射到一组关键创意控制元素(control)的方法。我们希望这种映射方法能为以后的研究提供参考。
可以用论文中的一张图来看懂作者的研究意图:
输入左边的图片+系统内存储的照片风格(中),得到最右边风格变换后的照片。这就是神经网络图片风格迁移。
论文地址:https://arxiv.org/pdf/1701.04928v1.pdf
总共3页。
1. 把 Kristen Stewart 去掉,ML 界不会有人看这篇论文超过两次
俄罗斯斯科尔科沃理工学院信息工程与数据专业硕士, Facebook AI 研究室2016年实习生 Roman Trusov 说:
他们几乎从来没有想过这个问题。这不是一份研究论文,并且也不算关于人工智能的。报道的题目唯一正确的部分是“Kristen Stewart”。这,就是我的看法。
他们做了什么:他们下载了一个经过预训练的、可用的架构,将自己的图像在这一框架上运行,不需要训练任何东西。难点在于找到一个足够轻量(lightweight)的解决方案(vgg16 vs vgg19),并且设置降噪的常规。
如果你把文章中的“Kristen Stewart” 名字去掉,ML 界不会有人看这篇论文超过两次,这么说你应该能理解其中的科学含量有多少了。
除此之外,这一文章也是一个减少 Erdős–Bacon 数量的尝试。显然,这是实实在在的。另外,也许这会鼓励更多的女性选择计算机科学。
2. 一篇使用了人工智能的应用型论文
机器学习研究者,Quora工程主管 Xavier Amatriain说:
这里可能有两个不同的问题需要回答:1)我们怎么评价这篇论文?2)我们怎么评价这篇论文引起的报道?
我首先回答第二个问题,因为我认为这是(潜在)问题的根本所在。现在,大多数事情都围绕着 AI,所以肯定会有一些过热效应。我也理解,对于一篇尝试把 AI 和一位好莱坞女星联系在一起的论文,公众的整体反应会是什么样的。老实说来,我发现 Quartz(一家新闻媒体)的方式既有好处也有害处。我必须承认,我在Twitter 和 Facebook 上分享了这篇论文。
首先需要说明的是,Quartz 使用的词是“released” (发布)而不是“publish”(发表)。这很好。他们也在文章后解释了,在 ArXiv 上发表一篇 paper 并不意味着已经通过同行评议或者被任何的研究社区接收。人们应该记住, ArXiv 会审核提交的论文,但是他们并不会对网站上论文的质量负责。换句话说,提交一份草稿或者一个课程作业也是可以的。目前,在这篇论文被其他任何社区接收之前,强调这一背景是很有必要的。
第二,正如其他人所指出的那样,和新闻报道标题报道的不一样,这并不是一篇关于 AI 的研究论文。这是一篇使用了人工智能的应用型论文。二者是完全不同的。当然,这也不意味着文章本身是一篇很烂的研究论文,但是它需要基于不同的标准进行评估,因为显然论文并没有给 AI/ML 社区带来任何新东西。基于以上几点,AI 研究者们的评论都没有真正地抓住重点。
在这件事上,我觉得自己是有资格进行评论的。虽然我自己做的研究是关于机器学习的,但是我的大部分作品实际上都是应用型的论文,涉及的领域包括推荐系统和多媒体系统。事实上,我也曾与艺术家一起合作论文,其中的一些论文已经发表在国际会议和期刊上。
所以,记住了这一点后,我来回答另一个问题:我对论文本身的评价如何?
不幸的是,论文没有给我留下什么印象。作为一篇艺术应用 AI 论文,它的价值非常有限。论文本身有很多问题,导致其很难被大多数的会议接收:
1. 这一应用总结的经验实际上很难推广,甚至连希望实现的目标都不能满足。
2. 其采用的思路和方法比较有限。
3. 引用不够。特别是,作为一篇应用型的论文,仅仅引用最近的 AI/ML 论文是不够的。作者应该引用其他艺术家用 AI 进行创作的研究。
也就是说,我认为论文可能足够提交到一个“poster”或者 workshop上。考虑到其形式和长度,我认为这也许是作者的本意。
最后,我回答一下,Kristen Stewart 该不该成为论文的作者的问题。我的观点非常清晰:Kristen 肯定应该成为作者之一。再次强调,这是一篇应用性论文(或者说,是一篇艺术创造论文)。艺术家或者创作者本身的角色应该和 AI 研究者的作用一样重要,或者更加重要。事实上,我想透露的秘密是,与一些博士论文中的署名导师或教授比起来,Kristen 在这篇论文中所做的贡献肯定要多得多。
3. 只是对 Prisma 技术原理的扩展
新加坡-MIT研究与技术联盟实习研究员,Shashwat Verma 说:
听说过 Prisma 吗?这个 APP 能根据源照片的风格重新绘制你上传的照片风格。关于这一APP 的最初论文:https://arxiv.org/pdf/1508.06576. 作者 Gatys 等人。
如果你还不知道Prisma,可以看下面的例子:
这是使用卷积神经网络来完成的。我上面提到的论文使用了深度学习来进行艺术创造而不仅仅是识别猫。这是一篇很好的论文。你可以重新验证其结果。
Kristen Stewart 的论文(可能?)扩展了 Gatys 等人的工作。
首先需要指出,Kristen Stewart 等人的论文并不是一篇真正的 AI 论文。可能,他们自己也并没有打算称其为一篇 AI 论文。让我们分析下这一点和这篇 “AI” 论文中唯一的数学等式。
试验风格转移比率后,我们得出结论,要进行有意义的创造性探索,它需要是指数形式的。主观地,这种指数形式给了我们一个对不真实性的有用测量,表示为u,这是一个粗略地反映风格转移的图像看起来会有什么印象的方法:
style transfer ratio = 10^u
Kristen Stewart 的论文的贡献(可能是最重要的一点)甚至都不能称之为贡献。Gatys 最初的论文已经对这一公式进行了论述,甚至还附上了一张非常好的照片,来展示U的改变带来的效应。
他们提到了另外的一些贡献,但是这对于一篇论文来说是远远不够的,我认为。他们谈到了一系列参数(不是超参数),已经如何调整。但是这不足以让其成为一篇 AI 论文。他们本可以发一篇博客就够了的。我本人并没有发现这篇论文有任何好的地方。没有让我学到任何新的东西。
但是,这篇论文对于那些希望使用深度学习进行风格迁移的电影制作者来说可能会有用。他们可能会需要调整参数,让输出的图片足够好(主观的)到可以产出。
如果你真的想知道 Kristen Stewart 的论文究竟是什么,或者 Prisma APP 的工作原理,还是去读 Gatys 的论文吧。
最后,我不认为 Kristen 做了任何技术方面的工作用于深度学习的预训练。她可能就像其他教授一样,只是署名而不做任何工作。 Kristen 是一名演员而不是深度学习工程师。所以,对论文的批评应该指向研究工程师 Bhautik J Joshi。
我的分析可能有错,如能指正,不甚感激。