前段时间,一个叫做“将朱茵的黄蓉换成杨幂的脸”的热门话题在微博上爆火。
原以为又是一波P图热潮引发的粉丝狂欢,没想到小智在浏览具体内容之后发现:这次换脸的形式不是图片,而是视频——
一位B站UP主用AI技术,将杨幂的脸“贴”在了朱茵饰演的黄蓉脸上。
说实话,看到视频和gif的小智真的被惊到了。
一方面,大幂幂的颜+朱茵的演技,这真的是神仙搭配呀!
另一方面,不同于传统观念里恶搞视频的“五毛特效”,这次的特效视频根本看不出P图痕迹,真实得宛如原作。
这到底是什么神奇操作?又运用了什么样的智能技术?小智立刻展开了调查。
原来,这种神奇的换脸效果使用的是一种叫做Deepfake的人工智能技术。
什么是Deepfake?
Deepfake一词由“Deep learning”(深度学习)和“Fake”(假)组成,其含义是在图像或视频中把一个人的脸替换成另一个人的脸。这项技术的出现可以说是人脸交换技术的一个重要突破。
Deepfake中文网站
几年前的Deepfake技术并没有像现在这样广泛的获取渠道,技术门槛也比较高。后来,有人推出了Windows程序FakeApp,即使是对人工智能或是对视频剪辑一窍不通的外行,只需要一个GPU和一些训练数据,再通过按部就班的操作也能制作出换脸视频。
同时,Deepfake在GitHub 上也已经开源,这一系列的变化都大大降低了Deepfake的获取门槛。
技术原理
从技术角度而言,Deepfake是深度图像生成模型的一次成功应用。
在模型训练期间,先把目标人物A的脸抠出来,定位好A的五官位置,训练出一个“无论怎么扭曲和变化A的脸,最后都能生成正常的A脸”的网络。
五官定位示意图
网络训练好后,我们再向其中输入B的脸。
此时,在神经网络的逻辑看来,B的脸就是“以某种方式扭曲的A的脸”,需要它来进行“纠正”。并且数据越多,效果越好。
操作流程
在FakeApp上的具体的操作大体分为3个步骤:原始数据集获取,模型训练,视频生成。
首先,我们需要一个包含Nvidia GPU的个人电脑,至少4GB的存储空间。至于训练神经网络所需的材料,用户则需要提供至少几百张照片或者时长足够的视频,以便FakeApp从视频中提取所有帧。然后调整合适的参数,就可以开始训练了。
图片或视频上传操作
在训练过程中,FakeApp会显示一个分数,数值越大则表示训练结果的偏差越大。
当这个值低于0.02时效果通常就OK了,此时可以停止训练程序。
这一过程需要的总时长从十几到几十小时不等。
最后选择上面训练好的模型和需要的换脸视频,再设置合适的帧率,就可以得到一段自制Deepfake视频。
关键机制
其实AI换脸也不算是新鲜事,不过早期的换脸效果确实差强人意。
你看得出换上的是谁的脸吗?
那使用Deepfake生成的人脸为何如此逼真?
这很大程度上归功于一种叫做GAN(生成式对抗网络)的关键机制。
在GAN中有两个机器学习模型,一个扮演“造假者”,在数据集上训练后生成假视频;另一个则扮演“检测者”,不断地检测这些假视频,一直到它再也不能检测出结果是假的。
此外,用于训练的数据集越大,做出的Deepfake视频越真实。这也是为什么我们看到的Deepfake视频中出现的人物几乎都是著名的政客和明星——他们有太多的公开视频素材可供训练了。
尼古拉斯·凯奇:作品太多怪我咯?
AI换脸的话题引发了众多网友的热议。
吃瓜群众们表示,这下“P图宝贝”们可以名正言顺地换脸,假装自己在演戏了。
还有群众表示,“最强狗仔”卓伟就要失业了,以后明星的八卦视频都可以直接甩锅给“恶意换脸”,再也不用承认了。
对于影视从业者来说,这也是个好消息。
因为以现在的技术,一些大型数字特效公司想要将一位演员的面容“移植”到另一个身体上,至少需要几个月的时间。特效公司工业光魔的首席运营官约翰·诺尔表示,如果这项技术能达到令人满意的视觉效果,同时能大幅度提高制作效率、节省成本,那他们会很乐于尝试。
《速度与激情7》中使用特效“复活”了保罗·沃克
当然,也有不少网友对这一技术表示了担忧
同样感到担忧的还有政界人物。
美国总统大选佛罗里达州候选人卢比奥曾表示:过去想要威胁美国,可能需要航母、核武器,还有洲际导弹。现在只需要登录互联网系统、银行系统、电网,甚至只要弄出一段足以以假乱真的虚假视频搞乱选举,就足以让美国陷入内乱。
这些担忧不无道理。
你永远不知道最厉害的技术会落到什么人的手里,况且这还是已经开源了的技术。
为了防范Deepfake背后的社会安全隐患,纽约大学的研究人员研究后发现:在Deepfake生成的虚假视频中,人物的头部动作和瞳孔颜色通常会很怪异,并且几乎不怎么眨眼。这成了目前Deepfake无法逃脱的bug。
观察原视频和造假视频对应的关键帧,可以看出,假脸人物在原视频的眨眼处并没有眨眼
据了解,这一bug并非来自算法本身的问题,而是它使用的数据集。
当训练深层神经网络时,我们使用的是来自网络的静态图像。即便是像尼古拉斯·凯奇这样的公众人物,他的大多数照片也都是睁着眼睛的,一般很少有人会有大量的闭眼照。既然数据集中几乎没有眨眼图像,那么Deepfake就无法“学会眨眼”,或者眨眼的时长和频率都远小于正常人。
这样的进展,可以算是“魔高一尺,道高一丈”了。
科技时代,“技术造假”和“技术打假”必会进行旷日持久的战争。在鼓励研究人员找出“打假”方法的同时,小智觉得,我们还需要呼吁停止滥用技术以及传播相应的恶性作品。
毕竟,科技的发展不仅需要顶尖科学家们的努力攻克,还需要芸芸大众的共同维护。
编辑:Sue
图片来源于网络,版权归原作者所有,如有侵权请联系删除
领取专属 10元无门槛券
私享最新 技术干货