大家好,我是科技小池。
给你硬核知识,私货态度。
本期来教教大家一些网络生活小技巧。最近学生党和工作党,网课和线上会议越来越多。每个人都变成了没有感情的会议机器。
让我们先来看看效果。这里我们都是用简单的图片示意。红色衣服这个小哥就是机器人模拟开会的效果,比较逼真。几乎看不出来是机器人,大家顶多只是以为你的网络卡。
这波操作可以说是PPT型白领,上班族里的躺狗,社畜中的鬼畜。
接下来,就来手把手教大家怎么做。
首先我们需要搭建一个web服务,并基于artyom.js构建一个简单的虚拟机器人,首先要安装python。感兴趣的同学可以下载玩一下。建立web具体教程,后期会发在B站专栏里,欢迎大家B站关注【科技小池】。
接下来,我们要去的是一个神秘的地方:地球上最大的男性交友平台,Github去下载Zoombot的开源代码,以构建我们自己的虚拟机器人。
此外还需要下载好Python和ManyCam这两个软件,Python是用来搭建基础的web服务,ManyCam是用来生成一个虚拟摄像头。
如果你是直接打开百度就开始搜索下载,那么建议你直接去看看我们美元霸权那一期,因为那一期比较简单。
这里我们在c盘新建一个website目录,并把zoombot的代码拷贝进来。这里我们可以看到img文件就是保存虚拟机器人的表情包的。
可以把/ img 中的图像替换成自己的喜欢的照片,这里我就换成了B站吉祥物雷军。
接着是设置对话逻辑。相当于是设置自动回复,因为用了语音识别和语音合成的库,它可以听到会议中其他人说的话,按照设定的逻辑回复。这里我设置跟雷总说hello,他就回复do you like me。
哎呀雷老师别这样雷老师!
这里给大家重点介绍下我们使用的Artyom.js,他是一个可快速实现语音识别功能的JavaScript 库,大家可以用他来方便的构建自己的Jarvis(钢铁侠里面的助手)。
输入完对话之后,启动虚拟机器人。看到这个命令提示符,说明我们启动成功了。
接下来是安装虚拟摄像头,将我们构建的虚拟机器人注入到虚拟摄像头里面。具体细节看视频教程。
最后在zoom里面启动虚拟摄像头,雷总就接管你的摄像头,成为你的会议小秘书了。
雷总代替你开会,给大家一些小小的惊喜,这个效果是不是amazing?
我们这里只用了最简单的办法,截取好几张不同的照片。其实大家如果有兴趣,还可以配更多的图片,让整个所谓的视频看起来更流畅一些。
其实我们的外形上也有高阶版的技术,我们甚至可以让一张人物图片动起来。去年5 月三星发表的一篇CVPR 2019 论文就介绍了能让《蒙娜丽莎》动起来说话的AI 模型。研究人员只用少量甚至一张图像或画作就合成了人物开口说话状态的头部动画。
想要做到这样的效果,我们需要利用Few-shot learning 等技术,合成头部图像和面部landmark。由算法创建的数字替身此前也被用于创建deepfake 图像和视频。
除了用自己照片以外,你甚至还可以通过训练TTS语音合成模型来构建你自己的录音发音,从而让你的每句自动回复都达到以假乱真的程度。
但是我们必须准备1500句以上自己的录音,因为数据量越大,训练出来的真实、自然、逼真度越高。此外,还要搭建端到端的深度学习模型,利用seq2seq + attention的技术,实现语音的自然、逼真、快速的合成。
高德地图的志玲姐姐导航明显就没有到1500句,所以有的时候我们明显能感受到她不是真的志玲姐姐,而是一个没有志玲姐姐温柔怀抱的人工智能。
本期教学视频就说得差不多了,欢迎大家去尝试,如果大家很喜欢,后续我也会教大家一些其他有趣的互联网小技术。
我是科技小池,池子虽小,水却很深。
感谢你的阅读,如果喜欢,请随手转发
领取专属 10元无门槛券
私享最新 技术干货