前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >《轮到你了》的菜奈AI是如何克隆声音的?

《轮到你了》的菜奈AI是如何克隆声音的?

作者头像
mixlab
发布2019-08-09 14:58:13
2.2K0
发布2019-08-09 14:58:13
举报
文章被收录于专栏:MixLab科技+设计实验室

最近在追日剧《轮到你了》,最新的15集里,二阶堂给翔太制作了一个菜奈的AI,是个手机app,界面非常简单,采用的是聊天机器人的界面,只不过是语音聊天的方式,此AI学习了菜奈的声音跟语言风格。

那么,我们如果想自己DIY一个,应该如何操作呢?

首先,我们了解下相关的技术概念。

01

传统方法

语音合成

Text to Speech Synthesis

是一种将文本转化为语音的技术。

传统TTS是基于拼接和参数合成技术,涉及非常多的细节,比如以文本分析语言模型、语音持续时间模型、声学特征预测模型、将频谱恢复成时域波形的声码器等等。

02

“端到端”深度学习

深度学习的解决方案是一种称为“端到端”的生成模型。典型代表是谷歌的Tacotron。

所谓“端到端”就是直接从文本合成语音,不需要拆解出文本分析、语音持续时间、声学特征等子系统,只需准备[文本,声谱]配对的数据集,即可进行训练。

中文语音数据集长什么样呢?

比如,有这么一句文本:

绿 是 阳春 烟 景 大块 文章 的 底色 四月 的 林 峦 更是 绿 得 鲜活 秀媚 诗意 盎然

使用汉语拼音标注为:

lv4 shi4 yang2 chun1 yan1 jing3 da4 kuai4 wen2 zhang1 de5 di3 se4 si4 yue4 de5 lin2 luan2 geng4 shi4 lv4 de5 xian1 huo2 xiu4 mei4 shi1 yi4 ang4 ran2

这样就可以让机器学会将每一个类似于英文单词的方式,对应到声谱的某几帧。

03

使用

如果想自己动手训练一个属于自己的文本转语音AI,可以查找谷歌Tacotron的开源代码,自己修改训练。

如果不想这么麻烦,我们可以选择API调用的方式,百度ai或者讯飞都提供了类似的功能,声音也有多种风格可选。

04

风格迁移

这只是文本转语音,如果我们想要让这个语音可以按照某个人的声音输出,应该怎么办呢?

图像领域有风格迁移技术,受此启发,谷歌发布了一个可以克隆任何人声音的模型。

开源地址https://github.com/CorentinJ/Real-Time-Voice-Cloning

使用简单,有兴趣可以去了解下。

综上,一款可以克隆任何人声音的AI即将诞生。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-08-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 无界社区mixlab 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音合成
语音合成(Text To Speech,TTS)满足将文本转化成拟人化语音的需求,打通人机交互闭环。提供多场景、多语言的音色选择,支持 SSML 标记语言,支持自定义音量、语速等参数,让发音更专业、更符合场景需求。语音合成广泛适用于智能客服、有声阅读、新闻播报、人机交互等业务场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档