最近在追日剧《轮到你了》,最新的15集里,二阶堂给翔太制作了一个菜奈的AI,是个手机app,界面非常简单,采用的是聊天机器人的界面,只不过是语音聊天的方式,此AI学习了菜奈的声音跟语言风格。
那么,我们如果想自己DIY一个,应该如何操作呢?
首先,我们了解下相关的技术概念。
01
传统方法
语音合成
Text to Speech Synthesis
是一种将文本转化为语音的技术。
传统TTS是基于拼接和参数合成技术,涉及非常多的细节,比如以文本分析语言模型、语音持续时间模型、声学特征预测模型、将频谱恢复成时域波形的声码器等等。
02
“端到端”深度学习
深度学习的解决方案是一种称为“端到端”的生成模型。典型代表是谷歌的Tacotron。
所谓“端到端”就是直接从文本合成语音,不需要拆解出文本分析、语音持续时间、声学特征等子系统,只需准备[文本,声谱]配对的数据集,即可进行训练。
中文语音数据集长什么样呢?
比如,有这么一句文本:
绿 是 阳春 烟 景 大块 文章 的 底色 四月 的 林 峦 更是 绿 得 鲜活 秀媚 诗意 盎然
使用汉语拼音标注为:
lv4 shi4 yang2 chun1 yan1 jing3 da4 kuai4 wen2 zhang1 de5 di3 se4 si4 yue4 de5 lin2 luan2 geng4 shi4 lv4 de5 xian1 huo2 xiu4 mei4 shi1 yi4 ang4 ran2
这样就可以让机器学会将每一个类似于英文单词的方式,对应到声谱的某几帧。
03
使用
如果想自己动手训练一个属于自己的文本转语音AI,可以查找谷歌Tacotron的开源代码,自己修改训练。
如果不想这么麻烦,我们可以选择API调用的方式,百度ai或者讯飞都提供了类似的功能,声音也有多种风格可选。
04
风格迁移
这只是文本转语音,如果我们想要让这个语音可以按照某个人的声音输出,应该怎么办呢?
图像领域有风格迁移技术,受此启发,谷歌发布了一个可以克隆任何人声音的模型。
开源地址https://github.com/CorentinJ/Real-Time-Voice-Cloning
使用简单,有兴趣可以去了解下。
综上,一款可以克隆任何人声音的AI即将诞生。