从程序上讲,有没有可能提取某人的声音样本,并产生一个独特的音调/属性,用于创建合成语音?
例如,个人A记录自己。从这个声音样本中产生一个独特的音调,并将其转换为合成语音。这允许人们在文本到语音转换软件中使用这种合成语音,写出他们想要的任何文本,这些文本将以A的声音阅读。
用今天的术语来说这是可能的吗?我知道有些公司很专业地做这件事,但一般来说,一个软件能做到这一点吗?
发布于 2014-08-29 21:34:35
使用说话人自适应方法,你可以用相对较少的训练样本获得一些结果,但你仍然应该有数百个句子的人-最好是音标。
我们曾经把它作为一个小的实验室练习,让学生录制自己的声音,并使用HTS (http://hts.sp.nitech.ac.jp/)训练语音模型。使用HTS的“最简单”方法是从该页面下载“扬声器相关训练演示”,并用您自己的(相同句子的)录音替换训练语音样本。不过,我们用我们自己的包为另一种语言做了这件事。
我认为MaryTTS (http://mary.dfki.de/)有一些更方便的工具来帮助这个过程,但我从来没有使用过。
但是,对于高质量的声音,你应该有数千个句子的录音。
发布于 2021-12-09 11:28:48
在2021年及以后,我建议使用mozilla/tts,如果您想要加入并使用现有的、经过验证的堆栈,它是最好的。
发布于 2021-12-10 17:50:11
七年后,你可以使用你的声音进行文本到语音的转换:
Overdub:超现实的文本到语音语音克隆https://www.descript.com/overdub
彭博社有一部关于"Lyrebird“的纪录片,这是一个神经网络,可以学习你的声音,然后你就可以用它造出新的句子。Descript是由制作Lyrebird的人创建的,现在提供这项服务,以及合成音频的非线性编辑。
彭博社在YouTube上的纪录片链接:https://www.youtube.com/watch?v=VnFC-s2nOtI
https://stackoverflow.com/questions/22944177
复制相似问题