随着今年Interspeech会议的临近,"生成式AI"已成为机器学习界和大众媒体的热门词汇,通常指合成文本或图像的模型。文本转语音(TTS)模型作为Interspeech的主要研究领域,在某种意义上一直是"生成式"的。但正如某中心Alexa AI组织的高级首席科学家所解释的,TTS也已被新的生成式AI范式重塑。
最初的神经TTS模型采用"点到点"方式训练。"假设我们在估计频谱图——频谱图基本上是一幅图像,其中每个像素、图像的每个小元素都代表信号在特定时间和频率上的能量含量,"该专家解释道。"我们当时能做的最好方法就是查看估计值与期望模型创建的语音声音之间的距离。"
"但在文本转语音数据中,有许多有效的文本表达方式。可以改变语速;可以改变重音;可以在不同位置插入停顿。因此,认为存在单一正确点估计的概念是有缺陷的。"
生成式AI为点到点训练提供了替代方案。例如,大语言模型(LLM)计算词序列的概率分布;在生成时,它们只需从这些分布中选择样本。
"文本转语音的生成式建模进展具有这样的特点:它们没有单一正确答案,"该专家表示。"你是在估计所有可能答案正确的概率。"
最近,一种称为频谱量化的新方法在TTS研究人员中引起了兴奋。
"如果我们有一个声学标记器——即能够获取频谱图的100毫秒片段并将其转换为整数的组件——如果我们有这样的正确组件,我们就将这个连续问题、这个建模频谱图的图像处理问题,转化为单元预测问题,"该专家说。"模型不关心这些整数来自哪里。它只知道有一个序列,并且在高层存在某种结构。"
在这方面,该专家解释说,频谱量化模型非常类似于因果LLM,后者训练用于预测词序列中的下一个词。
"因果LLM看到的也只是这些,"该专家说。"它看不到文本;它看到的是文本标记。频谱量化让模型能够以与查看文本完全相同的方式查看语音。现在我们可以将所有用于扩展大语言模型的代码、建模和见解应用于语音建模。这是我现在感到兴奋的地方。"
该专家的工作不仅限于TTS;他在某中心合著的大部分论文都涉及自动语音识别(ASR)和处理声学输入信号的相关技术。他工作的广度使他对语音作为研究主题有着更全面的看法。
"根据我的经验,我无法将生成语音和理解语音的过程分开,"该专家说。"这对我来说似乎非常统一。我认为,如果要构建完美的机器,它也不会真正区分试图理解我在说什么和试图理解对话中另一方在说什么。"
更具体地说,该专家表示:"端到端进行语音识别和端到端进行TTS的问题具有相似之处,例如能够处理数据中未充分表示的词汇。ASR系统难以转录从未听过的单词,而TTS系统则难以正确发音从未遇到过的单词。因此,尽管这两个系统彼此相反,但它们的问题空间往往重叠,为解决一个问题提出的解决方案也可以应用于另一个问题。"
例如,某中心AI研究人员已使用TTS模型生成的音频数据来训练ASR模型。但该专家表示,这仅仅是冰山一角。"在某中心,"他说,"我的使命是将文本转语音和语音转文本更紧密地结合在一起。"
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。