人声是最原始、最个性的表达方式之一,为了提高效率,很多时候我们会使用合成语音来代替人声,涉及到的商业场景有很多,例如虚拟智能助理、客户呼叫中心、有声读物和媒体内容创作。
文本转语音(TTS)是合成语音最重要的支持技术,2024年,全球的文本转语音(TTS)市场规模大约是40亿美元,但在这之前,把高质量的语音融入这些商业场景中,仍然是一件耗时且成本高昂的事情。
TTS技术的发展最早在1960年出现,由贝尔实验室开发,在1980年之前,早期的TTS系统是通过将文本中的词汇与提前录制好的语音片段匹配,在朗读的时候,机器虽然是在朗读句子,实际上是在朗读每个片段,这种方式既机械又不自然。
文字转语音(TTS)的完整工作流程,简单概括就是4个步骤:
步骤1、文本预处理,也就是把输入的文本转为机器能理解的格式,如分词、标注等
步骤2、文本到音频特征的转换,也就是把处理后的文本转化成具备音频特征的信息,如音素和韵律特征信息
步骤3、音频生成,也就是把音频特征转换成实际的音频
步骤4、音频后处理,也就是把生成后的音频进一步做优化,例如降噪、均衡等
要模拟真正的人声,最关键的问题在于:在转换的过程中,要避免减少重要信息的流失。这些重要的信息包括基于特定内容流畅且自然的表达、对上下文理解过后带有情感的表达,这些所谓的表达可以说是“千人千面”,每一段不同的文本都对应着不同的表达。
传统的文本转语音有两处转换信息流失较为严重,第一处发生在步骤2:文本到音频特征的转换。
传统的TTS技术使用预定义的规则生成音素(最小的语音单位)和韵律(语调、重音和节奏),极度依赖规则的精细化程度,难以处理复杂且多样化的语音特征,要拓展范围就要拓展大量的规则并加以手工调整,难以维护。
ElevenLabs在这一步采用的改进是,使用Tacotron直接从文本生成频谱图,频谱图是一种音频信号的图形表示,通过大量的语音数据训练,Tacotron模型学习文本与语音特征之间的复杂映射关系,从而可以给特定的文本输出个性化的频谱图,更能够捕捉和表达复杂的语音特征,减少重要信息的流失。
相比传统的文本转语音技术,生成和处理频谱图需要较高的计算能力,在早期计算资源有限的情况下,这种方式难以实现。
另外一个信息流失较为严重的,是发生在步骤3:音频生成。
传统的TTS技术是基于前期的音素和韵律信息,然后声码器把这些参数转换为音频波形,但这里存在两个问题:其一是用来转换的参数本身就丢失了很多细节和动态的变化,也就是传统步骤2 的处理带来的影响,其二是早期计算机的处理能力,难以支持生成高分辨率的音频波形。
ElevenLabs采用WaveNet模型,它通过深度学习模型,从前面的音频采样点来预测下一个采样点的概率分布,从而生成连续的高质量的音频波形。
你可以理解为,Tacotron提供的频谱图,塑造了音频信息个性化的信息骨架,而WaveNet就是在骨架的空隙位置,通过概率分布预测来补上必要的波形,从而生成高质量连续的音频波形。
传统高质量合成语音的生产流程,可为冗长且昂贵。
首先在专业录音阶段,你需要选择专业的语音演员来录制高质量的语音数据,还要采用专业的录音室确保录音清晰无噪音,录音时间一般要数百小时,用来覆盖所有可能的音素和语音组合。录完音之后还要做各种标注和声音片段的切割,最后再用声码器合成,边合成边做细致调整。
这就是为什么播客仍然要用昂贵的设备、安静的房间来记录每句话,而游戏设计师也只能为主要角色聘请配音演员,其他边缘角色只能保持沉默,因为在之前要做一段媲美人类发声的语音成本实在太高了。
在这之前,一本8-10小时的有声书,整体成本可能达到2000-10000美元,具体取决于录音演员的名气、录音室的质量以及后期处理的复杂程度,其中8-10小时的有声书约为8万字符,而ElevenLabs的独立出版商套餐每月能提供50万字符的转换,每月只需要99美元,成本是现在的1/20.
ElevenLabs的出现,使这一现状只需要点击几下,就生成了令人难以置信的人类声音,并具有适当的停顿、语调和呼吸节奏,你甚至可以通过ElevenLabs克隆自己的声音。
这是典型的效果提升10倍,而且成本降低10倍的解决方案,每当行文至此,我也只能羡慕无比,这不就是我们苦苦追求最契合市场需求的生意了吗?
回顾TTS行业的发展,不难发现关键问题的解决方案,其实是来自于并行计算能力的极大提升:
2006年,NVIDIA发布CUDA,打开了用GPU进行通用计算的局面;
2009年,Raina等人的论文《Large-scale Deep Unsupervised Learning using Graphics Processors》,证明了GPU在深度学习中的大规模运算优势;
2016年,Google DeepMind团队研发出WaveNet,能够直接生成高质量音频波形;
2017年,Google Brain团队研发出Tacotron,能够直接从文本生成频谱图;
2022年,Mati Staniszewski和Piotr Dabkowski创立ElevenLabs,能够直接从文本生成媲美人声的语音;
Mati Staniszewski和Piotr Dabkowski是ElevenLabs的两位创始人,都曾就职于Google,均在波兰华沙长大,两人早期都有一个共同经历,就是在波兰看配音电影的时候,这些配音经常缺乏感情,一点也不生动,后来他们希望通过AI技术去解决这个问题。
并行计算能力的提升,将会促使很多领域对应的模型诞生,这些模型都能通过大量的训练和学习,把行业里面原本因为极致个性化而无法解决的关键问题而消灭,就像TTS技术领域里面,WaveNet和Tacotron的出现,就是让文本对应音频的信息,在转换的时候尽可能完整保留,从另外一个角度来看,这本身就是对个性化文本信息的一种处理。
以往在互联网时期,关键词是建立连接,从生产关系的角度出发,往往是处理高频、标品的业务,才是最适合利用互联网去提升效率的。
在人工智能的时代,并行计算能力带来的实际上是生产力的变更,生产力的提升让机器不只停留在处理标品的水平,如果解决业务里面个性化部分的价值较大,也许这个业务才是最适合通过人工智能来解决。
ElevenLabs就是最好的例子。
--
所有文章仅表达作者个人观点,不构成对所述资产的任何财务建议。
领取专属 10元无门槛券
私享最新 技术干货