生成自然、类人的语音一直是科学家们数十年的目标。近年来,文本转语音(TTS)技术的进步使计算机能够发出更接近人类的声音。某中心的科学家和工程师正在这一领域开拓创新,使计算机不仅能发出友好、知识渊博的声音,还能预测话语的情感色彩并以类人的语调回应。
2016年,基于神经网络的WaveNet技术问世,标志着该领域的革命性突破。这项由某机构研发的技术能够利用真实语音录音训练神经网络,生成逼真的声音。"这项早期研究表明,新的机器学习方法能提供同等或更优的质量,并具有更大的灵活性,"某中心TTS研究团队高级经理Andrew Breen表示。
在2000年代初期,最主流的语音合成方法是混合单元拼接技术。某中心曾使用这种方法构建早期语音助手的声音。"我们会让配音演员在录音室录制大量短语,然后将语音数据分解为单个双音素存入音频数据库,"某中心TTS团队首席产品经理Nikhil Sharma解释道,"当需要生成语音时,我们从数据库中选取最佳双音素拼接成句子。"
2018年,某中心科学家证明,通过使用生成式神经网络方法创建合成语音,可以产生更自然的声音。采用这种方法后,语音助手还能根据内容调整说话方式。例如,科学家仅用几小时的训练数据就创建了新闻播报风格的语音。
某中心近期推出的Brand Voice功能,允许组织与AI研究科学家和语言学家合作,构建代表其品牌形象的独家神经TTS语音。早期采用者已利用这项服务创建了独特的品牌声音。
研究人员正致力于教计算机理解一组词语的含义,并使用适当的情感表达这些词语。"如果让计算机读一篇新闻文章,它能很好地呈现文章中的词语,"Breen说,"但它缺少对文章内容的理解——是好消息还是坏消息,重点是什么。它缺乏这种直觉。"
未来,计算机可能仅根据词语的上下文或词语本身就能识别应该如何表达这些词语。"我们希望计算机对环境和对听众都敏感,并相应地适应,"Breen表示。这项技术的潜在应用包括客户服务、远程学习和新闻文章朗读等。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。