首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >ACL 2025 高分接收 | 高感情语音技术:逻辑智能小语种TTS破局之道

ACL 2025 高分接收 | 高感情语音技术:逻辑智能小语种TTS破局之道

作者头像
机器之心
发布于 2025-05-27 01:22:00
发布于 2025-05-27 01:22:00
1400
举报
文章被收录于专栏:机器之心机器之心

该工作由北京深度逻辑智能科技有限公司×宁波东方理工EIT-NLP实验室联合完成。

语音合成(TTS)技术近十年来突飞猛进,从早期的拼接式合成和统计参数模型,发展到如今的深度神经网络与扩散、GAN 等先进架构,实现了接近真人的自然度与情感表达,广泛赋能智能助手、无障碍阅读、沉浸式娱乐等场景。

然而,这一繁荣几乎局限于英语、普通话等资源充沛的大语种;全球一千多种小语种由于语料稀缺、文字无空格或多音调等复杂语言学特性,在数据收集、文本前端处理和声学建模上都面临巨大挑战,导致高质量 TTS 迟迟无法落地。破解「小语种困境」既是学术前沿课题,也是实现数字包容与多语文化传播的关键。

面对这一挑战,逻辑智能团队提出了一种针对低资源语言 TTS 的解决方案并应用于泰语 TTS 合成,该工作已经被 ACL 2025 Industry track 正式接收!

  • 论文标题:Scaling Under-Resourced TTS: A Data-Optimized Framework with Advanced Acoustic Modeling for Thai
  • 论文地址:https://arxiv.org/abs/2504.07858
  • 效果试听:https://luoji.cn/static/thai/demo.html

这项工作提出了一种数据优化驱动的声学建模框架的创新方案,通过从语音、文本、音素、语法等多个维度构建系统化的泰语数据集,并结合先进的声学建模技术,成功实现了在有限资源下的高质量 TTS 合成效果。

此外,该框架还具备 zero-shot 声音克隆的能力,展示了优异的跨场景适用性,为行业提供了一种在数据稀少环境下高效构建小语种 TTS 系统的有效范式,对推动全球小语种 TTS 技术的落地与普及具有重要的启示和借鉴意义。

数据优化驱动的声学建模框架方案

该工作遵循数据驱动模型能力的整体思路:

  • 首先从源头切入,系统化采集并标注跨领域语音、文本与语言学信息,构建覆盖广、颗粒度细的多维泰语语料库;
  • 随后通过 LLM 增强的停顿预测、词切分与混合式 G2P,将原始文本稳健转换为结构化的「音素-声调」序列;
  • 最后在此精炼输入之上,引入声调感知的 Phoneme-Tone BERT 与多源特征驱动的 GAN 解码器,实现高保真、低延迟的语音合成,并支持零样本声音克隆。

整套框架以数据质量为核心抓手、以模块化设计保障可扩展性,为解决小语种 TTS「数据稀缺 + 语言复杂」双重瓶颈提供了一条可复制、可落地的工程化路径。

泰语专项数据集构建

该工作构建了一套专为低资源泰语 TTS 设计的多维数据集,涵盖语音、文本和注释三大类:

  • 语音数据——500 小时来自新闻、社媒、播客等多领域语料,外加 40 小时金融、医疗、教育、法律等垂直领域语料,兼顾通用合成与专业术语发音;
  • 文本数据——100 万句句子语料用于训练 Phoneme-Tone BERT 提升上下文韵律建模,10 万词词表用于训练分词器,解决泰语无空格书写难题;
  • 注释数据——1.5 万句停顿标注确保精准断句,4 万词音素-声调标注强化 G2P 与五声调建模。该数据集既保证了规模,又注重多域覆盖和细粒度语言监督,为在资源稀缺环境下实现工业级泰语 TTS 与零样本声音克隆奠定了坚实基础。

先进的预处理流程

该工作设计了一套强大的预处理流程。预处理流水线最大的亮点在于「三步一体、逐层解耦」地化解泰语文本的无标点、无空格、声调复杂三重难题:

  • 首先通过 SFT 微调的 Typhoon2 LLM,对 1.5 万句人工标注语料学习停顿规律,在原始文本中智能插入停顿标签以更好地建模口语韵律;
  • 随后在扩充至 10 万词的分词词典支撑下,改进版 pythainlp Tokenizer 将连续书写的泰文字流精准切分,为领域专有词提供稳健支持;
  • 最后利用 4 万词的音素-声调注释库,结合规则+Transformer 混合式 G2P,把每个词映射成带五声调标记的 IPA 音素序列。

该流水线不仅输出结构化的「音素-声调」序列,大幅降低后续声学模型学习难度,也为其他低资源音调语言提供了可复用的文本前端范式。

卓越的 TTS 模型架构

该工作的 TTS 模型集成了「多源特征 × 声调感知 × 零样本克隆」的组合设计:

  • 首先利用多语种预训练模型提取时长、音高、能量等强鲁棒特征,并以风格编码器压缩说话人/情感信息,为后续零样本克隆奠定基础;
  • 其次,通过 Phoneme-Tone BERT 在音素序列中显式融入五声调,精准捕捉泰语语义-韵律关联;
  • 最后以 GAN 解码器直接从音素与预测特征合成波形,联合时域、频域与感知损失实现高保真、低延迟合成。

整体采取「先独立训练预测器,再与解码器联合微调」的策略,兼顾稳定性与音质,使模型达到 SOTA 表现并支持零样本声音克隆。

实验效果

  • 预处理链路有效性:消融实验表明,停顿预测、分词优化和 G2P 优化缺一不可;当分别移除这三项时,系统的 WER 从 6.3% 依次升至 6.5%、10.2% 与 22.5%,自然度评分 NMOS 从 4.4 下降到 3.8、3.9 与 3.0,尤其 G2P 的影响最大,证明精确声调与音素映射是泰语 TTS 的质量瓶颈。
  • 通用与行业场景综合表现:在公开基准 TSync2 和金融、医疗、教育、法律四大真实业务脚本上,模型始终保持最低 WER 与最高 NMOS,不仅超越开源系统,也优于 Google TTS、Microsoft TTS 等商业方案;特别是在专业术语发音与语速控制上,用户反馈显示本系统误读率更低、韵律更自然,验证了该框架对多场景的强鲁棒性与可落地性。
  • 零样本声音克隆能力:在仅提供几秒参考音的条件下,模型即可生成目标说话人高保真语音,取得 SIM 0.91 和 SMOS 4.5,显著超过 OpenVoice 的 0.85 与 4.0;嵌入可视化进一步展示了对说话人 timbre 的准确聚类,表明「声调感知 + 多源特征」设计能够在低资源环境下实现工业级的声音克隆体验。

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
语音合成学习(一)综述
爱丁堡大学课程(全英文,有能力的推荐学习一遍):https://speech.zone/courses/speech-synthesis/
全栈程序员站长
2022/09/13
2.8K0
高保真音色媲美真人,StyleTTS为QQ浏览器「听书」语音注入情感
今年 4 月,QQ 浏览器宣布 「小说频道」正式变更为 「免费小说」频道,这意味着阅文平台旗下的万千小说将免费供用户阅读。网络文学已浮浮沉沉二十余载,其阅读方式也随之几经改变。
机器之心
2021/10/26
1.9K0
高保真音色媲美真人,StyleTTS为QQ浏览器「听书」语音注入情感
喜马拉雅贺雯迪:基于端到端TTS实现更具生动、富有情感的语音合成表现
贺雯迪:我目前在喜马拉雅担任音频算法工程师,工作研发方向是TTS前端模块的搭建和优化(文本规整化、分词、多音字、韵律预测等),后端算法(基于深度生成模型的说话人风格转换,情感控制,音色克隆、神经声码器的优化等方向)。演讲的方向是基于现在语音合成领域中比较具有发展前瞻性和讨论性的:语音合成中风格迁移、情感合成、音色克隆等衍生方向上技术和应用方面的探讨。
LiveVideoStack
2020/05/08
1.4K0
喜马拉雅贺雯迪:基于端到端TTS实现更具生动、富有情感的语音合成表现
MaskGCT:这款全新的开源语音大模型太强了,击败CosyVoice、XTTS-v2( 视频翻译、声音克隆、跨语种合成 )
分享一个效果非常不错的TTS,一个完全非自回归的TTS模型,实现了 SOTA 零样本 TTS 性能。
AI进修生
2024/12/02
7200
MaskGCT:这款全新的开源语音大模型太强了,击败CosyVoice、XTTS-v2( 视频翻译、声音克隆、跨语种合成 )
超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了
国产大模型进步的速度早已大大超出了人们的预期。年初 DeepSeek-R1 爆火,以超低的成本实现了部分超越 OpenAI o1 的表现,一定程度上让人不再过度「迷信」国外大模型。
机器之心
2025/05/17
2570
超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了
VALL-E vs. Spark-TTS:两代零样本 TTS 模型横评
零样本文本转语音(Zero-Shot TTS)技术近年出现突破。微软于 2023 年发布的 VALL-E 模型仅需 3 秒语音示例便可克隆说话人声音,刷新业界对数据门槛的认知。随后开源的 Spark-TTS 进一步在更小模型上实现了近似甚至更优的效果(Ai Voice Cloning-以3秒音频就可克隆著称的网站就是宣称在此模型基础上自研),并原生支持多语言与细粒度可控。作为一名语音 AI 开发者,我将从架构原理、音质保真、推理效率、训练成本与实现复杂度五个维度,客观比较这两代代表性模型,探讨它们在语音克隆发展中的阶段性定位。
用户11657403
2025/05/14
2640
《语音信号处理》整理[通俗易懂]
说话的声音(声带震动)和其他声音相比,有独特的时域和频域模式。声带的震动产生基频(fundamental frequency),口腔共振(the pharyngeal and oral resonance cavities)等产生高频谐波
全栈程序员站长
2022/07/21
1.9K0
《语音信号处理》整理[通俗易懂]
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(二)
机器之心专栏 本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。 本文将分 2 期进行连载,共介绍 19 个在语音合成任务上曾取得 SOTA 的经典模型。 第 1 期:BLSTM-RNN、WaveNet、SampleRNN、Char2Wav
机器之心
2023/03/29
3.9K0
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(二)
字节打造大模型TTS:不仅能高保真合成,而且支持调整编辑
你猜的没错,这段有声书并非来自某个专业制作团队,而是一个 AI 模型 Seed-TTS,而这个模型则是来自字节跳动的 Seed Team。
机器之心
2024/06/27
5540
字节打造大模型TTS:不仅能高保真合成,而且支持调整编辑
自动语音识别(ASR)与文本转语音(TTS)技术的应用与发展
近年来,语音技术在人工智能领域的发展极为迅速,语音识别(ASR)和文本转语音(TTS)作为两项重要的核心技术,被广泛应用于智能助手、客户服务系统、翻译设备以及教育平台等多个领域。这两种技术各自解决了语音交互中的不同问题,共同助力于实现自然、流畅的人机对话。
kwan的解忧杂货铺
2024/11/16
5530
深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
对比语音来说,NLP 技术在深度学习中更为普及。在介绍语音合成任务前,我们先来了解语音这一模态的特点,并将其与文本模态对比。
汀丶人工智能
2024/09/11
5730
深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
微软NaturalSpeech语音合成推出第三代,网友惊呼:超自然!实至名归
文本到语音合成(Text to Speech,TTS)作为生成式人工智能(Generative AI 或 AIGC)的重要课题,在近年来取得了飞速发展。在大模型(LLM)时代下,语音合成技术能够扩展大模型的语音交互能力,更是受到了广泛的关注。
机器之心
2024/03/26
1.2K0
微软NaturalSpeech语音合成推出第三代,网友惊呼:超自然!实至名归
NLP入门之语音模型原理
这一篇文章其实是参考了很多篇文章之后写出的一篇对于语言模型的一篇科普文,目的是希望大家可以对于语言模型有着更好地理解,从而在接下来的NLP学习中可以更顺利的学习. 1:传统的语音识别方法: 这里我们
云时之间
2018/04/11
1.5K0
NLP入门之语音模型原理
业界 | 速度提升270倍!微软和浙大联合推出全新语音合成系统FastSpeech
AI科技评论按:目前,基于神经网络的端到端文本到语音合成技术发展迅速,但仍面临不少问题——合成速度慢、稳定性差、可控性缺乏等。为此,微软亚洲研究院机器学习组和微软(亚洲)互联网工程院语音团队联合浙江大学提出了一种基于Transformer的新型前馈网络FastSpeech,兼具快速、鲁棒、可控等特点。与自回归的Transformer TTS相比,FastSpeech将梅尔谱的生成速度提高了近270倍,将端到端语音合成速度提高了38倍,单GPU上的语音合成速度达到了实时语音速度的30倍。
AI科技评论
2019/06/05
9430
业界 | 速度提升270倍!微软和浙大联合推出全新语音合成系统FastSpeech
业界 | 带有韵律的合成语音:谷歌展示基于Tacotron的新型TTS方法
选自Google Blog 作者:Yuxuan Wang、RJ Skerry-Ryan 机器之心编译 参与:黄小天、李亚洲、李泽南 神经网络文本转语音(TTS)是自然语言处理领域的重要方向,很多谷歌的产品(如 Google Assistant、搜索、地图)都内置了这样的功能。目前的系统已经可以产生接近人声的语音,但仍然显得不够自然。在最近发表的两篇论文中,谷歌为自己的 Tacotron 系统加入了对韵律学的建模,以帮助人们利用自己的声音进行个性化语音合成。 最近,谷歌在基于神经网络的文本转语音(TTS)的研
机器之心
2018/05/08
1.8K0
业界 | 带有韵律的合成语音:谷歌展示基于Tacotron的新型TTS方法
TTS系统评测方法介绍--WSRD AI评测实验室
TTS的实现涉及到语言学、语音学的诸多复杂知识,因合成技术的区别,不同的TTS系统在准确性、自然度、清晰度、还原度等方面也有着不一样的表现,如何从多维度综合评价TTS系统质量成了TTS测试人员的一大挑战。
个性化推荐评测组
2018/07/02
17.4K3
TTS系统评测方法介绍--WSRD AI评测实验室
Facebook发布部署在CPU上的高效、实时文本转语音系统,速度提高160倍
作者 | Qing He、Thilo Koehler、Antony D’Avirro、Chetan Gupta
代码医生工作室
2020/05/25
1K0
Facebook发布部署在CPU上的高效、实时文本转语音系统,速度提高160倍
从技术到产品,苹果Siri深度学习语音合成技术揭秘
选自苹果 机器之心编译 参与:蒋思源、李亚洲、路雪 Siri 是一个使用语音合成技术与人类进行交流的个人助手。从 iOS 10 开始,苹果已经在 Siri 的语音中用到了深度学习,iOS 11 中的 Siri 依然延续这一技术。使用深度学习使得 Siri 的语音变的更自然、流畅,更人性化。机器之心对苹果期刊的该技术博客进行了介绍,更详细的技术请查看原文。 介绍 语音合成,也就是人类声音的人工产品,被广泛应用于从助手到游戏、娱乐等各种领域。最近,配合语音识别,语音合成已经成为了 Siri 这样的语音助手不可
机器之心
2018/05/08
1.4K0
从技术到产品,苹果Siri深度学习语音合成技术揭秘
linux 嵌入式 tts引擎_语音合成(TTS)的概念和分类[通俗易懂]
智能音箱在ASR(语音识别)以及NLP自然语义处理常用框架 – 兔尔摩斯的文章 – 知乎
全栈程序员站长
2022/08/03
4.3K0
linux 嵌入式 tts引擎_语音合成(TTS)的概念和分类[通俗易懂]
苹果接入GPT-4o,Siri史诗级加强背后的语音技术是如何实现的?
OpenAI 最新推出的生成模型 GPT-4o,带来了一系列震撼的功能,用技术彻底颠覆了产品形态。产品最大的亮点在于:以近乎完美的交互方式,为每位用户带来 G
腾讯云开发者
2024/06/16
1.2K0
苹果接入GPT-4o,Siri史诗级加强背后的语音技术是如何实现的?
推荐阅读
语音合成学习(一)综述
2.8K0
高保真音色媲美真人,StyleTTS为QQ浏览器「听书」语音注入情感
1.9K0
喜马拉雅贺雯迪:基于端到端TTS实现更具生动、富有情感的语音合成表现
1.4K0
MaskGCT:这款全新的开源语音大模型太强了,击败CosyVoice、XTTS-v2( 视频翻译、声音克隆、跨语种合成 )
7200
超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了
2570
VALL-E vs. Spark-TTS:两代零样本 TTS 模型横评
2640
《语音信号处理》整理[通俗易懂]
1.9K0
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(二)
3.9K0
字节打造大模型TTS:不仅能高保真合成,而且支持调整编辑
5540
自动语音识别(ASR)与文本转语音(TTS)技术的应用与发展
5530
深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
5730
微软NaturalSpeech语音合成推出第三代,网友惊呼:超自然!实至名归
1.2K0
NLP入门之语音模型原理
1.5K0
业界 | 速度提升270倍!微软和浙大联合推出全新语音合成系统FastSpeech
9430
业界 | 带有韵律的合成语音:谷歌展示基于Tacotron的新型TTS方法
1.8K0
TTS系统评测方法介绍--WSRD AI评测实验室
17.4K3
Facebook发布部署在CPU上的高效、实时文本转语音系统,速度提高160倍
1K0
从技术到产品,苹果Siri深度学习语音合成技术揭秘
1.4K0
linux 嵌入式 tts引擎_语音合成(TTS)的概念和分类[通俗易懂]
4.3K0
苹果接入GPT-4o,Siri史诗级加强背后的语音技术是如何实现的?
1.2K0
相关推荐
语音合成学习(一)综述
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档