首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >语音合成突破:F5R-TTS首次实现非自回归模型的GRPO优化,零样本克隆性能显著提升

语音合成突破:F5R-TTS首次实现非自回归模型的GRPO优化,零样本克隆性能显著提升

作者头像
机器之心
发布于 2025-04-20 16:13:39
发布于 2025-04-20 16:13:39
2260
举报
文章被收录于专栏:机器之心机器之心

人工智能技术日新月异的今天,语音合成(TTS)领域正经历着一场前所未有的技术革命。最新一代文本转语音系统不仅能够生成媲美真人音质的高保真语音,更实现了「只听一次」就能完美复刻目标音色的零样本克隆能力。这一突破性进展的背后,是大规模语音数据的积累和大模型技术的快速发展。

同时在技术前沿,DeepSeek 系列凭借其 GRPO 算法(群体相对策略优化),正以强化学习引领大语言模型(LLM)研究的新趋势。目前,强化学习已扩展至自回归 TTS 系统。然而,由于非自回归架构与大型语言模型(LLMs)存在根本性的结构差异,此前非自回归 TTS 系统尚未出现成功的强化学习集成案例,这一技术难题仍有待可行的研究解决方案。

近日,腾讯PCG社交线的研究团队针对这一挑战提出了 F5R-TTS 系统,首创性地通过将模型输出转化为概率表征,打通了非自回归 TTS 模型强化学习的「任督二脉」。

  • 论文标题:F5R-TTS: Improving Flow-Matching based Text-to-Speech with Group Relative Policy Optimization
  • 论文链接:https://arxiv.org/abs/2504.02407
  • 项目主页:https://frontierlabs.github.io/F5R/

F5R-TTS 的创新架构

F5R-TTS 通过模型架构创新,有效融合了强化学习。这项研究的主要贡献体现在三个方面:

  1. 概率化输出转换:研究团队创新性地将 flow-matching 的 TTS 模型输出转化为概率表征。这一转换使得强化学习在非自回归模型中的应用成为可能,为后续的优化奠定了基础。
  2. GRPO 优化方法:首次成功将 GRPO 方法应用于非自回归 TTS 模型,采用词错误率(WER)和说话人相似度(SIM)作为奖励信号,有效引导模型优化方向。
  3. 零样本语音克隆验证:在零样本语音克隆场景中,F5R-TTS 模型展现出显著优势。相较于传统非自回归 TTS 基线模型,在可懂度(WER 相对降低 29.5%)和说话人一致性(SIM 相对提升 4.6%)两方面均实现显著提升。

F5R-TTS 的训练流程分为两个关键阶段:第一阶段基于 flow-matching 损失函数进行预训练;第二阶段采用 GRPO 算法对模型进行精细优化。这种两阶段训练策略既保证了模型的初始性能,又通过强化学习实现了针对性优化。

概率化改造:强化学习的基础

我们选用了当前效果领先的非自回归 TTS——F5-TTS 作为骨架。为了使非自回归模型适配 GRPO 框架,F5R-TTS 进行了关键的概率化改造。具体而言,模型被设计为预测每一步输出时的分布概率,而非直接预测确定性的输出值。这一改造使得模型输出具有了概率分布特性,为强化学习中的策略梯度计算提供了必要条件。

在第一阶段预训练中,目标函数仍采用 flow-matching 的形式,其核心思想是将标准正态分布 x0 的概率路径匹配到近似真实数据 x1 的分布上。模型在最后一层预测高斯分布的均值与方差,并通过优化参数以最大化 x1 −x0 的对数似然函数。这一过程可以形式化为以下目标函数:

简化后,模型使用下式作为预训练的目标函数

GRPO 强化

在 GRPO 阶段,预训练模型作为策略模型进行微调,同时以预训练参数初始化参考模型。

具体实现上,策略模型的前向运算需要执行类似推理过程的采样操作 —— 从标准高斯分布初始输入开始,逐步计算每一步的输出概率分布,并进行采样。采样结果既用于计算奖励信号,也需要与参考模型输出比较以计算 KL 散度损失,确保优化过程的稳定性。

奖励函数的设计是 GRPO 阶段的核心。研究团队选择了词错误率(WER)和说话人相似度(SIM)作为主要奖励指标,分别对应语音克隆任务中最关键的两个方面:语义准确性和音色保真度。

最终,GRPO 阶段的目标函数定义如下:

实验

研究团队设计了全面的实验来验证 F5R-TTS 的有效性。实验设置包括:

  • 预训练阶段:采用 7226 小时开源数据集 WenetSpeech4TTS Basic
  • GRPO 微调:随机选取 100 小时高质量语音数据
  • 评估体系:基于 Seed-TTS 测试标准,构建包含 2560 个测试样本(含 400 个高难度样本、140 个带噪样本)的评估集,计算 WER 和 SIM

研究团队首先采用 t-SNE 技术对说话人相似度进行二维空间可视化。结果如图 4 显示,对比其他方法,F5R-TTS 模型的合成结果能够更准确地按照目标说话人实现聚类。这一可视化结果直观地证明了 F5R-TTS 模型在说话人相似度方面的优越表现。

其次,采用全局方差(Global Variance, GV)指标进行频谱分析。如图 5 所示,F5R 模型的曲线与真实语音的曲线吻合度最高,再次验证 F5-R 模型的合成语音在频谱特性上与真实语音具有更高的相似性。

客观测评指标表明,采用 WER 和 SIM 作为奖励信号的 GRPO 方法,使 F5R-TTS 相较于基线在语义准确性和说话人相似度两个维度均获得提升。在说话人相关奖励的引导下,F5R 能够通过上下文学习更精准地克隆目标说话人的声学特征。

值得注意的是,在困难测试集上,F5R 在 WER 指标上的相对优势更为显著 —— 这得益于 WER 相关奖励组件有效增强了模型的语义保持能力。另外,为验证所提方法的泛化能力,实验还用在内部数据集上进行了重复验证,结果表明 GRPO 方法在不同数据集上都能持续提升模型性能。

同时,三个模型在困难测试集上的性能均出现下降,这表明文本复杂度的增加通常会导致模型稳定性降低。该现象将成为后续优化研究的重要切入点。

未来展望

F5R-TTS 首次成功将 GRPO 整合到非自回归 TTS 系统中,突破了非自回归模型难以应用强化学习的技术瓶颈。实验证明该方法能同时提升语义准确性和音色保真度,为零样本语音克隆提供了更优解决方案。文章提出的概率化输出转换策略为其他生成模型的强化学习优化提供了可借鉴的思路。这项研究不仅推动了语音合成技术本身的发展,也为其他生成式 AI 模型的优化提供了新思路。

展望未来,研究团队计划从三个方向继续深入探索:

  1. 强化学习算法扩展:探索将 PPO、DDPO 等其他强化学习算法整合到非自回归语音合成系统的可行性,寻求更高效的优化路径。
  2. 奖励函数优化:设计更精细、多层次的奖励函数,进一步提升模型在自然、个性化和表现力等方面的效果。
  3. 大规模数据验证:在更大规模、更多样化的训练数据上验证方法的扩展性,探索数据规模与模型性能的量化关系。

随着技术的不断成熟,期待未来出现更加自然、个性化和富有表现力的语音合成系统,为智能交互、内容创作、辅助技术等领域带来全新可能。

© THE END

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
字节打造大模型TTS:不仅能高保真合成,而且支持调整编辑
你猜的没错,这段有声书并非来自某个专业制作团队,而是一个 AI 模型 Seed-TTS,而这个模型则是来自字节跳动的 Seed Team。
机器之心
2024/06/27
5970
字节打造大模型TTS:不仅能高保真合成,而且支持调整编辑
多模态大语言模型框架:攻克电影配音难题,多数据集指标显著超越现有最优方法!
配音涉及为视频中的对话添加正确的人类声音,确保与角色的唇部动作同步,并传达场景中的情感。它在电影、电视、动画和游戏中发挥着至关重要的作用,增强了沉浸感,并有效传达情感和氛围。现有的配音方法可以分为两类,这两类都专注于学习不同风格的关键先验信息以生成高质量的声音。第一类专注于学习有效的说话人风格表示[7, 15, 23, 60]。第二类旨在利用给定视频输入的视觉信息来学习适当的韵律[15, 25, 37, 70]。然而,这些先验信息的准确性不足以满足现实场景中电影配音的需求。例如,针对不同类型(如对话、旁白和独白)以及细粒度属性(如期望的年龄和性别)的自适应配音尚未得到充分研究[17, 25]。
AIGC 先锋科技
2025/05/22
1430
多模态大语言模型框架:攻克电影配音难题,多数据集指标显著超越现有最优方法!
MaskGCT:这款全新的开源语音大模型太强了,击败CosyVoice、XTTS-v2( 视频翻译、声音克隆、跨语种合成 )
分享一个效果非常不错的TTS,一个完全非自回归的TTS模型,实现了 SOTA 零样本 TTS 性能。
AI进修生
2024/12/02
7500
MaskGCT:这款全新的开源语音大模型太强了,击败CosyVoice、XTTS-v2( 视频翻译、声音克隆、跨语种合成 )
【论文复现】VALL-E:语音合成的新里程
语音合成技术在现代通信和娱乐领域扮演着愈发重要的角色,它不仅让我们能够与机器更自然地交流,还在无障碍技术和虚拟助手等方面发挥着关键作用。近期,一个引人注目的语音合成模型——VALL-E,突破性地采用了全新的方法,为语音合成技术的未来开启了新的里程碑。
Eternity._
2024/11/21
2020
【论文复现】VALL-E:语音合成的新里程
微软NaturalSpeech 2来了,基于扩散模型的语音合成
文本到语音合成(Text to Speech,TTS)作为生成式人工智能(Generative AI 或 AIGC)的重要课题,在近年来取得了飞速发展。多年来,微软亚洲研究院机器学习组和微软 Azure 语音团队持续关注语音合成领域的研究与相关产品的研发。为了合成既自然又高质量的人类语音,NaturalSpeech 研究项目(https://aka.ms/speechresearch)应运而生。 NaturalSpeech 的研究分为以下几个阶段: 1)第一阶段,在单个说话人上取得媲美人类的语音质量。为此,
机器之心
2023/05/16
1.4K0
微软NaturalSpeech 2来了,基于扩散模型的语音合成
超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了
国产大模型进步的速度早已大大超出了人们的预期。年初 DeepSeek-R1 爆火,以超低的成本实现了部分超越 OpenAI o1 的表现,一定程度上让人不再过度「迷信」国外大模型。
机器之心
2025/05/17
2790
超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了
DeepSeekMath:突破开放式语言模型中数学推理能力的极限,提出了GRPO,值得关注学习
由于数学推理具有复杂且结构化的特性,这对语言模型构成了重大挑战。在本文中,我们介绍了 DeepSeekMath 7B 模型,该模型在 DeepSeek-Coder-Base-v1.5 7B 模型的基础上,使用从 Common Crawl 获取的 1200 亿个与数学相关的标记,以及自然语言和代码数据继续进行预训练。在不依赖外部工具包和投票技术的情况下,DeepSeekMath 7B 在竞赛级 MATH 基准测试中取得了 51.7% 的优异成绩,接近 Gemini-Ultra 和 GPT-4 的性能水平。通过对 DeepSeekMath 7B 生成的 64 个样本进行自洽性验证,其在 MATH 基准测试上的准确率达到了 60.9%。DeepSeekMath 的数学推理能力归因于两个关键因素:首先,我们通过精心设计的数据选择流程,充分利用了公开可用的网络数据的巨大潜力。其次,我们引入了组相对策略优化(Group Relative Policy Optimization,GRPO)算法,这是近端策略优化(Proximal Policy Optimization,PPO)算法的一个变体,它在增强数学推理能力的同时,还能优化 PPO 的内存使用。
AI浩
2025/06/08
1920
DeepSeekMath:突破开放式语言模型中数学推理能力的极限,提出了GRPO,值得关注学习
VALL-E vs. Spark-TTS:两代零样本 TTS 模型横评
零样本文本转语音(Zero-Shot TTS)技术近年出现突破。微软于 2023 年发布的 VALL-E 模型仅需 3 秒语音示例便可克隆说话人声音,刷新业界对数据门槛的认知。随后开源的 Spark-TTS 进一步在更小模型上实现了近似甚至更优的效果(Ai Voice Cloning-以3秒音频就可克隆著称的网站就是宣称在此模型基础上自研),并原生支持多语言与细粒度可控。作为一名语音 AI 开发者,我将从架构原理、音质保真、推理效率、训练成本与实现复杂度五个维度,客观比较这两代代表性模型,探讨它们在语音克隆发展中的阶段性定位。
用户11657403
2025/05/14
3040
2019深度学习语音合成指南(下)
作者提出了一种全卷积字符到谱图的框架,可以实现完全并行计算。该框架是基于注意力的序列到序列模型。这个模型在LibriSpeech ASR数据集上进行训练。
AiTechYun
2019/12/23
9660
2019深度学习语音合成指南(下)
突破性语音合成技术!Spark-TTS:用大模型打造你的专属AI语音助手
你是否想过,未来的语音助手不仅能“说话”,还能根据你的需求调整音色、语速甚至情绪?近日,一项名为Spark-TTS的突破性技术横空出世,它基于大语言模型(LLM),将文本转语音(TTS)技术推向了全新高度!今天,我们就来揭秘这项“会思考的语音合成黑科技”。
AI浩
2025/03/17
2.5K0
突破性语音合成技术!Spark-TTS:用大模型打造你的专属AI语音助手
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(二)
机器之心专栏 本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。 本文将分 2 期进行连载,共介绍 19 个在语音合成任务上曾取得 SOTA 的经典模型。 第 1 期:BLSTM-RNN、WaveNet、SampleRNN、Char2Wav
机器之心
2023/03/29
3.9K0
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(二)
2019深度学习语音合成指南
还记得我们前几天发出文章《百度超谷歌跃升全球第二,硬核语音技术成抢夺智能音箱“C位”的王牌》吗?本篇文章我们将讲述 2019年深度学习语音合成的一些进展,其中有多篇工作来自百度研究院或百度硅谷人工智能研究院。
AI科技评论
2019/09/04
1.4K0
2019深度学习语音合成指南
只需3秒就能偷走你的声音!微软发布语音合成模型VALL-E:网友惊呼「电话诈骗」门槛又拉低了
---- 新智元报道   编辑:LRS 【新智元导读】微软新模型VALL-E实现地表最强zero-shot语音合成,刚开口声音就被偷了? 让ChatGPT帮你写剧本,Stable Diffusion生成插图,做视频就差个配音演员了?它来了! 最近来自微软的研究人员发布了一个全新的文本到语音(text-to-speech, TTS)模型VALL-E,只需要提供三秒的音频样本即可模拟输入人声,并根据输入文本合成出对应的音频,而且还可以保持说话者的情感基调。 论文链接:https://arxiv.org
新智元
2023/02/24
1.1K0
只需3秒就能偷走你的声音!微软发布语音合成模型VALL-E:网友惊呼「电话诈骗」门槛又拉低了
Spark-TTS: AI语音合成的"变声大师"
嘿,各位AI爱好者!还记得那些机器人般毫无感情的合成语音吗?或者那些只能完全模仿但无法创造的语音克隆?今天我要介绍的Spark-TTS模型,可能会让这些问题成为历史。想象一下,你可以让AI不仅说出任何文字,还能控制它是用男声还是女声,高音还是低音,快速还是缓慢...听起来很酷,对吧?那就跟我一起来看看这个语音合成界的"变声大师"吧!
martinzh7
2025/06/02
3510
Spark-TTS: AI语音合成的"变声大师"
万字长文 | 让大模型“开口”说话:从ASR到端到端语音大模型的进化之旅
在我们日常生活中,语音助手已经变得越来越普遍。无论是苹果的Siri还是小米的小爱同学,它们都在以惊人的速度渗透到我们的日常生活中。这些语音助手不仅能够帮我们查询天气、设定闹钟,还能与我们进行对话,提供个性化的建议和服务。我们不禁要问,这些智能语音助手是如何做到如此智能、自然地与我们交流的?
AI研思录
2025/02/20
1.5K0
万字长文 | 让大模型“开口”说话:从ASR到端到端语音大模型的进化之旅
ACL 2025 高分接收 | 高感情语音技术:逻辑智能小语种TTS破局之道
语音合成(TTS)技术近十年来突飞猛进,从早期的拼接式合成和统计参数模型,发展到如今的深度神经网络与扩散、GAN 等先进架构,实现了接近真人的自然度与情感表达,广泛赋能智能助手、无障碍阅读、沉浸式娱乐等场景。
机器之心
2025/05/27
1590
ACL 2025 高分接收 | 高感情语音技术:逻辑智能小语种TTS破局之道
每周AI论文速递(250512-250516)
我们提出 Seed1.5-VL,这是一个旨在提升通用多模态理解与推理能力的视觉-语言基础模型。Seed1.5-VL 包含一个 5.32 亿参数的视觉编码器和一个 200 亿激活参数的专家混合 (Mixture-of-Experts, MoE) 大语言模型。尽管其架构较为轻量,但该模型在广泛的公共 VLM 基准测试和内部评估集中展现出卓越性能,在 60 个公共基准测试中的 38 个上取得了业界领先性能。此外,在 GUI 控制和游戏玩法等智能体任务中,Seed1.5-VL 的表现优于包括 OpenAI CUA 和 Claude 3.7 在内的主流多模态系统。除了视觉与视频理解能力外,该模型还具备强大的推理能力,使其在视觉谜题等多模态推理挑战中表现尤为突出。我们相信这些能力将支持更广泛的任务应用。本报告详细总结了我们在模型设计、数据构建及各阶段训练过程中构建 Seed1.5-VL 的经验,希望这份报告能推动相关领域的进一步研究。Seed1.5-VL 现已通过 https://www.volcengine.com/ 开放访问(火山引擎模型 ID:doubao-1-5-thinking-vision-pro-250428)。
叶子的技术碎碎念
2025/05/18
1180
每周AI论文速递(250512-250516)
扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源
当前,强化学习(RL)方法在最近模型的推理任务上取得了显著的改进,比如 DeepSeek-R1、Kimi K1.5,显示了将 RL 直接用于基础模型可以取得媲美 OpenAI o1 的性能。
机器之心
2025/04/22
1870
扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源
一键体验自然流畅的ChatTTS语音合成,ChatTTS突破开源语音天花板
最近,一个名为 ChatTTS 的文本转语音项目突然火了起来,吸引了大家的广泛关注。
一个程序猿的异常
2024/06/17
8560
一键体验自然流畅的ChatTTS语音合成,ChatTTS突破开源语音天花板
喜马拉雅贺雯迪:基于端到端TTS实现更具生动、富有情感的语音合成表现
贺雯迪:我目前在喜马拉雅担任音频算法工程师,工作研发方向是TTS前端模块的搭建和优化(文本规整化、分词、多音字、韵律预测等),后端算法(基于深度生成模型的说话人风格转换,情感控制,音色克隆、神经声码器的优化等方向)。演讲的方向是基于现在语音合成领域中比较具有发展前瞻性和讨论性的:语音合成中风格迁移、情感合成、音色克隆等衍生方向上技术和应用方面的探讨。
LiveVideoStack
2020/05/08
1.4K0
喜马拉雅贺雯迪:基于端到端TTS实现更具生动、富有情感的语音合成表现
推荐阅读
字节打造大模型TTS:不仅能高保真合成,而且支持调整编辑
5970
多模态大语言模型框架:攻克电影配音难题,多数据集指标显著超越现有最优方法!
1430
MaskGCT:这款全新的开源语音大模型太强了,击败CosyVoice、XTTS-v2( 视频翻译、声音克隆、跨语种合成 )
7500
【论文复现】VALL-E:语音合成的新里程
2020
微软NaturalSpeech 2来了,基于扩散模型的语音合成
1.4K0
超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了
2790
DeepSeekMath:突破开放式语言模型中数学推理能力的极限,提出了GRPO,值得关注学习
1920
VALL-E vs. Spark-TTS:两代零样本 TTS 模型横评
3040
2019深度学习语音合成指南(下)
9660
突破性语音合成技术!Spark-TTS:用大模型打造你的专属AI语音助手
2.5K0
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(二)
3.9K0
2019深度学习语音合成指南
1.4K0
只需3秒就能偷走你的声音!微软发布语音合成模型VALL-E:网友惊呼「电话诈骗」门槛又拉低了
1.1K0
Spark-TTS: AI语音合成的"变声大师"
3510
万字长文 | 让大模型“开口”说话:从ASR到端到端语音大模型的进化之旅
1.5K0
ACL 2025 高分接收 | 高感情语音技术:逻辑智能小语种TTS破局之道
1590
每周AI论文速递(250512-250516)
1180
扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源
1870
一键体验自然流畅的ChatTTS语音合成,ChatTTS突破开源语音天花板
8560
喜马拉雅贺雯迪:基于端到端TTS实现更具生动、富有情感的语音合成表现
1.4K0
相关推荐
字节打造大模型TTS:不仅能高保真合成,而且支持调整编辑
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档