作者:Chao Yan等
解读:AI生成未来

文章链接:https://arxiv.org/pdf/2511.03601 开源链接:https://github.com/stepfun-ai/Step-Audio-EditX Demo链接:https://stepaudiollm.github.io/step-audio-editx/
亮点直击

图 1:Step-Audio-EditX 与闭源模型的比较。(a) Step-Audio- EditX 在零镜头克隆和情感控制方面的性能均优于 Minimax 和豆包。(b) Step-Audio-EditX 的情感编辑仅在一次迭代后就显著改善了所有三个模型的情感控制音频输出。随着迭代次数的增加,它们的整体性能继续提高
之前的工作 Step-Audio中,引入了一个 Audio-Edit合成模型,用于生成具有细致情感表达和多样化说话风格的数据。在本报告中,保留了先前的模型以及相同的音频分词器。关键的修改包括扩展了情感和说话风格的范围,增加了零样本 TTS 和副语言编辑功能,并将模型参数从 130B 减少到 3B。利用大边距合成数据,3B 模型展示了比先前版本更优越、更稳定的性能。
本系统包含三个主要组件:(1)一个双码本音频分词器,它将参考或输入音频转换为离散的 token;(2)一个音频 LLM,它生成双码本 token 序列;以及(3)一个音频解码器,它使用流匹配(flow matching)方法将音频 LLM 预测的双码本 token 序列转换回音频波形。这种集成架构使 Step-Audio-EditX 能够在统一的框架内执行零样本 TTS 和多样化的编辑任务。因此,它可以直接利用为文本 LLM 开发的丰富的后训练技术生态系统。

图 2:Step-Audio-EditX 架构概览
通过保留先前 Step-Audio 模型中的双码本分词框架来研究 LLM 在使用大边距数据进行后训练的效果。该框架以 2:3 的交错比例使用并行的语言学(16.7 Hz, 1024-codebook)和语义学(25 Hz, 4096-codebook)分词器。基于一系列下游音频分词器重建实验,我们观察到双码本分词器保留了大量的情感、韵律和其他非语言信息,这表明其解耦效果并非最佳。这一缺点使其特别适合用于验证我们的 LLM 后训练策略和所提出的大边距数据驱动方法的有效性。
音频 LLM 使用与先前 Audio-Edit 模型相同的架构,仅在参数规模上有所不同,减小为 3B。为了利用预训练文本 LLM 强大的语言能力,这个 3B 模型首先由一个基于文本的 LLM 初始化,然后在一个文本数据与音频双码本 token 的 1:1 混合数据集上进行训练。音频 LLM 以聊天格式处理文本 token 及其对应的音频双码本 token,随后生成双码本 token 作为唯一输出。
音频解码器由一个流匹配(Flow Matching)模块和一个 BigVGANv2声码器组成。给定输出的音频 token、参考音频和说话人嵌入作为条件,流匹配模块生成梅尔频谱图,而 BigVGANv2 声码器则进一步将梅尔频谱图转换为波形。对于流匹配模块,我们采用扩散变换器(DiT)作为其骨干网络,并在 20 万小时的高质量语音数据上进行训练。这一增强显著提升了其梅尔频谱图的重建能力,从而在发音准确性和音色相似度方面都取得了实质性的提升。
与先前关于 StepAudio 预训练数据集和方法论的工作保持一致,本报告聚焦于后训练数据集及其相应的方法。
采用 SFT(监督微调)来使 Step-Audio-EditX 模型能够执行零样本 TTS 和多样化的音频编辑任务。SFT 数据可分为几个部分:零样本 TTS、情感编辑、说话风格编辑和副语言编辑。值得注意的是,大边距数据集主要针对编辑任务,特别是在情感和说话风格方面。
我们使用一个高质量、经过专业标注的内部数据集进行零样本 TTS 训练,该数据集主要包含中文和英文。此外,我们还使用了少量的粤语和四川话数据来引导模型的方言能力。为确保合成语音具有多样化且高度表现力的风格和情感,并具备强大的零样本性能,该数据集捕捉了单个说话人内部以及广泛说话人群体之间的声音变化,总共包含约 60,000 个独特的个体。
由于在定义类别特征和收集高质量数据方面都存在固有困难,情感和说话风格对表现力丰富的文本到语音系统构成了重大挑战。我们提出了一种直接且高效的大边距合成数据方法,该方法可以在同一说话人的不同情感和说话风格之间执行零样本语音克隆,同时确保对比样本对之间有足够大的差异。每个情感或说话风格只需要一个提示音频片段,从而无需进行昂贵的数据收集。此外,该方法巧妙地将复杂的情感和风格描述转换为基于比较对的数据构建格式。接下来,我们介绍所提出的方法:
配音演员录制。 配音演员录制了富有表现力的情感和说话风格。对于每位演员,每种情感和风格的组合都录制了一个约 10 秒的音频片段。
零样本克隆。 对于每种情感和说话风格,通过从同一说话人中选择相应的情感音频片段和中性音频片段作为提示音频,并使用描述目标属性的文本指令,通过 StepTTS 语音克隆接口处理它们,构建一个三元组 。
边距评分。 为了评估生成的三元组,我们使用一个小型的人工标注数据集开发了一个评分模型。该模型以 1-10 分的等级评估音频对,更高的边距分数对应于更理想的结果。
边距选择。 样本是基于一个边距分数阈值来选择的。这个阈值为不同的情感和风格进行了调整,通用下限设定为 6 分。
值得注意的是,每个三元组中的音频片段都是使用相同的情感或风格文本提示生成的,这鼓励模型在 SFT 训练过程中仅关注情感和风格本身的变化。
副语言线索,如呼吸、笑声和填充停顿(例如,“uhm”),对于增强合成语音的自然度和表现力至关重要。我们通过采用一种“半合成”策略实现了副语言编辑能力,该策略利用了 NVSpeech 数据集。这是一个高度表现力的语音语料库,其对多种副语言类型的丰富标注使得为模型训练构建比较四元组成为可能。这个四元组的构建方式与三元组不同,它使用 NVSpeech 的原始音频和转录作为目标输出,而使用移除副语言标签后的原始转录合成的 StepTTS 语音克隆音频作为输入。
由于副语言编辑是在时域上执行的编辑任务,并且表现出显著的内在边距差异,因此不需要使用边距评分模型进行数据筛选。一小部分四元组数据足以有效激发模型的副语言编辑能力。
为了使我们的模型与人类偏好对齐,我们使用两种不同的方法构建了两类偏好数据集:一类基于人类标注,另一类采用 LLM-as-a-Judge 的方法。
人类标注。 首先从用户那里收集了真实世界的提示音频和相应的文本提示,并使用 SFT 模型生成了 20 个候选响应。然后,我们让标注员根据正确性、韵律和自然度等标准,在 5 分制上对这 20 个响应中的每一个进行评分,从而构建了“选择/拒绝”对。只有得分差距大于 3 的配对才被选中。
LLM-as-a-Judge。 由一个理解模型对情感和说话风格编辑的模型响应进行 1-10 分的评分。然后根据这些分数生成偏好对,最终数据集中只保留分数差距大于 8 分的配对。
这些被选中的大边距配对将用于训练奖励模型和 PPO。
后训练过程将模型的输出与零样本 TTS、各种编辑任务以及人类偏好对齐。这一对齐通过一个两阶段方法完成:首先是 SFT,然后是近端策略优化(PPO)。
SFT 阶段通过在聊天格式中使用不同的系统提示,增强了模型的零样本文本到语音合成和编辑能力。在零样本 TTS 任务中,提示波形被编码为双码本 token,随后被反分词为字符串格式,并整合到系统提示的说话人信息中。待合成的文本作为用户提示,以聊天形式输入,生成的双码本 token 则作为系统的响应返回。对于编辑任务,所有操作都在一个统一的系统提示下定义。用户提示包括原始音频和描述编辑操作的指令,系统响应则提供编辑后的音频 token。模型使用从 1 × 10⁻⁵ 到 1 × 10⁻⁶ 的学习率进行了一个 epoch 的微调。
强化学习进一步增强了模型在零样本 TTS 中的稳定性,以及在执行编辑指令时的能力和表现力。当源提示波形与目标编辑输出在情感和风格特征上存在显著差异时,例如从一个快乐的提示生成悲伤的语音,或者将大声说话转换为耳语时,这些增强效果尤其明显。这种强化学习方法为解决这些挑战提供了一个新颖的视角,它将焦点从实现理想的语音表征解耦,转移到改进大边距配对的构建和奖励模型评估的有效性上。
奖励模型训练。 奖励模型从一个 3B 参数的 SFT 模型初始化,并使用人类标注和 LLM-as-a-Judge 生成的大边距数据进行组合训练,采用 Bradley-Terry 损失进行优化。该模型是一个直接在大型边距双码本 token 对上训练的 token 级奖励模型。这种方法避免了在奖励计算过程中需要使用音频解码器将 token 转换回波形的需要。模型微调一个 epoch,学习率采用余弦衰减策略,初始值为 2 × 10⁻⁵,下限设为 1 × 10⁻⁵。
PPO 训练。 在获得奖励模型后,我们采用 PPO 算法进行进一步训练,使用与奖励模型训练中相同的提示种子,但只选择 SFT 模型最具挑战性的提示。在 PPO 训练阶段,评论家(critic)模型比演员(actor)模型提前预热 80 步。优化器使用 1 × 10⁻⁶ 的初始学习率,并遵循余弦衰减计划,下限为 2 × 10⁻⁷。PPO 的裁剪阈值 ε = 0.2,KL 散度惩罚系数 β = 0.05。
准确全面地评估一个模型在合成情感、风格和副语言语音方面的性能,是一项巨大的挑战。为了解决这个问题,我们首先在 5.1 节中介绍一个全面且可复现的基准测试的构建。然后,我们在 5.2 节中利用这个基准来展示我们的 Step-Audio-EditX 模型的优势。
引入Step-Audio-Edit-Test,这是一个利用 LLM-as-a-judge 模型来评估模型在情感、说话风格和副语言方面性能的基准。所有评估音频都通过零样本语音克隆生成,并随后使用 Gemini-2.5-Pro¹ 模型进行评分。
说话人选择。 用于零样本克隆的说话人集合包括八位说话人(中文和英文各 2 男 2 女)。中文说话人来自 Wenet-Speech4TTS语料库,而英文说话人则分别来自开源的 GLOBE-V2和 Libri-Light数据集。
情感。 情感测试集涵盖五个类别:快乐、愤怒、悲伤、恐惧和惊讶。每个类别包含 50 个中文和 50 个英文提示,每个提示的文本内容都设计为与其对应的目标情感一致。
说话风格。 测试集包括七种说话风格:童声、年迈、夸张、吟诵、热情、娇媚和耳语。每种风格包含 50 个中文和 50 个英文提示,内容与其目标风格相匹配。
副语言。 副语言测试集包括每个说话人的十个副语言标签:呼吸、笑声、惊讶-哦、确认-嗯、沉吟、惊讶-啊、惊讶-哇、叹气、疑问-诶和不满-哼。每个标签包含 50 个相关的 LLM 生成的中文样本和 50 个英文样本。
情感和说话风格评估。 为了评估情感和说话风格,我们在提示中为 Gemini-2.5-Pro 模型提供了预定义的类别集(5 种情感和 7 种风格),并指示它对音频进行分类。每个类别的最终准确率是根据所有说话人的平均值计算得出的。
副语言风格评估。 为了评估副语言编辑的性能,我们为 Gemini-2.5-Pro 模型设计了一个专门的评估提示,采用严格的 1-3 分评分标准(3 = 完美,2 = 有缺陷,1 = 失败)。该提示引导模型主动检查音频中的特定评估点——例如,像 [笑声] 或 [叹气] 这样的标注是否被准确插入。特别强调了最常见的失败模式——“遗漏”,即音频可能听起来流畅,但缺少指令中指定的必要副语言元素。最后,模型在副语言编辑任务中的性能通过计算 Gemini-2.5-Pro 模型生成的总体平均分来评估。
本节详细介绍了我们的模型在 Step-Audio-Edit-Test 基准测试上的表现,并展示了其在编辑由各种闭源 TTS 系统生成的音频时,所具备的卓越编辑准确性和可扩展性。
该评估采用迭代方法进行音频的情感和说话风格编辑。该过程以零样本克隆作为初始音频 iteration₀,然后进行 N 轮迭代编辑。第 N 轮的输出表示为 iterationN。在此特定设置中,N 配置为 3。对于大多数用例,两次编辑迭代足以满足期望的标准。

迭代编辑结果。 如表 1 所示,在对 Iter₀ 音频进行初次编辑后,情感和说话风格的准确性都有了显著提升。此外,随着编辑迭代次数的增加,情感和说话风格的准确性都得到了进一步增强。
提示音频消融研究。 由于后续迭代(从 Iter₂ 开始)的性能提升归因于双码本和提示音频的共同作用。为了分离提示音频的影响,我们进行了一项消融研究,其中提示音频在所有迭代中保持不变。如表 1 的“提示固定(Prompt-Fixed)”部分所示,随着编辑迭代次数的增加,情感和说话风格的准确性持续提高。这清楚地证明了我们大边距方法的有效性。
在闭源模型上的泛化能力。 Step-Audio-EditX 模型的情感和说话风格泛化能力在一系列领先的闭源 TTS 系统上进行了评估,包括 GPT-4o-mini-TTS¹、Eleven_Multilingual_v2²、Doubao-Seed-TTS-2.0³ 和 MiniMax-speech-2.6-hd⁴。对于每个 TTS 系统,选择了一个男性和一个女性的内置声音,用于直接合成源文本的语音。随后,对生成的音频输出应用了三次迭代编辑。如表 2 所示,这些闭源系统的内置声音具备相当强的上下文能力,使它们能够部分传达文本中的情感。在使用 Step-Audio-EditX 进行单次编辑后,所有语音模型的情感和风格准确性都表现出显著改善。在接下来的两次迭代中观察到进一步的增强,有力地证明了我们模型的强大泛化能力。

对闭源模型的情感控制。 由于闭源系统在情感和说话风格控制方面的可用性有限,这里对 Doubao-Seed-TTS-2.0 和 MiniMax-speech-2.6-hd 的比较评估,这两者因其在零样本克隆和情感控制方面的能力而被选中。为了满足闭源模型的最小音频长度限制并确保公平评估,Step-Audio-Edit-Test 中所有说话人的提示音频都延长了时长。这些扩展后的音频被用于零样本克隆,随后进行两次情感编辑迭代。此外,克隆的声音被用来通过每个闭源模型的原生情感控制功能生成情感语音。这个原生情感控制的输出随后又用我们的模型进行了一轮编辑。从表 3 中可以观察到:

副语言编辑可以被认为是一种时域操作。使用 Step-Audio-EditX 评估了单次编辑迭代的效果,并评估了其在其他闭源模型上的泛化能力。
副语言编辑结果。 如表 4 所示,通过在单次编辑迭代中添加副语言标签,可以获得显著的性能提升。

在闭源模型上的泛化能力。 泛化评估与前述评估完全相同。对于每个闭源模型,使用一个女性和一个男性的内置声音,从移除了副语言标签的文本中合成语音。然后对生成的音频进行单次编辑迭代。此外,为了进行比较,我们通过将副语言标签替换为拟声词(例如,“[笑声]”→“哈哈”)来合成额外的音频样本。在使用 Step-Audio-EditX 进行一次副语言编辑迭代后,副语言再现的性能与闭源模型在直接合成本地副语言内容时达到的水平相当。

跨情感、说话风格和副语言编辑任务的评估结果证实,本文简单而强大的方法——大边距学习结合强化学习增强——能够提供高准确性和强大的泛化能力。这种方法论为推进研究和实现实际应用都展示了相当大的前景。
这种大边距学习方法可以直接扩展到各种下游应用。通过在配对的数据样本之间强制一个足够大的边距,模型可以通过 SFT 快速获得目标编辑能力。然后,可以无缝集成强化学习,以在具有挑战性的情况下进一步提升性能。本节详细介绍两个实际的扩展:(1)用于语速控制的语速编辑,以及(2)降噪和静音裁剪。
语速编辑解决了在不同说话人和场景下调节语速的需求。这是通过构建 (文本, 源音频, 加速/减速音频) 三元组来实现的,其中针对给定说话人的速度修改版本是通过使用 SoX-toolkit进行受控的速度扰动生成的。由于语速变化直接导致 token 序列长度的巨大差异,因此即使仅靠 SFT 也足以实现有效的语速编辑。
提示音频中的背景噪音和静音片段会极大地影响零样本语音克隆的性能。模型倾向于将这些声学特征解释为说话人特征的一部分,并随后在合成音频中复现它们。虽然这种模仿在某些用例中是可取的,但在其他情况下则不然。为了解决这个问题,我们采用了一种生成式方法,集成了降噪和静音裁剪功能,这使得能够对提示音频和合成音频进行定向编辑。
降噪 (Denoising) 。 用于降噪的三元组被构建为 (文本, 带噪音频, 源音频),其中 audiosource 作为真值参考,而 audioaugment 是通过加性噪声和混响模拟生成的。
静音裁剪 (Silence Trimming) 。 三元组被定义为 (文本, 源音频, 裁剪后音频),其中 对应包含静音片段的源音频,而 指的是根据 Silero-VAD 产生的时间戳,通过提取和拼接语音片段生成的处理后版本。
Step-Audio-EditX,这是一个基于大语言模型的音频模型,它通过大边距数据进行训练,并通过强化学习进行增强。该模型支持零样本 TTS、情感和说话风格的迭代编辑,以及副语言编辑。本文发现,LLM 的能力和对大边距数据的使用——这在以前的研究中常常被忽视——使得模型能够克服音频表征的局限性。此外,所提出的框架可以轻松扩展到各种任务,包括方言编辑、口音编辑、声音编辑和模仿。最后,需要指出的是,我们的音频编辑过程并非传统意义上严格的“编辑”。相反,它起到一种条件性重新生成或迁移的形式。对于需要部分修改同时保留其余内容不变的任务,本方法提供了一种直接而有效的基于掩码的编辑方法,通过重构配对数据来确保只有编辑过的 token 的特定部分与原始序列不同。
[1] Step-Audio-EditX Technical Report