首个基于LLM的开源音频大模型！阶跃星辰重磅开源Step-Audio-EditX：P声音如此简单！

AI生成未来

发布于 2025-11-17 18:41:21

1510

作者：Chao Yan等

解读：AI生成未来

文章链接：https://arxiv.org/pdf/2511.03601 开源链接：https://github.com/stepfun-ai/Step-Audio-EditX Demo链接：https://stepaudiollm.github.io/step-audio-editx/

亮点直击

首个开源的 LLM 音频编辑模型:Step-Audio-EditX，首个基于大语言模型（LLM）的开源音频模型，不仅擅长表现力丰富和可迭代的音频编辑（涵盖情感、说话风格和副语言特征），还具备强大的零样本文本到语音（TTS）能力。
创新的大边距数据驱动方法: 模型的核心创新在于仅使用大边距（large-margin）的合成数据进行训练，避免了对嵌入先验或辅助模块的依赖。这种方法实现了对声音属性的解耦和迭代控制。
范式转变: 该工作代表了从传统的在表征层面进行解耦的方法，转向通过数据驱动实现控制的根本性转变，证明了仅通过大边距数据进行后训练，就能实现情感和风格的有效控制。

图 1：Step-Audio-EditX 与闭源模型的比较。(a) Step-Audio- EditX 在零镜头克隆和情感控制方面的性能均优于 Minimax 和豆包。(b) Step-Audio-EditX 的情感编辑仅在一次迭代后就显著改善了所有三个模型的情感控制音频输出。随着迭代次数的增加，它们的整体性能继续提高

解决的问题

零样本 TTS 的控制性不足: 尽管零样本 TTS 在生成高质量语音方面取得了巨大进展，但合成语音的情感、风格、口音等属性仍然直接源自参考音频，导致无法对这些属性进行独立和精细的控制。
语音属性解耦困难: 现有的方法虽然尝试通过在输入文本前添加风格指令来控制输出，但在解耦语音属性方面面临挑战，克隆出的声音往往难以有效遵循给定的风格或情感指令。
数据收集成本高昂: 传统方法需要大量高质量、标注精细的数据来训练表现力丰富的 TTS 系统，数据收集和标注的成本非常高。

提出的方案及应用的技术

模型架构: Step-Audio-EditX 采用统一框架，包含三个核心组件：
- 双码本音频分词器 (Dual-codebook Audio Tokenizer): 将音频转换为离散的 token 序列。
- 音频大语言模型 (Audio LLM): 一个 3B 参数的 LLM，处理文本和音频 token，并生成目标音频的 token 序列。该模型由文本 LLM 初始化，并在文本与音频数据的混合数据集上进行训练。
- 音频解码器 (Audio Decoder): 由 Flow Matching 模块和 BigVGANv2 声码器组成，将 LLM 生成的 token 序列转换回高质量的音频波形。
大边距合成数据: 提出了一种高效的数据构建方法。通过零样本语音克隆技术，为同一个说话人生成在情感或风格上有显著差异（即“大边距”）但语言内容相同的音频对。这种对比鲜明的样本对能让模型在训练中专注于学习情感和风格本身的变化。
两阶段后训练策略:
- 监督微调 (SFT): 使用构建的大边距数据对模型进行微调，使其具备零样本 TTS 和多样化的音频编辑能力。
- 强化学习 (RL): 采用 PPO 算法，结合人类标注和 LLM-as-a-Judge 生成的偏好数据，进一步提升模型在零样本 TTS 上的稳定性以及在处理高难度编辑任务（如从快乐提示音生成悲伤语音）时的表现力。

达到的效果

超越闭源模型: 在情感编辑和细粒度控制任务上，Step-Audio-EditX 的性能优于 MiniMax-2.6-hd 和 Doubao-Seed-TTS-2.0 等先进的闭源模型。
迭代编辑的有效性: 模型的编辑能力可以通过迭代来增强。实验表明，经过一轮编辑后，音频的情感和风格准确率就得到显著提升，后续迭代可以进一步优化效果。
强大的泛化能力: Step-Audio-EditX 不仅能编辑自身生成的音频，还能有效编辑来自其他闭源 TTS 系统（如 GPT-4o-mini-TTS, ElevenLabs-v2 等）生成的音频，表现出强大的泛化能力。
多功能扩展性: 该方法可以轻松扩展到其他编辑任务，如语速调节、语音降噪和静音裁剪，展示了其框架的灵活性和广泛的应用前景。

架构

概述

之前的工作 Step-Audio中，引入了一个 Audio-Edit合成模型，用于生成具有细致情感表达和多样化说话风格的数据。在本报告中，保留了先前的模型以及相同的音频分词器。关键的修改包括扩展了情感和说话风格的范围，增加了零样本 TTS 和副语言编辑功能，并将模型参数从 130B 减少到 3B。利用大边距合成数据，3B 模型展示了比先前版本更优越、更稳定的性能。

本系统包含三个主要组件：（1）一个双码本音频分词器，它将参考或输入音频转换为离散的 token；（2）一个音频 LLM，它生成双码本 token 序列；以及（3）一个音频解码器，它使用流匹配（flow matching）方法将音频 LLM 预测的双码本 token 序列转换回音频波形。这种集成架构使 Step-Audio-EditX 能够在统一的框架内执行零样本 TTS 和多样化的编辑任务。因此，它可以直接利用为文本 LLM 开发的丰富的后训练技术生态系统。

图 2：Step-Audio-EditX 架构概览

音频分词器

通过保留先前 Step-Audio 模型中的双码本分词框架来研究 LLM 在使用大边距数据进行后训练的效果。该框架以 2:3 的交错比例使用并行的语言学（16.7 Hz, 1024-codebook）和语义学（25 Hz, 4096-codebook）分词器。基于一系列下游音频分词器重建实验，我们观察到双码本分词器保留了大量的情感、韵律和其他非语言信息，这表明其解耦效果并非最佳。这一缺点使其特别适合用于验证我们的 LLM 后训练策略和所提出的大边距数据驱动方法的有效性。

音频 LLM

音频 LLM 使用与先前 Audio-Edit 模型相同的架构，仅在参数规模上有所不同，减小为 3B。为了利用预训练文本 LLM 强大的语言能力，这个 3B 模型首先由一个基于文本的 LLM 初始化，然后在一个文本数据与音频双码本 token 的 1:1 混合数据集上进行训练。音频 LLM 以聊天格式处理文本 token 及其对应的音频双码本 token，随后生成双码本 token 作为唯一输出。

音频解码器

音频解码器由一个流匹配（Flow Matching）模块和一个 BigVGANv2声码器组成。给定输出的音频 token、参考音频和说话人嵌入作为条件，流匹配模块生成梅尔频谱图，而 BigVGANv2 声码器则进一步将梅尔频谱图转换为波形。对于流匹配模块，我们采用扩散变换器（DiT）作为其骨干网络，并在 20 万小时的高质量语音数据上进行训练。这一增强显著提升了其梅尔频谱图的重建能力，从而在发音准确性和音色相似度方面都取得了实质性的提升。

数据

与先前关于 StepAudio 预训练数据集和方法论的工作保持一致，本报告聚焦于后训练数据集及其相应的方法。

SFT 数据

采用 SFT（监督微调）来使 Step-Audio-EditX 模型能够执行零样本 TTS 和多样化的音频编辑任务。SFT 数据可分为几个部分：零样本 TTS、情感编辑、说话风格编辑和副语言编辑。值得注意的是，大边距数据集主要针对编辑任务，特别是在情感和说话风格方面。

零样本文本到语音

我们使用一个高质量、经过专业标注的内部数据集进行零样本 TTS 训练，该数据集主要包含中文和英文。此外，我们还使用了少量的粤语和四川话数据来引导模型的方言能力。为确保合成语音具有多样化且高度表现力的风格和情感，并具备强大的零样本性能，该数据集捕捉了单个说话人内部以及广泛说话人群体之间的声音变化，总共包含约 60,000 个独特的个体。

情感和说话风格编辑

由于在定义类别特征和收集高质量数据方面都存在固有困难，情感和说话风格对表现力丰富的文本到语音系统构成了重大挑战。我们提出了一种直接且高效的大边距合成数据方法，该方法可以在同一说话人的不同情感和说话风格之间执行零样本语音克隆，同时确保对比样本对之间有足够大的差异。每个情感或说话风格只需要一个提示音频片段，从而无需进行昂贵的数据收集。此外，该方法巧妙地将复杂的情感和风格描述转换为基于比较对的数据构建格式。接下来，我们介绍所提出的方法：

配音演员录制。 配音演员录制了富有表现力的情感和说话风格。对于每位演员，每种情感和风格的组合都录制了一个约 10 秒的音频片段。

零样本克隆。 对于每种情感和说话风格，通过从同一说话人中选择相应的情感音频片段和中性音频片段作为提示音频，并使用描述目标属性的文本指令，通过 StepTTS 语音克隆接口处理它们，构建一个三元组。

边距评分。 为了评估生成的三元组，我们使用一个小型的人工标注数据集开发了一个评分模型。该模型以 1-10 分的等级评估音频对，更高的边距分数对应于更理想的结果。

边距选择。 样本是基于一个边距分数阈值来选择的。这个阈值为不同的情感和风格进行了调整，通用下限设定为 6 分。

值得注意的是，每个三元组中的音频片段都是使用相同的情感或风格文本提示生成的，这鼓励模型在 SFT 训练过程中仅关注情感和风格本身的变化。

副语言编辑

副语言线索，如呼吸、笑声和填充停顿（例如，“uhm”），对于增强合成语音的自然度和表现力至关重要。我们通过采用一种“半合成”策略实现了副语言编辑能力，该策略利用了 NVSpeech 数据集。这是一个高度表现力的语音语料库，其对多种副语言类型的丰富标注使得为模型训练构建比较四元组成为可能。这个四元组的构建方式与三元组不同，它使用 NVSpeech 的原始音频和转录作为目标输出，而使用移除副语言标签后的原始转录合成的 StepTTS 语音克隆音频作为输入。

由于副语言编辑是在时域上执行的编辑任务，并且表现出显著的内在边距差异，因此不需要使用边距评分模型进行数据筛选。一小部分四元组数据足以有效激发模型的副语言编辑能力。

强化学习数据

为了使我们的模型与人类偏好对齐，我们使用两种不同的方法构建了两类偏好数据集：一类基于人类标注，另一类采用 LLM-as-a-Judge 的方法。

人类标注。 首先从用户那里收集了真实世界的提示音频和相应的文本提示，并使用 SFT 模型生成了 20 个候选响应。然后，我们让标注员根据正确性、韵律和自然度等标准，在 5 分制上对这 20 个响应中的每一个进行评分，从而构建了“选择/拒绝”对。只有得分差距大于 3 的配对才被选中。

LLM-as-a-Judge。 由一个理解模型对情感和说话风格编辑的模型响应进行 1-10 分的评分。然后根据这些分数生成偏好对，最终数据集中只保留分数差距大于 8 分的配对。

这些被选中的大边距配对将用于训练奖励模型和 PPO。

训练

后训练过程将模型的输出与零样本 TTS、各种编辑任务以及人类偏好对齐。这一对齐通过一个两阶段方法完成：首先是 SFT，然后是近端策略优化（PPO）。

监督微调

SFT 阶段通过在聊天格式中使用不同的系统提示，增强了模型的零样本文本到语音合成和编辑能力。在零样本 TTS 任务中，提示波形被编码为双码本 token，随后被反分词为字符串格式，并整合到系统提示的说话人信息中。待合成的文本作为用户提示，以聊天形式输入，生成的双码本 token 则作为系统的响应返回。对于编辑任务，所有操作都在一个统一的系统提示下定义。用户提示包括原始音频和描述编辑操作的指令，系统响应则提供编辑后的音频 token。模型使用从 1 × 10⁻⁵ 到 1 × 10⁻⁶ 的学习率进行了一个 epoch 的微调。

强化学习

强化学习进一步增强了模型在零样本 TTS 中的稳定性，以及在执行编辑指令时的能力和表现力。当源提示波形与目标编辑输出在情感和风格特征上存在显著差异时，例如从一个快乐的提示生成悲伤的语音，或者将大声说话转换为耳语时，这些增强效果尤其明显。这种强化学习方法为解决这些挑战提供了一个新颖的视角，它将焦点从实现理想的语音表征解耦，转移到改进大边距配对的构建和奖励模型评估的有效性上。

奖励模型训练。 奖励模型从一个 3B 参数的 SFT 模型初始化，并使用人类标注和 LLM-as-a-Judge 生成的大边距数据进行组合训练，采用 Bradley-Terry 损失进行优化。该模型是一个直接在大型边距双码本 token 对上训练的 token 级奖励模型。这种方法避免了在奖励计算过程中需要使用音频解码器将 token 转换回波形的需要。模型微调一个 epoch，学习率采用余弦衰减策略，初始值为 2 × 10⁻⁵，下限设为 1 × 10⁻⁵。

PPO 训练。 在获得奖励模型后，我们采用 PPO 算法进行进一步训练，使用与奖励模型训练中相同的提示种子，但只选择 SFT 模型最具挑战性的提示。在 PPO 训练阶段，评论家（critic）模型比演员（actor）模型提前预热 80 步。优化器使用 1 × 10⁻⁶ 的初始学习率，并遵循余弦衰减计划，下限为 2 × 10⁻⁷。PPO 的裁剪阈值 ε = 0.2，KL 散度惩罚系数 β = 0.05。

评估

准确全面地评估一个模型在合成情感、风格和副语言语音方面的性能，是一项巨大的挑战。为了解决这个问题，我们首先在 5.1 节中介绍一个全面且可复现的基准测试的构建。然后，我们在 5.2 节中利用这个基准来展示我们的 Step-Audio-EditX 模型的优势。

评估基准

引入Step-Audio-Edit-Test，这是一个利用 LLM-as-a-judge 模型来评估模型在情感、说话风格和副语言方面性能的基准。所有评估音频都通过零样本语音克隆生成，并随后使用 Gemini-2.5-Pro¹ 模型进行评分。

说话人选择。 用于零样本克隆的说话人集合包括八位说话人（中文和英文各 2 男 2 女）。中文说话人来自 Wenet-Speech4TTS语料库，而英文说话人则分别来自开源的 GLOBE-V2和 Libri-Light数据集。

情感。 情感测试集涵盖五个类别：快乐、愤怒、悲伤、恐惧和惊讶。每个类别包含 50 个中文和 50 个英文提示，每个提示的文本内容都设计为与其对应的目标情感一致。

说话风格。 测试集包括七种说话风格：童声、年迈、夸张、吟诵、热情、娇媚和耳语。每种风格包含 50 个中文和 50 个英文提示，内容与其目标风格相匹配。

副语言。 副语言测试集包括每个说话人的十个副语言标签：呼吸、笑声、惊讶-哦、确认-嗯、沉吟、惊讶-啊、惊讶-哇、叹气、疑问-诶和不满-哼。每个标签包含 50 个相关的 LLM 生成的中文样本和 50 个英文样本。

情感和说话风格评估。 为了评估情感和说话风格，我们在提示中为 Gemini-2.5-Pro 模型提供了预定义的类别集（5 种情感和 7 种风格），并指示它对音频进行分类。每个类别的最终准确率是根据所有说话人的平均值计算得出的。

副语言风格评估。 为了评估副语言编辑的性能，我们为 Gemini-2.5-Pro 模型设计了一个专门的评估提示，采用严格的 1-3 分评分标准（3 = 完美，2 = 有缺陷，1 = 失败）。该提示引导模型主动检查音频中的特定评估点——例如，像 [笑声] 或 [叹气] 这样的标注是否被准确插入。特别强调了最常见的失败模式——“遗漏”，即音频可能听起来流畅，但缺少指令中指定的必要副语言元素。最后，模型在副语言编辑任务中的性能通过计算 Gemini-2.5-Pro 模型生成的总体平均分来评估。

评估结果

本节详细介绍了我们的模型在 Step-Audio-Edit-Test 基准测试上的表现，并展示了其在编辑由各种闭源 TTS 系统生成的音频时，所具备的卓越编辑准确性和可扩展性。

情感和说话风格编辑结果

该评估采用迭代方法进行音频的情感和说话风格编辑。该过程以零样本克隆作为初始音频 iteration₀，然后进行 N 轮迭代编辑。第 N 轮的输出表示为 iterationN。在此特定设置中，N 配置为 3。对于大多数用例，两次编辑迭代足以满足期望的标准。

迭代编辑结果。 如表 1 所示，在对 Iter₀ 音频进行初次编辑后，情感和说话风格的准确性都有了显著提升。此外，随着编辑迭代次数的增加，情感和说话风格的准确性都得到了进一步增强。

提示音频消融研究。 由于后续迭代（从 Iter₂ 开始）的性能提升归因于双码本和提示音频的共同作用。为了分离提示音频的影响，我们进行了一项消融研究，其中提示音频在所有迭代中保持不变。如表 1 的“提示固定（Prompt-Fixed）”部分所示，随着编辑迭代次数的增加，情感和说话风格的准确性持续提高。这清楚地证明了我们大边距方法的有效性。

在闭源模型上的泛化能力。 Step-Audio-EditX 模型的情感和说话风格泛化能力在一系列领先的闭源 TTS 系统上进行了评估，包括 GPT-4o-mini-TTS¹、Eleven_Multilingual_v2²、Doubao-Seed-TTS-2.0³ 和 MiniMax-speech-2.6-hd⁴。对于每个 TTS 系统，选择了一个男性和一个女性的内置声音，用于直接合成源文本的语音。随后，对生成的音频输出应用了三次迭代编辑。如表 2 所示，这些闭源系统的内置声音具备相当强的上下文能力，使它们能够部分传达文本中的情感。在使用 Step-Audio-EditX 进行单次编辑后，所有语音模型的情感和风格准确性都表现出显著改善。在接下来的两次迭代中观察到进一步的增强，有力地证明了我们模型的强大泛化能力。

对闭源模型的情感控制。 由于闭源系统在情感和说话风格控制方面的可用性有限，这里对 Doubao-Seed-TTS-2.0 和 MiniMax-speech-2.6-hd 的比较评估，这两者因其在零样本克隆和情感控制方面的能力而被选中。为了满足闭源模型的最小音频长度限制并确保公平评估，Step-Audio-Edit-Test 中所有说话人的提示音频都延长了时长。这些扩展后的音频被用于零样本克隆，随后进行两次情感编辑迭代。此外，克隆的声音被用来通过每个闭源模型的原生情感控制功能生成情感语音。这个原生情感控制的输出随后又用我们的模型进行了一轮编辑。从表 3 中可以观察到：

与另外两个模型相比，我们的 Step-Audio-EditX 在其零样本克隆能力中表现出更高的情感准确性。
所有音频样本的情感准确性在仅仅一次编辑迭代后就得到了显著提高。
对零样本克隆音频应用一次情感编辑迭代的效果，优于闭源模型原生情感控制功能所产生的结果。

副语言结果

副语言编辑可以被认为是一种时域操作。使用 Step-Audio-EditX 评估了单次编辑迭代的效果，并评估了其在其他闭源模型上的泛化能力。

副语言编辑结果。 如表 4 所示，通过在单次编辑迭代中添加副语言标签，可以获得显著的性能提升。

在闭源模型上的泛化能力。 泛化评估与前述评估完全相同。对于每个闭源模型，使用一个女性和一个男性的内置声音，从移除了副语言标签的文本中合成语音。然后对生成的音频进行单次编辑迭代。此外，为了进行比较，我们通过将副语言标签替换为拟声词（例如，“[笑声]”→“哈哈”）来合成额外的音频样本。在使用 Step-Audio-EditX 进行一次副语言编辑迭代后，副语言再现的性能与闭源模型在直接合成本地副语言内容时达到的水平相当。

跨情感、说话风格和副语言编辑任务的评估结果证实，本文简单而强大的方法——大边距学习结合强化学习增强——能够提供高准确性和强大的泛化能力。这种方法论为推进研究和实现实际应用都展示了相当大的前景。

扩展

这种大边距学习方法可以直接扩展到各种下游应用。通过在配对的数据样本之间强制一个足够大的边距，模型可以通过 SFT 快速获得目标编辑能力。然后，可以无缝集成强化学习，以在具有挑战性的情况下进一步提升性能。本节详细介绍两个实际的扩展：（1）用于语速控制的语速编辑，以及（2）降噪和静音裁剪。

语速编辑 (Speed Editing)

语速编辑解决了在不同说话人和场景下调节语速的需求。这是通过构建 (文本, 源音频, 加速/减速音频) 三元组来实现的，其中针对给定说话人的速度修改版本是通过使用 SoX-toolkit进行受控的速度扰动生成的。由于语速变化直接导致 token 序列长度的巨大差异，因此即使仅靠 SFT 也足以实现有效的语速编辑。

降噪和静音裁剪 (Denoising and Silence Trimming)

提示音频中的背景噪音和静音片段会极大地影响零样本语音克隆的性能。模型倾向于将这些声学特征解释为说话人特征的一部分，并随后在合成音频中复现它们。虽然这种模仿在某些用例中是可取的，但在其他情况下则不然。为了解决这个问题，我们采用了一种生成式方法，集成了降噪和静音裁剪功能，这使得能够对提示音频和合成音频进行定向编辑。

降噪 (Denoising) 。用于降噪的三元组被构建为 (文本, 带噪音频, 源音频)，其中 audiosource 作为真值参考，而 audioaugment 是通过加性噪声和混响模拟生成的。

静音裁剪 (Silence Trimming) 。三元组被定义为 (文本, 源音频, 裁剪后音频)，其中对应包含静音片段的源音频，而指的是根据 Silero-VAD 产生的时间戳，通过提取和拼接语音片段生成的处理后版本。

结论

Step-Audio-EditX，这是一个基于大语言模型的音频模型，它通过大边距数据进行训练，并通过强化学习进行增强。该模型支持零样本 TTS、情感和说话风格的迭代编辑，以及副语言编辑。本文发现，LLM 的能力和对大边距数据的使用——这在以前的研究中常常被忽视——使得模型能够克服音频表征的局限性。此外，所提出的框架可以轻松扩展到各种任务，包括方言编辑、口音编辑、声音编辑和模仿。最后，需要指出的是，我们的音频编辑过程并非传统意义上严格的“编辑”。相反，它起到一种条件性重新生成或迁移的形式。对于需要部分修改同时保留其余内容不变的任务，本方法提供了一种直接而有效的基于掩码的编辑方法，通过重构配对数据来确保只有编辑过的 token 的特定部分与原始序列不同。