
继 SAM(Segment Anything Model) 与 SAM 3D 之后,Meta 正式将 Segment Anything 系列扩展到了音频领域。
最新发布的 SAM Audio,是一款统一的音频分割模型。它支持通过文本、视觉线索以及时间跨度提示,从复杂的音频混合中分离出任意目标声音。这一能力使音频分割第一次具备了类似 SAM 在图像领域中的「通用性」。
Meta的Segment Anything系列正在构建一个多模态分割帝国。从图像的SAM到3D的SAM 3D,再到现在的SAM Audio,Meta正在实现“分割一切”的完整愿景。
与此同时,Meta 还同步开放了核心模型 Perception Encoder Audiovisual(PE-AV),并发布了完整的评测体系,包括 SAM Audio-Bench 与 SAM Audio Judge。
Meta 已将SAM Audio 整合进 Segment Anything Playground,这是一个全新的平台,任何人都可以在其中体验其最新模型。

地址:https://aidemos.meta.com/segment-anything
当 Meta 发布 SAM Audio 时,很多人的第一反应是:“是不是又一个音频分离模型?”但如果只是把混合音频切成几条干净音轨,其实并不需要一个叫「Segment Anything」的新成员。
SAM Audio 并不是传统意义上的音频切分工具。它真正想解决的问题,是:如何让人以“自然的方式”,在复杂真实世界中,指挥 AI 去理解并分离声音。这也是它与以往音频分离模型最根本的不同。
在传统音频工程或 AI 模型中,“分离”往往意味着:人声 / 伴奏二选一,固定类别的音效提取,在干净、可控的数据集上运行。这些方法在技术上并不简单,但它们默认了一个前提:用户必须适应模型,而不是模型适应用户。
SAM Audio 反过来提出了一个问题:如果人能用语言、指向、时间感知来理解声音,模型为什么不能?因此,SAM Audio 并不是简单地「把音频切断」,而是试图构建一个可被自然提示驱动的通用音频分割系统。
它的目标更接近:
在现实世界中,人们从来不是只靠「听」来理解声音的。我们会结合:
SAM Audio 正是围绕这种人类感知方式,设计了三类提示机制:
其中,时间跨度提示并不是简单的时间裁剪,而是一次性作用于整段音频分离逻辑,特别适合长音频和持续性噪声。
这使得音频分割第一次不再是「调参数的工程问题」,而是「给提示的交互问题」。
SAM Audio 的性能核心来自 Perception Encoder Audiovisual(PE-AV)。如果没有 PE-AV(Perception Encoder Audiovisual),SAM Audio 只能是一个性能不错的音频模型。

PE-AV可以理解为SAM Audio的“耳朵”,让它具备了真实世界感知能力。PE-AV 构建于 Meta 今年早些时候开源的 Perception Encoder 之上,并进一步扩展到视听联合建模。它通过在精确的时间点上对齐视频帧与音频,提供了语义丰富的特征表示。

这种时间对齐机制至关重要——它将“所见”与“所闻”精确匹配,使模型能够理解画面中的说话者何时开口,乐器何时被演奏,甚至推断画面外发生的声音事件。
技术层面,PE-AV集成了多个先进组件:使用PyTorchVideo进行高效视频处理,利用FAISS进行大规模语义搜索,并采用对比学习框架。

模型在超过1亿个视频上通过大规模多模态对比学习进行训练,确保了广泛的覆盖范围和强大的泛化能力。
这种设计使模型能够在真实视频场景中,准确分离可见声源(如讲话者、乐器),并结合上下文推断画面外的声音事件。
在模型层面,SAM Audio 采用了基于流匹配扩散 Transformer 的生成式框架。

模型接收:一段混合音频、一个或多个多模态提示,并生成:目标音轨、剩余音轨
为支撑这一架构,Meta 构建了一套完整的数据引擎,用于解决高质量音频分离数据难以规模化的问题。该引擎包括:
训练数据同时覆盖语音、音乐和通用声音事件,包含真实与合成场景,从而提升模型在现实环境中的鲁棒性。
与模型一同发布的,还有两项关键评测工具。
SAM Audio-Bench:首个真实环境的音频分离基准测试集,覆盖语音、音乐和通用音效三大领域,支持文本、视觉和时间跨度三种提示类型的评估。

与传统使用合成音频的数据集不同,SAM Audio-Bench使用来自各种高质量来源的真实音频和视频,每个10秒样本都配有多模态提示,更加贴近实际应用场景。
SAM Audio Judge:首个用于音频分离的自动评估模型,采用无参考评估方式,从人类感知角度评价音频分离质量。
传统指标依赖于原始音轨的对比,而SAM Audio Judge定义了九个感知维度,包括召回率、精确度、保真度和整体质量,能更好地反映实际聆听体验。
实验结果显示,SAM Audio 在多项任务上超过此前的通用模型,并在多个领域接近或达到专用模型水平。
其推理速度快于实时(RTF ≈ 0.7),可在 5 亿至 30 亿参数规模下高效运行。

但SAM Audio仍有局限:目前不支持音频本身作为提示,无提示的完整音频分离也不在其能力范围内。此外,分离高度相似的音频事件仍然具有挑战性,比如从合唱中分离单个歌手或从管弦乐中分离单一乐器。
“音频工具的民主化是迈向更易用、更具创意和包容性AI的一步。”Meta在官方声明中表示。随着SAM Audio的发布,AI不仅能够理解图像中的物体、重建3D场景,现在还能精准识别和分离复杂音频环境中的各种声音元素。
SAM Audio 并不是一个“万能音频工具”,但它明确展示了一种趋势:
音频分割正在从“工程问题”,走向“感知与交互问题”。从专业音频工程师到普通视频创作者,从无障碍技术开发者到日常用户,SAM Audio预示着声音编辑和处理将变得更加智能和普及。
Meta已将SAM Audio和PE-AV开源,并整合进Segment Anything Playground平台。从今天起,任何人都可以上传自己的音频或视频文件,体验这一突破性模型的能力。
当模型能够理解文本、视觉和时间线索,音频处理的门槛将被显著降低。这不仅对创作者和研究者有价值,也为无障碍技术、辅助听觉系统等应用打开了新的可能。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。