首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >SAM 真的开始「分割一切」,从图像到声音,Meta 开源 SAM Audio

SAM 真的开始「分割一切」,从图像到声音,Meta 开源 SAM Audio

原创
作者头像
CoovallyAIHub
发布2025-12-19 13:52:54
发布2025-12-19 13:52:54
260
举报

继 SAM(Segment Anything Model) 与 SAM 3D 之后,Meta 正式将 Segment Anything 系列扩展到了音频领域。

最新发布的 SAM Audio,是一款统一的音频分割模型。它支持通过文本、视觉线索以及时间跨度提示,从复杂的音频混合中分离出任意目标声音。这一能力使音频分割第一次具备了类似 SAM 在图像领域中的「通用性」。

Meta的Segment Anything系列正在构建一个多模态分割帝国。从图像的SAM到3D的SAM 3D,再到现在的SAM Audio,Meta正在实现“分割一切”的完整愿景。

与此同时,Meta 还同步开放了核心模型 Perception Encoder Audiovisual(PE-AV),并发布了完整的评测体系,包括 SAM Audio-Bench 与 SAM Audio Judge。

Meta 已将SAM Audio 整合进 Segment Anything Playground,这是一个全新的平台,任何人都可以在其中体验其最新模型。

图片
图片

地址:https://aidemos.meta.com/segment-anything

SAM Audio 想解决什么问题?

当 Meta 发布 SAM Audio 时,很多人的第一反应是:“是不是又一个音频分离模型?”但如果只是把混合音频切成几条干净音轨,其实并不需要一个叫「Segment Anything」的新成员。

SAM Audio 并不是传统意义上的音频切分工具。它真正想解决的问题,是:如何让人以“自然的方式”,在复杂真实世界中,指挥 AI 去理解并分离声音。这也是它与以往音频分离模型最根本的不同。

在传统音频工程或 AI 模型中,“分离”往往意味着:人声 / 伴奏二选一,固定类别的音效提取,在干净、可控的数据集上运行。这些方法在技术上并不简单,但它们默认了一个前提:用户必须适应模型,而不是模型适应用户。

SAM Audio 反过来提出了一个问题:如果人能用语言、指向、时间感知来理解声音,模型为什么不能?因此,SAM Audio 并不是简单地「把音频切断」,而是试图构建一个可被自然提示驱动的通用音频分割系统。

它的目标更接近:

  • 在复杂环境中定位「你想要的那个声音」
  • 并在不依赖专业音频知识的情况下完成操作

三种提示方式,对应三种“人类直觉”

在现实世界中,人们从来不是只靠「听」来理解声音的。我们会结合:

  • 语言描述(“刚才那个狗叫声”)
  • 视觉线索(“画面里拿着麦克风的人”)
  • 时间感知(“从 1 分钟开始一直到结尾”)

SAM Audio 正是围绕这种人类感知方式,设计了三类提示机制:

  • 文本提示:用自然语言定义目标声音
  • 视觉提示:通过点击画面中的声源来指示
  • 时间跨度提示(Span Prompt):标记声音出现的区间

其中,时间跨度提示并不是简单的时间裁剪,而是一次性作用于整段音频分离逻辑,特别适合长音频和持续性噪声。

这使得音频分割第一次不再是「调参数的工程问题」,而是「给提示的交互问题」。

PE-AV 的意义:不是“看视频”,而是“理解声源”

SAM Audio 的性能核心来自 Perception Encoder Audiovisual(PE-AV)。如果没有 PE-AV(Perception Encoder Audiovisual),SAM Audio 只能是一个性能不错的音频模型。

图片
图片
  • PE-AV 论文地址:https://ai.meta.com/research/publications/pushing-the-frontier-of-audiovisual-perception-with-large-scale-multimodal-correspondence-learning/
  • 代码地址:https://github.com/facebookresearch/perception_models

PE-AV可以理解为SAM Audio的“耳朵”,让它具备了真实世界感知能力。PE-AV 构建于 Meta 今年早些时候开源的 Perception Encoder 之上,并进一步扩展到视听联合建模。它通过在精确的时间点上对齐视频帧与音频,提供了语义丰富的特征表示。

图片
图片

这种时间对齐机制至关重要——它将“所见”与“所闻”精确匹配,使模型能够理解画面中的说话者何时开口,乐器何时被演奏,甚至推断画面外发生的声音事件。

技术层面,PE-AV集成了多个先进组件:使用PyTorchVideo进行高效视频处理,利用FAISS进行大规模语义搜索,并采用对比学习框架。

图片
图片

模型在超过1亿个视频上通过大规模多模态对比学习进行训练,确保了广泛的覆盖范围和强大的泛化能力。

这种设计使模型能够在真实视频场景中,准确分离可见声源(如讲话者、乐器),并结合上下文推断画面外的声音事件。

模型架构与数据策略

在模型层面,SAM Audio 采用了基于流匹配扩散 Transformer 的生成式框架。

图片
图片

模型接收:一段混合音频、一个或多个多模态提示,并生成:目标音轨、剩余音轨

为支撑这一架构,Meta 构建了一套完整的数据引擎,用于解决高质量音频分离数据难以规模化的问题。该引擎包括:

  • 自动音频混合流程
  • 多模态提示生成
  • 稳健的伪标签机制

训练数据同时覆盖语音、音乐和通用声音事件,包含真实与合成场景,从而提升模型在现实环境中的鲁棒性。

完整评估体系

与模型一同发布的,还有两项关键评测工具。

SAM Audio-Bench:首个真实环境的音频分离基准测试集,覆盖语音、音乐和通用音效三大领域,支持文本、视觉和时间跨度三种提示类型的评估。

图片
图片

与传统使用合成音频的数据集不同,SAM Audio-Bench使用来自各种高质量来源的真实音频和视频,每个10秒样本都配有多模态提示,更加贴近实际应用场景。

SAM Audio Judge:首个用于音频分离的自动评估模型,采用无参考评估方式,从人类感知角度评价音频分离质量。

传统指标依赖于原始音轨的对比,而SAM Audio Judge定义了九个感知维度,包括召回率、精确度、保真度和整体质量,能更好地反映实际聆听体验。

性能领先

实验结果显示,SAM Audio 在多项任务上超过此前的通用模型,并在多个领域接近或达到专用模型水平。

其推理速度快于实时(RTF ≈ 0.7),可在 5 亿至 30 亿参数规模下高效运行。

图片
图片

但SAM Audio仍有局限:目前不支持音频本身作为提示,无提示的完整音频分离也不在其能力范围内。此外,分离高度相似的音频事件仍然具有挑战性,比如从合唱中分离单个歌手或从管弦乐中分离单一乐器。

音频感知AI

“音频工具的民主化是迈向更易用、更具创意和包容性AI的一步。”Meta在官方声明中表示。随着SAM Audio的发布,AI不仅能够理解图像中的物体、重建3D场景,现在还能精准识别和分离复杂音频环境中的各种声音元素。

SAM Audio 并不是一个“万能音频工具”,但它明确展示了一种趋势:

音频分割正在从“工程问题”,走向“感知与交互问题”。从专业音频工程师到普通视频创作者,从无障碍技术开发者到日常用户,SAM Audio预示着声音编辑和处理将变得更加智能和普及。

Meta已将SAM Audio和PE-AV开源,并整合进Segment Anything Playground平台。从今天起,任何人都可以上传自己的音频或视频文件,体验这一突破性模型的能力。

当模型能够理解文本、视觉和时间线索,音频处理的门槛将被显著降低。这不仅对创作者和研究者有价值,也为无障碍技术、辅助听觉系统等应用打开了新的可能。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • SAM Audio 想解决什么问题?
  • 三种提示方式,对应三种“人类直觉”
  • PE-AV 的意义:不是“看视频”,而是“理解声源”
  • 模型架构与数据策略
  • 完整评估体系
  • 性能领先
  • 音频感知AI
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档