大家好,我是猫头虎 🐯🦉,又来给大家推荐新鲜出炉的 AI 开源项目!
这次要聊的是腾讯 ARC Lab 最近开源的一个相当炸裂的模型 —— AudioStory。
一句话总结:它能把文本、视频,甚至已有音频,变成 长篇、完整、有情绪、有逻辑的音频故事。
👉 有声小说、动画配音、长音频叙事,全都不在话下。
我们先来看看痛点。
传统的 Text-to-Audio (TTA) 技术,的确能生成短音频,但要做长篇叙事就会遇到三大难题:
而 AudioStory 的厉害之处在于:
它是一个 统一模型,把 指令理解 + 音频生成 + 跨场景一致性 全部揉在一起。
这意味着它不仅能生成自然过渡的叙事音频,还能稳住整体基调和情感,效果远超扩散模型或 LLM+扩散的组合。
研究团队也拿出了数据:在 FD (Fréchet Distance) 和 FAD (Fréchet Audio Distance) 两个关键指标上,AudioStory 的表现全面优于基线模型。
AudioStory 提供了三大核心能力:
像 Tom & Jerry 这样的动画片,你只需要给出视觉字幕,AudioStory 就能自动生成拟声和对白。
它还能跨域泛化,比如 Snoopy、哪吒、Donald Duck、熊出没 风格全都能玩。
换句话说:你给它一个视频,模型能自动加上“活灵活现的声音轨”。
和普通的 TTS 不一样,它能把你的文本变成 完整的场景叙事。
示例指令:
生成一段完整音频:Jake Shimabukuro 在录音室弹奏复杂的尤克里里曲目,获得掌声,并在采访中讨论职业生涯。总时长 49.9 秒。
生成结果包含:演奏声 🎶 + 环境声 🌌 + 掌声 👏 + 采访 🎤 —— 全流程沉浸式叙事。
给定一段已有音频,AudioStory 能理解上下文,并自然衔接后续。
例如:输入一段篮球教练训练的录音,模型能生成教练继续讲解战术的音频。
就像 GPT 写小说的续写,但对象换成了音频流。
核心架构是一个 理解–生成统一框架:
最终效果:情绪和过渡都自然得像真人配音师。
项目已开源在 GitHub,环境配置很友好:
git clone https://github.com/TencentARC/AudioStory.git
cd AudioStory
conda create -n audiostory python=3.10 -y
conda activate audiostory
bash install_audiostory.sh
推理示例:
python evaluate/inference.py \
--model_path ckpt/audiostory-3B \
--guidance 4.0 \
--save_folder_name audiostory \
--total_duration 50
依赖环境:
团队在多任务测试中给出了硬指标:
可以说,AudioStory 把长篇叙事音频生成拉到了一个新高度。
在持续噪声去除器(continuous denoisers)构建上,AudioStory 参考了 SEED-X 和 TangoFlux 项目。
学术圈的相互借鉴与迭代,正推动整个 TTA 领域的飞速发展。
为什么我推荐大家关注 AudioStory?
未来如果结合 多模态大模型(如视觉+音频),再叠加 实时生成,那真的就是“AI 声音导演”了。
👉 地址奉上:https://github.com/TencentARC/AudioStory
🐯 总结一句:
AudioStory = 让 AI 不仅能说话,更能讲故事。
从短音频走向长篇叙事,这是 TTA 的关键突破,也可能是下一波“有声内容产业”的催化剂。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。