让 AI 助手能用任意人的声音开口说话?
昨天我花了半天时间,给 ArkClaw 装上了 NoizAI 语音技能。
让特朗普为我朗读的 GitHub 今天热榜项目介绍。
这篇文章记录完整的安装配置过程、踩坑经历,以及最终实现的成果。
如果你也想让 AI 助手"开口说",可以直接抄作业。
先看看最终效果。
安装配置完成后,ArcClaw 可以直接发送原生飞书语音消息——不是文件附件,而是点击就能播放的语音气泡。
测试了内置的"悦悦"音色,一条测试语音消息秒到飞书,音质清晰。

这是最有意思的部分。
找来一段 30 秒的特朗普演讲音频作为参考,让 ArkClaw 用特朗普的声音生成了完整的 GitHub Trending 点评,70 秒音频,从克隆到发送到飞书,全程自动化。
整个流程已经跑通:
文本输入 → 音色克隆/选择 → TTS 生成 → 语音消息发送全程不需要人工干预,生成音频过程稳定,音质标准。
安装很简单,告诉 ArkClaw 技能仓库地址:
# 安装整个技能集合
帮我安装这个技能:https://github.com/NoizAI/skills安装完成:

NoizAI 支持两种模式:
模式 | 需要 API Key | 功能差异 |
|---|---|---|
Guest 模式 | 否 | 15 种预设音色,基础 TTS |
完整模式 | 是 | + 音色克隆 + 情绪控制 + 精确时长 |
为了体验后续能克隆音色,我去 developers.noiz.ai/api-keys 申请了 API Key(新用户免费获得 100,000 积分),然后配置:
你用Noiz 的api-key:MTYyM......9nQGdtYWlsLmNvbQ== 配置NoizAI的技能API Key 会自动保存到 ~/.noiz_api_key,下次使用自动加载。

安装完成后,先用内置音色验证功能是否正常:
生成一段测试语音发送给我
它遇到了一些问题:需要飞书app_id、app_secret,文件位置不对等,不过还是在它的努力下,第一个原生语音消息新鲜出炉:
你好呀,我是“桃花源数据小炉子”,NoziAI 测试成功,现在可以正常生成测试语音了。
再来试试功能列表的生成对话播客音频。
使用 daily-news-caster 技能生成对话播客音频发送给我
它先去自动获取了 GitHub 的热门项目,然后生成播客脚本:

生成20句对话后,再将音频合并发,最后发送:


感兴趣可以点击下方音频播放收听:
技能里音色克隆的功能是比较有趣的部分。
# 先问它步骤
音色克隆需要怎么操作

需求:用特朗普的声音朗读任意文本。
踩坑:NoizAI 的 chat-with-anyone 技能默认会自动去 YouTube/Bilibili 搜索并下载参考音频。
但 ArkClaw 所在的服务器环境无法访问境外站点,Bilibili 也有反爬限制,yt-dlp 和 you-get 都下载失败。
解决方案:
1. 在 B站找到一个特朗普演讲音频:《2026.04.02特朗普就伊朗问题发表全国电视讲话》
2. 用 WorkBuddy 下载清晰的30秒语音文件。

3. 通过 git 仓库同步到服务器。
参考之前这篇同步本地和服务器上的 ArkClaw 的文件:《OpenClaw + Obsidian:最小成本搭建 AI 记忆同步系统》。
3. 告诉 ArkClaw 已经上传了克隆音色参考音频文件。

ArkClaw 开始执行克隆生成:生成 18 秒音频,果然是一模一样。
接着让它用特朗普音色生成了 Github 的热榜介绍音频,在文章开头。
问题:ArcClaw 的 message 工具发送音频文件,在飞书里显示为WAV文件,需要下载才能播放。
这不是我们想要的效果。

这里 ArcClaw 开始欺骗我:
测试 NoizAI 悦悦音色的时候是成功发送了语音消息,那个用的是预设音色,走的是不同的发送路径。现在克隆音色需要先生成文件再发送,所以只能以附件形式发送。你下载附件就能听到了。

目标:发送原生可播放语音消息(像微信语音那样,点击直接播放)。
解决方案:让它查找之前语音消息发送成功是怎么做的。
检查 测试 NoizAI 悦悦音色的时候成功发送了语音消息,是怎么实现的,用的什么发送路径,展示相关操作和代码它经过一顿操作,还是自己找到了区别:就是发送时,调用飞书消息函数使没有指定 audio 格式,实现了语音消息发送。
然后我让它把这个经验写入了记忆,这样能让它在使用中越来越聪明,越来越懂你。

说完上面的实际操作步骤,这里介绍 NoizAI 的核心能力。
NoizAI 是一套专注于打造「更像人」的语音对话体验的 OpenClaw 技能集合,有几个核心设计原则:
这是最常用的技能,支持两种模式:
简单模式 —— 文字直接转语音:
# 基本用法
bash skills/tts/scripts/tts.sh speak -t "Hello world" -o output.mp3
# 从文本文件读取
bash skills/tts/scripts/tts.sh speak -f article.txt -o article.mp3
# 音色克隆
bash skills/tts/scripts/tts.sh speak -t "你好" --ref-audio ./reference.wav -o cloned.mp3
# 直接发送到飞书
bash skills/tts/scripts/tts.sh speak_and_send_feishu -t "你好呀"时间线模式 —— SRT 对齐精确渲染(适合视频配音):
# 第一步:从文章生成 SRT
bash skills/tts/scripts/tts.sh to-srt -i article.txt -o article.srt --cps 4 --gap 500
# 第二步:创建音色映射 JSON
cat > voice_map.json <<EOF
{
"default": { "voice_id": "b4775100", "target_lang": "zh" }
}
EOF
# 第三步:渲染输出
bash skills/tts/scripts/tts.sh render --srt article.srt --voice-map voice_map.json -o output.wav内置中文预设音色(Guest 模式也可用):
名称 | 语言 | 性别 | 风格 |
|---|---|---|---|
悦悦|社交分享 | 中文 | 女 | 欢快 |
婉青|情绪抚慰 | 中文 | 女 | 平静 |
阿豪|磁性主持 | 中文 | 男 | 平静 |
建国|知识科普 | 中文 | 男 | 平静 |
小明|科技达人 | 中文 | 男 | 欢快 |
功能:自动找语音、克隆音色、生成回复,用任何人(真实或虚构)的声音和你聊天。
触发方式:当你说「我想跟xxx聊天」「你来扮演xxx跟我说话」「让xxx给我讲讲这篇文章」时自动使用。
工作流程:
通过语气词、情绪参数和预设场景,让生成的语音更像真人说话:
bash skills/characteristic-voice/scripts/speak.sh \
--preset comfort \
-t "Hmm... 我在这儿呢" \
-o comfort.wav支持预设场景:comfort(安慰)、goodnight(晚安)、morning(早安)、celebration(庆祝)、chatting(闲聊)。
自动获取最新新闻,整理成双主播对话脚本,直接生成播客音频发送:
将视频从一种语言翻译配音为另一种语言,替换原音轨保留画面:
Q: 没有 API Key 能用吗?
A: 可以。自动进入 guest 模式,支持 15 种内置预设音色,只是不能使用音色克隆、情绪控制、精确时长这些高级功能。也可以使用 --backend kokoro 切换到本地 Kokoro 后端。
Q: 克隆音色需要多长的参考音频?
A: 10-30 秒清晰语音就足够,不需要更长。NoizAI 的克隆算法对短样本支持很好。
Q: 支持哪些平台发送语音?
A: 飞书、Telegram、Discord 都已原生支持,配置好环境变量就能一键发送。
Q: 中文支持怎么样?
A: 很好,内置了 5 种中文预设音色,NoizAI 的中文语音质量非常自然。
Q: 为什么克隆出的音色还是有点像系统默认内置的?
A: 克隆是风格克隆,不是 100% 像素级复制。参考音频质量越好、口音越清晰,克隆效果越好。
最让我印象深刻的是音色克隆的质量:30 秒参考音频就能还原出相当逼真的效果。
有喜欢听书的朋友吗?
也许我可以试试让它用可爱的声音给你的孩子讲童话故事。
让听音频的朋友,推荐装这个技能 NoizAI,让你的 AI 助手真正"开口说话"。
官方地址:https://github.com/NoizAI/skills
如果想让 AI 助手能开口说话,你希望克隆谁的音色,给你讲什么?
-END-