首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >我的 OpenClaw 可以开口说话|NoizAI 技能安装使用教程

我的 OpenClaw 可以开口说话|NoizAI 技能安装使用教程

作者头像
技术人生黄勇
发布2026-04-09 11:00:59
发布2026-04-09 11:00:59
2770
举报
文章被收录于专栏:技术人生黄勇技术人生黄勇

让 AI 助手能用任意人的声音开口说话?

昨天我花了半天时间,给 ArkClaw 装上了 NoizAI 语音技能。

让特朗普为我朗读的 GitHub 今天热榜项目介绍

这篇文章记录完整的安装配置过程、踩坑经历,以及最终实现的成果。

如果你也想让 AI 助手"开口说",可以直接抄作业。


最终成果:能做什么

先看看最终效果。

成果一:原生飞书语音消息

安装配置完成后,ArcClaw 可以直接发送原生飞书语音消息——不是文件附件,而是点击就能播放的语音气泡。

测试了内置的"悦悦"音色,一条测试语音消息秒到飞书,音质清晰。

成果二:特朗普音色克隆

这是最有意思的部分。

找来一段 30 秒的特朗普演讲音频作为参考,让 ArkClaw 用特朗普的声音生成了完整的 GitHub Trending 点评,70 秒音频,从克隆到发送到飞书,全程自动化。

成果三:完整的语音工作流

整个流程已经跑通:

代码语言:javascript
复制
文本输入 → 音色克隆/选择 → TTS 生成 → 语音消息发送

全程不需要人工干预,生成音频过程稳定,音质标准。


实战记录:从零到跑通的完整过程

第一步:安装 NoizAI 技能集

安装很简单,告诉 ArkClaw 技能仓库地址:

代码语言:javascript
复制
# 安装整个技能集合

帮我安装这个技能:https://github.com/NoizAI/skills

安装完成:

第二步:配置 API Key

NoizAI 支持两种模式:

模式

需要 API Key

功能差异

Guest 模式

15 种预设音色,基础 TTS

完整模式

+ 音色克隆 + 情绪控制 + 精确时长

为了体验后续能克隆音色,我去 developers.noiz.ai/api-keys 申请了 API Key(新用户免费获得 100,000 积分),然后配置:

代码语言:javascript
复制
你用Noiz 的api-key:MTYyM......9nQGdtYWlsLmNvbQ== 配置NoizAI的技能

API Key 会自动保存到 ~/.noiz_api_key,下次使用自动加载。

第三步:使用预设音色测试

安装完成后,先用内置音色验证功能是否正常:

代码语言:javascript
复制
生成一段测试语音发送给我

它遇到了一些问题:需要飞书app_id、app_secret,文件位置不对等,不过还是在它的努力下,第一个原生语音消息新鲜出炉:

你好呀,我是“桃花源数据小炉子”,NoziAI 测试成功,现在可以正常生成测试语音了。

第四步:生成双人对话播客音频

再来试试功能列表的生成对话播客音频。

使用 daily-news-caster 技能生成对话播客音频发送给我

它先去自动获取了 GitHub 的热门项目,然后生成播客脚本:

生成20句对话后,再将音频合并发,最后发送:

感兴趣可以点击下方音频播放收听:

第五步:克隆特朗普音色

技能里音色克隆的功能是比较有趣的部分。

代码语言:javascript
复制
# 先问它步骤
音色克隆需要怎么操作

需求:用特朗普的声音朗读任意文本。

踩坑:NoizAI 的 chat-with-anyone 技能默认会自动去 YouTube/Bilibili 搜索并下载参考音频。

但 ArkClaw 所在的服务器环境无法访问境外站点,Bilibili 也有反爬限制,yt-dlpyou-get 都下载失败。

解决方案

1. 在 B站找到一个特朗普演讲音频:《2026.04.02特朗普就伊朗问题发表全国电视讲话》

2. 用 WorkBuddy 下载清晰的30秒语音文件。

3. 通过 git 仓库同步到服务器。

参考之前这篇同步本地和服务器上的 ArkClaw 的文件:《OpenClaw + Obsidian:最小成本搭建 AI 记忆同步系统》。

3. 告诉 ArkClaw 已经上传了克隆音色参考音频文件。

ArkClaw 开始执行克隆生成:生成 18 秒音频,果然是一模一样。

接着让它用特朗普音色生成了 Github 的热榜介绍音频,在文章开头。

踩坑:发送方式的区别

问题:ArcClaw 的 message 工具发送音频文件,在飞书里显示为WAV文件,需要下载才能播放。

这不是我们想要的效果。

这里 ArcClaw 开始欺骗我:

测试 NoizAI 悦悦音色的时候是成功发送了语音消息,那个用的是预设音色,走的是不同的发送路径。现在克隆音色需要先生成文件再发送,所以只能以附件形式发送。你下载附件就能听到了。

目标:发送原生可播放语音消息(像微信语音那样,点击直接播放)。

解决方案:让它查找之前语音消息发送成功是怎么做的。

代码语言:javascript
复制
检查 测试 NoizAI 悦悦音色的时候成功发送了语音消息,是怎么实现的,用的什么发送路径,展示相关操作和代码

它经过一顿操作,还是自己找到了区别:就是发送时,调用飞书消息函数使没有指定 audio 格式,实现了语音消息发送。

然后我让它把这个经验写入了记忆,这样能让它在使用中越来越聪明,越来越懂你。


NoizAI 技能集详细介绍

说完上面的实际操作步骤,这里介绍 NoizAI 的核心能力。

核心理念:安全本地优先

NoizAI 是一套专注于打造「更像人」的语音对话体验的 OpenClaw 技能集合,有几个核心设计原则:

  • 🔒 安全本地优先 —— 所有操作在你自己的机器上运行,敏感文本无需上传
  • 🧠 人格化语音控制 —— 支持微调语气词、情绪参数和场景预设
  • 🎙️ 生产级品质 —— 从快速 TTS 生成到时间轴精确渲染,一步到位
  • 📤 一键发送 —— 生成语音后直接作为原生语音消息发送到飞书/Telegram/Discord

技能一:tts —— 文字转语音核心

这是最常用的技能,支持两种模式:

简单模式 —— 文字直接转语音:

代码语言:javascript
复制
# 基本用法

bash skills/tts/scripts/tts.sh speak -t "Hello world" -o output.mp3



# 从文本文件读取

bash skills/tts/scripts/tts.sh speak -f article.txt -o article.mp3



# 音色克隆

bash skills/tts/scripts/tts.sh speak -t "你好" --ref-audio ./reference.wav -o cloned.mp3



# 直接发送到飞书

bash skills/tts/scripts/tts.sh speak_and_send_feishu -t "你好呀"

时间线模式 —— SRT 对齐精确渲染(适合视频配音):

代码语言:javascript
复制
# 第一步:从文章生成 SRT

bash skills/tts/scripts/tts.sh to-srt -i article.txt -o article.srt --cps 4 --gap 500



# 第二步:创建音色映射 JSON

cat > voice_map.json <<EOF

{

"default": { "voice_id": "b4775100", "target_lang": "zh" }

}

EOF



# 第三步:渲染输出

bash skills/tts/scripts/tts.sh render --srt article.srt --voice-map voice_map.json -o output.wav

内置中文预设音色(Guest 模式也可用):

名称

语言

性别

风格

悦悦|社交分享

中文

欢快

婉青|情绪抚慰

中文

平静

阿豪|磁性主持

中文

平静

建国|知识科普

中文

平静

小明|科技达人

中文

欢快

技能二:chat-with-anyone —— 和任何人聊天

功能:自动找语音、克隆音色、生成回复,用任何人(真实或虚构)的声音和你聊天。

触发方式:当你说「我想跟xxx聊天」「你来扮演xxx跟我说话」「让xxx给我讲讲这篇文章」时自动使用。

工作流程

  1. 1. 角色确认(模糊时会先问你)
  2. 2. 搜索找到 YouTube/Bilibili 视频
  3. 3. 下载视频和字幕
  4. 4. 提取 10-30 秒清晰语音作为参考
  5. 5. 克隆音色生成角色风格的语音回复

技能三:characteristic-voice —— 人格化语音微调

通过语气词、情绪参数和预设场景,让生成的语音更像真人说话:

代码语言:javascript
复制
bash skills/characteristic-voice/scripts/speak.sh \

--preset comfort \

-t "Hmm... 我在这儿呢" \

-o comfort.wav

支持预设场景:comfort(安慰)、goodnight(晚安)、morning(早安)、celebration(庆祝)、chatting(闲聊)。

技能四:daily-news-caster —— 每日新闻自动播客

自动获取最新新闻,整理成双主播对话脚本,直接生成播客音频发送:

  • • 支持多种新闻来源(Hacker News、GitHub Trending 等)
  • • 自动整理为双人问答对话格式
  • • 一句一句生成,最后合并为完整播客
  • • 直接发送原生语音消息

技能五:video-translation —— 视频翻译配音

将视频从一种语言翻译配音为另一种语言,替换原音轨保留画面:

  1. 1. 提取原字幕
  2. 2. 翻译文本
  3. 3. 生成目标语言配音
  4. 4. 合并音视频替换原音轨

常见问题 FAQ

Q: 没有 API Key 能用吗?

A: 可以。自动进入 guest 模式,支持 15 种内置预设音色,只是不能使用音色克隆、情绪控制、精确时长这些高级功能。也可以使用 --backend kokoro 切换到本地 Kokoro 后端。

Q: 克隆音色需要多长的参考音频?

A: 10-30 秒清晰语音就足够,不需要更长。NoizAI 的克隆算法对短样本支持很好。

Q: 支持哪些平台发送语音?

A: 飞书、Telegram、Discord 都已原生支持,配置好环境变量就能一键发送。

Q: 中文支持怎么样?

A: 很好,内置了 5 种中文预设音色,NoizAI 的中文语音质量非常自然。

Q: 为什么克隆出的音色还是有点像系统默认内置的?

A: 克隆是风格克隆,不是 100% 像素级复制。参考音频质量越好、口音越清晰,克隆效果越好。


最后

最让我印象深刻的是音色克隆的质量:30 秒参考音频就能还原出相当逼真的效果。

有喜欢听书的朋友吗?

也许我可以试试让它用可爱的声音给你的孩子讲童话故事。

让听音频的朋友,推荐装这个技能 NoizAI,让你的 AI 助手真正"开口说话"。


官方地址:https://github.com/NoizAI/skills

如果想让 AI 助手能开口说话,你希望克隆谁的音色,给你讲什么?

-END-

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-04-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 技术人生黄勇 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 最终成果:能做什么
    • 成果一:原生飞书语音消息
    • 成果二:特朗普音色克隆
    • 成果三:完整的语音工作流
  • 实战记录:从零到跑通的完整过程
    • 第一步:安装 NoizAI 技能集
    • 第二步:配置 API Key
    • 第三步:使用预设音色测试
    • 第四步:生成双人对话播客音频
    • 第五步:克隆特朗普音色
    • 踩坑:发送方式的区别
  • NoizAI 技能集详细介绍
    • 核心理念:安全本地优先
    • 技能一:tts —— 文字转语音核心
    • 技能二:chat-with-anyone —— 和任何人聊天
    • 技能三:characteristic-voice —— 人格化语音微调
    • 技能四:daily-news-caster —— 每日新闻自动播客
    • 技能五:video-translation —— 视频翻译配音
  • 常见问题 FAQ
  • 最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档