被忽视的语音界面和多模态能力#工具箱更新

mixlab

发布于 2026-03-24 20:13:31

文章被收录于专栏：MixLab科技+设计实验室MixLab科技+设计实验室

最近，xiaozhi 新增了 MCP 能力的支持，我写了个工具用来接入任意的mcp到xiaozhi：

把 Cursor 的 mcp.json 给 xiaozhi 使用

接入方式只需要运行一个exe，把 Cursor里的mcp.json文件路径配置上，然后把xiaozhi硬件提供的ws地址填写，就可以把Cursor里用的mcp给xiaozhi使用了。

今天，我测了一组数字生命类的tools，这个AI是一名社群助手：

通过定义不同的 mcp tools，我们就能够实现不同的 AI 语音助手了。mcp tools 的开发流程，完全采用 vibe coding 流程：

1、先写 tools 的设计文档，存为 readme

2、mcp-plugin init 后

3、 ask项目情况

4、采用推理模型，按照 readme 完整实现

5、为每个tool创建测试用例

（ mcp-plugin 是配合上文提到的 mcp server exe 使用的插件）

（如果想了解 mcp 相关的知识，欢迎报名 AI 编程训练营）

实现个性化语音助手的工具箱，不贵，100元以内可以搞定：

1 xiaozhi 硬件

2 mcp-server-exe

3 mcp-plugin

4 cursor

为什么说，语音和多模态被忽视了呢？

Andrew Ng 和 LangChain 团队成员之间的对话重点提到了：语音和多模态能力。本文对其讨论内容进行了精选，分享给大家：

重点信息：

语音交互显著降低了用户摩擦，使人们更容易以自然的方式表达想法，这对于AI代理获取所需信息至关重要。 语音堆栈被大大低估了，它在大型企业中具有巨大的潜在用例，重要的商业价值。 语音代理市场正经历爆炸式增长，大量创业公司（尤其在 Y Combinator 中）涌入此领域，这表明了市场对语音技术价值的高度认可。 AI语音面试官等应用展示了语音代理的实际价值，能在招聘等行业提高效率、提供一致且无偏见的评估，并改善面试流程进展率。 GPT-4o等模型的实时API价格大幅下降，显著提高了构建高质量语音应用的可负担性，推动其更广泛的应用。 开源语音模型如 Chatterbox 在性能上超越专有系统，提供低延迟和独特的情感控制功能，为开发者提供了高性能且更具成本效益的实现途径。

多模态AI能够同时处理文本、图像、音频和视频，使AI系统更接近人类认知方式，增强其对现实世界的理解和互动能力。

多模态能力正从前沿技术转变为新一代AI系统的标准配置，支持AI代理处理更复杂的任务，并重塑工作流程。

通过整合多种数据类型（如文本、音频、图像），多模态AI代理能够提供个性化分析和处理复杂查询，显著提升了客户体验和专业服务水平。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-05-30，如有侵权请联系 cloudcommunity@tencent.com 删除

系统