最近,xiaozhi 新增了 MCP 能力的支持,我写了个工具用来接入任意的mcp到xiaozhi:
把 Cursor 的 mcp.json 给 xiaozhi 使用

接入方式只需要运行一个exe,把 Cursor里的mcp.json文件路径配置上,然后把xiaozhi硬件提供的ws地址填写,就可以把Cursor里用的mcp给xiaozhi使用了。
今天,我测了一组数字生命类的tools,这个AI是一名社群助手:
通过定义不同的 mcp tools,我们就能够实现不同的 AI 语音助手了。mcp tools 的开发流程,完全采用 vibe coding 流程:
1、先写 tools 的设计文档,存为 readme
2、mcp-plugin init 后
3、 ask项目情况
4、采用推理模型 ,按照 readme 完整实现
5、为每个tool创建测试用例
( mcp-plugin 是配合 上文提到的 mcp server exe 使用的插件 )

( 如果想了解 mcp 相关的知识,欢迎报名 AI 编程训练营)
实现个性化语音助手的工具箱,不贵,100元以内可以搞定:
1 xiaozhi 硬件
2 mcp-server-exe
3 mcp-plugin
4 cursor
为什么说,语音和多模态被忽视了呢?
Andrew Ng 和 LangChain 团队成员之间的对话重点提到了:语音和多模态能力。本文对其讨论内容进行了精选,分享给大家:
重点信息:
语音交互显著降低了用户摩擦,使人们更容易以自然的方式表达想法,这对于AI代理获取所需信息至关重要。 语音堆栈被大大低估了,它在大型企业中具有巨大的潜在用例,重要的商业价值。 语音代理市场正经历爆炸式增长,大量创业公司(尤其在 Y Combinator 中)涌入此领域,这表明了市场对语音技术价值的高度认可。 AI语音面试官等应用展示了语音代理的实际价值,能在招聘等行业提高效率、提供一致且无偏见的评估,并改善面试流程进展率。 GPT-4o等模型的实时API价格大幅下降,显著提高了构建高质量语音应用的可负担性,推动其更广泛的应用。 开源语音模型如 Chatterbox 在性能上超越专有系统,提供低延迟 和独特的情感控制功能,为开发者提供了高性能且更具成本效益的实现途径。
多模态AI能够同时处理文本、图像、音频和视频,使AI系统更接近人类认知方式,增强其对现实世界的理解和互动能力。
多模态能力正从前沿技术转变为新一代AI系统的标准配置,支持AI代理处理更复杂的任务,并重塑工作流程。
通过整合多种数据类型(如文本、音频、图像),多模态AI代理能够提供个性化分析和处理复杂查询,显著提升了客户体验和专业服务水平。