首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >被忽视的语音界面和多模态能力#工具箱更新

被忽视的语音界面和多模态能力#工具箱更新

作者头像
mixlab
发布2026-03-24 20:13:31
发布2026-03-24 20:13:31
80
举报

最近,xiaozhi 新增了 MCP 能力的支持,我写了个工具用来接入任意的mcp到xiaozhi:

把 Cursor 的 mcp.json 给 xiaozhi 使用

接入方式只需要运行一个exe,把 Cursor里的mcp.json文件路径配置上,然后把xiaozhi硬件提供的ws地址填写,就可以把Cursor里用的mcp给xiaozhi使用了。

今天,我测了一组数字生命类的tools,这个AI是一名社群助手:

通过定义不同的 mcp tools,我们就能够实现不同的 AI 语音助手了。mcp tools 的开发流程,完全采用 vibe coding 流程:

1、先写 tools 的设计文档,存为 readme

2、mcp-plugin init 后

3、 ask项目情况

4、采用推理模型 ,按照 readme 完整实现

5、为每个tool创建测试用例

mcp-plugin 是配合 上文提到的 mcp server exe 使用的插件 )

( 如果想了解 mcp 相关的知识,欢迎报名 AI 编程训练营)

实现个性化语音助手的工具箱,不贵,100元以内可以搞定:

1 xiaozhi 硬件

2 mcp-server-exe

3 mcp-plugin

4 cursor

为什么说,语音和多模态被忽视了呢?

Andrew Ng 和 LangChain 团队成员之间的对话重点提到了:语音和多模态能力。本文对其讨论内容进行了精选,分享给大家:

重点信息:

语音交互显著降低了用户摩擦,使人们更容易以自然的方式表达想法,这对于AI代理获取所需信息至关重要。 语音堆栈被大大低估了,它在大型企业中具有巨大的潜在用例,重要的商业价值。 语音代理市场正经历爆炸式增长,大量创业公司(尤其在 Y Combinator 中)涌入此领域,这表明了市场对语音技术价值的高度认可。 AI语音面试官等应用展示了语音代理的实际价值,能在招聘等行业提高效率、提供一致且无偏见的评估,并改善面试流程进展率。 GPT-4o等模型的实时API价格大幅下降,显著提高了构建高质量语音应用的可负担性,推动其更广泛的应用。 开源语音模型如 Chatterbox 在性能上超越专有系统,提供低延迟 和独特的情感控制功能,为开发者提供了高性能且更具成本效益的实现途径。

多模态AI能够同时处理文本、图像、音频和视频,使AI系统更接近人类认知方式,增强其对现实世界的理解和互动能力。

多模态能力正从前沿技术转变为新一代AI系统的标准配置,支持AI代理处理更复杂的任务,并重塑工作流程。

通过整合多种数据类型(如文本、音频、图像),多模态AI代理能够提供个性化分析和处理复杂查询,显著提升了客户体验和专业服务水平。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 无界社区mixlab 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档