首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

智能体:太好了是语音交互新功能,我们说话有救了!

你是否经历过,给客服打电话总是遇到让人高血压的 AI?

买的智能音箱对话时总是被错误识别?

以及,最新的 AI 陪伴机器人总是感觉有点呆板?

提效不明显,也提供不了足够的情绪价值...

语音交互体验成为了 AI 落地的一块绊脚石。

而如今扣子推出的技术,有望使这种情况成为过去式。

经过近两年来的发展与验证,大语言模型(LLM)和智能体(Agent)已经逐渐成为行业共识,落地到了生活各处。

AI 游戏陪玩、AI 虚拟陪伴、AI 口语陪练、AI NPC等应用遍地开花,由此也激发了对更优质的 AI 语音交互的强烈需求。

不少产品的语音过于机械,响应速度过慢...这种“对讲机式”的对话,极大的降低了用户体验。

对此,扣子上线了全新的智能语音 OpenAPI,让 AI 从“能说话”到“会说话”

此前的所有方案,都是在用工程思维处理人文问题。

Google Assistant 虽然能识别几十种语言,却理解不了“中式英语”;Alexa 虽然能控制一整个智能家居,却无法自然地应对打断;Siri 虽然能讲笑话,却始终没有真实的情感温度...

而扣子的方案,首次将“理解”的能力注入了整个语音交互链路。

它不只是在听你说话,而是在理解你说话的场景、语境、甚至情绪。

这让 AI 终于开始像人一样思考和表达。

基于扣子这套“组合拳”做出来的智能体或是 AI 应用,当你跟它交谈时,它不只是在应答,而是在理解、思考、然后用最恰当的方式回应!

这一切的实现归功于以下四个核心突破:

1. 精准语音识别:使用 ASR 语音转成文本,且具备上下文理解能力(比如上文出现过的名词等信息能够在识别中复用,说话等风格和代称也能理解的较好),并对中英混说、噪音、垂直领域等复杂场景识别效果有所提升;

2. 强大的 AI Agent 能力:扣子不只听懂你所说的,更能真正理解你的需求。它拥有 Agent 的各项能力,能够像人一样有记忆力(文件盒子、数据库、变量)、有知识(文本、表格、照片)、有技能(插件、触发器)、还能编排(工作流、图像流)等;

3. 低延迟、可打断:使用了火山引擎 RTC 方案,将链路中的延迟充分降低,并确保即使在弱网络环境下也能通话顺畅。此外,智能体能毫秒级响应用户打断,流畅切换话题并即时反馈,通过火山引擎 RTC 的智能降噪技术,能有效过滤 90% 以上的背景噪音,降低误触发概率,提升对话质量;

4. 自然的语音效果:使用大模型的 TTS 进行文本转语音,根据上下文,智能预测文本的情绪、语调等信息;生成超自然、高保真、个性化的语音,在自然度、音质、韵律、气口、情感、语气词表达等方面更像真人;即使是中英文混说也能行云流水应答自如

通过将 Agent 的认知能力引入整个语音交互链路,扣子让 AI 首次具备了真正的“对话感”。

以下是实测演示

1. Demo 配置流程视频演示。

2. 与智能体实时对话测试。

3. 语音对话过程中,支持实时打断。

4. 轻松完成逼真的音色克隆。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OXM-iraiUEgo_FpTUKysq51Q0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券