你是否经历过,给客服打电话总是遇到让人高血压的 AI?
买的智能音箱对话时总是被错误识别?
以及,最新的 AI 陪伴机器人总是感觉有点呆板?
提效不明显,也提供不了足够的情绪价值...
语音交互体验成为了 AI 落地的一块绊脚石。
而如今扣子推出的技术,有望使这种情况成为过去式。
经过近两年来的发展与验证,大语言模型(LLM)和智能体(Agent)已经逐渐成为行业共识,落地到了生活各处。
AI 游戏陪玩、AI 虚拟陪伴、AI 口语陪练、AI NPC等应用遍地开花,由此也激发了对更优质的 AI 语音交互的强烈需求。
不少产品的语音过于机械,响应速度过慢...这种“对讲机式”的对话,极大的降低了用户体验。
对此,扣子上线了全新的智能语音 OpenAPI,让 AI 从“能说话”到“会说话”。
此前的所有方案,都是在用工程思维处理人文问题。
Google Assistant 虽然能识别几十种语言,却理解不了“中式英语”;Alexa 虽然能控制一整个智能家居,却无法自然地应对打断;Siri 虽然能讲笑话,却始终没有真实的情感温度...
而扣子的方案,首次将“理解”的能力注入了整个语音交互链路。
它不只是在听你说话,而是在理解你说话的场景、语境、甚至情绪。
这让 AI 终于开始像人一样思考和表达。
基于扣子这套“组合拳”做出来的智能体或是 AI 应用,当你跟它交谈时,它不只是在应答,而是在理解、思考、然后用最恰当的方式回应!
这一切的实现归功于以下四个核心突破:
1. 精准语音识别:使用 ASR 语音转成文本,且具备上下文理解能力(比如上文出现过的名词等信息能够在识别中复用,说话等风格和代称也能理解的较好),并对中英混说、噪音、垂直领域等复杂场景识别效果有所提升;
2. 强大的 AI Agent 能力:扣子不只听懂你所说的,更能真正理解你的需求。它拥有 Agent 的各项能力,能够像人一样有记忆力(文件盒子、数据库、变量)、有知识(文本、表格、照片)、有技能(插件、触发器)、还能编排(工作流、图像流)等;
3. 低延迟、可打断:使用了火山引擎 RTC 方案,将链路中的延迟充分降低,并确保即使在弱网络环境下也能通话顺畅。此外,智能体能毫秒级响应用户打断,流畅切换话题并即时反馈,通过火山引擎 RTC 的智能降噪技术,能有效过滤 90% 以上的背景噪音,降低误触发概率,提升对话质量;
4. 自然的语音效果:使用大模型的 TTS 进行文本转语音,根据上下文,智能预测文本的情绪、语调等信息;生成超自然、高保真、个性化的语音,在自然度、音质、韵律、气口、情感、语气词表达等方面更像真人;即使是中英文混说也能行云流水应答自如。
通过将 Agent 的认知能力引入整个语音交互链路,扣子让 AI 首次具备了真正的“对话感”。
以下是实测演示
1. Demo 配置流程视频演示。
2. 与智能体实时对话测试。
3. 语音对话过程中,支持实时打断。
4. 轻松完成逼真的音色克隆。
领取专属 10元无门槛券
私享最新 技术干货