部署DeepSeek模型,进群交流最in玩法!
立即加群
发布
社区首页 >专栏 >AI Voice Agent的最新产研动态,以AI 语音面试官为例

AI Voice Agent的最新产研动态,以AI 语音面试官为例

作者头像
AIGC新知
发布2025-02-05 15:01:52
发布2025-02-05 15:01:52
1090
举报
文章被收录于专栏:AIGC新知AIGC新知

打更人

原作者:奥利维亚·摩尔

翻译:deepseek-r1 & 沉浸式翻译

排版:绛烨

语音是 AI 应用公司最强大的突破口之一。作为人类最高频(且信息密度最高)的沟通形式,它因 AI 技术首次具备了"可编程"特性。

对企业而言,人工智能直接用技术取代了人力。它更廉价、更迅捷、更可靠——表现往往优于人类。语音代理还能让企业实现 7×24 小时客户服务,随时解答疑问、安排预约或完成交易。客户与企业的服务时段不再需要严格同步(试过在太平洋时间下午 3 点后致电东海岸银行吗?);借助语音代理,所有企业都能实现永不离线。

对于消费者而言,我们相信语音将成为人们与人工智能交互的首要(甚至可能是主要)方式。这种交互可能以全天候智能助手或教练的形态存在,也可能通过普及语言学习等曾经遥不可及的服务来实现平等化。

我们目前正从人工智能语音的基础设施层向应用层过渡。随着模型的不断改进,语音将成为一个突破口,而非最终产品。我们非常看好那些以语音为突破口、旨在开启更广阔平台的初创公司。

a16z在在 AI × 语音领域的一些成果<左右滑动>:

一、AI 语音的新动向

2024 年是 AI 语音具有重大意义的一年。

模型开发方面的进展简化了基础设施技术栈,从而打造出延迟更低、性能更优的语音agent。这一改进主要得益于过去六个月中推出的新型对话模型。

这些对话模型的价格也日益亲民。2024 年 12 月,OpenAI 将 GPT-4o 实时 API 的输入成本降低了 60%(至每百万 token 40 美元),输出成本更是锐减 87.5%(至每百万 token 2.5 美元)。同时,GPT-4o mini 版本也正式上线实时服务。

二、AI agent现阶段是什么水平

在当前AI代理领域,模型质量已经显著提升,对话质量(包括延迟、可中断性、情感等)已基本解决,现在语音代理在某些情况下已经达到或超过了业务流程外包(BPO)/呼叫中心的水平。

市场进入(GTM)方面,代理产品能够迅速扩展,因为它们直接用技术替代劳动力,适用于中小企业和大型企业。然而,进入市场的门槛通常较低,更传统的企业可能在采用上面临较大障碍。成功依赖于市场进入的速度/执行以及产品的第二阶段发展。

在货币化方面,许多语音产品最初是按分钟计费,反映了模型成本。但随着模型变得更便宜,这种模式越来越受到压力,提供商可以相互压价。未来的定价策略可能会结合强大的平台费用和基于使用的组件。

竞争方面,语音代理与开发者导向的平台、水平平台和垂直市场解决方案竞争。预计这个市场将继续升温。

语音助手市场在 2024 年下半年迎来爆发式增长。据 Cartesia 统计,最新一期 YC 创业营中,专注语音技术的公司占比达 22%。

语音代理也正作为一项功能被添加到更多横向或多模态产品中。

2024 年,我们看到对话式语音技术栈多个层面的企业纷纷获得融资与市场关注,其中包括:

  • 典范企业:如 ElevenLabs 和 Cartesia
  • 横向平台:如 Vapi 和 Bland
  • 垂直化平台:如 HappyRobot 和 Wayfaster

特别是对于大型企业,我们很少看到客户会直接从全人工接听电话直接转向全 AI 接听模式。创始人反而会找到一个"切入点"——先为客户处理通常占比较小的来电类型,并有望随着时间的推移逐步扩展至处理更多通话类型和工作流程。

我们观察到的切入点包括:

三、垂直领域:核心市场

语音代理最自然的早期应用场景通常对应现有呼叫中心/业务流程外包(BPO)支出较高的领域。

若通话由在岸员工作为常规工作处理:

(1)痛点/收益往往不够显著——除非有大量员工专职接打电话;

(2)量化成果/节省的成本并"证明其合理性"存在困难。

这些主要垂直领域(金融服务、B2C、B2B、政府及医疗保健)中的每一个都可能拥有自身的核心供应商,类似于它们各自拥有记录系统的方式。

我们预计在以下领域将出现显著的创业者动向(如果你正在这些领域进行创业,欢迎联系我们!):

  • 金融服务—债务催收等
  • 保险——包括客户服务和后台部门
  • 政府
  • 支持服务——包括需要专业知识的更复杂客户服务来电(例如 IT 技术支持)

在“呼叫中心类别”之外,我们发现市场愿意为用于辅导或培训场景的 AI 语音助手付费,这类应用主要面向高薪岗位。在这些行业中,逼真的语音助手本质上可以充当"模拟器",显著提升员工在岗表现,从而替代人力成本(如销售培训师)或效率较低的软件解决方案。

要了解早期创业者的创业方向,YC 旗下的公司是一个重要参考指标。

自 2020 年以来,全球已涌现 90 家语音智能体公司。这一增长态势正随着新批次的加入持续加速——即将完整公布的 W25 批次中就有 10 家同类企业。在 2023 年前的批次中,多数语音智能体公司均为过去一年内转型入局该领域的企业。

YC 创始人开发的语音代理主要集中在 B2B(约 69%)和医疗保健(约 18%)应用场景,其次是消费者领域(约 13%)。

在 B2B 领域,最常见的子行业为:金融科技(16.9%)和运营(主要为客户支持,占比 12.4%)。医疗健康领域的语音代理则聚焦于前台(面向患者)或后台(面向药房、保险等)场景,重点覆盖普通人类医学(11.2%)、牙科(3.4%)、兽医(2.2%)及物理治疗(1.1%)等细分领域。

四、语音代理市场图谱

语音代理B2B(Business to Business)市场中,包含了不同行业如家庭服务、餐饮、招聘、金融、物流、医疗保健、房地产、保险、研究、酒店、法律和政府等中语音代理的应用。

语音代理B2C市场中,分为几个类别,包括成人教育科技(Edtech - adults)、儿童教育科技(Edtech - kids)、一般伴侣(General companion)、治疗(Therapy)、助理(Assistant)、老年伴侣(Companion - elderly)、儿童伴侣(Companion - kids)、生产力(Productivity)以及克隆(Clones)等。

a16z寻找的语音代理公司应具备在特定行业中通过电话提供高效、低成本服务的能力,同时确保高成功率和易于集成,以实现显著的成本节约和业务增长。

五、案例研究:AI 语音面试官

鉴于其复杂性(需与人类完成完整面试)和敏感性(需维护良好的候选人体验),招聘面试看似并非语音助手的明显早期应用场景。但我们注意到已有数家初创公司在此领域取得了显著初期进展——以下是来自客户的部分洞见:

这一痛点尤其突出地体现在人员配置领域(43 家公共合作机构,年营收达 6500 亿美元)——涉及大量中低技能岗位(大概率不会是早期初创企业中的 10 倍效工程师)。人工智能面试可轻松替代初步筛选电话,甚至覆盖更多招聘环节。原因在于:

  • 求职者更愿意“过五关斩六将”,其中可能包括参加 AI 面试
  • 客户根据推荐的候选人数量或最终雇主聘用的数量获得报酬——数量越多越好,从而能够推荐更多或更优质的候选人

许多人工智能面试产品的表现已与人类招聘人员相当甚至更优,原因如下:

  • 候选人可尽快或随时安排面试
  • 评估保持一致,如果标准发生变化,客户可以重新运行过去的访谈
  • 双方在语言或口音方面均无障碍
  • 人工智能通常比普通招聘人员更擅长评估技术类或针对特定职位的回答

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC新知 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档