首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >语音助手减少不必要澄清提问的技术突破

语音助手减少不必要澄清提问的技术突破

原创
作者头像
用户11764306
发布2026-01-05 14:20:53
发布2026-01-05 14:20:53
410
举报

减少语音助手不必要的澄清性问题

如果两个人在嘈杂的环境中交谈,一方没有听清或未完全理解对方的意思,自然的反应是请求澄清。语音助手也是如此。为了避免基于不准确或不完整的理解采取可能错误的操作,语音助手会提出后续问题,例如询问设定的计时器是15分钟还是50分钟。

通常,提出此类问题的决定基于机器学习模型的置信度。如果模型预测出多个置信度高的竞争性假设,澄清性问题可以帮助从中做出选择。

然而,对某中心语音助手数据的分析表明,77%的情况下,即使其他备选假设也获得了较高的置信度分数,模型排名第一的预测也是正确的。在这些情况下,目标是减少提出的澄清性问题数量。

在某会议上,展示了一项工作,旨在通过训练一个机器学习模型来判断何时真正需要澄清,从而减少不必要的后续问题。

HypRank 模型

在大多数语音助手中,用户话语的声学信号首先传递给自动语音识别模型,该模型生成多个关于用户所说内容的假设。排名靠前的假设然后传递给自然语言理解模型,该模型识别用户的意图(用户希望执行的操作,例如播放视频)和话语的槽位(意图应作用于的实体,例如视频标题,其值可能是“哈利·波特”)。

在论文中考虑的场景下,由ASR和NLU模型生成的假设会传递给第三个模型,称为HypRank(假设排名器)。HypRank结合了ASR、意图分类和槽位填充的预测及置信度分数,以及上下文信号(例如特定用户启用了哪些技能),以产生不同假设的总体排名。

使用这种方法,有三个可能的歧义来源:ASR分数的相似性、意图分类分数的相似性以及整体HypRank分数的相似性。在传统方案中,这些分数中任何一个足够小的差异都会自动触发澄清性问题。

澄清与否

在新方法中,训练了另一个机器学习模型来决定是否需要提出澄清性问题。除了ASR、NLU或HypRank分数的相似性之外,该模型还考虑另外两个歧义来源:信噪比和被截断的话语。被截断的话语是指以冠词、某些所有格或介词结尾的话语。例如,“Alexa, play ‘Hello’ by” 就是一个被截断的话语。

作为输入,该模型接收排名最高的HypRank假设;任何在其他三项指标上分数足够相似的其他假设;SNR;一个表示该请求是否为重复请求的二元值;以及指示五种歧义来源中哪些适用的二元值。

输入假设的数量可能不同,具体取决于适用的歧义类型。因此,除了排名第一的假设之外,所有其他假设的向量表示被合并形成一个摘要向量,然后与其他输入的向量表示连接起来。连接后的向量传递给分类器,分类器决定是否发出澄清性问题。

实验

据所知,目前没有现有的数据集能提供根据准确性标记的多个ASR和NLU假设。因此,为了训练模型,使用了由某中心同事去年在某研讨会上展示的模型自动注释的数据。

他们的模型是在手动注释的数据和根据客户反馈标记的数据组合上训练的,这些客户在Alexa交互后被特别询问是否对结果满意。使用该模型来标记更多话语,无需人工参与。

由于数据集中的所有样本至少具有一种歧义类型,基线方法是在每种情况下都提出澄清性问题。该方法的假阴性率为零(在必要时从不遗漏澄清性问题),但可能有较高的假阳性率。新方法可能会增加假阴性率,但F1分数的提高意味着它在假阴性和假阳性之间取得了更好的平衡。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 减少语音助手不必要的澄清性问题
    • HypRank 模型
    • 澄清与否
    • 实验
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档