亚马逊 Alexa AI团队为虚拟助手开发了一种新的训练方法,可以大大提高其处理复杂问题的能力。
在博客文章中,团队负责人Abdalghani Abujabal详细介绍了新方法,该方法结合了基于文本的搜索和定制的知识图,这两种方法通常具有竞争性。
Abujabal提出以下情况:如果你问Alexa“诺兰的哪部电影获得了奥斯卡奖但错过了金球奖”,要回答这个问题你需要确定很多,比如要弄清楚提到的诺兰是导演克里斯托弗诺兰,他所导演的电影,然后交叉引用那些赢得奥斯卡奖的那些电影,并确定哪些是列表A上列出,但列表B上没有的。
亚马逊年代提供更好的方法回答这个困难的问题选择首先收集最完整的数据集,然后自动构建一个策划知识图的最初的高容量和非常嘈杂的(即充满了不必要的数据)的数据集,使用研究团队自定义的算法并得到最有意义的结果。
亚马逊设计的系统实际上相对简单,或者更确切地说,它结合了两种相对简单的方法,包括基本的网络搜索,基本上只是使用问题的全文来抓取网页以获得结果。然后系统抓取排名前10位的页面并将其分解为已识别的名称和语法单位。
在得到的数据集和Alexa AI的方法之上,寻找句子结构中的线索来标记和加权顶级文本中的重要句子,如“诺兰执导了《盗梦空间》”,并对其余部分进行扣除。
这构建了ad-hoc知识图,然后评估它以识别其中的基石。一个基石基本上是原始搜索字符串中的单词,把它们拿出来,把注意力集中在这两者之间的信息上,而不是把它们作为这个问题真正答案的来源。
通过对剩余数据进行一些最终加权和排序,该算法正确地将《盗梦空间》作为答案返回,亚马逊的团队发现这种方法实际上击败了最先进的方法,这些方法涉及的范围更广,但只专注于文本搜索,或单独构建一个精心策划的知识图。
团队认为他们可以调整自己的方法以获得更好的效果,这对Alexa用户来说是个好消息,这样智能音箱能够解决更多问题的激烈争论。