本文原载于知乎专栏“AI的怎怎,歪歪不喜欢”,AI研习社经授权转载发布。欢迎关注邹佳敏的知乎专栏及AI研习社博客专栏(文末可识别社区名片直达)。
关键词:内在/外在评价,超参数在类推(analogy)评估中的作用,人类判别和词向量距离间的相关性,根据上下文消歧,窗口(Window)分类。
本文从内在和外在评价开始,展开对词向量的讨论;然后,将词类推(word analogies)作为内在评价的一个样例,同时讨论如何根据它来微调词向量本身。接着,在外在评价领域,我们讨论训练模型的权重/参数和词向量;最后,我们将介绍激动人心的人工神经网络在自然语言处理任务中的重大作用。
一,如何评价词向量
到目前未知,我们已经介绍了Word2Vec和GloVe如何在语义空间训练和发现潜在的词向量表示。本节中,我们将讨论如何定量的评估不同模型所产出词向量的质量效果。
1,内部评价:(对特定中间任务的评价;快速计算;帮助理解子系统;与直接任务正相关)
内部评价是对一组词向量集合的评价,这组词向量是使用词嵌入模型(Word2Vec或GloVe)在处理特定的中间子任务(specific intermediate
subtasks)(比如,类推补全)时生成的。这些子任务通常计算简单快速,并且也能帮助理解词向量模型系统。有效的内部评价应当寻找并计算一个合适的指标,它能够评价词向量在子任务评价中的效果。
动机:假设我们要使用词向量作为输入,创造一个问答系统,我们需要:询问问题并计算分词词向量,输入问答系统,再将输出映射至人类可理解的自然语言。
构建该问答系统,核心要点就是如何获得,需要在下游子系统(深度神经网络)中使用的——“词向量表示”。在实际应用中,词向量本身也经常需要调整参数(Word2Vec的向量维数)。受限于深度神经网络中数以百万计的参数规模,耗时巨大,仅靠参数的调整在工业界完全不能承受。因此,一种有能力评价词向量优劣的内部评价技术,就必须要求与最终的学习任务性能或效果正相关。
左边的问答系统评估和优化极其困难,而优化右边的词类推则非常简单,两者目标一致
2,外部评价:(对直接任务的评价;计算缓慢;难以排查子系统问题;只能通过替换子系统以提高性能)
外部评价是对一组词向量集合的评价,这组词向量是在处理真实任务中产生的。这些任务通常精密复杂,难以计算。比如,一个可以对问答系统的回答质量做出评价的系统,本质上就是一个外部评价。通常,因过度优化而达不到预期的外部评价并不能为我们指明,到底是哪一个特定的子系统出错。每当这时,内部评价才是解决问题的钥匙。
3,内部评价举例:词向量类推(Word Vector Analogies)
内部评价的流行方案就是,评价词向量在完成类推任务中的表现。类推任务,通常想要解决a:b=c:?的问题。此时,内部评价会去计算,能最大化余弦距离的那个词向量:
对上述公式的直观理解是:为了寻找(比如,queen-king=actress-actor),我们转而去寻找。因此,与最相似的,就是对的最佳估计。
考虑到语料本身的多样性,使用词向量类推等内部评价技术时需要多加小心。比如,,对City n:State containing City n的语义任务中,仅仅类推出Phoenix:Arizona是不够的,因为全美至少有10个城市叫Phoenix,所以,语料中包含的那个Phoenix,会直接影响结果。,对Capital City n:Country n的语义任务中,类推出Astana:Kazakhstan也仅表达出最近的含义,毕竟在1997年以前,Kazakhstan的首都还是Almaty,所以,可以预料的是,语料的时态也很重要;,对普通形容词:最高级形容词和进行时态动词:过去时态动词的2个语法任务中,也存在类似的问题。
4,内部评价举例:微调参数——类推评估(Analogy Evaluations)
接下来,我们开始讨论,如何使用内在评价系统(词类推补全)来调整词嵌入(Word2Vec和GloVe)模型参数的问题(比如,词向量维度,语料规模,语料来源/类型,上下文窗口大小,上下文对称性)。
首先,我们观察在相同参数下,不同的词嵌入方法,在同一个类推评估任务中的精度表现:
从上表中,我们得到3个结论:
4.1,精度表现显著依赖于词向量模型:在语料训练中,不同的模型使用不同的基本性质,比如,词共现计数或奇异值矩阵;
4.2,精度表现随语料规模的增加而提高:在语料训练中,如果模型没有遇到某一特定情况,自然它也无法准确得到类推结论;
4.3,精度表现在词向量维度过高或过低时都会下降:在语料训练中,词向量维度过低不能俘获必要的性质,表达能力不足;而过高会引入不必要的噪声,泛化能力降低,这也被称为高方差问题(high variance problem)。
下面用3张图片可视化的表现不同参数对模型性能的影响:
训练时间对模型精度的提高和“压榨”
语料规模对模型精度的影响
其他参数对GloVe精度的影响
5,内部评价举例:相关性评估(Correlation Evaluations)
另一个简单的词向量评估就是,将人类对单词相似度的评估与词嵌入模型计算出的余弦相似度进行比较。在人类已标注过的相似度语料中,不同模型的表现如下表所示:
领取专属 10元无门槛券
私享最新 技术干货