“Pennington J, Socher R, Manning C. Glove: Global Vectors for Word Representation[C]// Conference on Empirical Methods in Natural Language Processing. 2014:1532-1543.
表示单词 i 在单词 j 上下文中出现的次数。其中 i 相当于 Context,而 j 相当于 Target.
就是一个能够获取单词 i 和单词 j 出现位置相近时或彼此接近是的频率的计数器
和负采样[2]中的式子
意义相同
可能为 0 的问题(因为
)的值为负无穷,引进了
使得当
,并且会使用规定
.
可以解决有些词语例如 this, is, of, a... 等词语出现频率过高而有些名词出现频率过低导致的不平衡问题--即
相当于一个加权因子,对于不常用的词汇也能给予大量有意义的运算,而对于出现频率过高的词汇更大而不至于过分的权重。对于此函数的具体细节,参考标题下的参考论文。
现在是完全对称的,因此一种训练参数的方法是 一致的初始化
和 e 然后使用梯度下降来最小化输出,当每个词都处理完了之后取平均值。 即
[1]吴恩达老师课程原地址: https://mooc.study.163.com/smartSpec/detail/1001319001.htm
[2]负采样: https://blog.csdn.net/u013555719/article/details/82190917