对于在NLP任务中使用word嵌入这一领域,我还是比较陌生的。从大量的文档集中,我训练了word2vec词嵌入向量,然后结合基于RNN的分类器(LSTM,GRU)进行文档分类,这是目前比较成熟的一种标准分类方法。
有一个问题:我们应该在文档分类培训期间更新单词嵌入。
在过去,我已经习惯了像图像分类/目标检测这样的任务。你得到一个图像输入,从该图像中提取的卷积特征在CNN的数值优化过程中被更新。但是图像本身从来没有更新,自然,因为它是原始数据。
如何处理文本文档世界中的嵌入向量?它们与图像不完全一样,我们首先从无监督的方法(word2vec、GloVe或任何其他工具)中学习它们,因此我认为它们可以在监督培训期间进行进一步的调整。在训练序列分类器时,更新嵌入向量和RNN参数是常见的做法,还是应该将它们保持不变(以避免过度拟合)?
发布于 2018-09-10 15:19:59
Word嵌入通常用作输入功能,正如您注意到的,对于基于图像的模型,在培训期间不会进行修改。
事实上,在培训期间(或者在它们被计算出来之后),更新嵌入是相当困难的,因为它们常常在某个潜在空间中保存关于它们之间关系的信息。正因为如此,在现有的嵌入中添加新词汇表是非常困难的,如果不使用最初用于创建这些嵌入的所有数据,更新计算的嵌入也是困难的。
恐怕我没有一个例子,我可以指出的地方,嵌入是在培训和同时更新/改进。但是,我可以想象有一些方法来存储它们,这样做在技术上是可行的(尽管可能是内存密集型的!)
https://datascience.stackexchange.com/questions/38022
复制相似问题