当对不同大小的数据集进行培训时,doc2vec是如何执行的?在原始语料库中没有提到数据集大小,所以我想知道从doc2vec中获得良好性能所需的最小大小是多少。
发布于 2017-08-30 21:51:04
很多东西被称为“doc2vec”,但在大多数人看来,这通常指的是来自Le和Mikolov的“段落向量”技术。
原始的“测量向量”论文描述了在三个数据集中评估它:
前两个是公开的,因此您还可以以单词、典型文档大小和词汇表查看它们的总大小。(不过,请注意,没有人能够在前两个数据集中完全复制该论文的情感分类结果,这意味着他们在报告中遗漏了一些信息或错误。可以接近IMDB数据集。)
后续文件将该算法应用于发现数据集中的主题关系:
因此,这两篇早期论文中使用的身体从几万到数百万的文档,以及从几个单词短语到数千字文章的文档大小。(但这些作品并不一定与不同大小的文档混合在一起。)
一般来说,Word2vec/段落向量技术受益于大量的数据和各种各样的单词上下文。如果没有至少数万份文件,我就不会期望有好的结果。文档的长度超过几个字,每个工作都要好得多。如果在相同的培训中(如混合推文和书籍),结果可能更难理解,如果大小或-kind文档存在很大的差异。
但是你真的必须用你的语料库和目标来评估它,因为为了某些目的,对某些数据起作用的东西,可能不能推广到非常不同的项目中。
https://stackoverflow.com/questions/45959618
复制相似问题