文章/答案/技术大牛

发布

社区首页 >问答首页 >doc2vec的良好性能所需的最小数据集大小是多少？

问doc2vec的良好性能所需的最小数据集大小是多少？
EN

Stack Overflow用户

提问于 2017-08-30 11:48:23

回答 1查看 3.6K关注 0票数 9

当对不同大小的数据集进行培训时，doc2vec是如何执行的？在原始语料库中没有提到数据集大小，所以我想知道从doc2vec中获得良好性能所需的最小大小是多少。

nlp

doc2vec

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-08-30 21:51:04

很多东西被称为“doc2vec”，但在大多数人看来，这通常指的是来自Le和Mikolov的“段落向量”技术。

原始的“测量向量”论文描述了在三个数据集中评估它：

“斯坦福情感树银行”：11,825句电影评论(这些句子被进一步分解成239,232段-每个短语只有几个单词)
“'IMDB数据集”：100,000部电影评论(通常是几百字)
搜索-结果“片段”段落: 10,000,000段，收集自前10名的Google搜索结果中的前1,000,000次最常见的查询。

前两个是公开的，因此您还可以以单词、典型文档大小和词汇表查看它们的总大小。(不过，请注意，没有人能够在前两个数据集中完全复制该论文的情感分类结果，这意味着他们在报告中遗漏了一些信息或错误。可以接近IMDB数据集。)

后续文件将该算法应用于发现数据集中的主题关系：

维基百科:4 490 000篇文章正文-文本
Arxiv:从PDF中提取的886,000篇学术论文

因此，这两篇早期论文中使用的身体从几万到数百万的文档，以及从几个单词短语到数千字文章的文档大小。(但这些作品并不一定与不同大小的文档混合在一起。)

一般来说，Word2vec/段落向量技术受益于大量的数据和各种各样的单词上下文。如果没有至少数万份文件，我就不会期望有好的结果。文档的长度超过几个字，每个工作都要好得多。如果在相同的培训中(如混合推文和书籍)，结果可能更难理解，如果大小或-kind文档存在很大的差异。

但是你真的必须用你的语料库和目标来评估它，因为为了某些目的，对某些数据起作用的东西，可能不能推广到非常不同的项目中。

票数 12

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/45959618

复制

相似问题

问doc2vec的良好性能所需的最小数据集大小是多少？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问doc2vec的良好性能所需的最小数据集大小是多少？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问doc2vec的良好性能所需的最小数据集大小是多少？
EN