首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >doc2vec的良好性能所需的最小数据集大小是多少?

doc2vec的良好性能所需的最小数据集大小是多少?
EN

Stack Overflow用户
提问于 2017-08-30 11:48:23
回答 1查看 3.6K关注 0票数 9

当对不同大小的数据集进行培训时,doc2vec是如何执行的?在原始语料库中没有提到数据集大小,所以我想知道从doc2vec中获得良好性能所需的最小大小是多少。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-08-30 21:51:04

很多东西被称为“doc2vec”,但在大多数人看来,这通常指的是来自Le和Mikolov的“段落向量”技术。

原始的“测量向量”论文描述了在三个数据集中评估它:

  • “斯坦福情感树银行”:11,825句电影评论(这些句子被进一步分解成239,232段-每个短语只有几个单词)
  • “'IMDB数据集”:100,000部电影评论(通常是几百字)
  • 搜索-结果“片段”段落: 10,000,000段,收集自前10名的Google搜索结果中的前1,000,000次最常见的查询。

前两个是公开的,因此您还可以以单词、典型文档大小和词汇表查看它们的总大小。(不过,请注意,没有人能够在前两个数据集中完全复制该论文的情感分类结果,这意味着他们在报告中遗漏了一些信息或错误。可以接近IMDB数据集。)

后续文件将该算法应用于发现数据集中的主题关系:

  • 维基百科:4 490 000篇文章正文-文本
  • Arxiv:从PDF中提取的886,000篇学术论文

因此,这两篇早期论文中使用的身体从几万到数百万的文档,以及从几个单词短语到数千字文章的文档大小。(但这些作品并不一定与不同大小的文档混合在一起。)

一般来说,Word2vec/段落向量技术受益于大量的数据和各种各样的单词上下文。如果没有至少数万份文件,我就不会期望有好的结果。文档的长度超过几个字,每个工作都要好得多。如果在相同的培训中(如混合推文和书籍),结果可能更难理解,如果大小或-kind文档存在很大的差异。

但是你真的必须用你的语料库和目标来评估它,因为为了某些目的,对某些数据起作用的东西,可能不能推广到非常不同的项目中。

票数 12
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/45959618

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档