首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >为大量文档分配唯一Ids

为大量文档分配唯一Ids
EN

Stack Overflow用户
提问于 2011-10-14 05:23:23
回答 1查看 53关注 0票数 0

本质上,我们希望能够将in唯一地分配给包含在一大组文档中的所有N个gram。因此,如果我有1000万个文档要处理,我将从每个文档中读取文本,并获得N个gram(主要是trigram),并且应该能够为这些N个gram分配惟一的ID。不知何故,我需要存储这些唯一的ID,以便我可以快速获取它们。

EN

回答 1

Stack Overflow用户

发布于 2011-10-15 05:31:07

基于上面的评论,我建议你简单地使用N-gram作为它自己的标识符。这样就不需要维护从ID到N-gram的单独映射。

例如,假设您有一个文档,其中包含文本"hello",其中包含三元组“hello”、"ell“和"llo”(假设不包括单词边界)。您可以直接使用N元语法作为文档签名{“hel1”,"ell","llo“},而不是首先设置一个ID映射,如1=”hel1“,2="ell",3="llo”,并将文档签名设置为集合{ 1,2,3 }。这样,您甚至可以将扫描和处理阶段组合在一起,只对文档进行一次遍历。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/7760590

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档