问为大量文档分配唯一Ids
EN

Stack Overflow用户

提问于 2011-10-14 05:23:23

回答 1查看 53关注 0票数 0

本质上，我们希望能够将in唯一地分配给包含在一大组文档中的所有N个gram。因此，如果我有1000万个文档要处理，我将从每个文档中读取文本，并获得N个gram(主要是trigram)，并且应该能够为这些N个gram分配惟一的ID。不知何故，我需要存储这些唯一的ID，以便我可以快速获取它们。

map

unique-id

回答 1

Stack Overflow用户

发布于 2011-10-15 05:31:07

基于上面的评论，我建议你简单地使用N-gram作为它自己的标识符。这样就不需要维护从ID到N-gram的单独映射。

例如，假设您有一个文档，其中包含文本"hello"，其中包含三元组“hello”、"ell“和"llo”(假设不包括单词边界)。您可以直接使用N元语法作为文档签名{“hel1”，"ell"，"llo“}，而不是首先设置一个ID映射，如1=”hel1“，2="ell"，3="llo”，并将文档签名设置为集合{ 1，2，3 }。这样，您甚至可以将扫描和处理阶段组合在一起，只对文档进行一次遍历。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/7760590

复制

相似问题

问为大量文档分配唯一Ids
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为大量文档分配唯一IdsEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为大量文档分配唯一Ids
EN