本质上,我们希望能够将in唯一地分配给包含在一大组文档中的所有N个gram。因此,如果我有1000万个文档要处理,我将从每个文档中读取文本,并获得N个gram(主要是trigram),并且应该能够为这些N个gram分配惟一的ID。不知何故,我需要存储这些唯一的ID,以便我可以快速获取它们。
发布于 2011-10-15 05:31:07
基于上面的评论,我建议你简单地使用N-gram作为它自己的标识符。这样就不需要维护从ID到N-gram的单独映射。
例如,假设您有一个文档,其中包含文本"hello",其中包含三元组“hello”、"ell“和"llo”(假设不包括单词边界)。您可以直接使用N元语法作为文档签名{“hel1”,"ell","llo“},而不是首先设置一个ID映射,如1=”hel1“,2="ell",3="llo”,并将文档签名设置为集合{ 1,2,3 }。这样,您甚至可以将扫描和处理阶段组合在一起,只对文档进行一次遍历。
https://stackoverflow.com/questions/7760590
复制相似问题