我需要扫描大约150万个文本文档的语料库,并将长度在1到4之间的任何一组单词与大约180万个短语的词汇表进行匹配。从每个文本文件中提取单词n-gram不是问题,而且速度很快;瓶颈在于对词汇表的检查。我的词汇表存储在一个MySQL表中,索引正确,我像这样查询每个短语:
SELECT (1) FROM vocab WHERE phr
当我尝试运行下面的代码时,我得到了keyerror: KeyError: word fransız not in vocabulary. 问题出在哪里? import numpy as npfrom nltk.tokenize import sent_tokenize,word_tokenizetext="Victor Marie Hugo, Romantik akıma bağlı Fransız şair, romancı ve oyun yazarı. En büyük ve