我一直在处理大尺寸的文本文件。 场景:将文本文件转换为token,其列表长度为250000 我想把这个垃圾词去掉。为此,我使用了nltk和列表理解。但是对于列表大小为100的情况,它的列表理解需要10秒。from nltk.corpus import stopwords,words
no_junk = [x for x in vocab_temp ifx in words.words()]
print(
我正在尝试运行NLTK书籍中提供的这个示例>>> cp = load_parser('grammars/book_grammars/sql0Country="china"NameError: name 'load_parser' is not defined
我试着寻找类似的问题,但没有一个有相同的问题
about people in konoha", "and are above jonin level"我已经研究过spacy和nltk中的发送标记器,但是它们并没有给我想要的结果。我只是一个初学者,在nlp和机器学习,并有非常有限的知识迄今。如果您能指导我一些技术或可用的软件包,通过这些技术或软件包,我就可以获得上述结果,这将是非常棒的。编辑
我将遇