我想知道如何对以下句子(字符串)进行单词标记化: "I am good. I e.g. wash the dishes." 以下几句话: ["I", "am", "good", ".这样的缩写时,它被NLTK word_tokenizer标记为如下["e.g", "."] 我尝试使用与"e.g."一起训练的punkt首先对
试图让NLTK对从印度政府研究网站下载的旁遮普语语料库进行分析,脚本是Gurmikhi。我的主要目标是获得整个语料库上的词频分布,所以这里的目标是对所有单词进行标记化。我的问题似乎是NLTK是如何读取文本的,因为当我使用Python的内置方法时: from nltk.corpus import PlaintextC
我用python上传了一个txt文件,将其标记为句子,然后使用nltk将其标记为单词:tokenized_text = [nltk.word_tokenize(x) for x in sent_text]
这给了我一个列表列表,其中主列表中的每个列表都是一个标记化单词的句子。然后,一旦我有了这些只包含我想要的片段的新列表(或者任何最好的方法)