我想知道如何对以下句子(字符串)进行单词标记化: "I am good. I e.g. wash the dishes." 以下几句话: ["I", "am", "good", ".", "wash", "the", "dishes"] 现在的问题是,当涉及到像"e.g."这样的缩写时,它被NLTK word_tokenizer
我用python上传了一个txt文件,将其标记为句子,然后使用nltk将其标记为单词:tokenized_text = [nltk.word_tokenize(x) for x in sent_text]
这给了我一个列表列表,其中主列表中的每个列表都是一个标记化单词的句子。然后,一旦我有了这些只包含我想要
我有一个大约有30,000行的表,需要从dummy_df数据帧中名为dummy_df的列中提取非英语单词。我需要将非英语单词放在相邻的列non_english中。虚拟数据是这样的: dummy_df = pandas.DataFrame({'outcome': ["I want to go to church", "I love Matauranga","Take me to Oranga