我很难理解R词干词的处理过程。a <- Corpus(VectorSource("device so much more funand unlike most android torrent download clients"))a[[1]]$content
这个字符串中的第一个单词是“设备”,我创建了我的术语矩阵。
b <- TermDoc
我试图使用单词分隔符将大型文本文件拆分为较小的文本文件。我尝试过搜索,但是我只看到了在x行之后分解文件的帖子。我对编程相当陌生,但我给了它一个开始。我想遍历所有的行,如果它以hello开头,它将把所有这些行放到一个文件中,直到到达下一个hello为止。文件中的第一个单词是hello。最后,我试图把文本放到R中,但我认为如果我像这样先把它分开会更容易一些。任何帮助都是非常感谢的,谢谢。lines = text_file.readlines()for line