这个页面将帮助你从加载和清理IMDB电影评论来起步,然后应用一个简单的词袋模型,来获得令人惊讶的准确预测,评论是点赞还是点踩。
在你开始之前
本教程使用 Python。...读取数据
可以从“数据”页面下载必要的文件。你需要的第一个文件是unlabeledTrainData,其中包含 25,000 个 IMDB 电影评论,每个评论都带有正面或负面情感标签。...换句话说,上面的re.sub()语句说:“查找任何不是小写字母(a-z)或大写字母(A-Z)的内容,并用空格替换它。”...(原始电影评论),
# 输出是单个字符串(预处理过的电影评论)
# 1....}
句子 1:{ 2, 1, 1, 1, 1, 0, 0, 0 }
同样,句子 2 的特征是:{ 3, 1, 0, 0, 1, 1, 1, 1}
在 IMDB 数据中,我们有大量的评论,这将为我们提供大量的词汇