', '(', '9/10', ')', '-', 'stir', 'of', 'echoes', '(', '8/10', ')']
只要看一下这些原始标符,我们就能得到很多可以尝试的想法,比如:
从单词中删除标点符号...删除没有太多意义的标符(例如'and')
一些想法:
我们可以使用字符串translate()函数从标符中过滤掉标点符号。...我们可以通过加载数据集中的所有文档并构建一组单词来实现这一点。我们可能决定支持所有这些单词,也许放弃一些单词。然后可以将最终选中的词汇表保存到文件中供以后调用,例如将来在新文档中过滤单词。...一般而言,在2,000条评论中只出现一次或几次的词语很可能不具有预测性,可以从词汇表中删除,这大大减少了我们需要建模的标符数量。...具体来说,你了解到:
如何加载文本数据并清理它以去除标点符号和其他非单词内容。
如何开发词汇表,定制词汇表,并将其保存到文件中。