本文挖掘是数据挖掘中一个非常重要的部分,我们可以对新闻事件进行分析,了解国家大事;也可以对微博信息进行分析,通过社交舆情看看大家的关注点。通过文本挖掘找到文章中的隐藏信息,对文章的结构进行分析,判断是不是同一个作者写文章等等。
本文挖掘的第一步,就是要进行分词,分词将直接影响文本挖掘的效果。R语言在分词方面有很好的支持,接下来就介绍一个R语言中文分词包jiebaR。
本文通过对17年和18年2年的年终总结文本分析和可视化,来说明jiebaR的使用方法。
#通过 CRAN 安装
install.packages("jiebaR")
【三种分词语句的写法】
使用默认参数,虽然写法不一样,但是分词的结果都是一样的。
【对txt文本分词】
like.txt文件在当前目录下面,utf-8的格式
运行分词程序,会在当前目录生成一个新的分词结果的文件。
【保留符号】
【自定义词】
添加用户自定义词到已经新建的分词器中,把“我的”和“桌位上”定义成两个词,默认是分开的。
【停止词】
停止词就是分词过程中,我们不需要作为结果的词,我们通常都会将这些词进行过滤。把"苏征涯"设置成不显示的词。
【词频统计】
【关键词统计】
【案例-2017年年终总结】
2017年总结关键词:"学习","计划","R","2018","时间" 。
【案例-2018年年终总结】
2018年总结关键词:"学习","完成","数据","可视化","R" 。
可见,学习和R语言在2017和2018年都是很重要。
领取专属 10元无门槛券
私享最新 技术干货