爬虫有风险,使用请谨慎,可能是这两天利用Python爬豆瓣电影爬多了,今天早上登录的时候提示号被封了,好在后面发完短信后又解封了。
当下最火的做法是进行词频统计并生成词云,今天说的就是这个。
读取Mongo中的短评数据,进行中文分词
代码:
中文分词部分,默认分词效果已经非常好了,我未添加自定义字典
对分词结果取Top50生成词云
词云效果图:
其它分析任务
点赞数Top10
7. author = 影志, date = 2018-06-19 00:00:00, vote = 7076, comment = “今后都会越来越好吧,希望这一天早点来”口罩成为符号,不是雾霾,而是人性的仪式,结尾竟然看到《辛德勒名单》一样的救赎。通俗感人,上海电影节首映哭倒一片,基于真实事件改编的社会意义加分,或许《我不是药神》之于中国,就像《摔跤吧爸爸》之于印度吧…能看到就不错。“其实只有一种病:穷病”
15天评论量分布、走势
评论量分布图
论量走势图
关注公众号,“Python语言”,回复“python”即可获取python学习视频
为大家提供与Python相关的最新技术和资讯。
领取专属 10元无门槛券
私享最新 技术干货