从数据角度探究《前任3》为什么这么火爆

文章来源：企鹅号 - python

采集豆瓣影评

流程如下：

创建一个Scrapy项目；

定义提取的Item；

编写爬取网站的 spider 并提取 Item；

编写 Item Pipeline 来存储提取到的Item(即数据)。

提取数据库数据，处理展示

创建项目，终端输入

项目结构(不包括后续配置)

scrapy中cookies的写法，可以与request中cookie的写法对比下

这里我用了两种方法解决这个问题，第一个是加cookie，效果不太理想，我换了第二种采用登录的方式。

由于在登录过程中可能需要输入验证码，目前采用把验证码图片保存至本地手动输入

(借助一些打码平台可以实现自动识别验证码输入，收费)

词云和分布图展示

本来是想用至尊宝做一个词云图的，找了好久没找到素材，就用了之前我的一张壁纸

话说，词云图好像并不能看出什么～而分布图表达的结果也并不直观，那就代表本次的结果没有什么卵用，个人觉得是因为数据量太小了，而且词云图本身对数据展示的结果只能看出高频词而已...

时光无法回头，人生也不能重来，珍惜眼前人。

千万不要得到的时候在毁，失去的时候在悔！

作者：_知几

源自：https://ask.hellobi.com/blog/zhiji/11170

声明：文章著作权归作者所有，如有侵权，请联系小编删除

Github地址：https://github.com/ReainL/douban_qrs

相关快讯