采集豆瓣影评
流程如下:
创建一个Scrapy项目;
定义提取的Item;
编写爬取网站的 spider 并提取 Item;
编写 Item Pipeline 来存储提取到的Item(即数据)。
提取数据库数据,处理展示
创建项目,终端输入
项目结构(不包括后续配置)
scrapy中cookies的写法,可以与request中cookie的写法对比下
这里我用了两种方法解决这个问题,第一个是加cookie,效果不太理想,我换了第二种采用登录的方式。
由于在登录过程中可能需要输入验证码,目前采用把验证码图片保存至本地手动输入
(借助一些打码平台可以实现自动识别验证码输入,收费)
词云和分布图展示
本来是想用至尊宝做一个词云图的,找了好久没找到素材,就用了之前我的一张壁纸
话说,词云图好像并不能看出什么~而分布图表达的结果也并不直观,那就代表本次的结果没有什么卵用,个人觉得是因为数据量太小了,而且词云图本身对数据展示的结果只能看出高频词而已...
时光无法回头,人生也不能重来,珍惜眼前人。
千万不要得到的时候在毁,失去的时候在悔!
作者:_知几
源自:https://ask.hellobi.com/blog/zhiji/11170
声明:文章著作权归作者所有,如有侵权,请联系小编删除
Github地址:https://github.com/ReainL/douban_qrs
领取专属 10元无门槛券
私享最新 技术干货