爬虫的修养
NO.1
一只微博
我的思念在她身上
反复辗念
刺猬
当你希望了解她的一切的时候
为什么不去先从她的信息获取开始呢
——光影君
一只微博小爬虫的自我修养
它不过是微小的一只虫子
但是他却可以获取到所有你想要的
就像神奇海螺一样
他什么都知道
注:此文章只是讲个大概,以后如果很长很长的一个项目会在B站发视频详解
谢谢理解
爬虫计划-1
获取页面信息
01
第一步
选取weibo.cn
作为爬取的目标
因为weibo.cn
页面简单而且反爬虫措施不是那么强
那么下面我们开始分析页面
取
第二步,分析页面
F12进入源代码区
我们看到这个html写的还算工整
用户发表的评论和消息还有用户名什么的都在c标签里
也就是说我们需要获取所有的c标签里的内容
析
给出代码
请求头池
headers
02
在此处给出所有设备的User-agent
也就是说每次获取信息的时候都要换一个U A
来保证不会被微博官方发现
必要的时候可以使用代理ip的方法
但是本文暂时不写
cookie池
大量账号
03
最后使用大量的cookie战术
来抵挡微博的反爬技术
效果图看下
许来日方长,有几人来往
如果你也是只刺猬,请拥抱我
领取专属 10元无门槛券
私享最新 技术干货