为了兑现之前说要写技术教程的承诺,就有了这篇文章
但是某人其实是个技术渣,所以就从最最最最最简单的开始喽~
工具:Anaconda x.x.x
自带python环境+IDE+各种包,对新手十分友好了!
假装你已经下载安装好了Anaconda,然后打开Spyder:
第一步:分析你的目标网页
举个非常简单的例子,我想把微博影响力排行榜的名字一条一条存下来,但是我不想手动复制粘贴,怎么办?
1.打开浏览器进入目标页面
2.打开开发人员模式(顺便安利一下Win10的Edge,用顺手了觉得超好用der)
3.从源码中定位目标文本
看见了吗?名字被存在了“nk”这个class里面。
这就是线索。
第二步:定制你的爬虫
1.引入requests和BeautifulSoup4
2.向requests提供url,抓取html页面
3.用BeautifulSoup将html文档转为树
4.提供上一步的线索(nk)找到所有目标节点
5.输出目标内容
这样所有的名字都按顺序在控制台输出啦
正常浏览页面是一页显示十个,我加了循环一共遍历了十页,所以一共有100条结果
第三步:我还想一键保存头像
并且要以他们的名字命名图片哦
1.找到头像url
2.用上一步获取的名字生成图片名
3.保存
(涉及文件操作需要引入os模块)
看,头像已经全部下好到你电脑啦!
是不是hin简单!
最后
步骤简单是建立在网页本身比较简单的基础上,实际操作可能会有一些阻碍。
那么就下期2.0再会啦
p.s.
听说有人吐槽我排版差???
好好好我认怂,我不是排版差,我是压根就没有排版
按理说图片也应该优化一下大小
然而我根本没有耐心
所以就……就暂时这样吧
领取专属 10元无门槛券
私享最新 技术干货