在上一篇文章当中,学记曾经提到过要遵纪守法,为什么会这么说呢?
这是因为网络爬虫在目前还属于拓荒阶段,虽然互联网世界已经通过自己的游戏规则建立起一套道德规范(即Robots协议,全称是“网络爬虫排除标准”),但法律部分还在建立和完善中,也就是说,现在这个领域暂时还是灰色地带。
在程序员当中流传着一句戏言“爬虫写的好,监狱进的早。”当然,这只是一句玩笑而已。
虽然真的有因为爬虫进了监狱的程序员,甚至是整个公司都被查封,不过,那只是个例而已。
如果爬虫就像浏览器一样获取的是公开显示的数据而不是网站后台的私密敏感信息,就不用太担心法律法规的约束,因为目前大数据产业链的发展速度远远超过了法律的完善程度。
不过即使法律并未规定,在爬取网站的时候,程序员也应该限制自己的爬虫遵守Robots协议,同时限制网络爬虫程序的抓取数据的速度。
在使用数据的时候,必须要尊重网站的知识产权。如果违反了这些规定,就很有可能吃官司。
说了这么多,我们进入正题:开始进行爬虫学习的前期准备工作。
工欲善其事,必先利其器。
在进行Python爬虫的学习之前,我们先要将工具准备齐全,安装一些插件,安装一些软件。
Chrome Developer Tools:谷歌浏览器内置的开发者工具。
最方面的调用方法就是在打开的网页按一下F12键。
POSTMAN:功能强大的网页调试与RESTful请求工具。
上述的两个程序只需要调用即可,而下面凡是带有 pip字眼的插件都需要我们自己打开CMD.EXE进行下载。
在菜单栏里搜索栏那里输入即可打开cmd,在其后输入相关的命令行即可下载。
当下载出现错误时,可能是因为网络连接中断,在这种时候可以再次输入下载字符,然后按下回车键。
HTTPie:命令行HTTP客户端。
pip3 install httpie(命令行)
BuiltWith:识别网站所用技术的工具。
pip3 install builtwith(命令行)
python-whois:查询网站所有者的工具。
pip3 install python-whois(命令行)
robotparser:解析robots.txt的工具
上面所有的程序与插件准备好之后,我们可以先来简单的了解一下爬虫的工作流程。
一般来说,爬虫的工作流程包括以下几个步骤:
1.设定抓取目标并获取网页。
2.当服务器无法访问时,按照指定的重试次数尝试重新下载页面。
3.在需要的时候设置用户代理或隐藏真实IP,否则可能无法访问页面。
4.对获取的页面进行必要的解码操作然后抓取出需要的信息。
5.在获取的页面中通过某种方式抽取出页面中的链接信息。
6.对链接进行进一步的处理。
7.将有用的信息进行存储以备后续的处理。
这些就是爬虫的基础工作流程。
如果想学习更多科技知识,可以点击关注。
如果对文章中的内容有什么困惑的地方,可以在评论区提出自己的问题,学记同大家一起交流,解决各种问题,一起进步。
青年学记 陪伴着各位青年
作者:青年学记 一名不断进步的程序猿
一起学习 一起进步
走向自立
领取专属 10元无门槛券
私享最新 技术干货