爬虫是什么?
本文所说的爬虫不是自然界中的爬行动物,而是运行在网络中的一个自动处理信息的程序。
爬虫是一个程序,该程序利用网络请求(HTTP/HTTPS)进行数据的筛选和录入。因为网络信息维度很广泛,像极了蜘蛛网,所以我们将利用网络请求进行数据筛选和录入的程序成为网络蜘蛛(网络爬虫)。
爬虫运行原理:
信息在网络上传递的载体大部分是网页数据。爬虫运行的原理就是将网页数据进行解析,去掉超文本标记语言(HTML)等,只保留有用的数据。
案例:
假设我们要从网络上爬取《送别》的歌词,网页如图图示,我们要爬取的内容是红色部分。
爬虫案例
1. 首先我们分析页面的结构,从而找到了歌词所在的大致的div结构
找到div结构
进一步找到路径
获取路径信息
使用Selector解析工具进行数据解析。
源代码
爬虫为什么首先Python:
其实哪种语言都可以编写爬虫,只要该语言能够进行解析response,request等相关的网络请求就行。
Python进行爬虫开发是有其独特的优势,上手快,难度低,第三方插件很完善,开发难度低。这些优点是其他语言不能比拟的,所以Python是编写爬虫的首要语言。
我是一个爱游戏爱倒腾的Python程序猿,想知道哪些爬虫知识?请在下方留言,我会进行专门讲解哦~
领取专属 10元无门槛券
私享最新 技术干货