预计阅读时间:5min
解决痛点:很多同学对于爬虫会有一些疑惑,小火龙希望用简单的语言向你说明爬虫的基本原理,以及如何通过一段简单的代码实现,帮助你尽快上手,文章聚焦于爬虫初学者。
00
序言
爬虫是什么?有哪些应用场景?实现需要几步?通过代码如何实现?
如果你有以上疑惑,相信本篇文章可以帮助到你。介于篇幅原因,本篇先和大家分享前三点,代码实现会在下篇推给大家。
01
爬虫是什么?
首先谈谈什么是爬虫。当下,我们处在一个信息膨胀的时代,要想全面收集某方面的资料,需要将网络上各种信息抓取到本地,进行信息整合。这种 “自动请求网站并提取网站信息的程序”称为爬虫。
这里大家是否会有两个疑问:
1、 爬虫可以爬取哪些内容?
只要是在网站上可以看到的内容理论上都可以爬取下来,例如:文字、图片、音频、视频等。
2、 爬虫是否违法?
爬虫是一种技术,技术相当于工具,工具本身是不违法的。但如果某些人利用工具去做违法的事情,那就另当别论了。爬虫需要满足以下规范:
02
爬虫应用场景
爬虫有哪些应用场景?对于我们日常工作、生活又有哪些帮助?列举几点常见的方向:
03
爬虫常见步骤
到这里,你是否跃跃欲试,想要自己动手码一个爬虫呢?这里小火龙和大家分享一个相对通用的爬虫步骤,供大家参考:
步骤一:找到需要爬取的网站URL。例如:链家。

步骤二:查看网页源代码(HTML)。通过 F12 快捷键可进入。

步骤三:找到要爬取内容的位置。例如:房屋价格。

步骤四:通过Python代码实现网站请求、抓取、解析。下一篇『实现篇』分享代码。
步骤五:将爬取内容存储到本地。

以上就是本期的内容分享。