如何开始爬虫？

文章来源：企鹅号 - UncleChow

前言

毕业设计的时候用scrapy做了一个爬取wooyun、freebuf的爬虫。时隔将近2年，几乎把爬虫知识全还给了百度老师和谷歌老师。最近人工智能非常的火，而人工智能需要非常多的数据，于是重新接触爬虫。

Let’s Talk

看到知乎上、百度上、v2ex、stackoverflow都有人问“爬虫应该怎么入门”、“用爬虫能干什么”一类的问题。我是一个菜鸟，菜鸟就说说菜鸟的理解吧。

爬虫能干吗？

干不可描述的事

爬虫当然是爬数据了，可能最开始很多人是从爬草榴这种类型网站的视频、图片开始的，然后不可描述的视频把硬盘装的满满的，从此营养跟不上，头也晕了，眼也花了。都别看我，我说的是别人。

干正儿八经的事

当然，爬虫除了可以做不可描述的事情之外，还可以干一些正紧的事情，比如说，我之前爬取了wooyun整站，后来wooyun做了一些违反社会主义道德的事情，我大天朝能忍？之后wooyun就关闭了，也幸好我当时的毕业设计是爬wooyun，至少现在可以在本地看看wooyun的文章，默默的怀缅一下曾经白帽子圈的一片净土。

当然爬虫也不局限于爬wooyun，通过不同xpath可以爬很多不同网站的文章资料。

干高大上的事

2012年那会儿，12306还没有开发出APP。有个哥们就爬取12306官网的火车票实施数据，然后自己做了一个抢票APP，很前卫的哥们。

也有一个北京的程序员，因为中介太坑了，所以写了个爬虫程序，按照地理位置范围把58上的租房信息爬了个遍，并通过自己的算法筛选出类似不是中介的结果。

爬虫还有很多事情可以做，比如爬facebook并通过大数据分析：希拉里支持者多还是川普支持者多。其实马克扎格博格在投票前就默默给川普投票了，因为他早知道川普的支持者更多。

如何开始学习爬虫？

1.了解HTML结构，学习xpath

2.了解requests、bs4、re各种包的方法、属性。

3.正则表达式

4.跟着网上教程写一阵子

5.试着自己写一个简单的爬虫

6.开始接触scrapy，并跟着网上教程敲一阵子

7.用scrapy自己写一个简单的爬虫

8.学习MYSQL，nosql一种数据库的设计和基本操作

9.分析scrapy框架代码，深入了解爬虫

10.宽度搜索优先、深度搜索优先，这两个算法学会并融会贯通

11.爬虫优化（算法的选择，数据库的存储，多线程，分布式）

12.对抗反爬虫机制，分析原理，并bypass

13.锻炼颈椎

no 代码 no 逼逼，先给自己挖个坑，写一套爬虫教程《爬虫从入门到颈椎病康复》，尽请期待！

界世的你当不

只作你的肩膀

无

无畏的太阳

旅行滑雪黑科技牢骚

空·

发表于: 2018-01-142018-01-14 20:29:32
原文链接：http://kuaibao.qq.com/s/20180114G0JE5900?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

如何开始爬虫？

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐