前言
毕业设计的时候用scrapy做了一个爬取wooyun、freebuf的爬虫。时隔将近2年,几乎把爬虫知识全还给了百度老师和谷歌老师。最近人工智能非常的火,而人工智能需要非常多的数据,于是重新接触爬虫。
Let’s Talk
看到知乎上、百度上、v2ex、stackoverflow都有人问“爬虫应该怎么入门”、“用爬虫能干什么”一类的问题。我是一个菜鸟,菜鸟就说说菜鸟的理解吧。
爬虫能干吗?
01
干不可描述的事
爬虫当然是爬数据了,可能最开始很多人是从爬草榴这种类型网站的视频、图片开始的,然后不可描述的视频把硬盘装的满满的,从此营养跟不上,头也晕了,眼也花了。都别看我,我说的是别人。
02
干正儿八经的事
当然,爬虫除了可以做不可描述的事情之外,还可以干一些正紧的事情,比如说,我之前爬取了wooyun整站,后来wooyun做了一些违反社会主义道德的事情,我大天朝能忍?之后wooyun就关闭了,也幸好我当时的毕业设计是爬wooyun,至少现在可以在本地看看wooyun的文章,默默的怀缅一下曾经白帽子圈的一片净土。
当然爬虫也不局限于爬wooyun,通过不同xpath可以爬很多不同网站的文章资料。
01
干高大上的事
2012年那会儿,12306还没有开发出APP。有个哥们就爬取12306官网的火车票实施数据,然后自己做了一个抢票APP,很前卫的哥们。
也有一个北京的程序员,因为中介太坑了,所以写了个爬虫程序,按照地理位置范围把58上的租房信息爬了个遍,并通过自己的算法筛选出类似不是中介的结果。
爬虫还有很多事情可以做,比如爬facebook并通过大数据分析:希拉里支持者多还是川普支持者多。其实马克扎格博格在投票前就默默给川普投票了,因为他早知道川普的支持者更多。
如何开始学习爬虫?
1.了解HTML结构,学习xpath
2.了解requests、bs4、re各种包的方法、属性。
3.正则表达式
4.跟着网上教程写一阵子
5.试着自己写一个简单的爬虫
6.开始接触scrapy,并跟着网上教程敲一阵子
7.用scrapy自己写一个简单的爬虫
8.学习MYSQL,nosql一种数据库的设计和基本操作
9.分析scrapy框架代码,深入了解爬虫
10.宽度搜索优先、深度搜索优先,这两个算法学会并融会贯通
11.爬虫优化(算法的选择,数据库的存储,多线程,分布式)
12.对抗反爬虫机制,分析原理,并bypass
13.锻炼颈椎
no 代码 no 逼逼,先给自己挖个坑,写一套爬虫教程《爬虫从入门到颈椎病康复》,尽请期待!
界世的你当不
只作你的肩膀
无
无畏的太阳
旅行滑雪黑科技牢骚
空·
领取专属 10元无门槛券
私享最新 技术干货