首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何开始爬虫?

前言

毕业设计的时候用scrapy做了一个爬取wooyun、freebuf的爬虫。时隔将近2年,几乎把爬虫知识全还给了百度老师和谷歌老师。最近人工智能非常的火,而人工智能需要非常多的数据,于是重新接触爬虫。

Let’s Talk

看到知乎上、百度上、v2ex、stackoverflow都有人问“爬虫应该怎么入门”、“用爬虫能干什么”一类的问题。我是一个菜鸟,菜鸟就说说菜鸟的理解吧。

爬虫能干吗?

01

干不可描述的事

爬虫当然是爬数据了,可能最开始很多人是从爬草榴这种类型网站的视频、图片开始的,然后不可描述的视频把硬盘装的满满的,从此营养跟不上,头也晕了,眼也花了。都别看我,我说的是别人。

02

干正儿八经的事

当然,爬虫除了可以做不可描述的事情之外,还可以干一些正紧的事情,比如说,我之前爬取了wooyun整站,后来wooyun做了一些违反社会主义道德的事情,我大天朝能忍?之后wooyun就关闭了,也幸好我当时的毕业设计是爬wooyun,至少现在可以在本地看看wooyun的文章,默默的怀缅一下曾经白帽子圈的一片净土。

当然爬虫也不局限于爬wooyun,通过不同xpath可以爬很多不同网站的文章资料。

01

干高大上的事

2012年那会儿,12306还没有开发出APP。有个哥们就爬取12306官网的火车票实施数据,然后自己做了一个抢票APP,很前卫的哥们。

也有一个北京的程序员,因为中介太坑了,所以写了个爬虫程序,按照地理位置范围把58上的租房信息爬了个遍,并通过自己的算法筛选出类似不是中介的结果。

爬虫还有很多事情可以做,比如爬facebook并通过大数据分析:希拉里支持者多还是川普支持者多。其实马克扎格博格在投票前就默默给川普投票了,因为他早知道川普的支持者更多。

如何开始学习爬虫?

1.了解HTML结构,学习xpath

2.了解requests、bs4、re各种包的方法、属性。

3.正则表达式

4.跟着网上教程写一阵子

5.试着自己写一个简单的爬虫

6.开始接触scrapy,并跟着网上教程敲一阵子

7.用scrapy自己写一个简单的爬虫

8.学习MYSQL,nosql一种数据库的设计和基本操作

9.分析scrapy框架代码,深入了解爬虫

10.宽度搜索优先、深度搜索优先,这两个算法学会并融会贯通

11.爬虫优化(算法的选择,数据库的存储,多线程,分布式)

12.对抗反爬虫机制,分析原理,并bypass

13.锻炼颈椎

no 代码 no 逼逼,先给自己挖个坑,写一套爬虫教程《爬虫从入门到颈椎病康复》,尽请期待!

界世的你当不

只作你的肩膀

无畏的太阳

旅行滑雪黑科技牢骚

空·

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180114G0JE5900?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券