开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

一个简单的爬虫流程及实现

文章来源：企鹅号 - Python凡梦

爬虫在数据采集方面有很多不错的应用，互联网就是数据的海洋，掌握好这一工具对与获得更多更宏观的数据有很大的意义。

一个简单的爬虫包括五个主要的部分

1 spider_main 一个调度的逻辑

2 url_manager url的管理器，复杂url的获得和去重，这一部分深度的可以利用redis的队列，以及深度广度优先原则

3 html_parser html的解析器，获得html中想得到的数据和子url

4 html_downloader 具体执行下载逻辑的部分，深度的话会涉及cookid的处理，https，header，多线程，定时，反爬虫的策略

5 html_outputer 与数据库连接以及在前台的展现

分别的代码实现

No.1

No.2

No.3

No.4

No.5

运行后的结果：

发表于: 2018-05-152018-05-15 21:41:03
原文链接：https://kuaibao.qq.com/s/20180515A1S3ZZ00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

相关快讯