爬虫在数据采集方面有很多不错的应用,互联网就是数据的海洋,掌握好这一工具对与获得更多更宏观的数据有很大的意义。
一个简单的爬虫包括五个主要的部分
1 spider_main 一个调度的逻辑
2 url_manager url的管理器,复杂url的获得和去重 ,这一部分深度的可以利用redis的队列,以及深度广度优先原则
3 html_parser html的解析器,获得html中想得到的数据和子url
4 html_downloader 具体执行下载逻辑的部分,深度的话会涉及cookid的处理,https,header,多线程,定时,反爬虫的策略
5 html_outputer 与数据库连接以及在前台的展现
分别的代码实现
No.1
No.2
No.3
No.4
No.5
运行后的结果:
领取专属 10元无门槛券
私享最新 技术干货