大家好,欢迎来到Python爬虫小站,这是一个记录博主爬虫技术成长的地方。在这里你可以 和数据交流,和技术奋飞,相信你在这里可以收获一些乐趣。。。
爬虫资料
byte-of-python
Python 核心编程
Python基础教程
廖雪峰Python3
Python基础-菜鸟教程
Python基础-W3cschool
Python3网络爬虫开发实战-崔庆才
爬虫技术
(1)学会基本的Python语法知识(可以参考上面的爬虫资料);
(2)学习Python爬虫常用到的几个重要内置库requests, http等,用于下载网页;
(3)学习正则(re)表达式的基础用法、BeautifulSoup(bs4)、Xpath(lxml)等网页解析工具;
(4)尝试一些简单网站的爬取(如赶集,58同城),了解爬取数据的过程;
(5)了解爬虫的一些反爬机制(header,robot,时间间隔,代理ip,隐含字段等);
(6)学会一些特殊网站的爬取,解决登录、Cookie、session,js,动态网页等问题;
(7)了解爬虫与数据库的结合,如何将爬取的数据进行储存;
(8)学会应用Python的多线程、多进程进行爬取数据来提高爬虫效率;
(9)学习爬虫的一些框架(如Scrapy、PySpider等);
(10)学习分布式爬虫(主要是针对数据量庞大的爬取需求);
(11)学会运用ocr识别验证码加速爬取的过程;
(12) 暂时还没想到......,所以就更不会有(13)了。
小站介绍
博主会从基本的爬虫知识开始介绍,教小白们一步步成长(入坑),最后可以对爬虫知识熟练运用。本套教程分为基础篇,进阶篇,实战篇,欢迎大家在公众号内留言与我互动交流学习。
与我交流
领取专属 10元无门槛券
私享最新 技术干货