最近经常有小伙伴咨询,爬虫到底该怎么学,有什么爬虫学习路线可以参考下,萝卜作为非专业爬虫爱好者,今天就来分享下,对于我们平时的基础爬虫或者小规模爬虫,应该掌握哪些技能、需要如何学起!
当然了,由于个人水平有限,文章中不免有不准确的地方,欢迎斧正~
学习路线大纲 
图片有点糊,没有办法,公众号不能上传原图,需要原图的小伙伴在文末获取
Python 基础 
由于本篇主要介绍 Python 爬虫学习路线,所以对于 Python 基础知识,仅仅提取了最为基础的部分,应付基础爬虫完全够用了,当然,对于底层基础,肯定是掌握的越多、越牢固越好~
- 环境搭建
- Python安装
 - 开发工具 - PyCharm,VS Code
 
 - 变量
 - 基本数据结构
 - 流程控制
 - 函数
 - 面向对象编程
 
数据采集与解析 
- HTTP 基本原理
- URI 和 URL 统一资源定位符
 - HTTP&HTTPS 请求与响应
 - HTML 组成原理
 
 - WEB 基本原理
- JavaScript&HTML&CSS
 - 节点树与节点
 - Web 加载原理
 - 静动态 Web 页面
 
 - Socket 库
 - Requests 库
- requests 库的使用
 - cookie 与 session
 - 模拟登录
 - 请求头模拟
 - IP 代理
 
 - 正则表达式
- re 模块的使用
 - 基本字符串、数字等匹配规则
 - 贪婪与非贪婪匹配
 
 - Xpath
 
多种采集方式 
- 同步采集
 - 异步采集
 - Selenium
- 环境搭建 - webdriver
 - 元素选择 - (id,css,class,xpath)
 - 模拟登录
 - 隐藏 selenium 特征
 
 - AJAX
 - Pyppeteer
 
存储知识 
- 本地文件
- os 库
 - open 文件
 - 读写 Excel
 - 读写 CSV
 
 - MySQL
 - Redis
 - MongoDB
 - 与 Pandas 结合
- 存储成 Pandas 数据结构
 - Pandas 基本操作
 
 
中间人代理 
- Charles
 - Mitmproxy
 - HttpCanary
 
爬虫框架 
- Scrapy
- 环境搭建
 - 组件拆解
 - 通用爬虫
 - 分布式爬虫 - (scrapy-redis 使用,scrapy-redis 调度器)
 
 - Crawley
 - Selenium
 - PySpider
 
反爬虫知识 
- 信息校验型
- 模拟登录
 - Cookie 机制
 - 用户代理
 - 签名验证机制
 - header 机制
 
 - 动态渲染型
 - 文本混淆型
- 图文混淆 - 关键信息以图片形式给出
 - 字体反爬 - (反爬原理,编码破解)
 
 - 特征识别型
- 访问频率限制 - (IP 代理池,搭建个人 IP 代理池)
 - Selenium 特征检测 - 隐藏 Selenium 特征
 
 - 验证码
- 验证码原理
 - 图文验证码
 - 点选验证码
 - 滑动验证码
 - 其他变态验证码
 
 - JS 混淆
 
多终端爬虫 
- WEB 采集
 - APP 采集
 - 小程序采集
 - 数据去重
 - 断点采集
 - 增量采集
 
以上就是整理的基础爬虫所需的学习路线,当然鉴于个人水平有限,难免有不足之处,还望不吝指教!
下面分享一些免费好用的学习资料,大家自选,还是那句话,资料在精不在多,在收藏夹里吃灰并不等于学会~
视频
- 2020年Python爬虫全套课程(学完可做项目)
- https://www.bilibili.com/video/BV1Yh411o7Sz
 
 - Python爬虫编程基础5天速成(2021全新合集)Python入门+数据分析
- https://www.bilibili.com/video/BV12E411A7ZQ
 
 - 2021年最新Python爬虫教程+实战项目案例(最新录制)
- https://www.bilibili.com/video/BV1i54y1h75W
 
 
网盘资料
- 《Python 网络爬虫实战》
- https://pan.baidu.com/s/1ZZ1G047X_gsd3Gq7boHKcw 提取码: h5fx
 
 - 《Python 网络数据采集》
- 链接: https://pan.baidu.com/s/1yMguYZ61GaXcadYQ9_FpQA 提取码: vq8y
 
 - Python 分布式爬虫
- 链接: https://pan.baidu.com/s/1EY_n6FTnzkA7ahHstUp2oQ 提取码: 73s8
 
 
在线网站
- 廖雪峰官网 Python教程
- https://www.liaoxuefeng.com/wiki/1016959663602400
 
 - 莫凡 Python
 
相关法律法规 
- 遵守 Robots
 - 控制访问速率
 - 敏感信息不碰触
 - 国家安全大于天
 - 获取的数据不进行非法盈利
 - 其他违反法律法规的动作
 
基本上做到以上几点,我们的爬虫就是安全的,不要过度妖魔化爬虫,当然网络更不是法外之地,要做一个合格的遵纪守法好公民!
尾声 
以上就是萝卜断断续续写了几天,结合个人经验,同时也参考了网上大量的视频、文章总结而成的 Python 爬虫学习路线,确实非常的不容易,如果大家觉得满意请务必点个赞 + 在看 支持下。