首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Python爬虫-01:爬虫的概念及分类

Python爬虫-01:爬虫的概念及分类

作者头像
py3study
发布于 2020-01-19 08:05:12
发布于 2020-01-19 08:05:12
1.5K0
举报
文章被收录于专栏:python3python3

目录

  • # 1. 为什么要爬虫?
  • 2. 什么是爬虫?
  • 3. 爬虫如何抓取网页数据?
    • # 4. Python爬虫的优势?
  • 5. 学习路线
  • 6. 爬虫的分类
    • 6.1 通用爬虫:
    • 6.2 聚焦爬虫:

# 1. 为什么要爬虫?

大数据时代”,数据获取的方式:

  • 大型企业公司有海量用户,需要收集数据来提升产品体验 【百度指数(搜索),阿里指数(网购),腾讯数据(社交)】
  • 数据管理咨询公司: 通过数据团队专门提供大量数据,通过市场调研,问卷调查
  • 政府/机构提供的公开数据
    • 中华人民共和国统计局
    • World bank
    • Nasdaq
  • 第三方数据平台购买数据
    • 数据堂
    • 贵阳大数据交易平台
  • 爬虫数据

2. 什么是爬虫?


抓取网页数据的程序

3. 爬虫如何抓取网页数据?


首先需要了解网页的三大特征:

  1. 每个网页都有自己的URL(统一资源定位符)来定位
  2. 网页都使用HTML(超文本标记语言)来描述页面信息
  3. 网页都使用HTTP/HTTPS(超文本传输协议)来传输HTML数据

爬虫的设计思路:

  1. 首先确定需要爬取的网URL地址
  2. 通过HTTP/HTTPS协议来获取对应的HTML页面
  3. 提取HTML页面内有用的数据:

a. 如果是需要的数据--保存

b. 如果有其他URL,继续执行第二步

# 4. Python爬虫的优势?

语言

优点

缺点

PHP

世界上最好的语言

对多线程,异步支持不好,并发处理不够

Java

网络爬虫生态圈完善

Java语言本身笨重,代码量很大,数据重构成本高

C/C++

运行效率和性能几乎最强

学习成本很高

python

语法优美,代码简洁,开发效率高,模块多

5. 学习路线


  1. 抓取HTML页面:
  • HTTP请求的处理: urllib, urlib2, requests
  • 处理器的请求可以模拟浏览器发送请求,获取服务器响应的文件
  1. 解析服务器相应的内容:
  • re, xpath, BeautifulSoup(bs4), jsonpath, pyquery等
  • 使用某种描述性语言来给我们需要提取的数据定义一个匹配规则,符合这个规则的数据就会被匹配
  1. 采集动态HTML验证码的处理
  • 通用动态页面采集: Selenium + PhantomJS:模拟真实浏览器加载JS
  • 验证码处理: Tesseract机器学习库,机器图像识别系统
  1. Scrapy框架:
  • 高定制性,高性能(异步网络框架twisted)->数据下载快
  • 提供了数据存储,数据下载,提取规则等组件
  1. 分布式策略:
  • scrapy redis:在scarpy基础上添加了以redis数据库为核心的一套组件,主要在redis做请求指纹去重、请求分配、数据临时存储
  1. 爬虫、反爬虫、反反爬虫之间的斗争:
  • User-Agent, 代理, 验证码, 动态数据加载, 加密数据

6. 爬虫的分类


6.1 通用爬虫:

1.定义: 搜索引擎用的爬虫系统 2.目标: 把所有互联网的网页爬取下来,放到本地服务器形成备份,在对这些网页做相关处理(提取关键字,去除广告),最后提供一个用户可以访问的借口

3.抓取流程:

a) 首先选取一部分已有的URL, 把这些URL放到带爬取队列中

b) 从队列中取出来URL,然后解析NDS得到主机IP,然后去这个IP对应的服务器里下载HTML页面,保存到搜索引擎的本地服务器里,之后把爬过的URL放入已爬取队列

c) 分析网页内容,找出网页里其他的URL连接,继续执行第二步,直到爬取结束

4.搜索引擎如何获取一个新网站的URL:

  1. 主动向搜索引擎提交网址: https://ziyuan.baidu.com/linksubmit/index
  2. 在其他网站设置网站的外链: 其他网站上面的友情链接
  3. 搜索引擎会和DNS服务商进行合作,可以快速收录新网站

5.通用爬虫注意事项 通用爬虫并不是万物皆可以爬,它必须遵守规则: Robots协议:协议会指明通用爬虫可以爬取网页的权限

我们可以访问不同网页的Robots权限

6.通用爬虫通用流程:

7.通用爬虫缺点

  1. 只能提供和文本相关的内容(HTML,WORD,PDF)等,不能提供多媒体文件(msic,picture, video)及其他二进制文件
  2. 提供结果千篇一律,不能针对不同背景领域的人听不同的搜索结果
  3. 不能理解人类语义的检索
  4. 聚焦爬虫的优势所在

DNS 域名解析成IP: 通过在命令框中输入ping www.baidu.com,得到服务器的IP

6.2 聚焦爬虫:

爬虫程序员写的针对某种内容的爬虫-> 面向主题爬虫,面向需要爬虫

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019/04/29 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
史上最全PostgreSQL体系结构
墨墨导读:本文主要从日志文件、参数文件、控制文件、数据文件、redo日志(WAL)、后台进程这六个方面来讨论PostgreSQL的结构。
数据和云
2019/07/22
4.2K0
史上最全PostgreSQL体系结构
Postgresql存储结构
如果阅读过手册一定听过postgresql cluster的概念,第一次听到这个概念可能都会有一些困惑。cluster在安装数据库时,由initdb工具生成,initdb后产生的pgdata文件夹可以理解为cluster的物理存储结构。数据库启动、停止时pg_ctl -D参数指定的文件夹即cluster文件夹,所以一个PG Server可以运行在一个PG Cluster上。
mingjie
2022/05/12
1.3K0
Postgresql存储结构
PostgreSQL体系架构介绍
PostgreSQL是最像Oracle的开源数据库,我们可以拿Oracle来比较学习它的体系结构,比较容易理解。PostgreSQL的主要结构如下:
用户8006012
2022/07/26
2.5K0
史上最全:PostgreSQL DBA常用SQL查询语句(建议收藏学习)
查看帮助命令本周六,在北京将迎来一年一度的 ACOUG年会,在本次年会上,我们将对社区过去一年的工作进行回顾和梳理,并展望和探讨下一年工作的内容,同时,本次年会也开放了直播通道,名额不多,报名从速哦~
数据和云
2019/12/24
11K0
进阶数据库系列(十五):PostgreSQL 主从同步原理与实践
在正式介绍 PostgreSQL 主从同步复制 之前,我们先了解一下 PostgreSQL 的预写日志机制(WAL)。
民工哥
2023/08/22
5.9K0
进阶数据库系列(十五):PostgreSQL 主从同步原理与实践
【赵渝强老师】史上最详细的PostgreSQL体系架构介绍
PostgreSQL是最像Oracle的开源数据库,我们可以拿Oracle来比较学习它的体系结构,比较容易理解。PostgreSQL的主要结构如下:
赵渝强老师
2024/08/11
9770
【赵渝强老师】史上最详细的PostgreSQL体系架构介绍
PostgreSQL体系结构
原文:https://www.enmotech.com/web/detail/1/764/1.html
数据和云01
2019/07/31
1.1K0
PostgreSQL体系结构
PostgreSQL 备份与恢复(第一章)
PostgreSQL官方文档指定了以下三种备份方法,详见:https://www.postgresql.org/docs/current/backup.html
DB之路
2021/07/14
10.1K0
进阶数据库系列(二十一):PostgreSQL 数据目录同步工具 pg_rewind
pg_rewind 相比 pg_basebackup 和 rsync 这样的工具来说,优势是它不需要从源目录拷贝所有的数据文件,而是会对比时间线发生偏离的点,只拷贝变化过的文件,这样对于数据量很大的情况下速度更快。
民工哥
2023/08/22
2.1K0
进阶数据库系列(二十一):PostgreSQL 数据目录同步工具 pg_rewind
PostgreSQL从小白到高手教程 - 第44讲:pg流复制部署
PostgreSQL从小白到专家,是从入门逐渐能力提升的一个系列教程,内容包括对PG基础的认知、包括安装使用、包括角色权限、包括维护管理、、等内容,希望对热爱PG、学习PG的同学们有帮助,欢迎持续关注CUUG PG技术大讲堂。
用户5892232
2024/02/02
5430
PostgreSQL从小白到高手教程 - 第44讲:pg流复制部署
Postgresql主从复制
Postgresql主从复制 主备数据库启动,备库启动wal_receiver进程,wal进程向主库发送连接请求; 主库收到连接请求后启动wal_sender进程,并与wal_receiver进程建立tcp连接; 备库wal_receiver进程发送最新的wal lsn 给主库; 主库进行lsn 对比,定期向备库发送心跳信息,来确认备库的可用性,并且将没有传递的wal日志文件进行发送,同时调用SyncRepWaitForLSN()函数来获取锁存器,并且等待备库响应;锁存器的释放时机和主备同步模式的选择有
用户7353950
2022/05/11
9420
Postgresql主从复制
PostgreSQL从入门到精通教程 - 第39讲:数据库完全恢复
PostgreSQL从小白到专家,是从入门逐渐能力提升的一个系列教程,内容包括对PG基础的认知、包括安装使用、包括角色权限、包括维护管理、、等内容,希望对热爱PG、学习PG的同学们有帮助,欢迎持续关注CUUG PG技术大讲堂。
用户5892232
2023/12/21
3530
PostgreSQL从入门到精通教程 - 第39讲:数据库完全恢复
PostgreSQL技术大讲堂 - 第15讲:数据文件与块存储结构
PostgreSQL从小白到专家,是从入门逐渐能力提升的一个系列教程,内容包括对PG基础的认知、包括安装使用、包括角色权限、包括维护管理、、等内容,希望对热爱PG、学习PG的同学们有帮助,欢迎持续关注CUUG PG技术大讲堂。
用户5892232
2023/04/28
3650
PostgreSQL技术大讲堂 - 第15讲:数据文件与块存储结构
《Postgresql 内幕探索》读书笔记 - 第一章:集簇、表空间、元组
PostgreSQL天然集群,多个集群可以组成集簇,有点类似军队的连、团、旅这样的组织规则。对于我们日常学习使用的单节点则是单个集簇单个集群,自己就是集群。
阿东
2023/06/27
7590
《Postgresql 内幕探索》读书笔记 - 第一章:集簇、表空间、元组
Postgresql主从复制--物理复制
PostgreSQL支持物理复制(流复制)及逻辑复制2种。通过流复制技术,可以从实例级复制出一个与主库一模一样的实例级的从库。流复制同步方式有同步、异步两种。
俊才
2019/09/26
6.9K0
PostgreSQL数据库体系架构
PostgreSQL数据库的进程可以分为三类:后台进程、后端进程或叫服务器进程、客户端进程或用户进程。
用户8006012
2022/06/10
4.5K1
PostgreSQL 之 pg_rewind使用详解
是postgresql主丛数据库之同步数据目录的工具。需要目标服务器在postgresql.conf 中允许wal_log_hints,或者在 initdb初始化集群时允许 checksums ,full_page_writes也必须为on
星哥玩云
2022/08/17
1.6K0
解读年度数据库性能:PostgreSQL的日志文件和数据加载
墨墨导读:本文主要介绍PostgreSQL的日志文件参数及注意事项,从csv日志中载入数据库。通过灵活的数据加载方式,让SQL在处理很多问题上更加简捷便利。
数据和云
2019/08/19
1.1K0
解读年度数据库性能:PostgreSQL的日志文件和数据加载
数据库PostrageSQL-PostgreSQL用户账户创建一个数据库集簇
和对外部世界可访问的任何服务器守护进程一样,我们也建议在一个独立的用户账户下运行PostgreSQL。这个用户账户应该只拥有被该服务器管理的数据,并且应该不能被其他守护进程共享(例如,使用用户nobody是一个坏主意)。我们不建议把可执行文件安装为属于这个用户,因为妥协系统可能接着修改它们自己的二进制文件。
cwl_java
2020/09/17
9650
PostgreSQL集群篇——2、PG环境安装准备
PostgreSQL官方文档中讲到了多种高可用、负载均衡和复制特性解决方案,如下图所示:
cn華少
2021/07/15
3.2K1
推荐阅读
相关推荐
史上最全PostgreSQL体系结构
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档