Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >爬取数据-urllib库

爬取数据-urllib库

作者头像
小小杰啊
发布于 2022-12-21 13:25:39
发布于 2022-12-21 13:25:39
61100
代码可运行
举报
文章被收录于专栏:Dimples开发记Dimples开发记
运行总次数:0
代码可运行

# 1. 小试牛刀

怎样扒网页呢?

其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS、CSS,如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服。所以最重要的部分是存在于HTML中的,下面我们就写个例子来扒一个网页下来

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from urllib.request import urlopen
 
response = urlopen("http://www.baidu.com")
print(response.read().decode())

真正的程序就两行,执行如下命令查看运行结果,感受一下

看,这个网页的源码已经被我们扒下来了,是不是很酸爽?


# 2. 常见到的方法

  • requset.urlopen(url,data,timeout)
    • 第一个参数url即为URL,第二个参数data是访问URL时要传送的数据,第三个timeout是设置超时时间。
    • 第二三个参数是可以不传送的,data默认为空None,timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT
    • 第一个参数URL是必须要传送的,在这个例子里面我们传送了百度的URL,执行urlopen方法之后,返回一个response对象,返回信息便保存在这里面。
  • response.read()
    • read()方法就是读取文件里的全部内容,返回bytes类型
  • response.getcode()
    • 返回 HTTP的响应码,成功返回200,4服务器页面出错,5服务器问题
  • response.geturl()
    • 返回 返回实际数据的实际URL,防止重定向问题
  • response.info()
    • 返回 服务器响应的HTTP报头

# 3. Request对象

其实上面的urlopen参数可以传入一个request请求,它其实就是一个Request类的实例,构造时需要传入Url,Data等等的内容。比如上面的两行代码,我们可以这么改写

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from urllib.request import urlopen
from urllib.request import Request

request = Request("http://www.baidu.com")
response = urlopen(requst)
print response.read().decode()

运行结果是完全一样的,只不过中间多了一个request对象,推荐大家这么写,因为在构建请求时还需要加入好多内容,通过构建一个request,服务器响应请求得到应答,这样显得逻辑上清晰明确

# 4. Get 请求

大部分被传输到浏览器的html,images,js,css, … 都是通过GET方法发出请求的。它是获取数据的主要方法

例如:www.baidu.com 搜索

Get请求的参数都是在Url中体现的,如果有中文,需要转码,这时我们可使用

  • urllib.parse.urlencode()
  • urllib.parse. quote()

# 5. Post 请求

我们说了Request请求对象的里有data参数,它就是用在POST里的,我们要传送的数据就是这个参数data,data是一个字典,里面要匹配键值对

发送请求/响应header头的含义:

名称

含义

Accept

告诉服务器,客户端支持的数据类型

Accept-Charset

告诉服务器,客户端采用的编码

Accept-Encoding

告诉服务器,客户机支持的数据压缩格式

Accept-Language

告诉服务器,客户机的语言环境

Host

客户机通过这个头告诉服务器,想访问的主机名

If-Modified-Since

客户机通过这个头告诉服务器,资源的缓存时间

Referer

客户机通过这个头告诉服务器,它是从哪个资源来访问服务器的。(一般用于防盗链)

User-Agent

客户机通过这个头告诉服务器,客户机的软件环境

Cookie

客户机通过这个头告诉服务器,可以向服务器带数据

Refresh

服务器通过这个头,告诉浏览器隔多长时间刷新一次

Content-Type

服务器通过这个头,回送数据的类型

Content-Language

服务器通过这个头,告诉服务器的语言环境

Server

服务器通过这个头,告诉浏览器服务器的类型

Content-Encoding

服务器通过这个头,告诉浏览器数据采用的压缩格式

Content-Length

服务器通过这个头,告诉浏览器回送数据的长度

# 6. 响应的编码

响应状态码

响应状态代码有三位数字组成,第一个数字定义了响应的类别,且有五种可能取值。 常见状态码:

号码

含义

100~199

表示服务器成功接收部分请求,要求客户端继续提交其余请求才能完成整个处理过程

200~299

表示服务器成功接收请求并已完成整个处理过程。常用200(OK 请求成功)

300~399

为完成请求,客户需进一步细化请求。例如:请求的资源已经移动一个新地址、常用302(所请求的页面已经临时转移至新的url)、307和304(使用缓存资源)

400~499

客户端的请求有错误,常用404(服务器无法找到被请求的页面)、403(服务器拒绝访问,权限不够)

500~599

服务器端出现错误,常用500(请求未完成。服务器遇到不可预知的情况)

# 7. Ajax的请求获取数据

有些网页内容使用AJAX加载,而AJAX一般返回的是JSON,直接对AJAX地址进行post或get,就返回JSON数据了

# 8. 请求 SSL证书验证

现在随处可见 https 开头的网站,urllib可以为 HTTPS 请求验证SSL证书,就像web浏览器一样,如果网站的SSL证书是经过CA认证的,则能够正常访问,如:https://www.baidu.com/

如果SSL证书验证不通过,或者操作系统不信任服务器的安全证书,比如浏览器在访问12306网站如:https://www.12306.cn/mormhweb/的时候,会警告用户证书不受信任。(据说 12306 网站证书是自己做的,没有通过CA认证)

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 忽略SSL安全认证
context = ssl._create_unverified_context()
# 添加到context参数里
response = urllib.request.urlopen(request, context = context)
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-03-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
爬虫篇| 爬虫中的urllib库使用(三)
我们首先了解一下 Urllib 库,它是 Python 内置的 HTTP 请求库,也就是说我们不需要额外安装即可使用,它包含四个模块:
润森
2019/08/29
9030
爬虫篇| 爬虫中的urllib库使用(三)
python爬虫(五)_urllib2:Get请求和Post请求
本篇将介绍urllib2的Get和Post方法,更多内容请参考:python学习指南 urllib2默认只支持HTTP/HTTPS的GET和POST方法 urllib.urlencode() urllib和urllib2都是接受URL请求的相关参数,但是提供了不同的功能。两个最显著的不同如下: urllib仅可以接受URL,不能创建设置了headers的Request类实例; 但是urllib提供了urlencode方法用来GET查询字符串的产生,而urllib2则没有。(这是urllib和url
用户1174963
2018/01/17
2.5K0
python爬虫(五)_urllib2:Get请求和Post请求
爬虫 (七) 必须掌握的基础概念 (四)
理论上所有的响应头信息都应该是回应请求头的。但是服务端为了效率,安全,还有其他方面的考虑,会添加相对应的响应头信息,从上图可以看到:
公众号---人生代码
2019/12/26
9860
请求模块urllib的基本使用
✅作者简介:大家好我是hacker707,大家可以叫我hacker 📃个人主页:hacker707的csdn博客 🔥系列专栏:python爬虫 💬推荐一款模拟面试、刷题神器👉点击跳转进入网站 💖在实现网络爬虫的爬取工作时,就必须使用网络请求,只有进行了网络请求才可以对响应结果中的数据进行提取,urllib模块是python自带的网络请求模块,无需安装,导入即可使用。下面将介绍如果使用python中的urllib模块实现网络请求💖 🥳请求模块urllib的基本使用🥳 urllib的子模块
hacker707
2022/11/27
9480
请求模块urllib的基本使用
Python-数据挖掘-urllib库
urllib 库是 Python 内置的 HTTP 请求库,它可以看作处理 URL 的组件集合。
小团子
2019/07/18
6490
Python-数据挖掘-urllib库
Python 爬虫库 urllib 使用详解,真的是总结的太到位了!!
urllib.request定义了一些打开URL的函数和类,包含授权验证、重定向、浏览器cookies等。
用户6888863
2023/03/01
2.1K0
Python 爬虫库 urllib 使用详解,真的是总结的太到位了!!
Python之Urllib使用
如果我们把互联网比作一张大的蜘蛛网,那一台计算机上的数据便是蜘蛛网上的一个猎物,而爬虫程序就是一只小
鱼找水需要时间
2023/02/16
4570
Python之Urllib使用
初识urllib
request:  是最基本的 HTTP 请求模块,可以用来模拟发送请求,只需要给库方法传入URL以及额外的参数,就可以模拟实现这个过程了。
py3study
2020/01/20
6920
Python:爬虫系列笔记(2) -- 基本了解及urllib的使用
1.什么是爬虫 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。 比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。这样,整个连在一起的大网对这之蜘蛛来说触手可及,分分钟爬下来不是事儿。 2.浏览网页的过程 在用户浏览网页的过程中,我们可能会看到许多好看的图片,比如 http://image.baidu.com
昱良
2018/04/04
7940
Python:爬虫系列笔记(2) -- 基本了解及urllib的使用
python爬虫入门(一)urllib和urllib2
爬虫简介  什么是爬虫? 爬虫:就是抓取网页数据的程序。 HTTP和HTTPS HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。 HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HTTP下加入SSL层。 SSL(Secure Sockets Layer 安全套接层)主要用于Web的安全传输协议,在传输层对网络连接进行加密,保障在Int
zhang_derek
2018/04/11
2K0
python爬虫入门(一)urllib和urllib2
重拾python爬虫之urllib
学习一门技术,总是要踩好多坑,然后收货一大堆疑惑,这么多相似的方式该学哪个呢?外面公司常用的是哪个呢? 就比如python爬虫,可以作为网络请求的方式有四种,按时间顺序排:
100000860378
2018/09/13
9410
重拾python爬虫之urllib
Python-爬虫03:urllib.r
所谓网页抓取,就是把URL地址中指定的网络资源从网络流中抓取出来。在Python中有很多库可以用来抓取网页,我们先学习urllib.request。
py3study
2020/01/19
7300
Python库之urllib
['AbstractBasicAuthHandler', 'AbstractDigestAuthHandler', 'AbstractHTTPHandler', 'BaseHandler', 'CacheFTPHandler', 'ContentTooShortError', 'DataHandler', 'FTPHandler', 'FancyURLopener', 'FileHandler', 'HTTPBasicAuthHandler', 'HTTPCookieProcessor', 'HTTPDefaultErrorHandler', 'HTTPDigestAuthHandler', 'HTTP Error', 'HTTPErrorProcessor', 'HTTPHandler', 'HTTPPasswordMgr', 'HTTPPasswordMgrWithDefaultRealm', 'HTTPPasswordMgrWithPriorAuth', 'HTTPRedirectHandler', 'HTTPSHandler', 'MAXFTPCACHE', 'OpenerDirector', 'ProxyBasicAuthHandler', 'ProxyDigestAuthHandler', 'ProxyHandler', 'Request', 'URLError', 'URLopener',  'UnknownHandler', '__all__', '__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__spec__', '__version__', '_cut_port_re', '_ftperrors', '_have_ssl', '_localhost', '_noheaders', '_opener', '_parse_proxy', '_proxy_bypass_macosx_sysconf', '_randombytes', '_safe_g ethostbyname', '_thishost', '_url_tempfiles', 'addclosehook', 'addinfourl', 'base64', 'bisect', 'build_opener', 'collections', 'contextlib', 'email', 'ftpcache', 'ftperrors', 'ftpwrapper', 'getproxies', 'getproxies_environment', 'getproxies_registry', 'hashlib', 'http', 'install_opener', 'io', 'localhost ', 'noheaders', 'os', 'parse_http_list', 'parse_keqv_list', 'pathname2url', 'posixpath', 'proxy_bypass', 'proxy_bypass_environment', 'proxy_bypass_registry', 'quote', 're', 'request_host', 'socket', 'splitattr', 'splithost', 'splitpasswd', 'splitport', 'splitquery', 'splittag', 'splittype', 'splituser', 'splitvalue', 'ssl', 'string', 'sys', 'tempfile', 'thishost', 'time', 'to_bytes', 'unquote', 'unquote_to_bytes', 'unwrap', 'url2pathname', 'urlcleanup', 'urljoin', 'urlopen', 'urlparse', 'urlretrieve', 'urlsplit', 'urlunparse', 'warnings']
菲宇
2022/12/21
6130
Python库之urllib
爬虫0020:urllib2操作urllib2的使用
至此,我们可以描述爬虫程序,就是用来根据一定的规则采集获取网络中的数据的! 整个采集过程主要步骤如下:
大牧莫邪
2018/08/27
7560
初识 Python 网络请求库 urllib
urllib 是 Python 自带的网络请求标准库,包含了多个处理 URL 功能的模块。
keinYe
2019/08/01
9850
python爬虫(四)_urllib2库的基本使用
本篇我们将开始学习如何进行网页抓取,更多内容请参考:python学习指南 urllib2库的基本使用 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。在Python中有很多库可以用来抓取网页,我们先学习urllib2。 urllib2是Python2.x自带的模块(不需要下载,导入即可使用) urllib2官网文档:https://docs.python.org/2/library/urllib2.html urllib2源码 urllib2在python3.x
用户1174963
2018/01/17
1.1K0
爬虫 | urllib入门+糗事百科实战
所谓爬虫(crawler),是指一只小虫子,在网络中爬行,见到有用的东西就会把它拿下来,是我们获取信息的一个重要途径。平常使用的浏览器,它的背后就是一个巨大的爬虫框架,输入我们想要查找的信息,帮我们爬取下来。今天就从较为简单的urllib爬虫开始介绍。
小小詹同学
2021/04/19
3910
爬虫 | urllib入门+糗事百科实战
Python的urllib库
urllib是python自带的请求库,各种功能相比较之下也是比较完备的,urllib库包含了一下四个模块:
狼啸风云
2019/09/25
1.1K0
python3网络爬虫一《使用urllib.request发送请求》
在Python2版本中,有urllib和urlib2两个库可以用来实现request的发送。而在Python3中,已经不存在urllib2这个库了,统一为urllib。Python3 urllib库官方链接
全栈程序员站长
2022/08/02
5340
使用python urllib进行网页爬取
编写一段程序,从网站上抓取特定资源,比如自动化的下载kegg colorful pathway的通路图,这样的程序就是一个基础的网络爬虫了。在python中,通过内置模块urlib, 可以实现常规的网页抓取任务。
生信修炼手册
2020/05/28
1.9K0
相关推荐
爬虫篇| 爬虫中的urllib库使用(三)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验