前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >Urllib库的基本用法

Urllib库的基本用法

作者头像
全栈程序员站长
发布2022-07-09 12:23:45
发布2022-07-09 12:23:45
44200
代码可运行
举报
运行总次数:0
代码可运行

1、什么是url?

统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。

基本URL包含模式(或称协议)、服务器名称(或IP地址)、路径和文件名,如“协议://授权/路径?查询”。完整的、带有授权部分的普通统一资源标志符语法看上去如下:协议://用户名:密码@子域名.域名.顶级域名:端口号/目录/文件名.文件后缀?参数=值#标志

2、什么是Urllib库?

Urllib是python内置的处理URL的库, 包括以下模块 urllib.request 打开、读URLs urllib.error 包含了request出现的异常 urllib.parse url解析模块 urllib.robotparser robots.txt解析模块(spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。您可以在您的网站中创建一个纯文本文件robots.txt,在文件中声明该网站中不想被robot访问的部分或者指定搜索引擎只收录特定的部分)

3、实例

(1)读一个网页

代码语言:javascript
代码运行次数:0
复制
import urllib.request
with urllib.request.urlopen('http://www.baidu.com') as f:
    print(f.read(20).decode('utf8'))

  其中,urlopen返回的是一个字节类型的对象,这是由于urlopen不知道从服务器上读的数据该如何解码,需要我们自己对字符串解码。

如上,可以打开百度的界面,

可以看到,此页面用utf-8编码。

当然,你也可以把代码改为:

代码语言:javascript
代码运行次数:0
复制
import urllib.request
req = urllib.request.Request(url = 'http://www.baidu.com')
with urllib.request.urlopen(req) as f:
    print(f.read(20).decode('utf8'))

  访问请求放置在Request类中,该类包含一些属性,可以传递数据等,此处不过于深究。

(2)登陆动作(使用基础的HTTP身份验证)

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/119475.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021年11月,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档