开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Urllib2 -有时不返回任何内容，有时返回页面内容

urllib2 是 Python 2 中用于处理 URL 的一个库，但在 Python 3 中已经被 urllib.request 所取代。如果你在使用 urllib2 或者在 Python 3 中使用 urllib.request 时遇到有时不返回任何内容，有时返回页面内容的问题，可能是由于以下几个原因造成的：

基础概念

HTTP 请求：urllib2 发送 HTTP 请求到服务器，服务器响应请求并返回数据。
超时设置：如果没有设置合适的超时时间，请求可能会因为等待服务器响应而挂起。
重定向处理：有些网站会通过重定向来响应请求，如果没有正确处理重定向，可能会导致请求失败或者返回不完整的内容。
异常处理：网络请求可能会因为各种原因失败，如网络不稳定、服务器错误等，需要适当的异常处理。

相关优势

简单易用：urllib2 提供了简单的 API 来发送 HTTP 请求和处理响应。
内置于 Python 标准库：不需要额外安装第三方库。

类型

GET 请求：获取资源。
POST 请求：提交数据到服务器。

应用场景

网页抓取：自动化地从网页上获取数据。
API 调用：与 web 服务进行交互。

可能的原因及解决方法

超时问题：
- 原因：默认情况下，urllib2 可能会无限期等待服务器的响应。
- 解决方法：设置一个合理的超时时间。
- 解决方法：设置一个合理的超时时间。

重定向问题：
- 原因：服务器可能返回一个重定向响应（如 301 或 302），而 urllib2 默认会自动处理重定向。
- 解决方法：如果需要手动处理重定向，可以使用 HTTPRedirectHandler。
- 解决方法：如果需要手动处理重定向，可以使用 HTTPRedirectHandler。
异常处理：
- 原因：网络问题或服务器错误可能导致请求失败。
- 解决方法：捕获异常并进行处理。
- 解决方法：捕获异常并进行处理。
Python 3 兼容性：
- 如果你在使用 Python 3，应该使用 urllib.request。
- 如果你在使用 Python 3，应该使用 urllib.request。

确保你的代码中包含了异常处理，并且设置了合适的超时时间，这样可以提高代码的健壮性，减少因网络问题导致的请求失败。如果问题依然存在，可能需要进一步检查网络连接或者目标服务器的状态。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

手把手教你利用爬虫爬网页（Python代码）

深层网络是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的Web页面。例如用户登录或者注册才能访问的页面。...Referer：服务器有时候会检查防盗链。 1.3 Cookie处理 urllib2对Cookie的处理也是自动的，使用CookieJar函数进行Cookie的管理。...，我们不想让urllib2自动处理，我们想自己添加Cookie的内容，可以通过设置请求头中的Cookie域来做： import urllib2 opener = urllib2.build_opener...但是我们一般不采用这种方式，而是使用ProxyHandler在程序中动态设置代理，示例代码如下： import urllib2 proxy = urllib2.ProxyHandler({ ‘http...获得头内容： HTTPResponse.msg。获得头http版本： HTTPResponse.version。获得返回状态码： HTTPResponse.status。

2.2K1 0

网络爬虫有什么用？怎么爬？手把手教你爬网页（Python代码）

深层网络是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的Web页面。例如用户登录或者注册才能访问的页面。...Referer：服务器有时候会检查防盗链。 1.3 Cookie处理 urllib2对Cookie的处理也是自动的，使用CookieJar函数进行Cookie的管理。...，我们不想让urllib2自动处理，我们想自己添加Cookie的内容，可以通过设置请求头中的Cookie域来做： import urllib2 opener = urllib2.build_opener...但是我们一般不采用这种方式，而是使用ProxyHandler在程序中动态设置代理，示例代码如下： import urllib2 proxy = urllib2.ProxyHandler({'http':...获得头内容： HTTPResponse.msg。获得头http版本： HTTPResponse.version。获得返回状态码： HTTPResponse.status。

2.6K3 0

python之web模块学习-- url

2 urllib2 常用方法 2.1 urllib2.urlopen urlopen()是最简单的请求方式，它打开url并返回类文件对象，并且使用该对象可以读取返回的内容 urllib2...headers: 是一个字典，包含了可表示HTTP报头的键值映射（即要提交的header中包含的内容）。 ...origin_req_host: 通常是发出请求的主机的名称，如果请求的是无法验证的url（通常是指不是用户直接输入的url，比如加载图像的页面中镶入的url），则后一个参数unverifiable设为...data是向指定url提交的数据，要注意该方法不会将data追教导之前已经设置的任何数据上，而是使用现在的data替换之前的。...Request(url,data) >>> response=urllib2.urlopen(request) >>> the_page=response.read() 2 修改网页头信息: 有时会碰到

7472 0

python用 GET,POST,PUT

二、HTTP的请求方法 HTTP/1.1协议中共定义了八种方法（有时也叫“动作”）来表明Request-URI指定的资源的不同操作方式： ....PUT - 向指定资源位置上传其最新内容。 . DELETE - 请求服务器删除Request-URI所标识的资源。 ....='http://192.168.1.13:9999/test' #页面的地址 response = urllib2.urlopen(url) #调用urllib2向服务器发送...get请求 return response.read() #获取服务器返回的页面信息 ret = http_get() print("RET %...# 获取服务器返回的页面信息 resp = http_post() print resp 3.

2.6K1 1

Python入门网络爬虫之精华版

服务器响应请求，发回网页内容。浏览器解析网页内容。网络爬虫要做的，简单来说，就是实现浏览器的功能。通过指定url，直接返回给用户所需要的数据，而不需要一步步人工去操纵浏览器获取。...url, data=data) response = urllib2.urlopen(req) 2.2 使用cookie登陆使用cookie登陆，服务器会认为你是一个已登陆的用户，所以就会返回给你一个已登陆的内容...有时还会检查是否带Referer信息还会检查你的Referer是否合法，一般再加上Referer。...这些程序会加载更多的内容，“填充”到网页里。这就是为什么如果你直接去爬网页本身的url，你会找不到页面的实际内容。...如果“请求”之前有页面，依据上一步的网址进行分析推导第1页。以此类推，抓取抓Ajax地址的数据。对返回的json格式数据(str)进行正则匹配。

1.1K2 0

Python爬虫基础知识：urllib2的使用技巧

虽然如此，我们还是能通过下面的方式，使 urllib2 能够发出 PUT 或DELETE 的请求： 7.得到 HTTP 的返回码对于 200 OK 来说，只要使用 urlopen 返回的 response...但对其它返回码来说，urlopen 会抛出异常。...这时候，就要检查异常对象的 code 属性了： 8.Debug Log 使用 urllib2 时，可以通过下面的方法把 debug Log 打开，这样收发包的内容就会在屏幕上打印出来，方便调试，有时可以省去抓包的工作...这样就可以看到传输的数据包内容了： 9.表单的处理登录必要填表，表单怎么填？...就是检查你发送请求的header里面，referer站点是不是他自己，所以我们只需要像把headers的referer改成该网站即可，以cnbeta为例： headers是一个dict数据结构，你可以放入任何想要的

1K5 0

urllib与urllib2的学习总结(python2.7.X)

这两点对于用过urllib与urllib2的人来说比较好理解，但是对于没用过的还是不能有好的理解，下面参考官方的文档，把自己对urllib与urllib2的学习内容总结如下。...例如在网上填的form（表单）时，浏览器会POST表单的内容，这些数据需要被以标准的格式编码（encode），然后作为一个数据参数传送给Request对象。...创建openers时如果想要安装特别的handlers来实现获取url（如获取一个处理cookie的opener，或者一个不处理重定向的opener）的话，先实例一个OpenerDirector对象，然后多次调用...info() — 返回页面的原信息就像一个字段的对象，如headers，它以mimetools.Message实例为格式(可以参考HTTP Headers说明)。　　...有时status code不能处理这个request. 默认的处理程序将处理这些异常的responses。

7822 0

走过路过不容错过，Python爬虫面试总结

但是urllib.urlretrieve函数以及urllib.quote等一系列quote和unquote功能没有被加入urllib2中，因此有时也需要urllib的辅助。...3、解析内容：正则表达式、页面解析库、json 4、保存数据：文本或者存入数据库 10.什么是Request和Response？...本地向服务器发送Request，服务器根据请求返回一个Response，页面就显示在页面上了 1、浏览器就发送消息给该网址所在的服务器，这个过程叫做Http Request 2、服务器收到浏览器发送的消息后...对于需要登录的网页，服务器可能返回此响应。 403状态码：服务器已经理解请求，但是拒绝执行它。与401响应不同的是，身份验证并不能提供任何帮助，而且这个请求也不应该被重复提交。...Accept-Language：浏览器当前设置的语言 Connection：浏览器与服务器之间连接的类型 Cookie：当前页面设置的任何Cookie Host：发出请求的页面所在的域 Referer

1.5K2 1

python requests模块详解

至于linux用户，这个页面还有其他安装方法。 ...另外，还可以通过r.content来获取页面内容。 ...也许有人认为这样可以通过判断和正则来获取跳转的状态码了，其实还有个更简单的方法：前两个例子很正常，能正常打开的返回200，不能正常打开的返回404。...可以看到是以字典的形式返回了全部内容，我们也可以访问部分内容。 ) 3.8 设置超时时间我们可以通过timeout属性设置超时时间，一旦超过这个时间还没获得响应内容，就会提示错误。 ...也就是说，你无需任何设置，requests会自动实现keep-alive。 4.

2.4K1 0

Python爬虫基础知识：urllib2使用初阶

类似于使用程序模拟IE浏览器的功能，把URL作为HTTP请求的内容发送到服务器端，然后读取服务器端的响应资源。在Python中，我们使用urllib2这个组件来抓取网页。...在它最简单的使用形式中你将用你要请求的地址创建一个Request对象，通过调用urlopen并传入Request对象，将返回一个相关请求response对象，这个应答对象如同一个文件对象，所以你可以在...我们新建一个文件urllib2_test02.py来感受一下：可以看到输出的内容和test01是一样的。 urllib2使用相同的接口处理所有的URL头。...1.发送data表单数据这个内容相信做过Web端的都不会陌生，有时候你希望发送一些数据到URL(通常URL与CGI[通用网关接口]脚本，或其他WEB应用程序挂接)。...默认的urllib2把自己作为“Python-urllib/x.y”(x和y是Python主版本和次版本号,例如Python-urllib/2.7)，这个身份可能会让站点迷惑，或者干脆不工作。

6487 0

这里是Python爬虫的起点，抢占资源啦

httplib/2：这是一个Python内置http库，但是它是偏于底层的库，一般不直接用。...另外以上的这些库都是同步网络库，如果需要高并发请求的话可以使用异步网络库：aiohttp，这个后面猪哥也会为大家讲解二、requests介绍希望大家永远记住：学任何一门语言，都不要忘记去看看官方文档...是直接返回静态页面呢，还是js动态加载呢？在这里插入图片描述鼠标右键然后点检查或者直接F12即可打开调试窗口，这里猪哥推荐大家使用Chrome浏览器，为什么？因为好用，程序员都在用！...在这里插入图片描述当然价格和一些优惠券等核心信息是通过另外的请求加载，这里我们暂时不讨论，先完成我们的第一个小例子！...spider_jd(): """爬取京东商品页""" url = 'https://item.jd.com/1263013576.html' try: r = requests.get(url) # 有时候请求错误也会有返回数据

5943 0

python中的urllib模块中的方法

2 urllib2 常用方法 2.1 urllib2.urlopen urlopen()是最简单的请求方式，它打开url并返回类文件对象，并且使用该对象可以读取返回的内容 urllib2.urlopen...data是向指定url提交的数据，要注意该方法不会将data追教导之前已经设置的任何数据上，而是使用现在的data替换之前的。...如果不指定filename，则会存为临时文件。...但是urllib.urlretrieve函数以及urllib.quote等一系列quote和unquote功能没有被加入urllib2中，因此有时也需要urllib的辅助实例： import urllib...urllib.request模块有一个方便的函数urlopen() ，它接受你所要获取的页面地址，然后返回一个类文件对象，您只要调用它的read()方法就可以获得网页的全部内容。

2.2K1 0

手把手教你用python抓取网页导入模块 urllib2随便查询一篇文章，比如On random graph。对每一个查询googlescholar都有一个url，这个url形成的规则是要自己分析的。

下面的代码演示如何用urllib2与google scholar进行交互，获得网页信息。导入模块 urllib2 import urllib2 随便查询一篇文章，比如On random graph。...;q=0.9,/;q=0.8', 'Accept-Encoding': 'gzip, deflate', 'Connection': 'keep-alive'} 建立连接请求，这时google的服务器返回页面信息给...html页面，也就是有html标签的纯文本 doc = con.read() 关闭连接。...就像读完文件要关闭文件一样，如果不关闭有时可以、但有时会有问题，所以作为一个守法的好公民，还是关闭连接好了。...网上有很多相关的说明，这里不细说，只演示简单的代码： (3) 上面两种方法结合使用。

1.6K7 0

Python爬虫的起点

httplib/2：这是一个Python内置http库，但是它是偏于底层的库，一般不直接用。...二、requests介绍希望大家永远记住：学任何一门语言，都不要忘记去看看官方文档。也许官方文档不是最好的入门教程，但绝对是最新、最全的教学文档！...是直接返回静态页面呢，还是js动态加载呢？ ? 鼠标右键然后点检查或者直接F12即可打开调试窗口，这里猪哥推荐大家使用Chrome浏览器，为什么？因为好用，程序员都在用！...当然价格和一些优惠券等核心信息是通过另外的请求加载，这里我们暂时不讨论，先完成我们的第一个小例子！...""" url = 'https://item.jd.com/1263013576.html' try: r = requests.get(url) # 有时候请求错误也会有返回数据

1K2 0

解决ModuleNotFoundError: No module named urllib2

解决ModuleNotFoundError: No module named 'urllib2'在Python编写程序时，有时会遇到ModuleNotFoundError: No module named...= get_webpage_content(url)print(webpage_content)在上面的示例中，我们定义了一个get_webpage_content函数，用于发送HTTP请求并返回网页内容...我们使用urllib.request.urlopen()函数来打开指定的URL，并且使用.read()方法读取返回的内容。...最后通过urlopen发送请求并读取响应内容。3. 处理请求头部信息urllib2还提供了一些函数和类，用于处理请求头部信息。...处理异常在使用urllib2发送请求时，可能会遇到一些异常情况，例如网络连接失败或服务器返回错误等。因此，需要进行异常处理。

7004 0

Python：爬虫系列笔记(2) -- 基本了解及urllib的使用

②第二部分是存有该资源的主机IP地址(有时也包括端口号)。 ③第三部分是主机资源的具体地址，如目录和文件名等。...第二三个参数是可以不传送的，data默认为空None，timeout默认为 socket...._GLOBAL_DEFAULT_TIMEOUT 第一个参数URL是必须要传送的，在这个例子里面我们传送了百度的URL，执行urlopen方法之后，返回一个response对象，返回信息便保存在这里面。...1 print response.read() response对象有一个read方法，可以返回获取到的网页内容。如果不加read直接打印会是什么？...values，参数我设置了username和password，下面利用urllib的urlencode方法将字典编码，命名为data，构建request时传入两个参数，url和data，运行程序，即可实现登陆，返回的便是登陆后呈现的页面内容

7646 0

python爬虫(五)_urllib2:Get请求和Post请求

本篇将介绍urllib2的Get和Post方法，更多内容请参考:python学习指南 urllib2默认只支持HTTP/HTTPS的GET和POST方法 urllib.urlencode() urllib...，分别对应网址后的网页序号，只要发现规律就可以批量爬取页面了。...获取AJAX加载的内容有些网页内容使用AJAX加载，只要记得，AJAX一般返回的是JSON，直接对AJAX地址进行post或get,就返回JSON数据了。...url, data = data, headers = headers) response = urllib2.urlopen(request) print response.read() 问题：为什么有时候...但是HTML代码里如果不指定method属性，则默认为GET请求，Form中提交的数据将会附加在url之后，以?

2.4K6 0

Python网络爬虫（一）- 入门基础1.通用爬虫 VS 聚焦爬虫2.HTTP & HTTPS3.urllib24.常用的响应报头(了解)

response对象有一个read方法，可以返回获取到的网页内容，即response.read() urlopen参数可以传入一个request请求,它其实就是一个Request类的实例，构造时需要传入...Url,Data等等的内容 ---- 代码操作一 # -*- coding:utf-8 -*- #引入 import urllib2 response=urllib2.urlopen('https:/...) Referer：表明产生请求的网页来自于哪个URL，用户是从该 Referer页面访问到当前请求的页面。...如果在请求消息中没有设置这个域，缺省是任何字符集都可以接受。 6. Cookie （Cookie） Cookie：浏览器用这个属性向服务器发送Cookie。...这个值告诉客户端，服务端不希望客户端缓存资源，在下次请求资源时，必须要从新请求服务器，不能从缓存副本中获取资源。

1.6K4 0

手把手教你用python抓网页数据

下面的代码演示如何用urllib2与google scholar进行交互，获得网页信息。 1.# 导入模块 urllib2 2.import urllib2 3.....'Connection': 'keep-alive'} 17. # 建立连接请求，这时google的服务器返回页面信息给con这个变量，con是一个对象. 1point3acres.com/bbs 18...html页面，也就是有html标签的纯文本 21. doc = con.read()....就像读完文件要关闭文件一样，如果不关闭有时可以、但有时会有问题， 23. # 所以作为一个守法的好公民，还是关闭连接好了。...网上有很多相关的说明，这里不细说，只演示简单的代码： (3) 上面两种方法结合使用。

1.7K5 0

Python爬虫这么久了，它们三兄弟终于搞清楚了（干货）

只需一个简单的函数调用，就几乎可将统一资源定位符（URL）可指向的任何动作作为程序的输入。结合re模块使用将发挥强大威力！ ?...这个对象有一些方法和属性，可以让我们对请求返回的结果进行一些处理。 read()：获取响应返回的数据，只能使用一次。 getcode()：获取服务器返回的状态码。...而我们有时候又有将中文字符加入到url中的需求.urllib中可以使用quote()方法来实现这个功能。.../",headers=ua_headers) #获取响应 response=urllib2.urlopen(request) #页面内容 html=response.read() print...#返回服务器响应的报头来自urllib2官方文档的几个例子： GET一个URL： >>> import urllib2 >>> f =urllib2.urlopen('http://www.python.org

8691 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭