首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

python爬虫(七)_urllib2:urlerror和httperror

urllib2的异常错误处理 在我们用urlopen或opener.open方法发出一个请求时,如果urlopen或opener.open不能处理这个response,就产生错误。...HTTPError HTTPError是URLError的子类,我们发出一个请求时,服务器都会对应一个response应答对象,其中它包含一个数字"响应状态码" 如果urlopen或opener.open...不能处理,会发出一个HTTPError,对应相应的状态码,HTTP状态码表示HTTP协议所返回的响应的状态。...203 Non-authoritative Information 文档已经正常地返回,但一些应答头可能不正确,因为使用的是文档的拷贝。 204 No Content 没有新文档。...403 Forbidden 对被请求页面的访问被禁止。 403.1 执行访问被禁止。 403.2 读访问被禁止。 403.3 写访问被禁止。 403.4 要求 SSL。

2.3K80

Python:urllib2模块的URLError与HTTPError

urllib2 的异常错误处理 在我们用urlopen或opener.open方法发出一个请求时,如果urlopen或opener.open不能处理这个response,就产生错误。...HTTPError HTTPError是URLError的子类,我们发出一个请求时,服务器上都会对应一个response应答对象,其中它包含一个数字"响应状态码"。...如果urlopen或opener.open不能处理的,会产生一个HTTPError,对应相应的状态码,HTTP状态码表示HTTP协议所返回的响应的状态。...203 Non-authoritative Information 文档已经正常地返回,但一些应答头可能不正确,因为使用的是文档的拷贝。 204 No Content 没有新文档。...403 Forbidden 对被请求页面的访问被禁止。 403.1 执行访问被禁止。 403.2 读访问被禁止。 403.3 写访问被禁止。 403.4 要求 SSL。

2.4K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Python:爬虫系列笔记(4) -- URL异常处理

    1.URLError 首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网 连接不到特定的服务器 服务器不存在 在代码中,我们需要用try-except语句来包围并捕获相应的异常。...其他不能处理的,urlopen会产生一个HTTPError,对应相应的状态吗,HTTP状态码表示HTTP协议所返回的响应的状态。下面将状态码归结如下: 100:继续 客户端应当继续发送请求。...新创建资源的URI可在响应的实体中得到 处理方式:爬虫中不会遇到 202:请求被接受,但处理尚未完成 处理方式:阻塞等待 204:服务器端已经实现了请求,但是没有返回新的信 息。...:丢弃 403:禁止 处理方式:丢弃 404:没有找到 处理方式:丢弃 500:服务器内部错误 服务器遇到了一个未曾预料的状况,导致了它无法完成对请求的处理。...)except urllib2.HTTPError, e: print e.code print e.reason 运行结果如下 12 403Forbidden 错误代号是403,错误原因是

    1.8K90

    HTTP 返回状态值详解

    当用户点击或搜索引擎向网站服务器发出浏览请求时,服务器将返回Http Header Http头信息状态码,常见几种如下: 1、Http/1.1 200 OK 访问正常   表示成功访问,为网站可正常访问时的状态...6、Http/1.1 404 Not Found 文件或目录不存在   表示请求文件、目录不存在或删除,设置404错误页时需确保返回值为404。...——错误请求,如语法错误 401——请求授权失败 402——保留有效ChargeTo头响应 403——请求不允许 404——没有发现文件、查询或URl 405——用户在Request-Line字段定义的方法不允许...410——服务器上不再有此资源且无进一步的参考地址 411——服务器拒绝用户定义的Content-Length属性请求 412——一个或多个请求头字段在当前请求中错误 413——请求的资源大于服务器允许的大小...对于登录后请求的网页,服务器可能返回此响应。   403(禁止)服务器拒绝请求。

    3.2K30

    Nginx系列之核心模块(上)

    [=[response]] uri; 配置上下文为http,server,location,if in location,无默认值。功能为定义将为指定错误显示的URI。...当我们配置size后,当文件大小超过size后,将启用对应系统的directio相关系统调用来对文件进行处理,这在nginx作为静态大文件下载服务时,非常有用。...在Linux上同时启用AIO和sendfile时,AIO用于大于或等于directio指令中指定的大小的文件,而sendfile用于较小的文件或禁用directio的文件。...underscores_in_headers: 控制客户端请求头字段中是否可以含有下划线。禁止使用下划线时,名称中包含下划线的请求标头字段将被标记为无效,默认为off。...$rate; 速率限制也可以在代理服务器响应的“ X-Accel-Limit-Rate”标头字段中设置。

    1.8K10

    解析Python爬虫常见异常及处理方法

    : # 处理超时异常,进行相应操作 二、页面解析异常 1、AttributeError: 页面解析过程中发生属性错误,可能是因为所需的元素不存在或页面结构发生变化。...except AttributeError: # 处理属性错误异常,进行相应操作 三、反爬虫机制异常 1、 HTTPError: 目标网站返回的HTTP状态码异常,比如403 Forbidden...解决方法:可以使用反爬虫技术,如设置User-Agent、使用代理IP或添加适当的请求头,避免被网站封禁。...except requests.HTTPError: # 处理HTTP异常,进行相应操作 四、数据存储异常 1、IOError: 数据存储异常,如写入文件失败或数据库连接问题等。...解决方法:可以使用try-except语句捕获异常,并在异常处理中进行相应的错误处理或重试操作。

    59430

    CDN的防盗链技术

    二、CDN防盗链技术2.1 基于Referer的防盗链解决方案根据HTTP标头决定是否允许访问HTTP协议规范在HTTP标头中定义了referer字段,用于表示HTTP请求来源。...该字段值代表当前HTTP请求的来源,例如在点击网页链接时,浏览器会向服务器提交一个HTTP请求,请求中HTTP标头的referer字段值为引用该资源的网页地址,即用户点击的网页地址。...2.2 CDN创建ACL规则(访问控制层)ACL配置了网页请求的准入/拒绝准则,只对有权限的用户开发,而将盗链用户拒之门外。拒绝的方法可以有返回403/或者200状态码配上错误页面等等。...当CDN收到用户请求,CDN从源端请求资源,CDN接收到源端反馈资源和CDN即将向用户返回资源时,均支持调用Lambda对HTTP请求或响应进行按需处理。...2.3 通过超时机制加强URL验证使用HTTP标头字段实现防盗链可以应对常见的盗链情形。但盗链者仍然可以通过更加复杂的手段如客户端脚本去生成一个具有合法HTTP标头的请求,从而获取访问文件的能力。

    33520

    Python3爬虫学习.md

    ; 使用Scrapy抓取一个网站分四个步骤: 创建一个Scrapy项目 定义Item容器:保存爬取得数据的一个容器,与字典类似,但却多额外的保护机制避免拼写错误导致未定义字段错误; 编写爬虫 存储内存...2.3 scrapy 选择器介绍 在Scrapy中是使用一种基于XPath和CSS的表达式机制的选择器(selectors),它有四个基本方法: xpath() : 传入xpath表达式,返回该表达式所对应的所有节点的...(Request)对象或URL获取一个新的response,并更新相关的对象 view(response) - 在本机的浏览器打开给定的response,把下载的html保存。...其会在response的body中添加一个 tag ,使得外部链接(例如图片及css)能正确显示。 注意该操作会在本地创建一个临时文件,且该文件不会被自动删除。...也可以将数据保存到 json文件 或者 csv文件 scrapy crawl douban_spider -o movielist.csv scrapy crawl douban_spider -o

    80310

    Python爬虫基础知识:异常的处理

    云豆贴心提醒,本文阅读时间6分钟 先来说一说HTTP的异常处理问题。 当urlopen不能够处理一个response时,产生urlError。...其他不能处理的,urlopen会产生一个HTTPError。 典型的错误包含"404"(页面无法找到),"403"(请求禁止),和"401"(带验证请求)。...HTTP状态码表示HTTP协议所返回的响应的状态。 比如客户端向服务器发送请求,如果成功地获得请求的资源,则返回的状态码为200,表示响应成功。 如果请求的资源不存在, 则通常返回404错误。...处理方式:丢弃 403 禁止 处理方式:丢弃 404 没有找到 处理方式:丢弃 5XX 回应代码以“5”开头的状态码表示服务器端发现自己出现错误,不能继续执行请求 处理方式:...当一个错误号产生后,服务器返回一个HTTP错误号,和一个错误页面。 你可以使用HTTPError实例作为页面返回的应答对象response。

    1.2K100

    Python3爬虫学习.md

    ; 使用Scrapy抓取一个网站分四个步骤: 创建一个Scrapy项目 定义Item容器:保存爬取得数据的一个容器,与字典类似,但却多额外的保护机制避免拼写错误导致未定义字段错误; 编写爬虫 存储内存...2.3 scrapy 选择器介绍 在Scrapy中是使用一种基于XPath和CSS的表达式机制的选择器(selectors),它有四个基本方法: xpath() : 传入xpath表达式,返回该表达式所对应的所有节点的...其会在response的body中添加一个 tag ,使得外部链接(例如图片及css)能正确显示。 注意该操作会在本地创建一个临时文件,且该文件不会被自动删除。...''' # -*- coding: utf-8 -*- import scrapy from weiyigeek.items import WeiyigeekItem #导入数据容器中的类中的属性...也可以将数据保存到 json文件 或者 csv文件 scrapy crawl douban_spider -o movielist.csv scrapy crawl douban_spider -o

    65730

    干货 | 渗透测试之敏感文件目录探测总结

    通过目录扫描我们还能扫描敏感文件,后台文件,数据库文件,和信息泄漏文件等等 目录扫描有两种方式: •使用目录字典进行暴力才接存在该目录或文件返回200或者403;•使用爬虫爬行主页上的所有链接,对每个链接进行再次爬行...当一个搜索引擎(又称搜索机器人或蜘蛛程序)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取...•引导搜索引擎蜘蛛抓取指定栏目或内容•网站改版或者URL重写优化时候屏蔽对搜索引擎的不友好的链接•屏蔽死链接、404错误页•屏蔽无内容、无价值页面•屏蔽重复页面,如评论页、搜索结果页•引导蜘蛛抓取网站地图...•Disallow: (用来定义禁止蜘蛛爬行的页面或目录)示例: Disallow: / (禁止蜘蛛爬行网站的所有目录"/"表示根目录下) Disallow:/admin (...返回根信息:http://www.example.com/CVS/Root 返回所有文件的结构:http://www.example.com/CVS/Entries 漏洞利用工具:dvcs-ripper

    10.6K42

    HTTP状态码查询

    如果网页自请求者上次请求后再也没有更改过,您应当将服务器配置为返回此响应(称为 If-Modified-Since HTTP 标头)。...登录后,服务器可能会返回对页面的此响应。 403(已禁止) 服务器拒绝请求。...如果您在 Googlebot 尝试抓取的网址上发现此状态(位于"诊断"标签的 HTTP 错误页上),那么,这表示 Googlebot 所追踪的可能是另一网页中的无效链接(旧链接或输入有误的链接)。...411(需要有效长度) 服务器不会接受包含无效内容长度标头字段的请求。 412(未满足前提条件) 服务器未满足请求者在请求中设置的其中一个前提条件。...417(未满足期望值) 服务器未满足"期望"请求标头字段的要求。 5xx(服务器错误),这些状态代码表示,服务器在尝试处理请求时发生内部错误。这些错误可能是服务器本身的错误,而不是请求出错。

    1.8K100

    Python 爬虫库 urllib 使用详解,真的是总结的太到位了!!

    info():返回HTTPMessage对象,表示远程服务器返回的头信息。 getcode():返回Http状态码。如果是http请求,200请求成功完成;404网址未找到。...geturl():返回请求的链接。 Request 类 我们抓取网页一般需要对headers(网页头信息)进行模拟,否则网页很容易判定程序为爬虫,从而禁止访问。...的特定HTTP请求的HTTP响应头。...区别: URLError封装的错误信息一般是由网络引起的,包括url错误。 HTTPError封装的错误信息一般是服务器返回了错误状态码。...相反,它们被解析为路径,参数或查询组件的一部分,并fragment在返回值中设置为空字符串。 标准链接格式为: scheme://netloc/path;params?

    1.9K30

    HTTP响应状态码:除了404,还有啥?

    软件测试人员了解一些服务器返回的HTTP状态的意思是必不可少的,只有弄清楚这些状态码,工作中才会得心应手,HTTP状态码如下: HTTP响应状态码: 状态代码由三位数字组成,第一个数字定义了响应的类别,...IIS 定义了许多不同的 401 错误,它们指明更为具体的错误原因。这些具体的错误代码在浏览器中显示,但不在 IIS 日志中显示: · 401.1 - 登录失败。...· 401.7 – 访问被 Web 服务器上的 URL 授权策略拒绝。这个错误代码为 IIS 6.0 所专用。 · 403 - Forbidden(已禁止) 服务器拒绝请求。...通常由于服务器上文件或目录的权限设置导致。禁止访问:IIS 定义了许多不同的 403 错误,它们指明更为具体的错误原因: · 403.1 - 执行访问被禁止。 · 403.2 - 读访问被禁止。...· 404.0 -(无) – 没有找到文件或目录。 · 404.1 - 无法在所请求的端口上访问 Web 站点。 · 404.2 - Web 服务扩展锁定策略阻止本请求。

    2K20

    统计学习方法 Python 库

    对于许多项目,这只是一个指向 GitHub,GitLab,Bitbucket 或类似代码托管服务的链接。 packages 是应包含在 分发包 中的所有 Python 导入包 的列表。...现在从 setup.py 位于的同一目录运行此命令: python3 setup.py sdist bdist_wheel 此命令应输出大量文本,一旦完成,应在 dist 目录中生成两个文件: dist.../legacy/ 错误的用户验证信息,你需要创建一个用户验证文件 ~/.pypirc。...HTTPError: 403 Client Error: The user 'iosdevlog' isn't allowed to upload to project 'slm'....由于 TestPyPI 与实时 PyPI 没有相同的包,因此尝试安装依赖项可能会失败或安装意外的事情。虽然我们的示例包没有任何依赖关系,但在使用 TestPyPI 时避免安装依赖项是一种很好的做法。

    1K30
    领券