如何从python下载中排除404个页面

在Python中，我们可以使用标准库中的urllib模块来下载网页内容。如果我们想要从下载中排除404个页面，可以通过以下步骤实现：

导入urllib库中的urllib.request模块：

import urllib.request

定义一个函数，用于判断页面是否存在（即不是404错误页面）：

def page_exists(url):
    try:
        response = urllib.request.urlopen(url)
        return True
    except urllib.error.HTTPError as e:
        if e.code == 404:  # 页面不存在，返回False
            return False
        else:  # 其他HTTP错误，抛出异常
            raise e

定义一个函数，用于从给定的URL列表中排除404页面：

def exclude_404_pages(urls):
    valid_urls = []  # 存储有效的URL
    for url in urls:
        if page_exists(url):
            valid_urls.append(url)
    return valid_urls

调用exclude_404_pages函数，传入要下载的页面的URL列表，即可得到排除了404页面的有效URL列表：

urls = ["https://example.com/page1", "https://example.com/page2", "https://example.com/page404"]
valid_urls = exclude_404_pages(urls)
print(valid_urls)

以上代码中，我们首先定义了一个page_exists函数，通过尝试访问URL并捕获HTTPError异常来判断页面是否存在。然后，我们定义了exclude_404_pages函数，使用page_exists函数来遍历URL列表，将有效的URL存储在valid_urls列表中并返回。最后，我们调用exclude_404_pages函数来排除404页面并打印有效的URL列表。

对于Python中的网页下载，可以使用其他库如requests或者BeautifulSoup等，具体选择可以根据需求和个人偏好进行。

如何以编程方式从dropbox下载许多大型文件

、、、

我只想下载第1部分，但即使这样，也有1446个压缩文件，每个文件都很大。我的问题是:如何仅使用命令行编程地从dropbox下载许多大型文件到Linux (Ubunut 16.04) VM。|-SPEAKER1446.zip 使用共享链接通过WAVE命令下载wget父目录，如中所述。基于，有人建议我可以下载WAVE父目录的HTML，并找到指向各个zip文件的所有直接链接，但是指向单个文件的直接链接不在HTML文件中。基于(2)中</e

浏览 11提问于2021-01-06得票数 0

回答已采纳

1回答

如何从python下载中排除404个页面

、、

这段代码运行良好，但是如何停止404页面的下载呢？Urllib请求总是返回403，因为主机不允许python。有没有其他方法可以检测文件是否存在？

浏览 10提问于2020-10-18得票数 0

1回答

Android SDK和AVD管理器拒绝连接

、、

我在工作中处于防火墙后面，无法绕过它。如果不使用管理器，如何安装Android平台？

浏览 1提问于2010-08-02得票数 3

5回答

从网站下载所有.pdf文件的Python/Java脚本

、、、

我想知道是否可以编写一个脚本，以编程方式遍历网页并自动下载所有.pdf文件链接。在我开始尝试之前，我想知道这是否可能。问候

浏览 5提问于2014-02-15得票数 12

回答已采纳

2回答

使用请求和基本身份验证从https tableau服务器下载csv文件

、、、

在浏览器中，如果我导航到https://example.com/views/SomeReport/Totals.csv，系统会提示我登录，然后将视图作为csv文件下载。我试着用python下载这个文件如果我从路径中</em

浏览 1提问于2016-10-17得票数 0

1回答

在idle中设置numpy/scipy

、、、

我想在我创建的python程序中使用numpy，但我不知道如何在IDLE中使用它。numpy的下载页面重定向到Scipy的下载页面，这很好，事实上我也想下载Scipy的其余部分(特别是matPlotLib)，但它对我来说并不像numpy那么重要，但是scipy下载页面告诉你从更大的包中获取它，这些包我都不知道如何在IDLE中使用。请注意，我使用的是python2.

浏览 1提问于2013-08-10得票数 1

回答已采纳

2回答

在Ubuntu12.04上安装Python2.7.8

、

另一方面，我必须使用Python2.7.8，但12.04的最新Python版本是2.7.3。有什么ppa存储库可以用来升级我的python或者其他简单的方法吗？提前谢谢..。

浏览 0提问于2014-08-21得票数 7

1回答

尝试使用Python的Scrapy包，但它总是在不应该返回的地方返回空值

、、、、

所以我试着从Kijiji那里获取一些租房信息。我的程序在不应该返回空值的地方一直返回空值，然后就崩溃了。requestsimport timeos.chdir("C:/Users/Owner/Desktop/Python

浏览 17提问于2020-03-27得票数 0

1回答

如何从下载中排除依赖项？

、

我试图在同一时间安装许多软件包，并在下载结束时收到此错误。错误:未能提交事务(冲突的文件) /usr/lib/python3.10/site-packages/magic/init.py同时存在于‘python-魔术’和‘python’/usr/lib/python3.10/magic/pycache中。/init.cpython-310.pyc同时存在于“py

浏览 4提问于2022-08-05得票数 0

回答已采纳

1回答

无法获取页面的html python

、、、

下面是我想要的页面的url：https://de-legalization.tlscontact.com/eg/CAI/myapp.php

浏览 64提问于2021-07-26得票数 0

1回答

Raspi太阳能监测项目，更新mysql数据库

、、、、

这些传感器返回模拟输出，已被我的arduino uno读取，然后被我的python脚本使用串行命令调用。我打印了一个txt文件，以确保我正在获取读数。现在，我想将代码上传到我根据raspberry pi气象站指南创建的表中，数据库名为weather，我使用以下代码创建了该表。CREATED TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP, );我实际上是python和arduino语

浏览 1提问于2016-10-21得票数 0

2回答

在python变量中获取wget输出

、、

我可以使用wget下载文件，我可以在控制台中看到进度，但是如何将输出存储到python变量中呢？下面给出了一个示例代码，我排除了类似的情况。output = os.popen('wget https://www.tutorialspoint.com/python3/python3_tutorial.pdf')

浏览 2提问于2017-05-18得票数 2

回答已采纳

1回答

在Windows 10上安装Azure Machine Learning Workbench失败

、、

我尝试从安装azure机器学习工作台。双击下载的MSI文件后，它将显示有关许可条款的第一个屏幕。一旦我单击Continue，它就会显示依赖项。当我单击Install时，它将开始安装。它使用Python 3.5.2下载Miniconda。在尝试安装asn1crypto 0.23.0时，它突然停止并显示“安装失败”。我尝试使用log选项运行MSI文件，但在日志中没有报告错误。以下是我的计算机详细信息: Windows 10 v1709 (OS Build 17017.1000) 如何对此进行

浏览 4提问于2017-10-24得票数 1

1回答

下载MINST数据库时出错

、、

我从tensorflow的网站上复制了代码。但在这里会遇到一个错误。我检查了其他几个代码，它们还没有见过。所以我想知道我是不是做错了什么。如果我这样做了，我怎样才能让它被tensorflow安装或识别呢？

浏览 19提问于2017-12-16得票数 1

回答已采纳

1回答

我无法登录我的安卓应用程序时，从PlayStore下载它

、

我已经生成了应用程序的发布版本，当我们从外部链接下载它时，我们可以使用它。然而，当我们从PlayStore下载相同的应用程序时，我们无法通过动态口令屏幕，尽管我们收到了动态口令。每当我们添加otp号码时，它只是停留在相同的页面上，我们无法继续。我的观点是，为什么我们从PlayStore下载应用程序时会有不同的行为？在这种情况下，我们可以如何对应用程序进行调试或故障排除？

浏览 1提问于2020-10-07得票数 0

1回答

只下载我需要的selenium (Python* 2.7*

、、

如何只下载我需要的selenium (Python2.7)图片和脚本？如何从已加载页面的图像中获取数据？

浏览 6提问于2012-09-25得票数 0

2回答

在Python中安装快照？

、

我一直在尝试在Python2.7.9中安装SNAP ()。我按照snap网站上的说明进行安装，但无法导入snap包/模块。我是Python的新手。致以敬意，

浏览 1提问于2015-02-12得票数 0

1回答

游戏运行时没有任何问题，但屏幕上没有绘制任何内容。

、

running = False clock.tick(60) 在上面的代码中，

浏览 2提问于2019-02-05得票数 3

回答已采纳

2回答

如何: Python脚本将‘点击’我的屏幕的一部分，然后执行关键命令？

、、、、

Python noobie我真的不知道从哪里开始--有用于这类事情的库吗？这有可能吗？

浏览 0提问于2013-03-26得票数 0

2回答

具有用户上传/下载速度的网页

、

当他遵循该URL时，他将获得一个页面，该页面显示该用户到托管该页面的服务器的上传/下载速度。基本上，我想主持我自己的速度测试。它将被用于故障排除，实现起来如此之快，但肮脏比整洁和适当的解决方案更好。在服务器上，我安装了PHP、perl、python、apache和nginx，可以使用它们中的任何一个。我应该朝哪个方向看？

浏览 2提问于2010-11-25得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何从python下载中排除404个页面

相关·内容

如何以编程方式从dropbox下载许多大型文件

如何从python下载中排除404个页面

Android SDK和AVD管理器拒绝连接

从网站下载所有.pdf文件的Python/Java脚本

使用请求和基本身份验证从https tableau服务器下载csv文件

在idle中设置numpy/scipy

在Ubuntu12.04上安装Python2.7.8

尝试使用Python的Scrapy包，但它总是在不应该返回的地方返回空值

如何从下载中排除依赖项？

无法获取页面的html python

Raspi太阳能监测项目，更新mysql数据库

在python变量中获取wget输出

在Windows 10上安装Azure Machine Learning Workbench失败

下载MINST数据库时出错

我无法登录我的安卓应用程序时，从PlayStore下载它

只下载我需要的selenium (Python* 2.7*

在Python中安装快照？

游戏运行时没有任何问题，但屏幕上没有绘制任何内容。

如何: Python脚本将‘点击’我的屏幕的一部分，然后执行关键命令？

具有用户上传/下载速度的网页

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐