在Python中,我们可以使用标准库中的urllib模块来下载网页内容。如果我们想要从下载中排除404个页面,可以通过以下步骤实现:
import urllib.request
def page_exists(url):
try:
response = urllib.request.urlopen(url)
return True
except urllib.error.HTTPError as e:
if e.code == 404: # 页面不存在,返回False
return False
else: # 其他HTTP错误,抛出异常
raise e
def exclude_404_pages(urls):
valid_urls = [] # 存储有效的URL
for url in urls:
if page_exists(url):
valid_urls.append(url)
return valid_urls
urls = ["https://example.com/page1", "https://example.com/page2", "https://example.com/page404"]
valid_urls = exclude_404_pages(urls)
print(valid_urls)
以上代码中,我们首先定义了一个page_exists函数,通过尝试访问URL并捕获HTTPError异常来判断页面是否存在。然后,我们定义了exclude_404_pages函数,使用page_exists函数来遍历URL列表,将有效的URL存储在valid_urls列表中并返回。最后,我们调用exclude_404_pages函数来排除404页面并打印有效的URL列表。
对于Python中的网页下载,可以使用其他库如requests或者BeautifulSoup等,具体选择可以根据需求和个人偏好进行。
领取专属 10元无门槛券
手把手带您无忧上云