如何解决爬虫中网站需要进行登陆问题

小白学大数据

发布于 2024-06-08 09:33:44

27100

代码可运行

运行总次数：0

代码可运行

作为爬虫工作者，在日常爬虫工作中遇到目标网站的反爬机制只是其中的一部分困难。偶尔还会遇到我们访问一些目标凝网站的时候需要使用cookie登陆，服务器会认为你是一个已登陆的用户，所以就会返回给你一个已登陆的内容。因此，需要验证码的情况可以使用带验证码登陆的cookie解。还有就有时候我们访问的网站需要完成一系列的指令，特别是加了代理，就需要同一个ip去完成这些指令，这时我们就需要通过设置随机数来解决。关于随机数的一些设置我们可以分享给大家参考下，因为在访问目标网站过程中添加代理IP和随机数都是一起的，所以就把代理IP在爬虫程序里面的使用方式分享给大家交流学习下。 #! -- encoding:utf-8 -- import requests import random import requests.adapters

# 要访问的目标页面
targetUrlList = [
    "https://httpbin.org/ip",
    "https://httpbin.org/headers",
    "https://httpbin.org/user-agent",
]

# 代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"

# 代理验证信息
proxyUser = "username"
proxyPass = "password"

proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
    "host": proxyHost,
    "port": proxyPort,
    "user": proxyUser,
    "pass": proxyPass,
}

# 设置 http和https访问都是用HTTP代理
proxies = {
    "http": proxyMeta,
    "https": proxyMeta,
}

#  设置IP切换头
tunnel = random.randint(1, 10000)
headers = {"Proxy-Tunnel": str(tunnel)}


class HTTPAdapter(requests.adapters.HTTPAdapter):
    def proxy_headers(self, proxy):
        headers = super(HTTPAdapter, self).proxy_headers(proxy)
        if hasattr(self, 'tunnel'):
            headers['Proxy-Tunnel'] = self.tunnel
        return headers


# 访问三次网站，使用相同的tunnel标志，均能够保持相同的外网IP
for i in range(3):
    s = requests.session()

    a = HTTPAdapter()

    #  设置IP切换头
    a.tunnel = tunnel
    s.mount('https://', a)

    for url in targetUrlList:
        r = s.get(url, proxies=proxies)
        print r.text