前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何解决爬虫中网站需要进行登陆问题

如何解决爬虫中网站需要进行登陆问题

作者头像
小白学大数据
发布2024-06-08 17:33:44
900
发布2024-06-08 17:33:44
举报
文章被收录于专栏:python进阶学习python进阶学习

作为爬虫工作者,在日常爬虫工作中遇到目标网站的反爬机制只是其中的一部分困难。偶尔还会遇到我们访问一些目标凝网站的时候需要使用cookie登陆,服务器会认为你是一个已登陆的用户,所以就会返回给你一个已登陆的内容。因此,需要验证码的情况可以使用带验证码登陆的cookie解。还有就有时候我们访问的网站需要完成一系列的指令,特别是加了代理,就需要同一个ip去完成这些指令,这时我们就需要通过设置随机数来解决。 关于随机数的一些设置我们可以分享给大家参考下,因为在访问目标网站过程中添加代理IP和随机数都是一起的,所以就把代理IP在爬虫程序里面的使用方式分享给大家交流学习下。 #! -- encoding:utf-8 -- import requests import random import requests.adapters

代码语言:javascript
复制
# 要访问的目标页面
targetUrlList = [
    "https://httpbin.org/ip",
    "https://httpbin.org/headers",
    "https://httpbin.org/user-agent",
]

# 代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"

# 代理验证信息
proxyUser = "username"
proxyPass = "password"

proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
    "host": proxyHost,
    "port": proxyPort,
    "user": proxyUser,
    "pass": proxyPass,
}

# 设置 http和https访问都是用HTTP代理
proxies = {
    "http": proxyMeta,
    "https": proxyMeta,
}

#  设置IP切换头
tunnel = random.randint(1, 10000)
headers = {"Proxy-Tunnel": str(tunnel)}


class HTTPAdapter(requests.adapters.HTTPAdapter):
    def proxy_headers(self, proxy):
        headers = super(HTTPAdapter, self).proxy_headers(proxy)
        if hasattr(self, 'tunnel'):
            headers['Proxy-Tunnel'] = self.tunnel
        return headers


# 访问三次网站,使用相同的tunnel标志,均能够保持相同的外网IP
for i in range(3):
    s = requests.session()

    a = HTTPAdapter()

    #  设置IP切换头
    a.tunnel = tunnel
    s.mount('https://', a)

    for url in targetUrlList:
        r = s.get(url, proxies=proxies)
        print r.text

这里我们可以通过检查从每个请求返回的状态代码来验证这些请求结果,它不会总是能让你知道登录阶段是否是成功的,但是可以用来作为一个验证指标。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-06-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
验证码
腾讯云新一代行为验证码(Captcha),基于十道安全栅栏, 为网页、App、小程序开发者打造立体、全面的人机验证。最大程度保护注册登录、活动秒杀、点赞发帖、数据保护等各大场景下业务安全的同时,提供更精细化的用户体验。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档