无头浏览器与请求签名技术-Cloudflare防护

原创

jackcode

发布于 2025-03-11 05:50:45

23000

代码可运行

文章被收录于专栏：爬虫资料爬虫资料

运行总次数：0

代码可运行

在实际数据采集实践中，许多目标网站（例如 Amazon）都会采用 Cloudflare 等防护措施，防止机器人和非正常流量。本文将分享一个故障场景下的排查与改进方案，讲述如何利用无头浏览器、请求签名技术以及爬虫代理 IP来实现数据采集。

本文结构如下：

时间轴呈现方案进程
方案分析
架构改进方案

时间轴呈现方案进程

初次尝试（T0）：undefined在最初采集 Amazon 商品信息时，使用常规的请求方式（如 Python 的 requests 库）直接访问目标页面，但由于 Cloudflare 的机制，返回了验证码页面或直接拒绝访问。
排查与调试（T1）：undefined经过详细分析，确认 Cloudflare 主要通过检测 Cookie、User-Agent 以及请求行为来判断是否为真实用户。传统的请求方式难以模拟完整的浏览器环境，导致防护措施生效。
引入无头浏览器（T2）：undefined为了完整地执行页面中的 JavaScript，并获取有效的 Cookie 信息，开始采用 Selenium 等无头浏览器方案。同时，利用代理 IP 技术规避单 IP 访问过于集中的风险。
请求签名技术落地（T3）：undefined在无头浏览器获取到 Cookie 信息后，通过对目标 URL 与 Cookie 的加密计算，生成请求签名。将签名附加到后续请求中，进一步模拟浏览器真实行为，绕过 Cloudflare 的二次验证。
系统测试与数据提取（T4）：undefined经过多次调试后，成功采集到 Amazon 上的商品标题、价格和评价等信息，同时整个流程在代理支持下实现了稳定的运行。

方案分析

Cloudflare 防护主要依赖以下几方面来辨识是否为正常用户请求：

Cookie 策略： Cloudflare 会在首次访问时生成一系列 Cookie，并要求后续请求带上这些 Cookie，否则将视为异常流量。
User-Agent 检测： 非浏览器默认的 User-Agent 或者缺失相关头信息的请求容易被直接屏蔽。
行为监测与签名验证： 通过对请求 URL 及 Cookie 等信息进行加密计算，生成签名，验证请求是否来自真实用户。

传统的 HTTP 请求难以满足上述条件，因此本文引入了无头浏览器技术。通过 Selenium 模拟完整的浏览器行为，可以获取到 Cloudflare 设置的 Cookie，再结合自定义的请求签名算法（例如 MD5 散列计算），将签名附加到请求中，从而绕过防护。同时，采用爬虫代理技术，利用代理 IP、用户名和密码等信息，确保请求来源的多样性，进一步降低被限制的风险。

架构改进方案

在当前方案基础上，为提高系统的稳定性和扩展性，建议从以下几个方面进行架构改进：

无头浏览器集群化部署：undefined利用 Docker 或 Kubernetes 部署无头浏览器集群，实现并发采集任务的分布式调度。这样既可以提高采集效率，也能避免单节点故障导致整个系统中断。
签名算法优化：undefined根据目标网站的动态检测机制，持续调整和优化签名生成算法。可以考虑通过机器学习等方式不断学习目标网站的防护规则，实现自适应的请求签名策略。
代理池管理：undefined构建一个自动化代理池，动态监控代理 IP 的可用性，并自动切换故障代理。参考爬虫代理的接入方式，实现代理IP的自动认证和更新。
多层次容错机制：undefined在请求失败或防护触发时，设置重试、延时等容错机制，同时记录失败日志，方便后续问题排查与数据补采。
数据清洗与存储：undefined对采集到的数据进行实时清洗、去重，并存储到数据库中。可以利用异步消息队列对爬虫任务进行解耦，提升系统整体的健壮性。

示例代码

下面给出一个基于 Selenium 的无头浏览器示例代码，展示如何设置代理、Cookie、User-Agent，并生成请求签名以采集 Amazon 商品信息。代码中引用了爬虫代理的域名、端口、用户名和密码（请根据实际情况替换）。

import time
import hashlib
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By

def generate_signature(url, cookies):
    """
    模拟生成请求签名的逻辑
    这里简单地将 URL 与所有 cookie 拼接后计算 MD5 值，实际中可能需要更复杂的算法
    """
    raw = url + ''.join([cookie['name'] + cookie['value'] for cookie in cookies])
    return hashlib.md5(raw.encode('utf-8')).hexdigest()

def scrape_amazon_product(product_url):
    # 设置 Chrome 无头浏览器选项
    chrome_options = Options()
    chrome_options.add_argument("--headless")  # 开启无头模式

    # 设置代理 IP，参考亿牛云爬虫代理的配置
    proxy_host = "proxy.16yun.cn"  # 代理服务器域名
    proxy_port = "8080"               # 代理端口
    proxy_user = "16YUN"           # 代理用户名
    proxy_pass = "16IP"           # 代理密码

    # 如果代理需要认证，则需要构造代理认证字符串，此处为简单示例
    proxy = f"{proxy_host}:{proxy_port}"
    chrome_options.add_argument(f'--proxy-server=http://{proxy}')

    # 设置 User-Agent 模拟真实浏览器
    user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36"
    chrome_options.add_argument(f'user-agent={user_agent}')

    # 初始化 webdriver（确保已安装对应的 chromedriver 并配置到环境变量中）
    driver = webdriver.Chrome(options=chrome_options)

    try:
        # 访问目标页面（Amazon 商品页面）
        driver.get(product_url)
        # 等待页面加载及 Cloudflare 防护检测通过（根据实际情况调整等待时间）
        time.sleep(5)
        
        # 获取页面 Cookie，用于生成请求签名
        cookies = driver.get_cookies()
        signature = generate_signature(product_url, cookies)
        print("生成的请求签名:", signature)
        
        # 提取商品信息（标题、价格、评价等）
        # 商品标题
        product_title = driver.find_element(By.ID, "productTitle").text if driver.find_elements(By.ID, "productTitle") else "无商品标题"
        # 商品价格（价格可能位于不同的元素中，此处仅为示例）
        try:
            product_price = driver.find_element(By.ID, "priceblock_ourprice").text
        except Exception as e:
            product_price = "价格信息获取失败"
        # 商品评价（同样，评价信息的获取可能因页面结构不同而变化）
        try:
            product_review = driver.find_element(By.ID, "acrCustomerReviewText").text
        except Exception as e:
            product_review = "评价信息获取失败"
        
        print("商品标题:", product_title)
        print("商品价格:", product_price)
        print("商品评价:", product_review)
    finally:
        # 关闭浏览器
        driver.quit()

if __name__ == '__main__':
    # 示例目标商品链接（请替换为实际存在的商品链接）
    target_url = "https://www.amazon.com/dp/B08N5WRWNW"
    scrape_amazon_product(target_url)

代码说明

无头浏览器设置： 通过 chrome_options.add_argument("--headless") 启用无头模式，以便在后台静默运行浏览器。
代理 IP 配置： 利用爬虫代理提供的域名、端口、用户名和密码，设置代理服务器，从而规避单 IP 请求风险。
User-Agent 与 Cookie： 在启动浏览器时，设置 User-Agent 参数；同时，浏览器执行页面中的 JavaScript 后能自动获取 Cloudflare 下发的 Cookie，这为后续请求签名提供数据支持。
请求签名： 通过将目标 URL 与 Cookie 拼接后计算 MD5 散列值，模拟生成请求签名。