Node.JS :具有多个不同Socks5问题的Puppeteer多线程实例

基础概念

Node.js 是一个基于 Chrome V8 引擎的 JavaScript 运行时环境，允许开发者使用 JavaScript 编写服务器端代码。Puppeteer 是一个 Node.js 库，它提供了一套高级 API 来通过 DevTools 协议控制 Chrome 或 Chromium。Socks5 是一种网络传输协议，用于代理服务器，可以用于绕过网络限制或隐藏真实 IP 地址。

类型

单线程实例: 每个 Puppeteer 实例运行在一个单独的线程中。
多线程实例: 多个 Puppeteer 实例可以在多个线程中并行运行。

应用场景

网页抓取: 自动化地抓取网页内容，尤其是那些需要 JavaScript 渲染的页面。
自动化测试: 对网页应用进行端到端的测试。
生成 PDF: 自动化地生成网页的 PDF 版本。

遇到的问题及解决方法

问题1: Socks5 代理连接失败

原因: 可能是代理服务器地址或端口错误，或者代理服务器本身存在问题。

解决方法:

const puppeteer = require('puppeteer');

(async () => {
  const browser = await puppeteer.launch({
    args: [
      `--proxy-server=socks5://127.0.0.1:1080` // 确保代理服务器地址和端口正确
    ]
  });
  const page = await browser.newPage();
  await page.goto('https://example.com');
  await browser.close();
})();

问题2: 多线程实例中的资源竞争

原因: 多个 Puppeteer 实例可能会竞争系统资源，如内存和 CPU。

解决方法:

const puppeteer = require('puppeteer');
const { Worker } = require('worker_threads');

async function runPuppeteer() {
  const browser = await puppeteer.launch({
    args: [
      `--proxy-server=socks5://127.0.0.1:1080`
    ]
  });
  const page = await browser.newPage();
  await page.goto('https://example.com');
  await browser.close();
}

const workers = [];
for (let i = 0; i < 5; i++) {
  workers.push(new Worker('./runPuppeteer.js'));
}

问题3: Socks5 代理的匿名性问题

原因: 某些 Socks5 代理可能不够匿名，容易被检测到。

解决方法:

使用更高级的匿名代理服务，或者配置 Puppeteer 使用多个代理层来增加匿名性。

const puppeteer = require('puppeteer');

(async () => {
  const browser = await puppeteer.launch({
    args: [
      `--proxy-server=socks5://127.0.0.1:1080`,
      `--no-sandbox`,
      `--disable-setuid-sandbox`
    ]
  });
  const page = await browser.newPage();
  await page.goto('https://example.com');
  await browser.close();
})();