在现代的网页中,许多数据是通过JavaScript动态加载的,这使得传统的爬虫工具(如requests
或BeautifulSoup
)无法获取到这些数据。因此,为了更好地处理动态网站的数据爬取,我们需要使用像Puppeteer这样的浏览器自动化工具。
本文将介绍如何使用Puppeteer结合CSS选择器,实现对动态网页的交互操作,并爬取贝壳网的二手房价格数据。为了提高爬虫的成功率,我们还将结合爬虫代理,通过代理IP提高采集效率。
Puppeteer 是一个由 Google 官方推出的 Node.js 库,用于控制 Chromium 或 Chrome 浏览器。它支持各种浏览器自动化任务,例如截屏、生成PDF、页面爬取和测试自动化。
在开始之前,请确保已安装Node.js,可以通过以下命令检查版本:
node -v
npm -v
在项目目录下,使用以下命令安装Puppeteer:
npm install puppeteer
为了使用代理IP,我们将安装proxy-chain
库:
npm install proxy-chain
我们将以贝壳网为目标网站,爬取北京市二手房的价格数据,并使用爬虫代理进行代理配置。
爬虫代理提供以下参数:
proxy.16yun.cn
8000
yourUsername
yourPassword
const puppeteer = require('puppeteer');
const proxyChain = require('proxy-chain');
(async () => {
// 配置16yun爬虫代理
const proxyUrl = 'http://yourUsername:yourPassword@proxy.16yun.cn:8000';
const newProxyUrl = await proxyChain.anonymizeProxy(proxyUrl);
// 启动 Puppeteer 浏览器
const browser = await puppeteer.launch({
headless: true, // 无头模式
args: [`--proxy-server=${newProxyUrl}`] // 使用代理服务器
});
const page = await browser.newPage();
// 设置页面视口
await page.setViewport({ width: 1200, height: 800 });
// 访问贝壳网二手房列表页面
const url = 'https://bj.ke.com/ershoufang/';
await page.goto(url, { waitUntil: 'networkidle2' });
// 等待页面加载并选择价格元素
await page.waitForSelector('.sellListContent .priceInfo .totalPrice .number');
// 获取二手房列表的价格数据
const prices = await page.$$eval('.sellListContent .priceInfo .totalPrice .number', elements =>
elements.map(el => el.textContent.trim())
);
// 获取标题
const titles = await page.$$eval('.sellListContent .title a', elements =>
elements.map(el => el.textContent.trim())
);
// 数据展示
console.log('抓取到的二手房价格数据:');
prices.forEach((price, index) => {
console.log(`房源 ${index + 1}: 标题 - ${titles[index]}, 价格 - ${price} 万元`);
});
// 关闭浏览器
await browser.close();
})();
proxyChain
库配置代理IP,确保请求通过爬虫代理,避免IP被限制。waitForSelector
等待页面加载完成,确保动态数据已经渲染。$$eval
方法提取页面中的文本内容。goto
方法的超时时间,如{timeout: 60000}
。我们爬取了一定数量的二手房价格数据后,可以进行简单的数据分析,了解北京市二手房价格的分布趋势。以下是使用Python进行趋势分析的简单代码示例。
将爬取的数据保存到data.json
文件中,格式如下:
[
{"title": "北京某小区一居室", "price": "800"},
{"title": "北京某小区二居室", "price": "1200"}
]
import json
import matplotlib.pyplot as plt
# 读取数据
with open('data.json', 'r') as file:
data = json.load(file)
# 提取价格数据
prices = [int(item['price']) for item in data]
titles = [item['title'] for item in data]
# 绘制价格趋势图
plt.figure(figsize=(10, 6))
plt.plot(range(len(prices)), prices, marker='o')
plt.title('北京市二手房价格趋势')
plt.xlabel('房源编号')
plt.ylabel('价格 (万元)')
plt.grid()
plt.show()
从价格趋势图中可以看出,北京市二手房价格存在一定的波动,具体趋势需要结合更多的数据样本和时间段进行深入分析。可以使用更多的数据分析工具(如Pandas)进行详细的统计分析。
本文详细介绍了如何使用Puppeteer结合CSS选择器实现对动态网页的数据爬取,并且通过代理IP技术规避反爬机制,确保爬虫的稳定性和成功率。我们以贝壳网为例,抓取了二手房价格数据,并进行了简单的趋势分析。
通过本文的学习,希望大家能够掌握使用Puppeteer进行动态网页爬取的基本方法,并能应用于实际项目中。Happy Coding!
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。