开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Puppeteer:如何用document.evaluate计算xpath？

Puppeteer是一个Node.js库，用于控制一个无头浏览器（如Chrome）来进行自动化操作。在Puppeteer中，可以使用document.evaluate方法计算XPath表达式。

document.evaluate是DOM的一个方法，用于在指定的文档上执行XPath查询。它接收三个参数：XPath表达式、上下文节点和命名空间解析器。其中，XPath表达式是用于选择节点的规则，上下文节点是执行XPath查询的起始节点，命名空间解析器是可选的，用于处理命名空间。

下面是一个使用Puppeteer的示例代码，展示如何使用document.evaluate计算XPath：

const puppeteer = require('puppeteer');

async function run() {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  await page.goto('https://example.com'); // 打开指定的网页

  const xpath = "//h1"; // XPath表达式
  const elementHandle = await page.$x(xpath); // 获取匹配的元素
  const propertyHandle = await elementHandle[0].getProperty('textContent'); // 获取元素的textContent属性
  const text = await propertyHandle.jsonValue(); // 获取textContent属性的值
  console.log(text);

  await browser.close();
}

run();

在上述代码中，我们首先通过puppeteer.launch方法启动了一个无头浏览器实例，然后使用browser.newPage方法创建一个新的页面。接着，使用page.goto方法打开指定的网页。

在网页加载完成后，我们定义了一个XPath表达式，即"//h1"，表示选择所有h1元素。然后，使用page.$x方法执行XPath查询，返回匹配的元素数组。在示例中，我们获取了第一个匹配的元素。

接下来，通过getProperty方法获取元素的textContent属性，再使用jsonValue方法获取textContent属性的值，并将其打印在控制台上。

最后，使用browser.close方法关闭浏览器实例。

有关Puppeteer的更多信息和示例，请参考腾讯云的相关产品：Puppeteer文档。

请注意，以上答案基于Puppeteer和腾讯云相关产品，仅供参考。实际使用时，请根据具体情况进行调整和配置。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

JavaScript 技术篇-js通过xpath获取dom节点，js校验xpath唯一性。

document.evaluate()就是通过xpath获取dom节点。返回的结果通过.iterateNext()可以获得dom对象，每次调用会少一个，当没有时就返回空。

02

使用Pyppeteer抓取渲染网页

GitHub地址是：https://miyakogi.github.io/pyppeteer

03

监听元素存在时间

https://developer.mozilla.org/zh-CN/docs/Web/API/MutationObserver

01

web自动化|pyppeteer的使用-python版本puppeteer

pyppeteer：puppeteer的非官方python库.支持python3.5|3.6|3.7

04

如何使用Puppeteer进行新闻网站数据抓取和聚合

Puppeteer是一个基于Node.js的库，它提供了一个高级的API来控制Chrome或Chromium浏览器。通过Puppeteer，我们可以实现各种自动化任务，如网页截图、PDF生成、表单填写、网络监控等。本文将介绍如何使用Puppeteer进行新闻网站数据抓取和聚合，以网易新闻和杭州亚运会为例。

02

我写了一个自动化脚本涨粉，从0阅读到接近100粉丝

在CSDN写了大概140篇文章，一直都是0阅读量，仿佛石沉大海，在掘金能能频频上热搜的文章，在CSDN一点反馈都没有，所以跟文章质量关系不大，主要是曝光量，后面调研一下，发现情况如下

01

Puppeteer已经取代PhantomJs

记得前几年，我们通常会用PhantomJs做一下自动化测试，或者为了SEO优化，会用它对SPA页面进行预渲染，现在有更好的Puppeteer来代替它的工作了，性能更好，使用起来也更加方便，Puppeteer 是 Chrome 开发团队在 2017 年发布的一个 Node.js 包，用来模拟 Chrome 浏览器的运行。

01

Puppeteer：从零出发，全面掌握浏览器自动化神器

Puppeteer 译为木偶，是一个 Node.js 库，内部通过 DevTools 协议提供控制 Chrome 或 Firefox 的一系列 API。通过定义可以看出 Puppeteer 的核心在于提供用户控制浏览器行为的方法，以下是一些自动化入门示例：

01

前端人的爬虫工具【Puppeteer】

Puppeteer 是 Chrome 开发团队在 2017 年发布的一个 Node.js 包，同时还有 Headless Chrome。用来模拟 Chrome 浏览器的运行。它提供了高级API来通过 DevTools 协议控制无头 Chrome 或 Chromium ，它也可以配置为使用完整（非无头）Chrome 或 Chromium。

02

探索Puppeteer的强大功能：抓取隐藏内容

在现代网页设计中，动态内容和隐藏元素的使用越来越普遍，这些内容往往只有在特定的用户交互或条件下才会显示出来。为了有效地获取这些隐藏内容，传统的静态爬虫技术往往力不从心。Puppeteer，作为一个强大的无头浏览器工具，提供了丰富的功能来模拟用户行为，从而轻松抓取这些动态内容。本文将介绍如何使用Puppeteer抓取网页中的隐藏内容，并结合爬虫代理IP、useragent、cookie等设置，确保爬取过程的稳定性和高效性。

01

不仅仅可以用来做爬虫，Puppeteer 还可以干这个！

自动化测试对于软件开发来说是一个很重要也很方便的东西，但是自动化测试工具除了能用来做测试以外，还能被用来做一些模拟人类操作的事情，所以一些 E2E 自动化测试工具（例如：Selenium、Puppeteer、Appium）因为其强大的模拟功能，经常还被爬虫工程师们用来抓取数据。

03

Puppeteer实现选择性截图

截图的代码很简单，比如如果我想实现对百度搜索框部分截图怎么做呢，查询page.screenshot api 可以看到其api说明中包含clip 选项，用于设置截图的x,y,width,hegiht.通过查看元素可以看到搜索框部分的form id 为 form 。

09

puppeteer爬虫教程_python爬虫入门最好书籍

为了保证可读性，本文采用意译而非直译。另外，本文版权归原作者所有，翻译仅用于学习。

02

上天的Node.js之爬虫篇 15行代码爬取京东淘宝资源【深入浅出】

中的所有标签对应的跳转网页中的所有 title的文字内容，最后放到一个数组中。

03

puppeteer使用指南-入门

上篇文章讲解了如何安装puppeteer，这篇文章我们通过几个小案例来了解一下puppeteer的常用api的使用方法。

04

Puppeteer 入门指引

Puppeteer 是一个 Node library，提供了一套完整的通过 DevTools 协议操纵 Chrome 或 Chromium 的 API。Puppeteer 默认以无头（headless）的方式运行, 也可以使用 GUI 的方式运行 Chrome 和 Chromium。

05

Node.js爬虫之使用puppeteer爬取百度图片

本文通过puppeteer实现对百度图片的抓取，这里简单介绍下puppeteer puppeteer可以使我们编写一套代码控制浏览器动作，“你可以在浏览器中手动执行的绝大多数操作都可以使用 Puppeteer 来完成” 因此Puppeteer常用于测试和爬虫---官方文档

02

Puppeteer 初探

Puppeteer是一个Node库，它提供了一个高级API来通过DevTools协议控制无头 Chrome或Chromium ，它也可以配置为使用完整（非无头）Chrome或Chromium。

02

如何使用Puppeteer在Node JS服务器上实现动态网页抓取

动态网页抓取是指通过模拟浏览器行为，获取网页上的动态生成的数据，如JavaScript渲染的内容、Ajax请求的数据等。动态网页抓取的难点在于如何处理网页上的异步事件，如点击、滚动、等待等。Puppeteer是一个基于Node JS的库，它提供了一个高级的API，可以控制Chrome或Chromium浏览器，实现动态网页抓取。本文将介绍如何使用Puppeteer在Node JS服务器上实现动态网页抓取，并给出一个简单的案例。

01

如何使JavaScript更高效

传统的 Web 页面不会包含很多脚本，至少不会太影响 Web 页面的性能。然而，Web 页面变得越来越像应用程序，脚本对其的影响也越来越大。随着越来越多的应用采用 Web 技术开发，脚本性能的提升就变得越来越重要。

01

爬虫使用浏览器渲染的一些最佳实践

在做爬虫的时候，总会遇到一些动态网页，他们的内容是 Ajax 加载甚至是加密的。虽然说对于一些大站来说，分析接口是值得的，但是对于众多的小网站来说，一个一个分析接口太繁琐了，这时候直接使用浏览器渲染就简单得多了。

01

自动化 Web 性能分析之 Puppeteer 爬虫实践

通过上篇文章《自动化 Web 性能优化分析方案》的分享想必大家对“百策系统”有了初步的了解。本文将向大家介绍自动化性能分析使用的核心库——Puppeteer，并结合页面登录场景，介绍 Puppeteer 在百策系统中的应用。

04

使用Node.js爬取任意网页资源并输出高质量PDF文件到本地~

中的所有标签对应的跳转网页中的所有 title的文字内容，最后放到一个数组中。

06

使用puppeteer抓取受限网站

不要相信前端是安全的，今天简单验证一下（但是希望大家支持正版，支持原作者，毕竟写书不易）。

puppeteer实现线上服务器任意区域截图

整个九月份由于业务繁重以及玩心颇重，一直没有机会来写一篇博文。而且笔者于十月一日将会举办人生大事--婚礼，现在家里筹办过程中只能抽出零碎的时间来写这篇文章。

02

实践指南-网页生成PDF

开发工作中，需要实现网页生成 PDF 的功能，生成的 PDF 需上传至服务端，将 PDF 地址作为参数请求外部接口，这个转换过程及转换后的 PDF 不需要在前端展示给用户。

04

使用Puppeteer爬取地图上的用户评价和评论

在互联网时代，获取用户的反馈和意见是非常重要的，它可以帮助我们了解用户的需求和喜好，提高我们的产品和服务质量。有时候，我们需要从地图上爬取用户对某些地点或商家的评价和评论，这样我们就可以分析用户对不同地区或行业的态度和偏好。但是，如何从地图上爬取用户评价和评论呢？本文将介绍一种使用Puppeteer的方法，它是一个基于Node.js的库，可以控制Chrome或Chromium浏览器进行各种操作，包括爬虫。

02

分享6个必备的 JavaScript 和 Node.js 网络爬虫库

作为一名程序员，你是否曾遇到过需要从各大网站提取数据的需求？随着互联网的快速扩展，能够高效地进行网络爬虫已经成为企业、研究人员以及个人的一项重要技能。在这个数据为王的时代，如何利用JavaScript和Node.js来实现高效的数据抓取，是每一个开发者都应该掌握的技巧。

02

Puppeteer踩坑问题记录

具体怎么开始和API，参考文档：https://zhaoqize.github.io/puppeteer-api-zh_CN/

02

利用puppeteer 库采集豆瓣音频代码示例

今天要给大家分享的采集代码，主要是使用 puppeteer 库进行编写的，用于采集豆瓣网相关音频。这段代码也是非常地简单实用，一起来看看吧。

02

ManualResetEvent实现线程的暂停与恢复

前些天遇到一个需求，在没有第三方源码的情况下，刷新一个第三方UI，并且拦截到其ajax请求的返回结果。当结果为AVALIABLE的时候，停止刷新并语音提示，否则继续刷新。

03

使用 Node.js 生成方便传播的图片

本文使用「署名 4.0 国际 (CC BY 4.0)」许可协议，欢迎转载、或重新修改使用，但需要注明来源。署名 4.0 国际 (CC BY 4.0)

02

用 Puppeteer 把繁琐工作给自动化了，太爽啦！

这意味着如果文中有几十张图片，那我需要单独把这几十张图片保存到本地，然后光标定位到对应位置，点击上传图片，把图片插进去。

03

Puppeteer自动化的性能优化与执行速度提升

最近随着复杂的自动化任务的增加，robot 项目出现了很多问题，经常要人工智能，在上次清远漂流的时候，就是经常报警，而且基本都是我人工智能解决的。

02

使用腾讯云TCB云函数抓取微信情报信息

本文是 puppeteer 在云函数中的简单应用，主要功能为爬取网站上最新的微信产品相关信息。数据来源为新榜资讯。

03

Playwright: 比 Puppeteer 更好用的浏览器自动化工具

在 Playwright 之前，我一般会使用 Selenium 或者 Puppeteer 来进行浏览器自动化操作。然而，Selenium 经常会有一些奇怪的 bug, Puppeteer 则是没有官方 Python 版，非官方版本也只有 async 版本，并且也是有一些奇怪的 bug. 另外，众所周知，Python 的 Async API 并不是那么好使。

03

腾讯云TCB云函数趣应用：巧用 puppeteer 五分钟实现一个云加社区个人成就爬虫

入驻云加社区的同学都知道有个云+社区作者排行榜，榜单数据大概每周一的九点左右更新。个人成就数据也是同步更新，总是打开页面访问有点麻烦哇，用个爬虫来抓取不就方便多了嘛...

01

java使用xpath来进行网页爬虫

参考：http://webmagic.io/docs/zh/posts/ch4-basic-page-processor/xsoup.html

01

Puppeteer动态代理实战：提升数据抓取效率

Puppeteer是由Google Chrome团队开发的一个Node.js库，用于控制Chrome或Chromium浏览器。它提供了高级API，可以进行网页自动化操作，包括导航、屏幕截图、生成PDF、捕获网络活动等。在本文中，我们将重点介绍如何使用Puppeteer实现动态代理，以提高数据抓取效率。

01

Puppeteer工具简介及其在网页爬取和自动化中的应用

Puppeteer是一个流行的Node.js库,在开发者中广泛使用的用于网页爬取和自动化任务的工具。它提供两种操作模式，即headfull和headless。在headfull模式下，Puppeteer控制的Chrome或Chromium浏览器是有界面的，也就是可以看到浏览器运行的情况。在此模式下，可以使用浏览器的开发者工具进行调试。这种模式非常适合在本地进行开发和调试。而在headless模式下，它在后台运行，没有用户界面，这种模式非常适合在服务器上运行，因为没有界面，所以可以节省很多资源。该工具还提供缓存资源的选项，这可以帮助减少页面加载时间并提高性能。此外，Puppeteer允许开发人员在页面中执行JavaScript代码，并使用代理更改请求的IP地址，这对于匿名请求或从不同区域访问内容很有用。

05

Puppeteer实战指南：自动化抓取网页中的图片资源

Puppeteer是Google Chrome团队开发的一个Node库，它提供了一个高级API来控制Chrome或Chromium浏览器。Puppeteer可以进行网页自动化操作，包括导航、屏幕截图、生成PDF、捕获网络活动等。

01

Xpath学习笔记，持续记录

很早之前就想研究研究，一直没有合适的时间，今天刚好没啥事，乘机瞧一瞧xpath的“庐山真面目”。

04

Puppeteer实战指南：自动化抓取网页中的图片资源

Puppeteer是Google Chrome团队开发的一个Node库，它提供了一个高级API来控制Chrome或Chromium浏览器。Puppeteer可以进行网页自动化操作，包括导航、屏幕截图、生成PDF、捕获网络活动等。

01

Web Security 之 DOM-based vulnerabilities

在本节中，我们将描述什么是 DOM ，解释对 DOM 数据的不安全处理是如何引入漏洞的，并建议如何在您的网站上防止基于 DOM 的漏洞。

01

用 Puppeteer 实现简书文章备份

读了篇文章《前端使用 puppeteer 爬虫生成《React.js 小书》PDF并合并》。参照这个思路，可以用 Puppeteer 备份简书的文章。

02

如何从 0 到 1 搭建性能检测系统(修正版)

本文首发于政采云前端团队博客：如何从 0 到 1 搭建性能检测系统 https://www.zoo.team/article/performance-testing-system

05

deno牌puppeteer，真香！

puppeteer是一个Node库，它提供了高级API来通过DevTools协议控制Chrome或Chromium，puppeteer 默认以 headless 运行，但是可以通过修改配置文件完整(non-headless)运行。puppeteer常常被用来生成页面的屏幕截图和PDF、实现SSR、自动化测试等等，在业界也有不少企业级的运用，比如有赞商城前端团队使用puppeteer搭建统一海报渲染服务，TCB 的云函数也支持 puppeteer 依赖。于是也有开发者想在 deno 中使用puppeteer，就有了上图中的issue 。

03

使用Puppeteer进行数据抓取保存为JSON

Puppeteer简介 Puppeteer是由Google Chrome团队开发的一个Node库，它提供了一个高级API来控制Chrome或Chromium的无头版本。Puppeteer能够执行各种任务，包括页面导航、内容抓取、屏幕截图、PDF生成等。

01

前端项目发布自动化脚本

博主所在公司是一家小公司，内部项目发布是使用的 jenkins，开发人员手持 jenkins 帐号，需要发布开发环境时自己登录 web 端进行发布。

02

用 Javascript 和 Node.js 爬取网页

本文主要针对具有一定 JavaScript 经验的程序员。如果你对 Web 抓取有深刻的了解，但对 JavaScript 并不熟悉，那么本文仍然能够对你有所帮助。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭