Docker root用户问题中的Apify with puppeteer - 腾讯云开发者社区

文章/答案/技术大牛

发布

基于Apify+node+reactvue搭建一个有点意思的爬虫平台

+ antd4.0搭建爬虫前台界面平台预览上图所示的就是我们要实现的爬虫平台, 我们可以输入指定网址来抓取该网站下的数据,并生成整个网页的快照.在抓取完之后我们可以下载数据和图片.网页右边是用户抓取的记录...: 笔者要实现的爬虫主要使用了Apify集成的Puppeteer能力, 如果对Puppeteer不熟悉的可以去官网学习了解, 本文模块会一一列出项目使用的技术框架的文档地址...., 所以为了更好的用户体验和流畅的响应,我们不德不考虑多进程处理....指的是用户输入的url集合, fetchPage为抓取页面的爬虫逻辑, 笔者将其封装成了promise....项目使用的技术文档地址 apify 一款用于JavaScript的可伸缩的web爬虫库 Puppeteer koa -- 基于nodejs平台的下一代web开发框架最后如果想学习更多H5游戏, webpack

2.4K2 0

如何写微信小程序的自动化脚本？

RPA可以将自动化软件作为虚拟劳动力，依据预先设定的程序（脚本），与现有系统进行交互，并完成预期任务。由此可见，RPA就是我们要找的内容了。 RPA机器人能够模仿大多数人类用户的行为。...据说这个软件常规功能是免费的，高级功能是收费的，还有手机App版本。这个网站上有“脚本”的概念，这个脚本应该是和问题中脚本是一个意思了。一般来讲，脚本在编程中的意思指的是解析型代码。...链接是：https://github.com/apify/apify-js 以下示例是使用Apify实现的动态效果，它可以自动打开网页，完成分析并自动关闭，并且这些操作都是拿真实代码实现的。 ?...这里有一个使用puppeteer加载一个页面，并截图保存图片的示例代码： // example.js const puppeteer = require('puppeteer'); (async ().../puppeteer 总结好了，最后总结一下，由于RPA是在PC时代发展起来的，所以目前在移动端的支持也不是很完善。

13.3K2 3

您找到你想要的搜索结果了吗？

是的

没有找到

docker 非root用户修改mount到容器的文件出现“Operation not permitted

使用环境centos7 x86-64 内核版本4.19.9 docker使用非root用户启动，daemon.json配置文件内容如下： # cat daemon.json { "userns-remap...-rw-r--r--. 1 65534 65534 0 Dec 18 08:49 test.sh 命名空间的root用户所拥有的权限主要看该命名空间所映射到root namespace的uid和gid...的范围，在docker上查看init进程映射到root namespace的uid范围，可以看到根进程映射到231072，最大映射的uid为231072+65536。...-rw-r--r--. 1 root root 0 Dec 18 08:49 test.sh 根据上述配置，容器的root用户拥有root namespace下uid [231072,231072...user namespace，以系统root用户执行操作当程序执行对文件(目录)的操作时，其进程的EUID必须与文件(目录)的EUID保持一致，上述的test.sh是由root namespace的root

5.4K2 0

推荐一款开源的网络爬虫和浏览器自动化库：Crawlee！

一、Crawlee 简介 Crawlee 是一款基于 Playwright 和 Puppeteer 的开源网络爬虫和浏览器自动化库。...多种抓取工具：Crawlee兼容Puppeteer、Playwright、Cheerio、JSDOM和原生HTTP，提供了丰富的抓取选择。这些工具可以帮助开发者更高效地解析和处理网页内容。...浏览器自动化: 基于 Playwright 和 Puppeteer，Crawlee 可以模拟真实用户在浏览器中的操作，如点击、滚动、输入等。...在requestHandler中，我们使用Puppeteer的page对象获取网页标题，并将结果推送到Dataset中。...GitHub地址：https://github.com/apify/crawlee

3790 0

TypeScript在爬虫开发中的应用

TS的核心价值在于大型复杂系统，无论是前端工程还是爬虫系统。如果用户正在技术选型，可能需要强调渐进式迁移策略——爬虫可以先从JS开始，等逻辑复杂后再引入TS。...await setTimeout(1000); // 每次请求间隔1秒// 处理相对路径链接const absoluteUrl = new URL(href, baseUrl).href;// 添加用户代理...（如需要登录或 JavaScript 渲染），可添加：import puppeteer from 'puppeteer';// 使用无头浏览器处理动态内容async function scrapeDynamicPage...(url: string) { const browser = await puppeteer.launch(); const page = await browser.newPage();...如果项目相对复杂，可以考虑分布式爬取（Apify）。

1221 0

介绍一些比较方便好用的爬虫工具和服务

PySpider GitHub：https://github.com/binux/pyspider Apify 它是一个基于 Node.js 开发的爬虫库，由于是 JavaScript 编写，因此它对...JavaScript 渲染页面的爬取是完全支持的，对接了 Puppeteer、Cheerio。...另外其可定制化也非常强，支持各种文件格式的导出，并且支持和 Apify Cloud 的对接实现云爬取。 ?...Apify 官网：https://sdk.apify.com/ Parsehub ParseHub 是一个基于 Web 的抓取客户端工具，支持 JavaScript 渲染、Ajax 爬取、Cookies...Bazhuayu 官网：http://www.bazhuayu.com/ Zaoshu 是一家数据爬取服务提供商，不过目前已经不面向于个人用户，主要是提供企业数据服务，其也提供了可视化点选数据爬取服务，

8.9K5 1

在 Docker 中配置 Headless Chrome Node.js 服务器

运行 GUI 比发布基于 Linux 的服务器或在微服务集群（例如 Kubernetes）上扩展简单的Docker容器的代价要高得多。但是我跑题了。...简而言之，通过一个基于 Docker 容器的无头浏览器来拥有最大的化灵活性和可扩展性变得越来越重要。...默认情况下，容器中的所有内容都以 root 用户身份运行，浏览器会在本地执行 JavaScript 文件。...当然，Google Chrome 是安全的，它不允许用户从基于浏览器的脚本访问本地文件，但仍然存在潜在的安全风险。你可以通过创建新用户来执行浏览器本身的特定操作来最大大地降低这些风险。...运行 Docker 构建后，我们会获得 Chromium 可执行文件：/usr/bin/chromium-browser。这是 Puppeteer Chrome 可执行文件的路径。

3.3K1 0

用 Puppeteer 实现一个自动化机器人

然后构建镜像：docker build -t puppeteer-bot .。...构建完成后就执行 docker run -d --name puppeteer-bot-timeline puppeteer-bot:latest。...之后可以通过 docker logs puppeteer-bot-timeline 查看 console.log 的内容 ( 如果有的话 )。...Puppeteer 安装 Chromium 时会缺少一些组件本来用 docker 封装是很容易的，安装 node 然后 npm install 就行了，但是在实际操作时一直报错说 Chromium 缺少组件...后来去 Puppeteer 的 issue 上查到原来安装 Puppeteer 时会自动安装 Chromium，但要在 Docker 上运行的相关组件并不会自动下载。 2.

1.6K3 0

写个爬虫，爬取 Boss 直聘全部前端岗位

首先，进入搜索页面，选择全国范围，搜索前端：然后职位列表的每个点进去查看描述，把这个岗位的信息和描述抓取下来：创建 test.js import puppeteer from 'puppeteer'...其实就是拿 options-pages 的倒数第二个 a 标签的内容： import puppeteer from 'puppeteer'; const browser = await puppeteer.launch...我们新建个 nest 项目： npm install -g @nestjs/cli nest new boss-jd-spider 用 docker 把 mysql 跑起来：从 docker 官网下载...docker desktop，这个是 docker 的桌面端：跑起来后，搜索 mysql 镜像（这步需要科学上网），点击 run：输入容器名、端口映射、以及挂载的数据卷，还要指定一个环境变量：端口映射就是把宿主机的...而 MYSQL_ROOT_PASSWORD 的密码则是 mysql 连接时候的密码。

1.6K2 0

使用 Puppeteer 实现文件下载

无头（Headless）浏览器是指没有图形界面的浏览器，可以运行在服务器，和我们常规的浏览器不一样。无头浏览器能够模拟用户的真实操作，比如打开页面、输入账号密码、点击登录、跳转等等。...目前比较火的是无头浏览器是 Google 的 Puppeteer，常用于自动化 UI 测试和截图。Puppeteer 的文档非常详细，可以参考 Puppeteer API。...运行环境我们服务都是在 Docker 里面运行的，使用 K8S 做容器编排。...所以需要一个能够运行 Puppeteer 的 Docker 镜像，虽然官方文档里面提供了在 Docker 里面运行的一些配置，但当初踩了很多坑。..../ 的时候发现文件变化了缓存才失效。 4. 实现在开始写代码之前，先思考一下去一个网站下载文件需要进过哪些步骤？首先，我们打开网站登录页，输入用户名和密码，点击登录按钮。

2.9K1 0

用Node.js把HTML转成PDF格式

背景：几个月前，一个客户要求我们开发一个功能，用户可以得到 PDF 格式的 React 页面内容。该页面基本上是患者病例的报告和数据可视化结果，其中包含许多 SVG。...但是让后端处理它可能更有意义，因为你并不想耗尽用户浏览器可以提供的所有资源。即便如此，我仍然会展示这两种方法的解决方案。...在 Docker 中使用 Puppeteer 我认为这是实施中最棘手的部分 —— 所以让我帮你节省几个小时的百度时间。...官方文档有疑难解答部分，你可以找到有关用 Docker 安装 puppeteer 的所有必要信息。如果你在 Alpine 镜像上安装 Puppeteer，请确保在看到页面的这一部分时再向下滚动一点。...Puppeteer：尽管在 Docker 上工作相对困难，但它为我们的实现提供了最好的结果，而且编写代码也是最简单的。

7.5K3 0

实践指南-网页生成PDF

登录态— 由于存在一部分文章不对外部用户公开，需要鉴权用户身份，符合要求的用户才能看到文章内容，因此跳转到指定文章页后，需要在生成的浏览器窗口中注入登录态，符合条件的登录用户才能看到这部分文章的内容。...Docker 部署 Puppeteer— 根据上文操作，本地已经可以成功将页面生成 PDF 了，本地体验没问题后，需要部署到服务端给到测试、上线。...官网有给 Docker 配置说明[4]可以参考，最终实践可用的 ubuntu 系统的 Dockerfile 如下： # ...省略......product=Puppeteer&version=v8.0.0&show=api-pagepdfoptions [4] Docker 配置说明: https://github.com/puppeteer.../puppeteer/blob/main/docs/troubleshooting.md#running-puppeteer-in-docker [5] 官方文档: https://pptr.dev/

2.8K4 1

一次 Docker 容器内大量僵尸进程排查分析

前段时间线上的一个使用 Google Puppeteer 生成图片的服务炸了，每个 docker 容器内都有几千个孤儿僵死进程没有回收，如下图所示。这篇文章比较长，主要就讲了下面这几个问题。...什么情况下会出现僵尸进程、孤儿进程 Puppeteer 工作过程启动的进程与线上事故分析 PID 为 1 的进程有什么特殊的地方为什么 node/npm 不应该作为镜像中 PID 为 1 的进程为什么...Bash 可以作为 PID 为 1 的进程，以及它做 PID 为 1 的进程有什么缺陷镜像中比较推荐的 init 进程的做法是什么 Puppeteer 是一个 node 库，是 Chrome 官方提供的无界面...本案例中使用的场景是使用 Puppeteer 加载 html，随后截图生成一张分销海报的图片。文章分析了这个问题背后的原因，接下来开始正式的内容。...sbin/docker-init -- /app/node-default root 6 1 0 15:30 pts/0 00:00:00 .

2.3K4 0

腾讯云轻量级服务器部署RSSHub教程

：设置开机自启：验证 Docker 是否正常运行：查看Docker安装结果允许普通用户运行 Docker（可选）安装特定版本（可选）注意事项安装docker-compose部署 RSSHub创建 RSSHub...RSSHub 是一个开源、强大的 RSS 订阅生成工具，支持将网站上的信息转换为标准的 RSS 格式，方便用户通过 RSS 阅读器订阅网站更新内容。...我这里使用的是finalshell，操作比较方便。这类软件界面都大差不差，你需要配置主机ip、端口号（默认是22）、用户名、密码后，就可以使用这个连接了。...查看Docker安装结果docker info允许普通用户运行 Docker（可选）默认情况下，只有 root 用户或使用 sudo 的用户可以运行 Docker。...为了方便使用，可以将当前用户加入 docker 用户组：sudo usermod -aG docker $USER然后重新登录系统，或执行以下命令使更改生效：newgrp docker验证普通用户是否能运行

9742 0

爬虫使用浏览器渲染的一些最佳实践

puppeteer。...使用 docker 来管理 Chrome 在 Linux 上跑 Chrome 的话，很可能连字体渲染都没有，还要安装好多的依赖。...Chrome 除了浏览之外，还会有好多的莫名其妙的线程，所以最好使用 docker 来管理。...关于这个镜像的文档在这里：docs.browserless.io/doc （英文） docker run -p 8080:3000 --restart always -d --name browserless...启动的时候指定 --user-data-dir Chrome 最好的一点就是它支持你指定一个用户的数据文件夹。通过指定用户数据文件夹，每次打开的时候都可以使用上次的缓存。

2.7K1 0

仅在 localhost 中部署并使用 RSSHub

由于部分网站严格的反爬机制、再加上大量使用带来的计算压力，RSSHub 鼓励用户自建使用。...Docker 部署 RSSHub RSSHub 官方文档已有多种手段详细的部署教程，本文只介绍流程较为简单的 Docker 部署方式。...# 如果是非 Root 账户，将当前账户添加到 "docker" 组 sudo usermod -aG docker 随后安装 Docker 三剑客之一——Docker Compose.../usr/local/bin/docker-compose 第一条代码中的 1.28.2 可以更换为任何你希望获取的版本。...: production CACHE_TYPE: redis REDIS_URL: 'redis://redis:6379/' PUPPETEER_WS_ENDPOINT

2.3K4 0

自动化生成骨架屏的技术方案设计与落地

在效果上可以一定程度的提升用户体验。...本质上就是视觉过渡的一个效果，以此来降低用户在等待时候的焦灼情绪。...骨架屏只吐出 HTML 结构，样式基于用户自动以的 CSSInModel 的样式骨架屏样式，沉淀到项目 global.scss中，避免行内样式重复体积增大流程图技术细节校验 Puppeteer...所以只能考虑将 Puppeteer 要求在用户本地全局安装。...i puppeteer@10.4.0 --g 全局安装后，插件会自动查找本地的 puppeteer 路径，如果找到插件，则进行 copy 到插件内的过程，否则需要用户自己手动填写路径puppeteer

1.2K0 0

自动化测试 puppeteer API详解(一):puppeteer模块API

在环境搭建章节介绍了如何使用puppeteer模块来启动Chromium实例，本篇开始puppeteer的API详细学习计划本文将主要介绍： puppeteer模块API ▷1◁ ?...userDataDir 用户数据目录路径。 env 指定浏览器可见的环境变量。默认是 process.env。...请看实例： //初始化puppeteer变量 const puppeteer = require('puppeteer'); //调用puppeteer模块的launch方法 //luanch的options...slowMo 将 Puppeteer 操作减少指定的毫秒数。这样你就可以看清发生了什么，这很有用。...默认是 root>/.local-chromium, root> 是 puppeteer 的包根目录。

4.1K3 0

Crawlab是一个功能强大的网络爬虫管理平台（WCMP），可以运行以各种编程语

Crawlab是一个功能强大的网络爬虫管理平台（WCMP），可以运行以各种编程语言开发的网络爬虫和爬虫，包括Python，Go，Node.js，Java，C#以及包括Scrapy，Colly，Selenium...，Puppeteer在内的框架。...它用于运行、管理和监控网络爬虫，特别是在可追溯性、可扩展性和稳定性是需要关注的主要因素的生产环境中。...然后执行 docker-compose up -d 以启动容器。...您可以将其中一些不需要设置的环境变量留空。本文来自：https://docs.crawlab.cn/zh/guide/installation/docker.html#外部-mongodb #

5832 0

Midscene.js：一款AI 驱动的 UI 自动化测试利器，小白也能秒上手！

当然你也可以选择，千问 Qwen-2.5-VL 模型，同样支持视觉定位，不需要发送 DOM 树给模型。和 gpt-4o 相比，它可以节省 30% 到 50% 的 token 数量。...它一共有三个关键操作Tab： Action: 与网页进行交互，如 "在搜索框中输入 Midscene" 或 "点击登录按钮" Query: 从界面中提取 JSON 数据，如 "提取页面中的用户 ID.../test.yaml 3.3 使用Puppeteer集成 midscene.js 也提供了一种基于 Puppeteer 的集成方式，允许你使用 Puppeteer 的 API 来编写自动化测试脚本，并使用...Midscene 的 API 来执行自动化测试 const puppeteer = require('puppeteer'); const midscene = require('@midscene/...; await page.goto('https://example.com'); // 输入用户名和密码 await midscene.execute(page, '输入用户名 "testuser

2K1 0

点击加载更多

基于Apify+node+reactvue搭建一个有点意思的爬虫平台

如何写微信小程序的自动化脚本？

docker 非root用户修改mount到容器的文件出现“Operation not permitted

推荐一款开源的网络爬虫和浏览器自动化库：Crawlee！

TypeScript在爬虫开发中的应用

介绍一些比较方便好用的爬虫工具和服务

在 Docker 中配置 Headless Chrome Node.js 服务器

用 Puppeteer 实现一个自动化机器人

写个爬虫，爬取 Boss 直聘全部前端岗位

使用 Puppeteer 实现文件下载

用Node.js把HTML转成PDF格式

实践指南-网页生成PDF

一次 Docker 容器内大量僵尸进程排查分析

腾讯云轻量级服务器部署RSSHub教程

爬虫使用浏览器渲染的一些最佳实践

仅在 localhost 中部署并使用 RSSHub

自动化生成骨架屏的技术方案设计与落地

自动化测试 puppeteer API详解(一):puppeteer模块API

Crawlab是一个功能强大的网络爬虫管理平台（WCMP），可以运行以各种编程语

Midscene.js：一款AI 驱动的 UI 自动化测试利器，小白也能秒上手！

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐