腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
使用
Apify
抓取
多个
页面
、
可以
使用
带有伪URL的
Apify
抓取
多个
页面
吗? 当人们问同样的问题时,答案大多指向伪URL,如果有可能或不可能这样做,并不会直接解决问题。如果我在运行爬虫的时候不知道伪URL,并且我从一个
页面
上
抓取
了10个链接-然后想要
抓取
这10个链接,那怎么做呢?https://kb.
apify
.com/tutorial-creating-your-first-crawler/crawling-multip
浏览 15
提问于2019-03-19
得票数 0
2
回答
使用
Apify
进行Web
抓取
、
、
、
、
我正在尝试从中
抓取
URL下面是我运行
Apify
浏览 17
提问于2020-02-25
得票数 1
2
回答
如何阻止
Apify
保存已处理的请求?
、
、
看起来
Apify
将处理过的请求保存在“已处理”目录中。我想停止这个操作,因为
apify
不会
抓取
我之前
抓取
过的
页面
。有人知道如何阻止
Apify
保存已处理的请求吗?
浏览 25
提问于2020-10-21
得票数 0
回答已采纳
1
回答
从
多个
sitemap.xml文件中
抓取
urls
我正在为一个
页面
构建一个
apify
参与者,其中所有所需的urls都存储在不同的sitemap.xml文件中。文件名是静态的,但不知道如何向参与者添加
多个
sitemap.xml文件。不知怎么的,需要在
多个
url上做一个for -每个url,但是由于有大约600个url,最好是从csv中提取所有的站点地图,然后逐个
抓取
url,然后
抓取
每个url。const
Apify
= require('
apify
'); const cheerio
浏览 0
提问于2019-08-27
得票数 1
回答已采纳
1
回答
PuppeteerCrawler:面向
多个
用户的登录和
抓取
、
、
、
我
使用
Apify
和PuppeteerCrawler为
多个
用户
抓取
页面
。我必须登录每个用户到系统和刮5页,然后注销,并继续与下一个用户。我正在从扩展这个示例,并在
Apify
云中运行它。现在,我正在修改request.userData对象,向它添加一个标签" login“,这样登录情况可以在一开始就得到处理。
浏览 0
提问于2019-09-06
得票数 0
2
回答
Apify
-如何
使用
动态的“下一页”按钮刮取
多个
页面
(请求队列)?
、
我正在建立一个新的网页刮刀
使用
Apify
,以刮一个
页面
与分页。通常,我会
使用
请求队列、链接选择器、伪URL方法。但是,我试图
抓取
的
页面
有动态的“下一页”按钮,链接是通过javascript函数触发的。有办法模拟手动点击按钮吗?还是
使用
URL末尾的数字序列()?
浏览 7
提问于2020-12-11
得票数 1
3
回答
如何
使用
apify
sdk让puppeteer无头运行?
、
、
、
、
我正在尝试
使用
apify
sdk
抓取
页面
内容。这也可以与以下代码很好地配合
使用
。但是我怎么才能像puppeteer.launch一样强制
使用
Apify
SDK的无头模式({ headless : true})?= '/someappfolder/
apify
_storage/run_' + number; const requestQueue = await
Apify
.openR
浏览 49
提问于2020-10-12
得票数 1
1
回答
如何在
Apify
crawls之后重命名输出文件?
、
、
、
我已经搜索了
Apify
文档,但我找不到一种方法来设置输出文件名。现在它是{.json}索引,但是我可以为
Apify
抓取
的每个
页面
指定一个自定义名称吗?
浏览 16
提问于2020-04-17
得票数 0
回答已采纳
1
回答
应用从sitemap.xml中
抓取
urls
、
Apify
可以从sitemap.xml
抓取
链接 const requestList= new
Apify
.RequestList({ sources: [{ requestsFromUrl: 'https://edition.cnn.com/sitemaps/cnn/
浏览 0
提问于2019-08-20
得票数 3
回答已采纳
1
回答
使用
新proxyUrl重试失败的
页面
、
、
我已经开发了一个基于Actor+PuppeteerCrawler+Proxy的爬虫,并想重新
抓取
失败的
页面
。为了增加重生的机会,我想切换到另一个proxyUrl。其思想是,
使用
修改后的launchPupperteer函数和不同的proxyUrl创建一个新的爬虫,并对失败的
页面
进行重新排队。请检查下面的示例代码。但不幸的是,它不起作用,尽管我
使用
drop和reopening重置请求队列。是否可以通过将PuppeteerCrawler与不同的proxyUrl一起
使用
来重新生成失败的
页
浏览 12
提问于2019-11-27
得票数 0
1
回答
将cookie从Actor传递给Crawler
我用我想要
抓取
的URL设置了一个爬虫,演员正在工作,我用cookie/截图示例进行了测试。我只是在演员和爬虫之间传递cookie时遇到了问题: const
Apify
= require('
apify
'); const input= await
Apify
.getValue('INPUT'); const browser = await
Apify
.launchP
浏览 26
提问于2019-05-10
得票数 0
1
回答
使用
Apify
Puppeteer爬行时的内存问题
、
、
、
、
我一直在做一个Python项目,在这个项目中,用户向程序提供一个很长的URL列表(比如说100个URL),程序将产生100个进程来执行包含爬虫代码的JavaScript代码(
使用
Apify
.launchPuppeteer此外,还根据
Apify
Puppeteer单
页面
模板创建和修改了JavaScript代码。 但是,同时调用100个进程的爬行代码会占用大量内存,这会导致延迟。
浏览 60
提问于2020-04-18
得票数 0
回答已采纳
1
回答
在网页上应用产品变体
我需要一点建议,因为我一直在用
Apify
抓取
一个网页。我正在
使用
apify
/web-scraper和基本的
抓取
(名称,描述,价格等),但
页面
上有产品变体,我不知道什么是最好的方法来
抓取
这些数据。在输出中,我希望得到如下内容(我用XML描述,因为稍后我需要将
Apify
的输出转换为XML): <variants> <name>white</name>
浏览 20
提问于2021-02-02
得票数 0
回答已采纳
1
回答
从
apify
到google :如何将特定的列导入到工作表中?
、
、
在新的代码世界中,我发现
Apify
是一个很好的解决方案,可以
抓取
URL并从网页中很容易地提取特定的元素。
Apify
提供的Web刮刀非常漂亮和强大。现在,我想更进一步,
使用
外部源获取网址(Google,Airtable.)并使刮伤部分自动化。
浏览 14
提问于2022-10-06
得票数 0
1
回答
如果设置了
APIFY
_DEFAULT_DATASET_ID,则找不到默认数据集
Apify
documentation 解释说,默认数据集可以通过设置环境变量
APIFY
_DEFAULT_DATASET_ID来命名。如果我这样做,在创建puppeteer crawler之前
使用
代码示例1(见下文),如果我爬行
页面
并
使用
代码示例2存储结果,我会得到一个。//代码示例1:设置默认数据集id常量爬虫=新的
浏览 23
提问于2019-10-20
得票数 0
1
回答
如何在javascript文件中执行scrapy python?
、
、
我有一个用命令scrapy crawl mynamefile启动的python脚本。 我想从我的node js应用程序的js文件中运行python cli命令scrapy crawl,然后在控制台中显示它。 问题是我不知道如何在节点中导入scrapy python库。 谢谢你的帮忙!
浏览 24
提问于2019-03-07
得票数 0
1
回答
找不到木偶剧相关模块和依赖项
、
、
、
、
我
使用
npm安装了puppeteer,然后在尝试编译它时,出现了以下错误:关于ws:我再次尝试
使用
npm install --save ws安装ws,但仍然是一样的。
浏览 1
提问于2019-04-04
得票数 1
1
回答
如何将来自
多个
JSON提要的数据添加到Google工作表?
、
、
如何将来自
多个
JSON提要的数据添加到Google工作表?提要需要
使用
查找函数将第二个和第三个提要中的数据添加到与第一个提要相同的行。我
使用
Apify
Crawlers来清理
页面
并每5分钟更新一次工作表,但我需要合并来自
多个
提要的数据。
浏览 0
提问于2019-02-23
得票数 0
1
回答
为什么我不能
使用
Apify
/Puppeteer在iFrames中导航?
、
、
我正在尝试
使用
Puppeteer在其中
使用
iFrames来操纵站点的表单。我尝试了不同的方法来联系一个特定的iFrame,甚至在一个网站上计算iFrames,但都没有成功。为什么Puppeteer的对象不能识别我试图浏览的
页面
的iFrames /子帧?其他
页面
也是如此,比如https://www.veiculos.itau.com.br/simulacao const
Apify
= require('
apify
'); cons
浏览 15
提问于2020-12-02
得票数 0
2
回答
如何
使用
Apify
登录到网站并单击按钮?
、
、
我需要
使用
和来自动登录到一个受密码保护的网页,并点击一个按钮。我该怎么做?目标URL将不时更改。2.登录一旦通过身份验证,目标
页面
就会出现。它有一个按钮条,包括按钮"Activate“(button的子span文本必须是”激活“,如果我们被允许点击它)。如何让
Apify
点击这里的“激活”按钮?
浏览 1
提问于2019-10-03
得票数 3
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券