腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
使用
Apify
进行
Web
抓取
、
、
、
、
我正在尝试从中
抓取
URL下面是我运行
Apify
UI之前的屏幕截图。
浏览 17
提问于2020-02-25
得票数 1
1
回答
Apify
-将JSON输出保存到key-store-value
、
、
如何将此脚本的JSON输出保存到
Apify
中的key-store-value?当我运行脚本时,一切正常,数据集显示了每种类型的
抓取
数据,但是key-value-store/Keys仍然是空的。下面是我的Actor代码: const
Apify
= require('
apify
'); &qu
浏览 6
提问于2020-09-11
得票数 0
1
回答
从
apify
到google :如何将特定的列导入到工作表中?
、
、
在新的代码世界中,我发现
Apify
是一个很好的解决方案,可以
抓取
URL并从网页中很容易地提取特定的元素。
Apify
提供的
Web
刮刀非常漂亮和强大。现在,我想更进一步,
使用
外部源获取网址(Google,Airtable.)并使刮伤部分自动化。
浏览 14
提问于2022-10-06
得票数 0
1
回答
应用从sitemap.xml中
抓取
urls
、
Apify
可以从sitemap.xml
抓取
链接 const requestList= new
Apify
.RequestList({ sources: [{ requestsFromUrl: 'https://edition.cnn.com/sitemaps/cnn/
浏览 0
提问于2019-08-20
得票数 3
回答已采纳
1
回答
使用
Apify
抓取
多个页面
、
可以
使用
带有伪URL的
Apify
抓取
多个页面吗? 当人们问同样的问题时,答案大多指向伪URL,如果有可能或不可能这样做,并不会直接解决问题。如果我在运行爬虫的时候不知道伪URL,并且我从一个页面上
抓取
了10个链接-然后想要
抓取
这10个链接,那怎么做呢?https://kb.
apify
.com/tutorial-creating-your-first-crawler/crawling-multiple-pages
浏览 15
提问于2019-03-19
得票数 0
1
回答
将cookie从Actor传递给Crawler
我用我想要
抓取
的URL设置了一个爬虫,演员正在工作,我用cookie/截图示例
进行
了测试。我只是在演员和爬虫之间传递cookie时遇到了问题: const
Apify
= require('
apify
'); const input= await
Apify
.getValue('INPUT'); const browser = await
Apify</em
浏览 26
提问于2019-05-10
得票数 0
3
回答
最好的办法是在做完之后再刮一次。
、
、
最后,当所有30个url都被刮掉时,我需要点击最后一个单独的URL,将30个URL
抓取
的结果放到一个消防站db中,并
进行
一些其他的突变(比如查找地址等)。目前,我有一个请求队列中的所有30个urls (通过
Apify
web
-接口),并且我试图查看它们何时全部完成。 let pendingRequestCount = await queue.getInfo();
浏览 2
提问于2019-08-13
得票数 2
回答已采纳
1
回答
如何
使用
Puppeteer添加输入
、
、
我试图通过提供案例编号来
抓取
https://
web
6.seattle.gov/courts/ECFPortal/Default.aspx中的案例信息和文档。const
Apify
= require('
apify
'); puppeteerconst saveScreen = async(page,(key, screenshotBuffer, { content
浏览 19
提问于2019-10-07
得票数 0
回答已采纳
2
回答
为什么"context.
Apify
“没有定义
、
、
我正在学习如何在
Apify
Web
-Scraper中
使用
request,我不明白它是如何工作的。 我首先用Postman做了这件事,我确实得到了我想要的结果,现在我想在
Apify
上做同样的事情。const request = new context.
Apify
.Request({ url:...
浏览 20
提问于2019-09-02
得票数 0
回答已采纳
3
回答
如何
使用
apify
sdk让puppeteer无头运行?
、
、
、
、
我正在尝试
使用
apify
sdk
抓取
页面内容。这也可以与以下代码很好地配合
使用
。但是我怎么才能像puppeteer.launch一样强制
使用
Apify
SDK的无头模式({ headless : true})?= '/someappfolder/
apify
_storage/run_' + number; const requestQueue = await
Apify
.openRequestQue
浏览 49
提问于2020-10-12
得票数 1
2
回答
Apify
-如何
使用
动态的“下一页”按钮刮取多个页面(请求队列)?
、
我正在建立一个新的网页刮刀
使用
Apify
,以刮一个页面与分页。通常,我会
使用
请求队列、链接选择器、伪URL方法。但是,我试图
抓取
的页面有动态的“下一页”按钮,链接是通过javascript函数触发的。有办法模拟手动点击按钮吗?还是
使用
URL末尾的数字序列()?
浏览 7
提问于2020-12-11
得票数 1
1
回答
在网页上应用产品变体
我需要一点建议,因为我一直在用
Apify
抓取
一个网页。我正在
使用
apify
/
web
-scraper和基本的
抓取
(名称,描述,价格等),但页面上有产品变体,我不知道什么是最好的方法来
抓取
这些数据。在输出中,我希望得到如下内容(我用XML描述,因为稍后我需要将
Apify
的输出转换为XML): <variants> <name>white</name>
浏览 20
提问于2021-02-02
得票数 0
回答已采纳
1
回答
使用
Apify
Puppeteer爬行时的内存问题
、
、
、
、
我一直在做一个Python项目,在这个项目中,用户向程序提供一个很长的URL列表(比如说100个URL),程序将产生100个进程来执行包含爬虫代码的JavaScript代码(
使用
Apify
.launchPuppeteer此外,还根据
Apify
Puppeteer单页面模板创建和修改了JavaScript代码。 但是,同时调用100个进程的爬行代码会占用大量内存,这会导致延迟。我想知道是否有任何方法可以优化JavaScript爬虫代码,或者是否有任何可以在两端都
进行
改进的地方?
浏览 60
提问于2020-04-18
得票数 0
回答已采纳
1
回答
使用
新proxyUrl重试失败的页面
、
、
我已经开发了一个基于Actor+PuppeteerCrawler+Proxy的爬虫,并想重新
抓取
失败的页面。为了增加重生的机会,我想切换到另一个proxyUrl。其思想是,
使用
修改后的launchPupperteer函数和不同的proxyUrl创建一个新的爬虫,并对失败的页面
进行
重新排队。请检查下面的示例代码。但不幸的是,它不起作用,尽管我
使用
drop和reopening重置请求队列。是否可以通过将PuppeteerCrawler与不同的proxyUrl一起
使用
来重新生成失败的页面?that failed
浏览 12
提问于2019-11-27
得票数 0
1
回答
找不到木偶剧相关模块和依赖项
、
、
、
、
我
使用
npm安装了puppeteer,然后在尝试编译它时,出现了以下错误:关于ws:我再次尝试
使用
npm install --save ws安装ws,但仍然是一样的。
浏览 1
提问于2019-04-04
得票数 1
1
回答
如何在javascript文件中执行scrapy python?
、
、
我有一个用命令scrapy crawl mynamefile启动的python脚本。 我想从我的node js应用程序的js文件中运行python cli命令scrapy crawl,然后在控制台中显示它。 问题是我不知道如何在节点中导入scrapy python库。 谢谢你的帮忙!
浏览 24
提问于2019-03-07
得票数 0
1
回答
PuppeteerCrawler:面向多个用户的登录和
抓取
、
、
、
我
使用
Apify
和PuppeteerCrawler为多个用户
抓取
页面。我必须登录每个用户到系统和刮5页,然后注销,并继续与下一个用户。我正在从扩展这个示例,并在
Apify
云中运行它。现在,我正在修改request.userData对象,向它添加一个标签" login“,这样登录情况可以在一开始就得到处理。
浏览 0
提问于2019-09-06
得票数 0
2
回答
在
使用
Apify
SDK时,是否有指定最大爬行深度的方法?
、
我正在做一个评估Scrapy和
Apify
的项目。大多数代码都以node.js为中心,所以javascript解决方案会很好。同时,我也喜欢在
Apify
中
使用
木偶师这个事实。尽管如此,我的用例需要对许多网站
进行
相当浅的(例如深度约4)的爬行。这在Scrapy中很容易配置,但我不知道如何在
Apify
中实现。有办法在新的
Apify
API中指定最大深度吗?
浏览 8
提问于2019-10-16
得票数 0
回答已采纳
1
回答
为什么我不能
使用
Apify
/Puppeteer在iFrames中导航?
、
、
我正在尝试
使用
Puppeteer在其中
使用
iFrames来操纵站点的表单。我尝试了不同的方法来联系一个特定的iFrame,甚至在一个网站上计算iFrames,但都没有成功。其他页面也是如此,比如https://www.veiculos.itau.com.br/simulacao const
Apify
= require('
apify
');
Apify
.m
浏览 15
提问于2020-12-02
得票数 0
1
回答
使用
Apify
和Puppeteer
抓取
URL
、
、
、
、
我正在尝试
使用
()从中
抓取
URL 具体地说,我尝试
使用
以下
Apify
pageFunction来
抓取
目标页面,并从HTML中出现的锚标记返回URL列表。
浏览 18
提问于2020-02-28
得票数 1
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券