使用Apify抓取多个页面

文章/答案/技术大牛

发布

1回答

、

可以使用带有伪URL的Apify抓取多个页面吗？当人们问同样的问题时，答案大多指向伪URL，如果有可能或不可能这样做，并不会直接解决问题。如果我在运行爬虫的时候不知道伪URL，并且我从一个页面上抓取了10个链接-然后想要抓取这10个链接，那怎么做呢？https://kb.apify.com/tutorial-creating-your-first-crawler/crawling-multip

浏览 15提问于2019-03-19得票数 0

2回答

使用Apify进行Web抓取

、、、、

我正在尝试从中抓取URL下面是我运行Apify

浏览 17提问于2020-02-25得票数 1

2回答

如何阻止Apify保存已处理的请求？

、、

看起来Apify将处理过的请求保存在“已处理”目录中。我想停止这个操作，因为apify不会抓取我之前抓取过的页面。有人知道如何阻止Apify保存已处理的请求吗？

浏览 25提问于2020-10-21得票数 0

回答已采纳

1回答

从多个sitemap.xml文件中抓取urls

我正在为一个页面构建一个apify参与者，其中所有所需的urls都存储在不同的sitemap.xml文件中。文件名是静态的，但不知道如何向参与者添加多个sitemap.xml文件。不知怎么的，需要在多个url上做一个for -每个url，但是由于有大约600个url，最好是从csv中提取所有的站点地图，然后逐个抓取url，然后抓取每个url。const Apify = require('apify'); const cheerio

浏览 0提问于2019-08-27得票数 1

回答已采纳

1回答

PuppeteerCrawler:面向多个用户的登录和抓取

、、、

我使用Apify和PuppeteerCrawler为多个用户抓取页面。我必须登录每个用户到系统和刮5页，然后注销，并继续与下一个用户。我正在从扩展这个示例，并在Apify云中运行它。现在，我正在修改request.userData对象，向它添加一个标签" login“，这样登录情况可以在一开始就得到处理。

浏览 0提问于2019-09-06得票数 0

2回答

Apify -如何使用动态的“下一页”按钮刮取多个页面(请求队列)？

、

我正在建立一个新的网页刮刀使用Apify，以刮一个页面与分页。通常，我会使用请求队列、链接选择器、伪URL方法。但是，我试图抓取的页面有动态的“下一页”按钮，链接是通过javascript函数触发的。有办法模拟手动点击按钮吗？还是使用URL末尾的数字序列()？

浏览 7提问于2020-12-11得票数 1

3回答

如何使用apify sdk让puppeteer无头运行？

、、、、

我正在尝试使用apify sdk抓取页面内容。这也可以与以下代码很好地配合使用。但是我怎么才能像puppeteer.launch一样强制使用Apify SDK的无头模式({ headless : true})？= '/someappfolder/apify_storage/run_' + number; const requestQueue = await Apify.openR

浏览 49提问于2020-10-12得票数 1

1回答

如何在Apify crawls之后重命名输出文件？

、、、

我已经搜索了Apify文档，但我找不到一种方法来设置输出文件名。现在它是{.json}索引，但是我可以为Apify抓取的每个页面指定一个自定义名称吗？

浏览 16提问于2020-04-17得票数 0

回答已采纳

1回答

应用从sitemap.xml中抓取urls

、

Apify可以从sitemap.xml抓取链接 const requestList= new Apify.RequestList({ sources: [{ requestsFromUrl: 'https://edition.cnn.com/sitemaps/cnn/

浏览 0提问于2019-08-20得票数 3

回答已采纳

1回答

使用新proxyUrl重试失败的页面

、、

我已经开发了一个基于Actor+PuppeteerCrawler+Proxy的爬虫，并想重新抓取失败的页面。为了增加重生的机会，我想切换到另一个proxyUrl。其思想是，使用修改后的launchPupperteer函数和不同的proxyUrl创建一个新的爬虫，并对失败的页面进行重新排队。请检查下面的示例代码。但不幸的是，它不起作用，尽管我使用drop和reopening重置请求队列。是否可以通过将PuppeteerCrawler与不同的proxyUrl一起使用来重新生成失败的页

浏览 12提问于2019-11-27得票数 0

1回答

将cookie从Actor传递给Crawler

我用我想要抓取的URL设置了一个爬虫，演员正在工作，我用cookie/截图示例进行了测试。我只是在演员和爬虫之间传递cookie时遇到了问题： const Apify = require('apify'); const input= await Apify.getValue('INPUT'); const browser = await Apify.launchP

浏览 26提问于2019-05-10得票数 0

1回答

使用Apify* Puppeteer爬行时的内存问题*

、、、、

我一直在做一个Python项目，在这个项目中，用户向程序提供一个很长的URL列表(比如说100个URL)，程序将产生100个进程来执行包含爬虫代码的JavaScript代码(使用Apify.launchPuppeteer此外，还根据Apify Puppeteer单页面模板创建和修改了JavaScript代码。但是，同时调用100个进程的爬行代码会占用大量内存，这会导致延迟。

浏览 60提问于2020-04-18得票数 0

回答已采纳

1回答

在网页上应用产品变体

我需要一点建议，因为我一直在用Apify抓取一个网页。我正在使用apify/web-scraper和基本的抓取(名称，描述，价格等)，但页面上有产品变体，我不知道什么是最好的方法来抓取这些数据。在输出中，我希望得到如下内容(我用XML描述，因为稍后我需要将Apify的输出转换为XML)： <variants> <name>white</name>

浏览 20提问于2021-02-02得票数 0

回答已采纳

1回答

从apify到google :如何将特定的列导入到工作表中？

、、

在新的代码世界中，我发现Apify是一个很好的解决方案，可以抓取URL并从网页中很容易地提取特定的元素。Apify提供的Web刮刀非常漂亮和强大。现在，我想更进一步，使用外部源获取网址(Google，Airtable.)并使刮伤部分自动化。

浏览 14提问于2022-10-06得票数 0

1回答

如果设置了APIFY_DEFAULT_DATASET_ID，则找不到默认数据集

Apify documentation 解释说，默认数据集可以通过设置环境变量APIFY_DEFAULT_DATASET_ID来命名。如果我这样做，在创建puppeteer crawler之前使用代码示例1(见下文)，如果我爬行页面并使用代码示例2存储结果，我会得到一个。//代码示例1:设置默认数据集id常量爬虫=新的

浏览 23提问于2019-10-20得票数 0

1回答

如何在javascript文件中执行scrapy python？

、、

我有一个用命令scrapy crawl mynamefile启动的python脚本。我想从我的node js应用程序的js文件中运行python cli命令scrapy crawl，然后在控制台中显示它。问题是我不知道如何在节点中导入scrapy python库。谢谢你的帮忙!

浏览 24提问于2019-03-07得票数 0

1回答

找不到木偶剧相关模块和依赖项

、、、、

我使用npm安装了puppeteer，然后在尝试编译它时，出现了以下错误：关于ws：我再次尝试使用npm install --save ws安装ws，但仍然是一样的。

浏览 1提问于2019-04-04得票数 1

1回答

如何将来自多个JSON提要的数据添加到Google工作表？

、、

如何将来自多个JSON提要的数据添加到Google工作表？提要需要使用查找函数将第二个和第三个提要中的数据添加到与第一个提要相同的行。我使用Apify Crawlers来清理页面并每5分钟更新一次工作表，但我需要合并来自多个提要的数据。

浏览 0提问于2019-02-23得票数 0

1回答

为什么我不能使用Apify/Puppeteer在iFrames中导航？

、、

我正在尝试使用Puppeteer在其中使用iFrames来操纵站点的表单。我尝试了不同的方法来联系一个特定的iFrame，甚至在一个网站上计算iFrames，但都没有成功。为什么Puppeteer的对象不能识别我试图浏览的页面的iFrames /子帧？其他页面也是如此，比如https://www.veiculos.itau.com.br/simulacao const Apify = require('apify'); cons

浏览 15提问于2020-12-02得票数 0

2回答

如何使用Apify登录到网站并单击按钮？

、、

我需要使用和来自动登录到一个受密码保护的网页，并点击一个按钮。我该怎么做？目标URL将不时更改。2.登录一旦通过身份验证，目标页面就会出现。它有一个按钮条，包括按钮"Activate“(button的子span文本必须是”激活“，如果我们被允许点击它)。如何让Apify点击这里的“激活”按钮？

浏览 1提问于2019-10-03得票数 3

点击加载更多