使用Apify进行Web抓取

文章/答案/技术大牛

发布

2回答

、、、、

我正在尝试从中抓取URL下面是我运行Apify UI之前的屏幕截图。

浏览 17提问于2020-02-25得票数 1

1回答

Apify -将JSON输出保存到key-store-value

、、

如何将此脚本的JSON输出保存到Apify中的key-store-value？当我运行脚本时，一切正常，数据集显示了每种类型的抓取数据，但是key-value-store/Keys仍然是空的。下面是我的Actor代码： const Apify = require('apify'); &qu

浏览 6提问于2020-09-11得票数 0

1回答

从apify到google :如何将特定的列导入到工作表中？

、、

在新的代码世界中，我发现Apify是一个很好的解决方案，可以抓取URL并从网页中很容易地提取特定的元素。Apify提供的Web刮刀非常漂亮和强大。现在，我想更进一步，使用外部源获取网址(Google，Airtable.)并使刮伤部分自动化。

浏览 14提问于2022-10-06得票数 0

1回答

应用从sitemap.xml中抓取urls

、

Apify可以从sitemap.xml抓取链接 const requestList= new Apify.RequestList({ sources: [{ requestsFromUrl: 'https://edition.cnn.com/sitemaps/cnn/

浏览 0提问于2019-08-20得票数 3

回答已采纳

1回答

可以使用带有伪URL的Apify抓取多个页面吗？当人们问同样的问题时，答案大多指向伪URL，如果有可能或不可能这样做，并不会直接解决问题。如果我在运行爬虫的时候不知道伪URL，并且我从一个页面上抓取了10个链接-然后想要抓取这10个链接，那怎么做呢？https://kb.apify.com/tutorial-creating-your-first-crawler/crawling-multiple-pages

浏览 15提问于2019-03-19得票数 0

1回答

将cookie从Actor传递给Crawler

我用我想要抓取的URL设置了一个爬虫，演员正在工作，我用cookie/截图示例进行了测试。我只是在演员和爬虫之间传递cookie时遇到了问题： const Apify = require('apify'); const input= await Apify.getValue('INPUT'); const browser = await Apify</em

浏览 26提问于2019-05-10得票数 0

3回答

最好的办法是在做完之后再刮一次。

、、

最后，当所有30个url都被刮掉时，我需要点击最后一个单独的URL，将30个URL抓取的结果放到一个消防站db中，并进行一些其他的突变(比如查找地址等)。目前，我有一个请求队列中的所有30个urls (通过Apify web-接口)，并且我试图查看它们何时全部完成。 let pendingRequestCount = await queue.getInfo();

浏览 2提问于2019-08-13得票数 2

回答已采纳

1回答

如何使用Puppeteer添加输入

、、

我试图通过提供案例编号来抓取https://web6.seattle.gov/courts/ECFPortal/Default.aspx中的案例信息和文档。const Apify = require('apify'); puppeteerconst saveScreen = async(page,(key, screenshotBuffer, { content

浏览 19提问于2019-10-07得票数 0

回答已采纳

2回答

为什么"context.Apify“没有定义

、、

我正在学习如何在Apify Web-Scraper中使用request，我不明白它是如何工作的。我首先用Postman做了这件事，我确实得到了我想要的结果，现在我想在Apify上做同样的事情。const request = new context.Apify.Request({ url:...

浏览 20提问于2019-09-02得票数 0

回答已采纳

3回答

如何使用apify* sdk让puppeteer无头运行？*

、、、、

我正在尝试使用apify sdk抓取页面内容。这也可以与以下代码很好地配合使用。但是我怎么才能像puppeteer.launch一样强制使用Apify SDK的无头模式({ headless : true})？= '/someappfolder/apify_storage/run_' + number; const requestQueue = await Apify.openRequestQue

浏览 49提问于2020-10-12得票数 1

2回答

Apify -如何使用动态的“下一页”按钮刮取多个页面(请求队列)？

、

我正在建立一个新的网页刮刀使用Apify，以刮一个页面与分页。通常，我会使用请求队列、链接选择器、伪URL方法。但是，我试图抓取的页面有动态的“下一页”按钮，链接是通过javascript函数触发的。有办法模拟手动点击按钮吗？还是使用URL末尾的数字序列()？

浏览 7提问于2020-12-11得票数 1

1回答

在网页上应用产品变体

我需要一点建议，因为我一直在用Apify抓取一个网页。我正在使用apify/web-scraper和基本的抓取(名称，描述，价格等)，但页面上有产品变体，我不知道什么是最好的方法来抓取这些数据。在输出中，我希望得到如下内容(我用XML描述，因为稍后我需要将Apify的输出转换为XML)： <variants> <name>white</name>

浏览 20提问于2021-02-02得票数 0

回答已采纳

1回答

使用Apify* Puppeteer爬行时的内存问题*

、、、、

我一直在做一个Python项目，在这个项目中，用户向程序提供一个很长的URL列表(比如说100个URL)，程序将产生100个进程来执行包含爬虫代码的JavaScript代码(使用Apify.launchPuppeteer此外，还根据Apify Puppeteer单页面模板创建和修改了JavaScript代码。但是，同时调用100个进程的爬行代码会占用大量内存，这会导致延迟。我想知道是否有任何方法可以优化JavaScript爬虫代码，或者是否有任何可以在两端都进行改进的地方？

浏览 60提问于2020-04-18得票数 0

回答已采纳

1回答

使用新proxyUrl重试失败的页面

、、

我已经开发了一个基于Actor+PuppeteerCrawler+Proxy的爬虫，并想重新抓取失败的页面。为了增加重生的机会，我想切换到另一个proxyUrl。其思想是，使用修改后的launchPupperteer函数和不同的proxyUrl创建一个新的爬虫，并对失败的页面进行重新排队。请检查下面的示例代码。但不幸的是，它不起作用，尽管我使用drop和reopening重置请求队列。是否可以通过将PuppeteerCrawler与不同的proxyUrl一起使用来重新生成失败的页面？that failed

浏览 12提问于2019-11-27得票数 0

1回答

找不到木偶剧相关模块和依赖项

、、、、

我使用npm安装了puppeteer，然后在尝试编译它时，出现了以下错误：关于ws：我再次尝试使用npm install --save ws安装ws，但仍然是一样的。

浏览 1提问于2019-04-04得票数 1

1回答

如何在javascript文件中执行scrapy python？

、、

我有一个用命令scrapy crawl mynamefile启动的python脚本。我想从我的node js应用程序的js文件中运行python cli命令scrapy crawl，然后在控制台中显示它。问题是我不知道如何在节点中导入scrapy python库。谢谢你的帮忙!

浏览 24提问于2019-03-07得票数 0

1回答

PuppeteerCrawler:面向多个用户的登录和抓取

、、、

我使用Apify和PuppeteerCrawler为多个用户抓取页面。我必须登录每个用户到系统和刮5页，然后注销，并继续与下一个用户。我正在从扩展这个示例，并在Apify云中运行它。现在，我正在修改request.userData对象，向它添加一个标签" login“，这样登录情况可以在一开始就得到处理。

浏览 0提问于2019-09-06得票数 0

2回答

在使用Apify* SDK时，是否有指定最大爬行深度的方法？*

、

我正在做一个评估Scrapy和Apify的项目。大多数代码都以node.js为中心，所以javascript解决方案会很好。同时，我也喜欢在Apify中使用木偶师这个事实。尽管如此，我的用例需要对许多网站进行相当浅的(例如深度约4)的爬行。这在Scrapy中很容易配置，但我不知道如何在Apify中实现。有办法在新的Apify API中指定最大深度吗？

浏览 8提问于2019-10-16得票数 0

回答已采纳

1回答

为什么我不能使用Apify/Puppeteer在iFrames中导航？

、、

我正在尝试使用Puppeteer在其中使用iFrames来操纵站点的表单。我尝试了不同的方法来联系一个特定的iFrame，甚至在一个网站上计算iFrames，但都没有成功。其他页面也是如此，比如https://www.veiculos.itau.com.br/simulacao const Apify = require('apify'); Apify.m

浏览 15提问于2020-12-02得票数 0

1回答

使用Apify和Puppeteer抓取URL

、、、、

我正在尝试使用 ()从中抓取URL 具体地说，我尝试使用以下Apify pageFunction来抓取目标页面，并从HTML中出现的锚标记返回URL列表。

浏览 18提问于2020-02-28得票数 1

回答已采纳

点击加载更多