如何从Apify Cheerio crawler获取整个html？

文章/答案/技术大牛

发布

1回答

、、、

我想得到整个html，而不仅仅是文本。Apify.main(async () => { await requestQueue.addRequest, passing a single options object as an argument. requestQueue,

浏览 21提问于2020-12-25得票数 0

回答已采纳

1回答

从多个sitemap.xml文件中抓取urls

我正在为一个页面构建一个apify参与者，其中所有所需的urls都存储在不同的sitemap.xml文件中。文件名是静态的，但不知道如何向参与者添加多个sitemap.xml文件。不知怎么的，需要在多个url上做一个for -每个url，但是由于有大约600个url，最好是从csv中提取所有的站点地图，然后逐个抓取url，然后抓取每个url。const Apify = require('apify'); const cheerio = require('<e

浏览 0提问于2019-08-27得票数 1

回答已采纳

1回答

应用从sitemap.xml中抓取urls

、

Apify可以从sitemap.xml抓取链接 const requestList/news.xml' }], await requestList.initialize();

浏览 0提问于2019-08-20得票数 3

回答已采纳

2回答

sitemap中找不到任何链接

、

我正在尝试从我想要刮的站点地图( sitemap，XML)获取URL。为此，我尝试使用标准Cheerio模板，但它一直返回没有找到URL。const cheerio = require("cheerio"); constinput = await Apify<

浏览 11提问于2022-10-06得票数 1

1回答

应用--如何有效地对URL变量进行排队

、、、

我正在用Cheerio在Apify中创建一个新的参与者来读取URL的输入文件并主要返回两项：(1) HTTP状态代码和(2) HTML标题。const Apify = require('apify'); utils: { enqueueLinks },const urlParse = require('url'); c

浏览 7提问于2021-05-10得票数 1

回答已采纳

1回答

未能使用Netnut.io代理和Apify* Cheerio铲运机*

、

、IT、DE等)现有国家：用户名-cc-任意-sid-任意_number Apify.main(async () => { proxyUrls:igorsavinkin-DE:xxxxx' }); // Add UR

浏览 11提问于2020-11-16得票数 1

回答已采纳

1回答

用节点爬虫或简单爬虫进行NodeJS网络爬行

、

目标:我的目标是爬行一个网站，并且只获取该域内的内部(本地)URL。我对任何网页数据或刮擦都不感兴趣。只是网址。是否还有其他NodeJS爬虫或蜘蛛可以只请求和记录URL？

浏览 0提问于2018-05-07得票数 2

回答已采纳

1回答

如何使用web抓取获取tweet的内容

、、、

我试过使用木偶师，但是我会试图通过传递x路径来获取信息，而且它永远不会返回任何信息。完全相同的程序适用于不同的站点，但不适用于twitter。是否有一种方法可以使用cheerio或其他方法获取tweet的内容？我可以访问twitter，但是文档很难理解。const Apify = require('apify');var OldAlphaAIData = {TICKER:"", REF:"", SIGNAL:""} <

浏览 2提问于2020-07-02得票数 0

回答已采纳

3回答

如何使用cheerio访问meta OpenGraph？

、

我正在尝试用cheerio做一些html抓取(不能使用jsdon，我有一个依赖的问题:上下文ecc的bug )。但是我不能得到元"og:type“，"og:title"...var $ = cheerio.load(bodymeta').each(function() { console.log( $('meta').attr('content'))

浏览 2提问于2012-10-05得票数 6

1回答

如何使用express.js正确分配有效载荷以获取函数

、、

我目前正在努力学习如何使用节点+速递+啦啦队来构建爬虫。在这条路上，我说：app.get('/api/crawler/android', crawlerController.android);[crawler-controller.js/crawlers/android')然后我调用爬行器(基于chee

浏览 0提问于2017-09-28得票数 0

回答已采纳

2回答

只从<head>获取HTML

、、、

我的问题类似于，但与之不同，我的问题是关于Javascript的。我有一大串纯文本的网页URL(约10k)；对于每个页面@URL(或大部分)，title;I 需要找到一些元数据，而tag.想要不加载完整页面，只在</head>关闭之前加载所有内容是否可以打开流，加载一些字节，并在到达</head>时关闭流和连接？如果是这样的话，怎么做？Py的urllib.request.Request.read()有一个以字节为单位的"size“参数，但是JS的ReadableStreamDefaultReader.read()没有。作为一个alter

浏览 3提问于2022-08-01得票数 1

1回答

在节点-simplecrawler中添加基于啦啦队的搜索循环

、、

) { doSomeDiscovery(data,function(foundURLs){ continue();});$('div#jsid-

浏览 0提问于2015-01-30得票数 1

回答已采纳

12回答

可以用javascript编写网络爬虫吗？

、

我想抓取页面并检查相应页面中的超链接，并跟踪这些超链接并从页面中捕获数据

浏览 1提问于2012-06-18得票数 15

1回答

PuppeteerCrawler:面向多个用户的登录和抓取

、、、

我使用Apify和PuppeteerCrawler为多个用户抓取页面。我必须登录每个用户到系统和刮5页，然后注销，并继续与下一个用户。我正在从扩展这个示例，并在Apify云中运行它。现在，我正在修改request.userData对象，向它添加一个标签" login“，这样登录情况可以在一开始就得到处理。

浏览 0提问于2019-09-06得票数 0

1回答

从Nightmare.js返回HTML体

、、

我目前正在使用cheerio和nightmare进行一些抓取工作。所以，现在我正在使用nightmare获取，直到我需要的信息显示出来。在那之后，在evaluate()上，我试图以某种方式返回当前的html，然后将其传递给cheerio进行抓取。问题是我不知道如何从document对象中检索html。document中是否有一个属性可以返回整个正文？body .then(f

浏览 5提问于2016-09-26得票数 7

回答已采纳

1回答

将cheerio.load()转换为DOM对象

、、、、

我正在尝试学习如何制作一个网络刮板，并使用node将网站内容保存到一个文本文件中。我的问题是，为了获取内容，我使用了cheerio和jquery (我想？)，而我没有使用它们的经验。我正在尝试将从cheerio获得的结果转换为我有更多处理经验的DOM对象。如何从cheerio获取html并将其转换为DOM对象？提前感谢！const request = require('request'); const ch

浏览 5提问于2018-11-18得票数 1

2回答

在Node.js中，很多数据会超过堆栈大小吗？

、

我使用获取URL，使用解析获取的HTML并检测新链接。堆栈溢出总是发生在“欢呼”中。当我用欢呼来代替时，错误就消失了。Htmlparser2要轻得多，因为它只是在每个打开的标记上发布事件，而不是解析整个文档和构造一棵树。var maxConc =

浏览 6提问于2012-09-24得票数 4

1回答

如何从apify抓取器中获取标签: Web、Cheerio和Puppeteer

、、

当我试图根据Apify网站上的示例获取起始URL的标签时，我得到了一个错误2019-12-26T15:35:17.723Z INFO: request.userData.label: undefinedCheerio scraper example code async function pageFunction(context) { const { request, log, skipLinks

浏览 24提问于2019-12-27得票数 0

1回答

如何获取crawler4j中的url是404还是301

是否可以在crawler4j中获取URL是404还是301？HtmlParseData) page.getParseData(); String html; System.out.println("Htmllengt

浏览 3提问于2013-02-04得票数 1

1回答

为什么fs.readFileSync将脚本标记内的单引号编码为"？

、

/path/to/file.htm", 'utf-8'); 如何获取html文件的原始内容？

浏览 2提问于2014-05-28得票数 0

点击加载更多