腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
从
Apify
Cheerio
crawler
获取
整个
html
?
、
、
、
我想得到
整个
html
,而不仅仅是文本。
Apify
.main(async () => { await requestQueue.addRequest, passing a single options object as an argument. requestQueue,
浏览 21
提问于2020-12-25
得票数 0
回答已采纳
1
回答
从
多个sitemap.xml文件中抓取urls
我正在为一个页面构建一个
apify
参与者,其中所有所需的urls都存储在不同的sitemap.xml文件中。文件名是静态的,但不知道
如何
向参与者添加多个sitemap.xml文件。不知怎么的,需要在多个url上做一个for -每个url,但是由于有大约600个url,最好是
从
csv中提取所有的站点地图,然后逐个抓取url,然后抓取每个url。const
Apify
= require('
apify
'); const
cheerio
= require('<e
浏览 0
提问于2019-08-27
得票数 1
回答已采纳
1
回答
应用
从
sitemap.xml中抓取urls
、
Apify
可以
从
sitemap.xml抓取链接 const requestList/news.xml' }], await requestList.initialize();
浏览 0
提问于2019-08-20
得票数 3
回答已采纳
2
回答
sitemap中找不到任何链接
、
我正在尝试
从
我想要刮的站点地图( sitemap,XML)
获取
URL。为此,我尝试使用标准
Cheerio
模板,但它一直返回没有找到URL。const
cheerio
= require("
cheerio
"); constinput = await
Apify<
浏览 11
提问于2022-10-06
得票数 1
1
回答
应用--
如何
有效地对URL变量进行排队
、
、
、
我正在用
Cheerio
在
Apify
中创建一个新的参与者来读取URL的输入文件并主要返回两项:(1) HTTP状态代码和(2)
HTML
标题。const
Apify
= require('
apify
'); utils: { enqueueLinks },const urlParse = require('url'); c
浏览 7
提问于2021-05-10
得票数 1
回答已采纳
1
回答
未能使用Netnut.io代理和
Apify
Cheerio
铲运机
、
、IT、DE等)现有国家:用户名-cc-任意-sid-任意_number
Apify
.main(async () => { proxyUrls:igorsavinkin-DE:xxxxx' }); // Add UR
浏览 11
提问于2020-11-16
得票数 1
回答已采纳
1
回答
用节点爬虫或简单爬虫进行NodeJS网络爬行
、
目标:我的目标是爬行一个网站,并且只
获取
该域内的内部(本地)URL。我对任何网页数据或刮擦都不感兴趣。只是网址。是否还有其他NodeJS爬虫或蜘蛛可以只请求和记录URL?
浏览 0
提问于2018-05-07
得票数 2
回答已采纳
1
回答
如何
使用web抓取
获取
tweet的内容
、
、
、
我试过使用木偶师,但是我会试图通过传递x路径来
获取
信息,而且它永远不会返回任何信息。完全相同的程序适用于不同的站点,但不适用于twitter。是否有一种方法可以使用
cheerio
或其他方法
获取
tweet的内容?我可以访问twitter,但是文档很难理解。const
Apify
= require('
apify
');var OldAlphaAIData = {TICKER:"", REF:"", SIGNAL:""} <
浏览 2
提问于2020-07-02
得票数 0
回答已采纳
3
回答
如何
使用
cheerio
访问meta OpenGraph?
、
我正在尝试用
cheerio
做一些
html
抓取(不能使用jsdon,我有一个依赖的问题:上下文ecc的bug )。但是我不能得到元"og:type“,"og:title"...var $ =
cheerio
.load(bodymeta').each(function() { console.log( $('meta').attr('content'))
浏览 2
提问于2012-10-05
得票数 6
1
回答
如何
使用express.js正确分配有效载荷以
获取
函数
、
、
我目前正在努力学习
如何
使用节点+速递+啦啦队来构建爬虫。在这条路上,我说:app.get('/api/
crawler
/android', crawlerController.android);[
crawler
-controller.js/crawlers/android')然后我调用爬行器(基于
chee
浏览 0
提问于2017-09-28
得票数 0
回答已采纳
2
回答
只
从
<head>
获取
HTML
、
、
、
我的问题类似于,但与之不同,我的问题是关于Javascript的。 我有一大串纯文本的网页URL(约10k);对于每个页面@URL(或大部分),title;I 需要找到一些元数据,而tag.想要不加载完整页面,只在</head>关闭之前加载所有内容是否可以打开流,加载一些字节,并在到达</head>时关闭流和连接?如果是这样的话,怎么做?Py的urllib.request.Request.read()有一个以字节为单位的"size“参数,但是JS的ReadableStreamDefaultReader.read()没有。作为一个alter
浏览 3
提问于2022-08-01
得票数 1
1
回答
在节点-simplecrawler中添加基于啦啦队的搜索循环
、
、
) { doSomeDiscovery(data,function(foundURLs){ continue();});$('div#jsid-
浏览 0
提问于2015-01-30
得票数 1
回答已采纳
12
回答
可以用javascript编写网络爬虫吗?
、
我想抓取页面并检查相应页面中的超链接,并跟踪这些超链接并从页面中捕获数据
浏览 1
提问于2012-06-18
得票数 15
1
回答
PuppeteerCrawler:面向多个用户的登录和抓取
、
、
、
我使用
Apify
和PuppeteerCrawler为多个用户抓取页面。我必须登录每个用户到系统和刮5页,然后注销,并继续与下一个用户。我正在从扩展这个示例,并在
Apify
云中运行它。现在,我正在修改request.userData对象,向它添加一个标签" login“,这样登录情况可以在一开始就得到处理。
浏览 0
提问于2019-09-06
得票数 0
1
回答
从
Nightmare.js返回
HTML
体
、
、
我目前正在使用
cheerio
和nightmare进行一些抓取工作。所以,现在我正在使用nightmare
获取
,直到我需要的信息显示出来。在那之后,在evaluate()上,我试图以某种方式返回当前的
html
,然后将其传递给
cheerio
进行抓取。问题是我不知道
如何
从
document对象中检索
html
。document中是否有一个属性可以返回
整个
正文?body .then(f
浏览 5
提问于2016-09-26
得票数 7
回答已采纳
1
回答
将
cheerio
.load()转换为DOM对象
、
、
、
、
我正在尝试学习
如何
制作一个网络刮板,并使用node将网站内容保存到一个文本文件中。我的问题是,为了
获取
内容,我使用了
cheerio
和jquery (我想?),而我没有使用它们的经验。我正在尝试将从
cheerio
获得的结果转换为我有更多处理经验的DOM对象。
如何
从
cheerio
获取
html
并将其转换为DOM对象?提前感谢!const request = require('request'); const
ch
浏览 5
提问于2018-11-18
得票数 1
2
回答
在Node.js中,很多数据会超过堆栈大小吗?
、
我使用
获取
URL,使用解析
获取
的
HTML
并检测新链接。堆栈溢出总是发生在“欢呼”中。当我用欢呼来代替时,错误就消失了。Htmlparser2要轻得多,因为它只是在每个打开的标记上发布事件,而不是解析
整个
文档和构造一棵树。var maxConc =
浏览 6
提问于2012-09-24
得票数 4
1
回答
如何
从
apify
抓取器中
获取
标签: Web、
Cheerio
和Puppeteer
、
、
当我试图根据
Apify
网站上的示例
获取
起始URL的标签时,我得到了一个错误2019-12-26T15:35:17.723Z INFO: request.userData.label: undefined
Cheerio
scraper example code async function pageFunction(context) { const { request, log, skipLinks
浏览 24
提问于2019-12-27
得票数 0
1
回答
如何
获取
crawler
4j中的url是404还是301
是否可以在
crawler
4j中
获取
URL是404还是301?HtmlParseData) page.getParseData(); String
html
; System.out.println("
Html
lengt
浏览 3
提问于2013-02-04
得票数 1
1
回答
为什么fs.readFileSync将脚本标记内的单引号编码为"?
、
/path/to/file.htm", 'utf-8');
如何
获取
html
文件的原始内容?
浏览 2
提问于2014-05-28
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
牛逼!16.2K Star!推荐一款开源的网络爬虫和浏览器自动化库:Crawlee!
使用JS和NodeJS爬取Web内容
单身Dog操作指南:利用cheerio 实现网络xxx图片的批量下载?
系统集成项目管理工程师(第3版):数据工程--数据采集
一个专门为GPT设计的爬虫脚本
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券