腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(1513)
视频
沙龙
1
回答
NodeJS
网站
抓取
多个
网站
与
承诺
输
出到
json
文件
、
、
我正在使用
nodejs
来
抓取
多个
粉丝站点,作为我自己的练习。我能够获得我需要和想要的数据,但我在将这些数据写入我的
json
文件
时遇到了问题,因为我得到的是[content content]而不是我想要的标题。= title; }) } var append = file => content => fsp.appendFile(file, cont
浏览 1
提问于2018-01-30
得票数 0
回答已采纳
2
回答
在需要相同包的
多个
模块中组织代码会降低Node.js的性能吗?
、
我正在使用Node.js和Puppeteer,我正在使用Puppeteer来
抓取
多个
网站
。我正在考虑通过将每个站点实现分离到其自己的
文件
来组织代码。这样,我就可以在index.js
文件
中导入所有这些模块。我读过关于
Nodejs
缓存模块的文章,这种组织代码的方式是标准的,然而,在我的例子中,假设我有100个不同的
网站
需要
抓取
,那么我将有100个模块需要(puppeteer/jsdom)在每个模块中,所以如果
Nodejs
缓存模块
浏览 1
提问于2021-04-11
得票数 1
4
回答
jQuery AJAX等待
、
、
、
我已经构建了一个PHP
文件
,它可以
抓取
一个网页(使用cURL)来获取一些数据,并以
JSON
格式输
出到
屏幕上。 目标
网站
涉及一些重定向,临时输出数据到我的PHP
文件
。一旦重定向成功完成,
JSON
就会如期而至。我遇到的问题是,当我尝试使用jQuery的$.ajax()方法访问
JSON
时,它有时会返回不正确的数据,因为它没有等待重定向完成。请注意,没有更干净的解决方案用于页面
抓取
,重定向是必不可少的,必须输
出到
屏幕上才能完
浏览 4
提问于2012-03-01
得票数 0
回答已采纳
1
回答
获取数据后返回数据JavaScript
、
、
、
、
使用
nodeJS
。var test = require('web-scraper.js'); test.scrap
浏览 2
提问于2016-12-19
得票数 1
2
回答
我在使用BeautifulSoup从表中提取数据时遇到了问题
、
、
、
网站
:我试图从表中
抓取
标题行,但由于某种原因无法将其解析为列表,因此我无法对其进行操作。然后,我想从每一列中获取数据,并将其全部输
出到
JSON
文件
。我希望能够将其输
出到
JSON
文件
,并像这样显示它。 ASN编号:国家:“美国”,“名称”:XXX,"Routes V4","XXXX","Routes V6","XXX“
浏览 0
提问于2019-01-12
得票数 0
1
回答
如何从
网站
收集联系信息?
、
、
、
、
有没有人知道从
网站
收集联系方式的网络爬虫工具?说我有一个www.web/联系人。我想拿出地址,电话号码等等。我一直在研究两个工具: java的cralwer4j开源jar和。
浏览 1
提问于2015-03-19
得票数 0
回答已采纳
1
回答
使用选择器从div类获取数据并查找
、
、
我正试图从这个网页上得到餐馆的名单,类型和地址。到目前为止,我写了这个:from bs4 import BeautifulSoup 'AppleWebKit/537.36 (KHTML, like Gecko) '\
浏览 4
提问于2022-04-15
得票数 -1
2
回答
如何在同一页中从
多个
窗体读取/编辑/保存信息?
、
、
、
我正在这个
网站
上使用JavaScript、HTML和PHP,我的GUI
与
IDE非常相似。我想说的是,我有
多个
选项卡,带有不同的按钮,在一个大的表上生成
多个
表单。当我完成填充这些
多个
表单中的所有字段时,这些字段最近都会导
出到
一个
JSON
对象中。但这不是现在的问题。 这里的主要问题是保存信息,并允许用户在将所有信息导
出到
JSON
之前对其进行编辑。
浏览 1
提问于2013-09-02
得票数 2
回答已采纳
1
回答
scrapy如何正确导
出到
json
、
、
、
我使用scrapy
抓取
一堆
网站
,然后将整个过程中存储的所有项目导
出到
一个
json
文件
中。下面是我的输出: [{...{...}{more
json
formatted stuff...{...{...]{even more
json
formatted stuff...{...{...] 这不是我想要
浏览 7
提问于2020-10-14
得票数 0
1
回答
XStream中的序列化问题
、
、
、
、
这是一个网络
抓取
器,从我们学校的选课
网站
上为我正在做的一个项目
抓取
页面,我试图将指定科目的所有课程信息输
出到
一个XML
文件
中。问题是,有些类有
多个
部分,而不是仅仅重写这些
文件
名和浪费空间,我希望它们都保留在XML中称为"Sections“的部分下。你知道我的代码出了什么问题吗?
浏览 2
提问于2012-10-26
得票数 1
回答已采纳
2
回答
用
NodeJS
从
JSON
文件
中
抓取
图像
、
、
、
我想要它从
网站
上
抓取
图片。该
网站
有一个包含代码的
JSON
文件
。var request = require('request'); request("http://www.pgbovine.net/photos/
json
-files/boston.
json
" , function(error, respo
浏览 17
提问于2016-09-18
得票数 0
1
回答
对同一拓扑中的每个域应用不同的解析筛选器
、
我试图
抓取
不同的
网站
(电子商务
网站
),并从每个
网站
的网页(即产品价格,数量,出版日期等)的具体信息。我的问题是:如何配置解析,因为每个
网站
有一个不同的HTML布局,这意味着我需要不同的Xpath对同一项目取决于
网站
?我们可以在每个
网站
的拓扑中添加
多个
解析器吗?如果是,我们如何为每个解析器螺栓分配不同的parsefilters.
json
文件
?
浏览 5
提问于2021-04-27
得票数 0
回答已采纳
2
回答
处理请求体
nodejs
、
因此,我一直在使用
nodejs
开发这个应用程序,我必须从
多个
网站
中
抓取
多个
HTML表。我已经从
承诺
中解决了这些问题。但是响应的主体是一整页的字符串,看起来是这样的。output.
json
[ globalJson.push(allData) fs.writeFile('client/src/output.
j
浏览 3
提问于2018-09-06
得票数 0
1
回答
如何将
多个
版本或版本从Azure DevOps管道导
出到
桌面?
、
、
、
我正在尝试将所有Azure DevOps版本或版本导
出到
桌面?有一种方法可以通过Azure DevOps UI
网站
导出每个
文件
,并将其保存为
json
文件
。我猜我们可以使用微软
网站
上的这个RestAPI发布,但是我们如何使用
与
Azure DevOps UI
网站
上相同的名称将所有Azure DevOps发布或构建导
出到
桌面?
浏览 24
提问于2021-02-10
得票数 1
回答已采纳
1
回答
获取给定域的RSS链接
、
、
我有一个
文件
,它有一个域名列表。我需要
抓取
域(即整个
网站
),以获得rss链接。递归地
抓取
网站
的每一页,从每个页面获取rss链接,并写入
与
域对应的
json
文件
--这是我的代码,仅用于一个
网站
: item['rss_link'] = sites
浏览 4
提问于2013-12-20
得票数 0
回答已采纳
1
回答
Twitter获取用户tweet并将其解析为表/数据库
、
、
这是一个小项目,我想在不久的将来开始。它还在规划阶段,所以这篇文章更多的是关于被引导到正确的方向,我最初解决这个问题的计划是使用Beautiful Soup,一个特定于Python的库,但是,我相信Twitter是更好的方法(关于这个主题的建议会更好) 要回答(3),我想这取决于我想对数据做什么。我还没有决定如何使用分析过的数据,但我知道我希望将其分类,所以我的想法可能是数据
浏览 1
提问于2018-06-29
得票数 0
4
回答
免费电子邮件地址提取器
、
、
我正在寻找一个软件或附加,以自动提取电子邮件地址从一个
网站
。免费获取例如(*[at]*.*)页面中电子邮件地址的模式。 对于Microsoft
浏览 0
提问于2014-05-02
得票数 1
2
回答
刮除-输
出到
多个
JSON
文件
、
、
我正在研究如何使用它来
抓取
整个
网站
的链接,在其中我会将条目输
出到
多个
JSON
文件
中。所以我可以把它们上传到Amazon搜索中进行索引。是否有可能将项目分割成
多个
文件
,而不是最终只有一个巨大的
文件
?据我所读,项目出口商只能输
出到
每个蜘蛛一个
文件
。但是我只使用一个CrawlSpider来完成这个任务。如果我能对每个
文件
中包含的项目的数量设置一个限制,比如500或1000,那就太好了。
浏览 3
提问于2015-09-30
得票数 7
回答已采纳
1
回答
Python - Beautifulsoup -仅来自最终
抓取
的链接的数据被输
出到
文本
文件
、
、
、
我试图从一个
网站
上的
多个
链接刮体育时间表。已正确找到并打印了URL,但只有来自上一次
抓取
的URL的数据才会输
出到
控制台和文本
文件
。我的代码如下:这为我提供了以下输出<code>B1</code>我有下面的旧代码,它的工作正常,并输出所有的数据从每个
抓取
的网址从主页。<code>A2</code><cod
浏览 24
提问于2020-08-01
得票数 0
回答已采纳
1
回答
没有为GET请求找到angularjs瘦404
、
、
、
我用grunt构建它,并将dist-
文件
夹中的
文件
复制到我的/var/www//public_html/ 瘦php
文件
'Missing Slim from Composer dep
浏览 2
提问于2014-12-14
得票数 0
点击加载更多
相关
资讯
使用JS和NodeJS爬取Web内容
最佳免费网络爬虫工具(5)
使用 Python 和 Scrapy 半小时爬了10 个在线商店的网页
Reddit 被曝屏蔽多个搜索引擎和 AI 爬虫,官方称与谷歌合作无关
python爬虫系列开发scrapy掌握(一)
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券