node.js爬虫 - 腾讯云开发者社区

文章/答案/技术大牛

发布

2回答

如何打开需要node.js的web应用程序

、、、

我必须运行微爬虫，这是一个爬虫网络应用程序，与node.js运行。我不知道如何打开这个应用程序，我下载了node.js，当我在node.js命令行中编写install npm和install bower时，什么也没有发生。我也不知道如何在安装后启动web应用程序。

浏览 2提问于2014-09-28得票数 1

1回答

爬行url \如何在node.js中获取动态链接

、

我正在使用js爬虫来抓取网站，现在我遇到了CNN，的那一部分(基于某种原因动态生成的urls)。事情是爬虫，不要真正接触脚本-我应该如何解决它？除了我的node.js爬虫之外，我还应该编写自己的代码吗？是否有先进的爬虫知道如何处理这种动态行为？

浏览 1提问于2016-07-23得票数 2

回答已采纳

1回答

使Angular网站的AMP版本可爬行

、、、、

问题是爬虫找不到规范的站点，因为它是通过Angular动态加载的。有没有可能绕过这个限制，比如在Angular项目的索引站点中放置对所有对象的引用？更清楚地说：object的详细视图: mysite.com/#/ detail /object1 如果我根据当前显示的对象动态添加对amp页面的引用，爬虫将找不到amp

浏览 1提问于2017-09-18得票数 0

1回答

node.js与C#的网络爬行性能

、、、、

我想问的是，从性能的角度来看，Node.js是否值得考虑？考虑到吞吐量是最重要的因素。Node.js更易于移植和跨平台是另一个原因，但性能对我来说更重要。

浏览 1提问于2013-06-30得票数 2

2回答

使用node.js创建启用javascript的web爬虫

、

这不一定是一个爬虫，但我想它更容易理解说明的方式。我想在node.js中执行同样的任务。as的res.render似乎不接受html-string作为输入。假设node.js get与浏览器获得的地址相同的html？您可以想到一个web爬虫，它获取html并执行javascript来呈现页

浏览 2提问于2015-02-01得票数 2

6回答

使用node.js服务Backbone.js应用程序的内容，搜索搜索引擎优化爬虫

、、、

正如您所知，Backbone.js有一个弱点--它不能为页面爬虫(比如googlebot )呈现的html提供服务，因为他们不运行JavaScript (尽管考虑到它的Google拥有自己的资源、V8引擎输入node.js。我才刚刚开始进入这股热潮，但似乎有可能有相同的Backbone.js应用程序存在于客户端，在服务器上与node.js手牵手。然后，node.js将能够提供从Backbone.js应用程序呈现到页面爬虫的html。这似乎是可行的，但我正在寻找一个更有经验的node.js

浏览 4提问于2012-09-16得票数 19

1回答

如何在Heroku上连续运行和托管Node.js脚本？

、

我目前想部署一个网站排名API，为此，我需要一个网络爬虫。事情是，我想让网络爬虫运行24/7，以便它可以不断更新网站。但是，对于Heroku这样的服务，一个小时后服务器就停止了。我如何宿主一个总是在Heroku上活动的Node.js脚本。如果不可能，我还能做些什么呢？

浏览 0提问于2021-01-21得票数 1

回答已采纳

3回答

高效网络爬虫的语言建议

、、、

我正在寻找一种语言来编写一个高效的网络爬虫。我所看重的东西：我试过node.js。

浏览 6提问于2010-12-03得票数 2

2回答

从HTML字符串中解析所有URL的最好方法是什么？

、、

在接下来的几周里，我正在Node上写一个网络爬虫来取乐。在我的原型中，我使用jsdom来查询页面，然后搜索所有的锚并将href添加到我的爬行列表中。

浏览 6提问于2011-09-20得票数 1

回答已采纳

2回答

使用node.js simplecrawler与Angular2 TypeScript项目

、

Angluar2 TypeScript项目中的nodejs可以使用simplecrawler吗？如果是的话，正确的设置是什么？ npm install simplecrawler --save...@Injectable()但是创建Crawler对象失败了：有浏览器控制台错误： crawler.js:10 Uncaught ReferenceErr

浏览 4提问于2016-07-16得票数 0

回答已采纳

4回答

如何通过爬虫php获取悬停数据(Ajax)

、、、

有没有可能用任何爬虫。我使用PHP和来解析/抓取页面。

浏览 3提问于2012-03-30得票数 3

回答已采纳

1回答

Node.js多页爬虫

、

stackoverflow.com"+$(link).attr('href')); // Search For Node.js

浏览 3提问于2015-03-26得票数 0

1回答

如何保持网络爬虫运行？

、、

我想用JS写我自己的网络爬虫。我正在考虑使用node.js解决方案，如目标是每10分钟进行一次“爬行”，所以我希望我的爬虫每10分钟从网站上获取数据。

浏览 3提问于2015-05-23得票数 5

回答已采纳

2回答

Node.js request.js HPE_INVALID_HEADER_TOKEN

、

我使用node.js爬行一个网站列表，其中一些网站给我这个错误，例如：，Parse，HPE_INVALID_HEADER_TOKEN url: uri, timeout

浏览 5提问于2014-10-15得票数 3

回答已采纳

2回答

当我使用自己的程序爬行站点时，我应该使用什么用户代理

、、

我用node.js做了爬虫。我想爬一些网站的基础上，每小时。我试着找出我应该使用的用户代理，但是我只得到了像谷歌机器人和必应机器人这样的结果。我不知道我能不能利用这些用户代理。

浏览 1提问于2018-09-10得票数 1

回答已采纳

2回答

NodeJS + jsDom同步调用

、、、

我有一个相当棘手的任务，但新手在NodeJS。乍一看，任务非常简单，但由于NodeJS的异步，它变成了噩梦。var jsdom = require("jsdom");var jquery = fs.readFileSync("./jquery.js").toString(); var fields = ['h

浏览 1提问于2012-12-02得票数 1

1回答

Node.js优化模块可实现最佳性能

、、、

我正在编写一个爬虫模块，它递归地调用它自己，根据传递的depth选项参数下载越来越多的链接。我已经设置了一个express服务器，它的一个路由为用户定义的(查询字符串)主机启动爬虫。在为不同的主机启动了几个爬虫会话后，我注意到，有时我可以从只返回简单文本的其他路由获得非常慢的响应。延迟可能在几毫秒到30秒之间，而且似乎是

浏览 0提问于2016-09-23得票数 0

1回答

node.js网络爬虫图像/视频

、、、

最近我一直在使用网络爬虫，我已经想出了如何搜索文本，但有没有办法让我的网络爬虫搜索其他东西，比如视频和图像，然后下载它们并组织它们。这是目前为止我的网络爬虫：var cheerio = require('cheerio'); var URL = require('

浏览 3提问于2016-09-04得票数 0

1回答

如何使用Node.js爬虫网

我希望产品信息会在显示时被打印出来。但是，当前代码将显示所有已加载的项，即使它们尚未显示。// const request = require("request");const puppeteer = require('puppeteer'); const browser = await puppeteer.launch({ headless: false // 無外殼的 Chrome，有更佳的效

浏览 5提问于2022-09-01得票数 -1

1回答