js爬虫原理 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

网络爬虫的工作原理是什么？

、

网络爬虫会爬行网络并创建一个网络数据库，还是只会创建一个可搜索的网络索引？假设它创建了一个索引，那么谁来收集网页数据并将其存储在数据库中呢？

浏览 2提问于2010-08-17得票数 0

1回答

高性能网络蜘蛛的开发

、、、

我想开发一个WebSpider守护进程(PHP/C/C++)你知道关于如何开发高性能网络爬虫的好参考资料吗？

浏览 0提问于2011-10-17得票数 0

3回答

我的第一个想法是使用node.js，但由于node.js可以访问套接字、文件和其他东西，我想我更愿意避免这样做。的基本原理：--我正在用进行屏幕抓取，并且遇到了许多情况，其中的数据是由JavaScript在前端生成的，我想避免编写专门的过滤函数，以便在每个案例的基础上对JavaScript进行操作，因为这需要很多时间否决：--我不知道这个问题有什么争议，现代的网络爬虫都知道，唯一的区别是它们往往不是用PHP编写的。1

浏览 6提问于2010-12-02得票数 15

回答已采纳

1回答

C# -列出域中的所有.aspx页面

、

我正在写一个控制台应用程序，列出一个域中的所有aspx页面，大约有50或60个页面，我对如何列出它们一无所知。我正在考虑在System.Web中使用HTTP类，但这是我第一次使用.aspx，并且对它们知之甚少。

浏览 0提问于2013-03-20得票数 0

回答已采纳

1回答

指向根目录的HTML站点地图链接

、

我知道爬虫的工作原理，以及那些写得很好的爬虫器(我们可以假设google爬虫是最先进的爬虫器)，解析页面中的所有链接，只访问/爬行以前没有访问过的链接。

浏览 0提问于2012-07-14得票数 3

回答已采纳

1回答

爬行url \如何在node.js中获取动态链接

、

我正在使用js爬虫来抓取网站，现在我遇到了CNN，的那一部分(基于某种原因动态生成的urls)。事情是爬虫，不要真正接触脚本-我应该如何解决它？除了我的node.js爬虫之外，我还应该编写自己的代码吗？是否有先进的爬虫知道如何处理这种动态行为？

浏览 1提问于2016-07-23得票数 2

回答已采纳

1回答

向机器人隐藏代码

、、、、

有没有一种方法只对爬虫隐藏页面的特定部分？那么，有没有办法对机器人隐藏某些部件，但在未来不会对用户隐瞒？不是整页，只是部分。但没有理由不让智能js阅读爬虫来隐藏它。麦芽酒

浏览 6提问于2014-10-16得票数 0

回答已采纳

1回答

服务端渲染如何帮助爬虫？服务器端渲染和客户端渲染哪个更好？

、、、

我正在阅读angular的服务器端渲染文档，因为它们提到服务器端渲染是帮助爬虫。我知道在服务器端渲染爬虫可以获得整个dom，但爬虫也可以与组件交互，那么它如何帮助爬虫呢？

浏览 18提问于2019-09-15得票数 0

1回答

如何用Node.js创建一个网络爬虫？

、、

我最近刚刚对搜索引擎的工作原理产生了兴趣，我发现它们使用的是“机器人”或“网络爬虫”。我立即开始想知道这些东西是如何工作的，我想要创建一个！那么，首先:如何编写一个从服务器请求页面的程序？如果我错了请纠正我，但我想它是这样做的.任何用C++、C或Python语言编写的例子都是受欢迎的，尽管我更喜欢JS或Python语言，因为我更熟悉高级脚本语言。

浏览 6提问于2011-12-26得票数 5

回答已采纳

1回答

如何在node.js中发出https请求

、、

我要做个爬虫。对于http请求，我曾经这样做过。', function () { }); http.request(options, callback).end(); throw er; // Unhandled 'error' eventError: getaddrinfo ENOTFO

浏览 2提问于2015-01-18得票数 1

回答已采纳

1回答

在性能方面，为什么facebook不一次加载所有的JS文件？

、

登录后，我查看了facebook中的html代码，他们似乎对JS文件做了很多请求(根据firebug，多达20个)。所以，虽然我知道facebook需要加载许多JS和CSS文件(而不是一个JS和一个CSS文件)，但我的问题是更通用的网站和网络爬虫的状态。我们应该担心这些技术(通过ajax加载主要内容)会影响网络爬虫(googlebot和朋友)吗？我想提高性能，加载“稍后需要”的内容(text/js/css)似乎是个好主意，但如果爬虫不能使用(当然是内

浏览 2提问于2013-03-18得票数 3

1回答

潜在语义分析在开发搜索引擎中的作用是什么？

、、、

我正在为我的最后一年项目开发一个以音乐为中心的搜索引擎，我一直在做一些关于潜在语义分析的研究，以及它在互联网上的工作原理。我很难理解LSI在整个搜索引擎系统中的确切位置。它应该在网络爬虫查找完网页后使用吗？

浏览 1提问于2012-02-21得票数 1

回答已采纳

1回答

Symfony DomCrawler如何单击执行js代码的链接

、、、、

如何使用爬虫来点击执行js代码的链接，这个链接没有HREF属性。爬虫可以通过客户端在页面上执行js代码吗？

浏览 82提问于2021-02-03得票数 0

1回答

这是一个搜索引擎优化错误，没有加载谷歌-搞笑js的爬虫？

、

不会为爬虫加载google-analitics js会导致问题吗？这对SEO不好吗？

浏览 0提问于2017-09-19得票数 1

1回答

使Angular网站的AMP版本可爬行

、、、、

问题是爬虫找不到规范的站点，因为它是通过Angular动态加载的。有没有可能绕过这个限制，比如在Angular项目的索引站点中放置对所有对象的引用？更清楚地说：object的详细视图: mysite.com/#/ detail /object1 如果我根据当前显示的对象动态添加对amp页面的引用，爬虫将找不到amp

浏览 1提问于2017-09-18得票数 0

1回答

React / Express -服务器端呈现如何使用我的动态页面工作

、、、、

我的问题是： SSR将如何与搜索引擎爬虫工作，以了解我的文章存在？所以，如果我要搜索“我的网站条款”或“我的网站条款栏”，它如何知道这些不同的文章存在？

浏览 2提问于2017-03-01得票数 2

回答已采纳

2回答

如何打开需要node.js的web应用程序

、、、

我必须运行微爬虫，这是一个爬虫网络应用程序，与node.js运行。我不知道如何打开这个应用程序，我下载了node.js，当我在node.js命令行中编写install npm和install bower时，什么也没有发生。我也不知道如何在安装后启动web应用程序。

浏览 2提问于2014-09-28得票数 1

1回答

在nodejs/express中如何允许爬虫使用站点地图

、、

在nodejs/express中，如何允许爬虫使用站点地图？app.jsRouteHandler.jsvar routesIndex = require('./rou

浏览 2提问于2015-09-06得票数 1

回答已采纳

1回答

谷歌抓取/索引“计算的”或原始的html源代码吗？

、、

我有一个独特的情况，我有几个页面在多个页面中“分页”(通过WordPress的“下一页”功能)。相同的内容，分布在两个或更多页面上，如下所示：http://mysite.com/mypage/2因此，页面本身有一个html页面标题标记<title>My Page</title>，但由于它分布在多个页面上，我必须创建脚本来为每个页面添加唯一的html标题标记，以便让google对它们进行索引。$exploded = explode("/&#

浏览 4提问于2013-06-22得票数 2

1回答