js可以做爬虫吗 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

Symfony DomCrawler如何单击执行js代码的链接

、、、、

如何使用爬虫来点击执行js代码的链接，这个链接没有HREF属性。爬虫可以通过客户端在页面上执行js代码吗？我试着这样做，但不起作用 $link = $crawler->filter('#list-65544856 div[class = "DJt7 DJuf"]')->link();

浏览 82提问于2021-02-03得票数 0

1回答

向机器人隐藏代码

、、、、

有没有一种方法只对爬虫隐藏页面的特定部分？那么，有没有办法对机器人隐藏某些部件，但在未来不会对用户隐瞒？不是整页，只是部分。PS #1:我只是在想，我没有理由这么做(现在？) PS #2:也许AJAX是可能的？但没有理由不让智能js阅

浏览 6提问于2014-10-16得票数 0

回答已采纳

1回答

禁用js时，在reactjs中设置动态元标记

、

我遇到了一些问题谷歌爬虫和元标签，我使用反应头盔(没有ssr)的反应ssr。反应头盔确实有效，但谷歌搜索似乎找不到我添加的标签。我知道爬虫在没有启用js的情况下运行网站，在测试时我可以看到，当js被禁用时，头盔不会呈现标签(启用时可以正常工作)。知道怎么做吗？谢谢你的帮助

浏览 0提问于2020-12-28得票数 0

回答已采纳

1回答

爬行url \如何在node.js中获取动态链接

、

我正在使用js爬虫来抓取网站，现在我遇到了CNN，的那一部分(基于某种原因动态生成的urls)。事情是爬虫，不要真正接触脚本-我应该如何解决它？除了我的node.js爬虫之外，我还应该编写自己的代码吗？是否有先进的爬虫知道如何处理这种动态行为？

浏览 1提问于2016-07-23得票数 2

回答已采纳

1回答

在加载在JavaScript中的页面中检测PhantomJS

、、

我正在使用PhantomJS作为爬虫；如果页面中没有JS，我可以假设当onLoadFinished触发时JS已经完全加载，但是如果页面中有JS，我需要稍等片刻才能让脚本有机会完成操作。Q1:还有其他的HTML构造可以将JS偷偷放入页面吗？javascript: URL不算，因为任何东西都不会被点击。 Q2:有更好的方法来做第二次测试吗？我认为使用querySelector是不可能做到这一点的，因此诉诸于XPath，但

浏览 4提问于2014-05-21得票数 4

2回答

饼干爬虫的主意？

、、、、

我是一个寻找PHP/javascript/等爬虫(bot)谁将检查给定的网站集，(这是重要的部分)检查哪些cookie，网站设置到用户的浏览器！我甚至不知道是否可以这样做，因为我知道爬虫可以检查网站的内容，甚至当用户访问网站时，爬虫也可以存储cookie，但他真的可以从网站上读取cookie吗？所以我的问题是:从定义上说，这不是不可能的吗？这样的事能做吗？基本上，检查网站设置到

浏览 1提问于2014-01-26得票数 1

回答已采纳

1回答

使用多个EC2实例爬行

、

我已经编写了这个爬虫，这样它就可以用它的结果向一个单独的"hub“实例报告。集线器处理爬虫的结果，爬虫可以自由地继续爬行。我在这个爬行实例中想到的是，克隆爬虫的几个实例很容易，每个实例都要向中心报告以便处理。 (这是一个假设)如果每个<

浏览 2提问于2015-01-08得票数 0

回答已采纳

2回答

元标记不应该使用JS动态更改吗？

、、

如果我想要更改数据，我可以使用JS来完成，而无需重新加载页面。百事大吉。但是，现在，我了解到元标签不能使用js更改，应该让它重新加载/刷新page...is，这是正确的吗？

浏览 14提问于2019-08-18得票数 2

3回答

网络爬虫与Django前端的接口

、、

我试着做三件事。第二:对此数据运行通宵批处理python脚本(文本分类)。about 建议我可以只用Django本身编写爬虫，但我不确定该怎么做。基本上--对于用Django或现有的python爬虫编写我可以</

浏览 0提问于2009-06-09得票数 2

1回答

在性能方面，为什么facebook不一次加载所有的JS文件？

、

登录后，我查看了facebook中的html代码，他们似乎对JS文件做了很多请求(根据firebug，多达20个)。所以，虽然我知道facebook需要加载许多JS和CSS文件(而不是一个JS和一个CSS文件)，但我的问题是更通用的网站和网络爬虫的状态。我们应该担心这些技术(通过ajax加载主要内容)会影响网络爬虫(googlebot和朋友)吗？我想提高性能，加载“稍后需要”的内容(text/js/css)似乎是个好主意，但如果爬虫

浏览 2提问于2013-03-18得票数 3

1回答

这是一个搜索引擎优化错误，没有加载谷歌-搞笑js的爬虫？

、

不会为爬虫加载google-analitics js会导致问题吗？这对SEO不好吗？

浏览 0提问于2017-09-19得票数 1

1回答

使用jQuery在head中添加元标记可以吗？

、、、、

我想在HTML页面中有条件地添加元标记，我不确定这样做是否可以或者甚至不使用jQeruy ready。给出了这个例子。

浏览 1提问于2020-01-06得票数 1

3回答

如何防止昂贵的API被爬虫和爬虫吃掉？

我注意到，来自蜘蛛和爬虫的访问产生了对该API的数千次调用，而我正在为这些调用收费。有没有办法阻止显示由API生成的内容的网页部分，即只有实际的访问者才能看到它，并且在抓取网页时不会生成API调用？

浏览 1提问于2016-10-23得票数 2

4回答

从PHP视图计数器中排除机器人和蜘蛛

、、

我已经为一个PHP网站建立了一个相当基本的广告管理器。它服务于我的低流量网站，尽管只是显示一个随机的横幅广告，计数印象浏览和点击。我注意到的一件事是，印象/视图计数器似乎经常被夸大。例如，如果有人从我的网站上的

浏览 4提问于2013-07-07得票数 8

回答已采纳

4回答

如果我通过JavaScript在页面中添加内容，它会被搜索引擎蜘蛛爬行吗？

、、、、

如果我通过JavaScript在页面中添加内容，它会被搜索引擎蜘蛛爬行并通过屏幕阅读器访问吗？("div#maincontent").children(":last-child").after(tip);}); 编辑：，我想把它隐藏在搜索引擎中，但同时保持屏幕阅读器的可访问性，可以吗

浏览 2提问于2010-06-22得票数 3

2回答

如何将.java和html结合起来？

、、、

我试图创建一个web应用程序，用户可以选择一个电影的名称(前)。(“空中坠落”)从下拉列表。然后，我想执行一个爬虫到rottentomatoes.com并获取与这部电影相关的所有html页面。我有一个web爬虫: crawler4j，如果我选择将主.java文件作为应用程序运行，它就会运行。我怎么才能把这两者结合起来？是否可以使用html中的参数(电影名称)调用java类文件？为了在我的html中执行它，我必须用爬虫创建一个单独的Applet吗？我可以这样

浏览 3提问于2012-12-10得票数 0

回答已采纳

1回答

在页面加载后添加标记，用于Facebook共享按钮

、、

因此，我使用以下JS添加标记(受此启发)：$('head').append('<meta property="og:image" content="http://example.comFacebook按钮只计算原始源代码，而不是修改的源代码，这是真的吗？如果是的话，我该怎么做才能让Facebook分享按钮的缩略图出现呢？

浏览 2提问于2013-07-24得票数 0

回答已采纳

1回答

包含产品文本的下拉列表的SEO排名，网站访问者可以查看或隐藏哪些内容？

、、、、

查看演示将让您对我的计划有一个了解：演示：那么，参考另一个关于爬虫只索引第一层隐藏链接的堆栈溢出答案，这种技术对于SEO来说是不是不切实际，因为产品描述可能由于与隐藏框中的关键字垃圾邮件相关联而无法索引

浏览 0提问于2011-04-13得票数 0

1回答

HTTP：“差异:用户-代理”标题的单一页面反应应用程序，为机器人进行SSR？

、、、、

这是一个单一的页面应用程序，所以基本上有一个“空”HTML文件和一个JS包来完成这一切。我通过用户和机器人的User-Agent字符串来区分它们。所以这些都是可能的：ROBOT DESKTOP => GETS

浏览 0提问于2021-01-07得票数 0

回答已采纳

2回答

ASP.NET网络Api会不会对搜索引擎优化不利？

、

基于Web API的网站会遇到SEO问题吗？假设页面的所有内容都是由javascript拉取的……搜索引擎爬虫能够获取页面内容吗？我听说爬虫在页面上爬行时并不总是支持javascript或执行javascript。

浏览 1提问于2012-07-30得票数 0

点击加载更多

Symfony DomCrawler如何单击执行js代码的链接

向机器人隐藏代码

禁用js时，在reactjs中设置动态元标记

爬行url \如何在node.js中获取动态链接

在加载在JavaScript中的页面中检测PhantomJS

饼干爬虫的主意？

使用多个EC2实例爬行

元标记不应该使用JS动态更改吗？

网络爬虫与Django前端的接口

在性能方面，为什么facebook不一次加载所有的JS文件？

这是一个搜索引擎优化错误，没有加载谷歌-搞笑js的爬虫？

使用jQuery在head中添加元标记可以吗？

如何防止昂贵的API被爬虫和爬虫吃掉？

从PHP视图计数器中排除机器人和蜘蛛

如果我通过JavaScript在页面中添加内容，它会被搜索引擎蜘蛛爬行吗？

如何将.java和html结合起来？

在页面加载后添加标记，用于Facebook共享按钮

包含产品文本的下拉列表的SEO排名，网站访问者可以查看或隐藏哪些内容？

HTTP：“差异:用户-代理”标题的单一页面反应应用程序，为机器人进行SSR？

ASP.NET网络Api会不会对搜索引擎优化不利？

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐