js爬虫抓取网页数据过滤_爬虫js怎么抓取网页数据_js 网页爬虫 - 腾讯云开发者社区

、、

我想抓取一个网页(新闻)，只获得最新的链接。我有一个爬虫代码，从一个网站获得所有的链接，需要2-3个小时来获得大约30000个链接，并在数据库中存储。如果下次运行爬虫程序时，我只想插入新的链接，该怎么办？我知道我可以在插入数据库之前做一个过滤器，但我希望爬虫只抓取新的链接，而不是再次抓取旧链接(基本上是整个网站)。有没有可能做这样的事情？

浏览 1提问于2018-04-18得票数 0

2回答

浏览器限制会影响网页爬虫吗？

、、

return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图，它也会限制对网络爬虫的访问吗

浏览 0提问于2013-02-21得票数 0

回答已采纳

2回答

为开放图实现元标记

、

Facebook在发送动作post请求时需要对象的url。现在，我的应用程序只允许授权用户，我将用户重定向到登录页面，它将重定向回用户请求的页面。

浏览 1提问于2012-03-26得票数 2

1回答

C#爬虫程序无法加载动态内容

、、、

我正在使用Abot库来抓取网页。爬虫可以正确地请求页面，但问题是几乎所有内容都是通过knockout.js动态加载的。爬虫程序目前无法请求此内容，这导致只加载了页面的一小部分。如何才能使crawler请求所有数据？谢谢!

浏览 12提问于2019-07-09得票数 0

1回答

用Crawler4j抓取PDF

、、、、

我目前使用crawler4j抓取一个网站，并返回网页的网址和该网页的父网页的网址。我使用的是基本的爬虫，这是工作良好，除了它没有返回的pdf的。我知道它爬行的pdf的，因为我已经检查了它爬行前添加的过滤器和pdf的显示。PDF似乎在进入时消失/跳过我不知道为什么它会这样做。有人能帮我吗？非常感谢！谢谢

浏览 4提问于2014-08-14得票数 4

1回答

爬虫symfony2过滤器显示节点列表为空

、、、

我正在使用Goutte/Symfony2 2抓取网页，而我的过滤器也有问题，我在$msg中有爬虫(web的一部分)，如果我在$msg内部打印一个带有类.mola的div，为什么要过滤$msg从.mola

浏览 2提问于2014-11-28得票数 0

回答已采纳

1回答

我必须抓取和刮相当多的网站，这些网站是由React / javascript / html技术组合而成的。这些网站在所有地方都有大约。10万至50万页。我计划使用Selenium和Scrapy来完成爬行和抓取。单是Scrapy就不能对页面进行抓取，使用Selenium来抓取常规的javascript/html是非常耗时的。我想知道是否有任何方法我的爬虫/刮刀可以理解反应页面与Javascript/html页面的区别。等待回应。

浏览 3提问于2019-12-04得票数 0

回答已采纳

6回答

爬虫vs刮板

、、

有人能在范围和功能方面区分爬虫和刮板吗？

浏览 0提问于2010-07-09得票数 71

回答已采纳

2回答

使用单个Web爬虫以预定义的格式抓取多个带有附件的网站？

、、

150个我需要抓取的网页。基于我的无知和缺乏研究，我开始构建每个网页的爬虫，这开始变得难以完成和维护。根据我到目前为止的分析，我已经知道我想在每个网页上抓取什么信息，很明显，这些网站都有自己的结构。在积极的一面，我注意到每个网站的网页在其网站结构中都有一些共性。我的百万美元的问题，有没有一个单一的技术或单一的网络爬虫，我可以用来抓取这些网站？或者，有没有更好的解决方案，可以减少我需要构建的网络爬虫的数量？此外，这些

浏览 3提问于2019-04-29得票数 0

4回答

我应该同时打开多少个Java HttpURLConnections？

、、

我正在编写一个多线程的Java网络爬虫。根据我对网页的理解，当用户加载网页时，浏览器请求第一个文档(例如，index.html)，当它接收到超文本标记语言时，它会找到需要包括的其他资源(图像，CSS，JS)，并同时请求这些资源。我的爬虫程序只请求原始文档。由于某些原因，我不能让它每5秒抓取超过2到5页。我正在为我制作的每一个HttpURLConnection创建一个新的线程。看起来我应该至少能够每秒抓取20-40页。

浏览 1提问于2009-09-04得票数 2

回答已采纳

1回答

Twitter Card API -通过javascript打开twitter对话框，并动态设置元标签

、、、

如何调用/创建Twitter Card并动态设置元值，而不是从head部分获取或声明元数据。就像下面的代码实现一样。

浏览 3提问于2018-08-18得票数 1

1回答

Web爬虫更新策略

、

我想抓取有用的资源(比如背景图片)。)从某些网站。这不是一项艰苦的工作，特别是在一些出色的项目，如刮刮的帮助下。这是我想过的一个粗略的算法。我把爬行过程分成了几个回合。每一轮URL存储库都会为爬虫提供一定数量(比如，10000)的URL来进行抓取。具体步骤如下：

浏览 1提问于2010-04-05得票数 4

1回答

C#下载包含正确显示所需内容的网站

、

下面的场景:我们已经开发了大约400个个人网站，目前我们正在尝试建立我们的投资组合。由于多种原因，我们想要显示索引，以便我们可以把它放在我们的投资组合中。第一个想法是对每个网站进行程序截图。我们公司的负责人立即揭穿了它，因为他们想要现场直播。Iframes显然不是一种选择。所以我们必须下载索引。可能只有正确显示它所需的样式和图像。你们有什么想法吗？

浏览 3提问于2016-03-30得票数 0

6回答