gocolly:如何防止重复抓取，仅限唯一url抓取一次

gocolly是一个Go语言编写的强大的网络爬虫框架。它提供了丰富的功能和灵活的配置选项，可以用于抓取和解析网页数据。

要防止重复抓取，仅限唯一URL抓取一次，可以使用以下方法：

使用URL去重：在抓取过程中，可以使用一个数据结构（如哈希表）来保存已经抓取过的URL，每次抓取前先判断URL是否已经存在于该数据结构中。如果存在，则跳过该URL的抓取，否则进行抓取并将URL添加到数据结构中。这样可以确保每个URL只被抓取一次。
设置抓取规则：可以通过设置抓取规则，只允许特定的URL被抓取。可以使用正则表达式或其他方式匹配URL，只有匹配成功的URL才会被抓取。这样可以避免抓取到不需要的重复URL。
使用布隆过滤器：布隆过滤器是一种高效的数据结构，用于判断一个元素是否存在于一个集合中。可以将已经抓取过的URL添加到布隆过滤器中，每次抓取前先判断URL是否存在于布隆过滤器中。如果存在，则跳过该URL的抓取，否则进行抓取并将URL添加到布隆过滤器中。这样可以快速判断一个URL是否已经被抓取过。

推荐的腾讯云相关产品：腾讯云CDN（内容分发网络）可以加速网页的访问速度，提高爬取效率。腾讯云对象存储（COS）可以用于存储爬取到的数据。腾讯云数据库（TencentDB）可以用于存储和管理爬取到的数据。

更多关于腾讯云产品的介绍和详细信息，请访问腾讯云官方网站：https://cloud.tencent.com/

页面内容是否对你有帮助？

有帮助

没帮助

gocolly:如何防止重复抓取，仅限唯一url抓取一次

、、

我正在用下面的代码尝试go-colly，它似乎多次爬行同一个url，我如何限制到一次爬行？ }) c.OnRequest(func(r *colly.Request) { r.Ctx.Put("url&qu

浏览 9提问于2020-05-07得票数 0

回答已采纳

1回答

从Google sheet复制值，添加时间戳，防止重复

、

我正在使用和服抓取一个列出了有效开发许可的站点。对于一次性的数据抓取来说，这很好，问题是没有办法对新数据进行排序。每次和服抓取时，它都会更新整个数组。似乎最符合逻辑的方法是将值复制到另一个工作表中，在发生这种情况时添加时间戳，然后防止发布重复的值。A1'), {contentsOnly: true});}我知道它就在我面前，

浏览 3提问于2016-02-10得票数 1

1回答

为什么Scrapy在抓取主url之前先抓取一些其他的url？

、、、

我想要抓取的主http://192.168.1.1/robots.txt是http://192.168.1.1/adslconfig.htm，但是它首先尝试抓取这个url URL，并且失败了，状态代码为这并不是唯一的一个，它还试图抓取我想要的主URL，但一开始失败了，referer标头设置为None 但在第二次尝试中，它成功了，状态代码为200，referer标头为http://192.16

浏览 17提问于2021-09-28得票数 0

1回答

为什么Nutch Solrdedup不能删除重复的网页

我有两个网页，内容相同，但URL不同。一个URL以开头，另一个以开头。在我使用Solrdedup删除Solr中的重复数据之后。我发现这两个仍然存在。有人知道这是怎么回事吗？

浏览 1提问于2012-02-26得票数 2

2回答

如何防止重复的SQS消息？

、

在Amazon SQS中防止重复消息的最佳方法是什么？我有一个SQS的域名等待抓取。在我添加一个新的域名到SQS之前，我可以检查保存的数据，看看它最近是否被爬行过，以防止重复。问题出在尚未抓取的域名上。例如，如果队列中有1000个域尚未爬行。这些链接中的任何一个都可以一次又一次地添加。这使我的SQS膨胀到数十万条消息，其中大部分是重复的。我如何防止这种情况发生？有没有一种方法可以从队列中删除所有<

浏览 98提问于2014-04-24得票数 63

回答已采纳

4回答

覆盖mysql表数据

、、

网络爬虫从我给它的网页中收集链接，但当它检索链接时，由于网站的原因，一些链接是重复的。在MYSQL中，有没有办法在新行和旧行完全相同的情况下覆盖数据。

浏览 0提问于2012-08-17得票数 1

2回答

Facebook Graph API，内容未正确抓取

、、

()current_url()是Facebook canvas的当前URL ()。>" />然而，我非常确定这是不起作用的，在应用程序中调用mail()之后，访问该URL，但没有得到任何结果，这表明它没有被抓取。我在其他SO帖子上读到这是一

浏览 5提问于2012-04-10得票数 4

回答已采纳

1回答

仅在R中使用rvest抓取最新的博客文章

、、

我正在使用rvest抓取博客页面的.txt文件，我有一个脚本，它每天都会触发，抓取最新的帖子。该脚本的基础是一个lapply函数，该函数只需抓取所有帖子，稍后我将使用Apache NiFi整理重复的帖子。这不是一种有效的排序重复的方法，所以我想知道是否有一种方法可以使用相同的脚本，并且只抓取最新的帖子？这些帖子是用数字标记的，例如BLOG001，BLOG002等。我想放一行代码来确保抓取最新的帖子(他们可能在任何给定的一天发布几个帖子)。如何确保我只

浏览 27提问于2019-02-12得票数 1

回答已采纳

2回答

用BeautifulSoup实现基于数据的抓取

、、

我正在尝试建立我的第一个网络抓取项目(为新闻文章策划)。我已经成功地抓取了新闻网站，并创建了一个循环，以我想要的方式组织结果。我的问题是，我计划每天抓取一次网页，但仅限于当天发布的出版物。我不想要所有的，因为这意味着我会得到很多重复。我知道它与通过datetime模块(使用if语句)转换日期有关，但对于我来说，我一直找不到一种方法来实现它。在html中，这是一个如何显示日期的示例： <time datetime="2019-02-24T10:30:4

浏览 19提问于2019-02-25得票数 2

回答已采纳

3回答

Facebook不会自动抓取我网站的urls

、、

当我尝试在facebook上分享这个url时，它没有显示页面的图像(代码中有og:image属性)，但是当我在facebook调试器中输入相同的url并点击“抓取新的抓取信息”按钮时，我的页面图像就会正确地显示出来

浏览 4提问于2015-05-11得票数 0

2回答

一个网站有一个URL列表，我需要写一个循环来访问每个URL并抓取两个表

、、、

最后，我试图在R中从几个不同的URL中(在同一个父站点内)刮表。到目前为止，我只能弄清楚如何一次从一个url

浏览 1提问于2017-11-07得票数 0

回答已采纳

1回答

禁止在web浏览器中观看视频时下载temp文件夹中的视频

、、、、

如何使用jQuery、Java servlet、jsp来避免这种情况

浏览 2提问于2017-01-18得票数 0

1回答

在for循环中执行mongo find会导致崩溃吗？

、、

我有一个爬虫设置，抓取网站上的所有(唯一)链接，并将链接及其主体标签内容存储在mongo中。下一次我爬行网站时，我需要确保只有新的链接或具有更新的body-tag内容的链接才会被摄取，以避免重复。因此，基本上我填充了一个新抓取的链接数组，并且对于数组中的每个链接对象，我都执行了一个 db.collection.find({:link_url => link_url，:body => body})

浏览 0提问于2019-03-29得票数 1

2回答

没什么用吗？

、

这可能是一个菜鸟的问题，但听我说完-是不是有必要用现在的东西来保护，如划痕(phpcurl scrappers等)？但我现在在文件的头上印了这样的字：var nc_ajax_getpost = { getpostNonce: "8a3318a44c"/* ]]> */我在这里错过了什么？

浏览 0提问于2011-10-28得票数 11

回答已采纳

3回答

并行获取请求的异常处理

我有以下代码： responses = yield [httpClient.fetch(url) for url in urls]另外，如果一次提取失败(比如第一次)，那么它看起来会破坏其余的取取吗？有什么办法可以防止这种情况发生吗？或者，在实际抓取之前，是否有更好的方法来检查URL是否可以被获取？有没有更好的模式

浏览 1提问于2016-02-22得票数 1

回答已采纳

1回答

使用python从csv文件中循环url以抓取html

、

我正在学习使用python来抓取网站(在线商店)我正在创建一个拦截代码来抓取网站，其中要抓取的url位于我将加载的CSV文件中。但是，在运行后，重复只能在其中一行中工作一次，不会到达CSV中URL的末尾，也不会继续到下一个url。text.strip().strip('\n')

浏览 2提问于2020-03-01得票数 0

1回答

防止python twitter机器人发布重复的状态更新

、、、、

我目前的项目是一个推特机器人，它能从政府网站上抓取我管辖范围内的最新新冠肺炎案件，然后在的基础上将它们发布出去。它在功能上是有效的，但我想要巧妙地使它只在数据更新和新的时候发布。我认为Twitter API中不允许重复tweet的内置规则会自动过滤掉旧信息。有时它确实有效，但规则还不够严格--似乎只要不经常这样做，该帐户仍然可以发布副本。谁能给我一些指导，如果这是可能的，以及如何最好地完成它？我在我的编码阶段，我不确定在我的搜索中使用什么术语来找到解决方案。

浏览 2提问于2020-11-18得票数 0

2回答

WP没有将<iframe>或<object>保存在post体内

、、、、

我自己对抓取的内容进行了验证，以防止恶意代码等，因此在wordpress中关闭安全验证不是我的问题，但是如果您没有自己的抓取内容验证，请小心。如果可能的话，始终验证抓取的值！但是，我有一个用于测试的wp_cron函数，每两分钟运行一次(当然，如果有人单击我的页面;)，这里有一个问题。问题是，所有的东西都是按预期存储的，包括时间、标题、段塞，(它甚至抓取、下载

浏览 0提问于2013-05-24得票数 3

1回答

Python请求返回其他随机URL的内容

、、、

所以，当我尝试用python请求库抓取网页时，我有一个奇怪的行为。出于某种原因，我不明白当我抓取一个网页的内容时，我得到了另一个明显随机的网页的数据。下面是一个例子：from bs4 import BeautifulSoup """ """ response =

浏览 0提问于2020-06-03得票数 0

回答已采纳

2回答

在Python3中使用多处理的Web爬虫

、、、、

下面的代码是一个基本的网络爬虫，它打印给定网站内的所有URL。我希望能够检查新的网址从多个网站一次使用多个进程。我有一个单独的web抓取脚本，它使用pools和apply_async一次抓取多个站点，但我从URL的静态列表开始。然后我有这个脚本，它一次迭代一个站点，以获得一个非重复URL的完整列表。因为我的URL列表不是静态的(它是随着新的URL被添加到其中的)，所以我不知道如何遍

浏览 0提问于2014-02-13得票数 0

点击加载更多