首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >使用哈希表和布隆过滤器优化搜索引擎中的URL去重与存储效率

使用哈希表和布隆过滤器优化搜索引擎中的URL去重与存储效率

原创
作者头像
三掌柜
发布于 2024-06-10 14:55:08
发布于 2024-06-10 14:55:08
28621
代码可运行
举报
运行总次数:1
代码可运行

目录

  • 前言
  • 算法设计
  • 具体实现
  • 结束语

前言

作为开发者想必都知道在实际开发过程中,使用搜索引擎在索引网页时,去除重复的URL是一个关键步骤,因为这可以显著提高索引的效率和准确性,同时减少存储空间的消耗。为了解决这个比较常见的问题,其实可以设计一个算法,可以先使用哈希表来快速检测重复的URL,并进一步使用布隆过滤器来优化存储需求。那么本文就来简单分享介绍一种使用哈希表和布隆过滤器来优化URL去重和存储效率的方法,仅供参考,如果有好的方法,欢迎评论区留言交流。

算法设计

先来构思一下实现过程中的算法设计,这里我们可以把算法分为两个主要步骤:第一步就是利用哈希表快速检测并去掉重复的URL;第二步就是利用布隆过滤器进一步减少存储需求。具体的算法设计核心步骤如下所示:

第一步:使用哈希表快速检测重复URL

这一步主要是使用哈希表快速检测重复URL,也就是检测为主,具体步骤如下所示:

  • 遍历所有待处理的URL;
  • 对于每个URL,计算其哈希值;
  • 使用哈希值作为键,URL作为值(或简单地使用哈希值作为键,表示URL的存在),在哈希表中查找;
  • 如果找到,则跳过该URL(因为它是重复的);
  • 如果没有找到,则将URL及其哈希值添加到哈希表中。

第二步:使用布隆过滤器减少存储需求

这一步主要是通过使用布隆过滤器减少存储需求,也就是去重之后的存储操作,具体的操作如下所示:

  • 初始化一个足够大小的位数组(布隆过滤器);
  • 对于哈希表中每个唯一的URL,计算其多个哈希值(通常使用多个不同的哈希函数);
  • 使用这些哈希值作为索引,在位数组中设置相应的位为1;
  • 在后续的查询中,可以使用布隆过滤器来快速判断一个URL是否可能存在于集合中(虽然存在误报率)。

具体实现

上文简单分析了具体的使用设计思路,那么接下来就来用一个比较简单的示例代码来帮助大家理解和使用,这里以Python为实现示例来讲。在开始前,我们需要先安装mmh3库作为额外的哈希函数,并导入必要的模块,也就是一个简单的哈希函数来计算URL的哈希值。这里为了简化示例,使用了Python内置的hash()函数,但在实际开发中,可能需要更复杂的哈希算法来避免哈希冲突,所以大家要注意。具体实现上文算法的Python代码如下所示:

代码语言:python
代码运行次数:0
运行
AI代码解释
复制
import mmh3  # 使用mmh3库作为额外的哈希函数,因为Python内置的hash()可能不足以处理布隆过滤器  
import bitarray  
  
# 初始化布隆过滤器的参数  
FILTER_SIZE = 1000000  # 位数组的大小  
HASH_FUNCS = 3  # 使用的哈希函数的数量  
  
# 使用mmh3库提供的哈希函数  
def additional_hashes(url, seed):  
    hashes = []  
    for i in range(HASH_FUNCS - 1):  # 减去1,因为我们还使用Python内置的hash()函数  
        hashes.append(mmh3.hash(url, seed + i))  
    return hashes  
  
# 初始化布隆过滤器  
bloom_filter = bitarray.bitarray(FILTER_SIZE, endian='little')  
bloom_filter.setall(False)  
  
# 哈希表用于存储唯一的URL  
url_map = {}  
  
def add_url_to_filter(url):  
    # 使用Python内置的hash函数  
    hash_value = hash(url)  
    index = hash_value % FILTER_SIZE  
    bloom_filter[index] = True  
  
    # 使用额外的哈希函数  
    additional_hashes_values = additional_hashes(url, hash_value)  
    for hash_val in additional_hashes_values:  
        index = hash_val % FILTER_SIZE  
        bloom_filter[index] = True  
  
def might_contain(url):  
    # 使用Python内置的hash函数  
    hash_value = hash(url)  
    if not bloom_filter[hash_value % FILTER_SIZE]:  
        return False  
  
    # 使用额外的哈希函数  
    additional_hashes_values = additional_hashes(url, hash_value)  
    for hash_val in additional_hashes_values:  
        if not bloom_filter[hash_val % FILTER_SIZE]:  
            return False  
  
    return True  
  
def process_urls(urls):  
    for url in urls:  
        if url not in url_map:  
            url_map[url] = True  
            add_url_to_filter(url)  
  
# 示例用法  
urls = ['https://sanzhanggui.com', 'https://sanzhanggui.com/page1', 'https://sanzhanggui.com', 'https://another-sanzhanggui.com']  
process_urls(urls)  
  
# 检查URL是否可能存在于集合中(需要注意:布隆过滤器存在误报率)  
print(might_contain('https://sanzhanggui.com'))  # 应返回True或可能返回False(误报)  
print(might_contain('https://chenchen.com'))  # 应返回False

特别注意:上面代码中的布隆过滤器实现是一个简单的示例代码,仅用于演示和实现原理的目的,但是在实际开发中,布隆过滤器的性能可能会受到多种因素的影响,比如哈希函数的选择、位数组的大小以及哈希函数的数量等,而且布隆过滤器的一个主要缺点是存在误报率(也就是它可能会错误地认为一个元素存在于集合中),但不存在误报(即它不会错误地认为一个元素不存在于集合中)。

结束语

经过上文的分享介绍,想必大家都知道通过使用哈希表和布隆过滤器,可以有效地去除搜索引擎中的重复URL,并提高索引的效率和存储空间的利用率。哈希表提供了快速的查找能力,而布隆过滤器则进一步减少了存储需求,虽然它存在误报的可能性,但是依然可以很好的解决我们在日常开发过程中遇到的这个实际问题。而且在实际应用中,我们可以根据具体的需求和资源限制来调整哈希表和布隆过滤器的参数,以达到最佳的性能和效率,看了本文的示例,确定不来操练一下试试?

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
2 条评论
热度
最新
大牛,脚本可用
大牛,脚本可用
11点赞举报
哈哈,应该可以直接用的,因为是我自己demo上的脚本分享
哈哈,应该可以直接用的,因为是我自己demo上的脚本分享
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
​​钉钉自定义机器人简单使用
年前公司的需求里面有用到钉钉机器人,使用之后发现真的非常简单,不得不感叹阿里的牛逼,这篇文章总结了一下个人使用钉钉机器人的经验,同时介绍个人据此构建一个工具类来方便后续直接“开箱即用”,希望对于读者有所启发。
阿东
2021/08/16
4.2K0
​​钉钉自定义机器人简单使用
python实现自动向钉钉群推送消息
步骤一:【电脑钉钉 】-【群聊】-【群设置】-【智能群助手】-【添加更多】-【添加机器人】-【自定义】-【添加】,编辑机器人名称和选择添加的群组。
墨紫羽墨
2021/12/12
1.7K0
Zabbix 随笔:钉钉机器人告警(脚本方式)
本文将带来 Zabbix 6.0 LTS 如何利用 Python 脚本实现钉钉机器人通知告警信息。
IT小白Kasar
2022/03/03
3.2K1
Zabbix 随笔:钉钉机器人告警(脚本方式)
路由器日志通过钉钉机器人自动推送
由于申请的电信宽带IP不是固定的,每次变了IP又不知道,需要有个IP变更提醒的小功能。
萌海无涯
2020/05/09
1.2K0
自动化系列(四)Python实现钉钉机器人
定期数据需求除了以邮件的形式交付外,也可以发送到工作群里通知相关人员及时关注,本文将介绍如何推送数据到钉钉群里并@相关人员及时关注。
HsuHeinrich
2023/02/24
1.5K0
自动化系列(四)Python实现钉钉机器人
python钉钉机器人自定义回复
然后去实现handle_client 就好了。篇幅有限。完整的代码关注公众号 罗尔街 即可获取
Michel_Rolle
2023/07/30
3.2K4
开通与使用钉钉群机器人 [附API代码]
目录 开通方式 参考代码 使用示范 开通方式 免费,有群就能开,任何用户都可开 官方文档:自定义机器人接入 - 钉钉开放平台 注意事项:用电脑版钉钉来开通,手机上的不行。 参考代码 import time import hmac import hashlib import base64 import urllib.parse import io from pyzbar import pyzbar from PIL import Image import requests, json # 导入依赖
小锋学长生活大爆炸
2022/03/29
1.7K0
开通与使用钉钉群机器人 [附API代码]
Docker最全教程之使用.NET Core推送钉钉消息(十九)
上一篇我们通过实战分享了使用Go推送钉钉消息,由于技痒,笔者现在也编写了一个.NET Core的Demo,作为简单的对照和说明。
雪雁-心莱科技
2019/04/09
8170
Docker最全教程之使用.NET Core推送钉钉消息(十九)
shell脚本实现文件自动清理并推送钉钉机器人告警
当磁盘空间超过阈值时,这时需要人为去清理一些不需要的历史大日志文件,那能否做成自动化呢?
yuanfan2012
2024/03/21
2350
shell脚本实现文件自动清理并推送钉钉机器人告警
使用.NET开发钉钉机器人消息通知
前言:有时候你需要对一些业务或者服务提供消息提醒,用邮件有时候比较麻烦,或者不够直接,就可以考虑使用钉钉机器人的形式来自动发送通知消息。下面我演示一个使用.NET程序来和钉钉机器人交互的例子。
Wesky
2024/08/13
2230
使用.NET开发钉钉机器人消息通知
利用 shell 实现钉钉机器人告警推送
在运维中需要对主机业务进行周期巡检,为减少人工巡检频率,降低业务停机风险,利用 shell 脚本对 Linux 系统服务运行状态进行主动巡检,异常服务通过钉钉机器人进行告警消息推送。
Kevin song
2021/03/08
3.7K0
利用 shell 实现钉钉机器人告警推送
使用python3.7配置开发钉钉群自定义机器人(2020年新版攻略)
    最近疫情比较严重,很多公司依靠阿里旗下的办公软件钉钉来进行远程办公,当然了,钉钉这个产品真的是让人一言难尽,要多难用有多难用,真的让人觉得阿里的pm都是脑残才会设计出这种脑残产品,不过吐槽归吐槽,该用还得用,虽然钉钉别的功能很鸡肋,但是机器人这个功能还是让人眼前一亮,属于比较极客的功能,它可以将第三方服务的信息聚合到钉钉群中,实现信息的自动化同步,例如:通过聚合Github、Gitlab等源码管理服务,实现源码更新同步;通过聚合Trello、JIRA等项目协调服务,实现项目信息同步;同事,支持Webhook协议的自定义接入,支持更多可能性,例如:将运维报警提醒、自动化测试的结果报告提醒、工作、生活日程安排(上班打卡、下班吃饭、健身、读书、生日、纪念日...)等等的提醒,通过自定义机器人聚合到钉钉中。
用户9127725
2022/08/08
9410
使用python3.7配置开发钉钉群自定义机器人(2020年新版攻略)
shell脚本 微信/钉钉验证登录服务器
1.需要修改CropID、Secret、 local int AppID 、local UserID 、local PartyID 五项内容
陈不成i
2021/05/30
1.2K0
python自动化高效办公第二期,带你项目实战【二】{数据可视化、发送邮件(定时任务监控)、python聊天机器人(基于微信、钉钉)}
API商城_API_API接口大全_API一站式采购基地百度智能云API商城-API一站式采购基地,API商城提供天气查询API、实名认证API、短信验证码、OCR识别等海量API服务。选购API服务,首选百度智能云API商城。
汀丶人工智能
2022/12/21
1.1K0
python自动化高效办公第二期,带你项目实战【二】{数据可视化、发送邮件(定时任务监控)、python聊天机器人(基于微信、钉钉)}
把盏言欢,款款而谈,ChatGPT结合钉钉机器人(outgoing回调)打造人工智能群聊/单聊场景,基于Python3.10
    就像黑火药时代里突然诞生的核弹一样,OpenAI的ChatGPT语言模型的横空出世,是人工智能技术发展史上的一个重要里程碑。这是一款无与伦比、超凡绝伦的模型,能够进行自然语言推理和对话,并且具有出色的语言生成能力。
用户9127725
2022/12/09
1.9K0
把盏言欢,款款而谈,ChatGPT结合钉钉机器人(outgoing回调)打造人工智能群聊/单聊场景,基于Python3.10
Python - 接入钉钉机器人
https://developers.dingtalk.com/document/robots/use-group-robots
小菠萝测试笔记
2021/11/18
9980
Python - 接入钉钉机器人
详解Jenkins 实现Gitlab事件自动触发Jenkins构建及钉钉消息推送
Expression 用于提取变量值的表达式(支持JSONPath、XPath),提取的值赋值给上述自定义变量(例中为event_name)。
前端逗逗飞
2021/04/30
2K0
详解Jenkins 实现Gitlab事件自动触发Jenkins构建及钉钉消息推送
PYTHON 连接钉钉传输工作数据监控
“我报名参加金石计划1期挑战——瓜分10万奖池,这是我的第1篇文章,点击查看活动详情”
百里丶落云
2022/11/03
7570
PYTHON 连接钉钉传输工作数据监控
Shell实现钉钉机器人定时消息通知
我们知道,之前的运维告警多通过SMS、Mail 等方式通知到相应的人员,难以实现随时随地的查看。随着手机APP的发展,很多告警开始发送到IM软件上去。目前比较常用的是发送到微信和钉钉上,不过微信发送时,需要开通企业公众号,比较麻烦。今天我们将重点放在钉钉上。群机器人是钉钉群的高级扩展功能,群机器人可以将第三方服务的信息聚合到群聊中,实现自动化的信息同步。借助钉钉机器人,通过官方提供的API,可以很方便的post数据到相应的接收人 。群机器人支持Webhook协议的自定义接入,支持更多可能性,例如:你可将运维报警通过自定义机器人聚合到钉钉群实现提醒功能。
非著名运维
2022/06/22
1.4K0
Shell实现钉钉机器人定时消息通知
钉钉常用的消息类型与数据格式总结
准备好加签后的webhook地址后,就可以通过http请求,向钉钉模拟发送消息了。
公众号: 云原生生态圈
2022/11/02
1.3K0
钉钉常用的消息类型与数据格式总结
推荐阅读
相关推荐
​​钉钉自定义机器人简单使用
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验