首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何从 100 亿 URL 中找出相同的 URL?

来源 | https://doocs.github.io/advanced-java/ 题目描述 给定 a、b 两个文件,各存放 50 亿个 URL,每个 URL 各占 64B,内存限制是 4G。...请找出 a、b 两个文件共同的 URL。 解答思路 每个 URL 占 64B,那么 50 亿个 URL占用的空间大小约为 320GB。...思路如下 : 首先遍历文件 a,对遍历到的 URL 求 hash(URL) % 1000 ,根据计算结果把遍历到的 URL 存储到 a0, a1, a2, ..., a999,这样每个大小约为 300MB...这样处理过后,所有可能相同的 URL 都在对应的小文件中,即 a0 对应 b0, ..., a999 对应 b999,不对应的小文件不可能有相同的 URL。...然后遍历 bi 中每个 URL,看在 HashSet 集合中是否存在,若存在,说明这就是共同的 URL,可以把这个 URL 保存到一个单独的文件中。

2.9K30
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    面试:如何从 100 亿 URL 中找出相同的 URL?

    ---- 来源:8rr.co/FR7V 题目描述 给定 a、b 两个文件,各存放 50 亿个 URL,每个 URL 各占 64B,内存限制是 4G。请找出 a、b 两个文件共同的 URL。...解答思路 每个 URL 占 64B,那么 50 亿个 URL占用的空间大小约为 320GB。...思路如下 : 首先遍历文件 a,对遍历到的 URL 求 hash(URL) % 1000 ,根据计算结果把遍历到的 URL 存储到 a0, a1, a2, ..., a999,这样每个大小约为 300MB...这样处理过后,所有可能相同的 URL 都在对应的小文件中,即 a0 对应 b0, ..., a999 对应 b999,不对应的小文件不可能有相同的 URL。...然后遍历 bi 中每个 URL,看在 HashSet 集合中是否存在,若存在,说明这就是共同的 URL,可以把这个 URL 保存到一个单独的文件中。

    4.6K10

    面试:如何从 100 亿 URL 中找出相同的 URL?

    来源:8rr.co/FR7V 题目描述 给定 a、b 两个文件,各存放 50 亿个 URL,每个 URL 各占 64B,内存限制是 4G。请找出 a、b 两个文件共同的 URL。...解答思路 每个 URL 占 64B,那么 50 亿个 URL占用的空间大小约为 320GB。...思路如下 : 首先遍历文件 a,对遍历到的 URL 求 hash(URL) % 1000 ,根据计算结果把遍历到的 URL 存储到 a0, a1, a2, ..., a999,这样每个大小约为 300MB...这样处理过后,所有可能相同的 URL 都在对应的小文件中,即 a0 对应 b0, ..., a999 对应 b999,不对应的小文件不可能有相同的 URL。...然后遍历 bi 中每个 URL,看在 HashSet 集合中是否存在,若存在,说明这就是共同的 URL,可以把这个 URL 保存到一个单独的文件中。

    2.3K20

    面试经历:如何从 100 亿 URL 中找出相同的 URL?

    题目描述 给定 a、b 两个文件,各存放 50 亿个 URL,每个 URL 各占 64B,内存限制是 4G。请找出 a、b 两个文件共同的 URL。...解答思路 每个 URL 占 64B,那么 50 亿个 URL占用的空间大小约为 320GB。...思路如下 : 首先遍历文件 a,对遍历到的 URL 求 hash(URL) % 1000 ,根据计算结果把遍历到的 URL 存储到 a0, a1, a2, ..., a999,这样每个大小约为 300MB...这样处理过后,所有可能相同的 URL 都在对应的小文件中,即 a0 对应 b0, ..., a999 对应 b999,不对应的小文件不可能有相同的 URL。...然后遍历 bi 中每个 URL,看在 HashSet 集合中是否存在,若存在,说明这就是共同的 URL,可以把这个 URL 保存到一个单独的文件中。

    1.9K00

    如何从网站提取数据?

    从网站提取数据的过程称为网络抓取,有时也被称为网络收集。该术语通常是指使用机器人或网络爬虫自动提取数据的过程。有时,网络抓取的概念与网络爬取的概念容易混淆。...他们向服务器发送请求,访问选定的URL,遍历每个先前定义的页面,HTML标记和组件。然后,从这些地方提取数据。...但是,大多数网站或搜索引擎都不希望泄露其数据,并且已经建立了检测类似机器人行为的算法,因此使得抓取更具挑战性。 以下是如何从网络提取数据的主要步骤: 1.确定要获取和处理的数据类型。...它确保能从搜索引擎和电子商务网站100%完成抓取任务,并简化数据管理和汇总数据,以便您轻松理解。 从网站提取数据是否合法 许多企业依赖大数据,需求显著增长。...结论 总结起来,您将需要一个数据提取脚本来从网站中提取数据。如您所见,由于操作范围,复杂性和不断变化的网站结构,构建这些脚本可能具有挑战性。

    3.1K30

    【Python爬虫】如何爬取翻页url不变的网站

    之前打算爬取一个图片资源网站,但是在翻页时发现它的url并没有改变,无法简单的通过request.get()访问其他页面。据搜索资料,了解到这些网站是通过ajax动态加载技术实现。...你正在看程序员如何找对象呢,此时来个消息推送,整个网页被刷新了,你说你气不气! 还是你在看程序员如何找对象,但是此时通信状况不好啊。回答加载不出来,页面就空白的卡那了,回答加载不出来,你说急不急!...从服务端的发送过来的ajax数据,体积比较小。浏览器知道怎么渲染它,这样就减轻了服务端的压力,让客户端,也就是浏览器承担了一些任务。...https://www.w3.org/TR/XMLHttpRequest/) XMLHttpRequest对象用于在后台与服务器交换数据,具体作用如下: 在不重新加载页面的情况下更新网页 在页面已加载后从服务器请求数据...在页面已加载后从服务器接收数据 在后台向服务器发送数据 2、如何爬取ajax动态加载的网页 这里用到的方法是通过分析响应请求,模拟响应参数。

    5.5K10

    手工检测Web应用指纹的一些技巧

    常见的后端存储技术包括: 1、关系型数据库, 包括 MySQL, Oracle, DB2, SQL Server, PostgreSQL, SQLite 等。...2.2.2 浏览网站 2.2.2.1 关注HTML源码 重点关注以下几处 1、上传与下载功能 2、认证表单与URL(login,logout, reset password) 3、后台管理页面(administration...如果网站路径存在 RESTful URL 的特征,例如 /objects/ # will give you a list of all the objects; /objects/new # will...计算量更大但检索效果更好的方法就是做相似图像检索(基于SIFT,或者其他图像特征)。...章节 2.国产指纹库平台 – 天蝎指纹库 - 破晓团队 3.浅析国内指纹识别技术 - 北风飘然@金乌网络安全实验室 4.SQLMap的前世今生(Part2):数据库指纹识别 - 渔村安全(猎豹) 5.如何使用

    3.2K70

    如何将网站动态URL静态化,有啥优势?

    动态页面URL静态化一直以来都是最基本的SEO要求之一,绝大多数网站都是数据库驱动,当用户访问一个网址时,程序会根据 URL 中的参数调用数据库数据,实时生成页面内容。...id=$1 URL重写代码基于正则表达式,动态URL结构不同,服务器设置可能也不同,代码也就不同。...URL静态化优势: 1、用户体验。方便用户理解页面大致内容。 2、方便易记。与动态URL相比,静态URL更容易记忆。 3、美观度。...动态URL参数过多,网址过长,不利于在邮件、社交网上进行分享,在美观度上低于静态化URL。...网站URL静态化之后,美观度和体验度大大增加了,在进行外部优化推广时,静态化URL更容易让人从心理上进行接受和识别;从感观的角度看,静态化URL更容易获得点击率。

    63220

    Joomla!3.7.0 SQL注入攻击漏洞分析

    它是网站的一个基础管理平台,几乎适合从个人网站到百货销售类型的各类网站。 2、Joomla Platform(Joomla框架)。...理论上来说它几乎无所不能,除了网站,还可以进行广泛的web开发、手机应用开发等等。 如果您的网站是基于流行的Joomla内容管理系统,请确保您已将您的平台更新到今天发布的最新版本。...如此一来,Joomla可以根据这一路径获取视图参数和模块布局。 构建URL如下所示: /index.php?...你可能会注意到,它会对内容执行一些验证,然后相应地设置list.direction和list.ordering,但是list.fullordering的情况如何呢? ?...所以为了利用这个漏洞,攻击者必须做的是为URL添加适当的参数,以便注入到SQL查询。

    2K50

    Kali Linux 使用 JoomScan 扫描 Joomla漏洞

    Joomla 是类似织梦、wp等流行的一款CMS软件,可以非常快速地发布一个精美的网站。在kali下如何检测Joomla是否存在可以利用的漏洞呢?...如果您的网站正在运行 Joomla,您可以对您的网站使用 JoomScan 实用程序来发现漏洞或仅提供有助于攻击您网站的一般信息。一旦您意识到该网站的弱点,您就可以采取适当的措施来保护它。...安装 sudo apt update sudo apt install joomscan 食用 使用该--url选项并指定 Joomla 站点的 URL,以便使用 JoomScan 对其进行扫描。...joomscan --url http://example.com 如何找目标? 我们可以利用”古格“大法搜索 inurl: "index.php?...管理员登录网址 在 robots.txt 中找到的 URL 备份和日志文件 用户注册页面 如下,对某网站进行扫描,效果如下: 可以看到,当前版本为1.5并且存在的漏洞比较多。

    3.9K20

    Kali Linux渗透基础知识整理(二) 漏洞扫描 二(附送教程)

    例如 whatweb www.sysorem.xyz 从返回的结果可以看到该网站Web服务器软件为Apache 2.2.15,地区为US,邮箱为master@sysorem.xyz,支持Html5,服务器操作系统为...joomscan Joomla Security Scanner的特点 · 1.确切的版本探测(可以探测出使用的Joomla整站程序的版本) · 2.常见的Joomla!.... · 5.立即的软件更新能力 先随便找个基于Joomla的网站,例如http://37.60.253.96/ 1 joomscan -u http://37.60.253.96/ 扫描结果,一堆漏洞及...简单命令 · wpscan —url URI —enumerate p #扫描插件 · wpscan —url URI —enumerate u #扫描后台用户 通过用户名爆破密码 · wpscan —...url URI—wordlist DIC.lst —username USER · 例如执行 wpscan —url www.sysorem.xyz —enumerate u ?

    2.6K40

    靶机实战(3):GlasgowSmile-v1.1

    URL漏洞(目录、文件) 01、手动浏览 访问首页http://10.58.81.115/,发现啥也没有,是静态页面,妥妥的CTF风格。...02、目录扫描 02-01、使用命令dirb http://10.58.81.115 -R对网站目录和文件进行遍历,发现/joomla/目录、/joomla/robots.txt文件、/joomla/...02-02、想先确认Joomla的版本,然后找Nday漏洞。但网站翻了半天,Burp Suite也看了半天,愣是找不到Joomla的版本。 官网有介绍 如何查看Joomla版本[2],但仍然找不到。...除了用更大的字典,还能通过对网站页面进行信息收集的方式,来获取针对性自定义的密码字典。 但是爆破SSH依然没有收获。 不过Joomla后台终于爆破出账号joomla、密码Gotham。...参考资料 [1] GlasgowSmile-v1.1: https://www.vulnhub.com/entry/glasgow-smile-11,491/ [2] 如何查看Joomla版本: https

    11310
    领券