前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >基于 Milvus 的钓鱼网站检测

基于 Milvus 的钓鱼网站检测

作者头像
Zilliz RDS
发布于 2020-11-04 08:12:47
发布于 2020-11-04 08:12:47
1.5K0
举报

文章作者:

Seven-机器学习算法工程师

李晴-Zilliz 数据工程师

背景介绍

在海量信息中,不乏非法分子利用网络骗取用户信任并从中获利,钓鱼网站就是其中之一。“钓鱼”网站的网址、网页内容、布局等与真实网站极其相似,没有安全意识的网民容易因此上当受骗,造成严重后果。

现有的比较典型的检测钓鱼网站的方法有:基于黑白名单机制的检测,基于文本特征或网页图像特征的匹配检测,和基于机器学习的分类检测。然而,基于黑白名单的检测方法时效性较差,名单范围也存在着不足;基于特征的算法的准确性和鲁棒性又不是很理想。近年来,机器学习应用于各领域并取得巨大成功,尤其是将深度学习应用于检测识别可以有效得提高检测效率。基于此,本文将介绍如何结合深度学习与 Milvus 向量搜索引擎,以提高对钓鱼网站的正确检测率和检测速度。

优化手段

机器学习用于识别图像中的物体、将语音转换为文字、匹配新闻条目以及推荐系统。这些应用越来越多地使用深度学习技术,并且显著提高了语音识别、目标识别和检测效果。

将深度学习应用于钓鱼网站的检测能取得良好的效果,目前深度学习的常用模型包括自动编码器(AutoEncoder)、卷积神经网络、深度信念网络。最广为人知的卷积网络训练出的模型有较强泛化能力,但是它的深度模型梯度易消散,主要用于二维数据尤其适用于图像方面。相比之下, 虽然自动编码器是全连接网络、训练时需要较多参数,但是其具有较强数据表征能力、大量数据场景适用的优点。

因此,为了减少对钓鱼网站的误报和漏报,本文利用 AutoEncoder 模型对钓鱼网站截图进行图片特征提取。我们对以往收集的各类钓鱼网站进行整理,并对该网址的首页图片进行特征提取。结合 Milvus 进行特征存储和特征搜索。最后根据匹配结果,再对经过阈值筛选的网站进行域名信息和 whois 信息对比,最终达到检测钓鱼网站的目的。

架构

整体流程

  1. 数据收集阶段:收集各类钓鱼网站首页截图。
  2. 模型训练阶段:利用收集的图片作为训练集进行 AutoEcoder 模型的训练。
  3. 特征提取模块:利用训练好的模型对钓鱼网站图片进行特征提取。通过在 Milvus 中插入特征向量获得 ID,将 ID 与其向量属性插入 PostgreSQL 数据库
  4. 钓鱼检测模块:利用 Milvus 进行特征向量检索,根据获得的 ID 进一步在 PostgreSQL 查询。
  5. 调试匹配的阈值。
  6. 查询高于设定阈值的网站所对应的真实网站的 whois 信息和域名备案信息,比较它们与查询网站的此类信息。

Note:本项目从测试版 v1 升级到实验版 v2,运用 Milvus 对特征相似度计算部分进行了优化。在 1.0 版本中,本项目将特征存储为 numpy.array 格式,因此在相似特征匹配阶段是通过遍历 .npy 文件进行的相似度计算。在 2.0 版本中引入 Milvus 后,大大提升了此模块的搜索速度。

特征提取模型

此处选用了 AutoEncoder 用于特征提取。它是一种深度学习模型,是数据压缩降维和特征提取的一种有效方式。

AutoEncoder 框架包含两大模块:编码模块和解码模块。通过编码模块将输入样本映射到特征空间得到 compressed data,即编码过程;然后再通过解码模块将抽象特征映射回原始空间得到重构样本,即解码过程。模型的优化目标则是通过最小化重构误差来同时优化 encode 和 decode。

本项目利用收集到的网站图片训练 AutoEncoder 网络。测试图片经过训练好的网络的 encode 可以得到代表原网站图片数据的 compressed data。

Milvus 探索

Milvus 向量搜索引擎支持使用多种 AI 模型向量化非结构化数据,并为向量数据提供搜索服务。它可处理的业务包括图像处理、机器视觉、自然语言处理、语音识别、推荐系统以及新药发现等 AI 模型,为向量化后的非结构数据提供搜索分析服务。通过深度学习模型将非结构化数据转化为特征向量导入 Milvus 库,Milvus 对特征向量进行存储并建立索引,然后在 Milvus 中进行搜索,Milvus 将返回与搜索向量相似的结果。

在本项目存储阶段,特征向量存储至 Milvus 后可得到向量的唯一标识 ID。我们使用了传统关系型数据库:PostgreSQL ,用于存储 ID 和向量。查询阶段,将 Milvus 向量检索结果,在 PostgreSQL 中进一步查询,即可快速得出混合查询结果,具体解决方案如下:

特征向量存储(蓝色实线)

  • 将源特征向量数据存入 Milvus 特征向量数据库,Milvus 会给返回每个源向量数据对应的 ID。
  • 将每个特征向量的唯一标识 ID 与其标签属性存储至关系型数据库。

特征向量检索(橙色实线)

  • 向 Milvus 中传入需要查询的特征向量数据,Milvus 会得出与搜索向量相似度最高的查询结果 ID。
  • 利用该结果 ID 在 PostgreSQL 中进行查询,最终得出检索向量的混合查询结果,包含 ID、向量、标签属性和距离计算结果。

判断检测结果

得到的高于阈值要求的匹配结果后,因为存在钓鱼网站与真正的网站外观一模一样的情况,所以我们需要进一步查询这些钓鱼网站相对应的正常网站的 whois 信息和域名备案信息,比较它们与查询网站的此类信息。

例如,因为钓鱼网站上的域名备案号与钓鱼网站仿冒的正常网站是一样的,所以可以使用正常网站的备案号去查询域名。将正常网站的域名与查询网站进行对比,如果一致则为正常网站,反之为钓鱼网站。如果没有域名备案,则需要查询双方的 whois信息。例如,注册时间较短或者有效时间较短的域名更可能是钓鱼网站。

结语

本文介绍了 Milvus 在钓鱼网站检测方面的实践,采用混合查询的方式提升了对钓鱼网站的正确检测率和检测速度。目前,因为 Milvus 稳定且高效的向量检索性能,本项目极大地节省了开发成本并满足业务需求。本项目组将尝试在语音领域、自然语言处理领域,和计算机视觉等领域继续引入 Milvus 的服务。未来,我们也会持续关注 Milvus,期待更多新功能的出现!

参考文献

  1. 许珑于. 基于深度学习的钓鱼网站检测技术的研究[D].电子科技大学,2017.
  2. Image Compression Using AutoEncoder in Keras
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-10-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ZILLIZ 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
钓鱼网站检测【机器学习】
本文介绍如何使用机器学习技术检测一个URL是否是钓鱼网站,内容包括数据抓取、特征选择和模型训练等。
用户1408045
2019/09/18
4K0
钓鱼网站检测【机器学习】
我用Python渗透了一个钓鱼网站的所有信息
这篇文章不是像评论区的某些大佬所想的那样是来炫技的,更多的是来给大家科普一些实用的渗透工具和方法,我相信不是所有的人都用过文中提到的这些方法。
用户8544541
2022/01/27
1K0
我用Python渗透了一个钓鱼网站的所有信息
如何防范钓鱼网站诈骗?
随着移动互联网的发展,诈骗形式也逐渐向网络犯罪过渡。中国青年报社会调查中心进行的一项调查中显示,超七成受访青年表示遭遇过网络诈骗。从公开数据来看,在近年来举报的诈骗案情中,金融理财类诈骗是涉案金额最高、人均损失最大的诈骗类型。受害人通常采用钓鱼网站支付以及银行转账、第三方支付、扫二维码支付等方式主动向诈骗分子转账。按照劫财方式划分,在钓鱼网站支付的用户占比为64.3%,涉案金额累计2.2亿元;主动转账的用户占33.7%。
埃文科技
2022/09/15
7320
如何防范钓鱼网站诈骗?
如何防止钓鱼网站攻击?
是山河呀
2025/03/23
1840
钓鱼网站“潜伏”谷歌广告,窃取亚马逊用户账密
Bleeping Computer 网站披露,一个新的网络犯罪活动将钓鱼网站隐藏在谷歌搜索结果中,以窃取亚马逊网络服务(AWS)用户的登录凭据。 2023 年 1 月 30 日, Sentinel 实验室的安全分析师首次发现钓鱼活动隐藏在谷歌广告搜索结果中。据悉,当搜索“aws”时,不良广告排名第二,仅次于亚马逊自身推广搜索结果。 【恶意谷歌搜索结果(Sentinel One)】 经过研究分析,安全人员发现攻击者最初将广告直接链接到网络钓鱼页面,后期陆续增加了重定向步骤,以期逃避谷歌广告欺诈检测系统的监
FB客服
2023/02/24
5520
钓鱼网站“潜伏”谷歌广告,窃取亚马逊用户账密
社工钓鱼之钓鱼网站
上面的第一种思路说白了就是在第二种思路的基础之上加上了域名伪造以及网站源码,第一种相较于第二种更加逼真,而且更加适合投入实战中使用,第二种对于有安全意识的人员来说已然不奏效,本篇文章将主要基于第二种思路进行一系列的演示~
Al1ex
2022/06/23
2.1K0
社工钓鱼之钓鱼网站
Milvus 实战 | 基于 Milvus 的图像查重系统
由于巨大的利益,论文造假屡见不鲜,在部分国家或地区甚至形成了论文造假的产业链。目前大部分论文查重系统只能检查论文文字,不能检查图片。因此,论文图片查重已然成为了学术论文原创性检测的重要部分。
Zilliz RDS
2020/12/16
2.2K0
语义检索系统:基于Milvus 搭建召回系统抽取向量进行检索,加速索引
目标:使用 Milvus 搭建召回系统,然后使用训练好的语义索引模型,抽取向量,插入到 Milvus 中,然后进行检索。
汀丶人工智能
2023/08/02
2.9K0
语义检索系统:基于Milvus 搭建召回系统抽取向量进行检索,加速索引
MurMurHash:在Shodan平台上寻找钓鱼网站
MurMurHash这款工具可以帮助广大研究人员计算一个网站中favicon的MurMurHash值,并在Shodan平台上寻找钓鱼网站。
FB客服
2021/07/02
7950
关于钓鱼网站的原理以及防范方法
我们都知道,在HTML语言里面有一种标签称为表单标签,现在我来为大家展示一个最简单的表单HTML代码
道言
2021/10/09
9250
关于钓鱼网站的原理以及防范方法
基于 Milvus 的跨模态行人检索
近年来,由于跨模态数据的快速增长,跨模态检索备受关注。它以一种类型的数据作为查询,来检索另一种类型的相关数据。例如,用户可以用一段文字来检索相关的图片或视频。由于查询及其检索结果可以是不同的模态,如何衡量不同模态数据之间的内容相似性仍然是一个挑战。
Zilliz RDS
2020/11/11
1K0
基于 Milvus 的跨模态行人检索
警惕钓鱼陷阱:95%赌球网站是钓鱼网站
这一届世界杯,阿根廷、德国、西班牙接连败北,让球迷连呼意外。而网络赌球更是害人害己,前不久深圳一男子欲跳水库,只因押车卖房套现60万元赌球,哪知不断的冷门,让他输个精光。
安恒信息
2018/07/24
5840
警惕钓鱼陷阱:95%赌球网站是钓鱼网站
Milvus 实战|基于 Milvus 的图文检索系统
1. 通过 TIRG(Text Image Residual Gating)模型将图片特征和文本特征转化为多模态特征向量。
Zilliz RDS
2021/05/17
2.7K2
Milvus 实战|基于 Milvus 的图文检索系统
使用Httrack和Tomcat快速搭建本地钓鱼网站
钓鱼网站是黑客或恶意攻击者通过对源网站的复制、模仿等行为所构造的与愿网站相似度极高的网站,从而通过这种相似度极高的网站窃取用户信息。 那么生成一个钓鱼网站是不是还需要写代码生成web页面呢?其实不需要
FB客服
2018/02/28
2.7K0
使用Httrack和Tomcat快速搭建本地钓鱼网站
记一次识别钓鱼网站,所有的盗号都是不经意间
对于小白来说,可能两个一样的网站是分辨不出来那个是钓鱼网站,今天就给大家分享一下如何识别钓鱼网站,希望对大家帮助,不要随意在扫描群里等二维码,不要随意在网站输入重要帐号密码,今天就现场识别一个钓鱼网站,带你一步步分析,高手勿喷。
Lcry
2022/11/29
7350
记一次识别钓鱼网站,所有的盗号都是不经意间
Milvus 到底有多少种玩法?这份攻略合集请收好!
Milvus 是一款开源的向量相似度搜索引擎,支持使用多种 AI 模型将非结构化数据向量化,并为向量数据提供搜索服务。Milvus 集成了 Faiss、Annoy 等广泛应用的向量索引库,开发者可以针对不同场景选择不同的索引类型。使用 Milvus 就可以以相当低的成本研发出最简可行产品。
Zilliz RDS
2021/03/22
3.3K0
Milvus 到底有多少种玩法?这份攻略合集请收好!
工具的使用 | Social engineering tookit 钓鱼网站
Set(Social engineering tookit)是一款社会工程学工具,该工具用的最多的就是用来制作钓鱼网站。
谢公子
2022/01/19
7280
工具的使用 | Social engineering tookit 钓鱼网站
Milvus 实战 | Milvus 与 BERT 搭建文本搜索
Google 的 BERT 模型在 NL 领域中具有巨大的影响力。它是一个通用的语言表示模型,可以应用于诸多领域。本文的项目是将 Milvus 与 BERT 模型结合搭建文本搜索引擎,使用 BERT 模型将文本数据转成向量,结合 Milvus 特征向量相似度搜索引擎可以快速搜索相似文本。
Zilliz RDS
2020/08/05
3.1K0
Milvus 实战 | Milvus 与 BERT 搭建文本搜索
基于 Milvus 的音频检索系统
人可以通过听觉感知位置、运动、音调、音量、旋律并获取信息。日常生活中,音频是一种重要的多媒体数据,我们会收听电台节目、欣赏在线音乐等。
Zilliz RDS
2021/03/22
1.5K0
基于 Milvus 的音频检索系统
基于 Milvus 的 VOVA 拍照购实践
VOVA 是一个面向全球市场的新兴跨境电商平台,专注于外贸出口,客户遍布六大洲一百多个国家和地区。VOVA 支持 20 种主流语言和 35 种主流货币,拥有数百万件高品质、高性价比的产品,为用户提供最新的全球平价商品和轻松有趣的购物体验。
Zilliz RDS
2021/04/12
5760
推荐阅读
相关推荐
钓鱼网站检测【机器学习】
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档