首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >基于多维度解析行为特征的新型通用顶级域名恶意域名检测方法研究

基于多维度解析行为特征的新型通用顶级域名恶意域名检测方法研究

原创
作者头像
草竹道人
发布2025-10-21 14:58:39
发布2025-10-21 14:58:39
990
举报

摘要

自2013年ICANN启动新通用顶级域名(new gTLD)计划以来,全球域名系统中新增了上千个顶级域名,极大丰富了域名注册的灵活性与多样性。然而,由于注册门槛较低、管理机制分散,部分new gTLD被广泛用于网络钓鱼、恶意软件分发和僵尸网络控制等恶意活动。传统恶意域名识别方法多基于历史域名数据集设计,难以有效适应new gTLD在结构长度、注册模式及解析行为上的显著差异,导致检测准确率下降。针对这一问题,本文基于大规模DNS查询日志,从顶级域名对应的二级域名(SLD)数量、查询总量、查询失败率、内容复制行为以及基础设施共享程度五个维度,系统刻画new gTLD的解析行为特征。通过对比分析已知恶意与良性new gTLD域名的解析行为,发现恶意域名在SLD对应完全限定域名(FQDN)数量分布、请求用户网络空间分布广度、承载基础设施集中性、域名长度分布及查询频次等方面表现出显著异质性。基于上述发现,构建了一个融合多维度行为特征的特征向量空间,并采用随机森林分类器实现恶意new gTLD域名的自动化识别。实验在真实DNS流量数据集上进行,涵盖超过12万个new gTLD域名及其关联的亿级解析记录,结果表明所提方法在准确率、召回率和F1-score等指标上均优于现有主流检测模型,平均准确率达到94.1%,显著提升了对新型恶意域名的识别能力。本研究为应对new gTLD环境下的网络安全挑战提供了可解释性强、适应性高的技术路径。

关键词:新通用顶级域名(new gTLD);恶意域名检测;域名系统安全;随机森林;DNS行为分析;基础设施共享

1. 引言

互联网域名系统(Domain Name System, DNS)作为网络基础设施的核心组成部分,承担着将人类可读的域名映射为机器可识别IP地址的关键功能。随着互联网应用的不断扩展,域名资源日益紧张,传统通用顶级域名(如.com、.org)已难以满足多样化命名需求。为此,互联网名称与数字地址分配机构(ICANN)于2011年正式批准新通用顶级域名计划(new generic Top-Level Domains, new gTLD),并于2013年起逐步授权开放注册。截至2024年,全球已授权超过1300个new gTLD,包括行业类(如.bank、.shop)、地理类(如.london、.paris)、品牌类(如.google、.apple)以及大量开放注册的通用后缀(如.xyz、.top、.club)[1]。

new gTLD的引入在提升命名灵活性的同时,也带来了新的安全挑战。由于部分new gTLD注册价格低廉、审核机制宽松,攻击者得以低成本批量注册大量域名用于恶意目的,如网络钓鱼、恶意软件分发、命令与控制(C2)通信、点击欺诈等。据网络安全机构统计,.xyz、.top、.info等特定new gTLD已成为恶意活动的高发区域,其单位域名的恶意使用率远高于传统gTLD [2]。此外,攻击者常利用new gTLD的“新颖性”规避基于历史黑名单或信誉库的传统检测机制,使得现有防御体系面临严峻考验。

当前主流的恶意域名识别方法主要包括基于黑名单匹配、基于域名字符串特征(如熵值、n-gram分布)、基于DNS协议行为(如TTL变化、NXDOMAIN响应率)以及基于机器学习模型(如SVM、LSTM)的检测方法[3-5]。然而,这些方法在应用于new gTLD场景时普遍存在适应性不足的问题。原因在于:首先,new gTLD本身结构多样,其二级域名(Second-Level Domain, SLD)长度普遍较长且命名模式复杂,导致基于字符串统计的特征提取效果下降;其次,new gTLD的注册与解析生态尚未稳定,历史数据积累不足,难以支撑基于时间序列或行为演化模型的有效训练;再次,传统方法多聚焦于单一维度特征(如语法或时序),缺乏对域名整体解析生态的系统性刻画。

为应对上述挑战,本文提出一种面向new gTLD的恶意域名检测框架,其核心思想是:从DNS解析行为的多维宏观特征出发,构建能够反映域名生态属性的高阶指标体系,并基于此训练分类模型以实现精准识别。具体而言,本文工作包含以下三个层面的贡献:

提出一套面向new gTLD的多维度解析行为刻画体系,涵盖顶级域名粒度的二级域名数量分布、查询量统计、查询失败率、内容复制行为识别以及基础设施共享度量五个方面,能够有效揭示new gTLD整体的使用模式与潜在风险倾向。

通过实证分析揭示恶意new gTLD域名在解析行为上的显著特征差异,包括其在完全限定域名(FQDN)生成规模、用户地理分布广度、承载服务器集中性、域名长度偏好及查询频率等方面的异常表现,为特征工程提供理论依据。

设计并实现一种基于随机森林的分类模型,融合上述多维行为特征,在真实大规模DNS数据集上验证了其在准确率、召回率及鲁棒性方面的优越性能,平均准确率达到94.1%,显著优于对比基线方法。

本文后续结构安排如下:第2节介绍相关研究工作;第3节详细描述数据来源与预处理流程;第4节提出new gTLD解析行为的多维度刻画方法;第5节分析恶意域名的行为特征并构建特征向量;第6节介绍分类模型设计与实验评估;第7节总结全文并展望未来研究方向。

2. 相关工作

恶意域名检测作为网络安全领域的重要研究方向,已有大量研究成果。早期方法主要依赖黑名单机制,如Google Safe Browsing、PhishTank等公开数据库,通过匹配已知恶意域名实现快速拦截[6]。然而,此类方法对新型或零时差(zero-day)恶意域名无效,且易受对抗性注册策略(如DGA域名生成算法)规避。

为提升检测的前瞻性,研究者转向基于域名字符串特征的分析方法。文献[7]提出利用域名字符串的熵值、字符分布、n-gram频率等统计特征训练分类器,发现恶意域名往往具有更高的随机性。文献[8]进一步引入语言模型(如Markov模型)评估域名的“自然性”,用于识别由算法生成的域名。然而,这些方法在面对new gTLD时面临挑战:一方面,new gTLD允许更长的SLD命名空间,导致合法域名也可能呈现高熵特征;另一方面,攻击者可通过语义化命名(如secure-login.xyz)规避基于随机性的检测。

另一类方法聚焦于DNS协议层面的行为特征。文献[9]指出恶意域名常伴随高频NXDOMAIN响应、短TTL设置、快速IP切换等异常行为。文献[10]提出基于DNS查询流的时间序列分析,识别突发性查询模式。文献[11]利用被动DNS(pDNS)数据追踪域名与IP的映射关系演化,发现恶意域名倾向于频繁更换解析地址。尽管此类方法在传统gTLD中表现良好,但new gTLD的注册与解析行为本身具有更高的动态性,导致正常行为与恶意行为的边界模糊,误报率上升。

近年来,基于机器学习的端到端检测模型成为研究热点。文献[12]采用随机森林分类器融合字符串与DNS行为特征,在内部数据集上取得良好效果。文献[13]提出使用LSTM网络建模域名请求序列,捕捉时序依赖关系。文献[14]结合图神经网络,构建域名-IP-AS的关联图谱进行异常检测。然而,多数模型在训练时未充分考虑new gTLD的结构性差异,导致泛化能力受限。

此外,部分研究尝试从顶级域名层级进行风险评估。文献[15]提出基于gTLD的“信誉评分”机制,根据其历史恶意使用率进行加权过滤。但该方法粒度较粗,无法识别同一gTLD下个体域名的风险差异。

综上所述,现有研究在应对new gTLD场景时存在特征适应性不足、行为建模片面化等问题。本文提出的多维度解析行为分析框架,旨在弥补上述缺陷,通过系统性刻画new gTLD的生态特征,提升对恶意域名的识别精度与可解释性。

3. 数据来源与预处理

为开展本研究,我们采集了某大型互联网服务提供商(ISP)提供的被动DNS(passive DNS)数据集,时间跨度为2023年1月至2023年6月,覆盖全球多个地区的用户DNS查询流量。该数据集包含约18亿条DNS A记录查询日志,每条记录包括时间戳、查询域名(FQDN)、客户端IP、响应IP、响应代码(如NOERROR、NXDOMAIN)等字段。

3.1 数据清洗

原始数据经过如下清洗流程:

去重与格式校验:剔除时间戳异常、域名格式错误(如包含非法字符、长度超限)的记录;

内网与保留地址过滤:排除源IP为私有地址(RFC 1918)或环回地址的查询;

泛解析干扰去除:识别并过滤因泛解析(wildcard DNS)导致的大量NXDOMAIN误报;

bot流量识别:基于客户端IP的查询频率与目标分布,使用聚类方法识别并排除疑似爬虫或自动化工具产生的流量。

3.2 new gTLD域名提取

根据ICANN发布的官方new gTLD列表(截至2023年1月),从清洗后的数据中提取所有以new gTLD结尾的FQDN。进一步将FQDN解析为二级域名(SLD)与子域名结构,例如mail.user123.shop解析为SLD user123.shop,子域名为mail。最终共提取出127,458个唯一SLD,归属于327个不同的new gTLD。

3.3 标签标注

为构建监督学习数据集,需对上述SLD进行恶意性标注。我们采用多源交叉验证策略:

黑名单匹配:比对AlienVault OTX、Cisco Talos Intelligence、URLhaus等公开恶意域名数据库;

威胁情报平台:接入商业威胁情报API,获取域名信誉评分;

人工审核:对争议样本进行人工验证,检查网页内容、SSL证书、WHOIS信息等。

最终将SLD分为两类:恶意(malicious)与良性(benign)。经标注,共识别出8,932个恶意SLD,占总数的7.0%。其余118,526个为良性SLD。数据集按7:1.5:1.5比例划分为训练集、验证集与测试集。

4. new gTLD解析行为的多维度刻画

为系统分析new gTLD的使用生态,本文从以下五个维度对其解析行为进行量化刻画。

4.1 二级域名数量分布(SLD Count)

统计每个new gTLD下注册的唯一SLD总数,反映其注册活跃度。定义:

4.2 查询总量与活跃度(Query Volume)

4.3 查询失败率(NXDOMAIN Rate)

4.4 内容复制行为识别(Content Replication)

基于HTTP响应指纹(如HTML哈希、标题文本)识别多个SLD是否托管相同或高度相似的内容。定义复制率:

高复制率常与钓鱼网站群、仿冒页面相关。通过部署轻量级爬虫对部分高风险SLD进行采样,验证了该指标的有效性。

4.5 承载基础设施共享度(Infrastructure Sharing)

分析同一gTLD下SLD所解析到的IP地址、AS号、CDN服务商的分布情况。使用熵值衡量集中度:

5. 恶意new gTLD域名的行为特征分析与特征构建

在完成gTLD粒度的行为刻画后,本文进一步深入分析个体SLD层面的恶意行为特征,以构建分类模型的输入特征向量。

6. 检测模型设计与实验评估

6.1 模型选择与训练

采用随机森林(Random Forest)作为基础分类器,因其具有以下优势:

能有效处理非线性关系与特征交互;

对异常值和噪声具有较强鲁棒性;

支持特征重要性排序,增强模型可解释性。

设置树数量为200,最大深度为10,其余参数采用默认值。在训练集上进行5折交叉验证调优。

6.2 评估指标

使用准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1-score及AUC作为评估指标。

6.3 实验结果

在测试集上的性能对比如下表所示:

方法

准确率

精确率

召回率

F1-score

AUC

本文方法(RF + 多维特征)

94.1%

92.8%

91.5%

92.1%

0.963

仅字符串特征(SVM)

83.4%

79.2%

76.8%

78.0%

0.851

仅DNS行为(LSTM)

86.7%

81.3%

80.1%

80.7%

0.879

图神经网络(GNN)

89.2%

85.6%

84.3%

84.9%

0.912

结果表明,本文方法在各项指标上均显著优于对比方法。特别是召回率提升明显,说明能更有效地捕获隐蔽的恶意实例。

6.4 特征重要性分析

通过随机森林内置的特征重要性评估,排序前五的特征为:

该结果验证了基础设施集中性与解析行为异常在恶意检测中的关键作用。

6.5 案例分析

选取.xyz后缀下的两个SLD进行对比:

secure-login.xyz:被标记为恶意,其FQDN数量达2,300+,IP变更频繁,内容与知名银行高度相似;

myblog.xyz:良性个人博客,FQDN少,IP稳定,用户分布广泛。

所提模型正确识别两者,且决策依据与特征分析一致。

7. 结语

本文针对new gTLD环境下恶意域名识别准确率低的问题,提出了一种基于多维度解析行为特征的检测方法。通过分析顶级域名层级的注册与解析生态,并深入挖掘个体域名在FQDN生成、用户分布、基础设施使用等方面的行为差异,构建了包含14维特征的向量空间。基于随机森林的分类模型在真实数据集上实现了94.1%的准确率,显著优于现有方法。研究结果表明,结合宏观生态特征与微观行为指标,能够有效提升对new gTLD恶意域名的识别能力。

未来工作将从三方面展开:一是引入时间动态特征,建模域名行为的演化过程;二是探索无监督或半监督学习,以应对标签数据稀缺场景;三是将检测框架部署至实际网络环境中,进行在线验证与性能优化。

编辑:芦笛(公共互联网反网络钓鱼工作组)

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档