基于域名的恶意网站检测
0x00. 数据来源
0x01. 基于网页内容的判别方法
0x02. 基于域名数据的判别方法
0x03. 参考文献
0x00....即时通讯软件向服务器拉取数据使用的域名xx.imtmp.net, 反向PTR查询使用的域名xx.in-addr.arpa等;
去掉一些知名域的子域名, 如xx.qq.com, xx.gov.cn等....基于域名数据的判别方法
参考两篇论文中对域名数据特征的选择, 可以分为两个方面, 一方面是词法特征, 另一个方面是网络属性, 以下先对所有的属性进行汇总:
以下是对两篇论文中域名数据的汇总和筛选...的出现次数统计, 可以看出赌博色情网站比正常网站的分隔符略多
第三个是对特殊字符的出现频率检测, 在这一项上两者没有表现出特别大的区别
第四个是数字占域名总长度比例的统计, 对正常域名来说,...数字的比例几乎都小于0.1, 而赌博色情网站的比例则分布的比较平均
第五个是分隔符内数字个数的最大值, 它与上一项的主要差别在于与总长度无关, 同样的, 对正常域名来说, 很少出现大于2个的数字