基于域名的恶意网站检测
0x00. 数据来源
0x01. 基于网页内容的判别方法
0x02. 基于域名数据的判别方法
0x03. 参考文献
0x00....然后通过爬虫爬取剩余网站列表的内容,在爬取时,对http和https都无法访问的网站(包括浏览器不能建立连接/404error/无文本内容等情况),尝试访问该请求的CNAME记录,也就是别名; 若仍无法访问再请求该域名的上层次级域...的出现次数统计, 可以看出赌博色情网站比正常网站的分隔符略多
第三个是对特殊字符的出现频率检测, 在这一项上两者没有表现出特别大的区别
第四个是数字占域名总长度比例的统计, 对正常域名来说,..., 而赌博色情域名则较长出现多个数字
第六个是分隔符间的最大长度, 结果与域名总长度类似
第七个是数字字母的转换频率, 如a11b的转换频率就是2, 这一项正常域名和赌博色情域名的差别也比较大...machine(New Review of Hypermedia & Multimedia,2016)
首先对先前的分类方法进行了评估,提出在小训练集上svm的表现比贝叶斯好
然后提出在html5出现之后