学了爬虫之后,可以根据网站节点规律爬取一些有用的信息,进行分析。当然也可以从用这种技术做一些更好玩的事情,比如遍历域名,然后根据设定的关键字来检查这个域名代表的网站的内容是什么偏向的,比如偏向是污污的那种。
思路
思路比较简单。首先是遍历网站 ,遍历到某个网站的时候,只需要这个网站首页的文本内容。然后设立一些有偏向的关键字,比如美女、性感什么的,这个时候使用正则表达式对整个网页进行匹配,如果匹配数量足够多,就可以判定这是一个有某种偏向的网站。
实现
遍历
这个没啥技术含量,来个for循环就ok了,因为网站实在太多,多少位都有可能,我们也不期望把全世界的小网站都找出来,就自己设定一下某个范围的就可以了。然后为了让爬取效率更高一些,这里使用多线程爬取。
爬取匹配
说到底就两句话。获取首页内容,用正则表达式匹配相似度。
扩展
因为 Jsoup是一个很好的第三方爬虫工具,所以本文就用了这个类库。但是只用这个工具做了一步获取网站文本内容的工作。其实这一步也完全可以自己用输入流来实现。自己写的话也会比较自由,我记得之前遇到Jsoup里面有一个坑,拿出来的东西是乱码,最后这一步还是用自己写的东西解决的。
最后
最后就可以尽情浏览啦~~打完收工!
如果把关键字换成其他偏向的,也可以找出其他类型的网站。
本周的技术文章按计划写不出来了,只能找以前大学写的文章顶一顶了。下面附送渣画一张。好了,最后大家都不认识我是谁。。。
欢迎关注~~
领取专属 10元无门槛券
私享最新 技术干货