本次汇报是《寒蝉效应》篇的前番,主要集中在论文中数据的来源和获取方式,包括在使用爬虫过程中所面临的问题,以及可能的解决方法。
问题归纳下来主要有:1.目标网站防爬使得爬虫进行的异常艰难;2.目标网站架构遍历困难,主要是二叉树的遍历,在爬虫程序设计过程中会面临很多意想不到的问题;3.爬虫程序设计,错误或者不当的流程会增加爬虫的难度,耗时耗力,还容易卡死;
解决办法:1.针对第一条,可使用云采集,这样的方式可以突破一部分网站,但是对于一些专为数据经营的网站却起不到很好的效果,目前没有找到合适的方法,除非购买数据库;2.第二条,手工遍历第二层树,但对程序而言非常耗时,同样也很耗作者精力;3.第三条,多学多练,熟能生巧,依次突破不必要的错误。
领取专属 10元无门槛券
私享最新 技术干货