首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    java爬虫爬取Elastic中文社区用作es测试数据

    前言 为了测试es的完美功能,笔者使用爬虫爬取了Elastic中文社区和CSDN的大量数据,作为测试之用,下面简单介绍一下折腾的过程 认识 WebCollector WebCollector...WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取。 WebCollector致力于维护一个稳定、可扩的爬虫内核,便于开发者进行灵活的二次开发。...官网地址:http://crawlscript.github.io/WebCollector/ 使用步骤 导入jar依赖,笔者是maven项目,所有加入如下pom.xml依赖 cn.edu.hfut.dmic.webcollector...WebCollector 2.29 ps:笔者这里是使用的最新版的,maven仓库目前最新版的是2.09,所以使用最新的就自己下载打包吧  环境有了后,直接新建一个类继承BreadthCrawler...ipaDao.save(pa); } } } ps:Elastic中文社区的爬取规则和谐了,楼主是爱社区的,大家可以放心的爬CSDN吧,WebCollector

    12321
    领券