使用Elasticsearch的Nutch以外的爬虫程序

、、

当我设置我的数据系统时，我正在尝试获得一些建议。我想设置一个网络爬行系统。它可能会定期抓取几百/上千个站点。我知道Nutch并且用过Nutch，但是我想知道其他人是否知道比Nutch更好的爬虫。我还使用了Elasticsearch作为索引器，很难让Nutch与更新版本的ES一起工作。

浏览 10提问于2018-02-01得票数 1

回答已采纳

1回答

风暴爬行器爬行和分度

、、、

我曾与Nutch1x合作爬行网站，并使用Elasticsearch索引数据。我最近遇到了风暴爬虫，并且喜欢它，特别是它的流性质。我必须插入并创建风暴爬虫发送数据到的ES服务器的映射吗？有了Nutch，只要我启动和运行ES索引，映射就会自行处理.除了一些微调。风暴爬虫也是一样的吗？或者我必须插入索引和之前的映射吗？

浏览 3提问于2017-05-31得票数 2

回答已采纳

2回答

Nutch没有正确使用Mongodb对弹性搜索进行索引

、、

我运行的是Nutch 2.3.1、Mongodb 3.2.9和Elasticsearch 2.4.1。我遵循了本教程的混合内容： # bin/nutch index elasticsearch -allIndexingJob: starting Active IndexWriters我<

浏览 0提问于2016-10-05得票数 1

回答已采纳

1回答

支持windows增量爬行的Web爬虫

、、、、

我需要一个开源的web爬虫在java开发的增量爬行支持。 N

浏览 4提问于2014-09-22得票数 1

回答已采纳

1回答

我正在尝试建立一个网络爬虫使用Nutch2.3+ Mongodb+ elasticsearch 1.7。我已经在nutch中配置了mongodb存储，它工作得很好。但是，当我运行at org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:211) 但我甚至没有使用Solr。我的nutch-site.xml配置为弹性搜索。<em

浏览 0提问于2016-10-07得票数 1

4回答

你以前用过elasticsearch索引过nutch抓取结果吗？

、、、、

有没有人有幸为nutch编写了自定义索引器，以便使用elasticsearch对爬行结果进行索引？或者你知道已经存在的吗？

浏览 1提问于2011-05-16得票数 8

回答已采纳

1回答

使用Nutch搜索堆栈组件

、

我试图理解Nutch 1.x和Nutch 2.x之间的区别，如果我只是尝试使用Nutch爬行几百个网站，然后将数据索引到Elasticsearch v2.3.0Nu

浏览 3提问于2017-05-18得票数 0

回答已采纳

1回答

Nutch API建议

、、

我正在做一个项目，我需要一个成熟的爬虫来做一些工作，我正在为这个目的评估Nutch。我目前的需求相对简单:我需要一个能够将数据保存到磁盘的爬虫程序，并且我需要它能够仅重新爬取站点的更新资源，并跳过已经爬取的部分。有没有人有在Java中直接使用Nutch代码的经验，而不是通过命令行。我想从简单开始:创建一个爬虫(或类似的)，最低限度地配置它并启动它，没有任何花哨<e

浏览 0提问于2010-12-03得票数 6

回答已采纳

1回答

在谷歌应用程序引擎上为选定的网站运行网络爬虫？

、、

我需要写一个爬虫来提取一些信息从一些预先选定的网站只。也许我可以尝试Nutch为我做这件事。这种方法的可行性有多大？1)在google基础设施上托管爬虫2) Nutch +应用引擎-这可能吗？

浏览 2提问于2010-12-06得票数 3

1回答

如何修复纳奇爬虫中已经存在的.locked？

我是nutch的初学者。当我使用bin/nutch爬行命令重新搜索时，已经存在一个.locked错误。 /home/crawler_user/apache-nutch-1.14/bin/nutch反向链接/数据/爬虫_user/nutch/crawler data/LinkDb /data

浏览 1提问于2019-04-23得票数 0

2回答

哪种开源爬虫是最好的？

、

我正在比较这四个Nutch / Heritrix / OpenPipeLine / Apache Tika，哪一个最好？每一个都有什么优点和缺点？我想有一些可扩展的爬虫，可以抓取一个网站的列表，如果需要可以修改。

浏览 1提问于2011-12-07得票数 5

1回答

nutch生成器是否使用CrawlDB进行初始链接？

、

我知道初始种子是由平面文件提供的。然而，这些urls被注入到哪里呢？是crawlDB吗？如果是这样，爬虫抓取的新链接是否会存储回crawlDB？当系统关闭时会发生什么，crawlDB会在下一次nutch启动时刷新吗？实际上，我希望nutch在系统关闭的情况下从它停止的地方继续爬行。

浏览 8提问于2016-09-09得票数 1

回答已采纳

1回答

我想抓取推特和脸书

、、、

我现在正在做一个爬虫。它支持web、Facebook和Twitter。我的导师说它需要支持使用Facebook和Twitter API来获取帖子，但我不知道怎么做。我正在使用Solr作为搜索引擎，并计划使用Nutch进行网络爬行。我看到Nutch不支持这些API。你能推荐其他的网络爬虫或使用Nutch或其他方式获取帖子的方法吗？非常感谢！

浏览 4提问于2014-11-02得票数 0

3回答

Web爬虫-如何构建访问的url集？

、、、、

我已经在rabbitMQ上实现了一个分布式网络爬虫。除了访问的url集之外，一切几乎都完成了。我希望在不同的爬虫之间有某种共享的变量。此外，正如我一直读到的，这个url集的大小将是巨大的，应该存储在磁盘中。在分布式环境中存储、访问和共享访问过的urls列表的最佳方法是什么？

浏览 6提问于2017-04-29得票数 0

1回答

Solr是否有必要为Nutch的爬网数据建立索引？

、、

我发现Nutch 1.4只包含一个索引器/solrindex。Solr是Nutch索引爬行数据的唯一方法吗？如果没有，还有其他方法吗？我也想知道为什么Nutch 1.4使用Solr来索引数据。

浏览 0提问于2012-04-23得票数 1

回答已采纳

1回答

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

风暴爬行器爬行和分度

Nutch没有正确使用Mongodb对弹性搜索进行索引

支持windows增量爬行的Web爬虫

SolrIndexerJob:运行时错误

你以前用过elasticsearch索引过nutch抓取结果吗？

使用Nutch搜索堆栈组件

Nutch API建议

在谷歌应用程序引擎上为选定的网站运行网络爬虫？

如何修复纳奇爬虫中已经存在的.locked？

哪种开源爬虫是最好的？

nutch生成器是否使用CrawlDB进行初始链接？

我想抓取推特和脸书

Web爬虫-如何构建访问的url集？

Solr是否有必要为Nutch的爬网数据建立索引？

使用apache nutch对solr中的结构进行索引

风暴爬虫-技术栈和Apache Nutch

浏览器限制会影响网页爬虫吗？

我可以单独使用solr吗

bin/nutch弹性索引的文档

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐