Apache Nutch不公开其API

文章/答案/技术大牛

发布

1回答

、、

我正在尝试使用Apache Nutch 1.x Rest API。我使用docker镜像来设置Nutch和Solr。您可以在中查看演示存储库 Apache Nutch使用Solr作为其依赖项。但是，我无法在localhost:8081上访问Apache Nutch的API。问题从这里开始。Apache Nutch 1.X RESTAPI 表明我可以像下面这样启动服务器2. :~$

浏览 20提问于2021-06-12得票数 3

回答已采纳

1回答

在windows 7上构建nutch 2.1时出错，无法从资源org/sonar/ant/antlib.xml加载定义

、

; C:\apache-nutch-2.1\src\java\org\apache\nutch\api\ConfResource.java-2.1\src\java\org\apache\nutch\api\DbReader.java:29: error: package org.apache.avro.util does not exist\java\or

浏览 2提问于2013-01-26得票数 1

1回答

nutch on Hadoop on google cloud- gloud dataproc

、、、

当我试图在google (dataproc)上运行hadoop上的nutch时，我得到了以下错误。你知道我为什么要面对这个问题吗 user@cluster-1-m:~/apache-nutch-1.7/build$ hadoop jar /home/user/apache-nutch-1.7/runtime/deploy/apache-nutch-1.7.job org.apache

浏览 6提问于2016-09-11得票数 1

1回答

找不到或无法加载主类org.apache.nutch.tools.FileDumper

、、、

我正在尝试从Python函数发出Apache Nutch命令，该命令通过subprocess模块在Windows和Cygwin上运行。但是，虽然我可以找到nutch，但我似乎无法对其运行转储命令。/nutch/runtime/local/bin/nutch dump -segment test/segments -outputDir outputDir -flatdir -mimetype audio/nutc

浏览 1提问于2020-05-03得票数 0

1回答

如何在Eclipse中配置Nutch

、、

我想在Eclipse中为SOLR配置Nutch源代码。致以敬意， Jayesh Bhoyar

浏览 1提问于2014-04-30得票数 0

回答已采纳

1回答

将Apache* Tika应用于Solr而不是Nutch有什么好处*

、、

我正在尝试使用Apache Nutch抓取数据，并使用Apache Solr对其进行索引。作为其中的一部分，我还想解析内容。我在想，把Tika应用于Nutch，Solr，还是两者兼而有之，哪个更好。

浏览 0提问于2014-10-22得票数 0

1回答

Apache 2.3.1 Fetcher给出无效的uri异常

、、、、

Nutch在获取时为少数URL提供了异常。<init>(HttpMethodBase.java:222) at org.apache.nutch.protocol.httpclient.HttpResponse.<init>(HttpResponse.java:77) at org.apache

浏览 4提问于2018-03-20得票数 0

回答已采纳

1回答

solr 6.5和nutch* 1.12*

、、、

java.lang.RuntimeException: java.lang.IllegalArgumentException: No form exists: user-login at org.apache.nutch.protocol.httpclient.Http.getResponse(Http.java:180) at org.<em

浏览 2提问于2017-07-06得票数 0

1回答

Apache Nutch 1.16 Fetcher reducers？

、、

根据Apache Nutch1.16Fetcher类实现here - https://github.com/apache/nutch/blob/branch-1.16/src/java/org/apache/nutch/fetcher/Fetcher.java，这是一个只有map的任务。所以我的问题是，为什么不设置job.setNumredu

浏览 15提问于2020-07-21得票数 0

1回答

使用java.lang.NumberFormatException获取nutch失败

(Configuration.java:1486) at org.apache.nutch.protocol.http.Http.setConf(Http.java:52) at org.apache.nutch.plugin.Extension.getExtensionInstance(Extens

浏览 7提问于2021-03-16得票数 0

4回答

你以前用过elasticsearch索引过nutch抓取结果吗？

、、、、

有没有人有幸为nutch编写了自定义索引器，以便使用elasticsearch对爬行结果进行索引？或者你知道已经存在的吗？

浏览 1提问于2011-05-16得票数 8

回答已采纳

1回答

Nutch REST弹性转向器中的未知问题

、

我试图使用REST端点公开nutch，并在indexer阶段遇到了一个问题。我使用elasticsearch索引编写器将文档索引到ES。我使用了$nutch_HOME/运行时/部署/bin/nutch startserver命令。当索引未知异常时，将引发。在org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:865) at org.apache.nutch.indexe

浏览 8提问于2016-10-07得票数 3

回答已采纳

1回答

当旧的Nutch* crawldb丢失时，如何从Solr中删除丢失的页面？*

、

假设我运行Apache Nutch来抓取一个网站，它将文档添加到Apache Solr核心。假设我现在删除了包含crawldb的Apache Nutch目录。通常，有了旧的crawldb，Nutch将尝试从以前的爬行中获取它所知道的所有页面，并且对于给出404的页面，它将指示Solr从其索引中删除它们。然而，在我的例子中，我删除了旧的crawldb，所以Nutch将从头开始爬行，它将不知道以前可用的页面，现在是404。如果旧的Nutch</em

浏览 0提问于2019-08-02得票数 0

1回答

Nutch:失败: java.net.SocketException:连接重置

、

下面是完整的堆栈跟踪：2013-10-09 00:34:05,923 ERROR org.apache.nutch.protocol.httpclient.Http(HttpClient.java:324) at org.<

浏览 5提问于2013-10-08得票数 0

1回答

在Windows上安装Apache

、、、

我正试图在Windows 7 (64位)上将Apache与Apache 1.14集成，但在运行Nutch时遇到了一个错误。/home/apache-nutch-1.14/bin/nutch inject TestCrawl/crawldb urls/Injector: java.io.IOExcept

浏览 3提问于2018-06-20得票数 1

1回答

卡桑德拉的Nutch* 2.3.1号无法启动*

、、

(NutchJob.java:120) at org.apache.nutch.crawl.GeneratorJob.generate(GeneratorJob.java:256) atorg.<

浏览 6提问于2016-02-03得票数 1

回答已采纳

1回答

SOLR中的索引:修正分析器以避免产生巨大的术语

、、、、

:文档在field=中至少包含一个巨大的术语“content”(其UTF8编码长度大于最大长度32766)，所有这些都被跳过。在org.apache.nutch.indexwriter.solr.SolrIndexWriter.close(SolrIndexWriter.java:153) at org.apache.nutch.indexer.IndexWriters.close在org.apache.hadoop.mapred.JobClient.runJob(JobClient.j

浏览 8提问于2016-06-21得票数 0

1回答

Nutch -不爬行，说“停止在depth=1 -没有更多的URL来获取”

、

我要抓取的网址是http://172.30.162.202:10200/，它是不可公开访问的。这是一个可以从Solr服务器访问的内部URL。我试着用Lynx浏览了一下。at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1252) at org.apache.<em

浏览 2提问于2012-07-29得票数 0

2回答

爬行版本控制系统

、、、、

Nutch有没有什么插件可以抓取这些信息，或者是抓取整个存储库的最佳方式。我甚至想使用Nutch抓取公共托管版本控制系统的版本。有没有插件可以做同样的事情。

浏览 1提问于2012-01-11得票数 0

1回答

如何使用apache* Nutch 2.3每天从web上抓取100万个文档*

、、、、

我已经使用hadoop 1.2.1和hbase 0.94.x配置了apache nutch 2.3。我不得不在网上爬行几个星期。需要抓取大约一百万个文档。我有四个节点的hadoop集群。在此配置之前，我在单机上设置了nutch，并抓取了一些文档。但爬行速度不超过50k ~ 80k。nutch的配置应该是什么，这样它才能每天抓取所需的文档量。

浏览 0提问于2015-12-01得票数 1

点击加载更多