nutch配置mysql - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

Nutch获取已经获取的URL

我试着用Nutch抓取网站。我使用命令： plug

浏览 1提问于2015-01-15得票数 0

1回答

构建Nutch插件:类依赖

、、

our module name--> </publications> <dependency org="mysql" name="mysql-connector-java" rev="5.1.31"/> <dependency org="net.sourceforge.htmlcle

浏览 1提问于2015-04-14得票数 0

2回答

使用MongoDB编译Nutch2.2.1时出错，无法从声呐/ant/antlib.xml加载定义

、、

我希望将Nutch2.2.1编译成与MongoDB一起使用的数据存储。"org.apache.gora" name="gora-mongodb" rev="0.5" conf="*->default" />gora.mongodb.servers=localhost:2

浏览 1提问于2015-01-13得票数 1

回答已采纳

1回答

是否有人尝试使用ApacheNutch2.3和MySQL？有些人说Nutch2.3不能再使用MySQL，但是看看ivy.xml中的组件，MySQL仍然在可能的依赖项列表中。-- Uncomment this to use MySQL as database with SQL as Gora store. --> <dependency org="mysql" name="mysql-connector-java" r

浏览 4提问于2016-01-19得票数 1

回答已采纳

1回答

本地Eclipse中的Apache Nutch 1.9将在Amazon EMR上远程运行

、、、、

我现在正在尝试从我的Eclipse内部运行Apache Nutch 1.9。我做了Ant构建来创建Nutch Eclipse项目，并且我正在成功地在Eclipse工作区中导出。您能指导我如何让我的Apache Nutch Eclipse项目在Amazon EMR上运行，而不是在本地运行吗？我不想创建一个JAR并运行它。我想在Eclipse中像往常一样运行它-->。

浏览 2提问于2015-04-20得票数 0

1回答

用Nutch2.3配置MongoDB，关于indexerJob的一些错误？

、

我已经成功地配置了MongoDB(5.3.1)和Nutch(2.3)，当我运行命令"./bin/nutch index -all“时，在inject/generate/fetch/fetch/parse/updatedb命令工作后打印出一些错误，错误详细信息如下： at

浏览 1提问于2016-03-18得票数 1

2回答

将urls从mysql而不是seed.txt注入Apache Nutch

、

我是Apache Nutch的新手，我想从mysql数据库中动态注入urls。Apache Nutch提供了这样的可能性吗？如果没有，有没有类似的实验可供我借鉴？或者有什么建议？

浏览 2提问于2016-09-16得票数 2

1回答

输出到solr的nutch服务器

、

我有rest nutch服务器，我可以创造就业机会和一切。如何将nutch服务器配置为输出到solr？在conf文件中没有找到任何配置(nutch-site，nutch-默认)

浏览 2提问于2016-05-18得票数 0

回答已采纳

1回答

如何使用solr的DIH deltaimport导入nutch导出的mysql数据

、、、

我想使用solr的DIH deltaimport来导入nutch导出的mysql数据，但是nutch的mysql数据没有时间戳字段。我尝试从Mysql导入的原因是，我想将抓取数据合并到其他url管理表中。爬网数据中的"modifiedTime“字段为bigInt而不是timeStamp，并且始终为空。nutch 2.1 Solr 3.6

浏览 0提问于2013-12-07得票数 0

2回答

提供带有自定义文件的EMR节点

、、、

问题是，Nutch找不到插件类(我在用-Dplugin.folders指定插件位置)。我在本地测试了这个选项，它运行良好：java -cp app.jar -Dplugin.folders=./nutch-plugins。at org.apache.nutch.net.URLNormalizers.=hdfs:///tmp/nutch-pluginshadoop fs -cp file:///tmp/

浏览 0提问于2019-07-24得票数 1

回答已采纳

1回答

线程FetcherThread没有更多可用的工作。获取. .com/ failed : java.net.SocketTimeoutException: connect

当给bin/nutch获取$s1时，跟随面临以下问题-finishing thread FetcherThreadactiveThreads=1, spinWaiting=0, fetchQueues.totalSize=0, fetchQueues.getQueueCount=1 fetch of http://nutch.apache.org

浏览 1提问于2016-01-13得票数 1

回答已采纳

1回答

可以使用solr-web插件为Liferay创建静态索引字段吗？

、、、

我需要与Nutch中的以下配置类似的配置 <name>index.static</name> </property> 这会将字段"source“作为索引添加到Nutch中的所有文档中，并将其值作为"nutch”。

浏览 0提问于2012-07-20得票数 0

1回答

nutch爬行被卡在旋转等待或活动。如何减少取货周期？

、、

我正在使用Nutch2.1和爬行一个网站。问题是，爬行器一直显示抓取url、旋量/活动，而且由于抓取花费了大量时间，所以到mysql的连接会超时。如何减少每次获取的次数，这样mysql就不会得到超时？？在nutch中是否有这样的设置:只获取100或500个urls，然后解析并存储到mysql，然后再获取下一个100或500个urls？org.apache.hadoop.mapreduce.TaskInputOutputContext.write(TaskInputOutputContext.ja

浏览 5提问于2013-01-02得票数 1

1回答

nutch + mysql集成

当nutch在索引阶段完成它的循环(即爬取-解析-索引)时，我不希望nutch索引(lucene索引)，但我希望nutch使用我的代码将所有抓取的数据(我相信他将它们作为NutchDocument对象)放到mysql中。

浏览 2提问于2010-07-12得票数 1

回答已采纳

1回答

可以找到或加载主类org.apache.nutch.crawl.InjectorJob

、、

错误：could to find or load main class org.apache.nutch.crawl.InjectorJobsrc/bin/nutch inject

浏览 4提问于2015-03-09得票数 8

1回答

如何将Apache Nutch配置为忽略某些url模式

我正在使用Apache Nutch爬行一个网站。在爬行时，我希望nutch忽略多个url模式，如 on...， on..等。我知道如何配置regex-urlfilter.txt文件来抓取特定的url。但我不知道如何配置nutch忽略某些url模式？

浏览 1提问于2013-07-10得票数 0

回答已采纳

1回答

nutch crawl不使用seed.txt中的所有条目

、

我正在使用 apache-nutch-1.6，我可以成功抓取网站。我的问题是并非使用了seed.txt 文件中的所有条目。这取决于里面有哪些站点。那么有没有限制爬多少？没有错误信息。

浏览 0提问于2014-06-06得票数 0

2回答

在hadoop群集上使用HBase进行Nutch 2.2.1设置

、、、、

我已经参考了本教程()来使用Hbase设置Nutch2.2.1。我已经完成了教程中给出的设置，但是没有清楚地提到如何抓取数据并将数据存储到Hbase表中。

浏览 3提问于2014-01-15得票数 3

1回答

Nutch/Hadoop: regex-Normize.xml和regex-urlfilter.txt找不到错误，即使它们存在

、、

我正在尝试通过eclipse运行nutch和hadoop，并按照几个教程进行了设置。org.apache.hadoop.conf.Configuration - regex-normalize.xml not found 4473 [LocalJobRunner Map Task Executor #0] WARN org.apache.nutch.net.urlnormalizer.regex.RegexURLNormalizer4477 [LocalJobRunner Map Task Executor #0] DEBUG org.apache.<em

浏览 13提问于2019-11-08得票数 0

回答已采纳

1回答