腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
Nutch
获取已经获取的URL
我试着用
Nutch
抓取网站。我使用命令: plug
浏览 1
提问于2015-01-15
得票数 0
1
回答
构建
Nutch
插件:类依赖
、
、
our module name--> </publications> <dependency org="
mysql
" name="
mysql
-connector-java" rev="5.1.31"/> <dependency org="net.sourceforge.htmlcle
浏览 1
提问于2015-04-14
得票数 0
2
回答
使用MongoDB编译
Nutch
2.2.1时出错,无法从声呐/ant/antlib.xml加载定义
、
、
我希望将
Nutch
2.2.1编译成与MongoDB一起使用的数据存储。"org.apache.gora" name="gora-mongodb" rev="0.5" conf="*->default" />gora.mongodb.servers=localhost:2
浏览 1
提问于2015-01-13
得票数 1
回答已采纳
1
回答
ApacheNutch2.3和
MySQL
、
是否有人尝试使用ApacheNutch2.3和
MySQL
?有些人说
Nutch
2.3不能再使用
MySQL
,但是看看ivy.xml中的组件,
MySQL
仍然在可能的依赖项列表中。-- Uncomment this to use
MySQL
as database with SQL as Gora store. --> <dependency org="
mysql
" name="
mysql
-connector-java" r
浏览 4
提问于2016-01-19
得票数 1
回答已采纳
1
回答
本地Eclipse中的Apache
Nutch
1.9将在Amazon EMR上远程运行
、
、
、
、
我现在正在尝试从我的Eclipse内部运行Apache
Nutch
1.9。我做了Ant构建来创建
Nutch
Eclipse项目,并且我正在成功地在Eclipse工作区中导出。您能指导我如何让我的Apache
Nutch
Eclipse项目在Amazon EMR上运行,而不是在本地运行吗?我不想创建一个JAR并运行它。我想在Eclipse中像往常一样运行它-->。
浏览 2
提问于2015-04-20
得票数 0
1
回答
用
Nutch
2.3
配置
MongoDB,关于indexerJob的一些错误?
、
我已经成功地
配置
了MongoDB(5.3.1)和
Nutch
(2.3),当我运行命令"./bin/
nutch
index -all“时,在inject/generate/fetch/fetch/parse/updatedb命令工作后打印出一些错误,错误详细信息如下: at
浏览 1
提问于2016-03-18
得票数 1
2
回答
将urls从
mysql
而不是seed.txt注入Apache
Nutch
、
我是Apache
Nutch
的新手,我想从
mysql
数据库中动态注入urls。Apache
Nutch
提供了这样的可能性吗?如果没有,有没有类似的实验可供我借鉴?或者有什么建议?
浏览 2
提问于2016-09-16
得票数 2
1
回答
输出到solr的
nutch
服务器
、
我有rest
nutch
服务器,我可以创造就业机会和一切。 如何将
nutch
服务器
配置
为输出到solr?在conf文件中没有找到任何
配置
(
nutch
-site,
nutch
-默认)
浏览 2
提问于2016-05-18
得票数 0
回答已采纳
1
回答
如何使用solr的DIH deltaimport导入
nutch
导出的
mysql
数据
、
、
、
我想使用solr的DIH deltaimport来导入
nutch
导出的
mysql
数据,但是
nutch
的
mysql
数据没有时间戳字段。我尝试从
Mysql
导入的原因是,我想将抓取数据合并到其他url管理表中。爬网数据中的"modifiedTime“字段为bigInt而不是timeStamp,并且始终为空。
nutch
2.1 Solr 3.6
浏览 0
提问于2013-12-07
得票数 0
2
回答
提供带有自定义文件的EMR节点
、
、
、
问题是,
Nutch
找不到插件类(我在用-Dplugin.folders指定插件位置)。我在本地测试了这个选项,它运行良好:java -cp app.jar -Dplugin.folders=./
nutch
-plugins。at org.apache.
nutch
.net.URLNormalizers.=hdfs:///tmp/
nutch
-pluginshadoop fs -cp file:///tmp/
浏览 0
提问于2019-07-24
得票数 1
回答已采纳
1
回答
线程FetcherThread没有更多可用的工作。获取. .com/ failed : java.net.SocketTimeoutException: connect
当给bin/
nutch
获取$s1时,跟随面临以下问题-finishing thread FetcherThreadactiveThreads=1, spinWaiting=0, fetchQueues.totalSize=0, fetchQueues.getQueueCount=1 fetch of http://
nutch
.apache.org
浏览 1
提问于2016-01-13
得票数 1
回答已采纳
1
回答
可以使用solr-web插件为Liferay创建静态索引字段吗?
、
、
、
我需要与
Nutch
中的以下
配置
类似的
配置
<name>index.static</name> </property> 这会将字段"source“作为索引添加到
Nutch
中的所有文档中,并将其值作为"
nutch
”。
浏览 0
提问于2012-07-20
得票数 0
1
回答
nutch
爬行被卡在旋转等待或活动。如何减少取货周期?
、
、
我正在使用
Nutch
2.1和爬行一个网站。问题是,爬行器一直显示抓取url、旋量/活动,而且由于抓取花费了大量时间,所以到
mysql
的连接会超时。如何减少每次获取的次数,这样
mysql
就不会得到超时??在
nutch
中是否有这样的设置:只获取100或500个urls,然后解析并存储到
mysql
,然后再获取下一个100或500个urls?org.apache.hadoop.mapreduce.TaskInputOutputContext.write(TaskInputOutputContext.ja
浏览 5
提问于2013-01-02
得票数 1
1
回答
nutch
+
mysql
集成
当
nutch
在索引阶段完成它的循环(即爬取-解析-索引)时,我不希望
nutch
索引(lucene索引),但我希望
nutch
使用我的代码将所有抓取的数据(我相信他将它们作为NutchDocument对象)放到
mysql
中。
浏览 2
提问于2010-07-12
得票数 1
回答已采纳
1
回答
可以找到或加载主类org.apache.
nutch
.crawl.InjectorJob
、
、
错误:could to find or load main class org.apache.
nutch
.crawl.InjectorJobsrc/bin/
nutch
inject
浏览 4
提问于2015-03-09
得票数 8
1
回答
如何将Apache
Nutch
配置
为忽略某些url模式
我正在使用Apache
Nutch
爬行一个网站。在爬行时,我希望
nutch
忽略多个url模式,如 on..., on..等。我知道如何
配置
regex-urlfilter.txt文件来抓取特定的url。 但我不知道如何
配置
nutch
忽略某些url模式?
浏览 1
提问于2013-07-10
得票数 0
回答已采纳
1
回答
nutch
crawl不使用seed.txt中的所有条目
、
我正在使用 apache-
nutch
-1.6,我可以成功抓取网站。我的问题是并非使用了seed.txt 文件中的所有条目。这取决于里面有哪些站点。那么有没有限制爬多少?没有错误信息。
浏览 0
提问于2014-06-06
得票数 0
2
回答
在hadoop群集上使用HBase进行
Nutch
2.2.1设置
、
、
、
、
我已经参考了本教程()来使用Hbase设置
Nutch
2.2.1。我已经完成了教程中给出的设置,但是没有清楚地提到如何抓取数据并将数据存储到Hbase表中。
浏览 3
提问于2014-01-15
得票数 3
1
回答
Nutch
/Hadoop: regex-Normize.xml和regex-urlfilter.txt找不到错误,即使它们存在
、
、
我正在尝试通过eclipse运行
nutch
和hadoop,并按照几个教程进行了设置。org.apache.hadoop.conf.Configuration - regex-normalize.xml not found 4473 [LocalJobRunner Map Task Executor #0] WARN org.apache.
nutch
.net.urlnormalizer.regex.RegexURLNormalizer4477 [LocalJobRunner Map Task Executor #0] DEBUG org.apache.<em
浏览 13
提问于2019-11-08
得票数 0
回答已采纳
1
回答
使用
Nutch
转储外国图像
、
> <img src="http://foo.bar/img"/></body>
Nutch
现在我正在使用几乎默认的
配置
。如何
配置
nutch
从其他域获取外国图像? 更新:我从代码中运行了4个解析周期,这是
浏览 2
提问于2019-04-17
得票数 0
回答已采纳
点击加载更多
相关
资讯
MySql主从配置
MYSQL权限配置
MySQL最佳安全配置-权限安全配置
MySql读写分离配置
MySQL 系统变量配置基础
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券