腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Nutch
API
建议
、
、
我正在做一个项目,我需要一个成熟的爬虫来做一些工作,我正在为这个目的评估
Nutch
。有没有人有在Java中直接使用
Nutch
代码的经验,而不是通过命令行。我想从简单开始:创建一个爬虫(或类似的),最低限度地配置它并启动它,没有任何花哨的东西。有没有这方面的例子,或者我应该看看的资源?我正在浏览
Nutch
文档,但其中大部分都是关于命令行、搜索和其他东西的。在不需要索引和搜索的情况下,
Nutch
爬行模块的可用性如何?任何帮助都是非常感谢的。谢谢。
浏览 0
提问于2010-12-03
得票数 6
回答已采纳
2
回答
将urls从mysql而不是seed.txt注入Apache
Nutch
、
我是Apache
Nutch
的新手,我想从mysql数据库中动态注入urls。Apache
Nutch
提供了这样的可能性吗?如果没有,有没有类似的实验可供我借鉴?或者有什么
建议
?
浏览 2
提问于2016-09-16
得票数 2
1
回答
Nutch
与弹性搜索
、
我正在用Elasticsearch、AngularJS和
Nutch
构建一个小型搜索应用程序。我几乎已经完成了ES和AngularJS部分。现在是
Nutch
和ES部分的时候了,使用
Nutch
爬行并将数据索引到ES中。我一直在用
Nutch
1.10和ES 1.4。我现在看到ES达到了2.3或类似的东西,看来
Nutch
v1.11仍然使用ES v1.4。有没有人有使用
Nutch
v1.10的经验,使用任何版本大于1.4的ES (可能是esv1.5或v1.7)? 如果可能的话,我想住在
N
浏览 1
提问于2016-04-18
得票数 0
回答已采纳
1
回答
使用java.lang.NumberFormatException获取
nutch
失败
我正在使用Java openjdk版本"1.8.0_275“的Red Hat Enterprise Linux release 8.3 (Ootpa)上运行
Nutch
1.18。我正在遵循这些方向: at org.apache.hadoop.conf.Configuration.getInt(Configuration.java:1486) at org.apa
浏览 7
提问于2021-03-16
得票数 0
1
回答
如何在java应用程序中使用
Nutch
?
、
、
我想在我的java应用程序中使用
Nutch
从一个网站抓取pdf链接进行分析,我如何在我的java应用程序中使用
Nutch
来实现呢?我能举个例子吗?
浏览 5
提问于2014-11-04
得票数 4
1
回答
在windows 7上构建
nutch
2.1时出错,无法从资源org/sonar/ant/antlib.xml加载定义
、
-2.1\src\java\org\apache\
nutch
\
api
\APIInfoResource.java:23: error: package org.restlet.resource does-2.1\src\java\org\apache\
nutch
\
api
\APIInfoResource.java:24: error: package org.restlet.resource does-2.1\src\java\org\apache\
nutch
\
api
\AdminResour
浏览 2
提问于2013-01-26
得票数 1
1
回答
在ubuntu中使用
nutch
1.4
、
、
我尝试在ubuntu中使用
nutch
1.4 crawler,但是当我尝试使用
nutch
wiki中
建议
的所有设置来执行nutcg时,它给出了这个错误:bin/
nutch
crawl urls -dir crawl -depth 1 bin/
nutch
: bin
浏览 2
提问于2012-03-12
得票数 0
回答已采纳
1
回答
Apache
Nutch
不公开其
API
、
、
我正在尝试使用Apache
Nutch
1.x Rest
API
。我使用docker镜像来设置
Nutch
和Solr。您可以在中查看演示存储库 - "8080:8080"但是我不能从我的计算机上成功地调用
API
。re
浏览 20
提问于2021-06-12
得票数 3
回答已采纳
1
回答
nutch
有web服务
API
吗?
、
我知道
Nutch
有可以在java项目中使用的命令,但是
Nutch
有web服务作为
API
吗?(例如,像ElasticSearch REST
API
)
浏览 2
提问于2012-12-04
得票数 0
1
回答
Nutch
关键字搜索无法检索包含该关键字的所有页面
、
、
、
我正在使用
Nutch
和Lucene (java
API
)进行我的网站关键字搜索。我的问题是
Nutch
无法分配包含所需关键字的所有页面。例如。有没有人能
建议
我。任何
建议
都是受欢迎和赞赏的。谢谢。
浏览 5
提问于2013-06-20
得票数 0
回答已采纳
1
回答
我使用rest
api
获取在
nutch
(
nutch
1.17)中运行的作业列表
我已经将urls注入到
nutch
中,并使用bin/crawl命令爬行。我使用的是
nutch
的rest
api
,我点击了这个链接 我尝试在
nutch
curl -XGET的中列出作业,但没有显示任何jobs.may,我知道原因。
浏览 6
提问于2020-09-30
得票数 0
2
回答
带有Lucene的Apache
Nutch
、
、
、
我们在Lucene中有一个遗留代码,作为新的需求,我们需要使用Apache
Nutch
进行爬行。这意味着Apache
Nutch
应该抓取内容,然后现有的Lucene分析器应该生成索引。我的问题是Apache
Nutch
已经生成了索引,而我无法从中生成内容。我们不想使用
Nutch
索引。 你是
建议
我使用另一个爬虫,还是仍然可以使用Apache
Nutch
来达到这个目的?
浏览 0
提问于2013-08-22
得票数 1
4
回答
你以前用过elasticsearch索引过
nutch
抓取结果吗?
、
、
、
、
有没有人有幸为
nutch
编写了自定义索引器,以便使用elasticsearch对爬行结果进行索引?或者你知道已经存在的吗?
浏览 1
提问于2011-05-16
得票数 8
回答已采纳
1
回答
使用Elasticsearch的
Nutch
以外的爬虫程序
、
、
当我设置我的数据系统时,我正在尝试获得一些
建议
。我想设置一个网络爬行系统。它可能会定期抓取几百/上千个站点。 我知道
Nutch
并且用过
Nutch
,但是我想知道其他人是否知道比
Nutch
更好的爬虫。我还使用了Elasticsearch作为索引器,很难让
Nutch
与更新版本的ES一起工作。
浏览 10
提问于2018-02-01
得票数 1
回答已采纳
2
回答
Nutch
2.3不生成/爬行
、
、
、
我是
Nutch
的新手。我已经安装了
Nutch
2.3,并让它工作到注入种子urls ($
Nutch
_ROOT/运行时/本地/bin/
nutch
注入file:///path/to/seed/). )。当我执行下一个命令时:$
NUTCH
_ROOT/runtime/local/bin/
nutch
生成-topN 10GeneratorJ
浏览 0
提问于2016-02-10
得票数 2
1
回答
我想抓取推特和脸书
、
、
、
我的导师说它需要支持使用Facebook和Twitter
API
来获取帖子,但我不知道怎么做。我正在使用Solr作为搜索引擎,并计划使用
Nutch
进行网络爬行。我看到
Nutch
不支持这些
API
。你能推荐其他的网络爬虫或使用
Nutch
或其他方式获取帖子的方法吗?非常感谢!
浏览 4
提问于2014-11-02
得票数 0
1
回答
抓取网站的
API
?
、
、
、
我只是想知道,谷歌或其他公司是否提供了一个
API
,允许你接收抓取的链接?我想过滤的链接与.txt扩展和可能的另一个额外的扩展。 如果不是,我如何抓取/索引页面,但只将其细化为我选择的扩展?
浏览 1
提问于2014-06-06
得票数 0
1
回答
Nutch
不爬行整个网站
、
、
我使用的是
nutch
2.3.1 问题是,
nutch
只是在爬行第一个URL (seeds.txt中指定的URL)。数据只是来自第一个URL/页面的HTML。我不能让
nutch
去爬行其他生成的urls.我也不能让
nutch
抓取整个网站。,我需要使用哪
浏览 2
提问于2016-03-01
得票数 2
1
回答
Apache
Nutch
-2.2.1安装
我正在我的centOS虚拟机上安装
nutch
2.2.1,在注入种子urls(目录名)时出现错误。我使用了这个命令:我得到了一个错误: Error: Could not find or load main class or
浏览 1
提问于2014-02-06
得票数 1
1
回答
apache (版本1.2)在apach solr (主干)- got异常中的集成问题
、
、
我配置了solrindex-mapping.xml (
nutch
),并配置了solr、schema.xml和solrconfig.xml。这两种方法在一次运行时都运行良好,但是如果我使用bin/
nutch
solrindex ...我在org.apache.
nutch
.indexer.solr.SolrWriter.java中添加了一些日志输出。105) at org
浏览 6
提问于2010-09-11
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Nutch重要命令使用说明
我读完了React的API,并为新手送上了一些建议
为什么不建议使用Date,而是使用新的时间和日期API?
为什么不建议使用Date,而是使用Java8新的时间和日期API?
Video API,Storage API,location API接口应用
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
腾讯会议
活动推荐
运营活动
广告
关闭
领券