腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
Elasticsearch
的
Nutch
以外
的
爬虫
程序
、
、
当我设置我
的
数据系统时,我正在尝试获得一些建议。我想设置一个网络爬行系统。它可能会定期抓取几百/上千个站点。 我知道
Nutch
并且用过
Nutch
,但是我想知道其他人是否知道比
Nutch
更好
的
爬虫
。我还
使用
了
Elasticsearch
作为索引器,很难让
Nutch
与更新版本
的
ES一起工作。
浏览 10
提问于2018-02-01
得票数 1
回答已采纳
1
回答
风暴爬行器爬行和分度
、
、
、
我曾与
Nutch
1x合作爬行网站,并
使用
Elasticsearch
索引数据。我最近遇到了风暴
爬虫
,并且喜欢它,特别是它
的
流性质。 我必须插入并创建风暴
爬虫
发送数据到
的
ES服务器
的
映射吗?有了
Nutch
,只要我启动和运行ES索引,映射就会自行处理.除了一些微调。风暴
爬虫
也是一样
的
吗?或者我必须插入索引和之前
的
映射吗?
浏览 3
提问于2017-05-31
得票数 2
回答已采纳
2
回答
Nutch
没有正确
使用
Mongodb对弹性搜索进行索引
、
、
我运行
的
是
Nutch
2.3.1、Mongodb 3.2.9和
Elasticsearch
2.4.1。我遵循了本教程
的
混合内容: # bin/
nutch
index
elasticsearch
-allIndexingJob: starting Active IndexWriters我<
浏览 0
提问于2016-10-05
得票数 1
回答已采纳
1
回答
支持windows增量爬行
的
Web
爬虫
、
、
、
、
我需要一个开源
的
web
爬虫
在java开发
的
增量爬行支持。
N
浏览 4
提问于2014-09-22
得票数 1
回答已采纳
1
回答
SolrIndexerJob:运行时错误
、
、
、
、
我正在尝试建立一个网络
爬虫
使用
Nutch
2.3+ Mongodb+
elasticsearch
1.7。我已经在
nutch
中配置了mongodb存储,它工作得很好。但是,当我运行at org.apache.
nutch
.indexer.IndexingJob.main(IndexingJob.java:211) 但我甚至没有
使用
Solr。我
的
nutch
-site.xml配置为弹性搜索。<em
浏览 0
提问于2016-10-07
得票数 1
4
回答
你以前用过
elasticsearch
索引过
nutch
抓取结果吗?
、
、
、
、
有没有人有幸为
nutch
编写了自定义索引器,以便
使用
elasticsearch
对爬行结果进行索引?或者你知道已经存在
的
吗?
浏览 1
提问于2011-05-16
得票数 8
回答已采纳
1
回答
使用
Nutch
搜索堆栈组件
、
我试图理解
Nutch
1.x和
Nutch
2.x之间
的
区别,如果我只是尝试
使用
Nutch
爬行几百个网站,然后将数据索引到
Elasticsearch
v2.3.0
Nu
浏览 3
提问于2017-05-18
得票数 0
回答已采纳
1
回答
Nutch
API建议
、
、
我正在做一个项目,我需要一个成熟
的
爬虫
来做一些工作,我正在为这个目的评估
Nutch
。我目前
的
需求相对简单:我需要一个能够将数据保存到磁盘
的
爬虫
程序
,并且我需要它能够仅重新爬取站点
的
更新资源,并跳过已经爬取
的
部分。有没有人有在Java中直接
使用
Nutch
代码
的
经验,而不是通过命令行。我想从简单开始:创建一个
爬虫
(或类似的),最低限度地配置它并启动它,没有任何花哨<e
浏览 0
提问于2010-12-03
得票数 6
回答已采纳
1
回答
在谷歌应用
程序
引擎上为选定
的
网站运行网络
爬虫
?
、
、
我需要写一个
爬虫
来提取一些信息从一些预先选定
的
网站只。也许我可以尝试
Nutch
为我做这件事。 这种方法
的
可行性有多大?1)在google基础设施上托管
爬虫
2)
Nutch
+应用引擎-这可能吗?
浏览 2
提问于2010-12-06
得票数 3
1
回答
如何修复纳奇
爬虫
中已经存在
的
.locked?
我是
nutch
的
初学者。当我
使用
bin/
nutch
爬行命令重新搜索时,已经存在一个.locked错误。 /home/crawler_user/apache-
nutch
-1.14/bin/
nutch
反向链接/数据/
爬虫
_user/
nutch
/crawler data/LinkDb /data
浏览 1
提问于2019-04-23
得票数 0
2
回答
哪种开源
爬虫
是最好
的
?
、
我正在比较这四个
Nutch
/ Heritrix / OpenPipeLine / Apache Tika,哪一个最好?每一个都有什么优点和缺点?我想有一些可扩展
的
爬虫
,可以抓取一个网站
的
列表,如果需要可以修改。
浏览 1
提问于2011-12-07
得票数 5
1
回答
nutch
生成器是否
使用
CrawlDB进行初始链接?
、
我知道初始种子是由平面文件提供
的
。然而,这些urls被注入到哪里呢?是crawlDB吗?如果是这样,
爬虫
抓取
的
新链接是否会存储回crawlDB?当系统关闭时会发生什么,crawlDB会在下一次
nutch
启动时刷新吗? 实际上,我希望
nutch
在系统关闭
的
情况下从它停止
的
地方继续爬行。
浏览 8
提问于2016-09-09
得票数 1
回答已采纳
1
回答
我想抓取推特和脸书
、
、
、
我现在正在做一个
爬虫
。它支持web、Facebook和Twitter。我
的
导师说它需要支持
使用
Facebook和Twitter API来获取帖子,但我不知道怎么做。我正在
使用
Solr作为搜索引擎,并计划
使用
Nutch
进行网络爬行。我看到
Nutch
不支持这些API。你能推荐其他
的
网络
爬虫
或
使用
Nutch
或其他方式获取帖子
的
方法吗?非常感谢!
浏览 4
提问于2014-11-02
得票数 0
3
回答
Web
爬虫
-如何构建访问
的
url集?
、
、
、
、
我已经在rabbitMQ上实现了一个分布式网络
爬虫
。除了访问
的
url集之外,一切几乎都完成了。我希望在不同
的
爬虫
之间有某种共享
的
变量。此外,正如我一直读到
的
,这个url集
的
大小将是巨大
的
,应该存储在磁盘中。在分布式环境中存储、访问和共享访问过
的
urls列表
的
最佳方法是什么?
浏览 6
提问于2017-04-29
得票数 0
1
回答
Solr是否有必要为
Nutch
的
爬网数据建立索引?
、
、
我发现
Nutch
1.4只包含一个索引器/solrindex。Solr是
Nutch
索引爬行数据
的
唯一方法吗?如果没有,还有其他方法吗? 我也想知道为什么
Nutch
1.4
使用
Solr来索引数据。
浏览 0
提问于2012-04-23
得票数 1
回答已采纳
1
回答
使用
apache
nutch
对solr中
的
结构进行索引
、
、
、
、
在一个二手车销售商网站上有成千上万
的
汽车广告,这是一个典型
的
广告-> 标题,描述,汽车里程,电源简历(Hp),而不是整个页面, 我
使用
nutch
,因为它与solr有很好
的
集成,但
nutch
已经准备好抓取一切,在插件方面没有找到一个好
的
来解决我
的
问题。已经
使用
nutc
浏览 0
提问于2016-08-02
得票数 0
2
回答
风暴
爬虫
-技术栈和Apache
Nutch
、
、
、
我想抓取一个特定
的
论坛,接近实时,并将数据转储到HDFS,如果不是Hbase。 我听说Apache可以解决这个问题,但遗憾
的
是,它所需要
的
技术栈已经相当陈旧了。我不想把hadoop从2.6降到更早
的
版本,
Elasticsearch
降到1.7/1.4,所以我把注意力转移到了风暴
爬虫
上。由于我
使用
Hadoop2.6、
ElasticSearch
2.0和Hbase 1.1.3,有人能告诉我是否可以
使用
风暴
爬虫
0.9
浏览 3
提问于2016-04-06
得票数 1
回答已采纳
2
回答
浏览器限制会影响网页
爬虫
吗?
、
、
我正在
使用
普通模式和不推荐
的
浏览器模式创建站点,如果有人进入www.mysite.com,他
的
用户代理就会出现这样
的
情况: if (Request.Browser.IsMobileDeviceRequest.Browser.Version) < 9) return Redirect("/h"); return V
浏览 0
提问于2013-02-21
得票数 0
回答已采纳
2
回答
我可以单独
使用
solr吗
、
、
我可以单独
使用
Apache Solr吗?还是需要先
使用
Nutch
来抓取web?
浏览 0
提问于2013-07-20
得票数 0
回答已采纳
2
回答
bin/
nutch
弹性索引
的
文档
、
、
、
使用
bin/
nutch
solrindex命令
的
文档和示例很多,但bin/
nutch
elasticindex命令
的
介绍还很少。我正在努力将
Nutch
2.2.1
的
实例与
Elasticsearch
0.90.2结合起来。我曾尝试
使用
将
Elasticsearch
伪装成Solr实例,但任何bin/crawl作业都会因为内部服务器错误而崩溃。我正在寻找
的
是一个修改为
使
浏览 0
提问于2013-07-08
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
ElasticSearch的使用
elasticsearch-head 的使用
【微服务】159:Elasticsearch的使用
【微服务】158:Elasticsearch的使用
Python爬虫库-BeautifulSoup的使用
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券