首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >使用Java的web索引器

使用Java的web索引器
EN

Stack Overflow用户
提问于 2010-08-01 18:04:02
回答 2查看 320关注 0票数 2

当用Java开发时,并行系统和分布式系统哪个更适合网站爬虫和web索引器?可用的框架有哪些?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2010-08-01 18:13:39

你能找到的最好的爬虫/索引器组合之一是Nutch,它现在是一个Apache项目(参见Wiki),因此是开源的。

功能:

并行和/或distributed

  • Plugins:纯文本、HTML、XML、ZIP、
  1. 、OpenDocument (OpenOffice.org)、Microsoft Office (Word、Excel、Powerpoint)、PDF、JavaScript、RSS、RTF、MP3 (通过ID3身份验证(Windows/Exchange/etc)

)文件系统的读取、解析和索引

票数 6
EN

Stack Overflow用户

发布于 2010-08-01 18:37:41

纳奇是无敌的。我在项目中成功使用的另一个更简单的库是https://crawler.dev.java.net/。你可以在https://crawler.dev.java.net/samples.html上找到这些例子。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/3381573

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档