当用Java开发时,并行系统和分布式系统哪个更适合网站爬虫和web索引器?可用的框架有哪些?
发布于 2010-08-01 18:13:39
你能找到的最好的爬虫/索引器组合之一是Nutch,它现在是一个Apache项目(参见Wiki),因此是开源的。
功能:
并行和/或distributed
)文件系统的读取、解析和索引
发布于 2010-08-01 18:37:41
纳奇是无敌的。我在项目中成功使用的另一个更简单的库是https://crawler.dev.java.net/。你可以在https://crawler.dev.java.net/samples.html上找到这些例子。
https://stackoverflow.com/questions/3381573
复制相似问题