首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Web Crawler的功能

Web Crawler的功能
EN

Stack Overflow用户
提问于 2011-06-26 12:46:48
回答 1查看 510关注 0票数 0

网络爬虫是否只从网页中返回提取的文本?例如,如果web服务器中也存储了一些pdf/doc文件。网络爬虫可以爬行它们并返回它们的内容吗?不管怎样,对于一个好的开源Java网络爬虫有什么建议呢?

谢谢!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-06-26 14:39:49

Web crawler不提取文本。它只是返回一些应用了一些转换的htmls,例如UTF-8转换。

如果你对crawler这样想,那么第一跳也没关系。当然,对于多跳,它需要查看这些文档,而典型的爬虫不会在pdf/docs等文件中提供多跳。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/6482192

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档