腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如果我们要用Hadoop和Solr做一个搜索引擎,NUTCH的作用是什么?
、
、
5)请解释我一个步骤,如果可能的话,我如何爬行一些网站,并将其信息保存到
数据
库(Hadoop或任何其他),然后做搜索。提前说一声非常感谢。
浏览 2
提问于2012-09-06
得票数 3
1
回答
在spring boot中通过REST api处理提交的耗时任务的最佳方法
、
、
、
、
我有一个春天启动
网络
项目,需要与
网络
爬虫
系统的工作。我的
爬虫
服务在没有任何停机时间的情况下工作,每个
爬虫
请求可能有很长的处理时间。我想通过一个REST接口获取抓取的URL。完成此请求的
爬
网后,我希望更新web表单中的请求状态。实现此场景的最佳方法是什么?
浏览 32
提问于2020-10-22
得票数 1
1
回答
网络
爬虫
的典型礼貌因素?
、
对于
网络
爬虫
来说,典型的礼貌因素是什么?除了始终遵守robot.txt但是,如果站点没有指定明确的
爬
网延迟,那么默认值应该设置为什么呢?
浏览 4
提问于2011-11-23
得票数 7
回答已采纳
1
回答
网络
爬虫
文件扩展名处理
、
、
我正在用nodejs开发一个
网络
爬虫
。我在网站爬行体中创建了一个独特的urls列表。但也有一些扩展像jpg,mp3,mpeg .我想避免
爬
那些有扩展的人。有什么简单的方法吗?
浏览 3
提问于2015-10-14
得票数 0
回答已采纳
1
回答
Crawler4j计算页面深度
、
、
、
我正在用groovy & grails和mongodb开发一个
网络
爬虫
,有没有办法用crawler4j计算页面的深度?我知道我可以限制到我想要
爬
取的深度,但还没有遇到任何建议如何计算页面深度的东西。
浏览 2
提问于2014-06-26
得票数 0
1
回答
怎样在不使用远程桌面的情况下就能查看储存在腾讯云服务器上面的文件(不是网盘)?
、
、
、
、
在服务器上部署了
爬虫
,想在不使用远程桌面的情况下直接就能查看服务器硬盘上
爬虫
爬
取到的最新
数据
,想问一下该如何实现?
浏览 345
提问于2020-04-16
1
回答
JAVA中的Web Crawler。java.out.lang.outofmemory无法创建本机线程
、
、
我目前正在构建这个
网络
爬虫
来获取起始url的所有链接,并从这些链接中
爬
取所有链接,等等。我还注意到,一旦我运行我的
爬虫
,我的互联网开始崩溃,这意味着网站不会加载,直到我打开我的
网络
爬虫
。我想我发送了太多的http请求。
浏览 1
提问于2012-05-02
得票数 0
回答已采纳
2
回答
crawler实例
、
我正在构建一个大规模的
网络
爬虫
,多少个实例是最佳的爬行时,在专用的
网络
服务器上运行时,位于互联网服务器场。
浏览 0
提问于2009-06-21
得票数 0
回答已采纳
1
回答
分布式系统中的任务分配
、
我的
爬虫
使用卡夫卡把爬行的网站对象的一个主题和水槽将重定向输出到Solr。有多个
爬虫
产生
数据
卡夫卡。 我的问题是:当一个
爬虫
想要
爬
一个网站,其他
爬虫
不应该尝试爬行它。如何在分布式环境中与它们通信?
浏览 0
提问于2017-06-01
得票数 2
1
回答
如何从网站收集联系信息?
、
、
、
、
有没有人知道从网站收集联系方式的
网络
爬虫
工具?说我有一个www.web/联系人。我想拿出地址,电话号码等等。我一直在研究两个工具: java的cralwer4j开源jar和。
浏览 1
提问于2015-03-19
得票数 0
回答已采纳
1
回答
如何安排crawler4j
爬
网控件定期运行?
、
我正在使用crawler4j构建一个简单的
网络
爬虫
。我想做的是每10分钟调用一次
爬
网控件。但是,
爬
网控件只获取一次
数据
(不是每10分钟获取一次
数据
)。有没有更好的方法来安排我的爬行每10分钟执行一次?下面是我在servlet中的代码。
浏览 4
提问于2015-02-21
得票数 0
3
回答
聚合器是如何构建的?
、
、
、
有一个
爬虫
/
爬虫
,它会
爬
网寻找我需要的信息(我如何告诉
爬虫
要爬行什么,因为我不想获取整个
网络
?)?然后有一个索引系统来索引和组织我抓取的信息,也是一个搜索引擎?或者Kayak.com如何聚合他们的
数据
?(这是一项旅游聚合服务。)
浏览 2
提问于2009-05-29
得票数 14
2
回答
仅搜索动态
数据
、
有没有办法让我编程的
爬虫
,使静态按钮,如主页,按钮及其页脚是相同的,每个页面都不包括在
爬虫
中System.out.println(Jsoup.parse(html).body
浏览 3
提问于2013-02-12
得票数 2
回答已采纳
1
回答
谷歌搜索控制台上受robots.txt错误限制的URL
我正在子域上创建一个wordpress站点,并且我面临着这样的错误:站点地图包含被robots.txt阻止的urls。在google搜索控制台上
浏览 2
提问于2018-05-20
得票数 0
2
回答
永恒的爬行
、
、
、
如果
爬虫
访问此页面,并使用“下一步”和“上一步”按钮来浏览日期,它将永远继续吗?因此,我选择不使用通用HTML链接,而使用AJAX。这意味着机器人将无法跟踪链接。我还非常感兴趣的是,像谷歌
爬虫
这样的机器人是如何探测到这样的黑洞的,它是如何处理这些黑洞的?
浏览 0
提问于2012-11-11
得票数 4
回答已采纳
2
回答
如何在AWS Glue中将JSON与扁平结构相关联
、
、
、
、
尝试扁平化具有两个映射/字典字段(custom_event1和custom_event2)的输入JSON
数据
,这两个字段可能包含任何键值对
数据
。为了从
数据
框创建输出表,必须避免custom_events的扁平化,并将其作为JSON字符串存储在列中。 }, "key": &q
浏览 0
提问于2018-01-13
得票数 1
3
回答
Facebook
爬虫
机器人崩溃网站
、
、
Facebook是不是刚刚实现了一些
网络
爬虫
?在过去的几天里,我的网站已经崩溃了几次,严重超载了我追踪到的Facebook的I地址。我试着用谷歌搜索,但找不到任何关于通过robots.txt控制Facebook的
爬虫
机器人的权威资源。这里有关于添加以下内容的参考:用户-代理: facebookexternalhit/1.0
爬
网-延迟:5 User-agent
浏览 2
提问于2012-10-14
得票数 7
4
回答
web
爬虫
在对web服务器的重复请求之间等待的最佳持续时间是多少
、
是否存在一些标准的持续时间,
爬虫
必须在重复命中同一服务器之间等待,以避免使服务器负担过重。 如果没有,任何建议是什么可以是一个良好的等待时间
爬虫
被认为是礼貌的。
浏览 0
提问于2009-04-28
得票数 7
4
回答
访问常见的
爬
网AWS公共
数据
集
、
、
、
、
我需要浏览和下载公共
爬虫
公共
数据
集的一个子集。页面提到了
数据
托管的位置。如何浏览和下载托管在s3://aws-publicdatasets/common-crawl/crawl-002/上的常见
爬
网
数据
?
浏览 0
提问于2013-05-20
得票数 6
回答已采纳
1
回答
如何在Google上爬行
、
、
、
、
我的计划是我的
网络
爬虫
google.com/robots.txtDisallow: /search我的新计划我的
网络
爬虫
会 在谷歌、必应或雅虎上搜索关键词(每
浏览 3
提问于2017-09-15
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python3网络爬虫课程 6.1 Ajax数据爬取
Excel爬虫功能:爬取网站中多页数据
一个爬取近百万数据的爬虫
python爬虫 30行代码爬取500万数据
网络爬虫该如何爬取海外网站?爬虫代理IP要该如何选择?
热门
标签
更多标签
云服务器
ICP备案
对象存储
即时通信 IM
实时音视频
活动推荐
运营活动
广告
关闭
领券