腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(1828)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
如何限制非谷歌搜索引擎机器人的爬行速度,使它们不会使我超过外部API请求限制?
我正在为一个客户建立一个
亚马逊
附属网站,使用
亚马逊
产品API从他们的目录中获取数据。我需要关于如何去对待其他搜索引擎
爬虫
机器人的建议。有什么好方法可以尽可能地避免由于机器人爬行而超过
亚马逊
的API速率限制?
浏览 17
提问于2016-09-16
得票数 1
1
回答
我应该使用什么数据存储来存储来自
爬虫
程序的临时数据?
我的
爬虫
正在抓取所有网站并从中获取元数据信息。然后,我将运行一个脚本来清理URL并将它们存储在Amazon RDS中。我不希望
爬虫
击中
亚马逊
RDS,这会减慢它的速度。 我应该使用
亚马逊
SimpleDB吗?然后,我可以读取SimpleDB,对网址进行杀毒,然后将其移动到Amazon RDS。
浏览 1
修改于2012-03-22
得票数 3
回答已采纳
1
回答
从本地主机和外部ips访问robots.txt
我使用
亚马逊
云托管我的网站。在过去的三个月里,我收到了来自
亚马逊
团队的邮件,说网络流量很高。在收到邮件后,我们正在使我们的实例更安全,代码更清晰。当我检查这个的时候,我可以看到一个像这样的帖子,上面说谷歌
爬虫
可能导致了攻击。当我检查访问日志时,我可以看到已经从bot本地主机(127.0.0.1)和外部ip访问了robots.txt。谁能让我确定这个附件是由于谷歌
爬虫
或不?
浏览 1
提问于2015-01-01
得票数 0
1
回答
如何确保web crawler适用于托管在
亚马逊
S3上的网站并使用AJAX
谷歌网站管理员指南解释说,web服务器应该处理包含_escaped_fragment_的url请求(
爬虫
将www.example.com/ajax.html#!mystate修改为url 我的网站位于
亚马逊
S3上,我没有web服务器来处理此类请求。我如何才能确保
爬虫
获得提要,我的网站获得索引?
浏览 0
提问于2012-10-09
得票数 6
1
回答
如何在使用
亚马逊
S3时将
爬虫
请求重定向到预呈现的页面?
问题我需要的是用about.html文件的预呈现版本来回答这个请求。我已经用Phantom.js完成了这个预呈现,但是我不能为
爬虫
提供正确的文件,因为S3没有重写规则。.*)$ /snapshots/$1.html break; } 但在
亚马逊
S
浏览 3
提问于2015-09-07
得票数 6
回答已采纳
3
回答
从Amazon抓取客户评论
我想知道是否有任何方法,我可以抓取客户评论的特定产品从
亚马逊
,而不被封锁。现在,我的
爬虫
几次就被堵住了。任何想法都会感激的。
浏览 0
提问于2017-05-25
得票数 2
1
回答
使用多个EC2实例爬行
我用python编写了一个爬行过程,它运行在
亚马逊
上的一个ec2实例上。我已经编写了这个
爬虫
,这样它就可以用它的结果向一个单独的"hub“实例报告。集线器处理
爬虫
的结果,
爬虫
可以自由地继续爬行。我在这个爬行实例中想到的是,克隆
爬虫
的几个实例很容易,每个实例都要向中心报告以便处理。 有冗余,所以如果一个
爬虫
被挂断,其余的
爬虫
可以继续工
浏览 2
修改于2015-01-08
得票数 0
回答已采纳
2
回答
防止恶意
爬虫
/刮板和DDoS攻击的方法
基本上,
爬虫
在网站上运行的频率很高,导致负载增加。这会导致带宽消耗,从而给其他人带来糟糕的用户体验。我想知道像谷歌、
亚马逊
和电子海湾这样的网站是如何防止这些事情的: 它们如何区分有用的
爬虫
(google/yahoo/msn)和不遵循robots.txt和其他规则的恶意
爬虫
?
浏览 0
修改于2011-10-14
得票数 0
1
回答
Python Scrapy代理在几轮之后就死了?
我想建立一个与scrapy
亚马逊
爬虫
。我不明白为什么..。rotating_proxies.middlewares.RotatingProxyMiddleware': 610,} 我有1000个代理,大多数都没有死,几乎都在另一个
爬虫
上工作,但几轮后就不在<
浏览 18
提问于2019-11-07
得票数 1
1
回答
如何从网站的多个无关部分刮取数据(使用Scrapy)
我做了一个抓取网络
爬虫
,可以刮
亚马逊
。它可以通过使用关键字列表搜索项目,并从结果页面中刮取数据。有谁知道如何以这种方式刮一个网站吗?谢谢。
浏览 4
提问于2020-12-14
得票数 0
回答已采纳
1
回答
当我使用job glue时,
亚马逊
S3中的数据是否会出现在公共互联网上?
我正在使用
亚马逊
网络服务创建一条数据传输线,我的数据存储在
亚马逊
S3存储桶中,我计划使用胶水
爬虫
在前缀下抓取数据以提取元数据,并在胶水作业之后执行ETL并将数据保存到另一个存储桶中。有没有可能通过公共互联网将数据从
亚马逊
S3移动到胶水? 是否有任何指向aws文档的链接,用于解释AWS服务在它们之间传输数据时使用哪些网络?
浏览 18
修改于2021-06-29
得票数 1
1
回答
Grails中的Web Crawler用于计算页面深度
我在做
爬虫
申请。我希望爬行网站,并找到深度的网页检索。我读过不同的爬行和解析
工具
,但都没有用。它们似乎都没有为计算深度提供支持。我也不确定使用哪一种
爬虫
工具
,哪种
工具
最接近所需的功能。
浏览 3
提问于2014-06-25
得票数 1
回答已采纳
2
回答
如何在AWS Glue Crawler中监视和控制DPU使用
在中,据说
亚马逊
网络服务默认为每个ETL任务分配10个DPU,每个开发端点默认分配5个DPU,即使两者都可以配置最少2个DPU。可以在Glue控制台中配置作业和开发端点以消耗更少的DPU,但我还没有看到
爬虫
程序有任何这样的配置。 每个
爬虫
有固定数量的DPU吗?我们能控制这个数量吗?
浏览 0
提问于2018-03-08
得票数 9
3
回答
当连接数量有限时如何快速抓取网页
我编写了一个web
爬虫
,通过使用www.amazon.com urllib2从抓取产品信息,但
亚马逊
似乎将每个IP的连接限制为1。
浏览 5
修改于2013-04-28
得票数 1
4
回答
自动网络
爬虫
我正在编写一个
爬虫
,需要从许多网站获取数据。问题是每个网站都有不同的结构。我如何才能轻松地编写一个从(许多)不同网站下载(正确)数据的
爬虫
?如果网站的结构发生变化,我是否需要重写
爬虫
,或者是否有其他方法?谢谢!
浏览 0
提问于2012-07-20
得票数 1
1
回答
为什么我的HTML5不显示在我的页面中?
“旁白”中的所有内容都是由
亚马逊
的
工具
生成的。他们只是简单地说“把它放在你的html中”;那么我遗漏了什么呢?这是因为我们的
爬虫
必须访问您的网页,并确定其内容,以便我们可以服务目标广告。 但我认为它至少会显示一个占位符来表明它的最终下落.?
浏览 2
修改于2013-05-11
得票数 0
回答已采纳
1
回答
在网站上显示当前的
亚马逊
价格
这只是一个一般性的问题,但我想知道是否有一个现有的API可以显示
亚马逊
上某一商品的当前价格?正如在,如果价格变化,网站将反映这一变化以及。如果不是,构建一个网络
爬虫
来浏览并找到我所选择的
亚马逊
项目是否是构建我自己版本的最好的方式?如果是这样的话,您建议使用什么语言来开始这类项目。
浏览 0
提问于2015-12-12
得票数 0
回答已采纳
1
回答
如何使用网络
爬虫
从flv文件中提取内容?
请建议我如何使用任何网络
爬虫
来实现这一点。如果这是不可能与网络
爬虫
,请建议我任何其他
工具
。 谢谢你
浏览 0
提问于2013-05-14
得票数 0
回答已采纳
2
回答
有没有什么方法可以在Amazon redshift中创建表格(从RDS转换或通过cralwer创建)
我想通过Amazon GLUE 1将我的数据从R.D.S传输到Red-shift,为R.D.S添加了连接,并运行了一个
爬虫
程序将我的R.D.S架构创建到Amazon GLUE中。现在我有很多表,如何传输此架构或Red-shift中的所有表 我遵循了一个教程,但他在Red-shift中已经有了一个表,所以他使用第二个
爬虫
来获取模式,然后在源和目标上执行E.T.L作业。请帮助我,我是
亚马逊
Web服务的新手
浏览 0
提问于2019-12-11
得票数 1
3
回答
如何在ABOT C#网络
爬虫
中获取html输出页面?
我正在尝试用ABOT在c#.i中制作网络
爬虫
,我搜索了很多例子,并添加了ABOT网络
爬虫
。从那我只能得到日志输出而不是超文本标记语言页面输出。我想得到超文本标记语言页面输出only.because,超文本标记语言输出是超文本标记语言敏捷
工具
的输入。帮助我从ABOT网络
爬虫
在C#中获得超文本标记语言输出。谢谢。
浏览 4
提问于2013-09-12
得票数 5
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券