搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

如何限制非谷歌搜索引擎机器人的爬行速度，使它们不会使我超过外部API请求限制？

我正在为一个客户建立一个亚马逊附属网站，使用亚马逊产品API从他们的目录中获取数据。我需要关于如何去对待其他搜索引擎爬虫机器人的建议。有什么好方法可以尽可能地避免由于机器人爬行而超过亚马逊的API速率限制？

浏览 17提问于2016-09-16得票数 1

1回答

我应该使用什么数据存储来存储来自爬虫程序的临时数据？

我的爬虫正在抓取所有网站并从中获取元数据信息。然后，我将运行一个脚本来清理URL并将它们存储在Amazon RDS中。我不希望爬虫击中亚马逊RDS，这会减慢它的速度。我应该使用亚马逊SimpleDB吗？然后，我可以读取SimpleDB，对网址进行杀毒，然后将其移动到Amazon RDS。

浏览 1修改于2012-03-22得票数 3

回答已采纳

1回答

从本地主机和外部ips访问robots.txt

我使用亚马逊云托管我的网站。在过去的三个月里，我收到了来自亚马逊团队的邮件，说网络流量很高。在收到邮件后，我们正在使我们的实例更安全，代码更清晰。当我检查这个的时候，我可以看到一个像这样的帖子，上面说谷歌爬虫可能导致了攻击。当我检查访问日志时，我可以看到已经从bot本地主机(127.0.0.1)和外部ip访问了robots.txt。谁能让我确定这个附件是由于谷歌爬虫或不？

浏览 1提问于2015-01-01得票数 0

1回答

如何确保web crawler适用于托管在亚马逊S3上的网站并使用AJAX

谷歌网站管理员指南解释说，web服务器应该处理包含_escaped_fragment_的url请求(爬虫将www.example.com/ajax.html#!mystate修改为url 我的网站位于亚马逊S3上，我没有web服务器来处理此类请求。我如何才能确保爬虫获得提要，我的网站获得索引？

浏览 0提问于2012-10-09得票数 6

1回答

如何在使用亚马逊S3时将爬虫请求重定向到预呈现的页面？

问题我需要的是用about.html文件的预呈现版本来回答这个请求。我已经用Phantom.js完成了这个预呈现，但是我不能为爬虫提供正确的文件，因为S3没有重写规则。.*)$ /snapshots/$1.html break; } 但在亚马逊S

浏览 3提问于2015-09-07得票数 6

回答已采纳

3回答

从Amazon抓取客户评论

我想知道是否有任何方法，我可以抓取客户评论的特定产品从亚马逊，而不被封锁。现在，我的爬虫几次就被堵住了。任何想法都会感激的。

浏览 0提问于2017-05-25得票数 2

1回答

使用多个EC2实例爬行

我用python编写了一个爬行过程，它运行在亚马逊上的一个ec2实例上。我已经编写了这个爬虫，这样它就可以用它的结果向一个单独的"hub“实例报告。集线器处理爬虫的结果，爬虫可以自由地继续爬行。我在这个爬行实例中想到的是，克隆爬虫的几个实例很容易，每个实例都要向中心报告以便处理。有冗余，所以如果一个爬虫被挂断，其余的爬虫可以继续工

浏览 2修改于2015-01-08得票数 0

回答已采纳

2回答

防止恶意爬虫/刮板和DDoS攻击的方法

基本上，爬虫在网站上运行的频率很高，导致负载增加。这会导致带宽消耗，从而给其他人带来糟糕的用户体验。我想知道像谷歌、亚马逊和电子海湾这样的网站是如何防止这些事情的：它们如何区分有用的爬虫(google/yahoo/msn)和不遵循robots.txt和其他规则的恶意爬虫？

浏览 0修改于2011-10-14得票数 0

1回答

Python Scrapy代理在几轮之后就死了？

我想建立一个与scrapy亚马逊爬虫。我不明白为什么..。rotating_proxies.middlewares.RotatingProxyMiddleware': 610,} 我有1000个代理，大多数都没有死，几乎都在另一个爬虫上工作，但几轮后就不在<

浏览 18提问于2019-11-07得票数 1

1回答

如何从网站的多个无关部分刮取数据(使用Scrapy)

我做了一个抓取网络爬虫，可以刮亚马逊。它可以通过使用关键字列表搜索项目，并从结果页面中刮取数据。有谁知道如何以这种方式刮一个网站吗？谢谢。

浏览 4提问于2020-12-14得票数 0

回答已采纳

1回答

当我使用job glue时，亚马逊S3中的数据是否会出现在公共互联网上？

我正在使用亚马逊网络服务创建一条数据传输线，我的数据存储在亚马逊S3存储桶中，我计划使用胶水爬虫在前缀下抓取数据以提取元数据，并在胶水作业之后执行ETL并将数据保存到另一个存储桶中。有没有可能通过公共互联网将数据从亚马逊S3移动到胶水？是否有任何指向aws文档的链接，用于解释AWS服务在它们之间传输数据时使用哪些网络？

浏览 18修改于2021-06-29得票数 1

1回答

Grails中的Web Crawler用于计算页面深度

我在做爬虫申请。我希望爬行网站，并找到深度的网页检索。我读过不同的爬行和解析工具，但都没有用。它们似乎都没有为计算深度提供支持。我也不确定使用哪一种爬虫工具，哪种工具最接近所需的功能。

浏览 3提问于2014-06-25得票数 1

回答已采纳

2回答

如何在AWS Glue Crawler中监视和控制DPU使用

在中，据说亚马逊网络服务默认为每个ETL任务分配10个DPU，每个开发端点默认分配5个DPU，即使两者都可以配置最少2个DPU。可以在Glue控制台中配置作业和开发端点以消耗更少的DPU，但我还没有看到爬虫程序有任何这样的配置。每个爬虫有固定数量的DPU吗？我们能控制这个数量吗？

浏览 0提问于2018-03-08得票数 9

3回答

当连接数量有限时如何快速抓取网页

我编写了一个web爬虫，通过使用www.amazon.com urllib2从抓取产品信息，但亚马逊似乎将每个IP的连接限制为1。

浏览 5修改于2013-04-28得票数 1

4回答

自动网络爬虫

我正在编写一个爬虫，需要从许多网站获取数据。问题是每个网站都有不同的结构。我如何才能轻松地编写一个从(许多)不同网站下载(正确)数据的爬虫？如果网站的结构发生变化，我是否需要重写爬虫，或者是否有其他方法？谢谢!

浏览 0提问于2012-07-20得票数 1

1回答

为什么我的HTML5不显示在我的页面中？

“旁白”中的所有内容都是由亚马逊的工具生成的。他们只是简单地说“把它放在你的html中”；那么我遗漏了什么呢？这是因为我们的爬虫必须访问您的网页，并确定其内容，以便我们可以服务目标广告。但我认为它至少会显示一个占位符来表明它的最终下落.？

浏览 2修改于2013-05-11得票数 0

回答已采纳

1回答

在网站上显示当前的亚马逊价格

这只是一个一般性的问题，但我想知道是否有一个现有的API可以显示亚马逊上某一商品的当前价格？正如在，如果价格变化，网站将反映这一变化以及。如果不是，构建一个网络爬虫来浏览并找到我所选择的亚马逊项目是否是构建我自己版本的最好的方式？如果是这样的话，您建议使用什么语言来开始这类项目。

浏览 0提问于2015-12-12得票数 0

回答已采纳

1回答

如何使用网络爬虫从flv文件中提取内容？

请建议我如何使用任何网络爬虫来实现这一点。如果这是不可能与网络爬虫，请建议我任何其他工具。谢谢你

浏览 0提问于2013-05-14得票数 0

回答已采纳

2回答

有没有什么方法可以在Amazon redshift中创建表格(从RDS转换或通过cralwer创建)

我想通过Amazon GLUE 1将我的数据从R.D.S传输到Red-shift，为R.D.S添加了连接，并运行了一个爬虫程序将我的R.D.S架构创建到Amazon GLUE中。现在我有很多表，如何传输此架构或Red-shift中的所有表我遵循了一个教程，但他在Red-shift中已经有了一个表，所以他使用第二个爬虫来获取模式，然后在源和目标上执行E.T.L作业。请帮助我，我是亚马逊Web服务的新手

浏览 0提问于2019-12-11得票数 1

3回答

如何在ABOT C#网络爬虫中获取html输出页面？

我正在尝试用ABOT在c#.i中制作网络爬虫，我搜索了很多例子，并添加了ABOT网络爬虫。从那我只能得到日志输出而不是超文本标记语言页面输出。我想得到超文本标记语言页面输出only.because，超文本标记语言输出是超文本标记语言敏捷工具的输入。帮助我从ABOT网络爬虫在C#中获得超文本标记语言输出。谢谢。

浏览 4提问于2013-09-12得票数 5

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

如何限制非谷歌搜索引擎机器人的爬行速度，使它们不会使我超过外部API请求限制？

我应该使用什么数据存储来存储来自爬虫程序的临时数据？

从本地主机和外部ips访问robots.txt

如何确保web crawler适用于托管在亚马逊S3上的网站并使用AJAX

如何在使用亚马逊S3时将爬虫请求重定向到预呈现的页面？

从Amazon抓取客户评论

使用多个EC2实例爬行

防止恶意爬虫/刮板和DDoS攻击的方法

Python Scrapy代理在几轮之后就死了？

如何从网站的多个无关部分刮取数据(使用Scrapy)

当我使用job glue时，亚马逊S3中的数据是否会出现在公共互联网上？

Grails中的Web Crawler用于计算页面深度

如何在AWS Glue Crawler中监视和控制DPU使用

当连接数量有限时如何快速抓取网页

自动网络爬虫

为什么我的HTML5不显示在我的页面中？

在网站上显示当前的亚马逊价格

如何使用网络爬虫从flv文件中提取内容？

有没有什么方法可以在Amazon redshift中创建表格(从RDS转换或通过cralwer创建)

如何在ABOT C#网络爬虫中获取html输出页面？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐