禁止爬虫 js_js 禁止爬虫_Nginx禁止屏蔽爬虫 - 腾讯云开发者社区

、、

只是想知道是否有可能禁止整个网站的爬虫，而只允许特定的网页或部分？像FAST和Ultraseek这样的爬虫支持"allow“吗？

浏览 4提问于2008-12-26得票数 4

回答已采纳

1回答

我怎么能在robots.txt中只允许一个代理？

、、、、

我目前在我的robots.txt中使用以下代码来禁止任何爬虫访问我的网站。但我只想有一个例外，那就是Google AdSense的爬虫。下面是我的代码：谷歌的AdSense爬虫名为“Mediapartners Google”。我如何才能将其添加为异常，并继续阻止所有其他爬虫？

浏览 18提问于2021-05-18得票数 1

3回答

robots.txt不允许的属性

我已经禁止对所有爬虫使用robots.txt的某些页面。我是否必须为这些文件编写元标记，或者网络爬虫将直接跳过它们，因此没有必要这样做？

浏览 3提问于2012-03-31得票数 0

回答已采纳

2回答

Robots.txt和Coldfusion

、、

我试图禁止一个网站的某些部分，而不是整个事情。有什么建议吗？

浏览 2提问于2012-06-02得票数 1

回答已采纳

1回答

当url被重定向到其他域时，我应该考虑robots.txt吗？

、、、

我想爬一些网站上的medium.com，自定义域。(例如，)这是重定向的方法。 Disallow: /m/Disallow: /@me$Disallow: /*/*/editAllow: /_/api/user

浏览 2提问于2017-11-02得票数 4

2回答

在heroku上使用网络爬虫的经验

、

是否有人有使用海葵等宝石编写网页爬虫的经验，并将它们部署到heroku供您自己使用？这样一个持续运行的程序会违反heroku的TOA/TOS吗？

浏览 2提问于2013-05-09得票数 4

1回答

jHipster暗拖请求失败HttpServerExchange

、、、、

我正在为后端管理仪表板应用程序使用jHipster，并且经常会收到这个错误，每次出现这个错误都会使我的服务器瘫痪。 io.undertow.servlet.handlers.ServletPathMatchesData.getServletHandlerByPath(ServletPathMatchesData.java:83 2019-12-26 10:30:29,516错误XNIO-2任务-10 WebsocketConfiguration$2:握手由于升级标题无效而失败: null 2019-12-26 10:38:46,039错误XNIO-2 I/O-1请求: UT005071:下面两

浏览 6提问于2019-12-26得票数 0

1回答

编写正确的机器人txt文件

我在我的测试领域有一个网店，没有人知道它。我总是将站点上的搜索-es存储到search表中，并且总是有相同单词的搜索-es。也许是机器人？我的机器人看起来像：Disallow: /cmsHost: www.my-domain.hu更新： User-agent

浏览 2提问于2017-08-12得票数 0

1回答

除了用户代理之外，还能检测到爬虫吗？

、

以下设想情况：我发现一个用户在我的apache日志中有奇怪的行为，但我不想禁止他，除非我知道这是一个爬虫

浏览 5提问于2014-05-02得票数 0

1回答

抓取像"/search/ label /“这样的博客标签url安全吗？

、

关于博客搜索引擎优化的问题，我能不能从爬虫中禁止像/search或/label这样的URL，我应该通过允许标记吗？

浏览 4提问于2021-12-10得票数 0

1回答

没有目录列表索引页

、、、

我有一些音频资产目录在我的网站上。服务器允许目录列表。也就是说，如果用户访问example.com/assets/audio/nature/，将列出所有音频文件。我不想更改任何服务器的配置，因此，我将在每个资产音频目录中放置一个index.html，以防止出现清单。<!DOCTYPE html><head> <meta name="robots" content=

浏览 0提问于2020-07-01得票数 1

回答已采纳

1回答

Robots.txt允许assetlinks.json

、、、、

我想允许的robots.txt，但不允许其他任何东西。User-agent: *Disallow: /User-agent: *Disallow: /

浏览 18提问于2021-02-21得票数 2

1回答

什么是“不允许: /sitepanel/和不允许: /cgi-bin/"？

、、、

我知道我们使用“禁止：”来阻止搜索引擎爬虫爬行某个特定的网页或目录，但我不明白为什么我们需要禁止"/cgi-bin/或/sitepanel“目录？如果能在这方面提供任何帮助，将不胜感激。提前谢谢。

浏览 2提问于2019-10-01得票数 0

2回答

如何隐藏一个具有攻击性的爬虫？

、

我已经创建了一个爬虫，但我不想被禁止访问该网站。有没有办法减少爬虫的攻击性，或者以某种方式隐藏它，这样就不会被“注意”，也不会给我正在爬行的提供商/网站带来问题？制作一个可接受的爬虫的ANy提示或指南？

浏览 1提问于2012-12-25得票数 2

0回答

Scrapy:一个项目中的多个爬虫

、

我已经写了一个网络爬虫与代理使用scrapy。因为我总是需要一个随机的代理池来避免被禁止，我决定编写另一个爬虫来抓取一个提供免费IP的网站。每次开始爬虫过程时，我都需要首先抓取IP，将它们导出到一个文件中，然后转到另一个爬虫的根目录并将IP读取到setting.py中。我想知道是否有可能将两个爬虫合并到一个项目中，这样我只需要运行一个命令就可以开始整个爬行过程。非常感谢!

浏览 7提问于2016-07-07得票数 0

2回答

在scrapy的start_requests()中返回项目

、

我正在写一个抓取许多urls作为输入的爬虫，并将它们分类为类别(作为项目返回)。这些URL通过我的爬虫提供给爬虫start_requests()方法。有些网址可以在不下载的情况下进行分类，所以我想yield直接使用Item为他们在start_requests()，这是scrapy所禁止的。我怎么才能绕过这一步呢？

浏览 105提问于2016-02-10得票数 5

回答已采纳

1回答

为什么在将我的工作爬虫部署到云平台后，它现在只得到了400个响应？

、、、

我使用scrapyd将我的爬虫部署到云平台。爬虫在本地计算机上工作正常。但是现在它只能得到http 400的响应。它被禁止了吗？还是硬件无法处理频繁的请求？我用的是最低规格的。

浏览 0提问于2020-05-04得票数 0

1回答

在NGINX中使用动态列表通过IP阻止客户端

、、、

我想做的是计数登录失败的数量(在PHP中)，然后更新一个IP黑名单，然后使用这个列表来禁止客户端通过IP访问只访问/login页面。(这是为了避免禁止“好”爬虫，这将能够阅读其他网页的网站，甚至是“禁止”登录页面)。如何从动态IP列表中执行nginx禁令？

浏览 0提问于2017-04-14得票数 0

回答已采纳

1回答

如何抓取403禁用的SNS

、、

我正在用python编写的爬虫爬行SNS我尝试更改cookie，更改浏览器，更改帐户，但都失败了。而且看起来被禁止的服务器在同一个网段中。非常感谢

浏览 1提问于2010-09-06得票数 0

回答已采纳

1回答

ASP.NET MVC AntiForgeryToken和AdSense Crawler登录

、、、、

我想添加谷歌AdSense到受保护的页面，但谷歌声称，AdSense爬虫将需要自己的登录来执行正确的爬行。。因此，我为爬虫设置了用户名/密码，将POST参数放入谷歌的设置页面，但随后意识到这在我的登录配置中是行不通的，因为ASP.NET MVC使用AntiForgeryToken来防止跨站点攻击。当我的网站专门禁止跨站点登录时，我如何设置AdSense爬行器的登录？

浏览 2提问于2015-08-07得票数 1

回答已采纳

点击加载更多