腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Robots.txt
禁止
所有内容,只允许站点/页面的特定部分。像Ultraseek和FAST这样的
爬虫
支持"allow“吗?
、
、
只是想知道是否有可能
禁止
整个网站的
爬虫
,而只允许特定的网页或部分?像FAST和Ultraseek这样的
爬虫
支持"allow“吗?
浏览 4
提问于2008-12-26
得票数 4
回答已采纳
1
回答
我怎么能在robots.txt中只允许一个代理?
、
、
、
、
我目前在我的robots.txt中使用以下代码来
禁止
任何
爬虫
访问我的网站。但我只想有一个例外,那就是Google AdSense的
爬虫
。下面是我的代码:谷歌的AdSense
爬虫
名为“Mediapartners Google”。 我如何才能将其添加为异常,并继续阻止所有其他
爬虫
?
浏览 18
提问于2021-05-18
得票数 1
3
回答
robots.txt不允许的属性
我已经
禁止
对所有
爬虫
使用robots.txt的某些页面。我是否必须为这些文件编写元标记,或者网络
爬虫
将直接跳过它们,因此没有必要这样做?
浏览 3
提问于2012-03-31
得票数 0
回答已采纳
2
回答
Robots.txt和Coldfusion
、
、
我试图
禁止
一个网站的某些部分,而不是整个事情。有什么建议吗?
浏览 2
提问于2012-06-02
得票数 1
回答已采纳
1
回答
当url被重定向到其他域时,我应该考虑robots.txt吗?
、
、
、
我想爬一些网站上的medium.com,自定义域。(例如,)这是重定向的方法。 Disallow: /m/Disallow: /@me$Disallow: /*/*/editAllow: /_/api/user
浏览 2
提问于2017-11-02
得票数 4
2
回答
在heroku上使用网络
爬虫
的经验
、
是否有人有使用海葵等宝石编写网页
爬虫
的经验,并将它们部署到heroku供您自己使用?这样一个持续运行的程序会违反heroku的TOA/TOS吗?
浏览 2
提问于2013-05-09
得票数 4
1
回答
jHipster暗拖请求失败HttpServerExchange
、
、
、
、
我正在为后端管理仪表板应用程序使用jHipster,并且经常会收到这个错误,每次出现这个错误都会使我的服务器瘫痪。 io.undertow.servlet.handlers.ServletPathMatchesData.getServletHandlerByPath(ServletPathMatchesData.java:83 2019-12-26 10:30:29,516错误XNIO-2任务-10 WebsocketConfiguration$2:握手由于升级标题无效而失败: null 2019-12-26 10:38:46,039错误XNIO-2 I/O-1请求: UT005071:下面两
浏览 6
提问于2019-12-26
得票数 0
1
回答
编写正确的机器人txt文件
我在我的测试领域有一个网店,没有人知道它。我总是将站点上的搜索-es存储到search表中,并且总是有相同单词的搜索-es。也许是机器人?我的机器人看起来像:Disallow: /cmsHost: www.my-domain.hu更新: User-agent
浏览 2
提问于2017-08-12
得票数 0
1
回答
除了用户代理之外,还能检测到
爬虫
吗?
、
以下设想情况: 我发现一个用户在我的apache日志中有奇怪的行为,但我不想
禁止
他,除非我知道这是一个
爬虫
浏览 5
提问于2014-05-02
得票数 0
1
回答
抓取像"/search/ label /“这样的博客标签url安全吗?
、
关于博客搜索引擎优化的问题,我能不能从
爬虫
中
禁止
像/search或/label这样的URL,我应该通过允许标记吗?
浏览 4
提问于2021-12-10
得票数 0
1
回答
没有目录列表索引页
、
、
、
我有一些音频资产目录在我的网站上。服务器允许目录列表。也就是说,如果用户访问example.com/assets/audio/nature/,将列出所有音频文件。我不想更改任何服务器的配置,因此,我将在每个资产音频目录中放置一个index.html,以防止出现清单。<!DOCTYPE html><head> <meta name="robots" content=
浏览 0
提问于2020-07-01
得票数 1
回答已采纳
1
回答
Robots.txt允许assetlinks.json
、
、
、
、
我想允许的robots.txt,但不允许其他任何东西。User-agent: *Disallow: /User-agent: *Disallow: /
浏览 18
提问于2021-02-21
得票数 2
1
回答
什么是“不允许: /sitepanel/和不允许: /cgi-bin/"?
、
、
、
我知道我们使用“
禁止
:”来阻止搜索引擎
爬虫
爬行某个特定的网页或目录,但我不明白为什么我们需要
禁止
"/cgi-bin/或/sitepanel“目录?如果能在这方面提供任何帮助,将不胜感激。提前谢谢。
浏览 2
提问于2019-10-01
得票数 0
2
回答
如何隐藏一个具有攻击性的
爬虫
?
、
我已经创建了一个
爬虫
,但我不想被
禁止
访问该网站。 有没有办法减少
爬虫
的攻击性,或者以某种方式隐藏它,这样就不会被“注意”,也不会给我正在爬行的提供商/网站带来问题?制作一个可接受的
爬虫
的ANy提示或指南?
浏览 1
提问于2012-12-25
得票数 2
0
回答
Scrapy:一个项目中的多个
爬虫
、
我已经写了一个网络
爬虫
与代理使用scrapy。因为我总是需要一个随机的代理池来避免被
禁止
,我决定编写另一个
爬虫
来抓取一个提供免费IP的网站。每次开始
爬虫
过程时,我都需要首先抓取IP,将它们导出到一个文件中,然后转到另一个
爬虫
的根目录并将IP读取到setting.py中。我想知道是否有可能将两个
爬虫
合并到一个项目中,这样我只需要运行一个命令就可以开始整个爬行过程。 非常感谢!
浏览 7
提问于2016-07-07
得票数 0
2
回答
在scrapy的start_requests()中返回项目
、
我正在写一个抓取许多urls作为输入的
爬虫
,并将它们分类为类别(作为项目返回)。这些URL通过我的
爬虫
提供给
爬虫
start_requests()方法。有些网址可以在不下载的情况下进行分类,所以我想yield直接使用Item为他们在start_requests(),这是scrapy所
禁止
的。我怎么才能绕过这一步呢?
浏览 105
提问于2016-02-10
得票数 5
回答已采纳
1
回答
为什么在将我的工作
爬虫
部署到云平台后,它现在只得到了400个响应?
、
、
、
我使用scrapyd将我的
爬虫
部署到云平台。
爬虫
在本地计算机上工作正常。但是现在它只能得到http 400的响应。它被
禁止
了吗?还是硬件无法处理频繁的请求?我用的是最低规格的。
浏览 0
提问于2020-05-04
得票数 0
1
回答
在NGINX中使用动态列表通过IP阻止客户端
、
、
、
我想做的是计数登录失败的数量(在PHP中),然后更新一个IP黑名单,然后使用这个列表来
禁止
客户端通过IP访问只访问/login页面。(这是为了避免
禁止
“好”
爬虫
,这将能够阅读其他网页的网站,甚至是“
禁止
”登录页面)。 如何从动态IP列表中执行nginx禁令?
浏览 0
提问于2017-04-14
得票数 0
回答已采纳
1
回答
如何抓取403禁用的SNS
、
、
我正在用python编写的
爬虫
爬行SNS我尝试更改cookie,更改浏览器,更改帐户,但都失败了。而且看起来被
禁止
的服务器在同一个网段中。非常感谢
浏览 1
提问于2010-09-06
得票数 0
回答已采纳
1
回答
ASP.NET MVC AntiForgeryToken和AdSense Crawler登录
、
、
、
、
我想添加谷歌AdSense到受保护的页面,但谷歌声称,AdSense
爬虫
将需要自己的登录来执行正确的爬行。。因此,我为
爬虫
设置了用户名/密码,将POST参数放入谷歌的设置页面,但随后意识到这在我的登录配置中是行不通的,因为ASP.NET MVC使用AntiForgeryToken来防止跨站点攻击。当我的网站专门
禁止
跨站点登录时,我如何设置AdSense爬行器的登录?
浏览 2
提问于2015-08-07
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
爬虫之旅(2)——网页知识储备html、css及js
(新版完结无密)Python 分布式爬虫与 JS 逆向进阶实战
(新版)Python 分布式爬虫与 JS 逆向进阶实战-梦里有时终须有
新技术栈爬虫工具 Crawlee:功能强大,自适应并发,支持 JS 渲染和防封锁
禁止拷贝构造,禁止bug
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券