腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1835)
视频
沙龙
1
回答
在页面重定向时消除GWT中的软404错误
、
我们通过一个指向PHP脚本的链接将我们网站上的访问者引导到我们的在线数字目录,该脚本在一个新的浏览器选项卡中打开。向脚本传递一个参数,该参数标识要打开的数字文档(例如: /flipper.php?link=catalogue-gbp或/flipper.php?link=catalogue-euro)。该参数被转换为驻留在另一个站点上的文档的id (parmlink)。使用PHP header命令打开链接,如下所示: header('Location: http://edition.pagesuite-professional.co.uk/launch.aspx?'.$parm
浏览 0
提问于2017-10-12
得票数 0
1
回答
在
NGINX
中使用动态列表通过IP阻止客户端
、
、
、
我有一个使用
nginx
作为前端服务器的服务。一些机器人不断地强制执行/login页面,这足以降低我的服务器工作效率。我想做的是计数登录失败的数量(在PHP中),然后更新一个IP黑名单,然后使用这个列表来
禁止
客户端通过IP访问只访问/login页面。(这是为了避免
禁止
“好”
爬虫
,这将能够阅读其他网页的网站,甚至是“
禁止
”登录页面)。 如何从动态IP列表中执行
nginx
禁令?
浏览 0
提问于2017-04-14
得票数 0
回答已采纳
1
回答
403发出get请求时的响应
、
、
在aws EC2服务器中使用python3向此网站()发出get请求时,我收到了403响应。但我在本地系统中使用相同的代码获得了成功响应。在亚马逊网络服务EC2服务器中requests.get('https://volusia.county-taxes.com')在我的本地系统中requests.get('https://volusia.county-taxes.com')
浏览 3
提问于2019-08-30
得票数 0
1
回答
从开发服务器和静态资产域阻止机器人/蜘蛛
、
、
、
、
我们运行apache ( windows)和
NGINX
( CentOS)开发服务器。我有一个问题,谷歌如何一直设法获取开发地址和索引(可能是从Chrome地址栏?)一个相关的问题是在活动环境(CentOS上的
NGINX
)中,我们使用静态资产域来服务图像和js等等,同样,谷歌已经在其搜索结果中对其进行了索引,有什么方法可以防止这种情况发生吗?
浏览 0
提问于2013-08-09
得票数 1
1
回答
BeautifulSoup错误:列表索引超出范围
、
这是我的错误日志Traceback (most recent call last): crawler.run() for index, url in enumerate(self.parse_menu(self.request(self.start_url))): File "crawler.py", l
浏览 0
提问于2018-04-25
得票数 0
1
回答
Robots.txt
禁止
所有内容,只允许站点/页面的特定部分。像Ultraseek和FAST这样的
爬虫
支持"allow“吗?
、
、
只是想知道是否有可能
禁止
整个网站的
爬虫
,而只允许特定的网页或部分?像FAST和Ultraseek这样的
爬虫
支持"allow“吗?
浏览 4
提问于2008-12-26
得票数 4
回答已采纳
1
回答
使用
Nginx
服务器镜像公共站点
、
、
在工作中,一些网站会被
屏蔽
。Netflix)对被
禁止
的网站使用某种类型的黑名单。我认为阻止这些网站的机制应该是一个自定义的DNS服务器。工作中的计算机已完全锁定,无法安装任何软件。我有一个面向
NGINX
webserver (Debian)的私有公共服务器,我可以完全定制它。我的私人服务器可以在工作时访问。有没有办法通过我的
NGINX
服务器镜像像Netflix这样的网站,这样我就可以在工作时访问它了?如何通过我的
NGINX
How服务器镜像站点?
浏览 0
提问于2018-06-14
得票数 0
1
回答
如何配置
nginx
拒绝可疑主机的连接?
、
我使用
Nginx
来处理HTTP请求。在访问日志检查过程中,我发现了很多来自同一IP地址的可疑请求。我想配置
Nginx
拒绝来自这样的主机的连接;我认为不会有很多主机,因为这是多年来的第一次。
浏览 2
提问于2018-09-28
得票数 0
1
回答
我怎么能在robots.txt中只允许一个代理?
、
、
、
、
我目前在我的robots.txt中使用以下代码来
禁止
任何
爬虫
访问我的网站。但我只想有一个例外,那就是Google AdSense的
爬虫
。下面是我的代码:谷歌的AdSense
爬虫
名为“Mediapartners Google”。 我如何才能将其添加为异常,并继续阻止所有其他
爬虫
?
浏览 18
提问于2021-05-18
得票数 1
3
回答
robots.txt不允许的属性
我已经
禁止
对所有
爬虫
使用robots.txt的某些页面。我是否必须为这些文件编写元标记,或者网络
爬虫
将直接跳过它们,因此没有必要这样做?
浏览 3
提问于2012-03-31
得票数 0
回答已采纳
1
回答
在AngularJS中使用itemprop属性
、
、
我正在对使用AngularJS构建的购物车进行一些更改,我的任务之一是将项目属性添加到现有的标记中,例如。问题是,这个值在Ajax调用返回后很久才被插值,所以任何webcrawler或任何想要访问这个itemprop的东西都不会获得插值的值,而是获得角度表达式。
浏览 0
提问于2013-08-01
得票数 0
2
回答
Robots.txt和Coldfusion
、
、
我试图
禁止
一个网站的某些部分,而不是整个事情。有什么建议吗?
浏览 2
提问于2012-06-02
得票数 1
回答已采纳
2
回答
网络
爬虫
是如何影响网站统计的?
网络
爬虫
(包括搜索引擎和非搜索引擎)会以什么方式影响网站统计(例如,在进行AB测试不同页面的变化时)?解决这些问题的方法是什么?例如: 什么是启发式来识别某物是一个机器人?为了澄清,基于以下评论:我也感兴趣的情况下,我的网站是具体的目标(可能是非法
爬虫
)。
浏览 3
提问于2010-04-12
得票数 1
回答已采纳
1
回答
当url被重定向到其他域时,我应该考虑robots.txt吗?
、
、
、
我想爬一些网站上的medium.com,自定义域。(例如,)这是重定向的方法。 Disallow: /m/Disallow: /@me$Disallow: /*/*/editAllow: /_/api/user
浏览 2
提问于2017-11-02
得票数 4
1
回答
无模式的URLS和行为不当的crwalers
我面临的问题是,很少有
爬虫
将它们作为相对urls来处理。我正在使用
Nginx
服务器,但我对
Nginx
相当陌生。 有可能重写吗?
浏览 3
提问于2014-04-08
得票数 0
回答已采纳
2
回答
在heroku上使用网络
爬虫
的经验
、
是否有人有使用海葵等宝石编写网页
爬虫
的经验,并将它们部署到heroku供您自己使用?这样一个持续运行的程序会违反heroku的TOA/TOS吗?
浏览 2
提问于2013-05-09
得票数 4
1
回答
为什么Google crawler没有被CAPTCHA
屏蔽
?
我在某个特定的网站www.example.com上运行我的
爬虫
。爬网程序在大约100个条目后被CAPTCHA阻止。我的问题是:为什么谷歌机器人没有被
屏蔽
,而我却被
屏蔽
了?是因为Google使用了数千个不同的it,还是有其他的把戏?
浏览 6
提问于2012-08-18
得票数 1
1
回答
jHipster暗拖请求失败HttpServerExchange
、
、
、
、
我正在为后端管理仪表板应用程序使用jHipster,并且经常会收到这个错误,每次出现这个错误都会使我的服务器瘫痪。 io.undertow.servlet.handlers.ServletPathMatchesData.getServletHandlerByPath(ServletPathMatchesData.java:83 2019-12-26 10:30:29,516错误XNIO-2任务-10 WebsocketConfiguration$2:握手由于升级标题无效而失败: null 2019-12-26 10:38:46,039错误XNIO-2 I/O-1请求: UT005071:下面两
浏览 6
提问于2019-12-26
得票数 0
1
回答
编写正确的机器人txt文件
我在我的测试领域有一个网店,没有人知道它。我总是将站点上的搜索-es存储到search表中,并且总是有相同单词的搜索-es。也许是机器人?我的机器人看起来像:Disallow: /cmsHost: www.my-domain.hu更新: User-agent
浏览 2
提问于2017-08-12
得票数 0
1
回答
如何阻止Web
爬虫
下载文件
、
、
是否有可能阻止web
爬虫
在我的服务器上下载文件(如zip文件)?有可能阻止网络
爬虫
吗?或者,在下载最多3个文件后,是否还有其他选项可以将文件隐藏在web
爬虫
上?我可以很容易地创建一个PHP脚本,使用cookie强制访问者登录/注册,但是web
爬虫
呢? 顺便说一下,我用的是
nginx
和drupal CMS。如果这
浏览 0
提问于2013-07-27
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
服务器使用Nginx搭建HTTP爬虫代理
Nginx和Apache中配置禁止PHP可执行权限
关键字屏蔽下的游戏,玩家体验极差,规避辱骂还是禁止交流?
屏蔽搜索引擎抓取网页,禁止索引收录页面的方法都有哪些
消息称《纽约时报》等多家顶级新闻网站屏蔽SearchGPT网络爬虫
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券