腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
无法
验证
到
网站
,
抓取
爬行
器
,
请求
错误
、
我正在试着写一个研究不同社交媒体平台的网络
爬行
器
,现在我正在为Gab写一个。当我尝试登录时,我得到了一个我认为是400HTTP代码,
错误
的
请求
,我不确定为什么。我是一个非常新的网络
抓取
,所以没有太多的故障排除策略或洞察力。任何关于我应该做什么和如何进行的建议都将非常有帮助,如果这篇文章可以使用任何额外的细节,请让我知道,并将尽快添加它。
浏览 17
提问于2021-08-02
得票数 0
4
回答
Google似乎没有更新我主页的描述或标题
、
、
、
、
在我们推出我们的
网站
之前,我们已经建立了一个“即将到来”的页面,谷歌从其内容中获取了标题和描述。因此搜索结果中的描述是: 马上就来!有关更新,请访问example.org。离我们的
网站
开通已经有几个星期了。我们甚至创建了一个站点地图并将其提交给了Google。在Google搜索控制台中,页面已经被
爬行
,所有页面都如预期一样出现在Google上,除了主页,它还没有更新!我的报告里甚至没有
爬行
错误
。那么问题似乎是什么呢?我已经等了两个星期了。
浏览 0
提问于2011-02-04
得票数 9
1
回答
爬
网站
点时的ServerErrorException
我正在用API对一个
网站
做一个完整的
抓取
,我得到了很多:此外,我还收到超时响应和实际的http失败:StatusCode: 504, ReasonPhrase: 'GATEWAY_TIMEOUT' 我正在浏览的
网站
,我正在
爬行
浏览 1
提问于2015-05-12
得票数 2
2
回答
Googlebot非常频繁地获取我的页面,rel,meta或robots.txt-不允许。
、
、
、
、
Googlebot经常在我的
网站
上获取页面。这让我的
网站
变慢了。我不想让Googlebot爬得太频繁。添加元标签"noindex“,这样Google就会从索引中删除这个页面,并且不会再得到它。添加“不允许”:/mySomeFolder/
到
robots.txt和Googlebot将不会
爬行
该页面。 我计划在我的56.000页中使用这些方法,除了最重要的6-7页。
浏览 0
提问于2012-12-18
得票数 2
2
回答
使用GoDaddy管理的Wordpress托管和Cloudflare的Google工具中的许多"429“
爬行
错误
、
、
、
以下设置:Cloudflare作为CDN 工具显示了所有带有429
爬行
错误
的页面。
浏览 0
提问于2014-11-25
得票数 5
回答已采纳
3
回答
停止谷歌机器人不止一次
爬行
URL?
、
、
、
我有一个
网站
,通常每天创建几千页,创建后不会改变。最近,我的专用服务
器
已经崩溃,因为googlebot
爬行
网站
太频繁。根据搜索控制台,很多天googlebot每天都会
爬行
数万次,这表明他们一直在
抓取
他们已经爬过的页面。我知道我可以限制googlebot
爬行
率,但是是否有可能强迫googlebot只
爬行
一次和一次?
浏览 0
提问于2019-08-08
得票数 2
回答已采纳
2
回答
自动Google索引
、
在我们公司的
网站
上实现了Google站点搜索。我们需要自动为我们的
网站
谷歌索引。 假设我们的客户在论坛上得到了更新。我们需要在我们的论坛搜索中显示最新的论坛信息?
浏览 1
提问于2011-07-19
得票数 0
回答已采纳
3
回答
如何使用ManifoldCF或nutch
抓取
具有SAML身份
验证
的
网站
?
、
、
、
、
我正在尝试
抓取
一个
网站
,更具体地说是一个使用ManifoldCF的Google Site,它具有SAML身份
验证
,并将
抓取
的数据索引到Apache Solr中。但当我
抓取
网址,它给我的302重定向
到
登录页面,然后说RESPONSECODENOTINDEXABLE。 我不确定我的身份
验证
是否正确。在manifoldCF中,我们可以选择HTTP basic身份
验证
、NTLM authentication和Session-based访问凭据身份
验证<
浏览 9
提问于2016-08-08
得票数 18
1
回答
停止Scrapy
请求
管道几分钟,然后重试
、
、
我正在
抓取
单个域名使用Scrapy和Crawlera代理,有时由于Crawlera问题(技术中断),我得到407状态代码,
无法
抓取
任何
网站
。是否可以停止
请求
管道10分钟,然后重新启动
爬行
器
?需要明确的是,我不想推迟
请求
,而是停止所有事情(可能除了项目处理) 10分钟,直到他们解决问题。我正在运行10个并发线程。
浏览 6
提问于2019-02-16
得票数 0
2
回答
为什么谷歌仍然没有索引我的!#网页?
我们的
网站
没有得到索引的谷歌搜索引擎。有些网页是索引的,有些网页没有索引。我怎样才能解决这个问题。请帮帮我们。
浏览 0
提问于2016-03-23
得票数 -1
1
回答
爬虫包:不
爬行
某些
网站
、
、
、
我用Rcrawler来
抓取
一个urls向量。对他们中的大多数人来说,这是很好的工作,但现在和他们中的每一个都不会被
爬行
。一开始,我只在https:// sites上注意到了这一点,它的地址是。我查了一下我的情况,他的
网站
也不适合我。当我试图爬上其中一个
网站
时,我得到的是这样的信息:>Rcrawler("https://manager.submittable.com/beta/discover
浏览 3
提问于2018-04-20
得票数 4
回答已采纳
1
回答
你如何防止从你的
网站
爬行
?
、
我在IIS上运行一个
网站
,在分页时有1000多个页面链接,我想防止其他人通过运行爬虫脚本来
爬行
/窃取这些页面,并逐页获取信息。 如果
请求
是用户
请求
或由脚本运行,有什么方法可以理解
请求
吗?或者在
请求
之前对此进行一些最高级别的过滤?
浏览 0
提问于2013-12-30
得票数 0
1
回答
如何修复Adsense
错误
:“我们的爬虫
无法
访问这些页面”时,这些页面已经被删除,并且404没有找到?
、
、
我有一个
网站
,我们最近改变了内容管理系统。随着新系统的出现,出现了新的URL/层次结构。谷歌
网站
管理员工具与
网站
没有任何问题,我没有爬虫
错误
。但是AdSense似乎仍然在我的旧站点上寻找URL,而且我收到了大量的“页面未找到”
错误
。这在爬虫
错误
页面上。它解释道:“我们的爬虫
无法
访问‘阻止URL’列中列出的页面来确定内容和显示广告。单击每个域旁边的‘plus’图标,查看受影响的URL的扩展列表。当我
浏览 0
提问于2014-12-11
得票数 3
回答已采纳
1
回答
谷歌
爬行
错误
>苹果-应用
网站
-协会>没有应用程序,网址或试图链接>为什么?
我有: URL: 首次发现: 5/5/16 Go
浏览 5
提问于2016-05-07
得票数 5
回答已采纳
2
回答
使用单个Web爬虫以预定义的格式
抓取
多个带有附件的
网站
?
、
、
52个
网站
,这导致大约。150个我需要
抓取
的网页。基于我的无知和缺乏研究,我开始构建每个网页的爬虫,这开始变得难以完成和维护。根据我到目前为止的分析,我已经知道我想在每个网页上
抓取
什么信息,很明显,这些
网站
都有自己的结构。在积极的一面,我注意
到
每个
网站
的网页在其
网站
结构中都有一些共性。我的百万美元的问题,有没有一个单一的技术或单一的网络爬虫,我可以用来
抓取
这些
网站
?我已经知道我想要的信息,这些
网站
很少在其
网站
浏览 3
提问于2019-04-29
得票数 0
2
回答
如何将GSA与Day CQ集成
、
我应该如何从GSA连接DAY?我想知道是否有任何方法可以将GSA与Day CQ5 (CMS)集成。我们将邀请您对贵重物品发表意见。
浏览 1
提问于2011-02-11
得票数 0
回答已采纳
1
回答
将某些IP地址视为已登录,以便对.Net
网站
上的安全内容进行爬网
、
、
Net
网站
使用表单身份
验证
,该
网站
将由Google Mini设备
爬行
以进行站点搜索。GMini有点旧,显然不支持使用表单身份
验证
抓取
站点。据推测,Gmini不会持久化身份
验证
cookie,或者它只是不理解登录表单。 有没有办法说服IIS/.Net将来自GMini的IP地址的所有
请求
视为已经以特定用户身份登录,并且可以访问受保护的内容?
浏览 0
提问于2013-01-09
得票数 1
回答已采纳
2
回答
是否需要为每个目标站点编写
抓取
器
?
、
、
、
、
我使用Python语言和BeautifulSoup来
抓取
存储。我想知道比价
网站
是如何从所有在线商店中
抓取
数据的?他们对不同的在线商店有不同的代码,还是有通用的代码?他们会研究每个在线商店的HTML模式吗?
浏览 40
提问于2014-12-28
得票数 7
回答已采纳
1
回答
是否可以
验证
向您发送
请求
的站点的身份?
、
、
我正在开发一个JS小部件,可以嵌入第三方
网站
。当显示小部件时,它会向我的站点发送
请求
。当收到此
请求
时,我知道它已显示给用户和付费
网站
以获得此视图。因此,如果小部件不是在目标站点呈现,我不想支付费用。我认为,要
验证
站点的url,在呈现小部件时,需要在
请求
参数中发送嵌入页面的url。然而,它将有可能从任何地方发送这样的
请求
,而不仅仅是从本
网站
的网页。 是否可以
验证
url小部件放置的位置?
浏览 0
提问于2012-10-03
得票数 3
1
回答
如何使用不同的URL重试失败的
抓取
?
、
我有一个功能刮刀,从数据库中
抓取
大量
网站
,并将结果读取到相同的数据库中。我从数据库中获取域,并手动附加。在网址上。即使这个url不正确,绝大多数站点都可以正确地重定向
爬行
器
,但是对于一些站点,我得到了一个DNSLookup
错误
,因为没有重定向,即使该站点明显存在并且可以通过浏览
器
访问。我的问题是,有没有办法重试获得DNSLookup
错误
的
抓取
,但使用不同的URL?我目前在errback中处理我的
错误
,我根据我得到的
错误</em
浏览 0
提问于2019-04-08
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
seo基础知识-网站日志/iis服务器常见状态码
python爬虫系列开发scrapy掌握(一)
SEO优化必备技能——网站日志分析
站长,请不要小瞧服务器对SEO优化效果的影响
七款必备的Python爬虫库,你知道几个?
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券