无法验证到网站，抓取爬行器，请求错误_无法验证到身份服务器SSL握手错误_我无法将文档插入到远程数据库服务器，出现错误13 (未授权)：“命令插入需要身份验证” - 腾讯云开发者社区

、

我正在试着写一个研究不同社交媒体平台的网络爬行器，现在我正在为Gab写一个。当我尝试登录时，我得到了一个我认为是400HTTP代码，错误的请求，我不确定为什么。我是一个非常新的网络抓取，所以没有太多的故障排除策略或洞察力。任何关于我应该做什么和如何进行的建议都将非常有帮助，如果这篇文章可以使用任何额外的细节，请让我知道，并将尽快添加它。

浏览 17提问于2021-08-02得票数 0

4回答

Google似乎没有更新我主页的描述或标题

、、、、

在我们推出我们的网站之前，我们已经建立了一个“即将到来”的页面，谷歌从其内容中获取了标题和描述。因此搜索结果中的描述是：马上就来！有关更新，请访问example.org。离我们的网站开通已经有几个星期了。我们甚至创建了一个站点地图并将其提交给了Google。在Google搜索控制台中，页面已经被爬行，所有页面都如预期一样出现在Google上，除了主页，它还没有更新！我的报告里甚至没有爬行错误。那么问题似乎是什么呢？我已经等了两个星期了。

浏览 0提问于2011-02-04得票数 9

1回答

爬网站点时的ServerErrorException

我正在用API对一个网站做一个完整的抓取，我得到了很多：此外，我还收到超时响应和实际的http失败：StatusCode: 504, ReasonPhrase: 'GATEWAY_TIMEOUT' 我正在浏览的网站，我正在爬行

浏览 1提问于2015-05-12得票数 2

2回答

Googlebot非常频繁地获取我的页面，rel，meta或robots.txt-不允许。

、、、、

Googlebot经常在我的网站上获取页面。这让我的网站变慢了。我不想让Googlebot爬得太频繁。添加元标签"noindex“，这样Google就会从索引中删除这个页面，并且不会再得到它。添加“不允许”：/mySomeFolder/到robots.txt和Googlebot将不会爬行该页面。我计划在我的56.000页中使用这些方法，除了最重要的6-7页。

浏览 0提问于2012-12-18得票数 2

2回答

使用GoDaddy管理的Wordpress托管和Cloudflare的Google工具中的许多"429“爬行错误

、、、

以下设置：Cloudflare作为CDN 工具显示了所有带有429爬行错误的页面。

浏览 0提问于2014-11-25得票数 5

回答已采纳

3回答

停止谷歌机器人不止一次爬行URL？

、、、

我有一个网站，通常每天创建几千页，创建后不会改变。最近，我的专用服务器已经崩溃，因为googlebot爬行网站太频繁。根据搜索控制台，很多天googlebot每天都会爬行数万次，这表明他们一直在抓取他们已经爬过的页面。我知道我可以限制googlebot爬行率，但是是否有可能强迫googlebot只爬行一次和一次？

浏览 0提问于2019-08-08得票数 2

回答已采纳

2回答

自动Google索引

、

在我们公司的网站上实现了Google站点搜索。我们需要自动为我们的网站谷歌索引。假设我们的客户在论坛上得到了更新。我们需要在我们的论坛搜索中显示最新的论坛信息？

浏览 1提问于2011-07-19得票数 0

回答已采纳

3回答

如何使用ManifoldCF或nutch抓取具有SAML身份验证的网站？

、、、、

我正在尝试抓取一个网站，更具体地说是一个使用ManifoldCF的Google Site，它具有SAML身份验证，并将抓取的数据索引到Apache Solr中。但当我抓取网址，它给我的302重定向到登录页面，然后说RESPONSECODENOTINDEXABLE。我不确定我的身份验证是否正确。在manifoldCF中，我们可以选择HTTP basic身份验证、NTLM authentication和Session-based访问凭据身份验证<

浏览 9提问于2016-08-08得票数 18

1回答

停止Scrapy请求管道几分钟，然后重试

、、

我正在抓取单个域名使用Scrapy和Crawlera代理，有时由于Crawlera问题(技术中断)，我得到407状态代码，无法抓取任何网站。是否可以停止请求管道10分钟，然后重新启动爬行器？需要明确的是，我不想推迟请求，而是停止所有事情(可能除了项目处理) 10分钟，直到他们解决问题。我正在运行10个并发线程。

浏览 6提问于2019-02-16得票数 0

2回答

为什么谷歌仍然没有索引我的!#网页？

我们的网站没有得到索引的谷歌搜索引擎。有些网页是索引的，有些网页没有索引。我怎样才能解决这个问题。请帮帮我们。

浏览 0提问于2016-03-23得票数 -1

1回答

爬虫包:不爬行某些网站

、、、

我用Rcrawler来抓取一个urls向量。对他们中的大多数人来说，这是很好的工作，但现在和他们中的每一个都不会被爬行。一开始，我只在https:// sites上注意到了这一点，它的地址是。我查了一下我的情况，他的网站也不适合我。当我试图爬上其中一个网站时，我得到的是这样的信息：>Rcrawler("https://manager.submittable.com/beta/discover

浏览 3提问于2018-04-20得票数 4

回答已采纳

1回答

你如何防止从你的网站爬行？

、

我在IIS上运行一个网站，在分页时有1000多个页面链接，我想防止其他人通过运行爬虫脚本来爬行/窃取这些页面，并逐页获取信息。如果请求是用户请求或由脚本运行，有什么方法可以理解请求吗？或者在请求之前对此进行一些最高级别的过滤？

浏览 0提问于2013-12-30得票数 0

1回答

如何修复Adsense错误：“我们的爬虫无法访问这些页面”时，这些页面已经被删除，并且404没有找到？

、、

我有一个网站，我们最近改变了内容管理系统。随着新系统的出现，出现了新的URL/层次结构。谷歌网站管理员工具与网站没有任何问题，我没有爬虫错误。但是AdSense似乎仍然在我的旧站点上寻找URL，而且我收到了大量的“页面未找到”错误。这在爬虫错误页面上。它解释道：“我们的爬虫无法访问‘阻止URL’列中列出的页面来确定内容和显示广告。单击每个域旁边的‘plus’图标，查看受影响的URL的扩展列表。当我

浏览 0提问于2014-12-11得票数 3

回答已采纳

1回答

谷歌爬行错误>苹果-应用网站-协会>没有应用程序，网址或试图链接>为什么？

我有： URL：首次发现: 5/5/16 Go

浏览 5提问于2016-05-07得票数 5

回答已采纳

2回答

使用单个Web爬虫以预定义的格式抓取多个带有附件的网站？

、、

52个网站，这导致大约。150个我需要抓取的网页。基于我的无知和缺乏研究，我开始构建每个网页的爬虫，这开始变得难以完成和维护。根据我到目前为止的分析，我已经知道我想在每个网页上抓取什么信息，很明显，这些网站都有自己的结构。在积极的一面，我注意到每个网站的网页在其网站结构中都有一些共性。我的百万美元的问题，有没有一个单一的技术或单一的网络爬虫，我可以用来抓取这些网站？我已经知道我想要的信息，这些网站很少在其网站

浏览 3提问于2019-04-29得票数 0

2回答

如何将GSA与Day CQ集成

、

我应该如何从GSA连接DAY？我想知道是否有任何方法可以将GSA与Day CQ5 (CMS)集成。我们将邀请您对贵重物品发表意见。

浏览 1提问于2011-02-11得票数 0

回答已采纳

1回答

将某些IP地址视为已登录，以便对.Net网站上的安全内容进行爬网

、、

Net网站使用表单身份验证，该网站将由Google Mini设备爬行以进行站点搜索。GMini有点旧，显然不支持使用表单身份验证抓取站点。据推测，Gmini不会持久化身份验证cookie，或者它只是不理解登录表单。有没有办法说服IIS/.Net将来自GMini的IP地址的所有请求视为已经以特定用户身份登录，并且可以访问受保护的内容？

浏览 0提问于2013-01-09得票数 1

回答已采纳

2回答

是否需要为每个目标站点编写抓取器？

、、、、

我使用Python语言和BeautifulSoup来抓取存储。我想知道比价网站是如何从所有在线商店中抓取数据的？他们对不同的在线商店有不同的代码，还是有通用的代码？他们会研究每个在线商店的HTML模式吗？

浏览 40提问于2014-12-28得票数 7

回答已采纳

1回答

是否可以验证向您发送请求的站点的身份？

、、

我正在开发一个JS小部件，可以嵌入第三方网站。当显示小部件时，它会向我的站点发送请求。当收到此请求时，我知道它已显示给用户和付费网站以获得此视图。因此，如果小部件不是在目标站点呈现，我不想支付费用。我认为，要验证站点的url，在呈现小部件时，需要在请求参数中发送嵌入页面的url。然而，它将有可能从任何地方发送这样的请求，而不仅仅是从本网站的网页。是否可以验证url小部件放置的位置？

浏览 0提问于2012-10-03得票数 3

1回答

如何使用不同的URL重试失败的抓取？

、

我有一个功能刮刀，从数据库中抓取大量网站，并将结果读取到相同的数据库中。我从数据库中获取域，并手动附加。在网址上。即使这个url不正确，绝大多数站点都可以正确地重定向爬行器，但是对于一些站点，我得到了一个DNSLookup错误，因为没有重定向，即使该站点明显存在并且可以通过浏览器访问。我的问题是，有没有办法重试获得DNSLookup错误的抓取，但使用不同的URL？我目前在errback中处理我的错误，我根据我得到的错误</em

浏览 0提问于2019-04-08得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云