我们努力奋斗是为了拥有很多的资本,来对抗未来未知的困境。
今天继续给大家讲解百度站长工具其他功能作用,在这多谢各位同学的持续关注,等后续评论功能开通后,大家交流起来就方便多,我会继续努力,有任何SEO疑问,可以给我留言。
由于接下来讲解的版块功能比较重要,在SEO实际应用中也是久居榜首,所以,请各位同学耐心看完,我尽量控制文章篇幅长度。
百度站长工具
网页抓取
Robots
抓取频次
抓取诊断
抓取异常
01
Robots:robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
使用说明
1、robots.txt可以告诉百度您网站的哪些页面可以被抓取,哪些页面不可以被抓取。
2、您可以通过Robots工具来创建、校验、更新您的robots.txt文件,或查看您网站robots.txt文件在百度生效的情况。
3、Robots工具目前支持48k的文件内容检测,请保证您的robots.txt文件不要过大,目录最长不超过250个字符。
对于这个大家应该不陌生了,不过在这里也有几点需要大家注意:
第一点:写完后,一定要在百度站长工具中进行测试,别错误的把一些重要页面给屏蔽了;
第二点:写法上的优化改进,变通一下,可以让我们网站更安全,例如:
禁止搜索引擎抓取我们后台地址
最常见的写法:
User-agent: *
Disallow: /admin/
换一种思维,换一种写法:
User-agent: *
Disallow: /adm*
注:这样就让一些人,不能清楚的知道我们后台的URL是什么了。在这里要注意下,你其他页面的URL,千万别含有 “adm”也就是后台地址,要跟其他URL要有区别,不然你这样操作,会有严重的问题的,切记。
02
抓取频次:抓取频次是搜索引擎在单位时间内(天级)对网站服务器抓取的总次数,如果搜索引擎对站点的抓取频次过高,很有可能造成服务器不稳定,Baiduspider会根据网站内容更新频率和服务器压力等因素自动调整抓取频次。
该功能很重要,每天必看的一个功能,该功能反应服务器最近的一些情况,如果服务器出了什么问题,那对SEO来说,可是灾难性的打击:
接下来,给大家讲解下,平时都需要注意哪些问题:
在这里主要注意下,如果抓取频次过高或过低,我们该怎么办,在上图中,我已经打了箭头,大家可以直接去百度后台进行查看,在这就不多说。总体来说,当然是越多越好,这边网站的页面才有可能完全被百度爬取一遍。
抓取时间,可以说是直接反应服务器、CDN等是否有问题,所以,这个趋势图应该必须每天都要关注一次,如下图:
抓取时间,一定要稳定在1000毫秒以内,超过这个时间,就有问题,上图中有一个很突出的点,那天是因为服务器被攻击,那天后权重就下降,不过还好,在这几天权重又回升了。
当然,这个抓取时间的数据,并不是实时的,一般,要等到第二天才能看到,其实,这种突发事件,根本不用等看这数据,我们就知道了。
看这个数据,主要是如果有那几天或连续几天,抓取时间都在1000-2000之间,那我们技术是很难发现的,那这个时间,我们就需要跟技术去核实下,最近服务器出现什么问题了,这个才是重点。
03
抓取诊断:抓取诊断工具,可以让站长从百度蜘蛛的视角查看抓取内容,自助诊断百度蜘蛛看到的内容,和预期是否一致。每个站点每周可使用200次,抓取结果只展现百度蜘蛛可见的前200KB内容。
该功能,可以说是当网站遇到问题后,必须要来使用的一个工具,例如,网站索引量下降,那这个页面类型为什么下降?查了其他工具也没分析出来,那这个时候可以通过抓取诊断,多抓取几个该页面类型的页面,可以从中发现,是不是抓取时间有问题,是不是页面内容有问题(用户与蜘蛛看到的内容不一致),是不是有些内容蜘蛛是看不到等等。
抓取诊断工具的使用,也有以下技巧:
1、当有新页面或是活动页面,一个很重要的页面时,我们可以用抓取诊断,来对该页面进行抓取,这样可以加快蜘蛛来爬取该页面。(同理,一些急需删除的404页面,或者一些重要的栏目等等);
2、如何判断页面抓取时间长(如果做了CDN,是否是CDN有问题),如下图:
如何判断,就看上图中的“提交时间”和“抓取时间”,把这两个时间进行对比,如果时间很长(例如有十几分钟,甚至半个小时)才能抓取成功,那你网站肯定有问题。
遇到这个问题,可以直接跟技术反馈,技术会查清楚原因。我以前遇到过,都是CDN与蜘蛛之间的问题,这个要解说起来就复杂多了。
3、如果换服务器了,这个“抓取诊断”功能,也是非常好用的。当服务器换成功后,就用这个功能,从新抓取每个二级域名的首页即可,发现IP不对,就点“报错”,多抓取几次,就会改过来的。
4、该功能,也可以查看隐藏内容。如果查看抓取结果,与我们实际页面看到的不一样,那么就要引起注意了。当然了,一般都不会不一样。
5、抓取诊断工具常见错误类型解析,这个内容,大家可以直接去百度抓取诊断功能下面的介绍去了解下。
04
抓取异常:Baiduspider无法正常抓取,就是抓取异常。
抓取异常对网站有哪些影响?
对于大量内容无法正常抓取的网站,搜索引擎会认为网站存在用户体验上的缺陷,并降低对网站的评价,在抓取、索引、权重上都会受到一定程度的负面影响,最终影响到网站从百度获取的流量。
一、网站异常
1、dns异常
当Baiduspider无法解析您网站的IP时,会出现DNS异常。可能是您的网站IP地址错误,或者域名服务商把Baiduspider封禁。请使用WHOIS或者host查询自己网站IP地址是否正确且可解析,如果不正确或无法解析,请与域名注册商联系,更新您的IP地址。
2、连接超时
抓取请求连接超时,可能原因服务器过载,网络不稳定
3、抓取超时
抓取请求连接建立后,下载页面速度过慢,导致超时,可能原因服务器过载,带宽不足
4、连接错误
无法连接或者连接建立后对方服务器拒绝
二、链接异常
1、访问被拒绝
爬虫发起抓取,httpcode返回码是403
2、找不到页面
爬虫发起抓取,httpcode返回码是404
3、服务器错误
爬虫发起抓取,httpcode返回码是5XX
4、其他错误
爬虫发起抓取,httpcode返回码是4XX,不包括403和404
总结:网站异常,比较容易解决,直接找技术就可以了;在我们做SEO,最重要的就是链接异常,在这4个链接异常错误中,最常见的就是第2和第3个,第3个,也比较好说,直接找技术;对于第2个,就需要我们自己先找原因,在去找技术进行解决。
遇到第2个原因,首先根据上面的404URL,看看是哪个页面类型的错误比较多,在看看最近有没有什么项目上线或改动之类的,如果找不到什么原因,可以把相关404URL,提供给技术,让技术进行查找下原因。
如果404的页面比较少,可以多观察几天,看看后续还会不会出现。有的时候就不知道哪冒出来的404页面,但如果404页面突然增多,那就得查找原因了。