上一篇我们主要讲了,网站结构的合理化对于SEO的重要性,合理的网站结构即是良好的SEO思路建立的基础,而今天我们要讲的搜索引擎友好性,则是网站结构合理化的基础。从宏观来看,一个网站要获得排名权重,需要经过以下几个步骤,爬虫抓取,预处理,索引排名,要保证整个环节的流畅性,我们必须先考虑解决爬虫的抓取问题。从搜索引擎爬虫角度来看,并不是所有的网站的可以被完全抓取,比如一些使用大量JS效果的网站爬虫就无法识别,后面的预处理和索引排名环节也无法进行。所以在结构合理化的初期,我们要先考虑爬虫抓取的流畅性,这样才能保证后面环节的顺利进行。
搜索引擎爬虫不友好主要体现在这三个方面:
搜索引擎蜘蛛无法找到页面
之前我们说过,搜索引擎爬虫之所以叫爬虫,是因为它的抓取模式就像蜘蛛在一张大网上爬行,也就是说如果这张网有断节,或者蜘蛛无法跨过的障碍以及未知的危险,蜘蛛都会停止爬行,而障碍后面的这张网就自然不能被发现。网站网页也是如此,搜索引擎爬虫在遇到无法预知和识别的链接时,就会选择放弃爬行。常规意义上,有利于蜘蛛爬行的链接为普通的HTML链接,而相对复杂涉及逻辑和动态的JavaScript和Flash链接,是蜘蛛无法预知的。大量的逻辑算法和动态效果,容易让蜘蛛陷入自身无法处理的死循环,严重影响蜘蛛的工作效率,所以蜘蛛对JS链接和Flash链接是望而生畏的,哪怕链接后面有大量有价值信息蜘蛛也不会轻易去尝试,当然这也是搜索引擎技术的局限性,相信今后这类链接的抓取在技术上也会有一定的突破。要找到页面我们可以从两个方面来优化,首先就是我们所说的尽量使用HTML链接,JS和Flash能不用就不用,其次就是外部链接,通过其他平台的信息分布,让页面的链接出现在更多的地方,提高蜘蛛的发现频率。总之就是,给蜘蛛更多路线到达页面,少给蜘蛛制造麻烦,能简单就简单。
找到页面后无法抓取页面内容
链接被发现后,接下来就是抓取问题了。不能被蜘蛛抓取或者蜘蛛不愿意的抓取的页面主要有:带有参数的URL(最常见的就是带“?”的动态URL,这块儿涉及伪静态的重要性)、Session ID、大量Flash(Flash既不能爬行也不能被抓取,除非搜索引擎能学会看视频,不过目前的技术条件几乎是不可能的,所以重要内容一定不要用Flash来展示)、框架结构(frame)、可疑的转向(比如大量JS跳转)、大量复制内容(比如采集站,考虑用户体验,搜索引擎肯定不愿意把相同内容的信息都排名展示给用户,这会让搜索引擎过早失去使用价值)。所以要让蜘蛛抓取,需要的最基本条件为:URL静态化、去掉Session ID和大量Flash(Flash可以适量放置,对搜索引擎不友好,但是对用户而言是友好的,只是以目前的技术搜索引擎无法判断是否用户友好)、转向使用301和302常规转向(JS转向能不用则不用)、伪原创或原创(不要大段复制大段粘贴,以目前的搜索引擎技术,不需要预处理,在抓取环节就可以通过指纹识别技术,定位关键词,来判断页面是否为复制,所以宁可不写,也不要复制,大量复制内容搜索引擎不会喜欢)。
抓取页面无法准确快速提炼有用信息
搜索引擎爬虫抓取时,判断一个页面的框架结构主要是通过H标签、B(加粗重点)标签、关键词分布来进行,这一部分是我们通过前端可以直观看见的。但是蜘蛛抓取通常是直接阅读代码,而页面内容简单明了,代码则不一定,所以代码的繁琐也会影响爬虫的抓取效率。要解决这两个问题只需要在撰写内容的时候,多加注意内容的结构,这块儿涉及文章思路,建议哪怕是伪原创也先提前写好大标题(H1)和小标题(H2-H6),根据标题框架去填充内容,再做修改,最后再给相应的关键词加粗(B标签),这是前端处理方法。代码方面,如果我们每写完一篇文章再对代码进行修改精简的话,工作效率太低,必要性也不大,所以建议提前选好本身生成代码就比较精简的编辑器,经过验证再使用,工具能解决的事情就要节省人工。
只有搜索引擎爬虫能找到所有页面,并且能进行抓取,能快速提炼有效信息,这样爬虫才能更好的理解这些内容,搜索引擎才会真正去关注这些内容,相应也会获得好的排名和权重,这是SEO优化中必须要时刻注意的三个环节,再有价值的内容前提也是蜘蛛找得到且看得见,毕竟SEO优化就是与搜索引擎和用户三方博弈的过程。我们在SEO过程中,需要既考虑到用户体验感,同样也需要做到搜索引擎友好,达到这种平衡之后,我们只需要稳定输出即可。
领取专属 10元无门槛券
私享最新 技术干货