前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >如何辨别真伪百度蜘蛛Baiduspider

如何辨别真伪百度蜘蛛Baiduspider

原创
作者头像
晨曦云
修改于 2021-11-25 12:18:52
修改于 2021-11-25 12:18:52
1.5K00
代码可运行
举报
文章被收录于专栏:晨曦云晨曦云
运行总次数:0
代码可运行

我们在根据网站日志分析搜索引擎蜘蛛抓取网页的记录时,实际上很多站点都是有一些伪装称baiduspider的到访者的。这些数据会严重影响我们对日志分析后的判断。

这些到访者,为什么会伪装为baiduspider来访问我们的网站呢?最典型的就是采集你内容的那些人。他们知道很多工具是能够看到哪些ip访问网站的量过大的。例如某一个ip今天访问你网站1万次,那正常吗?肯定是不正常的。但他要是baiduspdier呢?呵呵,那就正常了。

我们应该如何识别baiduspider的真假呢?

百度pc端的爬虫UA是这样的:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
Mozilla/5.0(compatible;Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
Mozilla/5.0(compatible;Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)

百度移动端的爬虫UA是这样的:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
Mozilla/5.0(Linux;u;Android4.2.2;zh-cn;)AppleWebKit/534.46(KHTML,likeGecko)Version/5.1MobileSafari/10600.6.3(compatible;Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
Mozilla/5.0(iPhone;CPUiPhoneOS9_1likeMacOSX)AppleWebKit/601.1.46(KHTML,likeGecko)Version/9.0Mobile/13B143Safari/601.1(compatible;Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)

如上是包含了百度的常规爬虫,和渲染爬虫render的。这两个爬虫的区别符已经用红色字体标出来了。

区分百度pc和移动端的爬虫

1、通过关键词“Android”或者“Mobile”来进行识别,判断为移动访问或者抓取。

2、通过关键词“Baiduspider/2.0”、“Baiduspider-render/2.0”,判断为百度爬虫。

那么,站长该如何通过IP来判断此spider是不是来自百度搜索引擎的呢?

可以通过DNS反查方式来解决这个问题。根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法分别如下:

1、在linux平台下,您可以使用hostip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以.baidu.com或.baidu.jp的格式命名,非.baidu.com或.baidu.jp即为冒充。

2、在windows平台或者IBMOS/2平台下,您可以使用nslookupip命令反解ip来判断是否来自Baiduspider的抓取。打开命令处理器输入nslookup xxx.xxx.xxx.xxx(IP地址)就能解析ip,来判断是否来自Baiduspider的抓取,Baiduspider的hostname以.baidu.com或.baidu.jp的格式命名,非.baidu.com或.baidu.jp即为冒充。

3、在macos平台下,您可以使用dig命令反解ip来判断是否来自Baiduspider的抓取。打开命令处理器输入dig xxx.xxx.xxx.xxx(IP地址)就能解析ip,来判断是否来自Baiduspider的抓取,Baiduspider的hostname以.baidu.com或.baidu.jp的格式命名,非.baidu.com或.baidu.jp即为冒充。

以上就是对怎么识别百度蜘蛛Baiduspider的真假的介绍,希望可以帮到你!如有疑问,欢迎留言!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
最全网站日志分析攻略,全面解析百度蜘蛛!
大家进行网站日志分析的时候,常见到很多不同IP段的百度蜘蛛,为了方便大家更好的进行日志分析,下面列举了百度不同IP段常见蜘蛛的一些详情情况,及所谓的降权蜘蛛,沙盒蜘蛛,高权重蜘蛛等等。
用户9229846
2021/12/08
3.7K0
最全网站日志分析攻略,全面解析百度蜘蛛!
真假百度蜘蛛的甄别
虽然百度的口碑并不好,但是不可否认的是,它一直是中文搜索中的霸主,所以对大多数中小型商业公司而言,都对百度蜘蛛的抓取行为予以放行,不过还有很多非法的蜘蛛,它们会通过 User-Agent 把自己伪装成百度蜘蛛,此时如果单纯以 User-Agent 来判断是否是百度蜘蛛就不合适了。虽然网上能找到很多现成的百度蜘蛛 IP 段,但是并不能确认它们的准确性,所以我打算自己收集,进而甄别真假百度蜘蛛。
LA0WAN9
2021/12/14
6500
如何通过 User-Agent 识别百度蜘蛛
如果有大量的百度蜘蛛抓取网站就需要注意了:有可能是其他爬虫伪造百度蜘蛛恶意抓取网站。
太后
2021/10/12
2K0
如何通过 User-Agent 识别百度蜘蛛
百度蜘蛛的 User Agent
移动UA: Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,likeGecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html) PC UA: Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.bai
Denis
2023/04/15
4380
尝试百度Spider抓取异常问题
介于网络环境不同,很多人有需求在保留国内域名 DNS 服务器不改变的情况下,还能接入国外服务商比如 CloudFl...
吴蛋蛋
2023/03/14
1.3K1
尝试百度Spider抓取异常问题
2021常见的搜索引擎蜘蛛的User Agent汇总
一般安全专业人士会巧用UA来绕过防火墙、安全设备的UA检测 构造特定的UA来访问一些其他UA无法访问的页面。 构造UA通过僵尸网络完成DDOS攻击,对服务器进行压力测试或者评估。
小唐同学.
2022/03/10
3.6K0
python爬虫︱百度百科的requests请求、百度URL格式、网页保存、爬虫模块
版权声明:博主原创文章,微信公众号:素质云笔记,转载请注明来源“素质云博客”,谢谢合作!! https://blog.csdn.net/sinat_26917383/article/details/79475335
悟乙己
2019/05/26
2.4K0
解决百度蜘蛛无法爬取Hexo博客的问题
  由于GitHub Pages是拒绝百度爬虫爬取的,包括用Hexo或Jekyll搭建的博客,因此你的站点再怎么SEO优化,这在国内也是收录和搜索不到的。本文介绍的方案同大多数一样,利用DNS将国内的线路请求到Coding Pages,然后国外的线路还是走GitHub Pages。
happyJared
2018/09/20
1.5K0
解决百度蜘蛛无法爬取Hexo博客的问题
​K8S日志收集:容器日志输出JSON,自动采集至Elasticsearch
修改 /etc/nginx/nginx.conf文件,将日志输出为 JSON 格式。(其实就是构建一个 JSON 字符串)
SRE扫地僧
2021/03/07
2.2K0
​K8S日志收集:容器日志输出JSON,自动采集至Elasticsearch
Robots.txt – 禁止爬虫
robots.txt用于禁止网络爬虫访问网站指定目录。robots.txt的格式采用面向行的语法:空行、注释行(以#打头)、规则行。规则行的格式为:Field: value。常见的规则行:User-Agent、Disallow、Allow行。
全栈程序员站长
2022/07/07
2.1K0
造成Baiduspider(百度蜘蛛)抓取网站异常的原因有哪些
有一些网页,内容优质,用户也可以正常访问,但是Baiduspider却无法正常访问并抓取,造成搜索结果覆盖率缺失,对百度搜索引擎对站点都是一种损失,百度把这种情况叫“抓取异常”。对于大量内容无法正常抓取的网站,百度搜索引擎会认为网站存在用户体验上的缺陷,并降低对网站的评价,在抓取、索引、排序上都会受到一定程度的负面影响,影响到网站从百度获取的流量。
高级优化师
2019/10/26
2.4K0
造成Baiduspider(百度蜘蛛)抓取网站异常的原因有哪些
双十二之际、再谈:网站MIP改造中的点点滴滴!您真的了解百度MIP框架么?
Ps:如果您出于好奇心、还是想看一看正文?强烈建议先阅读之前写的:《MIP开发文档》。
QUXINGDONG.COM
2018/12/14
1.7K2
双十二之际、再谈:网站MIP改造中的点点滴滴!您真的了解百度MIP框架么?
HttpClient 调用WebAPI时—传参的三种方式(ASP.NET MVC&CORE均适用)
代码里有注释: 方法一,传json参数 方法二,传表单参数 方法三,传字节流 public void Post() { //方法一,传json参数 var d = new { username = " ", password = " ", grant_type = "password", appcode = " ",
红目香薰
2022/11/29
1.2K0
连接超时 抓取机房:联通 请确保sitemap地址正确,再重新提交。这个是什么原因有大佬可以指点一下
UA:Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
用户10667301
2024/11/22
970
连接超时 抓取机房:联通 请确保sitemap地址正确,再重新提交。这个是什么原因有大佬可以指点一下
scrapy 入门(一)
Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。
润森
2019/08/29
4550
scrapy 入门(一)
常用User Agent整理
采集什么的喜欢这个了。 OLD N97 Mozilla/5.0 (SymbianOS/9.4; Series60/5.0 NokiaN97-1/20.0.019; Profile/MIDP-2.1 Configuration/CLDC-1.1) AppleWebKit/525 (KHTML, like Gecko) BrowserNG/7.1.18124 BlackBerry - Playbook 2.1 Mozilla/5.0 (PlayBook; U; RIM Tablet OS 2.1.0; en-U
老高的技术博客
2022/12/27
8080
Python爬取哔哩哔哩(bilibili)视频
本篇文章主要给大家讲解下如实使用python 爬取哔哩哔哩中的视频,首先我是一名大数据开发工程师,爬虫只是我的一个业余爱好,喜欢爬虫的小伙伴可以一起交流。好了多了就不多说了喜欢的朋有可以收藏,转发请复原文链接谢谢。
大数据老哥
2021/02/04
2.8K1
Python爬取哔哩哔哩(bilibili)视频
ThinkPHP 5.0 框架整站跳转菠菜(挂马)文件代码
ThinkPHP 是国内比较成熟,非常流行的php的web框架,免费开源,这些特性如同站长们最爱使用的织梦建站系统工具一样(dedecms)非常容易被挂马,跳转菠菜网站!
二爷
2021/12/09
2.3K0
ThinkPHP 5.0 框架整站跳转菠菜(挂马)文件代码
用Python抓取百度翻译内容并打造自己的翻译脚本!
英文不好一直是我的一个短板,尤其是在学习代码的阶段,经常需要查询各种错误,很是苦逼,一直就想自己做个翻译的脚本,省去打开网页的时间,但是查询之后发现网上的教程都是百度翻译改版之前的爬虫,不得已只好自己上手了!
云飞
2018/09/13
2K0
浅析网站更换ip或使用CDN会不会影响SEO排名
最近张戈博客在阿里云和腾讯云服务器之间来回折腾了数次,别的收获没有,就悟出了一个问题:网站更换 IP 或使用 CDN 会不会影响 SEO 收录或排名? 收录就不好意思说了,张戈博客这几个月内发布的文章
张戈
2018/03/21
2.7K0
浅析网站更换ip或使用CDN会不会影响SEO排名
推荐阅读
相关推荐
最全网站日志分析攻略,全面解析百度蜘蛛!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档