• 故障识别
故障识别主要通过如下三种方式:
故障分析思路
• 常用维护方法
1.告警和日志分析
通过分析告警和日志,可以帮助维护人员分析产生故障的根源,同时发现系统的隐患,告警是发现设备故障的主要途径。
2.信令跟踪分析
从信令跟踪中,可以很容易知道信令流程是否正确,信令流程各消息是否正确,消息中的各参数是否正确,通过分析就可查明产生故障的根源。
3.诊断测试分析
诊断测试可以协助维护人员对基站所有单板运行状态和相关系统资源进行诊断,诊断结果可以帮助了解系统的运行情况,是否存在故障。
4.动态管理分析
可以查看系统实时的链路状态,并对小区、链路、电调天线、单板进行关断、复位、闭塞、设置等操作。
5.性能统计分析
可以查询实时和历史的性能数据,分析一段时间内的数据变化情况。
6.指示灯状态分析
根据状态指示灯的状态,可以分析故障产生的部位,甚至分析产生的原因。
7.拔插和部件更换
对可能产生故障的单板分别进行拔插,每拔插一个单板,则对拔插效果进行观察,如果拔插某块单板时故障消失,则说明是因为该单板本身故障或者单板与背板的连接引起的故障。用正常的部件更换可能有故障的部件,如果更换后故障解决,即可定位故障 。
8.仪器仪表测试分析
利用仪器仪表可测量系统的运行指标、环境指标、链路状况、无线指标,将测量结果与正常情况下的指标进行比较,分析产生差异的原因。经常使用的仪器仪表有万用表、驻波比测试仪、频谱仪。
9.拨打测试和路测
拨打测试和路测也是维护中常用的方法,主要应用在故障重现和故障恢复后的验证上 。
• 网元与网管断链
• 故障现象
基站出现前后台断链或一直无法正常建链的问题。
• 故障原因
引起前后台断链的原因很多,主要如下几类:
1. 基站带宽资源配置太小导致前后台断链;
2. OMMB配置中心与网元通讯IP配置错误导致前后台不建链;
3.OMC后台基站数据配置错误导致前后台不建链:
(1) 运维状态是否为"未开通";
(2) OMC通道的“操作维护的接口类型”配置是否正确;
(3) 在动态数据管理中执行过“人工断开链路”操作。
4. 网管已下发建链请求但仍建链失败,需抓包排查。
• 偶联不通
• 故障现象
1. 网管上有偶联断链告警(SCTP is broken);
2.在CC管理进程下,执行命令showtcb,在显示信息中,Association State 这一项值不是established。
• 故障原因
1.物理连接有问题;
2.SCTP参数配置不正确。需检查以下参数的正确性:本端地址、远端地址、本端端口、远端端口;
3. IP层默认网关配置不正确;
4.TAC/PLMN配置不正确;
5.基站和核心网之间的传输链路有问题。
• 网元与网管闪断/偶联闪断
• 故障现象
基站出现前后台链路闪断。
• 故障原因
1.网元ID是否与其他网元ID冲突;
2.网元IP地址与其他网元IP地址重复;
3. 网络原因导致前后台建链失败:
(1) 网管与基站ping不通,一般都是网口连接松动或者交换机网口故障导致的,重插网线或者更换端口可以解决;
(2) 可以ping通,但是ping包延迟比较大。
• 定位方法
1.使用断开网元,再PING网元配置的IP的方式来确认是否存在IP地址重复的情况。
2. 如果网络限制PING包,就通过在网络中抓包的方式来分析,如果包出现明显的异常,而且很多发往网管的包MAC地址不一致,则表明出现了IP地址重复的现象。
• SNTP对时失败
• 故障现象
在网管上看到eNodeB有SNTP对时失败告警。
• 故障原因
1. SNTP对时服务器地址配置错误;
2. SNTP服务器问题,服务器是否正常运行,NTP服务是否开启;
3. 网络故障。
• 故障处理
1.检查基站SNTP服务器地址配置是否正确
2. 通过诊断测试,从基站ping SNTP服务器IP,确认链路是否正常无丢包。
3. 动态管理中,SNTP强制对时。
4. 检查SNTP服务器工作是否正常。
• GNSS天馈类故障
• 故障现象
1. GNSS receiver satellite searching fault GNSS接收机搜星故障(198096837)
2. GNSS antenna feeder link fault GNSS天馈链路故障(198096836)
3. GNSS receiver has an alarm/GNSS接收机告警(198092200)
• 故障原因
1. 查询基站CC板时钟配置是否为内置GNSS
2. 检查GPS天线安装情况,拔插一下天馈线缆,查看告警是否消失,若告警消失则结束操作
3. 检查GPS天线竖直方向±60°范围内是否有遮挡,检查周围是否存在干扰源。
4. 替换GPS接收天线,若告警依然存在,则更换天馈线缆。之后若告警依然存在,请更换CC单板。
• 时钟锁相环失锁
• 故障现象
1.The PLL clock is unlocked 时钟锁相环失锁(198092288)
2. PLL unlocked alarm/PLL失锁告警(198092211)
3. IQ link input loses lock/IQ链路输入失锁(198096556)
• 故障原因
1. 单板锁相环工作异常;
2. 硬件故障;
3. 锁相环无参考时钟输入或参考时钟质量太差;
4. 输入方向的IQ链路失锁。
• 故障处理
该故障一般可以通过复位、拔插单板的方法进行处理,若复位拔插无法恢复告警,则需更换故障单板。
• 光接口类故障涉及硬件及原因
1)基带板(BPL1、BPL1A等)
2)BBU侧光模块
3)光缆(包括光纤跳线、尾纤、长距光缆等)
4)RRU侧光模块
5)RRU(主要有R8882系列、R8862/R8862A系列、R8861系列等)
上述任何环节硬件问题或工程质量问题均有可能导致光接口类故障。
• BPL单板主要指示灯
• RRU单板主要指示灯
• 光口接收异常类
• 含下列告警一个或多个的情况处理
• 光口接收帧失锁(198092286);
• 光口未接收到光信号(198092290);
• 光模块接收光功率异常(198092431);
目前网管中,这三种告警占了相当比例,最多可达30%以上。
• 后台分析处理
1. 告警查看
在上述告警码所对应的附加文本信息中,可以看到光功率或光强度值,一般接收光强度/光功率<-14dBm或>0.5dBm,即可认为光路或光模块可能存在问题;若提示光强度=-40dBm,则说明光链路已经不通了。
2. 配置数据检查
对于R8861/R8882系列,BPL侧光口速率必须配置为3G;对于R8862/R8862A系列,BPL侧光口速率建议配置为6G。
3. 诊断测试
通过后台网管的诊断测试功能,获取光模块当前诊断数据,以确认光模块接收/发送功率是否确属异常。
• 前台分析处理
1. 检查光纤接头是否有损坏或变形,导致插入不到位的情况
2. 检查光纤端面是否有污染情况
3. 检查RRU是否正常上电,且RRU工作指示灯正常
4. 检查光纤实际长度是否大于光模块上标称支持长度
5. 检查光口配置是否存在速率与光模块实际标称值不匹配的情况
6. 光纤环回法和替换法
• “光模块不在位”相关告警的处理
“光模块不在位”告警,主要由于光模块未插入或光模块存在功能故障不可用,一般会由此触发“小区/基站退出服务”和“RRU链路断”的告警,亦即会同时上报下列三个告警码:
• 1)光模块不在位(198092289);
• 2)小区退出服务(198094419) 或 基站退出服务(198094422);
• 3)RRU链路断(198097605);
• 处理方法
1. 网管上对问题光模块进行诊断,查看光模块信息及接收、发送光功率。如果光模块不在位,则上述诊断无法进行;如果光模块在位,则可从诊断信息的发送功率判断模块是否为发送故障。
2. 光模块确实不在位,需要增加硬件;
3. 光模块在位,但存在功能故障。——先重新拔插一下光模块,以排除是否之前浮插而致告警;若重新拔插后故障依旧,则采用光纤环回法或替换法进行判断,看是否光模块本身功能故障所致。
4. 更换光模块。
• 软件运行异常(198097604)
• 故障原因
1. 单板软件运行异常:单板软件未正常运行,无法正常上报心跳到主控主板。
2. 产品进程运行异常:产品进程得不到及时调度,或单板产品进程未正常运行,无法正常上报心跳到管理进程。
3. 子单元软件运行异常:单板子单元和主控单元之间通讯链路断,或单板子单元软件未正常运行,无法正常上报心跳到主控单元。
• 处理措施
1. 查看基站告警,检查单板是否存在硬件类型和配置不一致告警
2. 查看基站告警,检查单板是否存在参数配置错误告警,如有则先处理,否则执行下一步。
3. 通过软件管理,重新下载激活版本
4. 复位单板,如果告警恢复则结束处理,否则执行下一步
5. 硬复位单板,如果告警恢复则结束处理,否则执行下一步;
• RRU链路断(198097605)
• 故障现象
后台上报RRU链路断(198097605)告警。
• 故障原因
• 1. RRU运行异常;
• 2. RRU与主控板之间的通讯链路故障。
• 处理措施
• 1. 检查是否存在“光口未接收到光信号”、“光模块接收功率异常”、“光口接收帧失锁”告警,如有则依据对应处理指导处理,否则执行下一步;
• 2. 检查是否存在“版本包故障”告警,如有则先处理,否则执行下一步;
• 3. 检查RRU是否存在“硬件类型和配置不一致”告警,如有则先处理,否则执行下一步;
• 5. 复位RRU,如果告警恢复则结束处理,否则执行下一步;
• 6. 硬复位RRU,如果告警恢复则结束处理,否则执行下一步。
• 7. 复位与该RRU连接的上级单板或RRU,如果告警恢复则结束处理,否则执行下一步。
• 天馈驻波比异常(198098465)
• 告警原因
1. 天馈线缆连接故障;
2. 存在同频干扰信号;
3. RRU故障。
• 处理措施
1. 通过“诊断测试”查询站点驻波比
2. 前台检查RRU、天线、馈线是否正确连接;
3. 前台检查各接头是否拧紧;
5. 采用交叉检测的方法确定是RRU故障还是天馈系统故障。
6. 逐级检查天线、合路器、馈线的驻波比,确定出现故障的部件,更换或维修该部件。
7. 完成整改后,后台再次进行驻波比检测,直至驻波比告警消除。
• 单板温度异常告警
• 告警原因
1. 过高:
(1) 进风口或者防尘网堵塞;
(2) 外围环境温度过高;
(3) 温度告警门限设置不合理。
2. 过低:
(1) 外围环境温度过低;
(2) 温度告警门限设置不合理。
• 处理措施
1. 在配置管理中将温度告警门限恢复为默认值,并同步配置数据到网元
2. 检查插箱风扇是否正常工作;
3. 检查设备的进风口以及防尘网是否堵塞,去除堵塞物或者清洗防尘网
4. 检查外围环境,如空调是否正常工作、热交换器是否故障、是否有大功率发热设备等
• 网优测试相关知识
越区覆盖问题和小区接反问题
• 网优测试相关知识
• MOD3干扰问题
网优测试相关知识
• MOD3干扰问题
领取专属 10元无门槛券
私享最新 技术干货