OptiXOSN产品维护和故障处理专题中级.ppt_第1页
OptiXOSN产品维护和故障处理专题中级.ppt_第2页
OptiXOSN产品维护和故障处理专题中级.ppt_第3页
OptiXOSN产品维护和故障处理专题中级.ppt_第4页
OptiXOSN产品维护和故障处理专题中级.ppt_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

OptiX OSN 产品维护和故障处理专题(中级),张建立/44957,Page 1,前 言,本课程通过介绍一些故障定位的方法帮助故障维护人员分析定位故障。 通过一些典型的故障来阐述常用故障定位方法的应用。,Page 2,学习指南,本课程内容由浅到深,分初级、中级两部分,本胶片为中级部分。 学习本课程之前,建议先学习SDH原理、NGSDH产品概述、 OSN9500产品概述等课程; 第三章为故障定位基本思路和方法,也是本次课程重点掌握的内容,从第四章到第十五章是通过一些典型案例来阐述第三章所介绍方法的应用。,Page 3,参考资料,SDH 原理 OptiX OSN 设备手册 OptiX OSN 维护手册 故障处理分册 OptiX OSN 技术手册-组网与应用分册 OptiX OSN 维护手册告警及性能事件分册,Page 4,目 标,学习完此课程,您将: 理解故障处理前的准备措施 掌握故障处理基本思路和方法 掌握故障紧急恢复方法 理解故障处理案例分析,Page 5,第1章 故障处理前的准备 第2章 故障处理基本思路和方法 第3章 故障处理案例分析,内容介绍,Page 6,故障定位前的准备,掌握专业技能 熟练掌握SDH原理知识 对SDH系统告警信号流及告警产生机理有深入了解 熟练掌握常见告警信号的处理 熟练掌握OSN设备和网管的基本操作 熟悉常用仪表的基本操作,Page 7,故障定位前的准备,熟悉网络组网信息 网络拓扑 业务配置 设备运行状态 工程文档 做好故障现场数据的采集与保存 告警与性能事件 网元及单板配置数据 网管操作日志,Page 8,第1章 故障处理前的准备 第2章 故障处理基本思路和方法 第3章 故障处理案例分析,内容介绍,Page 9,内容介绍,故障处理基本思路和方法 故障定位的基本原则和分析方法 告警、性能分析法 环回法 替换法 配置数据分析法 更改配置法 仪表测试法 经验法,Page 10,故障定位基本原则,故障定位的关键是什么?,将故障准确定位到单站单板,Page 11,故障定位基本原则,先定位外部,后定位传输 先定位单站,后定位单板 先高速部分,后低速部分 先分析高级别告警,后分析低级别告警,Page 12,故障分析方法,环回法,替换法,配置数据分析法,更改数据配置法,告警、性能 分析法,仪表测试法,经验处理法,Page 13,故障分析方法,故障定位的常用方法和一般步骤,可简单地总结为: 一分析 二环回 三替换 对于较复杂的故障,除之上三种方法外,还可综合使用配置数据分析、更改配置、仪表测试、经验处理等方法进行故障定位和处理。,Page 14,内容介绍,故障处理基本思路和方法 故障定位的基本原则和分析方法 告警、性能分析法 环回法 替换法 配置数据分析法 更改配置法 仪表测试法 经验法,Page 15,故障处理方法(告警、性能分析法),通过设备告警指示灯获取告警信息,一、通过机柜顶部的告警指示灯查看告警 二、通过单板告警指示灯查看告警,设备指示灯仅反映设备当前的运行状态,对于设备曾经出过故障,无法表示 设备指示灯状态只能反映设备告警级别,而不能准确告知具体告警,缺点,适用于设备维护人员配合处理故障时使用,Page 16,故障处理方法(告警、性能分析法),通过网管获取告警和性能信息,适用于网管维护人员处理故障使用,全面性,不仅仅是一个站、一块板的故障信息,而且是全网设备的故障信息,详实性,能够获取设备当前存在哪些告警、告警发生时间,以及设备的历史告警;能够获取设备性能事件的具体数值,Page 17,告警、性能分析法,应用举例,分析: 因网元B的西向有R_LOS,从而网元A相应光路有MS_RDI、HP_RDI,B、C的东向均有HP_RDI,是AU-AIS所回告的信息; 因网元D有AU_AIS,TU_AIS,并且TU_AIS业务是与网元A业务,从而网元A相应通道有LP_RDI; 网元B的R_LOS告警会导致AU-AIS,TU_AIS; 结论: 所有告警均由网元B的R_LOS引起,说明A到B传输方向光路故障。,A,B,D,R_LOS,MS_RDI HP_RDI LP_RDI,AU_AIS TU_AIS,w,e,C,w,e,AU_AIS,HP_RDI,HP_RDI,Page 18,内容介绍,故障处理基本思路和方法 故障定位的基本原则和分析方法 告警、性能分析法 环回法 替换法 配置数据分析法 更改配置法 仪表测试法 经验法,Page 19,故障处理方法(环回法),线路,线路,内环回,外环回,SDH网元设备,支路,支路,软件环回/硬件环回 内环回/外环回 线路环回/支路环回 光口环回/通道环回,线路环回可能导致 其他在用业务中断,Page 20,故障处理方法(环回法),4.初步定位单板问题,“环回法”的步骤:,1.环回业务通道采样,2.画业务路径图,3.逐段环回,定位故障站点,Page 21,故障处理方法(环回法),一、环回业务通道采样:,1、从多个有故障的站点中选择一个站点; 2、从所选择站点的多个故障业务通道中选择其中的一个业务通道。由于自环第一个VC4通道,可能会影响ECC通信,因此尽量不要选择第一个VC4通道内的业务。,应用举例,Page 22,故障处理方法(环回法),画出所采样业务一个方向的路径图。 在路径图中表示出:该业务的源和宿,该业务所经过的站点,该业务所占用的VC4通道和时隙。,二、画业务路径图:,例如:,Page 23,故障处理方法(环回法),依据中断业务的路径图,在3号站第1块支路板的第1个2M通道外接一个2M误码仪,监测业务好坏。,三、逐段环回,定位故障站点,四、根据环回现象初步定位故障单板,Page 24,故障处理方法(环回法),OSN产品不同线路板对环回的支持情况汇总,Page 25,内容介绍,故障处理基本思路和方法 故障定位的基本原则和分析方法 告警、性能分析法 环回法 替换法 配置数据分析法 更改配置法 仪表测试法 经验法,Page 26,故障处理方法(替换法),适用场合,排除传输外部设备的问题 故障定位到单站后,排除单站内单板的问题,替换法就是使用一个工作正常的物件去替换一个 被怀疑工作不正常的物件,可替换物件包括线缆、光纤、法兰盘、电源、单板、设备等。,Page 27,故障处理方法(替换法),应用举例,业务配置:2-PQ1板63个2M配置双向业务到7-SL16A做 单站调试,使用设备为OSN3500。 故障描述:2-PQ1板第40个2M上报T_ALOS告警,其他2M通 道正常。通过网管对第40个2M做环回,T_ALOS消失。DDF架 环回故障依然存在。,Page 28,内容介绍,故障处理基本思路和方法 故障定位的基本原则和分析方法 告警、性能分析法 环回法 替换法 配置数据分析法 更改配置法 仪表测试法 经验法,Page 29,故障处理方法(配置数据分析法),适用场合,故障定位到单站后,用以进一步定位故障 特定告警,如:HP_TIM、HP_SLM等,HP_TIM:J1字节设置 HP_SLM:C2字节设置 TU_AIS/AU_AIS:SDH业务配置 TPS倒换下业务中断:检查TPS保护设置 MSP环倒换下业务中断:MSP节点参数设置 SNCP环倒换下业务中断:通道保护属性设置,Page 30,故障处理方法(配置数据分析法),A,B,C,应用举例,VC4,(开销穿通),(开销终结),(开销终结),HP_SLM,分析: 1、HP_SLM告警与C2字节相关,为实收C2与应收C2不匹配; 2、网元B开销穿通,对C2字节做穿通处理; 处理步骤: 1、检查网元C接受方向的应收/实收C2字节; 2、检查网元A发送方向的应发C2字节;,Page 31,内容介绍,故障处理基本思路和方法 故障定位的基本原则和分析方法 告警、性能分析法 环回法 替换法 配置数据分析法 更改配置法 仪表测试法 经验法,Page 32,故障处理方法(更改配置法),适用场合,有空余时隙、通道或槽位 一个VC4中部分时隙业务中断情况,更改时钟配置:时钟告警、指针调整 更改板位配置:怀疑单板或是母板槽位故障 更改时隙配置:将故障定位到单站 判定线路或支路故障 更改单板参数配置:以太网故障、对接故障,Page 33,故障处理方法(更改配置法),故障描述: 1、网元C收网元A方向所有2M业务中断; 2、其他网元业务正常; 可能原因: A:3-PQ1 C:PQ1,应用举例,A,B,C,D,2-PQ1:30E1 3-PQ1:40E1 3-PQ1:20E1,30E1,1VC4:130,40E1,2VC4:140,20E1,2VC4:4160,TU_AIS,LP_RDI,w,w,w,w,e,e,如何将故障 定位到单站?,Page 34,故障处理方法(更改配置法),配置一条从网元A到网元B的E1业务,使用第二个VC4,应用举例,A,B,C,D,2-PQ1:30E1 3-PQ1:40E1 3-PQ1:20E1,30E1,1:VC4,40E1,2:VC4,20E1,2:VC4,TU_AIS,LP_RDI,w,w,w,w,e,e,网元B有TU_AIS,无任何告警,网元A PQ1板故障,网元C PQ1板故障,Page 35,内容介绍,故障处理基本思路和方法 故障定位的基本原则和分析方法 告警、性能分析法 环回法 替换法 配置数据分析法 更改配置法 仪表测试法 经验法,Page 36,故障处理方法(仪表测试法),适用场合,排除传输设备外部问题 设备对接问题 设备性能指标问题,光功率计:R_LOS、R_LOF 万用表:接地或是电压问题 SDH分析仪:设备对接,Page 37,故障处理方法(仪表测试法),故障描述: B站收R_LOS 可能原因: A到B方向光纤故障 A站光板发送故障 B站光板接收故障,应用举例,A,B,R_LOS,w,w,测试A发送光功率,异常,A站光板发送故障,测试B接收光功率,正常,正常,异常,B站光板接收故障,A发B光纤故障,Page 38,内容介绍,故障处理基本思路和方法 故障定位的基本原则和分析方法 告警、性能分析法 环回法 替换法 配置数据分析法 更改配置法 仪表测试法 经验法,Page 39,故障处理方法(经验法),适用对象,做为紧急恢复业务时使用,复位单板 单站重启 网管重新下发配置 重配业务 将业务倒到备用通道、备用单板 交叉/主控板主备倒换,这些方法操作简单,可做为紧急恢复业务时使用,不能彻底查清故障原因。,Page 40,故障处理方法,Page 41,故障处理思路,1. 排除传输外部设备故障 分离传输问题还是其他设备问题 光纤故障的排除 中继线缆故障的排除 供电电源故障的排除 接地问题的排除,2.故障定位到单站 将故障定位到单站,可以使用“环 回法”和“更改配置法”。 告警性能分析法,也是将故障定位到站点比较常用的方法。,3.故障定位到单板并最终排除 故障定位到单站后,进一步定位故障位置最常用的方法就是替换法。,Page 42,问题,故障处理的基本原则是什么? 故障定位的分析方法有哪些,都适用于什么情况? 以R_LOS告警为例简述一下故障处理思路?,Page 43,第1章 故障处理前的准备 第2章 故障处理基本思路和方法 第3章 故障处理案例分析,内容介绍,Page 44,内容介绍,故障处理案例分析 业务中断类故障 误码类故障 通信类故障 对接类故障,Page 45,业务中断类故障,可能原因,外部原因 供电电源故障 接地故障 环境异常 光纤、电缆故障 人为原因 误操作设置了光路或支路通道的环回 误操作更改、删除配置数据,设置业务未装载 设备本身故障 单板失效或性能不好,Page 46,业务中断类故障,定位步骤,确定业务中断范围、中断数量 检查各站登录是否正常 检查有无设备告警,如BD_STATUS、NO_BD_SOFT等 检查保护倒换是否正常 分析故障,通过环回或是更改配置定位到单站 将故障进一步定位并解决,Page 47,业务中断类故障,TU_AIS,LP_RDI,网络配置 网元1为中心节点,为网关网元 其他各点之间没有业务,故障描述 网元1和网元4 E1业务中断 节点 4:TU_AIS 节点 1: LP_RDI 其他各站业务正常,无其他告警,t2:1,t2:1,2:1,2:1,2:1,案例1:无保护链,Page 48,业务中断类故障,1,2,3,4,w,w,w,w,E,E,TU_AIS,LP_RDI,t2:1,t2:1,2:1,2:1,2:1,告警查询,网元4有 TU_AIS,网元4不能收网元1业务,网元1、2、3间业务正常,检查1到4的业务配置,告警分析步骤,可否做环回 操作?,正确,Page 49,业务中断类故障,1,2,3,4,w,w,w,w,E,E,误码仪,t2:1,t2:1,2:1,2:1,2:1,对网元2东向 2VC4做内环回,正常,故障点在网元1、2,故障点在网元3、4,在网元3东向对 2VC4做内环回,正常,故障点在网元3,故障点在网元3或网元4,尾纤在网元3东向做内环回,正常,故障在网元3东向光板,故障在网元4,Page 50,业务中断类故障,1,2,3,4,w,w,w,w,E,E,TU_AIS,LP_RDI,t2:1,t2:1,2:1,2:1,2:1,故障定位到单站,可能LU/TU/XC 故障,业务正常,TU故障,更换TU,XCS主备倒换,TPS 倒换,业务正常,XCS故障,更换XCS,LU故障,更换LU,若无TPS或XCS 主备怎么办?,Page 51,业务中断类故障,w,SNCP Ring,e,e,e,e,w,w,w,3,2,4,1,案例2:SNCP 环,网络配置 网元1为中心节点,各点有和网元1的业务 其他各点间无业务,故障描述 网元1和网元4间2M业务中断 网元 1, 4: TU_AIS 其他各站业务正常,TU_AIS,TU_AIS,Page 52,业务中断类故障,告警/性能分析,断开网元1和4光纤,转化为链处理,w,SNCP Ring,e,e,e,e,w,w,w,3,2,4,1,同上一案例,处理方法,检查配置数据是否正确,TU_AIS,TU_AIS,Page 53,业务中断类故障,w,MSP Ring STM-4,e,e,e,e,e,w,w,w,w,3,2,4,5,1,案例3:MSP 环,网络配置 网元1为中心节点,各站均有到网元1的业务 其他各站之间没有业务 业务均按最短路径配置,故障描述 网元2与网元3之间光纤断 R_LOS 网元1与网元3之间E1业务中断 网元1, 3: TU_AIS 其他业务正常,TU_AIS,TU_AIS,R_LOS,R_LOS,Page 54,业务中断类故障,w,MSP Ring STM-4,e,e,e,e,e,w,w,w,w,3,2,4,5,1,R_LOS,R_LOS,APS_INDI TU_AIS,APS_INDI,S,S,P,P,P,查询告警,检查倒换状态,正常,APS协议是否启动?,是,否,画倒换后的信号流,更换故障单板,重新下发配置,倒换状态正常?,否,是,重启APS协议,倒换状态正常,否,是,逐段环回定位故障到XCS/LU,是,否,启动协议,TU_AIS,Page 55,业务中断类故障,w,MSP Ring STM-4,e,e,e,e,e,w,w,w,w,3,2,4,5,1,R_LOS,R_LOS,APS_INDI TU_AIS,TU_AIS,APS_INDI,S,S,P,P,P,倒换前路由,倒换后路由,对于比较长的链, 建议采用二分法进行环回,Page 56,业务中断类故障,w,MSP Ring,e,e,e,e,w,w,w,3,2,4,1,GXCS:BUS_ERR PD1:LP_SIZE_ERR,网络配置 各点均和网元1有业务 其它各点间无业务,故障描述 网元4支路业务中断 GXCS:BUS_ERR PD1:LP_SIZE_ERR 其它各站业务正常,无告警,Page 57,业务中断类故障,故障分析: BUS_ERR:交叉芯片损坏,线路板故障、线路到交叉的总线故障; LP_SIZE_ERR:TU规格错误,可能为支路或是交叉故障; 处理过程:,做交叉板主备倒换,告警全消失,XCS故障,更换相应的线路板,不消失,不消失,BUS_ERR消失,更换子架,线路故障,更换支路板,BUS_ERR消失,XCS故障,支 路 故 障 不 消 失,Page 58,内容介绍,故障处理案例分析 业务中断类故障 误码类故障 通信类故障 对接类故障,Page 59,误码类故障,可能原因,外部原因 光功率问题 接地故障 环境温度 电缆故障 设备外部干扰(瞬时大误码) 人为原因 时钟配置错误 设备本身故障 单板失效或性能不好(交叉、时钟、线路、支路),告警分析法、更改配置法、逐段环回法、替换法,Page 60,误码类故障,是否所有站都有B1、B2误码,检查环境温度,是,否,时钟/交叉问题,是否仅本站有B1、B2误码,是,光功率问题,检查本站或上游站 光纤、光板,否,是否有高阶、B3误码,是,本站或上游站线路/交叉/时钟故障,否,是否有V5误码,是,本站或上游站支路/交叉/时钟故障,否,仪表测试有误码、 性能上报无误码,是,DDF/电缆接地问题,定位步骤,Page 61,误码类故障,网络配置 网元1为中心节点,其他点均与网元1有业务 其它各点之间没有业务,故障描述 网元3东向有大量RSBBE、MSBBE、HPBBE 网元4西向有MSFEBBE、HPFEBBE、LPFEBBE 网元1有LPBBE,Page 62,1,2,3,4,w,w,w,w,E,E,LPBBE,LPFEBBE,RSBBEMSBBEHPBBE,MSFEBBEHPFEBBE,排除外部故障 (电磁干扰、 温度),性能事件分析,LPBBE 为1收4误码,RSBBE/MSBBE/HPBBE 为从4到3光路误码,高阶误码导 致低阶误码,继续,故障在3与4之间,误码类故障,告警性能分析,Page 63,1,2,3,4,w,w,w,w,E,E,LPBBE,LPFEBBE,RSBBEMSBBEHPBBE,MSFEBBEHPFEBBE,解决问题,继续,检查风扇和温度,正常l,是,否,正常,是,否,替换光纤、接头、法兰盘、单板,用仪表测试光功率(通过性能查询),误码类故障,告警性能分析,替换法,Page 64,1,2,3,4,w,w,w,w,E,E,LPBBE,LPFEBBE,RSBBEMSBBEHPBBE,MSFEBBEHPFEBBE,在网元1接误码仪,在网元3东向做光/电口内环回,环回、替换法,正常,网元4西向光板/XCS,不正常,网元3东向光板/XCS,误码类故障,网元4交叉主备倒换,网元3交叉主备倒换,正常,不正常,XCS故障,光板故障,正常,不正常,XCS故障,光板故障,Page 65,误码类故障,网络配置 网元1为中心节点,其他点均与网元1有业务,业务走短径 其他各点之间没有业务 故障现象 见图,LPBBE LPFEBBE,LPBBE LPFEBBE,LPBBE LPFEBBE,RSBBE MSBBE HPBBE MSFEBBE HPFEBBE,同网元3 W向,同网元3 W向,同网元3 W向,Page 66,误码类故障,故障分析 网元3时钟单元故障 故障处理 做交叉主备倒换或是更换交叉板 结论 当全网大部分网元线路上出现误码,此时可能原因为时钟故障;所有光方向都产生线路误码的站点为故障点,Page 67,内容介绍,故障处理案例分析 业务中断类故障 误码类故障 通信类故障 对接类故障,Page 68,外部原因 网线、网卡、网管计算机、HUB、路由器等外部设备故障 光缆性能劣化 人为原因 ECC路由规划不合理 IP地址设置不对 网元ID重复 网元未加入到系统管理域中 光纤错连 设备本身故障 主控板故障 光接口板故障,通信类故障,可能原因,Page 69,通信类故障,定位步骤,排除外部因素,如网线、网卡、网管计算机、HUB、路由器等外部设备故障 排除人为因素,检查ECC路由规划是否合理;网管计算机和网关网元的IP地址是否正确;网元ID是否重复;是否存在未将网元加入到系统管理域;是否设置人工路由 检查主控板。如果存在主控板故障,则替换主控板 检查光接口板。如果存在光接口板故障,则替换光接口板,Page 70,通信类故障,w,MSP Ring STM-64,e,e,e,e,e,w,w,w,w,3,2,4,5,1,R_LOS,R_LOS,故障描述 某日,网元2,3之间发生断纤,发现网元3在网管上脱管,无法再次登录,经测试业务可正常倒换。,网络配置 网元1为网关网元,网管中各个网元均可正常登录 全网已正常运行,应用举例,Page 71,通信类故障,分析过程 正常情况下,网元3的ECC通道为12 3,当2,3之间发生断纤时,网元3的ECC通道为1 5 4 3 根据现象分析,网元3无法登陆,是由于1 5 4 3这条ECC通道出现问题,大致可以判断出可能是网元3的主控,东向光板,或网元4的西向光板,主控出现问题。,Page 72,通信类故障,处理过程 首先使用命令行cm-get-eccroute查询网元4的ECC路由表,正常,可以找到网元的信息。 再使用cm-get-bdinfo和cm-get-chanerror查询网元4的DCC通讯状态,发现无误码,从查询的结果来看收发均无问题。 在网管上软复位网元4的西向光板和主控板,问题没有解决。 在站点4的维护人员将该网元4的主控拔出(若网元为双主控配置,则首先做主控板主备倒换),发现网元3可正常登录。 恢复断纤出后,携带备板到网元处,更换主控板。 再次测试ECC通道,问题解决,Page 73,通信类故障,现象描述: 将原有2500+设备上的3条155M链割接到一个OSN

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论