TA000301 故障分析与处理方法ISSUE1.0.ppt_第1页
TA000301 故障分析与处理方法ISSUE1.0.ppt_第2页
TA000301 故障分析与处理方法ISSUE1.0.ppt_第3页
TA000301 故障分析与处理方法ISSUE1.0.ppt_第4页
TA000301 故障分析与处理方法ISSUE1.0.ppt_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Lecturer: Dai Zhibao,TA000301 故障分析与处理方法 ISSUE1.0,传输故障分析方法 传输分类故障的处理,掌握OptiX传输设备常用的故障分析方法 掌握OptiX传输设备典型故障业务中断、误码、ECC的处理方法,课程内容和目标,内容,目标,传输故障分析方法,故障处理对维护人员的要求,掌握SDH常用开销字节功能、告警信号流 (告警-帧结构-逻辑功能块-单板硬件) 熟练掌握所维护传输设备的基本操作 熟悉所维护局的情况 (组网拓扑、保护属性、业务分配、命令行配置) 作好现场数据的采集与,故障处理告警,故障定位的确关键:,将故障点准确地定位到单站,由于传输设备站与站之间的

2、距离较远,在进行故障定位时,首先就应将故障点准确地定位到单站。,故障定位,故障定位的原则,在定位故障时,要尽可能准确地将故障定位到单站。,故障定位,在定位故障时,应先排除外部的可能因素,如光纤断,交换故障或电源问题等。,先外部,后传输,先单站,后单板,从告警信号流中可以看出,线路板的故障常常会引起支路板的异常告警,因此在故障定位时,应按“先线路,后支路”的顺序,排除故障;,故障定位,先线路,后支路,先高级,后低级,在分析告警时,应首先分析告警级别高的告警,如危急告警、主要告警;然后再分析低级别的告警,如次要告警和一般告警。,故障定位的常用方法,一分析 二环回 三换板,一、当故障发生时,首先通过

3、对告警事件、性能事件、业务流向的分析,初步判断故障点范围; 二、通过逐段环回,排除外部故障,并最终将故障定位到单站,乃至单板; 三、通过换板,排除故障问题。,故障定位,通过网管获取告警和性能信息,进行故障定位,全面性,不仅是一个站、一块板的故障信息,而且是全网设备的故障信息;,详实性,可以知道当前设备存在的告警是什么时间发生的,以前曾经发生过什么历史告警。性能不好时,误码、指针调整有多少。,告警、性能分析法,一、通过机柜顶部的告警指示灯查看告警 二、通过单板告警指示灯查看告警,设备指示灯仅反映设备当前的运行状态,对于设备曾经出过故障,无法表示; 设备每种告警对应的指示灯闪烁情况,可以通过网管软

4、件进行重新定义,甚至于可以将某种告警屏蔽掉。,缺点,告警、性能分析法,通过设备上的指示灯获取告警信息,进行故障定位,环回法,是SDH传输设备定位故障最常用,最行之有效的一种方法。,环回法,1、软件环回是一种不彻底的环回,只能初步定位故障的位置。 2、对远端站点线路板第一个VC4作环回操作时,一定要确认环回后ECC通信不会中断,才可进行操作。 一旦远端站点的ECC通信中断,则只能到远端站点现场才能解开环回,恢复ECC通信。 3、“环回法”会导致正常业务的暂时中断,一般只有在出现业务中断等重大事故时,才使用环回法进行故障排除。,环回法,采用环回法应注意的问题:,4.初步定位单板问题。,环回法,“环

5、回法”的步骤:,1.环回业务通道采样;,2.画业务路径图;,3.逐段环回,定位故障站点;,一、环回业务通道采样:,1、从多个有故障的站点中选择其中的一个站点; 2、从所选择一个站点的多个有问题的业务通道中选择其中的一个业务通道。由于自环第一个VC4通道,可能会影响ECC通信,因此尽量不要选择第一个VC4通道内的业务。,环回法,画出所采样业务一个方向的路径图。 在路径图中表示出:该业务的源和宿,该业务所经过的站点,该业务所占用的VC4通道和时隙。,环回法,二、画业务路径图:,例如:,依据中断业务的路径图,在1号站第2块支路板的第1个2M通道外接一个2M误码仪,监测业务好坏。,环回法,三、逐段环回

6、,定位故障站点,“替换法”就是使用一个工作正常的物件去替换一个怀疑工作不正常的物件,从而达到定位故障、排除故障的目的。这里的物件,可以是一段线缆、一个设备、一块单板、一块模块或一个芯片。 “替换法”适用于排除传输外部设备的问题,如光纤、中继电缆、交换机、供电设备等;或故障定位到单站后,用于排除单站内单板或模块的问题。,替换法,该方法适用于没有备板的情况下,初步定位故障类型,并暂时排除故障,恢复业务。,更改配置法,“更改配置法”所更改的配置内容包括: 时隙配置、板位配置等。,查询、分析设备当前的配置数据,例如:,配置数据分析法,分析以上的配置数据是否正常,来定位故障。,时隙配置 复用段的节点参数

7、 线路板和支路板通道的环回设置 支路通道保护属性,如: 用误码仪测试业务通断、误码 用万用表测试供电电压,检查电压过高或过低问题,仪表测试法,“仪表测试法”指采用各种仪表(如误码仪、万用表光功率计、SDH分析仪等)检查传输故障。,“仪表测试法”分析定位故障,说服力比较强。但需要采用仪表。,在一些特殊的情况下通过复位单板、单站掉电重启、重新下发配置等手段可有效及时的排除故障、恢复业务。,但建议该处理故障的办法尽量少用,因为该方法不利于故障原因的彻底查清。遇到这种情况,除非情况紧急,一般还是应尽量使用上面介绍的方法,或请求支援尽可能地将故障定位出来,以消除设备内外隐患。,经验处理法,1. 排除传输

8、外部设备故障: 分离传输问题还是交换机问题 光纤故障的排除 中继线缆故障的排除 供电电源故障的排除 接地问题的排除,故障处理步骤,2.故障定位到单站 将故障定位到单站,最常用的方法就是“环回法”。 另外,告警性能分析法,也是将故障定位到站点比较常用的方法。,3.故障定位到单板并最终排除 故障定位到单站后,进一步定位故障位置最常用的方法就是替换法。,故障处理方法,分类故障的处理,单板失效或性能不好,常见原因,业务中断问题,外部原因,供电电源故障,如设备掉电、供电电压过低等 交换机故障 光纤、电缆故障。如光纤性能劣化、损耗过高,或光纤损断;中继电缆脱落、损断或接触不良等,人为原因,误操作设置了光路

9、或支路通道的环回 误操作更改、删除配置数据,设备本身故障,告警分析法 逐段环回法 互换、替换法,常用方法,检查各站登录是否正常,各站光路上是否有危急告警。 检查业务中断站点支路板上业务通道。 逐段环回,处理步骤(对于网管维护人员),业务中断问题,无保护链型组网,图5-1为四个站组成的一条无保护链,1站为网管中心站,集中型业务,即每个站均与1站有2M业务。,4站支路板有TU-AIS告警,1站支路板对应通道有LP-RDI告警,1站和4站的2M业务中断。,业务中断问题,组网配置,故障现象,处理步骤,1.在1号站挂一2M误码表,监测1号站与4号站的2M业务。 2.通过网管对4号站的支路板作软件内环回。

10、若仪表显示业务正常,则说明是4号站有问题,进入第三步。若仪表显示业务中断,则说明传输设备有问题,进入第四步。 3.在4号站的DDF配线架上,再作一个对传输设备的硬件内环回,若此时仪表仍显示业务正常,则说明传输设备没有问题。需排除交换机或中继电缆的问题。 4.分别对1号站西向线路板、2号站东向线路板、3号站东向线路板作内环回。,业务中断问题,5.若环回2号站东向线路板业务正常,环回3站西向线路板业务不通,则可能3站有故障或2站的东向线路板有故障。 6.到达2号站,通过尾纤将东向线路板环回,若此时1站挂表测试的业务正常,则说明2站东向线路板没有问题,故障点在3站或光缆有问题,直接转第7步。 若环回

11、后业务不通,则说明该板有故障。通过更换该板,排除此处故障,若此处故障排除后,业务恢复正常,则故障处理完毕。否则继续作逐段环回。 7.到达3号站,对3号站作单站测试,通过尾纤将西向线路板环回,发现业务不正常,更换3号站西向线路板,故障排除。,业务中断问题,复用段环,某日,维护人员发现,2站、3站相连的线路板出现RLOS告警,各站交叉板均有保护倒换告警,查询各节点倒换状态正常。但3号站与1号站的业务中断(N0.1个VC4),其它站业务正常。,业务中断问题,组网配置,某局Optix 622复用段保护环,组网图所示,1号站为网管中心站。,故障现象,业务中断问题,复用段保护倒换后业务正常的必要条件:,1

12、、线路板正常监测到告警,正常传递K1、K2字节。,2、主控板正确处理K1、K2字节,保护倒换协议正常。,3、交叉板接受主控板发来指令,正常倒换。,4、保护倒换的备用通道正常。,1、中断业务样本采样: 选取1号站第二支路板的第一个2M通道,即1站的t2:1。 2、保护倒换前,样本业务1号站的t2:1走的路径如图所示,业务中断问题,处理步骤,3、逐段环回,缩小故障范围: 在1号站第二支路板的第一个2M通道上挂表测试然后通过网管逐段进行如下的环回操作。 当站点数较多时,可采用二分法,进行环回操作。,业务中断问题,处理步骤,4、逐段环回,定位故障站点和单板: 在对3号站的东向SL4板No.3VC4做外

13、环回时,发现业务不通,而对4号站的西向SL4板No.3VC4做内环回时,业务正常,说明问题在3号站的东向SL4板和4号站的西向SL4板之间。,业务中断问题,处理步骤,5、更换3号站东向SL4板,故障仍存在。 更换4号站西向SL4板,故障排除,说明该板不能正常穿通No.3VC4。,业务中断问题,处理步骤,光纤性能劣化、损耗过高 光纤接头不清洁或连接器不正确 设备接地不好 设备附近有强烈干扰源 设备散热不好、工作温度过高,设备原因,线路板接收侧信号衰减过大、对端发送电路有故障、本端接收电路故障 时钟同步性能不好 交叉板与线路板、支路板配合不好 支路板故障 风扇故障 板失效或性能不好,误码问题,常见

14、原因,外部原因,常用方法:,告警性能分析法 逐段环回法 互换、替换法,处理步骤:,分析线路板误码性能事件,排除线路误码。 分析支路误码性能事件,排除支路误码。,误码问题,典型故障(线路板故障导致的误码),四个站组成的一条无保护链,1站为网管中心站,集中型业务,即每个站均与1站有2M业务。,组网配置:,误码问题,故障现象:,1站2M支路板有LPBBE误码 3站东向光板有RSBBE、MSBBE、HPBBE误码 4站西向光板有MSFEBBE、HPFEBBE误码 4站2M支路板有LPFEBBE误码,误码问题,处理步骤:,通过对上报的性能事件分析,可判断为3站东向光板收有问题或4站西向光板发有问题。 到

15、达3号站,通过尾纤自环3站的东向光板,3站东向光板误码和1站2M支路板误码消失,说明是4站西向光板问题。 到达4站,更换西向光板,误码问题解决。,误码问题,四个站组成的一个复用段保护环,1站为网管中心站,每个站均与1站有2M业务。,组网配置:,典型故障(时钟板故障导致的误码问题),误码问题,故障现象,1号站、3号站、4号站相应的2M业务通道报LPBBE、LPFEBBE误码;2号站东向板、3号站东西向光板、4号站西向光板报大量RSBBE、MSBBE、HPBBE以及MSFEBBE、HPFEBBE误码,一些光板还存在大量指针调整。,处理步骤,从误码性能事件分析,3号站的时钟单元故障。 到达3号站,更

16、换交叉板,误码消失,故障排除。,误码问题,SDH网元之间传递信息是通过ECC通信来实现. ECC的物理层就是DCC通道,即SOH中的D1D12字节。OptiX 系列产品使用其中的D1D3字节,即再生段DCC,速率为192Kbit/s。,注意:网管和网关网元之间通过TCP/IP协议传递信息,ECC问题,若路由一切正常,走环网上的短路径 若短路径不正常,则走环网上的长路径 若长短路径皆不正常,则不能登录 :ecc-get-route; :ecc-get-sccinfo(bdinfo);,ECC问题,ECC所走的路径为收发一致路由,ECC路由规则:,ECC故障常见原因,外部原因,供电电源故障,如设备

17、掉电、供电电压过低等 光纤故障,如光纤性能劣化、损耗过高,或光纤损断;,设备本身故障,SCC板故障 光板故障 网元间有大量的性能数据传送,ECC问题,常用方法,告警性能数据分析法 替换法 经验处理法,处理步骤,1.排除外部因素,如掉电、光纤折断、光纤性能劣化等。将故障定位到单站或两个站之间。 2.对于ECC问题,逐段自环不能定位故障;一般根据从哪一站开始不能登录来判断故障位置。 3.检查SCC板。 4.检查光板。,ECC问题,故障案例:,如图所示的链形组网中,1号站为网关网元,连接网管。各网元间的光纤连接如图所示,“w”代表11板位光板,“e”代表12板位光板。,故障现象,现在3号站、4号站登

18、录不上。,ECC问题,处理步骤:,第一步:首先排除外部故障。 1、如果3号站断电或低电压,则从网管就不能登录3号站,而4号站的ECC数据由3号站转发,当然也不能登录4号站。如果2号站到3号站之间的两根光纤断,网管也无法登录3号站、4号站。采用告警分析法可以发现外部故障。 3、如果光纤的传输性能劣化,尾纤头脏或者松动,将在光路上产生大量的误码,这也会导致ECC通信忽通忽断或完全中断。可以采用性能数据分析法来观察性能。,ECC问题,第二步:将故障定位到单站或两个站之间。 对于ECC问题,一般根据从不能登录的站点来判断故障位置。 如图所示,如果3号站、4号站都不能登录,则故障基本可以先定位到2号站和

19、3号站。 对于ECC问题,不但要分析登录不上的站点,还要分析其上游站。,ECC问题,处理步骤:,第三步:检查SCC板。 (1)首先检查3站点的SCC 板是否硬件故障,或在不停复位。 主要是查看SCC板的红绿灯闪烁是否正常。 红灯长亮: SCC板硬件故障; 绿灯快闪: 表明SCC在复位; 绿灯长亮: SCC板死机; 如果有以上情况,按SCC的“RST”按纽或拔插一下,再观察,还不行则须更换SCC板。,ECC问题,处理步骤:,(2)如果SCC板闪灯正常,也可以尝试复位SCC板。先复位2号站的SCC板,若无效则复位3号站的SCC 板。 复位方法:a.用网管进行软、硬件复位 b.按SCC板的“RST”

20、复位按纽 c.拔、插SCC板,注意: 1、在复用段环中,若全环处于倒换状态时不能轻易拔插SCC板,可能会导致业务中断。 2、更换SCC板后,应对此网元重新下发配置,因为网元 配置数据是存放在SCC板上的。,ECC问题,处理步骤:,(3)若复位SCC板还无效,可将SCC板拔出,使ECC通道在本站穿通(即从西向光板直接穿通到东向光板,不经过SCC板),检查线路板穿通DCC字节是否有问题。 如:将2号站的SCC拔出看能否登录3号站、4号站; 将3号站的SCC拔出能否登录4号站。如果3号站的 SCC拔出后能登录4号站,则3号站的SCC板有问题,更换即可。,ECC问题,处理步骤:,第四步:检查光板 于线

21、路误码的存在及系统工作环境(温度条件等)引起系统光板和SCC间DCC配合时序混乱及软硬件死锁,这样会导致系统ECC单向通或该网元ECC全断;因此,在很多ECC不通的情况下复位主控板或线路板即可解决。,ECC问题,处理步骤:,注意: 拔插光板将导致相关业务中断!慎用拔插和复位光板,建议在夜间小话务量时进行。,四个站组成的一个复用段保护环,组网如下图。 1号站为网管中心站,集中型业务,即每个站均与1站有业务。,开局时在1站作倒换实验时,发现断掉1号站东侧光纤,2号站登录不上,断掉1号站西侧光纤,3、4号站登录不上,但各站业务正常。,ECC问题,复用段保护环ECC故障:,1、根据上述两处拔纤测试,可

22、将故障定位在2号站东向光板位和3号站西向光板位之间。 2、对这两个板位分别复位,再做倒换测试,查看各站登录情况。 3、对2号站东向光板位复位,故障依然。 对3号站西向光板位复位,故障消除。 说明是3号站西向光板故障,复位即可消除故障。,ECC问题,故障处理步骤:,OptiX设备可与各厂家的程控交换机、PDH、SDH、ATM交换机、GSM、电源监控等各种设备的对接,对接信号有2M、34M、45M、140M、155M、622M等。 传输设备因传送的业务种类较多,与其对接的设备复杂、各种业务对传输通道的性能要求也不完全相同,在实际对接过程中也会存在一些问题。,设备对接问题,对接常见问题:,线缆连接错

23、误。比如光纤或电缆接错位置。 设备接地问题。可能是一方设备接地有问题,也可能是双方设备不共地。 时钟不同步。比如传输、交换各自的网络内部时钟同步,但两个网络之间不同步。 SDH帧结构中开销字节的定义不同。 信号转接过多。,设备对接问题,设备对接不成功的处理步骤:,1、检查设备间物理连接的正确性,主要是检查两个设备之间的电缆、光纤连接的正确性,防止电缆的漏焊、虚焊、接触不良,特别是要防止电缆的混线。,备注: 如果交换机的业务是从别的传输设备割接至OptiX设备,则在割接前每根中继电缆、光纤都应先贴好标签;,设备对接问题,2、检查告警和性能数据:,检查对接设备两侧的告警和性能数据。 例如:有时Op

24、tiX设备的2M口会不断地产生T_ALOS告警并瞬间结束,这说明对方设备的2M中继板在不停复位,复位的原因可能是对方设备未调好、OptiX设备提供的2M通道质量不好等原因。,设备对接问题,设备对接不成功的处理步骤:,3. 检查接地,a.对接不成功时请重点检查两设备是否真正共地。有多起对接不成功的案例,最后的原因都是两个设备未能真正的共地。,设备对接问题,设备对接不成功的处理步骤:,3. 检查接地:,75欧姆非平衡式同轴端口的外导体(即屏蔽层)常规的接地方法是发端接PGND、收端悬空。 也有厂商的设备采用收、发端屏蔽层接工作地的。如果对接的设备屏蔽层接地不一致,会由于两个地(BGND、PGND)之间存在直流电位差和交流干扰,影响信号对接时的波形,导致对接不成功。,设备对接问题,b.检查PDH同轴端口的屏蔽层接地,检查对接设备屏蔽层接地的方法: 将对接设备间的信号线全部断开,用万用表交叉测量SDH侧收、发端同轴端口屏蔽层与对方收、发端同轴端口屏蔽层间的电平。如果测试到两点之间有较大的电位差(0.5V左右),则说明两者的屏蔽层接地可能不一致。,设备对接问题,3. 检查接地:,b.检查PDH同轴端口的屏蔽层接地,4. 检查全网的时钟同步,如果通过SDH传输网络后,交换机下面的模块局

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论