




已阅读5页,还剩10页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
TELLABS 63XX系列传输设备的故障处理深圳市特发信息股份有限公司泰科通信分公司 第一部分:传输故障出现时处理方法和步骤:做为一个维护人员应该具备以下业务素质:能够实践中根据设备网管告警及利用仪表等,在最短时间内诊断落实并处理故障。要做到这一点,我们不但要有坚实的理论基础,还要掌握故障出现时的处理方法和步骤,并且不断地总结经验,逐步提高技术水平。故障出现时的一般处理方法和步骤是:1. 了解故障现象。2. 故障诊断定位。 3. 故障处理。4. 故障原因分析总结。5. 提出并落实整改措施。处理设备故障,就像医生看病一样,要准确地诊断病情,对症下药。要迅速处理故障,最关键的一点是要准确地对故障诊断定位。没有准确的故障诊断定位,就不可能处理好故障,甚至会扩大故障。而要做好故障诊断定位,首先要掌握网络和设备的原理和一些基本的故障检查方法,同时还要了解故障现象,通过故障的表现进行分析,决定下一步处理的步骤。对故障现象和表现了解不清,会直接影响故障诊断定位的准确性。故障的处理也是解决问题的关键点,只有定位而没有处理,或者处理不好,问题最终就还是不能解决。为了不断地积累经验,改进工作,消除故障隐患,做好故障原因的分析和总结,其作用是不言而喻的。当然,在故障处理的实践中,步骤的顺序也不是一成不变的,有许多情况下故障诊断定位、故障原因分析以及故障处理是同步进行的,这些过程都是相辅相成的,不可能分得太清。下面我们故障出现时的一般处理方法和步骤从5个方面进行阐述。一. 了解故障现象。要对故障现象的准确描述,需要了解以下两部分内容:1. 业务的故障状态。2. 设备的告警以及故障发生时传输通道的运行状态和各项相关指标。对于业务的故障状态,主要有:下挂业务中断(如基站倒站), 下挂业务设备(如基站、BSC等)的误码、闪断、滑码等。对于传输通道的状态,主要有:正常、中断、劣化。这主要根据检查告警、性能监测、光口收发功率和TTI等手段来确定。确定故障时传输通道的运行状态非常重要,这对故障诊断定位和故障处理及以后的故障原因分析,都会产生重大的影响。检查方法:1)查看网元当前和历史告警,根据网元告警和网络的拓扑结构,业务连接关系判定故障的性质。看告警除了看其内容以外,还要注意这些告警的部位(板位)和层级(例如Loss of signal有STM-N和PDH 2M级别,分别对应SDH光口和PDH 2M口,部位和影响是不同的)。对于历史告警,还要特别注意告警发生和消除的时间。2)了解业务路由情况,网元交叉连接关系(高阶或低阶、保护方式等。检查业务端口TTI(包括STM-N,VC4,VC12等),重点检查上下业务的端口TTI(例如2M业务检查相应的VC12 TTI,155业务检查相应VC4的TTI)。通过查看告警和TTI,可以判定传输设备的基本状态。一般说来,传输通道有三种状态:A. 正常工作状态。在正常工作状态下,应当无异常告警,这时检查相关通道的TTI应当是是通的。如果用仪表测试,通道无误码,接口波形以及各项指标符合标准的要求。B. 中断状态。中断状态下,主要特征是会有传输中断的相关告警出现,检查通道的TTI以及仪表测试都可以说明通道是不通的(或只有单向通)。C. 劣化状态。即传输通道未完全中断,但一些关键性能指标下降,或处在不稳定状态。这种情况比较典型的是传输虽然没有中断,但出现误码(此时检查告警,可能有Degraded signal一类的信号劣化告警;检查性能,相应的监测点可能有误码秒或严重误码秒)。也可能是时钟同步存在问题,导致业务端口抖动过大使业务闪断,或同步问题使传输线路闪断或误码等。只有通过对业务状态和传输通道状态的判断,我们才可以全面了解到故障的现象。要进行故障诊断定位,以及寻求厂家的远程技术支持,或在事后寻求厂家对故障原因进行分析时,提供这些信息都是非常必要的,如果只有业务故障的信息而没有故障时传输设备状态的信息,故障诊断定位就可能不准确,故障的真正原因就难以分析出来,甚至有的故障的原因就根本无法找到,故障的起因就可能成为悬案。对传输通道故障状态的判断中,第二种传输中断的状态判断比较容易做到。只要设备上相应的通道上存在导致传输通道中断的当前告警,特别是在检查TTI以后,发现TTI不通(或收到的不是预期的值),就可以判定是传输业务不通。有条件的话,挂上误码仪等仪表测试通道误码,如果不通,就可以准确地确认是业务中断。在业务不通的情况下,如何区分传输设备是第一种(正常),还是第三种状态(劣化),是比较困难的事情,这需要维护人员具有一定的理论基础和分析能力,要有一定的故障处理经验,有些情况下还必须借助仪表才能完成。在检查时,不但要看当前的告警,还要看历史告警、要看15分钟和24小时性能检测的值,以及逐个网元检查连接关系等,必要的时候还需要做一些环回、板件更换以及复位、关电等实验才能确认。一般情况下,正常状态不会有异常的告警,而劣化的情况下,会出现一些导致业务质量下降的告警如Degraded signal 等。值得指出的是,无异常告警只是正常状态的必要条件而非充分条件,即正常状态肯定无异常告警,但仅仅无异常告警还不能就此认定是正常状态。换句话说,有异常告警就肯定不是正常状态,但无异常告警还不能说就一定是正常状态。许多情况下,并没有告警,但通道还是有问题,这是因为网管不可能把传输通道所有的点全部进行监视到。例如某个2M所接的业务有误码,可能问题出在2M线上,但在性能监测中检查该2M所连的VC12通道,就没有误码,也没有告警,这是因为网管的监测点并没有包括2M端口及其以下的2M线。在实际工作中,因为缺少必要的测试手段,在许多情况下,一些维护人员有意无意地将下挂业务(如基站)的状态是否正常来做为判断传输设备工作是否正常的标准。业务起来了,说明传输肯定是通的,就认为传输没有问题了;而业务不起来,或因传输中断引起的业务中断,就认为一定是传输有问题。但仅以此为标准是不对的。传输断,下挂业务肯定会出问题。反过来,下挂业务有问题,就不一定全是传输的问题,这与整个系统都有可能相关。同样,业务正常了,说明传输是通的,但也不能就此保证传输上没有隐患。所以做为传输的维护工程师,在了解故障现象时,不但要了解下挂业务的故障现象,还一定要弄清楚当故障发生时,传输设备的状态(正常、中断还是劣化)。如果没有弄清楚的话,会给故障的定位及处理造成错误和延误,更会给以后的故障分析和改进措施带来麻烦。许多传输所带的业务出现故障,其原因不外乎是:1. 完全是传输设备的问题,是由传输中断或传输性能劣化引起的。2. 系统的问题,下挂业务设备与传输设备之间的配合(如接口)有关,这里面既与传输设备相关,还与下挂业务设备(如基站,BSC)相关,还有可能与其他配套设备(如电源、配线架、BITS等)以及线路(如电缆、光缆、尾纤等)相关。3. 下挂业务设备或其他配套设备及线路的问题,与传输设备无关。弄清楚传输设备的故障时的状态,有助于分清故障的性质,才有可能做好故障的定位、故障的处理以及事后的分析。二. 故障诊断定位故障诊断定位主要有以下几个方面:1. 分析故障的性质。2. 故障站点的定位。3. 故障设备的定位4. 故障单板(模块)的定位。故障诊断定位的一般原则:“先外部,后传输;先单站,后单板;先线路,后支路;先高级,后低级”.故障诊断定位的检查方法选择的原则:先易后难,先用不影响业务的方法,后用对业务运行有影响的方法,先用现有条件就能实现的方法,后用必须增加条件才能实现的方法。为排除光传输设备的故障,最关键的一步是根据网管和设备架、板告警的具体情况,将故障点准确地定位到单站,这是维护人员在现场维护工作中必须牢固树立的观念.分析故障的性质根据故障诊断定位的一般原则,我们要首先判定业务故障是否是传输设备引起的。判定的依据就是对故障现象的了解。如果传输通道本身就是处在中断状态,那么问题就肯定出在是在传输设备上,故障的性质就是传输中断,我们处理故障就可以按传输中断的处理流程来处理。如果检查发现业务仍然中断,但检查传输通道TTI是通的,也就是说传输通道并没有中断,那么就存在以下几种可能:1. 传输通道性能指标下降(如存在误码或抖动冲击等),导致所挂的业务中断。这种情况可以通过观察设备告警、仪表测试等方法判别。2. 可能由于某种干扰刺激(如光缆中断引起的设备保护切换、时钟参考源的丢失等),导致所挂业务中断,但传输通道在瞬断后自动恢复,在检查时传输设备已经恢复正常,但所挂业务(如基站)因某种原因中断,不能自行恢复或恢复较慢。3. 故障点本来就属于下挂业务设备,或出在下挂设备与传输设备的连接处(如连接电缆或配线架)与传输设备本身无关。对2,3种情况,从传输的角度首先要排除传输性能指标劣化的情况,但在许多情况下限于条件,单从传输方面检查很难获得确凿的证据来确认故障与传输设备无关,因此需要与下挂业务方面的设备工程师沟通,不但要观察传输设备的告警,还要观察下挂业务的告警。例如,某次故障现象是业务断,传输无告警,TTI通,但基站有告警。后经检查是传输设备2M的TX线(接基站的RX线)有问题。因为设备的2M告警的一般根据自己的RX信号来的,所以基站有告警而传输设备无告警。如果故障处理时传输通道是通的,但业务仍然不通,首先要检查传输设备以外的设备是否正常,然后再检查问题是否由传输性能指标劣化的原因引起的(实际操作时,也不一定特别死板,如果检查传输设备比检查其他设备要容易一些,先检查传输设备也无妨)。检查主要是依靠看告警和性能监测,并且不但要看当前告警,还要看历史告警,不但要看15分钟性能值,必要时还要看24小时性能值。我们要特别关注在业务故障发生的时间段以及故障发生前的历史告警。很多情况下,处理故障的时候传输是通的,这时可能已经没有当前告警了,但如果有历史告警的存在,就可以判定故障的所在。而看历史告警需要在日常维护中要保持网管数据的正确,例如网元时间等,不要随便对网元复位,因为复位会冲掉网元内部的历史告警。此外,单靠网管告警还不一定完全反映设备的真实状态,必要时还要通过仪表来检查。故障站点、设备以及模块的定位:确认故障性质以后,接着就是确认故障站点。确定故障站点以及故障设备和模块的确认的一般方法都是先对故障进行分析,确定一个处理的大致思路,然后通过环回、替换板件、复位甚至关电等手段逐级缩小范围,将故障处理掉。在很多情况下,故障诊断定位与故障处理不一定是能够截然分开的,但是我们如果能用简单的办法确认故障点所在,然后再去处理,显然处理的效率会高得多。在实际故障处理中,许多站点距离都比较远,如果故障站点的判断错误,可能会造成处理故障时间的延误,甚至还会带来新的故障。事实上,评判一个维护工程师的技术水平高低的一个重要标准就是看他能否迅速准确地分析和判断故障点的所在。对于故障站点的定位,需要看告警,根据告警的位置(站点、告警的层级、板位等)和内容,以及必要时辅以一些手段,需要一些经验,对不同的情况有不同的处理方法。故障诊断定位的手段和方法:故障诊断定位的手段和处理方法主要有以下几种:1. 告警和性能观测。检查内容主要是当前和历史告警,15分钟和24小时性能、光收发功率等。如果出现信号劣化告警的话,首先要检查相关通道所接光口的光收发功率,大多数误码都是由线路衰耗过大引起的,我们首先要排除外部线路的问题,再来检查设备内部的问题。2. 检查设备的各项配置是否正确。3. 通过网管对网元进行操作,如检查TTI、开关光口等。4. 检查周边环境是否存在异常而影响设备工作,如接地是否规范,网络结构是否合理。5. 自环(本端自环,远端自环,分段自环)等,包括通过软件控制的软件环回和在配线架上做硬件环回等。6. 复位(包括硬复位和软复位)、带电插拔单板、关电重起等。怀疑软件问题引起的故障通常采用此法。7. 替换板件。换板的方法应在采用其他手段和理论分析的基础上初步定位的基础上去做,否则盲目的替换板件不但不解决问题,还可能带来新的问题,使问题复杂化。8. 交换板件。通过交换一死故障的板件,看故障现象是否跟随板件所在位置的变化,据此来确定出故障的板件。9. 仪表测试。设备各项指标是否符合标准。包括断开业务的测试和挂表在线测试等。对于时钟同步方面的问题,如发现接上下挂业务的2M端口就有滑码,但传输和下挂业务设备各自自环都没有问题,这类接口的问题只有通过仪表测试才能解决。解决这个问题的方法是:先用带测频偏功能的误码仪接传输设备,如果传输设备的时钟板有问题,仪表上会有告警或测量的值超过标准。如果没有问题,再测对接的设备。如果有显示异常就可以判断故障所在。如果测频偏和误码不能解决,可以测抖动,也可以用示波器测量输出波形。总之通过这些性能指标的测试就可以找到故障点。这类故障我们采用仪表检测已经有多个成功的案例了。下面通过几个实例来说明故障诊断定位中的一些问题。实例一:故障现象两端6340设备之间的光缆断以后传输中断,但光缆恢复后传输仍然中断。检查中发现这两端6340设备之间SDH群路光口出现Loss of frame告警,光口收发功率在正常范围内。分析SDH光口Loss of frame告警的含义是,帧信号丢失。一般两端信号速率不对(例如一端频偏过大)、接口损坏等原因,可以导致设备读取A1,A2字节错误,进而无法正确读出SDH帧信号,就会导致帧丢失告警。本例两端同时出现这个告警,说明问题出在这两端站之一。但是问题出在哪个站点呢?检查本例故障仅仅看告警只能确定故障区间,但无法确定故障站点和问题所在,需要辅助检查手段才行。因为两个站点距离中心站比较远,并且上站比较困难,所以如果判断错误的话对故障处理会带来延误。考虑到光缆曾经中断过,但恢复后仍然中断,怀疑问题可能出在光缆上。怎样在不去现场就能证明这一点呢?我们采用了这样的方法:关闭其中一端6340的光口,这时对端设备的光口就应当出现Loss of signal的告警,而Loss of frame告警应当消失(63XX系列设备有告警过滤的功能,如果出现Loss of signal的告警,就会过滤掉同一个光口的Loss of frame告警)。由于6340光口具有ALS功能,关闭一端设备的光口,另外一端的光口也会自动关闭,这样,两端设备光口都应当出现Loss of signal的告警。但是,检查的结果却是:两端告警都没有变化!结论通过这个实验就说明两个6340之间的光缆实际上是不通的!问题不在这两端设备上!但是,一般情况下,两端光缆不通,两端设备应当出Loss of signal的告警才对,为什么会出Loss of frame告警呢?因为6340设备只要接收光功率达到一定的值,就不会出现Loss of signal 告警,光缆在抢修熔接时如果熔错纤芯,这种情况的出现就是有可能的。而如果对端发过来的信号不对,就会出现Loss of signal 告警。根据在网管上的检查判定,派出线路维护人员重新检查光缆的连接,结果证实了我们的检查判断:在光缆抢修时熔错了铅芯。实例二故障现象 业务突然中断,两端6340设备之间SDH群路光口出现Loss of frame告警。在出现故障前光缆没有中断过,但在业务中断之前通过这段线路的一些VC12通道曾出现过Degraded signal告警,这两个站点的光板MS段也有过Degraded signal告警,业务有瞬断现象,后来很快就变成Loss of frame告警,这两端的传输彻底中断。由于业务带有保护,已经自动切换到保护路由,实际业务并未中断。另外了解到这两个站点CXC板硬件没有做1+1设备保护。此外,光口收发功率在正常范围内。分析从了解到的故障现象来分析,存在两端设备之一的某个模块损坏的可能性。因模块损坏,能够引起Loss of frame这个告警的设备模块有光板LI模块和时钟及交叉板CXC模块。现在的问题是:仅从告警这一点来看,是不能确定故障点的。因为故障站点可能有两个,每个站点又有两种板是怀疑对象,如果盲目地换板,轻则耽误时间,多跑路,重则中断业务(因加了业务保护,换LI板不会中断业务,但因CXC未加1+1保护,换CXC板会中断业务)。为了准确地故障诊断定位,我们确定了以下的对策:先到一个站点,用光口自环的方法确定问题站点,再用更换板件的办法确定故障板件,处理掉故障。因为出告警的光路已经中断,所以要换板的话就先换LI板,如果不行再换CXC板。检查处理先到其中一个就近的站点,在ODF上分别对本端和对端方向自环。如果本端自环告警消失,同时远端自环告警不消,则问题出在本端光板,反之出在远端光板。这是因为光板自收自发如果还出现帧丢失的话,光口板的故障可能性很大。如果本端和远端自环告警都消失,问题就可能与在CXC板有关,但也可能是其他原因。这是因为CXC板中的时钟电路可能会影响到LI板的速率,不同站点的LI板所用的内部时钟取自各自的CXC板,两个站对接时,如果有一个出问题,频偏过大,就有可能造成严重失步,A1A2字节读取错误,出现帧丢失。但是自环告警消失还不能就断定是CXC的问题。是否CXC有问题,最后还只能靠仪表测试光口频偏是否正常或者直接用更换板件的方法来确认。关于光口环回的几个问题两个站点因时钟性能偏差,单独在一端环回是无法确认故障所在的。即使环回后告警消失,也不能说明是正常的。这是因为在LI在自环时收发是取自同一个时钟(由同一块CXC板提供),这样即使时钟有问题,造成频偏很大,自环后告警也会消失(因为同一个震荡器出来的收发时钟周期始终相同的,不管其绝对值偏离正常值多少,永远是同步的)。显然这样的自环结果还是不能说明问题的。光口自环时要注意的是,本端自环要加上衰耗器,以避免信号过载(如果线路过载的话也有可能产生Loss of frame告警)或因收光功率过大而损坏光口。对于远端自环,要注意检查一下远端设备的收光功率是否低于收光灵敏度的值,因为自环时光的收发距离是原来的2倍,有可能衰耗过大超过收光范围。如果这样的话,自环的结果就可能有问题。结果在本例中,我们按这个方法检查,发现其中一个站的LI板有问题,更换后故障排除。上面两个例子的总结从上面两个例子我们可以看到,这两例故障有许多相似之处,但现象还有一些细节是不同的,当然故障的原因也完全不同。从这两个例子中,我们可以发现:1. 了解故障现象,特别是了解故障现象的一些细节,对分析问题的所在是有重要意义的。 在 这两个例子里表面的、直接的故障现象都差不多:传输中断、告警都是Loss of frame,甚至告警的板子都是一样的。如果仅掌握了这几个信息,就想判断出故障的部位,做出正确的判断,提出合理的解决方案显然是不可能的。如果仅仅从这两个直接的信息出发去处理问题,就只有靠换板等实验来确定故障点,这样就给故障的处理带来许多盲目的因素,假如这样做,出现耽误时间、甚至扩大故障的现象,也就毫不奇怪了。回过头来看,分析、解决上面第一个故障现象的一个关键,是了解到光缆曾经中断过这一信息,在分析故障时把这一信息和其他表面的信息加以综合,就找出了检查确认问题所在的办法。同样,在第二个例子中,判断出问题有可能是设备模块故障的关键信息,是在中断前先出现过劣化的告警这一细节。当然,这两个例子中关闭光口和自环的实验也是最后确定问题所在的关键,但是采用什么方案在处理比较好,效率比较高,还是由故障处理人员对故障现象细节的了解以及正确的分析所决定。2. 在掌握故障现象(包括各种表面的和深层次的现象)以后,还要对设备各种告警的含义,对设备各个模块的功能以及工作原理有所了解,否则无法有目的地了解和过滤故障信息,就无法正确分析原因,更谈不上有计划地行动了。3. 在根据故障现象进行初步分析后,可以初步确定故障点的怀疑对象,然后根据情况可以拟订一套检查方案。检查方案的原则前面已经讲过,就是“先易后难,先用不影响业务的方法,后用对业务运行有影响的方法,先用现有条件就能实现的方法,后用必须增加条件才能实现的方法”。在第一个例子里,一怀疑光缆有问题,就到站上用ODTR重新检查光缆,或者直接断点处挖开去重新检查行不行?显然这样做会很麻烦,有点押宝的味道,万一押不中,假如不是光缆的问题的话,岂不是劳民伤财?通过关闭光口,观察告警这种简单的的方法来确认以后,就可以放心大胆地去处理光缆的问题了。4. 确定检查方案以后,我们就可以根据方案行动了。在检查的过程中,第二个例子中做环回的和更换板件先后次序中就体现了“先用不影响业务的方法,后用对业务运行有影响的方法”这一原则。三. 故障处理。1. 已经通过网管、仪器仪表以及外观检查,经过分析将故障已经定位到相应的板件或设备,并且比较有把握处理。这种情况下只要根据具体情况制定处理方案即可。处理的方法应当对症下药,硬件损坏的故障通常采用更换的方法,如确认某个模块损坏就进行更换即可。对一些软件引起的故障我们通常采用复位、关电重起等方法。这里要注意的是,硬件的更换很多情况下可能会中断业务,因此需要在非业务繁忙时段进行。TELLABS的SDH设备带有热插拔保护电路,支持热插拔。一般情况下热插拔不会损坏设备。但是如果有条件关电更换设备硬件时,我们还是建议关掉电源更换设备硬件,这样做毕竟比带电插拔硬件要安全些,同时整个机器的关电重起,也不会造成软件方面的问题。2. 仅靠网管、仪器仪表以及外观检查还不能确定故障点,还需要通过自环、更换板件等方法进行检查和处理。这种情况的处理的方法和故障诊断定位的过程和方法是分不开的,我们前面已经多次提到,这里就不再赘述。3. 在很多情况下,受到各种条件限制,问题深层次的原因没有找到,特别是一些软故障, 不是什么条件下都会重现。对这类问题的处理方法是:通过对网络现状进行仔细的分析,找出不符合规范的地方并加以改进,从有针对性地进行网络优化,从破坏使网络不稳定因素产生条件的方法入手,消除各类故障隐患,以达到使网络更强壮稳定的目的。4. 故障处理的方法,简单地说,就是复位、关电、换硬件。在进行故障处理时,一般的顺序是:网管软复位硬件单板复位硬件整机复位更换硬件单板整机关电重起更换整机。四. 故障原因的分析总结 故障现象了解和故障诊断定位的过程实际上就是故障原因分析的过程。只不过在解决和处理故障时的分析不一定准确,还带有一些不确定性在里面。在故障处理完以后,我们都应当对故障的原因进行分析和总结,这样做有以下好处:1. 及时总结经验,不断丰富故障处理的知识库。2. 找出故障隐患,避免故障重复发生。有一些故障在处理时可能由于各种原因,例如维护人员经验不足,没有发现一些关键问题所在,或紧急情况下不得不丢失或销毁了故障时的一些重要线索(如复位后清除了历史告警)等等,虽然直接的故障现象暂时排除,但因为找不到故障的真正原因,还怕故障重现,因此虽然故障已经恢复,还需要进一步通过实验进行故障诊断定位,并加以处理,以防止问题重现。解决这个问题的方法有:1. 实验室模拟。利用不在网运行的设备来模拟故障现象。这个方法的好处是不会影响在网运行的业务。缺点是环境与实际情况不同,不一定能将故障重现(如果重现就说明设备有问题,但不重现还不能说明设备一定没问题)。一般采用这种方法主要是检查更换下来的板件,确认板件是否真的损坏,或检查一下软硬件版本配合的情况等。2. 现场模拟。在非繁忙时段在现场模拟故障,观察在用设备状态看故障能否重现。如利用断纤来试验在网运行的设备的保护倒换是否可靠等。优点是在真实的网络环境下模拟故障,如果网络真有隐患,故障重现的可能性比实验室模拟的要大,解决问题的可能性也大一些。但是缺点也是很明显的,一是会影响在网运行的业务,二是受到许多现场条件的制约,许多实验项目无法完成。对于故障原因分析总结,一定要有分析总结报告。报告应当包含以下内容:1. 故障的现象。内容应当包括业务的故障状态和设备的告警以及故障发生时传输通道的运行状态和各项相关指标这两大部分内容。2. 网络和业务路由情况。内容包括网络拓扑图以及与故障相关的业务路由和保护路由以及时钟路由的介绍。如果故障涉及到网管信息的话,还要DCN路由和自网划分等相关信息的描述。3. 涉及到故障相关设备配置情况,包括板位安排、软硬件版本情况等。4. 故障处理过程。在这一部分,应如实描述故障处理分析和检查过程。5. 总结。找出对这次故障原因,并这部分对故障处理过程进行总结归纳,结合最终的处理结果,反思一下处理过程的经验和教训。6. 改进措施。为了使报告逻辑清楚,如果第2,3部分篇幅较长的话,可以将这两个部分做为报告的附录。报告的重点应当是说明故障现象以及对故障分析处理过程的总结,而不是处理过程的流水帐。五. 提出并落实整改措施在对故障原因分析的基础上提出整改措施。整改措施主要有:1. 针对具体问题的整改措施。2. 针对网络优化,消除故障隐患的整改措施。有一些措施当前有条件实现的,就要尽快落实。暂时没有条件落实的,要积极努力创造条件,寻找机会落实。第二部分: 几类常见传输故障的原因和检查方法这一部分我们从几类常见传输故障现象的角度分析其原因和检查方法。常见的传输故障有:1. 传输通道中断.2. 传输通道性能的劣化3. 传输通道正常,但网管不通或速度过慢。一. 引起传输中断的常见原因和检查处理方法:引起传输中断的直接原因几检查处理方法很多,常见的(但不限于)有以下几种:1. 光缆线路中断,业务没做保护。这种情况下业务肯定断。一般此时与断点相接的光口会出现STM-N级别的Loss of signal即信号丢失告警。重点检查点:出现告警设备之间的光缆、尾纤、ODF。处理:找到故障点后熔接光缆或更换尾纤。2. 环上多点光缆中断,业务做了保护,但部分站点仍然中断。这种情况部分站点业务肯定不通(一般情况下这些站点网管也不通)。一般此时在与中断业务站点光口相接的站点对应的光口会出现STM-N级别的Loss of signal即信号丢失告警。重点检查点:出现告警设备之间的光缆、尾纤、ODF。处理:找到故障点后熔接光缆或更换尾纤。3. 环上单点光缆中断,业务也做了保护,但部分站点(或业务通道)仍然不通(TTI也不通)。这种情况属于保护失效。对于失效的原因需要做进一步检查。首先看通道路由上的两端设备的交叉连接界面相关通道时隙的颜色,如果变红说明该时隙有问题。其次再观察通道所经各站的告警(特别是通道两端的站点),如果有Path unequipped告警说明在保护方向的时隙有漏联的现象。在检查告警前应确认相关的点告警已经打开,否则即使有问题也不会告警,这一点应特别注意。如果保护通道连接没有发现异常,TTI还是不通,可能是自动倒换出了问题,可以人工强制切换一下,或删除连接后再重做一次连接。有时对上下业务的站点做一下复位也能解决问题,不过复位需要慎重,最好在其他方法都用过都解决不了的情况下再做,因为如果前面的工作没有做好,贸然复位可能会带来新的故障。4. 环上某一站点掉电,使通道中断。判定这种故障的方法是:该站点网管进不去,其两端的站点对该站点的光口出现STM-N 级别的Loss of signal告警。处理办法:解决站点设备掉电的问题。5. 某些站点板件损坏,导致业务中断。因为板件损坏情况各异,不好一概而论。在此不可能给出所有各种情况的判断,可以按照第一部分所讲的方法进行分析处理。对于板件损坏现象和故障点的分析,主要还是靠故障现象了解+分析+检测+经验。6. 传输线路正常,但支路业务接口(如2M口)出现Loss of signal的告警。这种情况大多数的问题是出在传输设备与下挂业务设备之间的连接电缆或配线架上。重点应检查这些部位。检查方法可以用外观检查、仪表测试,或换线不换口或换口不换线等方法。对加有1:N 2M支路板TEX-P硬件保护6340设备,内嵌软件在FP2.1BV18以下的版本,当某块板已经损坏,该板的21个2M自动切换到保护槽位上工作期间,不能对系统复位,否则有可能造成该板的21个2M信号丢失,业务中断。只要在发生切换时及时更换已经损坏的TEX-P模块,并且在更换前不要对系统复位,就不会出现这个问题。除了6340fp2.1以下版本以外,6340更高的版本以及63XX系列的其他设备如6310、6320没有这个问题。二. 由传输通道劣化引起的故障:传输通道劣化问题引起的故障大多数是软故障,除了一些因硬件损坏和配置错误等比较明显的故障点以外,很多直接影响的是设备的各项性能指标,对业务的影响有时是间接的,隐含的。要找出这方面的问题,仅靠网管检查是不够的许多情况下需要借助于仪表才能确认。 常见的几类传输通道劣化的原因和检查处理办法如下:1. 时钟配置错误或配置不合理导致的时钟同步问题,引起系统或通道性能的劣化。这种情况下通常是配置错误,导致形成大定时环或小定时环。从时钟跟踪到自己提供的网同步信号的现象,称为定时环。 当从时钟输出直接或者经过网络间接环回到输入时,就会产生定时环。在构成定时环时,由于时钟参考源本身的输入参考是自己的输出,这就构成了正向的反馈环,会使整个系统的时钟不稳定。定时环分为大定时环和小定时环。两个设备之间通过线路互相提取时钟,构成的定时环称为小定时环;而当多个设备构成环时,如果各设备时钟都向同一方向的线路提取,使时钟提取的路由头尾相接构成环,为大定时环。检查方法:检查各个光口之间的连接关系(检查时,必须通过TTI检查确认,而不是仅依据施工和维护资料),检查每个网元的各个优先级时钟提取的方向。如果发现问题,应及时解决。这里值得指出的是,由于63XX设备在时钟设计上采用了多种措施,能够保证设备时钟的稳定。一般在时钟链比较短,网不大以及下挂设备对时钟要求不很高的情况下,即使各个网元都设成自由震荡,短时间内(例如10天-半个月)可能都不一定出问题。但是如果设置错误,例如时钟对提,形成定时环,网络就会不稳定。此外,不同设备对时钟的敏感度是不一样的,高速设备要求更高些。我们做过这样的实验:把几台2.5G的6340的时钟设置成大定时环,几个小时以后,一些通道就陆续出现信号劣化的告警。同样用155设备,这样的情况几天以后才出现异常。因为检查配置是相对容易操作的(虽然网大了检查的工作量很大,所以如果怀疑故障是由时钟引起的话一般我们都要首先要检查一下时钟的配置和时钟的状态情况。2100EM网管是网元级网管,检查时钟配置和状态比较麻烦。而6300NM网管是网络级网管,将网络拓扑设定好以后,可以自动显示当前时钟的配置情况,这对维护是非常有用的,建议使用6300NM来检查时钟配置和当前状态。2. 除了配置问题影响以外,板件的损坏也是造成系统和通道劣化的重要原因之一。系统板件损坏引起系统性能劣化的表现形式比较多,检查方法各异,请参照第一部分的方法和步骤进行故障定位。3. 由于外部环境变化、以及接地、电源等方面的问题也是可能造成系统问题劣化的原因。例如6340未加风扇,导致设备局部过热造成系统的不稳定。6340风扇是选配件,有的用户在建设时由于经费不够的原因没有配风扇。在配置比较满的情况下强烈建议加配风扇。我们已经处理过多起未配风扇导致设备误码、不稳定的问题,这类问题配了风扇一般都解决了。此外机房空调故障导致设备环境温度过高,性能下降的故障也时有发生。4. 工程安装不当造成的设备故障隐患。例如:TISI和C-BUS电缆以及匹配终端头的问题。63XX设备的TISI以及C-BUS电缆是架间或母板间的总线,对系统的稳定性影响很大。这部分常见的问题有:1) TISI电缆接头没有插紧。这个问题在6340上表现是没有将紧固卡子卡紧,或根本没有装紧固卡子。在6320上主要是两边或一边的小螺丝没有上紧,这在扩容的项目中出现得比较多。2) 6340设备上用的工作和保护的TISI电缆型号不匹配,长度不一致。3) 6340设备上用的C-BUS终端头没接,或没有插稳或损坏。一般出现系统频繁自动重起,导致设备不稳定的故障,除了可能是DCN导致的软件问题,需要检查DCN通道以外,还有可能是硬件电缆连接问题。必须检查一下这些内部的连接电缆。要确认引起通道信号劣化问题原因的话单靠网管和一些环回检测很难确认,只能凭经验和理论分析确定一个检查方向和思路,一般大多数都需要使用仪表测量技术指标或采用更换或交换故障点硬件模块,甚至用更换整套设备的方法来确认故障点。具体方法见第一部分故障诊断定位部分的内容。5. 由于网管DCN子网划分不当,子网网元数超过100-150个,加上平时维护时处理不及时,设备产生大量的垃圾告警时,会引起一些设备的不稳定,其表现为设备无故重起,网管速度慢,经常监控不到设备等。这种情况需要检查网络的DCN设置,看有无串区现象(即不同的区域的DCN在物理上打开了连接),子网的网元数是否超过150等。如果存在这类问题,需要对网络的DCN进行优化处理。三. 网管监控不到设备的故障。如果网管监控不到设备,虽然暂时不会中断业务,但也是一个重大的事故。因为网管监控不到设备,万一网络出现问题,将给处理带来极大的麻烦,甚至会导致重大事故。1. 影响2100CT和6300CT管理6310,6320,6330,6340网管接入的原因主要有:l 计算机串口坏或F接口连接线断或未连接.l 串口设置不对(如连线接COM2而设置为COM1).l 网元版本号设置不对(如网元内嵌软件版本为3.0,实际设置却为2.0)l 想要进入的ADM/TM模块有故障或电源关闭或正在复位.l 对于远端的网元模块,以太网地址输入错误.如果设有密码的话,密码输入错误也是导致连接失败的原因之一.l 计算机接入的模块到远端模块之间通信中断,则无法进入远端模块.l 计算机接入的模块的内嵌软件版本为2.0以下,远端模块为3.0版,会导致进入不了远端模块.l 计算机TCP/IP协议没有设置或设置有错误.l 网管与网元不在同一个子网。l 网元本身软硬件故障(CMCC问题)2 影响2100EM管理管理6310,6320,6330,6340网管接入的原因主要有:l 网元图标设置不对(包括版本,NSAP地址等)l 想要进入的ADM/TM模块有故障或电源关闭或正在复位.l 计算机接入的模块到远端模块之间通信中断,则无法进入远端模块.l 网管服务器的网卡设置不对.l 网管服务器的TCP/IP协议或TP4协议没有设置或设置有误或没有启动.l 网管服务器至模块的以太网连接电缆断或不匹配(未接50欧匹配头).l 网管与网元不在同一个子网,且子网间无路由器或路由器设置有误。l 网元本身软硬件故障(CMCC问题)。3. 影响6300CT管理6345,6350设备网管接入的原因主要有:l 6300CT安装不当或没有安装OSI-LAN或网管机NSAP地址设置不当(此问题主要发生在新安装的网管上,已经安装成功并在其他设备上使用过一般不会发生此问题,但如果不通的话,还是要检查一下OSI-LAN NSAP地址,特别是区域地址。l 网线接头与插座不匹配。检查网线和接头是否插好。一些网线RJ45接头比6350/6345网管口插座略小,容易接触不良。l 网线用错。检查网线是交叉线还是直连线。计算机直接接设备用交叉线,计算机通过HUB接设备用直连线。l 用快捷方式时设置不当。l 设备本身软硬件故障,本端不能接入的话CMCC板可能有问题,远端不能进入问题比较复杂,可能在CMCC板,也可能光板或DCN配置不当,背板存在问题也有发生过。4 网管DCN需要进行规划。63XX系列设备网管信息的传递采用国际标准的OSI协议栈,路由协议采用1层的IS-IS协议。在网络规划时,需要将网络划分一个至多个子网。每个子网最多不能超过150个标准网元。通常6320和6340每个网元相当于一个标准网元,但一台6350或6345相当于6-7个标准网元。为了保证一定的冗余,在规划时一般一个子网设置60-80个比较合适。有时一个子网虽然超过150个网元,甚至达到200个,暂时还没有事,但是这时一些软性故障也已经显现出来了,一旦出现大量的告警,可能会使一些网关网元自动重起甚至死机,轻则失去监控,重则中断业务。具体规划的方法可以需要参考TELLABS的有关文挡。 第三部分:TELLABS设备常见告警的含义6320,6340都有的常见告警:导致传输线路中断的常见的告警有:Loss of signal:信号丢失告警。这个告警部位如果在STM-N PORT X,则检查光口输入输出功率。如不正常,一般为光缆(尾纤)断或对端机器故障(包括掉电。进一步可通过光口自环,告警是否消失来判定故障部位。告警部位如果为PDH 2Mb/s,则问题可能出在连线或与之相连的下端设备(如PCM,BTS,BSC,PABX等),进一步可通过光口自环,告警是否消失来判定故障部位。Loss of frame:帧丢失。如果出现Loss of frame告警,通常这个时候业务已经中断了。这个告警的含义是“帧丢失”,如果出现在STM-N的等级上
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 数学苏教六年级下册期末资料专题真题及解析
- 【英语】高二英语翻译试题经典
- 【语文】广东省深圳市罗湖区滨河小学小学四年级上册期末试题
- 英语五年级下册期末模拟试卷测试题(附答案)
- 小学五年级下册期末英语提高试卷测试题(含答案)
- 苏教六年级下册期末数学专题资料真题经典套题及解析
- 2025监理工程师题库试题新版附答案
- 三病防治相关知识培训试题及答案
- 2025年税务师考试税法二试题及答案
- 2025年机器学习与人工智能应用考试试卷及答案
- 07FJ01~03 防空地下室建筑设计(2007年合订本)
- 《非道路移动工程机械二手设备评估通则》
- 监控验收单完整版本
- DL-T-5743-2016水电水利工程土木合成材料施工规范
- (正式版)YST 1682-2024 镁冶炼行业绿色工厂评价要求
- 体育健康知识教案课件
- 卡西欧dh800电吹管说明书
- 体育课免修申请书体育课免修申请书八篇
- 【超星尔雅学习通】商法的思维网课章节答案
- 509册泵类书籍大全-截止到20150531
- GB/T 5796.3-2022梯形螺纹第3部分:基本尺寸
评论
0/150
提交评论