CE维护常见故障处理之日常故障处理.doc_第1页
CE维护常见故障处理之日常故障处理.doc_第2页
CE维护常见故障处理之日常故障处理.doc_第3页
CE维护常见故障处理之日常故障处理.doc_第4页
CE维护常见故障处理之日常故障处理.doc_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

CE维护常见故障处理之日常故障处理 CE设备作为软交换网元接入IP承载网的第一道关卡,起着十分重要的作用。作为CE设备维护人员,在日常维护设备的过程中能够对常见的故障从容应对、处理是十分有必要的。本人对CE设备的维护已半年多,现将CE维护中常遇见的故障及如何处理总结一下,与大家共同学习、交流。一、 端口变down故障处理CE设备的端口一般分为GigabitEthernet(电口)和pos(光口),CE设备终端查看端口的命令为:华为NE40E:display interface GigabitEthernet X/X/X爱立信juniper:show interface GigabitEthernet X/X/X爱立信SE800:show port Slot/Port detail由于目前广州地区的CE设备品牌主要包括华为Quidway NE40E系列和爱立信的Redback SE800系列,至于爱立信的juniper、Apline 3804及Summit 48si等设备已经逐步退网。爱立信的SE800是新验收不久的CE设备,广州地区只有两对,所以本文中所提到的CE设备故障一般是指华为NE40E中出现的故障,其它品牌CE设备故障参考处理。首先CE设备的一个端口变down情况会有两种及原因分析(见附表一):情况物理状况链路状况原因分析一updown1.IP地址冲突,子网掩码设置错误。2.没有设置DCE时钟。3.没有设置对FR的,PPP的封装。4.Hello和Dead的更新时钟在两端不同。5.路由协议设置错误。二 downdown1、物理端口被手动shutdwon。2、由于对方的端口down掉或者链路不通。附表一1、第一种情况处理:从设备终端登陆CE设备查看端口链路层出现down情况的端口(见图一),该情况是最常见的一种故障。物理状态为up链路状态为down图一 对于这种端口链路状态变down的情况处理步骤:1) 参照OSI参考模型(Open System Interconnection),第二层的链路层协议从初始化到变Up 起来,会经过包括链路层协议本身规定的参数、能力协商,及协议所规定的定期性的链路通达性检测(例如HDLC 的Keepalive 报文)。既然称之为“协商”,也就意味着该过程是一对一交互性进行的,既有一个发送出去的报文,也会有一个对方发送过来的回应报文。因此,如果遇到物理口Up、协议Down 的情况,建议在确认两端设备的配置没有问题之后,用“display interface + 端口”的命令查看一下该端口的收、发报文情况。在CE设备上,“display interface”命令的显示结果有XXXX packets input 和XXXX汇报packets output 两项,分别代表该端口上收到和发送的报文数量。正如刚才所阐述的,如果这两个数字相差很大(为了不致让以往累计的历史统计数据对问题的分析、判断造成干扰,建议先在CE设备的特权用户模式下使用“clear port”命令将端口的统计信息清空,再用“display interface + 端口”命令进行查看),则大致可以说明在协商的过程中出了问题,造成协议不能Up起来。2) 在很多情况下,物理口Up、协议Down,用“display interface”命令查看端口的收发报文情况,发现只有送出去的报文,收到的报文数量为零,而且连续使用“display interface”命令进行查看,进一步发现送出去的报文数量在不断增长,但是收到的报文数量始终为零。这说明了CE与网元之间的链路层协议处于Down 状态的原因:(1)在CE与网元之间的传输链路、线缆出了问题,导致本端CE设备收不到对端网元送过来的回应报文;(2)对端网元本身出了问题,无法给本端CE设备发送回应报文。3) 除最常用的收发报文数量比较的方法外,在“display interface”命令的显示信息中,还有一项很重要的内容,那就是端口所收到的错误报文数量。在CE设备上的“display interface”命令显示结果的倒数第二行,有如下的信息:0 input errors, 0 CRC, 0 frame errors如果由于传输误码、物理线路质量比较差或者是中间的中继架位链路出了问题,则容易导致CE设备收到的IP 报文中,很多是错误的报文。特别地,如果通过连续“display interface”查看会发现错误的报文在不断增长,则可以判断此时网络线路质量比较差、传输有误码,或者中间的中继架位、某段电缆出了问题,导致送给本端CE设备的报文绝大部分是错误包,这样链路层协议也肯定是不能变Up 的。4) 另外,如果通过“display interface”命令发现收、发报文的数量基本相等,而且也没有错误包,但协议还是Down,这个时候可以在CE设备上打开该端口的链路层协议Debug 开关,通过Debug 调试信息完整地分析一下协议的协商过程,看看到底问题出在什么地方,是出在协商的哪个阶段。不过,这种情况在实际中很少碰到。5) 最后,正如前面提到的,在CE设备中,物理口Up、链路协议Down,可能的原因非常多,不同类型的端口、不同的协议,可能的原因都不尽相同。前面所阐述的只是常见的故障情况,具体问题还是需要具体分析。另外很重要的一点是,协议的功能是用于互连、通信,在实际的软交换维护中,协议问题的排查同样需要各个相关部门、相关人员的通力配合,孤立、静止地去分析问题,很难取得比较好的效果。2、第二种情况处理:此种情况表示设备端口的物理层和链路层都已经变down的情况(见图二):图二对于这种情况的端口变down的处理步骤:1) 检查该端口是否已经被手动shutdown,用命令“display interface”查看端口状况,如果这个显示为端口administratively down 即表示已经手动shutdown,物理层都已经关闭,当然链路层就变down了。2) 如果端口看到物理层显示不是administratively down,即有可能由于对端网元的端口已经变down或者链路不通。此时可以联系机房现场的维护人员协助查看设备的物理端口连接及线路状态。二、 链路断开故障处理链路断开顾名思义是指CE设备所连接的网元间的链路断开、线路不通的故障。遇到这种故障处理步骤:1、 请机房现场维护人员查看CE设备端口是否松动?如果有松动即拨插一下,同时在远程终端登陆设备查看链路是否恢复正常。2、 电话联系传输室报障,请传输室人员协助对链路做自环测试,查看CE设备跟对端网元的链路状况up/down情况,查清楚到底是哪一端线路出现问题。3、 从远程终端登陆CE设备查看出现故障的端口,初步判断故障的原因所在,并持续用ping和tracert命令测试链路传输是否恢复正常。4、 在远程终端查看日志信息,搜索有关出现故障的端口日志信息。例如:9月18日花都CE11的端口GigabitEthernet 5/0/0出现ping包不通的现象,从远程终端登陆设备CE11,查看到端口GigabitEthernet 5/0/0连接的网元为GZGM16,再查知GZGM16跟CE相连的IP地址如下表:GDGZ-NGN-CE11-HWNE40EVlanif1410(10.132.19.66/28 ) 10.132.19.68(2-19-PL)10.132.19.70(3-19-PL)GZGM16GDGZ-NGN-CE11-HWNE40EVlanif1411(10.125.19.73/29)10.125.19.74(2-19-SIG-ITU)10.125.19.75(2-19-SIG-MPT)GDGZ-NGN-CE11-HWNE40EVlanif1415(10.132.19.194/28)10.132.19.196(2-20-PL)10.132.19.198(3-20-PL)在CE11上使用ping命令来ping对端的网元:ping -s 1000 -c 100 -vpn-instance ChinaMobile_NGN_Media -m 30 -a 10.132.19.66 10.132.19.68目的端口IP地址 PING 10.132.19.68: 1000 data bytes, press CTRL_C to break Reply from 10.132.19.68: bytes=1000 Sequence=1 ttl=255 time=1 ms源端口IP地址 . . Reply from 10.132.19.68: bytes=1000 Sequence=99 ttl=255 time=1 ms Reply from 10.132.19.68: bytes=1000 Sequence=100 ttl=255 time=1 ms - 10.132.19.68 ping statistics -没有数据包丢失 100 packet(s) transmitted 100 packet(s) received 0.00% packet loss round-trip min/avg/max = 1/1/2 ms用短数据包去ping(-s 1000数据)可以发现是可以ping得通的,如果用长数据包(-s 3000)去ping呢?ping -s 3000 -c 100 -vpn-instance ChinaMobile_NGN_Media -m 30 -a 10.132.19.66 10.132.19.68 PING 10.132.19.68: 3000 data bytes, press CTRL_C to break Request time out Request time out. Request time out全部数据包丢失 - 10.132.19.68 ping statistics - 100 packet(s) transmitted 0 packet(s) received100.00% packet loss可以看到如果用长数据包去ping对端网元时显示超时,故障可以初步判断是网元端的板卡接口有问题,可能出现连接松动或者接触不良等问题。再查看一下CE设备的有关端口GigabitEthernet 5/0/0的日志信息:GDGZ-NGN-CE11-HWNE40Edis log | include 5/0/0Logging buffer configuration and contents:enabledAllowed max buffer size : 1024Actual buffer size : 512Channel number : 4 , Channel name : logbufferDropped messages : 0Overwritten messages : 47928Current messages : 512Sep 18 2009 16:41:14 GDGZ-NGN-CE11-HWNE40E %01SHELL/5/CMDRECORD(l): task: vt0 ip: 10.201.62.48 user: huawei command: interface GigabitEthernet 5/0/0.Sep 18 2009 16:27:32 GDGZ-NGN-CE11-HWNE40E %01PHY/4/STATUS2UP(l):-Slot=5; GigabitEthernet5/0/0: change status to up.GigabitEthernet5/0/0断开过Sep 18 2009 16:27:30 GDGZ-NGN-CE11-HWNE40E %01PHY/4/CHANNELSTATUS2DOWN(l):-Slot=5; GigabitEthernet5/0/0: change status to down.Sep 18 2009 16:23:26 GDGZ-NGN-CE11-HWNE40E %01PHY/4/STATUS2UP(l):-Slot=5; GigabitEthernet5/0/0: change status to up.GigabitEthernet5/0/0断开过Sep 18 2009 16:23:24 GDGZ-NGN-CE11-HWNE40E %01PHY/4/CHANNELSTATUS2DOWN(l):-Slot=5; GigabitEthernet5/0/0: change status to down.Sep 18 2009 16:23:23 GDGZ-NGN-CE11-HWNE40E %01PHY/4/STATUS2UP(l):-Slot=5; GigabitEthernet5/0/0: change status to up.Sep 18 2009 16:22:54 GDGZ-NGN-CE11-HWNE40E %01PHY/4/CHANNELSTATUS2DOWN(l):-Slot=5; Sep 18 2009 01:26:26 GDGZ-NGN-CE11-HWNE40E %01PHY/4/STATUS2UP(l):-Slot=5; GigabitEthernet5/0/0: change status to up.Sep 18 2009 01:20:51 GDGZ-NGN-CE11-HWNE40E %01PHY/4/CHANNELSTATUS2DOWN(l):-Slot=5; GigabitEthernet5/0/0: change status to down.Sep 17 2009 18:20:57 GDGZ-NGN-CE11-HWNE40E %01PHY/4/STATUS2UP(l):-Slot=5; GigabitEthernet5/0/0: change status to up.Sep 17 2009 18:20:23 GDGZ-NGN-CE11-HWNE40E %01PHY/4/CHANNELSTATUS2DOWN(l):-Slot=5; GigabitEthernet5/0/0: change status to down.注意观察可以发现端口GigabitEthernet5/0/0曾经出现连续的闪断现象,联系机房现场维护人员的核查,进一步证实GZM16到CE出现闪断故障,通过对ETMFG-ECF之间的连接头的检查,发现ETMFG背板连接头有松散的现象。至此,只需把ETMFG背板连接头重新拨插一下,固定好就行了。三、 IP NET网管系统登陆不上CE设备由于CE设备是通过IP NET网管平台集中连接管理的,即通过IP NET网管系统集中控制管理。通常在IP NET网管系统登陆不上CE设备通常会显现这样的结果:Consoleopen GDGZ-NGN-CE07-HWNE40EDeivce info not found in core !%ERROR% - connect to device failure这时可以通过电话直接联系IP NET网管的负责方-东信公司的负责人协助解决。例如:10月29日西华爱立信CE19、CE20及下带的两台交换机一直登陆不上去。1) 首先联系机房现场的维护人员,核查四台CE设备是否已下电;2) 联系东信协助解决,通过利用traceroute命令进行检测,根据我们向东信负责人提供的CE设备管理接口地址, IP NET网管负责人使用tracert命令对数据包的传输路径进行跟踪,发现数据包至132.97.19.48地址时截止(具体见附表二):设备名称Management InterafceManagement Interafce Trace 结果显示GDGZ-NGN-CE19-JUM7I 10.201.75.2traceroute to 10.201.75.2 (10.201.75.2), 30 hops max, 46 byte packets 1 10.201.1.90 (10.201.1.90) 1.977 ms 1.864 ms 2.113 ms 2 10.201.4.162 (10.201.4.162) 2.555 ms 2.068 ms 2.091 ms 3 10.201.4.157 (10.201.4.157) 0.215 ms 0.183 ms 0.179 ms 4 10.201.4.133 (10.201.4.133) 5.447 ms 1.343 ms 1.352 ms 5 10.201.5.1 (10.201.5.1) 1.586 ms 1.530 ms 4.797 ms 6 10.201.5.6 (10.201.5.6) 2.240 ms 2.190 ms 6.089 ms 7 132.97.33.174 (132.97.33.174) 3.687 ms 1.460 ms 1.234 ms 8 132.97.19.48 (132.97.19.48) 6.272 ms 7.425 ms 10.352 ms在132.97.19.48处断开 9 * * *10 *GDGZ-NGN-CE20-JUM7I10.201.75.3在132.97.19.48处断开traceroute to 10.201.75.3 (10.201.75.3), 30 hops max, 46 byte packets 1 10.201.1.90 (10.201.1.90) 3.338 ms 1.860 ms 3.480 ms 2 10.201.4.162 (10.201.4.162) 2.133 ms 2.018 ms 5.807 ms 3 10.201.4.157 (10.201.4.157) 0.216 ms 0.170 ms 0.185 ms 4 10.201.4.133 (10.201.4.133) 1.397 ms 1.349 ms 1.347 ms 5 10.201.5.1 (10.201.5.1) 4.461 ms 1.676 ms 1.550 ms 6 10.201.5.6 (10.201.5.6) 6.565 ms 2.429 ms 2.306 ms 7 132.97.33.174 (132.97.33.174) 1.628 ms 1.183 ms 1.846 ms 8 132.97.19.48 (132.97.19.48) 4.496 ms 6.156 ms 3.194 ms 9 * * *GDGZ-NGN-CE19

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论