华为PTN故障处理手册v1.0版.doc_第1页
华为PTN故障处理手册v1.0版.doc_第2页
华为PTN故障处理手册v1.0版.doc_第3页
华为PTN故障处理手册v1.0版.doc_第4页
华为PTN故障处理手册v1.0版.doc_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华为PTN故障处理手册v1.0惠州公司网络维护中心 2010年12月目录一、概述4二、网络故障分析定位方法42.1告警分析法42.2性能统计分析法52.3OAM分析法72.4配置数据分析法112.5仪表测试分析法122.6环回法132.7排除法14三、业务中断故障和业务恢复153.1流程图153.2查询误操作173.3检查告警173.4检查环回和装载183.5检查业务配置183.6应急恢复方案183.6.1倒换193.6.2复位193.6.3通过更换单板恢复业务19四、常见故障处理方法204.1带内DCN故障处理204.2MPLS Tunnel故障处理244.3PW故障处理264.4CES业务故障处理274.5以太网业务故障处理314.6offload故障处理354.7时钟故障处理374.8QoS故障处理394.9线性MSP故障处理424.10TPS故障处理454.11LAG故障处理484.12MPLS APS故障处理51五、部件更换注意事项554.13部件分类说明564.14更换处理板574.15更换子卡594.16更换接口板604.17更换XCS单板614.18更换带有1+1保护的SCA单板634.19更换没有1+1保护的SCA单板654.20更换风扇板684.21更换PIU板694.22更换可插拔光模块704.23更换CF卡71一、 概述PTN网络故障处理在日常维护中显得至关重要,为了更好的开展PTN网络的日常维护,特编制PTN网络故障处理手册。本手册PTN设备故障处理主要涉及故障分析定位、业务中断故障应急恢复、常见故障处理方法等三个部分。下面将对这三个部分进行详细说明。二、 网络故障分析定位方法根据现网中处理网元脱管或业务中断等故障的经验,一般遵循“一分析,二倒换/复位,三换板”的处理方案。保证PTN网络的稳定运行,尽量减少突发事故。处理故障时,应从分析故障现象开始,尽快定位到故障的原因。本节介绍各类分析和定位故障的方法、应用场景和应用示例。2.1 告警分析法告警分析法是定位故障的常用方法之一。当设备发生故障时,一般会伴随大量的告警。通过对告警的分析,可大概判断出发生故障的类型和位置。通过U2000查询告警:只要在U2000主拓扑的网元图标上点击右键,就可以查询以下告警信息: 当前告警 网元侧历史告警 网管侧历史告警 通过分析、定位告警产生的原因,清除告警,并排除故障。通过U2000获取告警信息时,应注意保证网络中各网元的当前时间与网管时间同步。倘若网元当前时间与网管时间不同步,将导致信息上报错误。在维护过程中,对某网元重下配置后,应特别注意将该网元的当前时间与网管时间同步。否则网元会工作在缺省时间里,而缺省时间并不是当前时间。示例一:简单组网中,一般情况下清除告警的同时,故障也随之排除。如下图所示的链路图中,网管计算机连接到NE2。 故障现象:NE1和NE2之间的E-Line业务中断,NE2上报ETH_LOS告警。故障分析定位:排查ETH_LOS告警产生的可能原因,最终定位出业务中断故障的原因。清除告警后,业务恢复正常,故障排除。示例二:复杂组网中,通过分析新增告警和已清除的历史告警,可以找出排除故障的关键所在。某复杂环型拓扑组网突发广播风暴,各网元均出现大量FLOW_OVER告警,业务中断。虽然通过断开环路光纤等方法恢复了业务,清除了FLOW_OVER告警,但无法定位出故障原因。分析全网告警,发现某个UNI端口在上报FLOW_OVER告警的同时,该端口的历史告警ETH_LOS自动清除。沿此线索,发现与该UNI端口对接的第三方设备上出现了远端环回,导致网络上出现环路。解除该环回后,故障彻底排除。2.2 性能统计分析法性能统计分析法通过统计“当前性能”和“RMON性能”来分析和定位故障。判断单板、端口、Tunnel、PW的性能统计数据是否正常,可以判断是否存在故障。当前性能:下表区分不同的“对象”,列出当前性能统计的判断标准。表 当前性能统计表对象判断标准物理单板/端口 对于单板,其光功率、工作温度、CPU/内存占用率应在正常范围之内。 对于端口,应没有误码。 MPLS TunnelTunnel没有丢包。IP/GRE TunnelTunnel没有丢包。以太网业务OAM没有丢包。 开启网元当前性能统计功能。 网元支持的当前性能的具体含义和解释。 RMON性能:下表区分不同的“对象”,列出RMON性能统计的判断标准。表 RMON性能统计表对象判断标准物理单板/端口 对于主控板,CPU占用率不应过高。 对于端口,发送/接收方向有计数。MPLS Tunnel 发送/接收方向有计数。 没有丢包。IP/GRE Tunnel 发送/接收方向有计数。 没有丢包。业务PW PW的发送/接收方向有计数。 没有丢包、乱序包、误码等异常统计。 Tunnel是双向的,可以在“对象”中选择正向Tunnel或反向Tunnel。 网元支持的RMON性能的具体含义和解释。 示例:两个网元之前配置了两条Tunnel,但仅在一端网元上配置了APS保护组,导致ATM业务质量很差。在网管上查询该ATM业务的RMON性能,发现存在乱序包计数,且乱序包计数值约为接收信元计数的50%,由此判断业务出现双收,并找到问题的原因所在。2.3 OAM分析法OAM机制可以有效地检测、确认并定位出源于MPLS层网络内部的缺陷和网络性能的监控。设备可以利用OAM的检测状态来触发保护倒换,实现快速故障检测和业务保护。A、OAM简介OAM主要应用于PTN设备组网的网络侧(NNI侧),该区域具有以下特点:l 网元多。一条MPLS LSP往往经过多个网元。l 组网复杂。可能需要穿通第三方网络,存在很多导致故障的不确定因素。l 规划整改,扩容变化多。B、OAM分类分析定位故障时常用的OAM功能主要是Tunnel OAM和PW OAM两种。对Tunnel和PW执行Ping测试,通过计算OAM报文丢包率,判断Tunnel和PW的连通性。C、执行LSP Ping测试1) 进入“网元管理器”,在功能树中选择“配置 MPLS管理 单播Tunnel管理”。2) 在“OAM参数”选项卡中,使能Tunnel的“OAM状态”,设置“检测报文类型”和“检测报文周期”,单击“应用”。在弹出的“操作结果”对话框中单击“关闭”。3) 重复步骤1和步骤2,在Tunnel另一端的网元上,使能OAM功能,并保证两端网元的参数设置一致。4) 右键单击“节点类型”为“Ingress”的Tunnel,在弹出的下拉菜单中选择“Ping测试”。在弹出的“Ping测试”对话框中设置相应的参数,单击“启动测试”。5) 在“测试结果”区域分析Ping测试结果。如果发送报文数量等于接收报文数量,且丢包率为0,则该Tunnel的连通性正常。D、执行PW Ping测试1) 进入“网元管理器”,在功能树中选择“配置 MPLS管理 PW管理”。2) 在“PW OAM参数”选项卡中,使能PW的“OAM状态”,设置“检测报文类型”和“检测报文周期”,单击“应用”。在弹出的“操作结果”对话框中单击“关闭”。3) 重复步骤1和步骤2,在PW另一端的网元上,使能OAM功能,并保证两端网元的参数设置一致。4) 右键单击PW,在弹出的下拉菜单中选择“Ping测试”,在弹出的“Ping测试”对话框中设置相应的参数,单击“启动测试”。5) 在“测试结果”区域分析PW Ping测试结果。如果发送报文数量等于接收报文数量,且丢包率为0,则该PW的连通性正常。E、OAM应用业务中断或业务出现丢包、误码时,可按照所示的流程运用OAM功能,定位故障。F、OAM分析业务故障流程图图 OAM分析业务故障流程图G、OAM定位故障通过在Tunnel的两端网元上使能OAM并查看LSP状态,可以轻易定位到存在故障的网元。1) 进入“网元管理器”,在功能树中选择“配置 MPLS管理 单播Tunnel管理”。2) 在“OAM参数”选项卡中,为Tunnel设置合适的“检测报文类型”和“检测报文周期”,使能“OAM状态”,单击“应用”。在弹出的“操作结果”对话框中单击“关闭”。3) 选中一条或多条Tunnel,右键点击,在弹出的下拉菜单中选择“查询LSP状态”。4) 查看“LSP状态”,正常情况如下表所示。Tunnel节点类型LSP状态Ingress远端可用状态Egress近端可用状态若出现其它状态时,根据“LSP缺陷位置”可定位到出现故障的网元。5) 根据相应的“LSP缺陷类型”,选择清除告警,检查光纤连接或确认端口、Tunnel、业务的配置参数等方法,排除故障。2.4 配置数据分析法配置数据分析法通过在网管上分析业务的参数配置,找到配置错误的参数,从而定位故障。当Tunnel或业务创建后不通,或在网管上修改部分参数后业务突然中断时,可以使用配置数据分析法来定位故障。一般情况下,对照网元规划表即可找出网元上配置错误的参数。当PTN设备与第三方设备对接时,由于两端的某些参数默认取值不一致,要特别注意两端参数的匹配问题。采用配置数据分析法时,一般可遵循以下步骤。1. 检查网元的网元ID、网元IP、LSR ID等参数是否配置正确。 2. 对照网元规划表,检查端口状态和参数配置。端口参数配置错误是现网中导致故障最常见的原因之一。 对于以太网端口,确认端口是否已使能。检查“端口模式”、“封装类型”、“工作模式”、“TAG标识”、“缺省VLAN ID”、“Tunnel使能状态”、“IP地址”等参数是否配置正确。 对于SDH端口,检查“端口模式”、“封装类型”、“通道化”、“端口类型”、“Tunnel使能状态”、“时钟模式”等参数是否配置正确。 对于PDH端口,检查“端口模式”、“封装类型”、“帧格式”、“阻抗”、“帧模式”等参数是否配置正确。 对于IMA组,检查“协议版本”、“最小激活链路数”、“协议使能状态”、“时钟模式”、“E1帧模式”、“E1时隙数”、“ATM信元载荷加扰”、“VPI”、“VCI”等相关参数是否配置正确。 对于第三方设备的端口,需要确认以太网端口工作模式、VC12线序模式或时钟模式是否与PTN设备匹配。 3. 检查Tunnel两端网元上的参数配置是否匹配,是否选择了正确的端口。 4. 检查以下PW参数配置。 PW ID是否正确。 PW是否已使能。 PW的出入标签是否一致。 PW是否选择了正确的端口或Tunnel。 对于CES业务,确认“报文装载时间”和“抖动缓冲时间”是否配置正确。 2.5 仪表测试分析法仪表测试分析法一般用于定位设备的外部问题及其它设备的对接问题。定位故障的常用仪表主要有以下几种:A. 万用表:根据不同需要可以将万用表调制电压档或电阻档,对怀疑的故障点进行电压或电阻测试。如设备接地电压、电源电压等。B. 误码仪:用于测试传输通道中存在的误码情况,如误码数、误码率、误码秒等。一般是将需要测试的通道进行环回,通过误码仪发送伪随机码,并在误码仪上查看所测试到的通道误码情况。C. 光功率计:用于测试单板的接收和发送光功率。D. 电缆测试仪:用于测试电缆的端子对在最大额定电流下的电压降,从而可推断电缆的连通情况和传输质量。E. 网络分析仪:用于网络性能的测试和分析,测试内容较丰富。如最大线速、数据流量、帧长、吞吐量、丢包率及网络延时等。示例:以网络分析仪定位故障为例说明仪表测试法的思路。某网络的业务中断,需要对设备故障进行逐一排查。按下图所示,将网络分析仪与设备正确连接,同时在NE上进行内环回,对NE进行丢包率的测试。图 网络分析仪和设备的连接 对网络分析仪进行正确的设置,向NE发送数据包。根据网络分析仪上显示的丢包率结果,可判定是否由于NE的丢包过多导致业务中断。如果数据正常,可确定NE工作正常。可再对其它网元进行测试。2.6 环回法环回法是定位故障时常用而且行之有效的一种方法,可以将故障尽可能准确地定位到单站。设备维护人员应熟练掌握。环回操作分为软件环回和硬件环回,这两种方式各有所长:A. 软件环回即在U2000上配置环回,操作方便,但定位故障的范围和位置不够准确。比如在单站测试时,配置光口为内环回,即使业务测试正常,也不能确定该单板的接口模块没有问题。B. 硬件环回即使用光纤或者电缆环回端口,相对于软件环回而言环回更为彻底。若通过尾纤将光口自环后,业务测试正常,则可确定该单板是好的。但硬件环回需要到设备现场才能进行操作。另外,光接口在硬件环回时要避免接收光功率过载。环回操作会中断端口上其它正常运行的业务,在使用前请务必做好确认。2.7 排除法在处理业务故障时,可以首先检查与其它业务的共用路由部分是否存在故障。排除运行正常的部分,以缩小故障定位的范围。示例:以下面的示例说明排除法的思路。如下图所示。NE01与NE02之间的Tunnel创建失败,但NE03与NE02之间可以正常创建Tunnel,因此可以判断故障发生在DSLAM或与及对接的链路上。图组网图三、 业务中断故障和业务恢复下面介绍业务中断故障的应急处理流程。3.1 流程图下面首先通过下图对OptiX PTN 3900设备的应急处理流程进行说明。了解故障原因之前不要轻易尝试操作,不正确的操作会导致问题扩大。说明: 在处理故障前,要进行业务调离。就是通过网管配置,将故障路由的业务倒换到可用路由中。图 应急处理流程图 3.2 查询误操作查询故障发生前是否有误操作,如添加或删除业务、更改配置等。如果存在误操作,要根据故障发生前的操作情况进行逆向操作恢复业务。3.3 检查告警发生业务中断时,需要检查设备是否存在如下表所示的告警。如果存在,应先排除告警指示的故障。表告警说明告警类型告警名称告警说明设备类告警POWER_ABNORMAL电源失效FAN_FAIL风扇故障会导致设备温度增高,影响正常运行BD_STATUS单板不在位HARD_BAD单板硬件错误报告SYN_BAD时钟同步源劣化NESTATE_INSTALL网元处于安装态信号丢失告警ETH_LOS以太网口连接丢失低阶业务失效告警TU_AIS_VC12VC12级别的TU告警指示TU_LOP_VC12VC12级别的TU指针丢失线路告警R_LOS接收线路侧信号丢失R_LOF接收线路侧帧丢失R_LOC接受线路侧无时钟R_OOF接收线路侧帧失步其他高低阶告警HP_TIM高阶通道追踪识别符失配HP_SLM高阶通道信号标记失配HP_UNEQ高阶通道未装载LP_UNEQ_VC12VC12级别低阶通道信号未装载说明: 上表所列告警是可能引起业务中断,需要优先处理的重要告警。3.4 检查环回和装载检查业务路由上是否设置了环回或通道未装载。3.5 检查业务配置按照业务路由,逐段检查业务配置正确性。3.6 应急恢复方案如果无法快速找到故障原因,进而排除故障,一定要先将业务倒换到正常的路径上,或者复位相关的网元或单板,以恢复已中断的业务或已脱管的网元。如果故障定位为某个单板有问题,则更换相应单板来解除故障。3.6.1 倒换倒换可分为单板级倒换和业务级倒换。OptiX PTN 3900支持的单板级倒换类型有: 单板1+1保护倒换和TPS保护倒换。当保护板在位且工作正常时,可以执行保护倒换,尝试恢复业务。若设备没有保护板,可以使用备件创建临时的保护组,再执行保护倒换。OptiX PTN 3900支持的业务级倒换类型有:APS保护倒换 线性复用段(LMSP)保护倒换如果由于保护倒换失败导致业务中断,可以删除已失效的保护组,另行创建可正常运行的新保护组,并将业务倒换到新的路径上。3.6.2 复位复位可分为网元级复位和单板级复位。当网元被攻击,并出现以下故障时,可考虑复位网元:DCN风暴/DCN通信中断/网元脱管 CPU占用率达到100%。 单板复位又分为软复位和硬复位。单板复位后可以恢复正确的程序和数据。若单板配置了1+1保护组,硬复位会触发保护倒换。在正常情况下,单板的软复位不影响正在运行的业务。硬复位会影响正在运行的业务,请慎重使用。3.6.3 通过更换单板恢复业务如果一时无法定位到故障原因,又没有备用路由用于业务倒换,而且复位单板无效时,需要考虑更换单板。事实上,很多故障的最终处理方案就是更换单板。在复杂的组网环境中,尤其当PTN设备与第三方设备对接时,一些故障很难通过常用的分析方法定位出原因。为了尽快恢复业务,可以采用替换法,用工作正常的部件去更换被怀疑故障的部件。替换法不仅仅适用于单板,也适用于光纤、电缆和供电设备等,但要求备件必须是完好的。替换时需要注意的操作的规范性,防止部件损坏或有其它问题发生。采用替换法定位故障时,应注意以下情况: 确认不会影响被替换部件上承载的正常业务。 替换部件可能会导致产生故障的原始数据丢失。为避免对故障的分析造成影响,建议在用替换法定位故障前就采集可能的故障数据。 示例:以单板故障的示例说明用替换法定位故障的思路。如下图所示,如果怀疑NE1和NE2之间的E-Line业务中断是由于单板故障导致,可用正常的备件替换怀疑故障的单板进行工作。如果业务恢复,说明是由于单板故障引起业务中断。图 链形组网图 四、 常见故障处理方法下面介绍设备支持的各业务或特性出现故障时的现象、对系统的影响、可能原因,排除该故障时需要的工具、注意事项以及处理步骤等。4.1 带内DCN故障处理本节介绍带内DCN出现故障时的现象、对系统的影响、可能原因、排除该故障时需要的工具、注意事项以及处理步骤等。A、前提条件:查看工程文档,确认网元各个单板均使用配套版本。B、故障现象:处理带内DCN的故障时,通常会遇到以下故障现象。 网管与网元通信中断,网管上网元图标变灰色,网元脱管。 网管操作命令没有响应。若响应中断时间持续超过2分钟,网管与网元通信中断。 网管查询信息部分丢失。 C、故障处理流程图:带内DCN故障处理流程图如下图所示。图带内DCN故障处理流程图D、对系统的影响 网元和网管通信中断后,通过该网元来保持与网管通信的网元,若无其它方法连接网管,也将处于脱管状态。其它网元则无影响。 若承载带内DCN的物理通道故障,则会影响该物理通道上承载的其它业务。 E、可能原因:对应故障处理流程图,带内DCN故障原因如下 全网内的网元ID、网元IP或者子网掩码存在冲突。 故障网元的带内DCN端口未使能,或对接端口参数配置不一致。 故障网元与网管之间的物理连接中断。 接收信号丢失或接收光功率过低,无法提取DCN报文。 单板故障。 DCN穿越的第三方网络不健康,引入DCN风暴或DCN中断。 带内DCN通道带宽配置过低。 故障网元主控板正在复位或发生了主备倒换,带内DCN报文得不到响应。 a) 处理带内DCN故障时 如果网元通信中断,先处理网关网元的故障,再处理非网关网元的故障。 如果网元通信未中断,先处理非网关网元的故障,再处理网关网元的故障,避免造成非网关网元脱管。 b) 当网元脱管时,可以使用其它工具尝试登录故障网元 如果可以正常登录,说明设备的通信正常,问题可能由网管引入,联系负责网管维护的工程师处理。 如果不能登录,可以采用PC机直连设备的ETH端口。如果可以通信,说明是线路问题,否则是设备问题。 H、操作步骤 全网内的网元ID、网元IP或者子网掩码存在冲突 此原因一般由全网中新添加的网元引入。对照网元规划表,检查新网元的网元ID、网元IP、子网掩码的配置是否正确。 若配置错误,或与现有网元存在冲突,请正确配置新网元的参数。 故障网元的带内DCN端口未使能,或对接端口参数配置不一致 检查是否存在光纤或电缆连接到默认使能DCN的端口。如果没有,换用默认使能DCN的端口。 检查链路两端的端口是否已使能DNC。如果没有,使能端口的带内DCN。 检查两端端口的参数配置是否一致,例如以太网端口的工作模式。如果不一致,修改参数配置使两端一致。 故障网元与网管之间的物理连接中断 检查故障网元的网线或光纤是否从端口中脱落。如果是,重新插上网线或光纤。 接收信号丢失或接收光功率过低,无法提取DCN报文 检查网元的历史告警中是否存在R_LOS、ETH_LOS或IN_PWR_ABN等告警。 单板故障 查询单板的历史告警中是否存在HARD_BAD或TEMP_OVER告警。 若存在,更换上报告警的单板。 DCN穿越的第三方网络不健康,引入DCN风暴或DCN中断 若带内DCN通信穿越了第三方网络,需要检查第三方网络中是否存在端口环回、物理通道中断等故障。 如果存在,需要立即排除第三方网络中的故障。 带内DCN通道带宽配置过低 当端口配置的业务数量超过某一数目时,可能造成部分查询信息丢失,此时需要适当增大带内DCN通道的带宽配置。 故障网元主控板正在复位或发生了主备倒换,带内DCN报文得不到响应 观察主控板的PROG指示灯是否处于绿灯闪烁状态,若是,则主控板正处于复位状态。等PROG指示灯常亮绿色时,主控板完成复位,DCN将自动恢复连接。 若主控板发生了主备倒换,“当前板”将自动软复位。 若DCN未恢复响应,检查其它单板是否发生保护倒换,造成带内DCN报文处于重路由状态。 若存在单板发生保护倒换,等待DCN完成重路由后,将自动恢复响应。 4.2 MPLS Tunnel故障处理本节介绍MPLS Tunnel创建失败或中断等故障时的现象、对系统的影响、可能原因,排除该故障时需要的工具、注意事项以及处理步骤等。A. 故障现象:处理MPLS Tunnel的故障时,通常会遇到以下故障现象 MPLS Tunnel创建失败,业务不通。 MPLS Tunnel故障,业务中断。 保护倒换失败,业务中断或出现丢包、误码。 B. 对系统的影响若MPLS Tunnel故障,则会影响网络中由该Tunnel承载的业务,但由其他Tunnel承载的业务正常。C. 可能原因:MPLS Tunnel故障原因如下 路由失败。 交叉创建失败。 Tunnel所在的物理链路故障。 保护倒换失败。 D. 操作步骤 路由失败 对照网络规划,检查Tunnel两端端口参数配置是否正确,例如端口IP。修正不正确的端口参数后,再次创建Tunnel。 检查Tunnel首末节点所在的网元间是否存在完整可达的链路。若不存在,修复链路中残缺或故障的部分。 可选:如果Tunnel配置了带宽,检查链路带宽是否满足Tunnel的要求。 交叉创建失败 检查网络中是否存在不同的网元使用相同的网段。如果存在,需要修改端口IP地址。 检查Tunnel是否配置了不兼容的保护特性。 查看Tunnel所经过的网元或单板,确认已创建Tunnel个数是否已经达到了最大值。如果是,需要重新规划或删除冗余的Tunnel。 Tunnel所在的物理链路故障 查询系统中是否存在HARD_BAD、R_LOS、ETH_LOS、PPP_LCP_FAIL或MP_DOWN等告警,指示Tunnel使用的物理链路故障。若存在,优先处理这些告警。 查看并处理系统中存在的下列告警。 MPLS_TUNNEL_BDIMPLS_TUNNEL_ExcessMPLS_TUNNEL_FDIMPLS_TUNNEL_LOCVMPLS_TUNNEL_MISMATCHMPLS_TUNNEL_MISMERGEMPLS_TUNNEL_SDMPLS_TUNNEL_SFMPLS_TUNNEL_UNKNOWN 检查对端设备是否存在单板故障或网元复位等异常状况。排除对端设备的异常情况。 4.3 PW故障处理本节介绍PW创建失败或中断等故障时的现象、对系统的影响、可能原因,排除该故障时需要的工具、注意事项以及处理步骤等。A. 故障现象:处理PW故障时,通常会遇到以下故障现象 PW创建失败,业务不通。 PW故障,业务中断或出现丢包、误码。 B. 对系统的影响:若PW出现故障,则会影响承载在该PW上的业务,但其他PW承载的业务正常C. 可能原因:PW故障原因如下 LDP会话创建失败,PW创建不成功。 物理链路故障,LDP会话失效。 PW交叉建立失败。 PW所在的Tunnel故障。 PW APS保护倒换失败。 D. 操作步骤 LDP会话创建失败,PW创建不成功。 检查PW两端网元是否配置了LDP对等体。若未配置,需要重新配置LDP对等体。 检查PW两端参数是否配置正确。举例如下: “控制字使用策略”,是否一端配置为“必须使用”,另一端配置为“不使用”。 对Ethernet业务,两端的“MTU”是否配置一致。 对CES业务,两端的“RTP头”、“报文装载时间”等参数是否配置一致。 物理链路故障,LDP会话失效 检查PW首末节点间物理链路是否正常,系统中是否存在HARD_BAD、LASER_MOD_ERR、R_LOS或ETH_LOS等告警。 若存在,优先处理HARD_BAD、LASER_MOD_ERR、R_LOS或ETH_LOS告警。 查询并处理系统中存在的PW_DOWN、PW_DROPPKT_EXC或PW_EXC_TRAFFIC告警。 查看并处理系统中存在的下列告警。 MPLS_PW_BDIMPLS_PW_ExcessMPLS_PW_LOCVMPLS_PW_MISMATCHMPLS_PW_MISMERGEMPLS_PW_SDMPLS_PW_SFMPLS_PW_UNKNOWN- 检查对端设备是否存在单板故障或网元复位等异常状况。排除对端设备的异常情况。 PW交叉建立失败:查看PW所经过的网元或单板,确认已创建PW个数是否已经达到了最大值。如果是,需要重新规划或删除冗余的PW PW所在的Tunnel故障:Tunnel故障 PW APS保护倒换失败:查看并处理系统中存在的下列告警 PWAPS_LOSTPWAPS_PATH_MISMATCHPWAPS_SWITCH_FAILPWAPS_TYPE_MISMATCH4.4 CES业务故障处理本节介绍CES业务出现中断或误码等故障时的现象、对系统的影响、可能原因,排除该故障时需要的工具、注意事项以及处理步骤等。A. 故障现象:处理CES业务的故障时,通常会遇到以下故障现象,如下表所示。消除设备上报的告警后,故障也随之排除表 CES业务常见故障现象一览表现象上报告警单板CES业务中断HARD_BAD、TEMP_OVER、COMMUN_FAIL或BUS_ERRSCA、XCS或MP1T_ALOS、UP_E1AIS或DN_E1AISD75或D12R_LOS、LASER_MOD_ERR、LSR_WILL_DIE、IN_PWR_ABN、TEM_HA或LSR_BCM_ALMCD1MPLS_TUNNEL_LOCVEG16,EG8或EX2PW_DOWNEG16,EG8,EX2或MP1CES业务出现误码,通信质量下降HARD_BAD、TEMP_OVER或BUS_ERRSCA、XCS或MP1SYNC_C_LOS或LTIXCSLASER_MOD_ERR、LSR_WILL_DIE、IN_PWR_ABN、TEM_HA或LSR_BCM_ALMCD1CES_LOSPKT_EXC、CES_MISORDERPKT_EXC、CES_STRAYPKT_EXC、CES_JTRUDR_EXC或CES_JTROVR_EXCMD1、MQ1或CD1B. 故障处理流程图:CES业务故障处理流程图如下图所示。图CES业务故障处理流程图C. 对系统的影响:网络中CES业务中断或出现误码,通信会中断或质量下降。若故障由于SCA或XCS单板造成,则可能影响设备接入的其它业务。D. CES业务故障原因如下 单板硬件故障、温度过高或板间通信故障,无法正常工作。 处理板、接口板的接口接入的信号丢失或恶化。 承载CES业务的Tunnel或PW中断。 网元的同步时钟源级别丢失,或同步时钟源丢失。 承载CES业务的PW在单位时间内丢包数、错包数或抖动缓冲超过阈值。 E. 注意事项:严禁眼睛靠近或直视光接口或光纤接头。光接口及光纤内部的激光束会伤害眼睛。F. 操作步骤 单板硬件故障、温度过高或板间通信故障,无法正常工作 查询系统当前告警,是否有HARD_BAD、TEMP_OVER、COMMUN_FAIL或BUS_ERR告警,并确定上报告警的单板。 处理HARD_BAD、TEMP_OVER、COMMUN_FAIL或BUS_ERR告警,排除故障。 处理板、接口板的接口接入的信号丢失或恶化 查询系统是否有T_ALOS、UP_E1AIS或DN_E1AIS告警。 查询系统是否有R_LOS告警。 查询系统是否有LASER_MOD_ERR、LSR_WILL_DIE、IN_PWR_ABN、TEM_HA或LSR_BCM_ALM告警。 承载CES业务的Tunnel或PW中断 查询系统是否存在MPLS_TUNNEL_LOCV告警。 查询系统是否存在PW_DOWN告警。 网元的同步时钟源级别丢失,或同步时钟源丢失 查询系统是否有SYNC_C_LOS或LTI告警。 承载CES业务的PW在单位时间内丢包数、错包数或抖动缓冲超过阈值 查询系统是否有CES_LOSPKT_EXC、CES_MISORDERPKT_EXC或CES_STRAYPKT_EXC告警。 查询系统是否有CES_JTRUDR_EXC或CES_JTROVR_EXC告警。 4.5 以太网业务故障处理介绍以太网业务出现中断或丢包故障时的现象、对系统的影响、可能原因,排除该故障时需要的工具、注意事项以及处理步骤等。A. 故障现象:处理以太网业务的故障时,通常会遇到以下故障现象,如下表所示。消除设备上报的告警后,故障也随之排除。表 以太网业务常见故障现象一览表现象上报告警单板以太网业务中断HARD_BAD、TEMP_OVER、COMMUN_FAIL或BUS_ERRSCA、XCS、EG16、EG8或EX2ETH_LOS、ETH_AUTO_LINK_DOWN或MAC_FCS_EXCEG16、EX2、EG8、EFG4、ETFC、EFG2或EFF8R_LOSPOD41ETH_LINK_DOWNEG16、EG8、EFG4、EX2、EFG2或EFF8LOOP_ALMEG16、EG8、EFG4、EX2、ETFC、EFG2、EFF8或POD41ETH_EFM_LOOPBACKEG16、EG8、EFG4、EX2、ETFC、EFG2或EFF8LASER_SHUT或LSR_WILL_DIEEG16、EG8、EFG4、EX2、EFG2、EFF8或POD41以太网业务出现丢包或错包HARD_BAD、TEMP_OVER或BUS_ERRSCA、XCS、EG16、EG8或EX2LSR_WILL_DIEEG16、EG8、EFG4、EX2、EFG2、EFF8或POD41MAC_FCS_EXC或FLOW_OVEREG16、EG8、EFG4、EX2、ETFC、EFG2或EFF8ETH_CFM_UNEXPERIEG16、EG8或EX2B. 故障处理流程图以太网业务故障处理流程图如下图所示。图 以太网业务故障处理流程图 C. 对系统的影响:网络中以太网业务中断、出现丢包或错包,若故障由于SCA或XCS单板造成,则可能影响设备接入的其它业务。D. 以太网业务故障原因如下 单板硬件故障、温度过高或板间通信故障,无法正常工作。 接收信号丢失。 原因3:以太网网口连接错误,端口协商失败。 原因4:端口配置了环回。 接口流量限值配置过低,源宿两端接口配置不一致。 E. 工具、仪表和材料:U2000、光功率计F. 注意事项:严禁眼睛靠近或直视光接口或光纤接头。光接口及光纤内部的激光束会伤害眼睛。G. 操作步骤 单板硬件故障、温度过高或板间通信故障,无法正常工作。 查询系统当前告警,是否有HARD_BAD、TEMP_OVER、COMMUN_FAIL或BUS_ERR告警,并确定上报告警的单板。 接收信号丢失 查询系统是否有ETH_LOS或ETH_AUTO_LINK_DOWN告警。 查询系统是否有R_LOS告警。 查询系统是否有LASER_SHUT或LSR_WILL_DIE告警。 查询系统是否有MAC_FCS_EXC告警。 以太网网口连接错误,端口协商失败 查询系统是否有ETH_LINK_DOWN告警。 端口配置了环回 查询系统是否有LOOP_ALM告警。 查询系统是否有ETH_EFM_LOOPBACK告警。 接口流量限值配置过低,源宿两端接口配置不一致 查询系统是否有FLOW_OVER告警。 查询系统是否有ETH_CFM_UNEXPERI告警。 4.6 时钟故障处理本节介绍时钟源丢失、时钟信号劣化等故障时的现象、对系统的影响、可能原因,排除该故障时需要的工具、注意事项以及处理步骤等。A. 故障现象处理时钟故障时,通常会遇到以下故障现象,如下表所示。消除设备上报的告警后,故障也随之排除。表 时钟常见故障现象一览表现象上报告警单板业务出现误码SYNC_C_LOS、LTI、S1_SYN_CHANGE、SYN_BAD、EXT_SYNC_LOS、CLK_NO_TRACE_MODE或EXT_TIME_LOCXCSB. 对系统的影响网络中时钟源丢失或时钟源质量下降时,会影响跟踪该时钟源的业务的质量,产生指针调整和误码率增高。C. 造成时钟故障的原因如下 优先级表中业务板上的同步时钟源级别丢失。 同步时钟源丢失,网元的时钟处于不正常状态。 在SSM模式下时钟源发生倒换,网元跟踪的时钟源也发生了倒换。 同步时钟源的信号劣化。 外部时钟源丢失。 时钟进入非跟踪工作模式。 外部时间源丢失。 D. 注意事项:如果没有工作正常的备交叉板进行保护,硬复位交叉时钟板可能会引起业务完全中断。E. 操作步骤 优先级表中业务板上的同步时钟源级别丢失 查询系统是否有SYNC_C_LOS告警。 同步时钟源丢失,网元的时钟处于不正常状态 查询系统是否有LTI告警。 在SSM模式下时钟源发生倒换,网元跟踪的时钟源也发生了倒换 查询系统是否有S1_SYN_CHANGE告警。 同步时钟源的信号劣化 查询系统是否有SYN_BAD告警。 外部时钟源丢失 查询系统是否有EXT_SYNC_LOS告警。 时钟进入非跟踪工作模式 查询系统是否有CLK_NO_TRACE_MODE告警。 外部时间源丢失 查询系统是否有EXT_TIME_LOC告警。4.7 QoS故障处理本节介绍QoS出现故障时的现象、对系统的影响、可能原因、排除该故障时需要的工具、注意事项以及处理步骤等。A. 前提条件:配置了QoS策略的业务连接正常。B. 故障现象 业务已经配置了带宽,但实际业务流量超出限制,造成业务流量偏高,导致拥塞。 不同业务之间互相抢占带宽,被抢占带宽的业务丢包或误码。 业务优先级较低,但抢占了优先级较高的业务的带宽,造成高优先级的业务丢包或误码。 业务处理单板上报BUS_ERR告警,单板的业务处理能力受限。 QoS故障时,系统一般会上报以下告警,如下表所示。清除设备上报的告警,故障也随之排除。表 QoS常见故障现象一览表现象上报告警单板单板业务处理能力受限BUS_ERREG16,EX2,EG8或MP1业务流量偏高,出现拥塞FLOW_OVEREG16,EX2,EG8,EFG4,ETFC,EFG2或EFF8PW_EXC_TRAFFICEG16,EG8或EX2业务带宽被抢占,出现丢包或误码PW_DROPPKT_EXCEG16,EG8或EX2CES_LOSPKT_EXCMQ1,MD1或CD1CES_JTROVR_EXCCES_JTRUDR_EXCC. 故障处理流程图QoS故障处理流程图如下图所示。图 QoS故障处理流程图D. 对系统的影响 若单板的业务处理能力受限,部分业务可能得不到处理,会出现丢包或误码。 业务流量偏高时,端口可能拥塞,若其它业务带宽被抢占,可能会丢包或误码。 E. QoS故障原因如下 业务处理单板存在BUS_ERR告警,单板业务处理能力受限。 网元未配置QoS策略。 配置业务时选择了错误的QoS策略。 Tunnel或PW的配置带宽过低。 单板故障,配置数据未下达到单板。 F. 操作步骤 业务处理单板存在BUS_ERR告警,单板业务处理能力受限 检查系统是否存在BUS_ERR告警。 网元未配置QoS策略 检查网元是否配置了相关QoS策略,包括WRED策略,WFQ调度策略,端口策略,V-UNI Ingress策略,V-UNI Egress策略,PW策略,QinQ策略或ATM策略等。 若没有,重新配置遗漏的QoS策略。 配置业务时选择了错误的QoS策略 检查业务当前配置的QoS策略是否适用。若不适用,重新配置新的策略。 Tunnel或PW的配置带宽过低 检查Tunnel或PW当前配置带宽是否满足业务流量需求。若带宽配置过低,需要重新配置带宽。 单板故障,配置数据未下达到单板 检查系统是否存在HARD_BAD等硬件类告警。 检查系统是否存在LSR_WILL_DIE等激光器相关告警。 4.8 线性MSP故障处理本节介绍线性MSP出现倒换失败、业务中断等故障时的现象、对系统的影响、可能原因,排除该故障时需要的工具、注意事项以及处理步骤等。A. 故障现象处理线性MSP的故障时,通常会遇到以下故障现象,如下表所示。消除设备上报的告警后,故障也随之排除。表 线性MSP常见故障现象一览表现象上报告警单板保护通道中断HARD_BAD、BD_STATUS、R_LOS、R_LOF或MS_AIS保护通道的单板保护组失效LPS_UNI_BI_M、K1_K2_M或K2_MSCA保护通道业务出现误码B2_SD或B2_EXC保护通道的单板B. 故障处理流程图线性MSP故障处理流程图如下图所示。图 线性MSP故障处理流程图C. 对系统的影响网络中线性复用段不能保护,在应该发生保护倒换时,全网无法进入保护倒换状态或保护倒换状态错误。此时如果发生断纤或者发生其他故障,会导致业务中断。D. 线性MSP的故障原因如下 保护通道单板故障或单板离线,无法正常工作。 保护通道接收侧信号丢失或不可用。 线性复用段单双端模式不匹配。 K1、K2字节失配或K2字节失配。 保护通道接收信号中复用段B2信号劣化或误码过量。 E. 注意事项:严禁眼睛靠近或直视光接口或光纤接头。光接口及光纤内部的激光束会伤害眼睛。F. 操作步骤 保护通道单板故障或单板离线,无法正常工作 查询系统当前告警,是否有HARD_BAD或BD_STATUS告警,并确定上报告警的单板。 保护通道接收侧信号丢失或不可用 查询系统是否有R_LOS或R_LOF告警。 查询系统是否有MS_AIS告警。 线性复用段单双端模式不匹配 查询系统是否有LPS_UNI_BI_M告警。 K1、K2字节失配或K2字节失配 查询系统是否有K1_K2_M或K2_M告警. 保护通道接收信号中复用段B2信号劣化或误码过量 查询系统是否有B2_SD或B2_EXC告警。 4.9 TPS故障处理本节介绍TPS出现倒换、倒换失败等故障时的现象、对系统的影响、可能原因、排除该故障时需要的工具、注意事项以及处理步骤等。A. 故障现象处理TPS故障时,通常会遇到以下故障现象,如下表所示。消除设备上报的告警,故障也随之排除。表 T

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论