版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华为MSTP以太网故障处理指导书华为技术有限公司目录TOC\o"1-5"\h\z1说明3..2故障处理总流程3..2.1流程图32.2流程说明53MSTP故障处理思路及方法5.MSTP故障处理思路与方法5MSTP故障类似及原因6MSTP故障处理方法7对于以太链路完全中断的问题定位7对于以太链路持续存在丢包的问题定位94附件1..04.1各种业务开通时需要注意的事项104.2以太网性能门限的设置建议11告警列表12华为MSTP华为MSTP以太网故障处理指导书#1说明•目的本指导书是针对华为MSTP系统出现故障时的处理措施,其目的是指导维护人员尽快恢复设备的正常运行。使用对象OptiX系列SDH光传输设备MSTP系统维护人员。适用场合设备出现故障时,指导设备维护人员快速进行故障定位与排除。2故障处理总流程因掉电、断纤等外部原因,或操作不当以及设备软、硬件故障引起的SDH系统业务中断,维护人员可参照此流程快速定位故障,或及时寻求帮助,直到业务恢复。按照此流程处理业务中断或其它紧急问题时,需要注意以下几点:1)以尽快恢复业务为原则。2)应先分析故障现象,定位原因后再进行处理。在原因不明的情况下应避免盲目操作,导致问题扩大化。3)处理过程中遇到困难,及时联系华为公司以获取技术支持,并配合华为公司处理故障,最大程度减少业务中断时间。4)处理过程中一定要作好故障记录,保存好故障的原始数据。2.1流程图始是否是否否否是否障排除?是,结束外部原因?DH故障?,务恢复?障排除向华为公司反馈问题运行观察共同制定解决方案尝试解决填写问题处理报告分析故障原因进行斗故障定位记录故障现象其他处理流程MSTP故障处理思——路与方法——SDH故障处理流程处理问题图1.故障处理总流程2.2流程说明进行故障记录时,力求做到对故障发生的全过程进行真实、详细的记录。对于像故障发生的时间,在故障出现前后曾经做过哪些操作等重要信息都要进行详实地记录,同时对于网管中的告警信息,性能事件等重要数据也要进行保存。外部原因造成的故障,如电源问题、光缆问题、机房环境(温度等)、终端设备(交换机等)等,应及时进入其它相应处理流程。通过查询相关的告警和性能判断是否是SDH层面造成的故障,如果是SDH层面产生的故障,转SDH故障处理指导书进行处理。华为EFGS系列单板还提供测试帧功能,能够非常方便的确认SDH侧VCTRUNK的LINK状态是否正常,操作简单实用。如果是由于以太网层面故障,参照《MSTP处理思路及方法》进行处理。在解决问题时,对设备的操作应该严格按照操作规范进行,如必须佩戴防静电手带等。遇到困难无法排除故障时,拨打华为公司24小时问题受理电话:800-830-2118,以获取技术支持,并配合华为公司工程师处理故障。在业务恢复后,对运行情况进行观察,确认故障已经排除。在故障处理完后,应及时填写相关的处理报告。3MSTP故障处理思路及方法对OptiX系列SDH光传输设备MSTP系统来说,除了遵照故障处理流程外,还应尽可能采取其它的应急措施(如提供备用电路),减少业务中断时长。3.1MSTP故障处理思路与方法与SDH故障定位思路一样,以太网故障定位也遵循“先外部、再内部;先软件、再硬件;先单板、再系统”的原则,充分利用性能事件、环回、测试帧等技术手段,结合工具软件、测试仪表进行有计划有步骤的定位。首先需要对于事故做一下初步的定位,首先排除SDH层面的问题:通过查询相关的告警和性能,EFGS系列单板提供GFP测试帧验证VCTRUNK端口之间互通性;确认SDH层面没问题后,转入以太网层面的定位。环回当然是我们的法宝。与数据维护人员配合也是很重要的,一般多用PING和测试帧+环回手段来定位故障点。比如通过MSTP设备数据单板网口PING对端路由器或者交换机的IP地址,能够PING通基本证明我们这边正常,建议采用如下的格式PING包:pingxxx.xxx.xxx.xxx—I1000-t-11000代表是1000字节的包长,-t代表是持续ping包。可以变换多种包长,同时多开几个ping窗口试试。当然ping包正常也不能完全排除metro设备的问题,因为在端口工作模式不正确的时候,小流量的ping也是可以ping通的。它更多意义上是证明我们以太网链路的配置没问题,SDH层面也是没有问题的。我们的首先需要检查、确认SDH层的配置和通道没有问题,才能集中精力来排查以太网数据层面的问题。如业务配置是基于VLAN报文的业务或基于MPLS报文的业务,最好的手段就是通过数据分析仪来辅助定位问题,在不具备测试仪表的情况下,可通过“模拟发包”类的软件,利用计算机网卡仿真设备发送业务报文,协助定位问题。3.2MSTP故障类似及原因一般来说以太网板(这里以EFGS为例)的故障都分成两种类型:1)链路完全中断2)链路上持续存在丢包从目前来看可能造成故障的原因如下:
\故障可能:故障现\、象\支生以太链路完全中断业寸链路上持续存在丢包1「断中端口TAG属性(TAG/UNTAG)设置不当业务量大,配置带宽不够断2:E故物理层出现故障,表现为实际端口工故作模式不正确,或者端口某些参数异障常,或接口板故障,物理层寄存器被时随意改写等。带宽足够,但是业务突发比较大3,网线或者光纤出现故障业务量过大的时候,对端设备不响应流控首42先以太网业务配置数据丢失人单板设置的最大传输包长MTU小于实际设备的传输包长\5丿1查在某些情况下,出现网元指针调整的查情况下,ET1的些通道上报BIP-是OVER和TU-LOP,业务中断。更换否单板或者复位只能引起故障通道的转否移,但是不能完全解决问题。端口模式和对端设备不匹配,造成工作在异常状态6r「1有单板硬件故障、[网线或者光纤出现故障17「k下封装协议不匹配单板硬件故障81设GFP失步告警二层交换业务存在环路,且未启动生成树协议。备9‘告可匕GFP封装FCS校验出错告警□LCAS一些VC颗粒丢失,剩余VC颗粒绑定的带宽不足。10「,\lanid设置与数据设备未进行同步更改网络存在异常,如存在超量的广播报文11'些这因为大量丢包造成的业务中断。这种些情况转第二种故障类型处理3.3MSTP故障处理方法3.3.1对于以太链路完全中断的问题定位对于第一种链路完全中断故障类型,一般表现为对接的路由器和交换机接收不到任何报文,业务完全中断,完全无法PING通对端设备等等,主要检查以下几个部位:⑴端口TAG属性(TAG/UNTAG)设置不当该种故障出现概率较大,多发生在初开通业务时,MSTP设备的TAG属性设置和与其连接的数据设备设置不能相互配合,或MSTP设备未能与数据设备进行端口属性同步更改,导致业务中断。端口工作模式引起的故障物理层出现故障,表现为实际端口工作模式不正确,或者端口某些参数异常,或接口板故障,物理层寄存器被随意改写等。该问题出现的概率也比较多,主要通过查询物理层的相关寄存器来定位问题所在的部位。重点在网管上查询以太网口使能与工作模式。网线或者光纤出现故障这样的问题比较好判别,首先是确认一下ET1单板插网线的以太网接口是否有LINK灯亮(绿色),没有亮说明网线可能坏了,或者是交叉和公网线弄混了。(注意光接口板的指示灯在接口板内部);同时看看接口上另外一个指示灯(黄色)是否在亮,有亮说明有数据收发,没有则说明无数据收发。另外通过查询以太网实时性能,如果存在较多的CRC错误等异常错包,在首先排除端口工作模式问题的前提下,也可能是网线光纤存在问题。需重点查询VC通道捆绑情况在非LCAS状态下捆绑错或不一致也可致使业务中断。⑸端口的默认vlanid设置也不要放过如果ip端口设置了untag属性但是配置了vlan路由的业务类型,那么该ip端口的默认vlanid一定要和vlan路由中的vlanid一致,不然的话,这个小疏忽却能使业务中断的。对于EFGS单板的Hybrid端口的PVID设置也要注意两端设备的一致问题。以太网配置的静态路由错误或者丢失单板硬件故障一般都会有上报TU-AIS,TU-LOP等SDH层告警,现象比较好判断。封装协议不匹配对于EFGS系列单板,N1单板支持LAPS和GFP,N2只支持GFP,不同的封装协议是无法对接成功的。GFP帧失步或GFP封装FCS_ERROR可能GFP封装的参数设置不一致造成的问题,如N1的EFGS单板默认的GFP封装是“小字节序”而N2的单板默认值是“大字节序”(10)因为大量丢包造成的业务中断这种情况转第二种故障类型处理。3.3.2对于以太链路持续存在丢包的问题定位业务量大,配置带宽不够这种情况可以通过对对端的数据设备性能统计数据进行判别,一般对端设备可以接收到比较多而且持续的PAUSE帧。而且一般路由器都可以监控到实际流量(当然是IP层的,比ET1的二层流量要小),如果实际流量接近我们配置的带宽,也证明我们的带宽资源不足了。可以尝试多绑定几个2m来验证问题。带宽足够,但是业务突发比较大这种情况也是很常见的,但是比较难于判别。同样要通过分析一下对端设备的性能统计(我们自身的性能统计也可以查询作为参考)来得出结论,首先是流量,很可能平均流量远小于我们配置的带宽,但对端设备还是在时不时收到我们设备发出的PAUSE帧,证明对端过来的业务突发比较大,超过了我们能够容忍的限度。此时一是增加带宽,但是更主要的是要求对端的设备做一下流量整形,这样效果会好很多。可以通过查看性能数据来看出发生了什么问题:设置以太网性能监视,查询当前以太网性能数据。业务量过大的时候,对端设备不响应流控造成丢包由于华为MSTP设备使能流控,对端设备不响应流控,造成华为MSTP设备过快的发送无用的PAUSE帧,引起大量丢包。建议对于业务量较大的站点,要不和对端设备同时使能流控,要不同时都不使能,不要出现一方使能另一方不使能的情况。单板设置的最大传输包长MTU小于实际设备的传输包长这种情况不太常见,但是发生了也很难确认。首先我们ET1单板默认的传输包长是1522字节,可以设置到的最大包长是1980字节。这个问题一般需要和局方确认,并且通过性能事件查证是否有收到大于1522字节的数据包。端口模式和对端设备不匹配,造成工作在异常状态这种情况出现的非常普遍,多为两端对接,一端设置成100MFULL或者10MFULL(100M全双工或者10M全双工),一端设置成AUTO(自协商)。这种情况多半会导致AUTO一端被错误协商成100MHALF,引起工作模式不匹配。这种情况下小业务流量还是可以传输,但是数据量一大就会导致大量的碰撞和冲突包被检测到(可以通过性能统计查询到)。建议的设置原则是:对端是自协商我们就是自协商,对端是100MFULL我们就是100MFULL。(6)网线或者光纤出现故障。这样的问题比较好判别,首先是确认一下ET1单板插网线的以太网接口是否有LINK灯亮(绿色),没有亮说明网线可能坏了,或者是交叉和公网线弄混了。(注意光接口板的指示灯在接口板内部);同时看看接口上另外一个指示灯(黄色)是否在亮,有亮说明有数据收发,没有则说明无数据收发。另外通过查询以太网实时性能,如果存在较多的CRC错误等异常错包,在首先排除端口工作模式问题的前提下,也可能是网线光纤存在问题。(7)单板硬件故障。一般都会有上报TU-AIS,TU-LOP或BBE等SDH层告警或性能,现象比较好判断。(8)二层交换业务存在回路,而未启动生成树。一般在MSTP设备形态上是可以通过配置确保业务无环路存在的,单在某些特殊情况可能存在环路,例如人为的原因在以太接口上插环回电缆等。如该情况未启用生成树就会存在广播风暴消耗网络带宽资源。(9)网络存在异常,如存在超量的广播报文,占用大部分转发带宽,后果与广播风暴类似。4附件4.1各种业务开通时需要注意的事项a)确保网络物理链接,确认配置业务后无SDH部分相关告警,如存在告警一定进行排除;b)明确MSTP设备以太网单板对接的数据设备(包括计算机)的端口的工作模式:MSTP设备以太单板端口的工作模式设置需与数据设备端口属性相同,如都是自协商,都是100MFULL等。如果一端是自协商另一端是非自协商也存在非常大的隐患,两个FE电口一个配置为自协商另一端配置为100MFULL则协商的结果为100MHALF,原因是支持自协商的端口向对端发送协商信息,而对端无相应,自协商侧只能获知速率而无法确认双工状态,该自协商端口按最低配置进行工作表现形式为半双工状态。如果是FE或GE的光接口因物理信号编码形式的限制是不支持半双工模式,所以当一端自协商而另一端为100MFULL/1000MFULL时两个伙伴无法LINKUP。C)如果所采用以太网单板为光接口方式,要注意光口为多膜还是单膜接口,其接口方式与数据设备接口方式要对应,另外还应注意光接受灵敏度,过载光功率等的配合关系;d)正确设置MSTP设备以太网单板端口的TAG属性:一般情况数据设备的TRUNK端口与MSTP设备以太网TAGAWARE端口相连接,数据设备的ACCESS与MSTP设备的ACCESS端口相连接,数据设备的端口属性的定义与我司MSTP数据特性单板的端口属性略有不同,具体情况请参照产品说明书;e)如配置MSTP设备的基于PORT+VLAN的EPL/EVPL业务或EPLan/EVPLan业务,要注意VLANID的合理配置,数据设备与MSTP设备对接VLAN的划分都是通过静态手工配置的方式进行的,所以VLAN和业务的对应关系必须清晰准确,否则就会出现业务不通等问题。f)正确进行MTU设置,MSTP数据特性单板端口的MTU值设置,不小于与其对接的数据设备MTU,否则可能出现帧丢失或业务不通等问题;g)要确认一个网络基准,即如不考虑SDH部分与MSTP设备对接的两数据设备正常工作时所需的带宽时延等要求,这样才能合理配置VCTRUNK之间的绑定关系等4.2以太网性能门限的设置建议华为MSTP设备以太网性能的RMON统计都是基于RFC2819实现的,可设置其性能门限值,性能门限值的设定主要取决于“网络基准”即网络正常工作情况下可接受的丢包率等信息。根据不同的网络状态存在不同的设置策略,华为MSTP设备该功能默认为非使能状态。
4.3告警列表告警名称默认级别告警含义产生原因处理方法NO_BD_SOFT危急单板无软件(1)单板上没有加载软件1重新加载单板软件2重启单板TEMP_OVER主要工作温度过限(1)环境温度过高;(2)制冷设备故障;(3)单板故障1,确认环境温度是否合适。2,检查设备风扇系统工作是否正常。3,复位告警单板。LP_RFI次要低阶通道远端失效指示(1)对端站低阶通道接收失效这是一个相关性告警对端支路板存在HPREI告警,排除对端设备告警后,本站告警消失。LSR_NO_FITED危急激光器未安装(1)激光器未安装1检查激光器是否安装,是否插紧,接触良好,可进行插拔操作加以确认;2,检测环境温度是否过高,如过高请冷却环境温度;3,复位告警单板;W_R_FAIL主要写读单板芯片寄存器失败(1)单板故障;(2)时钟板故障1,复位告警单
告警名称默认级别告警含义产生原因处理方法板,确认告警是否消失2,复位系统交叉板。BD_STATUS主要单板不在位告警(1)单板未插;(2)单板插座已松动;(3)邮箱故障检查对应槽位是否正确插接单板;单板和背板接触是否良好;复位单板4,检查背板是否存在倒针现象HARD_BAD危急单板硬件损坏单板硬件损坏1,复位单板2,更换单板BIP_SD次要BIP信号劣化(1)BIP2误码过大确认SDH线路是否存在误码如线路不存在误码,则重启告警单板,观测告警是否消失3,更换告警单板BIP_OVER次要BIP误码过量(1)BIP2误码过大确认SDH线路是否存在误码如线路不存在
告警名称默认级别告警含义产生原因处理方法误码,则重启告警单板,观测告警是否消失3,更换告警单板FPGA_ABN主要FPGA状态异常FPGA状态异常1,2,复位单板更换单板COMMUN_FAIL主要通信失效告警通信失效告警1,如只有一个单板上报告警,首先复位该单板,观测告警是否消失2,如同时几块业务板上报告警,逐个拔出告警单板直到告警消失,以确认故障单板,对故障单板进行复位/替换,3,如单板替换后仍存在告警,尝试将告警单板更换物理槽位。ETH_LOS危急网口连接丢失告警网口连接丢失1,检查纤缆连接2,替换单板LOOP_ALM主要环回告警设定了线路侧的内环回或外环回1,取消环回后,告警自动消失FCS_ERR危急FCS校验出错告警封装协议一致但是协议,参数如是否扰码、是否取反等内容不一致首先确认TRUNKLINK两端封装协议及参数设置是否一致,如不一致请更改
告警名称默认级别告警含义产生原因处理方法2,3,重新下发单板接口参数配置确认交叉板状态是否异常B3_EXC_VC3主要VC3的B3误码越限VC3通道的误码超过设定的越限门限。1,观察网管上否有:如R_LOS,R_LOF,B1_EXCorB2_OVER等严重告警,首先排除这些严重告警,确认该告警是否也排除;2,检测环境问题是否越限,如越限请调整;3,更换线路板4,更换交叉板5,更换对端站点线路板6,更换对端站点交叉板B3_SD_VC3次要VC3的B3误码劣化VC3通道的误码超过设定的劣化门限。1,观察网管上否有:如R_LOS,R_LOF,B1_EXCorB2_OVER等严重
告警名称默认级别告警含义产生原因处理方法告警,首先排除这些严重告警,确认该告警是否也排除;2,检测环境问题是否越限,如越限请调整;3,更换线路板4,更换交叉板5,更换对端站点线路板6,更换对端站点交叉板ILL_MFI_VC12主要VC12级别的虚级连中成员的复帧指示失配虚级连延时过大,链路错误,会产生
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年货运安全培训课堂内容重点
- 2026年答题模板后勤上岗安全培训内容
- 2026年署期培训心得体会核心要点
- 新教师岗前培训效果总结报告
- 2025-2030财产保险行业市场深度分析及竞争格局与投资价值研究报告
- 设备维修安全锁定挂牌制度详解
- 2026上半年四川成都市温江区考核招聘副高级及以上职称教师7人备考题库附答案详解(b卷)
- 2026湖南永州江永县人民医院、中医医院招聘合同制聘用人员的3人备考题库及答案详解【典优】
- 2026年甘肃省酒泉市博物馆招聘工作人员备考题库带答案详解(新)
- 2026福建漳州港务集团有限公司应届毕业生春季招聘6人备考题库有完整答案详解
- GB/T 9641-2025硬质泡沫塑料拉伸性能的测定
- 金融专题党课
- 肿瘤科化疗药物护理培训指南
- GB/T 41780.4-2025物联网边缘计算第4部分:节点技术要求
- 电子产品结构设计与制造工艺教材
- 小家电安规知识培训课件
- 型钢基础知识培训课件
- 2025年国家国防科工局经济技术发展中心招聘考试真题(附答案)
- 2025年9月20日云南省直遴选笔试真题及解析
- 低压作业实操科目三安全隐患图片题库
- 2025年《一氧化碳中毒诊断与治疗指南》
评论
0/150
提交评论