EPON故障处理指导-200812.ppt_第1页
EPON故障处理指导-200812.ppt_第2页
EPON故障处理指导-200812.ppt_第3页
EPON故障处理指导-200812.ppt_第4页
EPON故障处理指导-200812.ppt_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Page 1,EPON故障处理,杭州办网络产品技术服务部,Page 2,目标,学习完此课程,您将会: 了解故障处理流程和方法 熟悉故障信息搜集 了解典型故障处理案例集,Page 3,第1章 故障处理流程和方法 第2章 EPON业务故障处理,Page 4,故障处理流程和方法,故障信息来源 故障处理流程 故障处理常用方法,Page 5,一、故障信息来源,用户或客户服务中心的故障申告。 日常维护或巡检中所发现的异常。 网管告警系统的告警输出。 对接设备维护人员的故障通告。,Page 6,二、故障处理流程,接到故障申告,收集并记录故障相关信息,能否判断故障范围和 类别,确定故障范围和类别,是否为重大紧

2、急 故障,定位故障原因,屏蔽隔离故障,排除故障,故障是否被排除?,记录故障处理过程及结果,联系华为公司800或技术支持人员,否,是,否,重大紧急故障处理流程,是,是,否,Page 7,故障处理流程,1、收集并记录故障信息在故障处理的初期收集各种相关信息,可以帮助定位故障原因,提高维护人员处理故障的效率。 2、确定故障范围和类别在获取故障信息以后,需要对故障现象进行分析,确定故障的范围和类别。 3、定位故障原因故障定位就是从众多可能原因中找出具体原因的过程。维护工程师使用各种方法分析、比较各种可能的故障原因,排除不可能的原因,最终确定故障发生的具体原因。,Page 8,故障处理流程,4、屏蔽/隔

3、离故障正确定位故障原因后,对故障进行屏蔽或隔离来恢复业务或避免故障范围扩大。 5、排除故障排除故障是指采取适当的措施清除故障、恢复设备正常运行的过程,如检修线路、更换部件、修改配置数据、复位单板等。 6、确认故障处理结果在完成故障排除的工作后,还需要根据故障影响的范围,对受影响的相关业务进行验证测试,来确认故障现象是否消失。 7、联系华为800技术支持 如果在故障处理过程中遇到难以解决的问题,需要联系华为800技术支持进行处理。,Page 9,收集并记录故障信息,信息收集的内容 故障发生时,需要第一时间收集故障信息。 主要收集以下故障信息: 故障发生的具体时间。 故障现象的详细描述。 设备的软

4、件版本。 故障后已采取的措施和结果。 问题的级别及希望解决的时间。,Page 10,确定故障范围和类别,确定故障的范围 确定故障的范围就是确定故障处理的方向,也就是说在什么地方、顺着什么思路去查找故障的具体原因。 确定是设备接入的所有用户出现故障还是部分用户出现故障: 如果是所有用户出现故障,进一步了解上端设备接入的其他设备或用户是否同时出现故障。 如果是部分用户出现故障,进一步了解: 故障用户的业务类型,其他业务是否出现故障。 故障用户与正常用户的业务单板是否相同。,Page 11,定位故障原因,故障定位就是从众多可能原因中找出具体原因的过程。维护工程师使用各种方法分析、比较各种可能的故障原

5、因,排除不可能的原因,最终确定故障发生的具体原因。 准确并快速的定位故障是故障处理过程中的重要环节: 有利于提高故障处理的效率。 有效避免盲目处理导致的故障扩大等人为事故。 为排除故障提供指导和参考。,Page 12,屏蔽/隔离故障,正确定位故障原因后,对故障进行屏蔽或隔离来恢复业务或避免故障范围扩大。 常用的故障屏蔽或隔离的方法有: 手动重启系统。 进行主备倒换。 采用迂回路由,隔离故障设备。 如果是某项功能故障,可以使用命令关闭该功能。 如果是单个用户业务故障,可以将故障影响的用户转移到正常的端口。,Page 13,排除故障,排除故障是指采取适当的措施清除故障、恢复设备正常运行的过程,如检

6、修线路、更换部件、修改配置数据、复位单板等。 屏蔽或隔离故障后,启动排除故障的工作。具体操作请参考各业务/功能故障处理操作指导。,Page 14,确认故障处理结果,在完成故障排除的工作后,还需要根据故障影响的范围,对受影响的相关业务进行验证测试,来确认故障现象是否消失。 要进行全面验证,保证故障现象完全消失且没有新的问题被引入。,Page 15,三、故障处理常用方法,告警分析 性能分析 分段处理 仪表测试 对比分析 互换分析 配置数据分析 协议分析,Page 16,告警分析,通过分析告警,可以定位故障的具体部位或原因,也可以配合其他方法定位故障原因。 告警信息是指EPON设备告警系统输出的信息

7、,通常以屏幕输出的形式提供给维护人员,具有简单、明了的特点。 告警信息涉及硬件、链路、业务等各个方面,信息量大且全,是进行故障分析和定位的重要依据之一。 告警信息包含以下内容: 告警的描述 告警发生的位置 告警发生的可能原因 告警的修复建议,Page 17,性能分析,通过MA5680T提供的性能统计手段,对发生故障的业务进行性能指标的分析,定位故障原因。 多种故障的定位过程中都需要了解系统性能统计信息。针对不同的故障类别,需要查看不同的统计信息,这要求维护人员: 熟悉系统的结构和运行机制。 了解系统能够提供哪些统计信息。 了解如何查看、分析统计信息,Page 18,分段处理,在故障现象复杂,可

8、能涉及到多个环节时,使用分段处理的方法逐个排除正常的环节,最终定位故障。 对进行分段处理工作的工程师有以下要求: 对MA5680T的系统结构和原理有深入的了解。 对可能导致业务故障的各个环节全面了解。 熟悉设备组网。 熟练使用测试仪器。,Page 19,仪表测试,仪表测试法是指使用各种仪器、仪表取得实际的各种性能参数,对照理论的参数值来定位和排除故障。 仪器、仪表以直观、量化的数据直接反映设备运行状态,在故障处理过程中有着不可替代的作用。 常用的仪器、仪表包括: 万用表 光功率计 示波器 可调光衰减器 线路测试仪,Page 20,对比分析,对比分析是指将故障的部件或现象与正常的部件或现象进行比

9、较分析,通过找出不同点来定位故障。 对比分析适用于故障单一的场合。,Page 21,互换分析,在更换备件后仍不能定位故障时,使用互换分析法定位和排除故障。 互换是指将处于正常状态的部件(如单板、光纤等)与可能故障的部件对调,在以下情况下使用: 在更换备件后,仍然不能确定故障的范围或故障点时使用。 通过比较对调后二者运行状况的变化,确定故障的范围或故障点。 适用于故障复杂的场合。,Page 22,配置数据分析,配置数据分析是指通过分析设备的配置数据来定位问题,在新开局点或更改配置后应推荐使用此分析方法。 数据配置错误或更改是引起故障的重要原因之一,配置数据分析是故障定位不可缺少的一个方法。 例如

10、:一台MA5680T下所有用户无法收看组播节目,通过检查配置数据发现:组播源设置的TTL值太小,导致组播数据在MA5680T上转发时,由于TTL值等于0而被丢弃。,Page 23,协议分析,协议分析是指通过信令跟踪、捕获数据包等手段对故障进行分析的方法。 协议分析用于当EPON设备和上层设备的对接出现问题时定位和排除故障。 协议分析要求维护工程师对协议有深入的了解,掌握各种协议报文的交互流程,从而能够从获得的报文中定位故障。 例如:某用户不能点播组播节目,通过抓包分析后发现,BRAS丢弃了该用户发出的IGMP报文。,Page 24,小结,本章主要介绍了 故障处理的一般步骤和常用方法,小结,Pa

11、ge 25,第1章 故障处理流程和方法 第2章 EPON业务故障处理,Page 26,故障处理流程,开始,初步定位故障位置、影响范围,检查设备告警、光纤状况,检查ONT状态,检查设备运行状况(MA5680T),检查端口信息,抓包或跟踪信令分析,结束,检查设备数据配置,检查端口业务状态,检查端口物理状态、测试端口,检查上层设备配置和状态,检查设备统计信息,Page 27,初步定位故障位置、影响范围,个别端口用户无法上网或通话: 用户终端或者线路故障。 EPON端口故障。 数据配置问题。 整板用户无法上网或通话: EPON单板故障。 数据配置问题。 整框用户无法上网或通话: 光路问题。 主控板或者

12、是上行单板故障。 网络攻击。 BRAS设备下的所有用户无法上网或通话: 上行设备问题。,Page 28,检查设备告警和光纤状况,通过检查设备告警和光纤状况排除故障(需要外线人员配合) 主要检查: 设备上是否有设备单板故障、断电、光路断纤、光路质量告警、接口中断等其他告警。 例: Physical sublayer code error over the threshold /物理层误码超过阀值 The ONU is in down state /若同时没有该ONU 断电告警,则为断纤告警 ONU local dying gasp /ONU 断电告警,同时有onu down告警 光纤是否插好,光

13、纤是否弯曲严重。 平均发送光功率是否正常。,接收光灵敏度是否正常。,Page 29,检查ONT状态 (需要外线人员配合),Power(主电源指示灯) 常亮表明电源供电正常。 熄灭 请检查电源连接是否正确。 请检查电源适配器是否匹配。 如果电源正常,所有指示灯都熄灭,请更换ONT。,Page 30,检查ONT状态(需要外线人员配合),AUTH(EPON注册指示灯) 常亮设备认证成功。 熄灭设备认证失败。 检查MA5680T上是否添加了该ONT。 检查配置的ONT的MAC地址与ONT实际MAC地址是否一致。 LINK (EPON链路指示灯) 亮PON端口链路状态正常。 熄灭检查光纤是否插好(插得太

14、紧或太松都会有问题)。,Page 31,检查ONT状态(需要外线人员配合),LAN灯 常亮以太网端口的链路正常。 熄灭以太网端口的链路故障。 检查以太网端口的物理连接是否正常。 检查与以太网端口连接的物理设备是否正常。,Page 32,在线查询ONT状态,MA5680T(config)#display board 0/18 /查看单板下ONT - F/S/P ONT-ID MAC Control Run Config Match Loopback Flag State State State State - 0/18/0 0 0018-8265-062A active up normal ma

15、tch disable 0/18/0 10 0073-073B-F267 active down initial initial disable -,Page 33,在线查询ONT状态,如果“Control Flag”为激活态,且“Run state”为up,说明ONT正常,用户上线且认证通过。 如果“Control Flag”为去激活态,ONT进行注册时被禁止,需要在EPON模式下使用ont activate命令激活控制开关。 如果“Control Flag”为激活态,而“Run State”为down,则说明用户未上线。 如果ONT的“MAC”与实际的ONT不一致,会导致注册失败。 如果“

16、Config State”为“Normal”状态,说明ONT配置恢复状态正常。 如果“Config State”为“Failed”状态,说明ONT配置恢复失败。有可能是ONT绑定了错误的ONT模板,并对ONT进行了不支持的配置。可使用display ont capability命令查询ONT的实际能力,并重新绑定相匹配的模板。 如果“Match State”为“Mathch”状态,说明ONT配置的能力集模板匹配。 如果“Match State”为“initial”状态,说明ONT实际能力与能力集模板的配置一致时,进入配置恢复阶段的“初始态”。 如果“Match State”为“mismatch

17、”状态,说明ONT配置的能力集模板匹配失败。,Page 34,检查设备运行状态,操作步骤 1、检查主控板的运行灯状态。 正常情况下:RUN ALM绿灯1s亮1s灭,周期闪烁,ACT灯常亮。 如果出现异常,请检查主控板是否接触良好。 2、检查业务板的运行灯状态。 正常情况下:RUN ALM绿灯1s亮1s灭,周期闪烁。 如果出现异常,请检查业务板是否接触良好。 3、检查PON接口灯状态。 正常情况下:ONT在线时,PON接口的绿灯常亮 。 如果出现PON口灯不亮,请检查光口激光器是否打开。如果被关闭,在EPON模式下,使用port laser-switch on命令打开。,Page 35,检查设备

18、数据配置,操作步骤 1、检查ONT绑定的DBA和能力集模板。 A、使用display ont info命令检查ONT所绑定的DBA模板。 B、使用display DBA-profile all命令检查DBA模板的相关信息,确认绑定的DBA模板是否满足需求。如果不满足,可以使用ont modify命令为ONT绑定合适的DBA模板。 2、检查业务流配置是否正确。 A、使用display service-port命令查询业务虚端口配置是否正确。如果不正确,请重新进行配置。 B、使用display ont port vlan命令查询ONT的端口VLAN配置是否与业务流对应。 如果是用户侧为untagg

19、ed方式的业务数据,应该使用ont port vlan命令将ONT端口加入到业务VLAN,使用ont port native-vlan命令配置端口的Native VLAN与上行VLAN相同。 如果是用户侧VLAN为tagged 方式的业务流,应该使用ont port vlan命令将ONT端口加入到用户侧VLAN中。 3、检查VLAN中是否加入了上行口。 使用display vlan命令检查是否为业务VLAN增加了上行口。如果没有增加请使用port vlan命令为该VLAN增加上行口。 4、检查语音业务数据配置是否正确。,Page 36,检查端口业务状态,操作方法: 1、检查H248接口状态:M

20、A5620E(config)#display if-h248 all / 检查接口是否正常 MGID TransMode State MGPort MGIP MGCPort MGCIP/DomainName 0 UDP Normal 2944 10.168.104.137 2944 10.175.255.2 2、检查端口业务状态:MA5620E(config)#display pstn state 0/2 /检查端口是否启动服务 F /S /P PTPSrvState PTPAdmState CTPSrvState CTPAdmState LineState 0 /2 /1 Normal No

21、Loop, NoTest Idle StartSvc Normal 3、在软交换上检查用户注册状态:dsp epst,Page 37,检查端口物理状态 、测试端口,操作方法: 1、检查端口物理状态:MA5620E(config)#display board 0/1 /判断端口物理状态及线缆连接 Port Port Optic MDI Speed Duplex Flow- Active Link Type Status (Mbps) Ctrl State FE - auto auto auto off active offline 2、测试端口内外线:MA5620E(config)#test /

22、进入测试模式 MA5620E(config-test)#pots circuit-test 0/2/1 /内线自诊断测试,判断电压、电流、频率是否正常 MA5620E(config-test)# pots loop-line-test 0/2/1 /外线测试,判断外线是否连接正常 定性结论 正常,Page 38,检查端口信息,操作方法: 1、检查端口MAC地址学习情况,是否学习到用户MAC或有异常MAC: MA5620E(config)#display mac-address port 0/1/1 2、检查端口流量信息: MA5620E(config)#interface epf 0/1 MA

23、5620E(config-if-epf-0/1)#display port traffic 1,Page 39,抓包或信令跟综,操作方法: 1、对于ONT的语音和宽带故障,可以对MA5620 PON口或在MA5680T与上级设备级联口,做镜向抓包 MA5620 PON口镜向抓包方法: MA5620E(config)# mirror port 0/0/1 (源端口:PON口) 0/1/1(目的端口:FE口) all (流向) 2、使用dbwin在MA5620E设备上跟踪信令步骤如下:MA5620E(config)#diagnoseMA5620E(diagnose)%suChallenge:TMC

24、E59ACPleaseinputpassword:/使用密码生成工具生成动态密码MA5620E(su)%dbwinenableMA5620E(su)%dbwinprint0 x9d11MA5620E(su)%dbwinsend0 x9d11 完成以上操作后可以在设备上直接看到信令交互流程。使用后要注意关闭dbwin开关,关闭方法如下:MA5620E(su)%dbwinprint0 x9d10MA5620E(su)%dbwinsend0 x9d10MA5620E(su)%dbwindisable 3、在软交换上做信令跟踪,定位语音故障,Page 40,检查设备统计信息,1、使用display p

25、ort statistics命令查询上行口的流量统计信息。 主要检查: 端口的发送、接收帧计数是否在增加,从而确定以太网端口在收发方向是否正常工作。 是否有帧丢弃计数。如果有,可能是端口设置了流量抑制,或者对接设备发送的流量超过了端口的能力。 是否出现了CRC错误计数,如果计数不断增加,应如下处理: 光口:检查光纤是否松动、两端光模块是否匹配(模块类型是否匹配、波长是否匹配、传输距离是否匹配)。 电口:检查两端端口协商是否一致,网线和单板硬件是否正常(请更换以太网板检查是否正常)。,Page 41,检查设备统计信息,2、使用display port statistic命令查询EPON端口的性能

26、统计信息。 统计信息中包括了端口收发数据的详细信息,通过这些信息可以判断端口是否正常工作。 主要检查: PON端口的发送、接收帧和字节计数是否在增加,从而确定以太网端口在收发方向是否正常工作。 系统端口的发送、接收帧和字节计数是否在增加,从而确定以太网端口在收发方向是否正常工作。 是否有错误的帧和字节计数。如果有,可能是端口设置了流量抑制,或者对接设备发送的流量超过了端口的能力。,Page 42,检查设备统计信息,3、使用display ont statistic命令查询ONT的性能统计信息。 统计信息中包括了端口收发数据的详细信息,通过这些信息可以判断端口是否正常工作。 主要检查: ONT端

27、口的发送、接收帧和字节计数是否在增加,从而确定以太网端口在收发方向是否正常工作。 是否有错误的帧和字节计数。如果有,可能是端口设置了流量抑制,或者对接设备发送的流量超过了端口的能力。,Page 43,检查上层设备状态,当存在大量EPON设备业务发生故障时,就需要通过检查上层设备状态排除故障。 如果MA5680T及所接终端业务都正常,则问题可能出在上层设备,请检查上层设备的运行状态、数据配置。需客户维护人员协助处理。,Page 44,常见故障分类和原因分析,ONT不能正常注册 ONT光口不正常。 连接ONT的光纤故障。 ONT侧的光功率不在正常范围内。 没有添加ONT。 OLT端口配置的逻辑最远

28、距离与实际不一致。 OLT端口没有使能自动发现开关。 添加ONT时配置的MAC与ONT实际的MAC不一致。 添加ONT时配置的Password与ONT实际的Password不一致。 OLT上已经存在相同MAC的ONT。,Page 45,常见故障分类和原因分析,打不通电话 ONT相关的service-port数据配置不正确。 ONT没有正常注册到MGC设备。 ONT语音业务配置不正确。 用户线缆线连接不正常。 ONT终端语音文件未加载。 软交换未放号或配置错误。,Page 46,典型案例HG850E由于拨号规则缺少导致无法拨打10060或10000客服热线,故障现象 HG850E的POTS用户拨

29、打其他电话都正常,但无法拨打10060或10000客服热线,提示“无法拨打该号 故障分析 由于HG850E是SIP终端,拨号规则由HG850E来设定,故障局点的拨号规则如下:28XXXXXXX|013XXXXXXXXX|015XXXXXXXXX|13XXXXXXXXX|15XXXXXXXXX|010XXXXXXXX|02XXXXXXXXX|03-9XXXXXXXXXX|9XXXX|201|101246-9X|*#+X0-9*+#|0-90-9+#|X+T|*XX|*#9X显然,在拨号规则中缺少100XX字段,因此无法拨号; 操作步骤 1、在HG850E的拨号规则中添加需要拨打的号码规则如:10

30、0 xx,如下:2-8XXXXXXX|01XXXXXXXXXX|015XXXXXXXXX|1XXXXXXXXXX|15XXXXXXXXX|010XXXXXXXX|02XXXXXXXXX|100 xx|03-9XXXXXXXXXX|9XXXX|201|101246-9X|*#+X0-9*+#|0-90-9+#|X+T|*XX|*#9X 2、再次拨号,正常,Page 47,典型案例-OUI设置错误导致ONT注册不上,故障现象 添加ONT后,ONT配置及匹配状态一直为“initial”,无法正常注册。同时上报以下告警:! EVENT MAJOR 2007-12-27 11:40:57 ALARM N

31、AME :ONU can not supported EXTEND-CTC PARAMETERS :FrameID: 0, SlotID: 1, PortID: 1, ONUID: 0 操作步骤 1、更换ONT,问题依然存在。 2、使用离线增加ONT和自动发现后确认ONT的方法增加ONT,问题依然存在。 3、检查ONT能力集模板配置,没有发现问题。 4、检查OLT设备OUI配置,发现OUI为“0 x000000”。使用epon oui命令将OUI修改为“0 x111111”,问题解决。 总结 OUI为运营商标识,中国电信为“0 x111111”。MA5680T旧版本不进行标识验证,新版本增加了

32、此功能,如果验证不通过,将一直处于“initial”状态。,Page 48,典型案例-B线地气导致MA5620E下带语音用户摘机无音,故障现象 MA5620E的部分语音用户经常摘机无音。更换一个端口可以正常几分钟,然后又摘机无音。 原因分析: 1、没有加载语音文件包。 2、端口硬件故障。 3、外线问题。 操作步骤 1、由于只是部分语音用户有摘机无音的现象,所以肯定是有语音文件包的。 2、怀疑端口故障。和正常用户互换端口,几分钟后故障重现,仍然是摘机无音。排除端口问题。 3、故障时查看端口状态是“本地阻塞”。“本地阻塞”状态一般是由于端口故障、外线问题或对端口做了endservice操作导致。和

33、客户确认没有做过endservice操作,所以怀疑是外线问题导致摘机无音。 4、对故障用户所在端口进行外线测试,显示结果是“B线地气”,说明B线对地绝缘电阻值20k或有可能直接接地。检查用户侧外线,发现线缆破损,部分内芯裸露在外面,更换线缆后再次测试没有问题,用户可以正常通话。,Page 49,典型案例-由于上层交换机环路导致MA5606T下带语音业务不通,故障现象 组网:汇聚交换机MA5680TMA5606T 问题现象:MA5606T下带语音业务主叫摘机拨完号后大概1秒就忙音,做被叫也是忙音。可以听到拨号音。 操作步骤 1、软交换侧配置相同,但是其它局点没有问题,故障局点的2台MA5606T

34、出现故障。 2、检查数图及MA5606T上的长定时器时间也没有问题。 3、在软交换侧和5606T侧同时跟踪信令。发现软交换侧发了一个请求报文,一秒之内ONU侧回了几百个回复报文,而5606T上发现一秒内收到软交换侧的几百个请求报文,同时也在一秒内回复了几百个回复报文。 4、分析信令怀疑设备受到攻击或上层设备有环路。检查MA5680T上层的汇聚交换机发现有2个端口连接到一台设备导致成环路。解开环路后再次跟踪信令发现报文交互正常,语音业务恢复。,Page 50,典型案例-PON口模式不正确导致配置QINQ vlan时提示错误,故障现象 在MA5680T上配置QINQvlan,配置server-port时提示失败,失败原因为:同一ONT上不同属性的多业务流不能共存。 告警信息: MA5680T(config)#service-portvlan2999epon0/1/0ont0multi-serviceuser-vlan2999Failure:Multi-serviceflowswithdifferentvlanattributecannotbeconfigu

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论