光网络SDH产品常见故障处理方法_第1页
光网络SDH产品常见故障处理方法_第2页
光网络SDH产品常见故障处理方法_第3页
光网络SDH产品常见故障处理方法_第4页
光网络SDH产品常见故障处理方法_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

光网络SDH产品常见故障处理方法Page2前言基于SDH原理,给融合工程师提供一些故障处理的思路Page3内容介绍一、故障场景和处理思路二、关键操作指导Page4一、故障场景和处理思路业务故障场景一:发生复用段倒换,倒换方向业务全部中断,上报APSFAIL、AIS等告警影响范围、程度:保护倒换方向的业务全部中断最有可能原因和措施:常见原因一:复用段相关参数设置不正确或者复用段协议未正常启动,复用段倒换失败应急措施:停启复用段协议。常见原因二:网络线路存在误码,导致K字节误码产生,复用段倒换失败应急措施:对复用段进行强制倒换。常见原因三:新旧复用段协议设置不一致,复用段倒换失败应急措施:重新配置复用段参数,启动复用段协议。常见原因四:单板硬件故障(如主控板、线路板),复用段倒换失败应急措施:复位故障单板或停止复用段协议后更改中断业务路由。Page5一、故障场景和处理思路业务故障场景二:发生复用段倒换,部分倒换业务中断,出现APSINDI、AIS等告警影响范围、程度:保护倒换方向的业务部分中断最有可能原因和措施:常见原因一:备用通道高阶业务的开销穿通模式或开销字节值设置不正确。应急措施:参考主用通道的开销字节穿通模式及开销字节值,正确进行备用通道开销设置常见原因二:备用通道或者总线故障应急措施:将业务调到其它空闲的时隙上面Page6一、故障场景和处理思路业务故障场景三:1+1线性复用段倒换后业务中断,出现AIS等告警影响范围、程度:倒换后部分业务中断最有可能原因和措施:常见原因一:1+1线性复用段没配置双发业务应急措施:对1+1线性复用段配置双发业务常见原因二:备用通道故障应急措施:将业务调到其它空闲的时隙上面常见原因三:与其他厂家设备对接,保护倒换模式设置不正确应急措施:确认保护倒换模式与对接设备匹配,强制倒换到备用通道Page7一、故障场景和处理思路业务故障场景四:PP环倒换后部分业务中断,出现TUAIS等告警影响范围、程度:PP环里面部分业务中断最有可能原因和措施:常见原因一:支路单板端口保护属性未设置为“保护”应急措施:将相应端口保护属性设置为“保护”常见原因二:PP环备用通道未配置穿通业务应急措施:在备用通道配置穿通业务常见原因三:支路单板未添加到保护组里(4.0平台)下发配置,将支路板添加到PP保护组里Page8一、故障场景和处理思路业务故障场景五:SNCP倒换后部分业务中断影响范围、程度:部分业务中断最有可能原因和措施:常见原因一:SNCP检测点丢失应急措施:新增一条测试业务校验下发常见原因二:更换主控板后,新主控板上的业务ID和交叉板上原来保存的不一致应急措施:进行全量配置数据下发常见原因三:备用通道开销穿通模式或开销字节值设置不正确应急措施:参考主用通道开销字节的设置情况设置备用通道的开销字节常见原因四:交叉板故障应急措施:进行主备交叉板倒换常见原因五:复杂组网SNCP业务配置不正确或SNCP业务未配置双发应急措施:分析倒换后业务路径,重新配置正确的SNCP业务其它请参考PP环倒换后业务中断的处理措施Page9一、故障场景和处理思路业务故障场景六:支路单板上报硬件故障告警,但TPS未发生倒换,业务中断,出现COMMUNFAIL、WRFAIL、TUAIS等告警影响范围、程度:经过该故障单板的全部或部分业务中断最有可能原因和措施:常见原因一:未配置TPS保护组,TPS保护组未启动应急措施:正确配置TPS保护组,并启动TPS保护常见原因二:TPS倒换控制单板故障应急措施:更换倒换控制单板,强制保护倒换Page10一、故障场景和处理思路业务故障场景七:主交叉板上报硬件告警,但未发生交叉主备倒换,本站或者下游站点业务中断,出现HARDBAD、SYNBAD、COMMUNFAIL、WRFAIL等告警中一个或多个影响范围、程度:经过该交叉板的部分业务中断最有可能原因和措施:常见原因一:主备交叉板之间交互通信存在问题应急措施:进行主备交叉强制倒换,或拔掉主板触发交叉主备倒换常见原因二:母板总线故障应急措施:进行主备交叉强制倒换,或拔掉主板触发交叉主备倒换Page11一、故障场景和处理思路业务故障场景八:设备掉电重启后经过该站的业务中断影响范围、程度:经过该网元的部分或者全部业务中断最有可能原因和措施:常见原因一:主机刚配置数据而在将数据备份到FDB里面前,设备掉电重启,没备份的相关业务中断应急措施:通过网管下载数据恢复或通过命令行重新配置相关数据。常见原因二:掉电重启过程中导致数据库损坏应急措施:删除所有数据库后再重新全量下载数据。常见原因三:主控故障,不能正常开工应急措施:插拔或更换主控板,重新下发配置文件。Page12一、故障场景和处理思路业务故障场景九:设备子架掉电,并且不能重新上电,该站上下的业务全部中断影响范围、程度:单站上下的业务全部中断最有可能原因和措施:常见原因一:电源盒开关保险丝熔断应急措施:断电外部电源后更换上好的保险丝Page13一、故障场景和处理思路业务故障场景十:单站上下的部分或全部业务中断,检查网元处于安装态,上报INSTALL告警影响范围、程度:单站上下的部分或全部业务中断最有可能原因和措施:常见原因一:网元异常进入安装态后某些单板复位,这些单板上的业务将会被清空应急措施:通过网管全量下发该网元的配置数据常见原因二:短时间内频繁、大量下发配置和校验操作,导致交叉等单板复位,业务配置丢失应急措施:单板正常开工后,通过网管全量下发该网元的配置数据。Page14一、故障场景和处理思路业务故障场景十一:网管上大量网元脱管或部分网元反复脱管,业务无法监控影响范围、程度:部分网元主机复位,影响MSP正常运行最有可能原因和措施:常见原因一:一个网关下所带的网元过多,网络产生ECC风暴应急措施:通过关闭ECC通道,划分多个ECC子网常见原因二:网络中存在网元ID相同的网元,使得网络ECC路由表不断调整而产生ECC风暴应急措施:修改网元ID,或通过ECC划分,使相同ID的两个网元不在一个ECC网络里面常见原因三:传输设备与其他设备公用HUB,连接外网,DCN配置不合理等,使得网络ECC路由表不断调整而产生ECC风暴

应急措施:断开HUB上与其他设备或外网连接的网线,修改DCN网络的配置Page15一、故障场景和处理思路业务故障场景十二:部分业务中断,网络中存在大量误码相关事件和大量的指针调整事件影响范围、程度:对误码和时钟精度较敏感的业务中断最有可能原因和措施:常见原因一:时钟配置错误,网络当前跟踪时钟成环应急措施:断开某个网元的某个跟踪时钟源,使得当前跟踪的时钟为链型组网常见原因二:网络的外部时钟源性能劣化应急措施:强制使得跟踪外部时钟源的网元跟踪自己内部时钟常见原因三:本站或上游站点时钟模块故障应急措施:进行时钟板主备倒换Page16一、故障场景和处理思路业务故障场景十三:部分业务中断,网络中除了LPRDI告警外,无其它告警影响范围、程度:部分业务中断最有可能原因和措施:常见原因一:SD525、SD522芯片故障应急措施:通过路径去激活/激活这些业务常见原因二:某些通道硬件故障应急措施:将这些业务调换一些端口Page17一、故障场景和处理思路业务故障场景十四:本站两端的网元同时上报LOF、LOM、AUAIS、B3等高阶告警影响范围、程度:经过本站的部分或全部业务中断最有可能原因和措施:常见原因一:本站交叉或时钟模块故障应急措施:如果支持主备倒换,则进行交叉/时钟主备倒换,否则直接更换A站时钟单板或交叉板Page18一、故障场景和处理思路业务故障场景十五:网元上报HP-LOM告警影响范围、程度:本网元和经过该网元的部分VC4业务中断最有可能原因和措施:常见原因一:本站设备线路板硬件故障应急措施:对相关故障业务进行调动,更换单板常见原因二:上游站点设备交叉板硬件故障应急措施:对相关故障业务进行调动,更换单板Page19一、故障场景和处理思路业务故障场景十六:网元上报开销失配告警(SLM/UNEQ/TIM),相关业务中断影响范围、程度:相关业务中断最有可能原因和措施:常见原因一:修改了网元默认的开销字节,网管进行下载时没将修改后的开销字节下发到网元应急措施:在网管上面重新设置开销字节值和开销的穿通模式常见原因二:网元发生保护倒换后,备用通道开销字节的值与穿通模式与主用通道的不一致应急措施:参考主用通道的设置,一一设置备用通道的开销字节值和穿通模式常见原因三:与交换、基站等设备对接,开销字节设置错误应急措施:查询实收到开销字节,并将开销字节的应收/应发设置与实收一致Page20一、故障场景和处理思路业务故障场景十七:某块支路、线路单板承载的业务全部中断影响范围、程度:经过该单板的业务中断最有可能原因和措施:常见原因一:硬件故障应急措施:尝试先通过硬复位该单板看是否能恢复,不行就直接更换该单板Page21二、关键操作指导关键操作一:确认业务中断网元和路径操作预期时长:10~20分钟操作内容简述:通过告警、路径管理、向用户确认等方式,确认哪些业务中断适合解决的问题:所有业务中断问题关键操作步骤和结果:1、使用网管执行“告警同步”2、浏览当前告警,从当前告警中找出影响业务的告警,如AU_AIS、TU_AIS、UNEQ、RDI、误码过量等3、记住上述故障业务所经过的支路板及端口信息,在主视图里面双击该网元再选择该支路板,点击“查询相关路径”,记下这些故障业务所经过的路径4、向用户确认第3步找到的路径是否为中断的业务5、对所有中断业务所经过的路径进行分析,找出其路径中的共同经过点6、使用环回法、替换法的定位故障网元、故障单板Page22二、关键操作指导关键操作二:调整业务操作预期时长:5分钟/条操作内容简述:首先确认有哪些空闲的时隙资源和迂回路径,删除故障路径,释放源宿端口资源,然后再增加一条新的业务路径适合解决的问题:单条或者少量业务中断关键操作步骤和结果:1、通过网管确认哪些业务故障,在路径视图里面找出这些业务路径2、找出网络里面还存在哪些空闲的端口和时隙资源3、通过路径去激活、再删除整条业务路径4、将业务调整到之前找出的空闲资源上面Page23二、关键操作指导关键操作三:通过网管进行配置数据下载操作预期时长:5~10分钟操作内容简述:确认业务,下载数据,备份数据适合解决的问题:业务大面积中断,例如网元处于安装态时业务中断、网元复位或掉电重启后业务中断、更换主控后SNCP检测点数据不一致、SNCP检测点数据丢失关键操作步骤和结果:1、首先确认现在网管里面的数据是否为最新的网元配置数据(准备工作),网元主控板是否处于保护状态,是否持续复位、网元是否脱管、网络ECC是否正常、网元登陆是否正常2、通过网管进行网元的配置数据下载3、下载成功后确认业务是否全部恢复4、业务恢复后进行网元数据库备份Page24二、关键操作指导关键操作四:复用段强制倒换操作预期时长:5-10分钟操作内容简述:确认业务及复用段协议状态后进行局向强制倒换适合解决的问题:复用段倒换失败,业务中断关键操作步骤和结果:1、查询全网复用段倒换状态(Switch态、Pass态和IDLE态)2、在网管上保护视图里面进行复用段相应局向的强制倒换,或关断故障路由方向上线路板的激光器而使复用段发生倒换Page25二、关键操作指导关键操作五:复位单板/拔插单板/更换单板操作预期时长:5~10分钟操作内容简述:适合解决的问题:故障已经定位到这块单板,但该单板无明显硬件上故障告警关键操作步骤和结果:1、确认故障业务是否全是经过该单板,如果是,可以判断为该单板很可能存在故障2、查看该单板上是否存在硬件故障告警,如果没有,可能是单板内部某个模块处理吊死或者软件丢失3、如果现场有该单板的备板,请评估更换单板对已有业务的影响,在优先更换单板的前提下,向用户申请并经过用户同意后,直接更换单板4、如果现场没有该单板的备板,请评估复位单板对已有业务的影响,向用户申请并经过用户同意后,直接复位/拔插单板5、业务正常后,对于复位/拔插单板进行业务恢复的网元,收集故障数据返回分析Page26二、关键操作指导关键操作六:交叉/TPS主备倒换操作预期时长:1~5分钟操作内容简述:适合解决的问题:怀疑为有主备保护的主板存在故障而导致业务故障关键操作步骤和结果1、查看备板是否存在明显的硬件故障告警,没有,则进行下一步的操作2、在网管上操作,进行强制主备倒换,查看业务是否恢复3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论