RNC日常故障处理_第1页
RNC日常故障处理_第2页
RNC日常故障处理_第3页
RNC日常故障处理_第4页
RNC日常故障处理_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、RNC故障管理小结通过平时阅读一些文档以及进行一些日常维护操作,RNC出现的故障我总结一下大概分为设备告警,传输告警,无线层告警以及自定义告警几类。在总结常见告警的一些处理办法之前先要熟悉一下关于我们在OMC920网管系统上处理告警的时候经常会遇到的几个名词。1,告警ID:在同一产品中,告警ID是告警项的唯一索引,在OMC920网管系统上如果要查询某一种告警的处理办法,索引告警ID方便快捷。2,告警名称:告警的名称,在同一产品中告警的唯一命名,与告警ID一一对应,能清晰、准确地反映告警的含义。这是我们处理告警的一大利好,很多故障从名称上我们就能判断问题出在哪里,该如何解决。3,告警级别:用于标

2、识告警对业务的影响程度,按严重程度递减分为四级:紧急告警、重要告警、次要告警和提示告警。l 紧急告警:此类级别的告警影响到系统提供的服务,需要立即采取相应动作。如某设备或资源完全不可用,需进行恢复,即使该故障在非工作时间内发生,也需立即采取措施。 l 重要告警:此类级别的告警影响到服务质量,需要采取紧急动作。如某设备或资源服务质量下降,需对其进行还原,恢复全部能力,需在工作时间内立即采取措施。 l 次要告警:此类级别的告警一般不会影响到服务质量,但为了避免更严重的故障,需要在适当时候进行处理或进一步观察。 l 提示告警:此类级别的告警指示可能有潜在的错误影响到提供的服务,相应的措施根据不同的错

3、误进行处理。一般遇到紧急告警,客户会急忙要求解决,这个时候一定需要注意。4,网管分类根据告警所承载内容的一种分类标准,定义了如下的16种类型:l 电源系统:有关电源系统的告警。l 环境系统:有关机房环境(温度、湿度、门禁等)的告警。l 信令系统:有关随路信令(一号)和共路信令(七号)等告警。l 中继系统:有关中继电路及中继板的告警。l 硬件系统:有关单板设备的告警(如时钟、CPU等)。l 软件系统:有关软件方面的告警。l 运行系统:系统运行时产生的告警。l 通信系统:有关通信系统的告警(如前后台通信)。l 业务质量:有关业务服务质量的告警。l 处理出错:其它异常情况告警。l OMC:OMC异常

4、告警。l 完整性违背: 属于安全告警的一种子类型,表示信息可能被非法修改、插入或者删除。l 操作违背: 属于安全告警的一种子类型,表示由于不正确的操作或故障及其他不明原因所导致服务不可用或不可达。l 物理违背: 属于安全告警的一种子类型,表示物理资源被以一种疑似安全攻击的行为所破坏。l 安全违背: 属于安全告警的一种子类型,表示安全服务或安全机制已检测到系统遭受到安全攻击行为。l 时间域违背: 属于安全告警的一种子类型,表示在不期望或被禁止的时间内所发生的事件。由分类,我们就可以缩小故障排查的范围,减小工作量。5,告警解释:描述触发产生此告警的条件。6,告警属性:主要描述告警ID、告警级别和告

5、警类型三个属性,对于没有事件参考的产品,告警类型定义了“故障”和“事件”两个类型,对于有事件参考的产品,告警类型目前只定义了“故障”一个类型。7,告警参数:描述告警的定位参数。8,对系统的影响:描述告警产生后,对系统或者业务的影响程度。9,系统自处理过程:描述系统内部在发生此告警时是如何处理的。,10,可能原因:描述产生该告警可能的原因,按照原因的类别进行分类。11,处理步骤:描述如何一步一步恢复告警的操作过程。需要说明的是,在我们平时处理任何一个告警的时候,这些参数名词都会非常直观的呈现在OMC920网管系统上,方便大家进行处理。接下来对于各类告警举出一个常见的典型的例子供分析。1,设备告警

6、:单板硬件故障告警对于单板硬件故障告警,当系统检测到单板硬件故障时,即产生。按照上面的介绍,会有如下名词参数伴随告警出现:告警属性:告警参数:对系统的影响:l 时钟器件故障:短时间故障不影响业务;如果持续时间过长,会影响业务。 l 温度传感器故障:无法检测到单板温度,如果单板温度过高,会烧坏器件。 l 星卡故障:基于AGPS的定位业务会受到影响(定位精度降低或者不能使用)。 l 单板内部GE链路故障、转发器件故障:该单板承载的部分业务受到影响。 l DSP器件故障:该DSP承载的业务中断。 l 单板主备仲裁器件故障:可能导致主备单板不能够进行主备倒换。 l GE交换单元故障:导致单板只能作为备

7、用单板,不能升为主用单板。 l 备份通道故障:主备倒换无法正常进行,并且如果主板复位,备板也会一起复位。 l 主备网口故障、FLASH器件故障、芯片自检故障、其它器件故障:不影响业务运行,但是单板复位后,有可能导致单板无法正常启动。系统自处理过程:l 星卡故障、单板内部GE链路故障、时钟器件故障、温度传感器故障:当上报该告警的单板为主备工作模式的主用单板,且备用单板允许倒换,则进行倒换;当上报该告警的单板为主备工作模式的备用单板或独立工作模式的单板,则无系统自处理过程。 l DSP故障、主备网口故障、FLASH器件故障、芯片自检故障、单板主备仲裁器件故障、GE交换单元故障、备份通道故障、转发器

8、件故障、其它器件故障:无系统自处理过程。可能原因:l 主备网口故障。 l 单板主备仲裁器件故障。 l 单板内部GE链路故障。 l 星卡故障。 l 时钟器件故障。 l 温度传感器故障。 l DSP器件故障。 l 芯片自检故障。 l FLASH器件故障。 l GE交换单元故障。 l 转发器件故障。 l 其它器件故障。 l 备份通道故障。处理步骤:1,检查告警定位信息中告警产生原因。l 如果告警原因为“主备网口”。请转步骤2。l 如果告警原因为“单板主备仲裁器件”。请转步骤3。l 如果告警原因为“单板内部GE链路”、“星卡故障”、“时钟器件”或者“温度传感器”。请转步骤4。l 如果告警原因为“DSP

9、器件”。请转步骤7。l 如果告警原因为“芯片自检”、“FLASH器件”、“GE交换单元”、“转发器件”或者“其它器件”。请转步骤5。l 如果告警原因为“备份通道”。请转步骤6。2,处理主备网口故障。l 执行命令RST BRD复位备用SCU单板,等待单板重新加载启动成功,检查告警是否恢复。YES=告警恢复。告警处理结束。NO=告警未恢复。请转步骤b。l 插紧本端SCU单板,检查告警是否恢复。YES=告警恢复。告警处理结束。NO=告警未恢复。请转步骤c。l 插紧对端SCU单板,检查告警是否恢复。YES=告警恢复。告警处理结束。NO=告警未恢复。请转步骤5。,3,处理主备仲裁器件故障。l 插紧主备槽

10、位的两块单板,检查告警是否恢复。YES=告警恢复。告警处理结束。NO=告警未恢复。请转步骤b。l 执行命令LST ALMAF检查主备单板中的备用单板是否上报20241 单板不可用告警。YES=上报上述告警。请转步骤c。NO=未上报上述告警。请转步骤e。l 确认20241 单板不可用告警的定位信息中告警原因是否为“自动禁止”。YES=是“自动禁止”。请转步骤d。NO=不是“自动禁止”。请转步骤e。l 对主备单板中的备用单板实施更换单板操作,然后执行命令UIN BRD物理解禁止该单板,观察该告警是否恢复。YES=告警恢复。告警处理结束。NO=告警未恢复。请联系设备供应商。l 对主备单板中的备用单板

11、实施更换单板操作,等待单板重新加载启动成功,检查告警是否恢复。YES=告警恢复。告警处理结束。NO=告警未恢复。请转步骤f。l 对主备单板中的主用单板实施更换单板操作,等待单板重新加载启动成功,检查告警是否恢复。YES=告警恢复。告警处理结束。NO=告警未恢复。请联系设备供应商。4,检查系统自处理情况。l 执行命令LST BRD,检查单板工作模式是否为主备工作模式。YES=主备工作模式。请转步骤b。NO=独立工作模式。请转步骤7。l 执行命令DSP BRD,检查产生告警的单板是否主用单板。YES=主用单板。请转步骤c。NO=备用单板。请转步骤7。l 主用单板产生该告警,系统会自动倒换主备单板。

12、如果当前故障的单板仍旧是主用单板,说明备用单板有告警导致主备倒换失败。请根据相关告警处理方法清除备用单板上的告警,然后观察主备单板是否倒换成功。YES=倒换成功。请转步骤8。NO=倒换失败。请转步骤7。5,手动倒换单板。l 执行命令SWP BRD发起单板倒换,观察主备单板是否倒换成功。YES=倒换成功。请转步骤8。NO=倒换失败。请转步骤b。l 单板倒换失败,说明备用单板有相同级别或者更高级别的告警。请根据相关告警处理方法清除备用单板上的告警,然后再执行命令SWP BRD发起单板倒换,观察单板是否倒换成功。YES=倒换成功。请转步骤8。NO=倒换失败。请转步骤7。,6,处理备份通道故障。l 执

13、行命令RST BRD复位备用单板,等待单板重新加载启动成功,检查告警是否恢复。YES=告警恢复。告警处理结束。NO=告警未恢复。请转步骤b。l 对备用单板实施更换单板操作,等待单板重新加载启动成功,检查告警是否恢复。YES=告警恢复。告警处理结束。NO=告警未恢复。请转步骤c。l 请在话务量小的情况下,对主用单板实施更换单板操作,等待单板重新加载启动成功,检查告警是否恢复。YES=告警恢复。告警处理结束。NO=告警未恢复。请联系设备供应商。l 请在话务量小的情况下,执行命令RST BRD复位产生告警的单板,检查复位是否成功。YES=复位成功。请转步骤8。NO=复位失败。请联系设备供应商。8,等

14、待单板运行正常后,检查告警是否恢复。YES=告警恢复。告警处理结束。NO=告警未恢复。请转步骤9。9,通过命令SET LODCTRL设置单板加载方式为“协商加载”,然后对该故障单板实施更换单板操作。等单板运行正常后,检查告警是否恢复。YES=告警恢复。告警处理结束。NO=告警未恢复。请联系设备供应商。可以看到的是,我们的系统对于我们任何出现的告警都有详细的解释和处理方法,可以肯定,如果按照提示的步骤一步一步来操作,最后能消除告警,但是效率太低,怎么提高?总结经验。我们发现一块单板处于异常状态,可直接确定其所在位置,多少框多少槽,然后倒换,定位故障原因和位置,很多时候故障是系统自处理不了的,尤其

15、是紧急的严重的故障。对于所有的故障处理,处理流程包括以下几个环节:收集并记录相关信息、确定故障范围和类别、定位故障原因、故障排除、确认故障是否被排除、记录故障处理过程。结束收集并记录相关信息任何一个故障的处理过程都是从维护人员获得故障信息开始,故障信息是故障处理的重要依据,维护人员应尽可能多的收集故障信息。在故障处理前,请收集以下的故障信息:l 具体的故障现象。 l 故障发生的时间、地点、频率。 l 故障的范围、影响。 l 故障发生前设备运行状况。 l 故障发生前对设备进行了哪些操作、操作的结果是什么。 l 故障发生后采取了什么措施、结果是什么。 l 故障发生时设备是否有告警、告警的相关/伴随

16、告警是什么。 l 故障发生时是否有单板指示灯异常。一般可以通过以下途径收集需要的故障信息:l 询问申告故障的用户/客户中心工作人员,了解具体的故障现象、故障发生时间、地点、频率。 l 询问设备操作维护人员了解设备日常运行状况、故障现象、故障发生前的操作、故障发生后采取的措施及效果。 l 观察单板指示灯,观察操作维护系统以及告警管理系统以了解设备软、硬件运行状况。 l 通过业务演示、性能测量、接口/信令跟踪等方式了解故障发生的范围和影响。在信息收集时应注意以下几点:l 应具有收集相关信息的强烈意识,在遇有故障特别是重大故障时,一定要先清楚相关情况后再决定下一步的工作,切忌盲目处理。 l 应加强横向、纵向的业务联系,建立与其它局所或相关业务部门维护人员的良好业务关系,这对于信息交流、技术求助等都很有帮助。确定故障范围和类别在获取故障信息后,需要对故障现象做出判断确定故障的范围与种类,即需要判断故障发生在哪个范围,属于哪一类的问题。定位故障原因定位故障原因是指从众多可能原因中找出故障原因的过程,它通过一定的方法或手段分析、比较各种可能的故障成因,不断排除非可能因素,最终确定故障发生的具体原因。故障排除故障排除是指根据不同的故障按照不同的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论