无线内部培训讲义BSC告警和告警处理_第1页
无线内部培训讲义BSC告警和告警处理_第2页
无线内部培训讲义BSC告警和告警处理_第3页
无线内部培训讲义BSC告警和告警处理_第4页
无线内部培训讲义BSC告警和告警处理_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

MOTGSM无线设备培训BSC告警和告警处理,中国联通有限公司广州分公司覃道满,学习目标,掌握告警格式与组成,2,3,熟悉告警处理流程,学习内容,告警格式和组成告警处理流程BSC非正常重启分析,简述,机房运行维护人员经常会碰到告警,有些告警是操作维护过程中自然产生的,有些告警是瞬时性的,不会影响系统正常运行,但大多数告警是会影响系统性能的,有的甚至会导致BSS复位,对移动通信系统造成严重影响。因此对于运维人员来说,了解告警系统,掌握一定的告警分析和处理技能,显得非常重要。告警系统是为了故障定位,系统性能分析及方便维护而设置的。告警信息可以在OMCR的告警窗口上显示,也可以在本地维护终端(LMT)上显示。BSS产生的告警信息,以字符的形式发往OMCR。,告警的种类和格式,告警可以分为硬件告警和软件告警两种:硬件告警是由于BSS内的硬件故障所引起的告警。软件告警是由GPROC检测到软件进程运行出错所引起的告警只有GPROC设备(BSP,CSFP,DHP,BTP,poolGPROC)才会产生软件告警信息。,告警举例,#0NEW*NONE*.CommuncationFailureEvent-CAGE-BSS01(BSS01:SITE-0:):0CAGE1-30/03/199914:23:56.18ExpansionKSWXSlot22CommunicationFailure-FMIC-Major-/-.(BSS01:SITE-0:):0SITEImpactedtoMajor.,告警解析,#0:告警IDNEW:告警状态NONE:正在处理此告警的人员CommuncationFailureEvent:告警的类型CAGE:告警级BSS01(BSS01:SITE-0:):0CAGE1:发生告警的位置30/03/199914:23:56:告警发生时间18:告警编号ExpansionKSWXSlot22(见框架配置表)CommunicationFailure:告警描述FMIC:告警的清除类型Major:告警严重等级(主要告警)(BSS01:SITE-0:):0SITEImpactedtoMajor:告警附加信息,附:BSC机框配置图,告警编号,告警编号对于每种设备都有唯一的一个十进制数表示。每种设备的告警编号从0到254。(见附录)对于不同的设备告警编号可能重复,但与设备相关的编号是唯一的。有些情况下同样的告警编号表示类似的告警。例如242号告警表示设备退出服务(MMSMTLRSL)。,告警消除类型,告警的清除类型可分为三类:IntermittentFaultManagementInitiatedClear(FMIC)OperatorInitiatedClear(OIC)Intermittent表示告警是偶发性的,对系统没有危害。此告警发生后在OMCR会自动消除。当此类告警频繁产生时,会增加OML链路的负荷。我们可以使用disp_throttle命令来查看告警门限设置,还可用chg_throttle命令调节其门限值。FMIC告警的清除由系统的错误管理进程(FaultManagermentProcess)自动进行。FM进程管理一张现有告警的列表,只有当告警产生的原因消失后FM才会产生clear消息将此告警从告警列表中删除。OIC需要由操作人员手动将告警清除。FM进程检测到告警产生并判断为OIC类型时,将此告警加入现有告警列表中。此后FM不再进行任何处理。当操作人员将告警产生的原因解决后,必须将此告警清除。,清除告警步骤,在OMCR和BSC上均能够清除告警。OMCR上清除告警按以下步骤进行:打开告警窗口,单击鼠标左键选中要清除的告警项单击鼠标右键弹出快捷菜单选择快捷菜单的“Handle”选择快捷菜单的“Clear”确认告警已被清除在BSS上清除告警,先使用disp_act_alarm命令查看有哪些OIC告警。然后使用del_act_alarm命令将告警清除。清除命令如下:del_act_alarm(只对OIC告警),告警的类型,OMCR将告警分成六种不同的类型,可以在OMCR的告警说明中找到FailureEvents字段,其为不同类型告警的名称。,附:告警类型表,告警的等级,发现告警,第一种方法:OMCR桌面图形界面GUI上的ALARM按钮在OMCR桌面图形界面GUI上双击告警按钮,打开告警窗口,可以看到所有网元(NE)的告警信息;第二种方法:通过GUI上的EVENTMANEGMENT点击GUI上的EVENTMAMT按钮,打开DisplaySubscriptionList窗口,选择窗口中告警中的一项,选择open按钮就打开告警窗口;第三种方法:打开MAP图,然后选中对应的单元节点从NETWORKMAP上查看告警,单击GUI上的NETWORKMAP按钮,打开MAPLIST窗口,选定其中的一个网元,双击鼠标左键打开MAP窗口,在MAP图上用鼠标左键点击要查看的网络单元节点,选中后接点会变为紫色,单击鼠标右键在快捷菜单内选择ALARM项,此时会出现告警窗口显示此节点单元的所有告警。用disp_act_alarm命令行查看告警.,告警处理优先级别,我们可以根据告警的严重级别,以及出现告警的网元在系统中的重要性,对不同的告警情况进行相应的处理。在此我们提供一般原则下的优先级别。对于基站来说从RXCDR到BSC,再到BTS;信令链路按照MTL、RSL、XBL的次序;告警严重级别由高到低分别是Critical、Major、Minor、Warning、Investigate、Clear。在相同的告警级别中,Critical告警按照以下顺序AllRXCDR-AllMTL-AllBSC-AllRSL-AllBTS-AllX.25link-AllotherCriticalalarms。Major告警按照以下顺序AllRXCDR-AllBSC-AllBTS-AllotherMajoralarms。其它告警按照Minor、Warning、Investigate、Clearalarms的顺序进行处理。,附:告警优先级别图,告警处理优先级别:,ThesitesRemoteTranscoder(RXCDR)BaseStationController(BSC)BaseTransceiverStation(BTS)ThelinksMessageTransferpartLink(MTL)RadioSignallingLink(RSL)X.25link,Critical告警按照以下顺序:AllRXCDR-CriticalalarmsAllMTL-CriticalalarmsAllBSC-CriticalalarmsAllRSL-CriticalalarmsAllBTS-CriticalalarmsAllX.25link-CriticalalarmsAllotherCriticalalarms,设备之间的从属关系(parent-child),当某个设备或链路处于OOS等非正常状态时,不仅与起本身相关,而且与其上一级(parent)设备有关,对parent设备进行进行必要的处理是解决问题的重要手段。如果某个设备处于OOS等状态下,此设备下一级(child)设备将也不能正常工作。,告警处理的流程,查看告警分清告警的级别明确与告警有关的设备根据告警手册或经验对告警进行处理解决问题,消除告警,常见告警及其处理办法,常见告警及其处理方法.doc,BSC非正常重启分析,BSC在网络中的位置和作用重启分类原因分析实例分析BSC日常维护应注意的事项BSC稳定运行的条件,BSC在网络中的位置和作用,在GSM无线通信系统中,BSC作为基站控制器,是BSS子系统的关键节点,一套BSC管理几十个基站和GPRS网络关键节点PCU。BSC同时作为GSM语音业务和GPRS数据业务的无线关键设备,其作用可归纳为:无线管理、电路交换和接续以及协议转换。BSC重启,即BSC退出服务的过程,将中断BSS子系统目前正在进行的工作,受该BSC所控制的语音业务和数据业务将不能提供服务,影响相当严重。,附:BSC在网络中的位置图,BSC在网络中的位置:,重启原因分类,系统因故障自动重启人为操作导致系统重启,重启原因分析,机房环境和动力。BSC硬件故障。各种LINK的故障。总线的Failured。BSC软件故障。改变数据库和参数设置。,机房环境和动力,主要是频繁出现高温告警,或灰尘比较大,或电源供给中断或不稳定造成的。高温或灰尘比较大的时候,对那些运行时间已比较长的设备威胁比较大,当某个芯片因灰尘积累得比较多而又散热不充分时,芯片有可能因过热被烧毁,芯片所在的插板将会退出服务,当系统容错机制失效时,为了排除故障,系统将不可避免地自动重启,若系统不能自己排除故障,在人为干预之前,系统将会一直处于重启状态。,BSC硬件故障,这里说的硬件主要是插在BSC机框中的各种插板,每个插板的功能不同,出现故障时对整个BSC的影响也是不同的。从机框的背板到插槽上的每一块插板的故障都有可能导致系统退出服务,特别是系统不能识别故障板件时,重启将不可避免地发生,其中GPROC(处理器板)、GCLK(时钟)、LANx和KSWx(时隙交换扩展板),因数量多或作用关键,出现故障时容易引起BSC的重启。这其中又以时钟板最为重要。,各种LINK的故障,与BSC相连的LINK有MTL、RSL、OML、XBL、GSL。对BSC影响最大的是MTL和GSL两种链路,有可能导致BSC自动重启或BSC中有死进程存在,有死进程时系统运行将非常缓慢,命令无法执行,需要人为重启BSC来清除。,总线的Failured(1),PBUS:PBUS即ProcessorBus,它是MCAP总线在软件上的一种表示,负责GPROC与其他大的插板(XCDR、GCLK、KSW、DRI)之间的通信。PBUSDeviceFailured的原因可能是:LANx板Faulty;某块板件故障。可能是FTP(故障传输部分)和FCP(故障收集部分)之间的错误引起的。第三种情况属于软件故障,需要人为重启BSC来重启这两个进程。,总线的Failured(2),SBUS:SBUS即SerialBus,它上面的通信由GPROC控制,主要负责GPROC与小插板板(如LANx、KSWx、CLKx)之间的通信。每个机框的SBUS也是一主一备的,但它们被分配不同的任务,Standby不享有ActiveSBUS的功能。当SBUSfailured后,BSC有可能会重启,部分故障不会引起重启。重启结束后,如果SBUS仍然是不可用状态,那么就必须去检查具体原因了。SBUS有故障时,必须考虑所有被主GPROC控制的SBUS上的通信。导致SBUSFailured的原因有以下几种可能:LANx插板没有插到位,与背板的连接不正确,或光纤没有连接好或连接了错误的光纤。LANx插板Failured。GPROC板Failured,导致SBUS上的通信不正常。BTC板不能给背板供电。,总线的Failured(3),TBUS:TBUS即TDMBUS。它由KSW控制,每对KSW为系统提供1024个交换时隙,分配给其它大的插板如GPROC、MSI、XCDR、KSW使用,时隙可扩展和扩容。在TDM高速总线故障的情况下,系统的主用TBUS将会退出服务,系统将要求TDMhighway做倒换,进而将会使所有机框里的的TBUS一起做倒换,如果此时备用的TBUS不可用,倒换将不能成功,机框将会退出服务,系统将会要求整个BSC重启。引起TBUSFailured的原因可能如下:连接本地与远端KSWx的光纤有问题,或者断了。KSWx插板Failured。KSW插板故障或不可用。,总线的Failured(4),CBUS:CBUS即ClockDistributionBus,通过此总线系统将时钟信号传送到机框背板。给各种大的插板GPROC、KSW、MSI、XCDR等插板提供时钟,CBUS在整个系统一主一备的。当主用的CBUS有故障时,系统会自动倒换到备用的CBUS,当然备用的CBUS在此时是必须可用的。当备用的CBUS不可用而系统倒换时,BSC将重启。引起CBUSDisabled的原因可能如下:GCLK板硬件故障。扩展时钟信号的光纤有问题。扩展时钟信号的KSWx插板和CLKx插板故障。,BSC软件故障,GPROC的内存问题。我们知道,GPROC在BSC中处于相当重要的位置是因为它担任了控制处理功能,GPROC的CUP也有一定的工作极限,当用作BSP的GPROC的CPU使用率达到100%,出现BSP239processsafetestauditfailure(检测不到BSP板)告警,此时软件故障可以称为进程吊死。遇到这种告警时,需要在BSC现场关掉OML,即将Slot16、Slot14板开关下置为“disable”,重启BSC。为了节省故障恢复时间,可进入第3层,等待出现waitingforOMC-R的提示时输入如下命令:Msg_send800001978h-跳过从OMC-R下载数据以加快启动过程。导致BSC重启的原因是因为BSC的SSM与BTS的CRM间通信量太大,使得产生的SMSWFMs过多所致。最直接的原因是基站的业务量太大,TCH拥塞所致。通过调整cp_messages.cSWFMs的量,可以解决此问题。为了减少此类故障的发生,建议用处理能力更强大的GPROC3做BSP,减少重启的可能,当BSP负荷很高时,可以考虑设置单独的OMF,把OML分离出去,降低BSP的负荷。在系统话务忙时避免执行大批量的命令,也可减少BSP重启的机会。降低单个GPROC的负荷,避免某个GPROC因负荷太大时自动重启后,负荷被其它GPROC分担后出现多米诺骨牌效应,最终导致整个BSC重启的悲剧的发生。有时侯内存并没有问题而是当使用内存时GPROC被locked了。这时可有三种方法来处理:将此可能故障的GPROC(BSP)与其它的GPROC交换,即使此GPROC再次重启,也不会使BSC重启。换一块好的GPROC。UNLOCKGPROC,改变数据库和参数设置,有时数据库某些参数做了改动后也需要BSC重启,才能正常工作或发生作用,特别是一些影响基站正常工作的参数,平时不要随意改动。另外还有可能因为本身新版本软件的缺陷也会偶尔出现问题,需要使BSC重启。,事例分析(1),BSC的3个GPROCs(0116,0117,0118)在不同时间自动reset,造成BSCreset。解决:从收集的数据发现MTL不稳定,时好时坏,有告警产生。CA向GPROC发送fast_reset,将GPROCreset。因为GPROC控制的MTL和RSL负荷过大,使得MTL时好时坏。当一条MTL断了,造成其超负荷,就会使得其他MTL退出服务。这时可检查此MTL的统计数据,或检查PGROC的CPU的使用率。因为处理能力的限制使得他们拒绝更多的消息进入。建议用户重新配置BSC的容量;如某MSC下只有某BSC范围电话难打,可考虑reset_sitebsc;如只有部分RSL负荷过大,造成电话难大打,可reassignlcf。,事例分析(2),Disable第二个GPROC后BSCreboot解决:分析发现:发现GCLK退出服务,使得BSCreset。因此使得BSCreset的原因不是lockGPROC。而是GCLK的故障产生的,及时处理GCLK的问题,以防再次ResetBSC。,BSC日常维护的注意事项(1),更换MSI板时,先用命令查看MSI板的工作状态,如果是未闭锁状态,则应该先将插板闭锁,替换后再解锁,避免在未闭锁状态下直接操作。GPROC板出现故障或告警需要拔出时,应该先重启此GPROC,确认GPROC不能恢复正常,再将GPROC的面板上的按键拨到Disable,再操作。GCLK板出现问题且需更换时,先倒换到备用GCLK,将面板上的按键拨到Disable后再操作。安装扳子要到位,要确保插板与背板能连接正确,这样插板才能正常工作,也不会影响与其他插板之间的通信。,BSC日常维护的注意事项(2),要注意光纤的清洁,特别是与半尺寸板连接的光纤,如果光纤不干净也会导致插板Disabled,成为系统隐患。机柜和各种插板应定期按照规范进行清洗和除尘。一些GCLK、LANx、KSW等设备的告警和某些死进程可能会使GPROC退出服务,特别注意GPROC245号告警,此告警表示一个GPROC或BTP退出服务。如果主用的BSP出现此告警时,BSC已经重启了。如果一般的GPROC出现此告警,该板会重启,并会影响相应的信令链路,导致有关BTS退出服务。当在出现GPROC245号告警前出现大量相关设备的告警时应该注意及时排除,以免引起GPROC重启。同时注意CPU工作时的负荷,超过60%或负荷值异常时,应该排查原因,适当地将工作量移到其他的GPROC上或换用处理能力更强的板件。,BSC日常维护的注意事项(3),注意日常的告警信息,经常用disp_act_alarm和state0oosall命令查看系统,发现有告警或不在服务状态的设备应该及时进行处理。要及时收集故障记录数据,因为系统的存储有一定的限度,到一定的时间或者一定的数量它就会被覆盖掉。板件插错槽位会引起BSC不停的重启。小插板的螺丝一定要拧到位,以免留下隐患。BSC的每个机框至少要有2块GPROC板和2块MSI板处于正常状态,以避免当只有一块GPROC和一块MSI板时,如果其中的GPROC或MSI板有故障都会引起

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论