3GCN操作维护知识.doc_第1页
3GCN操作维护知识.doc_第2页
3GCN操作维护知识.doc_第3页
3GCN操作维护知识.doc_第4页
3GCN操作维护知识.doc_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

3GCN操作维护知识课程目标:l 掌握3GCN日常维护方法l 了解故障处理流程l 掌握常见故障处理方法目 录第1章 日常维护11.1 例行维护11.1.1 环境11.1.2 硬件31.1.3 告警71.1.4 日志111.1.5 性能统计131.1.6 各类基本业务测试131.1.7 话单141.1.8 备份191.1.9 病毒防治211.2 突发性维护241.2.1 突发性维护处理流程241.2.2 突发性维护处理方法26第2章 故障处理272.1 故障处理流程272.2 故障等级分类292.2.1 关键问题(一级故障)302.2.2 严重问题(二级故障)302.2.3 一般问题(三级、四级故障)312.3 故障处理原则方法312.3.1 故障处理原则312.3.2 常用故障处理工具322.3.3 常用故障处理方法332.3.4 常用故障信息采集352.4 典型故障分析定位方法352.4.1 硬件问题362.4.2 系统运行问题372.4.3 业务问题382.4.4 其他故障问题4343 第2章 故障处理第1章 日常维护& 知识点l 例行维护l 突发性维护1.1 例行维护1.1.1 环境 机房温度在正常情况下,机房的环境温度应在1530之间。机房应安装通风、空调设备,使室内的温度长期保持在545之间。短期工作时间为:-55或4555。短期工作时间应限制为:连续不超过48小时和每年累计不超过15天。温度是通信设备能否长期可靠运行的重要因素之一。温度过高或过低,都将对设备的运行产生不利影响。除此之外,维护人员还需知道如下知识:1当温度过高时,集成电路内离子的扩散或漂移将加剧,电子运动速度加快,使穿透电流成倍增长。如此循环会引起热击穿,造成电路损坏,使通信设备不能正常工作。2当温度过高时,通信设备中的电阻组件的阻值、电解电容的容量将会发生变化,从而改变电路的参数,使设备的性能产生变化,严重危及设备的安全、稳定运行。3当温度过高时,插头、插座和开关由于热胀冷缩易产生接触不良,给设备的可靠运行带来隐患。4温度过高或过低,都会使晶体振荡器电路的时钟主振频率改变,影响设备之间的同步,造成误码率、滑码率的增高。5温度过高会加速绝缘材料的老化速度,而温度过低则容易使绝缘材料变脆,二者都会降低设备的使用寿命。 机房湿度在正常情况下,机房的相对湿度应在3070之间。机房应安装适当的除湿或加湿设备,使室内的相对湿度长期保持在5%65%之间。短期工作时间为:5%以下或65%95%。短期工作时间应限制为:连续不超过48小时和每年累计不超过15天。除此之外,维护人员还需知道如下信息:1当相对湿度过高时,容易使电子组件表面吸附一层水膜。研究表明,当相对湿度达到65%以上时,水膜厚度可达0.001m0.01m。这种水膜会造成“导电通路”,影响集成电路的电气性能。2当相对湿度太高时,磁性材料的导磁率会受影响;接插件和引线等容易氧化和锈蚀,材料机械性能也将变化,造成接触不良或短路。3当相对湿度过低时,通信机房中的转动机器、活动地板和工作人员等所造成的摩擦都容易产生静电,对通信设备的运行和维护都将造成不良影响。4当相对湿度太低时,空气中带电灰尘和粒子的数量将大大增加,使机房空气洁净度大大下降,从而危及设备的安全运行。 机房灰尘灰尘对计算机、单板危害较大,过多的灰尘会导致电子元器件发生短路等故障。日常维护中,需要经常检查并清理机房灰尘,以确保设备运行正常。按照下列步骤检查机房灰尘。1带上防静电手环。2用手触摸机柜和服务器的表面,查看灰尘情况。3检查单板之间的缝隙、计算机硬盘插槽的缝隙的灰尘情况。4清理灰尘。正常情况下,基本没有灰尘。如果灰尘较多,需要对机柜、服务器及周围的环境进行清洁。灰尘对计算机、单板危害较大,要定期清除灰尘。可用吸尘器清除,也可用干净的软毛刷轻刷粘有灰尘之处。1.1.2 硬件 检查空调运行状态机房内必须安装空调,空调可以控制机房内部的温度和湿度,并能保证机房内部的通风。检查空调运行状态,防止因为空调的不正常工作导致机房温湿度不正常。按照下列步骤检查空调运行状态。1检查每一台空调运行是否正常。2检查参数设置是否正确。 检查单板运行情况1目的查看单板的状态和告警信息,了解单板的运行情况,以便发现隐患,及时进行排除。2步骤(1)在统一网络管理平台主界面中,选择菜单视图故障管理告警管理,进入告警管理界面。(2)在告警管理界面中,打开左边的导航树,选中机架,右边会出现这个机架的机架图,如图1.11所示。图1.11 单板运行查看(3)选中需要具体查看的单板,右击弹出快捷菜单,如图1.12所示。图1.12 告警信息查看(4)在图1.12界面中,分别选择本板当前告警和本板历史告警,查看单板的当前告警和历史告警,掌握单板的运行情况。如果有单板出现告警,则可以查询具体告警信息,然后按照具体告警信息进行处理。 检查服务器硬件按照下列步骤检查服务器硬件。1打开服务器机柜的前门。2查看各服务器和磁盘阵列有无告警灯亮或电源灯熄灭(指示灯所代表的意义,可以参见ZXC10 MSCe 硬件描述)。正常情况下,系统无维护灯亮或闪烁,系统无橙黄色灯亮或闪烁,POWER和SYSTEM灯应常亮。如果出现一个机柜上的所有服务器和磁盘阵列的一路电源(服务器和磁盘阵列都配置有两路电源模块)告警,则有可能是一路供电出了问题,请检查交流电源系统(服务器机柜正面上部有两路电源指示灯,如果有一路电源的绿色指示灯熄灭,则肯定该路电源有问题)。如果有告警灯亮,请通知相应服务器提供商,请其检查。 检查局域网硬件检查局域网硬件,是否包含异常情况。按照下列步骤检查局域网硬件。1检查网络设备的指示灯(电源指示灯常亮)是否正常。2检查网络设备的配置文件是否正确无误。3检查服务器和以太网交换机之间的网线,看其所对应的网口工作灯是否正常(当有数据传输时,工作灯快闪),并用ping命令进行测试。4检查以太网交换机之间是否存在环路。正常情况下,以太网交换机、路由器或防火墙等网络设备运行正常。当网络设备工作不正常时,可以参考以下处理措施及时排除故障。l交换机前台和后台、服务器和各维护台都通过这个局域网进行通讯,一旦该局域网出现问题,会导致前后台通讯异常,所以必须保证该局域网能够正常运行。l当路由器出现问题时,会导致营帐系统不能实时采集话单。发现问题时,应先观察交换机、路由器的工作指示灯。如果工作指示灯出现告警,则有可能是硬件问题;如果工作指示灯熄灭了,可能是由于掉电引起的。l如果交换机或路由器的工作指示灯正常,但是某一个端口的指示灯异常,原因可能在某一个端口上,如果端口指示灯熄灭,可能是相连的节点出现了故障;如果是端口指示灯闪得特别快,表明流量非常大,则要到相应节点上去检查流量过大的原因。l由于局域网都是由两个交换机组成的双网结构,当其中一个交换机出现问题时,不会影响网络的正常通信,但必须及时排除故障。1.1.3 告警 查看当前告警1目的OMC提供的当前告警信息可以实时显示系统正在发生的故障信息。检查当前有无告警信息,及时排除告警。2准备操作前,需要确认:l前后台通讯正常;l数据库工作正常。3过程按照下列步骤查看当前告警。(1)查看告警箱,有无告警信息。(2)进入故障管理系统主界面,选择菜单查询快速查询查询当前告警,进入查询当前告警界面,如图1.13所示。图1.13 查询当前告警(3)分别在各个页签中对查询条件进行设置。(4)设置完成后,单击确定按钮。U 提示:对于告警级别,可以选中紧急和主要,可以关注重要的告警,以免低级别的告警太多,不容易发现重要的告警。 检查历史告警1目的查看历史告警,分析告警情况,及时排除告警。2准备操作前,需要确认:l已经安装OMC系统,并且系统工作正常;l前后台通讯正常;l数据库工作正常。3过程按照下列步骤检查历史告警。(1)进入故障管理系统主界面,选择菜单查询快速查询查询历史告警,进入查询历史告警界面,如图1.14所示。图1.14 查询历史告警(2)分别在各个页签中对查询条件进行设置。(3)设置完成后,单击确定按钮。正常情况下,所有历史告警均已经得到有效处理,没有遗漏。平时一般的告警都会以当前告警显示,但有一些告警能很快自动消除,可以通过查看历史告警进行有效处理。统计一周内的告警信息,分析告警原因,确认是否存在系统隐藏故障,1.1.4 日志 查看操作日志1目的查看操作日志,有无非法或未经授权的操作。2准备操作前,需要确认:l已经安装OMC系统,并且系统工作正常;l前后台通讯正常;l数据库工作正常。3步骤按照下列步骤查看操作日志。(1)在中兴统一网络管理平台主界面,选择菜单视图日志管理,进入日志管理界面,如所示。图1.15 日志管理(2)在左边的导航树上,选择日志种类,右侧的窗口显示对应的日志。正常情况下,操作日志中没有非法或未经授权的操作。如果有异常操作日志,须查明是何人为何操作,非法操作系统可能会导致不可预料的结果,要引起重视。 备份日志数据库1目的检查维护日志是否及时进行备份,备份位置固定。2准备操作前,需要确认:l前后台通讯正常;l数据库工作正常。3过程按照下列步骤备份维护日志。(1)在操作维护台上登录系统,单击菜单视图日志管理,进入日志管理界面。(2)选择备份的日志类型。(3)选择菜单配置导出当前查询结果,选择备份文件存放的路径,将日志备份为Excel文档。 检查服务器日志1目的检查服务器日志,是否包含错误信息。2准备操作前,需要确认:l各服务器处于工作状态。3过程按照下列步骤检查服务器日志。(1)在Windows系统中,选择Windows菜单开始程序管理工具事件查看器,进入事件查看器界面。(2)查看系统日志、安全日志和应用程序日志。正常情况下,没有错误信息。当发现有错误信息时,可直接双击日志记录,查看事件属性,根据具体内容作相应处理。Windows系统会自动记录意外的关机操作,如果发现意外关机,需查明原因,是人为关机还是自动关机。如果是自动关机,需要对服务器和操作系统作进一步检查。1.1.5 性能统计1目的进行性能分析,各项指标是否出现异常情况。2步骤(1)登录系统,进入系统主界面。(2)选择菜单视图性能管理,进入性能管理主界面。(3)选择菜单统计分析自定义查询,进入自定义查询界面。(4)选中需要查询的项目,选择菜单统计执行统计,进入执行统计界面。(5)设置查询的时间(本月)、位置、分组,选择查询项目。单击执行查询按钮,统计相关数据。(6)选择结果显示页签,单击按钮,则查询结果将保存为*.xls格式;单击按钮,则查询结果将保存为*.txt格式。根据保存的数据进行分析,判断系统的运行情况。如果发现某天某项指标发生了巨变,可以进一步统计那一天的具体数据(用小的粒度查询),确定发生巨变的时间点,并查询当天该时间点的告警信息和系统日志,确定导致异常的原因。例如,是否有网络发生故障,网络结构是否发生改变等,排除系统故障和隐患,优化系统。正常情况下,各项指标在要求范围之内,和上一个月同一时间段内的指标差别在上下3%5%之内。1.1.6 各类基本业务测试定期进行基本业务测试,检查各项功能情况。一般业务测试包含以下几种:1本局内的手机互相作主被叫进行拨打测试,测试后检查主被叫话单。2和本网内异地的手机互相作主被叫进行拨打测试,测试后检查话单。3和本地各个不同局向的其它网络的电话作主被叫进行拨打测试,并检查话单。4和异地各个不同局向的其它网络的电话作主被叫进行拨打测试,测试后检查话单。5如有条件,可测试漫游到本地的手机与本地电话及和异地电话作主被叫进行拨打测试,测试后检查话单。6开关机登记(有条件可包括外地漫游到本地的手机开关机登记)。7各种补充业务的登记、应用测试。8如果有WIN应用,可用WIN用户进行各种方式的拨打测试。如果业务测试不成功,需要查明是否由该系统的原因引起,如果不是,要积极联系相关设备的维护人员共同查明原因并解决问题。1.1.7 话单 话单脱机及时进行话单脱机,防止服务器上磁盘空间不足,会影响对MP话单的接收。按照下列步骤脱机话单。1在如图1.16所示主界面中,单击主菜单栏Bill ManageBill Offline,在弹出的鉴权窗口中,输入操作员口令后,出现如图1.17所示界面。图1.16 计费主界面图1.17 话单脱机表1.11 计费话单脱机描述名称描述Offline all not Offlined CDR files指定脱机文件的选择范围,表示脱机所有未脱机文件Offline the CDR files before the specified time指定脱机文件的选择范围,表示脱机指定时间以前的未脱机文件Offline to用来指定脱机文件到何种设备上RW CD脱机到光盘Tape脱机到磁带通过对Offline all not Offlined CDR files和Offline the CDR files before the specified time的设定,提供了脱机操作的来源和目标,就可以进行脱机操作了。2在如图1.17所示中,单击Offline按钮进行脱机操作。在弹出如图1.18所示确认对话框后,单击Yes按钮。图1.18 脱机确认3等待服务端的响应进行话单脱机,脱机完成后出现相应的提示界面,脱机完成或有问题都会有相应的提示消息。4单击主菜单栏Bill ManageBill Copy。在弹出的鉴权窗口中输入操作员口令并确认后,弹出Bill Copy窗口,如图1.19所示界面。图1.19 话单拷贝输入起止时间。在From和To两组编辑框中选择合适的时间,作为时间范围,拷贝对象就是这段时间内的话单文件。拷贝目标设备Copy to有两个选择:a、RW-CD,b、Tape。5单击Copy按钮进行拷贝操作,首先会弹出确认对话框,确认拷贝单击Yes,接着等待服务端的响应,拷贝完成或有问题都会有相应的提示消息。6话单脱机位置l脱机完成后,服务器“M:zxgbil”目录下的未脱机话单文件脱机备份到:E:ZXGBILBAK下。l拷贝完成后,服务器“M:zxgbil”目录下的脱机话单文件拷贝到“E: ZXGBILCPY。如果脱机过程中光盘已经写满,系统会给出提示,重新换盘即可。当计费服务器上的话单越积越多时,计费管理的操作会变慢,如果服务器上磁盘空间不足,会影响对CIB上缓存话单的接收。所以,应在保证话单已备份的情况下,删除计费服务器上以前的话单,只保留近期的话单。 检查话单连续性查看话单文件序号的连续性,有无重复和跳跃。按照下列步骤检查话单的连续性。1分别打开计费服务器磁盘阵列上的“ZXGBIL”目录和“FTAM”目录。2查看话单文件的序号有无重复和跳跃。在“ZXGBIL”目录下,话单文件名结构是“前缀年月日时分四位序号后缀”。l前缀有三种状态:S:表示正打开并存放数据的话单文件;UN:表示已关闭且存放有数据的话单文件;PB:表示已进行脱机过的话单文件。l中间的时间可以是长时间格式,也可以是短时间格式,由具体情况而定。l四位序号:00009999。l后缀:GCDR,表示该文件是一个话单记录。在“FTAM”目录下,话单文件名结构是“前缀序号后缀”,即:UNxxxxGCDR。l前缀:UN,表示已关闭且存放有数据的话单文件。l四位序号,序号的编号同ZXGBIL目录下的文件序号。该序号从00009999,循环使用。表明FTAM目录下最多存放10000个话单文件,若超过此数,则新产生的文件将覆盖以前的文件。ZXGBIL目录下不存在这个问题。正常情况下,“FTAM”目录下的文件应该每隔一段时间(如15分钟)就被计费中心采走,在采集的同时删除原文件。如果计费中心长时间没有进行采集或采集后没有删除,那么,当话单超过10000个时,序号就会重复。l后缀:GCDR,表示该文件是一个话单记录。如果计费中心没有采集话单或采集后没有删除,可以通知计费中心进行采集或删除。如果话单序号已经重复,可以先删除“FTAM”目录下的文件,让计费中心重新开始采集;同时为了防止遗漏,可以把“ZXGBIL”目录下的文件提供给计费中心进行对比。当计费服务器上的话单接收进程重新启动时(如双机倒换),话单序号会跳过一个比较大的数字(如9000),这属于正常情况。但是需注意查明为什么会重启。1.1.8 备份每次系统数据修改前后都需要有备份,每周至少做一次系统数据备份。按照下列步骤备份系统数据。1在统一网管平台中,选择菜单视图配置管理,进入配置管理主界面。2展开导航树,选择备份恢复,界面如图1.110所示。图1.110 数据备份与恢复界面3选中生成备份数据库的SQL文件前的单选框,在输入SQL文件名输入框中输入需要备份的文件名。4单击图标,进入如图1.111所示对话框。图1.111 备份提示5单击确定按钮,开始进行数据备份,如图1.112所示。图1.112 备份数据6备份完成后,系统提示备份成功,如图1.113所示。备份数据文件保存在“C:BackupMSCB-CU”录下。图1.113 备份成功提示U TipsU 提示:把刚备份生成的文件拷贝到光盘上(或者别的合适介质)保存一份。1.1.9 病毒防治 查看病毒库1目的检查病毒库,及时更新,防止病毒侵入。2过程按照下列步骤查看病毒库。McAfee企业版防病毒软件:(1)右击状态栏上的按钮。(2)选择菜单关于VirusScan Enterprise(B),进入如图1.114所示的界面。图1.114 查看病毒特征码创建日期Norton企业版防病毒软件:l双击状态栏上的按钮。l选择菜单HelpAbout,检查病毒特征码的时间。一般情况下,防病毒软件公司每3天左右会升级一次病毒库。服务器上的病毒库一周更新一次。因此病毒特征码的创建日期必须是最近7天内。下载最新的病毒库文件进行升级。l对于McAfee企业版防病毒软件,网址:/cn/downloads/default.aspl对于Norton企业版防病毒软件,网址:/avcenter/download/pages/US-N95.htmlU 提示:如果采用Server/Client模式安装,只需在服务器端更新即可。一般规定某维护台作为防病毒软件的服务器端,而维护服务器等作为防病毒软件的客户端。这样可以由维护台作为查杀病毒的主控端,以避免查杀病毒的操作影响系统服务器上运行的程序。 人工扫描病毒1目的按照下列步骤人工扫描病毒。2步骤McAfee企业版防病毒软件:(1)右击状态栏上的图标按钮。(2)单击按需扫描按钮,进入进行病毒扫描界面,如图1.115所示。图1.115 McAfee病毒扫描(3)设置扫描全部文件,注意不要设置直接删除受感染的文件。(4)单击启动按钮,进行病毒扫描。Norton防病毒软件:l双击状态栏上的图标按钮。l选择设置扫描全部文件,注意不要设置直接删除受感染的文件。l单击扫描按钮,进行病毒扫描。U 提示:每台服务器和维护台都要进行检查。人工扫描病毒需要耗费大量的CPU时间,因此必须在话务量小的时候进行,如0:006:00期间。1.2 突发性维护1.2.1 突发性维护处理流程1当现场人员收到用户的故障申告、或在例行维护检查中发现业务故障时,应立即收集故障的相关信息,初步判断是否为重大故障参照故障定级。2如果确认是重大故障,则立即向办事处或中兴通讯公司发出重大故障通告,开始进入重大故障处理流程。紧急重大故障处理流程图如图1.21所示。图1.21 重大故障处理流程图1.2.2 突发性维护处理方法出现重大故障后,如何以最快的速度定位故障,恢复业务,同时收集重要信息,便于研发分析。紧急重大故障处理流程图如所示。重大故障处理原则:在尽量短的时间内恢复业务;任何倒换、复位、重启等操作前必须保留故障定位和分析所需相关信息:打印,日志,告警,失败观察,性能统计,信令跟踪等。1当现场发生重大故障后,应在尽量短的时间内恢复业务。同时,在进行任何倒换、复位、重启等操作前,应按照要求打开打印,失败观察,信令跟踪等故障定位分析工具,保留故障定位和分析所需相关信息。对于计费类故障,则按照计费异常类故障的要求收集相关信息、进行故障处理。2在进行重大故障处理流程以后,应首先判断是否是全局故障。如果确认为全局故障,首先应检查MSCe、MGW单板是否存在故障。检查OMP、SMP、UIM、SIPIIPI等单板运行状态指示灯是否正常,如发现有RUN、ALM指示灯异常的单板,则根据单板类故障的要求收集相关信息,然后根据不同情况进行倒换、复位或重启处理。3如确认MSCe、MGW单板运行状态没有异常,则检查告警信息、网关状态,确认MSCe、MGW之间的状态是否正常。如异常则根据偶联类故障的要求收集相关信息、故障处理。4如MSCe、MGW系统内部未发现异常,则检查告警信息、动态管理信息,确认到网络侧重要局向(HLR、HSTP、GMSC、TMSC)的信令、承载是否异常,如果出现局向不可达,电路不可用等故障,则根据信令、局向不通类故障、承载链路类故障的要求收集相关信息、故障处理。5在使用告警管理、动态管理判断网络侧重要局向的同时,确认到无线侧重要局向(RNC、BSC)的信令、承载是否异常,如果出现局向不可达等故障,则根据信令、局向不通类故障、承载链路类故障的要求收集相关信息、故障处理。6使用数据区观察判断是否有数据区吊死,模块阻断等现象,如果是则根据数据区吊死的故障进行处理。第2章 故障处理& 知识点l 了解故障处理流程l 了解故障等级分类l 熟悉故障处理原则方法l 掌握典型故障分析定位方法2.1 故障处理流程故障处理流程如图2.11所示。图2.11 故障处理流程上述流程中描述了非重大故障的定位处理流程,对于重大故障,请于第一时间通知中兴通讯当地办事处或致电中兴通讯客户支持中心,并在中兴通讯技术支持人员的指导下操作设备。2.2 故障等级分类根据75183112005ZTE全球客户支持中心工作规程国内版,产品问题根据问题的严重程度分为关键问题、严重问题、一般问题三类,问题级别定义见75183112005ZTE全球客户支持中心工作规程国内版。为了更准确的判定问题级别,确定定级着眼点和思路,按照工作规程,现对产品问题定级依据作如下说明:(1)产品问题定级以问题显现的严重程度(现象和客观危害)为依据;(2)产品问题定级以问题对系统的功能或对客户的业务/服务造成的影响为依据(此处指的影响是指对功能的影响、对服务能力的影响或对系统的影响程度);功能影响:是指如“不能放号”、“不能记录话单”、“中继中断”、“无法完成*功能”等;服务能力影响:是指如“不能通话”、“不能上网”、“不能提供*业务服务”等;(3)产品问题定级一般不以问题紧急程度来判定,但不包括以下“因紧急而必须定为关键问题”的情况:“安全或应急能力的丧失(如:110电话)”、“可能造成对人身安全的危害(如:火灾)”;(4)产品问题定级不以问题发生的时间长短来判定;(5)产品问题定级不以导致该问题的原因为判定依据;(6)产品问题定级描述不以问题影响百分比为绝对依据来判定,但可作为经验建议值列举;(7)产品问题定级不以问题由谁承担责任为依据来判定;根据以上产品问题定级指导思路,不应根据原因、影响百分比、时间长短、紧急程度、责任方等为依据来定义产品问题的等级,问题定级仅仅是基于该问题带来的对系统的功能影响或对服务能力的影响的客观表现不同来分别定义不同的等级。可以在定义时提出某级别的产品问题造成的影响范围(如线数)的经验值,但该经验值不作为定级的绝对必然依据(定级时须结合该产品问题对整个系统工作造成的影响更接近关键问题、严重问题、一般问题的哪一种定义)。另,产品问题影响时长不作为问题定级的依据,而作为问题紧急程度的判定依据。2.2.1 关键问题(一级故障)l系统瘫痪,业务功能全部丧失l系统语音业务主叫全部失败l系统语音业务被叫全部失败lZXC10-MSCe或MGW多模块系统中两个(或两个以上)MP模块业务功能全部丧失lZXC10-HLRe多模块系统中两个(或两个以上)CPM模块业务功能全部丧失l前台MP意外丢失大于30分钟的原始话单文件,并且丢失话单文件无法恢复l大于1的原始话单出现错误且无法恢复l用户数据库中断(主、备机同时失效),且在系统设定时间内备用节点启用失败l使用产品造成的火灾l使用产品造成的人身伤害2.2.2 严重问题(二级故障)l互连互通中继电路全部中断l互连互通信令链路全部中断lZXC10-MSCe或MGW多模块系统中单MP模块业务功能全部丧失lZXC10-HLRe多模块系统中单CPM模块业务功能全部丧失l前台MP意外丢失大于10分钟的原始话单文件,并且丢失话单文件无法恢复l大于0.01%且小于1的原始话单出现错误且无法恢复l系统关键应用的备用/冗余节点故障,且无备件更换,如:MP、交换网板、服务器双机系统、小型机、业务处理机等2.2.3 一般问题(三级、四级故障)l互连互通中继电路部分中断l互连互通信令链路部分中断lA口中继电路部分中断或闪断lA口信令链路部分中断或闪断l互连互通中继电路部分中断或闪断l互连互通信令链路部分中断或闪断l非基本语音呼叫类的辅助业务异常l前台MP意外丢失小于10分钟的原始话单,丢失话单无法恢复。l小于0.01%的原始话单出现错误且无法恢复。l操作维护服务器无法实现日常维护管理2.3 故障处理原则方法2.3.1 故障处理原则在处理故障时,结合故障处理流程,应该遵循一“查看”、二“询问”、三“思考”、四“动手”的基本原则。1查看首先查看出现故障的现象,即查看设备的哪一部分出现故障,有何种告警产生,严重程度如何,造成多大危害等,才能透过现象看本质。在查看现象时,可以利用系统提供的多种工具,如性能统计、信令跟踪、告警查询、日志查询、业务观察。2询问观察完现象后,应询问各阶段现场人员,是何种原因造成了此故障,比如是否有人修改了数据、删除了文件、更换了电路板、停电或雷击、误操作等等。3思考根据现场查看的现象和询问的结果等,结合自己的知识作思考、分析,判断何种原因可能引起该种故障等,作出较为正确的判断。4动手根据前面三个步骤找出故障点,通过修改数据、更换电路板等手段解决、排除故障。在正式操作设备时,必须要考虑是否处在忙时,在忙时操作的潜在后果。不清楚的地方,一定要咨询中兴通讯的技术支持人员。U 说明:故障处理,除了需要按照原则处理外,扎实的技术基础和对日常维护工具的熟练使用才是最重要的。2.3.2 常用故障处理工具1故障管理故障管理工具提供了系统的各项告警和通知信息,可以让维护人员第一时间知道故障的发生,为判断解决故障提供依据。2配置管理配置管理提供了对系统的数据配置,同时也提供动态管理工具,可以对中继电路和信令的状态进行监测和更改,可以对交换网资源和音板资源等进行管理操作,是日常维护和故障处理时最常用的工具之一。3信令跟踪信令跟踪工具可以对系统中涉及到的信令进行跟踪,可以跟踪BSSAP、CC、VLRMAP、MSCMAP、HLRMAP、TM、TUP和MTP消息等,既可以对单个用户进行信令跟踪,也可以对全部用户或信令链路进行跟踪,是判断和解决问题的利器。4业务观察业务观察工具可以对系统中产生的各项失败进行跟踪,通过详细的失败原因描述直接指出业务失败的原因,结合信令跟踪工具,可以解决日常大多数故障。业务观察工具还可以观察到系统的各数据区的占用情况,提供故障定位分析解决依据。5性能统计性能统计可以统计系统运行参数指标,通过对指标的分析,可以更好的对系统的故障和运行情况进行分析。6诊断测试诊断测试是检查判断硬件故障的有效工具,可以很方便的检查出单板的故障。2.3.3 常用故障处理方法本节主要用于指导在紧急故障发生时,如何快速将故障定位到CDMA系统的各实体(MSCe、HLRe、BSC)或外围模块,以便缩小故障范围,减少故障处理时间,防止对实体的误操作引起故障扩大。本故障定位指导方法,是通过直接的测试和观察,依据系统相关的工作原理而编写的,具有较大实用性,能够定位大多数紧急故障。当然,本节并不能包罗全部紧急故障,对于个别疑难问题,本节指导方法可能不适用,需要现场和后方共同定位故障。同时,本节也提供了一些方法,指导现场较全面采集有效故障信息,准确及时地反馈给后方,从而有利于后方迅速分析定位故障并指导前方解决故障。 语音呼叫测试方法在用户收到故障反馈或投诉时,一般需要先进行验证测试。其中,拨打测试是最常用并且最直观的方法。1通过拨打定位故障的方法(1)准备一部普通用户手机和WIN用户手机,这两部手机在故障发生后没有进行过开关机操作,并且一直开机;(一直开机的目的是确保用户登记在VLR)(2)分别使用这两部手机作主叫,呼叫PSTN或GSM用户;(3)分别使用该手机作被叫。2语音测试结果判断(1)如果CDMA手机呼叫PSTN或GSM用户均能够呼叫成功;则此时故障大多在HLRe;但依然需要进一步测试,如果此时CDMA手机作被叫不成功,则问题基本可以确定在HLRe。注意测试时,为避免信息不全面,最好多准备几部CDMA手机测试。(2)如果CDMA手机呼叫PSTN或GSM均不成功,并且CDMA手机作为被叫也不成功,则故障大多在于MSCe或BSC,此时可以结合信令跟踪、失败观察继续排查,确定故障是MSCe还是BSC,例如MSCe给BSC发送信令消息后,如果BSC没有回响应消息,则故障可能在BSC,如果MSCe没有给BSC发信令消息,则故障可能在MSCe等。(3)如果普通用户手机呼叫正常,而智能网用户呼叫异常,则一般故障发生在SCPe。此时也可以结合信令跟踪进行进一步确认。比如当SCPe故障时,由于主叫或被叫时,MSCe需要和SCPe交互信令,SCPe发生故障时,MSCe没有收到SCPe返回的响应信令消息等。 告警检查判断法告警信息和通知直接反映了系统的运行情况。紧急故障发生时,可查询告警信息或通知来定位故障。如果在MSS故障管理系统的当前告警中如存相关告警,则相应子系统可能存在紧急故障。 性能统计数据观察法性能统计数据中试呼次数、系统接通率、语音接通率几大指标直接反映了MSCe的运行情况。随着MSCe系统结构的日益复杂,出现的故障越来越隐蔽,利用各个模块的性能统计数据,来判断故障发生的模块。 数据区观察法有些紧急故障是由于数据区占用异常引起,有的数据区资源被大量占用,导致系统申请不到数据区资源而导致业务失败;有时系统无法占用数据区,同样业务也不能完成。l根据数据区占用情况判断(1)如果某个模块的某一个数据区使用率接近100,使用数接近数据总数,则该模块可能存在问题;(2)如果某个模块所有数据区使用率一直为0,则该模块可能存在故障。l在紧急故障时可以观察的数据区 失败观察统计法失败观察能够把当前失败原因记录下来,因此通过记录失败观察可以为紧急故障恢复后的故障原因分析提供参考。因此,在紧急故障发生时,打开失败观察以记录失败原因。 信令跟踪法信令跟踪对于定位故障也非常有用。单用户跟踪时,如主叫流程中跟踪BSSAP、VLRMAP、MSCMAP等,对于被叫可以跟踪HLRMAP。对于信令跟踪分析,需要一定的技术基础,平时务必掌握呼叫流程。 辅助测试法l受理台测试当CDMA手机作被叫不成功时,此时在HLRe受理台上查询或修改用户数据,如操作不成功,则一般是HLRe数据库连接故障。l局域网网络检查当局域网内广播风暴发生时,各节点之间通讯不正常,对于HLRe系统,由于用户数据库服务器和业务处理机之间不能通讯,则被叫业务受到影响。检查方法:通过客户端ping 其他节点的IP地址,检测是否丢包;查看SWITCH的端口状态指示灯是否为绿色并且闪烁正常(不是快闪)。l诊断测试通过系统的诊断测试工具的“模块间即测”,测试MSCe的模块间通讯,进而判断模块间通讯是否正常。2.3.4 常用故障信息采集在MSS的性能统计中,采集发生故障前两天至当前的性能统计数据,以“最小粒度、不平均、按模块”方式采集,保存为文件以后,压缩打包发回。注意,如要采集当日的数据,必须在性能统计界面上,选择“刷新数据”。2.4 典型故障分析定位方法本节对常见的一些故障进行了初步的原因分析,给出了可能的原因和分析解决思路。现场的情况很复杂,对有些故障可能真正原因并不能在本节给出,还需要通过现场全面采集有效故障信息,反馈给后方,由现场和后方共同定位故障。2.4.1 硬件问题当系统的硬件出现问题时,故障管理工具中都会有相应的故障告警信息,通过告警信息,我们可以进一步检查并查找出问题的原因,并采取相应的措施来解决问题。 数字中继单元控制故障某一槽位上的数字中继控制单元故障,一般是因为系统未检测到该板件引起的。产生原因可能是:(1)该槽未插数字中继板;(2)该数字中继板掉电;(3)所插单板与配置类型不一致,如配置类型为DTB板,但插上了DTEC板;(4)板件损坏;(5)HW线接错或未接HW线。根据可能产生的原因进行检查,如果不是因为未插单板或插错单板,则可以通过更换单板来处理,如果更换单板后故障消失,则原因是单板损坏,如果更换新的单板后故障依旧,则需要检查一下HW线的连接和配置。 交换网板故障故障管理工具中报相应的故障信息,主备交换网板中的一块出现故障。当有一块板故障时,虽不影响交换设备的正常运行,但降低了设备的安全性。值得注意的是,这个告警信息产生并不一定是硬件的问题,需要根据告警信息的恢复情况来判断。如果告警信息一直存在,则表明很可能是单板硬件故障,可以通过更换单板来处理;如果告警信息很快恢复,则是因为网板在运行过程中出现故障自动复位导致的告警,这时需要现场采集相应的日志信息和告警信息并反馈回中兴通讯CDMA事业部获得技术支持。 备用MP故障在正常运行时,备用MP与主用MP同步运行,两个MP的运行指示灯处在同步闪烁状态。若备用MP故障,则备用MP的运行灯不会闪烁,并且告警灯会亮。其产生原因一般是备用MP没有正常启动或备用MP启动后,交换处理任务没有正常启动。处理方法是接上显示器,并进行启动观察,判断MP启动时的问题还是版本运行的问题,确定问题后可以通过更换MP或重新制作MP等方法来进行处理。 计费服务器中,话单数据写磁盘失败计费服务器在将话单写入磁盘阵列时操作失败。话单在MP中产生后,实时传到计费服务器中,由计费服务器负责暂时保存和提供接口供计费中心读取。如果计费服务器中话单数据写磁盘失败,那么计费中心不能提取话单。对于正常运行的计费系统突然出现磁盘写操作失败故障,一般有以下原因:(1)磁盘写保护:由于用户访问权限不足或误操作造成;(2)磁盘不可访问:因掉电、磁盘阵列故障、服务器磁盘阵列驱动失效、磁盘阵列未被主用服务器正确接管等造成;(3)磁盘空间不足:磁盘空间虽未小于200M,但话单文件大于剩余空间时同样会造成本故障。根据可能的原因进行检查处理即可。2.4.2 系统运行问题 光接口板告警模块间通信是通过光路进行的,光接口板出现故障往往会引起模块间通信问题,从而影响交换机的正常运行,因此不能掉以轻心。当光接口板出现告警的时候,请依次检查时钟基准、连接光纤和光板是否有问题,针对发生故障的部分进行处理。 告警服务器与MP通讯断前台产生的各种告警是由MP传送到告警服务器上(一般告警服务和后台操作维护服务器合设一个,也称为129服务器),再由告警服务器发送到各操作维护台上。一旦出现此告警,则意味着后台与前台失去联系,系统无法监测到前台的运行情况,这种情况是极为不利的。请依次检查MP是否正常运行,检查网线和HUB工作是否正常;检查告警服务器的网卡是否有故障。并根据检查结果进行处理。2.4.3 业务问题 投诉处理的一般流程1接听用户投诉时,应当尽可能收集如下信息:故障现象、故障发生地点、故障发生时间及持续时长、出现频率、手机类型、呼叫的号码、联系电话、是否愿意配合测试等。2通过听、问等手段进行初步分析,判断是语音质量问题还是用户业务功能问题,是MSCe问题还是HLRe问题,是本地用户还是漫游用户,是主叫问题还是被叫问题,根据以上的判断可以结合相应的工具进行分析。3打开业务观察失败观察,设置过滤,可以用MIN号码或失败原因等类别过滤MSCe业务观察、VLR业务观察,判断用户是否欠费、是否是非法用户等,同时必须通过MIN、ESN、时间等证实跟踪的是当前需跟踪的用户。4使用信令跟踪,用MIN号码及MDN号码对用户进行单用户跟踪,可以根据需要打开BSSAP、MSC_MAP、VLR_MAP或其中一项进行跟踪,结合业务观察检查用户的呼叫流程,进行分析。 注意:不要打开全用户信令跟踪,由于消息量很大,会导致系统在短时间内负荷急剧上升。 空号问题1问题现象主叫时听到语音提示为空号。2问题来源空号产生的原因有以下几种:(1)用户所拨的号码非法或错误,MSCe号码分析结果为空;(2)用户拨的号码正确,MSC号码分析配置遗漏;(3)被叫号码确实是空号;(4)被叫号码被呼转到空号;(5)网间互通时,对方网络送回空信令或语音提示。3问题分析与定位出局的空号流程有两种:(1)主叫送出IAI后,被叫回ACM,此时主叫听到对方交换机放的空号音,如果IAI中送的被叫号码正确,问题可以确定是对方交换机或网间其他交换机未放号的原因。(2)主叫送出IAI后,被叫回UNN,此时主叫听到本交换机放的空号音。其中(1),(2),(3)类原因在TUP信令中一般跟踪不到消息,可以通过失败观察分析,从主叫拨打的号码和出错类型可以判断。第(4)类原因可以通过信令返回的消息判断。第(5)类原因从投诉的描述来看可能比较奇怪,有时正常有时报空号,这时应该检查HLRe用户数据是否激活了呼转,是否转移到空号。第(6)类原因主要检查TUP信令,配合对方一起解决。4问题处理方法确定不是由于用户原因造成的空号,然后检查相应的号码分析配置数据。 暂时无法接通1问题现象主叫时听到语音提示为暂时无法接通。2问题来源暂时无法接通原因有以下几类:(1)手机存在脱网现象,由于时间较短,用户可能没有注意到。当MSCe向手机发出寻呼时,手机出现脱网,MSCe向被叫手机发出寻呼之后没有收到寻呼响应,所以主叫听到“暂时无法接通”。(2)有些基站前向发射功率过高,给一些边远用户信号较强的错觉,而手机反向功率达不到要求,所以当这些用户做被叫时,也会出现“暂时无法接通”。(3)在信号很差的地方,或是边界地方可能会发生“暂时无法接通”。(4)网间互通时(包含异地133呼叫)TUP发出IAI时,对方回CFL(后向建立失败)。CFL是在PSTN,C网内,C网与G网互联等各种情况下,TUP无法就某一原因给出准确信令时唯一能表示的消息,目前MSCe收到CFL就会播放“暂时无法接通”,当然可以通过放音配置修改为其他提示。3问题分析与定位如果是信号问题,可以在BSSAP的信令跟踪中看到有寻呼发到BSC,但BSC没有寻呼响应返回。如果是网

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论