中兴交换机故障分析.doc_第1页
中兴交换机故障分析.doc_第2页
中兴交换机故障分析.doc_第3页
中兴交换机故障分析.doc_第4页
中兴交换机故障分析.doc_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ZXJ10交换机故障预防中兴通讯网络事业部南京用服部目 录1. 病毒感染12. 网络风暴23. 传输故障34. 对端设备问题45. 雷击56. 日常维护56.1 服务器C盘空间不足56.2 服务器数据库空间不足66.3 数据未及时备份76.4 数据未及时转储86.5 机房环境不符合要求86.6 线缆松动97. 机房停电108. 误操作118.1 数据配置误操作118.2 硬件操作不规范129. 未购买维保服务13- 15 -前言随着消费者对通讯服务要求的日益提高,要求我们的通讯设备能够稳定运行,并且在出现业务中断后能迅速恢复。目前很多故障是由于没有很好的预防导致的,如果能够进行有效预防,则可以大大降低故障发生的概率,并且即使在故障发生以后,也能尽快的恢复业务。下面对常见的会引起重大故障的情况以及预防措施进行介绍,希望能给各个局予以参考。1. 病毒感染 故障现象:1服务器或操作终端反应速度慢,无法正常操作;2后台程序无法正常运行,报错,或自动退出;3计费服务器不能正常登录或计费进程不接收话单,导致立即计费、IP超市不能正常使用;4鉴权服务器不能提供实时的服务,造成鉴权、拦截等业务呼叫失败;5破坏数据库,尤其是计费库,使数据丢失;6 话务台、网管前置机等后台终端不能正常使用。7计算机自动重启。影响范围:1 影响计算机的正常操作,不能进行正常的日常维护;2 影响实时的业务,如立即计费、鉴权等。3影响到话务台、网管前置机等终端。预防措施:1安装中兴通讯指定的防病毒软件,并定期更新病毒库,定期进行全盘病毒扫描;2操作系统、数据库打最新的补丁;3安装中兴通讯自主研发的网络安全软件,对关键程序、系统进程实时监控,防止病毒感染;4后台网络与大网隔离,防止外网病毒入侵;5不在ZXJ10后台维护网络上安装、使用其它无关软件;6不使用其它媒介(U盘、移动硬盘、软盘等)对服务器和终端进行操作;7定期作好数据备份,包括交换机数据和计费设置数据等,以便万一出现故障后能够进行迅速恢复;8加强机房操作维护人员管理,强化防病毒意识。案例1:现象:XX局ZXJ10V10交换机的IP前置机计费操作失败,影响结算。处理:检查发现前台积累大量的话单文件,无法完全及时的传送到后台,并且后台话单文件无法进行入库操作,后台计算机反应速度非常慢。经过检查是因为计费服务器感染病毒引起的,该病毒的名字是wom.lovegate,通过杀毒,故障恢复!点评:该故障就是因为没有做好防病毒工作导致的,由于本局没有立即计费、IP超市、鉴权等实时业务,因此影响还不是很大,只是影响了正常结算和话单及时接收,如果存在上述业务,则影响就很大了,因此平时必须做好病毒预防工作。案例2:现象:XX局ZXJ10V10交换机的计费服务器出问题,影响8个点的话吧业务。处理:经检查,是由于计费服务器染病毒不能正常启动,立即计费终止,话吧用户不能正常使用,杀毒后正常。点评:这是一起有实时计费业务的案例,对业务的影响就比较大,话吧无法营业。2. 网络风暴故障现象:1交换机前后台不能正常通信。2前台MP自动重起;3MP的CPU占用率高,呼叫困难;4计算机速度慢,终端不能从服务器获得数据,或获取数据的速度很慢。影响范围:1前后台通讯;2前台MP;3后台服务器及操作终端。预防措施:1后台网络与大网隔离,防止广播风暴;2作好防病毒工作。3操作系统、数据库打最新的补丁;案例:现象:XX局ZXJ10交换机MP不能正常启动。处理:询问现场情况,两个MP均不能正常启动,和服务器通讯中断,将后台网络断开并重启MP后,正常。点评:事后经分析相关跟踪文件,发现是网络风暴引起的,该交换机的后台维护系统与其它网络相连,当有网络风暴产生时,会直接影响到MP与后台的通讯,并影响到MP本身的工作。3. 传输故障故障现象:1模块间通信中断;2模块间通信瞬断;3远端用户单元通信阻断;4局间业务中断;5模块间、局间电话杂音等。影响范围:1模块间电话业务;2局间电话业务。预防措施:1加强传输设备的定期检查维护,对于隐患要及时排除;2对传输设备进行割接或维护后,要立即对经过该传输设备的所有业务进行测试,及时排除故障,消除隐患;3电话用户出现业务故障后,不仅要检查交换设备,还要迅速检查传输设备,以减少影响的时间;4在作传输设备割接等工作前,通知到相关的设备主管部门,以做好防范和通信保障措施。案例1:现象:XX分公司XX端局ZXJ10下挂一个模块中断,影响约五百用户。处理:经过了解现场情况,该中断的模块内用户可以互相拨打,DTI板状态正常,在DDF上给DTI环回也正常。查传输通道有问题,处理后,模块间通信恢复点评:由于现场及时检查了传输,使得问题较快定位。案例2:现象:XX局ZXJ10反映拨打一个局向电话不通。处理:局内可以正常拨打,该局向电话不能呼入呼出。经查,系传输中断,处理后,恢复正常。点评:这是一起传输问题引起局间电话不通的案例,因此,首先保障传输安全,才能保障通信畅通。4. 对端设备问题故障现象:1对端误操作,数据配置错误,导致业务不通;2对端设置了电路闭塞,导致中继不通;3对端做了电路自环,影响中继业务和信令;4对端做了升级、重组网、搬迁等中断业务的操作,影响本端业务。影响范围:视对端的操作情况而影响不一样,可能会影响本端部分用户,或某个局向的电话业务。预防措施:1在修改数据时要考虑到对各邻接局向的影响;2在某个局进行设备割接、升级等工作前,能够通知到其它各邻接局,使各方能有所准备;3出现故障后,及时与对端局沟通,双方配合,缩短中断时间。案例:现象:XX局某个局向业务中断处理:经了解该局出中继为PRA,对端局做数据时将对应PRA中继的30B+D用户置为欠费。让对端局将该30B+D用户欠费标志取消后正常。点评:这是一起对端误操作的案例,在这起案例中,对端局在修改数据时没有考虑到对其它局的影响(也可能是误操作),从而导致电话不通,因此在做数据时要考虑到对邻接局向的影响,并且在修改数据后要及时拨打测试,一旦出现故障需尽快查明原因,并进行恢复处理。5. 雷击故障现象:雷击后,部分单板损坏、部分后背板损坏、部分线缆损坏,导致该模块部分单元或整个模块电话不通。故障范围:本模块部分用户或全部用户。预防措施:1保证设备接地良好,接地电阻符合邮电部机房环境规范;2按中兴通讯提供的防雷改造方案,对设备进行防雷改造;3对于雷击多发地区,要准备备板备件,以便雷击后能迅速进行部件的更换;4设备所在的机房要符合邮电部相关机房防雷规范。案例:现象:XX局ZXJ10模块间通信阻断,有1000多用户只能内部通信。处理:检查发现,因雷击导致COMMA板故障,影响模块间通讯,更换故障单板,问题解决。点评:该局没有做防雷改造,机房也没有很好的防雷措施,导致雷击时更易出现设备损坏,庆幸的是,现场及时提供了备板,使中断时间不是太长。6. 日常维护6.1 服务器C盘空间不足故障现象:1程序运行错误,不能正常运行;2计算机启动后程序不能正常运行,或速度很慢。影响范围:不能进行正常的后台操作维护。预防措施:1作好日常检查工作,检查服务器C盘(系统盘)的剩余空间,保证C盘剩余空间不能少于500M;2不要在计算机上,尤其是C盘上安装其它软件;案例:现象:XX局服务器数据库出错,后台无法运行。处理:现场检查时发现,C盘的空间只有200M左右,空间已不能使程序正常的运行了,且交换机的运行程序目录也已被删除(可能是在处理中误删除了),只能重新对后台进行安装,安装过程中还出了一些报错,经过处理,最终安装成功,故障消除。点评:由于C盘空间太小,本来只需要删掉一些无关的程序即可,但用户在现场处理时又将C盘上ZXJ10维护系统目录误删除,导致故障范围加大。本故障的根源是在C盘上安装了太多的程序,导致C盘剩余空太小造成的,因此如果平时能注意C盘空间,在出问题后能正常处理,则不会出现该案例中的一系列问题。6.2 服务器数据库空间不足故障现象:数据库满,相关的业务中止。影响范围:后台服务器、相关业务。预防措施:1合理分配数据库空间,对于计费库,要根据话单量进行数据库空间的分配,保证可以保存三个月以上的话单;2定期检查数据库空间,对于即将满的数据库要分析原因,如果是本身空间分配比较小,则要做扩库操作,如果是因为过期数据没有及时删除,则需要进行及时的清理。3不要在计算机上安装其它软件,占用硬盘空间。案例:现象:XX局ZXJ10V10大面积话吧出现拨号完之后立马出现忙音现象。处理:检查发现计费服务器130的计费库已满,一年前的话单还存在。将计费库由4000M扩到6000M,并将过期话单清除后故障解决。点评:由于硬盘空间和数据库空间有限,随着话单的不断增加,总有一天硬盘空间或数据库空间会不够,因此,在日常维护中,要定期检查硬盘和数据库空间,对于过期话单,要及时清理。该局的计费库空间其实是足够的,主要是历史话单太多,没有及时清理,如果能够及时清理话单,本次话吧不能拨打的情况可以避免。6.3 数据未及时备份故障现象:后台数据库或者后台服务器崩溃后不能及时进行数据的恢复,延长了业务中断时间。影响范围:全局业务或计费系统。预防措施:1定期人工备份交换机的后台数据和计费设置数据,数据备份到不同的介质;2定期人工备份IP超市系统数据;3设置交换机后台数据自动备份功能;案例:现象:XX局,立即计费系统无法正常工作。处理:查询数据库,发现JYSYS被置为可疑状态。经过长时间的努力,最终解决问题。该局用户没有养成备份数据的习惯,另外计算机也可能染有病毒。点评:出现问题后,一个简单的有效的方法就是重装服务器,将备份数据恢复即可,但由于用户没有养成备份数据的习惯,现场的计费设置数据还是很久以前备份的,已经没有使用价值,如果重新设置则工作量太大,并且也记不清到底是怎样的设置了,因此现场只能是解决JFSYS置疑问题,从而花去了大量的时间,影响了立即计费等业务。在本次故障处理中,也发现了计算机存在病毒,这也是导致计算机数据库故障的原因之一。6.4 数据未及时转储故障现象:当MP重启或设备突然掉电,造成数据不正确(恢复到转储前的数据),影响业务。影响范围:根据未转储的数据不同,而造成的影响也不一样。预防措施:1通常是ZXJ10V4.X交换机有此问题,ZXJ10 A型交换机数据配置后,数据存于内存中,必须进行转储才能将数据保存到硬盘文件中,因此,进行数据修改后,需要及时进行数据转储。2对于ZXJ10V10交换机,动态数据会定时转储,但如果做了动态数据后需要重启MP,则也需要进行动态数据转储,防止动态数据失。案例:现象:XX局MP数据丢失,所有电话无法入局,出局正常。处理:A及B两地专网交换机MP出现过倒换,而用户没有养成转储数据的习惯;这就导致数据丢失,造成局码不对,通过创建本局局码及升位本局局码等手段将局码改成正确局码,大部分业务恢复。点评:该局是一个ZXJ10 V4.X版本的交换机,由于没有及时转储,造成数据丢失,花了好多时间和精力进行补救,并且还影响了业务,很不值得。因此平时一定要在做数据后进行转储,并且能定期将前台数据备份到后台不同介质中,防止MP损坏等意外发生后能够及时恢复业务。6.5 机房环境不符合要求故障现象:环境不符合信产部通信机房环境要求;温度过高或过低、湿度过大或过小、灰尘大、振动大、接地不良等。影响范围:机房里的通讯设备及辅助设备。预防措施:1 严格按照信产部通信机房环境要求对机房定期进行检查整理,形成制度;2 定期清洗板件、防尘网。案例:现象:4K一体机出现5框POWA起不来,用户无法使用业务处理:因该机房灰尘较重,设备长时间运行后,板内积灰很多,导致MTT板内电路短路,进而影响该框电源板工作,使该单元通讯中断。观察机架内的电缆连接,未见异常和错误之处。第四框右边POWER_A故障指示灯点亮,此板已故障。拔出此故障板,插好其他单板,设备工作正常。故障消除,通讯恢复正常。点评:机房防尘和除尘是一个基本的日常维护工作,如果机房里灰尘太多,会导致单板或线缆接触不良。长时间积尘,还会导致电路老化,形成短路等现象,这个局“板内积灰很多”,是没有做好机房环境整理的结果。6.6 线缆松动故障现象:部分单元通信中断,业务受影响。影响范围:部分单元,与这些单元相关的话路、信令等。预防措施:1工程实施后注意检查电缆,避免松动;2在进行日常维护、设备卫生清理后注意检查电缆,避免松动;3定期检查,保证电缆整齐、规范。案例:现象:XX局交换机故障处理:到现场看设备的状态,发现,MPPP板亮红灯,说明MP与PP的通信出了问题,把MP到MPPP的通信线重新插了一下,告警消失。点评:本局可能是在日常维护中碰到了线缆,导致线缆松动,因此在日常维护中,要注意检查线缆是否插紧,是否绑扎好,在出了故障以后,除了检查数据、单板外,还要检查后背板上的线缆。7. 机房停电故障现象:1机架停电,来电后设备加电,违反交换机各机框的上电顺序,导致板件损坏或数据加载错误,影响业务。2后台停电,服务器中断,非正常关机,来电后计算机起不来,或者某些程序运行不起来。计费服务器等不能提供实时的服务,鉴权服务器不能提供实时的服务等。影响范围:1本模块;如果是中继模块则影响到出入局;如果是中心模块则影响到模块间通信;2本服务器,立即计费、鉴权、IP超市等。预防措施:1交换设备要有后备电源,并且保证使用正常,后备电源要有足够的容量,能够支持设备运行的时间足够长;2后台服务器要配有UPS,防止计算机突然掉电;3对于有实时业务的服务器,要和交换设备共用电源,配备逆变器供电;3定期数据备份,防止突然停电导致MP故障或后台服务器故障后数据丢失,以便及时恢复;4重要单板适量备份,以便由于突然停电造成单板损坏后能够迅速更换部件,恢复业务;5按照电池维护规程进行,定期充放电。案例1:现象:XX局交换机XX远端模块MMF后背板故障处理:用户反映近期停电频繁,XX远端模块的MMF层电源板处打火,收号器不能工作,用户不能呼出。与用户到现场对后背板烧MMF进行更换,接上电源,该层板件正常,进行呼叫试验也正常。点评:程控交换设备是精密的电子设备,由于频繁的停电,造成设备经常非正常掉电上电,容易造成设备的损坏,因此对于这种经常停电的机房,尤其需要配备后备电源,并保证其能够正常工作。案例2:现象:XX局ZXJ10设备起不来,有一个模块局间用户无法通话,大概有2000用户无法打电话。处理:用户反映,昨晚下雨雷击后停电,现在发电后设备已有电,接线员说各单板状态RUN灯看着正常。安排人员前往现场,发现有一块COMM板(MPPP)有告警,复位倒换后正常。点评:由于设备是非正常开机的,单板的运行可能会受到影响,产生不可预见的后果,导致业务不通。案例3:现象:XX局交换机配套电池损坏处理:确认是电池寿限问题,电话只有100多门。建议客户自行购买电池更换。点评:电池也需要维护,需要定期充放电,否则时间长了会失去作用。8. 误操作8.1 数据配置误操作故障现象:数据制作生效后,部分业务或全部业务异常。影响范围:部分用户或全局用户。预防措施:1做数据前进行数据备份;2做数据要求仔细、传数据前需认真检查、对于每个操作要理解它的含义;3加强技术培训和学习;4数据要规范配置。案例1:现象:XX局接入网从汇接局进来的电话不能接通。处理:XX局接入网局到中兴汇接局的中继建立在3号模块上,分布在3块DTI板上,3号模块上同时还有到长途的中继,打开话务统计查看,正常。试着复位COMM板和倒换3号模块的MP,没有任何改善。从回送的信令来看,可能是进行了中继鉴权或是呼转。查看中继上的标志位,发现此中继果真将呼叫鉴权上打了勾,去掉后恢复正常。查看操作维护日志,为28日上午10点多改了中继标志位。点评:用户在做数据时,可能不理解这些标志的含义,导致问题。因此需要在理解的情况下进行数据的配置,不能盲目进行操作。案例2:现象:XX局部分模块电话打不通,内部可以打通,通过现场故障复现,发现是部分局向中继出向闭塞,导致局内用户呼出困难。处理:怀疑和七号数据有关,仔细检查,发现该局的其他局向都是准直联,但是在交换局配置中都配成了直联,重新修改上述数据,然后传2模块全部表,传完后测试一切正常,故障隐患消除。点评:这是一起数据与实际情况不符合的案例,在进行数据配置时,要能够了解现场组网情况,以便数据与实际相符,避免不必要的故障。8.2 硬件操作不规范故障现象:操作后部分业务或全部业中断。影响范围:根据用户误操

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论