RNC常见故障处理设备篇_第1页
RNC常见故障处理设备篇_第2页
RNC常见故障处理设备篇_第3页
RNC常见故障处理设备篇_第4页
RNC常见故障处理设备篇_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、RNC设备类故障处理,中兴通讯学院 XXX团队,学习目标(必选),学习完此课程,您将会: 了解导致RNC硬件问题的常见原因。 了解RNC常见故障处理手段与方法 通过案例学习,掌握故障处理思路,课程内容,常见故障分类 常见故障处理排查思路 典型故障案例 ,故障分类,时钟类故障:主要包括各类基准时钟丢失、锁相环失锁等等; 启动类故障:单板无法启动、单板反复重启等等; 传输类故障:告警察看出现链路故障或者链路滑码告警等; 前后台同步和版本升级类故障:包括前后台数据的同步不成功以及升级过程中版本激活异常等; 其他类故障:这些故障包括由于系统设计不足或者技术人员操作不当导致的故障等等。,故障分类,各类故

2、障原因简介,课程内容,常见故障分类 常见故障处理排查思路 典型故障案例 ,时钟类故障处理,RNC时钟处理机制,时钟处理机制,三种时钟接入方式:GPS接入、BITS时钟接入、线路时钟提取 完成时钟同步锁相、时钟分发功能 CLKG单板对外提供15套系统时钟(包括:PP2S、8K、16M)至各资源子系统,采用电缆传送 CLKG单板提供10套(8K、32M、64M)时钟给T网的单板使用 单板采用二级钟晶振 在丢失基准后,采取保持(KEEP)策略,保持时间很长,可到半年以上,在保持中,由人工根据基准情况选取合适的时机进行切换 RNC一般采取Iu口线路时钟提取方式,时钟类故障处理关键点,目前从CN提取时钟

3、的端口可配置,默认为APBE板的4号光口(第一个口),可以根据实际和CN连接的端口进行修改,修改位置在APBE板上点击右键菜单,选择修改,在单板的“基本信息”页面里面,有线路时钟基准,数值有03,分别对应APBE端口47。 检查RNC时钟线缆连接,看从APBE板过来的时钟线连接到CLKG后插卡的8KIN1还是8KIN2,现在默认是8KIN1,后台网管上配置需要和前连线一致。 如线缆连接到8kin1,则将后台“配置主用时钟基准”为8kbase,“所有时钟基准”只有8kbase。如是8kin2,则上述两个配置应该都为8KGPS。 目前TDRNC时钟单板并未实现主用时钟基准功能,更没有实现优先级切换

4、功能。 “配置的所有时钟基准”参数只是配置了OMP上面的时钟管理模块和告警模块,作用是为了能够检测前台时钟丢失的现象,并不是启用某个时钟基准。CLKG单板获取当前时钟基准并不受后台参数的影响。,启动类故障处理,BOOT不对(没有插紧或者没有烧对,插错) 逻辑未烧或者错误 版本文件错误或者缺少版本 版本和数据库中的版本对应不上 内存条未插好、损坏或者硬盘等硬件损坏 IP地址冲突或者数据设置错误 机框拨码错误,启动类故障产生原因一般有以下几个因素导致:,传输类故障处理方法,故障排查检查事项 检查设备间物理连接的正确性。 主要是检查所对接的两个设备之间的电缆正确性,防止电缆的漏焊、虚焊、接触不良,特

5、别是要防止电缆的混线。电缆混线会在两处设备侧产生一些异常现象,所以一定要首先保证物理连接的正确性。 检查双方对接设备的接地和共地情况如果设备接地不好,将会直接影响对接。接地存在的问题通常为:两个对接的设备未能真正的共地; DDF配线架未按要求接地。要检查两个对接设备的共地情况,可测量两设备的接地点之间电阻的大小或两个接地点之间有无电位差。对接不成功时请重点检查两设备是否真正共地。许多对接不成功的的现象,最后的原因都是两个设备未能真正的共地。 检查同轴端口的屏蔽层接地75非平衡式同轴端口的外导体(即屏蔽层)常规的接地方法是发端接PGND(保护地)、收端悬空(或接PGND)。可用万用表测试同轴端口

6、的屏蔽层与设备PGND之间的电压,就可以大致判断出同轴端口屏蔽层的接地方式。如果屏蔽层接地不好,会由于两个地(BGND、PGND)之间存在电位差和交流干扰,从而影响信号对接时的波形,导致对接不成功。对接不好时要检查双方设备的同轴端口屏蔽层的接地方式是否一致( PGND指保护地,BGND指工作地),传输类告警表现形式以及处理方法,后台一直存在且不恢复告警处理方法 如有LOS(信号丢失)告警:首先检查本端设备E1电缆连接是否正常,收发连接是否正确,DDF配线架上E1线连接是否正确。如果这些都正常,请传输检查发送给本端的信号是否正常。 如有AIS(告警指示信号)告警:首先确认该条E1有没有进行对接,

7、如果没有进行对接,请在配线架上自环该条E1或者取消该子单元的配置。如果有对接局向,请对端局检查跟传输设备的连接情况。 如果有LOCMF(复帧失步)告警:请确认两端配置的帧格式是否一致。 如果有RAI(接收远端告警):检查本端的发送是否正常,请对端看对应的告警信息。如果确认本端发送正常,对端接收有相应告警,请传输配合查故障原因。,不间断频繁上报又马上恢复的告警处理方法 如有LOS(信号丢失)告警:首先检查本端设备E1电缆连接是否正常,收发连接是否正确,DDF配线架上E1线连接是否正确,是否接触不好或者有串线。如果这些都正常,请传输检查发送给本端的信号是否正常。 如有AIS(告警指示信号)告警:这

8、种情况本端设备正常,请对端局检查跟传输设备的连接情况,传输设备上是否有相应的告警。 如果有LOF(帧失步)、LOCMF(复帧失步)告警:首先检查本端设备E1电缆连接是否正常,收发连接是否正确,DDF配线架上E1线连接是否正确,是否接触不好或者有串线,配线架上静电地是否正常。如果这些都正常,请对端也检查这些内容。 如果有RAI(接收远端告警):检查本端的发送是否正常,请对端看对应的告警信息。如果确认本端发送正常,对端接收有相应告警,请传输配合查故障原因。如果对端没有相应告警信息或者看不到,进行环回诊断。 述方法都不能解决故障,需要逐级进行环回诊断。如果环回诊断查不出原因,需要逐级挂表定位,传输类

9、告警表现形式以及处理方法,某个时间段集中上报并恢复的告警 需确认该时间段对端局是否有相应操作,中间传输设备是否有相关操作,有什么相关告警。只要不是多次出现这种情况,可以确认本端设备没有问题。 随机性零星的告警并恢复 偶尔出现的告警(概率很低,比如几天或几十天出现一次),没什么规律性,一般是正常情况,标准规范也允许。 对于比较有规律零星出现告警的情况,只能通过挂表进行定位原因,传输类告警表现形式以及处理方法,传输故障处理手段,环回诊断法 仪器诊断法 更换单板法,环回诊断法,传输故障处理手段,传输故障处理手段,在NODEB设备侧的DDF架进行故障E1自环,如果故障消失,基本上说明故障源不在本端,进

10、行下一步诊断。 RNC侧ODF架物理环回给NODEB或者软件设置远端环回把信号环回NODEB侧,如果故障消失,基本说明中间传输设备没有问题,故障在两端设备的配合上。如果故障还在,说明跟对端设备没有关系,故障原因基本上在中间传输设备。 当确认故障原因为中间传输设备时,需要传输维护人员协助进行逐级环回诊断。,仪器诊断法 在本端挂表,测试仪接对端传送过来的E1信号,检查传输送过来信号是否正常。看仪器是否有相应告警或误码,如果有说明故障原因不在本端,而是在对端或传输。 本端挂表没问题,可以让对端挂表,请对端进行同样方法检测。 如果最终定位原因在中间传输设备上,需要传输维护人员配合检查诊断。 更换单板法

11、 故障集中表现在某一块单板上,可以考虑先更换单板,看故障 能否解决。,传输故障处理手段,课程内容,常见故障分类 常见故障处理排查思路 典型故障案例 ,时钟类典型故障案例,CLKG有“二级时钟基准丢失告警”,时钟一直处于自由震荡的工作模式。 【故障现象】 韩国SKT项目的CLKG告警无法消除,时钟一直处于自由震荡的工作模式。网管告警为:(1)Input Clock Abnomal(2)Clock base lost second level 【故障分析处理】 1、按照指导书配置(从APBE板过来的时钟线连接到CLKG的8KIN1)检查了OMCR上配置的时钟基准,发现配置的“设定主用时钟基准为8k

12、base”,而“配置的所有时钟基准”为两个“8kbase”和“8kGPS”。 2、两者均改成时钟基准为“8kbase”,但是之后观察告警仍未消除,因为时钟板上有“Input Clock Abnormal”告警,因为我们的时钟是从CN获取,所以联系三星的核心网工程师,三星工程师说CN有一块板子没上电。三星工程师处理完毕后, RNC的CLKG单板仍然有上述告警,时钟类典型故障案例,3、检查时钟提取光口和网管配置是否一致 从CN提取时钟的端口可配置,默认为APBE板的4号光口(第一个口),可以根据实际和CN连接的端口进行修改,在APBE板上点击右键菜单,选择修改,在单板的“基本信息”页面里面,有线路

13、时钟基准,数值有03,分别对应APBE端口47。,时钟类典型故障案例,4、配置结果可通过探针查看r_前台生效是哪个端口,此 r_表显示 提取线路时钟的光口号(03),分别对应4,5,6,7光口;检查后发现CN连接的是5号口,但是网管配置的是从4号口提取时钟,导致提取失败。 【问题处理】 网管配置中改为从5号口提取时钟,告警消失。 时钟配置要求 如线缆连接到8kin1,则将后台“配置主用时钟基准”为8kbase,“所有时钟基准”只有8kbase。如是8kin2,则上述两个配置应该都为8KGPS,时钟类典型故障案例,RNC时钟板有时钟基准丢失告警 【故障现象】

14、沈阳浑南机房四个RNC时钟板均存在时钟基准丢失告警 【故障分析处理】 1、检查CLK单板指示灯,指示灯显示时钟处于跟踪状态 2、检查时钟连线,发现RNC连接8KIN1的APBE板没有和CN对接,连接8KIN2的APBE板和CN连线正常。 3、检查后台数据配置,时钟类典型故障案例,4、“设定主用时钟基准类型”为8kBase也就是对应后插卡8kIn1端口为主用时钟基准,“配置的所有时钟基准”为48也就是对应后插卡8KIN1和8KIN2端口,从界面上的理解是:启用8KIN1和8KIN2时钟基准,但是以8KIN1为主用时钟。而实际只有8KIN2的输入,造成网管的告警。 【故障处理】 修改网管配置,去掉

15、8KIN1的基准,故障消除。,启动类故障排查案例,整个机框的单板运行均不正常 【故障现象】 青岛扩容涉及到扩单板和机框,开通时发现2架3框的所有单板运行均不正常,在后台发现所有的单板都有不在位告警。,【故障分析处理】 检查CHUB的连线经过逐一拔掉查看CHUB单板指示灯的状态,发现CHUB的连线正常,检查机框的拨码开关,发现该机框被拨成1架3框;拨成2架3框后正常。,启动类故障排查案例,启动类故障排查案例,备用OMP不能正常运行 【故障现象】 北京马连道机房RNC2备用OMP(1架2框11槽位)不能正常运行,显示的告警信息是:后插卡错误,和前插板不匹配。,启动类故障排查案例,【故障分析处理】

16、接上超级终端看到如下打印信息 Load FPGA VerFile. Check MOMPs PCBNum and fpga version(fpga.ini).! .Fpga verify error! Fpga verify error! .Fpga verify error! Master OMP Fpga Flash boot failed! 从中可以看出FPGA版本校验错误。经检查主备OMP的FPGA版本不同(分别是040703和040704),将OMP的FPGA版本更新一致后备用OMP正常运行。,启动类故障排查案例,RCB不能正常运行 【故障现象】 北京马连道机房RNC3有3个RCB

17、板不能正常运行 【故障分析处理】 在RCB后面插上后插板RPMB,连超级终端检查发现如下打印消息: Attached TCP/IP interface to fei2. Succeed Set fei2 to 100M|FD. Attaching network interface lo0. done. Booting from network Loading. Error loading file: errno = 0 x3c. Cant load boot file! 基本可以确认子卡有问题,现场通过更换flash子卡后,单板正常运行,启动类故障排查案例,CLKG板状态为CATCH 【故障

18、现象】 北京马连道机房RNC6 1架2框14槽的CLKG板状态为CATCH,13槽位的时钟板状态正常。 【故障分析处理】 经过对比正常的板子发现故障CLKG板的跳线少一个(X45),接好后正常 根据硬件手册,X45的作用如下:,启动类故障排查案例,GLI单板插光纤后不能启动 【故障现象】 厦门RNC2的2架4框3槽位GLI单板启动不成功。观察启动过程发现GLI在上电复位时面板灯ACT,ALM,ENUM,RUN等长亮一段时间后熄灭,然后RUN灯快闪,过段时间RUN,ACT灯长亮,再然后就单板复位重启。 【故障分析处理】 发现故障现象后,查询单板的异常记录,发现CPU的负荷达到100%,然后单板就

19、被复位。准备把单板拔下来时,在拔掉光纤的时候发现单板启动成功,RUN灯慢闪,ACT灯亮,查看后台发现当前无告警。后来再尝试,发现拔掉任一对光纤,都能启动成功,但如果配置的几对光纤同时都连接好,复位后就不能启动完成。怀疑是板上子卡问题。 【故障解决】 将单板的上下子卡互换位置后单板恢复正常,再将两个子卡恢复成原位后,故障现象没有复现。估计是子卡没有插紧导致,启动类故障排查案例,GIPI无法正常启动 【故障现象】 北京马莲道RNC某RNC出现GIPI单板异常告警,同时单板运行指示灯,告警指示以及PWR指示灯等指示灯长亮一段时间然后熄灭,然后单板复位重启。 【故障分析处理】 从指示灯长亮情况来看,单

20、板上电后无法下载版本,因此原因可能是单板本身启动异常,GIPI与ROMB单板通信异常。因此将RGIM后插卡插入GIPI的后背板槽位,通过串口信息观察GIPI单板在启动过程中的打印信息。在GIPI上点过程中有如下打印: = IXP23XX BOOT START = boot type = 0 x00000002 configuration register 0 = 0 x8066B02E xsi memory init.done! cpp memory init.,启动类故障排查案例,观察打印消息中在做CPP 内存初始化不能正确完成,导致单板复位重启,因此怀疑为内存初始化失败或主板故障 【故障解

21、决】 将该单板的内存和别的GIPI单板内存更换,更换内存后启动单板故障现象依旧,因此判断为单板故障,将该单板更换至别的槽位故障复现,更换单板后解决,启动类故障排查案例,UIMU每隔1小时主备倒换 【故障现象】 北京RNC15 的一架三框UIMU单板每隔1小时左右主备切换,历史告警如下,启动类故障排查案例,【故障分析处理】 系统异常日志,10槽位UIMU的异常日志如下 Rack:1, Shelf:3, Board:10, Cpu:13GPlat012456789Date: 2008-08-27 22:34:22The System need restart, the reason: 2208,

22、the last words:Ctrl Link Error. Change over success and reset. 9槽位 异常日志 Rack:1, Shelf:3, Board:9, Cpu:13GPlat012456789Date: 2008-08-27 21:29:24The System need restart, the reason: 2208, the last words:Ctrl Link Error. Change over success and reset.,启动类故障排查案例,从打印上看,UIMU由于检查到控制面控制端口连续错误,从而引起主备单板倒换,每块单

23、板均能正常启动并且本框内大部分单板都能正常启动,说明可以排除UIMU单板本身故障。同时备用UIMU复位,可以检查和CHUN连接的线缆通过插拔观察CHUB端口指示灯,能够正确显示,排除控制线缆问题。UIMU提供两个24+2交换式HUB,一个是控制面以太网HUB,对内提供20个控制面FE接口与资源框内部单板互联,对外提供4个控制面FE接口用于资源框之间或资源框与CHUB之间互联。前面所述排除了与CHUB单板互联问题。 由于与内部单板互联,且两个单板都有控制链路错误指示,则可能是与框内其他单板的内部FE端口异常 观察本框内的单板状态,发现15槽位RUB一直处于告警状态不能启动。将RUB更换后观察UIMU单板运行状态,未再出现主备倒换。,传输类故障排查案例,子单元故障 【故障现象】 某局多块SDTB单板多个子单元随机出现“子单元通信断子单元掉电子单元故障” 【故障分析处理】 怀疑可能是RNC的SDTB问题,但换上一块全新的单板后上述现象依旧;对局方传输通道进行检查,未发现异常,且更换了传输通道后上述现象依旧,问题归结于软件配置。 现场把排列方式从G.707改为支路排列方式后,所有子单元正常,故障消失。SDTB的63条E1在光路上有两种排列方式:G.707和Tributary。如果发生排列方式不一致,会出现: G.707下的第

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论