[电信] 2-华为2500 预警报告.doc_第1页
[电信] 2-华为2500 预警报告.doc_第2页
[电信] 2-华为2500 预警报告.doc_第3页
[电信] 2-华为2500 预警报告.doc_第4页
[电信] 2-华为2500 预警报告.doc_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、.传输系统软件问题专题分析报告传送网运行维护技术支撑中心报告编号2006-01设备类型华为OptiX 2500+(Metro3000)软件版本1 SS63S16单板FPGA逻辑软件130及以下版本(配套单板软件为6.11)2 SS61PQ1单板软件2.23以前版本,SS62PQ1单板软件6.19以前版本预警原因1 SS63S16板处理连0或连1信号不当导致业务无法开通2 网元PQ1板自动发生TPS保护倒换。预警范围1 北方电信05年扩容工程2 重点为北方十省(市)干线传输网;其它使用华为SS61PQ1(2.23以前版本)和SS62PQ1(6.19以前版本)的所有干线和本地网也应注意。预警级别1

2、 4级2 3级预警说明:根据中国电信骨干网传输系统软件存在的问题对业务以及对维护工作的影响程度,将传输系统软件问题进行预警级别的划分,其中5级:问题十分严重,已经影响到业务的正常运行,须立即解决4级:问题较严重,对业务的正常运行存在着一定的隐患,需尽快解决3级:问题严重性一般,对业务无影响,但严重影响到一线维护工作的时效性、准确性,需尽快解决2级:问题严重性较轻,对业务无影响,对一线维护工作有一定的影响,需在适当的时候解决1级:问题不严重,对业务无影响,对一线维护工作也无影响,但仍怀疑存在隐患,需继续观察跟踪一、故障现象1SS63S16单板故障SS63S16是华为技术有限公司OptiX 250

3、0+(Metro3000)设备上使用的2.5G速率光接口板。近期华为公司在现网运行中发现了该单板FPGA逻辑软件存在的一个设计缺陷:在与其它设备进行对接时,如果接收到的一个STM-1的信号中有连续270个字节为0x00或0xFF,单板会误认为信号异常并强制下插全1,导致业务中断。实际应用中发现,部分厂商设备在未开通业务时,未使用的开销和净荷都默认发送全0或全1信号,因此会使SS63S16单板误认为信号异常,下插全1。目前发现的与SS63S16对接中出现过上述问题的部分设备类型有:华为技术有限公司的NGN软交换设备:UMG8900、中兴公司的数字程控交换机:ZXJ-10、CISCO公司3600系

4、列路由器。上述设备只是华为公司在现网运行中发现的实际案例中的对接设备,可能出现上述问题的设备不仅仅局限于上述的几种。2PQ1单板故障2005年12月,电信北方十省(市)干线传输网OptiX 2500+设备个别网元的PQ1板自动发生TPS保护倒换,均为自动恢复。二、故障描述及分析1SS63S16单板故障造成该问题的根本原因是:SS63S16的逻辑软件设计时为了实现快速检测和透传AU-AIS,一旦检测到信号流里连续270个字节为0x00或0xFF时,立即自动下插全1,直到收到连续810个字节不全为0x00或0xFF时(即810个字节中至少有一个字节不为0x00或0xFF),即恢复正常。在设备正常运

5、行时,由于有实际业务时开销和净荷出现连0和连1的可能性很小,所以,在业务开通之后,出现由于上述缺陷导致的业务中断概率极小。在工程阶段,则存在大量设备先割接上传输,但实际尚未开通业务的情况,此时,则可能出现上述情况导致的设备割接失败。另有一种比较特殊的情况是:组网采用线性复用段或SNCP保护,主用通道采用的是非SS63S16单板,备用通道采用的是SS63S16单板(且为已知缺陷版本),当主用通道业务中存在长连0或连1的情况,主用通道工作正常,而发生断纤倒换到备用通道时,则在备用通道上会由于该缺陷下插全1,使下游节点产生相应告警。下游节点产生的告警情况为:如果经过SS63S16的业务为高阶业务(V

6、C4)时,因为该缺陷会将270个全0或全1字节后的数据下插全1。而这270个字节可能出现在STM-1帧中的任何位置,因此下插全1的开始位置是不固定的,如图一所示,若在STM-1帧的第四行之前的某270个字节检测到为全0或全1,则其后部分会全部下插全1,该部分覆盖了AU指针,那么此时AU指针会被置为全1,导致下游节点会收到AU-AIS;而如图二所示,若在STM-1帧的第四行之后检测到某270个字节为全0或全1,此时其后下插的全1信号则不包含AU指针,那么此时AU指针正常,下游不会有AU-AIS告警,但此时部分VC4的净荷数据被改写为全1,导致下游节点作B3校验会出现B3_SD,另外如果下插全1的

7、部分也覆盖高阶通道开销的部分字节的话,比如C2,H4等,那么下游网元还可能在上报B3_SD的同时上报HP-SLM、HP-LOM等告警。如果经过SS63S16的业务为低阶业务(VC12/VC3)时,因为部分净荷被置为全1,将会导致低阶的TU指针部分也变成全1,所以在末端下业务的支路板上会有TU_AIS告警产生。图一图二2PQ1单板故障经过对TPS倒换数据的分析,发现网上的TPS保护倒换原因主要有以下几种:(1)PQ1单板软件检测到E1LOC引起的TPS保护倒换,E1LOC为2M时钟(接口芯片的工作参考时钟)丢失告警。图三如上图所示为PQ1板上行业务流向示意图,其中2M业务来自交换机或路由器等终端

8、设备;在接收信号没有丢失的情况下,即2M业务正常时,TCLK(即2M时钟信号,用作接口芯片的工作参考时钟)从2M业务中提取;当2M业务丢失时,TCLK切换由2M晶振输出,切换过程由接口芯片实现。当终端设备出现故障或电缆中有干扰时都可能引起2M业务输入波形发生变化。如下图所示为一个正常的业务信号波形,当输入2M信号因故障或外界干扰出现异常时,如果其信号变化幅度在200mV-500mV之间的时候,此时接口芯片即认为业务信号虽然没有丢失,但不能可靠的从此信号中提取时钟,此时软件判别TCLK时钟瞬时丢失,同时上报E1LOC告警;另外,当映射芯片检测TCLK时钟信号连续有四个周期不翻转,即4个周期信号都

9、为高电平或低电平或零电平,也会认为时钟瞬时丢失,同时上报E1LOC告警。当PQ1板的任何一个通道上报E1LOC告警超过10秒就会发生TPS倒换。图四(2)PQ1单板硬件检测到输入信号劣化引起的TPS保护倒换。这种情况是由于单板硬件检测到支路板1、5端口的4k时钟(由业务板送给交叉板,用作业务板状态指示的时钟源)质量变差导致的倒换。根据实验室的数据和网上应用的情况分析,网上出现这种问题主要是与支路单板对接信号有关,当对接信号出现瞬间抖动或者发生波形变化时,此时从对接信号恢复出来的时钟信号将不正常,如果从对接业务信号中恢复出来的时钟信号持续0.25ms为高电平的时候,会导致支路送给交叉的4K时钟信

10、号出现瞬间不可用,从而触发TPS倒换。当4K时钟信号变好时,TPS倒换可以恢复。(3)同时进行大量支路告警屏蔽引起的TPS保护倒换。对每块PQ1进行告警屏蔽操作都需要下发63个通道的参数,如果同时下发多块单板的告警屏蔽操作则将直接导致数百条命令同时下发给单板,可能对正常的板间通信造成干扰和阻塞,使单板邮箱不通从而引起TPS保护倒换。目前除了告警屏蔽操作外,其它多单板的操作不会触发这个问题。(4)软件问题导致的TPS保护倒换。61PQ1板的2.17版本存在软件BUG,当软件对某块内存区进行巡检时,如果此时其他任务同时对寄存器进行操作,此时可能导致巡检查出的寄存器数值和镜像数值不一致,寄存器会校验

11、出错,当寄存器累积出错100次时会硬复位单板,引起TPS保护倒换。三、结论及建议1SS63S16单板故障华为OptiX 2500+(Metro3000) 的SS63S16单板在与其它设备进行对接时,如果接收到的一个STM-1的信号中有连续270个字节为0x00或0xFF,单板会误认为信号异常并强制下插全1,导致业务中断。有此缺陷的单板仅局限在FPGA逻辑软件为130及之前版本的SS63S16单板,配套单板软件为6.11。在电信一干在网运行设备中没有使用SS63S16型号单板,但在北方电信05年扩容工程中有少量发货,该工程目前仍在硬件安装阶段。在发现该设计缺陷后,华为公司重新修改了SS63S16

12、单板的逻辑设计,新发布单板软件6.12和FPGA 210版本解决该问题,该版本可同4.5.4.16、4.5.5.12以及4.5.6.30主机版本配套使用。SS63S16单板软件升级到6.12版本,同时配套逻辑版本升级到210版本;软件升级需要硬复位单板,对于有保护的业务,网络倒换会造成业务瞬断,对于没有保护的业务,业务会中断约2分钟。因此在出现此类问题的工程中,建议软件版本在入网前将SS63S16单板软件升级到6.12版本,同时配套逻辑版本升级到FPGA 210版本。2PQ1单板故障出现此故障的PQ1单板仅局限在SS61PQ1单板软件2.23以前版本,SS62PQ1单板软件6.19以前版本。此

13、问题在北方(十省)干线传输网出现比较频繁,建议按以下方式改进。其他干线如发现此问题频繁发生,也可以按如下方式进行改进:(1)对于PQ1单板软件检测到E1LOC引起的TPS保护倒换,从该版本的实际应用情况来看,芯片检测E1LOC条件设置的比较苛刻,短时间的业务信号劣化就可能导致E1LOC告警的上报,而且任何一个通道的E1LOC告警均会引起倒换,所以一旦有2M通道的信号出现劣化,PQ1板就可能检测到告警并触发倒换。61PQ1板2.23版本和62PQ1板6.19版本(4.5.5.12版本配套软件)及其以后版本对E1LOC告警进行了1秒防抖处理,在信号轻度劣化但不影响业务的时候不会再上报E1LOC;另

14、外,由于E1LOC是部分2M通道信号劣化引起的,可以排除PQ1单板自身硬件/软件故障的可能,因此新单板软件也不再将E1LOC告警作为TPS的倒换条件。将PQ1板单板软件升级至4.5.5.12版本配套的2.23(61PQ1)和6.19(62PQ1)版本即可解决问题。(2)对于PQ1单板硬件检测到输入信号劣化引起的TPS保护倒换,可以通过命令关闭支路板输出给交叉的4K时钟来解决。该操作过程不会对业务造成影响,如有此类需求请联系华为公司当地办事处工程师处理。(3)对于同时进行大量支路告警屏蔽引起的TPS保护倒换,需要注意在维护中避免对多块单板同时进行告警屏蔽操作。另外,62PQ1板6.19和61PQ1板2.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论