IP承载网与CE维护经验交流.ppt_第1页
IP承载网与CE维护经验交流.ppt_第2页
IP承载网与CE维护经验交流.ppt_第3页
IP承载网与CE维护经验交流.ppt_第4页
IP承载网与CE维护经验交流.ppt_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网络管理中心 2011年4月,IP承载网与CE 维护经验交流,主讲:谭学亮本次交流的内容 华为单板转发异常问题的分析与处理方法 更换引擎板操作的特别注意事项 防尘网清理告警的处理方法 对光功率指标的日常维护关注意义及手段 光功率整治流程及方法 IP承载网与IP内部信息承载网的区别 对IP承载网及CE维护应急能力的要求 IP智能管家v2.3新增功能前瞻,注:如果这次交流没有能参加到没关系,我们还会组织召开现场交流(暂定5月),届时会有更加详细的介绍。,一、华为单板转发异常问题的分析与处理方法,背景: 目前现网华为设备有一定概率发生“转发异常”类故障,现象通常表现为:业务降质、部分业务阻断、链路丢包、无告警。作为隐性故障,维护人员难以及时发现,对客户感知的影响相对较为严重。,成因: 每块业务单板都有一个NP(网络处理器),每个NP又包含16个ME(微引擎),ME之间采取分布式处理,各自负责不同的业务,并且负载分担。一旦某块ME异常或失效,经由其处理的业务就会转发异常,或丢包、或改包。转发平面其他部件(如TM等)失效,也会导致类似故障。,一、华为单板转发异常问题的分析与处理方法(续),已经采取的措施: (1)华为研发了“智能心跳”机制,通过发送并校验模拟业务报文的方式,用于检测转发平面各元件的工作状态,一旦发现异常,可采取复位、隔离等操作,同时上报告警。但还不能做到100%的发现能力。目前AR的软件补丁为SPH050,据华为称,到下一个补丁版本SPH055,可达到模拟90%业务的测试功能。 (2)质量监测系统,包括目前正在部署的“向CE延伸”部分,通过挂接测试代理(TA),发送并监测测试包,实现对业务通道性能指标的监测。一旦发现丢包率超阀值的情况,监控中心可以及时发现并通知维护人员处理。 但质量监测系统也无法做到100%的发现能力,原因主要有三: a. 对多条物理链路捆绑的情况,测试流量只会经由其中固定某一条,因此难以测到其余物理链路质量; b. 不同ME负责不同业务,如出现负责路由协议的ME异常,而负责业务流量的ME正常,则质量监测系统可能不会告警; c. 测试包并非实时不间断发送,目前间隔时间是15分钟,因此测试间隔期发生的故障不能立刻发现。,一、华为单板转发异常问题的分析与处理方法(续),维护人员需要掌握的分析及处理技巧: 第一步:接到业务投诉、监控通知或网管告警时,如何判明是否存在“转发异常类故障”? 根据已知信息,分析共性,缩小范围,进行ping测 Ping测须知 “-c -s -a -vpn” 等参数的含义 第二步:发现丢包链路,如何判断丢包原因? 查看端口计数器是否有异常增加,dis int pos 2/0/0 Pos2/0/0 current state : UP Line protocol current state : UP Description:TO-SCCD-BB-IPNET-RT01-NE5000E-Pos14/0/1-10G Route Port,The Maximum Transmit Unit is 4470, Hold timer is 10(sec) Link layer protocol is nonstandard HDLC The Vendor PN is TRF5013FN-GA420 BW: 10G, Transceiver Mode: SingleMode WaveLength: 1310nm, Transmission Distance: 10km Rx Power: -4.19dBm, Tx Power: -3.61dBm Physical layer is Packet Over SDH Scramble enabled, clock master, CRC-32, loopback: none Flag J0 “NetEngine “ Flag J1 “NetEngine “ Flag C2 22(0x16) SDH alarm: section layer: none line layer: none path layer: none SDH error: section layer: B1 27718 line layer: B2 5280699 REI 19468456 path layer: B3 29965 REI 298424 Statistics last cleared:2010-06-19 00:07:18 Last 300 seconds input rate 173429616 bits/sec, 175337 packets/sec Last 300 seconds output rate 128929032 bits/sec, 147236 packets/sec Input: 4288449391609 packets, 516615573665937 bytes Input error: 831001 shortpacket, 0 longpacket, 134464 CRC, 0 lostpacket Output: 3632071391762 packets, 389765440460318 bytes Output error: 0 lostpackets Output error: 0 overrunpackets, 0 underrunpackets,dis wan int gi 4/0/0 GigabitEthernet4/0/0 current state:UP Line protocol current state:DOWN Physical layer is Packet Over SDH Scramble enabled, clock master, CRC-32, loopback: none WAN full-duplex mode ,Pause Flowcontrol:Receive Enable and Send Enable SDH alarm: section layer: none line layer: none path layer: none SDH error: section layer: B1 80838 line layer: B2 15512914 REI 22140099 path layer: B3 80317 REI 350797 WAN Alarm : none Last 300 seconds input rate 111568424 bits/sec, 135143 packets/sec Last 300 seconds output rate 114920064 bits/sec, 140780 packets/sec Input: 344474683111654 bytes, 3447083405908 packets Output: 350754530903358 bytes, 3540292383612 packets Input: Unicast: 3447014714460, Multicast: 68645131 Broadcast: 46317, JumboOctets: 0 CRC: 1, Symbol: 1 Overrun: 0 InRangeLength: 0 LongPacket: 0 , Jabber: 0 Fragment: 0, Undersized Frame: 0 RxPause: 25 Output: Unicast: 3540229209899, Multicast: 63166670 Broadcast: 7043, JumboOctets: 0 System: 0, Overruns: 0 TxPause: 12,多次执行dis int指令(如果是10G WAN口则用dis wan int指令,重点看B1/B2/B3误码和CRC错误,是否有增长。,有,无,传输、尾纤、光模块问题,单板转发异常,1. 协调传输专业检查 2. 插拔、清洁、更换尾纤 3. 更换光模块 最有效的定位方法:打环测试,见下页,一、华为单板转发异常问题的分析与处理方法(续),维护人员需要掌握的分析及处理技巧: 第三步:判明存在“转发异常类故障”后,如何处理? 联络职责部门,尽快将业务切走 (故障处理原则:先恢复业务,后分析处理) interface x/x/x ospf cost 10 ospf cost 100 建议不要用shutdown,而要采用增大cost的方式(约定增加到100),5分钟内可以观察到链路流量逐步降至接近于0。 理由1:如果shutdown,则业务就处于单边运行,一旦另一边再发生故障,业务将全阻 理由2:shutdown后不利于后续故障原因定位分析 此外,若是传输、尾纤、光模块原因引起的丢包,只要路由协议没有发生切换,建议也要人工将业务切走。 注:如果是AR互联或上联接口,采用IS-IS协议,则开销在原基础上增加100000。 第四步:如何处理异常单板? 复位ME,复位单板,更换单板 (毋忘流程) 注:稳妥起见建议请厂家专业人员处理,二、更换引擎板操作的特别注意事项,分公司作为现场维护第一职责,时常需要对故障单板进行更换操作,对于LPU板的更换相对简单,而对于MPU板(引擎板)的更换则有一些特别注意事项:,1. CF卡与内存条的更换,CFcard1,CFcard2,RAM1&2,MPU板载有两块CF卡和两块内存条,通常在更换故障MPU板时,备件并不会包含CF和RAM,需要利旧原MPU上的,需要注意: a. CF卡和RAM条的安装位置(如下图) b. CF卡的位置顺序不能颠倒,RAM条的顺序位置则无要求 c. CF卡和RAM都不支持热插拔,必须先插好,才能将MPU推入插槽(包括更换LPU时,光模也必须先插好,这是避免丢失配置,而不是热插拔的原因),二、更换引擎板操作的特别注意事项(续),2. 引导文件(bootfile)的设置步骤,类似于PC启动需要在C盘引导区寻找操作系统引导文件,路由器MPU板也需要在CF卡中找到VRP文件用于引导。但一块全新的引擎版无法得知CF卡中启动文件的确切路径以及文件名,因此首次启动需要人工指定。 更换LPU板时,现场维护人员可以不携带笔记本电脑及CONSOLE线缆,但更换MPU板时,则必须要带! a. 提前记录好当前CF卡中VRP文件的文件名(dir指令可以看到),后面用到 如: cfcard:/v300r003c02b697.cc b. 新单板插入后,立刻将CONSOLE线缆插入该MPU的CONSOLE口(不要插错到METH口,否则可能会烧) c. 根据操作笔记中的步骤指定引导文件位置及文件名,注册时间正常应该在20分钟以内,超出则不正常,请联系技术支持,三、防尘网清理告警的处理方法,为保证系统散热和通风状况良好,避免防尘网被灰尘堵住,必须定期清洗防尘网。华为研发考虑到维护人员可能会忘记,因此设计了一项计时器,缺省365天会产生一条告警,用于提醒。实际防尘网清洗间隔应根据机房环境情况酌情掌握(建议1到3个月)。,disp alarm all - Index Level Date Time Info 1 Error 11-02-16 07:57:56 The air filter is failed, Maybe it is not cleaned as scheduled. Please clean it and run the reset dustproof run-time command -,若收到故障工单:防尘网告警,可登陆设备用dis alarm all指令确认,会看到:,这时需要做的: 1. 清理防尘网(若近期刚清过则不必) 2. 执行 reset dustproof run-time 以清除告警(不会自动清除) 注:告警并没有和实际拆装防尘网的动作关联,NE80E防尘网拆卸方法,NE40E防尘网拆卸方法,四、对光功率指标的日常维护关注意义及手段,维护难点:光功率巡检低效、数量多、分布广,且均为哑设备、无法监控 迫切需要自动巡检手段快速发现光功率隐患,实现对影响光功率的各类哑设备监控,1、光功率异常影响业务的故障 1、某省出省链路中断,出省业务中断1小时53分。故障原因:链路一侧设备尾纤与ODF架接口松动光功率偏低,中断;出省链路另一方向传输主用路由中断,备用路由异常,无法切换。 2、某省至多省方向软交换业务出现呼损近3个小时。故障原因:链路尾纤质量问题导致光功率偏低、有丢包,导致业务受到影响,2、光功率异常根源、维护难点,四、对光功率指标的日常维护关注意义及手段(续),3、光功率指标分析手段 自主开发的“IP承载网光功率自动巡检工具”实现了路由器设备端口光功率自动监测,目前兼容IP承载网三种厂家(华为NE5000E/80E、思科GSR、阿尔卡特7750)所有在用73种规格的光模块,并根据门限呈现隐患评级。目前已在全国IP承载网推广使用,全网813台设备光端口数量高达9360个,巡检耗时从人工900小时缩短至0.5小时,效率提升1800倍。自2010年下半年推广以来,全国应用此工具主动性发现累计547起光功率隐患,并及时进行了整治,没有造成任何业务影响。,4、现状 由于华为NE40E采用的系统软件与NE80E相同,因此本工具目前可以对CS域CE的光功率进行自动监测,而PS域思科7609、爱立信SE800则有待添加指令规则以实现兼容。目前正在将该单机版软件整合进IP智能管家系统平台,进展顺利。,5、后续计划 a. 征集有意向的分公司协同研究思科、爱立信CE光功率查询方法 b. 待内部测试完善后将在IP智能管家平台开放供分公司使用 c. 现有的单机版程序如有需要,也可提供过渡使用,五、光功率整治流程及方法,1、AR/CR光功率隐患整治流程 2、CE光功率隐患整治流程,五、光功率整治流程及方法(续),3、光功率隐患整治方法,整治方案需根据现场勘查所得信息酌情制定,思路如下: 光功率偏高时: 直接在路由器收光口增加光衰(根据偏高量决定光衰量) 光功率偏低时: 勘查发现有预留光衰,则去除之 勘查ODF架跳转次数,按每次跳转0.5dB正常插损计算 使用光功率计逐跳测试光功率,找到异常损耗段 预备擦纤器清洁尾纤头 预备法兰盘替换ODF原有法兰盘 预备替换尾纤,先行飞纤测试,如有明显改善,则正式布放 更换光模块,可考虑暂时挪用空闲同类模块,请在附表中对照查阅各种规格光模块的光功率合规值范围,六、IP承载网与IP内部信息承载网的区别,IP承载网负责承载用户业务,IP内信网负责承载网管支撑类业务; 业务CE,CS域均为华为NE40E,PS域另外还有思科7609、爱立信SE800,IP内信网网管CE主要为迈普、华三等低端设备; 业务CE同时连接IP承载网和IP内信网(内信网侧不再另串网管CE); IP承载网=省际IP承载网/集团IP承载网,IP内信网=省内IP承载网/G9承载网,旧称谓请一定改掉,与时俱进。,七、对IP承载网及CE维护应急能力的要求,IP承载网及CE承载了全省80%以上的语音业务,重要性不言而喻,虽网络结构相对健壮,可一旦故障,用户感知影响将会相当可观。因此,希望一线维护同事不要懈怠,须在平时扎实基本功,配足应急工具与资料,以备不时之需。 工具配备 笔记本电脑

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论