通信路由故障应急处置方案_第1页
通信路由故障应急处置方案_第2页
通信路由故障应急处置方案_第3页
通信路由故障应急处置方案_第4页
通信路由故障应急处置方案_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

通信路由故障应急处置方案1总则1.1目的本方案面向运营商、政企专网、数据中心及大型园区网络,旨在当通信路由层面出现不可达、震荡、黑洞、环路、异常收敛等故障时,为一线运维、二线骨干、三线研发及管理层提供一套“分钟级发现、分钟级定界、分钟级止损、小时级恢复、事后可复盘”的闭环操作手册,最大限度压缩业务中断时长,降低收入损失与品牌风险。1.2适用范围物理边界:核心、汇聚、接入、DCI、PE、CE、传输OTN/波分、SD-WANPoP协议边界:OSPF/IS-IS/BGP/LDP/SR-MPLS/SRv6/BGPEVPN/VXLAN/静态路由设备品牌:华为、中兴、思科、Juniper、H3C、锐捷、白盒(SONiC)云网协同:混合云专线、云原生负载均衡网关、5GUPF路由1.3故障分级级别业务影响收敛时长要求升级时限P1全网或核心网瘫痪≤5min15min内上报CTOP2区域/重要VPN不可用≤15min30min内上报总监P3冗余链路丢失≤30min1h内上报经理P4单链路闪断无丢包≤2h日报汇总2应急组织与职责角色人员构成主职责备用通讯现场指挥NOC值班经理启动预案、资源调度、对外发布卫星电话一线运维现场/驻场工程师信息采集、物理操作、第一修复微信群+对讲机二线专家远程TAC/传输/IP骨干深度定位、版本回退、补丁验证企业微信三线研发厂商研发/云网络架构师异常日志分析、漏洞修复、长期优化加密邮件业务代表客服/政企经理用户侧解释、SLA赔付、舆情监控手机3预防与准备3.1路由健康基线每日0:00-6:00自动采集全网RIB/FIB/BGPLS/TE数据库,生成“昨日基线”关键指标:Prefix数量波动>5%、AS-Path长度>7跳、LSP数量变化>3%、SR-Policy颜色不一致>1%即触发基线偏离告警基线脚本仓库:GitLab私有库,版本号与设备OS同步3.2应急工具箱类别工具用途存放位置便携终端加固笔记本+USB-CConsole线现场登录运维车存储32G加密U盘×2装日志、抓包值班台软件Wireshark4.0.1、ICMPTrace、Nmap7.9抓包/扫描预装备件万兆SFP+×4、AOC10m×2、主控板×1替换仓库文档本方案PDF、设备PDF、端口map查询内网Wiki3.3场景化演练每季度执行“链路黑洞+BGP劫持”双故障红蓝对抗,全程录像,RT≤10min为合格演练后24h输出《演练复盘报告》,必须包含“时间线、命令序列、决策合理性、改进清单”四要素4故障发现与通报4.1发现渠道权重渠道权重举例网管主动告警40%BGPPeerDown、IS-ISLSPPurge拨测系统30%HTTP502、RT>3s用户投诉20%客服工单舆情监控10%微博/企业客户群4.2通报模板```【路由故障】级别:P1;时间:2024-05-2009:12;现象:北京-上海IPLC100G链路BGP路由丢失,影响金融VPN-23;已派单:T202405200912;指挥:张三;预计恢复:60min。```5快速评估与定界5.1三分钟检查表步骤命令/动作预期输出异常判定1.物理层`showtransceiverdiag`RxPower>-8dBm光衰>-12dBm即异常2.链路层`showinterfacecounters`FCSError<0.001%>0.01%即异常3.路由层`showipbgpsummary`Established/Active=1非1即异常4.转发层`pingx.x.x.xsourcey.y.y.y`100%success<95%即异常5.2定界逻辑树```业务不可达├─单VPN不可达│├─PE本地无路由→检查VRF、RD、RT导入导出│└─远端无路由→检查BGPRR、ExportPolicy├─全网不可达│├─核心链路Down→检查传输OTN告警│└─路由抖动→检查CPU>80%或BGPFlap-damp└─部分网段黑洞├─前缀被误过滤→检查prefix-list、route-map└─被恶意劫持→检查AS-Path异常、RPKI状态```6应急处置操作6.1物理/链路层恢复场景操作回退方案最长时限光纤中断1+1冗余自动切换失败→人工倒换至第三路由切换后观察5min,丢包>0.1%立即回切10min光模块失效现场更换10kmLR4→同步刷新DDM基线若仍Down→回退原模块并升版驱动15min传输设备掉电接入侧UPS电池供电→联系传输网管确认波道若电池<30%→关闭非关键业务板卡20min6.2路由层恢复6.2.1OSPF/IS-IS若LSAAge=3600s且序列号异常高,判定为“假老化”攻击,立即在边界ABR执行`max-metricrouter-lsaon-startup300`强制抬高COST,引导流量绕行若出现区域0分割,在故障点两侧分别临时添加Virtual-Link,命令如下:```routerospf1area1virtual-link```验证`showipospfneighbor`状态Full后,观察SPF计算次数<3次/s为正常6.2.2BGP路由黑洞:若确定前缀被误过滤,使用`inject-map`快速注入:```route-mapRM-INJECTpermit10matchipaddressprefix-listPL-BLACKHOLEsetcommunityno-exportadditiverouterbgp65001inject-mapRM-INJECTexist-mapRM-EXIST```注入后30s内,在RR执行`clearipbgpsoftout`触发更新注入后30s内,在RR执行`clearipbgpsoftout`触发更新路由劫持:若检测到AS65000发布本公司地址段,立即在边界执行`bgpmaxas-limit7`+`as-pathprepend650016500165001`降低劫持路由优先级,同时向上游Tier1发送ROA、RPKI无效声明邮件模板,电话确认6.2.3MPLS/SR标签泄露:若下游PE通告标签3(隐式空)导致倒数第二跳弹出失败,在故障节点执行`mplsldpexplicit-null`强制显式空标签,命令:```mplsldpexplicit-nullforACL-VPN```SRv6SID冲突:若Locator长度不一致导致SID不可达,立即在头节点执行`segment-routingsrv6locators`下修改Locator长度与远端一致,并重启BGPSVR地址族,重启前务必保存配置并执行`showsegment-routingsrv6sid`确认冲突SID数量降为06.3环路消除二层环路:若端口收到大量BPDU且MAC漂移>50次/s,立即在接口执行`spanning-treebpduguardenable`+`errdisablerecoverycausebpduguardinterval60`自动恢复三层环路:若TTL=1报文数量>1000pps且源地址为私网,判定为路由环路,采用“分而治之”法,先在疑似节点执行`debugiprouting`抓取10s,再使用EEM脚本自动下发`distance255`临时提高管理距离,迫使路由失效,环路消失后回退6.4异常收敛加速在BGP层面开启BGPPrefixIndependentConvergence(PIC),命令:```routerbgp65001address-familyipv4unicastbgpadditional-pathsinstallbgppic```在IGP层面开启LFA/RLFA,确保备份路径预计算<50ms切换,验证`showipospffast-reroutesummary`状态为“Ready”7业务引流与限流7.1引流策略目标方法命令示例验证将金融流量引至低延迟路径Policy-BasedRouting`route-mapPBR-FINpermit10;matchipaddressACL-FIN;setipnext-hop``traceroute`查看跳数减少2跳将视频缓存流量引至CDN边缘BGPcommunity100:200`setcommunity100:200`在CDN侧查看LocalPref被调高7.2限流策略若链路利用率>95%且故障尚未修复,在边界执行`policer1mbps80008000conform-actiontransmitexceed-actiondrop`对非关键网段限速至8Mbps,保障VoIP与支付通道限流后每5min执行`showpolicy-mapinterface`查看丢弃包数,若<100pps维持策略,>500pps则上调限速至10Mbps8版本与配置回退8.1回退触发条件升级后30min内出现P1/P2故障新配置导致CPU>90%持续>5min用户投诉量>平日均值3倍8.2回退流程步骤动作耗时责任人1.备份`copyrunning-configt/backup.cfg`1min一线2.回退`configurereplacet/last-known-good.cfg`2min二线3.验证`showversion`、`showiproute`3min三线4.通报发送“已回退”邮件1min指挥9数据取证与日志9.1必取信息故障前后5min内完整RIB/FIB快照设备`showtech-support`打包,大小<200M端口镜像抓包,过滤条件`hostx.x.x.xandport179`,时长300s传输侧OTN告警截图,含时间戳与经纬度9.2日志留存期限类型本地日志平台备注设备syslog7天180天压缩存储抓包pcap30天3年加密配置变更永久永久Git版本10事后复盘与改进10.1复盘模板时间线:精确到秒,含告警、命令、通报、业务恢复故障根因:采用“5Whys”法,至少追问到第三层损失评估:收入影响=Σ(带宽×单价×中断时长),客户投诉量、SLA赔付金额改进清单:每条对应责任人、Deadline、验收标准10.2改进示例问题改进措施责任人Deadline验收未及时发现BGP劫持部署RPKI+ROV,告警阈值AS-Path变化>2李四2024-06-30劫持检测<60s备件不足补充4×100GLR4模块王五2024-05-25库存>211培训与考核11.1培训周期新员工入职2周内完成“路由应急”线上仿真,得分>90分方可上岗老员工每半年参加一次“盲演”,随机抽故障场景,RT>15min需补考11.2考核指标指标权重目标值平均定位时长40%≤10min业务恢复时长40%≤30min复盘及时率20%100%12附录12.1常用命令速查```showipbgpneighborsx.x.x.xadvertised-routesshowisishostnameshowmplsforwarding-tablelabels24000detailshowsegment-routingsrv6sidlocatorLOC1```12.2应急

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论