




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
高可用性技术(故障检测技术)在路由网络中的应用国网电科院信息通信技术服务中心 蓝鹏引言:为了保证网络的不间断运行,特别是核心出口网络的高可用性,通常在部署较大规模网络时,会采取链路级备份、设备级备份等方式。技术上通常使用多管理引擎备份、浮动静态路由、VRRP、HSRP等。虽然这些技术给网络带来了一些备份作用,但是对于实时性要求较高的网络还会存在一些问题,本文结合在H3C路由器上的配置实例说明一些故障检测技术与传统技术的结合(联动)从而实现更为智能的高可用性解决方案。关键字:可靠性 故障检测技术 NQA BFD TRACK路由协议 网络收敛(一)、可靠性概述随着网络的快速普及和应用的日益深入,网络中断可能影响大量业务,因此,作为业务承载主体的基础网络,其可靠性日益成为倍受关注的焦点。在实际网络中,总避免不了各种非技术因素造成的网络故障和服务中断。因此,提高系统容错能力、提高故障恢复速度、降低故障对业务的影响,是提高系统可靠性的有效途径。1.可靠性需求可靠性需求根据其目标和实现方法的不同可分为三个级别,各级别的目标和实现方法如表1所示。级别目标实现方法1减少系统的软、硬件故障硬件:简化电路设计、提高生产工艺、进行可靠性试验软件:软件可靠性设计、软件可靠性测试等2即使发生故障,系统功能也不设备和链路的冗余设计、部署倒换策略、提高倒换成功率受影响3尽管发生故障导致功能受损,提供故障检测、诊断、隔离和恢复技术但系统能够快速恢复表1在上述三个级别的可靠性需求中, 第1级别需求的满足应在网络设备的设计和生产过程中予以考虑;第2级别需求的满足应在设计网络架构时予以考虑;第3级别需求则应在网络部署过程中,根据网络架构和业务特点采用相应的可靠性技术来予以满足。2.可靠性度量通常我们使用 MTBF(MeanTimeBetweenFailures,平均故障间隔时间) 和MTTR(MeanTimetoRepair,平均修复时间)这两个技术指标来评价系统的可靠性。(1).MTBFMTBF是指一个系统无故障运行的平均时间,通常以小时为单位。 MTBF越多,可靠性也就越高。(2).MTTRMTTR是指一个系统从故障发生到恢复所需的平均时间, 广义的 MTTR还涉及备件管理、客户服务等,是设备维护的一项重要指标。MTTR的计算公式为: MTTR=故障检测时间 +硬件更换时间 +系统初始化时间 +链路恢复时间+路由覆盖时间+转发恢复时间。公式中各项的值越小,MTTR也就越少,可靠性也就越高。3.可靠性技术根据上边的描述可知,降低MTTR可以提高网络的可靠性。在实际网络中,各种因素造成的故障难以避免,因此能够让网络从故障中快速恢复的技术就显得非常重要。各种可靠性技术将主要从降低MTTR的角度,为满足第3级别的可靠性需求来提供技术手段。可靠性技术的种类繁多,根据其解决网络故障的侧重不同,将其大致分为故障检测技术和保护倒换技术:(1).故障检测技术故障检测技术侧重于网络的故障检测和诊断,主要使用的技术如表二所示名称 简介BFD BidirectionalForwardingDetection(双向转发检测),是一个通用的、标准化的、介质无关、协议无关的快速故障检测机制,用于快速检测、监控网络中链路或IP路由的转发连通状况NQATrack
NetworkQualityAnalyzer(网络质量分析),通过发送测试报文,对网络性能、网络提供的服务及服务质量进行分析,并为用户提供网络性能和服务质量的参数,如时延抖动、TCP连接时延、FTP连接时延和文件传输速率等用于实现联动功能。联动功能由应用模块、Track模块和监测模块三部分组成,它通过建立联动项来实现不同模块间的联动,即由监测模块通过Track模块触发应用模块来执行某种操作。监测模块负责对链路状态、网络性能等进行探测,并通过Track模块将探测结果通知给应用模块;应用模块感知到网络状态变化后,及时进行相应处理,从而避免通信的中断或服务质量的降低表二(2).保护倒换技术保护倒换技术侧重于网络的故障恢复,主要通过对硬件、链路、路由信息和业务信息等进行冗余备份以及故障时的快速切换,从而保证网络业务的连续性。主要保护倒换技术的如表三所示。名称接口备份
简介同一台设备的各接口之间形成备份关系,通常由主接口承担业务传输,备份接口处于备份状态。当主接口本身或其所在线路发生故障而导致业务传输无法正常进行时,可以启用备份接口进行通信以太网链路 简称链路聚合,它通过将多条以太网物理链路捆绑在一起成为一条聚合 逻辑链路,实现了增加链路带宽的目的,而这些捆绑在一起的链路通过相互间的动态备份,可以有效地提高链路的可靠性MSTP MultipleSpanningTreeProtocol(多生成树协议),是一种二层管理协议,它通过选择性地阻塞网络中的冗余链路来消除二层环路,同时还具备链路备份的功能GR GracefulRestart(平滑重启),是一种保证转发业务在设备进行转发协议(如BGP、IS-IS、OSPF、LDP和RSVP-TE等)重启时不中断的技术。它需要周边设备的配合来完成路由等信息的备份与恢复VRRP VirtualRouterRedundancyProtocol(虚拟路由器冗余协议),是一种容错协议,在具有组播或广播能力的局域网(如以太网)中,使设备出现故障时仍能提供缺省链路,有效地避免了单一链路发生故障后出现网络中断的问题从前面的介绍可知, 可靠性技术的种类繁多, 面对越来越复杂的网络环境, 要想依靠单一的技术来解决所有的可靠性问题几乎无法实现。 因此,需要在对网络环境和用户需求进行细致分析的基础上,综合运用各种可靠性技术来提高网络的可靠性。此外,在建网之初还应充分考虑组网的可靠性,譬如:根据业务现状或业务预测,边缘层的节点在接入时应采用冗余备份机制,分别与汇聚层的节点相连;核心层的各节点之间尽量采用全连接的方式,等等。(二)、可靠性技术应用实例:一、单设备多出口模型:1.网络结构描述:如图一所示,这种单设备,多出口网络通常在出口路由器上会配置一条以上的默认路由,分别指向不同的ISP下一跳,通过修改优先级的方式(浮动静态路由)实现在路由层面的线路备份,当作为主用线路的链路故障时,作为备用默认路由的路由会浮动成为主用路由图 一2.存在问题:路由的切换是与物理接口的状态直接相关的,通常运营商(ISP)提供的专线接入会增加协议转换器等设备与路由器接口相连,协议转换器至路由器的这部分线路故障概率很低,路由器接口始终处于UP状态,当上行链路(协议转换器上层传输网络)或更上一级的网络发生故障时路由并不能切换,数据包仍然会通过该接口转发,造成数据包转发黑洞。3.解决方法:在配置静态(默认)路由时,指定了一跳地址可以通过联动功能,利用监测模块(NQA)监视静态路由下一跳的可达性,并根据Track项的状态来判断静态路由的可达性。Track主要由以下三种状态:(1).Track项状态为 Positive时,静态路由的下一跳可达,配置的静态路由将生效;(2).Track项状态为 Negative时,静态路由的下一跳不可达,配置的静态路由无效;(3).Track项状态为Invalid时,无法判断静态路由的下一跳是否可达,此时配置的静态路由生效5.配置实例(1).创建侦测组和 track项,并于静态(默认路由关联)[RT1]nqaentryadmintest 看当前路由器的默认路由[RT1]displayiprouting-table 看NQA测试情况<RT1>displaynqaresult 由跟踪测试<SW1>tracert-q20过在ISP1路由器侧,通过一个ACL模拟在接口、线路处于正常状态下,上层数据无法正常转发的故障。[ISP1-router]displayaclallBasicACL2000,named-none-,2rules,ACL'sstepis5rule10denysource 0(55timesmatched) RT1路由器上查看NQA测试情况<RT1>displaynqahistoryRT1路由器上查看NQA失败后的默认路由<RT1>displayiprouting-table verbose SP路由器故障恢复[ISP1-router]undofirewallenable验总结及注意事项:(1).当建立NQA测试项时,指定的 PING测试地址可以为非直连地址,但必须保证路由可达,这就为测试带来了更多的灵活性,可以检测到更上游的网络情况。如果测试的地址为非直连IP地址,可以在配置NQA项的时候,指定下一跳地址.nqaentryadmintest于本例中NQA测试,发送的是ICMP-ECHO报文,在使用NQA前需要保证设备没有阻挡ICMP报文(3).测试的频率、超时触发次数、发送数据包的大小,可以根据需要调整。二、多设备多出口模型:1.网络结构描述:如图二所示的网络结构,这种多设备,多出口网络通常在出口路由器通常会在路由器间运行VRRP、HSRP等路由冗余协议,终端将虚拟网关Ip为作为自己的默认网关,当网络中的主用设备故障或线路故障时,由备用设备接管转发数据。同时作为主用设备的路由器通常会配置 track上行链路,链路出现故障的时候会降低优先级,从而切换到备用设备上。图二2.存在问题:。与上面的问题类似,接口跟踪只能检测到物理接口的故障,协议转换器的问题依然存在。上行链路故障并不能被感知到,依然会通过主用设备转发数据。造成转发黑洞。3.解决方法:通过在Track模块和VRRP协议之间建立联动,利用监测模块(NQA)监视路由下一跳的可达性,根据测试结果切换VRRP的主备用。同时可以利用VRRP备份组配置,在提供备份的同时提供一些负载均衡。4.配置示例(1).分别在R1和R2路由器中建立两个VRRP组,一部分客户端将(R1路由器为VRRPmaster)作为默认网关,一部分客户端将(R2路由器作为VRRPMaster),实现路由的动态备份,以及负载均衡,R1路由器的VRRP配置[RT1-Vlan-interface100]displaythis#interfaceVlan-interface100ipaddress(2)vrrpvrid10virtual-ip 由器RT1及RT2的NQA配置,与实例一相同[RT1]displaycurrent-configuration|beginnqanqaentryadmintesttypeicmp-echodestinationip frequency100reaction1checked-elementprobe-failthreshold-typeconsecutive5action-typetrigger-onlynqascheduleadminteststart-timenowlifetimeforevertrack1nqaentryadmintestreaction1[RT2]displaycurrent-configuration|beginnqanqaentryadmintesttypeicmp-echodestinationip frequency100reaction1checked-elementprobe-failthreshold-typeconsecutive5action-typetrigger-only#nqascheduleadminteststart-timenowlifetimeforevertrack1nqaentryadmintestreaction1(4).路由器RT1及RT2的VRRP状态[RT1]displayvrrpIPv4StandbyInformation:RunMethod :VIRTUAL-MACVirtualIPPing:EnableTotalnumberofvirtualrouters:2Interface VRID State RunPri---------------------------------------------------------------------Vlan100 10 Master 120Vlan100 20 Backup 100 1
Adver. AuthTime Type1 NONENONE
VirtualIP[RT2]displayvrrpIPv4StandbyInformation:RunMethod :VIRTUAL-MACVirtualIPPing:EnableTotalnumberofvirtualrouters:2Interface VRID State
Run
Pri
Adver.Time
AuthType
Virtual
IP---------------------------------------------------------------------Vlan10010Backup1001NONEVlan10020Master1201NONE(5).在R3路由器侧,通过一个 ACL模拟在接口、线路处于正常状态下,上层数据无法正常转发故障[RT3]displayaclallBasicACL2000,named-none-,3rules,ACL'sstepis5rule10denysource 0(2timesmatched)rule20permit[RT3-Serial0/2/0]displaythis#interfaceSerial0/20link-protocolpppfirewallpacket-filter2000inboundRT1路由器上查看NQA测试情况[RT1]displaynqahistoryNQAentry(adminadmin,tagtest)historyrecord(s):IndexResponseStatusTime22413000Timeout2012-05-0715:48:22403000Timeout2012-05-0715:48:22393000Timeout2012-05-0715:48:22383000Timeout2012-05-0715:48:May715:48:35:2032012RT1VRRP/4/MasterChange:IPv4Vlan-interface100|VirtualRouter10:MASTER-->BACKUPreason:ReceivedVRRPpacketAuthVirtualPriTimeTypeIP---------------------------------------------------------------------Vlan10010Backup901NONEVlan10020Backup1001NONE[RT2]%May715:48:35:5472012RT2VRRP/4/MasterChange:IPv4Vlan-interface100|VirtualRouter10:BACKUP-->MASTERreason:TimerfiredAuthVirtualPriTimeTypeIP---------------------------------------------------------------------Vlan10010Master1001NONEVlan10020Master1201NONE(7).在R4路由器侧,通过一个ACL模拟在接口、线路处于正常状态下,上层数据无法正常转发故障[RT4]displayaclallBasicACL2000,named-none-,3rules,ACL'sstepis5rule10denysource 0(2timesmatched)rule20permit[RT4-Serial0/2/0]display this#interfaceSerial0/20link-protocolpppfirewallpacket-filter2000inboundipaddress#[RT4]firewallenable(8).RT2路由器NQA测试失败后,由RT1路由器成为备份组20的Master负责转发数据<RT2>displaynqahistoryNQAentry(adminadmin,tagtest)historyrecord(s):IndexResponseStatusTime97363000Timeout2012-05-0715:58:97353000Timeout2012-05-0715:58:97343000Timeout2012-05-0715:58:97333000Timeout2012-05-0715:58:%May715:58:22:9222012RT2VRRP/4/MasterChange:IPv4Vlan-interface100|VirtualRouter20:MASTER-->BACKUPreason:ReceivedVRRPpacket<RT2>displayvrrpIPv4StandbyInformation:RunMethod:VIRTUAL-MACVirtualIPPing:EnableTotalnumberofvirtualrouters:2InterfaceVRIDStateRunAdver.AuthVirtualPriTimeTypeIPVlan10010Backup1001NONEVlan10020Backup901NONE[RT1]displayvrrpIPv4StandbyInformation:RunMethod:VIRTUAL-MACVirtualIPPing:EnableTotalnumberofvirtualrouters:2InterfaceVRIDStateRunAdver.AuthVirtualPriTimeTypeIPVlan10010Master1201NONEVlan10020Master1001NONE经验总结及注意事项:(与示例一中类似)(1).当建立NQA测试项时,指定的 PING测试地址可以为非直连地址,但必须保证路由可达,这就为测试带来了更多的灵活性,可以检测到更上游的网络情况。如果测试的地址为非直连IP地址,可以在配置NQA项的时候,指定下一跳地址.nqaentryadmintest于本例中NQA测试,发送的是ICMP-ECHO报文,在使用NQA前需要保证设备没有阻挡ICMP报文(3).测试的频率、超时触发次数、发送数据包的大小,可以根据需要调整。(4).备份组的配置不是必须的,可根据实际情况调整三、分支网络通过 MPLSVPN骨干全互联模型1.网络结构描述:如图三所示,分支网络通过三层MPLSVPN骨干相连,实现站点各VPN之间的互通,以及各VPN之间的隔离。骨干网使用私有AS号码,AS64512,使用BGP作为路由协议分发、维护VPNV4路由,各路由器通过OSPF协议作为内部IGP使各BGP路由器能通过loopback0接口互联。为了减少IBGP的全互联数量及易于网络扩展(新加入PE路由器只需要和P1和P2路由器建立IBGP邻居即可)。将P1和P2路由器配置BGP路由反射器,用来在个 BGP反射器客户端间发射 VPNV4路由。图三2.存在问题BGP、OSPF路由协议,LDP标签分发协议,通过在邻居间发送和接收hello(keepalive)包,检测邻居的存货情况,实现网络收敛。当邻居出现故障时,需要等待计时器超时后才能更新邻居信息,重新计算路由,使网络收敛,在收敛前数据无法正常转发。3.解决方法利用BFD机制为OSPF,BGP、MPLS、LDP提供快速切换能力。4.配置示例与OSPF结合(1).R1路由器OSPF相关配置及信息[R1]displaycurrent-configuration|beginospf10R2路由器上,建立ACL模拟与R1相连接的网络出现故障。[R2]displayaclallBasicACL2000,named-none-,2rules,ACL'sstepis5(3) rule10denysource
0(29timesmatched)
控R1上的
OSPF信息<R1>debuggingospfevent
R1及
R2路由器互联接口上开启
bdfospf
协议检测功能[R1-Serial0/2/0]display this#interfaceSerial0/20link-protocolpppipaddressospfcost10(6)ospfbfdenable 启BFD检测后的故障模拟测试[R2]firewallenableOSPF10:NbrRcvHelloReceivedStateDown->Init. 1路由器BGP相关配置及信息(2)[R1]displaycurrent-configuration|beginbgp2路由器BGP相关配置及信息(3)[R2]displaycurrent-configuration|beginbgp64512R2路由器上模拟故障[R2-LoopBack0]displaythis#interfaceLoopBack0ShutdownCurrenteventisRecvUpdateMessage.*May814:01:11:3132012R1RM/6/RMDEBUG:BGP.:CurrenteventisRecvKeepAliveMessage.*May814:01:14:9062012R1RM/6/RMDEBUG:BGP.:CurrenteventisKATimerExpired.*May814:01:14:9062012R1RM/6/RMDEBUG:BGP.:CurrenteventisKATimerExpired.*May814:01:27:1252012R1RM/6/RMDEBUG:BGP.:CurrenteventisRecvKeepAliveMessage.<R1>displaybgpvpnv4allpeerCurrenteventisRecvKeepAliveMessage.*May814:01:50:2972012R1RM/6/RMDEBUG:BGP.:CurrenteventisKATimerExpired.*MayBGP.:
814:01:50:2972012R1RM/6/RMDEBUG:CurrenteventisKATimerExpired.*MayBGP.:
814:01:56:7342012R1RM/6/RMDEBUG:CurrenteventisRecvKeepAliveMessage.*MayBGP.:
814:02:21:9692012R1RM/6/RMDEBUG:CurrenteventisRecvKeepAliveMessage.*MayBGP.:
814:02:25:6252012R1RM/6/RMDEBUG:CurrenteventisKATimerExpired.*MayBGP.:
814:02:25:6252012R1RM/6/RMDEBUG:CurrenteventisKATimerExpired.%MayBGP.:
814:02:38:3592012R1RM/3/RMLOG:StateischangedfromESTABLISHEDtoIDLE.*MayBGP.:
814:02:38:3592012R1RM/6/RMDEBUG:CurrenteventisRecvKeepAliveMessage.*MayBGP.:
814:02:38:3592012R1RM/6/RMDEBUG:CurrenteventisRecvNotificationMessage.*MayBGP.:
814:02:38:3592012R1RM/6/RMDEBUG:StateischangedfromESTABLISHEDtoIDLE.*May 814:02:38:3592012R1RM/6/RMDEBUG:BGP.: RecvNOTIFICATIONErr/SubErr:4/0(HoldTimerExpired)<R1>displaybgpvpnv4allpeer R1及R2路由器上开启[R1]bgp64512[R1-bgp]peer bfd
BFD
BGP协议检测功能May
814:22:21:6252012R1BFD/4LOG:Sess[Sta:INIT->UP,Diag:0[R2]bgp64512[R2-bgp]peer bfdMay814:22:21:6252012R2BFD/4/LOG:Sess[Sta:DOWN->UP,Diag:0(5).在R2路由器上模拟故障[R2-LoopBack0]displaythisinterfaceLoopBack0Shutdown
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年期货从业资格之《期货法律法规》模拟题库及答案详解【历年真题】
- 2025临床执业医师试题预测试卷(基础题)附答案详解
- 完善数据要素价值化的策略及实施路径
- 执业药师之《西药学专业一》考试黑钻押题及参考答案详解(夺分金卷)
- 执业药师之《西药学专业一》每日一练含完整答案详解【夺冠】
- 电工题库试题附答案详解(A卷)
- 铅锌矿项目投资计划书
- 2025年上海市嘉定区绿化和市容管理局外聘法律顾问选聘笔试备考试题及一套参考答案详解
- 湖北省部分学校2025-2026学年高二上学期开学检测语文试卷及参考答案
- 2025自考专业(法律)全真模拟模拟题及完整答案详解【各地真题】
- 新老物业移交表格(全套)
- 改装课件b737增压系统终定版
- 自考英语考试真题及答案新版
- 环境地学-1绪论
- 改造工程电气工程施工组织设计方案
- 净化实验室施工组织方案
- 110KV变电站负荷及短路电流计算及电气设备的选择及校验
- 湘少版三年级英语上册《Unit1Hello!》教案设计
- 食品安全协管员培训讲稿
- 2020年烟草行业长沙卷烟厂土地平整工程
- 骨科内植物与器械课件
评论
0/150
提交评论