网络可靠性实现_第1页
网络可靠性实现_第2页
网络可靠性实现_第3页
网络可靠性实现_第4页
网络可靠性实现_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

高可用性技术(故障检测技术)在路由网络中的应用国网电科院信息通信技术服务中心 蓝鹏 VER1.0 引言:为了保证网络的不间断运行,特别是核心出口网络的高可用性,通常在部署较大规模网络时,会采取链路级备份、设备级备份等方式。技术上通常使用多管理引擎备份、浮动静态路由、VRRP、HSRP等。虽然这些技术给网络带来了一些备份作用,但是对于实时性要求较高的网络还会存在一些问题,本文结合在H3C路由器上的配置实例说明一些故障检测技术与传统技术的结合(联动)从而实现更为智能的高可用性解决方案。关键字:可靠性 故障检测技术 NQA BFD TRACK 路由协议 网络收敛 (一)、可靠性概述随着网络的快速普及和应用的日益深入, 网络中断可能影响大量业务,因此, 作为业务承载主体的基础网络, 其可靠性日益成为倍受关注的焦点。在实际网络中,总避免不了各种非技术因素造成的网络故障和服务中断。 因此,提高系统容错能力、提高故障恢复速度、降低故障对业务的影响,是提高系统可靠性的有效途径。 1.可靠性需求 可靠性需求根据其目标和实现方法的不同可分为三个级别, 各级别的目标和实现方法如 表 1 所示。 级别 目标 实现方法 1 减少系统的软、硬件故障 硬件:简化电路设计、提高生产工艺、进行可靠性试验 软件:软件可靠性设计、软件可靠性测试等 2 即使发生故障,系统功能也不受影响 设备和链路的冗余设计、部署倒换策略、提高倒换成功率 3 尽管发生故障导致功能受损,但系统能够快速恢复 提供故障检测、诊断、隔离和恢复技术 表 1 在上述三个级别的可靠性需求中, 第 1 级别需求的满足应在网络设备的设计和生产过程中予以考虑;第 2 级别需求的满足应在设计网络架构时予以考虑; 第 3 级别需求则应在网络部署过程中, 根据网络架构和业务特点采用相应的可靠性技术来予以满足。 2. 可靠性度量 通常我们使用 MTBF ( Mean Time Between Failures , 平均故障间隔时间) 和 MTTR ( Mean Timeto Repair , 平均修复时间)这两个技术指标来评价系统的可靠性。 (1).MTBF MTBF 是指一个系统无故障运行的平均时间,通常以小时为单位。 MTBF 越多,可靠性也就越高。 (2).MTTR MTTR 是指一个系统从故障发生到恢复所需的平均时间, 广义的 MTTR 还涉及备件管理、 客户服务等,是设备维护的一项重要指标。 MTTR 的计算公式为: MTTR= 故障检测时间 + 硬件更换时间 + 系统初始化时间 + 链路恢复时间 + 路由覆盖时间 + 转发恢复时间。公式中各项的值越小, MTTR 也就越少,可靠性也就越高。 3.可靠性技术 根据上边的描述可知,降低 MTTR 可以提高网络的可靠性。在实际网络中,各种因素造成的故障难以避免, 因此能够让网络从故障中快速恢复的技术就显得非常重要。各种可靠性技术将主要从降低 MTTR 的角度,为满足第 3 级别的可靠性需求来提供技术手段。可靠性技术的种类繁多,根据其解决网络故障的侧重不同, 将其大致分为故障检测技术和保护倒换技术:(1).故障检测技术 故障检测技术侧重于网络的故障检测和诊断,主要使用的技术如表二所示 名称简介BFDBidirectional Forwarding Detection (双向转发检测), 是一个通用的、 标准化的、介质无关、协议无关的快速故障检测机制,用于快速检测、监控网络中链路或 IP 路由的转发连通状况 NQANetwork Quality Analyzer (网络质量分析), 通过发送测试报文, 对网络性能、网络提供的服务及服务质量进行分析,并为用户提供网络性能和服务质量的参数,如时延抖动、 TCP 连接时延、 FTP 连接时延和文件传输速率等 Track用于实现联动功能。联动功能由应用模块、 Track 模块和监测模块三部分组成,它通过建立联动项来实现不同模块间的联动,即由监测模块通过 Track 模块触发应用模块来执行某种操作。监测模块负责对链路状态、网络性能等进行探测,并通过 Track 模块将探测结果通知给应用模块;应用模块感知到网络状态变化后,及时进行相应处理,从而避免通信的中断或服务质量的降低 表二(2). 保护倒换技术保护倒换技术侧重于网络的故障恢复, 主要通过对硬件、 链路、 路由信息和业务信息等进行冗余备份以及故障时的快速切换, 从而保证网络业务的连续性。主要保护倒换技术的如表三所示。 名称简介接口备份同一台设备的各接口之间形成备份关系,通常由主接口承担业务传输,备份接口处于备份状态。当主接口本身或其所在线路发生故障而导致业务传输无法正常进行时,可以启用备份接口进行通信 以太网链路聚合简称链路聚合,它通过将多条以太网物理链路捆绑在一起成为一条逻辑链路,实现了增加链路带宽的目的,而这些捆绑在一起的链路通过相互间的动态备份,可以有效地提高链路的可靠性 MSTPMultiple Spanning Tree Protocol (多生成树协议),是一种二层管理协议,它通过选择性地阻塞网络中的冗余链路来消除二层环路,同时还具备链路备份的功能 GRGraceful Restart (平滑重启), 是一种保证转发业务在设备进行转发协议(如BGP 、 IS-IS 、 OSPF 、 LDP 和 RSVP-TE 等)重启时不中断的技术。它需要周边设备的配合来完成路由等信息的备份与恢复 VRRPVirtual Router Redundancy Protocol (虚拟路由器冗余协议),是一种容错协议,在具有组播或广播能力的局域网(如以太网)中,使设备出现故障时仍能提供缺省链路,有效地避免了单一链路发生故障后出现网络中断的问题 从前面的介绍可知, 可靠性技术的种类繁多, 面对越来越复杂的网络环境, 要想依靠单一的技术来解决所有的可靠性问题几乎无法实现。 因此, 需要在对网络环境和用户需求进行细致分析的基础上,综合运用各种可靠性技术来提高网络的可靠性。 此外, 在建网之初还应充分考虑组网的可靠性, 譬如: 根据业务现状或业务预测, 边缘层的节点在接入时应采用冗余备份机制, 分别与汇聚层的节点相连;核心层的各节点之间尽量采用全连接的方式,等等。 (二)、可靠性技术应用实例:1、 单设备多出口模型:1. 网络结构描述:如图一所示,这种单设备,多出口网络通常在出口路由器上会配置一条以上的默认路由,分别指向不同的ISP下一跳,通过修改优先级的方式(浮动静态路由)实现在路由层面的线路备份,当作为主用线路的链路故障时,作为备用默认路由的路由会浮动成为主用路由IP 图 一2. 存在问题:路由的切换是与物理接口的状态直接相关的,通常运营商(ISP)提供的专线接入会增加协议转换器等设备与路由器接口相连,协议转换器至路由器的这部分线路故障概率很低,路由器接口始终处于UP状态,当上行链路(协议转换器上层传输网络)或更上一级的网络发生故障时 路由并不能切换,数据包仍然会通过该接口转发,造成数据包转发黑洞。3. 解决方法: 在配置静态(默认)路由时,指定了一跳地址可以通过联动功能, 利用监测模块(NQA)监视静态路由下一跳的可达性,并根据 Track 项的状态来判断静态路由的可达性。Track主要由以下三种状态: (1).Track 项状态为 Positive 时,静态路由的下一跳可达,配置的静态路由将生效; (2).Track 项状态为 Negative 时,静态路由的下一跳不可达,配置的静态路由无效; (3).Track 项状态为 Invalid 时,无法判断静态路由的下一跳是否可达,此时配置的静态路由生效4. 配置实例(1).创建侦测组和track项,并于静态(默认路由关联) RT1 nqa entry admin test /创建管理员名为 admin 、操作标签为 test 的 NQA 测试组 type icmp-echo /配置测试类型为 ICMP-echo,即定期ping测试指定的ip destination ip / # 配置测试的目的地址为 (ISP1的对端互联地址) frequency 1000 / 配置测试频率为 1000ms 。 reaction 1 checked-element probe-fail threshold-type consecutive 5 action-type trigger-only / 配置联动项 1 (连续失败 5 次触发联动) nqa schedule admin test start-time now lifetime forever /启动探测。 track 1 nqa entry admin test reaction 1 /配置 Track 项 1 ,关联上面创建的NQA 测试组(管理员为 admin ,操作标签为 test ) 的联动项 1#ip route-static track 1 /添加静态路由 并与Track1关联 ip route-static preference 100 /指向ISP2对端地址的默认路由,优先级为100(2).查看当前路由器的默认路由RT1display ip routing-table /查看默认路由,有两条度量值相同,优先级不同的默认路由Routing Table : PublicSummary Count : 2Destination/Mask Proto Pre Cost NextHop Interface/0 Static 60 0 S0/2/2Destination/Mask Proto Pre Cost NextHop Interface/0 Static 100 0 S0/2/1RT1display ip routing-table 0 verbose /优先级为60,下一跳地址为的默认路由处于激活状态,优先级为 100 下一跳地址为的默认路由处于未激活(备份状态)。Routing Table : PublicSummary Count : 2 Destination: /0 Protocol: Static Process ID: 0 Preference: 60 Cost: 0 NextHop: Interface: Serial0/2/2 RelyNextHop: Neighbor : Tunnel ID: 0x0 Label: NULL State: Active Adv GotQ Age: 00h00m03s Tag: 0 Destination: /0 Protocol: Static Process ID: 0 Preference: 100 Cost: 0 NextHop: Interface: Serial0/2/1 RelyNextHop: Neighbor : Tunnel ID: 0x0 Label: NULL State: Inactive Adv GotQ Age: 01h43m00s Tag: 0 (3).查看NQA测试情况display nqa result /查看NQA测试结果 NQA entry(admin admin, tag test) test results: Destination IP address: Send operation times: 1 Receive response times: 1 Min/Max/Average round trip time: 1/1/1 Square-Sum of round trip time: 1 Last succeeded probe time: 2012-05-03 15:38:14.6/最后测试成功的时间记录display nqa history /查看NQA的实时测试信息。 NQA entry(admin admin, tag test) history record(s): Index Response Status Time 4070 1 Succeeded 2012-05-03 15:38:49.7 4069 1 Succeeded 2012-05-03 15:38:48.7 4068 1 Succeeded 2012-05-03 15:38:47.7 4067 1 Succeeded 2012-05-03 15:38:46.7 4066 1 Succeeded 2012-05-03 15:38:45.7 4065 1 Succeeded 2012-05-03 15:38:44.7(4).路由跟踪测试tracert -q 20 /在本端连接的三层交换机上traceroute,公网地址为的主机,数据包下一跳通过ISP1路由器()转发。traceroute to () 30 hops max,40 bytes packet, press CTRL_C to break 1 14 ms 10 ms 10 ms 20 ms 10 ms 10 ms 20 ms 10 ms 10 ms 20 ms 30 ms 10 ms 10 ms 30 ms 10 ms 20 ms 20 ms 20 ms 20 ms 10 ms 2 20 ms 20 ms 20 ms 20 ms 10 ms 30 ms 10 ms 10 ms 20 ms 30 ms 10 ms 10 ms 30 ms 10 ms 20 ms 20 ms 20 ms 20 ms 20 ms 10 ms 3 20 ms 10 ms 30 ms 10 ms 30 ms 10 ms 10 ms 20 ms 20 ms 20 ms 10 ms 30 ms 10 ms 20 ms 20 ms 20 ms 20 ms 20 ms 10 ms 20 ms 4 50 ms 50 ms 50 ms 20 ms 60 ms 40 ms 40 ms 40 ms 50 ms 60 ms 50 ms 60 ms 60 ms 50 ms 50 ms 50 ms 50 ms 40 ms 40 ms 60 ms(5).通过在ISP1路由器侧,通过一个ACL模拟在接口、线路处于正常状态下,上层数据无法正常转发的故障。ISP1-routerdisplay acl all Basic ACL 2000, named -none-, 2 rules,ACLs step is 5 rule 10 deny source 0 (55 times matched) /拒绝源地址为(对端设备RT1 IP) rule 20 permit interface Serial0/2/0 link-protocol ppp firewall packet-filter 2000 inbound /将ACL应用到与对端设备相连的接口上 ip address firewall enable /开启防火墙功能#(6).在RT1路由器上查看NQA测试情况 display nqa history /当达到上面配置联动项1 连续失败 5 次触发联动) NQA entry(admin admin, tag test) history record(s): Index Response Status Time 4092 3000 Timeout 2012-05-03 15:39:30.0 4091 3000 Timeout 2012-05-03 15:39:25.9 4090 3000 Timeout 2012-05-03 15:39:21.9 4089 3000 Timeout 2012-05-03 15:39:17.8 4088 3000 Timeout 2012-05-03 15:39:13.8display nqa result NQA entry(admin admin, tag test) test results: Destination IP address: Send operation times: 1 Receive response times: 0 Min/Max/Average round trip time: 0/0/0 Square-Sum of round trip time: 0 Last succeeded probe time: 0-00-00 00:00:00.0 /NQA测试没有成功的记录。(6).在RT1路由器上查看NQA失败后的默认路由display ip routing-table verbose /这时路由器的默认路由已经变为下一跳为(ISP2)的一条路由了Routing Table : PublicSummary Count : 1 Destination: /0 Protocol: Static Process ID: 0 Preference: 100 Cost: 0 NextHop: Interface: Serial0/2/1 RelyNextHop: Neighbor : Tunnel ID: 0x0 Label: NULL State: Active Adv GotQ Age: 00h05m59s Tag: 0 tracert -q 20 /在本端连接的三层交换机上traceroute,公网地址为的主机,数据包下一跳通过ISP2路由器()转发。 traceroute to () 30 hops max,40 bytes packet, press CTRL_C to break 1 14 ms 10 ms 20 ms 20 ms 20 ms 10 ms 20 ms 20 ms 20 ms 20 ms 20 ms 20 ms 20 ms 10 ms 20 ms 20 ms 20 ms 10 ms 30 ms 10 ms 2 10 ms 20 ms 30 ms 10 ms 10 ms 30 ms 10 ms 20 ms 20 ms 20 ms 20 ms 20 ms 10 ms 20 ms 20 ms 20 ms 10 ms 30 ms 10 ms 10 ms 3 20 ms 30 ms 10 ms 10 ms 30 ms 10 ms 20 ms 20 ms 20 ms 20 ms 20 ms 10 ms 20 ms 20 ms 20 ms 10 ms 30 ms 10 ms 10 ms 20 ms 4 50 ms 60 ms 60 ms 30 ms 30 ms 50 ms 60 ms 40 ms 40 ms 40 ms 50 ms 50 ms 40 ms 40 ms 40 ms 50 ms 60 ms 60 ms 50 ms 50 ms(7).ISP路由器故障恢复ISP1-routerundo firewall enable /在ISP1路由器上关闭防火墙功能路由又切换回了ISP侧,下一跳为。display nqa history NQA entry(admin admin, tag test) history record(s): Index Response Status Time 386 1 Succeeded 2012-05-07 14:34:13.2 385 20 Succeeded 2012-05-07 14:34:12.2384 20 Succeeded 2012-05-07 14:34:11.2display ip routing-table verbose Routing Table : Public Destinations : 10 Routes : 11 Destination: /0 Protocol: Static Process ID: 0 Preference: 60 Cost: 0 NextHop: Interface: Serial0/2/2 RelyNextHop: Neighbor : Tunnel ID: 0x0 Label: NULL State: Active Adv GotQ Age: 00h00m09s Tag: 0 Destination: /0 Protocol: Static Process ID: 0 Preference: 100 Cost: 0 NextHop: Interface: Serial0/2/1 RelyNextHop: Neighbor : Tunnel ID: 0x0 Label: NULL State: Inactive Adv GotQ Age: 00h23m12s Tag: 0 5.经验总结及注意事项: (1).当建立NQA测试项时,指定的PING测试地址可以为非直连地址,但必须保证路由可达,这就为测试带来了更多的灵活性,可以检测到更上游的网络情况。如果测试的地址为非直连IP地址,可以在配置NQA项的时候,指定下一跳地址. nqa entry admin test /创建管理员名为 admin 、操作标签为 test 的 NQA 测试组 type icmp-echo /配置测试类型为 ICMP-echo,即定期ping测试指定的ip destination ip / 配置测试的目的地址为 ISP1路由器更上游地址 next-hop / 指定到达测试地址的下一跳地址 (2).由于本例中NQA测试,发送的是ICMP-ECHO报文,在使用NQA前需要保证设备没有阻挡ICMP报文 (3).测试的频率、超时触发次数、发送数据包的大小,可以根据需要调整。2、 多设备多出口模型:1. 网络结构描述:如图二所示的网络结构,这种多设备,多出口网络通常在出口路由器通常会在路由器间运行VRRP、HSRP等路由冗余协议,终端将虚拟网关Ip为作为自己的默认网关,当网络中的主用设备故障或线路故障时,由备用设备接管转发数据。同时作为主用设备的路由器通常会配置track上行链路,链路出现故障的时候会降低优先级,从而切换到备用设备上。图 二2.存在问题:。与上面的问题类似,接口跟踪只能检测到物理接口的故障,协议转换器的问题依然存在。上行链路故障并不能被感知到,依然会通过主用设备转发数据。造成转发黑洞。3.解决方法:通过在Track模块和VRRP协议之间建立联动,利用监测模块(NQA)监视路由下一跳的可达性,根据测试结果切换VRRP的主备用。同时可以利用VRRP备份组配置,在提供备份的同时提供一些负载均衡。 4. 配置示例(1). 分别在R1和R2路由器中建立两个VRRP组,一部分客户端将54(R1路由器为VRRP master)作为默认网关,一部分客户端将53(R2路由器作为VRRP Master),实现路由的动态备份,以及负载均衡,R1路由器的VRRP 配置 RT1-Vlan-interface100display this #interface Vlan-interface100 ip address vrrp vrid 10 virtual-ip 54 /VRRP组10 虚拟Ip为54 vrrp vrid 10 priority 120 /VRRP组10优先级为120(默认为100) vrrp vrid 10 track 1 reduced 30 /VRRP组10 与 track 1 关联,当track 1 触发时 优先级降低 30 vrrp vrid 20 virtual-ip 53 /VRRP组20 虚拟Ip为53R2路由器的VRRP 配置 RT2-Vlan-interface100display this #interface Vlan-interface100 ip address vrrp vrid 10 virtual-ip 54 /VRRP组10 虚拟Ip为54 vrrp vrid 20 virtual-ip 53 /VRRP组10 虚拟Ip为53 vrrp vrid 20 priority 120 /VRRP组20优先级为120(默认为100) vrrp vrid 20 track 1 reduced 30 /VRRP组20 与 track 1 关联,当track 1 触发时 优先级降低 30 #(2) .路由器RT1及RT2的NQA配置,与实例一相同RT1display current-configuration | begin nqanqa entry admin test type icmp-echo destination ip frequency 100 reaction 1 checked-element probe-fail threshold-type consecutive 5 action-type trigger-only nqa schedule admin test start-time now lifetime forever track 1 nqa entry admin test reaction 1 RT2display current-configuration | begin nqanqa entry admin test type icmp-echo destination ip frequency 100 reaction 1 checked-element probe-fail threshold-type consecutive 5 action-type trigger-only# nqa schedule admin test start-time now lifetime forever track 1 nqa entry admin test reaction 1 (4) .路由器RT1及RT2的VRRP状态 RT1display vrrp IPv4 Standby Information: Run Method : VIRTUAL-MAC Virtual IP Ping : Enable Total number of virtual routers: 2 Interface VRID State Run Adver. Auth Virtual Pri Time Type IP - Vlan100 10 Master 120 1 NONE 54 Vlan100 20 Backup 100 1 NONE 53 RT2display vrrp IPv4 Standby Information: Run Method : VIRTUAL-MAC Virtual IP Ping : Enable Total number of virtual routers: 2 Interface VRID State Run Adver. Auth Virtual Pri Time Type IP - Vlan100 10 Backup 100 1 NONE 54 Vlan100 20 Master 120 1 NONE 53 (5).在R3路由器侧,通过一个ACL模拟在接口、线路处于正常状态下,上层数据无法正常转发故障RT3display acl all Basic ACL 2000, named -none-, 3 rules,ACLs step is 5 rule 10 deny source 0 (2 times matched) rule 20 permit RT3-Serial0/2/0display this #interface Serial0/2/0 link-protocol ppp firewall packet-filter 2000 inbound /将ACL应用到与R1连接的接口上 ip address #RT3firewall enable /开启防火墙(6).在RT1路由器上查看NQA测试情况RT1display nqa history NQA entry(admin admin, tag test) history record(s): Index Response Status Time 2241 3000 Timeout 2012-05-07 15:48:31.6 2240 3000 Timeout 2012-05-07 15:48:28.4 2239 3000 Timeout 2012-05-07 15:48:25.3 2238 3000 Timeout 2012-05-07 15:48:22.2May 7 15:48:35:203 2012 RT1 VRRP/4/MasterChange: IPv4 Vlan-interface100 | Virtual Router 10 : MASTER - BACKUP reason: Received VRRP packet /当5个NQA测试失败后,RT1由备份组10 Master设备切换为BACKUP设备。RT1display vrrp IPv4 Standby Information: Run Method : VIRTUAL-MAC Virtual IP Ping : Enable Total number of virtual routers: 2 Interface VRID State Run Adver. Auth Virtual Pri Time Type IP - Vlan100 10 Backup 90 1 NONE 54 Vlan100 20 Backup 100 1 NONE 53 RT2 %May 7 15:48:35:547 2012 RT2 VRRP/4/MasterChange: IPv4 Vlan-interface100 | Virtual Router 10 : BACKUP - MASTER reason: Timer fired/同时RT2由备份组10BACKUP设备切换为MASTER设备。RT2display vrrp IPv4 Standby Information: Run Method : VIRTUAL-MAC Virtual IP Ping : Enable Total number of virtual routers: 2 Interface VRID State Run Adver. Auth Virtual Pri Time Type IP - Vlan100 10 Master 100 1 NONE 54 Vlan100 20 Master 120 1 NONE 53 (7).在R4路由器侧,通过一个ACL模拟在接口、线路处于正常状态下,上层数据无法正常转发故障RT4display acl all Basic ACL 2000, named -none-, 3 rules,ACLs step is 5 rule 10 deny source 0 (2 times matched) rule 20 permit RT4-Serial0/2/0display this #interface Serial0/2/0 link-protocol ppp firewall packet-filter 2000 inbound ip address #RT4firewall enable (8) .RT2路由器NQA测试失败后,由RT1路由器成为备份组20的Master负责转发数据display nqa history NQA entry(admin admin, tag test) history record(s): Index Response Status Time 9736 3000 Timeout 2012-05-07 15:58:19.3 9735 3000 Timeout 2012-

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论