网络系统故障排查手册v1.0.doc_第1页
网络系统故障排查手册v1.0.doc_第2页
网络系统故障排查手册v1.0.doc_第3页
网络系统故障排查手册v1.0.doc_第4页
网络系统故障排查手册v1.0.doc_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京华胜天成科技股份有限公司网络系统故障排查手册(v 1.0)作者赵凤毅审核分类非SUN技术文档子类网络设备更新时间2007年6月24日关键字Cisco switch 绑定摘要本文介绍了在交换机、路由器等网络设备的故障排查主要适用环境Cisco局域网交换机版本说明版本日期内容编写人V1.02007-6-24文档初稿赵凤毅 网络系统故障排除手册目 录交换机故障排查5交换机故障分类:5交换机故障的排障步骤:7故障处理常用操作命令8OSPF故障排除15排除故障的步骤:15OSPF相关的show命令:18OSPF相关的debug命令:18BGP协议故障诊断19故障排除BGP问题19处理BGP故障命令22网速问题诊断22附录:Cisco网际操作系统(IOS)使用维护26用户命令模式:26特权命令模式:27全局配置模式:30接口配置模式:32线配置模式:33协议配置模式:33交换机故障排查交换机故障分类:l 硬件故障l 软件故障1) 硬件故障主要指交换机电源、背板、模块、端口等部件的故障,可以分为以下几类。(1)电源故障:由于外部供电不稳定,或者电源线路老化或者雷击等原因导致电源损坏或者风扇停止,从而不能正常工作。由于电源缘故而导致机内其他部件损坏的事情也经常发生。如果面板上的POWER指示灯是绿色的,就表示是正常的;如果该指示灯灭了,则说明交换机没有正常供电。这类问题很容易发现,也很容易解决,同时也是最容易预防的。针对这类故障,首先应该做好外部电源的供应工作,一般通过引入独立的电力线来提供独立的电源,并添加稳压器来避免瞬间高压或低压现象。如果条件允许,可以添加UPS(不间断电源)来保证交换机的正常供电,有的UPS提供稳压功能,而有的没有,选择时要注意。在机房内设置专业的避雷措施,来避免雷电对交换机的伤害。(2)端口故障:这是最常见的硬件故障,无论是光纤端口还是双绞线的RJ-45端口,在插拔接头时一定要小心。如果不小心把光纤插头弄脏,可能导致光纤端口污染而不能正常通信。我们经常看到很多人喜欢带电插拔接头,理论上讲是可以的,但是这样也无意中增加了端口的故障发生率。在搬运时不小心,也可能导致端口物理损坏。如果购买的水晶头尺寸偏大,插入交换机时,也容易破坏端口。一般情况下,端口故障是某一个或者几个端口损坏。所以,在排除了端口所连计算机的故障后,可以通过更换所连端口,来判断其是否损坏。遇到此类故障,可以在电源关闭后,用酒精棉球清洗端口。如果端口确实被损坏,那就只能更换端口了。(3)模块故障:交换机是由很多模块组成,比如:堆叠模块、管理模块(也叫控制模块)、扩展模块等。这些模块发生故障的机率很小,不过一旦出现问题,就会遭受巨大的经济损失。如果插拔模块时不小心,或者搬运交换机时受到碰撞,或者电源不稳定等情况,都可能导致此类故障的发生。当然上面提到的这3个模块都有外部接口,较易辨认,有的还可以通过模块上的指示灯来辨别故障。比如:堆叠模块上有一个扁平的梯形端口,管理模块上有一个CONSOLE口,用于和网管计算机建立连接,方便管理。如果扩展模块是光纤连接的话,会有一对光纤接口。在排除此类故障时,首先确保交换机及模块的电源正常供应,然后检查各个模块是否插在正确的位置上,最后检查连接模块的线缆是否正常。在连接管理模块时,还要考虑它是否采用规定的连接速率,是否有奇偶校验,是否有数据流控制等因素。连接扩展模块时,需要检查是否匹配通信模式,比如:使用全双工模式还是半双工模式。若确认模块有故障,应当更换。(4)背板故障:交换机的各个模块都是接插在背板上的。如果环境潮湿,电路板受潮短路,或者元器件因高温、雷击等因素而受损都会造成电路板不能正常工作。比如:散热性能不好或环境温度太高导致机内温度升高,指使元器件烧坏。在外部电源正常供电的情况下,如果交换机的各个内部模块都不能正常工作,那就可能是背板坏了,遇到这种情况,惟一的办法就是更换背板了。(5)线缆故障:其实这类故障从理论上讲,不属于交换机本身的故障,但在实际使用中,电缆故障经常导致交换机系统或端口不能正常工作,所以这里也把这类故障归入交换机硬件故障。比如接头接插不紧,线缆制作时顺序排列错误或者不规范,线缆连接时应该用交叉线却使用了直连线,光缆中的两根光纤交错连接,错误的线路连接导致网络环路等。从上面的几种硬件故障来看,机房环境不佳极易导致各种硬件故障,所以我们在建设机房时,必须先做好防雷接地及供电电源、室内温度、室内湿度、防电磁干扰、防静电等环境的建设,为网络设备的正常工作提供良好的环境。2) 交换机的软件故障是指系统及其配置上的故障,它可以分为以下几类。(1)系统错误:交换机系统是硬件和软件的结合体。在交换机内部有一个可刷新的只读存储器,它保存的是这台交换机所必需的软件系统。这类错误也和我们常见的Windows、Linux一样,由于当时设计的原因,存在一些漏洞,在条件合适时,会导致交换机满载、丢包、错包等情况的发生。所以交换机系统提供了诸如Web、TFTP等方式来下载并更新系统。当然在升级系统时,也有可能发生错误。对于此类问题,有新的系统推出或者新的补丁,请及时更新。(2)配置不当:对交换机不熟悉,或由于各种交换机配置不同,往往在配置交换机时出现配置错误。比如VLAN 划分不正确导致网络不通,端口被错误地关闭,交换机和网卡的模式配置不匹配等原因。这类故障有时很难发现,需要一定的经验积累。(3)密码丢失:可以通过一定的操作步骤来恢复或者重置系统密码。(4)外部因素:由于病毒或者黑客攻击等情况的存在,有可能某台主机向所连接的端口发送大量不符合封装规则的数据包,造成交换机处理器过分繁忙,致使数据包来不及转发,进而导致缓冲区溢出产生丢包现象。还有一种情况就是广播风暴,它不仅会占用大量的网络带宽,而且还将占用大量的CPU处理时间。网络如果长时间被大量广播数据包所占用,正常的点对通信就无法正常进行,网络速度就会变慢或者瘫痪。一块网卡或者一个端口发生故障,都有可能引发广播风暴。由于交换机只能分割冲突域,而不能分割广播域(在没有划分VLAN 的情况下),所以当广播包的数量占到通信总量的30%时,网络的传输效率就会明显下降。可以使用show interface fastethernet X/X查看交换机端口状态信息变化。交换机故障的排障步骤:交换机的故障多种多样,不同的故障有不同的表现形式。故障分析时要通过各种现象灵活运用排除方法(如排除法、对比法、替换法),找出故障所在,并及时排除。(1)排除法:当我们面对故障现象并分析问题时,无意中就已经学会使用排除法来确定发生故障的方向了。这种方法是指依据所观察到的故障现象,尽可能全面地列举出所有可能发生的故障,然后逐个分析、排除。在排除时要遵循有简到繁的原则,提高效率。使用这种方法可以应付各种各样的故障,但维护人员需要有较强的逻辑思维,对交换机知识有全面深入的了解。(2)对比法:所谓对比法,就是利用现有的、相同型号的且能够正常运行的交换机作为参考对象,和故障交换机之间进行对比,从而找出故障点。这种方法简单有效,尤其是系统配置上的故障,只要简单地对比一下就能找出配置的不同点,但是有时要找一台型号相同、配置相同的交换机也不是一件容易的事。(3)替换法:这是我们最常用的方法,也是在维修电脑中使用频率较高的方法。替换法是指使用正常的交换机部件来替换可能有故障的部件,从而找出故障点的方法。它主要用于硬件故障的诊断,但需要注意的是,替换的部件必须是相同品牌、相同型号的同类交换机才行。当然为了使排障工作有章可循,我们可以在故障分析时,按照以下的原则来分析。1,由远到近由于交换机的一般鼓掌(如:端口故障)都是通过所连接计算机而发现的,所以经常从客户端开始检查。我们可以沿着客户端计算机端口模块水平线缆跳线交换机这样一条路线,逐个检查,先排除远端故障的可能。2,由外而内如果交换机存在故障,我们可以先从外部的各种指示灯上辨别,然后根据故障指示,再来检查内部的相应部件是否存在问题。比如POWER LED为绿灯表示电源供应正常,熄灭表示没有电源供应;LINK LEDs为黄色表示现在该连接工作在10Mb/s,绿色表示为100 Mb/s,熄灭表示没有连接,闪烁表示端口被管理员手动关闭;RDP LED表示冗余电源;MGMT LED表示管理员模块。无论能否从外面的出故障所在,都必须登录交换机以确定具体的故障所在,并进行相应的排障措施。3,由软到硬发生故障,谁都不想动不动就那螺丝刀去先拆了交换机再说,所以在检查时,总是先从系统配置或系统软件上着手进行排查。如果软件上不能解决问题,那就是硬件有问题了。比如某端口不好用,那我们可以先检查用户所连接的端口是否不在相应的VLAN中,或者该端口是否被其他的管理员关闭,或者配置上的其他原因。如果排除了系统和配置上的各种可能,那就可以怀疑到真正的问题所在硬件故障上。4,先易后难在遇到故障分析较复杂时,必须先从简单操作或配置来着手排除。这样可以加快故障排除的速度,提高效率。故障处理常用操作命令设备运行信息主要是指日志、单板运行转态、路由条目等,下表列举了一些常用的检查项目,可以在进行设备日常维护时参考。l Cisco设备常用查看命令1) 全局命令: 序号命令检查内容备注1show version显示系统硬件和软件版本、DRAM、Flash2show startup-config显示写入NVRAM中的配置内容3show running-config显示当前运行的配置内容4show buffers详细输出buffer的名称和尺寸5show stacks提供路由器进程和处理器利用率信息, 用stack decode6show tech-support显示几个show命令的输出7show access-lists查看访问列表配置8show memory用于测试内存问题9show logging显示日志信息10show debug查看调试命令11show ip ospf neighborOSPF邻居状态12show ip bgp sumBGP邻居状态13show ip route sum路由条目统计2) 接口相关命令序号命令检查内容备注1show queue e0/1查看接口上队列的设置和操作2show ip interface e0/1显示指定端口或一个模块上所有端口的信息(VLAN、速率、双工、状态、类型、)3show interface e/0显示端口下的数据统计信息3) 进程相关命令序号命令检查内容备注1show processes cpu查看接口上队列的设置和操作如果显示在five min的利用率超过70%,请检查设备中哪个进程占用了大量的CPU资源。2show processes memory显示路由器当前进程的内存使用情况如果free的内存少于10M,请引起重视。3Show environment确认温度、电压、风扇等环境变量值是否在正常范围内4) TCP/IP协议相关命令序号命令检查内容备注1Show ip access-list显示IP访问列表(1-199)2Show ip arp显示路由器的ARP缓存(IP、MAC、封装类型、接口) 3Show ip protocols显示运行在路由器上的IP路由协议的信息4Show ip route显示IP路由表中的信息5Show ip traffic显示IP流量统计信息l 交换以太网故障处理命令:序号命令检查内容备注1show system关于switch的高级总结信息,包括供电状态、uptime和管理设置2show interface显示指定端口或一个模块上所有端口的信息(VLAN、速率、双工、状态、类型、)3show log报告重要事件,包括所有模块的重启、trap、供电失败、4show logging buffer等同于路由器的show log命令,根据logging级别,报告端口up或down、STP、5show cdp显示相邻CISCO设备信息 6show test仅显示switch管理模块状态,包括接口卡、供电、内存等。7show mac显示大量计数,包括每端口帧流量、发出和进入的帧的总数量、丢弃、8show vtp status显示vtp信息9show spantree显示每个VLAN的SPT进程状态l 在交换机上排出故障,常使用show interface命令查看接口的信息。下面给出了在7609上查看第4槽位上第1个10G快速以太网接口的接口配置信息:CNC_HN_IDC_RSM7609#show interfaces tenGigabitEthernet 4/1TenGigabitEthernet4/1 is up, line protocol is up (connected) Hardware is C6k 10000Mb 802.3, address is 0014.a911.6280 (bia 0014.a911.6280) Description: IDC_Conn_ZhongYuanLu_GSR Internet address is 6/30 MTU 1500 bytes, BW 10000000 Kbit, DLY 10 usec, reliability 255/255, txload 1/255, rxload 1/255 Encapsulation ARPA, loopback not set Keepalive set (10 sec) Full-duplex, 10Gb/s input flow-control is desired, output flow-control is on ARP type: ARPA, ARP Timeout 04:00:00 Last input 00:00:00, output 00:00:00, output hang never Last clearing of show interface counters never Input queue: 0/75/1/194183 (size/max/drops/flushes); Total output drops: 0 Queueing strategy: fifo Output queue: 0/40 (size/max) 5 minute input rate 2356000 bits/sec, 2579 packets/sec 5 minute output rate 1422000 bits/sec, 215 packets/sec L2 Switched: ucast: 11819643 pkt, 995418667 bytes - mcast: 586708 pkt, 55150282 bytes L3 in Switched: ucast: 841794328 pkt, 162577143292 bytes - mcast: 0 pkt, 0 bytes mcast L3 out Switched: ucast: 12532860236 pkt, 4603062036766 bytes mcast: 0 pkt, 0 bytes 860275888 packets input, 164075878947 bytes, 0 no buffer Received 684533 broadcasts (0 IP multicast) 0 runts, 0 giants, 110 throttles 1 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored 0 watchdog, 0 multicast, 0 pause input 0 input packets with dribble condition detected 12525875619 packets output, 4599376755602 bytes, 0 underruns 0 output errors, 0 collisions, 2 interface resets 0 babbles, 0 late collision, 0 deferred 0 lost carrier, 0 no carrier, 0 PAUSE output 0 output buffer failures, 0 output buffers swapped out2、下表给出了show interface的输出中所有表项的具体含义:表项 描述 GigabitEthernet. is up.is administratively down表明接口的硬件当前是否是被激活的还是被管理员手工的showdown掉了。 line protocol is标识该接口的线协议也就是软件进程是否可用,还是被管理员手工的给shutdown了。 Hardware硬件类型(例如MCI Ethernet, SCI, cBus Ethernet) 和硬件地址 Internet address带有子网信息的该接口的IP地址。 MTU接口上的最大传输单元。 BW接口的带宽,通常单位是kb/s。 DLY端口的延迟,单位是ms。 Rely以255为参照数的接口的可靠性参数 (255/255 就是百分之百的可靠), 以5分钟的平均数来计算。 Load以255为参照数的接口的负荷(255/255 就是百分之百的负荷量), 5分钟的平均数来计算。 Encapsulation接口的封装类型。 ARP type接口配置的地址解析协议(ARP)的类型。 Loopback标识是否设置了接口回环。 Keepalive标识接口是否设置了发送存活(keepalives)信息 Last input自从接口接受到最近的一个数据包后的时间。当该数据包是被precess-switch的方式转发的时候计数器会更新,而当该包是被fast-switch的方式转发时则不更新计数器。 Output自从接口发送最近的一个数据包后的时间。 output hang接口因为数据包传输时间过长而重启后的时间,如果没有重启,则显示为never。 Last clearing清除接口统计计数器后的时间。注意:可能会影响到路由的变量信息时不会被清除置0的,例如load和reliablity 型号*表示清计算器后的时间太长显示不出来了。 Output queue, input queue, drops在接口输入输出队列中的数据包的个数。每个数字都跟了个/队列的最大范围。以及超过了队列的最大范围而丢弃的包的数量。 5 minute input rate, 5 minute output rate在最近5分钟内每秒传输的数据包的平均值。 packets input系统接受到的数据包的总的个数。 Bytes系统接受到的所有数据包(包括数据和MAC封装)的字节数。 no buffer因为在系统中没有足够的缓存从而丢弃的数据包的个数。可以和ignore的计数来比较。以太网上个广播风暴和串行接口上的传输质量不好通常可能会导致该计数器的增加。 Received . broadcasts接口所接受到的广播和多播的数据包的数量。 Runts因为小于介质的最小的包大小而丢弃的数据包的个数。例如,对以太网来说,小于64byte的数据包被认为是一个runt。 Giants因为大于介质的最大的包大小而丢弃的数据包的个数。例如,对以太网来说,大于1518byte的数据包被认为是一个giant。 Throttles接口disable的次数,可能是因为缓存或者处理器过载等因素。 input errors包括runts, giants, no buffer, CRC, frame, overrun, 和ignored的所有的计数器。其他和输入相关的error包也可以造成input errors计数器的增长。同时,一个数据包可能会包括多个的error。 CRC接口接受到的循环冗余校验和的数量。在局域网中,通常是因为线路质量或者硬件的传输问题,一个比较高的CRC数目通常是有些工作站发送大量坏的数据包造成的。 frame接受到的含有CRC错误和非整数的十进制数目的数据包的数量,在局域网中,通常是因为碰撞过多或者以太网设备的故障。 Overrun因为输入的速率超出了接受者硬件的处理能力没有硬件缓存来处理的次数。 Ignored和系统的缓存不同,这个是因为接口的内部缓存而造成的接受到数据包被忽略的数目。 Abort接受时中断的数据包的个数。 input packets with dribble condition detectedFrame超长的输入的数据包。 packets output系统发出的数据包的个数。 Bytes系统发出的所有数据包(包括数据和MAC封装)的字节数。 Underruns发送者传输过快导致路由器无法处理的次数。 output errors接口认为的所有传输数据包的错误的总和,同时,一个数据包可能会包括多个的error。 Collisions因为以太网冲突导致重传的数据包的个数。 interface resets接口重启的次数。在几秒钟时间内进入队列的数据包都没有传输的情况下可能发生。在串行接口上,可能是因为传输的modem故障没有发送时钟信号或者线缆的问题 。如果系统发现串行上因为有载波信号接口up但是协议是down的情况下,接口会努力周期性的重启自己。当接口回环或者被shut down是接口也可能会重启。 Babbles传输的计时器到。 late collision传输数据包序文报头后发生的碰撞叫late collisions。通常发生late collision都是因为以太网的线缆过长,超出了它所能传输的距离限制造成的。 Deferred因为载波的问题,芯片延后传输帧。 lost carrier传输过程中丢失载波的次数。 OSPF故障排除由于OSPF协议自身的复杂性,在配置的过程中可能会出现错误。OSPF协议正常运行的标志是:在每一台运行该协议的路由器上,应该得到的路由一条也不少,并且都是最优路径。排除故障的步骤:l 配置故障处理:检查是否已经启动并正确配置了OSPF协议。l 局部故障处理:检查两台直接相连的路由器之间协议运行是否正常。l 全局故障处理:检查一下系统设计(主要是指区域的划分)是否正确。l 其它疑难问题:路由时通时断、路由表中存在路由却无法PING通地址。此类问题需针对不同的情况具体分析。1) 参数不匹配使用debug ip ospf adj命令能够看到大多数的不匹配问题。 (1)hello/dead间隔不匹配匹配才可以形成邻居。 (2)不匹配的认证类型OSPF下有MD5和纯文本认证。 Router ospf 100 Area 0 authentication message-digest Network x.x.0.0 55 area 0 (3)不匹配的区域ID区域信息在OSPF的HELLO分组中发送。不同,不会形成邻接。 (4)不匹配的短截/传输/NSSA区域选项当OSPF与一个邻居交换HELLO分组时,它所交换的一项内容是由8比特表示的可选能力。选项字段之一是E比特,即OSPF短截标志。当E比特置0时,该路由关联的区域是一个短截区域,外部LSA不允许进入这个区域。 2) OSPF状态问题 成为邻居的路由器不保证交换链路状态更新。一旦路由器决定与一个邻居形成邻接,它就开始交换其链路状态数据库的一份完整拷贝。 (1)OSPF陷入ATTEMPT仅对neighbor语句的NBMA网络有效。陷入ATTEMPT是指一台路由器试图通过发送它的HELLO来联系邻居但是它没有收到响应。 Show ip ospf neighbor查看。 原因:错误配置neighbor;NBMA上的单播连通性断了,这可能是由错误的DLCI,访问列表或转换单播的NAT引起的。 (2)OSPF陷入INITINIT状态表示路由器收到来自邻居的HELLO分组,但是双向通信并没有建立。原因: 一方访问列表阻止了HELLO; 一方的多播能力失效(一个交换机故障); 仅在一方启用了认证; 一方的frame-relay map/dialer map语句缺少了broadcast关键字。 一方的HELLO在第2层丢失了。 (3)OSPF陷入2-WAY双向状态是指路由器在HELLO分组的邻居字段中见到了自己的路由器ID.类似于所有路由器的优先级都为0,则不会发生选举,所有路由器停留在双向状态中。 解决:确保至少一台路由器具有一个至少为1的IP OSPF优先级。 (4)OSPF陷入EXSTART/EXCHANGE在EXSTART或EXCHANGE状态的OSPF邻居正处于尝试交换DBD(数据库描述)分组的过程中。 原因:不匹配的接口MTU邻居上重复的路由器ID,无法用超过特定MTU长度进行PING断掉的单播连通性,它可能是因为错误的DLCI,访问列表或转换单播的NAT (5)OSPF陷入LOADING邻居没有应答或邻居的应答从未到达本地路由器,路由器也会陷入LOADING状态。常有%OSPF-4-BADLSA控制台信息。 原因: 不匹配的MTU,错误的链路状态请求分组 3.点到点链路的一方是无编号的 Interface s0 Ip unnumbered loopback0 解决:双方都需要成为一个有编号点到点链路或一个无编号点到点链路。 3) ABR没有产生一个类型4的汇总LSA 类型4的汇总LSA的一个功能是宣告到其他区域的ASBR的可达性。如果同一个区域中存在ASBR则不需要类型4的LSA. Show ip ospf database external命令的输出显示在路由器的外部OSPF数据库中是否存在路由。 Show ip ospf database asbr-summary命令的输出显示路由是否有类型4的LSA. 检查R是否真是ABR.如果是,则产生类型3或类型4的汇总LSA.show ip ospf 4) 转发地址不能通过区域内或区域间路由获知 当OSPF获得一条外部LSA时,它在将该路由装入路由选择表之前要确定转发地址可通过一条OSPF区域内或区域间路由获知。如果转发地址不能通过区域内或区域间路由获知,OSPF不会将路由装入路由选择表中。 可能的解决: 不在ABR上进行汇总,在ASBR上过滤再分布入OSPF中的直接子网 Router ospf 1 Redistribute rip subnets 5) 路由汇总问题 两种类型汇总: 可执行在ABR上的区域间路由汇总 可执行在ASBR上的外部路由汇总 (1)区域间汇总 Router ospf 1 Area 3 range x.x.x.0 通过show ip ospf可以查看 (2)外部汇总 Router ospf 1 summary-address x.0.0.0 6) CPUHOG问题 产生在:邻居形成过程LSA刷新过程 7) SPF计算和路由翻动 只要拓扑有变化,OSPF就运行SPF算法再次计算最短路径优先树,可能引起链路的不稳定。原因:区域内的接口翻动,区域内的邻居接口翻动,重复的路由器ID 使用show ip ospf命令可查看在一个给定区域中SPF算法运行的次数; 使用debug ip ospf monitor来隔离一个翻动的LSA; 使用show log命令显示由接口引起的翻动。 解决: 修复正在翻动的链路重新定义区域边界,处理OSPF故障,OSPF是链路状态协议,维护3个数据库:相邻数据库、拓扑结构数据库、路由表。 OSPF相关的show命令:Show running-config Show ip route Show ip route ospf ;仅显示OSPF路由 Show ip ospf process-id ;显示与特定进程ID相关的信息 Show ip ospf ;显示OSPF相关信息 Show ip ospf border-routers ;显示边界路由器 Show ip ospf database ;显示OSPF的归纳数据库 Show ip ospf interface ;显示指定接口上的OSPF信息 Show ip ospf neighbor ;显示OSPF相邻信息 Show ip ospf request-list ;显示链路状态请求列表 Show ip ospf summary-address ;显示归纳路由的再发布信息 Show ip ospf virtual-links ;显示虚拟链路信息 Show ip interface ;显示接口的IP设置 OSPF相关的debug命令: Debug ip ospf adj ; Debug ip ospf events Debug ip ospf flood Debug ip ospf lsa-generation Debug ip ospf packet Debug ip ospf retransmission Debug ip ospf spf Debug ip ospf tree 注意:OSPF的每个area不超过100台路由器,整个网络不超过700台路由器。另外,通配符掩码配置不当是常见的故障问题。BGP协议故障诊断BGP是唯一能够运行在AS之间的路由协议,在Internet上,他有不可替代的地位。同时BGP是“传递路由信息”的协议,并不是“发现路由信息”的协议,协议的工作过程可以分为如下两个过程:l 设备之间正常的建立起BGP邻居;l 邻居之间传递、同步路由信息;当然,由于BGP协议十分灵活,而且路由属性众多,可以通过多种路由策略完成特定的需求,我们在此只考虑最简单的情况。故障排除BGP问题 原则:首先应检查第1/2层,然后是IP连通性(第3层),再TCP连接(第4层),最后是BGP配置。 1) BGP邻居关系问题(1)直接的外部BGP邻居没有初始化 自治系统(AS)不会向AS发送或从AS接收任何IP前缀更新,除非邻居关系达到established状态,该状态是BGP邻居建立的最后阶段。当AS有一条单一的EBGP连接时,直到BGP完成了它的收发IP前缀操作后IP连通性才能发生。 原因:第2层宕掉了,阻止了与直接的EBGP邻居通信,在BGP配置中有错误的邻居IP地址。命令:show ip bgp summary和show ip bgp neighbors检查BGP邻居关系 active状态表示邻居间没有发生成功的通信,并且邻居未形成。用PING测试其连通性,失败则表示要修复第1/2层问题。Debug ip bgp能够帮助诊断问题。(2)非直接的外部BGP邻居没有初始化 有些情况下,EBGP邻居不是直连的。BGP邻居关系能够建立在试图形成由一台或多台路由器分隔开的EBGP邻居关系的路由器之间。这种邻居在IOS中被称为EBGP多跳。当路由器之间存在多个接口并且需要在那些接口之间IP流量负载均衡时,通常在回环接口之间建立EBGP对等实体。 可能的原因: 到非直连对等实体地址的路由从路由选择表中丢失了,BGP配置中缺少ebgp-multihop命令;缺少update-source interface命令。命令:show ip bgp summary和show bgp neighbors router bgp 65131 bgp router-id 3 bgp log-neighbor-changes neighbor 5 remote-as 65130 neighbor 5 password 7 1046071A0B14 neighbor remote-as 65132 ! address-family ipv4 neighbor 5 activate neighbor activate neighbor soft-reconfiguration inbound neighbor distribute-list deny_all out no auto-summary no synchronization bgp dampening network network mask exit-address-family(3)内部BGP邻居没有初始化 原因:到非直接IBGP邻居的路由丢失了(4)BGP邻居(外部和内部)没有初始化接口访问列表/过滤是BGP邻居活动问题的一个常见原因。2) 故障排除BGP路由通告发生在BGP路由通告的产生和接收中。(1)没有产生BGP路由原因:IP路由选择表中没有匹配的路由发生了配置错误,BGP自动汇总到有类别/网络边界(2)向IBGP/EBGP邻居传播/产生一条BGP路由的问题配置的分布列表过滤可能是该问题的起因,或者是策略路由选择有问题。(3)向EBGP邻居但没有向IBGP邻居传播一条BGP路由的问题Show run Show ip bgp Show ip bgp summary(4)向IBGP/EBGP邻居传播一条IBGP路由的问题一条BGP路由只有首先通过IGP或静态路由获得后才是同步的。Show ip bgp命令的输出显示了BGP表中的不同步路由。3) 排除路由没有装入IP路由选择表中的故障原因:(1)IBGP原因IBGP路由不同步;BGP下一跳不可达(2)EBGP原因在多跳EBGP情况下BGP下一跳不可达;BGP路由被抑制,多出口鉴别器(MED)值为无穷4) BGP下一跳不可达解决: 使用静态路由或再分布经由IGP宣告EBGP下一跳 使用next-hop-self命令将下一跳改变为一个内部对等实体地址 router bgp 65131neighbor 5 next-hop-self 5) BGP路由被抑制 抑制(dampening)是减小本地BGP网络中来自EBGP邻居的不稳定BGP路由所引起的不稳定性的方法。抑制是一种为一条翻动的BGP路由指派一个罚点的方法。 Router bgp 65131Bgp dampening 处理BGP故障命令BGP(包括IBGP和EBGP)的关键配置是邻居关系,BGP使用TCP建立相邻关系。BGP相关的show命令: Show ip bgp ;显示BGP所学习到的路由 Show ip bgp network ;显示特定网络的BGP信息 Show ip neighbors ;显示BGP邻居信息 Show ip bgp peer-group ;显示BGP对待组信息 Show ip bgp summary ;显示所有BGP连接的归纳 Show ip route bgp ;显示BGP路由表 BGP相关的debug命令: Debug ip bgp updates Debug ip bgp dampening Debug ip bgp events Debug ip bgp keepalives Debug ip bgp updates 网速问题诊断网络开通之后,经常会遇到“下载速度慢”、“用户掉线”等非功能性问题。导致这类问题的原因比较复杂,而且很可能与主机、网络拓扑等相关,问题定位也相对复杂。这里我们针对“下载速度慢”问题给出我们的故障诊断建议,如果遇到类似问题,可以参考执行。网速问题诊断步骤网络下载速度受很多因素影响,在进行问题处理之前我们需要进行充分的测试,并且作横、纵向比较,定位大概的问题范围。比如我们需要应用不同的终端在相同的时间、相同的网络位置进行下载(针对相同的网站和不同的网站都要做);应用同一台终端在相同的网络位置,不同时间从同一个网站下载文件一般情况下,如果相同时间、相同网络位置,下载同一个网站上的内容,如果有的终端快、有的终端慢,基本可以肯定为终端问题,速度差异可能是由终端配置、操作系统、网卡质量等因素造成。如果相同时间、相同网络位置,应用同一台终端在不同的网站上下载内容,如果速度相差很大,基本可以肯定为网站服务器问题,速度差异可能由服务器配置、服务器出口带宽、热点程度等原因造成。如果有可能,我们可以进行网络的横向比较。在不同的网络中相同时间,下载同一个网站的内容。测试结果可以一定程度上考察本地网以外的网络质量。本地网络诊断步骤进行充分的测试、比较后,如果确认本地网络是网络速度的瓶颈,那么就需要在本地网络的不同网络节点再作进一步的测试。在本地网络中选取有代表性的测试点(一般每一级设备下选取一个测试点),应用能力相同的终端,在同一时间下载同一网站的内容。排除本地传输链路经过多次转接的情况,本地网络各级设备以下的测试速度应该相差不大。如果测试中发现相邻级别测试点的速度下降幅度过大(超过50%),那么两级测试点之间的设备可能存在问题。首先,我们应该检查设备上行端口的带宽利用率,如果利用率已经几乎达到“满负荷”,那么速度的下降也就是正常的了,这是我们需要考察数据流量的内容,如果大部分是“病毒报文”或者“非法报文”,就需要进行杀毒和限速处理。如果基本上属于正常的业务报文,就需要进行设备升级或扩容了。由于不同的设备内部转发流程不同,所以只考察端口带宽利用率并不能完全说明问题。我们还需要检查设备的CPU占用率、内存使用率等性能参数。一般基于软件转发机制的设备,并不能保证所有端口的“线速转发”,如果某一项性能参数已经达到极限,就需要对设备进行升级或扩容了。下载速度“瓶颈”确认和TCP协议的改善如果本地网络各测试点之间的速度差异不大,基本上可以确认本地网络不是下载速度瓶颈。为了进一步证明这一点,我们采取检测“全路径”每一跳时延的方式,可以通过traceroute命令的返回结果确认,如果外网(本地网络出口设备以上的网络)的某一跳时延很大(达到几十甚至上百ms),那么瓶颈最可能就在这一跳,这种情况一般出现在不同运营商的互联链路上。我们还可以通过架设本地服务器的方式考察本地网络是否为下载速度瓶颈。当确认“外网”某链路为速度瓶颈后,我们需要采取相应的措施进行改善,一般情况下,很难对“外网”链路作出调整的要求。由于TCP本身有“滑动窗口”机制,在网络时延比较大、但是链路质量比较好的情况下,“窗口”不是向前“滑动”的,而是“跳动”。如果我们进行抓包分析,可以看到一定数目的数据包几乎是同时发出,“长时间”之后“同时得到确认”。终端的下载速度基本上符合以下计算公式:下载速度滑动窗口大小每秒钟整窗口的滑动个数其中“每秒钟整窗口的滑动个数”取决于端到端时延,很难进行优化,我们可以通过适当的调整终端TCP滑动窗口大小来改善基于TCP协议的应用。由于UDP协议几乎是“逐包确认”的,完全取决于“端到端时延”,所以在这种情况下很难改善,只能进行网络拓扑或者传输链路的优化。以上针对网络中常见的问题进行分析,提供了故障分析建议。由于网络设备支持的网络协议众多、特性复杂,而且随着网络规模的扩大,问题复

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论