




已阅读5页,还剩24页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
网络工程师现场维护手册网络工程师现场维护手册 1 1. . 适适应应范范围围 范围:所有现场故障排除的任务均需参照该指导书要求。 2 2. . 目目的的 目的:为了提高工作效率,主动地搞好各代维点网络设备的维护,力求保证各代维点 网络主干畅通。及时解决网络运行中出现的问题,各维护人员要规范、有效地作好维护工 作,不仅要解决出现的问题,而且尽量去分析出现问题的原因,为以后解决类似问题节约 时间和精力。 3 3. . 主主要要涉涉及及部部门门 国网客服服务中心 国网信通网控中心 技术服务中心技术支持 网络设备服务厂商 4 4. . 输输出出: 现现场场网网络络设设备备故故障障报报告告 现场工程师设备维护手册 2 (一一) 维护人员准备维护人员准备 为了搞好网络维护,当问题出现时能及时发现问题、较快解决问题。各网络维护人员在平时 须准备好以下准备: 1. 常规类常规类:各路由器、防火墙、核心设备配置和数据资料备份。 2. 工具类工具类:笔记本电脑、光通道检测仪、网络测试仪、水晶头、标签、笔、相关机房钥匙和卡 片。 3.3. 资料类:资料类:网络网络 IPIP 地址分配表、管理 IP 分配表、各代维技术资料、路由器、防火墙、核心和汇 聚交换机的说明书、防火墙的说明书、路由器的说明书、维护联系电话表。 更新日期:更新日期: 2011 年年 11 月月 13 日日 版本:版本:1.0 现场工程师设备维护手册 1 目目 录录 技术部分技术部分 1 1 网络常见信息收集方法网络常见信息收集方法.2 1.1 日常维护操作2 1.2 操作命令示例7 2 2 故障处理故障处理.9 2.1 处理原则10 2.2 准备工作10 2.3 必备资料10 2.4 业务全阻故障的处理【整个局域网无法访问任何网络】10 2.5 部分用户业务中断故障的处理流程 【局域网故障】.15 2.6 PING 命令应用.17 3 3 紧急故障处理方法紧急故障处理方法.19 3.1 CPU 占用率较高的问题.19 3.2 硬件接口问题20 3.3 单板故障21 3.4 丢包问题22 3.5 STP 相关问题23 3.6 VRRP 相关问题25 3.7 OSPF 相关问题.25 4 4 其他常见信息收集方法其他常见信息收集方法.26 现场工程师设备维护手册 2 技术部分技术部分 1 1网络常见信息收集方法网络常见信息收集方法 1.11.1 日常维护操作日常维护操作 工程师到达现场后,首先记录到达时间并由现场相关人员确认签字或者登入故障网络设备, 设备故障时,登入并操作网络设备时必须截取屏幕 or 用相机拍下登入网络设备时的屏幕。 提示:截屏和拍照需显示现场时间】 编 码 检查项目检查分项目检查方法备 注是否正常 设备时间 display clock 显示设备时间是否正常 是 否 环境状况 display environment 所有主控板,接口板温度都应该在门限 70 度以内 是 否 风扇状况 display fan 风扇应该显示 normal 是 否 1 环境及网络 设备单板硬 件状态检查 电源状况 display power 电源应该显示 normal 是 否 现场工程师设备维护手册 3 指示灯状况 观察所有单板的运行灯及 告警灯的运行状况 正常状态下,单板板运行灯慢闪,告警灯常灭。 观察网络设备面板状态灯,是否有橙色维修报警灯亮? 是 否 单板运行状况 display device 所有业务板应该是 Normal,主控板为 master 或 slave 状态 是 否 主备板软件版 本是否一致? display boot-loader 一定要确保主备板的软件版本一致,包括当前使用版本 和下次启动版本。 是 否 主控板上是否 保存了配置? 是否设置了启 动配置文件? dir display startup 如果不存在配置文件,请执行 save 命令保存 是 否 2 双主控设备 自检 备板是否保存 有配置文件 使用命令 dir slot#如果不存在配置文件,请执行 save 命令保存 是 否 3 CPU 占用率 CPU 的占用率 是否忽高忽低. 震荡比较大 (1060%)或 者一直高(主控 板 CPU 占用 率是否超过 60?业务板 CPU 占用率是 否超过 60?) 多次使用 display cpu.查 看. 正常情况下,主控板和业务板在 5 分钟内的平均利用率 应该在 60%以下,并且无较大的震荡。 是 否 4 内存占用率 主控板和业务 板内存占用率 是否在 60 以下 display memory slot 如果内存高于 60,需要通过_display memory 命令 确认那个模块占用内存过道,以便排查。 是 否 端口是否协商 出了半双工? Display brief interface 如果显示某个端口状态为 half,需要确认是否两端配置 不一致导致。 是 否 是否在没有必 要启动流控端 口配置流控? 使用 display current 命 令查看配置 关闭该端口流控. 是 否 5 端口自检 端口出/入方 向是否有大量 的错误报文 display interface 查看 errors 部分是否有 较大数据,并且在增加 如果有,需要检查: 1: 检查线路质量,中间连接的光电转换器; 2: 两端配置是否一致?是否一端为强制而对端为协商? 是 否 现场工程师设备维护手册 4 是否有比较频 繁的端口 UP/DOWN? display logbuffer 如果有某个端口有较多的 UP、DOWN 记录,需要检查: 1: 该端口是否直连 PC?如果是,开关 PC 机会造成端口 DOWN; 2: 检查线路和中间连接的光电转换器; 3: 千兆端口检查光功率是否处于临界值? 4: 检查两端配置是否一致? 是 否 千兆光口两端 是否配置了千 兆强制? display current interface H3C 设备与其它厂商设备互连,建议光口速度和双工设 置为强制模式,H3C 设备自己互连,优先采用协商方式 是 否 6 1000M 光口 自检 千兆光口是否 有 CRC 错误? 是否在增长? display interface 如果发现大量 CRC 错误,且在增长,需要检查光功率是 否处于临界值?可以通过更换光模块、更换尾纤或清洗 维光模块连接器的方式解决。 是 否 检查 TRUNK 端口是否配置 undo port trunk permit vlan 1 display current interface 如果系统配置了 GVRP,同时 RUNK 端口配置 undo port trunk permit vlan 1,需要重新设置 TRUNK 端口 的 pvid 为允许的 vlan 成员之一 是 否 端口 PVID 是 否和对端的 PVID 一致? display current interface 互连链路两端端口的 PVID 值设置必须一致 是 否 TRUNK 端口 允许通过的 VLAN 是否和 对端允许通过 的 VLAN 一致? display current interface 互连 Trunk 端口的两端设备允许通过的 VLAN 配置必须 一致,避免一端为 TRUNK ALL,另外一端非 TRUNK ALL。 是 否 是否一端配置 成 TRUNK,一 端配置成 ACCESS? display current interface 根据实际情况调整两端的配置到一致状态 是 否 7 设置 TRUNK 端口和 MULTI 端口 的自检 VLAN 1 是否 成环路? 用 display interface 命 令查看所有设备互连 Trunk 端口的配置 根据网络情况调整,去掉 VLAN 1 环路 是 否 检查 STP 时间 因子的设置情 况 display current 查看配置中是否存在 stp timer-factor,如果不存在, 建议配置为 stp timer-factor 10 ,增加 STP 的稳定性。 是 否 8 STP 的自检 接 PC 的端口 是否配置为边 display current interface 确认和 PC 连接的端口设置为 edge-port 或者将 STP 关 掉,和不支持 STP 设备互连端口的 STP 关掉,避免这些 是 否 现场工程师设备维护手册 5 缘端口?如果配置了边缘端口, 配置中会有 stp edged- port 的显示 端口的 UP/DOWN 干扰 STP 的计算。 是否存在和思 科的 PVST+ 互通情况? 检查各个设备上 STP 的 状态计算是否正常 如果存在类似问题,最好改为 3 层互连的方式,避免和 思科私有的 PVST协议互通。 是 否 各个 STP 逻辑 环路路中是否 存在公共 VLAN? 使用 display current 检 查 STP 端口配置 避免多个 STP 逻辑环路中有公共 VLAN,减小广播域对 其它 STP 逻辑环路影响。 是 否 是否存在 TC 攻击,导致端 口 STP 状态不 停切换? dis stp tc,dis stp history 查看端口 tc 计数 和 stp 状态切换记录时间 确认和 PC 连接的端口设置为 edge-port 或者将 STP 关 掉。和不支持 STP 设备互连的端口关掉 STP 是 否 9 VRRP 自检 握手时间是否 设置成 3 秒? 两端的 vrrp 握手时间是否 一致? display vrrp 如果 VRRP 组在 5 个以下可以统一将 VRRP 握手时间改 为 3 秒,如果 VRRP 组过多,可以将 VRRP 分为五个或 三个一组,每组的 VRRP 握手时间分别配置为 3 秒、5 秒、7 秒 是 否 是否有两台设 备 router id 设置成一致? display ospf peer 如果存在这个问题,会导致路由学习错误,需要修改 Route-Id 后,执行 reset ospf all 命令是重新学习。 是 否 display ospf error 是否有 大量错误? display ospf error 如果存在大量的 OSPF error 记录,并且还在不断增加, 需要抓取信息进一步分析 是 否 路由是否存在 较大震荡? display ip rout statistics 查看 added 和 deleted 数据与系统运行时间对应 是否比较大 如果有,请仔细分析变化的具体路由,然后根据该路由查找 到路由的原设备,分析具体震荡原因。可以在出现故障 时,使用 display ospf lsdb 命令多次查看路由的 age 信息,确认那条路由在频繁振荡。 是 否 1 0 OSPF 自检 OSPF 状态是 否稳定? display ospf peer 查看 OSPF 邻居的 UP 时间 是 否 1 1 ARP 检查 是否存在大量 ARP 冲突? display logbuffer 检查冲突地址,根据 IP 地址排除该主机. 是 否 1 2 路由检查 缺省路由是否 正常? 是否存在路由 环路? 使用 tracert 1.1.1.1 等明 显不存在网段看是否存在 路由环,使用 de ip p,打 印部分报文,看是否存在 TTL=1 或者=0 的报文. 如果存在路由环,请检查对应的设备是否配置正确.,调 整路由,去掉路由环。如果存在 TTL 超时报文,请分析 对应网段路由是否正常 是 否 现场工程师设备维护手册 6 1 3 EA 单板芯片 转发状态自 检 交换芯片是否 正常 输入 en_diag 进入诊断模 式; 诊断模式下,多次使用 debug rxtx mem 对于 EA 单板请查看是否有大量复位记录,并且持续增 加的情况,如果存在大量复位并且持续增加,需要联系 研发确认原因。 是 否 1 4 攻击检查 是否有大量报 文攻击 cpu 诊断模式下: debug rxtx softcar show 某类报文的统计计数不断增长,说明有攻击存在 是 否 1 5 DDRB 异常 记录查看 检查 DDRB 里 是否有异常记 录 诊断模式下 local logbuffer display 如果存在该信息,需要转相关人员确认是否是异常信息。 升级后注意清除历史记录,相关命令为:local logbuffer clear 是 否 1 6 芯片端口错 包统计检查 分析错包统计 是否由于硬件 原因导致 bcm show/c/erdisc 如果错包统计中有如下计数不断增长: GRFCS:端口 CRC 错包计数 GRPORTD:端口底层的 stp 不是一个 forwarding 状 态 IRERPKT:HG 接收到错包 是 否 1 7 查看 debug 开关 debug 开关 打开会消耗系 统资源,请关 闭 display debug 执行 undo debug all 命令关闭 debug 信息 是 否 网络中的 H3C 核心交换机,应仔细查看以下面板指示灯: 引擎和业务板在运行过程中的状态,可以通过指示灯状态以及一些命令来查看。 引擎面板上有系统状态指示灯,分别代表电源模块、风扇框、业务单板、及引擎板本身的工作状态; 电源指示灯(PWR)中的 OK 灯亮表示电源正常工作,灯灭表示电源有故障或者不在位;FAIL 灯 亮表示电源有故障,或者电源有输入但没有开启电源模块开关,灯灭表示电源正常或者不在位; 风扇指示灯(FAN)中的 OK 灯亮表示风扇工作正常,灯灭表示风扇有故障或者不在位;FAIL 灯亮 表示风扇工作不正常或者不在位,灯灭表示风扇工作正常; 单板指示灯(SLOT0、SLOT1、)对应各个槽位的单板状态。RUN 灯常亮或常灭表示单板有故 障或者不在位,灯闪烁表示单板工作正常;ALM 灯常亮表示单板有故障,灯常灭表示单板无故障 或者不在位; 如果 RUN 指示灯处于快速闪烁中,表示单板正处于启动过程中,并没有正常工作。在系统初始启 动时,ALM 指示灯会亮一段时间,并不表示单板有故障。 业务处理引擎主用/备用指示灯(ACTIVE)表示引擎的主备工作状态,灯常亮表示引擎工作在主用 状态,常灭表示引擎工作在备用状态。 业务板上的指示灯表示端口的状态,灯灭表示该端口线路没有连通,灯亮表示线路已经连通,灯闪 烁表示有数据收发。 现场工程师设备维护手册 7 1.2操作命令示例操作命令示例 常用的查看设备运行状态的命令包括: 查看设备版本: display version H3C Comware Platform Software Comware Software, Version 5.20, Alpha 1011 Copyright (c) 2004-2007 Hangzhou H3C Tech. Co., Ltd. All rights reserved. SIMWARE uptime is 67 week, 9day, 9 hour, 32 minutes 备注:主要显示 IOS 的版本、路由器持续运行的时间及查看设备最近一次重启动的时间 display version 命令显示了路由器的许多有用的信息。 查看设备日志: display logbuffer 重启任何设备时,必须先保存日志文件 Logging buffer configuration and contents:enabled Allowed max buffer size : 1024 Actual buffer size : 512 Channel number : 4 , Channel name : logbuffer Dropped messages : 0 Overwritten messages : 0 Current messages : 35 %Nov 14 00:53:58:219 2011 H3C HWCM/4/TRAPLOG: 1.3.6.1.4.1.25506.2.4.2.1 configure changed: EventIndex=1,CommandSource=2,ConfigSource=4,ConfigDestination=2 %Nov 14 00:56:03:00 2011 H3C HWCM/4/EXIT: exit from configure mode %Nov 14 00:56:03:00 2011 H3C SHELL/4/LOGOUT: Console logout from con0 %Nov 14 01:10:41:31 2011 H3C SHELL/4/LOGIN: Console login from con0 %Nov 14 01:10:43:125 2011 H3C SHELL/4/CMD:task:co0 ip:* user:* command:display version 现场工程师设备维护手册 8 查看单板运行状态:display device display device Slot No. Brd Type Brd Status Subslot Num Sft Ver Patch Ver 0 LSQ1SRPB , ,Master 0 S7500E-6305 ,P004 1 NONE ,Absent 0 NONE ,None 2 LSQ1FV48SA ,Normal 0 S7500E-6305 ,P004 3 LSQ1T24XGSC ,Normal 0 S7500E-6305 ,P004 4 NONE Fault , 0 NONE ,None 状态显示为 Normal,表示单板在位。如果显示为 Fault,表示单板出现故障,或者正在重启。 状态显示为 Absent,表示该槽位没有单板。 引擎状态显示为 Master,表示该槽位引擎为主用引擎;状态显示为 Slave,表示该槽位引擎为 备用引擎。 查看环境状况:display environment display environment System temperature information (degree centigrade): - Board Temperature Lower limit Upper limit 0 ,33 , ,0 ,80 2 ,36 , ,0 ,80 3 ,34 , ,0 ,80 4 ,30 , ,0 ,80 其中,Temperature 列表示当前单板的运行温度;Low limit 列表示系统设定的单板温度告警 的下限,Upper limit 表示系统设定的单板温度告警的上限; 如果当前 Temperature 的值低于 Low limit,或者高于 Upper limit,引擎上对应槽位的 ALM 会显示成红色。 2 2故障处理故障处理 现场工程师设备维护手册 9 2.12.1 处理原则处理原则 收集必要的信息,供后续分析定位;尽快恢复业务,缩短业务中断时长。 现场工程师设备维护手册 10 2.22.2 准备工作准备工作 准备装有 SecureCRT 等控制台程序的 PC 或笔记本电脑、console 线缆。 了解各代维点网络组网,网络设备 IP 地址分配表、管理 IP 分配表、各代维技术资料、核心和 汇聚交换机的说明书、防火墙的说明书、路由器的说明书、维护联系电话表。 获取登陆设备的用户名密码等信息,各代维点路由器、防火墙、核心设备最新配置文件资料。 现场工程师需携带路由器、交换机、防火墙的最新软件版本,或统一使用的版本。 2.32.3 必备资料必备资料 网络路由、交换设备产品的操作手册和命令手册,及系列产品故障处理指导,以作参考。 以上资料均可从厂商网站上获取 2.42.4 业务全阻故障的处理业务全阻故障的处理【整个局域网无法访问任何网络整个局域网无法访问任何网络】 导致业务全阻故障的主要原因有: 出口路由器&防火墙的上联端口故障、上联接口模块故 障、物理链路故障、光纤收发器、协议转换器故障(包括传输) 为了能分析故障原因,建议不要立即重启路由器。如在操作过程中,无法排除故障而 需要重启网络设备时【重启设备请双击右边附件】 ,必须按 网络设 .doc 备重启维护流程 要求操作, 并需要得到领导和网控人员的同意方可重启,切记! 处理该类故障通常遵循下面几个步骤: 现场工程师设备维护手册 11 检查光纤收发器、网络出口上联端口链路指示灯、数据收发指示灯是否正 常 若不正常,需要进一步确定是设备的故障,还是物理链路的故障。常用的方法是自环光接口或在电接口 上直接连接 PC 进行测试,当光接口自环或电接口直联 PC 正常时,可以初步判断是物理链路问题或是对 端设备故障。 处理步骤: 1、检查光纤收发器故障、检查光纤收发器故障 图 1 是收发器前面板示意图。 TXRX FXTP LINK/ACT 100 FDX/COLPWR 网口 图 1 1、FX 灯灯 当网络不通的时候,先看 FX 灯(FX 中的 F 就代表 Fiber 即光纤) ,FX 如果是绿色,则表明光纤连接良好(光路没有 问题) ,FX 灯闪,则说明有数据传输,如果 FX 灯灭了,则有如下可能: 1)对端设备损坏或是没加电 2)两端光纤收发器之间的线路断 如果对端机房有没有停电、最近有没有被雷击过,更换两端对应型号的光纤收发器,如果换过光纤收发器以后线路还 是不通,则说明肯定是光缆线路的故障了。 2、TP 灯灯 TP 即 Twisted-Pair Cable Port(双绞线端口)也就是我们平常说的网口,TP 输出的线路即进入客户的内部网络设备了, 通常情况下是进入交换机,如果 TP LINK/ACT 灯是绿色的,则说明双绞线连接良好,当有数据传输时,TP 灯会闪。 3、FDX 灯灯 FDX 灯即指示全双工的工作状态,半双工就是指 A 能发信号给 B,B 也能发信号给 A,但这两个过程不能同时进行。 最典型的例子就像我们在使用对讲机时一样。全双工比半双工又进了一步,在 A 给 B 发信号的同时,B 也可以给 A 发信 号。典型的例子就是像我们打电话。真正支持 100M 全双工的光纤收发器可以保证送、发的传输速度都在 100M,这对于 大容量的数据传输,比如网上的视频内容的传输是非常必要的。 (二)单纤单网口(或双网口)光纤收发器(二)单纤单网口(或双网口)光纤收发器 单纤收发器在一根光纤上用 1310nm 和 1550nm 分别代表收发,应该说实现起来在技术难度上更高了,但是却能够有 效的节约光纤资源,是一项非常实用的技术。 1、单纤收发器的故障判断与排除、单纤收发器的故障判断与排除 以 RC305/306-2FE-S1 系列的光纤收发器为例,这是设备的前面板图。 现场工程师设备维护手册 12 RLK 100M PWRTLKPORT0TXRXPORT1 LNK/ACT 光收链路 光发链路 速率指示 电源指示 电路链接/数据收发 图 2 指示灯表示收发器状态如下:,指示灯表示收发器状态如下:, 2、单纤收发器的设备互联 与双纤光纤收发器不同,单纤收发器必须要配对使用的,而且型号也要对应一致,比如 RC305-2FE-S1 必须要 RC306- 2FE-S1 配对使用,因为不同型号的单纤收发器可能定义收发光信号的功率不同,不配对使用可能会造成光口的损坏或者 数据传输的不稳定。 3、各代维点网络出口路由器与白广路互联端口是否 UP。直接去机房查看物理指示灯的状态并记录 Or 拍照。 检查数据链路是否正常 若上联端口指示灯正常,就需要通过超级终端或 Telnet 登录到路由器上进行进一步检测。登录到路由 器上后,由近到远通过 ping 的方法,验证本地路由器到白广路的每个环节是否通畅。 处理步骤:1、telnet 至路由器 命令:telnet 10.2.208.254 或者通过 SecurityCRT 登入 端口指示灯名称指示灯指示灯表示收发器状态 光接收链路灯 RLK 常亮,光口接收链路正常,反之链路错误光口 光发送链路灯 TLK 常亮,光口发送链路正常,反之链路错误 电口链路灯 LNK 常亮,电口链路正常,反之链路错误。 电口收发灯 ACT 闪亮,电口有数据收发。 电口 电口速率灯 100M 常亮,电路速率为 100M,不亮,速率 10M 电源电源指示灯 PWR 常亮,电源工作正常,反之错误 现场工程师设备维护手册 13 2、查看系统时间,以便记录维护的时间点【截图】 3、查看与白广路互联的 IP 地址,并执行 Ping 白广路路 IP 及提供测试的 IP 地址动作。 现场工程师设备维护手册 14 检查本端路由器是否有上行路由和验证对端路由器是否有返回路由 查看本端路由器的路由表可以检查出是否有上行路由。而验证对端路由器是否有返回路由的最简单 方法是,通过连接到本地路由器的 PC 分别 ping 本端路由器上联接口地址和对端路由器接口地址,若前 者能通后者不能通,可以肯定对端路由器没有返回本端路由器的路由,此时需要对对端路由器进行故障 诊断。 命令:命令:displaydisplay ipip routing-tablerouting-table 现场工程师设备维护手册 15 核心交换机、路由器、防火墙、协议转换器操作系统崩溃时,重新启动路由器。 当通过超级终端和 Telnet 无法登录路由器,应该怀疑路由器操作系统已经崩溃,应该重新启动路 由器。同样重启机器需按照网络设备重启维护流程 ,并需要得到领导和网控人员的同意方可重启, 切记! 2.52.5 部分用户业务中断故障的处理流程部分用户业务中断故障的处理流程 【局域网故障局域网故障】 当部分用户业务中断时,可以按下列步骤进行故障诊断和排除: 检查硬件端口、物理链路是否正常; 检查数据链路层是否正常; 检查本端路由器上是否有到业务中断用户网段的路由信息,检查用户侧缺省网关或路由设置是否正 确; 若用户能 ping 通本端路由器但无法访问,则需要确认上端路由器是否有该网段的返回路由; 现场工程师设备维护手册 16 操作步骤:1、查看本地 IP 地址、子网掩码、端口所属的 VLAN、网关、DNS 2、PING 本地网关 3、PING 本地出口 IP 地址 现场工程师设备维护手册 17 2.62.6 PingPing 命令应用命令应用 Ping 这个词源于声纳定位操作,本意是指来自声纳设备的脉冲信号,在网络设备中,Ping 几 乎是使用频率最高的网络测试命令,本文将详细介绍 Ping 命令的基本原理,相关参数,使用技巧 及其注意事项. 一,Ping 工作原理 提到 Ping 命令就不能不介绍 ICMP Internet Control Messages Protocol 因特网控制信息协议.ICMP 通常被 认为是 IP 层的一个组成部分用于传递差错报文和其它需要注意的信息 ICMP 报文是在 IP 数据包内部传 输的.结构如图 1 所示 ICMP 报文格式如图 2 所示,类型字段可以有 15 个不同的值描述特定类型的 ICMP 报文。 Ping 报文实际上是类型为 0 的,回显应答和类型为 8 的请求回显报文。 二,Ping 命令的格式和参数 在 H3C 系列网络设备产品上,Ping 命令格式如下 粗体为关键字,斜体为参数 Ping -c number-t number-s number ip-address -c Ping报文的个数,缺省值是5个 -t 设置Ping报文的超时时间,以毫秒为单位,缺省值为2000 -s 设置Ping报文的大小,缺省值是56 byte 实际上,Ping 命令的参数还有很多,本文仅重点介绍最常用的三个 现场工程师设备维护手册 18 三,Ping 命令的使用误区 1,真的 Ping 不通? 【案例一】 工程师小 L 在配置完一台路由器之后,执行 Ping 命令检测链路是否通畅,发送了五个报 文都没有 Ping 通,于是检查双方配置命令和路由表,一直没有找出错误,最后无奈之下重复执行了一遍 相同的 Ping 命令发现此次的五个报文中竟有两个 Ping 通了原来线路质量不好,存在着严重的丢包现象。 【点评】 ,小 L 被 Ping 命令的缺省参数-c 给迷惑了,Ping 不通的背后可能隐藏着丢包现象毕竟配置错误 和线路质量不好的解决方法大相径庭,有了此次教训之后小 L 再遇到 Ping 不通的情况都会将命令多执 行一遍并加上参数,-c 10,这意味着连续 Ping10 个报文来检验是否存在丢包现象。 命令格式,Ping -c 10 ip-address 【案例二】 ,工程师小 L 配置完一台路由器之后,执行 Ping 命令访问 internet 某站点 IP 地址没有 Ping 通, 有了上次教训小 L 再一次 Ping 了 10 个报文仍没有响应,于是小 L 断定为网络故障在费劲周折检查了配 置链路后仍没有发现任何可疑之处,最后小 L 采取逐段检测法。对链路网关进行逐级测试,发现每段都 可 Ping 通,但响应时间越来越长,最后一个网关的响应时间已达到 1800ms 左右会不会是由于超时而导 致显示为 Ping 不同呢?受此启发小 L 将 Ping 命令回显时间改为 4000ms Ping 通了观察发现所有报文响 应时间都在 2100ms 左右。 【点评】 ,这一次小 L 被 Ping 命令的另一个缺省参数-t 给迷惑了,Ping 不通的背后可能隐藏 着超时处理,系统缺省认为 Ping 报文应该在 2000ms 内有回应,如果超出该时间,即使有回应报文 送达,也认为 Ping 不通,有了这次教训之后,小 L 再遇到 Ping 不通的情况,都要把命令再敲一遍 并加上参数,-c 10 -t 4000,这意味着连续 Ping10 个报文,每个报文的超时设置为 4000ms,以此 检验是否存在丢包和响应时间过长等现象 命令格式,Ping -c 10 -t 4000 ip-address 2真的能 Ping 通? 1、 A 能 Ping 通 B,则 B 一定能 Ping 通 A? 【案例一】小 L 在学习了 Ping 的工作原理之后,一直这样认为如果 A 能够 Ping 通 B则 B 也一定能够 Ping 通 A 不考虑防火墙因素但是在一次工程实践中,如图 3 所示却发现并非如此。 【点评】在路由器 A 上 Ping 路由器 B 以太网地址 2.2.2.2,显示可以正常 Ping 通。但在路由器 B 上 Ping 路由器 A 以太网地址 3.3.3.3 时却返回无法 Ping 通。仔细察配置发现,路由器 A 配置了一条指向 2.0.0.0/8 网段的静态路由,但在路由器 B 上却没有相应配置到 3.0.0.0/8 的路由,因此路由器 B Ping 不通 3.3.3.3。但是为什么路由器 A 可以 Ping 通 2.2.2.2 呢?同样没有回程路由 小 L 百思不得其解,打开路由 器 IP 报文调试开关后,终于真相大白原来从路由器 A 上发出的 ICMP 报文的源地址填写的是 1.1.1.1, 而不是 3.3.3.3 由于两台路由器的 s0 接口处于同一网段 所以响应的报文可以顺利送达路由器 A。 现场工程师设备维护手册 19 3 3紧急故障处理方法紧急故障处理方法 3.13.1 CPUCPU 占用率较高的问题占用率较高的问题 多次使用 display cpu 命令,查看过去 5 分钟的平均占有率。如果结果都在 60%以上,则可视为 CPU 占有率高。遇到此类问题,按照下面的方法处理: 1)查看系统各项任务占用 CPU 的情况: display cpu-usage task slot 0 显示结果后,查看 TaskName 和 CPU 两列,找出 CPU 值较高的进程名称。 注:VIDL 分别是 S75E 上的空闲进程。正常情况下,应该是空闲进程数值远高于其他进程。 2)查看上 CPU 的报文类型: S7500E-diagnosedebug rxtx event 0 Slot 0: information of Module RxTx /- the first chip UNIT = 0 -/ Packets received from chip(U=unicast, M=Multicast, B=BroadCast): port bcm(U) bcm(M) bcm(B) 0 15 0 0 1 15 0 0 6 15 0 0 7 15 0 0 Packets transmit to chip(U=unicast, M=Multicast, B=BroadCast): port bcm(U) bcm(M) bcm(B) 0 15 0 0 1 15 0 0 6 15 0 0 7 15 0 0 注: U 表示单播报文,M 表示组播报文,B 表示广播报文 port 为芯片端口号,不是业务端口编号。 3)查看具体是什么报文 S7500E-diagnosedebug rxtx c 100 pkt 0 -c 100 表示打印 100 个上 CPU 的报文,具体数值可以修改 0 表示查看上 0 槽位主控板的报文,也可查看其他单板的报文。 4)对上 CPU 的报文做分类统计: 现场工程师设备维护手册 20 进入诊断模式 输入 debug rxtx catch by , 可选择根据 da(目的 MAC) 、dip(目的 IP) 、sa(源 MAC) 、 sip(源 IP) 、etype(报文类型) 、VLAN 等进行报文分类统计。 等待 1 分钟之后,输入 debug rxtx catch end 结束统计并显示统计结果。根据结果,可以判断是 从哪个地址有大量报文上 CPU 处理,或者是何种类型的大量报文上 CPU 处理。 5)通过对第 4 步的统计结果进行分析,采取相关方法处理: 如果是大量 TTL 超时报文,使用 undo ip ttl-expires 命令,可阻止此类报文上送 CPU 处理。然后 排查网络中是否有路由环路等,造成 TTL 超时。 如果是大量 ARP 报文,可先对关键业务配置静态 ARP 规避,然后查找大量 ARP 报文的发送源, 并查杀病毒。 3.23.2 硬件接口问题硬件接口问题 电口频繁 UP/DOWN 故障 1)查看两端端口是否存在收发错误报文统计。命令为 display interface 如果存在错误报文统计, 则表明链路质量不好,需要检查端口配置情况和检查链路质量; 2)如果确认端口配置正常(速度以及双工一致) ,则检查物理链路是否正常。简单方法是使用手 轻轻碰网线看是否有 UP/DOWN 变化。如果没有,则更换连接线观察; 3)如果确认物理链路正常,而端口又为协商模式,将两端配置为强制模式观察; 4)更换一端设备端口(如果条件允许,推荐是同类型的其它槽位单板) ,观察是否故障依旧; 5)如果更换端口依旧,则更换另一端设备端口(如果条件允许,推荐是同类型的其它槽位单板) ; 6)可以在端口下配置 link-delay 命令来调整端口 up、down 灵敏度,通常敏感局点建议使用 10; 7)如果故障依旧需要研发人员确认; 光口频繁 UP/DOWN 故障 1)查看两端端口是否存在收发错误报文统计。命令为 display interface 如果存在错误报文统计, 则表明链路质量不好,需要检查端口配置情况和检查链路质量; 2)如果确认端口配置正常(速度以及双工一致) ,则检查物理链路是否正常。简单方法是使用手 轻轻碰光纤看是否有 UP/DOWN 变化。如果没有,则更换连接线观察; 3)通过测试光功率依旧更换光纤等手段,如果确认物理链路正常,而端口又为协商模式,将两端 配置为强制模式观察; 4)更换一端设备端口(如果条件允许,推荐是同类型的其它槽位单板) 。观察是否故障依旧; 5)如果更换端口依旧,则更换另一端设备端口(如果条件允许,推荐是同类型的其它槽位单板) ; 6)可以在端口下配置 link-delay 命令来调整端口 up、down 灵敏度,通常敏感局点建议使用 现场工程师设备维护手册 21 10; 7)如果故障依旧需要研发人员确认; 电口不 UP 的故障 1)在本板上两端口直接互连,判定是否能 up; 2)如果直连无法 up,检查物理连接线是否正常;更换网线再测试; 3)如果确认物理连接线正常,使用命令 display interface 检查配置情况; 4)如果确认对端没有被配置为 down 状态或者链路两端配置一致,可以肯定端口存在物理异常。 SFP 光口不 UP 的故障 1)使用命令 display interface 检查是否配置合理,是否能正确读出 SFP 的模块参数。如果确认 对端没有被配置为 down 状态并且端口配置完全一致,建议更换两端端口配置数据(双工以及 速度) 。 2)检查光纤收发端是否接反,物理连接是否正常,光功率是否在光模块的规格之内等; 3)如果确认光路正常,在本板上将两端口通过光纤直接互连,检查是否能 up; 4)如果直连不能 UP,将分别将链路两端端口更换到其他端口进行测试; 5)如果还不能 UP,需要分别更换两端光模块光模块进行测试。 端口不接收报文故障 1)使用 display interface 查看是否有入报文统计,两端端口是否 up。必要时使用 reset counter interface 清空端口统计报文再观察。查看对端是否有发送报文统计; 2)确认端口配置是否有异常。其中包括两端的协商状态,端口速率,端口类型以及 vlan 等配置 ; 3)查看端口 stp 状态,是否被 discarding 掉,是否 lacp 端口被 Unselected ; 4)up/down 一下端口,看是否能恢复。如果不能恢复,更改端口属性(速度、双工)的配置, 看看是否能恢复; 5)更换到其它端口看是否存在相同现象。如果存在相同现象,检查互连中间链路设备(光转,转 接架,传输等设备)是否正常。如果为电口,使用 pc 替代对接。如果为光口,更换光模块测 试; 6)确认对端设备以及链路是否有问题; 端口不发送报文故障 1)使用 display interface 查看端口是否有收发报文统计,两端是否均 up。检查对端设备是否收 报文统计; 2)确认端口配置是否有异常。其中包括两端的协商状态,端口速率、双工,端口类型以及 vlan 配置等; 3)查看端口 stp 状态,是否被 discarding 掉,是否是动态聚合端口被 Unselected; 4)up/down 一下端口,看是否能恢复。如果不能恢复,更改端口属性(速度、双工)的配置, 看看是否能恢复; 现场工程师设备维护手册 22 5)更换到其它端口看是否存在相同现象。如果存在相同现象,当端口为电口时,使用 PC 替代对 接测试。当端口为光口时,更换光模块测试; 3.33.3 单板故障单板故障 主控板无法启动故障 1)观察 BOOTROM 启动信息,判断系统无法启动原因。如果显示启动文件类错误,转步骤二处 理。如果启动文件确认正常,BOOTROM 提示信息中发现错误信息或者信息不全,则转步骤 五处理。 2)出现文件异常,典型信息为 BOOTROM 提示 CRC 错误,或者找不到启动文件。请重新加载启 动文件,并检查 FLASH 中文件大小是否与版本库上一致。如果不一致,请重新加载。并设置 该文件为当前启动文件。 (在 BOOTROM 加载过程中,BOOTROM 能自动将该文件设置为当 前启动文件。 ) 3)如果确认加载的文件大小正确,且设置为当前启动文件也正常。请重新启动单板,在看到 starting 后立即按 crtl+T,并观察是否有内存自检错误,如果提示内存错误,请更换内存条, 正常显示如下: Starting RAMLine.OK System is booting 4)如果内存检查也正常,但依旧提示文件错误,则判断是否单板插牢固,确认牢固,更换单板; 5)如果 BOOTROM 启动信息有错误信息,则根据提示的信息初步判断相关器件出现故障。再次 启动,看是否必现。如果必现,检查单板是否插牢固,否则更换单板; 6)如果 BOOTROM 启动中,系统停留在某些启动阶段。收集启动信息。同时复位单板,确认是 否能启动。确认无法启动且单板插入牢固,则更换单板; 7)如果 BOOTROM 启动中,系统在某些启动阶段反复重起。如果提示单板状态错误,则表示单 板没有插到位,请重新插入单板。如果为其它过程中重起,收集启动信息。同时插拔单板,确 认是否能启动,则更换单板。 业务板无法注册、加载不成功故障 1)使用 display boot-loader 命令参看当前启动文件是否存在,文件大小是否与网站上的软件版 本一致; 2)查看主机 log 信息,检查是否有加载信息,如果有,进行步骤 3;如果没有,转入步骤 7; 3)如果条件允许,在无法加载的业务板槽位插入其它单板做测试; 4)如果新单板能启动,检查版本配套资料,判定主机软件是否支持原单板。如果确认支持,初步 可以判定原业务板存在故障; 5)如果新单板同样无法启动,则升级主机软件,检测是否原版本问题。如果同样无法加载,建议 更换主控板; 6)如果无空余业务板测试,请更换业务板槽位,特别是在其他业务板可以加载的槽位上测试。如 果该单板同样无法加载成功,则需要更换该业务板; 现场工程师设备维护手册 23 7)如果没有加载信息,则使用命令 display cpu task 主控板槽位号,查看 DEV 任务状态。如果 正常,则更换业务板槽位检测是否能正常加载; 3.43.4 丢包问题丢包问题 在网络中如过发现有丢包问题,请按下面的方法处理: 1)确认报文经过的网络拓扑,包括设备、链路等; 2)根据拓扑,使用 ping 包的方法,逐段进行排查; 3)排查时,需要在该段链路上选取两个地址互 ping。因为我司设备有 ping 保护的机制,因此这 两个地址
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医药销售合同管理实务
- 玻璃化转变机理-洞察及研究
- 运维外包成本效益分析-洞察及研究
- 物业管理合同范本及签订注意事项
- 员工股权激励计划协议范本
- 融资租赁财务分析-洞察及研究
- 阿司匹林纳米泡腾片创新-洞察及研究
- 在线音内容制作服务合同
- 糖蜜碳纤维制备技术-洞察及研究
- 从童真笔触到多元设计:稚拙风格的深度剖析与创新应用
- 厂区视频监控安装合同范本
- XX资产评估有限公司内部管理制度
- 土地复垦施工设计
- GB/T 5023.3-2008额定电压450/750 V及以下聚氯乙烯绝缘电缆第3部分:固定布线用无护套电缆
- GB/T 21471-2008锤上钢质自由锻件机械加工余量与公差轴类
- GB/T 12670-2008聚丙烯(PP)树脂
- 非贸项下对外付汇的政策解读和实操疑难解答课件
- 高中心理健康课程《人际关系-寝室篇》课件
- 水产微生物学
- 电力系统继电保护课程设计报告-三段式距离保护
- 香港永久性居民在内地所生中国籍子女赴香港定居申请表
评论
0/150
提交评论