


已阅读5页,还剩63页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.信息系统运维事件管理规范1.1 适用范围本规范适用于信息系统运维事件, 包括对信息系统的使用咨询,系统故障,以及有关业务应用的支持要求。1.2 定义与术语术语术语解释一个岗位安排两个人,其中一个主要负责,称为a角,当 a角不能;,.岗位ab角履行职责时,由 b角替代。呼叫中心接收用户运维请求的受理平台。和呼叫中心一起组成事件处理流程,有效解决各类it 突发事件,事件管理配置管理配 置管 理 数据库运 维管 理 知识库影响程度尽快恢复 it 服务。管理各it 资产系统 ( 配置元素,配置项 ) 的流程,包括相互间的关联与依赖关系。对所有it 组件、组件的不同版本和状态以及组件之间的相互关系进行跟踪、记录。操作指南,开发文档、技术文档、验收文档等技术资料的集合。问题造成对 it 环境的影响范围,包括对其他it 系统,对相关人员等。优先级问题需要找到解决方法和处理措施的紧急程度。在各系统的系统故障分级中定义为一级故障的故障现象,均视为重大故障一般故障重大故障。在各系统的系统故障分级中定义为二、三级故障的故障现象,视为一般故障。1.3 角色与职责本过程设立运维负责人、支持受理人、问题反映人、各系统管理岗,岗位设立ab角,负责信息系统运维事件的管理,具体职责要求如下:序号角色名称定义/ 职责1. 全面负责运维各项工作。2. 审核审批各项运行维护制度规范和工作流程,负责协调各部门间的工作。3.负责与其他部门间的协调工作。4.负责建立健全本级运维与上级运维部门、本级运维与下级运维之间高级技术支持之间的顺畅沟通机制。5. 负责本级运维队伍的管理、培训工作。6. 负责落实上级运维部门提出的运行维护任务。1运维负责人7.管理运行维护部门员工的工作。8.通过呼叫中心事件管理报告,监控事件管理的效率,改善运维服务质量。9.负责系统重大故障及紧急事件的处理,并负责组织进行相关事故原因的调查分析,形成事故分析报告和相2支持受理人应的解决方案。10. 在业务部门,信息中心领导,以及信息中心内部维持良好的沟通渠道。11. 完善和维护事件管理系统。1. 负责接收用户反映的信息系统问题,并对问题记录、整理。2. 负责对事件分类和提供初始的支持。3. 将问题的解决步骤文档化。4. 将服务请求分派给适当的工作组。5. 跟踪服务请求的处理过程以确保在规定的时间内解决问题,同时在系统里更新相应信息。6. 对于无法解答的技术问题,及时转送其他相关人员;序号角色名称定义/ 职责7.对于无法解答的业务问题,及时提交运维负责人。与服务请求的提交者进行直接的沟通,通报事件的处8.理情况。在结束事件之前要确认服务请求的提交者对事件的解决过程及结果是否满意。9.作为事件的责任人, 监控,跟踪所有的事件处理过程,并作为和客户沟通的唯一联系点。10.编制管理信息报告。1.对于本级运维解决有困难的问题,负责向上级运维中心、高级技术支持或国家电网运维部门及时准确地上报。3问题反应人2.对于紧急、重大故障问题,负责向上级运维中心、高级技术支持或国家电网运维部门及时准确地上报。3.负责全程配合、协助国家电网解决上报问题,并跟踪问题的进展、解决、落实过程。1.在规定的时间内解决服务请求。2.对利用“临时方案 解决的服务需求, 在资源及时间允许时应找到问题根源。3.在需要时(有重大故障及升级需求时) ,及时利用其它4系统管理员资源( 开发商或供应商 ) 帮助用户解决问题。4.将服务请求的解决方案的步骤文档化,并录入系统。5.更新文档记录。6.和主机管理人、存储管理人、数据库管理人、中间件管理人一道,对业务系统实行全方位的管理。1.4 工作流程与活动参与事件管理、服务请求管理、重大故障处理、事件升级、一般事件处理、服务报告管理流程涉及的系统运维工作。具体工作内容如下:1.3.1 事件管理运维事件管理的总体流程如图1问题响应管理总体流程所示:1. 支持受理人接受来自各种渠道的服务请求、告警、故障事件等;2. 通过服务请求管理系统将事件进行记录、分类、确定优先级;3. 根据预定义的重大故障分类,判断是否启动重大故障处理流程(见图 3);4. 如遇紧急事件,则直接执行升级流程(见图 4),由运维负责人直接调用适当资源尽快处理;一般事件则执行一般事件处理流程 (见图 5)。问题响应总体流程户用服务呼叫终最员理管系统事件统系服务请求人重大系统故障?否理受持是支重大故障处理流程紧急事件?是升级流程否一般事件处理流程服 务 管理报告(图 1 问题响应管理总体流程)1.3.2 服务请求管理1. 支持受理人接受来自各种渠道提交的有关信息系统运维的服务请求、告警、故障事件等;2. 确认事件请求人是否属于服务对象。 如果不是,则拒绝服务转交其它部门处理; 问题概要需要在服务请求记录表 (见附录 1)中进行详细的记录,如详细情况描述;1) 按照预定义的“系统服务分类”对事件涉及的系统进行分类,如:网络系统,主机系统、营销系统等;2) 根据预定义的配置管理数据库的相关内容,将事件与配置项联系起来;3) 选择事件的影响程度:低:造成个别用户不能正常访问。中:局域网内超过5的用户不能正常访问。高:营销系统、“95598”系统等核心业务系统大面积瘫痪,不能正常对公众提供服务,造成负面的社会影响。4) 选择优先级 :无优先级:无时限要求,在方便的时候排除故障。低: 24 小时内排除故障。中: 8 小时内排除故障。高: 4 小时内排除故障。最高: 2 小时内排除故障。服务请求管理流程如图4 所示。服务请求管理户用终最服务呼叫记录服务请求事件概要及现象描述选择配置项目判断优先级人理受持支服务呼叫类别及系统服务分类重大系统故障?是否紧急事件?否选择影响程度是acb重大故障处理流程升级流程一般事件处理流程(图 2 服务请求流程)1.3.3 重大故障管理支持受理人完成服务请求流程后,如果事件是属于影响程度最高的故障,则即刻启动重大故障处理流程 ;1. 向最终用户发出服务中断通知;2. 支持受理人同时要尽快将故障情况向运维负责人汇报;3. 运维负责人应立刻通知相关领导以及灾难恢复领导小组(由主要业务部门领 导,信息中心领导,主管领导等组成),决定本故障是否通过上级运维部门才能解决,如果是,则由问题反映者联系上级运维中心,上级运维部门根据有关流程予以解决;4. 如果不用上级运维部门解决,则根据恢复时间标准确定是否启动应急预案;确定需要启动应急预案后, 由应急预案小组执行恢复计划, 使系统尽快恢复运作;5. 同时运维负责人要召集所有相关技术专家(项目组技术负责人,服务商,厂商以及各系统管理员)进行集中诊断,制定系统修复方案。并由相关系统管理人联合服务商一起执行系统修复方案;6. 系统修复并经测试成功后,支持受理人发布系统服务恢复通告;7. 联合系统管理员在服务请求系统中将故障的所有信息进行更新,如解决方案,关闭代码,如果在呼叫登记阶段录入的配置项目, 分类等有误, 需要一并修正;8. 联合相关系统管理员准备“重大故障责任报告”并提出整改措施;9. 运维负责人负责审阅批准重大事件责任报告,并向相关领导分发此报告;10. 运维负责人负责跟进整改措施。重大故障管理流程如图5 所示。重大故障处理流程a人理联合相关系统分发“重大故障责受持系统服务支中断报告系统恢复通告更新事件记录管理员准备“重大故障责任报告”任报告”结束人通知相关领导责及应急管理小组负维运召集相关服务商,系统管理员集中诊断,制定服务修复方案签署“重大故障责任报告”整改措施跟进组小理确定是否转交管上级运维部门否处理急应门是部维运上级运维部门级上否确定是否启应急计/划灾是恢复计划应急计/划灾备恢复计划员理管执行系统修复统及测试系(图(图3 重大故障处理流程)1.3.4 事件升级如果支持受理人接到紧急的服务请求(优先级最高),或在一般事件处理流程中, 事件的完成时限超过了承诺的服务时限时,支持受理人可以启动升级流程。1. 支持受理人通知运维负责人,请求支持;2. 运维负责人协调相关资源解决问题;3. 支持受理人负责跟踪事件进度以及确定事件状态;4. 事件解决后,由支持受理人与服务请求者确认并更新事件记录;5.支持受理人关闭事件。事件升级流程如图4 所示。事件升级流程b人理受持支电话通知运维负责人请求支援更新事件记录及解决方案跟踪事件进度确认事件状态并执行相应流程向用户反馈确认更新事件记录及解决方案否事件解决?是结束事件人责负维运协调相关资源(图 4 事件升级流程)1.3.5 一般事件处理1、支持受理人接受的服务请求如果不属于“重大故障” 或“紧急事件”,按照一般事件处理流程完成事件的处理。一般事件处理流程如图6 所示。2、如果服务请求属于指定工作组的责任,支持受理人直接将服务请求分派给各工作组。对分派给指定工作组的事件,支持受理人要负责跟踪事件的解决状态,并定 期监督相关服务人员尽快完成。如果相关服务组在接近服务时限(可定为超过服务时 限的 80的时间)仍没有确定的解决方案,支持受理人需请求相关专家协助完成。对不能在服务时限内完成的事件,支持受理人应通过升级流程加快事件的解决速度。事件解决后,支持受理人通过电话等方式与呼叫者进行确认,并更新事件记录,关闭事件。3、对于非指定工作组处理的事件,支持受理人对事件进行诊断分析,尝试解决。4、对不能在线及时解决的事件,支持受理人应先在运维管理知识库中查找相应 解决方案,找到解决方案后,尽快完成服务请求。不能解决的事件,请尽快根据服务 范围职责划分(服务支持流程人员表) ,将事件升级给二线支持人员,并跟踪事件处理状态。如果相关二线支持服务组在接近服务时限的最后期限(可定为超过服务时限的80的时间)仍没有确定的解决方案,相应系统管理人则需判断是否需要报请上级运维部门予以解决。如果需要,则通过问题反映者向上级运维部门报告,上级运维部门则按有关流程予以解决,如果不需要则请求三线支持人员协助完成。对不能在服务时限内完成的事件,支持受理人应通过升级流程加快事件的解决。事件解决后,支持受理人通过电话等方式与服务请求者进行确认,并更新事件记录,关闭事件。一般事件处理流程c响应服务请求与呼叫者确认人理尝试解决受持支是是否解决?否是预期可在服务时限内完成?跟踪事件处理状态是在服务时限内完成?事件解决?否更新事件记录根据分类将服务请求转派给相应工作组否否升级流程否是否转交上级运维部门处否请求专家支持理?是上级运维部门流程分析解决问题持支响应服务请求线二持支线三一般事件处理流程)(图 5支持受理人是事件管理流程的一线支持。各应用系统管理员、 网络管理员、主机管理员等是事件管理流程的二线支持工程师。开发商、集成商、设备供应商等外部服务专家是事件管理流程的三线支持。1.3.6 服务报告管理服务主管每月利用服务记录表,按照服务管理的指标分类整理各类数据,形成服务请求管理报告,提交给运维负责人进行审阅。运维负责人负责与相关部门及业务部门针对服务管理报告进行沟通,如果必要提出诸如用户培训、系统优化等建议,并负责跟进改进计划。1.5 管理原则1、运维中心应设立呼叫中心,做为it 服务管理与用户的接口,受理并处理用户的服务请求。没条件设立呼叫中心的服务机构应设立服务热线。2、除非特别的服务说明,任何事件处理不应绕过服务热线来解决。3、所有最终用户的服务请求应由统一的系统记录在案,并通过系统完成工作分派,监测跟踪,事件升级管理和质量管理。4、呼叫系统应包含对事件处理进行跟踪及监控的流程。5、负责呼叫系统的员工应尽最大可能在一线解决用户的问题。6、对所有问题的解决方法应在呼叫系统所使用的系统工具中存档。7、应尽量将服务请求与配置项目联系起来。8、应及时向提交问题的最终用户通报问题的处理情况,系统维护服务的进度和情况也应由服务请求支持员工与最终用户进行沟通。9、服务请求完成后应确定最终用户对事件解决方案的满意程度。10、应完整的描述和记录当前信息中心为其它部门所提供的服务、服务级别、以及提供响应的流程文档。1.6 附录1.6.1附表 1 服务请求记录表服务请求记录表请求信息报修时间故障地点客户电话ip地址记录人系统服务分类:网络系统 安全系统 主机系统 存储备份系统“95598”系统人力资源系统 营销系统 生产管理系统 oa 系统 财务系统事件影响程度:高 中 低优先级: 最高 高 中 低 无优先级故障现象处理过程:信息系统网络管理规范3.1 适用范围本规范适用于公司本部和基层单位主机房内的网络设备,包括各种路由器、交换机、防火墙、楼层交换机以及边界路由器和将来投入使用的网络设备的管理工作。3.2 定于与术语术语术语解释一个岗位安排两个人,其中一个主要负责,称为a角,当a角不能岗位ab角网络事件履行职责时,由 b角替代。由于网络故障, 如路由故障、 交换故障、ip 地址冲突, 线路故障、网络设备故障等造成网络中断或服务质量下降的任何事件。3.3 角色与职责设立网络管理岗,岗位设立ab角,负责网络和网络设备的运行维护管理和监控, 保障网络通讯的畅通。具体职责要求如下:序号角色职责1 支持受理人将服务请求分派给适当的管理人员。2 网络管理员1、负责网络基础运维工作,包括参与网络规划与建设; 版本发布; 网络设备用户管理; 负责 ip 地址规划、 分配和管理;协助安全管理员对网络安全状况进行评估,提 出安全解决方案;参与网络灾备管理;定期向运维负责 人提交网络系统运行管理报告等。2、完成网络配置工作,如:路由、交换协议的配置等; 负责 ip 地址的规划、分配和管理; 进行网络设备用户管理。3、分析解决网络故障;对于重大、紧急网络问题,应立序 号 角色职责即向运维负责人汇报。对于外部(例如电信局)原因造成的网络故障,应立即向运维负责人汇报,并及时通知有关部门予以解决。4、定期进行网络检查, 检查的内容应包括: 网络设备状况、网络设备日志错误报告、网络设备配置备份、 ios 版本、补丁级别等。5、定期编写网络维护报告, 主要包括网络带宽性能报告, 网络设备预防性维护报告,网络资源调整报告。6、配置信息管理:对目前使用的网络设备进行配置管理, 记录设备的基本信息,如:主机名、序列号、操作系统和版本号、 内存、容量、模块信息、 剩余插槽、 管理 ip、端口 ip 、端口的连接信息等; 记录设备的维护信息, 如: 购买时间、上线时间、退役时间、厂商、集成商、服务提供商、维修记录等;及时变更配置信息。7、故障监控: 监控所有网络环境内设备的拓扑信息和监控关键链路的状态; 接收网络设备发送的trap信息和日志,并进行分析、报警。监控的网络设备的事件应至少包括:链路状态:通 / 断,网络设备: down/up,网络设备故障:如模块 down,电源、风扇故障,性能监控中超出阈值的事件,重复ip 等。8、性能监控: 监控广域网链路的性能, 性能指标应包括流量、丢包、错包、ping 延迟等; 监控网络设备的性能, 性能指标应包括 cpu利用率、内存等。9、网络管理员为应用、 操作系统管理员提供网络方面的支持。10、网络管理员应配合安全管理员定期检查非法访问、序号角色职责网络入侵检测工作,如,失败的非法登录、网络流量分析等,并保留记录,归档备查。9、其他相关网络管理工作。3运维负责人负责组织相关资源对重大故障及紧急故障进行事故原因的调查分析。3.4 网络系统当前配置基线3.3.1 网络设备资产信息网络设备实行分级管理的原则,分为核心层设备,汇聚层设备,接入层设备。 其中核心层设备是网络流量的最终承受者和汇聚者,包括网络中的核心交换机和路由器设备(如公司本部的quidway s8512,cisco 6509交换机, c7206,7513mx是网络核心层设备),保障核心层网络设备的正常运行是网络运维工作的核心所在。汇聚层设备用于为核心层和接入层提供桥梁作用,通常实现网络管理,防止广播风暴,快速交换数据包等功能,公司本部汇聚层设备为所有边界路由器。接入层主要功能是为最终用户提供对网络访问的途径,接入层设备包括各设备间接入交换机。网络设备资产配置基线详见附表1网络设备资产列表3.3.2 核心层网络设备配置信息保障核心层设备的正常工作是运维工作的重中之中,核心层网络设备配置表的通 常目标是为了更好的维护核心层设备,提供网络中使用的核心硬件和软件组成的列表, 其组成详见附表2核心层网络设备配置表3.3.3 网络拓扑图1. 广域网拓扑结构2. 公司本部局域网拓扑结构3.5 工作流程与活动3.5.1 网络事件管理网络事件管理流程员理管开始服务请求重大网络否故障紧急网络否事件执行系统修复与测整试改措施跟进结束络网是是人责负通知相关领导召集相关服务商, 系统管理员集中维及应急管理小组, 诊断,制定运协调相关资源修复方案员理管分析事件原因统查找问题根源系进行安全评估执行系统修复及测试提供解决方案各1. 服务请求受理人接收用户报告的网络相关事件,根据问题响应流程 - 服务请求流程将事件分派给网络管理员。2. 网络管理员根据事件的范围、影响和紧急程度对网络事件进行分级。( 1)一级故障:广域网络因链路中断或质量严重下降(丢包率50%),网管、业务不可用,且持续等效停机时间4 小时。局域网络由于设备或链路故障造成关.键应用不能被访问,业务中断时间4 小时。(2) 二级故障: 广域网络因链路中断或质量严重下降(丢包率 50%),业务不可用,且持续等效停机时间 2 小时。局域网络由于设备或链路故障造成关键应用不能被访问,业务中断时间2 小时。(3) 三级故障: 广域网络因链路中断或质量严重下降(丢包率 50%),业务不可用,且持续等效停机时间 0.5小时。局域网络由于设备或链路故障造成业务中断时间 0.5 小时。3. 遇有一、二级网络故障,网络管理员须立刻将事件升级到信息中心运维负责人。4. 运维负责人协调、组织相关资源,处理网络事件,并通告相关部门。(1) 事件受理人向用户发出通知,通报发生的网络事件及进展。(2) 网络管理员联合系统服务商,各系统管理员负责相应的系统,对事件进行诊断、定位,查找问题根源。(3) 找到原因后需要确定受影响的系统范围,进行紧急修复,如系统隔离、设置防火墙、路由器规则,更新系统补丁等。在进行修复时应注意采取措施进行证据的收集和保全,记录或复制入侵证据、破坏和损失,归档备查。(4) 恢复系统服务和数据,网络管理员联合网络服务商和系统管理员对受到影响的系统进行全面评估,并对存在类似隐患的所有系统进行分析统计,制定相应的解决方案,并由网络管理员负责跟进落实。5. 对于三级网络故障,由网络管理员进行调查处理,必要时联合系统服务商和各系统管理员。6. 进行网络故障修复、加固防护所进行的配置和更改工作,都需要进行相关测试。故障恢复后要网络管理员要负责填写并维护网络系统故障登记表,负责网络事件的跟踪管理。3.5.2 网络基础运维管理1、规划与建设。参与网络的规划、建设工作,对网络建设中的一些重大问题提出参考意见、建议。提出具体实施方案并负责执行。2、版本发布。 网络管理员参与项目的测试和发布,根据项目要求完成测试网络环境的搭建、测试及维护工作。3、管理报告。 网络管理员定期向运维负责人提交网络运行状况报告,报告的内容包括当期网络故障情况、带宽的使用率和网络维护的任务完成情况等。4、灾备计划。网络管理员参与灾备管理工作,在创建网络的灾难恢复计划时,负责制定有关网络层面的灾难恢复计划及测试该计划;在灾难恢复计划的演练时,负责网络的恢 复演练;在网络有大的变更时,负责更新灾难恢复计划的相应部分;灾难发生时,负责网 络的恢复、切换工作。网络灾备计划参见网络应急预案。5、系统资源变更。在操作系统,数据库或各应用系统等提出变更需求时,若需要网络作相应变更,网络管理员协助完成相关变更。6、用户管理。创建和维护网络设备的用户帐号,定期检查网络设备用户权限,对网络设备的用户密码进行变更。7、安全管理。网络管理员应定期评估网络设备及相关协议的的安全性,更新 ios补丁, 使用访问控制列表对协议、端口进行配置。8、配置管理。 网络管理员定期备份网络设备配置文件,按照配置管理的要求提供网络的操作系统,硬件和配置信息,并以书面形式和电子文档形式交给机房值班人员保管,当配置信息变更时,及时更新。对于需要保密的部分信息可以采取加密等适当的方式进行保护。3.5.3 网络巡查管理3.5.4.1 每天例行工作内容检查核心层设备硬件运行情况,巡查的内容包括:硬件设备状况,路由状态、vlan状态、vrrp状态、端口状态等。网络管理员巡查结束后提交网络设备巡查报告给运维负责人,并抄送信息中心负责人。3.5.4.2 每周例行工作内容检查网络汇聚层硬件运行情况,巡查的内容包括:硬件设备状况,路由状态、vlan状态、端口状态等。网络管理员巡查结束后提交网络设备巡查报告给运维负责人,并抄送信息中心负责人。3.5.4.3 每月例行工作内容对本单位核心层和汇聚层设备进行全面检查,检查内容包括硬件运行情况,日志错误 报告,网络设备配置备份,ios版本等。网络管理员巡查结束后提交网络设备巡查报告给运维负责人,并抄送信息中心负责人。对接入层设备进行抽查,检查内容包括接入层设备硬件运行情况,指示灯状态,网络连通状态等。3.5.4 网络故障处理网络管理员分析和解决由支持受理人或机房值班员分派的网络故障。故障解决后,将故障原因,解决办法等信息反馈给支持受理人或机房值班员。并根据需要维护运维管理知识库相关内容。一级故障需在故障恢复后填写附表4网络系统故障处理报告 ,提交给运维负责人。3.5.4.1 故障处理步骤(1) 收集故障症状,判断故障原因1) 分析现存症状2) 判断所属3) 窄化范围4) 判定症状5) 记录症状(2) ) 分离问题1) 从物理层开始向上排查,直到应用层。常用于怀疑问题发生在物理层,或在处理复杂网络问题时使用。2) 从应用层开始向下排查故障,用于怀疑问题发生在软件部分。3) 选择 osi 模型的特定层(数据链路层、网络层、传输层)开始故障处理, 确定问题是在该层、还是上层或下层。(3) )纠正问题.3.5.4.2 线路故障处理方法线路故障处理流程员理管络网开始使用ping命令等测试工具否运营商原因判断是否是否本端网络原因是诊断原因执行系统修复与测试结束是部理管信 通 门否/ 商营运通知运营商或通信部门诊断原因,恢复故障员理管络网端对通知对端网络管理员诊断原因,恢复网络1. 当线路发生故障时,首先通过使用ping 命令快速判断是线路运营商方面的原因, 还是用户方面的原因,以便分清责任,尽快加以解决。2. 若属于线路运营商方面的原因,网络管理员应及时通知运营商对问题进行诊断, 定位,并协助运营商查找问题根源,恢复网络。3. 若链路故障是因为对端网络中断引起的,网络管理员应及时通知对端网络管理员对问题进行诊断,定位,并协助对端网络管理员查找问题根源,恢复网络4. 若链路故障是因本端网络引起的,网络管理员应对问题进行诊断、定位、查找问题根源。5. 执行系统修复和测试。详细操作步骤可参见附表73.5.4.3 设备故障处理方法设备故障处理流程开始检查是否 否软件故障是否端口故否障是否板卡故障是否引擎故否障 执行系统修复与测试结束员理管是是是是络网利用备份配置文件修复故障将网线更换到冗余端口切换到备用板卡切换到备用交换机商成集统故障板卡保修整机保修系1. 当发生设备故障时,网络管理员首先确认是软件故障还是硬件故障。2. 如判断为软件故障,如配置文件丢失或非法更改,网络管理员利用事先的备份配置文件重新配置设备并进行测试。3. 如判断为硬件故障,首先检查设备的端口的led状态指示灯是否正常,如端口指示灯显示故障,将该端口网线连接到其他冗余端口,如端口指示灯正常,则需要 继续查找。4. 其次查看特定部件,如为板卡故障,切换到备用板卡并进行配置和测试,故障板卡报修;5. 如为主引擎故障,紧急切换到备用交换机,并进行相应配置和测试,整机进行保修。6. 执行系统修复和测试。详细操作步骤可参见附表7。3.6 考核办法3.7.2考核目的信息网络系统作为四川电力公司信息化系统基础设施,在电力系统已起到至关重要的作用。为保障网络系统的正常运行以及确保本规范明确的各项工作要求在实际工作中得到贯彻和落实,信息网络系统运维知识的培训、管理、考核工作应是必不可少的。3.7.2 考核内容网络系统管理员的考核是由部门运维负责人直接考核,其主要内容应包含:(1) 是否对信息网络系统进行监控与巡查,并严格按照规定记录相关信息;(2) 是否对故障以及问题进行及时的解决;(3) 是否按照规定对系统进行备份;(4) 在维护流程中是否按照规定,进行书面申请或记录;3.7附录.;,.3.8.1 附表 1 网络设备资产列表网络设备资产列表序设备分级设备分类设备型号序列号管理 ip号ios 版本管理人 /位置使用人维护合同设备原厂商/联系方式开始集成商 /使用联系方式时间结束使备用时间注交换机quidway1s8512公司本部中心机房华为 /2核心层交换机c6509公司本部中心机房cisco路由器3c7206公司本部中心机房cisco4 路由器r7513mx梨花街cisco5 汇聚层6接入层7防火墙入侵检测8设备许可证软9件10.3.8.2 附表 2 核心层网络设备配置表核心层网络设备配置表分级项目详细信息备注设备名称设备型号cpu 类型;,.一般信息flashdram接口描述用 户 名 口令介质类型速率第 1 层双工模式接口号连接插座或端口mac 地址stp 状态第 2 层stp 根桥速端口信息vlan分级项目详细信息备注etherchannel配置封装中继状态接口类型端口安全vtp 状态vtp 模式ip 地址hsrp 地址子网掩码第 3 层路由协议acl隧道信息环路接口附:收集配置信息操作指南(以cisco设备为例): 1、收集路由器和第3 层交换机网络配置信息show version;显示设备型号、flash 、dram、ios 版本show ip interface brief;显示接口简要信息(类型、状态、协议状态、ip 地址)show interface e0/0;显示某接口详细信息(mac、ip 、mask、)show ip protocols;显示 ip 路由协议信息show ip interface e0/0;显示接口的ip 协议信息(状态、ip 地址、 acl、)2、收集交换机配置信息交换机网络配置表包含的信息:设备名、型号、位置、flash 、 dram、catos版本、管理地址、vtp域、 vtp模式、端口号、端口速率、端口双工、vlan、stp状态、速端口状态、中继状态、 show version;显示 ios 或 catos版本、 dram、flash show vtp domain;( catos)显示 vtp域和 vtp模式 show vtp status;( ios)show interface;(catos)显示管理接口信息show port;( catos)显示每个端口的简要信息(号、vlan、双工、)show interface;(ios)show trunk;( catos)显示中继信息(模式、封装、允许端口、剪裁、)show interface trunk;( ios)show spantree 45;( catos)显示端口的stp模式、类型、状态、速端口、)show spanning-tree 45;(ios)3、发现相邻cisco设备的信息cdp( cisco discoveryprotocol)是 cisco的专用协议,用于识别直接相邻的cisco设备信息, cdp工作在第2 层。show cdp neighbor;显示相邻cisco设备的简要信息(id 、相邻接口、平台、)show cdp neighbor detail;显示相邻cisco设备的详细信息(包含第3 层信息)3.8.3 附表 3 网络系统巡检报告1、网络系统每天例行巡检报告设备型号:核心层设备型号名称巡检时间:每天例行巡检内容巡查项目正常不正常设备运行状态灯:设备各模块状况: 设备运行温度:cpu利用率及内存利用率: 路由状况检查:hsrp 状 态 检 查 : vlan 状 态 检 查 : trunk 和 channel: 动态路由状态检查: spanning tree检查: 以太接口故障检查:路由器广域口故障检查:网络连通性检查 (采用 ping和 tracert命令):网络流量检查(合法流量和非法流量) :本次巡捡发现的问题解决方法及措施签字:签字:巡捡人:年月运维负责人:年月日日2、网络系统每周例行巡检报告设备型号:汇聚层设备型号巡检时间:每周例行巡检内容巡查项目正常不正常设备运行状态灯:设备各模块状况: 路由状况检查:路由器广域口故障检查:网络连通性检查 (采用 ping和 tracert命令):网络流量检查(合法流量和非法流量) :本次巡捡发现的问题解决方法及措施巡捡人:签字:年月日运维负责人:签字:年月日3、网络系统每月例行巡检报告设备型号: 巡检时间:每月例行巡检内容巡查项目正常不正常设备运行是否正常是否对 ios 及系统配置进行备份是否有多余设备连接到网络中设备重启是否有异常报错或者无法正常重启本次巡捡发现的问题解决方法及措施巡捡人:签字:运维负责人:签字:年月日年月日3.8.4 附表 4 网络系统故障处理报告网络系统故障处理报告故障基本信息设备名称设备型号 /序列号故障日期年月日发生具体时间时分秒登记日期年月日登记人故障类别线路故障设备故障病毒攻击网络入侵其他故障现象描述故障恢复情况故障原因分析故障恢复步骤故障恢复结果故障恢复时间系统管理员意见签字:年月日运维负责人意见签字:年月日3.8.5 附表 5 计划性维护申请表计划性维护申请表申请人申请日期年月日维护设备设备名称网络设备服务器设备精密空调ups其他网络中断时间网络恢复时间检查项目操作步骤维护结果系统管理员运维负责人年月日年月日.3.8.6 附表 6 常用网络维护命令1、识别数据链路层问题的症状数据链路层问题包括:不正常的帧类型(不相符的封装)、重复的 mac地址、换换层设备的不当行为。第 2 层和第 3 层测试工具( cdp、ping)可以帮助检验并校验数据链路层问题。2、用于识别物理层和数据链路层问题的命令:(1) 通用命令:ping host |ip-address ; arp a ;netstat rn ; ipconfig /all; tracert ; winipcfg; ifconfig a ; traceroute ;(2) cisco ios 命令ping; traceroute; debug ;show version;show ip interface brief; show interface e 1; show cdp neighbor detail; show controllers;show arp; debug arp|lapb|stun;3、识别并纠正网络层问题1) 通用命令: pingarpa netstat2) windowsroute print ipconfig /all tracert winipcfg 3)unix&macifconfigatraceroute route n4)分离网络层问题的cisco ios 命令1) 通用:ping trace debugshow running-config 2) arpshow ip arpdebug arp 3) 路由表show ip routedebug ip routing 4)ip 接口show ip interface brief5) ip 流量show ip traffic debug ip icmpdebug ip packet6) ip 访问列表show ip access-list3.8.7 附表 7 常见故障处理方法(1) )线路故障处理方法当线路发生故障时,首先要快速判断是线路运营商方面的原因,还是用户方面的原因,以便分清责任,尽快加以解决。1)登录到路由器或三层交换机,使用扩展ping 命令,向对端路由器广域口地址发送大量数据包进行测试。如果上述测试没有发生丢包现象,则说明线路运营商提供的线路是好的,引起故障的原因在于用户自身,需要进一步查找。如果上述测试发生丢包现象,则说明故障是由线路供应商提供的线路引起的,需要与线路供应商联系尽快解决。 2)当确定引起线路故障的原因是用户方面的原因时,需要进一步判断到底是广域网线路哪一端用户的原因。 可以使用“ ping本地网关t ”命令, 检查本端计算机到本端网关的连通性。如果此测试发生丢包现象,则说明故障是由本端引起的,需要进一步查找。否则说明故障是由对端引起的,需要对端用户进一步查找。3) 在确认故障是由线路的某一端引起之后,可以采取以下两种方法快速准确地定位引起故障的具体位置所在。一是采用“设备替换”法,利用一台新的路由器、交换机等网络设备替换现有的网络设备,如果线路恢复正常,则说明是该网络设备发生故障。否则需要继续查找。 二是采用“网线插拔”法, 利用一台运行正常的计算机, 输入“ ping 对方计算机 t ”命令, 同时逐一插拔路由器或交换机上的每一根网线。 如果看到在断开某一根网线后整个线路恢复正常,则说明故障和这个端口有直接关系。再将这根网线插到交换机上的其它端口进行测试,如果线路恢复正常,则说明是交换机上的这个端口发生故障。否则说明连接这个端口的计算机或网线发生故障,需要继续查找。4) 在将故障定位到交换机上的具体某个端口以后,首先检查与该端口相连接的计算机运行是否正常。可以双击网卡,查看该网卡的发送包和接收包的数量,如果发现网卡的发包数在快速增加,则说明这台计算机感染了蠕虫病毒,应立即切断该计算机与网络的连接,进行病毒的查杀处理。否则说明该计算机的网卡或网线发生故障,需要更换新的网卡或网线。(2) )设备故障处理方法当发生设备故障时,网络管理员首先确认是软件故障还是硬件故障。如判断为软件故障,如配置文件丢失或非法更改,网络管理员利用事先的备份配置文件重新配置设备并进行测试。如判断为硬件故障,首先检查设备的端口的led状态指示灯是否正常,在正常工作时一般状态指示灯为绿色常亮,故障时led状态将关闭、闪烁或其它颜色。如端口指示灯显示故障,将该端口网线连接到其他冗余端口,如端口指示灯正常,则说明原端口故 障,否则需要继续查找。其次查看特定部件,如为板卡故障,切换到备用板卡并进行配 置和测试,故障板卡报修;如为主引擎故障,紧急切换到备用交换机,并进行
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论