tpm生产维护_it运维管理规范教材_第1页
tpm生产维护_it运维管理规范教材_第2页
tpm生产维护_it运维管理规范教材_第3页
tpm生产维护_it运维管理规范教材_第4页
tpm生产维护_it运维管理规范教材_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一部分 IT运维管理规范第一章、 总则一、为加强 IT运维管理能力,保障业务系统正常、高效、安全运行,根据行业规范,并结合 IT运维工作实际情况,制定本规范。二、 IT运维包含以下七个子项:1、业务应用系统运维;2、服务器、数据库、中间件运维; 3、 机房及弱电4、网络系统运维;5、计算机终端运维;6、视频会议系统运维;7、信息安全运维。三、IT运维管理的主要内容包括:运维资产管理、运维人员管理、运维流程管理、运维安全管理和运维绩效管理等。 1、运维资产管理是对已正式投入使用的信息化基础设施、软件等资产的动态更新和配置管理。2、运维人员管理是对参与运维工作的人员的资格、能力、运维行为以及其对应的运维流程和权限的管理。3、运维流程管理是对资产及对应运维人员的事件、问题、变更等运维工作流程权限进行设计规划和实施过程。4、运维安全管理是在运维过程中为保障信息的机密性、完整性和可用性而对信息安全的职责、制度、标准和流程的管理。5、 运维绩效管理是科学评价运维过程和运维结果,发现问题并提出改进措施。四、 IT运维管理原则:1、标准化:通过制定、发布和实施IT运维标准,达到统一管理的目标;2、痕迹化:通过IT运维综合管理平台的使用体现运维管理工作的痕迹化原则;3、平台化:使用IT运维综合管理平台,作为运维管理的集中支撑平台,提供量化的运维管理数据便于刻画和评价运维工作;第二章、 流程管理制度一、所有工单的创建、处理应符合规范要求。工单的填写必须包含:故障或问题的现象、故障问题根源分析、故障问题处理方案、故障问题处理结果。工单的处理还必须包括 :运维项及资产关联、故障问题严重等级、重要处理工程的更新说明、升级关闭的理由。二、对于需要多个外协单位协同处理的综合故障排除或运维任务,由运维总协调人通过协同工单协调外协单位共同处理。三、运维人员有责任及时创建工单、处理和关闭工单,从而尽量真实的反映运维工作的时效性。对于有承诺的运维项或信息系统资产,工单的处理时间必须符合时间。对于超过承诺范围的工单,IT运维综合管理平台将通过逐级告警的机制引入更高层面的介入以促进运维管理服务水平达到要求。四、对于公共基础设施的信息系统,所有变更必须按照变更申请、变更测试评估、变更审批、变更实施和评估的流程进行。涉及到费用的信息系统变更也需要通过变更审批流程来实施。变更应做到有计划,有方案,有评估,有应急预案。从而降低运维变更所产生的风险。公共基础设施的变更还必须通过公告形式预先通知相关单位运维人员,以便及时进行必要的应急处理。第三章、 运维资产管理一、信息系统资产管理是运维管理工作的基础。运维工作、运维人员以及运维过程的管理都应该围绕信息系统的资产进行。 信息系统资产的在IT运维综合管理平台中录入和动态维护是实现信息化、流程化运维综合管理的基础工作。信息系统资产按照七个运维子项进行分类录入和管理。二、资产管理员负责资产信息的清理、录入、资产状态的变更审核;各运维项负责人负责对应运维项资产信息的录入和维护工作。共同建立完善的资产信息数据库,并与财务部门统计数据保持一致。录入的资产应尽量反应到本单位的详细拓扑图,拓扑图应根据变化及时更新。三、信息系统资产属性包括资产的基本属性、运维属性和财务属性。资产管理员及运维项负责人应及时有效的对资产属性进行维护和管理。 1、基本属性描述资产的固有特征信息,包括资产类别、名称、型号、厂商、资产编号等信息。资产管理员及运维项负责人应IT运维综合管理平台中维护管理最新的资产基本属性。2、运维属性描述除基本属性外,运维工作关心的资产信息。如资产的物理位置、资产运维负责人及联系方式、资产状态(运行、维修、报废等)、资产的技术属性(如软件版本,运行参数,硬件配置参数等)。3、资产的财务属性描述财务部门关心的信息。如采购合同号、供应商名称、保修期限等。四、涉及到资产的责任人、技术属性、物理位置、所属部门、状态等的变更应通过变更流程审批后完成。五、所有运维工作应在IT运维综合管理平台中与资产进行关联,建立完善的关联资产运维信息数据库。第四章、 运维人员管理一、明确运维管理职责,定期制定运维管理岗位流程规范,制定运维人员专业能力评定标准,组织实施运维人员能力培养、考核和准入等工作。二、根据运维管理岗位职责,及时梳理制定相应的运维人员工作流程权限并实施。通过监督管理使运维人员的工作和行为符合运维管理技术规范。三、根据运维岗位职责特点,制定运维人员接替方案,在人员岗位职责发生变化时及时更新流程和相应权限。四、运维人员通过建立人工和自助服务台受理业务部门的运维事件。运维人员的业务部门的事件处理应接受业务部门的服务评价。通过运维评价实现闭环的运维工作管理。五、加强运维人员的管理工作。运维人员对本单位信息安全负有责任,应与运维人员签订保密协议,防止其对本单位文件、数据的擅自复制、修改和带离现场。运维人员发生变化的应对其运维账户权限及时进行变更或删除第五章、 考核与奖惩一、考核主要采用定性的指标和定量的指标相结合的考核原则。考核周期分为月度、季度和年度考核。对运维体系的考核结果进行不定期通报。定量指标包括资产信息录入完善程度、工单及流程规范性、工单平均处理时间、业务部门满意度、信息系统可用性等关键数据。第二部分 IT运维技术规范第六章、 术语定义和缩略语1、 IT运维工作IT运维工作是指综合利用各种IT运维支撑工具,提供的确保IT系统正常、安全、高效、经济运行的服务。 2、 IT运维管理流程 IT运维管理流程是指为了支持 IT运维工作的实现和提供,以确定的方式执行或发生的一系列有规律的行动或活动。 3、 IT运维人员参与 IT运维工作的各级人员,IT运维人员根据管理权限、负责运维工作的范围的不同,划分为不同的运维角色。4、 IT运维管理工具 IT运维工作中使用的对不同运维项进行监控的工具,目前包括网络基础设施监控工具、业务应用监控工具、机房监控工具、计算机桌面安全管理工具。5、 运维项根据 IT运维实际情况, 信息系统运维对象统一划分为服务器/数据库/中间件系统运维、计算机终端运维、机房及弱电系统运维、网络系统运维、业务应用系统运维、视频会议系统运维、信息安全系统运维七个类别。所有信息系统运维对象应归类在这七个类别中来进行运维管理。由信息系统运维对象分类形成的七个类别,可以分别设定为不同的运维项。运维项包含了对信息系统资产的归类及授权的维护管理工作分类。运维管理人员根据授权维护管理自己范围的信息系统及对应设备资产。运维项必须遵照本标准规定的运维对象类别进行分类归口。6、 运维质量保证(SLA)运维质量保证(SLA)是运维主管或运维管理员根据本地实际情况和运维对象的重要性,规定的运维服务质量承诺。即代表完成某个运维对象的某种运维任务所限定的时间。通常为故障处理恢复的完成时间。各分公司可对不同的运维对象,相应的运维人员制定不同的运维质量保证参数,超过运维质量保证的任务可能导致告警/运维工作考核不合格/或者按照相应商务合同规定下的处罚。7、 ISO International Organization for Standardization国际标准化组织 。8、 ITInformation Technology的缩写,意为信息技术 。9、 信息系统信息系统是指在商业系统运行的各种信息化设备、软件系统、终端以及支撑这些设备、软件系统、终端运行的其他设备系统(如机房、弱电等)。主要由计算机硬件、网络和通讯设备、计算机软件、信息资源、信息用户和规章制度组成的以处理信息流为目的的人机一体化系统。10、 ITIL Information Technology Infrastructure Library的缩写, 意为IT基础架构库 ,是CCTA(英国国家计算机和电信局)开发的一套IT服务管理标准库,旨在提高IT资源的利用率和服务质量。之后演变成为ISO20000。 目前已经成为业界通用的事实标准。 是业界普遍采用的一系列IT服务管理的实际标准及最佳实践指南,包含了如何管理IT基础设施的流程描述;它以流程为向导、以客户为中 心,通过整合IT服务与企业服务,提高企业的IT服务提供和服务支持的能力和水平。ITIL可以引导组织高效和有效地使用技术,让既有的信息化资源发挥更大的效能。第七章、 运维管理工作技术规范总则随着信息化建设的不断深入, IT运维工作越来越重要,建立科学规范、协同高效的信息化运维管理体系,是行业信息化上水平的迫切要求,为此需要按照“统一标准、分级负责、逐级考核、流程规范、高效运行”的原则,确定运维管理职责,梳理运维管理流程,制定运维管理规范。一. 运维工作的总体目标 IT运维的总体目标就是要树立面向业务服务的IT运维管理理念,建立科学合理的绩效考核指标,向精细化的运维管理转变;实现 集中统一的IT运维管理模式;建立统一的、高效、智能的IT运维综合管理;建立规范标准的IT运维管理流程,实现由职能管理向流程管理转变;应用先进的、实用、高效的IT运维管理工具,实现被动管理向主动管理转变。通过IT运维综合管理制度的实施,按照ITIL运维管理最佳实践标准,结合实际和需要,遵循立足需求、统一规划、保障重点、分步实施、务求实效的原则,建立一套融合组织、制度、流程、人员、技术、工具的IT运维管理体系,制定规章制度,规范管理流程,明确职责分工,强化技术支撑,实现对 IT系统的综合管理监控和日常技术支持,快速响应和及时解决信息系统运行过程中的各类隐患和故障,确保信息系统的正常、稳定、高效运行。二. 适用范围本规范面向 IT运维各级运维管理人员设计,适用范围包括各级运维人员,以及参与IT运维外包的外协公司有关人员。三. IT系统运维项分类根据信息系统实际情况, 信息系统运维项统一划分为:1、 服务器/数据库/中间件系统运维。2、 计算机终端运维。3、 机房及弱电系统运维。4、 网络系统运维。5、 业务应用系统运维。6、 视频会议系统运维。7、 信息安全系统运维。所有IT信息系统运维对象应归类在这七个运维项类别中来进行运维管理。四. 运维工作等级划分及SLA定义规则IT运维综合管理通过流程进行处理的工作(包括事件,问题,变更,以及任务等),都应当根据工作性质赋予相应的工作等级。同时,根据不同运维项的不同工作等级对信息系统的重要程度,还应当对每个运维项对应的工作等级赋予相应的SLA。 IT运维工作(对应IT运维综合管理平台中的事件、问题、变更工单)分为严重、重要、一般三个级别。运维人员在IT运维综合管理平台中应当根据运维项的特性确定工单的等级。运维工作(工单)的等级划分原则如下:1、严重等级。对核心业务或工作造成严重影响的事件、问题、变更工作(工单)应该在IT运维管理平台中标注为严重等级。例如:核心业务应用系统、骨干网络、核心业务应用服务器/数据库/中间件、机房系统等中断或严重影响正常业务的事件、问题或变更工作(工单)确定为严重等级。各运维项的严重监控告警将自动产生严重等级的工单,并且工单等级不能更改。2、重要等级。对业务部门或工作造成重要影响的事件、问题、变更工作(工单)应该在IT运维管理平台中标注为重要等级。例如:核心业务应用系统、骨干网络、核心业务应用服务器/数据库/中间件、机房系统等不稳定或存在较大隐患的事件、问题或变更工作(工单)确定为重要等级。各运维项的重要监控告警将自动产生重要等级的工单,并且工单等级不能更改。3、一般等级。对业务部门或工作不会造成较大影响的事件、问题、变更工作(工单)应该在IT运维管理平台中标注为一般等级。例如:普通计算机终端故障、局部接入网络的异常、以及各运维项一般性监控告警等产生的事件、问题或变更工作(工单)确定为一般等级。 IT运维工作必须根据各运维项特性,对不同等级的事件、变更工单定义相应的SLA数值。SLA数值代表处理相应事务(工单)时的最长时间要求(以小时计)。IT运维综合管理平台将对超过约定SLA的工作(工单)产生告警,并统计运维人员工作(工单)超过约定SLA的数量。SLA的超时告警将按照约定的阀值自动通过通告及短信/邮件等方式通知上级运维管理人员。SLA的超时告警通常设置一级通告告警、二级通告告警和三级通告告警三个级别。一级通告告警通常设定为通知监理公司或负责运维项的 运维管理人员;二、三级通告告警通常设定为通知负责运维项的 运维管理人员或更高级别的运维管理人员。可按照如下示例规则,根据所属运维项特点制定约定的SLA要求:运维项事件工作(工单)等级及SLA (小时) 变更工作(工单)等级及SLA (小时)严重严重计算机224信息安全248网络系统424服务器/数据库/中间件224应用系统272机房及弱电224视频会议系统11五. 运维管理工作的考核KPI制定根据目前信息系统结构和组织架构,制定统一考核KPI指标,以促进信息系统运维管理工作的规范化,信息化,主动化。运维管理工作考核KPI分为如下几类:1、 运维平台的使用及工作量。各类运维对象资产录入数量,事件/问题/变更工单数量,知识库贡献数量。2、 信息系统运行可用性。各类运维对象的整体可用性,单位设备/系统故障次数。3、 运维管理工作质量。平均工单处理时间(事件/问题/变更),平均故障恢复时间。4、 主动运维。KPI绩效考核是一项综合性的考核。需要全面、灵活考核运维人员对事件、问题、变更的处理情况,同时不同的KPI考核指标在不同的运维项中的权重并不相同。针对不同运维项的特点和重要性 ,可按照如下规则制定针对具体人员的KPI考核指标:1、 服务器/数据库/中间件系统运维。针对运维人员绩效考核指标: 系统可用性 平均故障时间 平均故障恢复时间 SLA通告统计针对外协人员KPI绩效考核指标: 平均故障时间 平均故障恢复时间 处理的工单数量 工单的平均处理时间 知识库贡献 配置项录入数量 SLA超时工单统计 SLA通告统计在服务器/数据库/中间件系统运维的实际工作中,对运维人员应该以提高系统的可用性为主,所以系统可用性指标、主动的问题工单数量处理多及导致故障事件工单数量下降趋势的对比等KPI所占考核权重应该较高; 对外协厂商应该以平均故障恢复时间、工单数量,SLA符合情况等为主,进行综合考核。2、 计算机终端运维。针对运维人员绩效考核指标: 平均故障时间 用户满意度针对外协人员KPI绩效考核指标: 处理的工单数量 工单的平均处理时间 知识库贡献 配置项录入数量 SLA超时工单统计 SLA通告统计 用户满意度在计算机运维的实际工作中,对外协厂商应该以处理工单数量、平均故障恢复时间、SLA和用户满意度等为主进行综合考核。3、 机房及弱电系统运维。针对运维人员绩效考核指标: 可用性统计 平均故障时间 平均故障恢复时间 SLA通告统计针对外协人员KPI绩效考核指标: 平均故障时间 平均故障恢复时间 处理的工单数量 工单的平均处理时间 知识库贡献 配置项录入数量 SLA超时工单统计 SLA通告统计在机房及弱电系统运维的实际工作中,对运维人员应该以保证系统的正常运行为主,所以系统可用性指标、主动的问题工单数量处理多及导致故障事件工单数量下降趋势的对比所占考核权重应该较高;对外协厂商应该以平均故障恢复时间、工单数量和SLA等为主,进行综合考核。4、 网络系统运维。针对运维人员绩效考核指标: 可用性统计 平均故障时间 平均故障恢复时间 SLA通告统计针对外协人员KPI绩效考核指标: 平均故障时间 平均故障恢复时间 处理的工单数量 工单的平均处理时间 知识库贡献 配置项录入数量 SLA超时工单统计 SLA通告统计在网络系统运维的实际工作中,对运维人员应该以保证系统的正常运行为主,所以系统可用性指标、主动的问题工单数量处理多及导致故障事件工单数量下降趋势的对比所占考核权重应该较高;对外协厂商应该以主动的问题工单数量处理多及导致故障事件工单数量下降趋势的对比、平均故障恢复时间、工单数量等为主进行综合考核。5、 业务应用系统运维。针对运维人员绩效考核指标: 可用性统计 平均故障时间 平均故障恢复时间 用户满意度 SLA通告统计针对外协人员KPI绩效考核指标: 平均故障时间 平均故障恢复时间 处理的工单数量 工单的平均处理时间 知识库贡献 配置项录入数量 SLA超时工单统计 SLA通告统计 用户满意度在业务应用系统系统运维的实际工作中,应该以保证系统的正常运行和用户的正常使用为主,所以系统可用性指标、变更工单处理时间,主动的问题工单数量处理多及导致故障事件工单数量下降趋势的对比所占考核权重应该较高;对外协厂商应该以主动的问题工单数量处理多及导致故障事件工单数量下降趋势的对比、平均故障恢复时间、工单的平均处理时间、工单数量及SLA等为主,进行综合考核。6、 视频会议系统运维。针对运维人员绩效考核指标: 可用性统计 平均故障时间 平均故障恢复时间 用户满意度针对外协人员KPI绩效考核指标: 平均故障时间 平均故障恢复时间 处理的工单数量 工单的平均处理时间 SLA超时工单统计 SLA通告统计7、 信息安全系统运维。针对运维人员绩效考核指标: 安全事件工单数量 平均安全策略变更工单处理时间 安全定期巡检任务完成情况针对外协人员KPI绩效考核指标: 安全事件工单数量 处理工单的平均处理时间 SLA超时工单统计 SLA通告统计六. 资产配置管理规范1、 所有信息系统设备资产(包括在运行的设备软件,备件,暂停使用的设备软件)都需要录入运维平台。桌面计算机安全管理工具,网络监控工具,服务器数据库中间件监控工具将把被监控的设备系统资产信息同步到运维平台中。资产管理人员需要录入相应的管理信息或商务信息。另外,对于不被监控的设备或系统,资产配置管理人员应将其手工录入 IT运维综合管理平台。资产配置信息可以制作表格经资产配置管理员审查后进行批量导入。2、 资产编码需要根据行业标准YC/T 3872011 行业固定资产分类与统一代码编制规则,在IT运维综合管理平中进行手工录入3、 资产编码应录入在IT运维综合管理平的配置项的“资产编号”字段中,此字段已由系统检测编码位数,以及资产编码中的组织机构代码是否正确,必须符合 行业固定资产分类与统一代码编制规则的要求4、 固定资产编码共由22位数字组成:a) 第一部分组织机构代码,根据YC/T 190编制的各单位组织机构代码,用8位数字表示。b) 第二部分总公司固定资产分类代码,用4位数字表示,是总公司固定资产大类(2位)+中类编码(2位)。c) 第三部分固定资产分类代码,用4位数字表示,是 结合固定资产管理需要在固定资产分类标准基础上编制的再分类编码,是 固定资产小类(2位)+细目编码(2位)。d) 第四部分顺序码(即流水码),用6位数字表示,在直属公司代码系统中统一注册赋码,从“000001”至“999999”。e) 固定资产编码规则如下:5、 资产配置管理员应定期对资产进行审计,确保资产管理信息的严肃性和可靠性。 行业固定资产分类与统一代码编制规则大类中类小类细目主要资产名称(具体实例)计量单位备注说明代码名称代码名称代码名称代码名称05电子设备01电控系统01工控机02电控系统02计算机、信息化设备01计算机设备01台式机02便携式计算机笔记本电脑03掌上电脑99其他计算机设备02服务器设备01小型机02PC服务器99其他服务器设备03网络设备01路由器02交换机03网关04集线器05光端机06终端接入设备99其他网络设备04安全设备01防火墙防火墙、入侵检测设备、漏洞扫描设备、计算机终端安全设备02入侵检测设备03漏洞扫描设备04计算机终端安全设备99其他安全设备05终端设备01触摸式终端设备触摸式终端设备、终端机02终端机99其他终端设备06存储设备01SAN磁盘阵列磁盘机、磁盘阵列、存储用光纤交换机、光盘库、磁带机、磁带库、网络存储设备、移动存储设备02NAS磁盘阵列03磁盘扩展柜04SAN交换机05磁带机设备06磁带库设备07光盘库设备08移动存储设备99其他存储设备07输入输出设备01打印设备02计算机绘图设备03计算机光电设备04显示器05扫描仪06刷卡机07POS机08数据采集器09KVM设备99其它输入输出设备08机房辅助设备 01机柜温湿度传感器机柜、机房环境监控设备 02机房温湿度传感器 03红外传感器 04烟雾传感器 05粉尘传感器 06二氧化碳传感器 07协议转换器 99其它设备09软件资产01软件产品02自行开发软件03二次开发软件99其他软件资产99其它计算机、信息化设备03通信、音频、视频及办公设备01通信设备01卫星通信设备02电话通信设备03视频会议系统设备99其它02音频设备01录放音机02收音机03音频功率放大器设备04电唱机05音响电视组合机06话筒设备07数码音频工作站08声画编辑机09录音外围设备10扩音设备11音箱99其他03视频设备01电视机02录像机03摄像机04摄录一体机05平板显示设备06电视唱盘07激光视盘机08视频监控设备09视频处理器10虚拟演播室设备11字幕机99其他04组合音像设备01音视频播放设备02闭路播放设备03同声现场翻译设备99其他05办公设备01电话机02传真机03复印机04投影仪05多功能一体机06摄像机07照相机及器材08会计机械09LED显示屏99其它办公设备激光视盘机、电子白板、触控一体机、刻录机、速印机、碎纸机、条码打印机、条码扫描器、制图机械、办公设备零部件99其它通信、音频、视频及办公设备99其它未分类电子设备01烟叶生产、烘烤、收购用电子设备99其它未分类电子设备第八章、 运维流程设计规范一、 系统运维管理工作内容1、 固定资产管理企业对固定资产的管理,主要体现在固定资产购置、管理、使用、折旧、转让等方面。部门主要负责实时记录固定资产变动情况和定期统计本部门固定资产使用使用并提交资产统计表。运维部固定资产包括三个部分:办公自动化设备、机房内部设备、库房资产。1)办公自动化设备使用人员不得擅自拆装更换设备,并且有妥善保管义务,定期对设备进行维护、检查其使用情况。设备添加、更换、升级、和故障,使用人员应及时更近资产统计表信息,并注明事由。2)机房设备应有固定人员进行维护管理,非工作人员未经许可不得进入。机房设备如出现变更,要及时汇报给上级部门和相关部门,协同处理问题,尽快的恢复正常运营。3)库房存储的资产应及时做好进出库记录,并定期对库房进行盘点核实库房资产统计。 附表:固定资产清单统计表资产编号资产名称使用情况使用人员备注库房资产统计表资产编号资产名称入库时间入库签字出库时间出库签字备注2、 网络、安全系统运维管理1)网络系统的运维管理从三个方面实现:网络的连通性、网络的性能、网络的监控管理。网络系统运维的前期准备,需要有整个网络拓扑图,机房网络拓扑图,核心设备端口平面详图,接入设备端口平面详图,办公区域端口平面详图,并且需要对网络设备、网络端口、连接线路做与拓扑和平面详图相对应的标示。前期准备工作,可以做为公司的技术文档的一部分,也可以为公司运维管理带来更加准确的网络基础依据。网络连通性需归纳到每天的主干网络日常巡检工作范畴内,连通性测试可以确认网络平台的正常运作,并可以及时检查出网络的连通故障,缩小问题出现时间差,根据的网络基础数据和测试得到的数据,更快更准确的确定网络的故障点,排除故障,恢复网络的正常运行。工程师定期通过日常网络巡检,网络安全硬件日志,对网络问题、网络运行状况进行周期性检查和数据分析后,总结出网络的性能。日常运维工作中,除去网络的连通性和网络性能的监测,还需要对终端使用网络的情况有定的掌控,如服务器的日常访问量、网络数据传输峰值、工作用机日常对网络的使用情况等。对网络负载能力、网络畅通性、网络运行瓶颈、网络常见问题根源等方面有一定了解后,针对性的提出解决建议方案,提早预防发现的网络隐患,降低公司运营风险,保障网络的稳定运行。2) 计算机网络安全运维可分为物理安全和逻辑安全两方面。保护网络系统中相关设备(机房设备,日常工作设备)的物理保护,以免予破坏、丢失等。机房设备应有固定人员进行维护管理,非工作人员未经许可不得进入。机房日常巡检时要注意机房环境和周边设备的检查,如机房温度、机房适度、有无异味异响、机房异常痕迹、UPS、空调、消防等,为机房设备提供良好运作环境保障。日常工作设备要严格按照公司相关固定资产管理规定方法进行使用和管理。物理设备连接,以最小化连接原则,根据业务服务响应需求,将不必要的物理网络连接去掉,必要时将不同的服务需求群体划分VLAN,细化防火墙访问控制,减少服务端口数量,对端口加以控制,做好信息物理隔离,以免内部信息有不必要外泄。操作系统安装系统补丁软件和网络版杀毒软件,定期扫描系统漏洞,安装系统补丁,定期检查病毒库更新情况和发布情况,杜绝病毒的感染、传播和发作,提高系统的主动防御能力。系统管理员要注意账户密码的强壮度,并避免账户和密码的大众性和常规性,在创建系统用户时,要严格控制,对系统进行多角色、多等级管理,出现问题可方便确认责任人和问题根源。对系统定期进行查看,关闭不必要的系统组件和应用服务,检查系统日志,检测是否出现异常。规划网络ip地址和MAC地址,限制连入局域网的上网计算机,对网络终端连入状况有清晰的了解。对网络终端上网行为管理规则进行规划,规则添加如屏蔽与工作无关的网站、屏蔽某些关键词、监控p2p流量等,并将相关条款体现在公司规章制度中,以加强管理力度。3、 主机、存储系统运维管理日常巡检要对硬件运行状态仔细检查,从设备硬件提示信息及时发现问题,防止影响扩大化,及时解决故障,恢复系统的正常运作和系统冗余性,外部提示包括面板指示灯、电源指示灯、网卡指示灯、磁盘指示灯,以及各种硬件故障提示和报警信息。定期监控cpu性能,内存使用情况,硬盘利用情况,硬盘运行状态,网卡状态,系统日志,交换分区,进程状态,存储交换机端口状态,存储传输情况,通过监控数据对主机和存储系统的性能进行评估。发现隐患,先将问题确定到点,进行一段时间的问题信息数据监控,根据搜集的更多更高密度的数据对问题原因做出判断,如果属于一般应用系统问题,就将相应问题的应对工作加入工作日程,及时排除系统隐患,如果是由于硬件瓶颈导致,就对相关数据做出整合报表并附加解决提案提交公司上级,最终拟定解决方案,以确保服务系统的高可用性和高冗余性。4、 应用服务系统运维管理应用服务系统是公司对外业务的信息平台,也是公司信息化能力的体现,同时也承载了公司内部工作平台,所以平台的持续稳定运行显得十分主要。管理人员要对不同应运服务的服务需求和服务人群有一定的了解,以便于规划网络构架,划分网络资源,定位应运服务的性能。应运服务的运维管理,除了要结合机房硬件日常管理,还要对服务的配置信息进行维护管理。日常巡检是有条件的话要从不同的网域检测服务响应能力,并要定期进入服务操作系统检查应用系统服务配置是否正常、检查日志文件是否有异常报错、检查服务平台操作系统是否流畅。通过对配置信息、故障报错、服务性能的管理,提高服务平台事件的分析处理能力。5、 数据系统运维管理数据系统承载了服务平台的数据功能,它的正常运行和应用服务系统是同等重要的,数据系统运维主要体现在数据服务维护和数据备份两个主要方面。数据库运维服务管理包括主动数据性能管理,快速发现、诊断、解决性能问题,在发现问题是,及时找出性能瓶颈,解决数据库性能问题,并要注意数据库系统的变化,主动预防可能发生的问题,保证数据访问响应能力。数据备份对服务冗余性有着重要的作用,对数据文件做好日常数据增量备份和定期全备份,对重要文件做光盘或移动存储等介质的数据备份,有条件的话将数据进行异地数据备份。在日常工作中要监控备份服务进程、备份情况(起止时间、是否成功、出错告警),出现问题及时处理,恢复数据服务。当用户业务数据需要更新时,要记录更新日期,以便故障发生后尽快恢复数据。备份应用系统数据的同时,也要对运维检修工作进行数据备份,如网络设备配置参数备份、网管系统备份等,当在运维工作中出现配置错误时,可以通过相关备份恢复参数,短时间内恢复网络系统正常运行。6、 信息保密管理运维人员有责任对网络、主机、系统软件、应用软件等的密码、核心参数、业务数据等涉及公司机密、运营管理、近期规划、发展规划的信息负有保密责任,不得随意复制的传播。在进行日常运维工作时,未经上级或相关部门批准,无关人员不得进入机房,如已得到许可的,需由相关人员陪同。7、 日常运维公司日常运维工作分两部分:日常巡检、日常维护。1)日常巡检主要体现在:机房环境巡检、设备巡检、网络传输巡检。机房环境日常检查可以通过机房监控服务器进行远程检查,但同时也要进行人员现场检查和管理。机房应保持整洁并进行定期打扫,不准存放食物,禁止存放杂物和私人用品,严禁存放易燃、易爆、具腐蚀性危险品。机房内设备设施和物品不准任何人随意乱动,配置的常用仪器仪表、工具、资料不得外借带出机房。机房温度应控制在2025之间,湿度为40%60%,密闭防尘。检查机房周边设备,如UPS、空调、消防等设备的正常运行。机房出入应有登记,非工作人员未经许可不得随意进入机房,得到许可方可进入,进入机房不准喧哗、不准吸烟、不准用餐。机房内应配置事故照明装置,以备应急使用。设备日常巡检包括:设备外观检查(硬件完好性、稳定性、告警系统、面板参数标识);接续连线检查(接地线、电源引接线、架间连接电缆、负载连接电路的接续可靠性等);机架内部简单清洁,接续端子除尘、加固等;设备内部软件设置参数检查核对,历史告警信息阅读;设备运行资料核对记录;应用系统日志;设备、线缆标识是否清晰、完整;应用系统磁盘空间、CPU占用情况;各应用系统服务运行状态;数据备份是否正常进行。日常巡检还需要对网络传输设备运行进行状态和网络传输信息进行监控管理。通过对网络设备的外部信息、运行日志、负载状态、配置参数、通信状况、服务功能等信息确保设备正常工作,并实时监控网络计算机接入数量、终端用户上网行为、网络端口传输流量等数据保证网络传输畅通,最终达到保障网络系统正常运作的目的。7.2)日常维护分为应用服务维护、网络维护、办公设备维护。在日常工作中要定期对系统进行优化,检查系统补丁安装情况,查看防毒系统的病毒库升级状态,关闭无用的系统组件和系统服务,检查并修复服务系统错误日志,管理账户密码及用户权限,应用服务配置修改和参数更新,数据系统性能维护,监控备份服务,保障应用服务系统随着公司业务的增涨和改变做出相应的服务更新,并负责网络传输设备的安装、调试、测试,排除网络故障,优化网络性能,预防网络隐患,保障网络畅通稳定的运行。维护工作站出现操作系统、办公软件、软件客户端、病毒入侵、数据误删除、漏洞补丁缺失、网络通断、常见硬件错误等故障现象;打印机、扫描仪、传真机、数码存储产品等出现驱动程序错误、不能打印、扫描、收发传真、数据存储错误、共享错误等影响正常工作的软件故障,最大程度的提供技术支持工作,以保障公司业务的顺利进行。 附表:机房巡检表机房巡检表检查时间 年 月 日 检查人 一、机房环境检查项结论情况摘要检查项结论情况摘要温度正常 异常湿度正常 异常痕迹正常 异常清洁正常 异常异响有 无异味有 无注;痕迹检查地面、墙壁、天花是否有痕迹、水渍,机房内是否有鼠患、蚁、蟑螂痕迹,正常室温:2025二、周边设备检查项结论情况摘要检查项结论情况摘要UPS正常 异常电池组正常 异常空调正常 异常消防正常 异常三、电话交换机,网络设备检查项结论情况摘要电话交换机外线电话正常通话正常 异常内线电话正常通话正常 异常电话交换机正常工作正常 异常网络设备防火墙网络通讯状况正常 异常网络流量大于0%小于2.5% 正常 异常网络交换机数据指示灯状况正常 异常网络通讯状况正常 异常交换机端口及网线状况正常 异常四、服务器检查项提示操作/正常值结论情况摘要备注整体检查硬件故障查看服务器设备故障灯正常 异常故障处理详情补丁是否有新补丁需要测试安装是 否补丁安装详情防病毒病毒库是否升级为最新是 否病毒库日期XXX服务系统事件无错误事件与不明登陆事件正常 异常日志文件设置以及运行正常,数据量正常正常 异常磁盘卷组无处于失效状态的逻辑卷正常 异常 功能 服务器平台正常访问正常 异常远程登陆正常工作正常 异常数据备份最近备份时间: 年 月 日XXX服务器系统事件无错误事件与不明登陆事件正常 异常日志文件设置以及运行正常,数据量正常正常 异常磁盘卷组无处于失效状态的逻辑卷正常 异常 功能 服务器运行情况正常 异常远程登陆正常工作正常 异常服务办公系统正常启动正常 异常数据备份最近备份时间: 年 月 日XXX下服务系统事件无错误事件与不明登陆事件正常 异常日志文件设置以及运行正常,数据量正常正常 异常磁盘卷组无处于失效状态的逻辑卷正常 异常功能远程登陆正常工作正常 异常服务器运行情况正常 异常数据库正常工作正常 异常数据备份最近备份时间: 年 月 日XXX服务系统事件无错误事件与不明登陆事件正常 异常日志文件设置以及运行正常,数据量正常正常 异常磁盘卷组无处于失效状态的逻辑卷正常 异常功能远程登陆正常工作正常 异常服务器运行情况正常 异常数据库正常工作正常 异常数据备份最近备份时间: 年 月 日重要参数维护记录表参数维护发起人姓名事件发起日期事件发起单位/部门联系电话维护人员姓名工作日期维护人员单位/部门联系电话参数修改事由管理部门领导审批意见维护人员具体操作新参数实施测试结果备注:非机房维护人员进入申请表申请人员姓名进入时间进入人员单位名联系电话进入事由陪同人员姓名陪同人员部门备注:外来维护登记表维护人员姓名工作日期维护人员单位联系电话系统当前状态维护对象系统问题来源问题描述解决方法及说明系统运维人员审核意见备注:一、 网络系统运维流程1、 监控指标及SLA管理网络监控工具可以监控网络设备的各种KPI技术参数指标,用来了解设备运行是否正常及详细运行状况。 可对所属网络设备制定监控KPI及其告警级别和阀值。达到重要级别的监控工具的KPI监控告警,将在IT运维综合管理平台中自动生成工单并及时通过短信/邮件通知运维人员。以下为网络监控KPI及其阀值设定示例, 可根据实际情况制定KPI及告警阀值/重要级别: 接口通断告警:启用。 备通信中断告警:启用。 性能告警指标:采集周期(单位:分钟)告警下限CPU利用率1030%内存利用率1060%接口出入利用率1090%入丢包数6020出丢包数6020入错误包数6020出错误包数6020网络系统SLA示例规范,制定符合实际情况的SLA管理指标: 网络严重事件SLA管理:SLA总时间:4小时一级通告时间:4小时,通告对象:网络事件处理一线技术支持,通告方式:短信、邮件二级通告时间:5小时,通告对象:运维人员,通告方式:短信 网络严重变更SLA管理:SLA总时间:24小时一级通告时间:24小时,通告对象:网络变更处理技术支持,通告方式:短信、邮件二级通告时间:25小时,通告对象:运维人员,通告方式:短信2、 配置管理流程利用ITMANAGER网络监控工具自动收集的设备资产信息,以及配置管理员手工录入的设备管理信息、责任人信息及商务信息,形成一个完善的网络设备关联资产配置库,方便各流程对其进行管理及调用,方便资产的信息统计及维护费用统计。日常配置管理运维流程如下:ITMANAGER工具自动收集的设备信息/手工录入的设备信息配置经理审核批准资产配置进入资产库通过审核否是3、 事件管理流程主要用于处理网络日常运维故障,结合变更管理流程可以完全满足目前的运维工作。日常事件运维流程如下:网络系统故障进入运维总协调人运维流程处理自行处理工单是否变更创建关联变更工单提交给变更经理,进入变更流程处理否是处理完毕,将相关文件作为工单附件,关闭工单是否需要运维总协调人处理是否提交一线支持人员处理4、 变更管理流程主要用于对网络系统日常运维工作中产生的设备更换、备件更换、配置更改等变更情况进行审批处理。变更处理流程如下:处理完毕将相关文档作为工单附件,返回工单给变更经理查看变更情况是否复审提交给变更领导进行审批变更实施人员实施变更内容否是变更经理处理是否通过变更经理关闭工单是否通过是否结束并关闭工单否是提交变更申请变更评估员

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论