数据中心运维服务投标方案_第1页
数据中心运维服务投标方案_第2页
数据中心运维服务投标方案_第3页
数据中心运维服务投标方案_第4页
数据中心运维服务投标方案_第5页
已阅读5页,还剩632页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1数据中心运维服务投标方案第一章项目背景及需求分析 第一节项目背景 一、数据中心运维管理现状 二、数据中心运维重要意义 三、解决数据中心运维管理困境的策略 第二节项目现状分析 一、基础设施 二、统一管理平台 三、应用系统 第三节项目需求分析 一、项目概况 二、项目内容 三、服务方式 25四、项目重难点 五、合理化建议 第二章项目整体服务设想 第一节项目运维总体思路 一、运维服务体建设原则 二、运维服务体系总体架构 三、运维服务体系建设内容 2四、运维服务项目框架 第二节运维服务目标与原则 一、总体目标 二、项目目标 45三、工作原则 第三节项目服务内容 一、内容概述 47二、运维分类 三、工作任务 57四、服务策略 第四节运维服务承诺 一、服务内容承诺 二、服务级别承诺 三、服务质量承诺 四、服务保密承诺 第三章项目服务管理体系建设方案 第一节IT服务管理概述 第二节服务水平体系 一、报告服务 93二、管理类服务 93三、主动式服务 四、响应式服务 3一第三节服务管理体系 一一服务支持 95二、服务提供 第四节服务流程设计 一、服务流程之间的关系 二、服务台管理 三、事件管理流程 四、问题管理流程 五、IT资产和配置管理 六、变更发布管理 第五节服务管理措施 一服务管理概述 二、服务流程管理 三、服务台支持管理 四、事件管理 五、问题管理 六、知识库管理 七、配置管理 八、服务记录管理 第六节服务管理规范 、服务时间规范 二、服务行为规范 4三、服务支持规范 四、问题记录规范 五、服务流程规范 第四章项目运维服务方案 第一节运维服务准备 一、签订必要的协议和约定 二、人员准备 三、工具准备 第二节核心设备维保方案 一、原厂维保设备 二、第三方维保设备 第三节数据中心运维整体概述 一、基础环境运维管理 二、网络环境运维管理 三、服务器和存储运维 四、基础软件运维管理 第四节机房基础设施运维管理 一、概述 二、维护职能划分 三、供配电系统 四、UPS系统 五、精密空调系统 5六、新风系统 七、应急发电系统 八、安防系统 九、消防灭火系统 十、相关表格 第五节网络安全运维管理方案 一、安全运维管理要求 二、安全运维管理措施 第六节服务器和存储运维管理 206一、小型机系统巡检 206二、存储系统设备巡检 209三、PC服务器巡检 211第七节基础软件运维管理方案 217一、操作系统 217二、数据库 218三、中间件 220四、备份系统 220五、应用系统 220第八节应急处理服务 221一、服务目的 221二、服务内容 221三、服务流程 2286第五章信息系统运行保障方案 231第一节统一服务台建设 231第二节建立文档管理制度 232一、文档资料管理概述 232二、文档资料管理流程图 232三、文档资源管理的工作程序 233第三节一般信息化设备及相关软件运维管理 237一、一般信息化设备服务范围 237二、一般信息化设备运维 237三、设备例行维护流程图 239四、一般设备服务方案 240第四节防(杀)病毒服务 248一、防病毒服务需求 248二、合理的防病毒策略和安全管理制度 248三、客户端防病毒升级软件 249四、防毒组件及时更新 249五、每周防毒系统部署情况统计 250六、每周对产生的病毒事件进行评估 250第五节信息资产巡检及普查服务 250一、主动巡检 250二、信息资产普查 252第六节其他有关说明及要求 2527第六章项目服务保障措施 253第一节项目过程管理 253一、项目管理 253二、服务管理 254第二节服务方式管理 256一、现场服务 256二、远程技术支持服务 256三、技术培训服务 257第三节项目质量管理 257一、项目质量保证 257二、项目质量控制 258第四节项目沟通管理 262一、正式沟通 262二、非正式沟通 262第五节项目报告管理 263一、项目主要报告文件 263二、项目报告管理流程 265第六节项目风险管理 267一、风险识别 267二、风险描述 268三、风险分析 268四、风险计划 2688五、风险跟踪 269六、风险控制 269第七节备品备件管理 269 269二、适用范围 269三、工作职责 270四、备件采购 271五、备件申请 271六、备件领用 272七、备件借用 272八、备件维修 272九、备件入库 273十、备件出库 273十一、备件库盘点 273十二、备件处置 274第七章项目应急服务方案 275第一节突发灾难应急措施 275一、应急措施体制图与总则 275二、突发事件应急流程 276三、预防措施及处理办法 277四、大型灾难紧急行动方案 277第二节运行服务应急方案 2829一、启动应急流程 282二、成立应急小组 285三、应急处理过程 285四、应急处理结果评估 287五、统计和报告 287第三节网络安全事件应急预案 289一、总则 289二、组织体系与职责 293三、应急响应 295四、信息管理 五、后期处置 六、保障措施 七、预防工作 304八、附则 304第八章项目管理组织机构 314第一节服务组织设计 314一、组织架构 314二、组织原则 三、人员配备 四、岗位职责 第二节人员管理制度 324一、人员素质能力 324二、人员考核制度 三、人员离岗审批 四、保险福利待遇 第三节人员培训方案 一、培训需求与目标 二、培训策略 三、项目培训计划 简介本方案为数据中心运维服务项目,全文采用宋体四号字体,共337页。本文档为WORD格式,清晰无水印,可直接编辑。第一章项目背景及需求分析:涵盖项目背景、项目现状分析、项目需求分析等内容。第二章项目整体服务设想:涵盖项目运维总思路、运维服务目标与原则、项目服务内容、运维服务承诺等内容。第三章项目服务管理体系建设方案:涵盖IT服务管理概述、服务水平体系、服务管理体系、服务流程设计、服务管理措施、服务管理规范等内容。第四章项目运维服务方案:涵盖运维服务准备、核心设备维保方案、数据运维整体概述、机房基础设施运维管理、网络安全运维管理方案、服务器和存储运维管理、基础软件运维管理方案、应急处理服务等内容。第五章信息系统运行保障方案:涵盖统一服务台建设、建立文档管理制度、一般信息化设备及相关软件运维管理、防(杀)病毒服务、信息资产巡检及普查服务等内容。第六至八章:涵盖项目服务保障措施、项目应急服务方案、项目管理组织机构等内容。特别提醒:请在编制时依据项目实际情况,调整内容。第一章项目背景及需求分析第一节项目背景一、数据中心运维管理现状大数据时代作为时代发展的机遇出现在大众视野,但是也是作为挑战逐步渗透在行业的数据中心运维管理中。以计算机技术为依托的数据中心运维管理的显著特点就是大规模的数据流量,正在不断与原有的数据中心架构产生冲突。目前,大数据时代的数据中心运维管理的先进意识已经深入人心,但是实际项目操作过程中会有众多的问题出现。因为在磨合期,所以现有设备不能满足大数据时代的数据中心管理要求;运维管理人员的没有经过大数据时代新的运维管理思路的熏陶,技术水平与之不匹配;还有就是数据中心的运维管理制度不都完善,相应的管理水平不高。二、数据中心运维重要意义1.通过机房设备维护保养可以提高设备的使用寿命,降低设备出现故障的概率,避免重特大事故发生,避免不必要的经济损失。设备故障时,可提供快速的备件供应,技术支持,故障处理等服务。2.通过系统的维护可以提前发现问题,并解决问题。将故障消灭在萌芽状态,提高系统的安全性,做到为XX单位排忧解难,减少XX单位人力、物力投入的成本。为机房内各系统及设备的正常运行提供安全保障。可延迟XX单位设备的淘汰时间,使可用价值最大化。3.通过引入专业的维护公司,可以将XX单位管理人员从日常需要完成专业性很强的维护保养工作中解放出来,提升XX单位的工作效率,更好地发挥信息或科技部门的自身职能。4.通过专业的维护,将机房内各设备的运行数据进行整理,进行数据分析,给XX单位的机房基础设施建设、管理和投入提供依据。5.随着信息化的不断发展,IT基础设施规模也越来越庞大、结构变得相对复杂,而数据中心对IT基础设施的管理主要以手工为主,对基础设施故障的管理处于被动救火的状态,故障分析速度慢,根源定位难度大,基础设施更新换代、扩容建设缺乏科学性能评估依据,难以应对业务系统安全运行保障要求。三、解决数据中心运维管理困境的策略针对目前数据中心运维管理的困境,主要解决策略如下:(一)提升运维管理人员的整体能力基于目前数据中心运维管理工作人员的实际能力,通过采取以下积极的措施来提升运维管理工作人员的综合能力水平。1.大数据背景下,强化数据中心运维管理人员的技术应用水平:通过多维度的检验途径,比如定期检查该技术的理论与实践水平确定工作人员的当前能力,在制定符合目前技术短板的相关培训,从而保证运维管理工作的顺利进行。2.加强管理方面的知识渗透:在加强数据中心运维管理人员的技术应用水平的前提下,可以加强管理学知识的渗透,为技术团队的整体语言表达能力的提升以及为管理层储备后续力量,既懂技术又懂管理的新世纪人才,有助于数据中心运维管理工作更加高质量地完成。3.加强工作人员执行力,更高效地完成工作:在数据中心运维管理的众多评价标准中,执行力是影响一个团队整体运作能力很重要的一个指标,良好的执行力可以保证时间段内的工作目标提前完成或者超量完成。(二)强化业务管理工作和业务培训工作现如今,科学技术的更新速度往往超出人们的接受速度,在数据中心运维管理这个领域也同样适用。所以使得运维管理人员刚刚熟练掌握新的运维既能并熟练应用,新的技术又刷新了行业应用领域。所以设立专门的培训机构,强化管理人员终身学习的意识,紧跟时代发展的脚步。1.制定合理的业务培训和业务管理培训计划:科学合理的方案总能给予人们正确的指导,并保证在规定期限内达到既定目标。运维管理培训和业务培训的内容要与时俱进,不断为管理人员灌输新的知识,为运维管理的工作融入新鲜的血液。2.合理安排培训时间:运维工作人员在企业内是员工,男性员工在家庭里是儿子,是丈夫,是爸爸,所以要协调好培训的时间,保证员工能充分解决员工之外的各种事情,全身心地投入工作。3.使业务管理和业务培训的形式呈现多元化:公司管理层应加强与行业内部各组织间的联系,比如同专业的大学、同行业资深专家、专业讲座等等。通过多元形式的学习加深对行业发展的了解,并积极促进管理人员的专业素养。4.定期进行培训效果的考核:(1)在定期进行学习之余,为检验学习效果是否达到预期目标,应适时进行检验,进一步促进运维工作人员的学习质量的提升,提升其主观学习的动力。(2)强化对运维工作人员的业务培训,能够有效地对运维工作者的维修技术进行与时俱进的培训,能够有利于运维管理工作人员进行数据中心运维管理工作的开展,最终有利于信息技术飞速发展下的运维工作的稳定进行。(三)加强了解整体行业环境的意识有些企业的运维管理的硬件设施和软件配备欠缺,造成整体的管理水平低,是因为企业没有采取相应的举措保障。以下将详细讲述如何提升整体行业环境的了解。1.在企业内订阅与本行业相关的杂志和报纸,并且做到人手一份,从而能够为运维人员了解本行业的发展状况提供便利的条件。2.定期组织团队中的成员进行行业发展前景的探讨,在探讨交流的过程中了解当下运维管理工作的总趋势,从而能够为运维工作的有效进行提供有价值的参考意见。3.鼓励运维员工在各种级别的刊物上发表论文,并且将其发表论文的质量和所发杂志的权威性进行评估,与其的个人职业发展紧密联系起来,从而能够对其关注数据中心运维管理工作的关注起到积极的促进作用。强化了解和分析业务环境的意识,能够有利于运维管理工作人员有行业的危机意识和行业的发展意识以及个人职业规划意识的提升,最终有利于大数据时代数据中心运维管理工作的顺利开展。第二节项目现状分析(根据项目实际情况添加)一、基础设施数据中心建有大小二个机房,大机房XX平方米,主要存放网络设备、安全设备、存储及业务系统服务器;小机房XX平方米,主要用于XX业务服务器的托管。另外配备一个XX平方米的运维室,能对机房各类设备进行环境及运行状态的监控。完成了一个安全保障系数较高的专用机房及传输性能良好网络系统。在机房建设中,完成了摄像监控、自动报警、高可用集群管理及KVM等技术。对进出机房的人员进行严格控制,对非物理性的系统维护只要在监控室就能进行;对系统运行进行及时监控,发现问题及时报警;对机房内的所有服务器进行分类,并进行高可用集群管理,可以为数据中心正常运行提供可靠保障。完成了数据中心和其他相关部门单位之间互联互通的专用网络,并采用SSLVPN隧道技术,确保传输数据的安全保密。同时用万兆核心交换机与XX外网进行连接,满足大流量数据业务的应用。完成了系统安全设备配置和管理制度的建设,在机房内建设了冗余网络:双交换机、双防火墙、双路由等冗余设备,满足应急响应。我们还配置了防火墙、入侵检测、高强审计、漏洞扫描等安全产品,将为数据中心的安全运行提供高可靠的保障。二、统一管理平台统一管理平台及用户登录界面、数据管理、数据备份、安全监控等子系统于一体。对内是运维人员的操作平台,对外是各部门业务人员的操作界面。近年来为适应业务发展的需求,XX单位进行了大规模的信息系统建设,包括采购桌面PC约XX台,打印机约XX台,这些应用系统及硬件设备的投入使用极大地推动了XX单位信息化建设的进程。随着XX单位对整体IT系统(硬件、软件、网络通信…)的可用性要求日益提高,系统运行保障和维护管理就成为确保业务系统安全稳定可靠运行的最有力的手段。XX单位主要有一栋XX层的办公环境,现阶段对设备维护主要采用自主维护的方式。由于人力有限,建设任务繁重,中心技术人员在接手新项目及日常工作的同时往往需要做大量的维护工作,不少技术人员长期处于满负荷,严重影响了工作效率。在当前有限的人力物力资源下,为了保障和提高工作质量,XX单位有必要将计算机、外设及网络的运行维护进行外包,派驻XX名工程师进行维护,以解决当前数据运维服务各方面日益增长的需求和有限的提供能力之间的矛盾,提高XX单位办公区域内的软、硬件、业务应用软件的运行维护效率,确保信息系统正常运行。三、应用系统数据管理子系统可以提供高效可靠的数据服务。它可以对分布在不同部门不同系统中的异质异构的数据进行抽取、转换,形成统一的数据集。它可以向用户提供数据服务,直接从数据中心获取所需要的数据信息,从而达到数据信息共享的目的,有效地解决前电子政务存在的信息孤岛。为数据共享打下基础,使信息数据发挥更大的应用价值。数据备份子系统为各单位提供数据备份空间,实现数据备份管理、保障数据安全。备份系统可以全自动地在规定时间对各单位在当天需要备份的系统进行有针对性地备份,不需要人工参与。数据中心还可以为各单位提供服务器托管、帮助他们解决没有合格机房的现实困难。同样为托管系统做好备份。备份系统具有三大类的备份功能:镜像备份、增量备份、全量备份等备份。系统可以对损坏的系统在最短时间进行恢复备份数据通过SSLVPN的加密传输,保证了传输过程中不被截取。安全监控平台系统是对网络进行安全监控,提供设备管理、策略管理、病毒与漏洞管理、安全事件管理、告警管理、安全审计、安全态势分析等多种技术手段,实现对XX信息系统的统一安全管理。建成的安全监控系统能对各单位的信息安全事件进行统一的自动监控和管理,并为各单位提供各类信息安全服务。第三节项目需求分析(各单位根据项目实际情况进行描述)一、项目概况本次采购的主要目的是解决XX单位XX数据中心的需要,以便于XX单位更好地从事日常工作。其主要目标是为了XX能够满足其需求的数据运维服务,解决其现实的需要;提高XX单位分析和运用数据的能力,最终是为了XX单位自身能够解决其实际需要,并能够更好地服务于XX单位的工作生活。二、项目内容(一)核心设备维保服务方须应严格按要求做好核心数据相关设备的维保维护服务(服务期为XX年)。对要求原厂维保设备,服务方应及时协调设备原厂商予以维修,并监督维修时效和质量。对第三方维保设备,应设置备件库,如需更换配件,应及时联系提供维保服务的第三方维保服务商,严格按照响应时间要求提供相关配件。所需配件购置费用由服务方承担。如设备需要整机维修,服务方须在响应时间内提供同等性能的备机,并及时恢复运行。机柜名称数量品牌型号质保年限备注(二)数据中心运维服务1.服务器运维服务:定期对服务器运行状态进行检查和分析,完成巡检报告;对服务器故障提供远程支持,修复故障,提供故障报告。标签制作、粘贴;线路整理;磁盘检查;逻辑卷空间调整;设备日志检查;周期性日志清理;日常维护报告。(2)设备巡检:设备性能分析;完善、改善性建议;巡检报告;(3)故障处理:故障的排查、分析;故障的排除、恢复;确认排除、恢复的结果;设备硬件报修及跟踪处理;故障处理报告;故障硬件或模块更换。(4)升级:主板BIOS版本检查与更新;设备操作系统版本检查与更新;设备驱动检查与更新;设备硬件升级改造方案制定;设备硬件升级改造方案执行。(5)性能优化:分析性能瓶颈;优化措施制定;优化措施执行。1)设备错误日志分析。2)提供XX单位虚拟化架构,虚拟化备份资源划分、使用率情况说明。2.存储运维服务:对磁盘阵列、光纤交换机、备份存储设备等,定期进行运行状态检查和分析,完成巡检报告,对存储故障提供远程支持,修复故障,提供故障报告。设备告警检查;存储介质可用性检查;存储设备线路整理;日常保养报告。(2)定期巡检:设备可用性检查;性能检查;巡检报告。(3)故障处理:故障的排查、分析;故障的排除、恢复;确认排除、恢复的结果;设备硬件报修及跟踪处理;故障处理报告;故障硬件或模块更换。(4)监视监控:存储设备状态检查;存储设备连通状态检查;存储阵列状态;硬盘物理状态;硬盘逻辑状态;热备盘接管状态;磁盘通道状态;主机通道卡状态;电源模块状态。3.虚拟化运维服务对VMware超融合、虚拟化平台软件运行状态进行检查和分析,完成巡检报告;对平台软件故障提供远程支持,尽快修复故障,提供报告;针对平台软件运行情况,给出优化建议并实施,提升性能;根据业务发展趋势,评估应用当前性能,提出性能建议。虚拟机的架设;虚拟机的回收;虚拟机相关资源配置。(2)系统巡检:平台软件运行状态进行检查和分析;平台逻辑链路进行检查和分析;根据平台运行情况给出优化建议;对虚拟机运行过程中产生的临时文件进行处理;完成巡检报告。(3)故障处理:平台软件故障提供远程支持;虚拟机系统故障和问题进行分析和排除;虚拟机网络故障和问题进行分析和排除;平台底层问题排查处(4)升级:虚拟机底层固件版本升级;虚拟化平台管理工具升级。(5)数据迁移:1)基于虚拟系统应用数据迁移;虚拟资源规划调整跨数据分区数据迁移;基于虚拟化平台不同设备之间的数据迁移。2)为保证与其他软硬件设备维保服务的时间的一致性,本次为虚拟化软件采购原厂商一年7×24基本支持和订购服务。服务内容包括免费的版本升级和专业的售后服务专线支持,其中关键问题响应时间不超过XX小时,主要问题响应时间不超过XX小时。3)虚拟化软件包含用户已采购的VMware虚拟化软件,当前采购授权数量为vcenter1套,vsan28CPU。需提供VMware原厂商一年续保服务承诺函。4.数据备份与检查:(1)服务方为XX单位核心业务系统制订备份管理策略,部署和实时数据备份工作。(2)服务方应定期对核心数据备份情况进行检查确认,确保所有备份任务正常运行,对发现未正常完成的任务应及时排查解决并做好登记。(3)根据XX单位现有的虚拟化备份系统,每年至少进行XX次抽取XX台虚拟机进行恢复测试验证。5.核心业务系统梳理:(1)建立XX单位核心信息系统档案,包含系统名称、上线时间、开发厂商、主要功能、负责人、服务对象等信息。(2)服务方负责整理《XX单位核心业务系统梳理表》,定期更新表上包括应用服务器IP、用途、数据库服务器IP、主管部门、安全保护等级、业务联系人、系统状态(在用/停用)、运维公司等信(3)服务期结束后应提供最新的《XX单位核心业务系统梳理表》。(4)服务方需提供重要系统业务逻辑相关梳理分析工具,工具需支持主流的windows及linux系统,能够通过相关配置文件设置数据采购频率及周期(提供配置截图),自动监控记录重要系统业务访问情况,并将采集结果汇总报告输出到文件(提供输出报告样本同时结果可作为访问控制策略优化的参考,工具采集内容包括:系统进程名称、源IP地址、目标IP地址、系统访问协议、业务连接状态等(提供工具运行界面截图包含进程名称、源IP地址、目标IP地址、系统访问协议、业务连接状态)。6.安全通告服务:定期为XX单位推送最新的安全漏洞和趋势发展,通告内容包括但不限于:(1)主机系统漏洞安全通告。(2)中间件、应用漏洞安全通告。(3)安全设备漏洞安全通告。(4)病毒安全预警通告(最新流行、严重病毒发展趋势及应对措施)(5)其他安全威胁通告(最新严重的安全威胁分析及预防措施)安全通告服务技术人员要求具有个人CNVD原创漏洞证明,投标时提供技术人员姓名、联系电话、照片、身份证复印件及证明复印。为保证服务连续性,服务方未经用户同意不得擅自变更服务技术人7.数据咨询服务:对XX单位核心数据生命周期的安全规划、设计、实施、运维等各个阶段提供网络安全咨询服务,提供风险规避建议及根据客户需求提供解决方案。咨询内容包括但不限于:(1)系统安全漏洞咨询。(2)安全体系建设咨询。(3)安全设备策略配置咨询。(4)安全项目规划及建设咨询。(5)日常安全体系管理咨询。(6)XX单位反病毒事件安全问题咨询。安全咨询服务技术人员要求具备CISP和CISSP证书,投标时提供技术人员姓名、联系电话、照片、身份证复印件及证书复印。为保证服务连续性,服务方未经用户同意不得擅自变更服务技术人员。三、服务方式为保证XX单位各系统的稳定可靠的运行,要求提供三种方式的技术支持服务,分别为:现场服务、远程技术支持服务、技术培训服(一)现场服务对XX单位信息系统进行现场维护和巡检,运维工程师对各个系统(服务器、存储、虚拟化及备份等系统)完成定期巡检,每个月输出XX次巡检报告提交给XX单位。(二)远程技术支持服务远程技术服务主要是通过电话或其他方式受理客户和运维工程师的疑难问题,通过沟通来指导XX单位解决问题,同时远程技术服务工程师还通过电话或者其他方式与XX单位主动沟通来提高XX单位管理和运维能力。(三)技术培训服务为提高XX单位运维人员的技术水平及运维管理能力,提供丰富实施经验的技术专家定期对用户进行相关专业(虚拟化、主机存储等)培训。四、项目重难点(根据项目实际情况修改)随着XX单位IT架构的不断扩展,网络设备、安全设备、服务器等数量增多,加之虚拟化云架构的出现和普及,数据中心的复杂程度越来越高,运维管理的复杂程度急剧攀升,一个稳定且高效的数据中心运维管理软件可以为政企的管理和发展提供强大的支持。(一)数据中心运维监控故障难定位、流程混乱无统一规范数据中心中设备需要长时间,不间断,低能耗,安全可靠的运行,一旦发生故障,需要快速定位,及时准确处理,通知业务相关部门,这一切对于运维人员都是巨大的压力。本公司的运维监控管理平台集成了从故障发现、到工单处理、处理反馈等为运维系统提供了一个完整的不管提升的流程处理机制。(二)网络和数据中心管理IT运维成本高,如何高效可控?一边是XX单位信息化需求下不断增长的IT支出,一边是不断缩减的IT预算。IT系统越来越庞大,人员却没有增加,人力资源投入导致运作成本的增加。对于设备产业管理不到位,导致资源没有得到合理地使用。如何高效、有序、可靠地管理整个计算机网络系统,对信息中心的正常运作尤为重要。(三)对运维监控管理平台人员能力要求高,如何保障业务稳随着经济的发展,IT设备也随之更新和增加,如果用传统的维护方式就会浪费大量的人力物力,同时,如果IT运维人员没有系统的知识体系,就会导致XX单位的IT相关工作面临极大的危机和隐患。在日常的运维工作中,IT运维人员多在被动地处理已发生的故障,这会影响XX单位整体的运行,如果稍有不慎,甚至会集中爆发出一系列问题。如何在有限的投入下尽快建立高效、规范的统一运维管理平台,实现以业务为核心的监控管理系统,从而提高信息部门的运维管理水平,改善单位IT系统的运行质量,为单位打造核心竞争力提供助力,已经成为当前信息部门面临的重要问题。五、合理化建议(一)集成化整体本公司数据中心运维监控管理平台的开发使用户通过运维监控管理平台能很方便地了解到当前整个网络和数据中心管理情况和当前用户所关注的网络设备、服务器、存储、数据库、中间件、网页服务、链路、业务系统的当天信息和历史信息,以便从多方面了解网络的历史和实时运行情况。对于用户管理比较复杂的网络环境与服务系统提供了方便,在运维监控管理平台的展示中就可以看日常工作时关注的网络对象的情况,而且操作步骤简单,易于用户接受的整体监控。(二)多元化一览数据中心运维监控管理平台支持对多种网络设备集中管理,可跨厂商、跨平台,有良好的扩展能力,同时管理大量网元数,支持灵活的分布式部署。运维监控管理平台对符合SNMP标准协议的设备支持全网自动发现。一览监控提供对IT设备的资源管理、性能监控、故障定位、数据分析、产业管理、可视化展现等做到实时监控,将运维监控管理平台设备运行情况一览无余,构建网络和数据中心管理,全面提高用户管理水平。(三)动态化视图本公司统一运维管理平台动态可视化拓扑图,系统自动生成网络拓扑,直观掌控全局。实时掌握运维监控管理平台环境中各种资源的当前分布与设备运行情况,提供丰富的图形化视图和便捷的布局模式,满足用户各种场景的拓扑展示,将复杂的网络关系以最简明、直观的方式呈现。并能通过颜色策略、动态流量、告警提示变化来表示每个资源的异常等级,做到故障快速定位,帮忙IT运维管理人员快速掌握全局网络和数据中心管理状况。(四)智能告警监控数据中心运维监控管理平台可以满足运维人员不同时间段不同监控的需要。故障管理将违反阈值的指标,通过客户端,邮件,短信,微信,声光等多种方式,告知运维人员进行及时响应,并在网管故障中进行统一展现,将触发的告警信息按照告警的类型、级别、地域、时间等多维度进行智能分类,并提供知识库,方便用户对所有的异常信息进行受理和诊断。同时结合ITIL流程理念,可与本公司ITSM流程进行实时联动,故障产生后可快速在ITSM流程中生成请求工单,方便用户建立规范,IT服务。(五)详细化报表管理统一运维管理平台集中展示当前系统中已订阅的报表,自动定时发布所形成的日报、周报、月报、年报以及指定时间段的业务报表,可以对具体内容进行查看与配置,运维监控管理平台支持自定义报表类型,以及报表的查看权限,方便共享使用,且支持excel、PDF格式的导出便于发布和提交,供领导查看。(五)三维机房管理数据中心运维监控管理平台通过3D立体化模拟机房,以直观、交互易用的实时数据对接方式,运维监控管理平台将机房动力环境的温度、湿度、烟雾、漏水、电源、气体浓度、红外、门禁、摄像头监控系统、空调及UPS等机房动力环境监控与管理。统一运维管理平台与网络环境的IT资源机柜拓扑联动,完整集成到机房管理中进行全面监控、打造网络和数据中心管理信息。(七)IT流程管理系统数据中心运维监控管理平台以ITIL/ITSM为核心实现工单管理规范和自动化统一运维管理平台,将运维监控管理规范化为一系列标准流程,包括服务台、告警管理、问题管理、变更管理服务进行规范定义,简化告警处理流程,提高运维监控管理水平。对工单类型、状态、申告人进行展示管理,实现工单派发,直接在工单列表进行工单处理、工单扭转、工单关闭等过程的规范和自动化,以图形的形式,实时记录全部的操作流程,展示工作的流向顺序,明确流程管理责任,提高网络和数据中心管理工作效率。(八)实用与便捷的知识库数据中心运维监控管理平台提供内建的知识库,同时支持用户多分级多分类的知识体系建立,在系统上快速构建自己的知识库,知识库是为了逐步建立和完善告警处理和性能分析的知识,记载对不同告警情况的不同处理手段以及对异常的能指标所采取的优化措施,以供查询、共享经验,为维护人员处理告警、性能分析提供辅助分析决策,可进行快速查看知识,自动解决问题,减少运维人员的工作压力。(九)全生命周期管理数据中心运维监控管理平台统计企业所有设备硬件及软件产业,将众多IT设备信息整合,高效统一运维管理企业设备资源,展现硬件、软件以IT服务之间的逻辑关系。清晰查看其相互之间的父子依赖关系。统一运维管理平台记录设备产业上线、维修、申领、报废、借出、报废、合同信息、维护商等产业数据管理进行系统化管理,并详细记录每个设备的使用情况和各种状态变更记录,如维修的次数、借出、使用人员变更等,掌握产业走向,避免产业走向不明。(十)摄像头运维监控管理平台本公司的智能摄像头管理是业界首创的真正以运维人员的需求和设备运行维护保障的视角出发,统一运维管理平台将整合跨厂商跨平台的管理模式,将分级下属的摄像头设备进行统一展现和管理,摄像头设备的运行情况,统计概括,根源分析,以全局管理帮助用户进行网络和数据中心管理和分析。运维监控管理平台做好事前预防、事中根源分析找到问题源头、事后统计分析。运维监控管理平台确保摄像头设备正常使用和运行维护状况,对网络和数据中心管理进行有效管理,保障摄像头监控业务的可靠连续和高质量运行。第二章项目整体服务设想第一节项目运维总体思路一、运维服务体建设原则本项目运维服务体系建设的原则有以下几个方面:1.以完善的运维服务制度、流程为基础。为保障运行维护工作的质量和效率,制定相对完善、切实可行的运行维护管理制度和规范,确定各项运维活动的标准流程和相关岗位设置等,使参与本项目服务的运维人员在制度和流程的规范和约束下协同操作。2.以先进、成熟的运维管理平台为手段。通过建立统一、集成、开放并可扩展的运维管理平台,实现对各类运维事件的全面采集、及时处理与合理分析,实现运行维护工作的智能化和高效率。3.以高素质的运维服务队伍为保障。运维服务的顺利实施离不开高素质的运维服务人员,我公司将不断提高运维服务队伍的专业化水平,有效利用技术手段和工具,做好各项运维工作。二、运维服务体系总体架构运维服务体系由运维服务制度、运维服务流程、运维服务组织、运维服务队伍、运维技术服务平台以及运行维护对象六部分组成,涉及制度、人、技术、对象四类因素。制度是规范运维管理工作的基本保障,也是流程建立的基础。运维服务组织中的相关人员遵照制度要求和标准化的流程,采用先进的运维管理平台对各类运维对象进行规范化的运行管理和技术操作。1.运维服务制度和流程:为确保运维服务工作正常、有序、高效、协调的进行,需要根据管理内容和要求制定一系列管理制度,覆盖各类运维对象,包括从投产管理、日常运维管理到下线管理以及应急处理的各个方面。此外,为实现运维服务工作流程的规范化和标准化,还需要制定流程规范,确定各流程中的岗位设置、职责分工以及流执行过程中的相关约束。2.运维服务组织和队伍:针对本项目我公司将根据其运维服务工作的内容和流程确定各项工作中的岗位设置和职责分工,并按照相应岗位的要求配备所需不同专业、不同层次的人员,组成专业分工下高效协作的运维队伍。XX负责数据XX级集中处理的应用系统和本机构开发的应用系统部署和运行维护,承担辖内网络的运行管理。辖内各部门人员承担本行系统运行维护和故障处理。3.运维服务工作流程:为保障运行维护体系的高效、协调运行,应依据管理环节、管理内容、管理要求制定统一的运行维护工作流程,实现运行维护工作的标准化、规范化。其环节包括事件管理、问题管理、变更管理和配置管理。4.运维技术服务平台:运维技术服务平台包含实施运行维护和技术服务的各种手段和工具,通过技术手段固化标准化的流程、积累和管理运维知识并开展主动性运维工作。三、运维服务体系建设内容1.运维管理制度建设:总结现有的运维管理经验,遵照国内外相关运维标准,结合目前的实际情况,统一制定运维管理制度和规范。通过定期和不定期的检查,促进各项制度规范在XX数据中心的贯彻落实,从而建立起全辖统一、规范的运行维护管理工作方式。同时,随着XX单位信息化建设的不断发展,也要确保各项制度的及时更新。制度体系内容要涵盖机房管理、网络管理、资产管理、主机和应用管理、存储和备份管理、技术服务管理、安全管理、文档管理以及人员管理等类别。各类制度具体内容因需要而定,如网络管理制度需覆盖网络的接入管理、用户管理、配置管理及网络日常运行管理和应急处理等。安全管理制度需覆盖包括机房设施、网络、主机、数据库、中间件、应用软件、数据信息的安全管理、其他机密资源和人员的安全管理以及安全事件的应急处理等。2.运维技术服务平台:运维技术服务平台由运维事件响应中心、运维管理系统、运维知识库和运维辅助分析系统构成平台采用XX级、XX级分布式管理模式,在采购单位各下属部门分别部署。(1)整合IT监控平台:1)将XX数据中心的监控数据交换到运维事件响应中心、运维流程管理系统、运维知识库、运维辅助分析系统,支撑运维体系。2)采购单位下属部门向数据中心传送的信息包括:网络管理、主机管理、数据库管理、存储备份管理、中间件管理、应用系统管理的相关信息,报表系统产生的设备资产、运行性能和运行事件报表,事件告警机制产生的关联和上报信息;各部门和XX数据中心之间传送的管理信息为网络管理信息。(2)运维事件响应中心:负责客户端运行和应用系统问题的接收及转发的部门是各级科技部门。问题接收分为网络响应和电话响应两种方式,对于响应人员无法当场解决的问题,转发到运维部门的相应岗位,并向用户反馈解决情况。对于分行级数据中心运维难以解决的问题,上报总行并配合总行进行问题的解决。同时,实现问题库的维护、解决情况的反馈、解决方案的查询等功能。(3)运维服务管理系统:运维流程管理系统的建立,可以使日常的运维工作有序化,职责角色清晰化,能够有效地提高解决问题的速度和质量,使运维部门内的相关支持信息更为畅通、透明、完整,实现知识的积累和管理,更好地进行量化管理和设定优化指标,进行持续的服务改进,最终提高整个运维工作的效率和质量。(4)运维知识库建设:1)知识库建设是某银行信息系统运维体系的重要组成部分,基于统一的技术支持平台,通过整合总行、分行数据中心、合作单位和协作厂商的技术资源和解决方案,实现对全行有效的技术支持工作。2)运行维护知识库由知识库平台和知识库内容两部分组成。知识库平台包括知识检索、知识维护与管理等,可以通过纯Web方式向服务请求对象提供基于Web的查询服务和检索服务,以完全共享知识库中的知识,在提供Web服务时,还可通过响应中心平台来及时地响应用户请求的服务。(5)运维辅助分析系统:以日常监控平台、运维响应中心、运维流程管理系统为基础,通过统计分析,了解运维服务能力与服务质量的现状,并可以进行趋势分析,为运维管理决策提供支持。3.运行维护管理流程:为加强对信息系统的运行维护管理,确保运行维护体系高效、协调运行,应依据运维管理环节、管理内容、管理要求制定统一的运行维护工作流程,实现运行维护工作的标准化、规范化和自动化。通过建立运维管理流程,可以使日常的运维工作流程化,职责角色更加清晰,从而使解决问题的速度和质量得到有效提高,实现知识积累和知识管理,并可以帮助运维部门进行持续的服务改进,提高服务对象的满意度。运行维护流程包含的环节有事件管理、问题管理、变更管理及配置管理。(1)事件管理:1)所谓事件,是指发生的对IT体系某一环节运行造成影响的事件,包括系统崩溃、软件故障、任何影响用户业务操作和系统正常运作的故障,以及影响业务流程的情况,事件也包括一个用户的请求。2)对日常性运维工作中出现的突发事件(即日常运行维护管理平台自动发现并产生的告警事件)和由用户/维护人员报告的事件会转入事件管理流程。问题是指导致事件产生的原因,许多事件往往是由同一个问题引起的。问题的来源主要有以下几种:1)已经处理的事件,经过回顾分析后,可能形成一个问题;2)重大事件,虽然经过紧急处理恢复服务,但未找到根本原因,也形成一个问题;3)对于趋势性事件的分析,并形成问题。问题管理流程可以按照不同领域的问题(如网络、主机、中间件、数据库、应用等)由相关领域的技术支持专家来处理。原则上这些专家可以是二线支持专家,他们在负责接收来自一线支持人员的支持请求的同时,也负责对以往事件进行分析,找出事件产生的根本原因,从而确定解决方案,消除这些根本原因,最终使此类事件不再发生;另一方面,也要从发生的事件中找出事件的发展趋势或潜在可能发生的问题,主动提供预防性措施,提高系统可靠性,降低运维成本。问题管理流程着重于消除事件或减少事件发生,确定事件的根本原因,其流程如下:首先,定期分析事件,找出潜在问题,调查问题以找出其原因,制定解决方案、变通方法或提出预防性措施,以消除产生原因,或在事发时使其影响力最小化。其次,记录解决方案、变通方法、预防性措施,根据需要添加到知识库中。再次,提出变更请求,对问题的解决方案进行评估,通过提出变更请求以对该方案进行测试和实施。最后,问题必须进行事后回顾以找出改进机会或总结预防性措施,包括改进事件监测、找出技能差距和文档资料改进等。(3)变更管理:变更请求通常由于问题的解决方案中需要对生产环境进行某些改变而产生,变更请求来源于问题管理环节或由用户提交。变更管理通过一个单一的职能流程来控制和管理整个信息系统运行环境中的一切变更,范围可包括软件,硬件,网络设备和文档等的变更,其流程如下。1)由用户或问题管理环节的维护人员提出变更申请,由运维负责人检查和完善其内容,并进行风险等级、优先级的初步评估。2)通过分类,确定是否为重大变更、紧急变更,如果是常规变更请求,则由运维负责人安排实施;如果是风险等级为“重大”的变更请求,则应上报变更管理小组。3)根据特定的变更请求成立特定的变更管理小组,成员包括对该变更申请有批准权的人员、对该变更的评估和批准提供参考意见的技术人员和管理人员。评估内容包括变更的技术可行性、对系统性能的影响、对现有服务的影响、对资源的需求等。4)变更管理小组评估后决定是否批准变更申请。变更请求得到批准后,运维负责人安排相应资源进行变更的计划、测试,并制定实施方案,确定实施时间表,分配相应资源,通知请求人。5)相应岗位实施变更,运维负责人监视实施过程,并在必要时进行协调。6)定期回顾变更管理流程以提高效率和效能,在实施变更流程不久之后,可以进行第一次回顾,以确保流程得到正确实施并达到预期目的。对发现的问题必须追根溯源并尽快解决,之后可以定期举行(4)配置管理:配置管理是服务管理的一个核心流程,能确保应用系统及其运行环境中所有IT设备/系统及其配置信息得到有效完整地记录和维护,包括各IT设备/系统之间的物理和逻辑关系,从而为实现有效服务管理奠定基础。配置管理流程着重于管理生产环境中所有必须控制的组成元素,并为其他相关流程(如事件管理等)提供信息,使这些流程更有效地运行,从而确保应用系统环境的完整性和稳定性,其主要流程内容如1)识别和维护配置元素:确定需要进行配置管理的元素及所有必须的配置属性,并指明与生产环境中其他配置元素之间的关系。对配置管理数据库提供日常维2)配置状态汇总:根据需要定期产生配置管理报表,并能使相关人员进行相关配置的提取、查询,定期产生配置项的状态报告,并能反映配置项的版本和变动历史。3)审计和确认:定期审核全部或部分配置数据库中的配置项,确认其和物理环境的一致性,从而确保配置信息的完整性。4)计划、回顾和改进:定期制定计划(如半年),以明确下阶段配置管理工作;定期回顾流程和审核结果,找出需要改进的配置项。5)配置管理数据库(CMDB配置管理数据库由配置识别活动来定义,配置识别活动不但要定义配置项,还需定义配置结构及配置项的相互关系。4.运维项目管理流程:项目管理模块主要管理IT项目整个生命周期从立项准备、立项、采购、实施、验收、收尾各个阶段的任务和参与人。从功能上理解项目管理类似于发布管理流程,即总行部署的应用系统分行仅需要展开实施和验收工作即可,而分行自建项目是一个完整的项目管理流程。(1)系统开发:开发管理流程需要进一步完善和标准化,特别是文档管理、测试和版本管理方面需加强。同时,加强开发计划管理,在《开发项目管理规范》中明确要求:根据立项内容进行系统、全面的需求调研,提出短期和长期的开发计划,并编写需求分析报告。根据需求分析报告对系统进行可行性分析,包括经济可行性分析、技术可行性分析和操作可行性分析三个方面,并在此基础上编写可行性报告。根据需求分析报告进行系统设计,同时根据系统设计进行系统实施。(2)系统测试:首先,应制定出详细的测试计划和方案及测试数据和测试案例,并形成测试大纲。其次,根据测试大纲对系统反复进行测试并做详细的测试记录。为确保系统的正确无误,应对系统进行实地试运行,试运行应选择多个环境且需求比较复杂的机构进行,应比照设计方案对新应用软件系统的功能和性能进行彻底测试和考核,并形成量化的运行报告。(3)外部资源管理:外部资源的合理利用是推动分行信息技术的发展重要因素,分行的外部资源主要包括设备供应商、软件供应商等。5.运维知识库系统:运维知识经验的总结、维护和共享是提高员工运维技能水平、增强单位凝聚力的重要手段,也是把宝贵的经验教训从支持人员头脑逐步沉淀、固化的重要方式。知识维护既要鼓励员工积极提交知识,防止知识库变成“空库”;同时又要及时进行审核和维护,防止知识库变为“垃圾库”。(1)知识来源主要有以下几个方面:一是各级运维支持人员日常工作中积累的经验;二是知识管理员总结、导入的经验。知识管理员研究、获取外部的知识和经验后,定期或随时整理这些知识,导入到知识库中,供所有用户共享。知识的获取、维护是信息网络管理员的重要职责之一。(2)知识提交审核:各个系统管理员提交知识到知识库之后,需要经过知识管理员的审查、修正,才变为正式发布状态,以减少知识中的谬误和差错。知识管理员定期(每季度一次)检查所有的正式知识,逐条进行核实、修正和优化。修正和维护操作与审核新提交知识草案过程相同。(3)知识检索和使用:在知识变为正式的发布状态之后,可以供各类用户随时检索引用。用户可以研究学习这些知识,也可以在解决问题的过程中有目的地检索。知识记录维护用户阅读次数和用户引用解决问题次数的计数器,引用和阅读次数越多,该知识的价值越大。6.运行维护队伍建设:(1)队伍组建:针对目前信息系统IT资源现状以及对技术支持的需求,组成各类维护人员的专家队伍,集中地开展运行维护工作。(2)人员管理:对各级运行维护人员尤其是高级运行维护人员的管理,应制定一套切实可行的管理办法,包括人员配置、职责划分、人才库建立、人员培训、人员考核、人员待遇等。通过科学的管理办法和有效的激励机制,充分调动各级运行维护人员的工作积极性和责任心,为做好信息系统运行维护工作打好基础。7.运行维护制度建立:为确保运行维护工作正常、有序、高效的进行,必须针对运行维护的管理流程和内容,制定相应的运行维护管理制度,实现各项工作的规范化管理。运行维护管理制度可分为以下几个方面。(1)网络管理制度:包括网络的准入管理制度、网络的配置管理制度、网络的运行/监控管理制度等。(2)系统和应用管理制度:包括对主机、数据库、中间件、应用系统的配置管理制度、运行/监控管理制度、数据管理制度等。(3)安全管理制度:包括网络、主机、数据库、中间件、应用软件、数据的安全管理制度及安全事故应急处理制度。(4)存储备份管理制度:包括备份数据的管理制度和备份设备的管理制度。(5)故障管理制度:包括对故障处理过程的管理制度、故障处理流程的变更管理制度、故障信息利用的管理制度及重大故障的应急管理制度等。(6)技术支持工具管理制度:包括对日常运行维护平台、响应中心、运维流程管理平台、运行维护知识库、运维辅助分析系统等的使用、维护的有关制度。(7)人员管理制度:包括对运行维护人员的能级管理制度、奖惩制度、考核制度、某银行系统外部人力资源使用的管理制度等。(8)质量考核制度:制定相关制度,对以上各类制度的执行情况进行考核。随着整个信息化应用内容的不断发展,一些旧的运行管理制度势必不能适应新发展的要求,必须进行不断地改进,并制定相适应的新的管理制度,逐步完善管理机制。四、运维服务项目框架根据项目管理理论及运维服务项目管理的特点,我公司在本项目总体设计中,给出了如下图的项目框架。第二节运维服务目标与原则一、总体目标1.通过购买专业运维服务,进一步加强XX数据中心运行维护,对数据中心运行维护流程提供先进的管理理念与流程,并通过专业的技术支持为数据中心运行维护工作提供专业的技术平台,满足XX大数据量安全存储的要求,可以满足多种应用运行环境稳定的要求,可以满足系统及数据高效、可靠和安全运行的要求可以满足运行设备统一管理、及时的故障恢复的要求,可以保证在数据中心构建的应用系统和数据集中运行的设备平台正常运行,满足XX级数据库和应用系统的建设需要,达到高效、稳定、安全和高扩展性的要求,为实现XX级信息化建设的可持续发展奠定集中统一的设施基础。2.结合XX单位的业务工作及信息化建设实际,完善运维管理体系的建设,加强信息系统正常运行保障,“以流程为导向,以服务为核心”提高服务质量水平、转变服务理念、拓宽服务范围、提高服务效率、提升用户服务满意度。二、项目目标根据总体目标,按照“长远发展、分步实施、实用为主”的建设思想,做好XX数据中心运维工作,发挥XX数据中心的作用和功效。本项目主要目标如下:(一)通过日常运维工作,高效、有序地管理好XX数据中心内所有的软硬件设备。(二)确保各系统的正常运行,使数据中心的各项功能均能正常提供服务。(三)通过运维加强数据中心与XX单位各部门业务系统之间的联系,不断充实数据资源,提供更为丰富的数据服务。(四)优化数据中心各项服务的功能和流程,结合运维期间实际的使用效果或用户意见,修改并完善相关的系统功能。三、工作原则(一)前瞻性原则对问题做出预见性分析,并为用户系统将来的发展和扩充提供建(二)实效性原则即快速反应。我们会根据系统的硬件配置、地理环境等因素,采取电话、远程诊断和现场服务的方式及时解决各种突发的技术问题。(三)顾问性原则提供用户咨询服务;对用户在使用系统中遇到的问题,提供改进的原则和手段。(四)完备性原则对所提供的所有设备进行服务支持,并对用户与系统相关的其他设备提供必要的服务。(五)规范性原则:服务过程可监督、可管理、可追溯,从而保证服务的质量。(六)安全性机房安装门禁、图像监控、漏水检测系统、动力设备环境集中监控系统和设置安全通道,确保人员和设备的安全。(七)可靠性应结合机房特点和所使用设备情况,充分考虑使用的长久性。(八)灵活性结合该机房的现状充分考虑不同运行状态下,运行的灵活性。(九)先进性结合现代化数据处理中心运维的特点,人员技术能力要具有一定的先进性。(十)系统运维功能完整性综合全面各个子系统,充分考虑各子系统的内在联系,使该机房具有完整和完善的系统功能。第三节项目服务内容一、内容概述XX数据中心的基础运维工作主要包含包括四个部分:基础环境、网络、服务器存储和基础软件。其中第一部分机房基础环境部分,包含机柜位置、空调、消防、安防、弱电、UPS等最基础的机房环境设施。需要对这些基础环境部分进行运维维护,确保整个机房环境正常稳定。第二部分为网络环境,包括当前数据中心所有的交换机、路由器等设备,以及由这些设备组成的所有网络,需要监控网络运行情况并提出网络风险评估,定期对网络进行优化配置,提高网络运行效率,保证整个网络环境的安全。第三部分服务器和存储部分,包含整个数据中心的小型机、服务器、存储设备、SAN交换机等设备。这些设备支撑着整个业务系统,是非常重要的基础硬件环境。需要监控这些设备的运行情况,及时处理出现的问题和变更,并基于整个环境提供优化。第四部分为基础软件部分,包括各种操作系统、数据库、中间件、备份软件等等。要求这些软件可以正常工作,并优化配置,为平台和工作站正常服务,当这些软件出现问题时,能发现并提出解决方案;可以协助应用人员解决故障或进行对应的变更、升级等操作。本方案将基于这几个方面进行设计,确保XX数据中心正常、高效运行。二、运维分类我公司数据中心运维团队将根据当前数据中心的实际情况和对应的管理制度,通过主动性、预防性维护,执行日常维护作业计划,对告警、性能、运行状态进行检查分析,及时进行数据备份,并定期对备份数据进行恢复性测试验证,对系统运行质量进行分析,并进行维护记录。对监控或维护中发现的问题及时处理,消除隐患,保障平台的稳定运行。我们将基于以下几个方面对运维工作进行描述:(一)基础环境运维管理针对基本的机房环境设施,我们的工作内容包含以下这些内容:1.机房机柜摆放规划和机柜管理。2.服务器和网络设备摆放规划和日常管理。3.设备出入机房审批登记管理。4.内部人员出入机房审批登记管理。5.外部来宾机房参观审批登记管理。6.机房电力系统监控、问题及时上报。7.消防监控系统监控、接收报警短信和联系第三方。8.空调报警系统监控、接收报警短信和联系第三方;确认空调运行状态良好。清洁机房的空调防尘网。9.温湿度报警监控、接收报警短信和联系专业第三方。10.漏水报警系统监控、接收报警短信和联系专业第三方。11.IC卡门禁系统日常运维。12.视频监控系统日常运维。13.UPS报警系统监控和联系第三方。14.机房资产管理系统(CMDB)。理机房的杂物,将机房物品定置。清洁机房门窗、地面。定期清洁电池室的地面;检查机房所有与外界的孔洞是否已严密封堵,严密防鼠;检查机房玻璃、地板、天花板、通气口,墙体表面是否正常,外观是否完好,有否出现老化现象。检查机房是否有漏水现象。检查机房墙壁是否有渗水现象。填写巡检记录,有问题及时报告。16.巡视电池间;检查电池工作状态。17.确认机房照明良好,出现问题及时报告。18.视频网络播放系统。定期检查可用性,有问题及时与专业第三方公司联系解决。19.填写巡检记录。(二)网络运维管理针对数据中心的网络部分,运维内容主要包含以下内容:1.测试网络接入速度,监控网络访问可用性和访问质量,出现问题第一时间直接联系接入商解决。2.网络接入商变化时,配合网络接入商对网络变更方案的可行性审查、问题审查。配合网络接入商更替施工。3.局域网。本地局域网日常管理和维护;VLAN划分;网络性能优化;故障排除;网络节点周期性检查,发现潜在问题,并解决。4.无线局域网。负责无线局域网的日常管理和维护;客户端不能正常接入网络的故障排除;网络性能优化;故障排除;网络节点周期性检查,发现潜在问题并解决。5.远程接入。制定VPN使用策略,实施VPN用户日常远程接入服务器的管理,以及性能优化和故障排除等。6.网络病毒查杀和网络安全保护。7.根据实际项目或安排而产生的其他工作。(三)服务器和存储运维管理1.服务器运行情况及性能监测:我公司数据中心运维团队将通过综合监控系统实施7×24小时平台设备监控,发现告警,并进行处理,解决问题。对系统运行进行实时检查。对监控或维护中发现的问题及时处理,消除隐患,保障平台的稳定运行。并且还提供针对各服务器物理资源的使用情况和操作系统的运行情况、进行实时监控,提供服务器安全监测报告。主机性能监控的检查列表包括:(1)CPU利用率。(2)内存使用情况。(3)交换区使用情况。(4)磁盘I/O情况。(5)关键文件系统的状态。(6)重要进程的运行情况(例程数量、消耗CPU、占用内存)。(7)操作系统的各类日志文件。(8)网络、端口信息。(9)其他各项工作。运维团队需根据检查列表进行日常检查,并不断地改进日常检查列表,以满足对系统监控的需要。2.服务器软硬件兼容性检查:数据中心运维团队在维护系统稳定运行的同时,需主动收集系统关键补丁、软件补丁、硬件微码等信息,在通过数据中心专家评审的前提下,对相关设备进行升级服务,并在升级完成后配合应用方对系统进行测试。升级前后需要和应用方及时做好沟通确认工作,确保不会产生兼容性导致的故障。3.磁盘阵列设备管理:运维团队需要对磁盘阵列设备及其相关的部件(如硬盘、控制器等)进行编号,并记录在案,对软件设置中的参数也要进行详细的记录,并在每次变更后及时更新相关的信息。除此之外,运维团队定期(暂定每半年)对于每个服务器的系统容量监测的审核,并制定相应的容量规划,主要监测文件系统的空间、数据库的空间资源利用情况,分析资源利用趋势,并提供资源情况报表。(1)文件系统空间管理:1)定期检查文件系统的空间使用情况,根据业务发展需求和新业务的增加,制定合理的空间分配方案,新增、修改或删除空间。2)对文件系统空间的使用进行监控,发现空间使用不合理或需要清理的协调解决。(2)数据库空间管理:1)应实时监测数据存储空间的使用情况,根据业务数据的数据量、数据结构以及增长速度,制定合适的数据存储和结构优化策略,动态增加新的空间以存放业务数据。2)定期检查数据存储空间的使用情况,根据实际情况规划增加新的空间,填写数据库空间新增/修改/删除申请表,经审核后实施,并更新数据库配置状况记录表。4.机柜、电源、网线布局管理:运维团队对于新上架安装的设备,需要进行拍照留档,确认各线路位置,并对服务器的电源部分进行编号整理,最终登记在册。5.协助第三方维护:对于由专业第三方提供运维的设备,设备出现问题后运维团队需及时通知第三方并告知采购人,视情况严重性,决定是否启动应急预案;配合第三方服务商一起排查和解决问题,实施为了解决故障而进行的系统软硬件的补丁、升级及维护工作。独立处理初级系统故障,与第三方厂商或服务商配合解决高级别系统故障。记录问题、故障的解决办法及解决过程。做出临时的配置变更以排除故障,在必要的时候,提出永久性配置变更建议。(四)基础软件运维管理运维团队充分保障服务器操作系统的稳定运行,将提供以下服务(1)系统升级:运维团队在维护系统稳定运行的同时,需主动收集系统关键补丁、软件补丁等信息,在通过数据中心专家评审的前提下,对相关系统进行升级服务,并在升级完成后配合应用方对系统进行测试。升级前后需要和应用方及时做好沟通确认工作,确保不会产生兼容性导致的故障。(2)操作系统稳定性监控定时查看操作系统日志及IIS日志,查看CPU、内存占用率,排除故障。(3)权限与文件管理:服务器应明确责任人及管理账号持有人,不应出现多人单账户,单人多账户的情况,不利于在服务器出现问题后,对服务器进行操作维护、查找问题。(4)定期检查磁盘空间:进行磁盘文件排列的优化和错误扫描,并处理错误;安全地删除系统各路径下存放的临时文件、无用文件、备份文件等等,完全释放磁盘空间。(5)维护系统注册表。(6)系统配置:优化系统配置,关闭无用服务和端口,以最适合系统运行方式,最小化安装等。维护系统配置文档。(7)负责系统用户管理,如增加、删除用户、重置用户密码、管理用户权限等。进行系统用户管理时,记录所有相关的系统变更。(8)对于新安装的服务器,运维团队应负责安装必要的应用软件:如远程监控工具、备份工具、防病毒软件等。运维团队将对数据进行日常维护,在数据库性能监控的检查列表包括:(1)资源使用情况。(2)运行情况。(3)数据库进程状态。(4)数据库连接状态。(5)数据库进程使用资源。(6)数据库的表空间(数据表空间、索引空间、临时表空间等等)使用情况。(7)数据库日志空间。(8)回滚段使用情况。(9)数据库锁的数量。(10)死锁的发生、死锁资源。(11)数据库碎片的数量。(12)磁盘I/O。(13)数据库运行日志。(14)数据库用户登录情况。(15)监控结果应做登记管理,如实记录系统日常运行状况及异常情况,填写日常运行情况记录表。(16)其他各项工作内容。除此之外,数据库的运维工作还包含一些其他工作,如:(1)数据库备份和恢复。(2)做好备份计划,工程师定时完成,因备份占用内存较大,在访问量大的情况下进行。当出现数据问题时,向采购人管理部门通报,说明数据情况,后恢复。(3)访问性能优化及数据库同步。(4)服务器管理人员需记录详细的设置;数据库如需要同步,应明确同步时间或实时同步等方式。(5)数据库日志和表空间,定期进行整理,问题解决。运维团队针对中间件的运维工作,内容如下:(1)OracleWeblogic,辅助开发公司进行配置,保留配置文档。模块配置与更新,配合第三方配置.java及wls的版本及更新工作。操作系统模块配置与更新,配合第三方配置操作系统到可用的版本及更新。配合反馈第三方解决服务错误日志中的问题。(2)新软件安装,收集安装光盘、安装合同(可复印学习)、使用说明书、授权书(Liscense)。纸质版文件扫描后入库,电子版文件进入配置库。为保证在系统崩溃或停止运行时能尽快恢复系统,将制定相关的数据备份制度。应针对不同系统制定备份方案,应包括备份方法、频率等。数据备份包括定期和不定期备份。重要数据应每月进行全备份和增量备份;不定期备份应该在数据变更后立即进行,更新前的备份按需要保存一定时间。当前的应用系统及相关的开发工作由第三方公司负责,运维团队主要起配合作用,相关的工作内容如下:(1)当应用出现问题,及时联系第三方解决,并做问题记录。(2)配合第三方进行操作系统、数据库和中间件的系统配置,并做配置记录,在有授权运维的系统中,熟悉应用系统维护方法。(3)配合第三方新应用系统上线,需收集安装文件,源代码,部署文档、运维文档。扫描后,入配置库。与合同库相关联,记录维护期间联系人,原公司质保期。(4)每日上班后、下班前检查可用性,确认无灾难性问题、黑客篡改问题。(5)其他待完成工作,根据实际情况来处理。三、工作任务(一)日常维护工作运维团队的值班安排分三班,保持7x24小时的人员安排,在任何时间数据中心都由值班人员。运维团队根据数据中心的运维管理制度,通过主动性、预防性维护,执行日常维护作业计划,对告警、性能、运行状态进行检查分析,及时进行数据备份,并定期对备份数据进行恢复性测试验证,对系统运行质量进行分析,并进行维护记录。对监控或维护中发现的问题及时处理,消除隐患,保障平台的稳定运(二)系统性能监控管理运维团队通过综合监控系统等实施7*24a小时平台设备监控,发现告警,并进行处理,解决问题。使用综合监控系统对系统运行进行实时检查。对监控或维护中发现的问题及时处理,消除隐患,保障平台的稳定运行。(三)系统维护管理运维团队负责故障发现、故障分析、故障处理工作,在规定时间内,处理完成故障,同时负责调查故障原因,最后编写详细的《故障报告》,包括故障发生的起止时间、原因、现象、处理过程、处理结果和处理经验。如果故障设备或组件为第三方维保,值班工程师负责和第三方对接,迅速解决问题。2.软件和补丁维护:操作系统级别的软件和补丁服务(1)运维团队对于维保设备提供所有软件补丁,提供预警服务,对于软件的维护版本提供补丁,并按稳定性和安全性的要求,提供是否升级的建议,评估风险和制作实施方案。(2)故障经工程师的分析表明它是由一个软件错误所引起的,那么运维团队需提供相应的软件版本和补丁。(3)对于软件版本和补丁的安装,运维团队首先将确认是否可以在对应平台上进行装载。若确认可实施,运维团队则将提供补丁升级服务,升级前要配合相关应用方做好测试。3.应急预案及演练:为加强风险管理意识,提高应急预案相关人员的应急处置能力,及时发现应急预案可能存在的问题,确保在紧急情况下,应急预案能够真正发挥作用,需要通过周期性的演习演练来不断检验应急体系应急预案的可靠性、有效性和可操作性。应急预案的演习演练方式、演习演练频度等内容明确如下:(1)演练分为桌面演练和实战演练两种方式,每次演练都应该有相关技术人员全程参与。(2)定期桌面演练,定期实战演练。(3)每次演练结束之后应进行分析和总结,及时完成应急预案的更新、优化和完善。4.协助第三方维护:在服务期内,运维团队将配合第三方或服务商进行系统的升级、替换、新部件(模块)安装等,并在实施完成后确认工作正常。为保证在系统崩溃或停止运行时能尽快恢复系统,将制定相关的数据备份制度。应针对不同系统制定备份方案,应包括备份方法、频率等。数据备份包括定期和不定期备份。重要数据应每月进行全备份和增量备份;不定期备份应该在数据变更后立即进行,更新前的备份按需要保存一定时间。(1)对于巡检或日常维护过程中发现的系统隐患或系统不是处于满意状态,提供相关系统优化的报告。(2)于运行情况跟踪,预防性诊断设备存在的隐患,提供系统优化建议,提供系统规范和流程的建议,提供系统优化概要。7.硬件设备统计:运维团队将定期对参保设备进行统计。8.质量分析报告:(1)运维团队建立数据中心平台的质量分析报告。每月汇总设备运行质量、系统性能等指标,进行数据中心平台运行质量分析,排除质量隐患,不断提高网络运行质量和服务质量。(2)运维工程师应每周和每月对于数据中心在网系统运行情况作分析,数据采集、统计和分析系统设备的运行数据,形成系统运行周报和月报。(3)分析报告,包括优化设备运行的绩效,提高系统稳定性的建议,对于系统扩容和优化投资的建议,提供系统运行情况概要,系统中关键设备的运行情况分析,并能识别和解决潜在问题,做好预警,制定并实施相应的优化措施,并对于系统的扩容和项目投资提供建议报告。(四)系统配置与支持维护运维团队的日常工作中,在系统配置和支持方面的工作内容如1.维护系统软硬件配置文档。2.负责系统用户管理,如增加、删除用户、重置用户密码、管理用户权限等。3.进行系统用户管理时必须遵循数据中心的账户命名规则及账户密码策略,并文档记录所有相关的系统变更。4.每月提交系统账户变更月报。5.配合第三方进行升级、安装系统,及时更新操作系统补丁,进行系统软件备份。6.根据运维报告及统计报表,每月制定维护作业计划,并提交日常维护报告。(五)系统容量管理运维团队至少每半年进行一次对于每个服务器的系统容量监测的审核,并制定相应的容量规划,主要监测文件系统的空间、数据库的空间资源利用情况,分析资源利用趋势,并提供资源情况月报表。1.文件系统空间管理:(1)定期检查文件系统的空间使用情况,根据业务发展需求和新业务的增加,制定合理的空间分配方案,新增、修改或删除空间。(2)对文件系统空间的使用进行监控,发现空间使用不合理或需要清理的协调解决。2.数据库空间管理:(1)应实时监测数据存储空间的使用情况,根据业务数据的数据量、数据结构以及增长速度,制定合适的数据存储和结构优化策略,动态增加新的空间以存放业务数据。(2)定期检查数据存储空间的使用情况,根据实际情况规划增加新的空间,填写数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论