2023数据中心运行维护与管理标准_第1页
2023数据中心运行维护与管理标准_第2页
2023数据中心运行维护与管理标准_第3页
2023数据中心运行维护与管理标准_第4页
2023数据中心运行维护与管理标准_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

22数据中心运行维护与管理标准202355目 次总 则 1术 语 2基本规定 4组织架构与人员管理 5日常运行维护与管理 7一规定 7事管理 8问管理 9变管理 9文管理 10安管理 质管理 14应急管理 16成本与能效管理 19本标准用词说明 21引用标准名录 22附:条文说明 23PAGEPAGE10总 则数据中心的运行、维护和管理除应执行本标准外,尚应符合国家术 语应演练 emergencyexercise针对特定突发事件的场景,按照应急预案所规定的职责和程序,执行应急响应任务的训练活动。应急形式包括桌面演练、模拟演练和实战演练。应预案 emergencyplan针对可能发生的事故,为迅速、有序地开展应急行动而预先制定的行动方案和采取的措施。服台 servicedesk数据中心提供方与需求方之间信息沟通的平台,是服务接入的门户。事件 incident引起或可能引起服务中断或服务质量下降的情况。服等级议 servicelevelagreements(SLA)由数据中心与客户之间签订的一项或多项服务协议,作为评价、考核和调整运维服务的标准。能管理 energyefficiencymanagement在保证业务连续可用的基础上,对数据中心全生命周期内连续供应的能源进行综合利用、能效分析评估及改善提升。电利用率 powerusageeffectiveness(PUE)数据中心内所有用电设备消耗的总电能与所有电子信息设备消耗的总电能之比。在维护 onlinemaintenance对处于运行状态的设备进行检查和维护,且实施的检查和维护不会影响系统的正常运行。离维护 offlinemaintenance对处于运行状态的设备进行检查和维护会影响系统正常运行时,需要将在线运行的设备更换撤离后再进行检查和维护。基本规定数据中心的运行、维护和管理应依据现行国家标准《数据中心设GB50174GB/T51314的有关规定,结合数据中心自身的运营性质、管理要求及其在经济和社会中的重要性,建立运行、维护和管理团队,制定运行维护管理制度和工运行、维护和管理体系应覆盖数据中心运行的全过程,宜采用电运行、维护和管理团队应满足数据中心业务开展的需要,人员岗运行、维护和管理应识别数据中心潜在的风险,制定风险预防措运行、维护和管理应在确保数据中心可用性和可靠性不受影响的组织架构与人员管理数据中心应建立满足运行、维护和管理要求的组织架构。组织架构应根据数据中心的等级以及经营、管理和业务模式设置部门,并应明数据中心应设置电子信息系统和基础设施的运行、维护和管理岗位,并应设置安全、质量控制、综合管理和客户服务等岗位。对关键技管理人员应熟悉运行、维护和管理体系和流程;应组织制定工作计划和年度绩效目标,下达工作任务,并指导和监督各项工作的落实;管理人员入职或职位变动时,应进行资格、从业经历或业务能力技术人员应具备所在岗位的专业技术能力,从事特定工作的人员数据中心应制定年度运行和维护人员培训计划,培训计划应涵盖数据中心运行和维护的各个岗位,培训内容应满足岗位操作的要求,并数据中心应对运行和维护人员进行岗前培训及能力测评,在岗位数据中心应对员工培训的执行情况进行管理,应将数据中心运行和维护人员的培训记录记入员工档案,培训记录可纳入绩效考核和岗位调整的考核内容。日常运行维护与管理一般规定数据中心应建立运行、维护和管理的工作制度和流程,明确运行和维护的工作目标,并应按近期与远期的工作目标制定工作计划和任务书。数据中心应对工作计划和任务的实施效果进行后评价,并应根据以租赁机柜和提供服务为主的数据中心应设立服务台。服务台应服务台应根据运行和维护的系统、服务等级协议、服务咨询的内容及自身管理要求对服务请求进行分类,并应将服务请求分派至相应的服务台应跟进服务请求的处理过程,监督服务请求处理进展,执事件管理1~5级,事件分级宜符合表5.2.2的规定。表5.2.2 事件分级要求等级色标内容1级红色零容忍事件2级橙色短时可容忍的事件3级黄色一定时间内可容忍的事件4级蓝色商定时间处理的事件5级黑色时效性要求不高的事件当几个事件同时发生时,应根据事件的等级、影响度和服务等级数据中心应建立事件处理的升级机制。在规定时间内未完成事件的处理或处理过程中引发新的事件时,应对事件进行职能性或结构性升事件处理人应调查和分析事件发生的原因,对在规定的时间内无对已查明原因的事件,应给出解决方案并执行;对暂时无法查明问题管理数据中心应建立问题管理流程和人员职责,应识别发生或潜在的变更管理数据中心应根据变更对运行的影响程度,将变更分为紧急变更、数据中心应建立变更管理程序,变更方案和变更时间应经过主管数据中心应记录变更请求,并对变更请求进行评估,评估的内容数据中心应跟踪变更的全过程,并控制变更的时间和应急回退的文件管理数据中心应建立涵盖运行维护管理全过程的文件管理体系,并应数据中心应根据文件在运行维护管理中的作用,将文件应划分为数据中心应根据文件的重要程度,对各类文件进行密级划分。不数据中心应明确各类文件编制和维护的责任部门,每年应组织新数据中心应明确各类文件的保管部门,并应建立文件保管管理制度和使用流程。归档文件应每年进行一次完好性的检查,电子文件宜做数据中心应每年进行一次对各类文件执行情况的检查和回顾,对安全管理5.6.1的规定。表5.6.1 安全区域和等级划分表等级安全区域范围一级核心主机房、总控中心、应急指挥中心、生产系统变更室等。二级重要支持区、测试机房、进线间、动力环境监控室、消防和安防控制室等。三级普通行政管理区四级公共出入口、装卸区、拆包区、生活区等。数据中心应明确安全管理职责,应根据基础设施物理环境和运营数据中心的安全防范系统应连续运行,应监控和记录数据中心的运行情况,视频记录保存时间不应少于三个月,门禁记录保存时间不应A数据中心应配置专职安全保卫人员,安全保卫人员应设置在园区和数据中心出入口。核心区域、高压配电室、消防和安防控制室、动力24h数据中心的人流和物流通道应畅通;应配备人身应急保护器材;每年应进行一次消防系统运行状况检查,并组织消防演练;每年应组织数据中心所有人员应佩戴身份标识。未经许可,严禁携带摄像、数据中心应按照安全区域的等级和运行维护人员的工作职责设置数据中心应指定部门负责安全区域的日常管理,每年应对门禁系统访问权限进行审查。工作人员岗位变动时应修改门禁和系统操作的访段严禁进行有风险的操作及施工。对有风险的操作应实行双人临岗,操质量管理数据中心应建立运行维护质量管理体系。质量管理应满足安全运行、过程管理和可持续改进的要求。运行维护人员宜参加数据中心建设数据中心应制定运行维护的质量管理目标及质量保障计划和任务数据中心应建立运行维护质量管理的监督、检查及考核制度,监督和检查运行维护服务工作的质量,制定量化考核管理指标,改进和完运行维护质量管理应包括在线维护、离线维护和风险控制,质量管理应贯穿运行维护全生命周期,并应通过测试、验证、定期巡检、预运行维护部门应在数据中心工程竣工验收前组织测试验证,完成A24h运行维护值班,每日每个班次现场巡检124h保持正常工作状态,不数据中心应按照日、月、季、年的时间要求完成基础设施的健康检查和预防性维护,并应根据健康检查的结果分析和评估各系统运行状数据中心应对主用机和备用机进行轮流循环运行操作、故障切换6应急管理数据中心应建立应急管理体系,在发生影响服务的事件时,应启数据中心应急管理应包括组织架构、应急响应及流程管理、应急应急管理组织架构应由决策层、管理层和执行层组成,应包括应应急管理机构的工作人员应包括管理、运行维护、后勤、应急响应和灾难恢复等各类人员。人员可为专职,也可为兼职,关键岗位的人员应有备份。多中心或多个分支机构的数据中心应设立不同级别的应急数据中心应建立应急人员保障机制,确保应急人员能够胜任应急6.0.6表6.0.6 应急事件分类表分类涉及的事件公共灾难危害事件不可抗拒的灾难战争、恐怖袭击、自然灾害、公共卫生事件可抗拒的灾害通信系统故障、病毒或网络攻击、市电或供水中断基础设施故障事件建筑火灾、水患供配电供配电系统、备用电源系统故障环境保障空调制冷和动力环境监控系统故障消防火灾报警和灭火系统故障安防安防系统故障电子信息系统故障事件硬件存储设备、服务器等设备故障信息系统操作系统、应用系统软件故障网络故障网络设备和传输线路故障操作故障人工操作引起的故障数据中心发生应急事件时,应启动应急响应和应急处理流程,应数据中心应加强应急服务外包管理,应与服务外包提供商签订安7 成本与能效管理数据中心应建立运行和维护的成本与能效管理系统,并宜建立电子化管理平台。运行和维护的成本与能效管理应贯穿数据中心运行和维容量管理应统计已用容量,并计算可用容量与已用容量之差,包括电力容量、制冷容量、空间容量,宜包括网络端口和带宽及电子信息数据中心应建立资产管理制度和操作流程。管理制度应包括资产2本标准用词说明正面词采用“必须”,反面词采用“严禁”;正面词采用“应”,反面词采用“不应”或“不得”;宜”不宜”;“可。条文中指明应按其他有关标准执行的写法为:“应符合……的规定或“……执行。引用标准名录《数据中心设计规范》GB50174《数据中心基础设施运行维护标准》GB/T51314数据中心运行维护管理标准条文说明目 次2 术 语 25组织架构与人员管理 26日常运行维护与管理 28一规定 28事管理 28问管理 29变管理 29文管理 30环安全理 31质管理 33应急管理 37成本与能效管理 412术语2.0.8事件包括硬件故障、软件故障和服务请求三部分。硬件故障包括基础设施和IT组织架构与人员管理经营模式是指数据中心定位是自用、外包或部分外包方式;管理模式是指集中式管理还是分散式管理;业务模式是指数据中心是用于生产、灾备还是研发测试。数据中心组织架构宜包括:基础设施运维部、电子信息系统运维部、监控中心、安全管理部、客户服务部、行政管理数据中心运行、维护和管理岗位包括以下职位,并承担相应的职责:数据中心运行、维护和管理模式包括:自主运行维护、全外包运对于人员的资格确认,可以采用多种方式,包括相关机构颁发的特定工作是指国家或行业规定的具有从业资格的工作,如高压电4.0.8岗前培训应包括运行维护理论、规章制度、技能和操作培训,可以采用内部培训,也可以采用外部培训的方式。运行维护人员在新设施4.0.10日常运行维护与管理一般规定工作计划宜按照年、季、月度制定,一般包括业务发展计划、员工业务技能培训计划、产品投产、变更、巡检、预防性维护、系统升级计划与任务管理是一个编制计划、执行计划、检查结果、总结和5.1.4通过对服务请求的分类,规范服务请求类别,合理安排服务请求的处理次序,调度相应的资源,加快服务处理的时效和提升服务质量,事件管理事件管理的目的是及时恢复发生事件的系统,减少事件对服务的数据中心应根据对用户承诺的服务等级协议(SLA)确定“短时”和”为加快事件处理时效和提升服务质量,对同时发生的事件应进行排序,优先处理重要和紧急的事件。影响度是指事件影响的用户范围、()5.2.7记录事件处理过程的信息包括:事件发生的时间、事件请求处理的时间、报告人和受理人、事件处理的派发时间和处理人接单时间,恢复的时间、事件处理的耗时、事件处理过程、发生事件的原因、解决方问题管理5.3.1问题管理包括主动性问题管理和被动性问题管理两类活动。被动性问题管理的目标是找出导致已发生事件的根本原因,提出解决办法;而主动性问题管理是通过跟踪系统运行状态和趋势,分析潜在安全隐患变更管理紧急变更是解决突发的运行故障、排除重大生产隐患或因紧急原因无法提前安排而需紧急实施的生产变更;例行变更是常规的已知定期维护,且技术成熟、对运行无影响或影响可控的变更;标准变更在变更实施时会影响生产运行,部分变更请求需要用户的配合,变更需要根据数据中心实际的运行状态进行排期,选择合理的时间实施的变更,降低变更的风险和对运行的影响。紧急变更需要设立授权机制,工作时间应采用一请求、一审批的方式,非工作时间可采用电话、微信、短信等电子审批方式,事后补办审批手续;例行变更可采用定期预批准的方式,集中审核、审批;标准文件管理外部文件是指来自于政府、行业或上级主管部门下发的文件,包括各类决定、通知、标准等;内部文件是指数据中心内部为运行维护管理发布的各类文件。工作文件是数据中心为各部门运行维护管理建立的实施细则,包括各种规章制度、机构设置、人员任用、岗位职责、工作程序等。技术文件包括国家标准、行业标准、设备资料、产品图纸、生一级文件为整体策略的纲领性文件,反映数据中心的基本管理策二级文件为程序文件,为开展某项具体运行维护活动所规定的途径或方法,是针对某项具体运行维护活动的专门规定,是该项活动的操作指引。程序文件的内容一般包括制定本程序的目的、本程序适用的工作范围和发放范围、本程序的主要责任者的职责和权限,以及规定配合团队的职责和权限职责、程序内容和要求的描述。三级文件为作业指导书或操作手册,描述特定运行维护活动的具体操作步骤和方法,用于指导日常操作。三级文件应包括标准操作流程、四级文件是上面几级文件执行后产生的记录。记录作为运行维护活动持续进行的证据,应防止未经授权的修改并规定记录的保存期。5.5.5 公开””“”对过期的文件做回收和废止处理包括:纸质版的文件废止时应有废止标识,并统一回收保存,如果需要销毁,应用碎纸机进行销毁;电环境安全管理环境安全管理体系包括:安全区域的划分、安全等级的分类、安环境安全管理职责包括物理环境安全管理、人员操作和安全管理及安全培训管理。数据中心安全防范系统包括视频安防监控、入侵报警、出入口控制、电子巡查等,各系统之间应具备联动控制功能。对设置安检机和手人身应急保护器材包括空气呼吸器或氧气呼吸器、安保人员的防爆、防袭击器材等,消防系统包括火灾探测、报警、灭火、疏散通道、身份标识包括工作证、访客证、临时出入证等。未经许可,禁止5.6.8 访问权限包括进出不同安全区域的门禁权限和访问相关系统操作的权限。有效身份识别方式包括门禁卡、指纹、掌纹、人脸识别、身份证、临时通行证等。对未授权但有需要进入安全区域的人员需要提出申IT梯、送排风设备、给排水设备;安防设备包括门禁、摄像、监控、消防等设备;IT设备包括服务器、存储、网络设备等;耗材和备件包括过滤器、润滑油、除菌药、制冷剂、皮带、磁盘、板卡等;操作和维修设备包括仪器仪表、电脑、工具、材料等。危险品申请表应包括危险品的种5.6.13UPS5.6.17质量管理运行维护质量管理体系应体现在数据中心运行的全过程中,不断优化和改进数据中心各系统的运行维护质量,确保各系统安全稳定地运行,并通过流程优化,提升运行维护服务效率和用户满意度。运行维护人员参加设计、施工等建设期间的质量管理,有利于数据中心投产后的数据中心应根据服务内容制定运行维护的质量管理目标,管理目标应包括系统稳定运行的可用性、服务响应和解决时效、应急保障的能设备和运行系统的保障能力和服务质量。质量保障计划是保证质量管理目标实现的重要手段,应围绕质量管理目标制定保障计划。保障计划包括数据中心的组织架构、职责、管理权限、工作制度、质量管理监督检查机制包括:运行值班、交接班、任务工单、巡维护的质量管理包括提前对设备进行预防性维护和保养,以及对运行中发现的问题及时解决,确保系统中的所有设备保持良好状态。风险控制的质量管理是通过主动查找、提前预防、过程控制、应急预案、应急演习等全过程控制,提前规避和控制可能出现的问题和风险,杜绝运营事单机或单系统测试验证包括高低压配电、空调、弱电、消防等设备或系统的开机和单机运行;系统联调测试验证包括高低压配电、发电和持续正常运行的能力;故障模拟验证是通过模拟配电、不间断电源错能力。技术文档包括规划和设计资料、施工竣工图、设备清单和采购合同、设备出厂技术说明书、操作手册、维护手册、各系统设计说明、验收测试文档、报审资料、质保期各厂商联络方式和技术支持人员的信息等。界面划分主要是指数据中心与外部能源、网络等供应方的分工及健康检查是在数据中心投产运行后定期对设备和系统的运行状况及性能做健康性检查和评估。通过自动监控系统和现场巡视、预防性维护,主动查找,发现和解决设备和系统的故障和隐患。健康检查、维护设施的运行数据,包括运行环境、设备外观、指示灯、运行状态,电压运行参数、容量、设定值、日志、历史记录,形成月度的检查分析报告,对处于冷备的设备(如发电机、空调等)可进行离线检查,也可与设容;IT主用机与备用机轮流循环运行是确保每台设备工作和休息时间保持均衡;故障切换与恢复操作是将线上运行的设备转为线下维护,维护完成之后再转为线上运行;系统运行参数和运行模式调优操作是对不同负载、不同季节进行系统运行参数和运行模式的调整,保持系统运行在安全、节能、高效的工作状态。系统运行参数和运行模式调优应贯穿数应急管理6.0.3 应急领导小组是数据中心应急管理的决策机构,应由数据中心的应急管理小组应由业务、技术、后勤等相关部门负责人组成,在应急领导小组领导下开展工作,负责管理和协调应急管理的工作,主要职责包括:组织制定应急管理策略、计划和预案;组织编制经费预算和应急设施建设;组织实施应急计划和应急预案的演练;协调内外部资源;指挥和协调应急响应与恢复工作、重建与回退工作;负责信息通报和沟通、负责客户的解释和安抚工作;监督、检查和总结应急管理的工作。应急技术与执行小组应由数据中心专业技术人员、运行维护人员和服务供应商组成。组长由中心分管技术的高层管理人员担任,负责突发事件的处理和灾难恢复的具体实施工作,主要职责包括:提出应急需求和策略建议,实施应急环境建设,提供应急的专业技术支持,编制各类应急保障小组应由数据中心的综合管理、人力资源和后勤保障部门的人员组成。组长由中心综合管理部或后勤管理部的负责人担任,负责应急事件处理过程中的后勤保障。主要的职责包括:负责应急处置人员通信联络保障、交通和食宿安排,负责应急处置场所的安保,建立与公安和消防的应急联动机制,负责数据中心外部的供电、供水、供油、供气、供暖、通信等事宜的沟通与协调。6.0.7应急响应流程包括:接收和记录应急事件信息;分析和评估应急应急处理流程应包括:采取必要的控制措施,最大限度地

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论