版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据中心基础设施运行管理与维护指导TOC\h\h目录\h第一章总则\h1.1术语\h1.2编写原则\h1.3系统界面划分\h1.4适用范围\h第二章数据中心运维管理\h2.1运维管理概述\h2.1.1目标\h2.1.2对象\h2.2人员管理\h2.2.1组织架构\h2.2.2岗位职责划分\h2.3流程管理\h2.3.1事件管理\h2.3.2问题管理\h2.3.3故障管理\h2.3.4应急操作管理\h2.3.5变更管理\h2.4运行管理\h2.4.1质量管理\h2.4.2值班管理\h2.4.3机房环境管理\h2.4.4机房用电管理\h2.4.5场地配置管理\h2.4.6设备运行管理\h2.4.7关键设备全生命周期管理\h2.5维护管理\h2.5.1维护操作管理\h2.5.2维护作业管理\h2.5.3能效管理及优化方案\h2.6安全管理\h2.6.1基本要求\h2.6.2人员安全\h2.6.3物品安全\h2.6.4信息安全\h2.7资源管理\h2.7.1配件与备品管理\h2.7.2工具仪器仪表管理制度\h2.7.3文档资料管理制度\h2.7.4容量管理\h第三章暖通空调系统\h3.1系统介绍\h3.2冷冻水空调系统\h3.2.1维护作业要求\h3.2.2冷水机组\h3.2.3热交换设备\h3.2.4冷却塔\h3.2.5循环水泵\h3.2.6水处理设备\h3.2.7空调管路与仪表\h3.2.8末端精密空调\h3.2.9加湿器\h3.3直膨式空调维护保养\h3.3.1风冷空调系统\h3.3.2氟泵循环系统\h3.4新风自然冷却系统维护保养\h一、电气控制部分维护检查\h二、过滤器维护检查\h三、传动系统维护检查\h四、管道系统维护检查\h五、整体卫生清洁\h3.5故障分级与处理\h一、重大故障处理要求与响应\h二、严重故障处理要求与响应\h三、一般故障处理要求与响应\h3.6常用工具仪器\h第四章供配电系统\h4.1供配电系统介绍\h4.2数据中心供配电系统一般规定\h一、A级数据中心供配电系统应符合以下规定\h二、B级数据中心供配电系统应符合以下规定\h三、C级数据中心供配电系统应符合以下规定\h4.3数据中心对供配电系统要求\h4.4基本维护要求\h4.5高低压变配电系统\h4.5.1高低压系统介绍\h4.5.2低压系统配电方式\h4.5.3运行及维护要求\h4.5.4日常巡检内容\h4.5.5维护项目计划表\h4.6柴油发电机组\h4.6.1柴油发电机介绍\h4.6.2柴油发电机组主要技术指标\h4.6.3柴油使用注意事项\h4.6.4运行及维护要求\h4.6.5日常巡检内容\h4.6.6维护项目计划表\h4.7UPS系统\h4.7.1UPS系统介绍\h4.7.2运行及维护要求\h4.7.3日常巡检内容\h4.7.4维护项目计划表\h4.8蓄电池组\h4.8.1蓄电池介绍\h4.8.2运行及维护要求\h4.8.3日常巡检内容\h4.8.4维护项目计划表\h4.9数据中心UPS的电池配置计算方法\h4.10机架配电系统\h4.11容量预警\h4.11.1容量预警定义\h4.11.2负载容量比\h4.11.3预警处理\h4.12故障分级与响应要求\h4.12.1故障分级目的\h4.12.2故障定义及响应要求\h4.13供配电系统节能措施\h4.14常用工具与仪器\h第五章动力与环境监控系统\h5.1系统介绍\h5.2系统组成\h一、采集子系统\h二、传输子系统\h三、软件子系统\h5.3系统运行\h5.3.1系统运行监控规划\h5.3.2系统运行监控要求\h5.3.3系统运行监控内容\h5.4系统维护\h5.4.1维护基本要求\h5.4.2维护内容\h5.4.3维护周期表\h5.5系统管理\h5.5.1运行管理\h5.5.2能效管理\h5.5.3安全管理\h5.5.4权限管理\h5.5.5配置更新管理\h第六章楼宇自控BA系统\h6.1系统介绍\h6.1.1系统价值\h6.1.2系统目标\h6.2系统的基本构成和功能\h6.2.1系统的基本构成\h6.2.2系统的基本功能\h6.3系统运行\h6.3.1系统控制方式\h6.3.2系统远程主机控制运行\h6.3.3系统本地手动控制运行\h6.3.4系统应急控制\h6.4系统维护\h6.4.1系统维护说明\h6.4.2系统维护内容\h6.5系统管理\h6.5.1操作管理\h6.5.2安全管理\h6.5.3权限管理\h6.5.4告警管理\h6.5.5资料管理\h6.5.6联动管理\h第七章门禁系统\h7.1系统介绍\h7.2系统维护内容\h7.3维护基本要求\h7.4维护方法\h一、设备断电隔离\h二、设备维护\h7.5系统运行管理\h7.5.1基础管理\h7.5.2业务管理\h7.5.3权限管理\h7.5.4通信管理\h第八章数据中心综合布线\h8.1概述\h8.2配线区划分\h一、主配线区\h二、中间配线区\h三、水平配线区\h四、区域配线区\h五、设备配线区\h8.3施工规范\h8.3.1施工布线要求\h8.3.2操作要求\h8.3.3施工后检查\h8.4日常维护\h8.5故障分析与诊断\h8.6常用维护工具\h第九章防雷接地系统\h9.1防雷接地系统介绍\h9.1.1机房防雷接地系统介绍\h9.1.2机房防雷的原理\h9.1.3防雷接地装置的主要组成构件\h9.1.4防雷装置必要性\h9.2防雷接地安装要求\h9.2.1机房感应雷的防护要求\h9.2.2主建筑直击雷的防护\h9.3防雷接地维护\h一、地网的维护\h二、设备地线系统的维护\h三、动力系统防雷设备的维护\h四、周期性维护项目\h第十章消防系统\h10.1系统设计理念\h10.2数据中心消防系统介绍\h10.2.1消火栓系统\h10.2.2水喷淋系统\h10.2.3细水雾系统\h10.2.4气体灭火系统\h10.2.5灭火器\h10.3消防控制室维护管理\h10.3.1消防控制室的设置\h10.3.2消防控制室的功能要求\h10.3.3消防控制室管理及值班人员职责\h10.4消防组织结构及管理\h10.4.1消防安全管理架构图\h10.4.2行政组织机构职责\h10.4.3消防安全管理工作流程\h10.4.4消防日常管理职责\h10.4.5消防系统维保单位职责\h10.5消防系统运行维护要求\h10.5.1巡查要求\h10.5.2维修、保养要求\h10.6专业检测\h10.6.1专业检测单位的职责\h10.6.2专业检测的要求\h10.7数据中心火灾自动报警系统\h10.7.1概述\h10.7.2系统组成\h10.8数据机房监督检查消防监督要求\h10.9数据中心消防安全\h10.9.1消防安全一般规定\h10.9.2消防设施\h10.9.3安全措施\h10.9.4消防管控\h第十一章安防系统\h11.1系统介绍\h11.2系统设计\h11.2.1设计要求\h11.2.2设计原则\h11.3安防安全管理\h11.3.1等级划分\h11.3.2技术措施\h11.4安防运维规范\h11.4.1运维基本要求\h11.4.2维护注意事项\h11.5视频监控系统\h11.5.1介绍\h11.5.2维护内容\h11.6出入口控制系统\h11.6.1介绍\h11.6.2维护内容\h11.7入侵报警系统\h11.7.1介绍\h11.7.2维护内容\h11.8电子巡更系统\h11.8.1介绍\h11.8.2维护内容\h11.9其他设备维护第一章总则数据中心作为信息与信息系统的物理载体,主要用于存放和运行与IT业务相关的主机、网络、计算、存储等服务器设备场所;数据中心基础设施安全、稳定、可靠的运行是对数据中心IT业务在线率的有力保障,通过有效实施数据中心基础设施运行维护管理,提高运维人员专业能力,保证数据中心各功能组件稳定并保持既定功能持续可靠运行。1.1术语数据中心:为集中放置的电子信息设备提供运行环境的建筑场所,可以是一栋或几栋建筑物,也可以是一栋建筑物的一部分,包括主机房、辅助区、支持区和行政管理区等。数据中心基础设施:包括容纳IT系统的主机房,支持IT系统运行的供电系统、制冷系统、消防系统、安防系统、监控系统及其路由等配套设施及维护IT系统的辅助设施。暖通空调系统:包括制冷设备与制冷回路。制冷设备包括冷水机组、冷冻水机房末端空调、蓄冷设备、冷却塔、水泵、板式换热器设备、直膨式机房空调、新风设备等。制冷回路包括:冷冻水管道、冷却水管道、水处理设备、定压补水装置、阀门仪表、气流组织等。供配电系统:包括供配电设备与供电路由。供配电设备包括:高低压成套设备、变压器及其组件、UPS不间断电源、蓄电池组、列头柜等;供电路由包括:高低压供电逻辑、连接线缆及母线连接排。不间断电源系统(UPS):由变流器、开关和储能装置组合构成的系统,在输入电源正常和故障时,输出交流或直流电源在一定时间内维持对负载供电的连续性。柴油发电机系统:包括柴油发电机组与配套柴油供给路由、储存等,柴油发电机组包括:柴油发电机、蓄电池组、控制柜等,柴油供给路由包括:储油罐、供、回油管路、日用油箱及油泵。BA控制系统:包括软件、系统服务器、监控主机、配套设备、网络传输设备、计算机监控网络、直接数字控制器(DDC)及前端点位传感器采集设备。动环监控系统:包括监控硬件与监控软件。监控硬件包括:服务器硬件、传输网络、采集器单元、传感器、显示终端、智能设备等。监控软件包括:数据库软件、系统软件等。防雷接地系统:包括外部防雷装置和内部防雷装置。外部防雷装置主要用于防护直击雷,主要包括:接闪器、引下线、接地系统等。内部防雷装置主要用于减小和防止雷电流产生的电磁危害,包括:等电位连接系统、接地系统、屏蔽系统、SPD等。总控中心(ECC):为数据中心各系统提供集中监控、指挥调度、技术支持和应急演练的平台,也可称为监控中心。安防系统:包括视频监控系统、出入口控制系统、入侵报警系统、电子巡更系统、门禁系统等。消防系统:包括早期报警系统、火灾自动报警系统、水或气体灭火系统、消防联动控制系统、开、闭式系统、防排烟系统等。运维管理:对数据中心场地基础设施进行日常运行和维护,确保各项基础设施系统安全稳定地运行。运维管理包括制定运维制度和计划、执行运维计划、响应场地基础设施故障、突发事件等紧急情况。平均故障修复时间(MTTR):MTTR是指可修复产品的平均修复时间,就是从出现故障到修复中间的这段时间。MTTR越短表示易恢复性越好。平均无故障时间(MTBF):MTBF是衡量一个产品的可靠性指标,体现产品在规定时间内保持功能完整性的一种能力。具体来说,是指相邻两次故障之间的平均工作时间,也称为平均故障间隔。可用性:可用性是指在所有要求的外部资源得到满足的情况下,数据中心在规定的时刻或规定的时间段内处于能执行要求的功能状态的能力。它是衡量数据中心等级、运维水平的重要指标。可用性指标的计算如下:【可用性=平均无故障时间/(平均无故障时间+平均故障修复时间)】PUE值:PUE是评价数据中心电力使用效率的指标,是指数据中心消耗的所有能源与IT负载消耗的能源之比。PUE值越接近于1,表示一个数据中心的绿色化程度越高。【PUE=数据中心总设备能耗/IT设备能耗】WUE值:WUE是评价数据中心制冷系统的水资源使用效率的指标,是年度水资源使用量与IT负载使用的能源之比。【WUE=数据中心水资源的全年消耗量/数据中心IT设备全年耗电量】负载:指连接在电路中的电源输出的设备。负载是把电能转换成其他形式的能的装置。气流组织:指在机房内对冷热气流的流向按一定要求进行疏导和组织。SLA协议:服务提供商和业主之间签署的描述服务范围和约定服务级别的协议。冗余:重复配置系统的一些或全部部件,当系统发生故障时,冗余配置的部件介入并承担故障部件的工作,由此延长系统的平均故障间隔时间。N:基本需求,系统满足基本需求,没有冗余。N+X冗余:系统满足基本需求外,增加了X个组件、X个单元、X个模块或X个路径。任何X个组件、单元、模块或路径的故障或维护不会导致系统运行中断(X=1~N)。日常巡检:定时对机房环境及设备运行状态进行巡视检查,以确认环境和设备处于正常工作状态,工作方式为:望闻嗅测。例行维护:定期对机房环境及配套基础设施设备进行的例行维护工作,以防止设备在运行过程中出现故障。预防性维护:有计划地对设备进行深度维护或易损件更换,包括定期维护保养、定期使用检查、定期功能检测等几种类型;让设备处于一个常新的工作状态,降低设备出现故障的概率。预测性维护:通过各种测试手段进行数据采集及分析,判断设备的劣化趋势,预测分析可能发生的潜在威胁,并提出相应的防范措施。标准操作程序(SOP):SOP是将某一项工作或者某种设备的标准操作步骤和要求以统一的格式描述出来,用来指导和规范日常的运维工作。维护操作程序(MOP):MOP用于规范和明确数据中心基础设施运维工作中各项设施、设备的维护保养、操作步骤和审批流程。应急操作程序(EOP):EOP用于规范应急操作过程中的流程及操作步骤。确保运维人员可以迅速启动应急预案,确保有序、有效地组织实施各项应对措施。数据中心基础设施管理系统(DCIM):数据中心基础设施管理系统通过持续收集数据中心的资产、资源信息,以及各种设备的运行状态,分析、整合和提炼有用数据,帮助数据中心运行维护人员管理数据中心,并优化数据中心的性能。数据中心IT设备区域:此区域是指数据中心放置IT设备的区域。如存储机柜、网络设备机柜、服务器设备机柜等。不包括数据中心其他区域,如基础设施设备房、消防气瓶间、UPS电池房等。1.2编写原则(1)符合国家相关政策及要求,认真落实国家节能减排要求,建设绿色节能数据中心,强化安全支撑,提高运维管理水平,促进IDC行业健康发展。(2)符合国家和行业标准。包含数据中心设计、建设、验收标准,以及相关设备维护规程。(3)参考互联网公司数据中心和电信运营商数据中心的企业标准及维护最佳实践经验。(4)本书以玉溪政务云数据中心为运维对象,该数据中心通过了UptimeTierⅢ设计认证及建造认证,并与实际运维经验相结合,具有较强的参考价值。1.3系统界面划分数据中心应有明确维护界面,以清晰界定运维责任主体,建议维护界面如下:供配电系统:一般指从供电部门产权分界点(如开闭所、环网柜输出端、电源搭接点)起,到机房PDU(或架顶配电单元)供电路径上所有的线缆、设备及其配套设施。制冷系统:一般指数据中心制冷系统内所有管路(市政公用管网接入园区输入点以后)、设备及其配套设施。BA控制系统:一般指自控系统内所有线缆、软件、设备及其配套设施。动环监控系统:一般指监控系统内所有线缆、软件、设备及其配套设施。防雷接地系统:一般包括所有外部防雷装置和内部防雷装置设备。安防系统:一般指视频监控系统、出入口控制系统、入侵报警系统、电子巡更系统内的线缆、软件、设备及其配套设施等。消防系统:一般指早期报警系统、火灾自动报警系统、水或气体灭火系统、消防联动控制系统内的线缆、软件、设备及其配套设施。1.4适用范围本指导书适用于IDC行业数据中心、互联网数据中心、金融数据中心、第三方托管运营数据中心、能源、交通行业用数据中心、医疗行业用数据中心,企业自建数据中心等行业数据中心与政府公共事业用(政务云)数据中心。第二章数据中心运维管理2.1运维管理概述2.1.1目标从数据中心角度来看,数据中心运维管理就是为提供符合要求的信息系统服务,而对与该信息系统服务有关的数据中心各项管理对象进行系统的计划、组织、协调与控制,是信息系统服务有关各项管理工作的总称。数据中心运维是数据中心生命周期中最后一个、也是历时最长的一个阶段。所谓生产运维期指的是从数据中心项目交付使用,直到项目废除的全过程,也就是项目进行生产运维活动,收回投资,以实现预期投资目标的周期。在此阶段的运维管理,将依托于数据中心已交付的基础设施,通过科学的管理,最终使数据中心得以实现服务与经济上的目标。简单地说,运维管理就是用好、管好已建设交付的数据中心。因此,在数据中心生命周期中,运维管理主要肩负起以下重要目标:合规性、可用性、经济性、服务性四大目标。➢合规性数据中心在运维管理过程中避免违反任何法律、法规、标准与合约文件等规定;在运维管理的管理框架设计与执行全过程能充分考虑有关文件的要求,并在运维管理过程中留下相应的记录,建立起相应的管理评估机制,以向利益相关方证明其能达到合规性的目标。➢可用性数据中心在运维管理过程中能保证数据中心各功能组件保持支持既定功能的能力,能准确识别相关功能组件,了解该组件的设计能力,定义与该组件技术特点相匹配的监控指标,并通过主动与被动的管理,最大限度地保证数据中心各管理组件的可用性。➢经济性数据中心在整个运维管理周期中实现数据中心预先要求的财务目标。通过合理的财务预算、成本分析等手段,准确、及时地分析、记录运维管理过程中的各项支出,制定相应的计价模式,将数据中心运维过程中的成本合理地分摊,使数据中心在运维管理上实现成本与其他管理目标的相对平衡。➢服务性数据中心应建立服务导向型的运维管理框架。要从服务的角度出发,分析客户与数据中心的各种交互界面,以此为源头构建各种管理流程,最终形成整体管理框架。2.1.2对象数据中心的运维管理指的是与数据中心信息服务相关的管理工作的总称。因此,在探索数据中心运维管理方式之前,必须要理清数据中心的运维对象,才能针对数据中心特定的运维对象建立相应的管理模式。本书将数据中心运维对象共分成5类:人员、管理工具、系统与数据、IT设备、基础设施。如图所示:2.2人员管理2.2.1组织架构数据中心运维组织按照企业属性和运维模式的差异而有所不同,通常以数据中心场地为工作地点,人员配置分为:(1)各专业主管工程师:负责对数据中心基础设施提供技术支持,解决技术问题,承担数据中心基础设施一般性的优化改造工程的项目管理工作,工作方式为5×8小时,并保证24小时远程技术支持。(2)巡检技术员:每4小时对基础设施进行巡检,担任值班及日常机电设备启停切换工作,以监控、巡检综合值守为主,第一时间收到故障告警或发现问题,作为现场处置的执行者,工作方式为7×24小时。(3)维护技术员:配合各主管工程师制定数据中心基础设施维护计划,按时完成各系统设备月度、季度、半年度、年度维护保养和日常的维修工作,并完成相应的维修、保养记录。工作方式为5×8小时。参考下图:2.2.2岗位职责划分人员类型包括:运维经理、电气主管工程师、暖通主管工程师、巡检人员、维护技术员等。部分人员及岗位职责要求参考下表:2.3流程管理2.3.1事件管理一、概述数据中心事件管理主要管控可能引起服务中断或服务质量下降的不符合设备管理系统服务标准操作的活动。这里的事件不仅包括软硬件故障,也包括服务请求。当处理多个事件时应根据事件的影响、紧急程度、解决事件的难易决定事件的优先级。如在协议时间内无法解决事件,还应考虑事件的升级流程。事件管理流程与问题管理、服务水平管理、变更管理、配置管理有着复杂的联系,在制定数据中心的事件管理流程时应充分考虑事件管理与这些流程的关系和接口。二、事件处理的流程图2.3.1.3事件处理流程规则(1)根据各类用户问题创建事件单:事件单包括用户信息、事件描述等基本信息。(2)在数据中心问题知识库中匹配解决方案,对事件初步判断。(3)对事件跟踪,传递事件,通知相关人员处理事件。(4)如果事件处理需要涉及变更,通知用户处理时间。(5)跟踪事件处理过程,直至事件闭环。(6)事件管理所涉及的所有人员都可以访问相关的信息,如已知错误、事件解决方案和配置管理数据库,应对重大事件分类并根据过程管理。(7)事件管理包括确定、记录、跟踪和纠正项目实施过程中出现的事件,并制定相应的解决方案以降低或预防事件的重复出现。2.3.2问题管理问题管理的目标是找出突发事件产生的根本原因,最小化突发事件和问题引起的负面影响,防止与错误相关的突发事件的再次发生。通过实施主动问题管理,在事件发生之前发现问题并解决,从而减少事件发生的数量。问题是导致一个或多个事件的根本原因,而这些根本原因还没有诊断出来。事件管理强调在给用户和公司的正常业务活动带来最小影响的情况下,尽快恢复到SLA中定义的正常服务级别。采取任何可能的方法,包括一个临时解决方案(应急措施)来快速地解决事件,尽可能确保最好的服务质量和可用性。与事件管理强调速度不同,问题管理则注重诊断事件的根源,确定问题的根本原因,从而制定恰当的解决方案,从根本上解决问题,防止类似事件的再次发生。事件管理为了尽可能快地恢复服务,往往会采用临时解决方案,问题管理比起事件管理则会花费更长的时间。一、问题识别与记录任何一个由未知原因引起的事件都与某个问题有关。问题的识别通常会发生在以下情况:在事件管理流程中没有问题和已知错误来匹配事件;通过分析发现该事件的再次发生,或者发生了重大事件;事件不能与现有问题或已知错误相匹配;通过对基础设施的分析,识别出导致事件的问题原因。问题记录和事件记录一样都被记录在配置管理数据库中,问题记录跟全部有关联的事件记录关联在一起。事件的解决方案以及临时解决方案的细节都应该被记录在问题记录中而不是事件记录中,以便它们可以用于将来有关联的事件中。二、问题诊断与处理通过问题诊断成功获取根本原因并找到解决途径后,该问题将转变为一个已知错误。问题调查除了与事件调查的目标不同外,其流程类似。问题调查的主要目的是找到问题根源,避免再次发生类似问题;在问题记录中还要更新与已知错误、解决方案和应急措施相关的信息。一旦诊断出配置项中的故障,那么该问题状态被转变为已知错误,然后开始进行错误控制。当一个问题被诊断为一个程序错误而不是配置项故障时,记录应该被更新为正确的代码然后关闭该问题,通常这样的问题不会转化成已知错误。一旦诊断完成,该问题状态转化为“解决方案”,然后通过变更管理来进行预防。三、问题的关闭在满足问题关闭规则指定的条件之后,关闭问题,同时可将关联的所有事件一同关闭。2.3.3故障管理在故障处理过程中,应遵循发现故障、确认故障、分析、处理、确认修复、消障、跟踪检查等流程,形成闭环管理。有条件的应采用电子化的故障工单闭环管理方式。根据故障造成的后果,故障可分为:重大故障、严重故障、一般故障和提示四个等级。运维人员通过故障告警来识别基础设施运行故障。故障告警应遵循严格的监控和处理规则,帮助运维人员高效监控、快速定位和处理网络故障,从而保证业务正常运行。动环系统监测到异常状态时,将故障告警显示在告警管理界面中。故障与告警级别对照表:故障处理流程参考如下:2.3.4应急操作管理明确基础设施系统发生故障时应急处理的组织架构、各岗位的职责,规范故障汇报程序和故障应急处理程序,建立保障和恢复应急工作机制,提高应对突发事件的组织指挥能力和应急处置能力,保证应急指挥调度工作迅速、高效、有序地进行,满足突发情况下基础设施系统保障和恢复的需要,确保安全运行。应急操作程序EOP用于规范应急操作过程中的流程及操作步骤。EOP主要包括供电中断、制冷中断、火灾、防汛、安防、信息安全等方面。当有异常情况发生时,需要多系统、多专业联动反应。在平时的演练中,应多个应急预案交叉启动,为应对可能出现的场景做充足准备。应急保障流程如下图:流程说明:(1)值班人员发现故障,启动应急程序,第一时间赶往现场。(2)根据故障处理规定向主管工程师通报。(3)各主管工程师根据故障现象确认是否有预案。(4)如果已有预案,主管工程师按预案要求逐步对故障进行处理。(5)确定需要厂家配合处理的,通报厂家,要求厂家现场支持。(6)运维主管工程师和厂家工程师根据设备异常状况制定设备应急处理方案。(7)运维经理审批实施方案并组织实施。(8)运维主管工程师在故障后2个工作日内提交故障分析报告给业主及运维经理。(9)针对该故障进行总结:分析故障产生的原因、总结方案实施效果,形成“应急故障处理报告”和该类故障应急方案并归档。部分应急演练项目列举如下表,包含但不限于:2.3.5变更管理数据中心的变更管理,是为在最短的中断时间内完成基础架构的任意方面的变更,而对其进行控制的服务管理过程。这里所指的变更,是指在维护过程中对系统或服务所做的各种改变。包括增补、移除和其他修改。变更管理的目的,是确保以受控的方式去评估、批准、实施和评审所有变更,确保标准方法和过程可以得到使用。阻止未授权的变更发生,使得变更风险可以降至最低,同时将变更相关突发事件的影响减到最小,并且确保所有变更都必须可跟踪和可追溯。变更分级建议:2.4运行管理2.4.1质量管理在机房基础设施运维过程中建立完善的质量管理体系,是保障数据中心基础设施运维趋于卓越的重要因素和手段。一、质量管理要素关键目标、质量过程管理与控制。(1)关键目标:是质量管理所基于的最终目标,是质量全过程的结果体现。主要通过客户满意度、可用性、能效等量化指标结合关键事件结果来进行衡量,同时要考虑质量成本限制等因素。(2)质量过程管理与控制:是质量控制中所采取的全部步骤,是质量全过程有效性的体现。质量过程主要体现在维护作业过程中,通过质量记录和文档来反映,其特征具有明显的统计性,可以利用抽样与全检来衡量。主要包括以下几个方面:设备故障率、故障处理及时率、作业计划执行率、单项作业完成质量、文档质量等。二、质量保证➢过程制定。➢程序制定。➢过程审核和批准。➢过程和程序培训。三、质量控制➢事件回顾。➢质量检查和检验。➢定期质量审核。四、质量改进➢故障分析。➢经验教训。➢优化及创新计划。2.4.2值班管理一、管理制度为规范指导数据中心基础设施技术值班人员工作,明确值班人员工作内容,数据中心应制定值班管理制度。值班管理适用于数据中心基础设施运维轮班工作。值班管理要求如下:(1)坚守岗位,不得串岗。(2)按相关运行管理标准作业规程对供配电、柴发机组、空调、给排水等系统进行巡查、保养、维修。(3)如遇特殊事件,应按突发事件处理程序进行处理。(4)运维值班监控中心实行7×24小时值班制度,每隔4小时对数据中心基础设施巡检,并记录相关数据。(5)值班人员应坚守值班岗位,认真完成相关作业计划,严格执行暖通、电气设备操作规程,及时、准确、完整地填写值班日志和各种规定的记录文档,按规定进行交接班,不做与值班无关的事。(6)定期清洁数据中心基础设施区域环境卫生,保持现场整洁,严禁将与生产无关的物品带入机房。(7)遵守故障处理规定,发现异常时应准确、迅速处理,并立即上报,不应以任何理由和借口推诿故障处理工作、拖延故障响应、处理时间;严禁任意关闭告警信号和删除告警的行为。(8)严格遵守安全保密制度。(9)两人及两人以上同时值班时,宜指定一人为值班长,负责值班期间的主导工作。(10)未经上岗考核或考核不合格的人员,不得单独承担值班工作,不得独立操作相关设备。二、交接班管理为规范指导数据中心基础设施技术值班人员工作,明确值班人员交接班工作内容,数据中心应制定交接班管理制度。交接班管理适用于数据中心基础设施运维轮班工作。交接班工作要求如下:➢接班人员提前5分钟到岗,和交班人员一起进行交接班准备工作,检查设备并确保各系统设备运行正常。➢确认值班室和设备房卫生状况。➢接班人员首先认真仔细地检查各设备的运行情况。➢发现异常情况时,应协同交班人员立即采取有效措施,并汇报基础设施工程师。➢交班人员填写交接班记录表,主动、简要地向接班人介绍基础设施运行情况及当班需跟进的事项,接班人应认真聆听,如有疑问可向交班人提问,直至双方清楚;交接班人员共同在交接班记录表上签字确认。➢接班人查看上一班的运行记录表,检查仪器、工具等物品是否齐全完好。➢交接双方认为无误后共同在运行记录表上签名确认。➢交接班的内容一律以记录和现场交接清楚为准,凡遗漏应交代的事情,由交班者负责;交接班双方都没有履行交接手续的内容,双方都应负责;对于数据中心内有外单位工程师现场施工调试时,交班者应带领接班人员到施工、调试现场进行技术交接,接班人员应继续跟进现场工作进度,并协调配合。有下列情况之一不能交接班:(1)上一班基础设施运行情况未交代清楚,记录不规范。(2)接班人未到岗,交班人不得离岗。(3)在设备操作和事故处理过程中。(4)若交接班过程中发生故障,应停止交接,由交班人负责处理事故,接班人协助。2.4.3机房环境管理为了塑造良好的企业形象,营造整洁、舒适的机房环境,规范环境卫生管理流程,数据中心应制定机房环境管理制度。数据中心环境管理范围包括:数据中心公共区域、数据机房区域、配套设施区域(监控室、配电室、备件库、办公室)。卫生清洁设备包括:空气调节设备、备用电源设备、配电设备、网络设备、消防设备等。数据机房区域包括:机房静压箱内清洁(地板下)、静电地板调平、静电地板配套部件安装补齐。一、数据中心卫生管理标准1.数据机房卫生标准(1)房间四周及地面,设备、管道、风道、电缆线架、灯具、电缆均无灰尘,外表干净无油污痕迹,机房出入口应备有鞋套和防尘垫。(2)机柜外部平台、孔洞无灰尘,外表干净无油污痕迹。(3)机柜内部电源线、终端线的线束干净、整洁,无灰尘,外表干净无油污痕迹。(4)机柜内设备表面无灰尘,外表干净无油污痕迹。(5)所有因清洁而临时拆卸或打开的机架、电路板、插件平台、过滤网、柜门以及插头(座)、连接线、接线柱、螺丝等附件无损伤且正确复位,相应标号清晰。(6)静电地板上无灰尘,外表干净无油污痕迹;静电地板地面平整,无晃动现象;静电地板静压箱内地面、管道、电缆无灰尘,外表干净无油污痕迹。(7)机房内空调风机、翅片及过滤网干净无积尘、油污。(8)机房标志标识清晰,无破损脱落现象;机房应防尘,窗户应密封、遮光;机房应做好防水、防火、防爆、防盗、防雷、防冻、防潮等工作。2.配套设施区域卫生标准(1)配电室。①房间四周及地面,设备、管道、风道、电缆线架、灯具、电缆均无灰尘,外表干净无油污痕迹。②房间内无非属该区域物品。③柜外部平台、孔洞无灰尘,外表干净无油污痕迹。④柜内部电源线、终端线的线束干净、整洁,无灰尘,外表干净无油污痕迹。⑤设备表面无灰尘,外表干净无油污痕迹。⑥地面无灰尘,外表干净无油污痕迹,地板下干净整洁无杂物。⑦区域及设备标志标识清晰可见,无破损脱落现象。(2)监控室及办公室。①地面应清洁干净,地面严禁有垃圾、杂物,也不许有文件堆放,地面无灰尘、无污渍。②墙面或墙角无灰尘,墙面不允许乱写、乱画、乱贴,整体墙面不允许有污渍。③监控台或办公桌椅及办公用品应保持无尘、无杂物,上班前清洁,下班后整理。④监控台或办公桌上文件档案、电话、电脑等设施应摆放整齐,干净有序。⑤员工下班前应将桌面文件资料整理上架入柜,桌面物品应摆放整齐、洁净。⑥办公椅应保持无尘,并在离开座位时将椅子摆放整齐。⑦电脑(含主机、显示器、鼠标、键盘等)无尘、无污垢。⑧垃圾桶应及时进行处理,防止因垃圾腐烂产生异味或招生小虫。⑨门窗及玻璃干净明亮,无灰尘、无污渍。(3)备件库。①备件库地面整洁,门窗、玻璃、墙面、货架、货柜清洁。②货架物品摆放整齐。③备件库无易燃、易爆等危险品存放。④物品及资产标签清晰可见,无破损掉落等显现。(4)公共区域卫生标准。①地面整洁干净无尘土、纸屑、无污水、泥浆、痰迹等杂物。②墙壁、角(地角线)无灰挂,灯具无灰尘整洁,墙壁无残痕、无污染。③卫生间整洁卫生、无残留、无异味、无积水。(5)卫生清洁作业要求。①清洁工作需满足机房设备带电需求。②清洁人员工作时必须佩戴安全绝缘用具。③清洁施工前必须根据机房和设备的具体情况制定切实可行的施工方案和安全操作规程并由业主确认后再实施。④清洁时必须由配电、空调、弱电等相关专业工程师全程参与清洁过程。⑤清洁操作人员必须经过严格培训,熟悉和了解被清洁设备的性能、结构,具有丰富的带电(在线)清洁实践经验,能够熟练地操作清洁工具、仪器、仪表;并能应对带电(在线)清洁过程中出现的异常情况,有效规避清洁可能引发的事故。⑥静电地板要以轻拿轻放为原则,防止地板损伤。⑦带电(在线)清洁前,必须对所使用工具、电气设备及电源进行认真检查,严禁携带不合格设备进场作业。⑧登高作业时,严禁脚踩铁架、机架、上下电缆走线架、端子板、弹簧排等;严禁攀登配线架支架,如需在1.5米以上(含1.5米)的高度作业时,需做好防护措施。⑨带电作业时,使用的金属工具应用绝缘胶布或绝缘塑料带缠绕。清洁人员必须将身上诸如手表、钥匙、项链等金属品除下,以防引起电源短路。⑩清洁作业时,携带易燃品,不得抛掷工具、器材及其他物品。有较长的器材不准竖立到墙上,以免器材倾倒砸伤人员或砸毁设备。⑪清洁现场应备有可靠的消防设备、安全灯、充足的照明、急救药品和劳保用品。清洁人员应掌握基本的灭火知识和技能。⑫清洁作业时,禁止在被清洁设备上进行其他工作。⑬清洁完毕离开现场前,必须清理作业现场,切断施工电源,检查火源及其他不安全因素,确认安全后才能离开工作现场。二、数据中心环境卫生清洁周期及计划数据中心卫生清洁计划不单独设定计划表格,可随预防性维护管理要求,进行计划安排,但检查及清洁周期不应低于以下要求:(1)数据中心公共环境卫生每日清理一次。(2)数据中心配套设备区域卫生每月清理一次。(3)数据中心数据机房区域卫生每季度清理一次。(4)数据机房IT设备卫生每半年清理一次。三、数据中心环境卫生及安全检查为确保数据中心环境卫生满足使用需求,发现数据中心安全隐患,由数据中心基础设施运维部门及IT部门组成卫生及安全检查小组,对数据中心环境卫生及安全隐患进行检查(如:可燃物、设备包装、非属该区域物品、液体、热水壶、微波炉等),对检查过程发现的问题进行记录,并派专人进行处理。在检查过程中,除对卫生及安全隐患进行检查外还需对数据中心门、窗的密封性进行检查。2.4.4机房用电管理加强机房用电管理,规范机房供用电行为,杜绝违章用电、私自用电、不符合流程用电给机房安全运行带来的潜在隐患。确保机房安全可靠供电,保障机房运行安全。本章节主要介绍数据中心机房范围内的用电管理。一、设备加电(1)收到加电申请表后,确认所加负荷所属电力系统。(2)确认新设备所需负荷,查看新安装设备所需额定电流及额定功率。要求设备所标参数与加电申请表标注相一致。(3)检查新设备电源模块、配电柜外观完好,标识齐全;柜内无电缆线头,废旧纸张及扎带等其他杂物。(4)核实新设备所在系统容量,查看系统总容量及现有运行负荷,计算剩余容量是否满足新设备负荷需求。系统总容量>现有负荷+新设备所需负荷+备用负荷(电池充电)。(5)检查所接开关容量满足新设备满载需求。(6)交流设备加电前,要核定系统三相平衡状况,检查系统现所带负荷三相是否平衡(三相电流间任意两相差值<总开关容量的5%)。(7)核实新设备主备路不同源,确认新设备的主备路上一级来自不同路由,确保不会出现单点故障。(8)检查电缆及压线是否符合相关规范要求,电缆与开关(熔丝)压线处无毛刺,无裸露部分,电缆有护套,压线紧固,布线整洁规范,不受外力。(9)检查线路是否存在短路隐患,用仪表测量开关(熔丝)到设备间有无相间及对地短路现象。(10)检查路由标签一致,无模糊污损现象。(11)用仪表测量新设备电压是否满足要求。(12)执行加电,为新设备合上出线开关,待相关人员开启设备后,观察负荷状况,并再次确认所提供电源电压情况。(13)填写加电检查表和加电申请表,要求字迹清晰,记录完整。二、设备下电(1)接到下电申请表后,确认下电设备与所在系统。(2)确定下电设备路由编号:①当线缆两端的路由编号统一时,用仪表测量下电设备上端开关电流,确认设备与其对应开关路由相符。②当线缆两端的路由出现差异、污损、模糊时,可以用启动设备的方式,确定设备与其对应的开关。(3)确认本开关下已无其他设备,断电不会对其他设备造成影响。(4)检查设备已停止运行,设备处于关闭状态。(5)实施退电,拉开设备对应出线开关。(6)再次确认下电未对其他设备造成影响。(7)填写下电检查表和下电申请表,要求字迹清晰,记录完整。三、用电安全(1)所有电源设备安装、操作及参数修改的人员,都必须经过专业培训,考试合格后,才能上岗。(2)项目所有现场人员要按规定穿戴劳保用品,工作应认真负责,具有专业的技术知识和较强的安全意识。(3)操作电源设备应熟悉其性能和使用方法,不得任意开停电源设备,严禁在电源设备上放置物品。(4)项目电气操作人员要保证电源设备的整洁、完好,防止受潮,禁止用脚踢配电设备或用湿手操作配电设备,操作时必须摘除身上所佩戴的金属物件。(5)打扫卫生、擦拭设备时,严禁用水冲洗或用湿布擦拭电气设施,以防止短路和触电事故。做好防护措施,必要时佩戴绝缘手套进行清洁。(6)电源设备在操作过程中,发生打火、异味、发热、异声等情况时,应立即停止操作,并立即查明原因,必要时应立即断电隔离故障设备电源,并及时通知厂家处理,确认故障排除后才可重新投入运行。(7)接触电源必须有可靠的绝缘措施,并按规定严格进行检查,防止触电事故的发生。有高电压的场所、电缆裸露的地方,应设立醒目的危险警示标志,并采取有效的隔离措施,防止电击事故发生。(8)电源设备发生事故,应立即切断电源,采取有效措施隔离事故设备,防止事故扩大,并及时报告有关负责人,以便组织人员抢修、事故调查、分析和处理。2.4.5场地配置管理应在数据中心工程设计阶段初步建立基础设施配置文档;在建设测试验收环节进行验证确认;在运维阶段将基础设施配置文档作为场地运维重要的指导文件,通过变更管理持续更新,确保与系统最新状态相一致。2.4.6设备运行管理一、设备状态管理设备状态包括工程状态、维护状态和运行状态三个基本方面,运维管理的重点是维护状态和运行状态。二、超期服役管理超期服役设备指继续在网上运行的超过设计使用年限的设备。一般根据厂家提供的使用年限数据或企业维护规程确定的使用期限来界定。2.4.7关键设备全生命周期管理为树立关键设备全生命周期管理理念,解决数据中心基础设施关键设备管理中存在的问题,促进数据中心资产优化配置,从而实现关键设备生命周期内价值最大化,数据中心应制定关键设备全生命周期管理制度用于数据中心基础设施中的关键机电设备。一、关键设备的定义数据中心基础设施中的关键设备为数据中心安全、稳定、可靠地运行起着十分重要的作用。主要表现在以下几方面:1.生产运行方面如果供配电或暖通关键设备发生故障,可能会导致严重后果,使数据中心处于严重风险环境中运行,甚至会造成大范围IT设备的故障停机及数据服务中断。2.安全管理方面如果消防或安防关键设备生发故障,可能会导致其系统功能丧失,严重影响数据中心运行环境安全、人身安全或信息安全,甚至同样会造成大范围IT设备的故障停机,数据服务中断。二、关键设备全生命周期制定从数据中心基础设施运维角度来看,设备生命周期是指设备从正式投入使用时起,一直到因设备功能完全丧失而最终退出使用的总的时间长度。设备的生命周期通常是设备进行更新和改造的重要决策依据。因此根据生命周期的特性,将关键设备生命周期分为三个阶段:设备磨合期、设备稳定期、设备损耗期。而制定关键设备生命周期的主要依据来源于以下几方面:(1)关键设备供应商提供设备运行使用规范,维护保养要求及各个阶段维护建议。(2)设备所属行业提出设备运行使用建议或维护保养规范,以及国家或国际制定设备设计要求。(3)数据中心基础设施运维团队长期、深入地运维实践,总结归纳的关键设备运行维护经验。三、关键设备全生命周期管理关键设备全生命周期管理是为了提高数据中心基础设施运行稳定性、安全性及可靠性,最大限度地降低数据中心运行的能耗成本,并且最终延长关键设备的使用寿命,降低数据中心运营成本,因此就针对设备全生命周期中不同的三个阶段,制定不同特色管理方式,从而达到以上目的。设备生命周期管理就分为:一是设备磨合期管理,二是设备稳定期管理,三是设备损耗期管理。1.设备磨合期管理设备开始使用的第一阶段,一般故障率较高,但随着设备使用时间的延续,故障率将明显降低,此阶段称为设备磨合期。此期间的长短随设备系统的设计与制造质量而异。针对这个阶段设备运行使用特点,关键设备运维管理需做好以下几个方面:(1)根据设备供应商维护建议或设计要求,梳理设备的使用、管理及维修等相关工作信息,建立完备的设备运行维护数据库系统,制定覆盖设备生命周期的预防性维护制度,以及相配套的运行管理、事件管理、配置管理等制度。(2)针对处于磨合期中的基础设施关键设备,制定与之相对应设备巡检、维护计划及内容,比如:增加巡检频次或维护周期,加大巡检深度或维护范围等。(3)参考设备供应商建议以及以往的运维经验,对关键设备易发的初期故障告警进行重点值班关注并针对其制定相应的应急方案,完成培训演练。2.设备稳定期管理设备使用进入第二阶段,故障率大致趋于稳定状态,趋于一个较低的定值,表明设备进入稳定的使用阶段,故称此阶段为设备稳定期。虽然在此期间处于一个相对稳定运行的阶段,而此阶段也是有效延长设备生命周期最佳时期,也是故障随机突发、无一定规律的时期。因此必须做到以下几方面:(1)基础设施运维人员首先必须遵守设备各项操作流程,禁止违规操作,采取措施降低设备的误操作,杜绝设备风险运行。(2)关键设备责任人应针对设备运行状态,阶段性调整设备的预防性维护项或维护周期,并优化所有为确保设备稳定运行所制定的相关管理制度,如日常运行、预防性维护等。(3)在这个阶段,依据系统科学的管理方法,分析设备使用过程中造成设备老化的人为因素,通过设备轮转方式,延长其使用寿命。(4)通过长期的使用和经验积累,总结出关键设备最基本的数据,例如:性能指标、使用环境、故障发生率、运行成本等,并对这些数据进行分类和统计,对设备的系统综合性和设备的整体性有全面的了解和评价。3.设备损耗期管理设备使用进入后期第三阶段,经过长期使用,故障率再一次上升,且故障带有普遍性和规模性,设备的使用寿命接近终了,此阶段称设备损耗期。在此期间,设备零部件经长时间的频繁使用,逐渐出现老化、磨损,以及疲劳现象,设备寿命逐渐衰竭,因而处于故障频发状态。因此,在此期间须做好以下几方面:(1)根据这个阶段的特点,制定出针对基础设施中可修复使用关键设备的大修改造计划,从而在一定程度上延长该设备生命周期。具体实施依次为:大修改造范围确定、大修改造工程立项、申报程序及计划编制、大修改造工程审批、大修改造工程资金使用、大修组织准备、施工准备、施工管理及竣工验收。(2)针对处于损耗期的关键设备,也须对其制定的设备巡检、维护计划及内容进行调整,比如:增加巡检频次或维护周期,加大巡检深度或维护范围等。(3)根据这个阶段的频发故障特点,调整关键设备的备件备品储备数量或储备方式,应对紧急状态下的关键设备故障修复。(4)根据整体已达到使用寿命,故障频发,影响到系统的可靠性,其维修成本已超出设备购置费用时,必须进行设备的拆除与报废的关键设备运行的风险评估,制定出相应关键设备更新计划。2.5维护管理2.5.1维护操作管理维护流程是设备维护工作的依据,数据中心管理者首先要保证各维护流程的正确性、完整性和全面性,同时通过反复的培训和演练使运维人员对流程充分熟悉和理解,并在实际工作中严格执行。维护操作流程MOP包括了设备的预防性维护、保养等流程内容,通常MOP会包含SOP的部分条目。预防性维护对达成可用性目标至关重要,其作用包括:让设备运行保持在接近新设备的状态;在故障发生前对潜在隐患进行定位和处理;延长设备使用寿命。2.5.2维护作业管理为规范指导数据中心基础设施维护技术员工作,明确维护作业内容及要求,数据中心应制定维护作业管理制度,用于数据中心基础设施维护保养工作。维护作业要点:(1)运维工程师应根据规定的设备维护测试项目和周期,结合具体情况,制定年度、月度作业计划,填写年度作业计划表和月度作业计划表,作业计划内容应根据设备的变动而及时修订。年度、月度作业计划内容及执行周期均需经过运维经理的审批。(2)维护人员应根据规程、指标、操作手册和设备说明书的规定,严格按照维护周期执行各项维护作业,维护作业计划所列项目和周期不得私自更改。(3)维护人员在完成作业计划后,应记录完成情况和预检前后的数据,作业记录应记入相应文档并留档保存。(4)维护作业记录要求:①维护记录必须真实、准确、齐全。②维护人员应按规范填写维护记录和值班日志,包括事件、时间、地点、现象、数据、处理经过、责任人、处理人等。维护记录和值班日志应详细记录设备的运行状态以及维护工作过程,反映维护工作的全面情况。③维护记录必须描述清楚,严禁漏记、错记、隐瞒不记和事后涂改。④数据中心各主管工程师应定期对维护记录和值班日志进行检查,对存在的问题及时组织改进。⑤数据中心经理应定期或不定期抽查数据中心维护作业记录。2.5.3能效管理及优化方案一、动力系统、空调系统运行效率提升方案1.通过选择当前实际工况下适宜的运行模式,提升动力系统、空调系统运行效率在设计工况下,动力系统、空调系统运行效率最高,但是在不同阶段,实际工况与设计工况会有不同程度的偏离,偏离程度直接影响动力系统、空调系统的运行效率。在实际工况的一定情况下,选择适宜的运行模式,使投入运行的动力设备的运行工况,按照或尽可能接近设计工况,能够提升动力系统、空调系统运行效率。2.通过电网谐波治理,提升动力系统、空调系统运行效率电网谐波不但会影响动力系统、空调系统运行安全,而且也是造成电网能耗浪费的重要途径之一,通过定期测评电网谐波情况,及时通过有源滤波器或无源滤波器进行谐波治理,能够提升动力系统、空调系统效率。3.通过合理使用设备节能功能,提升动力系统、空调系统运行效率现在越来越多的配电设备都具有节能功能,比如直流电源,根据后端负载情况,使得一部分整流模块处于休眠状态(热备份状态),可以实现节能。因此,通过合理使用设备节能功能,能够提升动力系统、空调系统运行效率。4.通过科学合理使用配电设备,提升动力系统、空调系统运行效率配电系统三相负载均衡性,对于配电系统运行安全和效率都很重要,比如在负载一定情况下,如果三相负载不平衡,负载过大的相线会因为过热导致能耗;比如UPS三相负载不平衡,会影响UPS运行安全和因为相间环流造成不必要的能耗。因此,通过合理分配负载等方式,能够提升动力系统、空调系统运行效率。5.通过加强日常巡视和及时故障处理,提升动力系统、空调系统运行效率设备处于故障状态时,此时设备功能处于暂时丧失或低效率工作模式,通过加强日常专业巡视,及时发现和消除安全隐患,避免故障发生或降低故障概率,能够提升动力系统、空调系统运行效率。6.通过日常维护保养和定期专项预防性维护保养,提升动力系统、空调系统运行效率通过日常维护保养和定期预防性维护保养,比如月度、季度、半年度、年度专项预防性维护保养和定期更换耗材等,使得动力设备处于高效率状态运行,能够提升动力系统、空调系统运行效率。7.通过系统及时升级或改造,提升动力系统、空调系统运行效率随着技术更新和升级,许多配电设备在节能性能方面不断得到提升,及时了解相关信息,及时进行系统升级或改造,能够提升动力系统、空调系统运行效率。8.通过运维人员技术培训,提升动力系统、空调系统运行效率通过对现场运维人员进行技术培训,使其对现场动力系统、空调系统技术上更加熟悉、操作上更加熟练,在提高运维人员工作效率的同时,能够提升动力系统、空调系统运行效率。9.通过对动力系统、空调系统进行测试评估,提升动力系统、空调系统运行效率通过定期进行动力系统、空调系统测试评估,除了能够提升动力系统、空调系统安全性能,也能够提升动力系统、空调系统运行效率。10.通过建立长期有效的运维机制,提升动力系统、空调系统运行效率建立长期有效的运维机制,及时更新和补充新的有助于提升动力系统、空调系统的制度,通过这样一种长效机制,才能使得动力系统、空调系统长期处于高效稳定状态。二、机房PUE降低方案1.充分认识和理解PUE有助于降低PUE(1)PUE(PowerUsageEffectiveness)能效指标:PUE=(TotalFacilityPower(数据中心总能耗))/(ITEquipmentPower(IT设备总能耗))=(IT设备能耗+制冷用电负荷+供配电能耗+其他能耗(照明等))/IT设备能耗=1+制冷能耗因子+供电能耗因子+其他能耗因子该指标反映的是数据中心的总体能源使用效率,体现了基础设施能效的高低,对选择机房空调系统、供配电系统,以及设计和构建数据中心的基础设施有很大的指导意义,同时对机房节能这一系统工程提供了必要的数据研究基础。(2)PUE决定数据中心的OPEX(运行成本)和TCO(总体拥有成本)。(3)降低数据中心PUE值的核心:降低空调能耗因子。降低供电能耗因子。降低其他能耗因子。(4)数据中心节能三定律:①IT设备节能是机房节能的基础,采用低能耗主设备是最重要的机房节能措施:IT设备能耗是数据中心总能耗最主要的决定因数随着PUE标准的采用,IT设备能耗占数据中心总能耗的比重会越来越高。②空调设备节能是机房节能的关键:采用空调系统节能综合方案是机房节能的关键。③供电系统节能是机房节能不可缺的要素:采用高效率的供电系统是机房节能不可缺的要素。2.利用能源管理系统降低PUE能耗管理系统能够集成信息录入、能耗查询、异常报警、统计分析、能耗预测、节能管理、节能评估等功能,通过实现电能的集中管理和分析,为数据中心能耗管理、降低PUE、节能减排等提供一套完整的解决方案。3.通过电网谐波治理降低PUE谐波电流不产生有功功率,产生热损耗,因此通过谐波治理可以降低PUE,而且是在配电系统环节,降低PUE的主要途径之一。数据中心规模越大、电网质量越差、配电系统中非线性负载越多,通过谐波治理,降低PUE的效果越客观。有源滤波器比无源滤波器谐波治理的效果更好。4.通过新技术降低PUE通过结合使用高效模块和休眠功能,能够显著降低直流电源能耗。5.通过树立节能理念和建立节能制度降低PUE通过树立节能理念和建议节能制度,比如合理使用电梯、灯光照明等,能够降低PUE。6.通过提升动力系统降低PUE通过提升动力系统、空调系统运行效率和管理水平,降低PUE三、动力系统、空调系统能效管理水平提高方案(1)加强人员技术培训,使其了解和熟悉相关设备和系统。(2)加强学习和交流,使相关人员能够及时了解业内先进技术和管理模式。(3)建立有效的考核机制,促进相关人员主动提高自身业务能力。四、节能减排方案(1)通过提升动力系统、空调系统运行效率,进行节能减排。具体措施和方案,详见如上动力系统、空调系统运行效率提升方案。(2)通过提高动力系统、空调系统能效管理水平,进行节能减排。具体措施和方案,详见如上动力系统、空调系统能效管理水平提高方案。(3)通过建立节能目标和考核机制,促进节能减排。总之,提升动力系统、空调系统运行效率、节能减排、降低PUE是相互关联的。通过提升动力系统、空调系统运行效率,提高动力系统、空调系统能效管理水平,采取节能减排措施,能够降低PUE。2.6安全管理安全主要分为三大类:第一类特指人身安全,第二类特指资产安全,第三类特指信息系统安全,包括以下内容:人身安全:进入数据中心的所有人员应遵守该数据中心相关的安全管理条例和流程,运维人员的人身安全永远放在第一位。资产安全:进入数据中心的所有人员应遵守该数据中心相关的资产管理条例和流程。信息安全:数据中心工作人员不得以任何名义私自泄露相关信息,未经授权,其他相关人员不得访问非授权信息资产。2.6.1基本要求(1)数据中心应有明确的安全管理责任人。(2)数据中心机房内禁止吸烟,严禁存放和使用易燃易爆、剧毒及腐蚀性物品。(3)维护人员严格遵守安全制度,认真执行用电、防火的规定,做好防水、防火、防爆、防盗、防雷、防冻、防潮等工作,确保人身和设备的安全。(4)数据中心应制定发生火灾和紧急情况下的应急流程,明确分工,加强配合。在发生火灾和紧急情况下不发生混乱,机房值班人员和维护人员应加强防火安全学习,数据中心每年不少于两次组织进行防火救火操作演习,定期进行安全防火检查。一旦发生火情,按照制定的灭火流程进行处理,并立即报告。(5)机房必须配备一定数量的消防器材和防护用具。各种消防器材和防护用具应按规定定点放置,到期的灭火装置及时更换,保持有效,加强对消防设备维保公司的管理。机房走线孔洞必须及时用防火材料进行封堵,机房值班保安人员和维护人员必须熟练掌握灭火常识和消防器材的使用。(6)各机房应在显眼处粘贴消防逃生示意图和机房灭火流程。2.6.2人员安全一、人员分类1.直接进出人员指具备数据中心进出权限(门禁卡、门禁密码)、需长期进出数据中心的内部工作人员,主要包括以下类别:√A类:数据中心IT运维管理及值班人员。√B类:数据中心基础设施管理及值班人员。√C类:相关领导。√D类:通过授权在数据中心常驻的各公司员工。进出人员清单由数据中心基础设施管理人员在出现直接进出人员权限变动时更新,每月由数据中心基础设施中心运维经理进行确认。2.间接进出人员指不具备数据中心直接进出权限、因工作关系需要临时进出数据中心的内部及外部人员,在通过相关申请通道的审批同意后,由具备直接进出权限的相关人员带领进出数据中心。主要包括以下几种类别:√A类:公司内部各部门因维护设备、故障处理或其他工作原因需要临时进入数据中心的内部员工。√B类:因工作关系需要进入数据中心的基础设施、IT设备与应用系统、综合布线、装修、保洁等相关服务商维护人员、工程施工人员和管理人员。√C类:快递公司等外部需要进入办公区域的服务人员。√D类:根据安排来数据中心参观的人员。二、职责1.数据中心基础设施运维团队数据中心直接进出人员进出权限的发放、登记、变更和注销。数据中心门禁系统及数据中心保安岗执行情况的管理。负责基础设施部分间接进出人员在数据中心内的安全控制管理。组织起草并更新、维护数据中心进出管理相关制度。2.数据中心保安值班人员负责已授权的数据中心人员、物品进出安全管理,严格禁止非授权人员、物品进出,维护数据中心的物理安全运营环境。3.运维经理每月确认数据中心直接进出人员清单。三、管理程序1.进出权限管理(1)区域权限划分:数据中心进出人员根据工作内容被赋予进出相关区域的相应权限,其他无关区域不得越权进出。(2)进出权限申请:凡需进出数据中心的直接进出人员,可按照数据中心进出权限申请流程提交申请,并填写《数据中心进出权限申请表》作为附件。申请通过后数据中心基础设施管理人员根据申请人分配的权限对申请人员员工工牌添加相应进出权限。(3)数据中心进出权限变更数据中心直接进出人员因工作区域发生变化等原因需要进行权限变更、注销,可按照数据中心进出权限变更流程提交申请,并填写《数据中心进出权限申请表》作为附件。审批通过后由数据中心基础设施管理人员进行权限变更。(4)数据中心进出权限记录数据中心进出权限(包括进出卡、指纹信息)与其持有人具有唯一的对应关系,直接进出人员的进出记录均保存在数据中心门禁系统内,每月由数据中心基础设施工程师检查门禁系统访问权限分配,及时删除不必要的访问权限并提取权限清单报中心经理审批确定。直接进出人员须牢记数据中心安全责任承诺,妥善保管进出卡,严禁转借他人使用;如进出卡不慎遗失,应第一时间办理挂失手续。2.临时进出数据中心间接进出人员因工作原因需要在某段时间内进出数据中心,可由对应内部员工按照数据中心临时进出权限申请流程提交申请。申请内容主要包括对此间接进出人员何时进出数据中心、对何对象进行何动作授权,及统筹工作安排(含风险评估及风险预案内容),审批通过后由数据中心值班人员授权临时进出卡,并登记使用人员相关信息备案,使用结束后交还给数据中心值班人员。3.数据中心参观来访宾客如要进入数据中心参观,必须由内部员工作为申请人,提前两个工作日按照数据中心参观申请流程提交申请,列明来访原因、到访时间、参观区域等信息,审批通过后由数据中心运维组人员安排现场参观。4.人员进出登记制度(1)间接进出人员进出数据中心,必须在保安岗一一进行登记,参观类来访人员及物流搬运人员可以由一名代表进行登记。(2)保安值班岗应督促间接进出人员在“访客登记表”上登记,包括姓名、单位或部门、进入时间、来访目的、进出区域、携带进出的物品及人数等相关信息。间接进出人员中的员工需提供工牌进行信息录入,外单位人员需提供有效证件(身份证或护照或社保卡或驾照)进行信息录入。(3)间接进出人员离开数据中心,应主动在“访客登记表”中登记离开时间,保安值班岗位应确保“访客登记系统”各项内容的真实和完整。(4)保洁人员及相关管理人员可凭专用门禁卡出入被授权区域,未授权区域可免登记由数据中心值班人员带领进出。外来人员进出管理流程图5、间接进出人员管理(1)当来访者要求对数据中心或者其他包含有敏感信息的工作区域进行访问时,应事先向数据中心管理部门提出申请,在获得进入许凭证后(许可凭证:管理部门审批通过的授权文件),由数据中心运营当班人员在规定的时间段内带领进出数据中心。但如需进入新机房外来人员(除运送货物至库房区域外来人员)必须先通过安检门检测,通过安检门人员及物品需服从值班保安管理。(2)来访人员到达数据中心后,需在指定区域做维护前准备工作或者休息,其他办公区域未经许可下禁止逗留。(3)涉及间接进出人员在每日23:00至次日8:00进入数据中心工作的需要提前做好准备工作,如IT设备上下架、调试等工作。(4)进出数据中心人员须注意进门后门禁的闭合情况,严禁将机房门保持常开状态。数据中心值班人员应留意各机房门禁闭合状态,发现问题及时处理。(5)对于未经授权进入的区域,来访人员不得随意进入或尝试进入。一经发现,将向客户有关方及数据中心的领导进行通报,如果情节严重,数据中心有权取消其访问权限。(6)未经批准,任何人员都不得在数据中心内拍照、摄影(除机房工作人员因工作需要外),或将数据中心内的任何物品携带出数据中心,且不得将软件版本、技术档案、内部资料等秘密以上级别的文件等携带出数据中心或对外泄密。(7)进入数据中心人员如需对设施、IT设备进行硬件维护、装卸或需移动光纤、网线、电源插座、电缆线等,均须先告知数据中心运维当班人员,并在其指导下进行。(8)数据中心内线缆和静电地板不允许随便触动;需要拉接电源线、网络线等强弱电线路,须通知数据中心规划管理人员,由其统一规划和分配插座、端口,并由数据中心运维人员安排实施;严禁私自揭开地板,乱拉电源线和网络线。(9)所有外来人员进入数据中心IT设备区域,一律不得携带背包,所有需进出数据中心区域内的物品,按物品进出管理制度执行。(10)涉及设施、IT设备维护的人员维护结束后,在离开数据中心前,若有登录相关服务器的须退至安全口令上一级,并等待IT设备相关管理组人员确认无误后,再在保安值班岗处办理离开手续后方可离开数据中心。(适用于A、B、C、D类间接进出人员)2.6.3物品安全(1)保安值班岗位负责对数据中心的物品进出情况进行监督,确保符合物品进出相关管理要求。(2)数据中心内不得带入食品和饮料及与工作无关的物品(包括个人手提袋)。(3)严禁携带易爆、易燃、易破碎、易污染等危险品和可能干扰计算机IT设备的强磁场物品进入数据中心。(4)所有需带入数据中心IT设备区域内的物品,都需放入由保安人员提供的篮子内带入,进出前后由保安值班人员清点;个人物品统一存放至储物柜。(5)严禁携带未经授权的个人笔记本与数码相机进入数据中心,如需使用请填写《数据中心工具借用登记表》向数据中心运维当班人员借用。(6)非个人物品带出数据中心,须凭物品放行条,涉及数据安全隐患的磁性介质类IT设备还需要经过运维值班人员消磁处理,由保安值班人员核验无误后方可放行。2.6.4信息安全数据中心保密制度:(1)数据中心应制定相关的安全保密制度,加强对数据中心维护和管理人员的安全、保密教育,不得擅自抄录、复制、拍照设备图纸、机房系统图、涉密文件、软件版本、技术档案、用户资料、内部资料等,不得将其携带出指定区域。(2)外来人员进入机房必须遵守机房管理规定和机房安全规定,未经允许不得触摸设备及终端,不得翻阅图纸资料。(3)所有维护和管理人员,均应熟悉并严格执行安全保密规定,定期检查安全保密规则的执行情况,发现问题隐患及时处理。(4)不得泄露有关数据中心的秘密、机密、绝密信息,包括数据以及文件等。(5)不得泄露服务器客户资料如账号、密码等信息,严禁盗用其他客户的账号和IP地址。(6)未经授权,任何人都不得进入数据中心非公开区域,不得接触和使用数据中心或其他客户的IT设备,不得干扰和妨碍数据中心或其他客户的正常工作。(7)未经授权,任何人不得变换数据中心内网络及计算机等IT设备的安装环境,不得擅自更改网络及服务器等IT设备的各项参数。(8)严禁随意挪用、变换和破坏数据中心内的公共设施。(9)配合数据中心管理人员和保安人员进行必要的安全检查。如有违反安全保密制度的情况,将视其情节轻重,根据数据中心管理规定,对当事人进行必要的处理。如果该行为构成犯罪的,将申报至公司法律和安全部门追究相关法律责任。(10)临时进出机房的厂家人员等应每天事先至值班室登记,用身份证等有效证件换取临时工作证,领取鞋套,由专人陪同带领至工作地点,当日工作完毕至值班室领回身份证件。2.7资源管理2.7.1配件与备品管理为建立、健全数据中心基础设施配件与备品的管理工作,科学地管理和使用备品备件,充分发挥配件在基础设施运维中的作用,数据中心应制定配件与备品管理制度,用于数据中心基础设施运维部门的配件、备品管理工作。一、配件分类及库存量1.配件分类仓库配件按照专业分类有:供配电专业、消安防专业、空调暖通专业、弱点专业;各专业按照配件存储类型分类有:库房存储、设备冗余、应急采买、供应商保障。说明:库房存储是指在本项目内部库房中有或者可以通过采买长期存放于库房的备件。设备冗余是指机房设备有冗余系统或同类设备在冷备用状态,可以拆换或者通过冗余系统直接代替。应急采买是指在附近超市、市场短时间可以采买的配件。供应商保障是指价值较大或者以上三种方式不能实现的,由设备供应商提供配件,配件存放于供应商仓库,但必须在规定时间内提供相应配件。2.配件库存量(1)配件库存量(应有量)=设备配件总量×5%。(2)配件实际库存量低于应有量80%时,应开始申请配件采购;配件时间库存量低于应有量60%时,应立即进行采买。3.配件的仓库管理(1)配件的申购。①配件的购买由配件管理人员填写物料申购单,经各审批人员审批完成后交由采购人员采购。②配件的采购需经仓库管理人员确认仓库没有物料或后物料不够,并在物料申请单上签字后方可采购。做到既保证合理库存又满足维修需要,防止积压浪费,避免供不应求。③配件的采购应力求采购成本和库存成本达到最佳组合。(2)配件的入库管理流程。①配件进入公司后,采购人员应将经各相关人
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 深度解析(2026)《GBT 328.23-2007建筑防水卷材试验方法 第23部分:高分子防水卷材 接缝剪切性能》
- 酒精原料粉碎工冲突解决评优考核试卷含答案
- 信息通信网络线务员风险评估与管理考核试卷含答案
- 烧结成品工安全生产意识模拟考核试卷含答案
- 化工造粒工安全知识宣贯测试考核试卷含答案
- 蒸煮熏烤制品加工工安全知识宣贯水平考核试卷含答案
- 巧克力原料处理工安全技能测试模拟考核试卷含答案
- 己二酸他雷替尼临床应用考核试题
- 麻纺生产车间清洁规程
- 沈阳市政府数据开放:问题剖析与对策探寻
- 2026云南省投资控股集团有限公司招聘168人笔试历年参考题库附带答案详解
- 2026年中医骨伤科(正-副高)试题(得分题)附答案详解(完整版)
- (2025年)电工三级安全教育试题及答案
- 2026春夏·淘宝天猫运动户外鞋服趋势白皮书
- 《陆上风电场工程概算定额》NBT 31010-2019
- 浙江省消防技术规范难点问题操作技术指南(2020版)
- 重庆理工大学材料成型技术基础试题
- 儿童生长发育与矮小症讲座
- 《联合国海洋法公约》(中文完整)
- GB/T 3840-1991制定地方大气污染物排放标准的技术方法
- GB/T 307.2-2005滚动轴承测量和检验的原则及方法
评论
0/150
提交评论