数据中心基础设施集中管理方案_第1页
数据中心基础设施集中管理方案_第2页
数据中心基础设施集中管理方案_第3页
数据中心基础设施集中管理方案_第4页
数据中心基础设施集中管理方案_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 33/33 数据中心基础设施集中管理方案目 录 TOC o 1-3 h z u HYPERLINK l _Toc507780001 1.项目概述及需求理解 PAGEREF _Toc507780001 h 4 HYPERLINK l _Toc507780002 1.1.项目背景简介 PAGEREF _Toc507780002 h 4 HYPERLINK l _Toc507780003 1.2.项目管理范围 PAGEREF _Toc507780003 h 4 HYPERLINK l _Toc507780004 1.3.项目建设原则 PAGEREF _Toc507780004 h 5 HYPERL

2、INK l _Toc507780005 1.4.项目建设目标 PAGEREF _Toc507780005 h 6 HYPERLINK l _Toc507780006 1.5.解决方案概述 PAGEREF _Toc507780006 h 7 HYPERLINK l _Toc507780007 2.系统架构及实现原理 PAGEREF _Toc507780007 h 11 HYPERLINK l _Toc507780009 2.1.基础设施管理 PAGEREF _Toc507780009 h 11 HYPERLINK l _Toc507780010 2.1.1.资产管理 PAGEREF _Toc50

3、7780010 h 11 HYPERLINK l _Toc507780011 2.1.2.容量管理 PAGEREF _Toc507780011 h 16 HYPERLINK l _Toc507780012 2.1.3.能耗管理 PAGEREF _Toc507780012 h 18 HYPERLINK l _Toc507780013 2.2.基础设施集中监控 PAGEREF _Toc507780013 h 21 HYPERLINK l _Toc507780014 2.2.1.UPS监控 PAGEREF _Toc507780014 h 21 HYPERLINK l _Toc507780015 2.

4、2.2.蓄电池监测 PAGEREF _Toc507780015 h 21 HYPERLINK l _Toc507780016 2.2.3.配电参数监测 PAGEREF _Toc507780016 h 21 HYPERLINK l _Toc507780017 2.2.4.发电机监测 PAGEREF _Toc507780017 h 21 HYPERLINK l _Toc507780018 2.2.5.精密空调(加湿器)监控 PAGEREF _Toc507780018 h 21 HYPERLINK l _Toc507780019 2.2.6.环境监控(温湿度、风速、氢气) PAGEREF _Toc5

5、07780019 h 21 HYPERLINK l _Toc507780020 2.2.7.漏水检测 PAGEREF _Toc507780020 h 21 HYPERLINK l _Toc507780021 2.2.8.消防(极早期)监测 PAGEREF _Toc507780021 h 211.项目概述及需求理解项目背景简介 伴随着数据中心规模的不断扩大,业务量的逐渐增大,对数据中心的运维管理也变的越来越重要。一旦基础设施系统出现问题,而没有及时地得到妥善解决,常常会给企、事业造成很大的损失。怎样能7x24小时保证设备系统的正常运行,避免各种故障的发生,优化和改进传统的运维模式,提高客户服务的

6、及时性和满意度就显得非常重要。因此,建设一套数据中心基础设施管理系统势在必行。一个完备的运维管理系统能够提供7x24小时检测基础设施运行状态、各种资源状态的信息。运维管理人员依靠流程管理系统可以及时排除故障避免造成重大损失,控制运维质量提高服务水平。项目管理范围项目内容:设施故障发现与警报;记录日常运维日志信息;设施故障统计;设施软硬件信息统计;服务进程管理;将数据信息存储备份,并采用不同方式直观的展示出来;服务人员绩效、考核管理;将数据生成报表;项目建设原则数据中心基础设施管理系统建设指导思想是:“统一规划、分步实施、已有纳入、新建遵循”。数据中心基础设施管理系统项目建设是要建设一个集中管控

7、资源的运维平台,所以需充分考虑对已有各种产品组件做针对性的开发、整合工作。在项目建设过程中,除满足系统功能需求外,遵循如下原则:安全性原则:系统设计注重安全方面的设计,确保系统的安全运行。系统提供安全认证技术,确保登录身份认证安全性、有效性。稳定性原则:保证系统不间断运行,系统执行监控及操作任务时或出现自身故障,绝不能影响被监控及操作对象的正常稳定运行。开放性原则:系统遵循行业主要的标准化组织所提供的标准或建议,采用标准的、开放性的技术,能够实现与其他厂商的产品无缝地连接;采用国际标准化组织及工业界广泛接受的有关标准和基于标准的通用软硬件平台。可扩展性原则:在保持系统的基本体系结构长期稳定的前

8、提下,可以有效地容纳和支持基础设施规模的不断扩大和复杂、业务种类的增多。同时,能够在应用体系结构和软件模块划分两个方面支持整个应用的良好扩展性。在体系结构方面采用多层结构划分,实现各层的高聚合和层间低耦合。尽量使用模块化和插件化,使得扩展时对原系统的影响最小化。用户体验优化原则:具有较高的易用性,界面友好,美观统一,并对人机交互进行优化设计。灵活性原则:系统各子系统及子系统内功能模块具有一定的独立性,同时具有系统相关性和整体一致性。系统提供自动化升级维护功能,系统的维护及拓展灵活、方便。规范性原则:统一接口标准,规范数据字典。定义监控接入标准,规范未来新建系统的监控。项目建设目标 加强数据中心

9、的维护平台建设,提高数据中心的运行管理水平,通过运维体系的建设,结合构建集中式的服务热线、运维流程、系统监控和综合展示系统,通过系统联动,及时、准确、全面反映与掌握数据中心的运行状态,保障各业务系统的正常运行,并达成如下目标: (1)强化主动监控,实现集中管理。 以设施资源可用性监控为主线,构建数据中心统一集成的设施资源及应用服务监控平台,能够主动、及时地发现问题,并调度资源解决问题,形成数据中心运维管理主动服务的新局面。 (2)帮助定位故障,快速恢复系统运行。 建立集中的告警分析及展现平台,提供灵活、自动化的事件处理能力。当故障产生时,可以进行故障的快速定位,发现故障原因,调度资源快速恢复系

10、统服务,从而缩短故障解决时间,降低维护成本,提高系统整体可用性。 (3)掌握运行质量与效率,合理利用资源。 建立数据中心基础设施管理系统平台后,可以实时了解数据中心全部资源的负载与使用情况,根据需要从整体角度考虑资源的使用,同时可以根据业务高峰期的不同来调剂业务系统对资源的使用。 (4)规范运行管理,有序开展维护。 参照数据中心运维规范,对运维管理工作进行优化,对服务管理进行改善,将管理数据电子化,管理过程规范化。根据相关制度进行运行维护管理,对内完善流程,对外提高服务,加强管理,使流程更规范更合理,使技术人员具备更高的工作效率,提高业务技术能力和解决实际问题的能力。 (5)共享运维经验,完善

11、知识库。 把运维过程中产生的丰富经验进行积累和总结,形成有效的知识库,建立知识的共享机制,提供信息共享和交流的平台,提高数据中心运维人员的工作效率。解决方案概述DCIM系统是在在分析了国内数据中心管理现状和需求后,自主研发而成。秉承以客户为中心、流程为导向的理念,实现对基础设施资源的全面管理,完美整合了人员、技术和流程三大要素,帮助用户以较低的成本提供稳定、优质的服务,共同实现基础设施服务的目标。DCIM系统提供了“无缝式基础设施监控系统”功能,其系统架构清晰,采用模块化的设计理念,各功能模块既可独立运行、松散耦合;亦可整体功能无缝衔接覆盖整个业务系统,灵活的自由组合真正实现个性化的基础设施无

12、忧运维。DCIM系统提供一个图形化、可定制、统一的监控管理平台。通过它实现对基础架构性能和告警数据的直接监控与展示,实现对用户环境的整体运行状态的监控管理。故障预警和管理前瞻性地发现系统的故障和性能问题,能够快速识别、隔离、诊断和修复生产中出现的问题。前瞻性发现基础设施和应用系统的故障。前瞻性检测复杂的应用性能问题。基于业务的性能影响分析报告快速识别、隔离和诊断问题的起因,事故根本原因分析。对一些简单的故障问题,提供自动化修复故障的功能;对复杂的故障和性能问题,尽可能提供修复故障和改善性能的建议。提供的丰富的事件通知功能,事件通知方式包括:Mail 自动向指定邮箱发送告警邮件。短信 自动向指定

13、手机发送告警短信。声音 自动产生声音告警。图像 自动以图标形式显示告警事件。其它 通过二次开发可实现特殊要求的告警方式。提供监控参数化配置管理,参数超过设定阀值,产生报警信息。多层次的视图展示直观、准确地体现各层面的系统和业务运行状态,分别展示不同管理层次和范围的系统运行状态。根据企业的业务特点和管理习惯,可将展示视图分成一级视图、二级视图和三级视图,分别展示不同管理层次和范围的系统运行状态(如下图所示)。集中统一的管理界面用户在统一监控管理平台上可查看所有视图,提供直观的图形用户界面。基于上下文环境和组合视图,降低用户诊断问题的时间。基于角色和权限的控制,增强管理的安全性。提供可定制化的工作

14、区和视图,提高操作的灵活性。开放的接口能够集成第三方监控工具,实现将第三方监控(例如BA、安防、柴发、电力或特定应用管理工具等)完全变为监控系统的一部分。丰富的报表展示功能提供统一的报表界面,具备强大的数据展现能力:提供网络、系统、数据库、网络、中间件、应用和业务运转状况的集中统一报表提供实时与历史性能报表提供数据分析、展现和用户报表定制功能预制报表模板自动周期性报表,如日报、周报、月报、季报、年报等支持PDF、HTML、Excel等报表格式2.系统架构及实现原理基础设施管理资产管理3.2.1.1资产台账管理IT设备基本信息管理:单台设备的基本信息包括设备名称、固定资产号、供应商、供应商电话、

15、保修到期时间、技术状况、设备位置、资产类型、IP地址,购买日期,设备所使用的操作系统,供应商信息等,要便于管理员编辑查询;能够对物理资产信息按照需求字段进行导出或导入。3.2.1.2设备出入管理管理员可以根据设备出入机房门的动作,在系统中录入相应信息,可以在数据模型基础上完成规划合理性的检验,从而达到资产配置的最优化。3.2.1.3上下架位置管理上、下架作业:管理员能在系统中记录和编辑IT设备目前是上架状态还是下架状态。位置管理:管理员能在系统中记录和编辑设备的位置信息,可以精确到机柜内设备所在位置的预设和管理,自动记录资产移入移出机柜的情况,对异常的资产进出机柜进行报警。3.2.1.4固定资

16、产生命周期管理对资产的全生命周期,从入库、上架使用、迁移、保养、维修、返库到报废的全过程进行监控和管理。3.2.1.5报表管理根据机房资产类型、位置、负责人、折旧等多方面,自动生产各类报表,便于规划设计和部署,可以按照历史日期查询变更历史记录,并生产对应的历史记录报表。报表格式包括Excel、PDF、HTML等,显示方式包括曲线图、饼图和柱状图。 3.2.1.6资产定位管理系统可根据资产的具体情况,进行实时的定位监控。通过在各个机架安装RFID资产检测条,覆盖所有固定资产,从而实现贴有RFID标签的固定资产的实时定位监控。容量管理3.2.2.1容量建模容量建模部分是容量管理功能的内核,旨在建立

17、数据中心各物理层级SPC容量模型,以便精细分析、处理与显示各层级容量数据。综合U空间、供电、制冷、承重、电力口、光口、网口等因素构建容量模型。涵盖数据中心、机房、虚拟机房、列、机柜等不同层级。3.2.2.2容量展示 按容量模型,分管理层级或设施物理层级在页面上实时显示SPC等容量数据、预警与告警信息。3.2.2.3容量分配及优化容量预分配功能模块旨在对数据中心的容量分配进行管理,可以提供可用机位、机柜位的搜索、预占、审核和上线功能。对于已经预占的机位和空间,考虑不同项目的优先级,管理员可以审核、取消、编辑和再分配,以确保高优先级项目的顺利执行,并避免资源的随意占用和资源闲置。预占管理预占管理模

18、块旨在根据工程项目需求,对机房或机柜的可用空间进行查询、浏览、预占。根据项目实际情况,管理员可以对已占空间进行调整,以实现场地的有效管理,避免随意占用和资源浪费。预占审批在机柜或机房预占操作之后,需要由管理员进行审核,审核确认后容量预占才生效。经审批,优先级高的预占可以插队。此模块包括的功能有资源预占审批、预占申请详情展示、审批历史查询等功能。上线管理设备上架后,容量预占状态变成已上架(已占),之后高优先级的项目将无法搜索和使用相关的容量。能自动检测的主要容量信息(SPC、承重)自动更新,次要容量信息(网络端口、电力端口)可由工程实施人员更新。能耗管理3.2.3.1 PUE计算 “PUE概念的

19、引入为数据中心能耗评估提供了一个可供量化的指标评价体系,但是在能耗总量(电量)评估、测量点、能量维度、可操作性等多个方面有所欠缺,所以TGG(The Green Grid)提出了对PUE进行分类定义。” 根据TGG提出的概念,PUE被分为四类,分别是PUE Category 0(PUE0),PUE Category 1(PUE1),PUE Category 2(PUE2),PUE Category 3(PUE3)。其中,PUE0与2007年提出的概念是一致的,而PUE1,PUE2,PUE3是新扩展的概念。最大的区别是,PUE0是采用功率的比值,而新扩展的三项是采用电量作为比值,而这三项的不同是

20、在于对IT设备耗电量的测量点的不同。定义级别PUE0PUE1PUE2PUE3IT 负荷测量点UPS 输出UPS 输出PDU 输出IT 设备输入IT 设备能耗峰值 IT 负荷电力需求(kW)IT 负荷 12 月内累计能耗IT 负荷 12 月内累计能耗IT 负荷 12 月内累计能耗总能耗总能耗峰值电力需求(kW)总能耗 12 月内累计能耗总能耗 12 月内累计能耗总能耗 12 月内累计能耗3.2.3.2 能耗分析及统计数据中心能耗主要组成:制冷设备是为保证IT设备运行所需温、湿度环境而建立的配套设施IT设备包括计算、存储、网络等不同类型的设备供配电系统提供满足设备使用的电压和电流,并保证供电的安全

21、性和可靠性其他:照明、安防设备、灭火、防水、传感器以及管理系统等 能效管理指标的计算数据全部来源于以上能耗单元; 可分析包含PUE、pPUE、CLF、PLF、ERE(如有)等能效指标; pPUE1= 局部耗电总量 / 局部设备耗电量对数据中心的局部区域或设备的能效进行评估和分析;适合用于基于集装箱、模块化数据中心或者由多个建筑和机房构成的较大型数据中心的局部能效评估; CLF=制冷设备耗电/IT设备耗电 PLF=供配电系统耗电/IT设备耗电数据中心总耗电制冷设备耗电+供配电系统耗电+IT设备耗电以上各项除以IT设备耗电,可以变换得到PUECLF + PLF +1 RER=可再生能源供电/数据中

22、心总耗电用于衡量数据中心利用可再生能源的情况,以促进可再生、无碳排放或极少碳排放的能源利用;可再生能源供电可能来自市电(例如水电),也可能来自于自供(例如数据中心装配太阳能或风能发电机),并假定市电中可再生能源占比为r%。3.2.3.3 温度场管理 通过运算子系统生成实时的温度场3D云图并绘制切面云图,要求有多个方向、剖面等云图,有热点可发出报警事件。对于每个机房或者机房区域,可以设置多个切面以供温度场浏览。每个机房区域默认包括5个切面:部署的三层传感器所对应的三个切面,出风切面和回风切面。可对已有的切面进行查看和删除。 系统支持查看机房或者机房区域中的当前时刻的温度场云图,温度场效果通过不同

23、的切面来表现。切面须包括系统自动产生的典型切面和自定义切面。应可以查看不同切面的温度场云图,也可在云图中双击查看任意点的温度值和温度曲线图。温度场云图须能提供2D和3D两种展现方式,每幅云图都必须具备缩放功能。 系统支持查看指定机房在某个时段的异常温度报表,异常类型包括:采集异常、超过上限、超过下限。基础设施集中监控 基础设施集中监控采用一体化监控采集系统(运行在嵌入式服务器上),系统主要功能有:机房设备监控:系统自身提供各种设备通讯接入端口,连接各种设备,例如红外,烟感、水浸、门禁、视频、空调,电源,UPS,发电机,服务器等,一旦发现异常,自动报警,发送报警通知信息并联动控制。动力监控支持:

24、 UPS、市电电量、配电开关、蓄电池组、精密配电柜、ATS/STS、电源支路电流、PDU机柜电源、防雷器、发电机等设备监控;环境监控支持: 空调、漏水、温湿度、空气质量、光照度、粉尘含量等监测;安防、消防支持: 视频监控、门禁管理、入侵检测、火灾检测、极早期监测;微环境监控支持:监控机柜内的温度湿度状态、线路状态、供电状态,保障核心设备的稳定运行,辅助分析机房的局部环境及能源应用情况;联动控制:对所有设备设置报警上下限,任何设备数据超出范围,系统能够产生报警信息,并联动控制其他接入设备,例如录像、喷淋、新风机、空调等。UPS监控监控内容设计对机房内UPS电源的各部件工作状态、运行参数等进行实时

25、监测,一旦发生故障及报警通过监控平台发出对外报警。实现方式通过UPS设备提供的RS485(或RS232)智能接口及通讯协议,采用总线的方式将UPS的监控信号直接接入监控主机的串口,由监控平台软件进行UPS的实时监测。实现功能(只监不控)实时监视UPS整流器、逆变器、电池(电池健康检测,含电压电流等数值)、旁路、负载等各部分的运行状态与参数(能监测到的具体内容由厂家的协议决定,不同品牌、型号的UPS所监控到的内容不同)。系统可对监测到的各项参数设定越限阀值(包括上下限、恢复上下限),一旦UPS发生越限报警或故障,系统将自动产生报警事件,并第一时间发出语音、电话、短信等对外报警。提供曲线记录,直观

26、显示实时及历史曲线,可查询一年内相应参数的历史曲线及具体时间的参数值(包括最大值、最小值),并可将历史曲线导出为EXCEL格式,方便管理员全面了解UPS的运行状况。蓄电池监测监控内容设计对机房内蓄电池的参数进行实时监测,一旦发生故障通过监控平台发出对外报警。实现方式通过加装蓄电池检测仪与每节电池进行连线监测,多台蓄电池检测仪通过RS485智能接口及通讯协议采用总线方式将信号接入监控主机的串口,由监控平台软件进行蓄电池的实时监测。实现功能实时监测蓄电池组的总电压、充放电电流、电池表面温度(可选,需配置贴片式温度传感器)、单体蓄电池的电压参数。系统可对监测到的各项参数设定越限阀值(包括上下限、恢复

27、上下限),一旦蓄电池发生故障,系统将自动产生报警事件,并第一时间发出语音、E-Mail、声光等对外报警。提供曲线记录,直观显示实时及历史曲线,可查询一年内相应参数的历史曲线及具体时间的参数值(包括最大值、最小值),并可将历史曲线导出为EXCEL格式,方便管理员全面了解蓄电池的状况。配电参数监测监控内容机房市电的供电质量好坏将直接影响机房内用电设备的安全,设计在配电柜上安装电量仪对市电进线进行各项供电参数监测。实现方式通过在配电柜中安装带液晶显示的电量仪对进线实现监测,既可在配电柜表面实时看到电量仪采集到的参数,亦可通过电量仪的RS485智能接口和通讯协议采用总线的方式将信号接入监控主机的串口,

28、由监控平台软件进行市电的实时监测。实现功能实时监测市电进线三相电的相电压、线电压、相电流、频率、功率因数、有功功率、无功功率等参数。系统可对监测到的各项参数设定越限阀值(包括上下限、恢复上下限),一旦市电发生越限报警,系统将自动产生报警事件,并第一时间发出语音、电话、短信等对外报警。提供曲线记录,直观显示实时及历史曲线,可查询一年内相应参数的历史曲线及具体时间的参数值(包括最大值、最小值),并可将历史曲线导出为EXCEL格式,方便管理员全面了解市电的供电状况。发电机监测监控内容设计对(柴油、燃气)发电机各部件的工作状态及运行参数进行实时监测,一旦发生故障及报警通过监控平台发出对外报警。实现方式

29、通过发电机设备提供的RS485(或RS232)智能接口及通讯协议,采用总线的方式将发电机的监控信号直接接入监控主机的串口,由监控平台软件进行发电机的实时监测。实现功能实时监视发电机的输出电压、电流、功率、油压、水温、转速等参数(能监测到的具体内容由厂家的协议决定,不同品牌、型号的发电机所监控到的内容不同)。系统可对监测到的各项参数设定越限阀值(包括上下限、恢复上下限),一旦发电机发生越限报警或故障,系统将自动产生报警事件,并第一时间发出语音、电话、短信等对外报警。提供曲线记录,直观显示实时及历史曲线,可查询一年内相应参数的历史曲线及具体时间的参数值(包括最大值、最小值),并可将历史曲线导出为E

30、XCEL格式,方便管理员全面了解发电机的运行状况。精密空调(加湿器)监控监控内容机房温度、湿度出现异常时,将导致机房其他设备运行所需的环境失去保障,因此设计对各机房内空调(加湿器)的运行状态和参数进行实时监测,同时可对空调(加湿器)进行远程的开关机控制。实现方式通过空调(加湿器)设备提供的RS485智能接口及通讯协议,采用总线的方式将空调的监控信号通过串口服务器转换为网络信号接入监控主机的网口,由监控平台软件进行空调的实时监测。实现功能实时监视空调(加湿器)压缩机、风机、水泵、加热器、加湿器、去湿器、滤网、回风温度和湿度等的运行状态与参数,并可对空调实现远程开关机的控制(能监测到的具体内容由厂家的协议决定,不同品牌、型号的精密

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论