数据中心基础设施集中管理方案_第1页
数据中心基础设施集中管理方案_第2页
数据中心基础设施集中管理方案_第3页
数据中心基础设施集中管理方案_第4页
数据中心基础设施集中管理方案_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据中心基础设施集中管理方案

目录

1.项目概述及需求理解.................................................4

1.1.项目背景简介..............................................4

1.2.项目管理范围..............................................4

1.3.项目建设原则..............................................5

1.4.项目建设目标..............................................6

1.5.解决方案概述..............................................7

2.系统架构及实现原理...............................................11

2.1.基础设施管埋..............................................11

2.1.1.资产管理........................................................11

2.1.2,容量管理........................................................16

2.1.3.能耗管理........................................................18

2.2.基础设施集中监控.........................................21

2.2.1.UPS监控.......................................................23

2.2.2.蓄电池监测......................................................24

2.2.3.配电参麒测....................................................26

224.发电机监测....................................................27

2.2.5.精密空调(加湿器)监控..........................................29

2.2.6.环境监控(温湿度、风速、氢气).................................30

2.2.7.漏水检测.......................................................31

2.2.8.消防(极早期)监测.............................................32

1.项目概述及需求理解

1・1.项目背景简介

伴随着数据中心规模的不断扩大,业务量的逐渐增大,对数据中心的运维

管理也变的越来越重要。一旦基础设施系统出现问题,而没有及时地得到妥善

解决,常常会给企、事业造成很大的损失。怎样能7x24小时保证设备系统的

正常运行,避免各种故障的发生,优化和改进传统的运维模式,提高客户服务

的及时性和满意度就显得非常重要。

因此,建设一套数据中心基础设施管理系统势在必行。一个完备的运维管

理系统能够提供7x24小时检测基础设施运行状态、各种资源状态的信息。运

维管理人员依靠流程管理系统可以及时排除故障避免造成重大损失,控制运维

质量提高服务水平。

1.2.项目管理范围

项目内容:

>设施故障发现与警报;

>记录日常运维日志信息;

>设施故障统计;

>设施软硬件信息统计;

>服务进程管理;

>将数据信息存储备份,并采用不同方式直观的展示出来;

>服务人员绩效、考核管理;

>将数据生成报表;

13.项目建设原则

数据中心基础设施管理系统建设指导思想是:"统一规划、分步实施、已

有纳入、新建遵循"。

数据中心基础设施管理系统项目建设是要建设一个集中管控资源的运维平

台,所以需充分考虑对已有各种产品组件做针对性的开发、整合工作。

在项目建设过程中,除满足系统功能需求外,遵循如下原则:

•安全性原则:系统设计注重安全方面的设计,确保系统的安全运行。系

统提供安全认证技术,确保登录身份认证安全性、有效性。

•稳定性原则:保证系统不间断运行,系统执行监控及操作任务时或出现

自身故障,绝不能影响被监控及操作对象的正常稳定运行。

•开放性原则:系统遵循行业主要的标准化组织所提供的标准或建议,采

用标准的、开放性的技术,能够实现与其他厂商的产品无舞地连接;采

用国际标准化组织及工业界广泛接受的有关标准和基于标准的通用软硬

件平台。

•可扩展性原则:在保持系统的基本体系结构长期稳定的前提下,可以有

效地容纳和支持基础设施规模的不断扩大和复杂、业务种类的增多。同

时,能够在应用体系结构和软件模块划分两个方面支持整个应用的变好

扩展性。在体系结构方面采用多层结构划分,实现各层的高聚合和房间

低耦合。尽量使用模块化和插件化,使得扩展时对原系统的影响最小化。

•用户体验优化原则:具有较高的易用性,界面友好,美观统一,并对人

机交互进行优化设计。

•灵活性原则:系统各子系统及子系统内功能模块具有一定的独立性,同

时具有系统相关性和整体一致性。系统提供自动化升级维护功能,系统

的维护及拓展灵活、方便。

•规范性原则:统一接口标准,规范数据字典。定义监控接入标准,规范

未来新建系统的监控。

L4.项目建设目标

加强数据中心的维护平台建设,提高数据中心的运行管理水平,通过运维

体系的建设,结合构建集中式的服务热线、运维流程、系统监控和综合展示系

统,通过系统联动,及时、准确、全面反映与掌握数据中心的运行状态,保障

各业务系统的正常运行,并达成如下目标:

(1)强化主动监控,实现集中管理。

以设施资源可用性监控为主线,构建数据中心统一集成的设施资源及应用

服务监控平台,能够主动、及时地发现问题,并调度资源解决问题,形成数据

中心运维管理主动服务的新局面。

(2)帮助定位故障,快速恢复系统运行。

建立集中的告警分析及展现平台,提供灵活、自动化的事件处理能力。当

故障产生时,可以进行故障的快速定位,发现故障原因,调度资源快速恢复系

统服务,从而缩短故障解决时间,降低维护成本,提高系统整体可用性。

(3)掌握运行质量与效率,合理利用资源。

建立数据中心基础设施管理系统平台后,可以实时了解数据中心全部资源

的负载与使用情况,根据需要从整体角度考虑资源的使用,同时可以根据业务

高峰期的不同来调剂业务系统对资源的使用。

(4)规范运行管理,有序开展维护。

参照数据中心运维规范,对运维管理工作进行优化,对服务管理进行改

善,将管埋数据电子化,管埋过程规范化。根据相关制度进行运行维护管埋,

对内完善流程,对外提高服务,加强管理,使流程更规范更合理,使技术人员

具备更高的工作效率,提高业务技术能力和解决实际问题的能力。

(5)共享运维经验,完善知识库。

把运维过程中产生的丰富经验进行积累和总结,形成有效的知识库,建立

知识的共享机制,提供信息共享和交流的平台,提高数据中心运维人员的工作

效率。

1.5.解决方案概述

DCIM系统是在在分析了国内数据中心管理现状和需求后,自主研发而

成。秉承以客户为中心、流程为导向的理念,实现对基础设施资源的全面管

理,完美整合了人员、技术和流程三大要素,帮助用户以较低的成本提供稳

定、优质的服务,共同实现基础设施服务的目标。

DCIM系统提供了"无缝式基础设施监控系统"功能,其系统架构清晰,

采用模块化的设计理念,各功能模块既可独立运行、松散耦合;亦可整体功能

无绛衔接覆盖整个业务系统,灵活的自由组合真正实现个性化的基础设施无忧

运维。

DCIM系统提供一个图形化、可定制、统一的监控管理平台。通过它实现

对基础架构性能和告警数据的直接监控与展示,实现对用户环境的整体运行状

态的监控管理。

1.故障预警和管理

前瞻性地发现系统的故障和性能问题,能够快速识别、隔离、诊断和修复

生产中出现的问题。

1)前瞻性发现基础设施和应用系统的故障。

2)前瞻性检测复杂的应用性能问题。

3)基于业务的性能影响分析报告

4)快速识别、隔离和诊断问题的起因,事故根本原因分析。

5)对一些简单的故障问题,提供自动化修复故障的功能;对复杂的故障和

性能问题,尽可能提供修复故障和改善性能的建议。

6)提供的丰富的事件通知功能,事件通知方式包括:

-Mail自动向指定邮箱发送告警邮件。

-短信自动向指定手机发送告警短信。

-声音自动产生声音告警。

-图像自动以图标形式显示告警事件。

-其它通过二次开发可实现特殊要求的告警方式。

7)提供监控参数化配置管理,参数超过设定阀值,产生报警信息。

2.多层次的视图展示

直观、准确地体现各层面的系统和业务运行状态,分别展示不同管理层次

和范围的系统运行状态。

根据企业的业务特点和管理习惯,可将展示视图分成一级视图、二级视图

和三级视图,分别展示不同管理层次和范围的系统运行状态(如下图所示1

3.集中统一的管理界面

用户在统一监控管理平台上可查看所有视图,提供直观的图形用户界面。

1)基于上下文环境和组合视图,降低用户诊断问题的时间。

2)基于角色和权限的控制,增强管理的安全性。

3)提供可定制化的工作区和视图,提高操作的灵活性。

4.开放的接口

能够集成第三方用空工具,实现将第三方监控(例如BA、安防、柴发、电

力或特定应用管理工具等)完全变为监控系统的一部分。

5.丰富的报表展示功能

提供统一的报表界面,具备强大的数据展现能力:

1)提供网络、系统、数据库、网络、中间件、应用和业务运转状况的集中

统一报表

2)提供实时与历史性能报表

3)提供数据分析、展现和用户报表定制功能

4)预制报表模板

5)自动周期性报表,如日报、周报、月报、季报、年报等

6)支持PDF、HTML、Excel等报表格式

2.系统架构及实现原理

2.1.基础设施管理

2.1.1.资产管理

3.2.1.1资产台账管理

IT设备基本信息管理:单台设备的基本信息包括设备名称、固定资产号、

供应商、供应商电话、保修到期时间、技术状况、设备位置、资产类型、IP地

址,购买日期,设备所使用的操作系统,供应商信息等,要便于管理员编辑查

询;能够对物理资产信息按照需求字段进行导出或导入。

3.2.1.2设备出入管理

管理员可以根据设备出入机房门的动作,在系统中录入相应信息,可以在

数据模型基础上完成规划合理性的检验,从而达到资产配置的最优化。

3.2.13上下架位置管理

上、下架作业:管理员能在系统中记录和编辑IT设备目前是上架状态还是

下架状态。

位置管理:管理员能在系统中记录和编辑设备的位置信息,可以精确到机

柜内设备所在位置的预设和管理,自动记录资产移入移出机柜的情况,对异常

的资产进出机柜进行报警。

3.2.1.4固定资产生命周期管理

对资产的全生命周期,从入库、上架使用、迁移、保养、维修、返库到报

废的全过程进行监控和管理。

■S可电MSMS有

3.2.1.5报表管理

根据机房资产类型、位置、负责人、折旧等多方面,自动生产各类报表,

便于规划设计和部署,可以按照历史日期查询变更历史记录,并生产对应的历

史记录报表。报表格式包括Excel、PDF、HTML等,显示方式包括曲线图、

饼图和柱状图。

3.2.1.6资产定位管理

系统可根据资产的具体情况,进行实时的定位监控。通过在各个机架安装

RFID资产检测条,覆盖所有固定资产,从而实现贴有RFID标签的固定资产的

实时定位监控。

2.1.2.容量管理

3.2.2.1容量建模

容量建模部分是容量管理功能的内核,旨在建立数据中心各物理层级SPC

容量模型,以便精细分析、处理与显示各层级容量数据。综合U空间、供电、制

冷、承重、电力口、光口、网口等因素构建容量模型。涵盖数据中心、机房、虚

拟机房、歹I」、机柜等不同层级。

3.2.2.2容量展示

按容量模型,分管理层级或设施物理层级在页面上实时显示SPC等容量数

据、预警与告警信息。

U7)

3.2.23容量分配及优化

容量预分配功能模块旨在对数据中心的容量分配进行管理,可以提供可用机

位、机柜位的搜索、预占、审核和上线功能。对于已经预占的机位和空间,考虑

不同项目的优先级,管理员可以审核、取消、编辑和再分配,以确保高优先级项

目的顺利执行,并避免资源的随意占用和资源闲置。

1)预占管理

预占管理模块旨在根据工程项目需求,对机房或机柜的可用空间进行查询、

浏览、预占。根据项目实际情况,管理员可以对已占空间进行调整,以实现场地

的有效管理,避免随意占用和资源浪费。

2)预占审批

在机柜或机房预占操作之后,需要由管理员进行审核,审核确认后容量预占

才生效。经审批优先级高的预占可以插队。此模块包括的功能有资源预占审批、

预占申请详情展示、审批历史查询等功能。

3)上线管理

设备上架后,容量预占状态变成已上架(已占),之后高优先级的项目将无

法搜索和使用相关的容量。能自动检测的主要容量信息(SPC、承重)自动更新,

次要容量信息(网络端口、电力端口)可由工程实施人员更新。

2・1.3.能耗管理

3.23.1PUE计算

"PUE概念的引入为数据中心能耗评估提供了一个可供量化的指标评价体

系,但是在能耗总量(电量)评估、测量点、能量维度、可操作性等多个方面有

所欠缺,所以TGG(TheGreenGrid)提出了对PUE进行分类定义。〃

根据TGG提出的概念,PUE被分为四类,分别是PUECategory

O(PUEO),PUECategory1(PUE1),PUECategory2(PUE2),PUECategory

3(PUE3)。其中,PUEO与2007年提出的概念是一致的,而PUE1,PUE2,

PUE3是新扩展的概念。最大的区别是,PUE0是采用功率的比值,而新扩展的

三项是采用电量作为比值,而这三项的不同是在于对口设备耗电量的测量点的

不同。

定义'级别PUE0PUE1PUE2PUE3

IT负荷测量点UPS输出UPS输出PDU输出IT设备输入

峰值1T负荷电IT负荷12月内IT负荷12月内IT负荷12月内

IT设备能耗

力需求(kW)累计能耗累计能耗累计能耗

总能耗峰值电总能耗12月总能耗12月总能耗12月

总能耗

力需求(kW)内累计能耗内累计能耗内累计能耗

IIMWW

aWNH

pn3yecin4mRMcry.pcMfl2l.nW.'MMt1WXI17-O5-2S1%1*:15

FzTWWTt1710.13

gtc1nm过gL3Ml.卬口「XJi74)5-261*18:15

♦fMFRt初7g%】3c】X3

gY-有切秀H倚・,WVRI20176.%】/1X3

即可YanvHiftCiCiWPiWRm1&0*AVRIX»7.05-26

,X»74»-261911&1S

acRarmWMft刊港XL二㈱t31升01殳1&1S

♦*V.9M30.1♦iWt2O174»-»19114:15

3.23.2能耗分析及统计

数据中心能耗主要组成:

♦制冷设备是为保证IT设备运行所需温、湿度环境而建立的配套设施

♦IT设备包括计算、存储、网络等不同类型的设备

♦供配电系统提供满足设备使用的电压和电流,并保证供电的安全性

和可靠性

♦其他:照明、安防设备、灭火、防水、传感器以及管理系统等

能效管理指标的计算数据全部来源于以上能耗单元;

可分析包含PUE、pPUE、CLF、PLF、ERE(如有)等能效指标;

pPUEl=局部耗电总量/局部设备耗电量

-对数据中心的局部区域或设备的能效进行评估和分析;

-适合用于基于集装箱、模块化数据中心或者由多个建翔口机房构成的较

大型数据中心的局部能效评估;

CLF=制冷设备耗电/IT设备耗电

PLF二供配电系统耗电/IT设备耗电

■数据中心总耗电”制冷设备耗电+供配电系统耗电+IT设备耗电

-以上各项除以IT设备耗电,可以变换得到PUEaCLF+PLF+1

RER二可再生能源供电徵据中心总耗电

■用于衡量数据中心利用可再生能源的情况,以促进可再生、无碳排放或

极少碳排放的能源利用;

-可再生能源供电可能来自市电(例如水电),也可能来自于自供(例如数

据中心装配太阳能或风能发电机),并假定市电中可再生能源占比为

r%。

3.23.3温度场管理

通过运算子系统生成实时的温度场3D云匿并绘制切面云图,要求有多个

方向、剖面等云图,有热点可发出报警事件。对于每个机房或者机房区域,可

以设置多个切面以供温度场浏览。每个机房区域默认包括5个切面:部署的三

层传感器所对应的三个切面,出风切面和回风切面。可对已有的切面进行查看

和删除。

系统支持查看机房或者机房区域中的当前时刻的温度场云图,温度场效果通

过不同的切面来表现。切面须包括系统自动产生的典型切面和自定义切面。应可

以查看不同切面的温度场云图,也可在云图中双击查看任意点的温度值和温度曲

线图。温度场云图须能提供2D和3D两种展现方式,每幅云图都必须具备缩放功

能。

系统支持查看指定机房在某个时段的异常温度报表,异常类型包括:采集异

常、超过上限、超过下限。

1830«w

&Q8QAG3000uw

20.1«c613H30.4(56,%*262c63

供电

D-次Q•

XT.7-05-2619119J7

他75方1WM7

prcyKtrhMTW3X7-05-2613:12JO3

2.2.基础设施集中监控

基础设施集中监控采用一体化监控采集系统(运行在嵌入式服务器上),系

统主要功能有:

机房设备监控:系统自身提供各种设备通讯接入端口,连接各种设备,例

如红外,烟感、水浸、门禁、视频、空调,电源,UPS,发电机,服务器等,一旦发

现异常,自动报警,发送报警通知信息并联动控制。

动力监控支持:UPS、市电电量、配电开关、蓄电池组、精密配电柜、

ATS/STS,电源支路电流、PDU机柜电源、防雷器、发电机等设备监控;

环境监控支持:空调、漏水、温湿度、空气质量、光照度、粉尘含量等监

测;

安防、消防支持:视频监控、门禁管理、入侵检测、火灾检测、极早期监

测;

微环境监控支持:监控机柜内的温度湿度状态、线路状态、供电状态,保

障核心设备的稳定运行,辅助分析机房的局部环境及能源应用情况;

联动控制:对所有设备设置报警上下限,任何设备数据超出范围,系统能

够产生报警信息,并联动控制其他接入设备,例如录像、喷淋、新风机、空调

O

2.2.1.UPS监控

T

器V

三:

W

KZ

MT

C新风机市电输入

TStt主电企总洌

«n«jt电KIUAM

<etwtra3e

«&«1PUC

京电黄案发3电电▲量2MULC

MUUC

n<an««®,电M4HJUC

爵电池«)»MMUU匕

•tt»Y:10u-«»;•wtiM:0

4nm・

>监控内容

设计对机房内UPS电源的各部件工作状态、运行参数等进行实时监测,一

旦发生故障及报警通过监控平台发出对外报警。

>实现方式

通过UPS设备提供的RS485(或RS232)智能接口及通讯协议,采用总线

的方式将UPS的监控信号直接接入监控主机的串口,由监控平台软件进行UPS

的实时监测。

>实现功能(只监不控)

♦实时监视UPS整流器、逆变器、电池(电池健康检测,含电压电流

等数值1旁路、负载等各部分的运行状态与参数(能监测到的具

体内容由厂家的协议决定,不同品牌、型号的UPS所监控到的内容

不同1

♦系统可对监测到的各项参数设定越限阀值(包括上下限、恢复上下

限),一旦UPS发生越限报警或故障,系统将自动产生报警事件,

并第一时间发出语音、电话、短信等对外报警。

♦提供曲线记录,直观显示实时及历史曲线,可查询一年内相应参数

的历史曲线及具体时间的参数值(包括最大值、最小值),并可将

历史曲线导出为EXCEL格式,方便管理员全面了解UPS的运行状

况。

2.2.2.蓄电池监测

>监控内容

设计对机房内蓄电池的参数进行实时监测,一旦发生故障通过监控平台发

出对外报警。

>实现方式

通过加装蓄电池检测仪与每节电池进行连线监测,多台蓄电池检测仪通过

RS485智能接口及通讯协议采用总线方式将信号接入监控主机的串口,由监控

平台软件进行蓄电池的实时监测。

>实现功能

♦实时监测蓄电池组的总电压、充放电电流、电池表面温度(可选,

需配置贴片式温度传感器\单体蓄电池的电压参数。

♦系统可对监测到的各项参数设定越限阀值(包括上下限、恢复上下

限),一旦蓄电池发生故障,系统将自动产生报警事件,并第一时间

发出语音、E-Mail、声光等对外报警。

♦提供曲线记录,直观显示实时及历史曲线,可查询一年内相应参数

的历史曲线及具体时间的参数值(包括最大值、最小值),并可将历

史曲线导出为EXCEL格式,方便管理员全面了解蓄电池的状况。

2.2.3.配电参数监测

0*W67V9用户名.3nAt)

设■封友超第窗竟■城E

NULLVA

e«ns»)»MJU.VA

NIIUHr

CWaMALA

st>dB«•rt*t:o9””:1。,-e»t:ou**>:o

>监控内容

机房市电的供电质量好坏将直接影响机房内用电设备的安全,设计在配电

柜上安装电量仪对市电进线进行各项供电参数监测。

>实现方式

通过在配电柜中安装带液晶显示的电量仪对进线实现监测,既可在配电柜

表面实时看到电量仪采集到的参数,亦可通过电量仪的RS485智能接口和通讯

协议采用总线的方式将信号接入监控主机的串口,由监控平台软件进行市电的

实时监测。

>实现功能

♦实时监测市电进线三相电的相电压、线电压、相电流、频率、功率

因数、有功功率、无功功率等参数。

♦系统可对监测到的各项参数设定越限阀值(包括上下限、恢复上下

限),一旦市电发生越限报警,系统将自动产生报警事件,并第一

时间发出语音、电话、短信等对外报警。

提供曲线记录,直观显示实时及历史曲线,可查询一年内相应参数的历史

曲线及具体时间的参数值(包括最大值、最小值),并可将历史曲线导出为

EXCEL格式,方便管理员全面了解市电的供电状况。

2.2.4.发电机监测

>监控内容

设计对(柴油、燃气)发电机各部件的工作状态及运行参数进行实时监测,

一旦发生故障及报警通过监控平台发出对外报警。

>实现方式

通过发电机设备提供的RS485(或RS232)智能接口及通讯协议,采用总

线的方式将发电机的监控信号直接接入监控主机的串口,由监控平台软件遂行

发电机的实时监测。

>实现功能

♦实时监视发电机的输出电压、电流、功率、油压、水温、转速等参

数(能监测到的具体内容由厂家的协议决定,不同品牌、型号的发

电机所监控到的内容不同I

♦系统可对监测到的各项参数设定越限阀值(包括上下限、恢复上下

限),一旦发电机发生越限报警或故障,系统将自动产生报警事件,

并第一时间发出语音、电话、短信等对外报警。

♦提供曲线记录,直观显示实时及历史曲线,可查询一年内相应参数

的历史曲线及具体时间的参数值(包括最大值、最小值),并可将历

史曲线导出为EXCEL格式,方便管理员全面了解发电机的运行状

况。

2.2.5.精密空调(加湿器)监控

文*DMUM(Y)CW®ZJkD—

XHMMLULC

wnxarNJU.W)

«s三

S>MMIU.C

wS4tf$MJU

MM«5Muut

*"姓<3NUU5

:L

VfJMFSV

■*R#«SY

t环境・

BtAtfa*•«»»:Oe«»:10,一!NHr:°“g:・

■>»%•

>监控内容

机房温度、湿度出或异常时,将导致机房其他设备运行所需的环境失去俣障,

因此设计对各机房内空调(加湿器)的运行状态和参数进行实时监测

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论