计算机中心机房运行风险分析及应对_第1页
计算机中心机房运行风险分析及应对_第2页
计算机中心机房运行风险分析及应对_第3页
计算机中心机房运行风险分析及应对_第4页
计算机中心机房运行风险分析及应对_第5页
已阅读5页,还剩2页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 计算机中心机房运行风险分析及应对 为了满足业务或管理的需要,保障计算机核心系统和网络系统的正常运行环境,越来越多 的计算机中心机房(以下简称机房)投入使用。 机房以及各种各样的机房保障系统的安全运 行水平, 决定了核心业务系统和网络系统的可靠性和可用性。 计算机应用系统和网络系统越 重要,对机房的保障要求就越高, 确保机房的安全可靠运行, 是每个机房管理者追求的目标。 然而, 各种各样的计算机系统, 庞大的信息通讯网络,众多的机房保障系统,连续不间断的 长期运转,注定了机房运行风险的客观存在。 一、机房运行风险分析 1、机房的运行风险 机房中连续运行着各种各样的设备和系统,对设备 (系统)的

2、可用性是人们关注的重点。假 设一台设备(系统)的可用性达到 99.9,那么它一年中就可能有 8.76 小时不能用,即使 设备(系统)的可用性达到 99.99,其一年仍然可能有 0.876 小时不能用。一个机房内成 百上千台套的运行设备(系统) ,可以说时刻都孕育着运行失效的风险,因此防范运行风险 必须引起足够的重视。 风险防范须建立在对风险的清楚认知的基础之上。 比较简单的方法是通过风险列表, 按照分 类等级尽可能详尽地罗列出相关机房可能存在的各种运行风险, 用以进一步的分析。 一般可 以按照机房环境、 运行设备、 机房管理等方面进行机房风险分类, 然后尽可能详尽地列出相 应的风险事件和因素,

3、并进行分级。 以下是一个机房风险列表示例(见下表)。其中,一级风险为无法承受的运行风险,因为一 旦发生, 无法在短时间内恢复正常的运行状态, 必然会给所属单位造成严重的经济、 社会损 失。二、三级风险虽然严重危及运行安全, 但是大部分可能造成局部运行异常或只是运行安 全隐患, 基本属于可承受和可控制的运行风险。 当然不同类型用途的机房, 其风险等级的认 定会不同。 值得注意得是,机房运行风险不是一成不变的,会随着机房内相关要素的各种变化而改变,或者影响其风险等级,或者会产生新的风险因素。 机房运行风险分析列表 风险 风险等级 分类 一级 二级 三级 机房发生火灾 机房部分设备发生火险 机房大面

4、积漏水 主要机房地面积水 机房局部漏水 机房建筑物发生塌毁 机房建筑物局部损毁 机房建筑物险情 机房 消防系统失控 消防系统异常 安全 空调系统失效或失控 温度或湿度超范围 门禁系统失控 门禁系统异常 机房照明失效 照明异常 场地监控系统失效 场地监控系统异常 运行 核心设备故障停机 主要设备故障停机 个别设备故障停机 安全 机房大面积停电 供电异常 接地异常 系统异常或程序混乱 系统异常 程序错误 运行数据丢失无法恢复 数据丢失但可以恢复 数据错误可以恢复 核心网络中断备份无效 主/ 备网络故障 部分网络故障 人为破坏事故 严重操作失误 一般操作失误 管理及人员安 管理机构或责任缺失 全 规

5、章制度不健全 管理松懈 人员伤亡 人员受伤 财产 重要设备损毁 局部设备损毁 设备故障 安全 重要设备(数据)丢失 设备丢失 设备配件丢失 雷击导致供电或网络通讯中断 发生雷击入侵 防雷设施失效 其他 鼠害毁坏线缆 发现老鼠 发生虫害 发生严重电磁干扰 发生一般电磁干扰 2、机房运行风险分析 机房风险的来源是多方面的。 首先,机房风险的存在是客观的。任何长期运行的机房,不可避免会发生各种各样的异常, 从而导致运行风险,如设备故障、网络通讯异常、计算机系统失效等。从运行安全的容忍程 度,可以分为可承受风险和不可承受风险; 从风险发生的角度, 可分为可控制风险及不可控风险。机房管理的目标是最大限度

6、地避免发生无法承受的不可控制的运行风险, 及时排除可承受风险发生的隐患,避免可控制风险的发生。 其次,机房风险来源于机房设计、施工缺陷。机房的设计、施工及验收,国家都有相关的标 准,但是由于经费投入、设计施工单位资质、机房管理部门要求等因素,使得有些机房在开 始设计建设时就在使用功能、安全标准、 配套设施、 材料用品等方面存在很多缺陷, 特别是在机房的安全性、可维性、可扩展性方面留下严重隐患。 第三, 机房风险来源于低水平的管理。由于机房用途的特殊性,决定了其管理的重要性。由 于目前没有标准的机房管理规范, 各行各业各家的机房管理都是自行其是, 问题是相当多的机房运行风险正是由管理不到位造成的

7、。如规章制度不健全或形同虚设、安全管理不到位、 检测检查制度不严格、技术维护制度不落实等等。 第四, 机房风险来源于不严谨的运维。 机房运行维护是维持长期可靠运行的必要手段, 高度的责任心、 精通的运维技术和严谨的工作态度, 对实现安全运维目标缺一不可。 往往一时的疏忽, 一个随意的操作, 一次不到位的检查, 一次不经意的失误等等, 就会导致一场运行风险甚至灾难。 二、防范机房运行风险的对策 机房管理者应该在机房运行风险没有发生时就制定好严密的应对对策。 的对策主要应该体现在以下一些方面。 为此,针对机房风险 1、真实可行的风险分析 应用科学的方法,针对确定的对象,进行认真仔细的风险分析,同时

8、进行合理的风险判断。 尽管机房运行风险的基本情况如前表的罗列, 但是具体的机房必须进行具体的风险分析, 才可以制定出切合实际的防范对策。其方法可以参照本文的列表进行分类分级,在此基础上, 进行风险承受性和风险控制性分析。 下面以对某机房的消防保障情况分析,说明机房火灾风险分析的方法。 1)火险火源:电源(老化、过载、短路、电弧等)。人为(用火失误、放火破坏等)。 2)控制能力:首先,机房所有建筑材料,全部为不可燃物品或难燃物品,即使发生火险, 其燃烧蔓延速度和范围有限。 其次,电源设施全部按照国家标准施工建设和验收, 其中开关、线缆等配件均为合格产品;机房线缆全部实现金属穿管布线。第三,机房安

9、排 24 小时双人同时值班, 严格执行定期检查检测制度, 认真落实供配电系统定期检测制度, 所有供电回路没有满载使用情况。 第四, 机房安装了合格的自动检测消防系统, 包括自动温感和烟感报警及自动扑灭装置,机房内合理布置了适量的手提灭火器。 第五,机房内严禁用火, 工作人员严禁在机房内吸烟。 第五, 机房有健全的门径控制系统和严格的人员进出管理制度, 工作人员的业务素质较高,职业操守良好。 3)风险承受力:局部火险的影响可以承受,一旦发生火灾就将会导致非常严重的后果和不可控制的影响 4)结论:可控性高,发生率低,风险较小。 2、风险预置理念 通过对机房运行风险的分析,运行风险预先处置的理念。少

10、二、三级风险的发生。 就会发现, 机房风险可以进行适当的分别对待, 因此提出机房即通过科学的防范措施, 尽可能避免一级风险的发生, 尽可能减 1)风险转移。将一些可以预见但可能发生概率较低的风险,通过购买保险、设备维修外包 等形式,转移到保险公司和机房设备服务商。如购买财产保险,将机房风险(机房建筑物风 险、火灾风险等)转移到保险公司;通过机房设备外包的方式,将UPS、精密空调等设备 故障风险转移到设备维修服务公司等。特别是对重要的设备以外包方式实现风险转移,是非 常理智的选择。同时强调,选择风险转移的主要目的在于通过借助相关部门的管理、技术、 资金来最大限度地降低机房发生相关风险的可能性。

11、2)科学监控。 事实上, 机房保障系统的运行故障,大部分是有一个从量变到质变的过程的, 机房设备的使用寿命也有一定的规律可循, 而且所有机房设备的运行故障必定有其特定的原 因。据此, 通过健全科学的实时监控措施, 对发生故障随机性强的机房保障系统进行长期实 时检测, 经过对采集的运行参数的有机分析, 及时采取有效的规避风险的措施。 由实时监控 系统建立的预警系统, 可以达到对其监控设备的运行状态检测、 运行异常警告、 运行故障原 因分析,从而达到运行故障防范和及时处置的目的。 3)应急方案。应对运行风险的目标,是尽可能避免发生运行风险,一旦发生风险就要做到 快速反应, 快速恢复。既然机房运行风

12、险是客观存在的, 同时必须承认,有些机房运行风险 发生的时间是无法预控和预知的。对此,理想的选择是建立一整套科学有效的 “机房运行风 险应急方案 ”。包括启动运行危机处置的报告体系、负责人力资源调动和现场协调指挥的组 织机构, 负责执行风险处置的各方面专业技术人员及联络体系, 指导具体操作的完善详尽的 异常处置应对方案。 “机房运行应急方案”, 特别重要的是可用性,即实用、能用、会用。其基本原则是制定方 案分门别类,描述内容直观明晰,处置方法准确详尽,应急效果可靠稳妥。必须关注整个应 急处置过程的所有细节,包括异常分析判断、启动联系协调手段、应急人员备份、处置工具 器材等; 应急方案必须具备多种级别的应对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论