业务连续性数据中心建设-第一部分-总体构思.doc_第1页
业务连续性数据中心建设-第一部分-总体构思.doc_第2页
业务连续性数据中心建设-第一部分-总体构思.doc_第3页
业务连续性数据中心建设-第一部分-总体构思.doc_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

业务连续性&可用性数据中心建设(1)- 总体设计思想在IT发展历史上,业务连续性和可用性始终是人们关注的焦点之一,也是一个不断更新的技术领域。近年来,虚拟化技术和面向服务架构的普及推动越来越多的企业建设更加自动化、更加经济有效、更富前瞻性的业务连续性和可用性数据中心。1 实现业务连续性&可用性的重要意义在业务科技时代,IT就是业务,过去强调若干个“9”的高可用性概念正在被业务连续性&可用性(business continuity and availability,BC&A)所代替。因为,机构客户真正关心的不仅是IT系统的正常运行,而是保持IT系统所支持业务的正常运行、持续提供高质量的服务、使客户在任何时间得到所需的信息和服务。因此,业务连续性比传统的高可用性前进了一步,对企业和机构数据中心的设计和运营提出了更高、更全面的要求。为了支持业务724连续运行,要求数据中心能够提供连续的服务:这意味着服务涉及的所有IT基础设施部件(机房设施、服务器、网络、存储和应用等等)的高可靠性和高可用性、服务必须具有灾难恢复功能、通过服务管理和IT流程自动化执行关键服务流程、消除手工管理错误。这些要求不仅针对单个系统、而且针对整个关键任务流程,不仅针对硬件设备、而且针对应用和数据,不仅适用于平时、而且适用于发生灾难时。要求机构数据中心从服务器、存储、网络到应用提供持续的优质服务,保护数据的安全和完整性,并且在发生灾难时能够以最快的速度恢复正常运行。业务连续可用性显然是保持IT与业务一致和灵活应变的基本条件,因为只有保持数据中心持续稳定和高效运行,才能提供与机构业务目标一致的访问、并对各种变化作出灵活的反应。遗憾的是,当前许多机构数据中心不能正常应对内外部的许多安全性挑战和威胁、满足业务连续性&可用性的要求,往往由IT故障使得机构停止提供服务,造成很大的损失。据统计,许多企业10的成本开支是由于IT故障造成的。下图描述许多行业IT每停止服务一小时,所遭受的平均损失。IT故障的影响不仅在经济损失上,而是多方面的、有许多甚至是难以挽回的: 人员不能工作、降低生产效率; 加班和返工的开支; 丢失营业收入(不能在线订货和按时提供产品); 丢失关键数据(如客户记录、财务报告),造成严重的经济损失; 丢失客户、降低客户满意度和信誉; 不能满足政府法规的要求; 降低企业信誉和品牌价值; 影响未来收入和进一步发展;此外,IT故障显然还有许多其它负面影响。由于大多数机构越来越依赖于IT,技术经理们已经被授予任务确保提供持续的服务、即使发生重大灾害也要确保连续服务,从而避免服务中断所造成的经济损失和其它负面影响。大多数IT和企业领导人都非常了解业务连续性计划的价值。直捷了当地说目标是避免宕机和最大限度地减少潜在的数据损失。虽然有些灾难发生的概率并不太大,但是确实有许多理由和实例说明防止灾害损失的极端必要性。安全性缺陷或者对你系统的恶意入侵可能对系统造成巨大的破坏。此外,大多数机构必须依靠不在它们直接控制下的基础设施,如电网和Internet 基础设施。最后,不懂新技术的用户或管理员错误也可能导致宕机。从未来发展趋势来分析这些威胁和风险只会变得越来越大、其负面影响也只会变得越来越严重。因此,许多企业和机构都开始制订规划并启动业务连续性&可用性项目,也迫切要求厂商提供相应的解决方案。例如:金融服务行业需要在消除风险方面花费更多的代价。因为,目前它接受的管制最为严格。如果一家银行丢失了数据,它将面临灾难性的后果。因此,金融服务业尤其需要出色的数据保护和业务连续性。一家银行绝对不希望丢失一笔数百万美元的交易。旅游业和零售业中也有一些企业需要密切的客户联系和服务,例如航空公司。在瞬息万变的市场环境中,这些企业的客户会很容易突然转投竞争对手的怀抱。他们知道,即使只有半天的服务中断,也会大大降低客户满意度,而且,这种满意度的下降很快便会演变成显著的损失。制造业也会为确保基础设施的连续可用而不惜投入巨资。越来越多的跨国企业必须遵从全球性的标准,它们显然希望在全球范围内使用相同的标准技术和流程。现在,他们比以往更加密切关注扩展的供应链的情况,要求供应商必须具备维护其业务连续性的能力。2建设业务连续性&可用性数据中心的步骤虽然,实现业务连续性具有重大意义,但不幸的是,维持完全的冗余可能是一个昂贵的建议。因此,机构作为一个整体应当一起工作从战略高度来确定启动业务连续性计划的理由。在某些场合中,主要的推动力与合同责任或符合法规要求有关。在另一些场合中,宕机或数据丢失的经济影响提出了这一业务要求。要点在于需要调动整个企业来实现容灾计划的价值。确保业务连续性解决方案成功涉及的范围远远超出IT部门,机构的整个管理队伍必须加入才能实现确保业务连续性。因此,在启动任何业务连续性计划以前,CEO们必须回答一个比任何业务连续性计划更重要的问题。这个问题就是是否真正作出了启动这一计划的战略决策。CEO们不仅需要了解本企业在哪些方面存在风险以及风险究竟有多大,还需要确定什么需要保护和多大花费是合适的。最后,将作出一个战略性的决策:是继续承受这些风险,还是着手消除这些风险。只有在领导层真正下定决心、给予全面的支持,才能确保业务连续性计划取得成功。虽然实现整个数据中心中所有系统都提供连续服务是很诱人的,但是这在实际上是不必要、经济上也是不划算的。如果给予无限的资源,实施业务连续性将是很简单的:可以建立多重冗余环境,将可以方便地提供业务连续性。在现实世界中,经济和技术约束使得这一流程要困难得多。在考察建立完整的业务连续性的机制以前,IT管理层应当会见企业领导人确定必须保护的基础设施关键部分。因此,建设服务连续性数据中心的任务实际上必须分为两个层次来实现: 数据中心层次:按照3级以上标准建设机房,提供高可靠性和高可用性的公用机房基础设施; 业务流程层次:利用IT流程自动化工具完成支持关键任务的业务流程;这两个层次是相辅相成、缺一不可的:高可靠性和高可用性的公用机房基础设施提供运行关键任务业务流程的物质基础。但是,即使是可容错和可并行维护的4级数据中心最高只能达到 99.995%,无法满足提供724 业务服务连续性的需要。必须利用IT流程自动化工具消除手工干预、提高应变速度和提供自动的灾难恢复功能,方能实现724 业务服务连续性。在业务流程层次,首先必须确定影响企业和机构业务全局的所有关键业务流程。例如,银行业中的客户服务流程,制造业中全球供应链流程等等。与此同时,要建立所有关键流程与基础设施以及支持它们的流程的对应关系,即确定这些流程所涉及的机房设施、网络、服务器、存储等IT基础设施部件。第二,必须进行全面的评估:确定数据中心是否拥有提供业务所需可用性的基础设施、流程和人员,包括能够成功应对突发事件的业务连续性计划;还需确定相应的基础设施能否提供关键业务流程所需的服务可靠性和可用性。第三,在完成了上述两大步骤的工作后,可以开始考虑和解决技术细节,包括消除所有关键流程中手工干预,确保这些流程所使用的所有部件的可靠性和可用性符合支持724服务连续性、并提供系统灾难恢复以及数据保护和恢复能力。第四,然后,还需要制定适当测试流程。只有连续性计划进行了测试,并且确定此项计划能够成功应对突发事件时,这一计划才能发挥实际作用。在下面各节中,我们将以机房设施、网络和服务器为例说明如何实施上述步骤。3 机房设施的评估、设计和建设数据中心中所有业务流程都在机房设施的支持下运行。合格的机房条件是实现业务连续性的必要条件,为此必须对公用的机房基础设施支持关键业务流程连续运行的能力进行全面的评估,并且根据提供连续服务所需的高可靠性和可用性要求进行机房设计和建设、或者改造原有的机房基础设施。机房设施的评估为了了解数据中心机房的现状、经济有效地改造现有的机房,必须根据支持业务连续性的需要对公用设施基础架构进行详细、彻底的审核与分析。评估内容包括: 机房:规模、通道大小、维护空间、门操作; 活动地板性能:重力、抗震、地板下管理、接地线; 建筑性能:地板活载荷、电力服务; 防火能力:探测器、灭火器、类型和维护; 配电设备:设计、能力、单点故障、接地线、交换机装置、TVSS; UPS:规模、负载、电池系统、电池监控与调节、维修旁路、散热能力; 发电机:大小、负载、燃料容量、安全、维护和测试程序以及测试日志; 环境风险:射频和电磁干扰(RFI和EMI)、静电放电 (ESD)、空气中悬浮微粒等; 环境:气温调节点和调节范围、补给空气、湿度、流量、平衡和分配; 空调:系统类型、平衡和维护、能力、冗余; 监控:电气和机械数据监控、日志、远程访问; 维护:实践活动、设备状态、非工作时间服务响应能力; 安全:物理访问、门操作、闭路电视监控系统、照明、远程监控、视频数据记录; 站点:自然灾害风险集成式系统; 冗余:规划、能力、电气和机械系统添加、迁移和变更流程评估与控制; 人员培训:电气和机械系统、火警探测器等方面专门人才的培训; 标识:适当的类型和位置; 通告:适当的类型和位置; 安全:程序、系统和培训;评估的结果将提供一份详细的最终调查报告。如果发现缺陷,则会对每种缺陷进行定性与定量说明,包括推荐升级、评估相关费用。费用评估和变更建议均以行业经验和最佳工程实践为依托。数据中心机房设计和建设数据中心机房设计内容包括机房规模和配置、布局、电气、机械、火警探测和灭火系统、数据中心访问控制以及相关的电气、机械和电信/网络机房。为了实现业务连续性,支持关键任务的主生产系统和备份系统的机房都必须按照3级以上的标准来设计和建设数据中心的机房,或者改造现有的机房。下面针对影响直接的供电和网络布线要求作进一步的说明。容错电源规范为了避免因为机房对内部设备的供电中断,必须遵循容错电源规范来给设备供电。容错电源设备是指可以从两个不同的交流电源,接收交流电输入的计算机或通信硬件。其用途是,在同时使用 A 和 B 两个电源或单独使用时,保持设备的所有功能均正常运行。有些站点会拒绝使用需要两个以上外部电源输入的产品。真正符合容错电源规范的设备,必须在初始安装时及最大功率情况下满足以下各项标准: 即使两个交流电源中的一个出现故障或无法容错,设备仍须能够启动或者保持运行,同时不能出现任何数据或硬件功能、性能、计算能力或散热方面的损失; 当一个交流电源出现故障或无法容错时,另一个交流电源须能够不间断提供电源。待电源恢复正常后,必须在不中断设备运行、无需 IPL 或人为干预的情况下,照常恢复数据、硬件功能、性能或计算能力; 在恢复出现故障或无法容错的第一个或第二个交流电源后,不到十秒可能又会有一个电源出现故障。如发生这种情况,须确保不出现任何数据或硬件功能、性能、计算能力或散热能力方面的损失; 只要两个交流电源的电源特性都保持在制造商公布的规范和范围内,则可以不同步,并拥有不同的电压、频率、相位旋转方向和相位角; 两个外部交流电源输入线的端头都必须接到制造商根据容错电源规范生产的计算机硬件上。如果外部交流电源输入线属于可拆卸电源线,则设备必须能够将输入线的插头牢牢插入插座内,以防掉线; 在设备中,各交流电源系统(包括从交流电源到直流电源)必须可以单独隔离,以便在对两边的任何电源系统组件进行维修时,不影响计算机设备可用性或性能,也不对另一边的电源系统造成风险; 对于单相或三相电源,交流电输入的中性导线不能与设备内的接地板相连接。这样可以防止两个外部电源之间形成循环的接地电流; 内部或外部不能有活动的交流电输入交换设备(如机械或电子转换器); 如果设备内部错误引起某一交流电源发生故障,则必须确保第二个交流电源不受影响; 只有为了将系统短暂、有序地中断时,才能使用内部无间断电源系统 (UPS) 或内部电源电池(可使用高速缓存电池)或其他类型的电源。内部 UPS 或电池的存在和功率以及中断时长必须得到确认; 对于单相或三相电源,当两个交流电源输入都可用并且输入电压相同时,两个电源的各自负载正常情况下将不超过平均负载的 10%; 对于三相电源配置,正常情况下每相的负载不超过平均负载的 10%; 当一个交流电源出现故障或负载超过制造商规定的范围时,必须在 60 秒内通过设备的软件或主机操作系统向用户发出外部警报。这种告警软件还必须创建一份有关非正常情况的永久性记录,包括出现时间和修正时间;网络布线网络布线已成为网络和计算系统实施中的关键要素之一。因此,必须严格遵循行业标准,考虑如下的质量保障因素: 工程设计: 对 基础架构布线需求进行全面分析,为其量身定制一个可满足其具体业务需求的环境; 模块化: 布线系统必须实现模块化,以便轻松进行重新配置和扩展、轻松快速

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论