版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 服务内容服务目标可提供的运维服务包括对与信息系统相关的主机设备、操作系统、存储设备的容灾运维服务,保障用户现有信息系统的正常运行,降低综合管理成本,提高整个网络信息系统。服务水平。同时,根据日常维护的数据和记录,提供用户信息系统的整体建设规划和建议,更好地为用户信息化发展提供有力保障。用户信息系统的组成主要分为硬件设备和软件系统两大类。硬件设备包括网络设备、安全设备、主机设备、存储设备等;软件设备可分为操作系统软件、典型应用软件(如数据库软件、中间件软件等)、业务应用软件等。维服务进行有效管理,可以提高用户信息系统的服务效率,协调各业务应用系统的内部运行,改善网络信息系统部门与业务部门的沟通
2、,提高服务质量。 .结合用户现有环境、组织结构、IT资源和管理流程的特点,从流程、人员和技术三个方面规划用户网络信息系统的架构。与 IT 服务协调用户的运营目标和业务需求。提供的信息系统服务的目标是对用户现有信息系统的基础资源进行监控和管理,及时掌握网络信息系统资源的现状和配置信息,反映信息系统资源的可用性和健康状况,建立一个可知可控的信息系统。确保用户信息系统各业务应用系统的可靠、高效、持续、安全运行。服务项目范围所涵盖的信息系统资源的以下几个方面的关键状态和参数指标:运行状态、故障条件配置信息可用性和健康绩效指标信息资产统计服务本服务为基础服务,包含在运维服务中,有助于我们了解用户现有的信
3、息资产,更好地提供系统运维服务。机房服务包括:机房电源、温湿度信息统计记录硬件设备型号、数量、版本等统计记录软件产品型号、版本和补丁的统计记录存储产品型号、版本、性能信息的统计记录网络结构、网络路由、网络IP地址统计记录综合布线系统结构图绘制其他辅助设备的统计记录机房电源、温湿度要求频率输入电压阶段电流开关评论50赫兹220V单纯形2根线+地线20A单相交流电范围经营状况非操作状态温度10-4010-50相对湿度8-808-90温度变化C10C10 硬件设备列表如下表所示:网络及安防系统运维服务从网络连通性、网络性能、网络监控管理三个方面实现网络系统的运维管理。网络与安防系统基本服务内容:序列
4、号服务模块内容描述提供者1现场备件安装配合用户,工程师按照备件到达现场的时间到达现场某某公司2现场软件升级首先分析软件升级的必要性和风险,配合用户升级软件某某公司3现场故障排除按服务水平: 724小时5 8小时某某公司4电话远程技术支持724小时某某公司5问题管理系统总结并发布遇到的问题某某公司机房网络核心交换机信息系统管理单元:维修单位:设备名称:设备型号:管理IP:检查内容指南测试结果检查结果巡逻方式说明检验周期硬件运行状态电源运行状态 正常 异常风扇运行状态 正常 异常模块运行状态 正常 异常系统健康检查VLAN 状态 正常 异常配置状态 正常 异常OSPF 状态 正常 异常日志检查日志
5、状态 正常 异常其他检查内容 正常 异常 正常 异常 正常 异常用户现场技术人员值班可根据用户需求,提供长期现场技术人员服务,保证网络的实时连通性和可用性,保障接入交换机、汇聚交换机、核心交换机的正常运行。现场技术人员记录网络交换机的端口是否可以正常使用,网络的转发和路由是否正常,测试交换机的性能,评估网络整体性能,网络利用率优化。建议。现场人员还监控安全设备的日常运行状态,查看各种安全设备的日志,记录关键事件,判断并解决安全事件的原因,及时发现问题,防患于未然。同时可记录设备运行数据,形成报表进行统计分析,便于网络系统分析和故障提前预测。具体记录的数据包括:配置数据性能数据故障数据现场检查服
6、务现场检查服务是对客户的设备和网络进行全面检查的服务项目。通过这项服务,客户可以获得设备运行的第一手信息,尽可能的发现隐患,保证设备的稳定运行。同时,将有针对性地提出预警和解决方案,使客户能够及早预防,将运营风险降到最低。检查包括以下内容:编号内容1硬件健康检查项板状态检查电源模块状态检查风扇状态检查检查整机指示灯状态底盘空气滤清器检查机房温湿度检查设备地线检查2软件操作检查项目设备健康检查网络数据包分析设备互联健康检查路由健康检查3网络整体运行情况调查网络运行问题排查网络变化调查网络历史故障排查网络运行分析与管理服务网络运行分析与管理服务是指工程师对网络运行状况和网络问题进行定期检查和分析后
7、,为客户提供指导和建议的综合性高级服务。内容包括:服务内容服务优势为客户提供网络专家电话号码。保证第一次连接到网络专家以解决关键问题。网络专家组每周与客户进行不少于2小时的电话技术交流保证以最低成本及时解答客户关心的技术问题,就某一领域的技术问题进行深入沟通。每月向客户提交CASE总结分析报告,可扩展至每年17次(月、季、年)使客户能够了解网络故障历史和故障预防建议,最大限度地减少网络故障隐患,更高效地进行网络管理。重要时刻专人值班服务深刻理解,确保设备在重要时刻稳定运行对客户的成功尤为关键。因此,我们可以在重要时刻为客户提供现场现场支持,包括政府客户的重大会议、金融客户的年终结算日、运营商客
8、户的生产网络等。切换或客户认为可能对其业务运营产生重大影响的任何其他时刻。至少提前 3 周联系授权服务提供商的客户服务经理。对于每一个合同客户,授权服务商都需要根据之前的合同提供专人服务。如果客户需要超出合同约定范围的更多值班支持,需额外支付相应的人力和差旅费。主机系统运维服务IT架构不可用的原因有很多,主要包括计划外停机和计划内停机。其中,计划外停机主要是电脑故障或数据故障造成的;计划停机主要是由生产系统中的数据变化或系统变化引起的。(1)、计划外停机计划外停机主要包括主机停机、数据故障停机、存储故障、人为错误、数据损坏、站点故障等。主机故障停机时间当主机系统或数据库服务器发生意外故障并导致
9、服务中断时,主机系统就会发生故障。数据故障停机时间数据故障是关键企业数据的丢失、损坏或破坏。数据故障的原因比计算机故障更复杂,可能是由于存储硬件、人为错误、损坏或站点故障。存储故障目前通过使用磁盘RAID技术对备用磁盘进行加热来解决单个存储配置。因此,存储系统的故障主要是由机房停电或人为因素导致的存储设备停电造成的。人为错误人为错误包括意外删除重要数据或升级语句中不正确的“WHERE”子句更新了比预期更多的行。数据损坏数据损坏通常是由 I/O 堆栈中的组件故障引起的,例如,数据库由于更新事务而执行 I/O,而数据库 I/O 是跨各个组件传输的,包括:系统的 I/O 代码、文件系统、卷管理器、设
10、备驱动程序、主机总线适配器、存储控制器和磁盘驱动器都写到最后。 I/O 堆栈中任何组件中的错误或硬件故障都可以“转换”数据中的位,从而导致将损坏的数据写入数据库。这种损坏可能是数据库控制信息或用户数据,它们对您的计算机的正常运行至关重要;同样,磁盘故障也会损坏数据。站点故障数据保护功能提供了防止可能在一段时间内严重降低站点处理能力的灾难性事件的能力,包括文件损坏、自然灾害、电源或通信中断,甚至恐怖活动。(2) 计划停机时间IT系统运行阶段的计划停机是不可避免的,但是IT系统的停机会影响数据库停止对外提供服务,这会对业务运营产生一定的影响,尤其是724365的业务系统,计费系统、网上交易系统等计
11、划停机时间包括日常操作、定期维护和新设备部署等:日常操作是指经常执行的维护任务,包括备份、性能管理、用户管理和批处理;定期维护,例如安装补丁和重新配置系统,仅偶尔更新数据库、应用程序、操作系统、中间件或网络;新设备的部署包括对硬件、操作系统、数据库、应用程序、中间件或网络的重大升级。在请求计划停机时,不仅要考虑计划停机时间,还要考虑停机对整个业务系统的影响。由于数据更改而导致的停机数据变化,例如增加数据空间、改变数据库对象、增加和删除数据库对象、调整数据库参数等,都可能导致计划内停机。由于系统更改而导致的停机系统变化引起的宕机主要表现在两个方面:一是主机系统的变化,如更新设备、添加硬件、调整参
12、数导致主机系统重启;另一个是数据库系统的变化,比如数据库补丁升级,一些重要参数的调整需要重启数据库的运维。提供的主机系统运维服务包括:主机日常监控、设备运行状态监控、故障处理、操作系统维护、补丁升级等。主机系统的基本服务:序列号服务模块内容描述提供者1现场备件安装与用户合作。根据备件到达现场的时间,工程师到达现场设备制造商,某某公司2补丁服务消除软件漏洞给系统带来的安全风险,合理平衡安装补丁带来的系统连锁反应。某某公司3升级服务对系统进行软件或硬件升级,以改进、改进或消除现有系统中的漏洞。某某公司4现场故障排除按服务水平: 724小时5 8小时某某公司5电话远程技术支持724小时某某公司6问题
13、管理系统总结并发布遇到的问题某某公司7系统优化为客户端系统提供优化服务,包括主机、存储设备、操作系统。现场人员可以监控和管理的内容包括:CPU性能管理;内存使用管理;硬盘利用率管理;系统进程管理;主机性能管理;实时监控主机电源、风扇使用情况及主机机箱内部温度;监控主机硬盘的运行状态;监控主机网卡、阵列卡等硬件状态;监控主机HA运行状态;主机系统文件系统管理;监控备份服务进程和备份状态(起止时间、成功、错误告警);服务器部分系统管理单位:XX供电公司设备名称:设备型号设计序列号管理IP:检查内容指南测试结果状态是否正常检查方法说明检验周期硬件运行状态电源指示灯 正常 异常面板指示灯 正常 异常内
14、置磁带机 正常 异常CPU 状态 正常 异常内存状态 正常 异常磁盘状态 正常 异常网卡状态 正常 异常HBA卡运行状态 正常 异常系统检查系统日志 正常 异常邮件 正常 异常文件系统,包括磁盘卷剩余空间 正常 异常硬件检测 正常 异常交换分区 正常 异常固件版本 正常 异常补丁包版本 正常 异常系统映像 正常 异常设备指示灯状态 正常 异常系统故障报告 正常 异常进程状态 正常 异常系统性能检查CPU 利用率 正常 异常内存利用率 正常 异常磁盘 I/O 性能 正常 异常集群检查集群进程状态 正常 异常集群日志 正常 异常网络存储系统运维服务为机房存储环境(SAN、NAS)提供的运维服务包括
15、存储IOPS和空间利用率管理。存储和空间利用率管理的主动 IOPS 性能对系统运维非常重要。可以了解CIFS、iscsi、FC、FCoE、NFS协议的运行状态。通过性能管理,可以了解存储的日常运行状态,识别存储的IOPS性能,进行有针对性的性能优化。同时,密切关注存储系统的变化,主动预防可能出现的问题。存储-主机规划主机名分割空间应用应用_操作系统版本高可用版HBA型号IOPS (64K512K)存储故障目前通过使用磁盘RAID技术对备用磁盘进行加热来解决单个存储配置。因此,存储系统的故障主要是由机房停电或人为因素导致的存储设备停电造成的。数据损坏通常是由 I/O 堆栈中的组件故障引起的,例如
16、,数据库由于更新事务而执行 I/O,而数据库 I/O 是跨各个组件传输的,包括:系统的 I/O 代码、文件系统、卷管理器、设备驱动程序、主机总线适配器、存储控制器和磁盘驱动器都写到最后。 I/O 堆栈中任何组件中的错误或硬件故障都可以“转换”数据中的位,从而导致将损坏的数据写入数据库。这种损坏可能是数据库控制信息或用户数据,它们对您的计算机的正常运行至关重要;同样,磁盘故障也会损坏数据。为了减少单站点的故障,就是数据业务的连续性,实现数据的异地备份,在发生突发灾难时快速恢复数据,保证客户业务的连续性.提供的存储运维服务还包括快速发现、诊断和解决性能问题。当出现问题时,能够及时发现性能瓶颈,解决
17、存储性能问题,维护高效的应用系统。存储运维服务的主要工作是利用技术手段达到管理的目的,以系统的最终运维为目标,提高用户的工作效率。数据安全存储及容灾运维服务1.6.1 传统容灾方式当谈到灾难恢复时,自然会想到备份。企业关键数据的丢失将中断企业的正常业务运营,造成巨大的经济损失。容灾备份是保护数据的有效手段。同时,数据容灾和数据备份是相互关联的,主要体现在以下几个方面:数据备份是数据容灾的基础数据备份是系统和数据容灾的基础,也是实现低端容灾和高端容灾(实时数据保护)的有力保障。目前备份技术主要有快照备份、离线备份和异地存储备份。通过备份策略,备份系统实现了对计算机信息系统的操作系统、文件系统、应
18、用程序、数据库系统等数据集在某个时间点的完整拷贝。复制的数据处于离线状态,无法立即访问。必须通过相应的操作,如还原来使用备份数据。这也解决了高端容灾(实时数据保护)无法解决的问题:人为错误操作、恶意操作等,此类操作计算机系统无法区分。一旦执行,数据中心和容灾中心将同时进行修改。 ;对于数据库系统,在日志模式下,可以通过回滚的方式进行修改,文件系统、操作系统等其他配置信息无法回滚,会造成毁灭性的后果。因此,在构建高端容灾系统的前提下,必须做好本地系统的备份,这是容灾技术的出发点。数据备份是数据高可用性的最后一道防线。其目的是在系统数据崩溃时快速恢复数据。虽然也是容灾解决方案,但其容灾能力非常有限
19、,因为传统的备份主要使用内置或外置磁盘驱动器进行冷备份,而备份磁盘也是在机房进行管理。当机房发生火灾、盗窃、地震等灾难时,这些备份磁盘也会遭到破坏,存储的磁盘备份无法发挥任何容灾功能。双机热备备份模式面对灾难,各大容灾厂商提出的第一个容灾方案就是双机热备技术。双机热备技术基于应用切换原理,即整个容灾系统由两套业务系统和一个共享存储阵列组成。一旦主服务器出现异常或故障,备份服务器立即接管主服务器的应用。也就是说,目前常用的主备模式,主要是通过纯软件切换实现双机容错。由于两台服务器共享磁盘阵列上的数据,当磁盘损坏时,两台服务器将不可用,无法达到容灾的效果。而且,如果通过纯软件进行切换,存在误切换,
20、即在主服务器还正常的情况下,将业务系统的连接切换到备用服务器,会造成临时挂起等问题。业务系统。双机双存双机双存是指在双机热备份的基础上增加一套存储,实现应用层的切换和底层数据的不间断复制。其工作原理类似于双机热备。如果数据库能正常启动,首先要检查其数据文件、日志文件、控制文件等一系列文件的完整性,才能正常启动。对于双机双存的存储层复制,是文件级复制。他们无法检测数据的一致性。一旦双机双存出现逻辑错误,主服务器和备服务器都无法启动。容灾不是简单的备份真正的数据容灾是避免了传统冷备份的先天不足,能够在灾难发生时对整个系统进行全面及时的恢复。容灾根据其容灾能力的高低可以分为多个等级。例如,国际标准S
21、HARE78定义的容灾系统有七个层次:从最简单到只在本地进行磁盘备份,到将备份磁盘存放在异地,到真正建立异地备份系统。 -应用系统的时间切换,恢复时间也可以从几天到几小时到几分钟、几秒,甚至零数据丢失。1.6.2 灾备计划关键指标RTO(恢复时间对象)RTO(Recovery Time Objective):是指“将信息系统从灾难引起的故障或瘫痪状态恢复到正常运行状态,并将其支持的业务功能从灾难引起的异常状态恢复到正常运行状态所需的时间。可接受状态”,包括备份数据恢复到可用状态所需的时间、数据处理系统的切换时间、备份网络的切换时间等。该指标用于衡量服务灾难恢复方案的恢复能力。RPO(恢复点时间
22、)RPO是数据恢复点目标:指业务系统在灾难过程中内容的最大数据丢失量(以时间衡量),是与数据备份系统选择的衡量灾难的技术密切相关的一个指标恢复程序的数据冗余备份功能。容灾半径容灾半径是指生产中心到容灾中心的直线距离,用来衡量容灾解决方案能够防范的灾难影响范围。显然,零RTO、零RPO、大容灾半径的容灾方案是用户最期待的,但受系统性能要求、适用技术和成本的限制,并不实用。因此,用户在选择灾难时应综合考虑灾难发生的概率、灾难对数据的破坏力、数据所支持的业务的重要性、适用的技术措施、可承受的成本等多种因素。恢复计划。取舍。1.6.3 常用备份策略备份策略描述完全备份完全备份每次都是对系统的完整备份。
23、当数据丢失灾难发生时。完整备份耗时最长,消耗的磁带最多,但恢复时间最短,最方便。增量备份增量备份就是对上次全备份或增量备份系统中发生变化的数据进行备份。这种备份策略的优点是节省了磁带空间并减少了备份时间。缺点是发生灾难时,数据恢复麻烦,可靠性差。这些磁带中的任何一个出现问题都会影响后续的磁带恢复。差异备份差异备份它是自上次完整备份以来已更改的文件。优点是无需每天对系统进行全备份,备份时间短,节省磁带空间。它的容灾也很方便。系统管理员只需要完全备份和增量备份介质即可恢复系统。合成备份合成备份在备份窗口较短时完成。在合成备份期间,从完整备份、增量备份和差异备份中读取信息,并创建新的完整备份。可以在
24、继续使用网络的同时使此完整备份脱机,而不会降低系统性能或妨碍网络上的用户。差异增量备份:这个备份主要是因为每次备份的内容都是自上次0级或1级备份后发生变化的内容。累积增量备份(Cumulative Incremental Backup):这种备份主要是每次备份都是自上次0级备份后发生变化的内容。1.6.4 容灾核心问题容灾适应性指在容灾系统的实施和使用过程中,容灾系统对原生产系统、硬件系统、网络系统的影响。一些灾难恢复系统可能需要冻结原始生产系统以进行数据复制。容灾系统可能需要对硬件和网络环境进行改造,以满足系统所需的条件。这些转换对原始系统和数据具有一定的风险。灾难恢复可见性指容灾系统的容灾
25、效果是否可见、可查询。有些容灾系统的容灾效果只能在灾难发生后,备份系统恢复后才能验证。如果不能立即反映数据复制的失败,就无法达到容灾的效果。因此,容灾系统的核心问题是能否构建绿色容灾系统,在实施和使用过程中不影响原有生产系统,不需要修改硬件和网络环境。核实。1.6.5 灾难恢复的实施通常,应用服务器通过 SAN 访问存储资源。 SAN共享存储模型进一步细化,SAN存储分为:应用层文件/记录层块管理物理存储设备如下所示。SNA 共享存储模型因此,可以从文件/记录层和块管理层实现容灾。根据容灾的由来,容灾可以分为:数据库级容灾:基于数据库的容灾技术传输SQL命令或重做日志文件。比如Oracle数据
26、库自带的Data Guard技术。卷管理级容灾:基于主机卷管理软件的容灾技术可以选择同步或异步复制。存储目标数据的逻辑卷不能被业务系统使用,属于冷容灾模式。如VERITAS VVR远程数据复制软件。网络级容灾:网络级容灾主要是指基于虚拟存储技术的容灾。比如IBM的PPRC、EMC的Mirrorview、HDS的Truecopy复制技术。存储设备级容灾:通过存储控制器对设备级数据进行远程镜像或复制,是传统容灾方式中最高效可靠的方式。基于磁盘系统的同步数据复制功能,可以实现异地数据的容灾。虚拟化存储产品实现远程复制1.6.6 远程容灾技术远程镜像技术远程镜像技术用于主数据中心和备份中心之间的数据备
27、份。远程镜像,又称远程复制,是容灾备份的核心技术,也是保持远程数据同步、实现容灾的基础。根据请求镜像的主机是否需要来自远程镜像站点的确认信息,远程镜像可以分为同步远程镜像和异步远程镜像。同步远程镜像(同步复制技术)是指使用远程镜像软件将本地数据以完全同步的方式复制到不同的地方。每个本地 I/O 事务都需要等待远程复制的完成确认信息才被释放。同步镜像使远程副本始终与本地机器请求复制的内容相匹配。当主站点出现故障时,用户应用切换到备份备用站点后,镜像远程副本可以保证业务继续执行,不丢失数据。但是,它的缺点是往返传播造成的延迟长,并且仅限于相对较短的距离。异步远程镜像(异步复制技术)保证对本地存储系
28、统的基本I/O操作在远程存储视图更新之前完成,本地存储系统向请求镜像提供I/O操作完成的确认信息主持人。远程数据复制以后台同步的方式进行,对本地系统性能影响较小,传输距离远(可达1000公里以上),对网络带宽要求小。但是,很多远程从存储子系统的写入没有被确认,当某些因素导致数据传输失败时,可能会出现数据一致性问题。为了解决这个问题,目前多采用延迟复制技术,即在保证本地数据完整后进行远程数据更新。快照技术远程镜像技术常与快照技术结合实现远程备份,即通过镜像将数据备份到远程存储系统,然后利用快照技术将远程存储系统中的信息备份到远程磁带库中和 CD-ROM 库。快照是通过软件快速扫描待备份的磁盘子系
29、统的数据,建立待备份数据的快照逻辑单元号LUN和快照缓存。快速扫描时,将备份过程中需要修改的数据块快速复制到快照缓存中。快照 LUN 是一组指针,它们指向快照缓存和磁盘子系统(在备份过程中)中未更改的数据块。在正常业务运行的同时,通过快照LUN实现对原始数据的完整备份。它使用户能够在不影响正常业务的情况下,实时提取当前在线业务数据。它的“后备窗口”接近于零,可以大大增加系统业务的连续性,为系统真正的724运行提供保障。快照使用内存作为缓冲区(快照缓存),快照软件提供存储在系统磁盘上的即时数据映像。它有缓冲区调度的问题。互连技术早期,主数据中心和备份数据中心之间的数据备份主要是基于SAN的远程复
30、制(镜像),即通过光纤通道FC连接两个SAN进行远程镜像(复制)。当灾难发生时,备份数据中心代替主数据中心,保证系统工作的连续性。这种异地容灾备份方式存在实施成本高、设备互通性差、地理距离短(10公里)等缺陷,阻碍了其进一步推广应用。目前有很多基于IP SAN的远程数据容灾备份技术。他们使用基于IP的SAN互连协议,通过现有的TCP/IP网络,将主数据中心SAN中的信息远程复制到备份中心的SAN中。当备份中心存储的数据量过大时,可以使用快照技术将其备份到磁带库或光盘库中。这种基于IP的SAN异地容灾备份可以跨越局域网、城域网和广域网,成本低,扩展性好,发展前景广阔。基于IP的互连协议包括:FC
31、IP、iFCP、Infiniband、iSCSI等。虚拟存储在一些容灾解决方案产品中,也采用了虚拟存储技术,比如喜瑞的异地容灾解决方案。虚拟化存储技术开辟了系统弹性和可扩展性的新视野。它将几个不同的存储设备(例如 IDE 或 SCSI 驱动器)连接到一个存储池中。一个存储集群的整个存储容量可以划分为多个逻辑卷,并作为虚拟分区进行管理。存储因此成为一种功能而不是物理属性,这是基于服务器的存储架构的主要限制。虚拟存储系统还提供动态改变逻辑卷大小的功能。其实存储卷的容量是可以在线随意增减的。可以通过增加或减少系统中物理磁盘的数量来更改集群中逻辑卷的大小。此功能内容卷的容量随用户的即时需求动态变化。此
32、外,存储卷的大小可以轻松更改、移动和更换。安装系统时,只需为每个逻辑卷分配最小容量,并将剩余空间留在磁盘上。随着业务的发展,您可以根据需要使用剩余空间来扩展逻辑卷。您还可以在不中断服务操作的情况下将数据从旧驱动器在线传输到新驱动器。存储虚拟化的一个关键优势是它内容异构系统和应用程序共享存储设备,而不管它们位于何处。公司将不再需要将磁带设备连接到每个分支服务器。1.6.7 容灾级别根据数据备份系统、备份数据处理系统、备份网络系统、备份基础设施、技术支持、运维支持、容灾计划七大要素的不同要求,将容灾分为三部分信息系统容灾规范。 6个级别:1.7 容灾建设方式容灾建设项目和业务连续性项目与用户的业务
33、需求和应用状态密切相关,涉及技术、产品多、供应商多,是建设复杂、风险高的项目之一。为了降低项目风险,保证灾备中心建设的成功,选择有经验的合作伙伴,对信息中心灾备建设有成熟实用的方法论指导是非常重要的。规划(Plan) 科学的规划是项目成功的前提。在规划阶段,需要对企业IT系统的现状进行评估和分析,并根据企业业务发展的要求明确需求,从而在确定的需求基础上选择合适的技术,进行技术架构设计,选择合适的技术方案,购买相应的产品。建设(Build) 该阶段主要进行技术平台建设(包括集成、数据迁移等)、测试,构建完整的“灾难恢复计划(DRP)”或“业务连续性计划(BCP)”。在科学合理规划的前提下,建设阶
34、段会相对有序。管理对于灾备建设项目或业务连续性项目,灾备技术平台的建设及相关人员和流程要求只是开始,不是结束,必须定期更新和维护,以确保能够满足不断变化的需求。 - 不断变化的要求。业务发展要求。贯穿“规划、建设、管理”三个阶段的是“项目管理与服务一体化能力”。容灾或业务连续性建设涉及的技术和产品范围很广,不同的业务应用可能采用不同的技术方案,这些方案来自不同的厂商;由于服务的相互关联,不同的技术方案之间也存在着密切的联系。关系,甚至相互依赖。同时,在灾备建设过程中,会有多方供应商提供服务支持,协调多方关系,统一控制项目实施进度和质量,整合多方服务.它是“项目管理与服务一体化”的一项重要工作,
35、也是保证项目按时完成、保证质量的重要因素。.1 企业信息系统保护级别IT平台(包括主机平台、网络平台、存储平台等)层面的保护和恢复有不同层次的技术手段。不同级别的数据中心保护如上图所示,企业集中数据中心的IT系统和业务数据的保护有多种不同级别的保护方案,主要分为本地保护和远程保护两个方面。企业数据中心面向运营的保护与恢复包括三个层次:平台保护主要是平台的高可用,如采用主机集群系统和高可用存储平台(包括SAN网络环境的高可用和存储系统的高可用),以保证IT平台没有单点故障,并能实现高水平的业务和应用。可用性。数据备份定期对业务数据进行本地备份,在IT系统发生物理或逻辑故障时提供可靠的数据保护。数
36、据恢复-在数据错误或丢失的情况下实现快速、可预测的数据恢复,减少 IT 系统停机时间和对业务运营的影响。在构建完整的本地保护和恢复后,企业需要为灾难保护和恢复规划和构建“远程”数据和业务保护,包括三个层次:远程信息保护-将企业的所有重要数据安全存储在远程站点,提供对破坏数据的灾难性事件的保护。远程自动处理除了提供生产数据的远程保护外,还可以自动进行系统切换、切回和数据恢复,以便在发生灾难时能够快速恢复业务运营。多数据中心保护通过构建多个数据中心,使用多数据中心数据保护和恢复技术,可以防止更广泛的灾难事件。1.7.2 容灾技术模型灾备技术平台建设是企业业务连续性建设的重要基础。 XXX公司将企业
37、的IT平台分为“接入平台、应用平台、数据平台”三部分。建议企业容灾技术平台建设应主要围绕业务处理平台、数据平台和接入平台三个重要方面进行。保护系统域。容灾技术模型示意图1.7.3业务平台保护业务处理能力冗余在灾备技术方案的建设中,对企业业务平台的保护主要表现在业务处理能力的冗余和复用,其中涉及到:支持应用系统运行的服务器、操作系统等系统软件支持应用系统运行的存储以及存储与服务器(存储网络等)之间的连接用于连接服务器的IP网络系统支持应用系统实现的中间件或数据库客户需要在容灾中心配置与生产中心同厂家、同版本、同配置的应用服务器、中间件和数据库。确保主数据中心和容灾中心的软件运行环境一致。实现业务
38、逻辑的应用软件系统咨询服务部将能够为客户对以上方面进行调查评估,分析客户当前生产中心业务平台的现状和具体技术要求,提出构建灾备方案的具体要求。1.7.4 数据平台保护业务状态数据复制在容灾系统中,数据平台的保护主要包括业务状态数据的保护、备份与恢复、复制。需要保护的业务状态数据包括:业务交易状态(数据本身的数据属性是文件、数据库等)系统状态包括应用软件的初始数据和参数设置,以及系统软件的配置数据和参数设置。中间数据(或临时数据)在容灾系统建设中,数据平台的保护是实现企业容灾的核心。确保数据的安全始终是第一要务。只有支持企业业务运营的数据能够及时完整地复制到灾备中心,灾备中心才能在灾难发生时恢复
39、受灾影响的业务应用。针对不同的企业, XXX公司会根据需求分析的结果,对企业不同重要级别的应用或业务单元采用不同的数据复制方式,也会根据不同类型应用的访问特点,采用不同的数据复制方式。 .1.7.5 接入平台冗余与切换接入平台在容灾备份系统中,需要实现对外接口的冗余和切换,包括:应用数据接口切换包括文件传输、消息机制等。应用连接接口切换HTTP连接、数据库连接、远程过程调用、对象调用等.网络连接的冗余和切换包括城域网连接、拨号连接等企业“接入平台冗余切换”的关键在于实现灾备中心配备具有相同接入能力的网络设备,保证网络接入能够快速、轻松地从主生产中心切换到生产中心。网络配置中的备份生产。中央1.
40、7.6 容灾模式根据项目前期“状态评估、业务需求分析”等结果,从容灾水平、容灾范围、运营模式、容灾规模等多个角度进行综合分析,得到适合用户容灾需求的容灾。模型和操作。容灾等级根据业务恢复时间的长短,容灾建设可以分为不同的层次:只有数据的容灾才能保证数据的完整性。此类业务只需要在容灾中心配置存储平台,即可实现数据的远程复制和存储。这种方法可以减少投资,但业务恢复时间很长(总则3天以上)。数据容灾是一种只将生产中心的数据完全复制到容灾中心的容灾方式。数据容灾是远程容灾的最低形式,也是最基本的方法,是实现更高级容灾方式的基础。在灾难发生时,仅对数据进行容灾并不能保证业务的连续性,只能保证数据可用。如
41、果技术策略选择得当,可以保证业务数据的完整性。使用该模式具有以下特点:业务恢复慢,通常RTO72小时业务恢复困难,需要新设备技术难度低降低运维成本节省投资在数据容灾的同时,实现应用的高可用,保证业务快速恢复。容灾系统的应用不改变原有的业务处理逻辑,是对生产中心系统的基本复制。该方法具有以下特点:业务恢复速度很快。通常RTO小于24小时,也可以达到几个小时的水平。业务恢复过程比较简单技术上难以实施运维成本高,如增加软件版本管理、软件部署、维护人员等。更高的投资 容灾范围根据业务影响分析结果,容灾备份存储平台项目的业务将分为关键业务和非关键业务两大类。以后可以根据自己的需要选择需要容灾保护的业务类
42、型。您可以先构建关键业务的容灾,未来实现所有业务的容灾。关键业务容灾:在业务需求定义中通过业务影响分析来定义关键业务容灾全业务容灾。同级容灾或降级容灾根据容灾中心处理能力的不同,可以分为同级容灾和降级容灾。如果未来容灾中心配备与生产中心具有同等处理能力和高可用的业务处理平台(主要指主机性能、高可用集群等)灾难设计。如果容灾中心未来需要容灾保护的业务系统配置低于生产中心的处理能力或配置了高可用(如无集群等),则为降级灾难恢复设计。同级或降级容灾方式取决于业务需求和投资预算。降级容灾可以减少投资(主机投资)。 容灾技术概述不同企业的不同业务需求和应用特点可能需要不同的容灾技术要求。可以采用多种容灾
43、技术来构建容灾系统。 XXX专业咨询服务部将内容客户针对其实际需求提供不同的技术解决方案。 .面向所有客户的容灾技术平台建设,容灾解决方案的技术核心是数据保护、远程数据复制,以及在发生故障时利用远程复制的数据提供企业业务运营支持服务的能力。灾难发生。因此,数据复制技术是构建容灾技术平台的核心。不同的数据复制技术分类如下:如上图所示,对于容灾项目,使用连续数据复制技术更为可行。IT架构不同层次的不同容灾解决方案所采用的数据远程复制技术,可分为以下三种容灾解决方案:基于存储层的容灾解决方案利用存储系统的远程数据复制功能构建容灾系统,包括:类似存储平台之间的数据复制;虚拟存储技术用于实现异构存储平台
44、之间的数据复制。基于主机级别的容灾解决方案利用主机厂商提供的相关功能软件或第三方主机软件,实现远程数据复制,构建容灾系统。 构建基于存储的数据复制技术的容灾系统基于存储的容灾解决方案的技术核心是利用存储阵列自身的磁盘阵列到磁盘阵列的数据块复制技术,实现生产数据的远程复制,从而实现生产数据的容灾。当主数据中心发生灾难时,可以利用容灾中心的数据在容灾中心建立运营支撑环境,为业务的持续运营提供IT支持。同时,还可以利用容灾中心的数据来恢复主数据中心的业务系统,使企业的业务运行能够快速恢复到灾前的正常运行状态。基于存储的容灾方案示意图如下:基于存储数据复制技术的容灾方案示意图利用基于存储的数据复制技术
45、构建容灾系统是目前金融、电信公司和政府采用的最常见的容灾方案之一。基于存储的复制可以是如上示意图所示的“一对一”的复制方式,也可以是“一对多或多对一”的复制方式,即复制一个存储的数据到多个远程存储或多个存储的数据复制到同一个远程存储;并且复制可以是双向的。基于存储的灾难恢复解决方案有两种类型:同步和异步。说明如下:同步模式,可以在主备中心磁盘阵列中同步更新数据。应用系统的I/O写入主磁盘阵列(写入Cache)后,主磁盘阵列将使用自己的机制同时更新写入I/O 。 O被写入备份磁盘阵列。备份磁盘阵列确认后,主中心磁盘阵列返回应用程序的写操作完成信息。异步方式是应用系统的I/O写入主盘阵(写入Cac
46、he中)后,主盘阵立即返回“写完成”信息给宿主应用系统,宿主应用可以继续读写I/O。操作。同时,主中心磁盘阵列将使用自己的机制将I/O写入备份磁盘阵列,以实现数据保护。采用同步方式,使得备份磁盘阵列中的数据始终与生产系统的数据保持同步,这样当生产数据中心发生灾难时,不会造成数据丢失。为避免对生产系统性能的影响,同步方式通常在短距离内( FC连接通常在200KM范围内,实际用户部署通常在35KM左右)。在异步模式下,应用程序不必等待远程更新完成,因此对远程数据备份性能的影响通常很小,备份磁盘与生产磁盘的距离理论上是无限的。复制)。构建基于存储数据复制技术的容灾解决方案的必要前提是:通常必须使用同
47、一厂家的存储平台,而且通常必须使用同系列的存储产品,这给用户对存储平台的选择带来了一定的限制。同步方式可能对生产系统性能有影响,对通信链路要求高,有距离限制,通常在短距离内实施(同城或园区容灾)异步方式与其他类型的异步容灾方案一样,存在数据丢失的风险,通常在长距离通信链路带宽受限的情况下实施。容灾技术解决方案依然是最受青睐的容灾技术平台。灾害技术方案具有以下优势:使用基于存储的数据复制独立于主机平台和应用程序,适用于各种应用程序,完全不消耗主机的处理资源;基于存储数据的复制技术,由于处于最低层,实现受应用、主机环境等相关技术的影响最小。非常适合这种主机多、业务系统多的复杂环境。这种方法可以有效
48、降低实施和管理难度;同步方法可以完全防止数据丢失。在同城容灾或校园内容容灾解决方案中,只要通信链路带宽内容,可以使用同步方案,不会对主数据中心的生产系统性能造成明显影响。使用XXX基于存储的同步复制方式的容灾案例很多,有很多成功的经验。目前在同城容灾环境中已经具备以上条件,可以轻松部署同步复制;异步模式虽然存在一定的数据丢失风险,但没有距离限制,可以实现远距离保护。对于远程数据中心,数据保护使用异步复制与北京的两个中心进行。灾备中心的数据可以得到有效利用。对于基于应用、基于主机、基于存储的容灾方案,容灾中心的数据通常是不可用的,只对生产系统中的数据进行容灾和容灾。但在基于存储技术的容灾方案中,
49、有非常灵活的技术手段可以充分利用容灾中心的数据,从而提高企业的业务运营效率,带来更多的投资回报。如下所示:基于存储的容灾方案有效利用容灾数据如上图所示,生产中心的“源数据-R1 ”通过存储本身的数据复制机制复制到容灾中心,即“目标数据R2 ”。“目标数据R2 ”在正常生产条件下是不可访问的。容灾中心的备份主机只有在灾难发生时和主中心服务停止后才能访问“目标数据”并接管主中心的服务。与应用的容灾计划的容灾中心数据类似)。但是,在使用基于存储的容灾解决方案时,我们可以为“目标数据”创建一个BCV 卷或快照或克隆,供其他服务器使用。使用这种机制,用户可以在容灾中心做很多工作:用户开发测试人员可以使用
50、R2-BCV或R2快照获取真实数据进行新应用开发和测试,从而保证新应用的质量,加快新产品的上市时间。这种方法在基于主机和基于应用程序的解决方案中都难以实现,或者需要很长时间并且消耗大量资源才能获得用于开发和测试的真实数据。用户的其他应用也可以使用R2-BCV或R2快照来满足其他服务的需求。例如,数据仓库应用程序通常需要从生产系统中提取数据。一旦进行了大规模的数据提取,生产系统几乎处于停滞状态。这时可以使用R2-BCV卷进行数据抽取,从而避免数据抽取给生产系统带来的巨大性能。震惊。企业决策分析系统的数据源也可以基于R2-BCV实现。由于上述优点,基于存储的容灾方案是目前采用最多的容灾方案。摘要基
51、于应用的容灾解决方案、基于主机的容灾解决方案、基于存储(包括虚拟存储技术)的容灾解决方案各有应用范围,适用于不同的容灾需求。用户需要根据具体的实际需求选择合适的容灾保护方案。不同的用户、不同的业务系统、不同的应用对容灾的要求不同,需要不同的容灾服务等级。未来,将按照科学的流程和方法,利用XXX在信息存储管理领域的专业技能和经验,为用户进行IT环境评估和业务影响分析,挖掘客户业务需求的需求容灾技术,从而推荐最合适的容灾方案。对于企业而言,选择容灾方案不仅要考虑选择合适的技术方案,还需要检查实施方案的产品在技术上是否成熟可靠,性能和灵活性是否满足要求。供应商是否具有确保解决方案可行并能够成功实施的
52、经验和认证技能。运维服务流程建议用户采用两种服务方式:一种是技术人员上门值班,另一种是定期检查结合故障上门服务。技术人员上门运维服务的基本操作流程如下图所示:定期巡检结合故障现场运维服务的基本操作流程如下图所示:服务管理系统规范服务时间接收服务请求和查询:在工作时间5*8小时内设立专线热线,回答内部服务请求,记录服务台事件处理结果。非工作时间有7*24小时手机热线,用于解决内部技术问题, 7*24小时接听机房监控人员的紧急报告。服务响应时间:故障等级响应时间故障排除时间一级:是一个紧迫的问题;具体现象是:系统崩溃导致业务停止,数据丢失。30分钟,2小时内提交故障排除方案12小时内二级:问题严重
53、;其具体症状为:部分组件出现故障,系统性能下降,但可以正常运行,不影响正常业务运行。30分钟,2小时内提交故障排除计划24小时内三级:问题严重;具体现象是:出现系统错误或警告,但业务系统可以继续运行,性能不受影响。30分钟,2小时内提交故障排除方案48小时内四级:是普遍问题;其具体现象为:系统技术功能、安装或配置咨询,或其他明显不影响业务的预约服务。30分钟,2小时内提交故障排除计划5天内在解决故障时,技术支持人员会最大限度的保护数据,准备故障恢复的文件,力求恢复故障点前的业务状态。对于“系统瘫痪,业务系统无法运行”的故障级别,如12小时内无法解决故障,xxx公司将在16小时内提出应急预案,确
54、保业务系统正常运行。在故障解决后24小时内提交故障处理报告。描述故障类型、故障原因、故障排除方法和故障损失。行为守则遵守用户的规章制度,严格按照用户的相应规章制度行事。配合用户运维系统的其他部门和环节,密切配合,共同开展技术支持工作。遇到技术难点、业务问题和重大突发事件,及时向负责人报告。现场技术支持要精力充沛,着装得体,说话文明,举止庄重。接电话时文明礼貌,语言清晰,语气友好。坚持保密原则。对受支持单位的网络、主机、系统软件、应用软件等的密码、核心参数、业务数据等的保密负责,不得随意复制、传播。现场服务支持规范运维服务人员应提供耐心、细心、热情的服务。工作要做好记录、反馈、重大问题及时报告。
55、严格遵守工作时间表,严格按照服务工作流程进行操作。现场支持工程师着装整齐、有礼有节、专业、熟练、严谨、规范;现场支持必须遵守用户单位的相关规章制度。现场支持工程师在进行现场支持工作时,必须在保证数据和系统安全的前提下工作。现场支持过程中出现暂时无法解决的故障或其他新故障时,应及时通知用户并报告负责人,寻求其他解决办法。故障解决后,现场支持工程师应详细记录问题的时间、地点、提出者和问题描述,并形成书面文件。必要时现场支持工程师应向用户介绍故障原因、预防方法和解决技巧。问题记录规范根据用户提出的问题类型,问题分为咨询问题和系统缺陷问题两类:咨询问题是指用户提出的可以通过服务热线现场解决或现场故障排除的问题,并对问题有直接和快速的回答。并且实时性,问题可以在现场支持人员停止,并且可以使用咨询问题记录模板记录此类问题的记录。系统缺陷问题是指用户提出的涉及系统相应环节的确认和修改,需要经过提交、诊断、确认、处理和回复等阶段的问题。之后,将解决方案反馈给用户。具体
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年浙江工商职业技术学院单招职业倾向性考试题库及完整答案详解1套
- 2026年河北女子职业技术学院单招职业倾向性考试题库及参考答案详解
- 2026年广州卫生职业技术学院单招职业倾向性测试题库附答案详解
- 2026年安徽医学高等专科学校单招职业倾向性测试题库参考答案详解
- 2026年呼和浩特职业学院单招职业倾向性考试题库带答案详解
- 税务科长面试题目及答案
- 乙肝疫苗接种情况
- 2025年公开招聘专业人才备考题库及参考答案详解1套
- 中国科协所属单位2026年度面向社会公开招聘工作人员备考题库参考答案详解
- 2025年南京大学招聘南京赫尔辛基大气与地球系统科学学院助理备考题库及1套参考答案详解
- 超星尔雅学习通《中国古代史(中央民族大学)》2024章节测试答案
- 项目4任务1-断路器开关特性试验
- 编辑打印新课标高考英语词汇表3500词
- (高清版)DZT 0215-2020 矿产地质勘查规范 煤
- 高层建筑消防安全培训课件
- 国家开放大学《土木工程力学(本)》形考作业1-5参考答案
- 实验诊断学病例分析【范本模板】
- 西安交大少年班真题
- JJF(石化)006-2018漆膜弹性测定器校准规范
- GB/T 5563-2013橡胶和塑料软管及软管组合件静液压试验方法
- GB/T 24218.1-2009纺织品非织造布试验方法第1部分:单位面积质量的测定
评论
0/150
提交评论