华夏人寿保险计算机系统重大突发性事件应急预案_第1页
华夏人寿保险计算机系统重大突发性事件应急预案_第2页
华夏人寿保险计算机系统重大突发性事件应急预案_第3页
华夏人寿保险计算机系统重大突发性事件应急预案_第4页
华夏人寿保险计算机系统重大突发性事件应急预案_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华夏人寿保险华夏人寿保险计算机系统重大突发性事件 应急预案 第一章第一章 计算机系统重大突发性事件应急预案计算机系统重大突发性事件应急预案 1.1.说明说明 华夏人寿保险股份有限公司信息系统应急方案是为了确保当华 夏人寿关键系统发生故障或供应链因以外中断时,关键业务仍可继 续运作,而预先制定和准备的一系列操作方案。本应急方案并不能 代替解决问题的工作,它只提供一个最低可接受的服务水平,以便 有充足的时间去修复出现故障的系统。其价值在于,计划和方案在 危机出现前就已经制定好,能最大限度地争取时间。通过应急方案 主动的有预见性的,而不是被动地仓促地对紧急情况做出反应。 2.2.应急方案的目标应急方案的目标/ /范围范围 2.1 目标与范围 (1)业务连续:确保华夏人寿的日常业务能够连续运行,不出现 中断。在某些系统或子系统功能失效的情况下,关键系统不至于瘫 痪,主要功能不会丧失。 (2)降低风险:应急方案必须采取各种措施,把由于问题而产生 的风险降到最低。 (3)减少损失:对于可能产生的风险,采取技术和管理方面的补 救措施,尽量将各种损失减少到最低。 (4)避免灾害:尽量避免因为系统故障而产生灾害的高危系统造 成的直接或间接影响,确保人民生命财产安全和社会稳定。 目前,华夏人寿保险公司基于计算机和网络的业务处理系统主 要包括核心业务系统、财务系统和办公系统。 2.2 关键业务系统描述 核心业务系统核心业务系统 业务生产系统配置 1 台 HP rp8420 服务器和 1 台 rp7420,rp8420 和 rp7420 分别划分两个硬件分区,一个硬件分区 配置是 4CPU、8G 内存作为业务系统的数据库服务器,另一个硬件分 区是 4CPU、4G 内存作为业务系统的应用服务器。一套磁盘阵列 EMC CX500,作为核心业务系统和财务系统的硬件支撑平台。另外配置一 台 HP rp3410 作为核心业务系统及财务系统的测试服务器,运行非关 键的开发和测试工作。 财务系统财务系统 财务系统安装在 1 台 HP rp4440 服务器上,同时与核心业务系 统共用一套磁盘阵列 EMC CX500。Rp4440 也划分两个硬件分区,一 个硬件分区配置是 2CPU、4G 内存,运行财务系统的数据库,另一个 硬件分区配置是 2Cpu、2G 内存,运行财务系统的应用程序。核心业 务系统的服务器与财务系统的服务器做双机互备,平时业务系统运 行在 rp8420 上,财务系统运行在 rp4440 上,当一台服务器的一个 分区发生故障时系统切换到另一台服务器的相应分区上运行。 3.3.应急团队组织结构应急团队组织结构 应急方案都是在发生灾害的非常时期进行。因此,充足的人力 资源配备和明确的责任分工显得尤为重要。如果没有一个组织有序 的团队,很难保证灾难发生时能够在既定时间内完整、成功地实现 灾难处理和业务恢复。 从华夏自身来看,其实施应急的团队组成不仅要横跨各个部门, 还要纵向包含省分和市分等多级机构。因此,合理地组织华夏各级 机构的各个业务部门的人力资源,根据灾难恢复方案的需要明确各 个团队成员分工,是保证应急方案顺利实施的基础。更重要的一点 是,将各个组织部门的管理层纳入应急实施团队或至少得到他们的 充分承诺是整个应急系统成功的关键因素之一。 这里需要说明的是:由于灾难的偶然性和突发性,应急团队并 不需要全职地投入到应急工作中。实际上,整个团队中除了应急实 施负责人和协调人之外,其他成员在日常工作中都是兼职地加入应 急团队,其担负的任务和责任也只是其日常工作地一部分而不是全 部。但是,整个应急团队需要在建立和修订应急方案时全职地投入 应急工作,这些工作至少持续到整个方案测试结束,以保证团队对 应急方案的实施能力。 3.1 团队负责人 根据华夏的组织结构情况,设立应急负责人组成整个应急系统 的最高管理层。应急负责人是整个应急系统的最高负责人,是具体 实施应急的领导者。 3.1.1 作用 应急负责人全面负责整个华夏的业务持续和灾难恢复工作,包 括方案制定、人员组织沟通、方案演练、文档和测试工作。应急负 责人的主要作用就是保证华夏能够在发生灾难的情况下保持关键业 务的持续运行,将灾难损失降低到最小程度。 3.1.2 职责 保持和本级高级管理层的联络; 具体负责应急方案的制定和实施; 保证所负责的区域内的灾难恢复和业务持续; 共同保持整个华夏范围内的应急知识普及; 协同华夏各部门的应急工作。 3.2 应急协调人 3.2.1 作用 具体联络相关小组实施应急负责人下达的各项任务,协调上下 级之间和各部门之间的联络和协同,并且他们还要作为制定和实施 应急方案的联络人。 3.2.2 职责 组织和协调所负责区域的应急相关的各项工作; 对本区域的人员进行相应的应急知识培训; 组织各部门的应急演习和评审; 联络和沟通本区域的各个部门以及外部供应商和服务商。 3.3 灾难恢复小组 灾难恢复小组是应急方案的具体执行者,负责执行和灾难恢复 相关的具体职能。根据各项职能的要求,每个小组大约包括 3 到 5 名成员,由组长负责本组的工作,并且在每个组中还要有一个候补 的小组负责人。各个小组都需要由应急中心和所支持的省公司的相 关人员共同组成,在灾难发生时共同利用应急中心的资源完成灾难 恢复和业务延续。 各个小组在应急负责人的领导下进行工作,通过应急协调人和 各级部门之间进行沟通。根据实际工作的需要,可以对小组的工作 进行具体的详细划分,或者增加新的职能小组。 应急负责人、协调人和各小组的组长一起构成整个应急团队的 管理层,由他们负责指导华夏应急方案的制定和实施。 以下具体描述各小组的职能和组成。 3.3.1 设施恢复组 设施恢复组负责监控本区域内所有的物理设施,包括平时的预 防工作和灾难发生时的损失评估、保护、维修和转移,以及在应急 管理层的指导下,进行灾难地和应急中心之间地物理设备切换。 根据其职能,设施恢复组主要包括以下人员: 设施规划和运行维护人员; 资产管理和审计人员 供应商和服务商联络人员 设施相关的技术专家 安全管理人员 法律和保险管理人员 3.3.2 行政管理组 行政管理组负责为其他职能部门作好所需的后期保障工作,包 括运输、安全保卫、资金、人员调配和公共关系等。 行政管理组主要包括以下人员: 具有足够资源调度授权的经理; 运输、财务、人事、安全保卫、公共关系相关人员; 外部服务商、供应商联络人员; 行政助理 3.3.3 系统恢复组 系统恢复组负责保证支撑关键业务应用的平台系统的恢复,并 及时提供给相关的业务部门。 系统恢复组主要由以下人员组成: 系统管理员 供应商联络人员 3.3.4 通讯恢复组 通讯恢复组负责维护和保障应急方案中的通讯需要,包括语音 通讯和数据通讯,尤其是灾难恢复所需的指挥通讯和恢复关键业务 应用所需的数据通讯。通常通讯恢复组需要借助第三方的网络供应 商来完成所需的通讯保障工作。 因此,通讯恢复组包括: 网络及通讯系统维护人员 网络服务供应商联络人员; 设备供应商联络人员; 3.3.5 用户联络组 用户联络组负责应急团队和各业务部门的沟通和联络,以使应 急团队及时了解详细的灾难影响以及来自业务部门的需求,同时, 也是业务部门了解应急团队的灾难恢复工作进展情况,帮助双方更 准确地进行相应的决策。 用户联络组人员组成: 各业务部门代表 应用系统专家 3.3.6 数据控制组 数据控制组负责应急的数据备份和恢复工作,包括制定相应的 备份计划、恢复优先级的评估以及恢复方式,并在灾难发生时负责 实施相应的数据恢复工作。 数据控制组由以下人员组成: 数据控制经理; 数据备份管理人员; 备份介质管理人员; 原始单据管理人员; 数据录入组织人员; 3.3.7 应用恢复组 应用恢复组负责业务应用系统的恢复,这个小组和系统恢复组、 数据控制组一起完成业务支撑应用系统的恢复工作,实现业务的延 续运行。 应用恢复组的成员主要有: 应用系统管理员; 应用系统开发商维护人员; 3.3.8 配合协作组 配合协作组负责应用系统发生问题时,和其它恢复小组一起完 成业务支撑系统的恢复工作。主要成员根据业务系统影响的范围而 定,例如在与分公司、支公司或者营销部的某些业务受到影响时, 则需要当地技术人员的配合,一同完成业务系统的恢复工作。 4.4.关键业务监控技术平台关键业务监控技术平台 针对华夏人寿业务系统技术新、规模大、可用性要求高、管理 任务重的特点,华夏人寿除了配备了高素质的技术支持团队,而且 采用了完整的数据库管理解决方案,能够完全满足寿险核心业务系 统管理需求。 5.5.应急处理流程应急处理流程 应急处理流程分为事件级别判定、事件处理及升级程序。 5.1 事件级别判定 事件级别定义: 序号序号事件级别事件级别颜色标识颜色标识故障现象描述故障现象描述 1一级故障红色 系统运行中断,对用户业务的运行有严 重影响。 2二级故障橙色 系统中重要功能受损、主要性能指标严 重下降,影响和限制了部分业务运营。 3三级故障黄色 在系统主要功能及性能指标运行正常的 情况下,系统部分功能与性能受损。 对于华夏人寿重要的核心业务系统、财务系统,主机、数据库、 网络系统有着至关重要的作用,根据事件级别的定义,主机、数据 库、网络系统的事件级别判定标准如下: 事件事件 级别级别 颜色颜色 标示标示 故障现象描述故障现象描述主机系统主机系统数据库数据库网络网络 一级 故障 红色 系统运行中断,对 用户业务的运行有 严重影响。 核心业务主 机瘫痪。 业务数据库 挂起或者无 法正常使用。 核心交换机、 骨干网络线路 不能使用。 二级 故障 橙色 系统中重要功能受 损、主要性能指标 严重下降,影响和 限制了部分业务运 营。 核心业务主 机运行缓慢、 出现严重报 警信息或硬 件错误。 核心数据库 响应缓慢, 部分应用出 现数据不一 致性等错误。 交换机或路由 器性能下降, 或者网络带宽 使用率超出承 载能力。 三级 故障 黄色 在系统主要功能及 性能指标运行正常 的情况下,系统部 分功能与性能受损。 核心主机基 本上正常工 作,但存在 硬件或系统 级错误,使 得主机系统 性能有所下 降。 数据库工作 基本正常, 但是某些非 重要数据存 在问题或者 运行不够稳 定。 网络基本正常, 但是出现网络 数据偶尔停顿 等现象。 四级 故障 蓝色 在系统无故障或不 影响用户业务运行 的情况下,用户对 系统的功能、安装、 配置、性能优化或 使用方面提出技术 咨询服务要求。 主机系统运 行正常,但 是在主机系 统参数配置、 或性能优化 方面需要改 进。 数据库系统 运行正常, 需要对数据 库系统配置 参数进行调 整。 网络运行正常, 对网络链路使 用或设计方面 有待改进。 5.25.2 事件处理程序事件处理程序 类型类型事件事件 事件事件 级别级别 预防措施预防措施紧急处理程序紧急处理程序 机房 环境 机房强电停电, 停电时间超过 UPS 备援时间 二级定期对 UPS 运 行状况和电池 进行检测,增 加 UPS 待机时 间 关闭非关键业务 服务器,与相关 系统管理员联系, 做好系统关机准 备。 机房 环境 空调上水和凝水 管小面积漏水, 不超过单个机房 面积的 1/3,没有 淹及强、弱电模 块,不影响主机 和网络设备的运 行 三级安装防漏水报 警系统,加强 机房环境巡检, 做好机房顶层 的防水工作 立即联系物业公 司吸扫漏水,切 断水源,联系相 关厂商查找原因 和解决问题。 机房 环境 机房漏水,漏水 面积超过单个机 房面积的 1/3,水 深已经引起地面 强电短路、弱电 模块不能正常通 信 一级安装防漏水报 警系统,加强 机房环境巡检, 做好机房顶层 的防水工作 立即联系物业公 司吸扫漏水,切 断水源,联系相 关厂商查找原因 和解决问题。 主机 系统 业务生产主机、 财务生产主机运 行主机宕机 二级施行双机热备, 加强系统巡检, 加强数据和系 统备份 立即与集成商、 厂商联系报告故 障,并手动切换 到备份主机,启 动备份主机上的 相关服务 主机 系统 磁盘阵列宕机一级加强系统巡检, 与厂商联系定 期进行诊断, 加强数据和系 统备份 迅速与集成商、 厂商联系分析原 因和解决问题 主机 系统 邮件系统故障, 服务不能在短时 间内恢复 二级加强系统备份, 加强系统巡检, 提前发现并解 决问题,增加 硬件冗余措施 立即通知受影响 的用户,联系软 件厂商进行紧急 修复。 网络 系统 与分公司的单条 线路出现故障, 处理时间超过 2 小时 三级考虑硬件冗余, 考虑线路冗余, 加强日常监控 立即与电信运营 商、系统集成商 联系分析原因和 解决问题 网络 系统 分公司与中心支 公司连接的分公 司汇聚端出现故 障,影响分公司 与所有下辖机构 的通信 二级考虑硬件冗余, 考虑线路冗余, 加强日常监控 立即与电信运营 商、系统集成商 联系分析原因和 解决问题 网络 系统 分公司与中心支 公司相连的单条 线路出现故障, 处理时间超过 8 小时 三级考虑硬件冗余, 考虑线路冗余, 加强日常监控 立即与电信运营 商、系统集成商 联系分析原因和 解决问题 网络 系统 总公司广域网汇 聚端出现故障, 影响总公司与所 有分公司的通信 一级考虑硬件冗余, 考虑线路冗余, 加强日常监控 立即与电信运营 商、系统集成商 联系分析原因和 解决问题 网络 系统 核心路由器或核 心交换机单台故 障 二级考虑硬件冗余, 加强日常监控, 加强数据和系 统备份 立即与集成商联 系,并手动切换 到备份设备 网络 系统 2 台核心路由器或 2 台核心交换机都 发生故障 一级考虑硬件冗余, 加强日常监控, 加强数据和系 统备份 立即与集成商、 厂商联系,借用 设备暂时恢复服 务,并立即查找 原因并对设备进 行修复。 网络遭受拒绝服 务攻击 Internet 出口堵塞 二级安装防火墙修改外网 IP 地址, 立即联系集成商、 厂商进行分析和 处理 安全 事件 内部网络遭入侵, 内部机密资料泄 露 一级安装防火墙 加强安全意识 教育 立即关闭遭受攻 击的端口,备份 重要日志文件, 并联系集成商、 厂商进行分析和 处理 5.3 事件处理时限和升级程序 时间时间一级故障一级故障二级故障二级故障三级故障三级故障四级故障四级故障 30 分 钟 相关业务部门、 主管高级工程师 相关业务部门、 (分公司)主管 工程师 (分公司)主管 工程师 (分公司)主 管工程师 1 小时 信息技术部门领 导 分公司)主管高 级工程师 4 小时 分管信息工作的 公司领导 信息技术部门领 导、 (分公司) 信息管理领导 (分公司)主管 高级工程师 8 小时 公司领导信息技术部门领 导 (分公司)主 管高级工程师 24 小 时 保监会分管信息工作的 公司领导 信息技术部门领 导、 (分公司) 信息管理领导 48 小 时 公司领导 72 小 时 信息技术部门领 导 信息技术部门 领导、 (分公 司)信息管理 领导 第二章第二章 信息系统重大事项汇报制度信息系统重大事项汇报制度 一、概述一、概述 本制度定义了部门工作中,可能引起或已经产生严重不良后果 的事项:包括重大项目和重大事故,统称为重大事项。本制度针对 不同的情况规范了对此类事项的汇报过程和实施、处理途径。 目的目的 制订本制度的目的是:改善部门内部沟通机制,保证部门负 责人对重大事项及其可能产生的不良影响有充分的了解。并在此基 础上充分运用其岗位职能,协调组织重大项目的实施工作和重大事 故的处理工作,从而最大限度的避免潜在隐患的发生、降低事故造 成的影响。 重点重点 重大项目的汇报实施制度重点在于实施前的周密计划和严谨 设计、实施过程中的科学控制和严格测试。 重大事故的汇报处理制度重点在于汇报过程的及时、汇报内 容的准确完整、处理过程的高效率和高质量、事故处理完成后的及 时总结。 二、二、重大事项的定义重大事项的定义 重大事项指部门日常工作中,可能引起或已经产生严重不良后 果的事项,它包括重大项目和重大事故。 (一)重大项目(一)重大项目 重大项目指具有较高复杂性的、实施细节比较陌生且有一定难 度的,影响面较大的并且因为上述特点而存在较大的实施风险的工 作。重大项目包括但不仅指如下工作: (1)核心业务系统更换或核心业务系统中重要功能的开发、改造: 系统整体更替或改造、一级模块的整体改造(如 保全流程改造) , 公用模块的开发、改造(如 统一核保)或其他重要项目。 (2)重要系统的硬件平台迁移,操作系统、应用服务器、数据库 管理系统产品更替、版本升级或为了调整现有系统性能而修改系统 配置和参数。 (3)比较复杂的新型产品上线:现有系统不能完全支持,需要进 行较大规模修改的新型产品(如 万能险、投资连结险) 。 (4)办公系统、外挂业务系统的开发或重大改造。 (5)对公司经营具有重要战略意义的项目(如数据仓库, CRM,Call Center) 。 (二)重大事故(二)重大事故 重大事故在部门日常工作中因为各方面的原因造成或可能造成 严重不良影响的事件。重大事故包括但不仅指如下情况: (1)生产系统数据库或应用服务器非正常宕机:因为系统硬件故 障、系统软件错误、恶意攻击或管理员操作失误导致系统较长时间 (定义)无法正常使用。 (2)生产系统数据严重错误:因为业务部门提供的数据错误、上 传数据失误、手工操作数据失误,程序逻辑错误等原因造成的大量 系统基础数据或业务数据错误,严重影响正常的业务结果(如大量 的保单打印错误、收费、红利、生存金数据错误) 。 (3)公司网络大面积瘫痪或阻塞,严重影响生产系统、办公系统 的运行:因为网络提供商的责任、主干线路或节点设备的物理损坏、 恶意攻击等原因造成的公司网络的大面积瘫痪或阻塞导致生产系统、 办公系统较长时间(定义)不能正常使用。 (4)公司电脑系统的安全正在或可能受到严重的外来侵害:公司 计算机系统自外部被攻破,遭到或即将遭受严重破坏。恶性计算机 病毒在公司计算机系统内出现,已经或可能严重破坏公司计算机系 统。 (5)贵重设备、重要数据损坏或遗失。 (6)各种原因造成的设备损坏或遗失、各种原因造成的备份数据 损坏或遗失。 三、三、重大事项的汇报重大事项的汇报 (一)重大项目的汇报(一)重大项目的汇报 重大项目的汇报过程也是项目实施的前期准备过程。部门负责 人指定的项目负责人有义务通过书面或当面报告,让部门负责人了 解整个项目的内容、复杂程度、可能存在的风险等情况。必要时应 该编写项目可行性分析报告 。 部门负责人确定某项目为重大项目后,项目负责人应该编写 项目计划书 。 项目计划书应包括项目实施的目标,责任分解 表,项目进度表,项目实施中各项责任的负责人,项目实施各阶段 的关键指标及检测要点。 项目负责人在编写完项目计划书后应该及时发送给部门负 责人确认。 项目负责人根据项目计划书和项目具体情况安排相关人员 编写项目实施方案和检测方案,对于项目实施一旦失败可能造成业 务停顿等严重后果的项目还应编写项目实施过程应急预案 。 对于软件开发项目,实施方案指需求规格说明书和概要 设计 ,检测方案指内部测试计划书 ;对于其他项目应该根据具 体情况编制实施方案和检测方案。 实施方案、检测方案和项目实施过程应急预案经部门负责 人确认后,项目进入实施阶段。 (二)重大事故的汇报(二)重大事故的汇报 当部门工作因为各方面的原因,不可避免的发生了重大事故时, 部门内的每一位员工都有义务及时将事故原因和严重程度向部门负 责人直接汇报。以便其对内协调相关资源及时解决问题,减少损失, 杜绝后患;对外澄清事实,明确部门间责任,争取主动,体现部门 整体工作效率。 对于明显属于第二节中所列举的重大事故和其他可以肯定会产 生严重不良影响的事故的必须在第一时间直

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论