XX联通应急保障预案(CRM系统)2016.doc_第1页
XX联通应急保障预案(CRM系统)2016.doc_第2页
XX联通应急保障预案(CRM系统)2016.doc_第3页
XX联通应急保障预案(CRM系统)2016.doc_第4页
XX联通应急保障预案(CRM系统)2016.doc_第5页
免费预览已结束,剩余21页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国联通信息化系统应急保障预案 CRM 系统 中国联通信息化事业部 二零一六年三月 目录目录 第一章 应急准备 4 1 1 应急保障组织 4 1 1 1 组织结构 4 1 1 2 组织成员 4 1 1 3 职责考核 5 1 1 4 组织变更 5 1 2 应急响应方针 6 1 2 1 应急响应的目标 6 1 2 2 应急响应的原则 6 1 2 3 应急响应的范围 6 1 2 4 编制依据 6 1 3 应急预案版本管理 6 1 4 风险分析与应急保障措施 7 1 5 应急保障工作流程 7 1 6 应急演练 7 第二章 监测与预警 9 2 1 日常监测与预警 9 2 2 预案启动 9 第三章 应急处置 11 3 1 应急调度 11 3 2 排查诊断 11 3 3 处理恢复 11 3 4 事件升级 11 3 5 持续服务 12 3 6 事件关闭 12 第四章 总结改进 14 第五章 附录 15 5 1 应急保障组织通讯录 15 5 2 应急保障工作流程 15 5 3 应急保障指挥调度与信息交互平台 15 5 4 应急保障演练脚本 15 5 5 应急保障演练报告 15 5 6 风险要素评估表 16 第一章 应急准备应急准备 1 1 应急保障组织应急保障组织 为保障 XX 省联通 CRM系统持续运行 确保在发生突发事件 例如 国家相 关部门交付的紧急任务 业务量迅猛增加 系统发生重大故障等 后 能够使 业务持续运行 系统快速恢复 尽可能减少损失 XX 省联通信息化事业部应用 支撑中心运维部门 基础维护部门 亚信科技有限公司 以下简称 亚信 维 护人员 以及硬件维护厂商等共同成立专门的应急保障组织 1 1 1 组织结构组织结构 XX 省联通应急工作小组构成 组长 客户响应与业务支 撑模块 运行维护模块厂商 副组长 领导小组 保障实施小组 领导小组 组长 副组长 保障实施小组 组长 副组长 组员 服务厂商 亚信 1 1 2 组织成员组织成员 姓名单位角色联系方式 包括运维部门 维保 单位 系统厂商 角色分为应急响应责 任人 现场责任人 各系统负责人 值班 人员 关键岗位设置 A B 角 同一人员可 以兼任不同角色 信息化事业部应急响应责任人 A 角 信息化事业部应急响应责任人 B 角 客户响应与业务支撑 处 现场责任人 A 角 基础设施维护处现场责任人 B 角 客户响应与业务支撑 处 客户响应与业务支撑处 A 角 客户响应与业务支撑 处 客户响应与业务支撑处 B 角 客户响应与业务支撑 处 客户响应与业务支撑处 B 角 基础设施维护处 网络系统维护负责人 基础设施维护处 主机 pc 服务器维护 负责人 基础设施维护处 数据库维护负责人 亚信公司 厂商 维保单位 负 责人 厂商现场责任 人 A 角 亚信公司 厂商 维保单位 负 责人 厂商现场责任 人 B 角 1 1 3 分工职责分工职责 应急响 应责任 人 职责统筹协调应急响应工作 包括授权应急预案的启动并通报业务部 门 作为唯一接口向上级部门通报事件进展 决策采取的措施 资源的调动 现场责 任人 职责负责将故障通报给应急响应负责人 并通报可能出现的 问题以及可能需要处理的时间 便于应急响应负责人决 定是否启动应急预案 负责现场应急预案实施 负责与 客服等其他部门联系 保证应急预案实施 系统负 责人 职责负责各系统应急预案具体操作 负责问题及时处理 值班人 员 职责负责将问题及时通报到各系统维护人员 同时尽量详细 了解系统问题的影响度 维保服 务商 职责协助联通工程师完成应急预案执行和操作 系统厂 商 职责协助联通工程师完成应急预案执行和操作 1 1 4 组织变更组织变更 应急保障组织成员及单位应对组织成员的更新情况及时通报给应急响应责 任人 包括人员替换 联系方式变更 维保关系变更等 保障应急响应组织的 有效性 1 2 应急响应方针应急响应方针 1 2 1 应急响应的目标应急响应的目标 XX 省联通 CRM系统是面向中国联通用户服务的重要客户信息系统 除承担 客户咨询 投诉 业务办理 故障申告之外 还承担了电话营销 客户回访 满意度调查等工作 为保证系统运行的可靠性和连续性 需建立健全的突发事件 紧急应变和快速响应机制 以有效预防 及时控制遭遇突发事件的发生 形成科 学 有效 反应迅速的应急工作机制 保证 CRM 系统的实体安全 运行安全和 数据安全 最大限度地为一线提供服务 减少对用户影响 特制定本预案 将恢复业务作为第一要务 分析问题根本原因可以滞后 在必要情况下 可以考虑采取方法优先恢复部分关键业务 甚至可以考虑承受给其他业务带来 部分影响 此外 新系统上线可能会在网系统业务和用户产生一定影响 因此在系统 正式上线前 工程部门需要提供应急预案更新 另外 为提高信息化管理部门对突发重大 CRM 系统问题的预防和处置能力 从组织 流程 技术 资源上保障业务系统在最短时间内恢复 提高其他部门 和用户对信息化事业部的满意度 1 2 2 应急响应的原则应急响应的原则 将恢复业务作为第一要务 分析问题根本原因可以滞后 在必要情况下 可以考虑采取方法优先恢复部分关键业务 甚至可以考虑承受给其他业务带来 部分影响 1 2 3 应急响应的范围应急响应的范围 本应急预案的对象包括与 CRM 系统相关的网络 主机 应用系统 数据 库 中间件等 1 2 4 编制依据编制依据 本应急预案是根据 中国联通信息化系统重大事件应急处理办法 试行 及 CRM 目前现状制定 1 3 应急预案版本管理应急预案版本管理 应急预案会由于组织结构 业务系统变更 流程变更而发生改变 最好 建立相应的版本管理制度 对变更的预案进行持续管理 本应急预案于每年 3 月份进行定期评审 评审委员会由应急预案小组成员 组成 根据联通企业战略变化 组织结构调整 业务系统更新 管理流程调整 服务关系变更对业务风险 应急预案重新评估修订 以保障预案的有效性 除定期评审外 如果在日常应急响应中发现预案本身存在重大问题 或关 键环节发生重大变更 可以由应急响应责任人组织进行不定期评审 临时对预 案进行修订 以及时修订预案中的重大问题 应急预案的版本以修订时间进行编号 例如 XX 省联通 CRM 系统应急预案 2016 1 版本撰写时间作者修订 XX 省联通 应急保障预案 CRM 系统 2016 1 在基础 上修订 1 4 风险分析与应急保障措施风险分析与应急保障措施 信息系统风险评估是制定应急保障措施与应急保障工作流程的基础 只有 在对各类风险有了充分认识的情况下 才能确保业务的持续运行 鉴于信息系 统面临风险的复杂性和多样性 无需对所有风险进行评估 应急预案中的风险 是指对信息系统的正常运行 信息系统的业务提供能力等产生重大影响的因素 包括国家相关部门下达的紧急重要任务 重大公共活动引起的业务量突然大量 增加或者一些不明原因引起的重大事件 故障等 1 4 1 应用方面应用方面 风险分析 1 当 CRM 数据库重大故障的时候 启动紧急处理 2 由客服及相关人员通知的重大故障或者半小时内有 10 个以上相同内容 投诉可启动重大投诉 故障流程 3 重大故障发现后 如果 5 分钟内不能解决 值班人员应立即报告支撑中 心对应人员 CRM 客响项目负责人 问题升级 判断是否需要需要启动紧急流 程 并根据故障严重级别 决定是否需要通知部门领导 同时把情况记入当班 的值班日志中 4 重大故障发生时 如果出现用户无法通话或者无法使用业务的情况 判 断是 CRM 系统问题时 经过相关人员批准后 可以紧急启用流程机制 应用级别应急方案一应用级别应急方案一 CRM 程序异常程序异常 1 应用范围 CRM WEB 应用程序部署于 p520int3 4 主机 p570web1 2 3 4 主机 p550dmz1 2 3 4 主机 中间件部署 p550app1 2 主机及 p595int1 2 3 4 X220AIP1 2 3 4 p550uip1 2 p570NC1 2 其业务 包括包括分 CRM1 CRM2 CRM3 代理商 空厅 ESS 一卡充 网厅 指令 AIP 等 CRM 全部业务流程 2 检查方法 方式有三种 通过系统命令在后台检查目标程序与程序日志 检查运行情况 通过系统命令在后台调用监控脚本 检查目标进程运行情况 通过监控前台在相应监控界面中检查运行情况 3 程序异常应急处理 通过检查发现程序异常后 可以对目标程序进行应急停止 方式有二种 通过系统命令在后台根据进程号 停止目标程序 通过系统命令在后台调用监控脚本 停止目标程序 目标程序停止后 可以进行重启 方式有二种 通过系统命令在后台根据进程号调用相应脚本启动程序 并观察日 志 判断是否正常运行 通过系统命令在后台调用监控脚本 启动目标程序 并观察日志 判断是否正常运行 4 适用场景 此方案可对 CRM 程序异常使用 应对措施 紧急故障问题通知联通信息化局方及亚信相关人员时 必须随叫随到 快 速赶到现场解决问题 1 4 2 数据库数据库 风险分析 采集系统 ORACLE 数据库采用 11G RAC 模式 单边宕机不会影响业务访 问数据库 严重故障视情况采用相应数据及应用备份进行恢复 故障通报流程 同应用程序故障上报 应对措施 通过远程或后台登录方式 以系统命令查看 P780CRM1 2 主机上的数据库 是否正常 1 4 3 主机环境主机环境 风险分析 CRM 系统除 idserver UAA p550app1 2 p520int3 4 通过主机高可靠性配 置 HACMP 保障切换 IP 其余应用部署主机均通过四层交换配置保障高可靠性 单台主机故障不会对应用带来影响 应对措施 通过远程或后台登录方式 以系统命令查看 p550app1 或者 p520int3 主机上 的 ip 是否对应切换到 p550app2 或者 p520int4 主机上 核查系统 HA 成功切换 资源组的切换日志 并且重启应用程序 1 5 应急保障工作流程应急保障工作流程 根据应急保障工作步骤 给出相应的流程图 并对流程中的角色及每个 工作环节进行详细说明 应急保障工作流程说明 流程内容 准备 1 值班人员发现问题或收到相关 故障电话 2 系统出现问题暂时无法立刻修 复 收集信息 3 系统负责人对故障进行判断 确定 该故障是否 1 小时内无法修复 启动应急保障保 障前期准备工作 1 系统负责人联系应急预案响应责任 人 完成故障通报 并确认是否启 动应急预案 2 现场责任人立即与系统责任人联系 做好应急预案启动准备 启动应急预案 3 收到应急预案启动信息后 立即开 始启动应急预案 4 将对用户影响降到最低 问题处理 8 系统负责人负责故障处理 实时监控 实时优化9 值班人员负责业务紧密监控 应急保障活动退 出 4 故障处理完成后 现场责任人通知 故障响应负责人 要求取消应急预 案 5 撤出人员设备 6 恢复性割接 7 提取网络的话务 接通率等指标 分析是否正常 网络指标提取 8 对系统进行测试 确实业务正常 应急协作总结 14 对应急预案总结 如果出现问题 需要对问题进行分析 同时完善应急预 案 1 6 应急演练应急演练 为检验预案的有效性 同时使相关人员了解运行维护预案的目标和内容 熟悉应急响应的操作规程 应进行应急演练 预案包含演练计划 整个应急响 应过程和详细的演练脚本 报告 参照附件中的演练报告 为检验应急预案的有效性 并使相关人员熟悉应急预案的操作规程和方案 发现存在的问题 定于每年 9 月进行应急预案演练 依据风险评估中的风险要 素抽取 2 项 制定演练脚本进行模拟演练 如果演练会影响业务 可以进行虚拟 推演 对整个演练过程应形成记录报告 以总结发现其中的问题并加以改进 参考附录中的应急演练脚本和报告 第一章专有名词定义 A B 角 A 角对某项工作主要负责 B 角应主动熟悉并协助做好该项工作 当 A 角出差或其他原因不能承担完成该项工作时 由 B 角接替完成该项工作 并切实负起责任 A B 两个责任人不得同时外出 第二章 监测与预警监测与预警 2 1 日常监测与预警日常监测与预警 1 应用支撑系统监控 A 单点登陆 CRM1 CRM2 CRM3 IOM 系统 B 代理商支持系统 资料扫描系统 C 接口应用监控 能力开放平台 联机指令 安讯接口 ESS 接口 ECS 接口 一卡充接口 客服接口 电子渠道 短信接口等等 2 预警措施 CRM 系统维护人员和客户响应与业务支撑每天早上对系统进行巡检 并且 一旦有程序和服务 down 掉会马上有短信告警发到运维人员手机上 使问题最 先通知到各个相关人员 另外 CRM 系统维护提供 24 小时值班电话接收各部门投诉及问题受理 如图 1 应用和关键进程告警 如果进程发生异常 下列界面将会有内容显 示 如图 2 系统表数据阀值告警 如果有异常 下列界面将会有内容显示 CRM 系统架构中的关键系统分别通过以下监控工具进行日常监测与预警 监测对象检测工具监测项时间间隔预警阀值负责人 数据库系统监控程 序 人工 所有数据库 80 值班人员 徐明华 系统应用程 序运行情况 系统监控程 序 人工 关键应用程 序 80 值班人员 陈诚 各个主机运 行情况 系统监控程 序 人工 空间使用率 CPU 内存等 80 值班人员 经力 值班人员收到系统预警信息后 第一时间通过电话通知相关系统负责人登录 系统对告警进行核实 然后又由系统运维负责人确认故障后 马上向现场负责人 报告故障现象 业务受损情况等 由现场运维处理人员进行处理相应的告警 2 2 预案启动预案启动 应急预案的启动对相关资源和业务会产生重大影响 应建立 审议预案 启动的策略和程序 以控制预案启动的授权和实施 明确授权预案启动的负责 人及启动程序 对预案启动进行评估 启动过程和结果记录在案 现场负责人 应向相关方通报预案启动信息并得到确认和反馈 信息通报应选取适当的方式 如电话 邮件 传真 书面文件等 内容包括启动原因 事件级别 对应预案 技术应对措施 所需保障措施 报告要求 通报范围和对象 由现场责任人提出启动应急预案的申请 应急响应责任人对预案启动的必 要性 影响性进行充分评估后 与相关业务部门进行沟通确认 授权预案启动 预案启动后以电子邮件的形式发布通告 通告对象包括包括客服中心和信息化 部门二级经理及与系统相关的三级经理 通告内容包括预案启动原因 事件级 别 对应预案 技术应对措施 所需保障措施等 预案的启动过程在事件处理 系统中记录 第二章专有名词定义 预警阀值 即预警的边界值 当设定对象超过设定值范围时 就会发生报 警动作 第三章 应急处置应急处置 3 1 应急调度应急调度 当故障发生或者将要发生时 告知相关人员进行按照相应的预案进行应 急准备 由现场责任人提出启动应急预案的申请 应急响应责任人对预案启动的必 要性 影响性进行充分评估后 与相关业务部门进行沟通确认 授权预案启动 预案启动后以电子邮件的形式发布通告 通告对象包括保障小组长 副组长 领导小组长 副组长 通告内容包括预案启动原因 事件级别 对应预案 技 术应对措施 所需保障措施等 预案的启动过程在事件处理系统中记录 3 2 排查诊断排查诊断 应急负责人调度处置人员进行现场和远程的故障排查 处置人员随时向负 责人反馈进展和结果 将排查与诊断的过程与结果信息进行整理与归档 处置 过程中 现场责任人应及时与相关利益方进行沟通 沟通的内容主要包括系统 故障点 造成故障的原因 排查诊断状况等 并取得确认 3 3 处理恢复处理恢复 1 启动应急方案 2 上报优先原则 3 故障发生后 对故障进行相应的处理 在必要情况下告知用户 4 故障恢复后 以公告进行告知 3 4 事件升级事件升级 建立 审议应急事件升级的策略和程序 以控制应急事件升级的授权和 实施 当实际处置时间超过事件级别处置时间要求 或业务影响范围扩大时 可以考虑事件升级 组织应该对事件升级可能造成的影响进行评估 并在相关 方之间达成一致 升级内容应包含预案调整 人员调整 资金调整以及设备调 整 事件升级的实施授权应由现场负责人启动 并按照流程通报给相关方 应 该对事件升级的过程和结果信息进行整理与归档 事件级别定义 一级事件 举例 影响全省业务或业务中断时间超过 4 小时 二级事件 举例 影响多个市区县业务或业务中断时间超过 2 小时 三级事件 举例 影响一个市区县业务且业务中断时间未超过 2 小时 事件升级流程 当事件的发展超出了当前事件级别定义的条件时 由现场负责人授权 事件升级 事件升级前需要评估升级后所采取的措施对其他业务产生的影 响 事件升级的内容包括要求厂商现场支持 紧急采购调配备件 对更大 范围的关联设备进行联调等 现场负责人将升级的内容和影响通报业务部 门 并取得确认 事件升级的内容 过程 结果记录在事件处理系统中 流程图中应包含升级流程 3 5 持续服务持续服务 业务恢复后 系统负责人持续监测信息化系统业务是否正常工作 观察 4 小 时以确认所采取的应急措施长期有效 业务可以稳定运行 没有造成其他影响 系统负责人对后期监测的结果给出监测报告 3 6 事件关闭事件关闭 建立 审议事件关闭的策略和程序 以控制事件关闭的授权和实施 事 件关闭申请应由相关的分组负责人提出 整理并提交相关文档资料 现场责任 人接到事件关闭申请后 应逐项核实报告内容 当应急事件涉及到责任认定 赔偿或诉讼时 应收集 保留和呈递证据 现场负责人应向相关利益方通报事 件关闭信息 应急事件发生的原因 处置过程和方法记入知识库 确认业务恢复正常后 由系统负责人提出事件关闭申请 系统负责人整理 事件处理过程中的日志 设备信息 处理记录 报表 监测报告 提交现场责 任人 现场负责人接到事件关闭申请后 对提交的报告逐项审核 其中如涉及 到责任认定 赔偿或诉讼时 收集保留所需的证据 事件发生原因 处置过程 处理方法等信息记录到事件处理系统中 作为知识库用于总结和处理同类事件 的参考 核实后现场负责人向业务部门通报事件关闭 流程图中应包含事件关闭流程 第三章专有名词定义 应急指挥调度 是发生突发等事件后 应急指挥机构为保障系统安全 优 质 运行和规范运营 促进资源的优化配置和环境保护 对系统进行的组织 指挥 指导和协调 力求在短时间内执行应急预案 实现现场指挥人员以及后 方指挥人员随时对现场的情况的掌控 以便针对情况及时发布指令 事件 在某一工作服务中不属于标准操作的并能导致 或可能导致这个服 务的中断或服务质量下降的任何事件 第四章 总结改进总结改进 应急处置后 对发生的应急事件做总结分析 并定期对历史应急事件进 行分析和回顾 总结经验教训 采取适当的后续措施 对应急事件的分析和回 顾应考虑以下方面 应急事件发生原因 数量及频率 应急事件处置的经验得 失 应急事件的趋势信息 信息系统中潜在的类似隐患 对应急事件的分析和 回顾形成总结报告 应急处置结束后一周内 对发生的应急事件做总结分析 包括技术和管理 两个层面 技术上深入分析问题发生的原因 处置方法是否根本解决问题 系 统中是否还存在类似技术漏洞或潜在隐患 彻底规避类似风险的解决方案等 管理上对本次应急事件处理中的处置流程 资源准备 组织协调 处置方法等 环节分析得失 总结经验教训 如果发现重大问题可以组织修订应急预案 应急方案的制定是为了让维护或值班人员明确在发生重大故障时的处理 方法和流程以提高工作质量和效率 做到在发生重大故障时应急方案能够快 速启动 每季度对本年度发生的应急事件进行回顾总结 对事件发生的数量 频率 原因 趋势进行分析 发现其中的问题隐患 及时对潜在问题进行弥补 所有分析总结形成报告 经审核后存放在知识库中备查 总结报告模板中应包含以上内容 第五章 附录附录 5 1 应急保障组织通讯录 编号姓名所属部门 服务商 岗位办公地 点 联系电话 手机 Email 1 2 3 4 5 6 7 8 9 10 11 12 5 2 应急保障工作流程 结合自身实际情况 对以下流程模板进行调节 应急保障工作流程说明 流程内容 准备 3 值班人员发现问题或收到相关 故障电话 4 系统出现问题暂时无法立刻修 复 收集信息 3 系统负责人对故障进行判断 确定 该故障是否 1 小时内无法修复 启动应急保障保 障前期准备工作 5 系统负责人联系应急预案响应责任 人 完成故障通报 并确认是否启 动应急预案 6 现场责任人立即与系统责任人联系 做好应急预案启动准备 启动应急预案 7 收到应急预案启动信息后 立即开 始启动应急预案 8 将对用户影响降到最低 问题处理及通报 8 系统负责人负责故障处理 并及 时将问题在相关范围内通报 实时监控 实时优化9 值班人员负责业务紧密监控 应急保障活动退 出 9 故障处理完成后 现场责任人通知 故障响应负责人 要求取消应急预 案 10 撤出人员设备 11 恢复性割接 12 提取网络的话务 接通率等指标 分析是否正常 13 对系统进行测试 确实业务正常 应急协作总结 14 对应急预案总结 如果出现问题 需要对问题进行分析 同时完善应急预 案 5 3 应急保障指挥调度与信息交互平台 第一时间反应在监控平台 短信会第一时间告知联通相关人员 5 4 应急保障演练脚本 现在 CRM 应急脚本均已经界面化 我们通过前台监控页面可以直接对应用程序进行启停 步骤如下图 网络指标提取 1 监控平台的界面 所有的主机对应的程序如下图 每一个进程可以实现单独启停或者批量启停 2 进程启停过程 1 选中需要操作停止的进程 此时可以点击刷新按钮 就可以看见进程已经停止 2 然后再选中已经停止的进

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论