已阅读5页,还剩19页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
磁盘阵列故障紧急预案 大唐电信科技股份有限公司大唐电信科技股份有限公司 DATANG 2006 大唐电信科技股份有限公司版权所有 保留一切权利 未经大唐电信科技股份有限公司书面许可 不得以任何形 式或手段使用或复制本说明书的任一部分 本说明书内容若有变动 恕不另行通知 2006 年 8 月 16 日 2006 年第一版 发布时间 2006 年 8 月 目目 录录 第一章第一章 综述综述 1 1 第二章第二章 OMCOMC 磁盘阵列紧急预案磁盘阵列紧急预案 2 2 2 1 紧急预案的实施说明 2 2 2 OMC 数据备份 2 2 3 盘阵损坏后的操作 3 2 3 1 临时回复操作 3 2 3 2 盘阵修复后的操作 4 2 4 OMC 数据说明 6 第三章第三章 HLRHLR 磁盘阵列紧急预案磁盘阵列紧急预案 8 8 3 1 紧急预案的实施说明 8 3 2 HLR 数据备份 8 3 2 1 现网版本备份 8 3 2 2 多局组网版本备份 10 3 3 磁盘阵列故障紧急预案 12 3 3 1 磁盘阵列软件故障时恢复数据库 12 3 3 2 磁盘阵列硬件故障时恢复数据库 12 3 3 3 磁盘阵列恢复后程序启动 13 3 3 4 用户数据的恢复 13 3 4 紧急预案的补充说明 14 3 4 1 公单数据恢复 14 3 4 2 系统故障恢复方案 14 第四章第四章 NETPLUSNETPLUS 磁盘阵列紧急预案磁盘阵列紧急预案 1515 4 1 紧急预案的实施说明 15 4 2 NETPLUS数据备份 15 4 2 1 备份数据库的所有数据文件 15 4 2 2 备份数据库表 16 4 3 NETPLUS系统数据恢复 17 4 3 1 磁盘阵列出现故障现象 17 4 3 2 系统数据恢复 17 第一章第一章 综述综述 磁盘阵列是 OMC 系统 HLR 系统和 Netplus 系统的一个组成部分 也是系统运行中比较容易出现故障的一个物理媒介 为了保证在磁盘 阵列出现故障的时候 能够进行紧急恢复 特编写本手册 供工程维 护人员参考 本手册分三个主要部分 分别描述了 OMC HLR 和 Netplus 系统 正常运行时的备份工作 以及磁盘阵列出现故障时的紧急处理方法 第二章第二章 OMC 磁盘阵列紧急预案磁盘阵列紧急预案 2 1 紧急预案的实施说明紧急预案的实施说明 OMC 盘阵损坏是比较常见的故障 为防止因盘阵损坏而导致 OMC 系 统业务中断的可能 需对 OMC 先做备份操作备份操作 并在系统出现故障后 实施临时回复操作临时回复操作和盘阵修复后的操作盘阵修复后的操作 以恢复 OMC 系统的业务 注意 注意 有些地区的双机软件为 RoseHA 则需注意 其 back user 两 个文件并不是盘阵的挂载点 盘阵只挂载了一个分区在 opt sybase 12 5 目录下 back user 是两个软连接 连接在盘阵分区的两个目录下 以下描述中 如遇 RoseHA 的地方 以红色字体标明 2 2 OMC数据备份数据备份 以下操作在两侧处理机都以以下操作在两侧处理机都以 root 身份执行身份执行 1 执行 df h 指令 确定本地磁盘上剩余空间的大小 2 如果空间足够大可将数据库及执行程序都进行备份 如果空间不够 对数据库进行备份 则只能备份执行程序目录 对数据库执行一次 备份操作就可以了 对于执行程序 要求每次更换程序成功后都执 行备份操作 并将前次备份的目录删除 1 mkdir restore 2 cp r user restore user bakYYYYMMDD YYYYMMDD 填当日日期 如果是 RoseHa 局 则执行的是如下操作 mkdir restore user bakYYYYMMDD cp r user restore user bakYYYYMMDD 3 cp r opt sybase 12 5 restore sybase 12 5 bak 3 该操作仅在主用侧服务器执行 执行以下指令 记录下 IP 地址的 分配情况 1 sbin ifconfig restore iptable 2 通过 ftp 方式将主用侧 restore 目录下 iptable 文件拷贝到备 用侧处理机的 restore 目录下保存 2 3 盘阵损坏后的操作盘阵损坏后的操作 2 3 1 临时恢复操作 1 当盘阵故障后 两侧服务器的 HA 软件都应是停止状态 但为了安 全起见 可执行如下操作 1 将 HA 软件停止 2 在两侧服务器均执行以下操作 service cluster stop 2 在两侧服务器中 任选一台 执行恢复操作 在盘阵恢复以前只能 单机工作 3 检查不执行恢复操作的服务器上是否有浮动 IP 如果有 DOWN 掉 浮动 IP 4 在执行恢复操作的服务器上执行如下操作 1 删除盘阵挂载点 服务器中的 back user 目录是提供给 盘阵的挂载点 将以下两个目录删除 rm r back rm r user 如果是 RoseHA 的局 则将 back user 两个软连接改名 mv back back softbak mv user user softbak 2 cp r restore user bakYYYYMMDD user 3 mkdir back 4 如果有数据库的备份则执行如下操作 rm r opt sybase 12 5 cp r restor sybase 12 5 bak opt sybase 12 5 chown R sybase sybase opt sybase 12 5 5 检查 restore 目录下的 iptable 文件 按照文件内容在网卡 上浮动 IP 地址 以下的指令举例在 eth0 上浮动出 200 200 200 253 的地址 sbin ifconfig eth0 1 200 200 200 253 up 5 至此 OMC 已经可以恢复运行 执行如下指令 service sybase start 约一分钟后 user super load monitor sh start 如果有这样的用户 需要将用户漫游限制位去掉 该用户才能打通电 话 查找鉴权位丢失的用户 查找鉴权位丢失的用户 select count 1 from hlr new tab where utl raw bit and MSSERVICE 80 80 select suid telno sid from hlr new tab where utl raw bit and MSSERVICE 80 80 备份数据库 备份数据库 cd tar cvf oracle bak tar oracle 3 磁盘阵列数据的备份 数据库文件一般被安装在磁盘阵列的 oracledata 目录下 磁盘阵列默认 mount 到 disk1 目录下 首先建立在服务器主机上建立备份目录 mkdir disk1 bak 进入磁盘阵列 cd disk1 备份数据库 tar cvf oracledata tar oracledata cp oracledata tar disk1 bak 如果开情况允许的环境下 最好对 disk1 bak 重新命名为 disk1 进 行数据库加载测试 3 2 2 多局组网版本备份 多局组网使用一般 OMT HLR 人机台 有别现网版本的维护台和受理 台 注意 注意 备份前注意停止运行的程序和数据库 由于多局组网版本使用 HA 软件 所以首先要把 HA 双机管理软件停下来 1 服务器数据和程序的备份 备份备份 shlr 程序 程序 多局组网版本的程序和配置文件 一般放在 user super shlr 目录下 登陆到主机 然后 cd user super shlr mkdir shlr bak cp r user super shlr shlr bak 备份数据库 备份数据库 cd tar cvf oracle bak tar oracle 注意 注意 双侧主机都要备份 2 磁盘阵列数据文件的备份 数据库文件一般被安装在磁盘阵列的 oradata 目录下 磁盘阵列默认 mount 到 disk 目录下 首先建立在服务器主机上建立备份目录 mkdir disk1 bak 进入磁盘阵列 cd disk1 备份数据库 tar cvf oracledata tar oradata cp oracledata tar disk1 bak 如果开情况允许的环境下 最好对 disk1 bak 重新命名为 disk1 进行数 据库加载测试 3 3 磁盘阵列故障紧急预案磁盘阵列故障紧急预案 现网版本和多局组网版本的磁盘阵列数据恢复命令是基本一致的 放在一 起说明 3 3 1 磁盘阵列软件故障时恢复数据库 阵列出现软件故障时 恢复阵列上备份的数据库 使数据库仍在阵列 上运行 执行命令如下 cd disk1 mv oracledata oracledata tmp 现网版本 mv oradata oradata tmp 多局组网版本 tar xvf oracledata tar dbshut dbstart 3 3 2 磁盘阵列硬件故障时恢复数据库 磁盘阵列出现硬件故障时 阵列不能使用 需要在服务器主机上建立 一个新的数据库 并且命名为 disk1 用来模拟磁盘阵列 执行如下命令 umount disk1 mv disk1 disk2 mv disk1 bak disk1 cd disk1 tar xvf oracledata tar dbshut dbstart 3 3 3 磁盘阵列恢复后程序启动 注意 注意 单机运行时如果 lsnrctl 不能起来 有可能是浮动 IP 没有起来 这个时候需要手工启动浮动 IP 命令为 ifconfig eth0 0 xxx xxx xxx xxx up 1 现网版本 HLR S U V2 20NB001Z04 以后版本程序会自动启动 HLR S U V2 20NB001Z03 版本和以前版本启动方法 Oracle 用户分别登陆主备机 Su 成 root 用户 su cd shlr shlrgo 2 多局组网版本 linux 版本均有 ha 支持 正常情况下程序会自动启动 如果磁盘阵列硬件损坏 使用的单机运行 则不要启动 HA 可以命令 停止使用 HA service cluster stop 然后登陆到主机 启动程序 cd user super shlr shlr exe 运行程序即可 3 3 4 用户数据的恢复 由于 HLR 在每晚凌晨 3 点会对库中的数据做一次自动备份 从备份的 数据库表恢复最近一次的备份 现网版本 可以通过维护台的命令进行数据恢复 多局组网版本 则需要在 dbbackup 目录下找到形如 AXXXXXXXX dmp XXXXXXXX 表示当前日期 的文件 在 oracle 用户权限下 进行恢复操作 命令如下 exp shlr shlr owner shlr orws y file AXXXXXXXX dmp 注意文件所在 目录 3 4 紧急预案的补充说明紧急预案的补充说明 3 4 1 公单数据恢复 上面的方案存在的问题 由于恢复数据为当天凌晨 3 点备份的数据 所以凌晨 3 点以后到阵列 故障期间数据将丢失 公单数据记录全部存在 shlrpre 的日志文件中 shlrpre log 通过维护台对公单数据进行恢复 需要新增功能 可以恢复到当前数据状态 3 4 2 系统故障恢复方案 通过 vmware 软件 制作虚拟 linux 操作系统 安装 oracle 及 hlr 应用 程序 将现有 hlr 用户数据全部倒入虚拟 linux 并进行测试 如果双机系统同时出现问题 通过客户端运行虚拟 hlr 系统 这样 hlr 的工作效率可能有点底 但是可以保证 hlr 服务正常运行 不至于长时 间中断服务 第四章第四章 Netplus 磁盘阵列紧急预案磁盘阵列紧急预案 4 1 紧急预案的实施说明紧急预案的实施说明 NetPlus 系统数据库的数据文件存放在磁盘阵列上 在主机的本地硬盘 上没有备份 如果磁盘阵列损坏 系统将无法正常运行 导致业务无 法正常提供 后果严重 基于此 提出以下应急解决方案 为了防止因盘阵损坏而导致 NetPlus 系统业务中断的可能 需在系统 正常时对 NetPlus 先做备份操作备份操作 并在系统出现故障后 实施故障恢故障恢 复操作复操作 以恢复 NetPlus 系统的业务 4 2 Netplus数据备份数据备份 4 2 1 备份数据库表 1 自动备份 ISDB 在每日凌晨 4 点 对数据库进行自动备份 操作成功后 系统会 将数据备份到 dbback 的目录下 同时在维护台的 dbback 目录下也存 储该文件 文件名为 A 年 4 位 月 2 位 日 2 位 位数不 足前补 0 后缀名为 dmp 2 手动备份 在 SMT 维护台上 业务管理 系统维护 打开此命令 如图所示 选中 数据库手动备份 点击确定 直至结果窗口看到数据库备份完 成 操作完成后 在 DBBACK 目录下会形成当天的备份数据库文件 文件名为 M 年 4 位 月 2 位 日 2 位 序号 2 位 位 数不足前补 0 后缀名为 dmp 注意 注意 自动备份是系统周期自动完成 不需要维护人员任何操作 比 较方便 但是每天仅有一次 因此 如果操作人员有大量数据更新时 为了保证数据的准确性 建议立即进行手动备份 手动备份最好每周 一次 4 2 2 备份数据库的所有数据文件 在磁盘阵列 oradata 目录下 存储了所有的数据库数据文件 包括数 据库表文件 库表索引文件 临时库表文件 控制文件 用户文件等 一般情况下 所有文件有 6G 左右 具体操作为 1 从 SMT 上执行手动备份数据库 注意 如果数据库备份到 SMT 没有成功 手动 ftp 将服务器上的备份数据取回 在执行问紧急预 案后 需按调机手册 将备份到 SMT 的功能修复 2 备份成功后 退出 SMT 3 执行 opt cluster bin clustat 查看数据库和程序运行在哪侧服务器上 4 执行 opt cluster bin cluadmin 后 进入 HA 管理页面 执行 cluster saveas yymmdd txt 进行 HA 配置的备份 两侧都要执 行 执行一侧时 需要将另外的一侧执行 exit 退出 cluadmin 管理 程序 5 备份后 运行 cluadmin 进入管理页面 执行 service disable 先 选择 sdu smu scu 选项 将 ISCP 程序停止 在 ISCP 程序的运 行服务器上 然后登录到 ORACLE 运行的服务器 将 oracle 服 务 Disable 6 退出 cluadmin 使用 pstree 观察 ISCP 和 oracle 是否已经顺利停 止 执行 df 命令 看磁盘阵列是否已经 umount 掉了 两侧都要 看 停服务只需要一侧运行即可 7 执行 service cluster stop 将 HA 停掉 建议不停 HA 将此操作 去除 8 在程序运行侧的服务器上以 root 用户执行以下命令将各个程序停 掉 建议此步去除 HA 停止服务时 已经将程序停止 service scu stop service sdu stop service smu stop service cucs stop 9 在数据库运行侧的服务器上以 oracle 用户执行命令将数据库停掉 建议此步去除 HA 停止服务时 已经将程序停止 将数据库停掉 dbshut 将监听停掉 lsnrctl stop 10 执行 mount dev sdb3 oradata 11 进入 oradata ora 目录 查看当前目录应存在 ctl dbf DBF log 文件 12 压缩该目录下的所有文件 tar czvf oradata tar gz 13 用 df 查看本机硬盘 看哪个空间较大 将此文件备份到本机最大 空间的目录下 14 备份文件到本地硬盘 home 下 mv oradata tar gz home 建议此步去除 15 执行 service cluster start 将 HA 运行 建议此步去除 16 备份完成后 将磁盘阵列 umount 掉 执行 umount oradata 17 登录到另外一侧 执行同样的备份数据的操作 备份完成后 将 磁盘阵列压缩的 tar 包删除 18 备份完后 将磁盘阵列 umount 掉 19 从 oracle 服务器侧运行 cluadmin 执行 service enable 命令 选择 oracle 将服务运行 运行正常后 可以通过 service show 命令查看状态 退出 cluadmin 运行 pstree 查看 oracle 进程运 行是否正常 df 查看磁盘阵列是否挂载正常 ifconfig 查看浮动 ip 是否正常 20 登录到另外一侧 同上边的操作 将 iscp 程序 运行起来 查看 运行是否正常 21 执行 opt cluster bin clustat 查看数据库与程序是否运行正常 22 启动 SMT 拨测 注 1 备份 oradata ora 目录下文件时 必须将数据库停掉 故业务要中 断 2 时间为 5 分钟左右 这样所有数据文件备份完成 3 以上操作要求在 4 00 之前完成 4 00 要执行月租话单的生成 4 3 Netplus系统数据恢复系统数据恢复 4 3 1 磁盘阵列出现故障现象 主机无法找到磁盘阵列或磁盘阵列损坏时 数据库数据文件 备份的 计费文件等数据将丢失 此时 需要将所有的数据文件进行恢复 原 有的数据资料应该在数据库运转正常时进行定时备份 放到指定的目 录中 这样即使出现故障时 维护人员也可以即时进行恢复 使业务 尽快恢复运行 4 3 2 系统数据恢复 1 取消所有磁盘阵列的 mount 操作如下 df 查看哪些目录 mount 在磁盘阵列上 umount oradata umount ff umount dbback 注意注意 现场 mount 的目录可能有差别 按照现场目录 umount 2 数据文件恢复 操作
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 重庆市巫溪县2026年中考押题物理预测卷含解析
- 湖南长沙市雅礼洋湖实验中学2026届中考物理四模试卷含解析
- 2026年聿怀实验学校市级名校中考物理最后一模试卷含解析
- 2026年黑龙江哈尔滨道外区中考三模物理试题含解析
- 护理用药管理:确保用药安全
- 早产儿红臀护理与预防
- 中医护理腹泻的常见问题解答
- 常德市临澧县2025届三年级数学第二学期期中监测模拟试题含答案解析
- 浙江省宁波市四校2026届中考试题猜想物理试卷含解析
- 巴楚县2025届四年级数学第二学期期中考试试题(含答案解析)
- 传统织锦的织造与工艺
- 心脏除颤器行业营销策略方案
- 公路工程总体实施性施工组织设计
- 《B族维生素》课件
- 诈骗罪报案材料
- 吴延输油管道与西延高铁建设迁改项目环境影响评价表
- 炉水循环泵培训教材
- 2023年芜湖一中高一自主招生考试试题数学
- 护理质量标准管理与控制
- GB/T 4100-2015陶瓷砖
- GA/T 1147-2014车辆驾驶人员血液酒精含量检验实验室规范
评论
0/150
提交评论