NPM应急处理手册.doc_第1页
NPM应急处理手册.doc_第2页
NPM应急处理手册.doc_第3页
NPM应急处理手册.doc_第4页
NPM应急处理手册.doc_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Npm应急处理手册npm应急处理手册NPM应急处理手册项目资料 严禁外传2目录1 总则11.1 适用范围12 突发事件分级分类12.1 突发事件分类(示例)12.2 突发事件分级(示例)22.3 突发事件升级23 系统重建23.1 备份情况23.2 主机系统恢复与重建34 附件:44.1 通讯联络清单44.1.1 事件快速响应电话45 技术相关应急场景与应急处理(示例)55.1 NPM应急预案55.1.1 Dp应急预案55.1.2 SP应急预案55.1.3 Mongo迁移应急预案65.1.4 MongoDb重启应急预案85.1.5 NPM软件重装应急预案85.1.6 License安装应急预案95.1.7 临时文件清理应急预案105.1.8 配置文件恢复应急预案115.1.9 数据积压应急预案11101 总则1.1 适用范围本预案适用于预防和处置NPM网络性能监控的突发事件。本预案所称突发事件,指NPM网络性能监控出现异常,影响业务的持续开展,需要采取应急处置措施的事件。2 突发事件分级分类2.1 突发事件分类(示例)NPM网络性能监控突发事件按事件现象分为六类:操作系统故障、应用系统故障、通讯故障、自然灾害、人为破坏、外部服务中断。(1) 主机及操作系统故障类:指由于系统硬件、系统软件、通讯链路、基础设施等故障导致系统中断、系统性能大幅下降的突发事件。(2) 应用系统故障:指由于应用软件故障等导致业务中断或无法正常开展的突发事件。(3) 通讯故障:指由于通讯网络中断、网络攻击、计算机病毒爆发等原因造成系统与外围系统通讯异常,导致业务中断或无法正常开展的突发事件。(4) 自然灾害类:指由于火灾、雷击、海啸、地震、重大疫情等自然灾害引起线路中断、设备损坏等事故,导致业务中断或无法服务的突发事件。(5) 治安事件类:指由于黑客攻击、恐怖袭击等违法犯罪对生产设备造成损坏,导致系统无法正常服务的突发事件。(6) 外部服务中断:指由于第三方系统因故障或其他原因停止服务,导致系统无法正常服务的突发事件。2.2 突发事件分级(示例)NPM网络性能监控突发事件依照影响业务类别及持续时间等因素,分为三级:IV级(特别重大事件)和V级(重大事件)和VI级(较大突发事件)。(1) 特别重大运营中断事件(IV级)1) NPM网络性能监控数据包泄露,导致银行客户账号信息泄露,从而对银行以及客户造成名誉和经济上的损失。(2) 重大运营中断事件(V级)1) NPM网络性能监控服务器宕机不能够正常进行登录,同时不能够对业务系统的交易进行实时监控。 2) NPM网络性能监控服务器因为硬件损坏或操作系统升级补丁,产生不兼容,导致服务器不能正常运行(3) 较大运营中断事件(VI级)1) NPM网络性能监控应用程序因为产品缺陷导致不能驱使应用程序正常运行,同时不能够实时监管交易系统的响应时间。2) 因为人员操作失误原因导致NPM网络性能监控系统不能够正常运行,同时不能够实时监管交易系统的响应时间。2.3 突发事件升级NPM网络性能监控突发事件发生后,应依据事件影响的范围、时间等因素的变化,按上述定义进行事件级别升级。3 系统重建3.1 备份情况(1) 数据库备份情况:由于NPM网络性能监控产品的数据库为内嵌式数据库以配置文件形式存在,数据分两部分,一部分是监控数据,另一部分是信息数据,针对监控数据采取定期清理自动清理的模式。(2) 配置文件备份情况:导出/导入视图登录NPM web所在服务器执行以下命令进行操作,所有命令适用于lcv,dcv,spv。1、 导出视图Mongoexport -d npmweb -c spv -o /tmp/spv.json2、 导出指定视图Mongoexport -d npmweb -c spv -q “name”:”spv1”-o /tmp/spv1.json3、 导入视图Mongoimport -d npmweb -c lcv -file /tmp/spv1.json3.2 主机系统恢复与重建NPM网络性能监控的重建分主机操作系统、数据库、应用程序的重建。重建情况分析如下:1. 数据库与应用程序未做HA,不能实现系统故障自动切换;2. 数据库或应用程序出现故障,可将相关备份数据放至一台预备机器上,修改配置后即可在短时间内迅速搭建起服务;3. 数据库和应用程序同时出现异常,可将相关备份数据放至一台预备机器上,修改配置后即可在短时间内迅速搭建起服务;4. 如果网络出现异常,由于采用的是双网卡绑定ip机制,如果有一个网卡能用,可以自动切换。重建步骤如下:1、 安装操作系统进行常规配置如:“规划磁盘阵列进行文件系统划分,IP地址配置、防火墙配置、服务器主从配置等”2、 安装应用程序并对应用程序进行基础信息配置。包含如下数据a) npm服务配置:/opt/npm/backup,/opt/npm/etcb) 探针配置:/opt/smartprobe/etc3、 恢复数据,取系统最后一次的备份数据,进行恢复。4、 对恢复后的业务系统,进行访问、业务处理、数据校验等操作。4 附件:4.1 通讯联络清单说明:列出和本预案有关各类组织和人员的联系方式。各类组织和人员包括但不限于由应急领导小组办公室、突发事件领导小组、应急执行小组和应急保障小组组成的民生银行科技开发部应急响应及恢复团队,外部为民生银行科技开发部提供有关灾备服务的第三方服务商,相关的上级监管机构、相关的新闻媒体、相关员工的家属、提供各类水、电、通讯服务的运营商和供应商、提供相关设备或服务的厂商等。联系方式包括但不限于固定电话、移动电话、家庭或办公地址、电子邮件等。4.1.1 事件快速响应电话序号电话名称单位电话1报警电话公安分局1102火警电话消防中队1193紧急救护电话急救中心120,9994夏金金相孚177717803175Kevin天旦150210065546孙莹冰神州新桥135858517165 技术相关应急场景与应急处理(示例)5.1 NPM应急预案5.1.1 Dp应急预案场景 1:NPM由于数据包处理出现异常,进程down掉,Service dashboard多个视图出现超过10分钟的延迟:应急处理:在探针服务器任意目录下执行smartprobe console,重启restart _dp:*,如下截图所示:结果验证查看该smartprobe_dp进程第二列是否处在running状态5.1.2 SP应急预案场景 1:SP由于数据包乱序等异常导致sp程序出现异常停止,该页面涉及到的SP抓包系统至少会出现5条以上灰色进度。应急处理:在smartprobe服务器任意目录下执行smartprobe console,重启restart pktminer*:结果验证1、 查看该pktminer的进程是否出入RUNNING状态5.1.3 Mongo迁移应急预案场景 1 Mongodb空间导致存储磁盘满应急处理:一、查看当前数据库目录和大小当前Mongo目录为/opt/npm/npm/mongo, 大小为778GB二、外挂1TB存储挂载到本地/mnt/backupdisk三、导出备份当前的路径图及相关表执行/opt/python27/bin/python /opt/npm/scripts/backup.py -t /opt/npm/backup/ -mongodb=npm -sqliteroot=/opt/npm/var/db/ -i会提示成功备份类似这样的log:2013-12-17 10:26:03 level=INFO type=backup start backup 20131217102603这时候就备份到/opt/npm/backup/20131217102603.backup目录。四、停止npm进程 执行 npm stop all五、停止mongo,执行/etc/init.d/mongod stop六、新建一个Mongo数据库的文件夹a)重命名数据库,将/opt/lib 重命名为 /opt/lib_backmv /opt/lib /opt/lib_backb)创建一个新的Mongo文件夹: mkdir p /opt/lib/mongoc)给Mongo文件夹赋予权限: chown mongod:mongod /opt/lib/mongo七、启动mongo, /etc/init.d/mongod start八、还原配置文件和表空间结构执行脚本,把/opt/npm/backup/20131217102603.backup里面的文件还原回来:/opt/python27/bin/python mongorestore.py /opt/npm/backup/20131217102603.backup/九、启动npm,执行npm start all,(17:45,从停止到启动20分钟。) 十、把/opt/lib_back中的数据dump到备份磁盘上(备份盘挂载/mnt/backupdisk),共导出180GB数据(实际1小时50分钟)。1、mkidr /mnt/backupdisk/mongoback2、nohup mongodump -dbpath /opt/lib_back/mongo/ -o /mnt/backupdisk /mongoback/ &输出log如下:Tue Dec 17 18:32:03 tools all dbsTue Dec 17 18:32:04 tools command admin.$cmd command: listDatabases: 1 ntoreturn:1 keyUpdates:0 locks(micros) R:3 W:723779 r:28 reslen:174 727msTue Dec 17 18:32:04 tools DATABASE: npm to /mnt/backupdisk/mongoback/npmTue Dec 17 18:32:04 tools npm.seq_gen to /mnt/backupdisk/mongoback/npm/seq_gen.bsonTue Dec 17 18:32:04 tools 2 objectsTue Dec 17 18:32:04 tools Metadata for npm.seq_gen to /mnt/backupdisk/mongoback/npm/seq_gen.metadata.jsonTue Dec 17 18:32:04 tools npm.main_app_datapath to /mnt/backupdisk/mongoback/npm/main_app_datapath.bsonTue Dec 17 18:32:04 tools 14 objectsTue Dec 17 18:32:04 tools Metadata for npm.main_app_datapath to /mnt/backupdisk/mongoback/npm/main_app_datapath.metadata.jsonTue Dec 17 18:32:04 tools npm.app_datapath to /mnt/backupdisk/mongoback/npm/app_datapath.bsonTue Dec 17 18:32:04 tools 7 objectsTue Dec 17 18:32:04 tools Metadata for npm.app_datapath to /mnt/backupdisk/mongoback/npm/app_datapath.metadata.jsonTue Dec 17 18:32:04 tools npm.app1_bar to /mnt/backupdisk/mongoback/npm/app1_bar.bsonTue Dec 17 18:32:23 tools getmore npm.app1_bar cursorid:2562018678637645326 ntoreturn:0 keyUpdates:0 numYields: 1891 locks(micros) r:1328740 nreturned:14262 reslen:4194327 19272msTue Dec 17 18:32:23 tools 200/3485792810%(objects)十一、将备份数据Restore到在线数据库(预计16个小时完成)执行nohup mongorestore /mnt/backupdisk/mongoback/ &十二、umount外挂存储完成操作。结果验证:查看/opt/lib空间大小,空间是否已经释放。5.1.4 MongoDb重启应急预案场景 1 登陆前台浏览器时报数据库状态:异常应急处理:1)ssh登陆NPM服务器后台2)后台使用service mongod restart重置数据库进程结果验证SSH到npm后台使用service mongod status查看mongodb的状态,正常应该是running状态。5.1.5 NPM软件重装应急预案场景 1 任何其他手段都无法恢复npm的情况下。应急处理:1) 请根据备份情况,确认数据的备份情况。建议将备份数据导出到外部存储(可以使用sftp或外挂盘)。2) Ssh到npm后台使用“npm stop all”停止npm。3) “cd /opt/npm/script/”进入npm卸载脚本目录。4) 在卸载脚本目录下使用“./uninstall.sh”来运行卸载脚本。5) 使用“reboot”重启npm服务器6) 重启完成后请按照“crossflow产品安装与维护手册”来重新安装npm产品。7) 请按备份情况的路径将备份数据导入。结果验证重启登陆npm前台,各项功能正常。5.1.6 License安装应急预案场景 1 License过期,抓包系统全部出现灰色进度。查看前台NPM-帮助-关于,查看授权信息

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论