电子邮件系统应急预案_第1页
电子邮件系统应急预案_第2页
电子邮件系统应急预案_第3页
电子邮件系统应急预案_第4页
电子邮件系统应急预案_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

电子邮件系统应急预案第一章 总则一、目的全面应对通信网络突发事件,确保通信业务安全畅通,提高应对突发事件的综合管理水平和应急处置能力。二、工作原则(一)指导原则统一指挥,分级负责,信息共享,密切协同,快速反应,保障有力。(二)保障原则在“先重点,后一般;先抢通,后抢修”总体原则下。 重点保障重点用户、收费用户的使用。(三)编写原则遵循面向业务的原则,具备可操作性,涉及的环节尽量少,启动的时间尽量短。三、编制依据电子邮件系统应急预案制定依据为省公司我部门考核的要求,以及为了确保广大邮箱用户正常使用的基础上制定的。电子邮件系统应急预案备件使用参照数据网备品备件管理制度。四、适用范围应急预案适用范围,为辽宁通信公司省网管中心的邮件系统在设备故障、自然灾害及其他突发事件中遭到破坏情况下的应急处置和业务恢复。第二章 组织机构和职责一、组织机构为保证通信安全,在通信网络出现阻断或业务疏通能力大幅下降时,能够迅速采取有效保障措施。1、通信保障领导小组姓名单位及职务联系电话组 长王朝伟省网管中心经理副组长焦 炎省网管中心副经理组 员杜文建网络监控部主任2、电子邮件系统通信保障实施小组姓名单位及职务联系电话组 长候志胜网络监控部基础网维护小组长组 员刘 欣网络监控部基础网维护小组组员邹 明网络监控部基础网维护小组组员王春艳网络监控部基础网维护小组组员二、工作职责应急预案要以应对电子邮件系统突发事件进行响应的全过程为主线,即自突发事件发生、预警开始,到业务保障和设备恢复的全部结束为止,明确每个环节的主办部门与协办部门,明确各部门的职责。各级通信保障实施小组职责负责预案的具体实施,组织抢通、抢修通信设施,并跟踪处理解决结果,及时汇总上报。各级设备维护中心负责组织制定、修改和完善专业设备应急预案,并定期组织预案的演练工作。第三章 应急响应一、预警通过对网络设备日常运行数据和网络中业务流量的监测,对全网通信安全造成重要影响的信息进行收集和分析。按照早发现、早处置、早报告的原则,明确影响范围,建立信息传递渠道,落实责任机制,加强监督管理,采取有效措施保障网络安全运行。一般情况下,应逐级报告,遇紧急或特殊情况,准许越级报告,并于报告后逐级补报。二、电子邮件系统的应急响应处置1 电子邮件系统的工作流程 AIMC系统工作流程图1.1 SMTP的工作流程序号说明1接收到来自Internet的SMTP连接,对本域发件人进行身份验证2完成Message Blocking操作3对外地收件人,在完成Relay Restriction后加入转发队列4将转发队列中的邮件转发到Internet5对本地收件人,由UAS作身份验证6MTA将待处理的Mail及本地收件人列表传递给MAPIc7MAPIc计算得到每个收件人所属的MSS并选择与之相关的任一MAPIs,将待处理的Mail及本地收件人传送到MAPIs。8MAPIs执行邮件过滤操作,并最终把邮件投递到MSS中9MAPIs从MSS中读写邮箱信息,并得到投递成功/失败结果10MAPIs以投递结果向MAPIc应答11MAPIc在把各MAPIs的投递结果综合起来后传递回MTA。MTA根据结果或者结束该Mail的处理过程,或者向发件人投递失败通知信,或者将邮件加入本地投递队列。1.2 Web Mail的工作流程序号说明1用户利用Web发送Email2Web Mail把待发送Mail及其收件人列表传递给MAPIc3MAPIc调用SMTP发信API完成发信操作4用户利用Web阅读Email5用户登录时,Web Mail利用UAS完成身份验证6Web Mail向MAPIc传递读信请求,并最终取得信件7MAPIc计算得到用户所属的MSS并选择与之相关的任一MAPIs,将读信请求发送到MAPIs,并最终取得信息8MAPIs从MSS中读出用户的邮件9用户利用Web更改/读取邮箱配置10邮箱配置在Web Mail和MAPIc之间传递11MAPIc计算得到用户所属的MSS并选择与之相关的任一MAPIs,与MAPIs交换邮箱配置读写请求12MAPIs从MSS读出邮箱配置信息或向MSS写入邮箱配置信息1.3 POP3的工作流程序号说明1用户利用POP3提取Email2用户连接时,POP3利用UAS完成身份验证3POP3向MAPIc传递读信请求,并最终取得信件4MAPIc计算得到用户所属的MSS并选择与之相关的任一MAPIs,将读信请求发送到MAPIs,并最终取得邮件5MAPIs从MSS中提出用户的邮件1.4 IMAP4的工作流程序号说明1用户利用IMAP4阅读Email2用户连接时,IMAP4利用UAS完成身份验证3IMAP4向MAPIc传递读信请求,并最终取得信件4MAPIc计算得到用户所属的MSS并选择与之相关的任一MAPIs,将读信请求发送到MAPIs,并最终取得邮件5MAPIs从MSS中读出用户的邮件6用户利用IMAP4更改/读取邮箱Folder配置7邮箱Folder配置在IMAP4和MAPIc之间传递8MAPIc计算得到用户所属的MSS并选择与之相关的任一MAPIs,与MAPIs交换邮箱Folder配置读写请求9MAPIs从MSS读出邮箱Folder配置信息或向MSS写入Folder配置信息 2 应急预案影响业务的故障点电子邮件系统主要有四种业务:smtp/pop3/imap4/webmail。从系统物理结构分析,四种业务的工作流程都涉及到邮件业务系统、用户认证系统、邮件存储系统、磁盘阵列、网络系统(电子邮件系统物理结构图和配置列表见附件2和附件3),webmail除以上子系统外还涉及到webserver服务器。每个子系统都可能成为影响业务的障碍点。相应的应急预案针对每个障碍点制定了相应的应急预案,并且每个应急预案有相应的启动条件,当满足某个条件时,就启动相应的应急预案。当故障发生后,值班人员首先根据故障现象判断故障点,并启动相应的应急预案;如果无法判断故障点或者不能启动应急预案,要立即通知系统管理员处理。每个障碍点对应的应急预案只适用于本障碍点,不能够屏蔽其他障碍点。各个子系统的应急预案汇总如下:2.1 webserver应急预案启动条件当发生下列情况之一,在规定的时间内无法恢复时,启动webserver应急预案:、两台主用webserver由于进程运行异常,页面无法正常显示;、两台主用webserver的页面被篡改;、硬件故障,致使webserver无法启动。判断方法Webserver服务器共有两台,IP地址分别为13和14,端口为2080。故障判断时,应该对这两台服务器分别做检查。例如:检查13这台机器,URL为 13:2080,查看页面显示是否正常。启动步骤、停掉主用的webserver,启动备用的webserver。启动备用webserver的操作需要5分钟时间。登录和$ cd /opt/aihttpd/bin$ ./apachectl stop 登录$ cd /opt/aihttpd/bin$ ./apachectl start 、如果主用webserver的页面被篡改,替换出现问题的webserver的页面文件后,再重启webserver。$ cd /opt/aimc$ tar xvf webroot.tar$ cd /opt/aihttpd/bin$ ./apachectl stop$ ./apachectl start此项操作如果从备份目录获取页面文件,需要5分钟时间;如果从备份带获取页面文件,需要10分钟时间。注意事项、在日常维护中,应当定期检查备用web server的可用性,并检查备份带和磁带机的可用性,定期更新备份文件和备份带。、在网络小组的协助下,通过apache server的事务日志和系统登录日志查找攻击源,及时在前端路由器上进行封堵。、主用的webserver服务器在南机房20、21机柜上,机器名称为 、。备份文件存放在mss1存储服务器/home1/backup。撤销条件当出现故障的webserver恢复时,将备用的webserver停掉,并启动已经恢复的webserver。登录和$ cd /opt/aihttpd/bin$ ./apachectl start 登录$ cd /opt/aihttpd/bin$ ./apachectl stop 2.2 用户认证系统应急预案启动条件当发生下列情况之一,在规定的时间内无法恢复时,启动用户认证系统应急预案:、aiuum进程运行异常;、aiuum无法连接oracle数据库,或者无法读取数据库的aiuum数据字典;、oracle数据库运行异常;、uas0、uas1服务器硬件故障,致使服务器无法启动。判断方法、很多用户通过客户端软件(outlook、foxmail)或者webmail方式收发邮件时频繁提示“密码不对”或者“你没有访问此邮箱的权限!”,可以断定是用户认证服务器的问题。、在uas0、uas1上运行如下命令:/opt/aiuum/bin/ServicePool monitor查看aiuum服务进程组的运行信息。如果运行信息中的“CurrentProcessCount=0”,表明连接数据库失败,或者无法读取数据库的AIUUM数据字典。启动步骤、在前台业务服务器上修改aimc.ini配置文件,将下面红色字体修改为 Server1=9 8889 10UAPI;Backend: 1-LDAP, 2-RADIUS, 4-System, 8-Oracle, 16-OCS, 128+-WANServer0=0 0 0 ; the backend,ip/connect_string,port and rate of the certify serversServer1=9 8889 10 8889 10Server2=0 0 0、重启aimc进程 cd /opt/aimc./aimc_stop./aimc_start注意事项、启用备用认证数据库后,用户信息将不能进行增、删、改操作,但不影响用户认证。、此项操作需要修改10台业务服务器的配置,每台服务器需要2分钟时间,总共需要20分钟时间。这项操作的最佳配置为2个人,分别负责5台业务服务器,这样共需要10分钟时间。撤销条件当uas0、uas1的数据库恢复正常时,可以将前端业务服务器上的aimc.ini配置文件改回,重启aimc进程并进行测试。2.3 邮件存储系统应急预案采用1台SUN E6500和2台SUN E3500组成邮件存储服务器群,实现MSS(Mail Storage System)功能。3台MSS之间通过软件进行负载分担。服务器上配置了Veritas File System、Veritas Volume Manager软件,提高了文件访问的效率,同时,配置了Veritas Cluster Server软件进行负载分担和互为备份:任何一台服务器出现故障其他服务器都可以马上接替其工作,配置了一台HUB配合负载分担的切换工作。3台存储服务器都采用双千兆网卡与Catalyst4006连接,每台服务器上的两块网卡都同时工作,绑定1个IP,平时一块网卡作为备用网卡,当主网卡出现问题或者网线出现故障时,备用网卡会自动接管主网卡工作,做到无缝切换。启动条件当发生下列情况之一,在规定的时间内无法恢复时,启动邮件存储系统应急预案:、某个mailroot对应的mss进程运行异常;、mss服务器硬件故障。判断方法:、很多用户通过客户端软件(outlook、foxmail)或者webmail收取邮件时,连接总是超时或者提示“系统I/O error”,可以判断为邮件存储系统的问题。、通过mapi命令查看某个mailroot对应的mss进程运行状态:、uapi s 邮箱内部uid f location查看用户的mailroot值,例如为0;、telnet到这个mailroot对应的存储服务器上,执行如下命令:/opt/aimc/0/mapi/bmb 邮箱内部uid如果系统报错或者超时,表明mailroot对应的mss进程有问题。启动步骤将这个mailroot切换到其他存储服务器上。以root权限登录mss服务器,执行如下操作:#hagrp switch ServicesGroupName to sysName其中ServicesGroupName为 mss0 mss1 mss2 mss3 mss4 mss5(mss*表示资源组的名称)sysName为mss0 mss1 mss2(mss*表示存储服务器的名称)执行上述操作后,通过hastatus命令查看切换是否正常撤销条件当原mss进程恢复正常时,将对应的mailroot手工切换回原存储服务器上。2.4 磁盘阵列应急预案方案说明存储子系统拓扑图当邮件系统连接的磁盘阵列由于光纤交换机、磁盘阵列、磁盘、光通路阻塞,或者veritas volume manager软件等故障导致磁盘阵列上的mailroot不能挂接到前端存储服务器时,可以在前端存储服务器的本地硬盘建立临时mailroot以保证邮件收发服务。在启动应急预案前,首先判断故障点,如果是硬件故障,替换相应的硬件;如果是软件原因,联系相关人员处理;如果在规定的时间内无法判断出故障点或者无法恢复故障点,应当启动磁盘阵列应急预案。启动条件和存在的问题当发生下列情况之一,在规定的时间内无法恢复时,由系统管理员,向省数据局应急预案指挥小组请示,批示后启动邮件存储系统应急预案:、磁盘阵列故障,导致磁盘阵列不可用;、光纤交换机、HBA卡、光纤故障,导致光通路阻塞;、veritas volume manager软件故障,导致无法mount到逻辑盘;判断方法:、磁盘阵列(硬盘,SP磁盘控制器,电源,风扇)如果出现硬件故障,都可以通过点击Navisphere Manager图形化管理工具Storage Button查看Physical选项来确定。、通过光纤交换机和SP磁盘控制器的状态灯,可以确定光通路是否堵塞。、在mss服务器上执行# cd /dev# ls clsp*如果可以列出clsp0, clsp1的设备名称,说明磁盘阵列已经被系统识别,可以判断HBA卡没有问题。、当很多用户反映接收不到磁盘阵列中的邮件时,可以判断是磁盘阵列故障。存在问题本预案启动后,用户将无法收取保留在磁盘阵列中的邮件;在邮件回迁的过程中,用户将无法收取保留在临时盘上的邮件。但是,用户保留在磁盘阵列或者临时盘上的邮件都不会丢失。这些问题要通知各市局值班人员和投诉部门,及时向用户做解释工作。启动步骤、规划mailroot在前端存储服务器上准备临时mailroot。mss0、mss1的本地硬盘空间比较大,而且可以扩展多块硬盘,而mss2的本地硬盘空间小,无法扩展硬盘,因此mss0、mss1将分别存储3个mailroot的邮件,具体规划如下:mss0 对应 m0、m2、m3mss1对应 m1、m4、m5、建立mailroot在mss0上做如下操作:创建两个目录,分别为/home、/home1,在这两个目录下建立相应的mailroot,并将目录属主变为aimc。cd /home; mkdir m0chown Rf aimc:aisoft /home/m0 touch /home/m0/m0 cd /home1; mkdir m2 chown Rf aimc:aisoft /home1/m2 touch /home1/m2/m2 cd /home1; mkdir m3 chown Rf aimc:aisoft /home1/m3 touch /home1/m3/m3在mss1上做如下操作:创建一个目录为/home1,在这个目录下建立相应的mailroot,并将目录属主变为aimc。cd /home1; mkdir m1chown Rf aimc:aisoft /home1/m1 touch /home/m1/m1 cd /home1; mkdir m4 chown Rf aimc:aisoft /home1/m4: touch /home1/m4/m4 cd /home1; mkdir m5 chown Rf aimc:aisoft /home1/m5 touch /home1/m5/m5注意事项、在日常维护中不要删除上述目录,也不要占用这些目录的磁盘空间。正常情况下,临时盘可以存储系统2天的邮件信息,如果启用应急方案后,发现临时盘磁盘空间不足,应该及时增加新硬盘。、以上操作事先应当准备完毕,应急预案启动时需要检查临时mailroot的可用性,大约需要2分钟时间。、当mss0或者mss1不可用时,将所有的mailroot规划到一台mss服务器上。、停止HA服务以root身份分别在mss0、mss1、mss2做如下操作:hastop -local forcecd /etc/rc3.dmv S99vcs s99vcs此项操作需要5分钟时间。、修改IP地址在mss0上作如下操作:ifconfig ge0:4 plumbifconfig ge0:4 inet netmask up在mss1上做如下操作:ifconfig ge0:4 plumbifconfig ge0:4 inet netmask up在mss2上作如下操作:ifconfig ge0:2 downifconfig ge0:3 down此项操作需要5分钟时间、修改配置文件在mss0上做如下操作:cd /opt/aimc/0mv mss.ini mss.ini.操作人.时间cp mss_yj.ini mss.inicd /opt/aimc/2mv mss.ini mss.ini.操作人.时间cp mss_yj.ini mss.inicd /opt/aimc/3mv mss.ini mss.ini.操作人.时间cp mss_yj.ini mss.ini在mss1上作如下操作:cd /opt/aimc/1mv mss.ini mss.ini.操作人.时间cp mss_yj.ini mss.inicd /opt/aimc/4mv mss.ini mss.ini.操作人.时间cp mss_yj.ini mss.inicd /opt/aimc/5mv mss.ini mss.ini.操作人.时间cp mss_yj.ini mss.ini此项操作需要3分钟时间。、重启mss服务重启mss进程,并且观察restart.log及测试服务是否正常。cd /opt/aimc./aimc_stop./aimc_starttail f restart.log注意事项、所有启动应急预案的准备工作总共需要15分钟时间。、当故障在15分钟内无法修复时,就应该从两方面入手:1、继续查找故障原因,争取修复故障。2、开始应急预案实施前的准备工作,如果故障在规定的时间内无法恢复,将启用应急预案。、有些准备工作可以并行操作,例如:检查临时mailroot的可用性、停止HA服务、修改配置文件;有些工作必须串行工作,例如:修改ip地址必须在停止HA服务之后操作。因此,准备工作的最佳人员配置为2个人,一个人负责检查临时mailroot的可用性和修改配置文件,一个人负责停止HA服务和修改ip地址,这样整个准备工作需要10分钟时间(详细流程见附件1)。撤销条件及撤销步骤、撤销条件如果磁盘阵列恢复正常,首先将应用回迁到磁盘阵列上,再将临时盘上的邮件回迁到磁盘阵列上。、撤销步骤、恢复其他主机配置及服务当磁盘整列恢复后,先恢复各存储服务器的配置文件和ip地址,并手工将磁盘阵列挂接导存储服务器上,重启mss服务进程,观察服务是否正常。、回迁用户邮件当服务稳定后,在临时mailroot所在主机上进行邮件回迁磁盘阵列的操作。下面是回迁用户邮件的shell脚本,参数是临时mailroot的ID。以Aimc用户执行:cd /opt/aimc/setupnohup migrate.sh mailrootid &#!/bin/shif $# -lt 1 ;then echo $0 exit 1ficd $HOME/setupmrhome=inifile ./$1/config/mss.ini MSS MailDir/m$1userlist=find $mrhome/MB/ -name mailinfo.dat|nawk -F/ printf(%s , $(NF-1);cd ./$1/mapirm -f $HOME/setup/mail$1.lstfor user in $userlistdo bmb $user | nawk -v prefix=$mrhome/MF -v uid=$user if($8=UserLevel) groupid=$10 if($1=) mf=substr($(NF-8), 4, length( $(NF-8) ) - 4 ); tmp=mf; len=length( tmp ); printf( %s %s/%d/%d/%d/%dn, uid, prefix, substr( tmp, len - 7, 2 ), substr( tmp, len - 5, 2 ), substr( tmp, len - 3, 2 ), substr( tmp, len - 1, 2 ) , groupid ); $HOME/setup/mail$1.lstdoneawk if ($3!=1) print $1 $2 mail$1.lst mail$1.uidcd $HOME/setupnawk -v mr=$1 if( system( echo $1 usrmr.dat;grpsend -d now -u 1-1 -f $2 -o usrmr.dat) != 0 ) print $0; ./mail$1.uid error$1.lst邮件回迁的原理为:a、首先指定mss服务器上的某个不用的mailroot作为邮件回迁时的源mailroot(下面称之为临时mailroot)。修改临时mailroot的mss.ini配置文件,将mail directory(MailDir)指向相应MB 、MF所在的目录。b、用bmb的方式获取磁盘阵列故障期间都有哪些用户收到了邮件,邮件存放的位置及用户等级。c、根据用户等级的不同(用户等级等于1为免费用户)将收费用户和重要用户提取出来。d、用aimc的发送邮件工具grpsend先将收费用户和重要用户的邮件回迁到磁盘阵列中,并保持发件人、发信时间等邮件信息不变;再将免费用户的邮件回迁到磁盘阵列中。e、所有用户的邮件回迁完毕后,将临时mailroot下的mss.ini配置文件恢复为原来的配置。注意事项、磁盘阵列应急方案只提供邮件收发服务,对于用户在原邮箱设置的邮箱信息,如过滤规则,地址簿,邮件到达通知等没有提供。同时搬迁脚本只回迁用户邮件,对于用户在临时mailroot设置的邮箱信息,包括过滤规则,地址簿,邮件到达通知等没有搬迁。、当邮件存储系统的3台mss服务器都不可用时,将临时mailroot加载到备份的用户认证服务器上。、回迁用户的操作应当按照“先重点、后一般”的原则进行。由于待回迁的邮件很多,需要很长时间完成。因此,应当将收费邮箱和重点邮箱(企业邮箱、政府邮箱)的邮件分拣出来,先对这部分邮件进行回迁,再对免费邮箱对应的邮件进行回迁。、当用户邮箱保留在临时盘上和磁盘阵列上的邮件大小总和超过邮箱的quota值时,临时盘上的部分邮件将无法回迁到磁盘阵列上。、用户等级为0的邮箱表示为自定义邮箱,quota值在mailinfo.dat控制文件中定义。当启动应急预案后,这部分邮箱的quota值变为系统缺省大小,即1M,因此需要手工修改这部分邮箱的quota值。、回迁邮件过程可能会遇到一些非可预见的问题,需要厂家技术支持。但是,电子邮件系统的维保服务已经过期,厂家原则上不予提供技术支持。如果省数据局无法协调厂家提供技术支持时,需要省公司协调解决。、磁盘阵列应急预案中涉及的步骤比较多,预案中列出的时间只是每个操作步骤需要的时间,处理故障的响应时间还与很多因素有关,例如:值班人员是否能够处理、系统管理员是否具备处理条件、是否能够立即响应,考虑到以上因素可能满足不了故障处理的时限要求。、EMC CLARiion4500磁盘阵列的模块(SP磁盘控制器、电源、风扇、sps电源、光纤交换机)都是全冗余设计,某个模块损坏将不影响业务。但是在极端情况下,两个模块同时损坏,整个磁盘阵列将不可用,需要立即更换坏件,且在更换坏件时需要厂家提供技术支持。鉴于以上情况,应该购买磁盘阵列相关的备品备件和厂家技术支持服务。2.5 网络系统应急预案aimc系统在网络上采用2台四层交换机Alteon 184和2台Catalyst 4006组成。采用四层交换机是为了实现多台业务服务器之间的负载分担,由于Alteon 184只有8个端口,所以需要使用Catalyst 4006扩展端口,连接更多的服务器。Alteon 184和Catalyst 4006均采用双备份双连结,防止单点故障。启动条件在极端情况下,两台alteon184交换机都不可用时,应当启用备用alteon交换机进行替换。启动步骤、将配置文件通过tftp方式上传到备用alteon180e交换机,确认配置没有问题。、将alteon184上的链路按照相同的端口号切换到备用的alteon180e上,并观察应用是否恢复。注意事项、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论