某公司ZXG10-SC可靠性说明_第1页
某公司ZXG10-SC可靠性说明_第2页
某公司ZXG10-SC可靠性说明_第3页
某公司ZXG10-SC可靠性说明_第4页
某公司ZXG10-SC可靠性说明_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、系统可靠性甲方签字:第 PAGE 2页乙方签字:ZXG110-SSC可靠靠性说明明ZXG10-SC系统可靠性分析及瓶颈分析湖南移动短消息扩容 PAGE 1目录目 录TOC o 1-3 h z HYPERLINK l _Toc14374529 1系统统可靠性性设计 PAGEREF _Toc14374529 h 11 HYPERLINK l _Toc14374530 1.1 硬件件冗余设设计 PAGEREF _Toc14374530 h 1 HYPERLINK l _Toc14374531 1.1.1模块块处理机机(MPP) PAGEREF _Toc14374531 h 1 HYPERLINK l

2、 _Toc14374532 1.1.2T交换网网 PAGEREF _Toc14374532 h 1 HYPERLINK l _Toc14374533 1.1.3 TT交换网网驱动板板 PAGEREF _Toc14374533 h 2 HYPERLINK l _Toc14374534 1.1.4 FFBI板板 PAGEREF _Toc14374534 h 2 HYPERLINK l _Toc14374535 1.1.5主处处理机网网卡 PAGEREF _Toc14374535 h 2 HYPERLINK l _Toc14374536 1.1.6通讯讯板 PAGEREF _Toc14374536

3、h 2 HYPERLINK l _Toc14374537 1.1.7电源源 PAGEREF _Toc14374537 h 2 HYPERLINK l _Toc14374538 1.1.8 业务务处理机和数数据库服服务器 PAGEREF _Toc14374538 h 33 HYPERLINK l _Toc14374539 1.1.9核心心交换网网 PAGEREF _Toc14374539 h 3 HYPERLINK l _Toc14374540 1.2软件可可靠性设设计 PAGEREF _Toc14374540 h 4 HYPERLINK l _Toc14374541 1.2.1层次次化、模模块

4、化设设计 PAGEREF _Toc14374541 h 4 HYPERLINK l _Toc14374542 1.2.2系统统运行监监测和日日志 PAGEREF _Toc14374542 h 4 HYPERLINK l _Toc14374543 1.2.3 资资源管理理 PAGEREF _Toc14374543 h 4 HYPERLINK l _Toc14374544 1.2.4指针针越界、堆栈溢溢出的预预防 PAGEREF _Toc14374544 h 5 HYPERLINK l _Toc14374545 1.2.5过负负荷控制制 PAGEREF _Toc14374545 h 5 HYPER

5、LINK l _Toc14374546 1.2.6容错错处理 PAGEREF _Toc14374546 h 66 HYPERLINK l _Toc14374547 1.2.7监控控程序 PAGEREF _Toc14374547 h 77 HYPERLINK l _Toc14374548 1.2.8数据据可靠性性 PAGEREF _Toc14374548 h 7 HYPERLINK l _Toc14374549 2 短短消息中中心的MMTBFF和MTTTR PAGEREF _Toc14374549 h 8湖南移动短消息扩容工程 6-8- PAGE 12ZXG10-SC系统可靠性分析及瓶颈分析湖南

6、移动短消息扩容 5-8- PAGE 11系统统可靠性性设计1.1 硬件件冗余设设计为了提高高硬件的的可靠性性,采用用的主要要方法是是冗余设设计。ZZXG110-SSC系统统中的关关键部件件均采用用冗余设设计。1.1.1模块处处理机(MP)ZXG110-SSC中的的模块处处理机(MP)采用主主备用设设计。其其中一块块MP处处于主用用状态,另外一一块MPP处于备备用状态态。主用用MP处处理所有有的业务务,备用用MP处处于热备备份状态态。备用用MP每每隔100ms扫扫描一次次主用MMP的运运行状态态,当发发现主用用MP的的运行状状态发生生变化,即从主主用状态态变化为为非主用用状态时时,立即即进行倒倒

7、换。倒倒换成功功后,原原来的备备用MPP成为主主用MPP,并承承担所有有的业务务处理任任务。为保证MMP倒换换后业务务处理的的正确性性和延续续性,备备用MPP的数据据应和主主用MPP保持同同步。同同步过程程分为两两个阶段段,起动动阶段和和运行阶阶段。当当备用MMP起动动时,和和主用MMP做系系统配置置数据的的同步。该同步步过程由由数据库库应用进进程负责责。当备备用MPP进入运运行状态态后,备备用MPP中的各各进程每每隔一定定的周期期与主用用MP上上的相同同进程做做进程间间的数据据同步。ZXG110-SSC系统统中提供供多种MMP倒换换方式,包括手手动倒换换、故障障倒换、周期性性倒换、人机命命令

8、倒换换。当MP发发生故障障时,系系统以图图形界面面和声光光方式通通知维护护人员,以便及及时更换换发生故故障的MMP。1.1.2T交换换网T交换网网由两块块交换网网板组成成,采用用主备用用方式。这两块块交换网网板的主主备用状状态由MMP控制制。当主主用T交交换网板板发生故故障时,MP能能立即检检测到,并把备备用T交交换网板板转为主主用。从从故障发发生到倒倒换结束束的时间间在五秒秒之内。当T交换换网发生生故障时时,系统统以图形形界面和和声光方方式通知知维护人人员,以以便及时时更换发发生故障障的T交交换网板板。1.1.3T交换换网驱动动板SP级别别T交换换网驱动动板采用用主备用用方式,备用驱驱动板时

9、时刻监测测主用驱驱动板的的状态。当主用用驱动板板发生故故障,备备用驱动动板立即即监测到到,并把把自身倒倒换为主主用状态态,时间间为一到到两秒。1.1.4FBII板FBI板板(模块块之间的的光纤接接口板)采用主主备用方方式,备备用驱动动板时刻刻监测主主用驱动动板的状状态。当当主用驱驱动板发发生故障障,备用用驱动板板立即监监测到,并把自自身倒换换为主用用状态,倒换时时间为一一秒左右右。1.1.5主处理理机网卡卡每个模块块处理机机上有两两块网卡卡(100M/1100MM自适应应),采采用主备备用方式式。当主主用网卡卡10秒秒钟内没没有收到到任何数数据包时时,关闭闭主用网网卡,起起动备用用网卡。1.1

10、.6通讯板板为了使ZZXG110-SSC的模模块内通通讯更为为可靠,硬件在在连接上上实现双双备份,每个SSP均通通过644kb/sHDDLC链链路与一一对通讯讯板相连连。为了了加快遇遇有故障障时的链链路切换换的速度度,将同同一SPP与该对对互助通通讯板的的链路全全部建立立好,至至于选择择哪一条条链路通通讯,由由主用MMP来决决定。当当两条链链路均建建立成功功时,主主用MPP为平衡衡这对互互助通讯讯板的负负荷,在在链路选选择时采采用优先先选择的的方法,原则是是通讯板板上偶数数号通道道优先选选择左板板位通讯讯板上的的链路,奇数号号通道优优先选择择右板位位通讯板板上的链链路。当当选用的的链路发发生故

11、障障时,MMP选用用另一块块通讯板板上的正正常链路路。ZXG110-SSC的模模块间通通讯的硬硬件在连连接上实实现双备备份,每每个模块块均通过过464kkb/ssHDLLC链路路与一对对通讯板板相连。为了加加快遇有有故障时时的链路路切换的的速度,将同一一模块与与该对互互助通讯讯板的链链路全部部建立好好,至于于选择哪哪一条链链路通讯讯,由主主用MPP来决定定。当两两条链路路均建立立成功时时,主用用MP选择择左板位位通讯板板上的链链路。当当选用的的链路发发生故障障时,MMP选用用另一块块通讯板板上的正正常链路路。1.1.7电源ZXG110-SSC(VV3.00)系统统每层机机框采用用双电源源并联方

12、方式供电电。当其其中一个个电源发发生故障障时,仍仍能保证证正常的的供电。当电源源发生故故障时,系统以以图形界界面和声声光方式式通知维维护人员员,以便便及时更更换发生生故障的的电源。1.1.8业务处处理机和和数据库库服务器器ZXG110-SSC系统统中的业业务处理理机和数数据库服服务器采采用双机机热备份份、磁盘盘冗余阵阵列等方方式保证证业务处处理机和和数据库库服务器器的可靠靠性。双机系统统的技术术基础是是集群(Cluusteer)结结构。CClussterr集群技技术的出出发点是是提高系系统的可可靠性、可扩充充性和抗抗灾难性性。一个个Cluusteer包含含多台拥拥有共享享数据存存储空间间的服务

13、务器。当当一台服服务器发发生故障障时,它它所运行行的应用用程序由由其它服服务器自自动接管管。该系统能能实时监监测主机机系统的的如下故故障并自自动发起起倒换,由另一一台服务务器接管管应用。1)系统统软件或或应用软软件造成成服务器器宕机。2)SCCSI卡卡损坏,造成服服务器无无法从磁磁盘阵列列读取资资料。3)服务务器硬件件损坏,造成服服务器宕宕机。4)服务务器关机机。双机各自自拥有自自己的机机器名和和IP地地址。对对外界提提供同一一个虚拟拟机器名名和IPP地址,并以此此对外界界提供服服务。自自身的IIP地址址在主机机状态时时将失效效。磁盘阵列列采用IIBM SSAA技术,共有44个双向向40MMB

14、/SS通道,总带宽宽达到1160MMB/SS,对磁磁阵每个个硬盘的的读写构构成一个个双向环环,中间间任何一一块硬盘盘的损坏坏不影响响系统的的处理速速率。且且带宽的的使用不不使用共共享方式式,独特特的带宽宽空间复复用方式式极大地地提高了了系统的的处理能能力。1.1.9核心交交换网ZXG1100-SC系系统采用用1000以太交交换网将将所有的的设备联联接在一一起,为为了避免免单点故故障,系系统设计计采用双双网双平平面的设设计方式式。任何何一台服服务器和和其他设设备的联联接都存存在两条条通路,通路采采用Ciiscoo 35548交交换机,同时提提供千兆兆以太网网端口,以供以以后扩容容接入,带宽使使用

15、不采采用侦听听/检测测技术,最大程程度提高高系统的的安全行行。1.2软件可可靠性设设计ZXG110-SSC系统统采用以以下方法法提高软软件的可可靠性。1.2.1层次化化、模块块化设计计ZXG110-SSC软件件系统可可分为以以下几个个系统:1)运行行支撑子子系统;2)数据据库子系系统;3)信令令子系统统;4)SMMPP代代理子系系统;5)业务务控制子子系统;6)操作作维护子子系统。各个子系系统相对对独立,并形成成一个层层次结构构。按照高内内聚性、低偶合合性的原原则,把把每个子子系统细细分为多多个功能能模块,提高系系统的可可靠性。1.2.2系统运运行监测测和日志志运行支撑撑子系统统中提供供运行监

16、监测功能能。它能能及时发发现进程程运行过过频、进进程死循循环,以以及中断断12和和中断113等故故障,并并提供故故障自动动恢复功功能。当当系统发发生异常常,把运运行现场场数据记记录到磁磁盘上的的日志中中。日志志中记载载的数据据能够帮帮助开发发人员迅迅速发现现并排除除故障,提高了了系统的的可靠性性。操作维护护子系统统各模块块把运行行过程中中检测的的异常情情况写入入日志数数据库中中,通过过查询日日志数据据库,维维护人员员能及时时发现并并排除故故障。1.2.3 资资源管理理1)内存存资源的的管理ZXG110-SSC软件件系统采采用两种种方式避避免内存存的枯竭竭。第一一种方式式为静态态分配法法,适应应

17、于所需需内存数数固定的的情况。具体方方法是在在程序中中定义全全局数组组。第二二种方式式为系统统初始化化时动态态分配内内存,适适用于所所需内存存数不固固定的情情况。这这两种方方法避免免了在系系统运行行过程中中动态分分配内存存,不会会发生内内存资源源枯竭的的现象,提高了了系统的的可靠性性。2)数据据区资源源的管理理系统在投投递短消消息时,会先申申请一个个进程数数据区,用以保保存相关关信息。在收到到投递响响应后,可以根根据保存存的信息息进行处处理,在在处理完完成后,释放该该进程数数据区。但是,若系统统由于某某种原因因,未能能收到投投递响应应消息,则此进进程数据据区将会会被长期期占用,导致系系统可用用

18、资源的的减少,最后导导致系统统耗尽所所有的进进程数据据区,从从而无法法进行正正常的业业务处理理。为防止上上述情况况的发生生,系统统记录每每个进程程数据区区被占用用的时刻刻,将所所有被占占用的数数据区按按占用时时刻先后后排列(以链表表方式),定时时检查最最早被占占用的进进程数据据区的占占用时刻刻,若该该时刻距距当前时时间已超超过一定定的门限限,则可可认为该该进程数数据区消消息丢失失,系统统将释放放此进程程数据区区。1.2.4指针越越界、堆堆栈溢出出的预防防系统中的的每个进进程都有有自己的的堆栈,堆栈的的大小是是固定的的。进程程函数中中定义的的局部变变量占用用堆栈的的地址空空间,如如果局部部变量定

19、定义太多多,会导导致堆栈栈溢出,即中断断12。为避免免这种情情况的发发生,一一般不在在进程函函数中定定义长度度很长的的局部变变量,而而是把它它们定义义成全局局变量。以上方方法减少少了发生生堆栈溢溢出的可可能性,提高了了系统的的可靠性性。系统从底底层收到到的消息息,包括括消息事事件号、消息指指针、消消息长度度等参数数,其中中,消息息指针指指向包含含消息内内容的内内存空间间,消息息长度指指明该内内存空间间的大小小。系统统会直接接根据消消息指针针访问消消息内容容。若消消息长度度比预期期的要短短,则系系统在访访问消息息内容所所在的内内存区域域时,可可能会发发生指针针越界,导致系系统崩溃溃。为防止这这种

20、情况况的发生生,系统统在收到到每条消消息时,首先比比较一下下消息长长度参数数是否小小于预期期的消息息长度:若低于于,则拒拒绝该消消息,认认为消息息有误;否则,进行正正常处理理。1.2.5过负荷荷控制作为GSSM网的的一个独独立实体体,短消消息中心心的主要要功能是是:接收收MS或或ESMME提交交的短消消息,并并将之转转发给其其他MSS或ESSME。因此,短消息息中心的的负荷主主要来源源于外部部实体的的短消息息提交等等业务处处理请求求。SC业务务处理机机负责集集中处理理来自短短消息网网关MSSC和SSMPPP Aggentt的短消消息提交交、查询询、替换换、删除除、用户户查询、留言、修改密密码等

21、请请求消息息。在业业务繁忙忙时,由由于处理理能力有有限,业业务处理理机会出出现来不不及处理理的情况况,导致致底层支支撑系统统积压了了大量的的待处理理的消息息。其后后果是:一方面面,积压压的消息息可能要要等待很很长时间间后才能能得到处处理,而而消息发发起方认认为已超超时,业业务处理理机的处处理无效效;另一一方面,因为存存储空间间有限,底层支支撑系统统会丢弃弃一些消消息,若若丢弃的的是系统统的短消消息投递递响应,会使系系统认为为该消息息投递未未成功,进入不不必要的的重试处处理。为此系统统提供拥拥塞控制制功能。在发现现消息已已积累到到一定程程度时,有选择择地对一一些消息息不进行行处理,而是直直接加以

22、以拒绝,拒绝原原因就是是“系统拥拥塞”。拒绝绝对象主主要是那那些处理理比较耗耗时的消消息,如如提交短短消息等等。这样样可以加加快系统统的处理理,减少少消息的的积累,提高了了系统的的可靠性性。在系统负负荷略超超过系统统处理能能力时,对过载载消息直直接返回回响应,拒绝此此消息,原因为为“系统拥拥塞”。在系统受受到外部部的大话话务量冲冲击(远远高于系系统的处处理能力力)时,对过载载消息直直接丢弃弃,不返返回任何何响应。为运营者者提供系系统运行行监测工工具,在在系统出出现过负负荷时,给出具具体信息息(如发发生地点点、详细细原因、建议措措施等)。在系统因因为异常常原因(如,受受到恶意意攻击)出现过过负荷

23、时时,通过过告警手手段提醒醒运营者者。1.2.6容错处处理1)业务务队列的的恢复在SC业业务处理理机中,有三个个重要的的业务控控制队列列:等待待用户队队列、重重试用户户队列和和定时消消息队列列,这三三个队列列均保存存在内存存中,以以提高系系统处理理速度。若系统统因为故故障、倒倒换等原原因而发发生重起起,则会会丢失这这三个队队列。为保证重重启后系系统的正正常运行行,系统统在重起起时,首首先遍历历所有的的目的用用户短消消息索引引表(该该表保存存在数据据库中),取出出相关数数据,重重建这三三个队列列。方法法如下:当发现现该目的的用户有有等待发发送的新新短消息息时,将将该用户户加入到到等待用用户队列列

24、中;若若发现该该目的用用户存在在未成功功发送的的短消息息,则将将该用户户加入到到重试用用户队列列中;若若发现该该目的用用户存在在需要定定时发送送的短消消息,则则将该条条短消息息加入到到定时消消息队列列中。2)定时时器的保保护系统由于于业务处处理的需需要,会会使用一一些由底底层支撑撑软件提提供的定定时器,进行定定时监测测系统资资源、定定时处理理业务队队列等工工作。由由于底层层支撑软软件的特特点,每每次定时时器消息息到达后后,系统统均需要要重新设设置该定定时器。若定时时器设置置失败,或者定定时消息息丢失,则该定定时工作作就无法法再度执执行。为此系统统采取以以下措施施。系统统设置一一个定时时时间较较

25、长的定定时器,用以定定时检测测定时时时间较短短的定时时器的工工作情况况。设置置一个全全局标志志数,系系统启动动时设为为0;当当短定时时器的定定时消息息到达时时,对此此标志数数增1;当长定定时器的的定时消消息到达达时,首首先检查查该标志志数,若若为0,则表示示此短定定时器已已丢失,可重新新设置;若标志志数不为为0,则则表示此此短定时时器仍在在工作,再对此此标志数数清零,以待下下次检查查。3)目的的用户状状态的超超时检测测在目的用用户短消消息索引引表中,保存了了该用户户的当前前处理状状态,包包括:空空闲、等等待发送送、正在在发送等等。正在在发送是是指正在在向该用用户投递递短消息息,且尚尚未收到到响

26、应。当用户户处于正正在发送送状态时时,不能能向该用用户投递递其他短短消息,只有在在收到投投递响应应后,用用户状态态才能改改变,才才能投递递其他短短消息。若投递递响应丢丢失,则则用户一一直处于于正在发发送状态态,无法法投递其其他短消消息。为此系统统采取以以下措施施。在目目的用户户短消息息索引表表中,记记录用户户状态改改变的时时间。当当有新消消息提交交时,首首先检查查目的用用户短消消息索引引表,若若发现用用户处于于正在发发送状态态,但是是发送时时间距当当前时间间已超过过合理范范围,则则可以认认为该用用户的投投递响应应丢失,系统可可以投递递此新消消息。1.2.7监控程程序在OMMM Seerveer

27、采用用软件看看门狗程程序监控控服务器器程序的的运行。软件看看门狗周周期性的的发握手手消息给给每个服服务器程程序,如如果服务务器程序序没有返返回应答答,软件件看门狗狗认为服服务器程程序发生生故障,把服务务器程序序进程杀杀死并重重新启动动该程序序。1.2.8数据可可靠性1)数据据访问当系统中中的不同同子系统统访问SSC的用用户数据据、短消消息数据据等信息息时,根根据特定定要求分分配给不不同的权权限,使使其无法法越权操操作、破破坏系统统数据。2)数据据存储SC中的的重要数数据,如如用户业业务信息息、短消消息信息息等,采采用成熟熟的、可可靠的商商用数据据库系统统进行存存储管理理,保存存在磁盘盘上,并并

28、可以备备份到磁磁带机、光盘等等设备上上,即使使因系统统故障导导致数据据丢失,也可以以恢复到到最近备备份前的的状态。3)数据据处理在数据处处理过程程中,利利用商用用数据库库的事务务处理机机制,将将相关处处理放在在同一个个事务中中,保证证相关数数据的处处理不破破坏整体体数据的的一致性性和完整整性。通通过对记记录加锁锁,保证证多个处处理进程程修改或或删除同同一条记记录时,保证记记录的一一致性。2 短短消息中中心的MMTBFF和MTTTR短消息中中心主要要由IWW/GMMSC、网络,SC业业务处理理组成。所有主主要部件件均采用用热备份份工作方方式。维护终端OMM SERVER操作七号信令处理中心交换模块DB计费七号信令处理业务模块 CLUSTER 主机2 CLUSTER 主机1业务处理多模块系统协议转换多模块系统信令处理多模块系统PLMNSS7其他短消息

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论