已阅读5页,还剩33页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PS 业务模型说明文档1 业务模型整体介绍此业务模型主要实现数据业务网络预警支撑以及问题定位。当业务受影响,此系统能够迅速展示相关联的异常,对问题进行预处理;当业务正常时,该系统也会实时对网络中的异常现象进行预警。数据业务模型涉及到的业务类型如下:GPRS业务、VIP业务、计费业务和彩信业务。GPRS业务包括网络接入性、业务接入性、业务裂变和业务保持。VIP业务包括VIP小区和集客APN。网络接入性包含三个专题:Attach、RAU和SRNS。业务接入性包含两个专题:SGSN PDP和GGSN PDP。业务裂变包含GSN/SW/FW 业务裂变。目前此模型一共包含10个专题:Attach、SGSN PDP、GGSN PDP、集客APN、计费业务、GSN/SW/FW 业务裂变、RAU、SRNS、业务保持和彩信业务等。根据专题的重要性与客户的专注度,前期先完成Attach、SGSN PDP、GGSN PDP、集客APN、计费业务这5个专题。范围1.1.1 业务范围此文档涉及的业务范围:以GPRS业务、企业APN业务与 计费业务,可预警、可分析并最终定位至网元问题 。1.1.2 数据类型范围涉及到的数据类型如下:数据类型数据来源厂商性能数据ERICSSON告警数据ERICSSON1.1.3 监控范围所监控对象如下:监控设备设备厂商SGSNERICSSONGGSNERICSSON1.1.4 数据采集点涉及的log采集概况:数据类型采集点系统来源采集方式数据间隔数据粒度性能/告警GGSN(14台)OSS自动采集15分钟APN性能/告警SGSN (13台)OSS/SGSN自动采集15分钟RAAP板SGSNInterface性能EMM (8 台)指令自动采集15分钟节点1.1.5 文档追踪版本日期作者内容PA12013-1-23Elena Qin文档创建2 Attach专题模型设计2.1 Attach 专题功能概述Attach功能是SGSN里引入的基本功能,通过检查SGSN上面的Attach相关指标来发现影响业务的原因以及可能存在的隐患。比如,如果2G attach成功率低,那么说明此时业务不正常,这时可以通过此专题设计的模型来发现业务不正常的原因。再比如,如果2/3G attach指标正常,但是有单个板卡出现不断重启的现象,虽然业务正常,但是网络存在隐患,那么此模型也能及时对此隐患进行预警。Attach功能的目的是为了发现下列业务问题。 对Attach业务存在的隐患进行预警 对Attach业务已发生的问题进行预处理2.2 Attach专题模型层次关联简介Attach专题分为业务正常和业务不正常两个分支。衡量业务是否正常的标准为Attach成功率的比值。业务正常包括业务裂变的监控。业务不正常包括2G Attach不正常、3G Attach不正常两个分支。2G Attach 不正常相关联的场景为Gb related、SGSN设备性能、HLR related和 Attach KPI组成分析。3G Attach不正常相关联的场景为Iu related、SGSN设备性能、HLR related和 Attach KPI组成分析。本模型能自上往下的展开,当高层次业务出现问题时,能迅速了解到个别出现在低层次的问题及其影响范围。2.3 Attach专题模型与业务的关联当Attach业务出现问题的时候,根据其影响范围,会在2G Attach或3G Attach分别显示出来。根据其相关联性,会在SGSN设备性能、HLR related、Attach KPI 组成分析以及Gb related 或Iu related这几个模块分别显现出来。例如,当Attach层有多个SGSN出现Attach业务不正常时,该模型会根据其中的层次关联关系,迅速了解到业务受影响的范围,并对问题进行预处理,将相关联的不正常信息显示出来。又例如,当一个特定SGSN的CPU异常时,该模型会出现相应的告警进行预警。当Attach业务正常时,该模型会监控相应的业务指标,当某个业务指标异常时,该模型会实时产生预警。例如,当2G尝试激活次数突增时,该模型会出现相应的预警。2.4 模型场景:Attach专题的层次关联模型图2.5 Attach专题模型KPI说明请查看2.6 场景分析下列场景中所有counter的取值方法为:通过在SGSN上面定制PM job,然后由OSS自动过来取PM log文件进行分析。下列场景中相关的alarm的提取方法:直接到OSS上面去取。需要监控的KPI均用蓝色字体标注,需要监控的Alarm均用红色字体标注。衡量业务是否正常的2/3G Attach指标为:非用户原因的2G attach成功率 = succGprsAttach / (succGprsAttach+gprsMmSgsnUnsuccessfulAttachRequests - MM.UnsuccAttachCC7.G - MM.UnsuccAttachCC8.G -MM.UnsuccAttachCC14.G)* 100%非用户原因的3G attach成功率 = succGprsAttachUmts / (succGprsAttachUmts+unsuccGprsAttachUmts - MM.UnsuccAttachCC7.U - MM.UnsuccAttachCC8.U -MM.UnsuccAttachCC14.U)* 100%2G attach成功率 = succGprsAttach / (succGprsAttach+gprsMmSgsnUnsuccessfulAttachRequests)* 100%3G attach成功率 = succGprsAttachUmts / (succGprsAttachUmts+unsuccGprsAttachUmts)* 100%触发预警门限:当 非用户原因的2G attach成功率 和非用户原因的3G attach成功率 任意一个低于95%时,即说明业务不正常;当业务正常时,如果 2G attach成功率 和3G attach成功率 任意一个低于70%,即触发预警监控粒度:以SGSN为监控粒度2.6.1 SGSN设备性能异常引起Attach不正常当Attach业务不正常时,有可能是SGSN自身设备性能异常导致。对设备性能相关的各项指标设置阈值,通过监控各项指标的状态,一方面可以在业务发生故障时进行故障定位,另一方面可以在业务正常时进行业务预警。 设备性能的获取方法设备性能主要包含以下信息:板卡CPU过高、板卡Memory过高、板卡重启故障、节点重启、NCB failover和Attach容量不足。各种信息的获取方法如下:板卡CPU过高 板卡CPU的counter为SYS.gsnCpuUsage触发预警门限:75%监控粒度:以板卡为监控粒度,每个SGSN有 61块板卡板卡Memory过高板卡Memory的counter为SYS.gsnMemUsage触发预警门限:75%监控粒度:以板卡为监控粒度,每个SGSN有 61块板卡板卡重启故障从OSS上面查看是否有重启告警,与板卡重启相关的告警有:nocHardwareLossnocSmallRestartdpePIUConnectionLost (not)nocEscalatedConnectionRestartnocBoardAutoBlock触发预警门限:出现即预警节点重启从OSS上面查看是否有重启告警,与节点重启相关的告警有:nocAutomaticReloadnocNodeOutOfServicedpeNodeInMaintenanceMode触发预警门限:发生即预警NCB failover从OSS上面查看是否有重启告警,与板卡重启相关的告警有:dpePassiveNCBFailure触发预警门限:发生即预警Attach容量不足从OSS上面查看是否有容量不足的告警,告警为admAttachCapacityReached .触发预警门限:发生即预警配置变化方法:从SGSN上面提取配置文件,与上次的文件进行比较。显示变化的配置。触发预警门限:有变化即触发 扫描周期15分钟到网元上面去提取一次信息。 呈现时间00:00 - 24:002.6.2 HLR相关信息异常引起Attach不正常当Attach业务不正常时,有可能是与HLR相关的信息异常导致。通过检查相关的各项指标的状态,一方面可以在业务发生故障时进行故障定位,另一方面可以在业务正常时进行业务预警。 HLR相关指标的信息HLR相关的异常主要包含以下部分:Gr链路闪断、Gr带宽不足和SGSN七号模块问题。各种信息的获取方法如下:Gr链路闪断从OSS上面查看是否有重启告警,告警内容为ss7SccpRemoteSPCUnavailsctpIPPathFailure触发预警门限:发生即预警Gr带宽不足通过提取相应的counter值进行计算判断Gr带宽是否够用,由于Gr链路有两种类型:窄带链路和IP链路。针对两种类型的计算方法分别如下:窄带链路:各个trunk的带宽= Trunk 发送速率 + Trunk接收速率 =(该trunk各个时隙的 (间隔时间 ss7OctetsSentPerLinkNb 差 * 8/ 间隔时间 ) 之和)+ ( 该trunk各个时隙的 ( 间隔时间 ss7OctetsReceivedPerLinkNb 差 * 8/ 间隔时间 ) 之和 ) 触发预警门限:trunk超400 kbps即预警监控粒度:以trunk为粒度。每个SGSN有1.3,1.5两个interface,每个interface监控A,C两个trunk,每个trunk分8个时隙,以8个时隙的带宽和作为此trunk的指标IP链路:Gr接口带宽 = ( 间隔时间 ifOutOctets 差 / (间隔时间 *128 ) ) + ( 间隔时间 ifInOctets 差 / (间隔时间 *128 ) )触发预警门限:Interface超过1.6Mkps即预警监控粒度:以Interface粒度,一个SGSN有两个Interface,分别为2.11,2.12. FOS现只有FOSSGSN501实现Gr over IP。SGSN七号模块问题如果链路状态正常没有产生链路相关告警,但是counter值不断增加,则可判断是SGSN本身七号模块问题。相应的counter为gsnOverloadProtectionSs7MessageReject,相应的SS7告警为:gssNoOperationalSS7DevicegssSS7DeviceNotOperational触发预警门限:counter值超100或告警一发生即预警监控粒度:以SGSN节点为粒度 扫描周期15分钟 呈现时间00:00 - 24:002.6.3 Gb相关信息异常引起Attach不正常如果3G Attach正常,但是2G Attach业务不正常时,很可能是Gb相关信息异常引起2G Attach不正常。通过检查相关的各项指标的状态,一方面可以在业务发生故障时进行故障定位,另一方面可以在业务正常时进行业务预警。 Gb相关指标的获取方法Gb相关的异常主要包含以下部分:Gb链路问题、Gb带宽不足和特定区域attach低。各种信息的获取方法如下:Gb链路问题从OSS上面查看Gb相关的告警,告警内容为:bfdNeighborDownethLinkDownbssgpNsCongestionethAutoNegFailed触发预警门限:发生即预警监控粒度:以Interface粒度,一个SGSN有两个Interface,分别为3.11,3.12. Gb带宽不足从OSS上面提取相应的counter值进行计算判断Gb带宽是否够用,具体计算公式如下:Gb接口带宽 = ( 间隔时间 ifOutOctets 差 / (间隔时间 *128 ) ) + ( 间隔时间 ifInOctets 差 / (间隔时间 *128 ) )触发预警门限:Interface超过1.6Mkps即预警监控粒度:以Interface粒度,一个SGSN有两个Interface,分别为3.11,3.12. 特定区域attach低登录网元用指令收集各个RA的counter值并进行成功率计算。如果只有单个RA的Attach成功率低,那么重点排查单个RA的网络状态。具体指令如下:RA_Attch_ratio_G = (MM.SuccGprsAttach.G.* / MM.AttGprsAttach.G.* ) * 100%触发预警门限:当单个RA成功率低于50%即预警,显示最低的5个RA监控粒度:以POOL内的RA为粒度。现FOS有两个SGSN in POOL,将POOL内的SGSN相同的RA统计起来算 扫描周期15分钟到网元上面去提取一次信息。 呈现时间00:00 - 24:002.6.4 Iu相关信息异常引起Attach不正常如果2G Attach正常,但是3G Attach业务不正常时,很可能是Iu相关信息异常引起3G Attach不正常。通过检查相关的各项指标的状态,一方面可以在业务发生故障时进行故障定位,另一方面可以在业务正常时进行业务预警。 Iu相关指标的获取方法Iu相关的异常主要包含以下部分:Iu链路问题和特定区域attach低。各种信息的获取方法如下:Iu链路问题从OSS上面查看Iu相关的告警,告警内容为:ethLinkDownranRncUnreachable触发预警门限:发生即预警监控粒度:以Interface粒度,一个SGSN有两个Interface,分别为3.11,3.12. Iu带宽不足通过提取相应的counter值进行计算判断Gr带宽是否够用:Iu接口带宽= ( 间隔时间 ifOutOctets 差 / (间隔时间 *128 ) ) +( 间隔时间 ifInOctets 差 / (间隔时间 *128 ) )触发预警门限:Interface超过1.6Mkps即预警监控粒度:以Interface粒度,一个SGSN有两个Interface,分别为2.11,2.12特定区域attach低登录网元用指令收集各个RA的counter值并进行成功率计算。如果只有单个RA的Attach成功率低,那么重点排查单个RA的网络状态。具体指令如下:RA_Attch_ratio_U = (MM.SuccGprsAttach.U.* / MM.AttGprsAttach.U.*) * 100%触发预警门限:当单个RA成功率低于50%即预警监控粒度:以POOL内的RA为粒度。现FOS有两个SGSN in POOL,将POOL内的SGSN相同的RA统计起来算 扫描周期15分钟到网元上面去提取一次信息。 呈现时间00:00 - 24:002.6.5 Attach KPI组成分析场景Attach业务主要通过从网元上提取相应counter计算Attach成功率来体现。当Attach成功率降低时,可以通过分析组成Attach成功率的各项counter是否有突变,从而进行问题的预处理。 Attach KPI相关指标以及获取方法Attach KPI相关counter主要包含以下部分: Attach_fail6_Ratio_ G = MM.UnsuccAttachCC6.G / gprsMmSgsnUnsuccessfulAttachRequestsAttach_fail11_Ratio_ G = MM.UnsuccAttachCC11.G / gprsMmSgsnUnsuccessfulAttachRequestsAttach_fail13_Ratio_ G = MM.UnsuccAttachCC13.G / gprsMmSgsnUnsuccessfulAttachRequestsAttach_fail15_Ratio_ G = MM.UnsuccAttachCC15.G / gprsMmSgsnUnsuccessfulAttachRequestsAttach_fail17_Ratio_ G = MM.UnsuccAttachCC17.G / gprsMmSgsnUnsuccessfulAttachRequestsAttach_fail22_Ratio_ G = MM.UnsuccAttachCC22.G / gprsMmSgsnUnsuccessfulAttachRequestsAttach_fail6_Ratio_ U = MM.UnsuccAttachCC6.U / unsuccGprsAttachUmtsAttach_fail11_Ratio_ U = MM.UnsuccAttachCC11.U / unsuccGprsAttachUmtsAttach_fail13_Ratio_ U = MM.UnsuccAttachCC13.U / unsuccGprsAttachUmtsAttach_fail15_Ratio_ U = MM.UnsuccAttachCC15.U / unsuccGprsAttachUmtsAttach_fail17_Ratio_ U = MM.UnsuccAttachCC17.U / unsuccGprsAttachUmtsAttach_fail22_Ratio_ U = MM.UnsuccAttachCC22.U / unsuccGprsAttachUmts触发预警门限:当2G/3G attach成功率低于95%时,显示上面比率高于50%的比率值监控粒度:以SGSN为监控粒度 扫描周期15分钟到网元上面去提取一次信息。 呈现时间00:00 - 24:002.6.6 业务裂变当业务正常时,通过对关键KPI的分析可以实时监控业务的变化,在业务受影响前提前发预警。 业务裂变相关指标以及获取方法业务裂变相关指标包含:2/3G尝试激活次数、接口流量和漫游用户尝试次数。指标相关的counter和计算方法如下,相应的Counter都可以通过OSS来获取:2G尝试附着次数= attGprsAttach - attGprsAttachUmts3G尝试附着次数= attGprsAttachUmts2G漫游用户的attach成功率= attGprsAttachVisitor / succGprsAttachVisitor *100 %Gn接口带宽 = ( 间隔时间 ifOutOctets 差 / (间隔时间 *128 ) ) +( 间隔时间 ifInOctets 差 / (间隔时间 *128 ) )触发预警门限:成功率低于50%即预警。其它监控数据与历史中值做比较,与CS一致;监控粒度:上述的次数相关Counter以SGSN为粒度。流量以interface为粒度,每个SGSN有两个Gn interface,分别为2.14,2.15 扫描周期15分钟。至少保存一周 呈现时间00:00 - 24:003 GGSN-PDP专题模型设计3.1 GGSN-PDP专题模型功能概述GGSN-PDP功能是GGSN里引入的基本功能,通过检查GGSN上面的指标来发现影响业务的原因以及可能存在的隐患。比如,如果GGSN PDP激活成功率低,那么说明此时GGSN上的业务不正常,这时可以通过此专题设计的模型来发现业务不正常的原因。再比如,如果GGSN PDP激活成功率指标正常,但是有单个板卡出现不断重启的现象,虽然业务正常,但是网络存在隐患,那么此模型也能及时对此隐患进行预警。GGSN-PDP功能的目的是为了发现下列业务问题。 对PDP业务存在的隐患进行预警 对PDP业务已发生的的问题进行预处理3.2 GGSN-PDP专题模型层次关联简介GGSN-PDP专题分为业务正常和业务不正常两个分支。衡量业务是否正常的标准为GGSN上APN的PDP激活成功率的比值。业务正常包括业务裂变的监控。业务不正常包括CMWAP PDP不正常和CMNET PDP。CMWAP PDP不正常相关联的场景为WAP网关、网络设备和GGSN设备。CMNET PDP不正常相关联的场景为网络设备和GGSN设备。本模型能自上往下的展开,当高层次业务出现问题时,能迅速了解到个别出现在低层次的问题及其影响范围。3.3 专题模型与业务的关联当GGSN-PDP业务出现问题的时候,根据其影响范围,会在CMWAP PDP或CMNET PDP分别显示出来。根据其相关联性,会在WAP网关、网络设备和GGSN设备这几个模块分别显现出来。例如,当GGSN-PDP业务层有多个GGSN出现PDP业务不正常时,该模型会根据其中的层次关联关系,迅速了解到业务受影响的范围,并对问题进行预处理,将相关联的不正常信息显示出来。又例如,当一个特定GGSN的板卡CPU异常时,该模型会出现相应的告警进行预警。当GGSN-PDP业务正常时,该模型会监控相应的业务指标,当某个业务指标异常时,该模型会实时产生预警。例如,当APN接口流量突变时,该模型会出现相应的预警。3.4 模型场景:GGSN-PDP专题的层次关联模型图3.5 专题模型KPI说明请查看3.6 场景分析下列场景中所有counter和alarm均是到OSS上获取所得。需要监控的KPI均用蓝色字体标注,需要监控的Alarm均用红色字体标注。衡量业务是否正常的指标为:用户激活成功率 = (ggsnApnCompletedMSActivation/ggsnAPNAttemptedMSActivation)*100%触发预警门限:低于98%即触发监控粒度:以GGSN的APN为监控粒度,每个GGSN有CMNET,CMWAP两个APN3.6.1 WAP网关异常当CMWAP PDP业务不正常时,有可能是WAP网关相关信息异常导致。通过检查GGSN与WAP网关相关的各项指标的状态,一方面可以在业务发生故障时进行故障定位,另一方面可以在业务正常时进行业务预警。 场景分析与信息获取WAP网关相关异常主要包含:Radius相关问题、Gi防火墙异常。各种信息的获取方法如下:Radius相关问题 从OSS上面获取GGSN接收到Radius相关的Alarm。Alarm为RADIUS_SERVERDOWN。触发预警门限:告警一出现即触发,counter低于request的20%即触发监控粒度:以GGSN的APN为监控粒度,每个GGSN有CMNET,CMWAP两个APNGi防火墙异常根据目前无法获得Gi防火墙相关数据的情况,对于防火墙接口流量的提取,可以通过对GGSN的Gi接口进行统计得到:Gi接口流速Mbps =(ggsnApnDownlinkBytes+ggsnApnUplinkBytes+ggsnApnGiSignalingInBytes+ggsnApnGiSignalingOutBytes)*8/ (measurement interval *1024 *1024)触发预警门限:跟历史中值比较,设计与CS一致监控粒度:以GGSN的APN为监控粒度,每个GGSN有CMNET,CMWAP两个APN 扫描周期15分钟到网元上面去提取一次信息。 呈现时间00:00 - 24:003.6.2 GGSN设备异常当CMWAP PDP业务不正常时,有可能是GGSN设备异常。通过检查GGSN上的各项指标的状态,一方面可以在业务发生故障时进行故障定位,另一方面可以在业务正常时进行业务预警。 场景分析与信息获取GGSN设备异常主要包含:PIC板卡CPU异常、PIC板卡内存异常、PIC板卡重启故障、RE failover、APN地址池不够、配置发生变化。各种异常相关信息的获取方法如下:PIC板卡CPU异常从OSS上面提取GGSN上各个PIC板卡的CPU值,counter为ggsnGtpuCpuUsage ,一般为7个ggsnGtpcCpuUsage ,一般为3-4个触发预警门限:80%,取最大值显示监控粒度:以GGSN的PIC为监控粒度,每个GGSN有12块板卡PIC板卡内存异常从OSS上面提取GGSN上各个PIC板卡的Memory值,counter为ggsnGtpuMemoryUsed ,一般为7个ggsnGtpcMemoryUsed,一般为4-5个触发预警门限:80%,取最大值显示监控粒度:以GGSN的PIC为监控粒度,每个GGSN有12块板卡PIC板卡重启故障从OSS上面提取GGSN上的Alarm,Alarm为 :The Node Controller has failedAn irrecoverable multiple failure condition has been detectedActive Session Controller has failedGTP-U did not reach active state.触发预警门限:发生即预警监控粒度:以GGSN节点为监控粒度RE failover从OSS上面提取GGSN上的Alarm,Alarm为 :#待定#触发预警门限:发生即预警监控粒度:以GGSN节点为监控粒度APN地址池不够从OSS上面获取相关的Alarm, Alarm分别为 :Alarm: The utilization of shared IP pool has reached 80%.Alarm: The utilization of shared IP pool has reached 100%.触发预警门限:告警一出现即触发监控粒度:以GGSN上的APN为监控粒度配置发生变化将本次取的配置与上次的配置进行比较,当有变化时,展示相关的配置。采用diff方式对比配置,如果有改变数大于等于1,即输出预警提示。GGSN的最新配置文件是:/config/juniper.conf触发预警门限:发生即预警监控粒度:以GGSN节点为监控粒度 扫描周期15分钟到网元上面去提取一次信息。 呈现时间00:00 - 24:003.6.3 业务裂变当业务正常时,通过对关键KPI的分析可以实时监控业务的变化,在业务受影响前提前发预警。 业务裂变相关指标以及获取方法业务裂变相关指标包含:网络去激活次数、各个APN流量和各个APN尝试次数。指标相关的counter和计算方法如下,相应的Counter都可以通过OSS来获取:Gn接口流速Mbps(ggsnUplinkBytes+ggsnDownlinkBytes+ggsnGtpUplinkBytes+ggsnGtpDownlinkBytes)*8/ (measurement interval *1024*1024 )注:由于接口流量的值属于累积值,所以对该15分钟内的流量统计需要用该时刻取到的值减去上一个15分钟所取到的值APN在线PDP会话数 ggsnApnActivePdpContextCount注:该counter为累积值,所以对该15分钟的尝试次数的统计需要用该时刻取到的值减去上一个15分钟所取到的值APN激活尝试次数 ggsnApnAttemptedActivation注:该counter为累积值,所以对该15分钟的尝试次数的统计需要用该时刻取到的值减去上一个15分钟所取到的值网络侧去激活次数ggsnApnAttemptedSelfDeactivation注:该counter为累积值,所以对该15分钟的尝试次数的统计需要用该时刻取到的值减去上一个15分钟所取到的值触发预警门限:与历史中值比较,设计思路与CS一致。监控粒度:以GGSN上的APN为监控粒度,GGSN有cmwap和cmnet两个APN 扫描周期15分钟。至少保存一周 呈现时间00:00 - 24:003.6.4 关联场景当业务不正常时,通过引入各个节点之间的关联关系,可以迅速定位问题。 同个WAP网关下的GGSN CMWAP业务都不正常当网络中出现同个WAP网关下的GGSN CMWAP业务都不正常时,这时可以定位为WAP网关问题。触发预警门限:当WAP网关下大于2个GGSN的CMWAP业务不正常即触发。 同个LAN的GGSN CMWAP业务都不正常当网络中出现同个WAP网关下的GGSN CMWAP业务都不正常时,这时可以定位为WAP网关问题。触发预警门限:当LAN内大于2个GGSN的CMWAP业务不正常即触发。 扫描周期15分钟。至少保存一周 呈现时间00:00 - 24:004 企业APN专题模型设计4.1 企业APN专题模型功能概述企业APN功能是针对集团客户所引入的基本功能,通过检查相应GGSN上面的指标来发现影响业务的原因以及可能存在的隐患。比如,如果GGSN某个企业APN的 PDP激活成功率低,那么说明此时GGSN上的业务不正常,这时可以通过此专题设计的模型来发现业务不正常的原因。再比如,如果GGSN 企业APN的 PDP激活成功率指标都正常,但是有单个接口流量突变的现象,虽然业务正常,但是网络存在隐患,那么此模型也能及时对此隐患进行预警。企业APN功能的目的是为了发现下列业务问题。 对集团客户存在的隐患进行预警 对集团客户已发生的的问题进行预处理4.2 企业APN专题模型层次关联简介企业APN专题分为无法上网和企业APN业务保持两个分支。衡量无法上网的标准为GGSN企业APN 的PDP成功率。企业APN业务保持包括业务监控。本模型具有汇总功能,即能根据低层次出现问题的共性归纳反映到高层次的问题。同时也能自上往下的展开,了解到个别出现在低层次的问题及其影响范围。4.3 专题模型与业务的关联当企业APN业务出现问题的时候,根据其影响范围,会在GGSN上的企业APN PDP成功率显示出来。例如,当企业APN有多个企业APN业务不正常时,该模型会根据其中的层次关联关系,迅速了解到业务受影响的范围,并对问题进行预处理,将相关联的不正常信息显示出来。又例如,当GGSN的板卡CPU异常时,该模型会出现相应的告警进行预警。当企业APN业务正常时,该模型会监控相应的业务指标,当某个业务指标异常时,该模型会实时产生预警。例如,当APN接口流量突变时,该模型会出现相应的预警。4.4 模型场景:企业APN专题的层次关联模型图4.5 专题模型KPI说明请查看4.6 场景分析下列场景中所有counter和alarm均是到OSS上获取所得。需要监控的KPI均用蓝色字体标注,需要监控的Alarm均用红色字体标注。衡量业务是否正常的指标为:用户激活成功率 = (ggsnApnCompletedMSActivation/ggsnApnAttemptedMSActivation)*100%触发预警门限:低于98%即触发监控粒度:以GGSN的企业APN为监控粒度,现阶段先做TOP20个APN4.6.1 GGSN企业APN PDP成功率低当CMWAP PDP业务不正常时,有可能是GGSN设备异常。通过检查GGSN上的各项指标的状态,一方面可以在业务发生故障时进行故障定位,另一方面可以在业务正常时进行业务预警。 场景分析与信息获取GGSN设备异常主要包含:PIC板卡CPU异常、PIC板卡内存异常、PIC板卡重启故障、RE failover、APN地址池不够、配置发生变化。各种异常相关信息的获取方法如下:PIC板卡CPU异常从OSS上面提取GGSN上各个PIC板卡的CPU值,counter为ggsnGtpuCpuUsage ,一般为7个ggsnGtpcCpuUsage ,一般为3-4个触发预警门限:80%,取最大值显示监控粒度:以GGSN的PIC为监控粒度,每个GGSN有12块板卡PIC板卡内存异常从OSS上面提取GGSN上各个PIC板卡的Memory值,counter为ggsnGtpuMemoryUsed ,一般为7个ggsnGtpcMemoryUsed,一般为4-5个触发预警门限:80%,取最大值显示监控粒度:以GGSN的PIC为监控粒度,每个GGSN有12块板卡PIC板卡重启故障从OSS上面提取GGSN上的Alarm,Alarm为:The Node Controller has failedAn irrecoverable multiple failure condition has been detectedActive Session Controller has failedGTP-U did not reach active state.触发预警门限:发生即预警监控粒度:以GGSN的PIC为监控粒度,每个GGSN有12块板卡RE failover从OSS上面提取GGSN上的Alarm,Alarm为: #待定#触发预警门限:发生即预警监控粒度:以GGSN为监控粒度APN地址池不够从OSS上面获取相关的Alarm, Alarm为#需在OSS上再确认告警内容# :Alarm: The utilization of shared IP pool has reached 80%.Alarm: The utilization of shared IP pool has reached 100%.触发预警门限:告警一出现即触发监控粒度:以GGSN的PIC为监控粒度,每个GGSN有12块板卡监控粒度:以GGSN的APN为监控粒度配置发生变化将本次取的配置与上次的配置进行比较,当有变化时,展示相关的配置。采用diff方式对比配置,如果有改变数大于等于1,即输出预警提示。GGSN的最新配置文件是:/config/juniper.conf触发预警门限:发生即预警监控粒度:以GGSN为监控粒度 扫描周期15分钟到网元上面去提取一次信息。 呈现时间00:00 - 24:004.6.2 业务监控当业务正常时,通过对关键KPI的分析可以实时监控业务的变化,在业务受影响前提前发预警。 业务裂变相关指标以及获取方法业务裂变相关指标包含:网络去激活次数、各个APN流量和各个APN尝试次数。指标相关的counter和计算方法如下,相应的Counter都可以通过OSS来获取:Gn接口流速Mbps(ggsnUplinkBytes+ggsnDownlinkBytes+ggsnGtpUplinkBytes+ggsnGtpDownlinkBytes)*8/ (measurement interval *1024*1024 )注:由于接口流量的值属于累积值,所以对该15分钟内的流量统计需要用该时刻取到的值减去上一个15分钟所取到的值Gi接口流速Mbps(ggsnApnDownlinkBytes+ggsnApnUplinkBytes+ggsnApnGiSignalingInBytes+ggsnApnGiSignalingOutBytes)*8/ (measurement interval *1024 *1024)注:由于接口流量的值属于累积值,所以对该15分钟内的流量统计需要用该时刻取到的值减去上一个15分钟所取到的值APN当前PDP会话数 ggsnApnActivePdpContextCountAPN尝试次数 ggsnApnAttemptedActivation注:该counter为累积值,所以对该15分钟的尝试次数的统计需要用该时刻取到的值减去上一个15分钟所取到的值网络侧去激活次数ggsnApnAttemptedSelfDeactivation注:该counter为累积值,所以对该15分钟的尝试次数的统计需要用该时刻取到的值减去上一个15分钟所取到的值触发预警门限:与历史中值对比,设计思路与CS一致监控粒度:以GGSN的企业APN为监控粒度 扫描周期15分钟。至少保存一周 呈现时间00:00 - 24:004.6.3 关联场景#逻辑关系代确定#当业务不正常时,通过引入各个节点之间的关联关系,可以迅速定位问题。 多个企业APN的业务都不正常当网络中出现多个企业APN的业务都不正常时,这时可以定位为GGSN的问题。触发预警门限:当有大于2个企业APN业务不正常即触发。 扫描周期15分钟。至少保存一周 呈现时间00:00 - 24:005 计费业务专题模型设计5.1 计费业务专题模型功能概述计费业务功能是针对CG所引入的基本功能,通过检查相应CG上面的指标来发现影响计费业务的原因以及可能存在的隐患。如果 GSN链路状态不正常、BOSS链路状态不正常 、系统进程状态不正常或者挂接文件系统数目不是4那么就可以判断计费业务不正常。计费业务功能的目的是为了发现下列业务问题。 对计费业务存在的隐患进行预警 对计费业务已发生的的问题进行预处理5.2 计费业务专题模型层次关联简介计费业务专题分为计费业务接入性、计费业务处理性和计费业务稳定性三个分支。层次关联关系如下所示:5.3 专题模型与业务的关联当计费业务出现问题的时候,根据其影响范围,会在计费业务接入性、计费业务处理性和计费业务稳定性显示出来。例如,当有多个CG的计费业务处理不正常时,该模型会根据其中的层次关联关系,迅速了解到业务受影响的范围,并对问题进行预处理,将相关联的不正常信息显示出来。又例如,当单个CG的硬件设备异常时,该模型会出现相应的告警进行预警。当计费业务正常时,该模型会监控CG上面的相应指标,当某个指标异常时,该模型会实时产生预警。例如,当话单量突变时,该模型会出现相应的预警。5.4 专题模型KPI说明请查看5.5 场景分析5.5.1 计费业务接入性由于CG和BOSS对话单的采集都依赖于FTP服务,所以需要确保链路以及FTP服务的可用性。考虑到PING和FTP命令的结果较难获得,在下列场景中,由从网元获得的最新文件的时间间接地判断网元的连接性。场景一:GSN链路状态此场景是查看CG到GSN节点的联通性是否正常。监控指标:tGSN取值方法:#ls lt /var/opt/STS/working/|grep |grep v LABEL|awk print $8 Example:-rw-r-r- 1 bgw med 1048568 Dec 26 14:51 GGSNHI01.J20R4:GGSNHI01_20121226145010_5699:20121226:145134:069-rw-r-r- 1 bgw med
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 储能站环境保护方案
- 高压无气喷涂机质量评估报告
- 截流方案范本
- 防水局部施工方案范本
- 2026学年江苏省仪征市三年级语文期末高分预测高频题(详细参考解析)详细答案和解析
- 2026年运营专员招聘模拟试题
- 2026年反不正当竞争法高频考点题
- 2026年保险法考试重点及案例分析
- 2026年电商运营初级岗位笔试题集
- 智能校园管理行业跨境出海战略分析报告
- 摩根士丹利-中国消费:当前消费趋势走向何方?-China Consumer:Where is consumption trending now-20260601
- GB 26396-2026洗涤用品安全技术规范
- 2026年北京市石景山区初三二模英语试卷(含答案及解析)
- 广告牌安装外包合同
- GB/T 47328.3-2026乳及乳制品感官分析第3部分:产品感官特性符合性评价评分法
- 2026汽车后市场行业格局与消费趋势研究报告
- 2026年山东省济南市历下区中考化学二模试卷(含答案)
- 静脉输液并发症的观察要点与护理
- 2025年江苏省泰州市初二地生会考真题试卷+解析及答案
- 2026年国家开放大学电大《城市管理学》机考终结性套真题道自我提分评估及参考答案详解【综合卷】
- GB/T 2828.1-2012计数抽样检验程序第1部分:按接收质量限(AQL)检索的逐批检验抽样计划
评论
0/150
提交评论