安徽移动话音网告警关联总体情况介绍_第1页
安徽移动话音网告警关联总体情况介绍_第2页
安徽移动话音网告警关联总体情况介绍_第3页
安徽移动话音网告警关联总体情况介绍_第4页
安徽移动话音网告警关联总体情况介绍_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

O.,009 告警关联原理 &方法 亿阳网管部署 &调测 功能验证 &应用优化 O.,009 告警关联原理(一)整体概念 同 专 业跨 专 业主 次 关 联衍 生 关 联阈 值 关 联同 源 关 联比 例 触 发数 量 触 发频 次 触 发仅 用 告 警 正 文 或 告警 报 文 的 其 它 字 段专 业 网 管 内 的 资 源模 块外 部 资 源 系 统关 联 规 则 种 类关 联 范 围资 源 关 联 方 式 话音网告警关联采用基于规则的关联技术,根据告警之间的逻辑关系,将关联规则划分为主次关联和衍生关联两大类。 告警关联关系的建立需要借助资源之间的关联关系,根据资源采集方式的不同,将资源关联划分为三种方式,每条告警关联规则采用其中一种资源关联方式。 告警关联的目的与意义 告警关联是告警标准化工作以 “ 告警监控、告警(故障)派单、故障处理 ” 为主线,挖掘有效提升告警监控、派单效率的方法中重要环节,通过网管告警关联分析实现故障快速诊断和定位、派单量压降、及时挖掘设备隐患三大作用。 O.,009 告警关联原理(二)关联规则逻辑划分 频次 时间 逻辑 一定时间内反复发生 时间网元告警标题 同一时间,同一网元(最小粒度 同一告警标题,不同定位信息,关联合并为 1张工单 资源 交换机 换机交换机对应端口 目的点路由链路组链路 地域 关联方式 定义 举例 主次 主次关联 一批告警同时发生,选一个作为主告警,其他作为次告警挂在下面。 数个 衍生 阈值触发 在一定地域或设备范围内,同类告警多次发生,数量或者比例超过门限,衍生为一条新告警。 数量:在一定的地域或设备条件下,同类告警数量超门限 一个交换机的信令链路中断个数超过 20条,持续时间超过 10分钟,则得到 “ 网元信令链路中断数达到 20条 ”的告警。 比例:在一定的地域或设备条件下,同类告警比例超门限 一个地市的退服小区比例超过 30,则得到 “ 地市高比例小区退服超限 ” 告警。 频次:同一网元同一条告警反复出现,数量超门限 7号信令链 5分钟内出现 100次,可合并衍生出一条新告警,说明 7号信令链告警发生的频次。 同源关联 一批告警的因果关系不明显,依据它们共同的资源拓扑关系将这一批告警合并,衍生出一个新告警,在某种程度上昭示某些潜在的因果关系。 一个网元信令点不可达,其他各网元到该信令点的 目的信令点不可达 告警可以合并衍生为一个同源告警 O.,009 在告警关联规则梳理表中的告警,除衍生告警之外,所有告警都是告警多维梳理 表的子集 。 告警关联方法(一)建立标准化的告警关联规则梳理表 主次关联 衍生关联 告警信息 资源维度与关联方式 衍生告警定义 O.,009 告警关联方法(二)通过网管系统实现关联告警生命周期 关联关系建立 关联关系呈现 关联关系清除 用 “ 网管告警 “ 网管告警标题 ” 判断该告警是否参与关联运算,如果是,则放入缓存,当缓存中的多条告警在 “ 关联等待时间窗 ” 内满足“ 触发关联的条件 ”时,则建立关联关系,即关联告警。 1、关联告警以树图形式在告警监控流水窗口呈现 2、若关联关系解除之后,剩下的未清除的告警将按照普通告警在流水窗口呈现。 3、单个或部分子告警清除衍生告警未清除 关联呈现保持,只取消呈现已清除的次告警。 4、一条告警同时满足多条关联分析规则,则同时实现这些关联规则的呈现 主次关联 : 主告警清除,或者所有的次告警清除,则主次关联关系解除; 衍生关联: 1、一条原始告警清除则衍生告警清除; 2、全部原始告警清除则衍生告警清除; 3、低于告警门限则衍生告警清除; 4、告警定时清除 ; 主 告 警次 告 警 警 警 O.,009 关联规则 呈现 清除规则 主次关联 数量关联 比例关联 同源关联 频次关联 主告警清除或者所有的次告警清除则主次关联关系解 全部原始告警清除则衍生告警清除 低于告警门限则衍生告警清除 全部原始告警清除则衍生告警清除 告警定时清除 告警关联方法(三)告警关联清除规则 O.,009 关联等待时间窗,告警产生后,当缓存中的多条告警在 “ 关联等待时间窗 ” 内满足 “ 触发关联的条件 ” 时,则建立关联关系。 例如,主次关联,主告警产生后,等待次告警产生的时间长度。如果超出时间窗发生的次告警也不再与主告警进行关联。 衍生告警触发门限值。在主次关联里没有 例如,衍生关联,某网元的信令链路 20分钟内中断超过 10条,产生一条衍生告警,这里的 10条,就是 X、 们设置的是否合理,直接决定告警关联规则是否能够正确、合理呈现 关联参数的意义 关联参数的定义 告警关联方法(四)设置告警关联规则参数 O.,009 告警关联规则生效 子告警原自动派单规则失效;告警关联规则失效 子告警原自动派单规则生效。 自 动 派 单 服 务 子告警 B 子告警 C 父告警 A 自动派单依赖关联关系 关联关系解除, 子告警自动派单规则生效 子告警被抑止派单 只有父告警被自动派单 针对关联后的父(主告警或衍生告警)告警派单,如果相关的次告警或子告警在缓存时间内,还没有派单,则需要抑制其派单。即关联告警的父告警和子告警如果都配置了自动派单规则,只要满足某条告警关联规则后,该子告警的原有自动派单规则失效,除非告警关联规则失效。 告警关联方法(五)关联派单 O.,009 原理 &方法 网管部署 验证 &优化 O.,009 告警关联实施步骤 规则梳理 对告警关联梳理表按牵头省进行梳理 告警关联规则梳理表评审 功能开发 设计告警关联各规则业务流程 网管厂家根据已评审过的关联规则,进行开发并测试 2009年 5月 2009年 7月 2009年 7月底 2009年 8月 功能部署 现网部署告警关联主程序,配置告警关联规则 解决现网运行过程中产生的各类问题,确保功能稳定。 调测优化 对已部署规则生成的关联告警,进行合理性的验证与优化 对无法产生关联告警的规则,进行分析,解决 从 析优化关联告警生成、呈现、入库、派单 O.,009 关联规则程序部署前的准备 网络运维 关联规则验证 测试平台搭建 梳理告警关联关系,明确关联条件,结合实际 情况核查告警关联的准确性、完备性、可行性。 软件环境: 境 硬件平台:应用服务器 4 G/ O.,009 报表 关联规则入库及阈值同步 自动派单服务 告警关联关系入库 数据库建表脚本及汇总 告警关联程序模块逻辑功能 告警统计基础数据入库 底层 关联规则维护 上层 数据库 则维护 联呈现 O.,009 关联规则功能模块部署步骤 第一阶段 第二阶段 第三阶段 告警关联规则入库及阈值同步 告警统计基础数据入库 告警统计基础数据入库 告警关联关系入库 关联规则维护 O.,009 关联规则部署过程经验总结 结合告警关联规则功能模块部署过程,对其中相关模块环节功能及规则验证过程中出现的问题及经验进行了总结,具体分析如下: 功能模块 常见的问题 经验 4个 ) 告警关联程序重新启动后,日志中显示接受告警的 启动程序,如果报上述错误,等待一段时间即可 告警关联程序重新启动后,日志中显示一分钟没有接受告警,重新连接 启动程序,如果报上述错误,等待一段时间即可 告警关联程序部署时无法正常运行,提示内存溢出错误。 在关联程序部署过程中,告警关联规则条数较多时(例如安徽公司关联条数超过 100条),如果 导致告警关联程序无法正常运行。建议设置值 28m。 关联程序启动后,日志报连接 启动程序,如果报上述错误,检查是否有未启动的 告警关联规则入库及阈值同步( 1个 ) 关联规则导入数据库不成功。 在告警关联规则导入时如果出现批量导入不成功,可能是由于 们建议不再采用索引查询数据库的方法。 O.,009 关联规则部署过程经验总结 功能模块 常见的问题 经验 告警统计基础数据入库( 1个 ) 程序部署正确,但汇总不出数据。 行 点符号必须在英文模式下。 3个 ) 报表不显示数据 性能库不能直接访问标准化数据库,需要在上访问的库名。 格式转化异常 不同的数据库,表中的列属性不同,转换容易出问题需要确认是否列属性设置正确。 按厂家分析关联分析有效率报表中告警入库率超过 100% 告警入库率超过 100%,是 关联规则界面维护( 1个 ) 程序部署后,主次告警能够维护,衍生告警不能修改。 内部程序出现问题,主要是更新语句执行问题,修改后解决。 O.,009 原理 &方法 网管部署 验证 &优化 O.,009 告警关联规则验证(一) - 18 - 验证目 的 观察每条关联告警在生命周期(生成、呈现和清除)内是否正确,是检验网管告警关联功能部署情况的最好手段 。 验证方 法 方式一:手工模拟 人为在告警标准化系统底层制造假告警,观察告警关联规则是否触发,关联是否有误 方式二:界面观察 在现网上观察真实告警关联是否有误 优点:节约验证时间,效率高 缺点:制造假告警过程繁琐,并且验证结果并不能 100可靠 优点:验证结果最全面,可靠性 100 缺点:需要专人实时监控面板,并且对于长期不触发的规则无法验证 根据 安徽 公司告警关联规则验证经验,建议关联规则部署后的第一 、二 周使用 方式一 验证; 后期 使用 方式二 长期验证。 安徽公司牵头制定西门子厂家告警关联规则,目前现网 部署了包括话音网和无线网共计 6个厂家, 14种类型设 备, 95种关联规则。 厂家设备 关联规则数量 卡特 17 华为 36 西门子 15 爱立信 17 诺基亚 10 O.,009 告警关联规则验证(二) 发现有问题的 或 长期不触发 的 告警关联规则后,根据 安徽 公司的经验,可以按照以下步骤进行原因查找 : - 19 - 首先检查是否是由于告警未产生而导致对应关联规则未触发 如果告警有产生,但未触发关联规则,检查关联告警匹配映射用的 检查关联告警梳理表和告警多维梳理表里的告警信息是否一致,特别是作为 D 如果告警的清除有问题,则检查该规则的清除方式设置是否合理 如果告警的派单逻辑有问题,则检查该规则的 X/检查配置脚本文件的正确性 O.,009 3、现网验证 1、效果分析 2、参数优化 根据规则优化分析结果,修改时间窗或关联规则条件,在现网中进行验证 通过关联数据统计和分析,发现存在的不足,例如: 衍生告警过多,不能有效进行告警合并和频次告警压缩 规则无法产生告警关联 在测试环境中通过对同一关联规则配置不同条件,通过分析同样环境下不同条件的规则,得出最优解 告警关联规则优化(一) 告警关联规则在完成在现网部署和功能验证后,根据现网关联效果进行评估优化,寻求最能满足各省本地情况的规则条件。 O.,009 优化举例 告警关联规则优化(二)关联参数优化 问题现象一:某种衍生关联,网管上有涉及的告警,但无法产生关联关系 通过调测,我们发现是由于实际情况下,在设置的关联等待时间窗 5分钟内无法达到数量阀值,通过降低该告警数量阀值 Y 4,该单条关联规则取得 压缩率。 提示:告警关联优化的目的不是为了尽可能的产生关联关系,是在于帮助监控人员快速定位故障和挖掘隐患,所以,规则参数的设置要从实际需求的角度出发,不能为了产生关联关系而一味的将 问题现象二:某主次关联,网管有涉及的主、次告警,但关联压缩率低 例如,一条衍生关联告警:西门子交换同一网元产生多个 联参数X=5,Y=10,即当 5分钟内同一网元产生 10条不同端口的 例如,一条主次关联告警:西门子目的信令点不可达和信令链路故障关联,关联参数X=2,即当 2分钟内同一网元产生目的信令点不可达和信令链路告警,产生主次关联。 通过调测,我们发现是由于实际情况下,是由于关联等待时间窗太窄,在设置的关联等待时间窗 2分钟内无法全部包括有关联关系的一组告警,通过放大该告警关联等待时间窗 X 10,该单条关联规则取得 压缩率。 O.,009 关联告警派单的时间参数设置 某告警 警关联触发时间 警关联结束时间点 告警结束时间 生新告警 y, x。 联告警 时分三种情况: 关联告警 t4 结束之后继续按照原有规则派单。 告警关联规则优化(三)派单参数优化 2 4 总结: 1、如果关联告警的派单时延设置过长,可能总是大于关联告警的恢复时间,关联告警永远不会派单 2、建议如果 警的派单时延最好要大于 则很可能告警总是在衍生告警产生前派单,工单量激增。 O.,009 关联告警派单优化情况 关联自动派单情况( 派单优化前后比较 ) - 23 - 设备厂家 正常工单量 衍生告警工单量 10周工单量 8月周工单量 变化量 西门子 7213 372 6385 8741 2356 华为 1373 36 1409 1646 462 81 1543 2277 734 20 18 108 221 113 爱立信 4086 263 4849 5214 计 14254 770 14294 18099 徽公司根据告警关联试点情况发现,合理科学的关联规则,能够起到 告警高效收敛、工单压降、故障定位的明显效果。而有问题的规则在试点过 程中很难触发关联关系,基本没有效果。告警关联规则参数优化和派单优化 过程是解决这个难题的必须选择! O.,009 原理 &方法 网管部署 验证 &优化 O.,009 告警标准化实施之后,需要一个合理的评价体系来体现标准化相关工作的成效,体现告警标准化对运维管理的提升作用。评价体系应以数字化的考核指标为主要手段,后续告警标准化的深入开展提供扎实的现实基础。 通过分析告警标准化的处理过程,在每个关键流程环节,设置指标采集点,得到运维管理相关的 O.,009 关联规则的重点指标介绍 1、单条关联规则的关注价值 = 某条关联规则涉及告警种类的告警总数 /全部告警总数 关注价值是用于发现关联规则的 “ 潜在压缩能力 ” ,关注价值高,表明它涉及告警量大,通过调整规则,可能会提高关联规则对告警的压缩能力。 2、单条关联规则的压缩量 = 主次关联的次告警 或 = (衍生关联的原始告警 压缩量是用于体现关联规则的具体贡献 即:这条规则压缩了多少告警派单。 O.,009 告警关联效果评估 规则名称(牵头西门子设备) 关注价值 压缩量 压缩率 【 阀值 】 西门子交换阀值衍生 10 226 【 阀值 】 西门子无线阀值衍生 11 236 【 主次 】 西门子无线主次 2 【 阀值 】 西门子交换阀值衍生 1 9 【 阀值 】 西门子交换阀值衍生 17% 206 【 阀值 】 西门子交换阀值衍生 25链路中断告警合并 2% 15 【 阀值 】 西门子交换阀值衍生 1% 14 【 阀值 】 西门子交换阀值衍生 2 【 阀值 】 西门子交换阀值衍生 1% 204 【 阀值 】 西门子交换阀值衍生 7% 122 【 阀值 】 西门子交换阀值衍生 条

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论