基于事件和知识图谱技术的智能运维实践方案_第1页
基于事件和知识图谱技术的智能运维实践方案_第2页
基于事件和知识图谱技术的智能运维实践方案_第3页
基于事件和知识图谱技术的智能运维实践方案_第4页
基于事件和知识图谱技术的智能运维实践方案_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、技术创新,变革未来基于事件和知识图谱技术的智能运维实践方案目录AIOps 面临的挑战指标?还是事件? 算法?还是数据?以事件为切入点用好知识图谱打造基于事件和知识图谱的智能运维平台当今企业IT 环境给运维管理带来了更大的挑战建转运IT架构重构80%50%基础设施云化 运行环境容器化 业务系统微服务化运维难度 提升4 - 5 倍更多的工具更复杂的 规范和流程更多的人员知识分散- 缺乏将故障手册、厂 商文档、告警处理意见 等知识进行沉淀和检索 的手段定位困难- 在分布式环境下, 当 发生致命问题, 难以准 确定位根因节点和相关 事件告警风暴- 庞大的I T 架构意味着 大量的告警和事件, 无 法聚

2、焦和分析需要关注 的事件Gartner认为,AIOps平台综合了大数据、机器学习和可视化技术, 通过可扩展的提取和分析IT不断增 长的数据量、种类和速度来更深入的洞察和增强IT运营。AIOps对于企业运营的核心价值降低噪音( 如误报或冗余事件);提供更好的因果关系, 这有助于确 定事故的可能原因;捕获超出静态阈值的异常, 以主动 检测异常情况;推断未来事件以防止潜在的故障;启动解决问题的操作( 直接或通过 集成)。AIOps是企业实现精细化高效运营的基石AIOps 的建设路线图AIOps 分级名称定义操作执行状态理解/模式识 别行动规 划主动学 习应用场 景L0人工运维完全由运维人员进行IT系

3、统日常运维管理操作。人人人人无L1辅助运维系统取代运维人员部分运维操作,实现基于规则 的告警、配置变更、容量变化、故障分析。人和系统人人人部分场景L2部分智能运维系统通过智能算法完成部分场景下的状态理解和 模式识别,并交由运维人员进行后续处理。系统人和系统人人部分场景L3条件智能运维系统能自动完成状态理解和模式识别工作,并完 成大部分的运维操作,但运维人员还需在进行决 策时随时待命介入。系统系统人和系统人部分场景L4高度智能运维在限定运维场景下,系统完成全部的运维管理操 作,运维人员几乎不用参与。系统系统系统人和系统部分场景L5完全智能运维在所有运维场景下,系统完成全部的运维管理操 作,运维人

4、员不用参与其中。系统系统系统系统所有场景基于Gartner AIOps 技术栈衍生出来的AIOps 技术派别可视化机器学习算法分析计算大数据指标日志文本流量API集中统一管理,历史数据存储,实时数据存储数据建模,模式识别,趋势识别,故障隔离智能化选择,异常检测,异常定位,根因分析算法自我修改演进,新算法创建多维度,个性化,角色化,场景化展示数据清洗,去重,过滤,关联,生成新数据数据源全量,海量,多样性,复杂性 IT 数据社交媒 体情绪算法派:以自主算法研发为核心,提供针对运维场景下时序指标、文本日志、系统调用链信息、第三方告警、配置文 件等数据处理的算法集,降低用户使用开源算法自行尝试的 时间

5、和能力成本。指标派:以传统运维监控工具指标数据采集和加工为基础,结合指标类人工智能算法实现异常检测、关联分析、趋 势预测等能力,重点解决告警阈值设置、容量预测等运维场 景问题。日志派:以日志采集和处理技术为基础,结合文本处理类人工智能算法对海量日志数据的再加工和分析,降低运维团 队日志阅读量,解决异常检测、日志聚类、时序预测、根因 分析等运维场景问题。事件派:以复杂事件处理和知识图谱技术为基础,从事件出发解读海量的 IT 运行数据。运用自然语言处理技术,提供 事件发现、事件分析、事件分类、事件聚类等能力,结合基 于运维知识图谱的解决方案推荐和根因分析能力,形成智能 运维闭环。事件, 是对事物状

6、态变化或不变状态的描述信息。志数据(Log/Event)告警(Alert)KPI 指标单数据络数据包SNMP Trap数据库特定字 段的数据系统输出(STDOUT)API 输出动环数据消息队列何谓事件?事件数据复杂事件处理基于事件和知识图谱的核心算法和典型应用场景自然语言处理知识卡片知识地图业务影响分析知识检索运维知识图谱聚类发现预测定位检索辅助事件模式转换路径事件根因定位因果推断应用智能调参运维知识问答事件分类事件聚类事件降噪异常事件发现新奇事件发现核心算法和 数据层基础应用层生产场景层双向预训练表征知识图谱行业运维知识自然语言处理在事件管理中的应用文本聚类模式发现新奇事件发现异常事件发现告

7、警根因分析样本数据准备注意力机制模式识别自然语言处理 几种常用的算法基于距离文本相似度聚类适合小数据量场景 算法执行效率低缺少确定的相似度标准需要人工进行相似度参数调整基于Hash的相似度聚类适合大数据量场景 算法执行效率高需要人工进行参数调整聚类效果存在不确定性,Hash位的调整 对聚类结果影响较高基于注意力机制的文本聚类无需人工参与 没有不确定性需要积累样本语料数据 算法执行效率高自然语言处理 通过文本外观进行聚类通过文本间的外观进行文本的聚类有 100条事件聚类成 30条压缩率 70%但是漏掉一条!有 100条事件聚类成 50条压缩率 50%但是一条没漏!VS自然语言处理 通过文本外观进

8、行聚类为什么表面文本相似度聚类的方法不行?因为告警文本并不是线性可分的。Editbased= Hamming:0.36363636363636365Mlipns:0.0 Levenshtein:0.7272727272727273 DamerauLevenshtein:0.7272727273 JaroWinkler:0.8084415584415584 StrCmp95:0.8962049062049062NeedlemanWunsch:0.71428571428 Gotoh:0.7142857142857143SmithWaterman:0.714285714285Tokenbased=J

9、accard:0.72 Sorensen:0.83720930232 Tversky:0.72 Overlap:0.8571428571428 Cosine:0.837435789358623MongeElkan:0.0411255411 Bag:0.8181818181818181Sequencebased= LCSSeq:0.727272727272LCSStr:0.363636363635RatcliffObershelp:0.74418604Compressionbased= ArithNCD:0.0632911392405RLENCD:0.0 BWTRLENCD:0.08695652

10、17391 SqrtNCD:0.4823249039319015 EntropyNCD:0.9672831249478 BZ2NCD:0.7674418604651163 LZMANCD:0.7575757575757576 ZLIBNCD:0.6071428571428572Phonetic= MRA:1.0Editex:0.772727272727表面文本相似度聚类算法结果:content A = zabbix sender is busy content B = zabbix process is busy这组事件相似吗?content A = BJa_VGC-RTM-FBU-QA-DB

11、-MongoDB-Node2Availability_ping:100% content B = BJa_VGC-Aud-QA-Env10-CoreApp002Availability_ping:100%这组呢?自然语言处理 通过文本外观进行聚类我们是怎么做的?l 模仿人类 的阅读习惯,引入注意力机制l从 14个G的原始数据 里预训练出来的模型l 2亿条 线上告警数据作为实验集验证自然语言处理 场景一: 模式发现使用场景l 日志分析l 告警模式发现在文本聚类之后,我们可以进一步进行模式发现,聚焦某个模式,快速了解这一类数据 想要表达的内容,大大降低阅读量。自然语言处理 场景一: 模式发现使用场

12、景l 日志分析l 告警模式发现在文本聚类之后,我们可以进一步进行模式发现,聚焦某个模式,快速了解这一类数据 想要表达的内容,大大降低阅读量。自然语言处理 场景一: 模式发现使用场景l 日志分析l 告警模式发现文本聚类后,根据事件出现的先后计算出事件模式关系图,快速了解事件的来龙去脉。自然语言处理 场景一: 模式发现l告警风暴抑制通过统一模板, 给某类告警配置告警压缩或者告警宽限期。l新奇事件发现近一个周期都没有出现, 但是现在突然出现了的事件是需要我们关注的。l异常事件发现出现频率和上个周期不一样: 例如ConnectRefuse 的错误日志, 发版前出现的次数为10 , 而发版后 出现的次数

13、为100 。出现模式和以往不一致: 从历史的事件上下文中进行学习, 然后推断A 的下一行是否为B , 假如不是,则为异常事件。l事件根因分析通过匹配模式的上下文, 对模式进行二次训练, 生成马尔可夫链进行事件根因分析。基于模式发现的延展功能自然语言处理 场景二: 事件智能分类为什么需要事件智能分类?自然语言处理场景二:事件智能分类2亿 线上数据,经过文本聚类和模式发现之后,事件 数量被压缩至 23W,对这批数据进行标记、训练, 形成模型库。我们是怎么做的?自然语言处理场景二:事件智能分类JZ-A-SW-02 Interface Ethernet1/0/7: Operational status

14、:down (2)网络状态 10% interface | 50% ethernet | 10% operational | 10% status| 20% down原文分词,标注Zabbix server CPU iowait time:89.94%Zabbix agent is unreachable time:5网络状态interface | ethernet | operational | status | down硬件处理器 zabbix| server | cpu | iowait | time 网络状态 zabbix | agent | unreachable | time硬件处

15、理器 10% zabbix | 15% server | 40% cpu | 30% iowait | 5% time 网络状态 10% zabbix | 40% agent | 40% unreachable | 10% time特征选择数 据 准 备模型训练使 用 反 馈分词算法停用词字典特色词字典告警分类模型分类算法磁盘参数调整Free disk space is less than 20% on volume /ldisk人工标注自然语言处理 场景二: 事件智能分类基于文本聚类的事件智能分类结果展示:自然语言处理 场景三: 异常模式识别4 G网络连接正常断开场景:1 . 8 点3 1

16、分用户从家里出发上班, 断开w i f i , 连接4 G网络。2 . 8 点3 1 分到9 点2 9 分一直使用4 G网络, 运营商计费。3 . 9 点2 9 分用户断开4 G网络, 连接w i f i 。2019-07-20 08:31:00 INFO 011472001975695 Network starts to connect.2019-07-20 08:32:01 INFO 011472001975695 Start to bill, amount=1, balance=122.2019-07-20 08:36:32 INFO 011472001975695 Start to b

17、ill, amount=2, balance=121.2019-07-20 08:52:01 INFO 011472001975695 Start to bill, amount=3, balance=120.2019-07-20 09:10:05 INFO 011472001975695 Start to bill, amount=4, balance=119.2019-07-20 09:29:40 INFO 011472001975695 Network disconnected, billing stopped.4 G网络连接异常断开场景:1 . 8 点3 1 分用户从家里出发上班, 断

18、开w i f i , 连接4 G网络, 运营商计费。2 . 8 点3 9 分用户因某些原因断开4 G网络。8 点4 0 分用户重新连接4 G网络, 运营商计费。9 点2 9 分用户断开4 G网络, 连接w i f i 。2019-07-20 08:31:00 INFO 011472001975695 Network starts to connect.2019-07-20 08:32:01 INFO 011472001975695 Start to bill, amount=1, balance=122.2019-07-20 08:39:12 INFO 011472001975695 Netw

19、ork disconnected, billing stopped.2019-07-20 08:40:01 INFO 011472001975695 Network starts to connect.2019-07-20 09:10:05 INFO 011472001975695 Start to bill, amount=2, balance=121.2019-07-20 09:18:05 INFO 011472001975695 Start to bill, amount=3, balance=120.2019-07-20 09:29:40 INFO 011472001975695 Ne

20、twork disconnected, billing stopped.问题:网络异常断开的日志模式非常多,人工无法总结出所有异常断开的情况,因此很难通 过编写规则去识别异常。自然语言处理 场景三: 异常模式识别自然语言处理算法可以将样本集转换为机器可处理的向量,通过深度学习自动识别异常模 式的特征,大大减少人工筛查异常事件模式的时间。仅仅有处理事件还不够, 打造智能运维体系闭环1.事件分析阶段:事件首先会经过复杂事件处理服务,将非事件的数据转换为描述性强的事件,再送进平台。智能事件分析中心会对到达的事件进行 算法自动降噪,发现异常和新奇的事件,同时平台会根据事件的上下文和相关性计算对应的事件

21、根因模型。2.事件反馈阶段:根据事件根因模型,在事前和事中,平台会对可能会引起故障的隐患事件进行告警,并推荐事件的解决方案;事后分析故障发生的 原因时,平台会将根因定位与知识图谱相结合,用户可以很方便的查看事件的影响范围和相应的解决方案。知识图谱与知识库知识库/知识图谱业务影响度分析IT配置建议告警等级建议运维问答/智能工单知识录入知识构建知识问答中文运维知识图谱COKG十月份联合中山大学数据科学与计算机学院陈鹏飞教授团队,发布全球首个面向运 维领域的中文知识图谱 COKG(Chinese Operation Knowledge Graph)。首批发布图谱包含:30 多万个实体,400 万个实

22、体关系,并成功运用在广东移动 智能运维平台中。知识图谱:COKG 运维知识图谱模型:知识图谱是人工智能技术的重要组成部分,旨在帮助运维人员 描述企业 IT 系统中各种实体或概念及其关系,从而构成一张 巨大的语义网络。知识图谱是智能问答、知识推理、决策分析的技术基础。知识图谱与知识库Q: 运维知识图谱的最终形态应该是什么?A: 通过汇聚通用领域的知识和企业内部的知 识, 采用问答的方式完成知识图谱功能的使用。通用领域的知识厂商手册、厂商知识库、博客、StackOverflow 等公开来源。需要使用到自然语言的 命名实体识别、实体关系分析的一系列的手段 进行知识的提取和整理。企业内部知识企业内部的

23、工单、故障报告、监控数据、配置 信息、端口调用信息、业务承载信息等。知识图谱与知识库 业务影响度分析数据来源:监控系统、端口调用信息、CMDB主机的业务承载关系业务之间的调用关系Q:10.128.2.11 宕机后,会影响到哪些业务系统?A:10.128.2.11 宕机后,会对承载在其上的 dv、mysqld 造成影响,而 Davinci 服务调用了 mysqld,进而影响了10.128.2.10 上的 Davinci 服务。知识图谱与知识库 IT 配置建议Q: 哪些应用的Elastic Search 配置不合理?数据来源:监控系统、官方手册、CMDB业务之间的调用关系业务的承载关系业务的配置信

24、息官方建议的配置信息知识图谱与知识库 告警等级建议Q: 业务A 的告警等级建议如何配置?数据来源:数据来源:监控系统、官方手册、CMDB业务之间的调用关系业务的告警等级业务的调用关系知识图谱与知识库 知识问答/ 智能工单QA的核心问题是: 给定用户的自然语言查询问句, 希望系统从知识库里面找到一个语言片段, 这个语言片段 能够正确回答用户提出的问题, 最好是能够直接把答案返回给用户。数据来源: 工单系统、故障报告、FAQ 、公开资料基于事件和知识图谱的AIOps平台技术架构智能事件平台CloudEvent技术架构.数据传输层多种类型的事件可以按规定的格式通过 R e s t f u l A P

25、 I 、S y s l o g 、消息队列等发送到智能事件平台C l o u dE v e n t平台进行统一的分析和展示。.事件处理层事件分析引擎、根因定位引擎、知识图谱模块、知识库模块、语义编码引擎。.算法模型层经过事件处理层的统计,加上人工标注事件模式样本,产品可以训练出拥有自学习能力的模型。算 法模型层作为平台的核心层,起着承上启下的作用,支撑着平台所有的计算和应用功能。.数据存储层数据存储分为三类, 第一类为事件类型的数据; 第二类为图谱数据; 第三类为知识数 据。结合算法模型, 为上游应用提供服务。.数据展现层用户通过 H T M L 5 、P C 浏览器等方式实现人机交互, 让用户能通过点

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论