版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、智能运维中的科研问题技术创新,变革未来报告主旨智能运维落地的核心挑战:工业界:有数据、有应用,但是欠缺算法经验学术界:有理论算法, 但没数据、不熟悉智能运维场景工业界-学术界合作:一对一交流效率低、见效慢、不开源开放报告主旨智能运维落地的核心挑战:工业界:有数据、有应用,但是欠缺算法经验学术界:有理论算法, 但没数据、不熟悉智能运维场景工业界-学术界合作:一对一交流效率低、见效慢、不开源开放解决思路:科研问题为导向把应用难题分解定义成切实可行的科研问题企业提供脱敏数据作为benchmark 学术界贡献算法智能运维发展历程手工运维自动运维DevOps智能运维智能运维发展历程手工运维自动运维Dev
2、Ops智能运维分析决策(人工-规则-机器学习)控制(自动化脚本)监测(海量日志)AIOps in Gartner Report工业界:AIOpsAIOps: Artificial Intelligence for IT Operations7工业界:AIOps25%5%820162019AIOps全球部署率30%25%20%15%10%5%0%AIOps: Artificial Intelligence for IT Operations Platforms机器:基础性和重复性的运维工作 为复杂问题给出决策建议向运维专家学习解决复杂问题运维专家:处理运维难题基于机器建议给出决策 训练机器徒弟9
3、智能运维前景光明运维工程师:逐渐转型为大数据工程师开发数据采集程序和自动化执行脚本 搭建大数据基础架构高效实现基于机器学习的算法机器学习科学家:AI的一个落地应用尚未开采的金矿和低垂的果实智能运维科研门槛较高 工业界行业领域知识互联网、电信、金融、 电力网络10机器学习聚类、决策树、卷 积神经网络运维场景领 域知识瓶颈分析、异常 检测、故障预 测智能运维智能运维科研门槛较高 工业界行业领域知识互联网、电信、金融、 电力网络机器学习聚类、决策树、卷 积神经网络运维场景领 域知识瓶颈分析、异常 检测、故障预 测智能运维熟悉行业和运维场景熟悉生产实践中的难题有数据不熟悉如何把实际问题转化为 算法问题
4、有时一个实践难题需要分解为多个算法问题一个个来解决不熟悉科研参考文献特别是跨行业的文献11降低工业界门槛的努力:“智能运维前沿”公众号科普世界范围内智能运维的前沿进展;推动智能运维算法在实践中的落地智能运维前沿课程课件(英文):/courses/advanced-network-management-spring2017/12学术界已有工作13智能运维文献中较为常见的算法:逻辑回归、关联关系挖掘(事件-事件、事件-时序数据、时序数据-时序数据)、聚类、决策树、随机森林、支持向量机、蒙特卡洛树搜索、隐式马尔科夫、多示例 学习、迁移学习、卷积神经网络,递归神经网络(RNN),变分自动编码(VAE)
5、。发表于如下学术顶会:ACM SIGCOMM, ACM IMC, ACM/USENIX NSDI, ACM MobiSys, ACM CoNEXT, ACM MobiCom,ACM SIGMETRICS, IEEE INFOCOM, ACM KDD, SIGMOD, VLDB, ICSE 来自Conviva/CMU 的一系列案例相关分析 信息熵增益 线性回归 SIGCOMM11决策树SIGCOMM13强化学习NSDI17通过机器学习,提升视频流媒体用户体验和观看时长智能运维科研门槛较高 学术界行业领域知识互联网、电信、金融、 电力网络机器学习聚类、决策树、卷 积神经网络运维场景领 域知识瓶颈分
6、析、异常 检测、故障预 测智能运维算法能力强不熟悉行业和运维的领域知识领域知识门槛高没有数据虽然有相关算法,但是不了解 其在智能运维领域的应用降低学术界门槛的努力应邀在CCF(中国计算机学会)会刊发表专栏文章, 向学术界大同行介绍智能运维科研问题16如何落地: 从去年开始号召工业界学术界密切合作微信公众号文章累计1w+阅读工业界与学术界应该在运维领域密切合作工业界获得算法层面的深度支持学术界获得现实世界的前沿问题及数据,有利发表论文和申请国家项目新的合作17工业界-学术界合作 1.0:一对一交流合作运维运维运维运。维。教授。教授问题A问题A问题B问题A交流合作效率低、见效慢智能运维算法不幸成了
7、特权:仅限于少数大公司与部分合作紧密教授 之间国外:Google, Microsoft,LinkedIn, Facebook, Yahoo!涉及知识产权,不符合开源大趋势数据不公开代码不公开18工业界-学术界合作 2.0:开源开放教授运维运维运维运维。教授智能运维 问题库 AB工业界学术界合作开源开放大趋势:代码:Hadoop EcoSystem (工业界)TensorFlow (工业界) Spark (学术界)算法:arX数据:ImageNet算力:各大公司的AI云人才:美国学术界批量向工业界流动1920受 “普世化AI”启发李飞飞斯坦福大学副教授、人工智能 实验室与视觉实验室主任Image
8、Net 创始人谷歌机器学习部门负责人21教授运维运维运维运维。教授普世化智能运维算法目标: 让所有公司都能用上最 好的智能运维算法解决智能运维普世化的如下问题:数据算法算力人才分解定义智能运维中的科研问题22Gartner报告中的问题描述太宽泛23科研问题要求:清晰输入;数据可获得清晰输出;输出目标切实可行有high-level 的技术路线图有参考文献非智能运维领域的学术界能理解 能解决分解定义科研问题已经定义出的科研问题(即将公开发布在一个网站上)24落地智能运维科研算法相对独立算法 -直接可落地依赖其它算法 - “庖丁解牛”数据等条件不成熟 - “退而 求其次”25科研问题定义之“基础模块
9、”(即将公开发布在一个网站上)26KPI瓶颈分析算法面向问题从多维属性数据中挖掘引发KPI瓶颈的条件输入KPI数据及瓶颈阈值可能影响KPI的属性测量数据输出导致KPI瓶颈的属性(组合)27KPI瓶颈分析算法典型应用场景Web 应用首屏时 间移动应用加载时间软件报错数视频传输质量常见算法决策树聚类树(CLTree)层次聚类应用挑战瓶颈可能为多种属性 和数值的组合不同属性之间可能存 在依赖关系避免重叠表示KPI可为单、双、多类 别28故障预测算法面向问题在互联网服务运行时,使用多种模型或方法分析 服务当前的状态,并基于历史的经验判断在近期 是否会发生故障输入当前服务的运行状态(Syslog日志、S
10、NMP数据)历史故障案例输出近期是否会发生故障/发生故障概率当前时刻故障预测测量数据29故障预测算法典型应用场景硬盘故障预测服务器故障预 测交换机故障预 测常见算法HSMM随机森林SVM应用挑战故障案例少日志量大有益信息少30科研问题定义之 “庖丁解牛”根因分析KPI异常检 测异常标注优 化相似异常查 找KPI趋势预 测故障传播链 构建异常事件关 联挖掘事件-KPI关 联挖掘KPI关联分 析KPI聚类全链路模块 调用链分析31故障根因分析算法面向问题当前应用服务发生异常时,分析导致服务异常的 根本触发原因输入服务相关的指标异常状况 (包括客户端,网络,服务 端等)故障传播关系图输出根因(排序列
11、表)32故障根因分析算法典型应用场景应用服务发生异常 时,快速诊断根因, 快速止损。常见算法基于故障传播链概率图模型应用挑战数据收集不全故障案例少依赖故障相关的先 验知识异常检测存在漏报 误报33科研问题分解之 “庖丁解牛”根因分析KPI异常检 测异常标注优 化算法KPI趋势预 测故障传播链 构建异常事件关 联挖掘事件-KPI关 联挖掘KPI关联分 析KPI聚类全链路模块 调用链分析34相似异常查 找科研问题分解之 “庖丁解牛”:异常检测根因分析KPI异常检 测异常标注优 化算法KPI趋势预 测故障传播链 构建异常事件关 联挖掘事件-KPI关 联挖掘KPI关联分 析KPI聚类全链路模块 调用链
12、分析35相似异常查 找KPI异常检测算法面向问题检测KPI的异常行为输入KPI时序测量数据异常区间标注输出KPI是否发生了异常36KPI异常检测算法典型应用场景网络故障服务器故障配置错误缺陷版本上线网络过载常见算法基于窗口基于近似性基于预测基于隐式马尔科夫模型基于机器学习基于集成学习基于迁移学习基于深度生成模型应用挑战KPI种类各异KPI异常行为难以定义调整算法、参数费时费力需要人工标注人工标注不准确37KPI趋势预测算法面向问题通过分析历史数据,判断未来一段时间KPI的趋势输入KPI的历史数据输出未来一段时间KPI预测值历史数据38未来一段时间的趋势KPI趋势预测算法典型应用场景机器资源需求
13、预测订单量预测作为异常检测、异 常定位、容量预测 等科研问题的输入常见算法ARIMAEWMAHolt-Winters时序数据分解RNN应用挑战突发事件的影响节假日,天气等因 素的影响数据存在不规则的 变动39科研问题分解之 “庖丁解牛”:异常检测-异常标注优化异常标注优 化KPI内相似异 常查找相似KPI查找(KPI聚类)关联KPI查找40KPI相似异常查找面向问题面对一根较长KPI曲线的标注,根据已经标出的片 段作为模板,找到该KPI曲线上其它的相似异常, 减少重复标注的工作量。输入一根待标注的KPI曲线和一段已经标注出的异常片 段(模板)输出KPI曲线上与模板相似的异常片段模板41输入输出
14、KPI相似异常查找典型应用场景减少异常标注量KPI时间序列信息 挖掘常见算法Matrix Profile similarity: DTW, Euclidean distanceMueen-Keogh (MK)Best-matching Pair应用挑战实时性要求高异常定义复杂42KPI聚类算法面向问题面对大规模KPI时序数据曲线,选取合适的 度量刻画曲线间的相似性,采用聚类与分派 算法快速确定曲线类别。输入大量KPI时序数据曲线输出每条曲线所属的类别原始KPI数据KPI聚类簇KPI聚类相似性判别43KPI聚类算法典型应用场景KPI异常检测中的 迁移学习相关异常查找,以 减少标注开销常见算法DB
15、SCANK-medoidsCLARANS应用挑战数据量大曲线模式复杂对类别的定义不同缺乏ground truth44KPI关联关系挖掘算法面向问题互联网公司存在大量的各式各样的时序KPI 数据。KPI波动的相关性对于根因分析、故 障定位等可以提供很好的线索输入两条时序KPI数据输出两条曲线波动是否相关两条KPI是否 相关45KPI关联关系挖掘算法典型应用场景根因分析故障定位异常预测跨KPI寻找相关异常, 减少标注开销常见算法Pearson correlationSpearman correlationKendall correlationInformation gainGranger caus
16、ality应用挑战KPI种类繁多关联关系复杂无标注无监督46科研问题定义之 “庖丁解牛”根因分析KPI异常检 测异常标注优 化算法相似异常查 找KPI趋势预 测故障传播链 构建异常事件关 联挖掘事件-KPI关 联挖掘KPI关联分 析KPI聚类全链路模块 调用链分析47故障传播关系图构建算法面向问题系统故障发生时,异常事件众多且具有相 互导致关系。借助精准故障传播关系图, 可以快速进行根因定位。输入历史异常事件,全链路调用链, 异常关 联,异常-KPI关联,KPI关联,KPI聚类输出故障传播关系图, 作为根因分析的输入48故障传播关系图构建算法典型应用场景根因分析常见算法Dapper: call
17、 graphKPI 聚类算法KPI关联算法事件关联算法: FP- Growth,Apriori事件-KPI关联算法应用挑战异常检测需要准确 可靠Ground Truth 难 以获取Callgraph 不一 定有49异常事件关联规则挖掘算法面向问题分析异常事件两两之间的关联关系输入近段时间发生的异常事件输出异常事件的关联规则关联规则high cpu usage mem usagehigh cpu usage page view number 500high cpu usage err http port unreachablehttp port unreachable mem usagetime
18、异常事件2014-10-29 06:09:10http port unreachable2014-10-29 06:09:10high cpu usage2014-10-29 06:10:10page view number直接可落地依赖其它算法 - “庖丁解牛”数据等条件不成熟 - “退而 求其次”64总结与前瞻65智能运维算法竞赛网站66诚邀在座各位共同参与!67付出:参照科研问题提供脱敏数据资金赞助感兴趣的算法竞赛建议新的科研问题参与社区讨论回报:根据本公司实际问题,查询试用相关算法根据网站建议,优化本公司数据采集和清洗工作寻找潜在合作教授在竞赛参与学生中招聘正在确认首批数据赞助商官方已经审批通过口头意向:五家大厂欢迎贵司参与!68感谢工业界合作伙伴。69感谢清华NetMan团队智能运维前景光明具有丰富的数据和应用场景将极大提高运维领域的生产力是AI领域尚未充分开采的金
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 语义技术在网络应用程序中的多维度剖析与实践探索
- 诉讼诈骗案件定性的多维审视与精准判定研究
- 2026云南昭通巧家县红山乡敬老院招聘1人考试模拟试题及答案详解
- 2026浙江省旅游投资集团人才招聘17人(第五批)考试模拟试题及答案详解
- 2026湖南医药学院招聘46人考试模拟试题及答案详解
- 浙教版小学信息科技五年级上册第三单元用算法解决问题全套教学设计
- 2026浙江高信技术股份有限公司招聘6人考试参考题库及答案详解
- 2026湖南能源集团有限公司二级子公司领导班子成员岗位招聘2人笔试模拟试题及答案详解
- 2026年广安市特岗教师招聘笔试模拟试题及答案详解
- 2026陕西西安市灞桥区图书馆就业见习岗位招聘笔试模拟试题及答案详解
- Unit6CoolclothesGetreadyStartup(课件)-外研版英语四年级下册
- 2026中考道法万能答题模版
- 2025年湖南省高中学业水平合格性考试英语卷试题(含答案)
- 医院样本外送检测管理制度
- 2025至2030中国岩土和结构监测仪器行业市场深度研究与战略咨询分析报告
- 院前急救与院内救治应急演练方案(绕急诊)
- “十五五规划纲要”解读:文化产业高质量发展
- 天狗郭沫若赏析课件
- GB/T 33652-2025水泥制造能耗测试技术规程
- 医疗器械经营企业质量管理体系文件(2025版)(全套)
- JJG1036-2022天平检定规程
评论
0/150
提交评论