版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
智能业务运维平台解决方案目录01
了解业务运维平台介绍03
场景与用户价值24,000每个网管管理的服务器74亿2020年智能手机总量1万亿美元阿里巴巴,全球第一个万亿商业平台46%2020年来自数字化的
客户价值260亿2020年物联网设备总量69,000YouTube每秒新增视频10亿+单一应用用户规模13全球最大企业TOP32
中的平台企业企业实现数字化转型不是选择,而是唯一出路数字化新世界纸质化办公手工录入
人工校对CRM
ERP
数据库
云平台文件系统数据采集
数据存储
数据分析服务器、服务、机房、虚拟化、应用…MySQL、Redis、HDFS...Spark、MapReduce、Kafka、Hadoop..IT规划与业务规划不匹配IT定位缺失
IT与业务缺乏有效沟通管理孤岛导致需求孤岛用户画像不准确
转化率差留存率低
投诉多数字化程度不足数据孤岛严重数据管理方式复杂业务与IT两张皮用户运营困难企业数字化转型现状如何构建IT系
统
?监控系统怎么建立?容量怎么规划?前台和中台系统效能怎么样?团队怎么考核?IT怎么驱动与促进业务?如何靠近用户?如何理解用户?怎么做数字化决策?人工智能有用吗?大数据战略怎么落地?怎么做数字化决策?企业数字化转型挑战流程重构流程管理技术流程CIO
们眼中的数字化转型有效连接人合作伙伴上下游供应商企业数字化转型及升级,CIO
们的思考?大数据云计算
人工智能
物联网
区块链获客转化
留存业务模型通过数字化平台实现IT与业务融合传统企业业务与IT
之间的关系“越来越远又越来越近”IT系统的持续健康稳定运行成为确保业务运转以及促进业务增长的前提●越来越远:企业建设的应用系统的拓扑结构,IT
架构、流程越来越复杂,且从前端业务到IT
最底层之间的通道基本上是黑匣子。当
前端业务出现异常时,企业进行问题定位的排查过程会耗时耗力。●越来越近:企业所有的业务严重依赖IT,线上和移动端成为很多企业产品的主要用户入口。运维对数字化转型至关重要IT系统稳定业务系统稳定
企业业务增长关注点视角考核模式能力要求关注业务指标、用户体验自顶向下,基于业务分析各环节对业务的影响基于业务质量的S-KPI、KQI主动式,基于业务数据的风险评估、问题分析业务管理与分析能力IT技
术运
维关注IT基础资源,网络质量自底向上,基础设施和网络对业务影响分析基础运维KPI被动式,基于告警处理问题基础的IT运维管理与维护经验从IT运维到业务运维业
务
运
维助力企业数字化转型及其升级:传承过去,创新未来场景化运维及运营解决方案智能业务运维平台(DOCP,Digital
Operation
Central
Platform)业务运维技术支撑体系业务运维管理支撑体系智能业务运维顶层框架数据驱动业务决策促进业务高速增长成就卓越用户体验了解业务运维平台介绍场景与用户价值目录0
1
~
-
0
3DOCP
,Digital
Operation
Central
Platform,是数字化智能运维平台,又名数字化运维中央平台(简称:数字化运维中台)。DOCP
平台以数据为基础、以算法为支撑、以场景为导向,应用先进的实时海量大数据处理技术和机器学习等人工智能技术,通过轻量级、低入侵、松耦合的立体化监控与管理工具集、数字化运维统一事件管理、数字化运维服务管理等模块化组件,打通后台IT支撑系统与前台业务应用之间的信息断层和管理断层,向上提供数据与能力支撑,在快速响应前台的变化和创新需求的同时,向下保障系统稳定可靠运行,进而实现互联网级的数字化运维高效管控。对于从信息化时代一路走来的中大型企业,以运维为突破口和数字化转型抓手的数字化运维中台,能够充分利用企业原有业务系统、管理系统和IT
系统生成的海量数据,同时IT部门作为企业中距离数字化最近的部门,有利于数字化转型的单点突破和小范围试错,逐步建立数字化运营管理体系,赋予业务快速迭代、创新和试错能力,进而带来管理效能的提升。智能业务运维平台产品定义数字化运维监控中心(DOMC,Digital
Operation
Monitor
Center)数字化运维服务管理(DOSM,Digital
Operation
Service
Management)用户中心
日志中心
流程中心
表单中心
配置中心
运维中心立体化监控与管理工具集(Monitoring
Tools)基础设施监控(DOIM,Digital
Operation
Infrastructure
Management)智能分析(DOIA,DigitalOperationIntelligentAnalytics)数据平台(DODP,DigitalOperationData
Platform)智能业务运维平台总体架构数字化运维事件管理(DOEM,Digital
Operation
Event
Management)日志分析(DigitalOperation
LogAnalytics)用户体验监控(Cloudwise
DEM)网站监控(CloudwiseMonitoring)网络性能监控诊断(Cloudwise
NPMD)数字化运维支撑平台(WisePlatform)应用性能管理(Cloudwise
APM)DOMC基于智能分析算法,全局、全面地掌控企业的
IT与业务健康状态数据仪表盘定制个性化专属视图,展示所关心的数据,便于随时掌握项目动态第三方集成与认证提供统一的登录入口以及身份认证方式可视化管控驾驶舱可视化管控驾驶舱能够直观监测、全局把控业务与IT运行状态,支撑企业决策与管理。数字化运维监控中心DOMCDOMC
,即
Cloudwise
Digital
Operation
Monitor
Center,是数字化运维监控中心。DOMC是面向业务与IT的新一代可视化监控产品,能够基于智能分析算法,全局、全面掌控数字化运营状态。帮助管理人员清晰直观地掌握业务运营与IT
运维中的有效信息,实现可视化管理、有效管理与有效决策,提升资产管理与监控管理的效率。帮助企业的CIO
和运维Leader、业务Leader从业务健康、IT资源健康、用户体验、安全态势以及问题事件等多维度关心企业的IT运维和业务运营。IT资源健康
感知业务健康
态势感知安全态势感知用户体验
感知问题事件
管控数据仪表盘数据仪表盘是一个可视化面板,提供了功能齐全的指标仪表盘和图形编辑器,能够支持非常漂亮的图表和布局展示。通过对可视化界面随意添加和拖动图表进行布局,仪表盘可以实现对指标数据的实时展示和分析,帮助客户灵活定制个性化的专属视图。跨数据源关联通过在一个仪表盘上展示来自不同数据源的面板,仪
表盘可以方便地实现跨数据源的关联,从而满足用户
需要将不同的数据源统一在一个仪表盘中进行展示和分析的需求。多数据源接入默认支持Zabbix、Cloudwatch、InfluxDB、Prometheus、OpenTSDB、Mysql
以及ES等作为数据源。同时Zabbix的数据可以直接使用仪表盘来对接并提供Zabbix默认的仪表盘。模版可复用模版功能可以让您创建高度可重用、交互式和动态的
仪表盘。创建仪表盘的模版参数后,即可在任何一个
仪表盘中使用模版。使用模版变量可以动态的修改图表中的参数,从而实现动态的仪表盘。仪表盘分享通过分享按钮复制生成的大屏链接,支持大屏上用浏览器打开。客户只要关注大屏即可实时地了解业务和系统的运行状态。丰富的图表库提供主流的监控和分析图表,内置趋势图、单态、饼
图、表格、状态面板等图形面板。图表样式可调整,
让图表更加的生动和美观。拖拽式布局在仪表盘上拖动图表就可以轻松实现仪表盘大小和位置的布局,免去复杂的宽度和高度设置等操作。DODP,
即DigitalOperation
Data
Platform,是数字化运维数据平台,是DOCP的底层支撑平台,是DOCP的基础。它是一个通用的自动服
务数据平台,能够提供高性能的、一站式大数据(PB
级数据量、毫秒级响应)的解决方案,极大程度地降低大数据的使用门槛。
DODP
能够实时高效的接入用户环境中的多种数据源,收集用户环境中的IT和业务数据,进行统一的管理和存储,通过便捷和强大的建模分析工具,将数据进行关联分析、业务建模,结果实时输出给可视化以及其他应用。通过将数据与算法结合,DODP可应用于异常检测、根因分析等智能运维场景。数据建模分析以sql的形式,将各种数据源中的数据抽象成业务模型,供可视化和告警使用。数据处理图形化的数据处理流程数据处理过程可管理、可监控,快速建模、适应业务变化数据源管理集成现有数据库的数据源,能统一管理和关联查询接入流式数据,进行处理和存储,供查询分析数据采集管理统一的数据采集框架,简化数据采集的过程统一的调度,管理数据采集任务数字化运维数据平台6CDOEM
产品基于大数据技术和机器学习算法,对来自于各种监控系统的告警消息与数据指标进行统一
的接入与处理,能够支持告警事件的过滤、通知、响应、处置、定级、跟踪以及多维分析,从而实现
问题事件全生命周期的全局管控。DOEM
产品基于
动态基线等多种算法,能够实现事件的告警收敛、异常检测、根因分析、智能预测。DOEM
,
即
DigitalOperationEventManagement,是数字化运维事件管理产品。DOEM
产品能够帮助企业打通数据孤岛,统一运维的标准与管理规范,减少对运维的事务性干扰,提
升运维的整体管理水平。事件管理DOEM基于大数据与人工智能算法的智能运维落地场景提供从异常检测、问题预测到智能告警、根因分析、容量规划等系列AIOps
方案,真正提高运维工作效率,提升业务连续性。异常检测针对业务指标进行异常检测,提升用户的业务敏感度以及业务连续性用户行为分析用户全生命周期数据分析,实现精准获客、精细化运营、智能触达数据报告对数据进行统计分析,支持数据报告的导出,提升用户管理能力与效率性能问题追踪通过全局拓扑图掌握所有业务运行状态、业务间调用关系以及资源调用情况根因分析基于应用性能调用链的TraceModel和智能算法的根因分析,精准定位故障日志分析实现日志的集中管理、实时检索以及可视化分析智能分析智能分析日志分析DOLADOLA
,即
Digital
Operation
Log
Analytics,是数字化运维日志分析产品。DOLA
产品基于大数据技术与智能算法,能够实现离散日志数据的统一采集、处理、检索、模式识别以及可视化分析,可应用于统一的日志管理、基于日志的运维监控与分析、
安全审计与合规、各种业务分析等运维场景。可视化数据处理流程
数据建模分析可视化分析全方位数据采集多种日志采集器,能够对离散的日志数据进行全面、有效、集中的采集,适配多种数据库,操作
简便,帮助客户减少日志采集的
时间与人力成本。日志实时搜索提供基于SQL
基础语法的搜索能
力,支持表达式、短语查询、字段值、逻辑运算符、数值范围、
模糊等查询条件。日志模式识别利用聚类算法将日志文本中相似
度高的数据聚合在一起,提取共
同的日志模式。提供可视化数据处理pipeline,用户可以通过拖拽的方式直接从
组件库拖拽组件来创建数据处理流程,操作简便。使
用SQL建模语言,将日志数据
抽象成业务模型,供可视化和告
警使用。快速便捷的可视化分析界面,能
够基于搜索结果和配置信息快速显示可视化分析的结果。吕8精准获客
精细化运营
智能触达曝光
兴趣
着陆
激活
付费
服务
流失运营及用户行为分析产品通过以用户为中心的分析理念和实践,为企业提供人人可用的分析平台,在产品功能和运营策略的制定上提供可靠的数据支持,帮助企业挖掘产品快速增长的契机、提升数据分析与应用效率。深入业务场景的运营及用户行为分析客户全生命
周期分析平台开放技术平台全面数据采集深入
分析场景领先
用户模型基于时序数据的异常检测分析基于时序数据的异常检测分析产品,通过异常检测算法对时序数据进行异常检测分析,找出时序数据在时间窗口内的异常点,对异常点进行深入
分析比如根因分析,帮助运维人员定位异常发生的原因,提高运维效率。时序数据异常检测算法2019-01-0916:59
2019-01-0916:59异常事件检测2019-01-0916:252019-01-0916:42
2019-01-0916:59
2019-01-0916:25根因分析(问题定位)基于交易的性能问题追踪用户行为性能分析业务交易时序分析端到端问题定位代码级问题诊断确保业务质量促进业务健康增长性能问题追踪产品基于自动发现技术可整合应用、外部服务、数据库和基础设施等技术栈,形成业务系统全局拓扑,直观呈现面向业务的系统体系架构。通过业务系统拓扑,可以快速分析业务系统组成关系、业务流转过程及各模块健康状态(吞吐率、响应时间、错误率等),帮助IT人员
掌握业务系统整体运行状态,有效进行架构优化、问题定位与容量规划。关键业务过程清晰可视[业务系统拓扑]基于业务系统拓扑的性能问题追踪业务SLA
保障与绩效考评事件优级和影响评估事前预防,变被动为主动业务性能报表报告分析浏览器高覆盖度的立体化监控体系提供端到端贯通从业务直到基础设施的各监控层面,能够帮助企业建立面向业务运维的KPI以及考评体系。应用性能移动
主机高覆盖度的立体化监控体系实时监控业务
性能网络
质量基础
设施通过全球分布式监测点对用户的网站或服务器实现分布式监控,快速发现和定位网络质量问题。提供应用拓扑图及代码层事务追踪,从应口的宏观视角分析系统运行的整体状态,基于端到端细化追踪分析代码
及SQL执口性能。专注于移动端APP性能的监控管理,帮助开发人员实时发现与定位应用崩溃、加载缓慢等各种故障与性能问题。通过浏览器□面的用户行为与体验数据分析,帮助企业掌握页面在不同区域、浏览器下的性能表现,提供口面
的JS
、AJAX
请求错误诊断及页面元素瀑布图,帮助前端开发人员深入定位每□个问题的细节。提供服务器、数据库以及中间件的性能监控,帮助保障主机性能的最佳状态。实现监、管、控口体化的监控运维管理,保证客户日常运维工作的顺利开展,帮助提升运维工程师的网络管控水平,降低管理层的日常口作量,为服务运营提供支撑、为决策层提供可靠的数据依据。通过专业精准的业务性能KPI指标来诠释企业关键业务的运行状态,主动预警和定位业务运行故障,提高企业业务运维保障的水平。网络质量应用性能移动端用户运营与分析浏览器端用户运营与分析主机性能管理基础设施监控业务性能管理高覆盖度的立体化监控体系网络质量监控产品通过全球分布式监测点对用户的网站或服务器实现分布式监控,包括网络稳定性、服务端口可用性、网络路由稳定性、页面元素加载、DNS解析正确性等,从而快速发现和解决问题。DNS
解析状态网络链路质量CDN
效果评估网站或应用是否宕机访问速度是否理想接口和服务是否可用监控目标北京美国分布式监测点上海英国DNS
FTP
TCP基于全球分布式网络的网络质量监控新加坡SMTP
TraceRoute香港UDP分布式监测点实时监测各地和运营商线路监控
项目PING基于SmartAgent的性能数据采集data
data
data
dataJava
PHP.NET
PythonRubyNode.js应用后端性能管理产品以应用及事务为监控对象,监控应用系统在响应用户请求的过程中的执行过程、调用链路、响应耗时、响应状态、异常信息、缓存及数据库操作等性能指标。通过分析监控数据,IT人员可以快速掌握应用系统整体运行状态,包括吞吐率、平均响应耗时、错误率、缓
慢率等,并可针对缓慢及异常情况进行快速诊断及定位,分析应用缓慢代码模块及详细异常信息。应用拓扑请求分析代码堆栈SQL执行外部服务数据库分析后台任务错误&异常应用后端性能管理移动端真实用户体验监控分析移动端用户体验监控分析产品通过SDK
实现对真实用户体验的全量实时分析,采集用户每一次访问过程的性能状态,帮助IT部门主动掌握用户在使
用APP过程中出现的异常问题,并帮助IT人员迅速判断问题影响范围并对问题进行快速诊断、复现和解决。用户体验不再被动的依赖用户反馈
和投诉,而可以以更加直观和高效的方式进行主动管理及优化。网络分析
移动端APP后端质量行为性能崩溃分析卡顿&ANR慢交互问题
H5
页面性能
设备分析组合分析HTTP
请求Socket请求
网络耗时
网络错误
地域分布
运营商接入方式请求服务性能后端问题深度诊断前端性能浏览器端用户体验监控分析通过嵌入监控JS来实现对浏览器端真实用户体验的全量实时分析,深入追踪用户端Web页面加载过程及Ajax交互性能,帮助企业掌握应用系统在不同用户网络环境、不同浏览器、不同地域条件下的性能表现。地域分析端到端深度分析页面后端性能浏览器分析JS错误
分析运营商
分析浏览器端真实用户体验监控分析网页
分析AJAX
分析全局可视化监控实时呈现与统计全IT架构下网络、业务、应用的实时性能(KQI)和状态(KPI),并展示与
KPI/KQI之间多维关系。异常流量定义、发现与分析对网络节点、服务端、用户端、Web、DB等各
个监控对象,实现几十个KPI和KQI的异常预警
和通信对/会话分析。快速的性能故障预警与定位对各类性能指标(KQI)比如:各类时延、错误
、未响应以及访问量进行实时地预警、定位与分析。8
劣化趋势分析主动运维以业务量为主键,对业务量变化时业务链上每个对象的KPI的变化进行关联分析,帮助业务管理部门掌握业务的运行规律,寻找业务链的弱点,预测风险,提高预算质量。网络与业务优化建议●对网络节点、链路、业务、Web、DB的各类KPI和KQI在不同时间段的排名,帮助用户找到最差的监控对象。●对URL,SQL的处理时延、错误率排名,找到
最需要优化的URL或SQL。用户行为审计与分析全量采集、分析、存储所有访问的通信或会话信息,可以帮助运维和安全部门,快速查找某个用户的访问内容,并可通过下载原始数据包,形成
具有法律依据的审计证据。全业务性能管理产品通过专业精准的业务性能KPI指标来诠释企业关键业务的运行状态,通过主动方式的业务运行故障预警和定位,实现最快的突发业务故障的定位排查,为企业提供智能的业务性能监控系统,极大地提高企业业务运维保障的水平。全业务链(网络、业务、应用)性能管理01管理体制标准化0运行情况可视化资源管理清晰化05故障分析智能化03设备监控自动化0质量评估数字化基础设施一体化综合监控产品提供客户IT系统7*24小时的一体化运维管理,保证客户日常运维工作的顺利开展,帮助提升运维工程师的网络管控水平、降低管理层的日常工作量,为服务运营提供支撑、为决策层提供可靠的数据依据。基础设施一体化综合监控主机性能管理主机性能管理产品通过插件式监控探针实现对IT基础设施的全局性能监控,保障基础设施稳定性,减少业务损失,监控的内容包括多平台操作系统性能监控、数据库监控、中间件监控等。PostgreSQLApache
OracleRedisMysqljava:230.5M
Getty:180Mudevd:120Mcrypto:90M网卡1流入:0.23M,
流出:0.03M网卡2流入:0.48M,流出:0.29MCPU使用率:55.3%CPU负载:8.7磁盘1使用率:98%磁盘2使用率:81%20%内存使用率8.7CPU负载2网卡个数14磁盘个数39进程数目录010203了解业务运维DOCP
平台介绍场景与用户价值智能业务运维落地三步走Step3:智能运维Artificial
IntelligenceOperation利用大数据和人工智能技术,解决运维各个环节的效率问题,全面提升IT
运维及业务运营管理质量Step2:业务运维BusinessOperation从业务视角实时感知业务及系统运行状态,实现业务和IT的双向驱动,确保业务连续性,持续提升业务效能Step1:
大数据运维Big
DataOperation面向企业IT,基于大数据技术建立一体化监控平台及数据应用体系形成统一运维管控平台构建完整的IT
监控体系搭建运维大数据平台构建立体化监控工具体系构建多维度分层式指标体系形成多源数据采集、处理与分析能力实现运维大数据应用模式大数据运维落地场景●
业务KPI指标集前端用户指标集●网络性能指标集●应用性能指标集●基础设施指标集业务用户网络应用基础设施大数据运维落地场景-构建多维度分层式指标体系基于多指标关联模型的指标体系关键指标重要指标基础指标应用系统监控工具计算规则规定数据指标来源、监控工具,规范测量方法及参数,指标的计
算规则,确保采集的数据指标准确可靠。大数据运维落地场景-构建多维度分层式指标体系一般
良
好
优秀根据不同的关键指标重要指标的
值以及行业、用户实际情况,建
立问题程度划分模型,定义一致
的评价标准,确保测评的粒度及
用户可接受性。评价层次定义测量方法定义大网络大协同大计算大服务大安全大社群大运维大数据指标维度定义评估维度定义“八大维度”关注资源显示名称
地FW_老机房备办公网交换机53监控类型思科交换机CPU利用率5.00%内存利用率42.31%FW_老机房交换机
54
思科交换机
6.00%
22.60%◆FW_老机房外部交换机
40
思科交换机
18.00%
55.98%◆DW_新机房外部交换机
05
思科交换机
17.00%
43.91%◆DW_新机房备份外部交换机
06
思科交换机
19.00%
56.09%大数据运维落地场景-构建多维度分层式指标体系(举例:基础设施监控)面向基础设施的监控,包括:服务器、内部网络、虚拟设备等IT资源的监控与告警。云
智
慧基础设施
Cioudwise实时监控网络质量应用性能口
移动浏览器主机业务性能3
2017/10/9111572017/9/2312
警告:2—3
2017/9/2118◆分区【/tmp】【分区利用率】严重超…DF
生产认证服务器◆分区【/]【分区利用率】警告超标,当…localhost.loca.
…
.显示名称IP地址产生时间大屏设置告
警
统
计大数据运维落地场景-构建多维度分层式指标体系(举例:应用性能管理)拓扑图关键事务事物分析数据库外部服务消息队列目
应用性能
移动e
浏览器
主机
业务性能
三基础设施myappnamemyappnamemyappniu09:15错误Memcache:10.0.1.117:11211响应时间20.000Memcache:7:11211应用后端性能管理与诊断,包括:应用拓扑、应用健康诊断与分析,APM
性能管理。平均值:10062.74ms2017-09-0809:20平均值:11151.2msspay:443spay:44309:302017-09-0817:5509:405.13次/分钟09:1509:2009:2509:3009:3509:40524次
17.47次/分钟云智慧
实时监控
…JAVAspay:44309:3514次外部网络主动式监控,面向企业分支机构、连锁门店、网站及移动接口可用性与性能监控与分析。云智慧
实时监控
善网络质量
移动
浏览器
三
主机
吊基础设施
业务性能任务列表
任务管理>任务详情
▲告警消息
King-中国银联监控频率:2分钟
监控类型:http
概览
可用率统计
响应时间统计历史快照
告警消息
自定义告警设置
告警通知设置自定义监测点基本信息
昨天最近一周
自定义时间返回平均响应时间(中国地图)响应时间最慢TOP15(ms)河南郑州电信
1709.75
陕西西安移动
1657.26
江苏扬州电信
1181.38广东广州电信
960.63吉林长春电信
925.78湖北武汉电信宁夏银川联通(西藏拉萨联通
809.48新疆乌鲁木齐联通
(
782,37>3000
ms
安徽合肥移动大数据运维落地场景-构建多维度分层式指标体系(举例:网络质量监控)形成统一运维管控平台形成多源数据采集、处理与分析能力实现运维大数据应用模式构建完整的IT监控体系搭建运维大数据平台构建多维度分层式指标体系大数据运维落地场景构建立体化监控工具体系大数据运维落地场景--搭建大数据运维平台Web平台管理
应
用概览
数据源管理模版管理
大屏统一建模/查询引擎可视化建模模版引擎
自定义变量异构数据源关联分析数据存储列式数据库
全文搜索数据库
KV数据库
内存数据库报表/报告强大的函数支持外部数据源关系数据库流式处理Worker数据处理数据存储实时算法告警其他流式处理场景Dashboard下推优化NoSQL数据库任
务
管
理定制解决方案外部集成HDFS基础环境HDFSYARNSparkTensorflow数据采集日志采集基础监控数据采集外部监控数据采集应用性能数据采集移动端/浏览器数据采集业务数据采集数据接收/数据队列Http接收分布式高可用数据队列集群原
始
数
据外
部ETL消费生
产Zookeeper/lgnite应用数量:
应用健康评分:0
3
8.0[应用资源使用量分析
]大数据运维落地场景-大数据应用场景(举例:实时大屏)集团应用健康态势感知当天请求数正常缓慢错误231420异常数1002018-02-2521:35[应用用户体验分析]
[安全]
已处理漏洞数
基线配置不当数
暴力破解数
弱口令数44203943.857/分2737[应用访问量变化趋势][应用故障分析][事务健康度]最近7日平均接手时间最近7日平均解决时间时间时间5小时50分30分0秒25分0秒5小时0分255
1535今日告警处理情况大数据运维落地场景-大数据应用场景(举例:统一智能告警)关分析指标监控未处理
处理中
已处理事件管理Step3:
智能运维Artificial
IntelligenceOperation利用大数据和人工智能技术,解决运维各个环节的效率问题,全面提升IT运维及业务运营管理质量Step2:
业务运维BusinessOperation从业务视角实时感知业务及系统运行状态,实现业务和IT的双向驱动,确保业务连续性,持续提升业务效能Step1:大数据运维Big
DataOperation面向企业IT,
基于大数据技术建立一体化监控平台及数据应用体系智能业务运维落地三步走关注与提升用户体验价值,保障业务持续增长构建完整的业务监控体系VIP用户体验问题监控与诊断业务与IT故障/性能的关联实时可视化监控业务服务质量的监控告警与分析业
务
流
程
>
业
务
环
节
>
业
务KPI业务运维落地场景业务监控自底向上从技术到业务用户体验监控应用服务监控系统服务监控(系统软件、中间件、数据库)系统服务器监控(硬件、虚拟机、容器基础设施监控(机房、网络等)业务运维落地场景--构建完整的监控体系业务运维落地场景--构建完整的监控体系(举例)风险行为-逾期率②设备
正常指标
异常指标
不可用指标主机(355)
350
4网络设备(108)
100
53应用(45)
38
708
0
分查看订单
10:50
11:00良好业务健康度②业务指标②四
2
5
万活跃用户由13.4%
综合收益率监控对象reg.instalmenCertinstalments.com
loan.instalments.com8
1.25万
新增用户数晶6
9
2
8
万
交易额0.7325万
12.9%10.05s
用户体验指数访问用户数
错误率感知时间交付链路状态②告警汇总信息②告警处理情况占比自
3.
8
9万
订单量878亿贷款余额用户体验|苹果分期APP-IOS
版
②状态正常
存在问题申请管理系●申请管理系统●
人脸识别系统●风控系统业
务
与IT
健康关联可视化实时大屏业务健康与IT
运行状态实时监控响应时间2000ms3000ms4300ms可用率98.42%97.62%99.02%状态正常财务结算系
统70分极速借款85分实名认证●已处理●处理中●未处理业务系统健
康
度95分分期状态正常产品管理系问题严重审批系统存在问题人脸识别系99分注册状态正常支付系统88分取现90分绑卡存在问题风控系统79分还款资源总体健康度②各应用系统告警比例按重要等级占比状态正常8.418快捷支付日常统计单日支付被拒TOP10更多■22点-6点交易笔数占单日笔数更多商户名称商户号比例商户名称商户号比例厦门
科技邮箱公司9349100%北京配奉题信息技术有限公司687100%广州题贸易有限公司65420361100%北京断
科技有限公司8052100%浙
江
贸
易
有
限
公
司11097100%深圳市4
五金贸易有限公司10227100%广州天贸易有限公司654230100%山东
泽网量有限公司333058100%深圳
市
物流有限
…10896100%东莞市
制品厂4088100%福州市
贸易有限公司731280100%泰州市
时代带有限公司5931100%国际卡日常统计0-5051-6081-9091-Y以上VISA交易拒付比例0-5051-6061-7081-9091-Y
以上VISA交易诈骗比例■单日支付被拒TOP10商户名称深圳市
实业有限公司王焕伟陈波奇李志刚商户号652003286542031411825113651128211695更多比例100%100%100%100%100%100%■
尾数为数字0的占自然日总数比例商户名称北京
信息技术有限公司北京市量文化传播有限公司石家庄市科技有限公司■22点-6点交易笔数占单日笔数商户名称张思宏杭州网络科技有限公司吉林省
经贸有限公司云南省贸易有限公司山东省
科有限公司
北京市中业务运维落地场景--构建完整的监控体系(举例)同—IP
地址连续3天均有支付成功订单
同
IP地址发生的交易(5卡)更
多比例4%50%100%93%51%12%更
多比例100%100%100%100%87%84%支付成功超过3笔拒绝超过3第
拒绝超过10笔商户号1121810414652086171286741280315业务健康可视化实时大屏■
快捷支付实时监控(最近一个小时)国际卡实时监控(最近一个小时)商户号
10631333411082135971全类交易日常统计IP与发卡国家不一致支付成功超过3笔支付指数30%拒绝超过10第拒绝超过3笔确保业务的连续性面向用户体验的业务监控价值面向用户体验的业务监控价值提升用户对业务表现的感知能力建立统一的业务管理体系提升业务服务质量业务与IT故障/性能的关联实时可视化监控业务服务质量的监控告警与分析构建完整的业务监控体系业务流程>业务环节>业务KPI关注与提升用户体验价值,保障业务持续增长Q
VIP用户体验问题监控与诊断业务运维落地场景应用网
络服务
进程主
机CPU
内存
流量
重传
连通性0B09:0009:0009:1009:2009:3009:4009:5010:00主机CHINA169-GZChinaU.….运营商14IP地址harrylang¹11用户标签10:10
10:20时间:2018-02-0112:13:450.01/minjavaScript错误异常业务运维落地场景--VIP
用户体验问题监控与诊断(举例)应用:www.cloudTrURL:/order/payment.jsp10s响应时间4错误/异常Mobile分辨率iOS
10操作系统Chrome
Mobile
56
浏览器BeijingChina地域0.84Apdex4网络错误告警信息内容磁盘吞吐量100bits
100/s60/s40/s
20/s5/s3/s2/s1/s17:55
18:0014.25%网卡数应
用
网
络
服
务
进
程
主
机发送接收包17:50
17:55M
Received
M
Sent业务运维落地场景--VIP
用户体验问题监控与诊断(举例)Host
ID:
356318766Data
center:Virtualization:VMware
name:ESXi
Host:Architecture:PhysicalCPU
cores:Monitoringmode:site-off¹_dacVMwareExample
hostinternal-037.demo.cropx86,64-bitRetransmissionsreceivedsll
Dropped
packets查看进程分析
质量耗时贡献者分析DOM
interaction0.2s
0.4s
06S
0.8s网络时间服务端时间前端耗时分解容忍时间:3s业务运维落地场景--VIP
用户体验问题监控与诊断(举例)首字节时间首字节时间:375
ms响应可用时间:462
ms页面渲染时间:
831msDOM准备时间DOM准备时间:154ms⑧服务器连接时间:984
ms⑧
前端时间:756
ms189
2.0s1.2s前端时间Action
end智能业务运维落地三步走Step3:
智能运维Artificial
IntelligenceOperation利用大数据和人工智能技术,解决运维各个环节的效率问题,全面提升IT运维及业务运营管理质量Step2:业务运维BusinessOperation从业务视角实时感知业务及系统运行状态,实现业务和IT的双向驱动,确保业务连续性,持续提升业务效能Step1:
大数据运维Big
DataOperation面向企业IT,基于大数据技术建立一体化监控平台及数据应用体系智能运维落地场景减少问题发现与排故时长,提升运维管理效率智能告警
智能异常检测智能故障根因分析
业务与性能量化关联分析关联分析爸×爸事件的关联分析帮助快速定位问题根源问题,降低故障恢复时间,20分钟左右,提升了MTTR
KPI。压缩合并压缩合并后只发送1000
条左右告警消息,压缩到9%,减少91%的无用告警。生产环境每月产生60000+
告警消息集中告警风暴每分钟800+
;智能运维落地场景--基于多源大数据的智能告警概览告警事件详情Neb交换机10分钟告警源:基础设施监控关联分析指标监控eb交换机内存使用率内
容内存利用率针对相关的不同告警消息进行合并收敛比(压缩与合并比例)可达到93%以上智能运维落地场景-基于多源大数据的智能告警(举例)时间:2018-03-1813:24:1320分钟业务:VIP:
王兆林20分钟APM丢包率大于20%CPU平均利用率大于60%丢包率CPU平均使用率2018-03-1813:222018-03-1
813:1310分钟52秒19分钟30秒4
次1
次BJ_Web交换机10:40:3703-01
10:40:3210:40:30cluster:message10:40:37
cluster:
messageIcheck:a,b,c,d,e,f.
…智能运维落地场景--基于多源大数据的智能告警cloudwise-monitor-businestoushibao
事件管理返回列表
告警事件统计cloudwise-monitorcheck:a,b,c,d,e,..微信服务短信服务全屏智能告警
智能异常检测智能故障根因分析
业务与性能量化关联分析减少问题发现与排故时长,提升运维管理效率智能运维落地场景智能运维落地场景--基于大数据与机器学习的智能异常检测数据预处理(性胜佳围原始时间序列数据模式识别时间序列聚类时间序列基线预测2476yMy-yoa(o-2-4
·0
50100150200250300350fitting
&prediction
with
ARMA(2,2)example4智能运维落地场景--基于大数据与机器学习的智能异常检测actualpredict
forcast
abnormalvaluevaluemargin
point91%confidence自动处置
主动告警智能异常检测变被动为主动,快速发现问题减少对人员经验及人工的依赖大幅提升了运维监控效率智能运维落地场景--基于大数据与机器学习的智能异常检测智能告警
智能异常检测智能故障根因分析
业务与性能量化关联分析减少问题发现与排故时长,提升运维管理效率智能运维落地场景共享机器资源
由同一节点连接指标3
根
因指标6
指标2指标4
指标5
指标9指标7最终的故障传播关系规模化带来的复杂性提升追踪和排查问题越来越难需要减少故障对业务的影响智能运维落地场景--基于多源数据的智能故障根因分析逻辑关联模块A调
用模块A模块A逻辑关联模块B
模块A
模块B模块B模块B应用监测数据网络监测数据安全监测数据基础设施监测数据数据分析建模分析建模模型检验模型引用特征工程算法训练数据检索数据资源管理处理与存储数据清洗数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 洪河农场内部管理制度
- 海外联谊会内部管理制度
- 炼铁厂内部奖励取费制度
- 煤矿内部消防管理制度
- 煤矿科内部考核制度
- 理财双录内部监督制度
- 监管变更内部制度
- 科室内部审核制度
- 科研内部协作制度
- 管委会内部培训制度范本
- 2026年苏州信息职业技术学院高职单招职业适应性考试参考题库及答案详解
- 刷单协议书合同范本
- 机械加工学徒合同范本
- 代持车牌协议书
- 水族造景概述课件讲解
- 人教版八年级下册地理上课教案第六章 中国的地理差异
- 《危险化学品安全法》全文学习课件
- DB11∕T 2420-2025 公路工程平安工地评价规范
- 2026年湖南大众传媒职业技术学院单招职业技能测试必刷测试卷及答案1套
- 居民自治课件
- AI医疗扶贫中的资源精准配置策略
评论
0/150
提交评论