利用大数据分析重新定义企业服务质量_第1页
利用大数据分析重新定义企业服务质量_第2页
利用大数据分析重新定义企业服务质量_第3页
利用大数据分析重新定义企业服务质量_第4页
利用大数据分析重新定义企业服务质量_第5页
已阅读5页,还剩40页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、利用大数据分析重新定义企业服务质量杨振宇 软件部技术顾问u我们的数据从哪里来?u我们要处理什么样的数据?u我们要如何处理这些数据?u基于大数据的企业服务管理之道u案例分享议程:问题:除了他,任何人都必须用数据来说话!我们的数据从哪里来? IBM CorporationIBM Software Group6 End-user experience monitoring 捕捉应用或服务的终端用户体验 Runtime application architecture modeling 发现应用所依赖的软硬件基础设施,以及它们之间在运行时的通信关系。 User-defined transaction

2、flow monitoring 对指定交易,在执行的过程中,穿越的各逻辑节点,所占用的资源和响应时间能够跟踪 Application component deep dive 单一领域,基于应用环境上下文的的深入分析,和问题诊断 IT Operation Analytics(ITOA) 将数据整合、格式化、分类后,通过关联和智能分析来提供更准确的业务管理能力摘自:GARTNER G00263442 (28 May 2014)数据的来源:企业业务管理的五个维度 IBM CorporationIBM Software Group需要分析很多数据并结合业务拓扑,才能识别问题 2014 IBM Corp

3、oration8 很少有公司是真正以预防为主的 大多数企业只是在业务中断时被动应对 企业的信息孤岛,分离的工具,以及数据的复杂性及如此浩瀚,加大了诊断故障的难度 系统宕机与变坏将造成数以百万计美元的损失,伤害品牌、客户印象及忠诚度 管理层从严要求其团队:事先预防,而不是事后补救IT环境爆炸性增长的数据(日志通常包含了最准确、最真实的关键信息) 拥有5000台服务器的企业每天产生超过1.3 TB 的数据宕机成本超过以往任何时候 关键性业务的宕机会给企业造成每小时数以百万计美元的损失:券商 $5-7百万/每小时,信用卡机构 $2-3百万/每小时,移动业务服务提供商 $66万/每小时,民航代理 $9

4、万/每小时。相对于迅猛增长的要求而言,IT员工的水平则在下滑或没有起色预防性管理的时代已经到来 2014 IBM Corporation9运维团队做不到预防性管理的主要障碍如果在宕机前没有预先诊断的话,运维团队则只能被动应对,眼睁睁看着宕机恶果蔓延有如烧钱一般. 海量数据,无法进行人工分析 现行分析技术如标准阈值分析法,无法实现预防目的 无法诊断到正在发生的问题(在造成业务损失之前) 阈值要么定得太高,在完全宕机之前没有足够的警告 阈值要么定得太低,噪音太多,所有一切都忽略掉了 2014 IBM Corporation10传统业务管理与基于IT运维分析(ITOA)进行业务管理的区别状态考察客户

5、业务系统的应用日志包含准确、详细的交易信息,真实、全面的体现了用户业务系统的状态望闻问切将非结构化的业务系统的应用日志,通过大数据技术进行高效收集、格式化、索引、分析,将业务系统的应用性能状态准确、及时的体现出来,并结合认知技术、逻辑算法,实现故障的提前预警静态研究需要了解被管理业务的逻辑拓扑,建立业务模型通过监控工具获得性能数据,获得KPI数据,更有效的性能管理需要结合动态性能基线来判断业务偏离先进仪器借助于各种先进的仪器,目的是弄清病因、发现病灶,找准病位:资源监控、模拟交易、用户真实交易体验等管理工具基于ITOA 方案传统方案 2014 IBM Corporation11我们要处理什么样

6、的数据?IT运维是一种典型大数据挑战 典型的大型企业: 5000 服务器 + 网络 + 存储 + 中间件,每天产生大约1.3 TB 的可用性和性能管理数据 跨国公司及服务提供商则拥有超过20,000服务器, 每天产生大约4.5 TB数据 Web及移动应用所要求的研发与敏捷开发,产生的数据量则大到难以统计 APM文摘2013: 75%的高级IT总监对传统的管理方式感到不满意, 30%表示他们无法预测潜在的宕机威胁智慧的基础设施带来大数据的机遇 典型的企业产生数以万计的工单和服务申请 来管理他们核心的资产 约每天 1 TB非结构化数据 智能的网络资产自身就会产生大量数据: 电源, 温度, 流量 用

7、户需要提供对资产性能, 可用性及成本管理的洞察和趋势运维管理的需求与焦点转向敏捷与简洁可用性?性能?容量?使用率?构成? 运维和业务线需要洞察 2014 IBM Corporation13服务请求故障通知单社交媒体库存与资产用户文档与技术文档运维大数据的来源:包括结构化、非结构化数据搜索预测优化取得洞察力 基于洞察力 提供洞察力网络流量与事务处理日志文件警告/报警与事件性能指标核心文件与内存痕迹配置文件 2014 IBM Corporation14我们要如何处理这些数据? 2014 IBM Corporation15应用性能管理(APM)事件管理Applications | Systems |

8、 Workloads | Wireless | Network | Voice | Security | Mainframe | Storage | Assets业务成果能力IBM大数据平台IBM 或者第三方解决方案运维环境系统 & 日志监控OptimizeIT应用基础架构优化Search在海量的数据中进行快速搜索快速解决问题Predict问题发生之前进行预测主动规避宕机性能优化RaveSPSSInfoSphere BigInsights WatsonStreamsCloud InsightsIBM SmartCloud AnalyticsIBM持续对分析领域进行投资,并在此基础上构建

9、运维分析能力 2014 IBM Corporation16使用全自动的学习算法来定义什么是“正常”。 然后采用对现有条件的实时评估来预测和尽早发现异常,避免对业务产生实际影响。挑战: 被动的对性能瓶颈进行反应是不够的 为了保证重要的业务系统24X7小时可用, 必须在问题产生影响之前通过预测来进行规避预测 2014 IBM Corporation17适应未来发展方案灵捷,支持动态的基础设施如云计算,变化不断支持异构方案灵活,易于支持多平台及多厂商的性能管理方案利用现有投资不用推倒重来或替换,利用好现有性能管理方案 预测性解决方案的理想特征 2014 IBM Corporation18SmartC

10、loud Analytics Predictive Insights 提供预测分析和自学习 为检测和避免服务中断,进行实时的分析 采用先进的沃森多变量和单变量分析算法. 关联跨多个域和异构数据源的指标 2014 IBM Corporation19Predictive Insights 观察行为单个 KPI 分析 对每个KPI学习其历史的行为 当KPI偏离其历史的行为时,认为是异常多 KPI 分析 识别KPI之间的关系,并按照统计分析所了解的模式进行分组 了解正常的行为模式,并在识别到行为模式与正常的行为相异时,发送警告 2014 IBM Corporation20Predictive Insi

11、ghts 观察因果关系使用统计的方法最可能确定哪些KPI有因果关系 识别大量的数据中,KPI之间的因果关系,并使用他们建立预测模型,并使用这些模型来持续的探测,预测和进行异常分析基于 Granger Causality Test (格兰杰因果关系检验)的方法进行实现 由诺贝尔奖获得者,经济学家Clive Granger提出 使用统计的测试来确定因果关系 对大量的时间序列的数据进行分析,发现存在于这些数据中的因果关系 2014 IBM Corporation21观察KPI数据的模式Predictive Insights 可以识别时间序列数据的模式 使用算法来确定数据是否是季节性的Predicti

12、ve Insights 观察数据每周的模式 Web servers在周一和周五会比较繁忙对每个KPI进行自动的分析 KPI可以在季节性和非季节性中切换 2014 IBM Corporation22异常显示(单个 KPI)与异常行为相关的指标会被绘制成图形绿色的区域是正常的行为基线异常的区域以红色文字描述异常的行为 2014 IBM Corporation23异常显示(多个KPI关系)自动绘制所有的关联指标数据异常领域红色显示文字描述异常的行为 针对大量的时间序列数据,找出其中关键的因果关系并为时间序列数据建立预测模型 利用该模型进行异常诊断和预测Application#2 availabili

13、tyServer 3 No of ProcessorsServer#1 AlertsServer#2Memory FreeServer#1 Out PacketsApplication#1 availabilityTrade volume时间序列数据Granger因果逻辑算法 因果/统计模型多KPI分析 (Granger 因果逻辑算法)对于KPI异常偏离的检测Network PerformanceServer MonitoringMiddleware MonitoringApplication MonitoringCustomer ExperienceStorage MonitoringPac

14、kets Received Errors 20Ping Response Time 100msCountdown to Service ImpactSwap_Space_UsedMainframe MonitoringGC_Rate 20MB/sTransaction Response Time 5 secsCPU Used 90%JVM Memory Used 10Total Transaction LocksTotal Critical Alerts Failed_RequestsAvg MQ Resp TimeAverage Transmit KB/SecCPU_usedContext_

15、Switches/SecSwap_Space_UsedPage_Faults_per_sec JVM_Memory_UsedMethod_Average_Response_TimeGC_RatePing response timePackets Received Errors%_Total_Privileged_Time%_Total_Processor_Time%_Total_User_TimeContext_Switches/SecFile_Control_Operations/SecFile_Data_Operations/Sec File_Read_Operations/SecFile

16、_Write_Operations/SecProcessor_Queue_LengthSystem_Calls/SecProcessor_Queue_Length_ExcessFile_Control_Bytes/Sec_64File_Read_Bytes/Sec_64File_Write_Bytes/Sec_64 Total_Wait_TimeConnection_RateQuery_RateAverage_Query_Processing_TimeAverage_Processing_TimePercent_FailedPercent_Slow,Percent_GoodPercent_Av

17、ailableAverage_Response_TimeFailed_RequestsTotal_RequestsSlow_RequestsGood_Requests需要花费很多时间来响应故障缩短MTTR提升运营效率如果没有针对故障的“提前感知”能力,运维团队只能被动响应故障,令企业遭受业务上的损失基于认知技术对于关键业务系统异常进行预警的典型业务场景TX00101.RespTimeTX00108.TxCountTX00345.RespTimeTX00086.RespTimeTX00221.RespTimeTX00004.RespTimeTX00189.TxCountTX00143.FailR

18、ateTX00101.CountTX00004.TxCountTX00350.TxCountTX00078.RespTimeBusy RatioTX00200.FailRateen01.InByteen01.OutBytehdisk001.readhdisk002.writehdisk001.writedb-A.db2lockCountdb-A.bufferpoolHitRatiodb-A.sortOverflowsub-X.RespTimesub-R.RespTimesub-R.TxCountsub-X.TxCounthdisk003.readhdisk004.writeTX00189.Re

19、spTimeen03.InByteNode-X.cpuNode-X.memoryTX00004.RespTimesub-X.RespTimeBusy Ratio如何确定KPI之间的关系,找到问题根源举例: 指标关系异常(多变量)提前预警- 学习指标之间的关系, 基于动态阈值和模型实现异常告警 大量数据的高级搜索和文本分析 索引、搜索和分析应用系统、中间件和基础设施的运维数据 在大量日志记录中进行快速搜索和可视化应用错误 日志和文档之间交叉索引搜索 预置丰富的知识库要点高级搜索和文本分析采用SOLR处理引擎使用预定义模式和发现模式搜索日志来快速定位问题在大量日志记录中快速搜索和可视化应用错误快速

20、下载、安装和配置加速问题隔离,定位和修复日志分析及预警搜索基于大数据技术实现运维数据分析的典型业务场景基于大数据的企业服务管理之道SCA(LA)大数据存储、查询平台SCA(PI)实时数据处理引擎日志文件Web ServiceSocket Data集中事件平台HADOOPHDFSTEXTAnalyticsKPI 指标结构化数据IBM完整解决方案告警预测告警预测自学习认知技术WATSON算法预测偏离SCM(基础架构优化)主动避免业务故障PredictSearch问题发生之前进行预警在海量业务数据中快速发现问题线索LOB Admin.Or IT Operations应用监控数据发现异常,产生告警基于采集的应用系统数据,通过认知技术,完成行为学习根据异常告警,基于上下文在海量业务数据中发现问题的线索应用监控预测、洞察日志分析事件处理平台1. 完备的业务监控2. 通过认知技术完成行为学习3. 对异常偏离提前预警4. 基于海量业务数据进行异常诊断

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论