微软AzureSQL云数据库中的基于大数据的运维和管理_第1页
微软AzureSQL云数据库中的基于大数据的运维和管理_第2页
微软AzureSQL云数据库中的基于大数据的运维和管理_第3页
微软AzureSQL云数据库中的基于大数据的运维和管理_第4页
微软AzureSQL云数据库中的基于大数据的运维和管理_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

微软AzureSQL云数据库中的基于大数据的运维和管理1微软AzureSQL云数据库中的基于大数据的运维和管理5/8/2024议题AzureSQL数据库系统概述大数据系统架构大数据在运维的应用运维方面的文化2微软AzureSQL云数据库中的基于大数据的运维和管理5/8/2024AzureSQLDatabase(PaaS)基于云的关系型数据库,微软全职管理,用户零管理按需收费,性能动态伸缩超过1百万用户,已经落地中国使用场合LighttransactionalworkloadsMediumtransactionalworkloadsHeavytransactionalworkloads服务在线保证99.99%在线大小2GB250GB1TB数据备份7天14天35天灾难防御Geo-restoretoanyAzureregionPassiveGeo-ReplicationSystemselectedlocation(geo-pairinginAzure)ActiveGeo-Replication,99.9%lagis<2s,upto4readablereplicas.Userselectedlocation(s)性能指标Upto16,600transactionsperhourUpto5,100transactionsperminuteUpto735transactionspersecond优越性高级版基础版标准版AppScalability&PerformanceBusinessContinuityDeveloperEfficiencyCompliantMassivescale&performanceBusinesscontinuity&dataprotectionFamiliarmanagementtools&APIs,Self-managedISO,FISMA,FedRAMP,PCI,..3微软AzureSQL云数据库中的基于大数据的运维和管理5/8/2024议题AzureSQL数据库系统概述大数据系统架构大数据在运维的应用运维方面的文化4微软AzureSQL云数据库中的基于大数据的运维和管理5/8/2024TelemetryIsKing(数据为王)客户云服务基于机器学习的异常检测反馈系统报警系统报表DevOps工具大数据应用KustoCosmos运维大数据系统一天10分钟一天2到5分钟5微软AzureSQL云数据库中的基于大数据的运维和管理5/8/2024Questions?6微软AzureSQL云数据库中的基于大数据的运维和管理5/8/2024数据源类型应用数据量存储方式期限直接查询系统状态实时数据实时了解系统的状态少量不存储,OndemandPullbased

MDS近实时数据预警和短期存储未处理的数据,

查询功能差大量多样,基于AzureBlob7天Cosmos长期数据批处理,大规模查询,长保存数据超超大量HDFS类似的分布存储,便宜60天数据仓库长期数据规范化的数据处理结果和来着其他方面的数据少量SQLTable,行压缩永远Kusto近实时数据基于行压缩的内存数据引擎,可以快速处理各种类型的查询大量内存和硬盘混合,行压缩7天不同类型的数据7微软AzureSQL云数据库中的基于大数据的运维和管理5/8/2024议题AzureSQL数据库系统概述大数据系统架构大数据在运维的应用运维方面的文化8微软AzureSQL云数据库中的基于大数据的运维和管理5/8/2024大数据在运维的应用关键绩效指标(KPI:KeyPerformanceIndicator)对服务报警和监控(AlertandMonitoring)

大数据的反馈系统(FeedbackLoop)基于机器学习的自动报警系统(ProactiveAnalysiswithAnomalyDetection)9微软AzureSQL云数据库中的基于大数据的运维和管理5/8/2024关键绩效指标(KPI:KeyPerformanceIndicator)

在telemetry数据的基础上我们建立了以下指标ServiceHealth(SLA):衡量我们的服务是否达到我们给用户的。比如99.99%的在线率,我们衡量每月,每周,每天和每小时的达标率,对没有达标的客户中断的时间。BussinessKPI:衡量各种类型的客户增长,用户都用那些功能。ComponentHeath:每个产品组都有报表显示模块的健康度事故分析:对前一天的事故做自动的分析,造出已有的原因和对未知原因的做手动分析以上指标每天都在不同场合Review,并且驱动后续工作。我们用这种方法去主导很多决策。让所有人都能熟练的使用数据做决策

(DataDrivenCultureandDataDrivenEngineering)10微软AzureSQL云数据库中的基于大数据的运维和管理5/8/202411微软AzureSQL云数据库中的基于大数据的运维和管理5/8/2024大数据在运维的应用关键绩效指标(KPI:KeyPerformanceIndicator)对服务报警和监控(AlertandMonitoring)

大数据的反馈系统(FeedbackLoop)基于机器学习的自动报警系统(ProactiveAnalysiswithAnomalyDetection)12微软AzureSQL云数据库中的基于大数据的运维和管理5/8/2024故障的周期部署运维日志处理大数据分析决策开发部署自动化自动回滚打开新功能验证新功能部署模拟用户的人工负载报警解决故障事后分析自动反馈系统回答用户问题定义性能指标数据整合和后处理交互式分析报表洞察/领悟(engineering&customers)每天例会

故障讨论

部署进展和计划

重大决策

软件系统工程新系统功能(缺省是关闭的)测试(OneBox)修补缺陷加日志挑战如何减少人的投入如何自动化报警解决事后的调查分析修补发布13微软AzureSQL云数据库中的基于大数据的运维和管理5/8/2024对服务报警和监控 故障的分级0,1,2级要实时解决,要马上知道影响层面,即时通知客户,值班经理要一直在线3,4级正常工作时间解决即时有效报警的重要性(TTD)报警时间要短,比用户要先知道一定要准确(不要整天狼来了)1和2其实是矛盾的预警的类型:主动报警:模仿用户发请求,不相应就报警被动报警:基于近实时的运维数据集中在如何解决用户故障,而不是修改缺陷14微软AzureSQL云数据库中的基于大数据的运维和管理5/8/2024Service故障的周期检测时间TTD(解决时间)TTM修复时间TTPPatchOPSTSGDEVOPSAutoRCAPIR>Sev2=CRIBugCreateMonitoringBugFixedMITIGATED故障处理周期(LifeSite)故障修复周期(Engineering)WatchingActingIncidentdebugging/mitigation(Ops)Incidentdebugging/mitigationWritingRepairItems(RI)Coding&TestingAvailabilityReliabilityPerformanceKPIKPIKPIKPIKPIKPIDeployingCustomerICMAuto-CallingCYCLEIMPACTINGKPIIMPACTEDKPIPROCESSRDresponseTimeTTP=TimeToProduction(TTP)KPIRequiredKPI,regardlessifautomationisinplace.KPIOptionalKPIifautomationisinplace,requiredifmanualActingAUTOMATIONRCANOP激活处理关闭解决IncidentdeclaredIncidentisMitigatedEventnotedTTD=TimeToDetection(TTD)TTI=TimeToIncident(TTI)TTM=TimeToMitigate(TTM)TTC=TimeToCall(TTC)TTA=TimeToAction(TTA)TTT=TimeToTroubleshoot(TTT)CRILSIUpgrade…KPIPost-MortemIncidentResponseICM15微软AzureSQL云数据库中的基于大数据的运维和管理5/8/2024大数据在运维的应用关键绩效指标(KPI:KeyPerformanceIndicator)对服务报警和监控(AlertandMonitoring)

大数据的反馈系统(FeedbackLoop)基于机器学习的自动报警系统(ProactiveAnalysiswithAnomalyDetection)16微软AzureSQL云数据库中的基于大数据的运维和管理5/8/2024大数据的反馈对系统的反馈自动检测和解决已知问题(AutoMitigator)报警的同时做深入分析(SmartAlert)对客户的反馈指导用户优化他们的应用(tunecustomerapp)提前通知用户可能出现的问题(proactivealertcustomer)给用户提供运维数据(providetelemetrytocustomer)对工程师的反馈了解一个缺陷的影响(knowtheimpactofabug)17微软AzureSQL云数据库中的基于大数据的运维和管理5/8/2024MDSBotMitigator(onWAFL)BotAlertDetectorAlertDB(SterlingDB)<<telemetry>>CASCertAuditDB_P1(SterlingDB)CAS(MS)SQLAzureDBDataCenter(WestUS)CAS(MS)SQLAzureDBDataCenter(EastUS)MDSCert…UtilityClusterAutoMitigator系统架构18微软AzureSQL云数据库中的基于大数据的运维和管理5/8/2024SQLAzureDBProductionClustersTelemetryStore(Cosmos/MDS/Kusto)WhatisAutoMitigatorWAFLWindowsAzureFeedbackLoopAutoMitigatorisareal-timefeedbackenginetoAzureSQLDBProductionService.ItgetnearrealtimeinsightfromdifferenttypeoftelemetryItdetectslivesiteissuesautomaticallyItproposesactionstoresolvelivesiteissueItexecutestheactionstolivesiteinplannedcarefulmanner19微软AzureSQL云数据库中的基于大数据的运维和管理5/8/2024ClusterProtectionNegativeFeedbackLoop!ThrottlingLimitpertimeframe(example:10perday)Graceperiod

(example:30minbetweentwoconsecutivemitigations)ConfigurableonmultiplelevelsWorldwideRingNodeAppMitigatorMitigationcommands

scheduling/postponingBotalertSQLAzureDBWAFLCommand1.Create/Propose2.Checkand

Execute20微软AzureSQL云数据库中的基于大数据的运维和管理5/8/2024基于机器学习的自动报警系统

ProactiveAnalysiswithAnomalydetectionRulebased预警有限制系统有大量的信号,无法对未知的信息报警(youdon’tknowwhatyoudon’tknow)报警的阈值非常难设置(is5betterthan6?)解决方案:机器学习一种自适应算法对大量信号源都有效(unsupervisedanomalydetection)通过调整敏感度来控制报警的阈值(1to10)构建一个系统,让人人都可以花最少时间写报警不用懂算法跟已有系统连接自动运行21微软AzureSQL云数据库中的基于大数据的运维和管理5/8/2024算法概述

Shen-shying-ho;Wechsler,H“AMartingaleFrameworkforDetectingChangesinDataStreamsbyTestingExchangeability”IEEETransactionsonSoftwareEngineering(ImpactFactor:5.78).12/201022微软AzureSQL云数据库中的基于大数据的运维和管理5/8/2024EmailRDIncidentsVSTSBugICM

AlertDataDatabase

(DW,NRT,..)

MDS/KustoAnalysisRpackageCloudMLModuleProactiveAnalyticsB

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论