版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、自动化运维技术及最佳实践技术创新,变革未来传统运维面临的挑战排查问题ClientDatabaseOSNetWorkMiddle-WareApplicationH/W嘿!业务出问题了!数据库供应商网络厂商中间件厂商应用开发商硬件供应商OS供应商谁也不知道系统到底怎么了?信息滞后一、谁也不知道系统到底是什么情况,只有出事了才知道系统存在问 题,甚至出事了都不知道系统有啥问题二、有时候领导都听说系统出问题了,运维部门还不知道 三、运维人员往往担任的是“救火队员”的角色。人员一、编制和经费紧张,没办法请专家在一线坐镇。出问题后,专家到 现场才发现很多数据没采集,无法定位问题二、单位里的高水平人员太少,
2、一旦高手休假或者调离岗位,运维风 险就急剧增加,运维了十多年,运维水平的提升似乎遇到了瓶颈环境一、系统往往是分阶段建设,基础环境复杂。往往包含多种主机类型、 多套业务系统。技术要求较高。二、系统变更频繁,运维人员甚至不清楚数据中心的拓扑情况。三、运维和开发之间的矛盾。缺乏强有力的证据证明系统是否存在问 题。四、运维服务外包给第三方公司,但是第三方公司的支撑力度无法满 足不断提高的运维要求的需要。技术更新迭代快速Oracle一般每34年推出新版本数据库产品,每个版本中都相对之前版本具有新特性。 客户目前数据中心主流软件版本为10g、11g。随着12CR2的正式发布,已有客户广泛使用12C中CDB
3、/PDB特性、in memory option特性。 甚至有客户已开始使用18C自愈数据库进行边缘业务交付。12C几个重要的新特性适应一个新版本的特性往往需要几个月甚至半年的专业学习。 需要学习新特性的含义,最优参数配置,最高效使用方式。自动化运维技术发展史运维发展时间表无序化运维脚本化运维自动化运维智能化运维没有规矩,不成方圆少量场景自动化1、让机器干机械的事2、标准化是前提1、让机器干人的事2、机器学习+人工智能运维发展阶段在很长一段时间内,手工运维、自动化运维、智能化运维将三者并存文档化运维知识手册+个人经验工具化运维部分场景自动化纯人工运维:没有规矩,不成方圆纯手工敲命令查询相应的SQ
4、L来获取需要的信息,将信息记录并整理,对比后得出 结论和解决方法高度依赖个体工程师价值,运维质量难以保障!师傅领进门,修行在个人。培养成本极高!人不够了?招!导致:人才无法线性扩张!耗时长,数据对比繁琐,恢复时间长!脚本化工具化:常见通过shell脚本来快速查询相应的多条SQL语句,获取需要的信息。通过一定的定时任务触发相应的检查脚本,每天都需要将脚本输出信息进行 查看,排序,且脚本输出一般为纯文字形式,显示不直观。同样依赖个体工程师价值来进行脚本编写,问题解决,运维质量难以保障!标准化运维:人+工具(文档)+流程工具流程职责权限技能人员变更故障实施监控告警文档增加标准化监控设备,通过监控设备
5、及时触发告警信息,转变运维服务模式,增加文档知识库的建立。规范化变更、故障解决、实施流程,将运维交付进行标准化。规范人员职责划分,权限分类来更好的进行运维规范。oracle EM cloud control 12C我们有时候会使用oracle EM来进行监控。使用Oracle SQL Tunning和SQL Access Advise来进行SQL优化优点:能够给出性能瓶颈点,可以快速对症下药 弊端: EM cloud control 12C 需要license且部署繁琐自动化运维少量运维专家+运维机器人-参考:裴丹落地生根:AIOps路线图标准自动化运维:让机器干机械的事大规模机器,大数据量。
6、应用场景如下:实时监控日志分析自动巡检快速部署弹性扩容故障处理(常规故障,二维故障)自动化运维的前提互联网企业具有天然的优势,在自动化运维方面会早一些。但传统企 业及中小企业几乎为零起步,大部分企业还处于原始人工运维的阶段。 标准化是最最最重要的前提,标准化指的是:1、设备标准化2、系统标准化3、数据库标准化4、接口(日志)标准化智能化运维的未来发展方 向背景绝大部分公司目前AIOps还处于探索阶段,小部分公司处于系统性建设 基础的阶段。很多吹得神乎其神的AIOps落地的公司或组织,我觉得很少能在大规模 场景下经得起推敲。很多情况下,使用的都还是传统的统计分析方法,只是被包装了一个 AIOps
7、的名字而已。但同时这也是任何事物发展过程中的一个必经阶段。目标未来集中主要在两个大方面: 1、成本,需要从节约成本。2、可用性,需要以提高效率为根本宗旨,做到及时发现问题,快 速定位问题,最终解决问题。系统可用性量化指标业界用N 个9 来量化可用性, 最常说的就是类似 “4个9(也就是99.99%)” 的可用性。智能化运维:基于机器学习很多运维场景都可以总结成一些规则化的东西,可以经过提炼 总结生成人工经验库。除了人工经验以外,还可以通过AI算法 对历史数据进行分析,得到一些由机器生成的规则。运维大数据:机器学习为主,经验为辅为机器学习提供素材,掌握系统业务节奏(全局和局部),明确 资源临界点
8、(阀值)智能化运维很大程度上取决于数据的质量及样本的丰富性。也就 是说,如果样本很少,数据本身带有倾向性,质量不高,那么 AIOps的准确性和效果就会大打折扣。运维大数据:机器学习为主,经验为辅风险异常预测 资源异常预测,如空间、CPU、内存、I/O等 性能异常预测 故障规律预测为决策提供依据图:硬盘故障趋势智能化运维:让机器干人的事运维自动化运维大数据预测智能化运维四大要素机器 学习经验 算法分析研判故障处理后台架构机器学习引擎变化监测引擎CPU内存I/O网络数据库参数 数据库配置 统计信息 DML频率 对象DDL业务模型TOP SQL TOP OSW会话登录SQL解析SQL执行SQL提交网
9、络返回性能解析模块主机资源数据库资源性能测试模块小型数据库指主机资源负载较低,并发不高的数据库,空间小于500GB。其性能问 题往往是由SQL执行效率引起。中大型数据库指主机资源负载或者事务并发较高的数据库。其性能问题往往由主机资源不 足、数据库资源冲突、SQL执行效率等相关。AI性能运维需求:不同类型的数据库,AI性能运维需求不同以结果为导向,傻瓜式的操作指南过程性的关联告警,明确问题方向谁需要AI运维?小白。性能优化难点不报错无头绪时好时坏所有性能优化目标:性能拐点后移找到变化=找到问题方向性能优化关键点1:寻找变化分类,朴实无华的名词:流程化肢解性能问题AI性能优化关键点2:分类AI性能
10、优化关键点3:寻找拐点和突变点突变点:拐点:主要用途:应用于多种场景,如性能告警,判断各子模块性能异常肢解+标签AI性能优化关键点4:智能标签AI性能优化关键点5:机器学习1、学习曲线规律(数据库指标特征)2、预测变化趋势3、修正告警阀值、性能预警数据统一分析引擎和智能阈值事件和时序关联分析:时序数据库(RRD、Whisper/TSDB)智能运维:逻辑读超过正常水平分析自动化运维主流技术手段及框架开源工具随着互联网的发展及开源框架的兴起,很多企业逐渐意识到借助 开源工具能够大幅度提高运维效率,这也大大缩短了企业实施 DevOps的周期,为进一步实施AIOps打下了基础。因此,从节奏 和趋势来讲
11、,AIOps落地会比想象更快。载体DockerKVMAnsible经典的ELK一台服务器怎么打补丁?上万台服务怎么打补丁?自动化运维平台目前自动化运维产品主流部署模式主流产品类型适用于本身具有高级技术的DBA维护人员。通过大量的信息提示能够能自行对比数据之间的差异变化,判断问题产生原因,找到解决问题的方向。通过积累的大量专业知识快速使用命令解决问题。维护人员本身具有快速发现,排查,解决问题的能力。适用于没有专业DBA技术的维护人员。通过监控运维平台快速感知问题症结点。通过运维软件中封装的大量运维工具能够快速获取解决方案,解决运维问题快速恢复业务或提前解决预警问题。美创眼中的自动化运维自动化运维
12、之框架监控何为监控?监控是给不懂的人看的监控不是指标的简单展示监控之间的指标不是孤立的监控容易做,告警很难做监控是需要精确反映问题的DBA日常都在做些什么?能否通过监控展示出来?DBA最关注的性能是什么?能否通过监控展示出来?如何避免告警泛滥?平安短信关联告警DBA日常在关注些什么?可用性性能可靠性错误变化DBA最关注的性能是什么?考虑以下几个问题:如何挑选几个指标准确描述数据库状态?SQL执行流程如何在大屏中展示?预警,分为案例库匹配预警、自发性预警告警,特征值过程性关联告警知识库,根据告警内容自动匹配知识库数据中心一体化监控运维平台简单指标采样运维大数据日常巡检机器 学习经验 算法故障修复
13、性能优化知识库操作简单:无需繁杂的参数配置,复杂的界面跳转,能够通过鼠标点击 完成任何功能实现 “数据简单”:将用户需要的信息从复杂的信息海洋中提炼出来,展示 出直观的数据库状态,不再让用户寻找判断问题症结。使用简单:通过报告直接给出解决方案和建议,大大降低用户的DBA技术 门槛,完成高级DBA才能完成的工作高效、专业、丰富高效:内置各种功能都能够快速达到客户目标。通过几个简单的步骤就 能快速输出针对当前问题的解决方案。专业:产品开发公司需要有足够的DBA技术积累,才能够将技术积累开发 成产品进行交付,平台中的任何工具都必须要有足够的专业性,内部封 装的各类采集器都需要做到最优化,减少客户环境
14、中的资源消耗问题。 尽量避免产品本身BUG。产品要具有前瞻性。丰富:需要丰富的功能列表,考虑到客户日常运维过程中尽可能多的运 维难题,才能更好的发展运维监控平台的功能监控,以过程为导向。实时反映系统健康状态巡检,监控的补充。检查遗留问题、故障隐患软件配置可用性安全性资源参数可靠性实例监听服务容灾备份弱密码高权限主机资源数据库资源主机参数数据库参数RDBMSGRID巡检平台会话登录解析执行提交/返回内存资源主机资源数据库参数RAC Statistics以SQL生命周期为依据,流程化解析数据库性能动态评估SQL执行效率,分析SQL执行计划性能解析故障处理的难点: 未来还没发生的故障 不同因素之间的
15、干扰当前能做的: 解决容量不足类故障 保留故障现场 快速止损故障处理故障处理快速止损是当前数据库智能化运维领域中最易实现的监听重启实例重启kill进程空间扩容固化执行计划Kill锁主机 资源扩容现场保存阀值告警快速止损的常见手段:构建策略知识库01美创选择的运维开发运维人员掌握开发技术,面对复杂的环境、大批量的目标,通过写简单的小程序,多快好省的完成工作, 就是DevOps。02为什么是Python可供使用的模块多。比Java简单。和操作系统打交道方便。开发周期短:同样实现一个功能,C语言需要1000行,JAVA需要100行,Python仅仅只需要10行。等等。DevOps:运维开发03Dev
16、Ops:运维开发这个Python程序只有42行(算上空行), 实现的效果却十分惊人,它可以批量在多台主 机上运行指定脚本。roothzmc tools# ./case1.py -host host_list.txt -cmd cmd_list.aop # 192.168.200.222 #Space:FilesystemSizeUsedAvailUse%Mounted on/dev/sda1241G31G198G14%/tmpfs3.9G911M3.0G24%/dev/shmFree Memory:cachedtotalusedfreesharedbuffersMem:785831244733
17、02242371-/+ buffers/cache:5287330Swap:999909999Process count:233# 192.168.200.223 #Space:Used Avail Use% Mounted onFilesystem/dev/sda1 tmpfsSize 241G7.8G83G146G37% /72K7.8G1% /dev/shmFree Memory:totalusedfreesharedbuffers768582520312150814429287971215937cached Mem: 5864-/+ buffers/cache:Swap:9999Pro
18、cess count: 210这是运行的效果,在多台主机(画面上显示的 是两台)上显示空间、内存和进程数。脚本接收两个参数,一个是命令文件: cmd_list.aop,一个是目标列表文件: host_list.txt。这个是主机列表文件:roothzmc tools# cat host_list.txt TARGET1IPADDR = 192.168.200.222USER = oracle PASSWORD = hzmcdba SCRIPT_DIR = /tmpTARGET2IPADDR = 192.168.200.223USER = oracle PASSWORD = hzmcdba SCRIPT_DIR = /tmp这个是命令文件:roothzmc tools# cat cmd_list.aop echo Space:df -hechoecho Free Memory: free -mechoech
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年高级城市规划师资格考试《城市规划实务》备考题库及答案解析
- 2025年执业医师《外科学综合》备考题库及答案解析
- 商铺物业费代缴协议合同2025年范本
- 商铺电路改造安全协议2025
- 软件开发合同协议2025年源代码归属
- 人工智能模型训练服务合同协议2025
- 汽车租赁服务协议2025年
- 2025年人力资源三支柱模型(COE、SSC、BP)应用考试试题及答案
- 2025年冲突管理与有效沟通考试试题及答案
- 大型泥芯销售合同范本
- 2025年兵团连队考试题库及答案
- 客户项目承揽管理办法
- 甲醇制汽油可行性报告
- DB64∕ 266-2018 建筑工程资料管理规程
- 撬装加油站培训
- 主动脉夹层急救护理常规
- 交警大队保密管理制度
- 医院老年医学科管理制度
- 2025年高考数学全国新课标Ⅱ卷试卷评析及备考策略(课件)
- 非法吸收公众存款罪60课件
- (高清版)DB1303∕T 345-2022 公路工程施工安全技术资料编制指南
评论
0/150
提交评论