如何建立高效it运维自动化管理_第1页
如何建立高效it运维自动化管理_第2页
如何建立高效it运维自动化管理_第3页
如何建立高效it运维自动化管理_第4页
如何建立高效it运维自动化管理_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

如何建立高效 IT 运维自动化管理 摘 要 IT 运维自动化是指将 IT 运维中日常的、大量的重复性工作 自动化,把过去的手工执行转为自动化操作。自动化是 IT 运维 工作的升华,IT 运维自动化不单纯是一个维护过程,更是一个管 理的提升过程,是 IT 运维的最高层次,也是未来的发展趋势。 关键词: IT 运维 自动化 管理 随着 IT 建设的不断深入和发展,IT 系统的运行维护已经成 为运维管理者普遍关注和不堪重负的问题。在过去的 5 年中,很 多企业都实施了很多 IT 系统,使到 IT 运行越来越复杂,也越来 越难管理。调查结果显示有 50%的受访运维管理者认为 IT 运维成 本过高的一个原因是 IT 运维的自动化做得还不够好,依靠手工 流程来管理,不但使到运维效率不高,而且人力成本更是花费惊 人。 当下,IT 运维已经成为企业的必需品,企业关注的是如何提 高 IT 运维的效率,从而实现 IT 资源利用率的最大化。国际知名 调查机构 Gartner 调查发现,在 IT 运维成本中,源自技术或产 品(包括硬件、软件、网络等)成本其实只占 20%,而流程维护成 本占 40%,运维人员成本占 40%。流程维护成本包括日常维护、 变更管理、测试成本等;人员成本包括训练、教育、人员流失、 招聘成本等。因此,如何提高 IT 运维管理效率,降低运维成本 是时下 IT 界和运维管理者最热门的话题之一。 一.传统式 IT 运维管理面临挑战 目前许多企业的 IT 运维虽然已经实现从人工运维到计算机管 理,但这只是处在“半自动化”的运维状态。因为这种 IT 运维 仍然是等到 IT 故障出现后再由运维人员采取相应的措施,所以 传统被动的、孤立的、半自动式的 IT 运维管理模式经常是让 IT 部门疲惫不堪。主要有以下几个方面: (一)运维人员被动低效率手工救火 在 IT 运维过程中,IT 员工被动低效率手工救火,只有当事 件已经发生并已造成业务影响时才能发现和着手处理。这种被动 “救火”不但使 IT 运维人员终日忙碌,也使 IT 运维本身质量很 难提高,导致 IT 部门和业务部门对 IT 运维的服务满意度都不高。 目前绝大多数的企业的 IT 运维现状是如此:IT 运维人员日常 大部分时间和精力是处理一些简单重复的问题;由于故障预警 机制不完善,往往是故障发生后或报警后才会进行处理,使到 IT 运维人员的工作经常是处于被动“救火”的状态,不但事倍功半 而且故障还常常会出现恶性连锁反应。 (二)缺乏一套高效的 IT 运维机制支撑 目前许多企业现有的 IT 运维机制存在如下问题:IT 运维管 理过程中缺少自动化的运维管理模式,也没有明确的角色定义和 责任划分,使到问题出现后很难快速、准确地找到根本原因,并 及时地找到相应的人员进行修复和处理;或者是在问题找到后缺 乏流程化的故障处理机制,而在处理问题时不但欠缺规范化的解 决方案,也缺乏全面的跟踪记录。 (三)缺乏高效的 IT 运维技术工具 随着信息化建设的深入,企业 IT 系统日趋复杂,林林总总的 网络设备、服务器、中间件、业务系统等让 IT 运维人员难以从 容应对,即使加班加点地维护、部署、管理也经常会因设备出现 故障而导致业务的中断,严重影响企业的正常运转。部分原因是 企业缺乏事件监控和诊断工具等 IT 运维技术工具,因为在没有 高效的技术工具的支持下故障事件很难得到主动、快速处理。 尽管 IT 运维管理的技术在不断进步,但实际上很多 IT 运维 人员并没有真正解脱出来,原因并不复杂。目前的技术虽然能够 获取 IT 设备、服务器、网络流量,甚至数据库的警告信息,但 成千上万条警告信息堆积在一起更本没法判断问题的根源在哪里。 还有,目前许多企业的更新管理绝大多数工作都是手工操作的。 即使一个简单的系统变更或更新往往都需要运维人员逐一登录每 台设备进行手工变更,当设备数量达至成百上千时,其工作量之 大可想而知。而这样的变更和检查操作在 IT 运维中往往每天都 在进行,占用了大量的运维资源。因此,实现运维管理工作的自 动化对企业来说已迫在眉睫。 二.为什么自动化是 IT 运维的发展趋势? (一)为什么 IT 运维需要自动化? 所谓 IT 运维管理的自动化是指通过将日常 IT 运维中大量的 重复性工作,小到简单的日常检查、配置变更和软件安装,大到 整个变更流程的组织调度,由过去的手工执行转为自动化操作, 从而减少乃至消除运维中的延迟,实现“零延时”的 IT 运维。 简单的说,IT 运维自动化是指基于流程化的框架,将事件与 IT 流程相关联,一旦被监控系统发生性能超标或宕机,会触发相关 事件以及事先定义好的流程,可自动启动故障响应和恢复机制。 自动化工作平台还可帮助 IT 运维人员完成日常的重复性工作(如 备份,杀毒等),提高 IT 运维效率。同时,IT 运维的自动化还要 求能够预测故障、在故障发生前能够报警,让 IT 运维人员把故 障消除在发生前,将所产生损失减到最低。 首先,IT 运维流程自动化能够提高流程的可控性,可以基 于业务需求来制定个性化的流程,使企业领导有机会看见他们的 业务流程,对企业流程有一个深刻的分析和理解,进而改造和优 化流程。其次,IT 运维流程的自动化能提高透明度。因为随着业 务需求的变化可能会有多个版本出现,手工流程的不透明将会给 流程定制和优化带来相当大的困难,而自动化流程可以使用户能 够一目了然的看到整个流程的各个节点运转情况,自动化工具潜 移默化地提升业务保障能力。再者,运维系统实行了自动化监控 以后,通过工具自动监控对人的工作是一种减负,也是一种降低 成本的表现。 (二)IT 运维自动化管理的具体内容 IT 运维管理,是指单位 IT 部门采用相关的方法、手段、技 术、制度、流程和文档等,对 IT 运行环境(如硬软件环境、网络 环境等)、IT 业务系统和 IT 运维人员进行的综合管理。IT 运维 管理主要包括七个方面的管理内容: 设备管理:对网络设备、服务器设备、操作系统运行状况进 行监控和管理; 应用/服务管理:对各种应用支持软件如数据库、中间件、群 件以及各种通用或特定服务的监控管理,如邮件系统、DNS、Web 等的监控与管理; 数据/存储/容灾管理:对系统和业务数据进行统一存储、备 份和恢复; 业务管理:包含对企业自身核心业务系统运行情况的监控与 管理,对于业务的管理,主要关注该业务系统的 CSF(关键成功因 素 Critical Success Factors)和 KPI(关键绩效指标 KeyPerformance Indicators); 目录/内容管理:该部分主要对于企业需要统一发布或因人定 制的内容管理和对公共信息管理;资源资产管理:管理企业中各 IT 系统的资源资产情况,这些资源资产可以是物理存在的,也可 以是逻辑存在的,并能够与企业的财务部门进行数据交互; 信息安全管理:目前信息安全管理主要依据的国际标准 ISO17799,该标准涵盖了信息安全管理的十大控制方面,36 个控 制目标和 127 种控制方式,如企业安全组织方式、资产分类与控 制、人员安全、物理与环境安全、通信与运营安全、访问控制、 业务连续性管理等;日常工作管理:该部分主要用于规范和明确 运维人员的岗位职责和工作安排、提供绩效考核量化依据、提供 解决经验与知识的积累与共享手段。 (三) 、IT 运维自动化需关注的两类工具 对于企业来说,要特别关注两类自动化工具:一是 IT 运维监 控和诊断优化工具;二是运维流程自动化工具。这两类工具主要 应用于:监控自动化,是指对重要的 IT 设备实施主动式监控, 如路由器、交换机、防火墙等。配置变更检测自动化是指 IT 设备配置参数一旦发生变化,将触发变更流程转给相关技术人员 进行确认,通过自动检测协助 IT 运维人员发现和维护配置。 维护事件提醒自动化,是指通过对 IT 设备和应用活动的时时监 控,当发生异常事件时系统自动启动报警和响应机制,第一事件 通知相关责任人。系统健康检测自动化,是指定期自动地对 IT 设备硬件和应用系统进行健康巡检,配合 IT 运维团队实施对系 统的健康检查和监控。维护报告生成自动化,是指定期自动的 对系统做日志的收集分析,记录系统运行状况,并通过阶段性的 监控、分析和总结,定时提供 IT 运维的可用性、性能、系统资 源利用状况分析报告。 四、基于 ITIL 的 IT 运维自动化平台构建 20 世纪 80 年代,英国政府为了提升信息化设备和系统的运 行效率,指定当时的英国政府计算机与通信局,研究开发一种方 法,用于指导全国政府部门高效、经济地运营信息化设备和系统, 结果产生了信息技术基础架构库(Information Technology Infrastructure LibraryITIL) 。ITIL 供组织内部进行 IT 服务 管理的参考经验,它汇集了 IT 服务业内的最佳实践,是指导如 何在运维管理中定义人员、流程、服务活动及其之间关系的指导 框架。 ITIL 的框架包括业务管理、服务管理、IT 基础架构管理、 安全管理、应用管理、IT 服务管理规划等,其中最核心的是服务 管理中的服务支持和服务提供。IT 主管部门可能更关心服务支持, 服务支持主要包括:服务台、故障管理、问题管理、配置管理、 变更管理和发布管理等六个模块。 可以借鉴 ITIL 的思想来构建全面的基于 ITIL 的 IT 运维自动 化平台。主要包括如下几个核心部分: (一)IT 服务管理基础平台 搭建 IT 服务管理基础平台系统由应用服务器、数据库服务器、 客户机组成,使用分布式部署,减轻核心服务器的压力。创建用 户类型、定义安全机制、代码表配置、组织结构数据建设、人员 数据建设、资产数据装载,制作统计报表。 (二)服务台建设 数据中心服务台负责全行服务请求的处理和转发,技术上主 要是对服务台工作人员进行培训,掌握全面的运维知识,熟悉服 务台职责;管理上主要是制定服务台运维管理制度,明确服务台 人员的工作内容与操作规程。服务台是用户申报事故以及获得事 故处理结论的统一入口,主要工作包括以下几个方面,一是完成 响应服务请求,处理常见的运维事件,将不能解决的事件升级; 二是发布相关的运维信息,如网络、业务系统、设备故障等;三 是协助提高 IT 部门事故处理质量,增加用户满意度,形成有效 的事故处理和踪的手段。 (三)事故管理建设 借鉴 IT 服务管理的经验,为了灵活实现运维系统各个流程 建设,在实践中简化了流程以适应运维工作的需要。在事故处理 流程建设中,管理标准的做法是直接将事故送到服务台,由服务 台负责处理或者分发,而实际工作中,将业务系统的监控事件直 接送到业务管理系统的管理员,服务台负责监督事故处理完成的 情况。 (四)问题管理建设 问题管理管理员直接手工新建问题工单,或者由服务台或事 故管理来触发问题工单管理流程。当问题由于成本与技术等原因 暂不消除时,可定为已知错误,后期可继续处理。找到问题的根 本原因,并提供临时措施与根本解决方案,防止问题再次发生或 减少问题的数量。 (五)配置管理建设 配置管理数据库储存与管理企业 IT 架构中设备的各种配置信 息,它与所有服务支持和服务交付流程都紧密相联,一方面支持 这些流程的流畅运转、发挥配置信息的价值;另一方面,帮助技 术人员受到服务请求时获取相关技术支持,同时依赖于相关流程 保证数据的准确性。 在建设初期通过配置项自动发现,整个企业 IT 架构的配置项 导入配置项,为了保证数据的准确、全面、我们要求业务系统、 设备等管理人员提供、核对相关数据,保证在运维中能准确利用 数据进行运维。 (六)变更管理建设 确保在 IT 服务变动的过程中能够有标准的方法,以有效的控 制变更,降低或消除因为变更对业务运营所造成的影响与问题。 由专家和技术顾问组成,对提交的变更请求(RFC)进行评审, 并最终裁定是否批准实施该变更请求。变更审计管理,通过自动 化管理系统定期对配置项进行自动扫描,发现企业 IT 架构中的 非法变更,管理员根据变更的信息,选择变更恢复或者进入变更 流程,帮助管理人员进行变更的审计管理。 (七)发布管理建设 通过正式的流程确保只有经过完整测试与得到授权的软件与 硬件才能够进入正式运行环境,以确保变更后生产环境的质量。 发布的最终结果将会反映到自动化管理系统中。 (八)知识库建设 将成熟可行的解决方案录入知识库,进行数据共享,快速排 除故障,从而达到提高用户“自助式服务”能力的目的。当运维 人员进行事故、问题、变更和发布运维流程时,可以根据不同资 源类型,自动关联该类型的知识条目,帮助运维人员快速解决问 题。知识库的自身管理,包括建立、审核、分类、评价、订阅、 收藏、搜索知识等,需要经过知识库管理员审核后才能进入知识 库。 结语,随着社会的发展和信息化的进步,IT 运维服务管理必 将是一个长期性的话题,需要运维管理业内人员进行不断的研究 和进取。实现 IT 运维自动化管理是 IT 运维工作的升华,IT 运维 自动化不单纯是一个维护过程,更是一个管理的提升过程,是 IT 运维的最高层次,也是未来的发展趋势。 注 释 1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论