版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、企业自动化运维平台设计方案目录 HYPERLINK l _bookmark0 1.企业运维现状与发展趋势3 HYPERLINK l _bookmark1 2.企业运维存在的问题与需求3 HYPERLINK l _bookmark2 运维人员的工作效率与工作主动性需要提升4 HYPERLINK l _bookmark3 需要建立一套高效的运维机制4 HYPERLINK l _bookmark4 缺乏高效的运维技术工具4 HYPERLINK l _bookmark5 3.业务流程标准化与健全运维管理制度5 HYPERLINK l _bookmark6 实现业务流程标准化,为自动化运维打好基础5 H
2、YPERLINK l _bookmark7 建立完整、全面的运维管理制度,为自动化运维的实现保驾护航8 HYPERLINK l _bookmark8 4.自动化运维技术路线选型9 HYPERLINK l _bookmark9 自动化运维概述9 HYPERLINK l _bookmark10 开源运维工具的应用场景与优势9 HYPERLINK l _bookmark11 Saltstack 实现服务器部署的自动化14 HYPERLINK l _bookmark12 5.自动化运维方案设计18 HYPERLINK l _bookmark13 自动化运维规划图18 HYPERLINK l _book
3、mark14 自动化运维平台模块设计20 HYPERLINK l _bookmark15 企业自动化运维方案总结211.企业运维现状与发展趋势随着企业信息化的不断发展,运维人员需要面对越来越复杂的业务和越来越多样化的用户需求,不断扩展的应用需要越来越合理的模式来保障运维服务能灵活便捷、安全稳定地持续。某企业从初期的几台服务器发展到庞大的数据中心,单靠人工已经无法满足在技术、业务、管理等方面的要求,那么标准化、自动化、架构优化、过程优化等降低运维服务成本的因素越来越被人们所重视。其中,自动化开始代替人工操作在企业的运维过程中逐渐体现出来了强大的优势。运维随着企业业务的发展,自动化作为其重要属性之
4、一已经不仅仅只是代替人工操作,更重要的是深层探知和全局分析,关注的是在当前条件下如何实现性能与服务最优化,同时保障投资收益最大化。通过自动化运维能最大限度地在更少的维修时间内实现运维目标,提高运维服务质量。因此, 对于越来越复杂的运维来说,将人工操作逐渐改变为自动化管理是一个重要发展趋势。2.企业运维存在的问题与需求某企业初期只有文件共享和邮件服务等几台服务器,运维工作完全由人工操作,随着企业的发展,新业务系统不断上线企业建设了中心机房,运维工作还是以人工为主,但是这一阶段增加了网络管理系统和环境监控系统,这两个系统在一定程度上减轻了运维的工作量, 基本上实现了运维的半自动化。企业在发展,运维
5、工作量在不断的增加,企业的运维工作面临以下的问题及需要解决:运维人员的工作效率与工作主动性需要提升在企业运维过程中,只有当故障已经发生并且造成业务影响时才能发现和着手处理,这种被动“救火”不但使运维人员终日忙碌,也使运维本身质量很难提高,导致 IT 部门和业务部门对运维服务满意度都不高。运维人员日常大部分时间和精力是处理一些简单重复的问题,而且由于故障预警机制不完善,往往是故障发生后或报警后才会进行处理,使得运维人员的工作经常是处于被动的状态,怎样才能在故障发生前及时发现并把故障处理掉,使运维工作变被动为主动?需要建立一套高效的运维机制企业在运维管理过程中缺少自动化的运维管理模式,没有明确的运
6、维人员角色定义和责任划分,使到问题出现后很难快速、准确地找到根本原因,无法及时地找到相应的人员进行修复和处理,或者是在问题找到后缺乏流程化的故障处理机制,而在处理问题时不但欠缺规范化的解决方案,也缺乏全面的跟踪记录,企业需要建立一套高效的运维管理制度为运维工作提供方向和依据。缺乏高效的运维技术工具随着信息化建设的深入,企业业务系统日趋复杂,各种各样的网络设备、服务器、存储设备、业务系统等让运维人员难以从容应对, 即使加班加点地维护、部署、管理也经常会因设备出现故障而导致业务的中断,严重影响企业的正常运转。出现这些问题部分原因是企业缺乏事件监控和诊断工具等运维技术工具,因为在没有高效的技术工具的
7、支持下故障事件很难得到主动、快速处理。3.业务流程标准化与健全运维管理制度实现业务流程标准化,为自动化运维打好基础标准化是自动化运维的基础,想要实现标准化,首先识别各个运维对象,然后我们日常做的所有运维工作都应该是针对这些对象的运维。如果运维操作脱离了对象,那就没有任何意义。同样,没有理清楚对象,运维自然不得章法。例如扩容,首先确定是服务器的扩容, 还是应用的扩容,还是其它对象的扩容。你会发现,对象不同,扩容这个场景所实施的动作是完全不一样的。如果把服务器的扩容套用到应用的扩容上去,必然会导致流程错乱。同时对于对象理解上的不一致,也会增加无谓的沟通成本,造成运维效率低下。这种情况下的自动化运维
8、不但不能提升效率,还会越自动越混乱。实现标准化的第一步是物理基础设施的标准化,例如,识别物理对像服务器、交换机、机柜等硬件;识别这些物理对像的属性,服务器的序列号、ip 地址、厂商等信息;识别这些对像之间的关系,服务器所在的机柜、接入哪个交换机的哪个接口了等信息。服务器物理基础设施的标准化如下图(其它设备的标准化以此类推):第二步是应用的标准化,应用服务、中间件,数据库等;例如, 数据库的表、视图、存储过程的标准化,表的字段名、值,索引等, 表和视图之间的关联关系等。第三步是流程标准化,如备份、软件升级、杀毒,新业务上线等流程的标准化,下图是现在的运维流程:自动化运维是基于流程化的框架,将事件
9、与 IT 流程相关联,一旦被监控系统发现性能超标,超过预先配置的阀值或宕机,就会触发相关事件以及事先定义好的流程,可自动启动故障响应和恢复机制。自动化工作平台还可帮助运维人员完成日常的重复性工作,提高运维效率,下图是实现自动化运维的流程图:运维的自动化能够预测故障、在故障发生前能够报警,让运维人员把故障消除在发生前,将所产生损失减到最低。由过去的手工执行转为自动化操作,从而减少乃至消除运维中的延迟,实现“零延时” 的运维。建立完整、全面的运维管理制度,为自动化运维的实现保驾护航运维制度的建立包括环境管理、资产管理、介质管理、设备管理、监控管理、网络安全管理、系统安全管理、恶意代码防范管理、密码
10、管理、变更管理、备份与恢复管理、安全事件处置,应急预案管理等制度。运维管理制度是衡量运维工作的一把尺子,完善的管理制度能有效的提升运维工作效率,日常工作以管理制度为依据,按规定的要求和规定的流程操作既快速又准确;全面的运维管理制度能在问题和故障还没有出现没有造成损失前就被及时的发现,从而问题得到有效的处理,业务连续性得到了保障;运维管理制度为运维工作提供了规范化的解决方案,使运维人员在处理问题时有章可循快速找到问题的根本原因,把问题对业务造成的损失降到最低;运维管理制度是为业务服务的,业务是不断发展的,运维管理制度要跟得上业务的不断发展实现管理制度的创新。4.自动化运维技术路线选型自动化运维概
11、述自动化运维范围包括安装自动化、部署自动化、监控自动化、发布自动化、升级自动化、安全管控自动化、优化自动化、数据备份自动化等。自动化运维系统包括商用自动化运维系统、开源自动化运维系统,自建(研发)自动化运维系统。商业的运维系统在功能上要全面一些,服务支持上能好一些,更新与升级有保障,采购成本较高,对运维人员的技术要求相对较低。开源运维系统更灵活一些,服务支持需要运维人员自身多投入一些时间和精力,更新与升级更个性化一些,相对成本较低。自建自动化运维系统对人员的技术要求最高,成本也不低,但是当企业发展到一定规模后自建的运维系统才能更适合企业对于自动化运维的要求。开源运维工具的应用场景与优势Pupp
12、et 是一个开源的软件自动化配置和部署工具,它使用简单且功能强大,很多大型 IT 公司均在使用 puppet 对集群中的软件进行管理和部署。 PAGE 19优缺点分析:优点是 Web 界面生成处理报表、资源清单、实时节点管理,push 命令可即刻触发变更,缺点是相对其他工具较复杂、需学习 Puppet 的 DSL 或 Ruby,安装过程缺少错误校验和生成错误报表。SaltStack 是一种全新的基础设施管理方式,部署轻松,在几分钟内可以运行起来,扩展性好,很容易管理上万台服务器,速度够快,服务器之间秒级通讯。优缺点分析:优点是可以使用简单的配置模块或复杂的脚本,Web 界面可以看到运行和监控的
13、工作状态、事件日志,扩展能力极强, 缺点是缺少生成深度报告的能力。Ansible 是新出现的运维工具是基于 Python 研发的综合了众多老牌运维工具的优点实现了批量操作系统配置、批量程序的部署、批量运行命令等功能。在进行大规模部署时,手工配置服务器环境 是 不 现 实 的 , 这 时 必 须 借 助 于 自 动 化 部 署 工 具 。优缺点分析:优点是模块可以用任何语言开发、备管节点不需要安装代理软件、有 Web 管理界面、安装运行简单,缺点是对 windows 备管节点需要加强、执行效率相对较低。Nagios 是一款免费的开源 IT 基础设施监控系统,其功能强大,灵活性强,能有效监控 Wi
14、ndows 、Linux、VMware 和 Unix 主机状态,交换机、路由器等网络设备的网络设置等。一旦主机或服务状态出现异常时,会发出邮件或短信报警第一时间通知 IT 运维 人 员 , 在 状 态 恢 复 后 发 出 正 常 的 邮 件 或 短 信 通 知 。优缺点分析:优点是配置灵活、监控项目很多、自动日志滚动、支持冗余方式主机监控、报警设置多样性。缺点是事件控制台功能较弱、无法查看历史数据、插件易用性不好。Zabbix 是一个基于 WEB 界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。用于监控网络上的服务器或服务以及其他网络设备状态的网络管理系统,后台基于 C,前台由
15、PHP 编写,可与多种数据库搭配使用,提供各种实时报警机制。优缺点分析:优点是企业级开源、功能强大、入门容易、数据可以图形的方式呈现、提供多种 API 接口,可定制化开发。缺点是深层次需求开发难度较大、报警设置复杂、缺少数据汇总功能、数据报表需要二次开发。各种运维工具只是用于帮助人员进行运维的,每种工具都有其使用的优势领域,Puppet 适用于软件自动化配置和部署;SaltStack 适用于基础设施管理,在几分钟内可运行起来,很容易管理上万台服务器, 速度够快;Ansible 适用于批量操作系统配置、批量程序的部署、批量运行命令等;Nagios 适用于 IT 基础设施的监控系统,其功能强大,
16、灵活性强,能有效监控各种操作系统的主机、交换路由设备等;Zabbix 提供分布式系统监视以及网络监视功能,用于监控网络上的服务器, 服务以及其他网络设备状态的网络管理系统。以上这五种工具都是开源的,运维人员可以根据企业的规模、业务需要、所要实现的运维功能等要求使用多种工具组合,发挥运维工具各自的优势,运维工具的使用需要人工的干预和决策,工具不能完全代替全部运维工作。还需要结合实际业务逻辑和业务场景,把工具与业务融合到一起,例如,按业务要求对工具进行二次开发,更好的发挥运维工具的优势,提升运维人员工作效率。Saltstack 实现服务器部署的自动化Saltstack 在企业中实现服务器部署的自动
17、化运维,saltstack 是基于 python 开发的一套 C/S 架构配置管理工具,它的底层使用 zeroMQ消息队列 pub/sub 方式通信,使用 SSL 证书签发的方式进行认证管理。salt 我们选择了 0.16.0 版,该版中加入了 multi-masterr 特性,在这种架构下所有的 minion 将连接到所有配置的 master 上去。当一个master 出现故障可以使用其余的 master 继续提供服务,不会影响我们的正常使用,saltstack 架构如下图:Saltstack 在企业中的部署步骤:1、确定 saltstack 软件依赖关系是否满足要求:saltstack 要
18、求 python 的 版 本 大 于 2.6 或 小 于 3.0 , 还 需 要 检 查 以 下 的 库 , 包 括msgpack-python、yaml、jinja2、markupsafe、apache-libcloud、requests 等。2、安装 master 和 minions:我这里服务器的操作系统是 centos 的, 安装命令如下:Wget HYPERLINK /pub/epel/6/i386/epel-release-6-8.noarc /pub/epel/6/i386/epel-release-6-8.noarc h.rpmyum install salt-master y
19、um install salt-minion注:安装成功,显示 Complete。3、创建一个 master 服务的备份节点并复制主 master 节点的 key 到备节点:Master:-默认的 master 的 private key 是在目录: /etc/salt/pki/master. 将该目录下的 master.pem 拷贝到备 master 节点的同一位置,对 master 的 pu blic key 文件 master.pub 做同样的操作,启用备 master 节点,在备节点接受 key。4、重启 minions:配置完成后,minion 将会对主 master 和备 mast
20、er 进行核对,并且两个 master 都对 minion 有操作权限。注:minion 可以自动检测失败的 master,并且尝试重连到一个更快的 master,将 minion 端的参数 master_alive_interval 设置为 true,即可开启该功能。5、saltstack 状态文件的编写,saltstack 上线后,运维工作从复杂的重复的服务器部署和配置工作转移到 saltstack 状态文件的编写和维护,状态文件的编写要考虑模块化和通用性,在大批量部署之前要经过测试,没有问题后再部署,以下是一些经常用到的测试命令:(1)、查询网络连接情况-是否能连接到客户端rootcen
21、tos salt# salt * test.ping localhost:True : True(2)、查询网卡 iprootcentos /# salt localhost erfaces localhost:eth0:hwaddr:08:00:27:59:a9:8dinet:- address:02- broadcast:55label:eth0netmask:(3)、查询磁盘空间rootcentos tmp# salt localhost disk.usage localhost:/:1K-blocks: 28423128available: 21572236capacity: 25%f
22、ilesystem: /dev/mapper/vg_centos-lv_root used:5406132还有很多经常用到的命令在此就不一一列举了,Saltstack 可以实现云计算与数据中心架构编排,Saltstack 可以由 zabbix 监控事件调用,通过 Saltstack 的 salt-cloud 实现对 docker 和 openstack 等云平台的支持,配合 saltstack 的 mine 实时发现功能就可以实现各种云平台业务自动扩展;Saltstack 可以与 CMDB 相结合实现运维平台化、自动化和智能化。5.自动化运维方案设计自动化运维规划图提到自动化运维就不能不说 I
23、TIL,ITIL 即信息技术基础架构库(Information Technology Infrastructure Library),主要适用于 IT 服务管理(ITSM)。ITIL 为企业的 IT 服务管理实践提供了一个客观、严谨、可量化的标准和规范。ITIL 已经成为了 IT 服务管理的国际标准,而CMDB 配置管理数据库(Configuration Management Database)则是实现 ITIL 最重要的内容。随着企业的发展,对于运维要求越来越高,使用现有的开源工具已经不能满足企业对于运维的要求,根据企业业务的发展与对运维的要求建设统一的运维管理平台成为了企业迫切的需求。下面
24、是企业自动化运维总体规划图:自动化运维平台的建设以 ITIL 标准为依据,按照先底层后高层的原则先建设服务工具区域的各个运维子系统,各个运维子系统通过API 的方式对上层提供服务,最后不同的业务平台去调用这些服务接口即可,运维平台的各个层面建设要全面符合管理制度的要求。自动化运维平台模块设计自动化运维平台以 ITIL 标准为依据在此规范上开发的,第一阶段已经做到了业务流程的标准化,现阶段从事件管理子系统开始逐渐完善各个子系统,把各种配置当作服务来看待,CMDB 也可以理解成统一的元数据库,比如说机房信息、服务器信息、人员信息、服务信息、业务信息以及他们之间的物理和业务拓扑关系等,上层的所有系统
25、都应该关联到 CMDB,以 CMDB 为中心,变更后的数据信息必须实时反馈到 CMDB 中,各个运维子系统才能看到最新的数据信息, 确保其他系统能同步这份变更,以达到统一同步的目的。因此把CMDB 系统当作运维的核心系统来对待,有利于后续各个系统之间的互通。以下是部分模块的设计要求:事件管理:负责记录、归类和安排专家处理事故并监督整个处理过程直至事故得到解决和终止。事件管理的目的是在尽可能最小地影响客户和用户业务的情况下使 IT 系统恢复到 SLA 服务级别协议(Service-Level Agreement)所定义的服务级别;问题与日志管理:通过调查和分析 IT 基础架构的薄弱环节、查明事故
26、产生的原因,并制定解决事故的方案和防止事故再次发生的措施,将由于问题和事故对业务产生的负面影响减小到最低的服务管理流程。在问题管理这部分要做好问题处理过程的日志的功能,对于问题的处理提供查询的功能,可以追踪问题以防止类似问题再次发生。变更管理:在最短的时间窗口内完成基础架构或服务的变更而对其进行控制的服务管理流程。变更管理的目标是确保在变更实施过程中使用标准的方法和步骤,尽快地实施变更,以将由变更所导致的业务中断对业务的影响减小到最低。可行性管理:通过分析用户和业务系统的可行性需求并据以优化和设计 IT 基础架构的可行性,从而确保以合理的成本满足不断增长的可行性需求的管理流程。可行性管理是一个前瞻性的管理流程,它通过对业务和用户可行性需求的定位,使得
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 无人机操作入门教程
- 神经外科患者的呼吸道管理与护理
- 护理计划制定与实施
- 统编版五年级下册语文《祖父的园子》教案2课时(含反思)
- 2026年健康活力区与护理区联动销售策略方案
- 2026年基于多维动态模型的数据资产定价机制深度解析
- 2026年跨境电商海外仓9810模式出口退税预退税核算操作手册
- 电力生产问题的分配方案
- 安宁护理:生命教育在疗护中的应用
- 2026年新就业形态劳动者职业伤害防护与权益维护
- 无创呼吸机使用安全操作流程
- 白头翁皂苷B4对雄激素致小鼠脱发的治疗效果研究
- 【新疆、西藏】2025年高考全国卷理综化学高考真题+答案
- 长期血透导管的居家护理
- 警车日常工作科普知识培训课件
- 海外项目质量管理体系的实施要求与案例分析
- 仔猪供货方案模板(3篇)
- 一例肺炎患者的个案护理
- 文明实践健康义诊活动策划
- 2025年内蒙古自治区中考物理试题(原卷版)
- 2024司法考试试题及答案
评论
0/150
提交评论