智能化运维之IT系统统一监控预研报告_第1页
智能化运维之IT系统统一监控预研报告_第2页
智能化运维之IT系统统一监控预研报告_第3页
智能化运维之IT系统统一监控预研报告_第4页
智能化运维之IT系统统一监控预研报告_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、精品文档 IT 系统统一监控预研报告 目录 IT 系统统一监控预研报告 1 1 引言 3 2 平台建设的目标 3 2.1 建立健全企业 IT 运行监测指标体系 3 2.2 完善公司业务监测指标体系,保障业务连续性 4 2.3 管理业务系统容量 5 3 平台架构 5 3 1 平台技术架构 5 3.1.1采集层 6 3.1.2处理层 6 3.1.3 展现层 6 3 2 平台功能架构 7 4 对新核心系统建设的要求 8 4 1 规范系统日志输出 8 4 3 提供服务持续可用性监控方法 10 5 结论 11 1引言 随着信息系统规模持续扩大,业务应用的不断增加,服务用户对象的日益增 多,IT运维管理人

2、员逐渐面临着三大难题: (1) 设备和业务种类繁多,各类资料信息分散,导致位于一线的IT运维监 控人员感知故障的速度晚于信息系统的使用用户,且故障发生后缺乏对信息系统 的整体把控;而后台管理人员也往往因为信息系统 性能数据和故障数据的匮乏而 缺少对系统运行健康度的了解。 (2) 核心机房可能分布于多个地点,部署范围广泛,设备繁杂,对于大批最 网络设备、主机服务器、应用系统没有一个统一的监控平台,不能制定统一的故 障预警管理策略,故障预警效率低,业务恢复时间慢 ; (3) 对关键核心业务系统的运行健康程度缺乏评估手段和预警措施,只能被 动等待问题发生,无法提前采取技术手段和管理手段规避问题。 在

3、此背景下,总分公司一线运维人员数量多但是经验不足,后台运维工程师 经验丰富但是数量少,这些矛盾促使我司在新系统建设时需同步建设一套一体化 的IT运维监控和服务预警平台,协助以自动化的手段完成信息系统的监测和维 护。 2平台建设的目标 2.1建立健全企业IT运行监测指标体系 首先,平台的主要目标是加大对公司内部各遗留及专有监控系统的整合力 度,提高IT运控中心对公司内其他分支机构IT系统管理、检测和把控能力,建 立并完善IT系统监控、IT运行事件响应、IT系统故障处理、IT健康度报告、IT 运行问题跟踪和反馈机制,引人自动化IT运维管理工具,从而在公司内部建立 健全运行管理控制能力,实现IT健康

4、度和业务连续性治理。 在此基础上,进一步优化监控策略,实现对设备及服务项全面、细粒度的监 测,预警和管理,主要包含以下方面: (1)打造多平台环境下安全稳定髙效的检测代理及检测工具 ; (2 )在实现对各类业务系统、硬件和网络设备、机房环境等实时检测的基 础上,完善对新核心系统的全流程监控, 根据性能数据进行预警,并将性能数据 和故障数据引入事件管理平台进行后续治理,以可视化的方式向运维人员提供一 览式的IT服务健康状况视图; (3)构建集成监控平台,对平台的检测插件、检测机制、预警算法、视图 展现等监控资源进行统一管理,实现大屏集中式告警,便于后台管理人员直观地 看到系统整体健康程度;通过视

5、图的灵活组合可以快速定位故障点,结合知识库 缩短处理时间。 因此,IT运维自动化是一组将静态的设备结构转化为根据 IT服务需求动态 弹性响应的策略,目的就是实现IT运维的质量,降低成本。 2.2完善公司业务监测指标体系,保障业务连续性 随着公司信息化的发展,IT技术已经从业务支持逐步走向与业务的融合, 并成为公司稳健运营和发展的支柱。公司内部很多业务流程都已经在IT部门的 支持下实现了流程的再造和优化,提炼并制定了相应的流程图、流程文件及流程 运作机制。但是目前我们对于公司内部业务风险的管控尚处在初步阶段 。各类业 务流程依然面临着来自内部和外部的各种业务风险。例如内部业务风险主要来自 于员工

6、和服务商对信息系统的不当应用,如非授权操作或误操作;外部业务风险 主要来自于外部的不安全事件,如黑客攻击、机房环境变化等。对应用系统进行 业务监控,能够及时识别业务风险,有效进行相应的主动规避操作, 避免造成损 失。 2.3管理业务系统容量 通过业务监控平台可以密切监控业务系统性能,包括系统的业务处理量、处 理性能、各资源使用状况等,通过对系统资源瓶颈的分析,可以降低或提高业务 系统容量; 3平台架构 3 .1平台技术架构 运维平台能够对各类计算机设备、网络设备、安全产品、应用系统等IT设 备运行状况和各种网上行为 进行集中监控,对各类设备进行 全面集中的统一管 理,及时发现各类异常情况、快速

7、定位各类事件故障并 自动形成“工单”、自动 分派,再由调度系统进行分派,由系统按预定流程规则进行自动化处理或人工处 理的运维业务信息管理系统。使运维工作由被动变主动,由手动处理变成自动处 理,并大大降低了运维人员的工作强度,具备良好的延展性,如下图所示: 羽妇M析1 如上图所示,一体化运维监控平台的系统整体框架由下及上划分为 3层数据 采集息(采集层)、数据处理层(处理层)和数据使用层(展现层)。此外,通过平 台的管理控制台,在各个层面都能够对平台进行全方位的配置管理。 3.1.1采集层 采集层主要负责采集信息系统的性能数据和故障数据,通过在信息系统服务 器上部署Age nt,或者通过SNMP

8、协议采集等多种方式与外围系统对接, 获取所 述基础数据。采集层被动地接收平台服务器发出的采集指令,执行相关的信息采 集插件,将采集到的数据放人队列和数据库中,便于后续的分析和数据挖掘。 3.1.2处理层 数据处理层根据不同监控对象的自身特点和运维管理需要,灵活定制相应的 性能指标集,定义所述性能指标集中每个指标的监测范围、数据来源 ,计算方法、 预警阈值、测量频度参数,通过实时和历史性能图表,进行监测、分析和确定系 统性能瓶颈,若超过预警阈值的状况,自动建立事件,并通知运维人员,由调度 系统进行指派,由运维人员手动处理或按照流程规则由自动化运维工具处理。 3.1.3展现层 展现层分信息系统全局

9、视图、系统健康度巡检报表、检测数据査询三个部分。 全局视图可以展现实时监视告警情况,利用巡检报表,系统管理员可以分析系统 性能状况,并记录进事件管理平台。上述综合展示通过业务视图、逻辑拓扑、重 要设备、告警统计各个不同视图,将 运维管理工作所关注的内容有序、实时、全 面地呈现出信息系统资源和业务系统的整体运行状况 。 3 . 2平台功能架构 一体化IT运维监控模型基于松耦合体系架构,采取灵活模块化组装、云计算 灵活部署结构,实现“监控、管理、管控”三个方面协同处理过程,其功能架构 如下:统一访问门户通过一次登录,即可对所有的平台功能进行操作, 针对不同 的登录用户,可以提供专门的个人桌面和辅助工具。 蜒一门户 f Ki (Hr 1転 KlTlftW 帚萍書 4(L#fll H -?% 儘曲潇fl B-C-D ,最终结果依次返回 D-C-B-A ,中间任何环节出现问题, 结 果都返回不到 A )。建议在新系统的建设过程中考虑提供服务的自测工具和监控 方法,服务的自测工具以便让运维人员进行手动的排查问题; 监控方法,主要 是将系统服务的监控纳入监控管理平台,由监控平台对系统服务进行 7*24 小时 不间断的监控。 另外,在服务的设计中, 建议考虑服务的配对规则, 以便在服务间调用发生 异常后能快速的通过配对规则识别出服务的调用方和被调用方, 进而

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论