版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
运维技术方案广州咨元信息科技有限公司2015年6月IT管控系统技术方案 本文档仅广州咨元信息科技有限公司和被呈送方内部使用,未经双方许可,请勿扩散到第三方。第149页共149页文档说明本文档所涉及到的文字、图表等,仅限于广州咨元信息科技有限公司(以下简称“广州咨元”)和被呈送方内部使用,未经双方书面许可,请勿扩散到第三方。文档属性属性内容客户名称:项目名称:文档主题:运维技术方案文档编号:文档版本:1.0版本日期:2015-06文档状态:作者:文档变更版本修订日期修订人描述1.02015-06广州咨元提交稿文档送呈单位姓名目的目录TOC\o"1-3"\u1 概述 82 IT运维管理项目分析与设计 102.1 运维管理的必要性 102.2 IT运维管理目标 112.2.1 提升遵从于业务目标的IT服务质量 112.2.2 提升IT资源管理能力 122.2.3 IT投资效益最大化 122.2.4 可持续改进的服务管理体系 132.3 系统设计原则 142.4 系统建设内容 162.4.1 统一CMDB 162.4.2 IT集中监控管理系统 163 项目需求功能列表点对点应答 174 IT集中监控管理系统 274.1 逻辑架构设计 274.2 物理架构设计 284.3 采集层 304.3.1 操作系统监控模块 304.3.2 主机硬件监控模块 334.3.3 虚拟化监控模块 344.3.4 数据库监控模块 374.3.5 中间件及应用监控模块 394.3.6 存储设备监控模块 574.3.7 网络监控模块 594.3.8 业务场景监控 634.4 处理层 724.4.1 集中和分布式的事件处理架构 724.4.2 统一的集中事件管理界面 724.4.3 多级告警事件级别 734.4.4 告警事件信息自定义 734.4.5 开箱即用的集中事件处理规则 734.4.6 事件告警通知方式 744.4.7 事件定时器 744.4.8 事件规则处理语言 744.4.9 分级权限管理 754.4.10 自定义事件拓扑视图 754.4.11 动态基线 764.4.12 与第三方软件双向集成方式 774.5 门户和报表平台 784.5.1 监控展示门户 784.5.2 报表 834.6 CMDB平台建设 904.6.1 CMDB介绍 904.6.2 CMDB实施 924.6.3 自动发现工具ADDM 944.7 突出特点 974.7.1 采用单一代理实现采集 974.7.2 主动式动态基线和动态阈值 1024.7.3 自我监控功能 1054.7.4 灵活的开发工具 1064.7.5 平滑升级与扩展 1094.7.6 同时提供基于代理和无代理的采集方式 1095 系统内外集成接口 1115.1 接口建设原则 1115.2 丰富的集成方式 1115.2.1 集成外围系统的信息 1115.2.2 外围系统集成监控平台信息: 1135.3 监控管理与流程系统接口设计 1145.4 监控管理与流程系统的集成场景 1155.4.1 短信接口 1175.4.2 邮件接口 1176 产品配置建议 1197 项目实施方案 1207.1 实施方法 1207.1.1 实施框架 1207.1.2 实施流程 1207.2 项目实施阶段划分 1237.2.1 实施内容 1257.2.2 计划与准备 1257.2.3 分析阶段 1267.2.4 设计阶段 1277.2.5 构建阶段 1297.2.6 验证阶段 1317.2.7 部署阶段 1327.2.8 项目收尾阶段 1347.3 项目管理 1367.3.1 范围管理 1361.1.1 沟通管理 1377.3.2 问题管理 1387.3.3 质量管理 1417.3.4 变更管理 1437.3.5 风险管理 1457.3.6 进度计划 1497.3.7 项目完成标准 1507.4 项目资源 1557.4.1 项目组织架构 1557.4.2 人员履历 1567.5 项目计划 1707.6 培训 1717.6.1 设备及产品安装配置培训 1717.6.2 报表开发系统集成开发培训 1727.6.3 系统日常运维培训 1737.7 运维服务 1737.7.1 原厂服务 1737.7.2 实施方售后服务 1798 附录一:功能项点与产品模块对应 182IT运维管理项目分析与设计运维管理的必要性管理体系视角从IT内部的系统运营保障的角度,IT部门的IT服务未被有效管理、IT服务未计划,IT保障体系更多是被动响应的方式,在提升IT服务主动性方面,当前管理体系的效果不甚明显。同时,由于当前部门责权体系本身的限制,部门内部有自己的IT服务流程,无法充分适应IT运维的特点,加上技术手段的缺失,对当前的IT管理控制能力有越来越弱的趋势;IT资源管理IT资源(硬件/软件资源、有形/无形资源、物理/逻辑资源)没有统一的管理平台,资源管理无法面向业务,IT资源的投入无法反映到关键业务,这对企业IT的整体运作造成较大的风险,也无法实现整体绩效的提高。资源管理缺少统一的管理方法及有效的工具系统。业务需求和IT服务提供的不一致依靠当前的IT人员和IT资源管理现状,IT部门向业务部门提供IT服务的能力以趋于极限,而来自业务部门的IT服务需求又越来越高,同时没有有效的对这些服务需求进行管理,导致了业务需求和IT服务提供之间的矛盾会越来越突出。人员绩效没有一套行之有效的IT服务人员的绩效考核指标,也就无法对IT服务人员工作饱和状态的统计,对IT服务的质量、服务能力也无法跟踪。若要再进一步提升IT服务质量,必须依赖更多的IT维护人员,付出更多的IT服务成本。管理工具在IT服务管理体系中,主要用于IT管理的工具包括以下几类:对人员活动进行流程管理的服务流程管理平台对IT资源进行管理的IT资源管理系统对基础架构的性能、状态和使用趋势进行管理的监控系统IT操作的自动化系统在一个理想的IT管理规划方案中,这几类工具系统是互相结合,协同作用的,才能最大化的提高IT服务的效率和质量。其中IT服务管理流程平台帮助流程进行落地和固化,并且自动产生周期性的IT服务数据报表,提供管理决策依据;资源管理系统做为IT资产基础信息,是全面、唯一的IT资源数据来源;监控系统是实现主动管理的必须手段,通过精确了解IT基础架构的运行状态和运行趋势,以实现防患于未然;自动化系统是实现IT审计、IT基础架构变更批量操作的必需工具,有效提高操作效率和降低操作风险。IT运维管理目标提升遵从于业务目标的IT服务质量能够持续的、为业务部门提供统一标准的高质量IT服务,发挥IT服务部门在战略中的支撑作用,给各个业务板块提供明确目标(满足或高于业务需求的)、可度量的IT服务。充分支撑业务和内部管理运作,为整体运营提高效率,提供保障,实现以下宏观收益:流程规范化:通过ITIL标准流程与现有流程的结合,确实有效的规范IT管理流程,提高管理水平和工作效率;人员专业化:实现ITSM流程岗位的角色落地,使人员可以按照流程设定岗位进行工作;流程自动化:改变了以往手动或者半自动的工作模式,大大提高了工作效率;自动通知:通过集成邮件和短信,实现任务分派、升级的自动通知功能,大大减少了分派工单的渠道,从而提高了响应和处理工作任务的效率;工作过程可视化:相关工作的痕迹将被保留在系统中,使工作的过程可以被管理层和服务台监督,从而大大减少了工单处理如“泥牛入海”的情况出现;工作结果可量化:通过数据的分类累积,使需要的KPI考评得以实现;平台标准化:通过标准化的设计和建设,使IT服务能够在全国共享统一平台,平台价值最大化;IT服务知识积累:通过知识库,对IT运维进行知识积累,通过知识库,对事件的解决提供辅助/参考的解决方案。实现全面集中监控;实现集中事件管理;提供基于IT基础设施和在其之上构建的业务系统的各种报表:包括可用性报表、统计报表、性能报表等。充分利用现有投资提高服务并在日后实现BSM价值;提升IT资源管理能力IT资源能力是实现战略IT战略的核心能力。IT资源管理的范围包括:软件/硬件资源物理/逻辑资源有形/无形资源提升IT资源管理能力的目标通过将上述几类资源进行资源建模,全面管理每个CI项的信息及CI项之间的关系,通过面向业务的管理方式进行资源动态管理,真正发挥资源能力在IT服务提供中的核心作用,为后续的IT服务管理提升工作(包括事件管理、问题管理、服务水平管理、知识库管理等)打下坚实的基础。IT投资效益最大化IT的投资主要体现在人员和设备两方面,IT不是利润部门,没有直接的收入来源,因此IT投资效益的计算一直是困扰IT部门的一个难点,国际上提出的各种IT投资效益的计算方法,在不同组织采用时都遇到了困难。针对用户,该如何衡量IT投资效益,并让IT投资效益最大化,我们建议采取分成两个阶段实现的策略:第一阶段:倾向于关键业务系统投入。通过实现面向业务的IT资源管理,明确关键业务所需要的IT资源,针对关键业务在IT资源的投入上实现策略性的偏重。通过将有限的IT资源投入到关键业务中,来实现IT投资效益最大化。第二阶段:以支撑某业务的单项IT服务为计量单位,实现IT成本精确计量和IT服务提供的模拟结算为前提,实现IT投资效益的量化计算。根据该项业务的绩效计算该项IT服务的价值。可持续改进的服务管理体系高质量的IT服务不是一朝一夕可以实现的,而且IT部门向业务部门提供的IT服务也不是一成不变的。IT部门必须根据业务部门的实际运作情况,灵活的提供满足业务需要的IT服务。因此,需要在IT内部建立起一种运作方式,通过一定的流程、定义责任人、制定合适的评估指标及相关的措施,确保IT服务能灵活地满足业务需求,并在持续改进的运作轨道上。系统设计原则先进性参考全球IT管理业界公认的指导性框架ITIL(InformationTechnicalInfrastructureLibrary)管理体系和BSM(业务服务理念),规范运维管理和操作,采用先进的规范化IT管理模式,建设一流的IT运维管理。实用性为了取得最大的投资回报,取得更好的收益,必须缩短IT运维管理的实施周期。管理软件的安装简单、省时、安全、可靠,易学习、易管理维护,简化客户化工作。在不影响正常生产的情况下,结合实际管理情况,逐步实现以流程管理贯穿整个IT服务管理过程,实现对业务系统的集中监控、集中管理、集中维护。高效性为管理人员提供直观、易用的使用界面和策略定义工具,以及各种功能操作方式一致,操作维护简单、管理界面友好。提供丰富的图形界面,通过这些图形界面,用户能够完成日常的运维监控管理。当系统出现故障时,可能会有几十个乃至上百个告警信息,众多的告警让值班人员无从顾及。因此,在发出告警信息前需要对告警信息进行合并、过滤、定制,并提供初步的故障分析手段。提供简单快捷的操作方式,以及以简单、有效的方式通知运维技术人员或管理人员。运维技术人员借助于IT集中监控管理系统,能进行快速故障定位,利用ITIL流程平台系统,快速寻求帮助,从而达到快速解决故障的目的,最大限度地减少对业务系统的损失。管理人员可随时了解业务系统的运行状况。扩展性为了保护投资,要求管理软件具有很好的开放性和对标准的支持能力,支持各种主流平台、数据库和中间件等。同时,产品应采用模块化设计,有良好的可扩展性和可伸缩性,便于今后的扩展和分步实施,保护已有的投资。提供各类开发工具,能够进行各种开发扩展。支持后台使用多种数据库存储方式,支持平台安装在多种操作系统下。能够支持后期陆续可能开展的ITIL流程平台、自动化平台等系统的集成扩展。规范性统一标准和规范是建设IT运维管理项目的基本要求,系统之间应采用开放的接口标准,便于信息交换、信息共享和业务协同。稳定性系统管理平台能适应各Windows、Linux、Unix、AIX系统,同时满足支持代理和无代理二种方式。系统管理功能支持模块化安装,每个模块可以单独安装和运行,系统管理平台能稳定运行。支持多数据采集服务器部署,支持分级管理和采集,支持分布式管理。支持高可用性架构,如HA,集群等架构,确保监控平台自身的高可用、可靠性。安全性系统管理包括但不仅能采用简单网络管理协议(SNMP)来管理主机设备,可对被管主机不启动SNMP协议,只通过Agent和管理站进行通信,同时双方通信可采用安全的底层协议通信。支持普通用户可以监控的权限,无需系统管理员和DBA权限进行监控各种资源。支持SSL协议;保证监控数据安全,支持跨防火墙监控,并要求单一监控端口。具有自身安全性控制,包括用户访问权限、用户必须具有分权管理功能,系统能够按角色管理用户,将特定对象的管理权限分配给特定的用户角色,同一用户角色还可以具有不同的管理权限。用户权限默认应该支持多层次的权限,可以对拓扑图进行分权管理,例如不同的管理员登录可以看到自己负责的节点。IT集中监控系统逻辑架构设计IT集中监控管理系统着重于及时发现用户的IT基础设施和业务系统的各类告警和性能异常,进行数据分析和整合,同时以适当的形式进行展现;另一方面,维护人员借助该系统能够进行相关操作,及时完成维护职能。根据“集中监控、集中维护、集中管理”的原则,以及用户IT环境的特点,我们建议IT集中监控管理系统采用如下的架构:IT系统监控平台解决方案逻辑结构设计在监控子系统的组成结构设计中,包含采集层、数据处理层及展现层三个层面。采集层由监控产品组成,包括网络、主机硬件、操作系统、中间件、数据库、Web服务器、备份、存储以及各种业务应用等各种监控对象的监控模块。处理层包括应用响应时间处理、IT基础架构及应用可用性和性能数据处理、事件及告警处理、服务影响管理等模块。IT基础架构及应用可用性和性能数据处理、应用响应时间处理模块通过采集层的各种采集模块将采集到的数据进行处理,并提交到展现层进行性能数据的展现及报表分析;同时将告警数据提交到事件及告警处理模块进行告警分析,并将分析的结果事件进行邮件、短信、声音等通知动作,同时转发到服务影响管理模块中进行服务影响分析,将服务影响分析的结果和事件提交到展现层做展现。为了创建服务影响管理中需要的服务模型,在此部分还需要自动发现工具模块和CMDB模块,通过自动发现工具发现IT基础架构和应用的配置信息,并将其存储到CMDB中构建服务模型。另外,通过服务影响分析的告警数据也可以在技术支持子系统中创建事件工单,触发事件管理流程,实现技术支持子系统的各种相关流程管理。展现层包括门户和报表管理模块,将处理层的各种处理数据统一存储在数据库中,进行集中展现和报表分析。展现层负责综合展现经过处理层处理的可用性、性能、告警、服务影响等数据。物理架构设计在本项目中,我们可以通过实施高可用性架构的方案,使监控平台具体更高的稳定性和容灾能力。高可用性的架构设计如下:-集中监控服务器(集中监控Server)集中监控服务器可以安装于双机的环境中,支持WindowsCluster或者是Oracle针对OracleSolaris提供的双机软件。在双机环境中,集中监控服务器(物理或虚拟)的配置如下:一个是主节点(Primary),另一个是备节点(Secondary)。两个服务器共享一个逻辑IP地址和cluster名称,同时访问一个共享存储池。集中监控服务器必须安装在共享存储上,且在主节点中需要启用逻辑IP/主机名。当主节点宕机时,备节点将会从共享存储中进行接管。-集成服务器(IntegrationServiceNode)集成服务从PatrolAgent获得性能及事件数据。PatrolAgent配置时能够设置主要及次要的集成服务。当主集成服务宕掉时,PatrolAgent将会自动连接次集成服务,并在主集成服务恢复后再连回主集成服务。-远端事件采集器(RemoteCell)RemoteCell主要负责采集事件及影响信息。RemoteCell支持被配置为高可用模式,其配置方式是通过RemoteCell的配置文件进行设置。采集层采集层主要功能是完成对数据层中的平台(包括网络设备、防火墙、服务器、SAN交换机、存储柜、PC服务器、刀片服务器、UPS、空调以及存储备份系统)和业务进行数据采集,采集的内容包括:告警数据、性能数据、配置数据、其他数据等。操作系统监控模块能够支持广泛的操作系统类型,如HP-UX、IBMAIX、Solaris、Linux、WindowsNT/2000/2003/2008、AS400等多种系统平台。通过在被管的服务器上安装监控代理,可实现对被管服务器上操作系统运行情况的监控。它可以自动监控CPU,硬盘,网卡,操作系统日志文件,内存及交换区等诸多参数的工作情况,为操作系统提供不间断监测,发现问题时提出警告,并提供自动修复功能,不仅使管理员从费时的重复工作中解脱出来,专心于其它任务关键的活动,而且帮助系统管理员从被动的事后管理转化为主动的事前监控,从而保障了系统的高可用行和高可靠性。图:Unix操作系统监控Unix操作系统监控主要功能:直接连到操作系统的核心,提供快捷方便的对系统核心的存取。利用BMC的数据点技术,该技术使管理员能够迅速检索附加的与上下文数据相关的参数值。自动监控CPU的综合利用率及CPU的各详细资源使用情况。通过监测CPU的利用情况识别可能降低系统性能的用户生产率的活动。这有利于去除或重新安排那些使资源萎缩的无必要活动,提高系统的性能和吞吐量。自动监测系统内存的使用情况,识别由过多分页和交换(或数据被装入卸出内存的频度)所带来的性能问题。问题被发现之后就会通知管理员采取措施。实时监控交换区SWAP,确定SWAP空间的使用情况。识别由于SWAP剩余空间过少而引起的系统性能问题。可以及时采取措施,保障系统的高可用性。监测TCP/IP上的通信状况,通过研究网络使用趋势分析中有用标准值来测量网络的运行情况。如果发现问题,KMforUnix就通知管理员,如高数据冲突率(可降低网络性能和阻碍通信。利用提供的信息,管理员可加强网络性能,例如,NFS的通信能力就可从客户一端的缓冲受益,提高用户生产率)。监测文件系统的使用情况,确定哪个磁盘被占用得很多,可能没有自由空间。这条信息可帮助系统管理员迅速识别和消除潜在的瓶颈,减少丢失数据和磁盘错误的危险,提高系统可用性。同时可以自动监控操作系统的日志文件。在系统级提供安全监控,包括口令、探测不恰当的权限设置和以及系统级日志方式存取等。这些都与已有Unix安全设施不冲突,但是加强了管理控制以阻止未授权的系统存取。自动监测打印队列的大小,在满之前通知管理员,从而避免了不必要的打印错误和用户效率损失。KM与Berkeley和SVR4打印管理系统完全兼容,通过对行业标准的支持提供灵活性。监测磁盘I/O和占用情况,定位网络中的热超限使用的磁盘。热磁盘可能成为系统瓶颈,或者更严重的导致昂贵的系统错误。有了这些信息,管理员就可以有效地将数据文件分散到多个磁盘上,或使文件系统分布在几个磁盘上,从而降低不可预计的故障时间和支持企业范围内的更高的系统可用性和吞吐量。跟踪系统用户数和精确决定正在运行的进程数。管理员可以确定哪个进程占有对系统资源的最多请求。当请求不太多时,KM,可自动提示管理员,促使管理员在系统能力极限达到之前,在系统性能未显著下降之前采取措施。通过每一个监控参数报警阈值和相关报警条件的定义,一旦触发报警时,告警信息将实时传送到管理控制台。可根据用户定义的值在本地保存指定天数的告警信息和性能数据。Window操作系统监控主要功能:监控服务器的可用性,包括CPU、内存、进程、磁盘I/O、页面文件、Cache、网络吞吐量的使用情况;监控WindowsService和WindowsProcess的状态和资源占用情况;允许管理员通过Windows性能计数器增加WindowsNT、Windows2000、Windows2003、Windows2008的额外性能参数;允许管理员通过WQL语言增加WindowsNT、Windows2000、Windows2003、Windows2008的额外性能参数;提供对Windows事件日志的监控;提供对COM+、ActiveDomain、DNS等的监控功能;包括与AD的集成,对DNS的DHCP地址池监控等。支持Cluster环境;提供对指定文件的监控功能,支持自定义关键字,以及监控文件的大小等额外监控功能;通过每一个监控参数报警阀值和相关报警条件的定义,一旦触发报警时,告警信息将实时传送到管理控制台。可根据用户定义的值在本地保存指定天数的告警信息和性能数据。主机硬件监控模块BMC对主机硬件监控的模块可以实现对被管服务器硬件系统运行情况的监控,如主机电源、风扇、CPU、内存、电压、温度等监控,当硬件发生故障时,进行告警。图:硬件监控将主机硬件的监控与操作系统、数据库、应用、存储等的监控集成在一起,实现集中统一的监控,并将监控到的设备故障事件转发到集中事件管理平台进行集中的事件处理。产品支持基于第三方服务器硬件监控软件(IBMDirector、HPInsightManager、DellOpenManager)的整合。虚拟化监控模块BMC不仅能对物理主机进行监控管理,而且还能对虚拟环境进行监控管理。可以监控的虚拟环境包括:AIXLPAR/WPARCitrixXenServerHPUXnPar/vPar/VMHost/VMGuestMicrosoftHyper-VSunSolarisZones/ContainersandLogicalDomainsVMWare(vCenter,ESX,ESXi)RedhatKVMBMC对虚拟环境的监控通过监控知识模块采用API连接VirtualCenter或ESXServer采集相关数据,再通过集中监控进行统一的展示和处理,包括动态基线的产生、告警的触发和处理、报表的产生。自动发现所有的虚拟主机图:总体视图自动提供虚拟资源和物理资源的映射,便于发现虚拟资源和物理资源的关系。监控集群、资源池、虚拟主机、具体的虚拟机的运行情况,监控的指标涵盖了运行状态、存储、网络、CPU、内存等各方面的性能和状态参数。图:虚拟环境监控视图提供多种视图,包括物理视图、逻辑视图等,从多个角度了解虚拟环境的情况图:虚拟环境的物理视图图:虚拟环境的逻辑视图提供多种开箱即用的资产和性能报告,便于资源调整。图:使用资源最多的虚拟机报告数据库监控模块针对数据库的知识模块可以对实现对数据库的监控功能。支持的被监控数据库类型支持对包括Oracle、DB2、Sybase、Informix、MSSQLServer等在内的业界主流数据库。能够覆盖本次项目要求的各类数据库类型和版本。数据库监控主要功能为数据库提供不间断的监测。其中包括自动发现环境,在监测到潜在的问题或错误时发生警告和警报,在适当的情况下执行自动纠正例程;在被授权的情况下,通过分配最大的可用空间来调整增长的数据库对象的大小,从而避免空间不足的问题影响用户生产率;为有关恢复或用户定义操作的报告提供解释数据点。管理员可以通过一个本地数据点快速地检索关于参数值、历史和警报的更详细的上下文数据。也可以使用图形解释具有历史参数的上下文中的进程清单和SQL脚本;监测活动事务总数数据库实例限制的百分比。当这个值达到100%的时候,用户会发现Database的错误增加了。BMC提供了自动化的监测和先进的报警功能,它可以将管理员的注意力从其他正常运行的关键任务上转移过来,在用户生产率受到影响之前解决这一潜在的问题;自动测量归档目的设备上的可用自由空间量,并确定适合于剩余空间的档案日志数量。为维护充足的档案容量提供有价值的管理效率。基于预先确定的警报值,可以通过配置,能够压缩这些日志文件以创建附加的空间;实现对数据库表空间、进程、容量等性能和容量的监控。使用BMC独有的SQLVIEWER功能,管理员可以在SQL执行期间有效地获取关于这些SQL语句作者及其初始来源的详细信息;跟踪在为服务器实例指定的时间段内发生的存取连锁行的次数;测量导致等待的自由缓冲区访问尝试的百分比;跟踪在每个轮询期间等待阻塞恢复的比率,它为数据库性能提供了一个关键的基准数据,高的等待率表明存在潜在的表冲突问题;监测缓冲命中率,显示了读取数据缓存的操作与全部读操作的比率;监测一段时间内关键表空间或数据库空间的增长情况,当空间的可用性低于用户定义的水平时发送一个管理警报;知识模块中其它支持管理效率的部件包括:添加到报告提示和菜单命令中的响应功能;格式化的报表;以批操作的方式执行SQL任务以及执行远程SQL命令的能力;同时管理多个数据库;添加监测参数,设置参数报警值,确定自动恢复操作的能力;先进的参数报告,包括多行图形和三维图表。对数据库日志的监控和分析功能,实现对日志关键字、日志大小、日志更新等指标的监控。中间件及应用监控模块对环境中的中间件和各类应用,可以通过中间件组件实现监控。本项目中用户的IT基础环境中也存在Loutsdomino、JBOSS、IIS、SAPBO、nginx、tomcat等对象,BMC解决方案对以上对象都有很成熟的支持方案。中间件管理中间件管理主要是对中间件的关键运营活动和事件进行监控和管理,保证中间件系统的高可用性,要求包含下面的监控功能:监控中间件系统的运行情况,监控应用服务器占用资源CPU、内存占用情况。收集各部件的性能数据和测量应用响应时间,出现异常时能够产生告警/事件信息,并可送至控制台处理。提供对功能组件的健康检查,包括:EJB,JSP,Servlet,JDBC,JMS,JTA,CORBA,RMI等组件,并自动发现相关于JVM的环境、配置等。主动监控管理中间件服务器的LOG文件内容,并进行定期备份,能够快速地对日志文件中的问题和故障报告做出快速的响应。当中间件服务器实例或其他被监控组件出现异常事件时报警。集成中间件服务器的管理能力,能够启动、关闭、锁和解锁服务器,具有强制垃圾收集能力,创建、优化和摧毁JDBC连接池,发布应用等功能。从一个集中的应用类中监控和管理JDBC连接的缓冲区池;监控代表交易逻辑的HTTP和JSP的Servlets;采用灵活的字符串匹配方法主动监控逻辑日志以查找关键的事件;通过大量的Java虚拟机参数精确测量中间件服务器的性能,并能测量连接响应时间和HTTP页面下载时间。对中间件系统进行监控,当性能超出指定阈值时报警,包括:监控应用服务器占用资源CPU、内存占有情况;打开连接数Sockets数总交易数JVM使用情况,包括JVM大小、内存泄漏等退出交易数和提交交易数等对JSP/SERVLET监控:最大执行时间,平均执行时间,重新加载累计值,重新加载累计值比率。对EJB的监控:事务提交、回滚,事务命中。对连接池的监控:当前活动、等待连接,活动数、等待连接最高数,等待秒数最高值。监控组件在实现深层的监控功能的同时,还提供:高级日志管理功能:可自动发现一个domain中的每一个服务器相关的domain、server、http访问和JDBC的日志文件。可进一步扩展监视特定用户、应用的日志文件可匹配搜索特定类型的日志内容,并基于搜索结果触发事件自动化的事件生成和响应动作可对采集的参数设置阈值,当超出时可以自动产生告警事件,并触发响应程序。高级的数据展现所有关于Websphere服务器的参数指标都可以多种图表形式展现。性能历史的监视和趋势分析所有收集的参数都可以长期储存,以作趋势分析、容量规划及预测之用。报表功能提供现成的Websphere特定的报表,此外还提供高级服务报表功能。参数收集提供超过100项运行参数及动态指标,此外还包括对服务器、组件、服务进行设置所需要的信息。应用管理对于Loutsdomino、JBOSS、IIS、SAPBO、nginx、tomcat等各类应用,BMC有成熟的解决方案进行管理。能够满足应用的可用性、性能、容量、健康状态以及应用日志的监控。以Loutsdomino、IIS和tomcat为例,BMC可以提供包括但不限于以下指标进行监控管理。参数描述Notes_DBApplicationClassACLMonitorACL被修改的次数DBQuota数据库大小占数据库配额大小的百分比DBResponse服务器打开目标数据库的响应时间LNDBSize数据库的大小ReplConflicts每个数据库的复制冲突次数WhiteSpace每个数据库未使用的空间的百分比WhiteSpaceKB每个数据库未使用的空间大小Notes_DBREPMONApplicationClassCountDifferent被比较的数据库上有差异的文档个数CountSame被比较的数据库上相同的文档个数DestCount目标数据库上的文档个数SrcCount源数据库上的文档个数Notes_DBViewsApplicationClassViewConflicts视图中复制冲突的次数ViewNumNotes视图中的文档数ViewResponse打开目标视图的响应时间Notes_DISCOVERYApplicationClassCFG_CHANNELNotesServerChannel的状态CFG_Notes_Tasks被监控节点上DominoServer的数量Notes_EVENTSApplicationClassAlarmReportCount服务器对特定问题的报警次数AlarmSeverity当前报警值的级别Notes_LOGApplicationClassLogMonitor错误次数(监控log和events4.ntf和events4.nsf)LogReportMonitor显示log.nsf数据库中特定视图的所有错误消息次数LogReportText显示100行的日志报告LogText显示最后500行的日志内容LogWarm每小时的日志警告次数Notes_MAILBOXApplicationClassActivity等待路由的邮件数CorruptionState邮箱数据库的状态LNDBSize邮箱数据库的大小WhiteSpace每个邮箱中自由空间所占的百分比WhiteSpaceKB每个邮箱中自由空间的大小Notes_NEIGH2ApplicationClassServerResponse响应时间ServerState显示服务器的状态NOTES_SRApplicationClassDbnumberof数据库的个数DbsizeChecker检测每个数据库的大小并显示最大的那个数据库的大小DbtotalSize服务器上所有数据库的大小总和DbusageChecker根据设定的阀值检测每个数据库的使用情况DbwhiteChecker检测每个数据库的可用空间的百分比,并显示最大值NotesRip检测Notes.rip文件ServerLoad指出服务器的响应时间的快慢ServerResponse服务器的响应时间ServerState服务器的状态Transactions每分钟的事务数NOTES_SRPROCESSApplicationlassDropCountDrop掉的任务数InstCount运行的任务数StatusServertask的状态NOTES_STATISTICSApplicationlassFullStats以文本方式列出所有统计数据NOTES_AGENTApplicationClassDaily.AccessDenials每天拒绝访问的Agent数目Daily.ScheduledRuns每天通过调度运行的Agent数目Daily.TriggeredRuns每天通过触发而运行的Agent数目Daily.UnsuccessfulRuns每天运行不成功的Agent数目Daily.UsedRunTime每天运行的总的时间Hourly.AccessDenials每小时拒绝访问的Agent数目Hourly.ScheduledRuns每小时通过调度运行的Agent数目Hourly.TriggeredRuns每小时通过触发而运行的Agent数目Hourly.UnsuccessfulRuns每小时运行不成功的Agent数目Hourly.UsedRunTime每小时运行的总的时间NOTESTAT_CALENApplicationClassTotal.All.Appts.Reservations显示在调度队列中的所有约会和约定的数目Total.All.User.Resource显示用户的约会和约定的数目Total.Appts所有约会的数目Total.Reservations所有约定的数目Total.Resources所有资源数Total.Users所有用户的数目NOTESTAT_CLUSTERApplicationclassAvailabilityIndex服务器当前可用的索引AvailabilityThreshold服务器可用可用的线程Opn.Redrt.Failovr.Suc显示服务器在client打开失败的时候把client成功重定向到另外的群集服务器所尝试的次数Opn.Redrt.FailovrByPath.Suc显示服务器在client打开数据库失败的时候把client成功重定向到另外的群集服务器所尝试的次数Opn.Redrt.FailovrByPath.UnSuc显示服务器在client打开数据库失败的时候不能把client成功重定向到另外的群集服务器所尝试的次数OpenRequest.ClusterBusy当服务器繁忙的时候client尝试打开数据库的次数OpnReq.DBOutOfService显示client尝试打开被标记为outofservice的数据库的次数ProbeCount显示server完成cluster成员的proberequest的次数ProbeError错误的次数Trans.IntervalAvgTime群集内部传输的平均时间Trans.IntervalInMinutes群集内每分钟的传输次数Trans.IntervalInSeconds群集内每秒的传输次数Trans.RunningCount群集传输的总次数NotesAT_DATABASEApplicationClassBufferControlPool.PeakDatabaseControlPool曾经使用的最大值BufferControlPool.SizeDatabaseControlPool的大小BufferControlPool.UsedDatabaseControlPool使用的大小BufferPool.MaximunBufferPool的最大值BufferPool.PeakBufferPool曾经使用的最大值BufferPool.Reads读取BufferPool的字节数BufferPool.SizeBufferPool的大小BufferPool.UsedBufferPool使用的大小BufferPool.Writes写入BufferPool的字节数DB.BufPool.Maximun.MegabytesBufferPool的最大大小DB.BufPool.Peak.MegabytesBufferPool的曾经使用的最大大小DB.FileIO.BytesReadFileIO读取的字节的大小DB.FileIO.BytesReadFileIO写入的字节的大小DB.FileIO.Commits提交的次数DB.FileIO.TotalReads读取的总的字节数DB.FileIO.TotalWrites写入的总的字节数DBCache.AerageDbOpenTime数据库打开的平均时间DBCache.CurrentEntries当前的entries数目DBCache.HighWaterMarkDatabaseCache的HighWaterMarkDBCache.Hits命中率DBCache.InitialDbOpens在cache初始化时打开的数据库的数目DBCache.LookupsCache中的寻找次数DBCache.MaxEntries最大的entries数目DBCache.TotalDbOpens在cache中打开的数据库的数目DBPage.Reads.Total页面读取的次数DBPage.Writes.Total写入页面的次数ExtMgrPool.PeakExtenalmanagerpool曾经使用的最大情况ExtMgrPool.UsedExtenalmanagerpool使用的情况NodNoteLog.Hits日志的命中率NodNoteLog.Misses日志的失败率NameLookupCacheCacheSizeLookupcache的大小NameLookupCacheHits命中率NameLookupCacheMisses失败率NifPool.PeakNIFPool曾经使用的最大大小NifPool.SizeNIFPool的大小NifPool.UsedNIFPool的使用大小NifSort.ReadsNIFPool的读取次数NifSort.WritesNIFPool的写入次数NSF.FreeHandleStackHitsNSFPool中空闲的句柄数NSF.HandleAllocationsNSFPool中分配的句柄数NSF.MissRateNSFPool的失误率NSFPool.PeakNSFPool曾经使用的最大大小NSFPool.SizeNSFPool的大小NSFPool.UsedNSFPool的使用大小NOTESTAT_DIIOPApplicationClassPort.SSLSSL的端口号Port.TcpipTcpip的端口号NOTESTAT_DISKApplicationClassFree空闲的磁盘空间Size磁盘空间大小NOTESTAT_DOMINOApplicationlassCache.Command.CountCache中的命令数Cache.Command.DisplaceRateCache中的命令交换率Cache.Command.HitRateCache中的命令命中率Cache.Database.DisplaceRateCache中的数据库交换率Cache.Database.HitRateCache中的数据库命中率Cache.Design.CountCache中的Design数目Cache.Design.HitRateCache中的Design命中率Cache.Design.DisplaceRateCache中的Design交换率Cache.Session.CountCache中的连接数Cache.User.CountCache中的用户数Cache.User.DispaceRateCache中的用户交换率Cache.User.HitRateCache中的用户命中率Config.ActiveThreads.Max最大的激活的线程数Config.ActiveThreads.Min最小的激活的线程数Config.AllowDirectionLinks是否允许连接到directoryConfig.Cache.Size.MaxCache的最大值Config.DNS.LookupDNS的寻找次数Config.GarbageCol.Interval废物回收的间隔Config.GarbageCol.Status废物回收的状态Config.HostName主机名Config.Log.AccessLog的访问级别Config.Log.ErrorLog的错误信息Config.Log.FilterLog的过滤信息Config.PortNumber端口号Config.PortStatus端口状态Config.SSL.PortNumberSSL的端口号Config.SSL.PortStatusSSL的端口状态Request.Per1Day.Peak每天最多的请求数Request.Per1Day.Total每天全部的请求数Request.Per1Hour.Peak每小时最多的请求数Request.Per1Hour.Total每小时全部的请求数Request.Per1Minute.Peak每分钟最多的请求数Request.Per1Minute.Total每分钟全部的请求数Reques.Total全部的请求数ThreadPool.AverageThreadPool的平均数ThreadPool.MaxThreadPool的最大数Thread.Active.Peak曾经激活的最多线程数Thread.Total.Peak曾经最多的线程数Thread.Total线程总数NOTESTAT_FTPApplicationClassBytes.Received接收的字节数Bytes.Sent发送的字节数Files.Received接收的文件数Files.Sent发送的文件数Users.Current.Anonymous当前匿名用户数Users.Current.Regular当前非匿名用户数Users.Peak.Anonymous曾经最多的匿名用户数Users.Current.Regular曾经最多的非匿名用户数Users.Total.Anonymous匿名用户总数Users.Total.Regular非匿名用户总数NOTESTAT_LDAPApplicationClassAnonymous.LDAP.Connections匿名的LDAP连接数Average.LDAP.SearchTimeLDAP的平均查找时间Failed.LDAP.Connections失败的LDAP连接数Longest.LDAP.Search.Time最长的LDAP请求的时间Simple.LDAP.ConnectionsSimpleLDAP连接数Strong.Auth.ConnectionsStrongLDAP连接数Total.LDAP.Connections所有的LDAP连接数Total.LDAP.Adds所有增加的LDAPTotal.LDAP.Deletes所有被删除的LDAPTotal.LDAP.Modifies所有被修改的LDAPTotal.LDAP.Searches所有的LDAP搜索次数NOTESTAT_MAILApplicationClassAverageDeliverTime平均传递时间AverageSizeDeliver平均传递的大小CurrentBytesDeliverRate当前平均传递字节率CurrentMessageDevilerRate当前平均传递的消息率DBCacheHitsCache命中率DBCacheReads读Cache的情况DeadDeadMail数量Delivered已传递的邮件数量Deliveries正在传递的邮件数量Hold挂起的邮件数量MaximunDeliverTime最大传递时间MaximunSizeDeliverd传递的消息的最大大小MinimunDeliverTime最少传递时间MinimunSizeDeliverd传递的消息的最少大小PeakByteTransferRate曾经传输的最大字节PeakMessagesTransferred曾经传送的消息的最大字节PeakTotalBytesTransfered曾经最大的全部传输字节Tables.ReloadTableReload的次数TotalFailure失败的总次数TotalKBTransfered传输的全部字节数TotalRouted全部路由次数TransferFailure传输失败次数Transferred传输的消息数Waiting等待的消息数NOTESTAT_MAILPROBEApplicationClassResponseTime响应时间NOTESTAT_MEMORYApplicationClassAllocated分配的内存数Allocated.Process在非共享内存中分配给独立的进程的数量Allocated.Shared共享内存的数量Availability可用的内存Free以字节显示空闲的内存PhysicalRAM服务器上的物理内存Quota分配给server的最大限度SwapFile.Size交换文件的大小NOTESTAT_MHSApplicationClassDeadDeadMessage的数目Waiting等待的Message的数目NOTESTAT_MTAApplicationClassDeadDeadMessage的数目TotalKBTransfered传输的全部字节数TotalRouted全部路由次数TransferFailure传输失败次数Transferred传输的消息数Waiting等待的消息数NOTESTAT_NETApplicationClassBytesReceived接收的字节数BytesSent发送的字节数NOTESTAT_REPLICAApplicationclassCluster.CacheHandelsCache中的句柄数Cluster.Docs.Added复制增加的文档数Cluster.Docs.Deleted复制删除的文档数Cluster.Docs.Updated复制更新的文档数Cluster.Failed复制是否成功Cluster.Files.Local本地的文件数Cluster.Files.Remote远程的文件数Cluster.Server服务器的数量Cluster.Successful成功的次数NOTESTAT_SERVERApplicationClassAvailabitilyIndex索引可用的字节数AvailabitilyThreshold可用的线程BootID显示BootIDMinIdleDisconnect断开的空闲时间OpenRequest.MaxUsers最大用户数Tasks任务数Users用户数NOTESTAT_STATSXXXApplicationClassDeadDeadMessage的数目Waiting等待的Message的数目对象类别指标IIS连接数连接数可用性监控HTTP,HTTPS等协议是否正常监控FTP协议是否正常监控DNS等协议是否正常监控LDAP协议是否正常监控SMTP等协议是否正常监控POP3等协议是否正常本地Web服务器和外部站点上检查状态正常否、超文本链接的能力正常否Tomcattomcat服务器的可用性tomcatservlet可用性监控每秒的请求数处理请求的平均事件web应用的可用性活动的session每秒的请求数每秒产生的错误数tomcatcollector的可用性每秒的请求数每秒产生的错误数活动线程数可用线程数存储设备监控模块针对存储设备监控的知识模块,能够提供对存储设备的监控功能。支持的被监控的存储设备类型支持对业界主流厂家的SAN、磁盘阵列、磁带库等存储对象的监控。能够覆盖本项目中的日立、IBM等品牌的存储。磁盘阵列监控主要功能支持符合SMI-S1.1规范的主流厂家(IBM、HP、EMC等)的磁盘阵列的集中监控和管理监控物理磁盘及磁盘控制器监控环境参数,如温度、风扇、电源电压等监控内部和外部的光纤连接监控逻辑磁盘、卷图:对磁盘阵列的监控SAN监控主要功能监控SAN的环境参数,如温度、风扇、电压电源等监控光纤交换机的连接情况,包括端口状态、light、连接情况和速率等报告每个光纤连接的利用情况,包括每小时或每天的数据流、带宽利用率等监控物理磁盘和逻辑磁盘图:对SAN的监控截图网络监控模块网络管理系统可以自动发现生成网络拓扑图并且实时更新,所显示的网络拓扑图能够与网络的逻辑结构一致。可以建立地理位置或层次拓扑结构,根据广域、局域、交换机、路由器、服务器、PC机进行分组管理。并且,支持管理维护人员分层管理功能。自动发现自动发现是建立配置元素和原始配置信息的一种简便途径,它可以帮助网络管理员完成大部分的配置初始数据。对于网络设备和存储设备(如SAN交换机),通过ICMP和SNMP协议获取标准MIB信息和各厂家的私有MIB信息来形成配置元素基于ICMP、SNMP、ARP、端口探测等方式采集自动发现所需信息。ICMP用来判断设备的通断性,SNMP用来获取设备、接口等信息,对于支持形成板卡、插槽的设备,同时建立起板卡、插槽和接口的父子关系。支持网络设备的三层发现和二层发现,支持OSPF、ISIS、BGP等路由协议的发现,支持CDP、NDP、HSRP等厂商私有协议的发现。可以支持网络拓扑、冗余连接、备份连接和负载均衡连接的自动发现。能够配置节点重新发现。以图形化的方式显示如下的信息系统的网络部件,并可在发现列表中选择纳入网络监控的设备:路由器;2层交换机;4到7层交换机;防火墙;服务器(Windows、HP、Solaris、…);打印机;拓扑管理拓扑展示是监控系统展现企业IT系统情况的最佳方式。拓扑视图能够以直观、统一、真实的方式展现整个IT系统的运行状况。监控系统的自动发现模块可以自动搜索IT系统中的每台联网设备,并通过拓扑自动生成模块将拓扑图中的每个管理对象映射IT系统实际环境中的对象,例如路由器、交换机、链路、服务器等。拓扑图可以直观以红、黄、绿等颜色现实各种告警信息,在拓扑图中,能够直接查看其当前活动告警、历史告警、实时性能指标、历史性能、配置属性等信息。拓扑图中,箭头显示该链路的流量和流向,以及涉及的协议,鼠标移动到该链路上时,能够显示该链路的详细指标。网络性能分析提供网络的性能管理,着眼于提高网络的服务质量(QoS),帮助网络管理人员优化网络的报务水平。特点包括:辨别能力:瓶颈在哪里,哪些是过载的网络设备,哪些是空闲的网络设备;预测能力:网络拥塞和过饱和;优化:整个网络的功能,广域网的负载;确证:当前、未来投资的有效性,恰如其分的网络功能;统计:SNMP管理、接口、协议、实时数据、历史数据、NetFlow等。报告:网络功能报告、例外处理,单点查看,高级诊断、报告的客户化;通知、报警:发送报告的电子邮件,多个/交叉使用报警阈值,SNMP的trap发送到第三方在性能展示的图形界面中,能够为不同的网元创建不同的工作区,在其中组织和定义与之相关的不同的管理对象的各个性能指标,并且以不同的形式展示,例如仪表盘、温度计、水平柱状图、垂直柱状图等等。性能工作区不仅能够以直观的图形方式实时展现性能状态,而且能够以红、黄、绿不同的颜色显示性能告警,并且可以直接查看实时性能和历史性能。性能报表可以针对设备的流量信息(输入、输出、带宽、错包)进行统计,按照日、月、周等粒度形成性能报告,并支持实时的状态显示。事件处理可在跟踪的每一个指标值上以门限值的方式定义可接受的值的范围,当监控的值超过门槛值时,将产生一个事件,这将通过信息SNMP触发SNMPTrap和/或EMAIL将相应发送给负责该设备的网络管理人员。事件处理特点如下:1.管理以下类的状态信息。通过性能采集,定义了阀值,产生的事件。来自网络部件的报警信息(SNMPTrap)、来自于被监控设备的日志,受该事件影响的网络部件会以不同的颜色显示在网络拓扑图上。辅助的轮询机制(是否可到达)。通过对SNMP设备的主动轮询或通过对无SNMP代理的ICMP的轮询来确定设备的可到达性。轮询频率可由用户定义。2.更改网络拓扑图的显示。3.可以形成事件报告。事件报表网络事件集成提供多种集成方式实现对事件的收集和对事件的传递。事件收集方式:通过性能采集,设置阀值产生的事件。通过snmptrap接收到的事件通过对日志文件的读取产生的事件。事件传递方式:支持向第三方网络平台传递事件。通常采用snmptrap的方式向第三方进行事件集成。也提供自有的Snmpforward工具进行事件转发。本次用户的H3CIMC平台如支持snmp方式,也可以通过snmp实现集成。处理层BMCProactiveNetPerformanceManagement产品的集中事件处理模块提供了强大的集中事件处理功能,提供包括事件过滤、事件压缩、自动关闭、事件通知、事件关联、事件丰富、事件自动处理、事件通知等事件处理规则,帮助管理人员处理那些必须人工干预或不能自动处理的问题,减少事件风暴产生的可能性。一旦接受到告警事件,它能产生警报,执行通知程序,支持短信通知、邮件通知或声音通知。集中和分布式的事件处理架构集中事件处理模块是通过事件处理单元实现集中事件处理。事件处理单元可采用集中和分布式部署。可以部署多个事件处理单元,各事件处理单元既可以是平衡的关系,每个事件处理单元独立处理某一类型的事件,也可以是上下级的关系,下级的事件处理单元根据规则把相关事件传递给上级的事件处理单元。统一的集中事件管理界面提供统一的集中事件管理界面,不仅可以接收来自BMC自身软件的事件,还可以通过自身强大的集成机制接收、展示和处理来自第三方管理软件或设备的事件。下图是集成了第三方监控软件事件的展示界面。图:在统一的集中事件处理界面集成及展示第三方管理软件的事件多级告警事件级别集中事件处理模块提供了符合国际标准的事件级别,提供未知/信息/正常/警告/次要/主要/严重等多级事故级别,不同级别的事故用不同的颜色表示。告警事件信息自定义在集中事件处理模块中,事件的组成是由字段信息组成,一个事件包含了多个字段。事件的字段定义可根据实际需求增加,使事件描述的更丰富。同时,通过事件丰富规则可以从CMDB/外部文件添加更多的信息。开箱即用的集中事件处理规则集中事件处理模块具有极强的针对事件的处理能力,提供了多种开箱即用的事件处理规则,当一个事件到达时,它会经历以下几个环节:事件过滤。如果不是用户关心的事件或不能通过事件过滤器,则该事件会被丢弃,从而节省大量的处理时间和存储空间。用户可在管理控制台上建立过滤规则、修改过滤规则以及删除过滤规则等。事件压缩。在该阶段确定同一事件是否巳发生多次、是否是重复事件、重复事件发生多少次才可以进入下一个处理过程、事件优先级别设定等。事件丰富。可以从外部文件或者CMDB获取相关信息对事件进行丰富,使事件信息描述能够更加详细、清晰和易于理解。事件抽象。根据接受的事件产生相应的BEM的事件并进行抽象化处理以符合事件处理和存储的统一标准。事件关联。确定该事件是否是某一事件关联定义的一部分,如是,是否关联事件巳发生。如关联事件发生,则产生相应的服务可用性报警。事件执行。对应该事件是否有自恢复动作,如有,则在事件源所在节点执行以相应的权限执行相关操作。事件上报。如果还有上一级的事件处理单元且巳定义该事件须上报上一级的事件处理单元,则该事件会被上报给一个或几个上一级的事件处理单元事件通知。当接收到告警事件后,可以支持短信、邮件、声音等通知机制,及时通知管理人员。事件告警通知方式为了在事件告警是能及时通知管理人员,集中事件处理模块可以支持多种事件告警通知方式,如短信、电子邮件、声音等告警通知方式。事件告警短信通知需要用户提供短信平台或短信Modem,事件告警邮件通知需要提供邮件服务器地址、邮件服务器发送端口和一个用以发送邮件的邮件账号。事件告警通知是通过事件通知规则执行的,在事件通知规则上一般定义了如下内容:需要发送告警通知的事件发送告警通知的方式接收告警通知的管理员的联系方式,如手机号码、电子邮件地址事件定时器集中事件处理模块提供了事件定时器对象,在大部分的事件处理阶段,可使用定时器来设定当指定的时间到达时所应执行的动作。事件定时器功能给用户提供了灵活的事件处理机制,可以根据实际需求设置事件定时执行规则。事件规则处理语言除了开箱即用的事件处理规则外,遵循于BMC产品一贯的灵活性和扩展性,在集中事件处理模块中同样提供事件规则处理语言,以实现更灵活的事件处理规则。BMC的事件规则编写语言也是脚本级的语言,不需要特定的开发工具编写,只需要用文件编辑器就可以编写,易于掌握和使用。下图是事件规则处理语言截图。分级权限管理集中事件处理模块支持分级权限管理,提供了组-用户-角色-权限的用户管理和授权机制,确保用户只能看到符合其权限范围内的事故;系统同时也支持自定义事故视图,用户同样只能看到符合其权限范围内的事故视图。自定义事件拓扑视图集中事件处理模块支持自定义事件拓扑视图,能够根据用户实际环境构建事件拓扑视图,在事件拓扑视图上可以同时看到设备故障状态和相关事件。动态基线集中事件平台可以实现手工设置告警阀值,还可以通过动态基线自动调整阀值。当可用性或性能指标的数值超过阀值时,即会触发告警事件通知用户,告警事件包含全面的事件属性,用户还可以需要自定义事件的属性。图:告警字段信息说明集中监控监控解决方案也支持通过命令行方式或者界面方式,来查询或修改指标的静态或动态阀值。图:设定阀值监控方案可以通过自动学习来设置与调整阀值,生成自动化和智能化的阀值,智能化的预警阀值设置对于监控数据的预警响应时间影响最短为30秒。如果用户需要批量或者希望对多台设备进行阀值调整时。能够根据指标以往的运行规律,实时产生所有监控项的一个区间值,并将该智能的阀值区间应用到当前的监控项中。此外还可以实现以下几个功能点能够产生以每小时、每天、每周为规律的动态区间阀值,并能够将动态区间阀值和固定阀值相结合,以作为KPI指标的监控设定。能够根据监控指标的运行规律给出正常的运行区间范围。通过监控指定指标的运行轨迹,提前预测其可能发生的故障和可能发生的性能瓶颈,为用户争取到了预防措施时间。图:趋势预测与第三方软件双向集成方式集中事件处理模块具有良好的集成性,不仅可以接收第三方网络管理软件的事件信息,实现集中事件处理,也可以向第三方管理软件发送事件。本次项目中,需要通H3C的IMC工具实现接入,而IMC工具也具备通用的接口方式,与BMC的集中监控平台实现集成。H3C在其官网上明确说明IMC工具具备高度开放性,如图:而BMC集中监控平台也同样支持业界主流的各接口和协议:接收第三方管理软件的事件集中事件处理模块提供的接收方式包括但不限于:SNMPTrap方式。集中事件管理模块可以接收SNMPTrap。命令行调用。提供命令行工具,由第三方管理软件通过调用该命令行发送事件信息。日志集成。通过集中事件处理模块的日志适配器检索第三方管理软件的相关日志获取事件信息。WebService方式。提供WebService接口,第三方管理软件往指定的WebService发送事件信息。发送事件到第三方管理软件集中事件处理模块可以把事件发送给第三方管理软件,可以通过以下几种方式发送事件到第三方管理软件:通过集中事件管理模块提供的事件Adapter来实现将事件发送到第三方管理软件,如通过文件适配器、SNMP适配器、Perl等;通过集中事
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 收获机械制造工操作技能测试考核试卷含答案
- 灌区供水工操作规程测试考核试卷含答案
- 金属轧制工安全培训评优考核试卷含答案
- 2025秋北师大版(2022)小学劳动技术三年级第一学期期末模拟试题及答案
- 函数的单调性与最值(2大考点+6大题型)-2026年新高考数学一轮复习(讲义+专练)解析版
- 解析通识教育
- 广西壮族自治区柳州市2024-2025学年四年级上学期语文11月期中试卷(含答案)
- 揭秘太空科学
- 教育科技创新探索
- 广西部分学校2025-2026学年高一年级上册开学质量检测物理试题(解析版)
- 《人应当坚持正义》练习题高二语文(高教版2023拓展模块上册)
- 西藏土地买卖合同范本
- 诈骗案谅解协议书
- 临沂市兰陵县程村农村宅基地地块土壤污染状况调查报告
- 租赁光伏组件合同协议
- 自救互救知识培训课件
- 入团的考试题目及答案
- 2024秋新鲁教版英语六年级上册课件 Unit 5 Section A (Pronunciation 1-2e)(第2课时)
- 幼儿园常用表格-保教工作考核表附-日常工作管理及绩效考核细则
- 智慧畜牧介绍
- 2025年贵州鹏昇集团纸业有限责任公司招聘笔试参考题库含答案解析
评论
0/150
提交评论