BMC产品方案.doc_第1页
BMC产品方案.doc_第2页
BMC产品方案.doc_第3页
BMC产品方案.doc_第4页
BMC产品方案.doc_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

集中综合结算系统网络设备及监控集中综合结算系统网络设备及监控 方案建议书 2010 年 7 月 2 日 目目 录录 第第 1 章章集中监控系统方案集中监控系统方案.1 1.1逻辑结构设计.1 1.2采集层功能介绍.2 1.2.1采集层的功能.4 1.2.2采集层模块功能.5 1.3数据处理层功能介绍.36 1.3.1统一事件管理平台.37 1.3.2配置数据自动发现工具.42 1.3.3业务影响管理.47 1.3.4事件集成.51 1.4系统展现层功能介绍.53 1.4.1门户管理.54 1.4.2报表管理.57 1.5管理软件自身的监控.59 1.6二次开发说明.59 1.6.1开发工具种类.59 1.6.2二次开发方法.60 1.6.3API接口.62 1.7安全控制.63 0 第第 1 章章 集集中中监监控控系系统统方方案案 1.1 逻逻辑辑结结构构设设计计 针对 XXXXIT 综合管理平台的需求,结合 BMC 的 BSM 解决方案,集中监 控系统解决方案逻辑结构设计如附图 1. 所示。 BMC 监监控控管管理理产产品品 (用用于于平平台台和和业业务务的的可可用用性性和和性性能能数数据据的的采采集集) 数数据据层层 系系统统展展现现层层 数数据据处处理理层层 采采集集层层 事事件件及及告告警警 处处理理 可可用用性性、性性能能 数数据据处处理理 PortalReporting 告告警警数数据据 Discovery Tools 配配置置数数据据 Remedy 业业务务影影响响管管理理 (服服务务模模型型) CMDB 模模型型数数据据告告警警数数据据 告告警警数数据据 性性能能数数据据配配置置数数据据告告警警数数据据服服务务影影响响数数据据 I IT T基基础础架架构构 网网络络 主主机机 数数据据库库应应用用 Entuity 附图附图 1. 集中监控系统逻辑结构设计集中监控系统逻辑结构设计 在集中监控系统逻辑结构设计中,包含采集层、数据处理层及系统展现层三 个层面。 1 在结构设计图中,采集层将通过安装在被管系统的上的 BMC 监控产品,对 主机、数据库、中间件、应用等,进行各种技术参数的采集,实时监控被管理系 统的运行状况,并送到数据处理层进行数据处理。 数据处理层包括“可用性、性能数据处理” 、 “事件及告警处理” 、 “业务影响 管理” 、 “CMDB” 、 “Discovery Tools”等模块。 “可用性、性能数据处理” 模块对接受到的可用性、性能数据进行处理, 将告警信息送交“事件及告警处理” 模块进行告警处理。 “事件及告警处理” 模块,作为整个系统的集中的事件管理平台,将收集 整个系统中各种各样的事件和告警信息,并通过与其他管理软件的集成收集各个 被管理系统的告警信息(比如与 Whatsup, CACTI 集成收集网络方面的事件信息) 。 “事件及告警处理” 模块将收集到的各种事件和告警信息进行必要的压缩、过虑、 关联处理后,将其提交到“业务影响管理”模块作出业务影响管理;同时进行邮 件、短信、声音等通知动作。同时也可以将告警数据转入 IT 服务流程管理系统 (BMC Remedy)中,触发事件管理流程,实现 IT 服务管理的各种相关流程管理。 “业务影响管理”模块通过自动化的发现工具“Discovery Tools” ,结合手工 录入、批量导入等手段,利用模型创建工具,自动建立业务模型和影响度模型, 将业务和 IT 紧密的结合起来,形成以业务为中心的 IT 服务平台,从而实现业务 影响分析。 系统展现层负责监控告警信息和各种监控视图的综合展现。经过数据处理层 处理的可用性、性能、故障、配置、服务影响等数据,在系统展现层进行展现。 下面将针对采集层、数据处理层、系统展现层,分别介绍其功能及特点。 2 1.2 采采集集层层 功功能能介介绍绍 采集层主要功能是完成对主机、数据库、中间件和应用等进行数据采集,采 集的内容包括:告警数据、性能数据、配置数据、其他数据等。 在采集层中,主要采用 BMC ProactiveNet Performance Management 系列产品, 实现对 IT 基础架构和业务类等各种监控对象的数据采集。具体产品如下: 网络监控Entuity Network Monitoring for BMC ProactiveNet Performace Management. 主机硬件监控Sentry Software Monitoring for BMC ProactiveNet Performance Management - Hardware Monitoring,主机硬件监控,如 CPU、 内存、磁盘、电源、风扇、电压、温度等; 主机监控BMC ProactiveNet Performance ManagementServer,可实时 监控服务器上网络、CPU、内存磁盘空间、文件系统、交换区、进程或服 务、用户等关键指标,BPM 通过自带的开发语言 PSL 和相应的开发平台 十分容易的实现对业务应用的监控,同时支持标准化的方式对应用的监控, 如 SNMP、日志文件、SQL 查询、脚本程序、JMX 等。 应用、数据库、中间件、Web 服务器等监控BMC ProactiveNet Performance ManagementApplication, Database and Middleware,实时监控 应用、数据库、中间件、Web 服务器等的运行情况,对于数据库可以监控 实例状态、缓冲区的命中率、表空间的使用状况、用户登录及会话情况、 用户互锁情况、数据库资源的开销情况、数据库的性能情况、空间碎片程 度等;对于中间件可以监控应用服务器的运行情况,如 JVM 堆栈空间的使 用情况、JVM 垃圾回收的情况、JVM 线程的使用情况、内存泄露的情况、 EJB 的效率情况、Servlet 的效率情况、JSP 的效率情况、JDBC 的使用情况 等,当关键指标当超出报警范围时自动产生报警事件。 3 Transaction Management Application Response Time,对业务服务可用性的 指标进行采集,同时采取精选综合性指标的方式,形成关键质量指标 (KQI) ,并选择关键业务流程进行用户体验式管理。可支持录制模拟业务 操作脚本,并按配置进行回放。 1.2.1 采采集集层层的的功功能能 本平台从 XXXX 业务应用角度出发,着重于及时发现 XXXX 内的各类告警 和性能异常,进行数据分析和整合,同时以适当的形式进行呈现;另一方面,维 护人员借助该系统能够进行相关操作,及时完成维护职能。 采集层,主要是完成各类数据的采集工作,建立相关的数据采集接口,并能 够根据需要定制在特定的时间(或周期性)进行数据的采集,并为数据处理层提 供相关的数据。这一层主要是由通过设置在各个点的各类采集代理组成。 BMC ProactiveNet Performance Management 系列产品,支持 Agent 和 Agentless 方式,支持 agent 实时采集、系统/业务日志读取、DB 读取、第三方脚 本/系统命令获取、SNMP/TRAP 获取、监控系统北向接口、业务模拟、手工/文件 批量导入等方式进行数据采集。 该层管理 IT 基础架构组件和应用系统的运营状况、可用性及性能等,被管 对象主要为平台部件,包括主机、数据库、中间件、Web 服务器等。主要功能: 采集数据,包括告警数据、性能数据和配置数据 从服务器、数据库、中间件以及其它方面监视基础设施的运行状况 确定和诊断事件,快速恢复服务 控制环境并将其自动化 系统通过获取相应的数据达到监控整个系统的目标。告警数据用于及时反映 系统运行状态。性能数据用于评价平台运行质量,通过分析历史指标的情况、预 4 测未来的发展,提升管理层次,达到面向服务品质的管理。配置数据整体描述系 统的资源状况。 告告警警数数据据 告警数据分为故障告警、性能阀值告警等。 故障告警:指平台的非正常状态触发的告警事件,以及从平台日志中提取 的故障事件。 性能阀值告警:指性能指标数据超过设定阀值触发的告警事件。 同时,为了保护用户的已有投资,利用事件管理平台,实现与第三方管理软 件的集成,如 IBM Tivoli、HP Openview、CA Unicenter 等,共同完成对各类应用 及其服务器设备等各类告警数据进行实时的数据采集,及时发现影响业务系统的 各类告警和性能异常,发送告警事件。 性性能能数数据据 性能 KPI 分为二级: 一级性能指标:指对系统运行最重要的,属于核心和常用的,有明确阀值 定义,能够判断系统是否正常运行的性能指标。 二级性能指标:对于分析系统性能有参考意义的,一般不设定阀值。 性能指标通过设定阀值来触发相应的性能阀值告警,对于性能指标的阀值定 义,原则上采用忙时、闲时、正常时段设置不同阀值,或同一时段可设多个阀值 进行分级告警。 5 配配置置数数据据 配置数据的采集利用 BMC Atrium Discovery and Dependency Mapping 自动发 现工具,结合其他维护方法,实现配置数据的处理。通过自动发现工具,将所有 的配置数据统一存储在数据库中,供监控管理平台和服务管理平台所共享。 1.2.2 采采集集层层模模块块 功功能能 整个采集层主要提供对主机、中间件、数据库和业务等的监控与管理,并提 供集中的用户监控管理界面对系统性能和可用性以进行集中监控,使用集中的配 置管理界面对监控策略进行集中的配置和管理。 IT 系统维护人员通过统一的门户系统监控 IT 基础架构的运行情况, ,同时监 控 IT 部件的事件和性能信息。 网网络络监监控控 网络监控将采用 Entuity Network Monitoring for BMC ProactiveNet Performance Management 产品实现。对 LAN 利用率、WAN 利用率、端口误码率、 丢包率、CPU、内存、缓存等实现监控。 .1 网网络络故故障障管管理理及及拓拓扑扑管管理理 Entuity Network Monitoring for BMC ProactiveNet Performance Management 网 络管理系统可以自动发现生成网络拓扑图并且实时更新,所显示的网络拓扑图能 够与网络的逻辑结构一致。可以建立地理位置或层次拓扑结构,根据广域网、局 域网、交换机、路由器、服务器、PC 机进行分组管理。并且,支持管理维护人员 分层管理功能。 网络拓扑及故障管理网络拓扑及故障管理 6 Entuity Network Monitoring for BMC ProactiveNet Performance Management 采 取以下三步骤来进行 IP 发现和网络拓扑解析: 发现 SNMP 设备; 探测巳发现的设备; 物理拓扑解析。 Entuity Network Monitoring for BMC ProactiveNet Performance Management 以 图形化的方式显示如下的信息系统的网络部件: 路由器; 2 层交换机; 4 到 7 层交换机; 防火墙; 服务器(Windows、HP、Solaris、); 打印机; 用户工作站(没有 SNMP 的代理程序)。 Entuity Network Monitoring for BMC ProactiveNet Performance Management 自 动发现各网络部件之间的连接情况。附图 2. 所示是 Entuity Network Monitoring for BMC ProactiveNet Performance Management 发现的网络设备和相应的网络拓扑图。 7 附图附图 2. 网络拓扑图网络拓扑图 可以基于网络拓扑图或网络层次树形结构查询网络部件,如厂家、设备类型、 IP 地址、MAC 等等。当进行树形结构查询时,可使用过滤器对其进行过滤。 Entuity Network Monitoring for BMC ProactiveNet Performance Management 的过滤 器支持以下几种过滤器: 拓扑结构:可选择属于一个网络、一个 VLAN、一个 VLAN 主干或同一个 网络设备相临的所有设备; 统计/性能:选择在某一时间段内超过门槛值的设备、线路或应用程序; 物品清单:根据指定的属性(路由器、交换机)、特定厂家或设备类型选择 选择设备、线路或应用程序。 下图所示是一查询树的示意图。 8 附图附图 3. 查询树查询树 下图是在查询树上选择相应设备后在网络拓扑图上呈现出来的巳选择设备和 相应路径。 9 附图附图 4. 设备路径显示设备路径显示 Entuity Network Monitoring for BMC ProactiveNet Performance Management 支 持多层的网络拓扑图。 流量监控流量监控 Entuity Network Monitoring for BMC ProactiveNet Performance Management 从 设备的 SNMP MIB 库中收集以下的数据信息: 性能数据:带宽的利用率、输入、输出、; 负载信息:CPU、内存、ORACLE 的负载、ERP 的负载、发送的邮件 数、; 错误信息:丢包数; 10 VLAN:基于端口和地址的 VLAN、。 对每个设备或线路,Entuity Network Monitoring for BMC ProactiveNet Performance Management 支持用户定义映射模式,每个设备或线路可显示两个指 标值的信息,具体的指标由用户指定,相应的图标和相应的颜色也可由用户指定。 如用户不指定,根据设备类型,Entuity Network Monitoring for BMC ProactiveNet Performance Management 选择最适合的指标。 Entuity Network Monitoring for BMC ProactiveNet Performance Management 可 实时或历史数据回放的方式在网络拓扑图上显示网络性能数据,用户可选择以哪 些指标来显示网络流量显示图。用户可根据管理的需要显示某部分的 VLAN 图或 显示全局的 VLAN 图。附图 5. 所示是某一局部的 VLAN 图和相应的流量及流向 显示。 附图附图 5. VLAN 视图和相应的流量及流向显示视图和相应的流量及流向显示 11 附图 6. 所示是一全局性 VLAN 和流量及流向显示图。 附图附图 6. 全局性全局性 VLAN 和流量及流向显示图和流量及流向显示图 网络管理人员可以基于某一网络设备对其相应指标值进行性能分析与预测。 附图 7. 所示是一网络设备的指标值分析图。 12 附图附图 7. 网络设备的指标值分析图网络设备的指标值分析图 利用 Entuity Network Monitoring for BMC ProactiveNet Performance Management 特有的流量映射功能很容易找出网络异常时巳影响的网络部件或将会 受到影响的网络部件。下图所示是某一工作站对数据库进行大量访问,占有大量 网络带宽,从而在一段时间内阻止其它工作站对该数据库服务器进行访问。 附图附图 8. 利用流量映射功能发现网络异常利用流量映射功能发现网络异常 下图所示的是通过流量映射功能很快找出一个配置错误的进行负载均衡的骨 干交换机。 13 附图附图 9. 利用流量映射功能发现负载均衡利用流量映射功能发现负载均衡 Entuity Network Monitoring for BMC ProactiveNet Performance Management 可 同 BMC ProactiveNet Performance Management Agent 进行集成,从而在网络拓扑 图上显示系统、数据库或应用的性能数据。 故障管理故障管理 BEntuity Network Monitoring for BMC ProactiveNet Performance Management 故障管理模块在网络拓扑图上实时更改不同网络部件的状态,它支持整个网络拓 扑图及其相关的子网的状态。 Entuity Network Monitoring for BMC ProactiveNet Performance Management 故 障管理模块的主要功能如下: 14 1.管理两类的状态信息。 来自网络部件的报警信息(SNMP Trap)。来自于被监控设备的 SNMP Trap V1 和 V2 以及性能 Trap(例如来自于 BMC PROACTIVENET PERFORMANCE MANAGEMENT(PATROL) Visualis)被存储在数据库中以备将来分析,受该事件影响的网络部件 会以不同的颜色显示在网络拓扑图上。 辅助的轮询机制(是否可到达)。通过对 SNMP 设备的主动轮询或通 过对无 SNMP 代理的 ICMP 的轮询来确定设备的可到达性。轮询频 率可由用户定义。 2.根据报警更改设备的状态。 3.更改网络拓扑图的显示。 4.将报警传送给告警管理模块并执行相应的动作。 .2 网网络络性性能能分分析析 Entuity Network Monitoring for BMC ProactiveNet Performance Management着 重于网络性能分析,主要功能如下: Entuity Network Monitoring for BMC ProactiveNet Performance Management 提 供网络的性能管理,着眼于提高网络的服务质量(QoS) ,帮助网络管理人员优化 网络的报务水平。 15 Entuity Network Monitoring for BMC ProactiveNet Performance Management 的 特点包括: 辨别能力:瓶颈在哪里,哪些是过载的网络设备,哪些是空闲的网络设 备; 预测能力:网络拥塞和过饱和; 优化:整个网络的功能,广域网的费用; 确证:当前、未来投资的有效性,恰如其分的网络功能; 统计:SNMP 管理、接口、DLCI、协议、实时数据、历史数据、 SNMP、RMON、RMON2、NetFlow、Ganymede; 报告:SNMP 指示器,网络功能报告、例外处理,单点查看,高级诊断、 报告的客户化; 通知、报警:发送报告的电子邮件,多个/交叉使用报警阈值,SNMP 的 trap 发送到第三方的 NMS 工具; 预测、计划:可以对整个网络、网络域、网络子域、每个网络设备进行 性能预测; Entuity Network Monitoring for BMC ProactiveNet Performance Management 与 其他厂商的产品相比,其独到之处在于: 实施非常快:5 分钟的安装,15 分钟网络自动发现完成,15 分钟后产生 第一个报告; 16 基于 Web 的最新技术: 100%使用 Java,客户机/服务器结构; 利用 WEB 浏览器可访问到所有的功能。 非常有效的报告; 通知、报警。 性能管理体系结构性能管理体系结构 Entuity Network Monitoring for BMC ProactiveNet Performance Management 性 能管理是基于 Web 的客户机/服务器体系架构,服务器自动发现设备、收集 SNMP 数据、存储数据在自己的对象数据库中并产生相应的系统报表。一个 Entuity Network Monitoring for BMC ProactiveNet Performance Management 包括以 下部件: 一个优化的 SNMP 收集器,因此不会增加网络负载; 一个存储数据的对象数据库,数据可导入到关系数据库 ORACLE 中; 基于 TOMCAT 的 HTTP 的 Web 服务器,用户可用任一浏览器连接到该 Web 服务器监控网络的性能; 一整套 API,可用来同其它网络管理产品进行集成。 整个 Entuity Network Monitoring for BMC ProactiveNet Performance Management 架构如下所示: 17 Web Client Web Client HTTP Server User Interface Services SNMP Stack Scheduler Statistics Engine Polling Engine Servlets API CLIENT PATROL DASHBOARD SERVER MIB & Statistics database 附图附图 10. 性能管理体系结构性能管理体系结构 网络数据采集和存储网络数据采集和存储 Entuity Network Monitoring for BMC ProactiveNet Performance Management 收 集设备或接口(物理或虚拟)的性能、负载和错误信息,并存储在自己的数据库中, 它对每一个对象采集大量的性能数据并按指标值(可在 Entuity Network Monitoring for BMC ProactiveNet Performance Management 中进行配置)进行聚集操作,一个对 象可以是一台设备(路由器、交换机、集线器、)、一个物理接口(以太网的端口、 ATM、ISDN、令牌)、一个虚拟接口(帧中继、DLCI、ATM、VP/VC)、VPN、一 种协议(HTTP、SMTP、TCP 的端口)等等。 门限值管理门限值管理 Entuity Network Monitoring for BMC ProactiveNet Performance Management 可 在跟踪的每一个指标值上以门限值的方式定义可接受的值的范围,当监控的值超 过门槛值时,将产生一个例外,这将通过信息 SNMP 触发 SNMP Trap 和/或 18 EMAIL 将相应发送给负责该设备的网络管理人员。网络管理人员可利用 Entuity Network Monitoring for BMC ProactiveNet Performance Management 也可以集成到 BMC ProactiveNet Performance Management 平台,实现统一的基础架构管理。 趋势分析趋势分析 Entuity Network Monitoring for BMC ProactiveNet Performance Management 提 供趋势分析报表,它既包括对整个网络环境的趋势分析,也包括对每一个监控的 指标值的未来情况的预测。Entuity Network Monitoring for BMC ProactiveNet Performance Management 针对每一个被监控的指标提供短期和长期的演变趋势。 下图是一趋势分析的示例图。 附图附图 11. 网络性能趋势分析网络性能趋势分析 Entuity Network Monitoring for BMC ProactiveNet Performance Management 既 可以产生基于某一网络节点的趋势分析图,还能产生基于某一网段、某个省公司、 全集团公司的网络运行趋势图。 19 应用响应时间测量应用响应时间测量 Entuity Network Monitoring for BMC ProactiveNet Performance Management 可 以管理集成在 Cisco 设备上的 SAA 应用程序。SAA 允许建立“应用”请求 (HTTP、FTP、TCP、UDP、JITTER、)并测量从 Cisco 设备至另一设备(如 HTTP 服务器)的响应时间。Entuity Network Monitoring for BMC ProactiveNet Performance Management 也可定义两个设备间的响应时间测量。下图所示是一响 应时间监控图。 附图附图 12. 响应时间监控图响应时间监控图 自我诊断自我诊断 Entuity Network Monitoring for BMC ProactiveNet Performance Management Diagnostic Module 可以查找网络响应时间增长的原因所在。每晚,Entuity Network Monitoring for BMC ProactiveNet Performance Management 基于所有引起 响应时间下降情况计算它们之间的相关性,然后给出一个引起响应时间下降的原 20 因所在。下图所示是一自我诊断的示例图。 附图附图 13. 自我诊断自我诊断 网络可用性测量网络可用性测量 Entuity Network Monitoring for BMC ProactiveNet Performance Management 基 于趋势分析报表来度量网络部件的可用性。趋势分析报表每天自动产生并发送给 在 Entuity Network Monitoring for BMC ProactiveNet Performance Management 中定 义好的网络管理人员。下图是一示例的网络趋势报表。 附图附图 14. 网络趋势报表网络趋势报表 21 实时监控网络部件的性能情况实时监控网络部件的性能情况 Entuity Network Monitoring for BMC ProactiveNet Performance Management 可 实时监控网络设备或模块的性能情况,下图所示是一实时网络部件性能图。 附图附图 15. 实时网络部件性能实时网络部件性能 .3 网网络络事事件件集集成成 BMC ProactiveNet Performance Management- Event Management 提供同 Entuity Network Monitoring for BMC ProactiveNet Performance Management 的集成 模块,能够将 Entuity Network Monitoring for BMC ProactiveNet Performance Management 生成的事件统一集成到事件平台统一处理,同时 BMC PROACTIVENET PERFORMANCE MANAGEMENT- EVENT MANAGEMENT 也能够接收各种网络管理软件的事 件及网络设备的 SNMP Trap,把来自不同设备的告警集中到一个管理平台上。把 集成上来的故障事件可以与其他系统的告警事件做整合,关联和集成报警,实现 网络和业务系统的集成管理。 22 BMC PROACTIVENET PERFORMANCE MANAGEMENT- EVENT MANAGEMENT 能够将网 络故障事件和故障恢复网络事件自动关联归并,如收到端口 Up 的网络事件时,能 够自动触发查找过去曾经发生的同一设备的同一端口 Down 的网络事件,然后系统 自动把这 2 条网络事件归并和清除 操操作作系系统统监监控控 操作系统的监控采用 BMC ProactiveNet Performance ManagementServer 产 品。BMC ProactiveNet Performance ManagementServer 能够支持广泛的操作系统 类型,如 HP-UX、IBM AIX、Solaris、Linux、Windows NT/2000/2003/2008、AS400 等多种系统平台。 通过在被管的服务器上安装 BMC ProactiveNet Performance Management Server 监控代理,可实现对被管服务器上操作系统运行情况的监控。它可以自动 监控 CPU,硬盘,网卡,操作系统日志文件,内存及交换区等诸多参数的工作情 况,为操作系统提供不间断监测,发现问题时提出警告,并提供自动修复功能, 不仅使管理员从费时的重复工作中解脱出来,专心于其它任务关键的活动,而且 帮助系统管理员从被动的事后管理转化为主动的事前监控,从而保障了系统的高 可用行和高可靠性。 附图 16. 是 BMC 监控产品针对某一 Unix 操作系统采集的性能数据的展示图。 23 附图附图 16. Unix 操作系统采集的性能数据操作系统采集的性能数据 针对操作系统的监控提供以下主要功能: (1)提供对被监控服务器的重要特定资源进行实时监控。 (2)提供对 SOC 系统 citrix 应用运行状态的实时监控。 (3)提供对邮件系统 domino 应用运行状态的实时监控,连续监控、分析、 管理 Domino 服务器和数据库,有效地管理应用系统定义、指令、参数和恢复行 动。实现客户化并提供系统实时运作的详细资料,以便快速、便利地分析系统运 行性能并清楚地识别系统资源运作的高峰、低谷和趋势。 。 (4)提供对 AS400 运行状态的实时监控,包括:CPU 使用率、ASP 状态、 磁盘使用率、磁盘 I/O 状态、作业运行状态及日志、实时网络状态及流量、硬件 状态、object 是否损坏等。 24 (5)BMC ProactiveNet Performance ManagementServer 对服务器系统资源 监控的参数配置灵活、简便,并且能定制增加新的监控指标。 (6)可以在不同时间段对某个性能指标定义不同的告警阀值,例如生产系 统白天空闲,晚上某个时间段内繁忙,则此生产系统 cpu 的告警阀值可以在白天 设置为 80%,晚上设置为 95%。 (7)可以根据不同情况设置不同报警级别、预警阈值,在系统出现临界状 态,系统能自动报警、自动响应和根据设置自动处理。 (8)BMC ProactiveNet Performance ManagementServer 对系统监控提供对 历史数据的查看、分析和统计,并能生成性能监控历史分析图和预测分析。 (9)BMC ProactiveNet Performance ManagementServer 可以实现服务器日 志的监控管理。 (10)BMC ProactiveNet Performance ManagementServer 可以实现跨系统/ 子系统的警告的联合设定,能够指出多个警告同时出现是一个严重问题,并发出严 重/红色警告。 (11)提供实时以及历史性数据分析:并可展现成长条图,直线图,及扇形图, 因此可分析其趋势以指出未来可能隐藏的问题。 (12)BMC ProactiveNet Performance Management 利用 Sentry Software Monitoring for BMC ProactiveNet Performance Management - Hardware Monitoring 产 品实现监控主机硬件状态的集中监控。 (13)可以监控磁盘基本信息:包括磁盘名监控: 监控当前文件系统 Mount 的物理盘名称;系统名监控:监控当前系统的主机名等。 (14)可以对 Inode 监控:监控磁盘当前的 Inode 总数、正在使用的 Inode 的 数量、剩余的 Inode 数量、某个文件系统上分配的 Inode 数量,以及 Inode 使用率 等内容,统计值包括平均、最大、最小及总计使用率等。 25 (15)提供对 Mount 点监控:监控当前文件系统 Mount 点的路径名等。 (16)提供对文件系统监控:包括文件系统尺寸监控,统计值包括平均、最 大、最小及总计使用率等。 (17)提供对空间监控:包括当前可用的磁盘空间、可用的磁盘空间百分比、 磁盘空间使用率等,统计值包括平均、最大、最小及总计使用率等。 (18)提供对磁盘性能监控:包括平均磁盘请求队列监控,平均磁盘访问等 待时间监控,磁盘数据传输时间百分比,当物理磁盘使用时间百分率过高时,监 控系统会产生“磁盘时间百分率很高”的报警事件。 (19)当磁盘每秒读取过多的数据时,监控系统会产生“每秒读取字节数很 高”的报警事件。 (20)监控文件的名称、文件大小、文件的类型、文件所在的路径名、文件 和目录的访问权限、链接名、拥有者、所属组信息,以及文件最近被访问时间, 上次修改时间等。 (21)监控所有网络接口的帧平均冲突率、平均接收率、平均发送率,平均 接收错误率、平均发送错误率、采样周期可以自定义。 (22)网卡流量统计:包括在一个给定的采样周期内收到帧的数量、发送帧 的数量、帧冲突、接收错误。 (23)监控所有网络接口的包接收率,包冲突率、接收错误率、发送率、发 送错误率、采样周期可以自定义。 (24)最大传输单元监控(FMTU):监控网卡上传输包的最大尺寸,统计 值包括平均、最大、最小及总计使用率等。 (25)进程监控参数包括:进程组 ID、用户 ID、父进程 ID、进程会话 ID、 以及占用系统 CPU 时间、用户 CPU 时间、占用内存的百分比、占用的虚拟内存 地址、进程开始时间、进程运行时长、启动该进程的命令行等。 26 (26)进程状态监控如:监控处于不存在、活动、正在运行、停止、睡眠、 等待状态的进程等。 (27)监控启动该进程的终端名、用户名、Major Fault、Minor Fault、进程 的优先级等。 (28)在处理器中当前运行的进程监控,处于运行队列中等待 CPU 的进程 监控,进程 Idle 时间监控,进程等待 CPU 时间、处于等待锁状态的进程监控等。 (29)当系统有多个处理器且最多使用和最少使用的处理器的使用百分率之 差很高时,监控系统会产生“使用率差值百分率很高”的报警事件。 (30)当系统中安装的一个或多个设备占用过多处理器时间时,监控系统会 产生“硬件忙”的报警事件。 (31)当某个进程使用处理器时间百分率过高时,监控系统会产生“进程数 很高 ”的报警事件。 (32)检测在一定的时间范围内,平均 CPU 繁忙时间、平均用户 CPU 时间、 平均系统 CPU 时间,应能自定义采样周期。 (33)当处理器使用率很高,但并不是由于特定进程或设备在运行时,监控 系统会产生“处理器忙”的报警事件。 (34)监控处于等待 I/O 的状态的 CPU 时间,当系统调用达到监控策略中的 规定值时,监控系统会就此问题产生报警事件。 (35)在多处理器环境中监控 CPU 状态包括 CPU ID 、Online、Offline 状态 等。 (36)监控有关内存的使用情况,可以识别系统中可用内存过低,SWAP 可 用空间过低,额外的或异常的系统页面调度,如 page-in 或 page-out,当这些情况 的发生频率达到监控策略中的规定值时,监控系统会就此问题产生报警事件,并 即时发送到故障控制台和业务管理控制台。 27 (37)在一定的采样周期内,当存在过度从磁盘物理块读取或向磁盘物理块 写入等情况时,监控系统会产生相应的报警事件。 (38)在一定的采样周期内,当存在过度从磁盘逻辑块读取或向磁盘逻辑块 写入等情况时,监控系统会产生相应的报警事件。 (39)监控系统的平均负载,当系统内核运行队列中存在的进程超过监控策 略中的规定值时,监控系统会就此问题产生报警事件; (40)监控系统调用,当系统调用达到监控策略中的规定值时,监控系统会 就此问题产生报警事件。 (41)检测与用户有特定关联的属性,主要关注:用户名、用户 ID、Idle 时 间、位置信息、登录时间、登录终端等。 (42)BMC ProactiveNet Performance ManagementServer 能够将监控到的 服务器故障事件转发到集中事件管理平台进行集中的事件处理,详见“1.3.1 统一 事件管理平台”一节。 数数据据库库监监控控 数据库监控采用 BMC ProactiveNet Performance ManagementApplication, Database and Middleware 产品。数据库监控产品可以对不同的数据库进行告警和 性能数据的采集,包括 Oracle、Sybase、Informix、DB2、SQL Server 等。 下面是 Oracle 数据库的监控视图。 28 附图附图 17. Oracle 数据库的监控视图一数据库的监控视图一 附图附图 18. Oracle 数据库的监控视图二数据库的监控视图二 29 针对 Oracle 数据库的监控提供以下主要功能: 1)监控从 Oracle 告警日志中收集的详细信息。包括:消息内容;消息时间 戳;上次相同错误发生时间;上次管理操作错误发生时间;间隔期内管理操作次 数;间隔期内错误发生总数;实例启动后管理操作次数;实例启动后错误总数等 信息。 2)监控实例的 SGA,提供 SGA 的相关监控信息,包括:数据缓存大小及命 中率;日志缓存大小及命中率;字典缓存大小及命中率;库缓存大小及命中率; 共享池大小及命中率;SGA 总空间;SGA 最小空闲百分比;SGA 最大空闲百分 比等信息。 3)监控 PGA 的使用情况,包括:各个进程使用的 PGA 的大小;各个进程 使用的 PGA 各个组件的大小;总 PGA 大小及命中率;PGA 最小空间百分比; PGA 最大空闲空间百分比等;在内存中排序的百分比等信息。 4)监控服务器内闩的竞争情况,包括:是否有闩等待和闩自旋发生,各种 类型闩的 GETS、MISSES、SLEEPS、IMMEDIATE GETS、IMMEDIATE MISSES 等监控信息。 5)监控指定样本时间内锁的发生情况,包括:报告最大允许的 DML 锁的数 量;各种类型锁的发生次数;监控锁等待和锁冲突;报告被锁阻塞的用户 SID; 被阻塞对象类型和锁模式;被阻塞会话锁住的对象名称、类型;阻塞会话的用户 SID;锁模式;等待锁的用户 SID;死锁数和死锁超时数等信息。 6)监控数据库的性能和可用性,包括:归档日志模式是否启用;是否启用 自动归档;监

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论