DS-2015-XXX-宁夏商业银行运维监控一体化运维管理平台-技术方案.docx_第1页
DS-2015-XXX-宁夏商业银行运维监控一体化运维管理平台-技术方案.docx_第2页
DS-2015-XXX-宁夏商业银行运维监控一体化运维管理平台-技术方案.docx_第3页
DS-2015-XXX-宁夏商业银行运维监控一体化运维管理平台-技术方案.docx_第4页
DS-2015-XXX-宁夏商业银行运维监控一体化运维管理平台-技术方案.docx_第5页
已阅读5页,还剩268页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

宁夏银行一体化运维管理平台技术方案建议书达烁高科(北京)信息技术有限公司2019年2月27日技术方案建议书文档属性本文档所涉及到的文字、图表等、仅限于宁夏银行股份有限公司(以下简称宁夏银行)及达烁高科(北京)信息技术有限公司(以下简称达烁高科)内部使用,未经双方书面许可,请勿扩散到第三方。文档属性属性内容客户名称:宁夏银行项目名称:宁夏银行一体化运维管理平台项目文档主题:技术方案文档编号:文档版本:版本日期:文档状态:审阅作者:文档变更版本修订日期修订人描述 文档送呈单位姓名目的宁夏银行审阅目 录1概述51.1背景51.2总体要求61.2.2被动管理阶段61.2.3主动管理阶段72项目范围82.1基础架构监控管理对象82.2系统建设原则92.3监控平台总体需求112.4流程平台总体需求133总体设计163.1设计思路163.1.1运维管理目标架构163.1.2技术架构设计184总体技术方案214.1被动阶段解决方案214.1.1基础监控解决方案214.1.2IT服务管理平台1184.1.3必要补充技术方案1464.2主动阶段解决方案1814.2.1IT服务管理平台1814.2.2BMC流程管理系统突出特点2054.2.3必要补充技术方案2135软硬件配置2625.1硬件配置建议2625.1.1标准配置2635.1.2最小配置2645.2软件配置建议2655.2.1监控部分2655.2.2流程部分2675.3系统可靠性和安全性设计2685.3.1系统可靠性说明2685.3.2系统安全性说明2691 概述1.1 背景宁夏银行成立于1998年10月28日,是由宁夏回族自治区、银川市两级政府及企业入股组建的一家股份制商业银行。2009年11月26日,宁夏银行小企业信贷中心成立,成为全国较早具备准法人性质的小企业专营机构。2009年12月8日,宁夏银行西安分行开业,率先在西北城市商业银行中跨省(区)设立分支机构。2011年4月28日,宁夏银行天津分行开业,跨区域经营战略进一步推进。截至目前,全行拥有员工近2500人,其中大学本科及以上学历人员占比83%,具有高中级技术职称人员占比23%,员工平均年龄32.6岁。全行下辖54家分支机构,其中宁夏境内辖45家支行、1家营业部和1家小企业信贷中心。区外,西安1家分行,3家支行;天津1家分行,2家支行。宁夏银行坚持“服务中小企业、服务城乡居民”的市场定位,走特色化、差异化的业务发展道路,先后推出了“24小时银行”、“存取款免填单”、“96558”电话银行、“账户信息通”、如意白金卡等金融产品和服务品牌;国际业务于2003年12月8日开通,网上银行于2009年7月成功上线,服务功能逐步完善。宁夏银行通过不断完善公司治理,强化内控建设,加大市场拓展,加强基础管理,提高资产质量,各项业务取得了长足发展。截至2013年末,全行资产总额797亿元,各项存款余额658亿元,各项贷款余额426亿元,分别是成立时的106倍、153倍和138倍;资本充足率14.23%。2014年上半年,在经济下行压力持续加大的形势下,宁夏银行完善经营策略,加快改革创新,拓展业务领域,强化内部管理,各项业务持续健康发展,为实现全年经营目标奠定了良好基础。l 一是资产规模增长较快,资金实力进一步增强。l 二是各项贷款有序投放,结构调整成效显著。l 三是资金投行业务发力,初步构建盈利中心模式。l 四是启动全面深化改革,推进管理模式改革。l 五是推动业务和产品创新,持续打造品牌优势,正式成为VISA卡组织成员。随着宁夏银行应用系统上线的增多,进入到IT运维管理阶段的项目数量也不断增加,IT系统运维管理的工作负担也不断加大。由于银行的业务系统高度依赖IT环境,所以IT运维管理面临的压力成为银行IT部门面临的主要压力。从另外一个角度看,银行还面临着来自互联网行业的竞争压力,所谓互联网金融的业务压力。为应对这部分的压力,银行也迫切需要提升自己的IT运维管理能力,以使自己从日常运维工作中解脱出来,将精力更多的投入到关注银行业务创新和发展中来。1.2 总体要求目前,中国银监会积极推动各家商业银行加快新资本协议实施的步伐,并要求2016年年末前所有商业银行都应建立起与本行规模、业务复杂程度相适应的全面风险管理框架和内部资本充足率评估程序。面对越来越严格的风险管理监管标准和监管政策,宁夏银行也在积极推进风险管理体系建设,从多个层面入手提高自身的风险管理水平。l l业务系统迁移至新的数据机房l l建立两地三中心的灾备体系l l增加IT运维团队人员数量l l借助业界最佳实践梳理、建立流程化的运维管理体系l l优化、更新现有的管理工具为应对上述自身和外在的管理要求,宁夏银行启动了咨询设计项目,按照咨询的结果制订了总体两大阶段管理平台建设方案:.1 被动管理阶段本阶段建设的目标如下:l 优化现有宁夏银行IT运维管理部门的职能规范化,形成适合宁夏银行当前成熟度,最科学与合理的职能管理;l 职能设计作为未来宁夏银行流程体系建设的基础,职能设计能够适用,且支撑于宁夏银行未来510的业务需求;l 形成宁夏银行初步的管理规范体系;1.2.2 主动管理阶段本阶段建设的目标如下:l 设计和建立关联紧密、使用频率高的流程,以及承载这些流程的服务台管理职能,建立面向客户的服务窗口,使得IT运维管理工作逐渐步入正轨、有序进行;l 从客户的视角,对运维管理进行主动的服务设计。从而达到服务的主动管理和前台服务定制化,后台服务标准化的目标;l 逐步建立和完善标准要求的服务交付过程,建立起以可用性为核心的可用性、连续性、容量等这些需要长期规划的流程,由被动转为主动管理,从而保证核心业务的正常运行;l 对于IT运维管理24个管理领域则需要进行分步实施,精细设计,充分落地;l 固化IT运维管理体系流程,提升管理效率,降低人为操作风险;l 宁夏银行形成一套自我完善,自我改进的一个自循环体系2 项目范围2.1 基础架构监控管理对象当前宁夏银行的主要业务系统运行平台为UNIX、Linux以及Windows;主要业务运行数据库为Oracle和DB2;交易中间件系统为Weblogic、Websphere、MQ;虚拟化平台为VMWare;存储系统主要是HP、IBM、EMC三个厂商的主流产品;SAN交换机主要以HP、EMC为主;备份系统包括NBU软件、昆腾虚拟和物理磁带库。本次项目将对宁夏银行主要操作系统、数据库、交易中间件、备份设备、存储SAN交换机和虚拟环境的运行状况、故障、性能进行集中监控。采购的主要目的在于验证监控平台解决方案的管理功能,同时使宁夏银行在方案实施前能够看到系统实施后的部分效果。需要具体达到如下效果:监控平台承担指标采集与展示,告警事件的展示、处理,以及业务影响模型的展示功能,还要具有和其他平台无缝对接的能力;建立一个统一门户,通过可视化的视图,能够向管理人员呈现各种基础架构视图、业务视图以及历史和实时统计分析报表等方面的内容。宁夏银行本次IT监控管理的范围,涉及所有IT设备和基础运行平台,主要监控对象包括但不限于:#监控类型数量说明1存储设备2光存储交换机3磁带库4小型机(按LPAR计算)5PC 服务器5-1硬件监控5-2操作系统监控6DB2 数据库7Oracle 数据库8MQ9ESB10WAS11Weblogic12VMWARE ESX2.2 系统建设原则通过本系统的建设,使得宁夏银行IT系统管理从传统的分散、被动和低效的管理方式逐步转变为集中、主动和高效的管理模式,宁夏银行实现IT系统管理效率和服务管理质量的稳步提升,降低人工维护和管理带来的风险。u 运维的集中化整个IT 服务管理系统应遵循集中化建设的原则,完善宁夏银行IT 系统功能,以实现对软硬件平台系统的统一管理,简化业务支撑系统的硬件、软件的多样性,降低系统管理维护的复杂性,从而达到“集中监控、集中维护、集中管理”的目标,减少系统建设维护成本、节约投资和降低人力成本。u 先进性和成熟性原则选择的工具及进行的功能开发需要采用成熟、先进的技术,确保系统技术的先进性和前瞻性,采用国际先进的软件体系结构和应用平台,建设符合信息技术的最新发展潮流的应用基础架构和应用系统,保证投资的有效性和延续性。架构上,必须考虑所选择产品架构的一致性,避免因架构不一致带来的集成成本和其他隐患。u 平台可扩充性原则IT运维管理平台必须考虑到与已有系统以及将来待使用系统之间的互联,因此在设计时要分析现有需求并预测未来的增长,满足目前的要求。结构要合理,应保证设计的工具平台具有良好的二次开发功能,以利于今后的扩展。为了保护投资,要求管理软件具有很好的开放性和对标准的支持能力,支持各种主流平台、数据库和中间件等。同时,产品应采用模块化设计,有良好的可扩展性和可伸缩性,便于今后的扩展和分步实施,并配合IT管理功能的扩展与深入,保护已有的投资。u 开放性和标准化原则由于IT运维管理平台需要处理除数据中心内部服务管理过程中产生的信息外,还有相当多的信息来自外部监控工具,因此在平台设计时,应充分考虑对数据标准和应用接口标准的支持,以使平台具有多样性和广泛的互连性。平台必须支持当前常用的操作系统如Unix,windows,Linux上进行部署安装。u 安全可靠性原则工具平台应充分考虑用户、系统、网络方面的安全性要求,防止来自外部非法的访问。应具有用户的身份认证和权限管理,对应不同的使用角色(组);既能保证不同用户高效、快速地访问控制授权范围内的系统资源,也能有效地阻止用户之间的非法侵入、非授权访问;u 稳定性原则IT监控管理平台要为宁夏银行用户服务。系统的建设规划要充分考虑系统投入运行后即作为生产系统,保证724小时服务:一是要求所部署的平台应架构合理,经过大型IT环境的考验,具有大规模部署并稳定运行的能力和证明;二是要求具有备份功能和措施;三是要求具有高的容错及故障恢复能力,即出现意外时能够隔离故障区,保护重要数据,通知管理人员做人工干预,避免灾难性后果发生。u 规范性原则统一标准和规范是建设平台的基本要求,系统之间采用开放的接口标准,便于信息交换、信息共享和业务协同。2.3 监控平台总体需求根据前期咨询设计的结果,本期的总体需求如下:1、 网络运维监控管理模块功能点包括:网络拓扑发现、网络设备自动及增量发现、设备信息展现、链路状态设定包括手工添加链路设定、设备性能快照及物理位置展现、多种模式拓扑展现、拓扑自动事故分析、拓扑与告警信息、设备背板管理、网络资源管理、机柜排列与网络拓扑图、IP地址及服务分布管理、设备IP及MAC安全管理、网络设备管理、网络设备路由分析、实时性能分析、历史性能数据分析、网络流量分析管理2、 服务器主机系统运维管理模块功能点包括:主机监控、主机可视化监控、主机CPU监控、主机内存监控、主机磁盘监控、主机进程监控、策略式批量监控、统一监控页面。3、 应用系统运维管理模块功能点包括:中间件服务监控、邮件系统监控、数据库监控等;4、 业务服务运维管理模块功能点包括:业务服务建模、业务数据采集管理、业务可用性管理、业务服务健康度管理、业务服务影响度分析、业务服务告警处理;5、 B/S业务系统运维管理模块功能点包括:WEB网站应用服务监控、WEB网站服务平台监控;6、 存储系统运维管理模块功能点包括:支持的平台、监控参数、报警机制;7、 机房运维管理模块功能点包括:机房系统架构、机房部署架构、机房巡检、制冷系统监控、温湿度监控、消防预警监控、电力系统监控等;8、 系统安全与权限管理模块功能点包括:用户安全机制、SSO统一认证、权限监控分级管理、数据传输安全管理等;9、 日志监控运维管理模块功能点包括:通用日志管理、Syslog监控、SNMP监控等;10、 脚本及指标扩展监控管理模块功能点包括:脚本库管理、脚本监控管理11、 运维监控策略管理功能点包括:统一资源监控设定、监控阀值设定、批量监控设定;12、 故障和统一告警台管理功能点包括:事件的收集、事件的处理与展现、事件指标设置、实时告警管理、报警应急响应管理、报警通知方式;13、 系统管理和展现界面功能点包括:系统架构管理、可视化管理、大屏显示管理、自身日志管理、自身组件管理、系统自身诊断;14、 报表统计分析管理模块功能点包括:实时分析报表管理、历史分析报表管理、统计报告分析管理等;2.4 流程平台总体需求1. 工具平台功能点包括:支持统一身份验证;用户界面简洁,易用;提供多种事件、服务请求上报途径,可自由选择;电子取证自动上传等功能;区别请求人界面,服务台界面,事件管理界面和服务请求管理界面,横向基于服务台打通几大流程模块。2. 服务台功能点包括:体现服务台承载的事件、服务请求、报表,绩效等流程。服务台可对事件与服务请求功能进行区别管理;并发工单分拆功能;定时报表,报表自动分类分发功能3. 事件管理模块功能点包括:事件的记录,分类,优先级排序,服务级别SLAs,重大事件分类,事件解决与关闭的区别,事件管理过程中一,二,三线划分与管理,事件与变更、配置、知识的有效关联,并能可视化的展示;4. 知识管理模块功能点包括:延知识的生命的周期管理,包括创建、分类、审批、分发、权限、销毁;主动知识管理;5. 服务请求功能模块功能点包括:服务请求的记录,分类,对应的服务级别,自由分派、请求预授权及审批环节;6. 配置管理(基本功能)模块功能点包括:可自定义配置项分类及属性,包括基本属性和私有属性,表单可自定义,支持批量导入导出功能;7. 服务目录功能点包括:服务的定义、服务的设计及已有服务的收集汇总,可自定义服务目录的分类、级别、对应的负责人,服务团队、对应的SLAs,服务的下线;8. 配置管理(高级部分)模块功能点包括:配置项之间的关联关系的设计,配置建模,配置的自动发现、配置与其他流程的有效关联,可视化的配置视图;9. 问题管理模块功能点包括:问题的记录、分类、优先级排序,能体现问题与事件、知识、变更的关联信息;能展现问题工单的处理过程和详细记录;10. 变更管理模块功能点包括:配置管理总的可视化视图;可自定义变更类型,支持自定义审批路径;变更窗口、支持上传附件;提供与事件、问题关联的接口;11. 发布与部署模块功能点包括:DML库,发布的计划、发布窗口、发布前测试、发布部署过程、发布后的验证等环节;12. 可用性管理模块功能点包括:可用性分解、建模,具备各种应用系统、支撑系统、网络、服务器的可用性监控视图、可用性监控数据;可用性指标预警,有可用性与事件关联的接口;13. 连续性管理模块功能点包括:业务影响分析和评估、连续性预案管理、场景设计、演练计划及演练关联,现场管理、培训管理、演练后的评审环节;14. 容量管理模块功能点包括:具有容量多层次的监控视图,容量建模,包括组件级、系统级、服务级;容量分析与预测;支持自定义监控阀值、升级时间和上报;15. 信息安全管理模块功能点包括:信息安全整体策划的方针管理及下发、信息安全的风险评估、分析、处置,预防管理过程,涵盖预防措施和纠正措施的管理,跟踪安全事件的处置过程和结果验证;16. 供应商及合同管理(SCMS)模块功能点包括:供应商管理,合同管理,供应商提供的服务的管理,供应商绩效评价管理;17. 服务绩效管理模块功能点包括:服务指标库的设计与管理,构建绩效模型,进行绩效的收集、分析、评价管理,绩效仪表盘,实现可视化的绩效展示。18. 整合SKMS(知识管理)、CMS(配置管理)、AMIS(可用性管理)、CMIS(容量管理)、SCMS(供应商和合同管理)、ISMS(信息安全管理)、BCMS(IT服务连续性管理)、BSM(业务服务监控),形成一体化的运维平台3 总体设计3.1 设计思路3.1.1 运维管理目标架构根据IT运维管理平台的具体要求,以及前期我们调研的结果,达烁高科认为本次项目可以依托于下图中所示的BMC五台一库的BSM理念下的IT运维管理框架进行建设:IT运维管理框架从逻辑结构上划分为五个平台和一个中心配置库(“五台一库”),分别是数据展现平台,流程管理平台,集中监控平台,自动化管理平台,历史数据分析平台以及CMDB配置管理核心库。l “监控平台”:构建整个IT监控架构,实现集中事件管理,并为面向业务的监控管理打下基础。l “流程平台”:整合并标准化运维的日常工作,将日常的工作规范,并透明化。l “展现及报表平台”:建设统一报表平台和统一门户平台将有效增强数据利用和展示效果。l “自动化操作平台”:完成对整个IT操作的集中管控和自动化。l “统一报表平台”:集中存放历史数据,提供后期统一分析及规划。l “配置管理数据库”:记录完整的、准确的IT环境中各组件的信息和彼此间的关联关系,作为唯一、可信的数据源,为周边系统提供支撑数据。本解决方案从IT运维管理平台的角度出发,首先实现IT基础架构管理的扩充,整合各事件源,对事件处理进行事件集中处理,协助运维人员及时了解系统当前状况,以及系统故障对相关业务的影响,同时以适当的形式进行集中呈现。3.1.2 技术架构设计具体而言,我们在本次项目建设中,对需求中的功能按照基础监控平台、流程平台进行划分;基础监控平台配合搬迁同步实施;流程平台的同步实施同时在架构规划时也考虑了整体架构未来可能的需求。系统涉及软件模块如下:编号软件名称描述1BMC TrueSight Operations Management集中事件处理服务器软件2BMC TRUESIGHT OPERATIONS MANAGEMENT Integration Service性能数据采集组件3BMC TRUESIGHT OPERATIONS MANAGEMENT Cell Component事件集成组件4BMC TRUESIGHT OPERATIONS MANAGEMENT Reporting 报表服务器及数据、事件采集引擎5BMC Remedy IT Service management 流程管理平台6BMC TrueSight App Visibility Manager应用性能监控7IBM Netcool网络监控 系统架构层次架构层次定位描述涉及组件数据采集层1、 负责事件信息的采集获取,通过主机代理Agent采集被管理节点数据,将事件信息及性能信息送入TrueSight集中事件处理平台进行统一处理。2、 对采集层获取的网络、环控等相关事件进行数据的汇总及初步处理。l 操作系统l 数据库l 中间件l 存储l 网络l 环控数据处理层1、 负责监控数据的处理,包括事件处理,事件翻译,事件丰富,声音告警,报表等2、 负责实现服务支持和服务交付相关IT运维管理流程l 事件管理平台l 流程平台数据展现层面向最终用户,信息的集中展现,包括事件,性能等即时信息的展现。l 事件管理平台l 报表平台4 总体技术方案4.1 被动阶段解决方案4.1.1 基础监控解决方案 网络运维监控管理网络监控采用IBM Netcool管理平台,主要功能包括:网络告警/故障管理、网络性能管理、网络拓扑管理、配置管理、报表管理等。.1 网络状态管理.1.1 拓扑的发现与展示ITNM提供的准确的网络三层、二层连接视图,可以清楚的反映网络实际的物理连接,其发现的网络拓扑结构包括网络所有节点之间的连接关系,如l 交换机划分的VLAN、l 每个VLAN包含的端口l 端口连接的节点l 路由器的端口l 互连的设备l 服务器或PC地址l 连接在交换机端口.1.2 网络设备拓扑动态获取根据当前企业网络架构,自动发现网络设备之间关系及相关配置信息。要求实现以下功能l 拓扑图可以动态更新l 告警等级实时更新l 可以根据不同网段进行过滤设置不同VIEWl 告警与设备关联,要求不同告警与设备关联时显示不同颜色l 点击设备关联事件时,会自动转入下一级页面,即告警的详细信息。该信息需要包含设备名、设备种类、设备IP、告警具体内容、设备位置、责任人、联系方式相关信息l 通过设定告警阀值,可以实现链路状态与告警相关联。要求当链路异常时,告警能够实时展现在拓扑图上,并以不同的颜色区分不同的告警。点击具体链路时可以链接到详细事件列表具体如下图所示:鼠标点击告警图标,自动链接到详细告警信息,如下图所示.1.3 自定义拓扑的展现 客户环境动态获取的网络拓扑结构,可读性有时不是很强,而且界面美观的程度跟客户定制的有一定区别。通过根据企业当前网络拓扑,利用美工设计出企业当前企业网络架构图,要求做到准确、可读性很强、美观等相关功能。具体如下图所示:.1.4 基于拓扑的事件关联ITNM能够自动发现网络设备间真实的连接关系,这些拓扑关系不仅仅用于显示网络连接视图,更重要的是帮助在发生故障时定位故障点。当网络事件信息汇总在Object Server事件管理服务器中时,ITNM内置的RCA(根源故障分析引擎)功能会自动根据节点之间的连接关系分析根源故障点,从而找出事件之间的关系,确定故障位置。比如当物理端口故障导致逻辑端口产生事件时,由于ITNM了解端口之间的连接关系,就可以自动定位出根源故障点是物理端口,从而压缩逻辑端口的事件信息。或者当路由出现问题时,两端的端口都会产生事件,ITNM也会自动将两个事件关联起来。对事件的分析实现两个主要功能,其中基础是对网络拓扑的准确发现,而不仅仅是简单的IP连接,ITNM详细的端口到端口的连接,能够准确描述设备间的依赖关系,从而在事件发生时确定事件的关联性。同时ITNM内置的RCA分析引擎,通过对拓扑数据的利用和与事件管理服务器的结合,自动分析事件间的关联关系。.2 网络告警管理网络管理解决方案核心围绕网络事件管理,将所有的管理报警信息:l 网络故障trap事件l 根据采集性能设置性能告警l 网络链路异常这些都将以事件的方式报告到网络事件处理平台,管理人员通过直观的事件信息监控,就可以了解网络实时的运行状况。.2.1 告警事件采集确保对网络设备的性能及故障信息采集全面,采集方式主要有以下两种l 接收设备发送的Syslog和Trap事件;l 主动对设备的信息进行PING和SNMP轮询。.2.2 告警事件预处理在实现了告警事件信息采集后,网管系统的Probe还可以对事件进行必要的预处理,主要包括事件的采集层过滤、事件的重定义、信息丰富和信息发送等功能。l 事件的压缩根据关键字对事件进行压缩处理、确保同类事件是显示一条告警l 事件关联 根据设备之间的关系,当设备发生告警时能否做到告警之间关联l 事件信息丰富网络设备报告的事件信息,一般只有针对设备本身的参数。在实际管理中,一般需要获取更多的信息,如该设备所在的位置,联系人,线路名称等。在NETCOOL探针规则文件中,可以根据事件的原始信息,如IP地址、名称,从预先定义好的文本文件中,找到该设备相关的管理信息,如位置、联系人,并将新获取的设备信息作为事件的新字段,同时发送给事件处理中心。用于事件信息丰富的探针规则文件如以下示意图所示:.2.3 告警的展现告警展现分为两种方式:事件列表方式;拓扑视图方式事件列表方式需要包含部分丰富信息、如设备位置、所属应用、联系人、联系方式;根据不同的告警等级,在事件列表中加以区分,如下图所示.2.4 告警第三方事件平台集成网络监控系统所产生的告警支持第三方事件平台集成,事件通过网络监控系统的集中告警平台,调用脚本并且调用第三方事件平台的jar包,通过http 的方式把告警推送到第三方软件,每条推送的告警都有相应的日志记录,告警格式可以根据第三方软件的告警格式约定推送,然后再由第三方事件平台进行处理和通知。事件推送可以做到实时性,准确性。.3 网络性能管理网络性能管理通过SNMP、ICMP等多种方式检查网络设备的性能,线路的连通性和服务质量,同时通过对网络协议和服务的检查,查看网络为业务提供的服务的可用性和服务质量。性能数据存储在数据库中,并且通过性能管理的呈现界面形成各种性能报告。Tivoli ITNM网管系统可以根据实际工作的需要,基于拓扑发现的网络设备信息,灵活地通过定时轮循机制来查询网元设备MIB获得SNMP信息,生成网络设备性能告警信息,同时,针对端口流量等性能数据进行实时监视。.3.1 网络实时性能数据采集在告警事件列表、拓扑视图中,选中设备(已经在ITNM中发现的)选择右键菜单中的图SNMP MIB数据,就能够设置实时简单性能监视,如果监视的MIB有历史数据,能够设置呈现历史数据的天数可以直接定义MIB值,或采用以定义的基本阀值采集实时监视性能数据视图图表是动态的.3.2 网络性能数据存储采集到的数据能够存储在数据库中在数据库中,数据保存在:ncpolldata.pollData表中.3.3 资产配置数据发现查看设备资产结构数据统计网络资产,如按照设备类型、按照端口类型进行统计.4 报表管理方案系统采用J2EE体系结构,通过TOMCAT 发布Web服务,所有应用模块都采用组件方式实现B/S模式的三层架构各功能模块通过JDBC驱动与后台网络性能数据库及事件数据库(MYSQL/DB2)建立连接,完成数据查询操作。通过多种图形方式进行展现。 报表展现方案满足用户网络管理系统的需求。.4.1 网络健康度跟踪及维护报表 网络健康度跟踪维护报表示例:.4.2 网络性能及状态报表通过网络性能报表图表展现系统网络中各链路负载、设备硬件资源使用率如:CPU、MEN、吞吐量、错误率等情况,其展现格式是多元性,如下所示曲线图、柱状图、饼状图、仪表盘、数据列表等展现方式:如下:展现的是华为网络设备历史性能:如下:展现的是网络带宽负载:.4.3 资产配置信息报表通过SNMP以及其他方式获取IT网络设备的资产信息,进而统计进行展现.4.4 网络事件报表通过gateway的方式把ITNM所采集到的事件集成到后台数据库,通过报表的方式统计分析各网络设备相关事件。如下:展现是某用户告警信息情况:.5 网络系统界面呈现方案.5.1 TIP/Webtop门户展示方案本解决方案所采用的呈现产品为Netcool的WebTop产品,通过Webtop的集成界面,将用户网络的运行情况进行统一的呈现和监视。Netcool/Webtop 可以提供安全的基于Web 的图形界面。提供实时访问Netcool ObjectServer 故障信息和其它相关信息的能力。它提供两种客户访问方式:只读,读写。Netcool/Webtop 包括如下特性:1、 基于profile,为不同用户定制Home Page。2、 可客户化的示图(可包括任意风格的Web页面)。3、 提供图形显示视图(map)。4、 可以从视图深入到服务事件列表5、 事件列表可以排序,定制过滤,按严重等级过滤等。如下客户监控视总图,就是根据客户的特定要求特别定制的事件监控总视图: 服务器主机系统运维管理.1 Unix/Linux服务器监控通过在被管的Unix/Linux服务器上安装BPPM代理和相应的Unix/Linux操作系统知识模块,可实现对被管服务器上Unix/Linux操作系统运行情况的监控。BPPM的Unix/Linux知识模块支持多种UNIX/LINUX操作系统,BPPM通过UNIX/LINUX的知识模块为任何规模的服务器提供丰富的资源管理和监控功能。它可以自动监控CPU,硬盘,网卡,操作系统日志文件,内存及交换区等诸多参数的工作情况,为Unix/Linux操作系统提供不间断监测,发现问题时提出警告,并提供自动修复功能,不仅使管理员从费时的重复工作中解脱出来,专心于其它任务关键的活动,而且帮助系统管理员从被动的事后管理转化为主动的事前监控,从而保障了系统的高可用行和高可靠性。下图所示是BPPM针对某一Unix/Linux操作系统采集的性能数据的展示图。BPPM针对Unix/Linux操作系统的知识模块提供以下主要功能:l 把BPPM里的InforBox直接连到操作系统的核心,提供快捷方便的对系统核心的存取。l 利用BPPM内置的数据点注解技术,该技术使管理员能够迅速检索附加的与上下文数据相关的参数值。l 自动监控CPU的综合利用率及CPU的各详细资源使用情况。通过监测CPU的利用情况识别可能降低系统性能的用户生产率的活动。这有利于去除或重新安排那些使资源萎缩的无必要活动,提高系统的性能和吞吐量。l 自动监测系统内存的使用情况,识别由过多分页和交换(或数据被装入卸出内存的频度)所带来的性能问题。问题被发现之后就会通知管理员采取措施。l 实时监控交换区SWAP,确定SWAP空间的使用情况。识别由于SWAP剩余空间过少而引起的系统性能问题。可以及时采取措施,保障系统的高可用性。l 监测TCP/IP上的通信状况,通过研究网络使用趋势分析中有用标准值来测量网络的运行情况。如果发现问题,KM for Unix/Linux就通知管理员,如高数据冲突率(可降低网络性能和阻碍通信。利用提供的信息,管理员可加强网络性能,例如,NFS的通信能力就可从客户一端的缓冲受益,提高用户生产率)。l 监测文件系统的使用情况,确定哪个磁盘被占用得很多,可能没有自由空间。这条信息可帮助系统管理员迅速识别和消除潜在的瓶颈,减少丢失数据和磁盘错误的危险,提高系统可用性。同时可以自动监控操作系统的日志文件。l 在系统级提供安全监控,包括口令、探测不恰当的权限设置和以及系统级日志方式存取等。这些都与已有Unix/Linux安全设施不冲突,并且加强了管理控制以阻止未授权的系统存取。l 自动监测打印队列的大小,在满之前通知管理员,从而避免了不必要的打印错误和用户效率损失。KM与Berkeley和SVR4打印管理系统完全兼容,通过对行业标准的支持提供灵活性。l 监测磁盘I/O和占用情况,定位网络中的热超限使用的磁盘。热磁盘可能成为系统瓶颈,或者更严重的导致昂贵的系统错误。有了这些信息,管理员就可以有效地将数据文件分散到多个磁盘上,或使文件系统分布在几个磁盘上,从而降低不可预计的故障时间和支持企业范围内的更高的系统可用性和吞吐量。l 跟踪系统用户数和精确决定正在运行的进程数。管理员可以确定哪个进程占有对系统资源的最多请求。当请求不太多时,KM,可自动提示管理员,促使管理员在系统能力极限达到之前,在系统性能未显著下降之前采取措施。l 日志文件监控主要用于监控主机的系统/应用日志,在实际项目中,对日志文件的监控能够发挥很大的作用,例如,用户采用IBM P系列服务器,而AIX操作系统可以通过errpt命令输出各种错误信息,如“内置硬盘磁道坏”等,这些信息就可以通过编写KM,输出到指定日志文件中,再通过TrueSight Performance Manager默认提供的日志监控KM定义匹配方式生成告警,TrueSight Performance Manager Log KM提供了监控模板定制的功能,可以通过“与、或、非”等方式灵活的组织字符串匹配规则,形成告警。l 进程监控的主要着眼点有进程CPU时间占用情况、进程内存占用情况、同名进程数、进程状态等,对采用了IPC技术的进程还需要监控其共享内存、信号量和消息队列。UNIX系统采用了多进程技术,某进程在处理能力不够时,能够fork出新的进程,在某项目中就曾经遇到过,某清算进程已经不能处理用户请求了,但还在不停的fork出新的进程,最终造成系统资源耗尽,因此,同名进程数是需要监控的一个重要指标。在某些情况下,进程状态看上去是正常的,不是Defunct状态,但实际上已经不工作了,而且CPU占用居高不下,这种情况下,从进程状态上是不能判断的,我们可以通过TrueSight Performance Manager同时采集进程的CPU占用率和运行时间,在超过定义阀值时提醒维护人员检查,在合理的定义告警阀值的条件下,能够起到很好的预警的作用。 l 进程CPU占用情况监控,在某项目里,用户的进程已经停止,而相关的信号量和共享内存还没有释放,造成进程重启异常,或重启失败,为了解决这种问题,可以基于TrueSight Performance Manager专门开发IPC管理KM,通过该KM,可以查看信号量和共享内存的状态,并删除已经处于Detach模式下的信号量和共享内存。l 对于进程除了需要监控其各关键性能指标(KPI),在日常工作中,还需要对进程进行启动、停止、重启等操作,Performance Manager默认提供这种功能,能够通过简单配置实现这些操作需求。.2 Windows服务器监控通过在被监控管理的Windows Server上安装BPPM的代理和针对Windows Server的知识模块,可对Windows NT、Windows 2000、Windows 2003等服务器实现自动监控和管理,以获取告警和性能数据。BPPM针对Windows Server的知识模块主要提供以下功能:l 监控服务器的可用性,包括CPU、内存、进程、磁盘I/O、网络吞吐量和高峰时的使用情况;l 允许管理员增加Windows NT、Windows 2000、Windows 2003的额外性能参数;l 根据采集到的数据,调优系统性能;l 自动输出、存储和显示历史数据;l 产生事件和维护所有事件的历史记录,用于趋势分析和解决问题;l 根据预先定义好的服务级别、性能和可用性阀值通知管理员或用户;l 提供实现Windows 2000安全通讯的接口,BPPM监控代理的数据可以以56位加密的方式发送(仅限Windows 2000 Servers)。通过每一个监控参数报警阀值和相关报警条件的定义,一旦触发报警时,告警信息将实时传送到管理控制台。可根据用户定义的值在本地保存指定天数的告警信息和性能数据。.3 虚拟环境监控BMC TrueSight Performance Manager不仅能对物理主机进行监控管理,而且还能对虚拟环境进行监控管理。可以监控的虚拟环境包括:l AIX LPAR/WPARl Citrix XenServerl HP UX nPar/vPar/VM Host/VM Guest l Microsoft Hyper-Vl Sun Solaris Zones/Containers and Logical Domains l VMWare (vCenter, ESX, ESXi) l Redhat KVMPatrolAgent对虚拟环境的监控通过监控知识模块采用API连接Virtual Center或ESX Server采集相关数据,再通过BPPM进行统一的展示和处理,包括动态基线的产生、告警的触发和处理、报表的产生。主要功能特点:1. 自动发现所有的虚拟主机 图:总体视图2. 自动提供虚拟资源和物理资源的映射 ,便于发现虚拟资源和物理资源的关系。3. 监控集群、资源池、虚拟主机、具体的虚拟机的运行情况,监控的指标涵盖了运行状态、存储、网络、CPU、内存等各方面的性能和状态参数。 图:虚拟环境监控视图4. 提供多种视图,包括物理视图、逻辑视图等,从多个角度了解虚拟环境的情况 图:虚拟环境的物理视图 图:虚拟环境的逻辑视图5. 提供多种开箱即用的资产和性能报告,便于资源调整。 图:使用资源最多的虚拟机报告 应用系统运维管理.1 数据库监控BPPM针对数据库管理的知识模块可以对不同的数据库进行告警和性能数据的采集,包括Oracle、DB2、Sybase、Informix、MS SQL Server等。通过BPPM针对数据库管理的知识模块可以实现以下主要功能: l 为数据库提供不间断的监测。其中包括自动发现环境,在监测到潜在的问题或错误时发生警告和警报,在适当的情况下执行自动纠正例程;l 在被授权的情况下,通过分配最大的可用空间来调整增长的数据库对象的大小,从而避免空间不足的问题影响用户生产率;l 为有关恢复或用户定义操作的报告提供解释数据点。管理员可以通过一个本地数据点快速地检索关于参数值、历史和警报的更详细的上下文数据。也可以使用图形解释具有历史参数的上下文中的进程清单和SQL脚本;l 监测活动事务总数数据库实例限制的百分比。当这个值达到100的时候,用户会发现Database的错误增加了。BPPM提供了自动化的监测和先进的报警功能,它可以将管理员的注意力从其他正常运行的关键任务上转移过来,在用户生产率受到影响之前解决这一潜在的问题;l 自动测量档案目的设备上的可用自由空间量,并确定适合于剩余空间的档案日志数量。为维护充足的档案容量提供有价值的管理效率。基于预先确定的警报值,可以配置BPPM,使它能够压缩这些日志文件以创建附加的空间;l 使用BPPM独有的SQLVIEWER功能,管理员可以在SQL执行期间有效地获取关于这些SQL语句运行情况及其初始来源的详细信息;l 跟踪在为服务器实例指定的时间段内发生的存取连锁行的次数;l 测量导致等待的自由缓冲区访问尝试的百分比。;l 跟踪在每个轮询期间等待阻塞恢复的比率,它为数据库性能提供了一个关键的基准数据,高的等待率表明存在潜在的表冲突问题;l 监测缓冲命中率,显示了读取数据缓存的操作与全部读操作的比率;l 监测一段时间内关键表空间的增长情况,当表空间的可用性低于用户定义的水平时发送一个管理警报;l 知识模块中其它支持管理效率的部件包括:o 添加到报告提示和菜单命令中的响应功能;o 格式化的报表;o 以批操作的方式执行SQL任务以及执行远程SQL命令的能力;o 同时管理多个数据库;o 添加监测参数,设置参数报警值,确定自动恢复操作的能力;o 先进的参数报告,包括多行图形和三维图表。以下是BMC TrueSight Performance Manager for Databases可以实现的一些指标项目:指标项指标要求数据库基本管理功能支持对各类数据库的各种参数进行实时监控:Informix、SQL SERVER、DB2、ORACLE等;对选定的资源进行监控,并区分显示资源的不同状态,通过设定上、下的域值大小,调整报警的阀值,超过阀值,管理系统进行报警;可在一个集中的监控台显示监控与管理不同的数据库,如Informix、SQL server、Oracle、DB2;实时显示数据库实例的各方面运行状态,监控数据库的运行;针对数据库的各项指标实现集中的故障监控;可监控数据库运行状态:如数据库进程、数据库锁、数据库日志等;可监控数据库资源:数据库CPU,数据库Cache等;可监控数据库存储资源:数据库文件系统、数据库表空间、数据库表、数据库空间、文件空间、chunk等;针对数据库的各项性能指标实现历史性能数据采集,并集中展示;在监控管理界面,可以调用数据库查询工具,显示当前数据库指标信息;在统一的监控管理界面,可以调用数据库管理工具,对数据库进行操作,包括启动停止数据库等操作;可对数据库的核心配置参数进行监控;可对用户session进行监控,以方便定位应用程序的瓶颈,如是否有长事务出现、rollback的频度,Session 运行的SQL语句、Session的物理读写和逻辑读写、Session级buffer cache命中率等;可监控数据库逻辑日志、物理日志使用率;数据库参数监控可监控虚拟共享内存;可监控表的extent数量是否达到最大限制;可实现total shared memory、alocated shared memory、sequential scan、checkpoint wait、checkpoint completion监控报警;.2 中间件管理IT环境中使用的中间件如WebLogic、Websphere,Tuxedo等采用以下BMC的监控模块对其进行管理。管理模块BMC管理软件WebLogic管理模块BPPM for BEA We

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论