版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、IT基础架构及业务监控平台项目 IT基础架构及业务监控平台实施项目建议书目 录第一章项目综述41.1监控平台的建设目标41.2监控平台的建设范围41.3监控平台的建设需求分析41.4监控平台的建设原则5第二章监控平台的功能说明、部署、实施收益和方案优势简述62.1监控平台功能说明62.2监控平台的部署方式72.3监控平台的实施收益82.4胜华通成技术方案的优势8第三章监控平台的建设方案说明103.1统一运维管理门户建设103.1.1为中国航油定制的统一监控门户介绍123.1.2典型业务仪表板介绍143.1.3NMS统一报表系统介绍203.1.4SLA报告系统介绍233.2统一监控平台建设273
2、.2.1端到端的业务监控介绍273.2.2统一事件管理介绍283.2.3统一性能管理介绍303.2.4监控模式选择313.3基础架构监控建设313.3.1服务器监控介绍323.3.2数据库监控353.3.3中间件监控383.4业务应用监控393.4.1业务监控的方案393.4.2业务监控的收益423.5网络设备监控453.6存储设备监控493.7内外网同步功能503.7.1<合作伙伴公司>的实现同步的独特优势503.7.2网络拓扑503.7.3实现原理513.8用户和权限管理51第四章为什么监控平台采用胜华通成NMS是最佳选择?534.1胜华通成公司解决方案为国内外众多公司多信任5
3、34.2胜华通成公司的实施经验和最佳实践534.2.1提供完整的IT运维管理系统建设规划,符合<客户公司>建设发展的需要534.2.2提供完备的实施风险保障措施534.2.3提供完备的使用保障措施54第五章项目实施方案555.1项目实施计划555.2项目总体进度表555.3项目实施内容575.3.1计划与调研、分析575.3.2系统设计阶段575.3.3系统开发、构建和验证阶段阶段585.3.4部署和试运行阶段585.3.5项目收尾阶段595.4项目交付物605.5项目实施团队成员61第六章技术培训方案656.1用户培训计划656.1.1培训调研656.1.2培训内容65第七章测试
4、方案677.1测试目标677.2测试内容677.3测试人员677.4测试项目677.5测试环境687.6测试结果68第八章售后服务方案708.1服务支撑机构708.2技术服务708.2.1技术支持服务标准708.2.2日常支持718.2.3升级支持718.2.4第三方产品技术支持718.2.5专项支持718.2.6服务内容728.2.7项目服务728.2.8巡检服务728.3合同保修期外服务738.3.1远程支持响应738.3.2现场支持响应738.4服务监督管理体制73第九章Nimsoft 产品简介74第十章Nimsoft产品主要监控参数一览76第一章 项目综述1.1 监控平台的建设目标中国
5、航空油料集团公司(以下简称中国航油)此次项目建设的目标:保障信息平台、外网网站、SAP等系统平台业务稳定、高效的运行。采用集中统一的监控平台,通过全局、直观的监控展现,实现业务应用、基础架构与网络架构集中监控,实时掌握核心关键业务应用、主机服务器、中间件、数据库、网络设备等关键指标运行状况及告警信息及时预警机制。由被动式服务转换为主动式服务,提升运维服务质量、服务能力与服务水平,提高系统的可用性,减少系统问题的发生,实现系统安全稳定健康的运行。1.2 监控平台的建设范围此次项目的监控范围包括:关键业务及保障业务运行的IT设备,包括主机服务器、网络设备等。提供灵活的监控扩展,满足新增加设备需求的
6、监控要求。实现以统一监控平台为门户的业务应用、基础架构、网络设备、存储、流程处理为主线的五方面监控需求。1.3 监控平台的建设需求分析针对以上项目建设目标和范围,中国航油的IT基础架构及业务监控平台建设从管理角度,可以进一步解析为以下三个方面: 1. 统一管理需求l 实现从业务服务到基础架构,从事件管理到性能分析的统一管理l 实现对运维效率的提高与运维成果的统一监管和提升l 实时掌握业务运行和基础架构的健康度情况l 通过流程保证故障、异常、隐患由合适的人采用合适的方式闭环处理2. 精益管理需求l 分析信息基础设施的运行负荷,提供相关数据,帮助制定合理的资源调配方案l 通过丰富完善的信息图档资料
7、,为中国航油的运维工作提供直观准确的基础数据l 从真实用户对业务使用的角度出发,实现端到端的业务监控和瓶颈诊断的闭环处理3. 战略管理需求l 帮助优化信息基础设施的运行性能l 帮助提升业务系统稳健性,降低IT系统风险1.4 监控平台的建设原则根据中国航油的建设需求,北京胜华通成信息技术有限公司(以下简称胜华通成)结合国内外各公司方案及其他已实施项目的先进经验。在此次项目建设中,将遵循以下原则:1. 先进性原则 选择代表先进水平和全球主流趋势的软硬件平台产品,使之不仅能够满足目前业务的需要,还能适应未来技术发展的趋势和需要。 2. 灵活性原则 根据中国航油对IT基础架构及业务监控平台的综合需求,
8、优化系统资源配置,实现最大的应用灵活性。 3. 可扩展性原则 在设计上充分考虑到可扩展性需求,提供具有最高可伸缩性的系统,并保护中国航油的项目投资。 4. 稳定性原则 整体系统确保稳定、高效、连续地运营,能够支持全天24 小时的连续运行需求。 5. 可管理性原则 系统提供可靠地管理手段,包括用户权限管理、运维监控以及相关性能分析的可管理性。 6. 开放性原则 系统方案采用开放标准,开放结构,开放系统组件和开放用户接口。充分满足用户投资保护和业务扩展、系统维护等方面的需求。 此外,根据中国航油的应用特点,在系统设计上还考虑到安全性、保密性、可视化处理等需求,力求提供一个完整实用的总体方案。 第二
9、章 监控平台的功能说明、部署、实施收益和方案优势简述本章从产品功能说明、中国航油测试环境监控平台的部署方式、监控平台的实施效果、胜华通成公司的监控平台的技术优势等几个方面阐述建设方案。2.1 监控平台功能说明针对此次监控的需求目标,IT基础架构及业务监控平台建设将分为三个层次,即采集层、处理层和展示层。具体如下图所示:采集层提供了大量的商业化预定义的采集探针。采集探针从被监控设备中采集相应的事件、告警、性能、拓扑和可用性信息。采集层覆盖了此次监控的目标和对象,根据此次项招标书的要求,胜华通成解决方案推荐采用轻量级代理程序的方式管理监控对象。即增强了对监控对象的管理能力,同时将对监控对象的资源影
10、响降到最低。处理层提供了数据处理和分析的手段和功能。包括事件根源分析、性能趋势分析、基础架构的可用性管理、业务可用性和SLA管理、以及端到端的IT综合运维管理。胜华通成在本次项目中推荐的解决方案提供了丰富的数据处理和分析的功能。比如对告警数据的过滤、压缩、关联、转发、多样报警方式、自动化脚本执行处理等;比如对性能数据的跟踪、瓶颈分析、趋势分析等。处理层通过将采集层所采集的应用和基础架构的数据进行处理,从而提供了端到端的IT综合运维管理。展示层提供了基于Portal门户的统一运维管理窗口。运维人员可以通过Web浏览器,采用统一登录、分权管理的方式完成相应的管理工作。同时,运维人员也可以通过统一运
11、维管理门户实现自定义报表和个性化门户的功能。2.2 监控平台的部署方式根据IT基础架构及业务监控平台的建设需求,胜华通成推荐采用的部署方式,如下图所示:图 监控平台部署示意图具体说明如下:1. 在管理中心放置两台PC服务器,采用Windows 2008 server(中英文)操作系统,安装SQL2008(中文)数据库, 部署Nimsoft NMS管理软件和统一运维管理门户,实现统一的运维管理。2. 在管理中心放置一台PC服务器,采用Windows 2008 server(中英文)操作系统,安装Service Desk管理软件及SQL2008(英文)数据库,实现服务台流程管理。3. 运维人员可以
12、通过web终端或client终端的方式访问使用。4. 在被管环境的被管设备上部署轻量级代理程序Robot或者以远程会话形式,实现对各类管理数据的采集。硬件服务器最低配置要求:1. 2颗双核CPU、8G内存、300G以上磁盘。2. 本次项目后台采用SQL Server 2008数据库。(注:第三方产品,不含在此次报价范围内)2.3 监控平台的实施收益IT基础架构及业务系统监控平台的实施后,中国航油具的投资收益如下:1. 被动管理变为主动管理从管理手段实现质的飞跃,一改过去的被动管理为主动管理。从根本上改变以往管理工作只能依靠技术人员凭经验去操作、问题出现后紧急救火、 甚至于面对系统问题无能为力的
13、被动局面。从技术手段上保证了计算机信息系统性能指标的可视性,预防问题出现、真正实现统一管理、集中监控,变不能为能够,在管理方面实现质的飞跃。2. 保证业务高质量,提高IT服务水平从业务可用性提高的角度,通过监控最终用户的使用体验,了解业务故障原因,确定系统瓶颈,通过有效地分析研究相关问题,优化业务应用、服务器、数据库、存储。从而提高系统的可靠性,改善系统性能,提高业务处理效率,进而提高业务质量。3. 实现SLA的管理,提高运维质量通过对SLA的管理,使运维从客户的利益出发进行IT管理。有了这样一个新的出发点,IT和客户的观点才能得到统一,运维的质量也大大提高了。4. 实现统一管理界面,保证系统
14、的健康稳定运行系统管理员能从单一(或者分平台)的管理控制入口,方便、快捷地完成对服务器、数据库、中间件、网络和存储的管理和监控。当出现故障时,可以实现快速故障排查,准确定位故障,快速解决故障。系统管理员通过预设各类指标阀值,实现对系统故障的预警能力,在系统发生故障前,提前发现系统隐患,提前解决系统瓶颈。2.4 胜华通成技术方案的优势胜华通成提供的以上解决方案通过商业化成熟软件Nimsoft来实现,该解决方案具有以下技术优势:1. 功能强大、先进的系统体系架构1) 采用数据采集、数据传输、数据处理、数据展现层次结构,提供集中式的管理。在管理服务器上,可以集中管理所有被监控终端,可以配置所有监控策
15、略和展示界面。2) 产品架构灵活,安装方便。通过监控域的划分,管理的规模可以灵活扩展。3) 系统扩展性好,一套系统可支持上万台设备监控。支持多种异构平台和数据库;提供开发接口,允许用户开发新的监控探针。一套系统可支持上万台设备监控4) 支持防火墙通过能力强。5) 产品性能稳定,产品架构配置灵活,具有可扩展的处理能力。2. 用户友好性,易用性强1) 快速部署,维护少,自我管理;提供Web管理界面,简单易操作。2) 提供业务视图的功能,可以为不同的用户定义不同的监控管理视图。3) 系统本身能够提供各种报表。4) 丰富的系统自身日志,每个功能模块均产生相应的日志,帮助快速解决故障。5) 故障报警及时
16、性和故障事件处理能力强。6) 可以为每一个数值形参数设定阀值,并且报警规则(如,响应时间在5分钟内持续大于5秒才报警)。7) 对产生的故障事件提供统一的界面进行查看,可以实现对特定故障事件执行相应的动作,包括Email通知、在管理端和被管理端执行故障恢复程序等,事件参数可以传递给相应的程序。3. 性能数据完整,维护人员负担轻1) 24x7地实时监控IT业务系统,性能数据收集完整、丰富。2) 提供性能数据分析方法。性能报表工具,可以定期自动输出指定格式的报表,让日常报表工作自动化,减轻人员工作负担。4. 胜华通成产品品牌保证胜华通成公司NMS产品作为业界一流的IT运维管理解决方案在国内外客户中有
17、着广泛的客户群和成功实施的案例。胜华通成公司以其先进的技术和项目实施能力为世界级企业所信任。第三章 监控平台的建设方案说明针对此次监控平台的建设要求,IT基础架构及业务监控平台的主要建设内容包括以下八个方面:1. 统一运维管理门户建设2. 统一监控平台建设3. 基础架构监控建设4. 业务应用监控建设 (添加service desk Wily)5. 网络设备监控建设6. 存储设备监控建设7. 内外网同步建设方案8. 流程管理建设9. 用户和权限管理此次项目提供的解决方案支持多种语言包,包括中文、英文、发文、西班牙文和日文。在实际的使用中,可以根据访问机器操作系统的本地语言选择自动的设置相应的语言
18、包。完全满足此次标书的技术要求。3.1 统一运维管理门户建设通过统一运维管理门户,用户可以灵活的访问各种管理应用,或者针对任何一个故障进行深入挖掘,得到详细的实时和历史性能信息。胜华通成公司的NMS统一运维管理方案采用基于J2EE架构及B/S架构,无需额外安装客户端,为用户提供个性化的使用界面,方便用户日常运维工作。门户支持直观多样的综合展示,支持多种个性化展示和展示的多样化、直观化、可定制化。NMS统一运维管理门户还提供了丰富的视图呈现方式,如线图、柱图、饼图等。统一运维管理门户还支持根据不同维护人员角色的不同,提供不同权限的管理视图。维护人员可以通过拖拽的方式灵活的定义管理门户和各类报表。
19、报表呈现方式多样灵活。此外,统一运维管理门户包含丰富的开箱即用的服务组件,简化维护管理工作;能通过浏览器实现界面布局的管理,能在操作界面中采用托拽方式进行用户界面的定制;每个栏目能自动刷新。图 统一运维门户展示示意图一统一运维管理门户基于Web 2.0 rich Internet appli胜华通成tion应用框架,综合企业级管理控制台的强大功能与仪表板的灵活性以及多用户部署的方便性,提供集中统一的登陆入口和集中的监控展现视图。统一管理门户基于flash方式显示,使技术管理员用起来得心应手,业务管理人员看起来一目了然。 统一运维管理门户中预定义一系列仪表板模版、容量性能可用性报告、服务品质管理
20、报告等等,让系统管理员可以方便的根据不同用户监控管理需求灵活定制其所需要的仪表板与报表系统。统一运维管理门户具备良好的伸缩性与灵活性,能够组合企业管理器的强大功能与门户系统的灵活性,使用单一界面即可监控所有数据,所有仪表板、应用、视图均可灵活配置。统一运维管理门户集成Service Desk监控模块,包含多种流程模板,并可根据实际需求通过多种过滤选项自定义设置。 图 统一运维门户展示示意图二3.1.1 为中国航油定制的统一监控门户介绍基于NMS所能够提供的实时IT及业务服务视图,结合中国航油的IT环境、组织架构,我们将量体裁衣定制一套满足SAP应用、网站访问、信息平台等应用监控的单一仪表板门户
21、系统,其中包括IT管理统计、业务系统指标、IT资源利用率、流程管理等等。同时,根据需要,也可以为具有需要的用户定制满足其需求的仪表板。 NMS提供了灵活简便的门户和报表的定制功能,只需要通过简单拖拽的方式既可以定制所需的管理门户和各类运维报表。业务应用、基础架构、网络、存储等所有相关组件的报表都可以灵活的定制。整个定制过程无需编程。图 自定义门户与报表NMS 提供了一系列关于数据中心、网络中心、虚拟机以及亚马逊服务、谷歌云服务等等的性能模版和可用性模版,可以让企业迅速建立其信息监控平台,快速为企业信息化服务。例如下面这个仪表板基于Web,允许受控用户通过网络进行维护。实例如下(示意图一&
22、;示意图二):图 仪表板示意图一图 仪表板示意图二整个仪表板由多个弹性数据块(Elastic Portlets ),这些数据块基于预定义的规则从数据库中读取数据、按照策略展示数据,并能在整个系统中重用,如下图:图 仪表板示意图三3.1.2 典型业务仪表板介绍 在NMS中,已经提供了大量参考样版,主要包括如下几种仪表板: VMware Views End to End Views Network Views MSP Views End-user QoS Views MS Exchange Views Database Views Service Views Server Views Geogra
23、phic Views Health胜华通成re Views Cisco VoIP Views Datacenter Views以上所有监控展示视图及支持独立展示的能力,也支持二次钻取的需求。NMS提供的管理门户和报表都可以灵活的通过拖拽的方式来定义。运维人员可以灵活的选择需要管理的设备和相应的指标并将其放在一张报表中查看和分析。图 报表的灵活定义下面就实际项目中采用的仪表板进行二次钻取进行举例介绍,供中铁物总电子商务公司了解产品并选择适当的仪表板。1. 首先查看数据中心视图仪表板展示内容:一个分布式数据中心的运行状态,包括托管的无力服务器及虚拟服务器展示要点:该仪表板演示了一个复杂分布式环境下
24、如何快速监控各个环节的运行状态,顶层图标显示各个数据中心的总体状态以及服务器的运行状态,利用导航器来快速浏览各个数据中心,用色标快速指示各个组件状态。图 数据中心视图仪表板2. 针对企业某业务查看相关性能状态视图:如McKesson电子病例系统仪表板展示内容:一个电子病例系统端到端基础架构状态展示要点:该仪表板综合监控了该电子病例系统及其服务的各种状态,包括移动用户连通性与响应时间、核心数据库事物性能、关键链路服务器及认证情况、终端用户体验等等。图 McKesson电子病例系统仪表板3. 查看各个地点的网络性能状态,提供地理仪表板视图展示内容:各个地点的网络状态展示要点:一个位于墨西哥湾的石油
25、公司用该仪表板监控各个钻井平台上IT基础架构的运行情况,点击每个井场图标则打开二级仪表板显示该井场网络的主要信息图 地理仪表板4. 确定业务质量状态:查看端到端服务模块及最终用户服务质量展示内容: 服务模块及最终用户服务质量展示要点:本仪表板展示了一个在线业务的关键服务器状态,同时也显示了访问该业务的最终用户体验,其中响应时间指标文本是根据实际数据实时变化的,顶部则显示了主要的SLA状态,每个图标都可是点击以显示更详细的信息。图 服务模块及最终用户服务质量仪表板5. 对相关资源性能和可用性状态进行排序,查看资源排序仪表板视图展示内容:最多用户、最多资源占用、性能指标展示要点:综合展示了1000
26、个数据点,快速展示一个数据中心整体情况.图 资源排序仪表板6. 向下钻取,进一步确定网络系统状态,查看网络状态仪表板视图展示内容:网络接口资源利用率及端口状态展示要点:动态仪表板实时展示网络接口的利用率及性能统计,用液晶计数器来显示网络端口的带宽利用率、包错误数、查询统计、告警状态等等图 网络状态仪表板7. 向下钻取,查看数据库视图:ORACLE健康状态仪表板展示内容:ORACLE健康状态的实时及历史数据展示要点:让管理员迅速看到ORACLE运行状态,其中还包括了数据库查询响应时间统计及实时状态图 ORACLE健康状态仪表板8. 向下钻取,查看服务视图:网络管理员仪表板展示内容:地理区域内网络
27、运行情况展示要点:展示三个区域内网络的主要运行态势,包括主要网络软件运行状态等,同时用计数器展示三个网段的响应时间图 网络管理员仪表板9. 向下钻取,查看服务器视图:服务器状态仪表板展示内容:服务器资源利用率及状态展示要点:一台典型XP系统的各种状态于一体,包括资源曲线、当前状态等等图 服务器状态仪表板3.1.3 NMS统一报表系统介绍NMS的统一报表系统可以完全满足企业监控报表的需求,特别是其高级报表设计器iReporter更是灵活,能够方便管理员设计出各种复杂的统计报表。NMS更是预定了数百种反映各方面监控内容报表,这些报表都可以通过互联网实时查看。不同监控内容的报表清单如下在线云计算服务
28、报表· Amazon Web Services EC2· Google Apps Status· Google App Engine System Status and Statistics· Rackspace Cloud Servers and Files Performance· Rackspace Cloud File Services· Rackspace Hosting System Status· Amazon Simple Storage Service· S System Status and P
29、erformance· Windows Azure Cloud Performance在线vBlock报表· Cisco Router CPU Utilization· Cisco Switch Interface Traffic· Cisco Unified Computing System Statistics· Clariion Statistics· VMware ESX Host Resource Statistics· VMware Guest Machine Statistics· VMware Vi
30、rtualCenter Server Statistics在线网络报表· Cisco Netflow Statistics· Bandwidth Utilization by Protocol· LDAP Response Time· Cisco Switch Interface Traffic· Cisco Router CPU Utilization· Cisco Class-based QOS· Cisco IPSLA Performance在线服务器报表· iSeries AS400 Server Stat
31、istics· Windows 2000 Server Statistics· Windows 2003 Server Statistics· Windows 2008 Server Statistics· Windows XP Statistics· Windows Vista Statistics· Linux Server Statistics· UNIX Server Statistics· Netware Server Statistics在线存储系统报表· Clariion Statistic
32、s在线虚拟系统报表· IBM VM Guest Statistics· IBM VM Hypervisor Host Statistics· VMware ESX Host Resource Statistics· VMware Guest Machine Statistics· VMware VirtualCenter Server Statistics· Citrix XenServer Host Statistics· Citrix XenServer Guest Statistics· Solaris Gl
33、obal Zone Statistics· Solaris Non-Global Zone Statistics· Microsoft Hyper-V Host Statistics· Microsoft Hyper-V Guest Statistics在线思科VoIP报表· Cisco Unified Communi胜华通成tion System Statistics在线数据库系统报表· JDBC Response Time· ADO/ODBC Response Time· MySQL Database Statistic
34、s· Oracle Database Statistics· MS SQL Server CPU Utilization· MS SQL Database Statistics· Sybase ASE 15 Database Statistics· IBM DB2 UDB Database Statistics· IBM Informix Database Statistics在线应用系统报表· Cisco Unified Computing System Statistics· JVM Statistics
35、83; Microsoft Sharepoint Statistics· SMTP/POP Mail Response· Microsoft Exchange Statistics· Web Page Download Time· Remedy Response Time· Lotus Notes/Domino Statistics· Citrix Statistics· WebSphere Appli胜华通成tion Server Statistics· Active Directory Statistics
36、183; Microsoft IIS Statistics· Sybase EA Server Statistics· Apache Web Server Statistics· Apache Tom胜华通成t Statistics· BEA Weblogic Statistics· JBoss Statistics在线终端用户体验报表· 主动用户监控报表· Bugzilla Appli胜华通成tion Response Statistics· CRM Appli胜华通成tion Response Time
37、3; 真实用户监控 (RUM)· Bugzilla Appli胜华通成tion Response Statistics在线场地报表· Server Room Temperature· Datacenter Power and Energy Consumption统一报表系统提供了多种报表的导出格式,运维人员可以根据需要将所需的报表导出成html、pdf、xml、Csv等多种格式。3.1.4 SLA报告系统介绍Nimsoft SLA 包括了用户自定义的考核指标以保障SLA满足要求,下面也三个实例来说明Nimsoft SLA报告系统的功能。1. 例1:大型ISP的SL
38、A报告系统以大型ISP为例,其按周考核的主要SLA指标要求在98%以上:l Email 收发不超过10秒钟l 服务器连接到网络不超过1秒钟l 主页加载不超过6秒钟生成的SLA状态报告如下:图 大型ISP的SLA报告系统历史SLA报告如下:图 大型ISP的历史SLA报告2. 例2:托管的CRM系统的SLA报告系统以一个托管的CRM系统为例,要求按周考核的CRM系统指标在98%以上:l CRM 系统所有操作时间不超过6秒钟l CRM 登陆时间不超过5秒钟l CRM系统查询公司时间不超过5秒钟实际生成的SLA报告如下:图 托管的CRM系统的SLA报告系统1. 例3:某个电子商务系统的SLA报告系统以
39、某个支持一个电子商务系统为例,报告如下:图 电子商务系统的SLA报告系统3.2 统一监控平台建设统一监控平台的建设包括三方面的建设内容:端到端的业务监控、事件管理功能、性能管理功能。1. NMS提供了端到端的业务监控功能,NMS提供了丰富的监控探针,覆盖了业务监控的各个层面。2. NMS提供了丰富的事件管理功能,事件管理可以覆盖所有需要管理的设备,快速捕捉到服务器、中间件、数据库、应用程序产生的日志和消息等事件。3. NMS提供的解决方案实现了全面的性能管理,包括各种设备性能管理,维护人员可以根据需要灵活的设定性能阀值,生成相应的性能告警。3.2.1 端到端的业务监控介绍通过NMS可以实现端到
40、端的业务监控,NMS提供了丰富的监控探针,覆盖了业务监控的各个层面,包括:用户体验管理、网络管理、服务器管理、存储管理、数据库管理、中间件管理和应用管理。通过对各个层面的监控,全面监控和分析业务的性能状态。图 端到端的业务监控示意图NMS提供了直观的端到端业务监控Dashboard,运维人员可以根据不同的业务监控要求,定义不同的监管理Dashboard,从而全面提升对业务的管理能力。图 Dashboard监控示意图3.2.2 统一事件管理介绍NMS提供了丰富的事件管理功能,事件管理可以覆盖所有需要管理的设备,快速捕捉到服务器、中间件、数据库、应用程序产生的日志和消息等事件。NMS默认提供了五种
41、告警级别,并提供了多种事件处理手段,运维人员可以根据需要灵活的定义报警事件。1. 事件的集中管理在一个统一的运维管理系统上,通过同一个管理界面,实现对事件的集中管理。维护人员可以在统一事件管理平台上看到所收到的事件的发送源、系统名、用户名、事件信息、事件生成时间等详细信息。统一事件管理平台的设置有很强的灵活性,可根据运维人员的不同要求而改变,以适应各个运维人员的需要。2. 事件关联处理防止告警风暴事件关联处理可以有效的防止告警风暴,通过内置的事件关联处理机制,可以快速的定位问题根源,屏蔽关联告警,防止告警风暴。事件关联处理技术使得当故障发生时,运维人员能够更快地定位原因、排除故障。通过高级事件
42、关联引擎,更快地识别故障根源。这个引擎将把事件与高层次报警关联起来,并立即查找故障的根本原因。深入分析(drill-down)功能令运维人员能够看到与每一个故障有关的所有事件。通过使用以上的这些事件关联模板,维护人员就可以方便的设计出满足自己需要的事件处理,从而实现对事件的智能处理,并快速定位关键故障,从而恢复系统故障,保障系统的正常运行。3. 灵活的事件的过滤处理与分类归并可以通过定义对统一事件管理平台所收到的事件信息进行过滤,只显示运维人员所关心的事件信息,同时可对所显示的事件信息进一步分类,对不同级别的事件信息以不同的颜色表示。通过这种方法可以提高运维人员的工作效率,增强系统的可维护性。
43、4. 多样的事件自动处理设置可以定义事件触发器,当统一事件管理平台收到某一条或一组特定事件信息时,统一事件管理平台可以自动执行一组动作(Action)自动处理事件。这组动作可以包括发送一条报警信息,执行一个命令,启动一个进程或一个批处理业等。如监视用户的关键数据库应用,当收到数据库进程非正常终止的信息时,对此进程自动重起,以保障用户的应用不间断运行。5. 事件的管理方式事件管理可指定事件所有组、所有人,与操作权限直接关联,如事件的所有人才能更改或删除该事件,同组的其他人才能查看该事件等。可设定条件自动更改事件内容,如指定最高严重等级的事件发生以后超过1小时无人响应就自动将事件所有人改为更高级别
44、的管理员。6. 事件管理执行动作的多种通告方式统一事件管理平台支持将事件通过声光报警、电子邮件、短信通知等方式,将事件信息通知相关运维人员。7. 事件的数据统计统一事件管理平台的事件管理会记录所有收集到的事件信息,并每天生成一个事件日志文件,还可对事件信息进行统计,提供相关日报表、周报表和月报表。图 时间的数据统计示意图3.2.3 统一性能管理介绍NMS提供的解决方案实现了全面的性能管理,包括服务器性能管理、数据库性能管理、中间件性能管理、存储性能管理、网络性能管理、应用性能管理等。维护人员可以根据需要灵活的设定性能阀值,生成相应的性能告警。可以以图形化的方式,批量对监控对象、监控指标和监控策
45、略进行设置,并支持灵活的设定采样周期。根据采集到的不同对象的性能参数,在统一的界面内分别以曲线图,饼图或表格的方式显示,可以根据分析的需要,将不同的参数指标或不同主机的性能参数指标在同一窗口内显示比较,从而可以了解系统的性能瓶颈和不同系统的负载压力。对于性能的指标,还可以做到根据历史的变化趋势,设置在某一置信度下的预测功能。从而可预言到系统需要升级扩展的时间。性能管理会集成所有收集到的性能指标信息,与后端的报表工具集成,生成性能统计报表。图 性能统计报表示意图3.2.4 监控模式选择在此次项目中,我们推荐采用轻量级有代理的监控模式。NMS采用了独特的轻量级代理技术,通过在被管设备上安装轻量级的
46、代理程序Robot,再在Robot上部署相应的监控探针Probes,来实现对整个基础架构以及业务系统的监控。NMS的轻量级代理技术,即保留了代理技术管理系统的相关优势,如更深的管理能力、较少的网络负载、保证了操作的连续性,提高了控制的颗粒度等。同时,减少了代理程序对系统资源的占用程度。NMS的轻量级代理对被管系统的资源占用<1% CPU,并支持“自动发现”与“手动输入”两种方式配置被监测对象的配置参数。3.3 基础架构监控建设基础架构的监控介绍含以下四项监控内容介绍:1. 服务器监控介绍2. 安全平台监控介绍3. 数据库监控介绍4. 中间件监控介绍3.3.1 服务器监控介绍NMS以服务器
47、为中心的监控理念能够监控包括Cisco UCS、AS400、Linux 、Unix、Netware、Windows等在内的所有主要操作系统,可以从单一控制台方便容易的完成对服务器关键资源(如CPU,内存,磁盘,事件日志,计数器等)的完美监控,允许管理员从集中的控制台对远程的服务和进程进行客中操作如自动或手动启动、重启、停止等。同时,对于承载在服务器上的各种商业软件,如Web,数据库系统,邮件系统 等提供了开箱即用的缺省配置模板。在此次项目中,针对多需要管理的Windows和AIX的状态信息都可以通过实时报警台、仪表板、报表等形式进行完美呈现。服务器监控是NMS最具特色的功能之一。对于Windo
48、ws和AIX服务器,提供了多种Probe探针来监控服务器的性能及可用性,这些探针可以分别部署,他们分别是:1. CDM探针CPU, Disk, and Memory Probe. 监控关键系统资源性能,在其成为影响性能瓶颈之前及时通知管理员。CDM探针可以按照预先定义的扫描策略及报警门限自动工作。 图 CDM探针示意图2. Windows NT Event Log Probe探针Windows NT Event Log Probe. 可以将所有Windows事件日志收集起来统一分析,方便管理。图 Windows NT Event Log Probe探针示意图3. Windows Service
49、s Probe探针Windows Services Probe. 监控服务状态,如意外停止可以按照策略进行重启,并可以按照规则发送告警信息。图 Windows Services Probe探针示意图4. Processes Probe探针Processes Probe. 采集系统、应用、网络等进程信息,监控其运行状态,一旦异常立即报警并自动按照策略重启。图 Processes Probe探针示意图5. Windows Printer Probe探针Windows Printer Probe. 监控所有本地及网络打印机状态。图 Windows Printer Probe探针示意图6. Log F
50、ile Probe探针 Log File Probe. 扫描所有文本型日志文件,并按照规则进行复杂处理。图 Log File Probe探针示意图3.3.2 数据库监控数据库作为应用系统基础的组成部分,其重要性不言而喻。对于业务系统而言,一旦数据库崩溃或者数据库的性能降低,那么会直接导致依赖于数据库的应用系统运行速度缓慢或者根本无法使用,其最终结果不仅仅是会影响应用系统的使用效率,甚至会造成客户和利润的流失。更有甚者,对于某些业务来说则完全依赖于业务系统,那么一旦业务系统所使用的数据库崩溃,那么会对企业造成根本性的伤害,或者会影响到企业的正常运营。数据库在使用中所出现的问题,可能由表空间、文件
51、系统、数据文件、进程等组件当中的任意一个造成,甚至有可能是由于某一个SQL语句的性能太差造成。因此,当数据库出现问题,彻查问题的根本原因成为重复、繁杂的劳动,NMS将管理员从重复劳动中脱离出来,以主动管理的方式,为管理员提供自动化的监控管理,一旦数据库出现问题,可以马上通知相关的管理员。NMS提供了多个重要的性能探针,一旦性能出现问题,立刻产生相应的事件和报警,并可通过短信、语音等形式主动将事件和报警推送给管理员,让管理员能够实时了解当前的系统运行数据与运行状况,及时解决数据库所存在的问题,防止问题进一步的严重。除了监控数据库、表空间、数据文件等组件,系统还可以深入到SQL语句的监控,提供SQ
52、L语句排名,可检测性能欠佳的SQL语句,让管理员能够有依据、有针对性的优化数据库的性能,简化管理员的维护工作。除了提供详尽、实时的数据,系统还可提供给使用者可视化的监控方式,使用者不必具有专业的数据库知识,也可以了解到数据库的当前状况。通过对数据库可用性和性能的监控,保证数据库的健康运行,确保依赖于数据库的业务系统的正常运行,减少系统的停用时间。NMS支持对所有主要流行的数据库系统的监控,主要包括:Sybase、Informix、Oracle、Microsoft SQL Server、DB2、MySQL等等。在本次项目中,根据需要,将对ORACLE数据库的性能进行监控。通过NMS可以实现对以下
53、指标的监控:Tablespace表空间: available free space 可用自由空间 available continuous free space 可用连续表空间tablespace fragmentation 表碎片status of tablespace 表空间状态status of rollback segments and waits in them status of data file(s) Status of individual tables: amount of extents amount of chained rows SGA (System Global
54、Area): buffer 胜华通成che hit ratio dictionary 胜华通成che hit ratio library 胜华通成che hit ratio available free memory sort ratio, disk vs. memory Oracle user sessions: number of connected users to the database through SQL Net amount of memory consumed by session Oracle internal alerts through alertlogfile: l
55、icense high watermark internal error messages Redo log contention Database objects state: objects with invalid state (triggers, procedures and views) invalid indexes database objects that 胜华通成nnot expand Oracle internal resource monitoring Multiple Oracle server monitoring DB knowledge base Hint Ass
56、istance/Editor例如,其探针可以很容易定义要监控的频率、严重性、例程状态等等图 数据库监控示意图一也可以利用状态报表很容易发现潜在的性能问题,如下图:图 数据库监控示意图二3.3.3 中间件监控中间件是重要的应用组件,也是IT基础架构和业务监控的重点。NMS支持对所有主要流行的中间件系统的监控,主要包括:Weblogic、Websphere、Tom胜华通成t、JBOSS等等。针对此次项目所需监控的Weblgic,NMS可以监控主要的事件和性能指标,从而有效保障中间件的可用性,从而保障业务的正常使用。常见的监控指标如下:· 服务器性能· 事务处理速率·
57、Servlet执行时间、超时、请求速率· Enterprise Java Bean资源利用率· JDBC连接状态· Java Message Service处理· Java Virtual Machine大批使用情况· Web应用处理· 集群处理· 借助用户可定义的指标扩展对所有定制应用(通过JMS提供MBean管理数据)的性能监控能力。中间件监控如下图所示:图 中间件监控示意图3.4 业务应用监控3.4.1 业务监控的方案现有的很多系统监控工具采用的是一种以IT系统架构管理为基础、自底向上的管理方法,这种方法存在着固有的不足,会导致管理手段和管理目标的背离,典型的现象是一线业务人员可能埋怨业务系统性能与可用性很差,但是运维人员事先却毫无觉察,相关的管
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年奢侈品电商平台可行性研究报告及总结分析
- 2025年新能源汽车(电动汽车)项目可行性研究报告及总结分析
- 心梗诊断与治疗技术自测题答案解析
- 志愿者能力评估测试题库及答案解析集
- 征兵知识测试题及答案
- 瑜伽练习指南与体式详解集及答案解析
- 幼儿园午睡测试题及答案
- 2024叉车作业安全培训
- 2024年中国石油天然气公司应急预案编写规范
- VTE的预防及护理培训
- 人员退休欢送会34
- 2024年上海交大C++课件:C++性能调优实战
- 《篆刻基础》课件
- 2024年全国中学生生物学联赛试题含答案
- 地面硬化合同范例
- 安全操作规程汇编(服装厂)
- DB3206T 1075-2024 水运工程施工安全管理台账编制导则
- 声律启蒙(全文)拼音版
- 投资理财职业生涯规划总结报告
- 石材数字化与信息化
- 研究生医学统计学-生存分析
评论
0/150
提交评论