IT运维管理解决方案V1.0_第1页
IT运维管理解决方案V1.0_第2页
IT运维管理解决方案V1.0_第3页
IT运维管理解决方案V1.0_第4页
IT运维管理解决方案V1.0_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第39页共40页富滇银行信息中心运维平台-技术方案商业机密*妥善保存第97页共131页系统运维管理整体解决方案目录TOC\o"1-5"\h\z\u第一章 项目概述 4第二章 监控技术方案 51 系统总体框架设计 51.1 设计原则 51.1.1 管理系统自动化 51.1.2 管理系统化 51.1.3 管理系统实时性 61.1.4 管理系统简单直观性 61.1.5 管理系统对资源的占用 61.1.6 管理体系的开放性 61.1.7 管理系统的安全性 61.1.8 管理系统的扩展性 71.2 方案概述 71.2.1 总体结构 7 ITM架构 8 TPC架构 10 ITCAM架构 10 Netcool网络及事件管理平台 11 报表系统架构 111.2.2 架构分析 122 项目实施技术方案 122.1 监控功能 122.1.1 与事件管理平台整合 122.1.2 用ITM实现对操作系统的监控 13 磁盘监控: 13 文件监控: 14 网卡 14 NFS统计 14 RPC统计 14 进程 15 CPU 15 系统属性 15 用户属性 162.1.3 用ITM实现Windows平台的监控 162.1.4 用ITCAMFordatabase实现对Oracle、SQL等数据库监控 18 ITCAM实现Oracle数据库监控 18 ITM实现SQLServer数据库监控 212.1.5 用ITCAM实现对WebSphere、Tuxedo的监控 222.1.6 用TPC实现对存储的监控 242.1.7 事件管理实施 252.1.8 报表管理实施 25 报表展现 262.1.9 数据采集频率 272.1.10 报警处理 28 报警分级 28 报警方式 282.2 分布式支持 282.3 系统安全性 292.4 扩展接口 292.4.1 与Tivoli其他产品的接口 292.4.2 二次开发的接口 292.4.3 通用代理(UniversalAgent) 292.5 性能分析 302.6 方案总结 312.7 本方案的优势 31第三章 IT运维流程管理方案 324.1需求分析 324.2流程设计 334.3TivoliServiceRequestManager的流程实现 334.3.1TivoliServiceRequestManager支持的管理流程 334.3.2管理对象分类和管理条目定义 334.3.3服务申请 344.3.4突发事件管理 354.3.5问题管理 364.3.6变更管理 374.3.7配置管理 384.3.8服务水平管理 384.4TivoliServiceRequestManager的技术实现 394.4.1TivoliServiceRequestManager体系架构 39项目概述客户IT环境复杂,IT资源类型众多,维护难度高,亟需建立一个集中的运维监控体系。以达到IT资源的集中管理、综合分析,提高工作效率和运维质量的目标。项目建设的整体目标为:整体规划、分布实施、重点突破,务求实效,作为整个系统与网络监控平台建设的知道思想;采用成熟的技术,配置要平衡;具有良好的稳定性、高效性、安全性、灵活性;具有良好的开放性,有较好的兼容能力;具有较强的扩充能力;需要能保护现有投资。总体需求分析包括:监控:主机、存储、网络、应用(数据库、中间件),故障告警、性能分析、自动发现2.服务流程:服务台、事件管理、故障管理、变更管理、发布管理、配置管理、知识库3.多维度展现:4.报表:

监控技术方案系统总体框架设计设计原则客户信息系统的管理必须采用有效的方法,在客户信息系统整个范围内实施管理策略和流程。客户信息系统的管理体系侧重在如何提供一个适合客户信息系统的低风险的IT管理模式,设计、建构、实施一个统一、集成并可扩展的管理结构,实现对复杂的计算机系统有效的管理。客户信息系统面对的是复杂的管理对象和多种管理需求。如果没有一套统一、集成的管理系统,在网络、系统和服务发生变化时,或者管理任务发生变化时,将可能导致管理体系大的调整,管理员可能需要花费很长时间和精力重新学习新的管理技能,从而导致管理效率的下降。最终将导致管理工作实施的周期加长,管理错误增多。统一和集成的管理将帮助最好的利用管理员的技能和精力,对客户系统进行高效、准确的管理。根据客户信息系统平台建设需求和我们的经验,在设计信息监控平台时应满足以下原则:管理系统自动化对于客户信息系统而言,建构在管理平台上的,统一、集成的管理模式可以降低管理系统维护的费用和风险,主要体现在:能够识别出管理复杂系统存在的困难和长远发展的问题,从而得到避免,防止用户重复投资减少对将各种单点管理工具勉强组合在一起工作,以满足管理工作的需要避免重复的管理工作,减少管理功能上的重复管理平台可以实现各管理应用间的通信,以更好的解决问题自动化管理减少管理员维护工作量,可以在统一平台上完成自动管理和监控,从而提高管理效率。管理系统化该平台要对客户信息系统进行综合管理。系统的构成层次从下至上为:物理网络层、系统层、数据库层及应用层,只有做到对所有资源的统一管理,才能全面的管理好系统资源。任何管理上的遗漏,都将成为系统故障出现的隐患。同时在单一管理环境下,实现对所有IT资产的集中化管理,并且对所有的平台都有统一的操作界面及管理,简化操作。全面的管理,提高客户信息系统的整体可用性。减少系统管理人员对问题的定位时间。管理系统实时性IT系统管理平台的监控对象是重要的IT资源,这些IT资源承载着多个关键的业务系统,对于监控系统来说,要在系统发生问题时实时的捕捉,确保信息的实时、完整。管理系统简单直观性系统应采用直观监控界面,并采用直观、清晰的展现形式;同时系统还应具有操作简便、使用方便的功能。管理系统对资源的占用在实现管理的同时,必然会占用一定的网络系统资源,如何尽量减少资源的占用,是实现有效的管理系统的重要因素。因此在IT系统平台的选择上,需要管理平台对资源的占用最少,尽量采用单一代理,轻客户端程序,以减少对系统资源的占用。同时管理平台需要具有分布式结构,以减少管理对网络资源的占用。管理体系的开放性管理系统的开放性,是设计客户监控系统的一个原则。管理系统需要符合业界标准,以实现对各种资源的统一管理和与其它管理软件的集成。同时管理系统需要开放开发接口,以方便客户扩展管理功能。该系统管理需要基于开放的管理平台,遵循业界标准,并提供管理接口:网络管理基于SNMP标准网管协议系统管理平台基于面向对象标准:ObjectManagementGroup(OMG):ObjectRequestBrokerArchTECture(CORBA)支持第三方厂商的应用集成,为系统管理的选型提供更高的灵活性开放的API支持用户应用软件的集成,为系统管理的内容扩充提供发展余地管理系统的安全性管理系统自身的安全性是保证管理工作正常进行的关键因素,因此在设计监控系统时,充分考虑了管理系统的安全性,包括:提供管理工作的安全审计控制和日志记录提供方便维护的安全通信结构,如信息的加密提供完整的策略和框架,并能适应组织的变化,灵活地设定管理人员的角色及权限客户系统监控需要管理平台具有优秀的体系安全管理,以保证管理的安全。管理系统的扩展性该监控系统平台规模会随着网络、系统、应用的扩展而扩展,因此选择的信息运维平台的扩展性对保护投资有重要意义。扩展性主要体现在:管理功能的扩展管理范围的扩展客户监控系统平台体系建立在企业级管理平台基础之上,具有优秀的扩展性,用户可以在需要时增加管理模块,扩展管理节点,保护现有网络系统以及应用管理投资。方案概述总体结构IBMTivoli管理总体架构如下:最底层为管理对象层,包括数据中心内部的各种被管理对象。中间为采集层,负责管理数据的采集,一般采用专用的协议和技术。在上层为数据处理层,主要为集中的告警信息、集中的性能数据和集中的配置信息管理最上层为集中展现层,展现数据中心的实时和历史运行状况,通过个性化的界面提供给不同层面的管理人员。服务流程层则负责管理运行流程的建立、运行和落地实现。在数据采集层,分别采用不同的技术来管理不同的IT资源:管理对象采用技术IBM产品服务器和操作系统CORBA和运行日志文件TivoliMonitoring存储SNIA协议和syslogTivoliProductivityCenter数据库、中间件产品自身接口或者标准协议ITCAM产品家族网络Syslog、SNMPOmnibus下面就每个产品的具体实现进行说明:ITM架构TivoliMonitoringv6基于CORBA版本v2.5实现。TivoliMonitoringv6主要逻辑部件:管理服务器TivoliEnterpriseMonitoringServer管理网关HubTivoliEnterpriseMonitoringServer管理代理TivoliEnterpriseMonitoringAgent展示门户TivoliEnterprisePortalServer数据历史保存TivoliDataWarehouse对于分布式环境,可以通过RemoteTEMS来实现高度的扩展性ITM6.1与其他各tivoli产品的关系图如下:由上图可以看出,ITCAM产品可以作为一个agent直接和TEMS联系。TPC架构TPC为客户提供完整的存储基础架构-包括磁盘,数据和光纤网络-提供了一套管理,配置及分析工具。下图举例描述了一些可管理的组件。通用代理程序为应用程序特定代理提供了一个平台。根据子代理所使用的任务,通用代理将被选择安装至应用服务器,桌面PC机,或笔记本上。ITCAM架构TivoliCompositApplicationManager基于TivoliMonitoring的底层实现技术,实现对数据库、J2EE服务器、应用服务器等的中间件和应用的监控。Netcool网络及事件管理平台Netcool/OMNIbus提供了业务最为强大的事件处理能力使IT管理人员更高效地进行原始数据的访问、处理和显示。通过增加智能化来提高事件分析功能,该功能具备先进的程序语言和数据触发器,从而允许进行批处理和更复杂的数据处理操作,这为先进的商业服务管理和服务质量管理提供了一个坚实的基础。Netcool/OMNIbus应用软件包括一个成品软件模块库,从安全、声音和IP、DSL/宽带、无线、转换器和路由器、企业管理系统和应用软件等超过一千个环境中收集并整理错误信息。Netcool/OMNIbus居于各类Netcool解决方案的核心,包括那些商业服务管理、服务质量管理、安全管理,以及先进的关联和诊断Netcool解决方案。Netcool/OMNIbus还为IT管理团队提供有关其基础架构和业务的重要信息,以及Netcool套件中那些备受赞誉的功能,包括可扩展性、覆盖面、适应性,还有已成为实时错误管理解决方案的公认标准的快速部署能力。Micromuse公司首席技术官CraigFarrell表示:“Netcool/OMNIbus产品以经被全球范围内超过一千八百家用户选中,作为其Netcool解决方案的一部分,为大型企业和服务提供商提供安全、可升级的管理骨干。Netcool/OMNIbus增强了我们行业领先的可扩展性、高效率和性能,并针对多区域服务管理提供更多的功能性,内建更多操作智能标准,从而保持了我们的行业领先地位。这些提升能使IBM的客户实现更高的操作效率,并更为高效地访商业服务管理数据。”报表系统架构数据展示平台从各管理模块收集性能数据,其中,主机系统运行监控、中间件运行监控、数据库运行监控数据从IBMTivoli系统数据库中获取,并汇总到本系统的报表统计模块。报表统计模块包含实时报表、历史报表、运行月报、趋势报告、比较报告、主机健康报告子系统,可对监测数据实时统计和分析,并出具分析报告。并根据实际情况可以以曲线、饼图、柱图、表格等形式进行展示,并可以根据用户需求把巡检性能报告定时发送到管理员的邮箱中。该系统可以根据管理员的需求设定不同用户以及不同的访问权限。架构分析由于客户系统监控规划的监控对象估计在100台以上,考虑到Tivoli监控服务器HUBTEMS(TivoliEnterpriseMonitoringServer)负载会比较大,我们会采用RemoteTEMS来分担负载。可以考虑按照机房来规划remotetems。ITMOSagent、ITMforMessageandCollaboration、ITMforDatabaseagent、ITCAMForWebResourceagent先连到remotetems,然后由remotetems去和hubtems通信,再由tivolienterpriseportalserver进行展现。这样的设计,一方面方便了各机房系统管理员的维护工作;另一方面,HUBTEMS的负载减小很多,故可以不用对HUBTEMS做failover,减少了一台PC服务期的采购,为客户节省了成本。每个Agent配置primaryremotetems和secondlyremotetems。正常情况下,agent和primaryremotetems通信,当primaryremotetems出现问题的时候,agent会自动连接到secondlyremotetems。这样的设计,可以保障agent和hubtems的通信,相当于是做了remotetems的failover。由于历史数据可以存放在agent端,采集经常也是由agent自己驱动,所以当TEMS出现问题的时候,数据采集还是正常进行,不会出现历史数据丢失。项目实施技术方案监控功能与事件管理平台整合对于应用系统来说,网络、设备、各种分布式的系统、数据库系统、中间件、各种应用程序都会产生各自的事件,在系统出现故障时,故障信息通过事件的方式显示在管理员的控制台上。对于大型网络系统,一个系统管理员往往要面对成百上千个不同的事件,负担很重,而且,由于事件量大,关系不清楚,管理员很难在众多事件中分出事件的重要程度,难以把重点放在对关键事件上,同时,也难以对问题进行准确的分析。由于各种事件,如网络、系统、数据库、应用的事件之间有相关性,因此对事件进行统一处理可以大大提高管理效率,加快故障分析定位和故障处理,降低由于系统故障带来的损失。IBMTivoli软件提供专业的事件故障管理工具IBMNetCoolOmnibus为管理员提供企业统一的事件管理控制台,对来自各种管理应用的事件和故障进行统一处理,并且提供全周期的自动化和事件控制。包括:事件集成--一个灵活且可扩展地从分布式环境中各个信息源收集和集成消息及事件的事件集成机制,专门收集网的IT环境产生的事件。使管理员只需要面对一个事件控制台,就可以查看网络中发生的所有事件。同时,事件可以按照来源、类型进行分组,管理员可以方便的进行查看。事件处理--对于各种信息事件进行处理。包括对事件进行过滤,滤除某些不重要的设备的不重要的事件,避免事件风暴的产生,减轻管理员的工作量。同时Omnibus提供强大的事件相关处理机制(EventCorrelation),管理员可以定义事件处理的规则、流程,在收到事件后,会自动经过流程处理,将多个不同事件之间的相关性进行分析,将根源事件显示到控制台上。管理员可以通过定义不同的事件处理流程,完成故障的定位,相关事件的分析,大大提高事件处理的效率。事件响应--一个通过从中央服务器发送和控制分布式应答作为系统事件应答的分布式自动响应引擎,负责根据对各种事件分析的结果实现对远程分布式系统进行控制。管理员可以定义在收到相应事件时的反应方式,如声电报警、执行预定义的程序、重新启动出现故障的程序等自动化处理方式,或者将本地无法处理的故障传送给上级管理中心需求帮助。事件的自动化处理可以减轻管理员的工作量,同时提高对故障的响应速度。利用Omnibus提供的大量的事件收集Adapter可以将第三方的告警信息方便地传送到Omnibus中,进行集中管理,充分发挥Tivoli对系统的管理能力,同时也使整个系统的管理更统一。事件存放在内存数据库中,通过SQL语句命令,可以查询并产生ASCII、Binary等格式,供第三方工具分析。用ITM实现对操作系统的监控实现的指标列举如下(不限于此):磁盘监控:监控系统上配置的物理磁盘的相关属性,主要监控内容包括Inode、,Mount点,以及磁盘空间使用率、数据传输率、平均等待时间及繁忙程度等:基本信息监控:包括磁盘名监控:监控当前文件系统Mount的物理盘名称;系统名监控:监控当前系统的主机名等;Inode监控:监控磁盘当前的Inode总数、正在使用的Inode的数量、剩余的Inode数量、某个文件系统上分配的Inode数量,以及Inode使用率等内容,统计值包括平均、最大、最小及总计使用率等;Mount点监控:监控当前文件系统Mount点的路径名等;.文件系统监控:包括文件系统尺寸监控,统计值包括平均、最大、最小及总计使用率等;空间监控:包括当前可用的磁盘空间、可用的磁盘空间百分比、磁盘空间使用率等,统计值包括平均、最大、最小及总计使用率等;磁盘性能监控:包括平均磁盘请求队列监控,平均磁盘访问等待时间监控,磁盘数据传输时间百分比,当物理磁盘使用时间百分率过高时,监控系统会产生“磁盘时间百分率很高”的报警事件;当磁盘每秒读取过多的数据时,监控系统会产生“每秒读取字节数很高”的报警事件。这些报警事件会即时发送到故障管理控制台与业务管理控制台。文件监控:监控系统中文件和目录的相关属性,主要监控内容包括名称、尺寸、拥有者、访问权限以及链接等基本监控信息:包括被监控文件的名称、文件大小、文件的类型、文件所在的路径名、文件和目录的访问权限、链接名、拥有者、所属组信息,以及文件最近被访问时间,上次修改时间等。网卡检测与在基于Unix的操作系统上安装的所有网络接口卡有特定关联的瓶颈,监测内容主要有:接收和发送帧统计、网络接口名、接口IP地址以及接口状态等。监控所有网络接口的帧平均冲突率、平均接收率、平均发送率,平均接收错误率、平均发送错误率、采样周期包括1分钟、5分钟、15分钟、60分钟等;网卡流量统计:包括在一个给定的采样周期内收到帧的数量、发送帧的数量、帧冲突、接收错误;监控所有网络接口的包接收率,包冲突率、接收错误率、发送率、发送错误率、采样周期包括1分钟、5分钟、15分钟、60分钟等;最大传输单元监控(FMTU):监控网卡上传输包的最大尺寸,统计值包括平均、最大、最小及总计使用率等。NFS统计检测与NFS有特定关联的瓶颈,主要关注:连接及错误等。主要监控内容有:监控一定时期内的NFS客户端的连接请求数量,以及被服务器拒绝的数量以及百分比等;通过分析各种NFS服务器及客户端的各种调用类型如:System统计Calls、GetAttributeCalls、LinkCalls、MakeDirectoryCalls、NullCalls、ReadCalls、ReadDirectoryCalls、ReadLinkCallsRemoveDirectoryCalls、RemoveFileCalls、RenameFileCalls、rootCalls、SetAttributeCalls、SymbolicLinkCalls、WriteCacheCalls等帮助管理员分析和判断NFS流量,修正相关问题。RPC统计检测与RPC有特定关联的瓶颈,主要关注:调用及错误信息等。主要监控内容有:监控一定时期内的RPC客户端的连接请求数量,转发、等待超时、以及被服务器拒绝的数量以及百分比等;监控RPC传输包状态如:在一个监控周期内的不正确的RPC包数量、如服务器包头信息不正确,服务器返回包太短等。进程检测与进程有特定关联的瓶颈,如:进程占用系统资源的情况监控,以及进程状态等,当某个进程占用CPU时间过高时,监控系统会产生“进程占用CPU时间过高”的报警事件,并即时发送给故障管理控制台与业务管理控制台。进程监控参数包括:进程组ID、用户ID、父进程ID、进程会话ID、以及占用系统CPU时间、用户CPU时间、占用内存的百分比、占用的虚拟内存地址、进程开始时间、进程运行时长、启动该进程的命令行等;进程状态监控如:监控处于不存在、活动、正在运行、停止、睡眠、等待状态的进程等;监控启动该进程的终端名、用户名、MajorFault、MinorFault、进程的优先级等;在处理其中当前运行的进程监控,处于运行队列中等待CPU的进程监控,进程Idle时间监控,进程等待CPU时间、处于等待锁状态的进程监控等。CPU检测与中央处理器(CPU)相关的瓶颈,主要关注:CPU使用率很高,多个处理器问题。在监控过程中可以识别的CPU问题有:当系统有多个处理器且最多使用和最少使用的处理器的使用百分率之差很高时,监控系统会产生“使用率差值百分率很高”的报警事件;当系统中安装的一个或多个设备占用过多处理器时间时,监控系统会产生“硬件忙”的报警事件;当某个进程使用处理器时间百分率过高时,监控系统会产生“进程数很高”的报警事件;检测在一定的时间范围内,平均CPU繁忙时间、平均用户CPU时间、平均系统CPU时间,采样周期包括1分钟、5分钟、15分钟、60分钟等;当处理器使用率很高,但并不是由于特定进程或设备在运行时,监控系统会产生“处理器忙”的报警事件;监控处于等待I/O的状态的CPU时间,当系统调用达到监控策略中的规定值时,监控系统会就此问题产生报警事件;在多处理器环境中监控CPU状态包括CPUID、Online、Offline状态等。系统属性检测与Unix系统有特定关联的瓶颈,主要关注:虚拟内存,Swap区、负载平均,逻辑块读写等。在监控过程中可以识别的问题有:监控有关内存的使用情况,可以识别系统中可用内存过低,SWAP可用空间过低,额外的或异常的系统页面调度,如in或out,当这些情况的发生频率达到监控策略中的规定值时,监控系统会就此问题产生报警事件,并即时发送到故障控制台和业务管理控制台;在一定的采样周期内,当存在过度从磁盘物理块读取或向磁盘物理块写入等情况时,监控系统会产生相应的报警事件;在一定的采样周期内,当存在过度从磁盘逻辑块读取或向磁盘逻辑块写入等情况时,监控系统会产生相应的报警事件;监控系统的平均负载,当系统内核运行队列中存在的进程超过监控策略中的规定值时,监控系统会就此问题产生报警事件;监控系统调用,当系统调用达到监控策略中的规定值时,监控系统会就此问题产生报警事件;这些报警事件会即时发送到故障管理控制台与业务管理控制台。用户属性检测与用户有特定关联的属性,主要关注:用户名、用户ID、Idle时间、位置信息、登录时间、登录终端等。用ITM实现Windows平台的监控Windows系统应监控以下类别系统参数:活动服务器页面DHCP服务器DNS动态更新DNS内存DNS查询DNSWINSDNSZoneTransferFTP服务器统计FTP服务Gopher服务HTTP内容索引HTTP服务ICMP统计IIS统计Indexing服务Indexing服务过滤器IP统计JobObjectJobObject详细信息MSMQ信息存储MSMQ队列MSMQ服务MSMQ会话网卡网段NNTP命令NNTP服务器缓存设备相关性设备EventLog文件变更文件变化趋势逻辑磁盘内存日志报告对象虚拟内存物理磁盘打印作业打印机进程CPU注册表服务器服务器工作队列服务依赖性服务系统线程打印队列进程I/ORAS端口SMTP服务器TCP统计UDP统计WebService用ITCAMFordatabase实现对Oracle、SQL等数据库监控ITCAM实现Oracle数据库监控提供关于用户指定的消息队列(等待、就绪、过期状态)中的消息的数量;包括平均传播率;平均就绪消息等待时间,传播错误;过期消息数量;就绪消息数量;等待消息数量;就绪状态消息总等待时间。监控从Oracle告警日志中收集的详细信息。包括:消息ID;消息内容;消息时间戳;上次报错周期;上次错误时间;上次管理操作错误时间;间隔期内管理操作次数;实例启动后管理操作次数;Critical告警次数;间隔期内错误总数;实例启动后错误总数;Warning告警次数。监控服务器实例的缓存使用信息,包括:目录缓存内条目数;目录缓存内固定条目数;清洗目录缓存次数;目录缓存读取次数;目录缓存命中率;目录缓存错失次数;目录缓存修改次数;目录缓存扫描次数;目录缓存有效条目数;库缓存访问次数;库缓存命中率;库缓存请求次数;库缓存无效次数;库缓存重转次数;redolog中现有Get次数;Redolog现有miss次数;Redolog中miss百分比。监控指定cluster内的行链接的数量。监控服务器实例的配置信息,包括:默认配置是否使用;参数名;参数ID;参数类型。监控服务器内锁的争夺情况,包括:最大争夺分布比例;锁命中率;最大允许DML锁数量;最大争夺内等待会话数;最多waiters的对象ID;被Block的进程比例;等待的进程比例;最大的DML锁比例;指定样本时间内的:Blocker数量,Buffer锁数量,CI锁数量,CS锁数量,Cross-instance锁数量,Data锁数量,DR锁数量,DX锁数量,DLL锁数量,DML锁数量,文件锁数量,Generic锁数量,实例锁数量,库锁数量,Master锁数量,Media锁数量,Mount锁数量,Mount-startup锁数量,Redo锁数量,行锁数量,SN锁数量,SQ锁数量,SV锁数量,SGA锁数量,Space锁数量,SC锁数量,SH锁数量,TS锁数量,TT锁数量,Transaction锁数量,USE_ROW_ENQUEUE锁数量;用户锁数量;Waiter数;Write-atomic-log-switch锁数量等等。监控数据库的性能和可用性,包括:归档日志模式是否启用;自动归档;DBBlock大小;DB文件打开数;数据库可用空间比率;最大允许打开文件数;最大文件打开比率;系统表空间空闲比例;系统表空间空闲待大小;数据库总空间;总extent数量;定义文件总数;脱机状态文件总数;总表空间大小。监控争夺协议的dispatcher进程,包括:Dispatcher平均等待时间;Dispatcher繁忙率;Dispatcher名称;Dispatcher网络地址;监控表空间内的文件信息,提供大小,空间信息,碎片等文件管理信息:包括:备份状态;文件ID;文件名;文件状态;最大空闲块KB数;表空间内最大连续空闲空间比例;文件分配的Extent数;空闲块数;表空间空闲比率;表空间名称;最近备份时间戳;文件或表空间的总空间。监控表空间内的索引信息:具体包括:索引名;索引类型;已删除比例;索引对象名;索引对象类型;表空间名等。监控一个命名空间内的库缓存信息,能够报告对库缓存的各类操作信息:包括:数据库名;Execution命中率;Execution命中次数;Get命中率;Get命中次数;Get请求数;对象无效次数;命名空间;Reload次数等。监控listener的状态:包括:Listener名称,Listener端口,Listener协议,Listener状态等。监控等待锁和锁冲突的信息,能够报告用户ID,被阻塞对象类型和锁模式等等具体包括:被阻塞会话锁住的对象名称、类型;阻塞会话的ID;阻塞会话的用户ID;锁模式;被锁对象ID;等待会话的ID;等待LOCK的用户ID;监控日志信息报告回滚数据的使用和状态:具体包括:回滚段的平均extent数量;所有回滚段上的平均活动交易数和总活动交易数;缓存繁忙等待百分比;需要恢复的回滚段百分比及数量;活动回滚段大小;总在线活动回滚段数;总pending离线回滚段数;总回滚段的extent数、extend数、Shrink数;总回滚段数;监控buffer中在一个或者多个数据块中的分布锁,报告PCM锁的转换时间等;监控服务器实例的单个进程,报告进程的ID,状态等详细信息,详细包括:是否后台进程;进程使用的CPU时间百分比;Latch地址;是否Latch等待;Oracle进程ID;是否系统进程;操作系统进程ID;进程地址;进程执行时间;进程序列号;进程启动时间;程序名称;CPU时间;进程使用内存数;用户ID等。监控服务器实例的所有进程信息,报告CPU使用情况;进程活动;系统进程等等,详细包括:系统Archive标志;系统CheckPoint标志;系统Locking标志状态;系统LogWriter标志状态;实例的最大并发进程数;活动进程与最大并发进程数占比;系统ProcessMonitor标志状态;等待Latch的进程数;系统Recovery标志设置状态;应用进程使用CPU时间百分比;实例使用CPU时间百分比;请求平均等待时间;系统Monitor标志;SnapshotRefresh标志设置状态;后台活动进程数;前台活动进程数等监控活动回滚段,报告状态、大小、交易负载、收缩等,详细包括:平均收缩字节数、活动extent平均字节数、每次回滚段写入字节数、当前回滚段写入字节数、回滚段内活动交易数、回滚段优化字节数、回滚段数量、回滚段收缩次数、回滚段状态等监控表空间内定义的段信息,包括数据大小、空间使用和碎片信息,包括:段剩余空间不足;段内初始extent大小;段内最大extent数;段内最小extent数;下一extent大小;自由列组数;自由列组内自由列数;已分配extent百分比;段名;段属主;段类型;表空间名;未分配extent数;表空间或文件字节数监控server实例,包括状态、CPU使用;数据缓存大小和数据库报警日志等信息,详细包括:Archive目标设备的剩余空间及使用空间;datacollector状态;SGA内的数据缓存大小,日志缓存大小;实例的数据库是否mount,是否open在用;服务器实例使用CPU百分比;服务器状态;SGA空闲空间百分比;总SGA大小;共享池大小;实例已启动时间;操作系统占用CPU百分比;磁盘内可创建redolog数量等报告Oracle系统状态、版本信息等企业视图,除Server属性包括内容外:目录缓存条目数;目录缓存命中率;日志缓存miss百分率;上一报错时间;上一间隔内错误总数;实例启动后报错总数等监控服务器实例,详细包括:是否开启checkpoint进程;Distributed选项是否开启;操作系统类型;parallelquery选项是否开启;parallelserver是否开启;Oracle版本状态;globalSQLtrace工具是否使用;实例启动具体时间等监控服务器实例中的单个sessionforaserverinstance.报告session状态,waits、gets和锁等信息,详细包括:客户进程ID、用户ID;session执行正在执行命令;session是否处于等待状态;session正在等待的资源名称;session正在等待的锁的地址;session内最大可开启游标数;session所属进程地址;进程执行程序名称;进程执行时间;session模式名称;模式用户ID;session序列号;session缓存命中率;sessionID;session状态;session类型;session内的阻塞变化数;session内发生的物理读次数;使用本次session的用户ID;session是否等待锁等信息监控实例内的所有sessions信息,报告总session数量;最大session数量和等待锁的session数量等等;具体监控内容有:活动session数量;同时间内实例可支持活动的session总数;非活动session数量;等待被SMON进程清除的killedsession数量;已活动的session百分比;等待锁的session总数;使用共享进程的session数量;实例内总session数量等信息监控实例的SGA,提供.SGA的相信信息,包括:SGA的数据缓存大小;SGA内的redolog大小;SGA最大空闲百分比;SGA最小百分比;SGA目录缓存百分比;SGA空闲比例;SGA库缓存比例;SGA存储PL/SQL百分比;SGA内共享池大小;总SGA空间等信息监控库缓存内装载的SQL语句内容,格式为60个字符之内,超过60个字符将被截断。监控实例内的各类系统统计信息,提供各类详细信息的平均、最大、最小delta值提供各种分类,包括统计信息,进程,sessions,锁,回滚段和数据库的详细信息监控实例的性能统计信息,提供类似读写的平均数和打开的游标数以及死锁数等信息,详细内容有:checkpoint平均间隔;最长被阻塞交易时间,间隔期内死锁数和死锁超时数;CoreDump目标设备空间使用率;当前打开游标数;间隔期内全表扫描行数;间隔期内行存储数监控单张表,尤其是行链接信息。监控表空间,提供表空间可用空间和段及回滚段的数量,如:表空间状态;表空间空闲比率;回滚段数量监控阻止回滚段到下一extent的交易的信息,包括回滚段正在写的extent数量;回滚段数量;交易序号;交易其实extent号;交易状态等预报收集历史数据的属性组要耗费的磁盘空间,当定义数据收集策略后重点考虑磁盘容量ITM实现SQLServer数据库监控监控数据文件的空间使用情况,剩余空间所占的百分比,数据文件的大小。监控数据库的状态。监控数据库名,数据库的状态,数据库的空间使用情况。监控日志文件占用的空间使用情况,日志文件剩余空间所占的百分比。监控事务复制的相关信息:包括事务复制的状态、速度以及事务复制产生的延迟。监控数据库的错误汇总、数据库的访问情况汇总等。监控设备的剩余空间及剩余空间所占的空间百分比。报告被阻塞的进程ID和请求进程的ID。监控页面锁、共享锁、高级锁、区域锁、锁更新等信息。监控总错误数,TotalErrorsCurrentInterval以及总的错误数目。当前的CPU利用率、总的磁盘IO、总的CPU时间以及当前被分配的内存空间大小。当前的时间间隔、主机名以及各种进程的比例和系统CPU的使用情况。具体如下:各种进程的比例包括:坏进程所占比例被阻塞的进程所占比例被感染的进程所占比例处于LOCKSLEEP进程所占比例处于其他睡眠状态进程所占比例处于停止状态的进程所占比例CPU使用情况:每一个应用程序所用的CPU资源每一个系统所用的CPU资源总进程的状态:所有的坏进程所有处于睡眠状态的进程所有被阻塞的进程所有被感染的进程所有被停止的进程所有处于LOCKSLEEP状态的进程所有处于其它睡眠状态的进程所有被挂起的日志监控远程SERVER的ID、状态和主机名。监控当前使用的缓冲区、处于激和状态的缓冲区和总的缓冲区大小等信息。监控缓存利用率、处于激和状态的缓存、总缓存大小等信息。监控CPU的使用情况:每一个应用程序占用的CPU资源;每一个进程占用的CPU资源;OS占用的CPU资源。监控Cache工作状态:Cache命中率、Cache剩余空间、Cache最大可用空间搜索、数据Cache空间的大小、进程占用Cache的大小、SQL代理进程失效的工作,正常使用的时间。监控网络的读写速率和磁盘读写速率,CPU的使用情况,IO忙的情况。监控IO错误的间隔,自启动以来的所有IO错误,每个IO错误的平均时间间隔。监控数据库空间的碎片情况。监控Client主机名和Client的进程ID。用ITCAM实现对WebSphere、Tuxedo的监控针对客户企业中存在多厂商的中间件产品例如Websphere、Tuxedo等以及部署在上面的B/S、C/S应用都可以通过ITCAMforApplication和ITCAMforJ2EE进行系统、完善的监控。使用ITCAMForApplication不用对应用做任何改动,就可以实现深层的应用/交易监控。ITCAMForApplication主要对基于J2EE的应用程序进行实时监控和历史数据分析,它能够发现并且报告J2EE应用的健康度。它的监控贯穿整个应用流程,如应用程序服务器、中间件适配器、传输协议、数据库、并且能够监控后台如Tuxedo、IMS等主机系统。ITCAMfWS可以收集应用程序请求周期的数据,然后存储到监控数据库,数据包括请求开始,结束的时间,所用的中央处理器时间等等,并且能够通过一层层的递进跟踪找到每个类,每个方法的响应时间,中央处理器时间,从而定位发生交易失败、响应恶化的请求,并找到应用程序需要改进优化的地方。ITCAMForApplication不需要用户更改任何J2EE和Mainframe的代码,收集到的数据能够用来帮助应用维护人员和应用开发人员分析系统和应用程序的健康度。除了应用级别的数据被收集外,系统级别的数据,例如,应用服务器的状态、中央处理器的使用、内存的使用、数据库连接池、JVM线程池、EJB的使用等等,也会被收集,用来辅助用户去分析问题,解决问题。ITCAMForApplication对于这些数据提供了实时的图形化的监控界面。对于当前环境中基于WebSphere的标准J2EE应用,可以通过部署ITCAMForApplication监控来快速实现监控。对于当前首要的报警需求,可以根据业务特征进行定义,例如对某些系统的特定重要交易的性能进行监控,并在它们发生异常时进行报警。同时,对于资源层面和应用服务器整体的状态,也可以设置对应的报警。附:资源报警列表――――――――CPU――――――――平台CPU平均使用百分比JVMCPU平均使用百分比――――――――内存――――――――JVM堆大小垃圾回收频率垃圾回收时间垃圾回收后的平均JVM堆大小――――――――资源池――――――――JDBC池使用百分比JDBC并发等待数线程池使用百分JCA池使用百分比―――――――应用能力―――――――请求频率会话数不可用的服务器平均响应时间未捕获的Java异常数附:应用性能报警列表请求发生次数方法发生次数SQL发生次数

请求消耗的CPU时间方法消耗的CPU时间

请求的驻留时间-已完成方法的驻留时间-已完成SQL的驻留时间-已完成

请求的等待时间方法的等待时间

请求驻留时间-正在进行

请求的未捕获异常方法的未捕获异常

请求的锁定获得时间-正在进行

请求的锁定获得时间-已完成方法的锁定获得时间-已完成当上述请求的响应发生异常时,可发出报警。同时也可以设定对应用的全局性报警:应用会话数超过某个值应用平均响应时间超过某时间指标JVM堆大小大于某百分比JVMCPU占用超过某百分比JDBC池使用百分比超过某百分比应用服务器不可用(宕机或无法响应)用TPC实现对存储的监控随着客户业务不断扩大,其IT软件平台以及硬件平台也在不断的进行扩容,而处理这些需求的人员数目却没有增加,IT员工经常不得不在情况最糟的需求高峰时,超量供应包括存储量在内的IT资源。存储区域网络的使挑战更为严峻,使得解决存储容量供应成为一个人力密集性的过程:多达50个单独步骤,即使是一个专家,也要花费好几天的时间。结果-IT环境变得非常不灵活、昂贵、无法充分利用而且难以管理。通过项目的实施同时借助于针对磁盘、数据和结构的TPC软件,可以帮助用户简化和自动化企业存储基础设施的管理:管理文件系统和数据库的容量利用率,并自动化文件系统容量供应。管理、监视和控制SAN结构。从单一用户界面执行多设备的设备配置和管理。调优和前摄性管理SAN上受支持的存储设备的性能。通过IBMTotalStorageProductivityCenterStandardEdition所提供的管理功能,以便更好地以单一套件价格管理您的异构存储基础设施(从应用程序到后端存储系统)。借助于ProductivityCenterStandardEdition,您能够使用基于角色的管理和单点登录,从单一界面集中管理存储基础设施。这也提供单一管理应用程序,此应用程序具有易于安装、配置和操作的模块化整合组件。针对客户SAN的存储网络IBMTotalStorageProductivityCenterforFabric提供存储区域网络(SAN)管理功能,以帮助管理SAN结构,此结构将主机系统和应用程序连接到存储设备。它旨在提供用于异构SAN的综合管理解决方案,且允许用户轻松查看和监视设备的物理连接和支持物理网络访问的区域配置。它具有自动的资源和拓扑发现、监控和报警、区域控制和SAN错误预测功能。IBMTotalStorageProductivityCenterforFabric提供根据ANSISAN标准设计的企业可伸缩解决方案,此解决方案允许灵活选择用于存储基础设施的产品。通过IBMTotalStorageProductivityCenterforData旨在帮助客户识别、评估、控制和预测您的企业存储管理需求。ProductivityCenterforData支持当今复杂异构环境,包括直接访问存储(DAS)、网络接入存储(NAS)和存储区域网络(SAN)存储(包括智能磁盘系统和IBMTotalStorage3584TapeLibraries)。ProductivityCenterforData支持一流的数据库,并提供基于存储使用的收费功能。通过IBMTotalStorageProductivityCenterforDisk集中管理客户网络存储设备,这些设备实现SNIASMI-S规范,此规范包括IBMTotalStorageDS家族和IBMTotalStorageSANVolumeController(SVC)。它旨在帮助降低存储管理复杂性和成本,同时提高数据可用性,从而借助开放标准(SMI-S)集中管理存储设备,增强存储管理人员生产力,提高存储资源利用率,以及提供对存储设备的前摄性管理。IBMTotalStorageProductivityCenterforDisk能够借助服务位置协议(SLP)发现存储设备,且能够配置设备、收集事件和错误日志,以及启动特定于设备的应用程序或元素事件管理实施对于客户产生的各类报警的事件通过ITMServer接口转发或直接发送到客户的事件管理平台中(IBMTivoliOmnibusServer),通过该事件平台完成自动压缩事件能力。用户可灵活设定事件是否重复的判定标准,事件唯一性标识可灵活修改。对于重复的告警事件,系统应具备将重复的告警信息归并的能力,并能够记录重复告警发生的起止时间及重复告警重复的次数等,以方便管理员对故障发生的过程有一个比较清楚地认识。报表管理实施报表Web管理端(ReportWebAdmin)是整个报表应用的管理平台,提供报表展现、应用管理、及权限管理功能。数据存储采用XML数据池,所有的账号、权限及应用配置参数等,均存储在XML数据池中。结构图如下:以下结合上图,对ReportWebAdmin的功能模块进行描述。报表展现报表的展现风格以简洁美观为主,统计对象包括:TDW性能报表、ITM事件报表、OMNIBUSServer事件报表(预留接口);以统计对象与统计方式进行划分,提供多种查看方式。ITM报表统计对象包括:MEMORY、CPU等一系列系统对象。统计方式可分为:实时查询报表、日报表、周报表、月报表、年报表。如下图所示:同时提供2种对“进程”的报表统计:HYPERLINK统计某一时间段内耗费物理内存最多的进程(前10位)、HYPERLINK统计某一时间段内耗费CPU最多的进程(前10位)。提供报表统计样式的快速切换功能,用户可从各种角度进行报表的查看。如,表格、饼图、曲线图、与柱型图之间可进行快速切换,满足用户不同的统计要求。数据采集频率支持以下功能要求7*24监控对不同的系统和应用进行不同的采集频度设置,对主机可用性、重要服务可用性监控,能够达到灵活设置的采集频率,以便能够在系统出现故障的时候及时通知相关人员处理,采样的最小颗粒度是1分钟;数据采集过程对系统和应用产生影响很小能够根据需要对采集频率作即时调整故障切换功能:当primaryremotetems故障的时候,agent能自动连到secondlyremotetems。报警处理报警分级监控系统对报采集的信息进行分级,对系统采集的数据,系统可以根据数据的不同类型,分别设定相应的阀值或关键字,对满足一定数值关系要求或者关键字要求的数据,设定相应的报警级别,进行相应处理。支持的数值关系要求包括:大于给定数值等于给定数值小于给定数值满足多个以上条件的组合多次满足以上条件支持的关键字包括:包含某个关键字(CaseSensitive&Not)等于某个字符串(CaseSensitive&Not)多个以上条件的组合多次满足以上条件报警方式报警信息包含对相关参数的解释和指导信息,系统提供以下方式的报警处理能力:发送含有相关信息的定制邮件到一个或多个指定邮箱发送含有相关信息的定制短信到一个或多个手机预先设定一段时间(Blackout),在这段时间里暂停服务器报警对相关监控进行设定,包括停止监控、启动新的监控等运行特定脚本程序来处理分布式支持对于分布式环境或被监控主机很多的情况下,考虑到HUBTEMS(TivoliEnterpriseMonitoringServer)负载会比较大,我们会采用RemoteTEMS来分担负载;Agent先连到remotetems,然后由remotetems去和hubtems通信,再由tivolienterpriseportalserver进行展现。agent可以配置成连接两个remotetems(primary和secondary),当primaryremotetemscrash的时候,agent会自动连接到secondaryremotetems。TEMS支持failover,它可以配置成cluster软件(HACMP或者MC/SG)的一个资源组,当active的主机crash的时候,自动切换到backup的主机ITM支持firewall和NAT(networkaddresstranslate),故它能支持广域网环境。系统安全性具有安全的管理体系结构,通过管理员安全定义,权限划分和管理信息传输加密等措施保证管理系统的安全。-管理信息通讯可以采用DES加密方式得到保护-Tivoli管理员的授权,可以细致划分管理范围和权限扩展接口与Tivoli其他产品的接口IBMTivoli产品家族包含了实现IT服务管理的一系列产品,我们提供的是一个totalsolution的方案。IBMTivoliMonitoring作为一个收集性能数据的平台,为实现IT服务管理提供了基础数据。它可以和TivoliRequestManager结合来实现ITIL流程,可以和TivoliBusinessServiceManager结合,来产生一个业务状态的Dashboard。 二次开发的接口TivoliDataWarehouse是用来存储历史的性能采集数据。该数据库可以采用DB2/ORACLE/MSSQL等关系型数据库。IBM有redbooks详细说明了schema,可以供二次开发使用。通用代理(UniversalAgent)对于agent本身没法实现的功能,IBM是通过UniversalAgent(通用代理)来实现的。UA是一个通用的数据收集器。它依靠以下dataprovider来收集数据FileHTTPSNMPODBCAPISocketScriptPostUA是ITM的一部分,安装ITM的时候,UA会自动安装上。IBM开放过程自动化库(OPAL)上提供了几百种资源的监控管理,而且以每月5个的速度递增。OPAL网址是/wps/portal/topal/,该网址可在Internet上访问。IBM合作伙伴会上传自己开发的UA,随着UA越来越多,ITM实施周期会越来越短。IBM提供了agentbuilder来开发UA,agentbuilder是基于Eclipse的IDE,可以在几十分钟内就创建一个特定的监控代理,而不是数小时。下图是机房弱电系统的监控截图,它是通过UA把各种监控资源的数据集中展现到TivoliEnterprisePortal中。性能分析对于监控服务器端的性能,主要有两大消耗:TivoliEnterprisePortaldesktop是基于J2EE开发的,故当它运行时,会消耗系统几百兆内存TivoliDataWarehouse进行数据summary和pruning的时候,如果历史数据量非常大,那么会消耗一定的性能一般我们建议用一台4个CPU、8G内存的机器做监控服务器,同时把summary和pruning的时间定在空闲的时候。TivoliAgent是轻型代理,在初始安装后在AIX操作系统上大约占用1M内存,<0.1%CPU(单CPU)。IBMTivoliMonitoring监控软件会自动在被管理机上生成一个基于Java的子代理用于操作系统、数据库等的监控。对于单CPU(1GHz)的AIX操作系统,只进行操作系统的监控CPU占用率不高于0.5%。如果运行所有数据库的监控资源模型(超过30个),CPU占用率不高于5%。所以agent端对生产服务器的性能影响非常小,基本可以不予考虑。方案总结综上所述,IBMTivoli解决方案是能够满足客户系统监控要求的一个方案,它具有人性化的展现界面、灵活的报表定制能力、广泛的平台支持;基于agent的数据收集可以在tems故障的时候继续收集数据,保障历史数据的完整性;强大的UniversalAgent可以轻松实现agent本身没法实现的功能;提供多个接口可以与客户已有系统的集成。本方案的优势最低限度的重复投资,最大限度的度身定制本项目采用现有的Tivoli产品,整合客户的现网应用,再结合度身定制整合应用的自主开发产品。无需因为需要某一两项功能采购具有全方位功能的第三方产品,从而造成重复的投资浪费和因为第三方产品的固化而无法做到度身定制的开发。面向业务的管理对于客户的IT系统的管理而言,整个管理需要提升一个层次,从简单的资源管理上升到以业务为核心的管理系统。IBM的解决方案将以此为核心,通过链接IT资源管理和应用管理,从而将应用和基础架构资源的管理紧密联系起来,从而可以及时发现造成应用故障的根本原因。完整的解决方案通过使用功能强大的管理系统,管理人员可以更为快速地了解到整个系统运行发生的各种情况,了解系统资源的变化趋势,同时通过大量的自动化服务机制使管理人员可以从繁重的日常管理任务中解放出来,从而使整个系统的管理水平得到较大的提高。IBM是全球关键业务IT系统的主要提供商,深刻理解客户对于系统可靠性、系统管理的要求。旗下的Tivoli系统管理部门为业界著名的系统管理解决方案提供商,其TivoliITM是一个真正的分布式的面向对象的系统管理解决方案,提供大量的基于Tivoli管理框架的管理模块,从IT资源监控到安全管理,从数据库管理到操作管理,从数据备份到网络管理,从服务管理到Internet管理,支持从IBM主机到各种UNIX平台,以及各种WinTel平台。Tivoli作为专业的系统管理解决方案提供商,客户遍布全球,在邮电、银行、政府、零售等各种行业中都有大量的客户群。IBM不仅能提供全面的解决方案,而且售后实施队伍有着优良的技术和丰富的经验,而专业的项目管理是项目成功的保障,从而能帮助客户更好地使用产品,真正提高整个系统的整体对外服务能力。所以,IBM在推荐方案中充分考虑了客户系统管理项目实施范围广泛、管理要求高等特点,提供了从产品到售后实施、技术支持、培训等全方位的解决方案。领先的技术优势IBM的Tivoli系统管理产品是真正为分布式系统开发的管理系统。采用CORBA作为整个管理平台的核心,提供跨平台一致的管理,同时支持大量的业界标准,得到全球超过1000家软件开发商的共同支持。Tivoli产品经过超过十年的不断完善,与其它管理软件厂家的产品相比,产品明显成熟稳定,在全球大型企业的分布式系统管理中占有最大的市场份额。Tivoli产品完全从一个运行关键业务的客户角度出发,内置多种安全机制,支持大量的业界安全标准,产品具有很高的安全性,被众多国家的安全、国防系统选用为管理平台。产品支持Unicode,支持简体中文,在本地化方面领先竞争对手。完善的规划、设计、实施本公司信心在客户IT系统提供比其它服务公司更为丰富的行业经验和技术优势。本公司通过在南京中行、南京农信、以及上海联通、中国移动等实施中获得了大量的经验,同时也对这个金融行业的IT环境和管理有着更为深刻的理解。而且在过去的多次交流中,本公司的技术专家和工程师通过和客户、集成商的全面合作,了解和熟悉客户系统管理项目需求,可以针对系统的管理需求,提供最好的解决方案。高度的开放性Tivoli基于大量的开放标准,如DMTFCIM、WMI、SNMP、JMX、J2EE、XML等,核心使用的CORBA技术是业界的标准。Tivoli产品除了内置的功能外,都提供了强大的扩展能力。丰富的实施经验和强大的技术支持本公司向客户和集成商保证提供一流的产品与技术支持,为确保项目的成功实施,本公司将会提供专家级的技术咨询和售后支持。在系统管理解决方案的企业规划设计和实施方面,本公司的实施工程师积累了相当多的工程经验,届时,经验丰富的工程师将会配合客户、集成商提供及时的专家级技术支持。IT运维流程管理方案4.1需求分析运维管理涉及到工具、人员和流程,运维流程是IT管理的重要组成部分,是运维工具发挥作用的保证。IBM认为以下几个方面是建设运维流程平台中需要考虑:扩展性:系统必须具有强大的扩展性,考虑到客户系统业务还在不断发展之中,帮助台系统的建立需要适应未来管理手段和工具的变化,能满足未来管理流程和规范推广的需求。灵活性:可以预见随着业务的发展和IT系统的扩展,管理流程必然会做出相应调整,因此要求所建设的运维流程平台必须具有足够的灵活性,以适应流程的改变。可集成性:目前客户使用的邮件系统、即时通信软件等系统希望可以和帮助台系统进行对接,数据交换,实现更为便捷的通知和联系易用性和可维护性:系统必须易于学习、使用和掌握,鉴于管理流程本身可能会根据实际业务变化而变化,必须能易于修改和维护,不能给操作人员增加额外的工作压力和技能要求。符合标准:考虑业界服务台流程管理的主流,所设计的管理流程需要参考并符合ITIL的相关规

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论