集团公司IT运行监控平台方案设计_第1页
集团公司IT运行监控平台方案设计_第2页
集团公司IT运行监控平台方案设计_第3页
集团公司IT运行监控平台方案设计_第4页
集团公司IT运行监控平台方案设计_第5页
已阅读5页,还剩139页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

集a公司IT运行监控平台

方案设计

目录

目标及范围.......................................................................3

1.1项目目标......................................................................3

1.2项目范围......................................................................4

技术方案.........................................................................5

2.1系统总体架构及部署............................................................5

2.1.1总体架构..............................................................................................................................................5

2.1.2系统组成及系统体系结构..............................................................................................................5

2.1.3平台功能..............................................................................................................................................7

运行监控系统.............................................................7

1.目标及范围

1.1项目目标

集团公司在总部和企业层面已经建立了以综合网管系统和SAPSLM系统为

主的运维支持系统,运维支持系统概览如错误!未找到引用源。所示。

图运维支持系统概览

集团公司总部建立呼叫中心系统实时响应了用户有关门户、0A、基础应用、

安全、视频、MES等系统的服务请求;工单系统实现了总部运维人员处理系统

故障的工单流转;SAPSLM实现了ERP系统服务请求受理、事件管理、应用监

控及变更管理;网管监控系统实现了因特网、主干网、局域网、服务器、安全设

备、企业防火墙、基础应用等基础设施的故障和性能监控;资金集中监控系统实

现了资金集中系统的网络设备、服务器、安全设备、存储、负载均衡、灾备和应

用系统的一体化监控;MES应用监控评价系统对MES应用进行监控,为MES

上线达标、验收达标及深化应用提供了报告和依据。

在企业,已建成76家企业的综合网管系统,实现了对企业基础设施的监控;

基本建成防病毒管理Bigfix系统,截至2012年1月,共安装18.3万台,授权数

18万。同时,广州石化、茂名石化、燕山石化、北京石油等部分企业已建设了

运维服务管理系统。

本次项目的总体目标是整合运维支持系统,建设集中的一体化运维平台,支

撑集团公司IT运维共享服务,提高运行效率,降低成本,实现总部和企业运维

统一调度和集中管控,达到国内领先、国际一流的水平。

(1)建设集团公司IT运维平台,实现运行监控、配置管理数据库、IT服

务管理、运维门户与大屏展示;实现与SAPSLM、SSOC、云资源管理平台、资

金集中监控系统、加油卡监控等系统的集成。具体实现如下:

>统一调度运维资源:建成集中的服务管理系统,集成SAPSLM,实现运

维支持工作的全过程管控和知识共享,通过在线流程有机协同总部、区

域中心和企业之间,运维队伍与项目组之间的运维支持工作。

>集中监控应用系统:建成集中的运行监控系统,实现对50套应用系统的

应用监控,从用户使用的角度进行可用性监控,及时发现和处理问题,

缩短系统不可用时间。

>集中管理配置信息:建成集中的配置管理数据库系统,实现50套应用系

统与总部管理的基础设施的统一管理,为运维支持、变更风险分析、重

大问题处理决策等及时地提供真实数据。

>大屏展示运维情况:提升运维门户和大屏展示,通过系统集成大屏展示

应用监控指标、信息安全状况、服务受理情况、重大问题处理情况等运

维服务信息。

(2)制定集团公司IT运维标准与规范。包括运行监控规范、服务管理规范、

配置管理规范等。

1.2项目范围

项目范围包含总部基础设施和总部统建的50套应用系统,以及与两家试点

企业已有运维系统的集成。

基础设施的范围主要包括总部4个数据中心,11个区域中心,涵盖服务器、

存储、安全设备、网络设备、数据库、中间件等,当前共有各类设备7000台左

右,具体数量以实际为准。

应用系统的范围主要包括ERP、MES、资金集中管理、总部生产营运指挥、

电子商务、合同管理、综合办公、加油卡(区外)、APC等50套应用系统,主

要涵盖了SAP、.NET、JAVA>Domino等技术平台。

2.技术方案

2.1系统总体架构及部署

2.1.1总体架构

集团公司IT运维平台项目(一期)的总体架构如下:

IT运维平台

服闫」〔会.

管3孤警目录眼务计行

出宪翎SWHR^

1技术给弟口旧

叟全已违

配U管理(soc)、

日®W计'

次色

钳《1EK

«[W,V^]

*■京企*an«[台港ga]

同aKH中何竹小巴

CMDB

集团公司IT运维平台项目(一期)包括呼叫中心、运行监控、服务管理、

配置管理、安全管理、运维门户和大屏展示7个子系统,其中呼叫中心和安全

管理在另外项目中建设。本期项目重点完成运行监控、服务管理、配置管理、

运维门户和大屏展示系统的建设。

2.1.2系统组成及系统体系结构

根据本次集团公司IT运维平台项目(一期)需求的认真分析,推出自有的

“CUBA”(立方体架构)的整体解决方案。系统体系结构如下:

大屏标合展示系统

运维门户系统

IT服务管理系统

E

S

|服务台I|||例的I|服务报告|B

统W

j服务目录।n蜴wii变更i值班ggii知g眸iS一

运行监控系统.S务

S总

做^库例।麻丽南

话将薨生存啮唾]

q网络监控iL监控]

针对本次项目的产品整体解决方案包括:

■“三个支撑”:以运行监控系统、CMDB配置管理系统、SOC安全监控系

统(本期项目通过集成方式接入)为整个平台系统的支撑功能,打造

系统功能基础。

■“一个导向”:以IT服务管理系统为导向,强调为用户提供一站式服

务和服务级别管理。

■“两个贯穿":以统一数据采集和ESB数据总线技术方案贯穿整个平台

的建设。

■“两个体现”:以运维门户和大屏综合展示系统作为整体IT运维平台

的最终体现。

整体解决方案中的产品选型全部为获得国家版权认证、具备自主产权的软

件产品,在电信、能源、金融、政府中获得广泛运用,拥有众多的成功项目案

例。

2.1.3平台功能

2.1.3.1运行监控系统

.1运行监控系统特点

根据集团公司IT运维平台项目的建设需求,我们建议采用“BrightView

企业网络管理系统V7.0”(登记号:2010SR051711)和“统一采集云平台软

件V7.0”(登记号:2014SR030244,详见3.3.1.1.1统一数据采集)作为运行

监控系统的软件方案,该软件拥有完全自有知识产权,灵活支持物理分级、虚

拟分级、混合分级的部署架构,集成贯通的一体化整体方案,以网络监控、服

务器监控、数据库监控、存储监控、中间件监控、终端监控、备份管理、虚拟

化监控等为支撑,以业务服务管理和应用监控等为导向,以故障中心、故障定

位、系统自检、信息资源监控库为核心,以综合监控、报表管理、集中展现为

体现,方案架构合理、产品功能完善、产品性能优秀,辅以适应性的二次开发,

可以完全匹配集团公司运行监控系统需求。同时具有以下特点优势:

(1)成熟性

运行监控系统各软件模块均为成熟产品,至少已有上百家以上成功案例。

已经成功应用于中国移动(OSS/BOSS/MIS等)、中国联通(OSS/BOSS/MIS等)、

公安部“金盾工程”、水利部“金水工程”、质检总局“金质工程”、民政部、国

土资源部、新疆财政“金财工程"、航天一院、航天五院、中国人保、集团公司、

中国石油、国家电网等众多政府/企业的中大型IT运维监控管理项目。

(2)系统化

运行监控系统的建设,着眼于从总体上规划、设计,以项目建设的总目标

作为系统的整体目标,即规范管理制度,强化管理工作、提供管理决策支持。

非单纯设备层面的普通管理,是业务层面的综合监控平台,站在业务应用的可

用性视角,以重要业务应用系统为中心,更高、更深、更全面地监控IT资源一

一运行监控平台方案将IT资源与业务应用系统进行映射并有机结合,可实现业

务关系模型、业务拓扑、业务故障、业务影响分析等内容,同时通过主动式用

户模拟体验和被动式真实业务性能分析相结合,帮助业务部门和IT运维人员从

业务可用性的角度,监控应用系统的运行情况,分析影响业务应用系统对外服

务的根本原因。

(3)可靠性

运行监控系统在系统结构、设计方案、设备选择、技术服务等方面综合考

虑,保证系统能够7*24安全无故障运行,系统有很好的容错功能;对IT资源

的监测应保证不影响相关设备和系统的正常良好运行,并实现最好的响应效率

及最小的资源占用。

(4)安全性

运行监控系统注重安全方面的设计•,确保IT运维监控管理平台的稳定、安

全运行。系统要保证数据的安全,不会增加现有应用系统的复杂性,更不会降

低现有应用系统的稳定性。

(5)开放性

采用符合国际国内标准的通用协议,为实现与其他系统监控软硬件互联或

接入本系统进行监控提供接口,支持各种主流计算机平台、操作系统以及数据

库厂商的各类软硬件产品。

(6)可扩展、易集成

系统需具备很好的扩展性,能适应不断发展的业务需求。随着IT资源种类

和数量的扩大,系统也能适应新的系统的对IT运维管理的需求。系统具备高度

集成性,可以和第三方产品进行集成,进行功能扩展。系统提供开发工具和接

口,方便其他监控系统集成和统一管理。

(7)实用性

运行监控系统是根据用户的当前情况以及未来的发展建设需求提供具有针

对性的、可行的、可实施的技术解决方案,追求实效,方便运维管理人员的实

际需要。

.2系统支持指标

运行监系统的监控指标涵盖了影响被管理对象的各重要方面,并可根据提

供的数据接口接入新的监控指标。

.2.1网络设备监控指标

设备类别监控对象监控指标

设备名称

IP地址

接口名称

接口IP

配置信息链路名称

链路类型

设备厂商

设备类型

设备描述

通断状态

通断网络连通率(%)

宕机时间(分钟)

平均时延(ms)

时延最小时延(ms)

最大时延(ms)

接口索引

接口描述

接口带宽(Kb/s)

总包数(个)

总流量(MB)

带宽利用率(%)

网络设备(路由接口流量(byte)

器、交换机、防入流量(MB)

火墙、VPN设备出流量(MB)

等)平均流入带宽利用率(%)

平均流出带宽利用率(%)

端口状态

端口速率(b/s)

平均入端口速率(Kb/s)

平均出端口速率(Kb/s)

接口峰值入端口速率(Kb/s)

峰值出端口速率(Kb/s)

峰值流入带宽利用率(%)

峰值流出带宽利用率(%)

峰值端口速率时间

峰值带宽利用率时间

端口丢包数(个)

输入丢包数(个)

输出丢包数(个)

广播包数(个)

组播包数(个)

输入丢包率(%)

输出丢包率(%)

总的丢包率(%)

输入错误包数(个)

输出错误包数(个)

错包数(个)

输入错包率(%)

输出错包率(%)

错包率(%)

冲突数(个)

输入总包数(个)

输出总包数(个)

总包数(个)

单播包数(个)

会话数

链路名称

链路带宽(bit/s)

链路入流量(byte)

链路入速率(bit/s)

链路入带宽利用率(%)

链路出流量(byte)

链路出速率(bit/s)

链路出带宽利用率(%)

链路流量(byte)

链路速率(bit/s)

链路带宽利用率(%)

链路

链路入总包数

链路出总包数

链路入错包数

链路出错包数

链路入丢包数

链路出丢包数

链路输入错包率(%)

链路输出错包率(%)

链路输入丢包率(%)

链路输出丢包率(%)

链路状态

CPU号

CPUCPU利用率(%)

CPU平均利用率(%)

内存名称

内存利用率(%)

内存平均利用率(%)

内存

已使用的内存(BYTE)

剩余的内存(BYTE)

内存总大小(BYTE)

板卡序号

温度

温度

最大用户数

VPN设备用户数管理

当前用户数

最大连接数

防火墙连接数管理当前连接数

当前未连接数

负载均衡器WEB虚拟服务虚拟服务端口

虚拟服务协议

接收流量(bit)

发送流量(bit)

当前TCP连接数

最大TCP连接数

接收请求数

丢弃连接数

连接超时数

IP地址

后台节点IP

节点端口

端口连接状态

接收流量(BYTE)

后台服务

发送流量(BYTE)

当前连接数

最小响应时间(ms)

最大响应时间(ms)

平均响应时间(ms)

.2.2服务器监控指标

监控对象监控指标

主机IP地址

CPUID

CPU空闲率(%)

CPU利用率闾

CPU性能

CPU系统利用率(%)

CPU用户利用率(盼

CPU等待率(跖)

全局CPU当前运行队列中的进程数(个)

主机IP地址

内存总大小(MB)

内存利用率觥)

内存系统内存使用率(给

用户内存使用率(%)

虚拟内存使用率(酚

虚拟内存大小(MB)

主机IP地址

磁盘名称

磁盘忙率(给

平均等待队列长度

主机磁盘磁盘10速度(KB/秒)

磁盘读速度(KB/秒)

磁盘写速度(KB/秒)

磁盘10率(次/秒)

磁盘读率(次/秒)

磁盘写率(次/秒)

主机IP地址

文件系统名称

文件系统挂载点

文件系统空间大小(MB)

文件系统可用空间(MB)

主机文件系统

文件系统空间利用率(%)

文件系统已用空间(MB)

I节点使用率(%)

I节点已用数目(个)

I节点可用数目(个)

主机IP地址

进程号

进程状态

进程用户名

父进程ID

进程占用虚拟内存大小(KB)

主机进程进程占有的CPU大小

进程占有的内存大小(KB)

进程开始时间

进程累积的执行时间

进程名称

进程对应的命令行

进程CPU利用率

接口名称

流入包数

流出包数

流入速率(包/秒)

主机接口流出速率(包/秒)

错误包(个)

冲突包(个)

错误率(次/秒)

冲突率(次/秒)

主机IP地址

全局CPU空闲率闾

全局CPU利用率(%)

全局CPU性能全局CPU系统利用率(%)

全局CPU用户利用率(%)

全局CPU等待率(%)

全局CPU当前运行队列中的进程数(个)

主机IP地址

应用应用组名称

应用CPU使用率4)

应用内存使用率(只有OVPA支持)

应用内存大小

应用进程个数

.2.3数据库监控指标

数据库类别监控对象监控指标

服务器时钟同步情况

基本监控磁盘空间使用率

数据库是否可以连接

运行状态

表空间

使用率

无效对象无效对象数量

数据文件状态

数据文件数据文件是否自动扩展

Oracle

数据文件总数量

JOB监控数据库中Job的状态

Sharedpool命中率

SGADatabuffer命中率

redologbuffer命中率

PGAPGA命中率

SESSIONSessionTOP10及对应SQL

备份备份结果

引擎的状态

状态当前数据库服务开启状态

相关对象的状态

空间数据库空间使用情况

数据库读写的I/O信息

数据库内存及缓存的大小信

Sybase性能

耗时比较长的SQL语句

显示当前锁的情况以及当前

执行的命令

日志是否有报错信息

备份备份是否成功

数据库是否可连接

关键进程和服务是否存在

状态

相关对象(含数据文件)的

状态

MS-SQLServer

空间数据文件空闲比率

性能TOP10及对应SQL

锁发生死锁的次数

日志是否有报错信息

分配的总排序堆

数据库管理器的远程连接数

实例数据库管理器中正在执行的

DB2

远程连接数/本地连接数

DB2Connect的当前连接

基本信息使用的最大辅助日志空间

使用的最大总日志空间

目前分配的辅助日志数

使用的总日志空间

可用的总日志量

数据页逻辑读取数

数据页物理读取数

数据页写入数

索引逻辑读取数

缓冲池

索引物理读取数

索引写入数

物理读总时间

物理写总时间

锁定等待数

等待锁定的时间

应用锁等待

检测到的死锁数

等待锁定的当前代理程序数

锁定方式

锁定状态

数据库锁信息锁定对象名称

节点号

锁定升级

执行语句所耗用的时间

sql语句语句的总系统CPU

语句的总用户CPU

表空间的页大小

表空间的扩展数据块大小

表空间中的可用页数

表空间

表空间中的已使用页数

表空间中的空闲页数

表空间中的容器数目

.2.4中间件监控指标

中间件类别监控对象监控指标

主机IP地址

队列管理器名称

队列管理器队列管理器状态

命令服务器状态

通道初始化者状态

主机IP地址

队列管理器名称

MQ通道名词

通道状态

通道类型

通道

远程队列管理器的名字

通道中的消息数目

当前的序列值

通道启动的日期

通道启动的时间

主机1P地址

队列管理器名称

队列的名字

最后读取的日期

最后读取的时间

队列

最后写入的日期格式

最后写入的时间格式

当前队列的长度

打开这个队列读的进程数目

打开这个队列写的进程数目

监听地址

WeblogicServer运行状态

Server的版本

应用名称

weblogic部署应用

应用的状态

Jvm名称

内存堆空闲量(bytes)

JVM信息

内存堆总量(bytes)

JVM内存堆使用率

Weblogic当前活动连接数

当前等待连接数

JDBCpool最大容量

平均连接时延

泄漏的连接数

JDBC连接池

JDBCpool的当前容量

POOL中的可用连接数

POOL中的不可用连接数

未关闭的SQL操作

JDBC连接池利用率

WEB应用组件的名称

当前会话数

Web应用

最大会话数

总会话数

当前访问目的地端用户数量

当前消息数

JMS消息目的端Pending消息数

Weblogic

当前在目的端存储的字节数

当前目的端pending的字节数

当前线程数

队列长度

线程池Pending的用户请求数

阻塞线程数

吞吐率

Jvm名称

内存堆空闲量(bytes)

jvm情况

内存堆总量(bytes)

Websphere

已用内存

CreateCount

会话管理器

InvalidateCount

LifeTime

ActiveCount

LiveCount

NoRoomForNewSessionCount

CacheDiscardCount

ExtemalReadTime

ExtemalReadSize

ExtemalWriteTime

ExternalWriteSize

AffinityBreakCount

TimeSinceLastActivated

TimeoutlnvalidationCount

ActivateNonExistSessionCount

SessionObjectSize

CreateCount

DestroyCount

线程池ActiveCount

PoolSize

PercentMaxed

当前活动连接数

当前等待连接数

websphere

JDBCpool最大容量

平均活动连接数

JDBC连接池平均连接时延

泄漏的连接数

LEAKED连接数

POOL中的可用连接数

POOL中的不可用连接数

CPUCPU利用率

内存使用率

空闲内存

JVM最大内存

内存总数

当前等待的连接数

当前活动的连接总数

Tomcat

连接池等待连接中的最长时间等待者的时间

最大活动连接数

连接池的最大能力数

线程threadsthreads最大数

当前threads数

http请求当前hup请求数

允许的最大请求数

应用服务器运行状态

FTP服务登录情况

WEB服务器

ASP错误率

IISASP请求队列数量

WEB站点IP地址

WEB站点传输速率

整体请求率

.2.5存储监控指标

监控类型监控指标描述

存储阵列数目各种类型存储阵列的数目

存储阵列标识每个存储阵列设定的唯一标识名

存储阵列的类型,包括是生产厂家、所属系列以及规

存储阵列类型

格等

存储微码版本存储阵列当前安装的微码版本号

存储配置容量存储阵列当前配置的磁盘总容量

存储采用RAID方式存储阵列各逻辑卷采用哪种RAID数据保护方式

存储CACHE容量存储阵列内配置的CACHE内存容量

磁盘标识每个磁盘在存储中的标识名

配置管理磁盘的规格存储阵列配置的磁盘规格,包括:单盘容量及转速

主机通道卡标识主机通道卡在存储中的标识名

存储配置主机通道卡的类型,例如:光纤、SCSI.

主机通道卡类型

UltraiSCSI,ESC0N等类型的通道卡

主机通道卡数目存储配置的各种通道卡数目

磁盘适配卡标识磁盘适配卡在存储中的标识名

存储配置的磁盘适配卡的类型,例如:光纤、SCSK

磁盘适配卡类型

UltraiSCSI、SSA等类型的适配卡

LUN标识存储中划分的每个逻辑卷的标识

热备盘配置数存储阵列当前配置的热备盘数目

采样区间内从存储中读取的数据中,能直接从CACHE

CACHE读命中率

中读取的字节数占总读取数据字节数的百分率

采样区间内写入存储中的数据中,写CACHE空间未满

CACHE写命中率

情况下写入的字节数占总写入数据字节的百分率

性能监控磁盘10速率存储阵列各硬盘每秒钟读写数据的字节数

存储阵列划分的逻辑卷(在光纤通道上的映射为LUN)

LUN的10速率(STRIP)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论