一体化综合监控平台.pdf_第1页
一体化综合监控平台.pdf_第2页
一体化综合监控平台.pdf_第3页
一体化综合监控平台.pdf_第4页
一体化综合监控平台.pdf_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一体化综合监控平台 1 北京联华信科技有限公司专注于 IT 运维相关领域的产品研发与服务长达十余年,自主研发的 TeaView 一体化监控 运维管理平台软件,独创性地以 IT 资源配置管理为中心,基于自有的“通用监控对象模型”专利技术,构建具有灵 活扩展能力的 CMDB 配置库,并实现覆盖网络、服务器、数据库、中间件、应用、业务等全方位的一体化综合监控。 该软件具有如下 4 大特色能力: 监控扩展能力 _ 快速满足各种新的监控需求 应用监控能力 _ 个性化应用监控 资源梳理能力 _ 全面掌握 IT 资源关联关系 经验沉淀能力 _ 快速沉淀积累已有监控经验 上述优势从根本上保证了该软件能够对用户的 IT 系统、个性化应用等提供有效、实用的监控运维管理。 2006 年:推出第一个版本并成功应用于北京邮政综合网监控 2008 年:中国邮政储蓄银行总行数据中心综合监控 2010 年:中国邮政储蓄银行 34 省分行省前置综合监控 2011 年:中国邮政集团总公司及 34 省分公司邮政信息网全网综合监控 2011 年:中国邮政储蓄银行建设国内首个小型机集群实现大型银行核心业务的“逻辑大集中工程”,提供该项目 全网集中综合监控。 随着 IT 系统对企业支撑作用日益明显,企业在 IT 监控运维管理方面将面临更加严峻的挑战: 定制化应用故障最多,影响最大,监控需求最迫切 监控需求预知性差、突发性强、监控指标个性化、业务特征明显 监控部署时效要求高、监控方法难以系统化 对监控的扩展能力要求越来越高,以确保 IT 系统全生命周期的可持续化监控 IT 系统生命周期不同阶段,呈现不同故障特征,监控需求持续变动 定制化应用不断调整改造,导致应用监控需求持续变化 新设备种类、新的监控指标不断涌现 急需主动梳理 IT 资源内部关联关系 设备间影响密切,准确故障定位日益困难 资源关联复杂,系统变更风险越来越高 脆弱点隐蔽,单点故障风险难以控制 急需知识沉淀与经验共享 急需全面监控与集中展现,集成用户已有各类监控工具 IT 监控运维管理面临的挑战 2 为确保具有最大限度的扩展能力、满足 IT 系统的可持续化监控需要,TeaView 监控平台在内核设计上,采用了独 有专利技术“通用监控对象模型技术”。通过该项技术,用户可快速、自定义新的监控对象种类、新的监控指标及 获取方式等,满足个性化的监控需要。 该模型将现实世界中的各种监控对象统一抽象为“通用监控对象”(亦称“设备”)。这些设备可以是实际的物理 设备或其组件、软件系统或其组件,应用系统或其组件、以及根据监控需求抽象、组合出的逻辑监控对象等。 设备属性划分 属性即为监控指标。每个设备的属性可划分为若干类,包括: 配置属性:设备的配置信息(如:CPU 个数),一般变化较少,只有当系统配置发生变化时,配置属性发生变化。 一般因需采集。 状态属性:设备的一组离散的状态值,表明监控对象的当前状态(如:Oracle 数据库表空间的 online、offline 状态等),一般也是因需采集。 性能属性:随时间连续变化的属性(如:CPU 利用率,随时间变化而变化),一般需要持续采集监控。 事件通知:设备产生的事件通知,如:SNMP Trap 事件等。 附加属性:用户可根据需要,自定义新的其他种类属性,典型如:各种资产属性等,根据自身的资产管理需求, 定义新的资产指标。 属性获取过程 任何一个监控对象的属性获得包括三个步骤:连接管理对象、属性获取动作、结果解析方式。 通过通信协议连接管理对象 通过一定的通信协议与管理对象连接,如:SNMP、Telnet、SSH、JDBC、HTTP/HTTPS、FTP、SMTP、 POP3、Tuxedo ATMI、WMI、WQL、JMX、MQI java(IBM MQ)、WLS、RS232/RS485 等,或是特定的 私有通信协议。 获取属性动作 通过一定的动作完成。如:执行某个命令行、访问 mib 库、执行某个 SQL 语句、执行某个方法调用、体现用户经 验的脚本、命令、自编程序等。 结果解析规则 如:诸如字符串解析、拼装;数值结果的各种运算、以及更为复杂的处理逻辑等等。 动态创建,实现因需监控 TeaView 监控平台针对监控采集所涉及的各类通信协议、指标获取动作、结果解析规则等,提供完整支持。 同时,采用独特的对象封装技术,可将新的设备属性定义、属性获取方式定义等进行封装,动态生成新的设备种类。 一旦封装完成,TeaView 监控平台即获得了对该种类型设备的监控能力。 通用监控对象模型监控扩展能力的基石 通用监控对象统一描述各种 IT 资源 TeaView 一体化监控运维管理平台简介 3 软件架构 监控综合管理 提供多种视图实时监控;精细化设置监控采集策略;告 警处理中心集中处理主动轮询告警事件和接收的第三方 告警事件;提供丰富报表统计。 IT 资源管理 以“通用监控对象模型”为基础,构建 CMDB;从机房、 网络、主机、应用部署结构等多角度管理资源相互影响 关系;提供配置查询与冲突分析服务、事件归并处理服 务、监控展现视图。为故障定位、变更冲突分析、运维 审计等提供根本保障。 采集层 通过各种通信协议直接与设备交互,负责监控采集、配 置信息采集。 提供图形化交互界面,无需编程,通过简单配置方式,即可快速完成新的设备种类定义,获得新的监控能力,快速 满足监控需求。 配置方式定义新设备,快速满足监控需求 图形界面配置方式完成,编程量极少 配置属性 状态属性 事件通知 性能属性 设备 网络、主机、数据库、 中间件、应用、存储、 机房资源、个性化应用、 个性监控需求 通信协议 Telnet、SSH、SNMP、JDBC 获取动作 SQL、shell、MIB、call 结果解析 数值计算、字符处理、复杂逻辑 企业IT资源 采集层SNMP、SSH、 Telnet、 JDBC、HTTP/HTTPS、WMI、FTP、JMX、Tuxedo ATMI IT 资 源 管 理 应用部署结构 机房资源配置 主机服务部署结构 物理链路结构 网络拓扑结构 IP 资源管理 VLAN结构管理 IT资源配置库 资源信息维护 事件处理引擎资源配置综合查询与冲突分析 资源监控采集模型 监 控 管 理 监控 策略 管理 运维 工具 统计 分析 综合监控 网络监控主机监控业务监控应用监控 事件 处理 中心 4 支持网络、主机、数据库、中间件、定制化应用的一体化综合监控 通用监控对象模型统一描述各类设备,具有极强的监控扩展能力 配置方式实现监控的扩展,确保监控实施的高效便捷 能将各种新的监控对象快速纳入监控范围 充分满足个性化应用的监控需求 面向监控需要,构建具有灵活扩展能力的 CMDB,确保 ITSM 更加有效 全面梳理 IT 资源内部结构 机房资源、网络资源、主机服务资源、应用部署结构等多角度梳理 图形方式管理设备间故障关联关系,利于故障准确定位 提供配置变更冲突分析服务 可自定义复杂轮询报警策略,适应各种监控场景需要 机房视图方式,直观管理机房空间资源、布线资源等辅助资源 丰富的监控视图种类,多角度全面监控 可将各种已有监控经验(如:积累的各种脚本、程序、命令等)固化到监控平台中 丰富的统计功能、完善的报表,为 IT 服务容量管理、可持续性管理等提供数据支撑 具有优良处理性能 以普通单台 PC 服务器(32G/8C)为例,可支持 1000 个服务器、数据库、中间件等监控对象,可同时轮询约 18000 个监控指标。 具有良好结构伸缩性,支持集群部署、负载均衡,支持海量设备监控 具备容灾切换机制,确保 7*24 平稳运行 支持分级、分布部署,适应集团客户、大型信息系统监控要求 多种机制确保被监控系统的安全等级免遭影响 监控采集免安装插件 提供多种通信协议选择,充分适应用户环境制约。包括:SNMP、Telnet、SSH、JDBC、HTTP/HTTPS、FTP、 SMTP、POP3、Tuxedo ATMI、WMI、WQL、JMX、MQI java(IBM MQ)、WLS 等。 全浏览器交互方式 采用通用监控对象模型专利技术,支持各类软硬件设备统一监控,具有极强灵活扩展性 拥有良好集成能力,提供多种接口,与第三方监控系统集成,实现监控集中展现 功能特点 技术特点 一体化监控运维平台,降低 IT 管理投资规模 灵活的监控扩展能力,确保 IT 监控的长期可持续化、节省 IT 管理的未来投资 快速满足监控需求能力,确保 IT 系统稳定 全面提升故障定位能力,缩短故障修复时间,减少故障损失 全面 IT 结构梳理,减少变更冲突、降低单点故障风险 加强运维经验的沉淀固化,降低人员流动风险 支持应用业务监控,直接辅助业务管理 产品价值 本监控平台基于 SNMP 协议,对所有支持 SNMP 的网络设备提供监控管理,如:Cisco、Baynetworks、 Juniper、Foundry、Extreme、Avaya、3COM、Intel、Fore、Marconi、CableTron、Motorola、F5、华为、 港湾等。提供的标准监控内容如下: 针对标准交换设备,可监控: 设备基本信息 设备名称、设备描述、厂商标识等。 设备各端口 MAC 地址列表、设备接口数量 设备各端口配置及状态信息 端口号、端口配置及状态、各端口类型、各端口描述、各端口状态、各端口 IP 地址、子网掩码等。 端口性能数据 端口编号、端口名称; 端口速率(如:端口总速率、端口入速率、端口出速率); 错包数(如:端口总错包数、端口入错包数、端口出错包数); 错包率(如:端口总错包率、端口入错包率、端口出错包率); 丢包数(如:端口总丢包数、端口入丢包数、端口出丢包数); 丢包率(如:端口总丢包率、端口入丢包率、端口出丢包率); 总带占比、带宽接收占比、带宽发送占比等。 针对标准路由设备,可监控: 设备基本信息 设备名称、设备描述、厂商标识等。 设备各端口 MAC 地址列表、设备接口数量 当前路由设置及状态 路由表、路由地址、端口编号、路由类型、下一跳地址、目的地址掩码、路由来源机制等。 设备各端口配置及状态信息 端口号、端口配置及状态、各端口类型、各端口描述、各端口状态、各端口 IP 地址、子网掩码等。 端口性能数据 端口编号、端口名称、端口速率、错包数、错包率、丢包数、丢包率、总带占比、带宽接收占比、带宽发送占比等。 此外, 在监控实施过程中, 通过获取各设备的私有MIB, 还可获取设备的CPU性能监控 (均值、 峰值) 、 内存占用 (均 值、峰值)等。 网络设备管理 5 主机操作系统数据库中间件应用服务器等网络设备服务器硬件虚拟机 HP-UX Sun Solaris Windows Linux IBM AIX Sco Unix 麒麟 Linux 中标 Linux 红旗 Linux Oracle Sybase Informix MS SQL Server IBM DB2 Postgre SQL MySQL 达梦数据库 Oracle Bea Tuxedo Oracle Bea Weblogic Oracle Application Server IBM WebSphere MQ IBM WebSphere App Server MS Exchange MS IIS Server Apache Server Netscape Server 东方通中间件 Cisco H3C Juniper Avaya 3COM Intel Foundry CableTron 等支持 SNMP 协议的设备 HP 服务器 IBM 服务器 DELL 服务器 联想服务器 浪潮服务器 Vmware Hyper-V Citrix 管理范围 6 操作系统监控参数 支持 HP-UX、Sun Solaris、Windows、 Linux、 IBM AIX、Sco Unix等操作系统的状态监控;帮 助运维人员实时的了解主机系统的运行情况; 对监控到的指标及时报警 , 保证主机系统的连续 运行,降低故障时间。 主机系统管理包含了主机性能指标和系统配置 指标,示例如右图所示。 用户可根据管理需求,随时通过配置方式添加 新的指标。 本 监 控 平 台 提 供 了 针 对 Oracle、Sybase、 Informix、MS SQL Server、IBM DB2、 Domino、Postgre SQL、MySQL 等主流数据 库提供监控管理。 常规的监控种类包括如下: 数据库内存使用监控 数据库状态和统计信息 表空间状态及使用情况 Cache 的命中率、使用情况 数据库锁的使用情况 数据库日志 主机系统管理 数据库监控管理 数据库监控参数 _Oracle 此外,监控人员还可通过配置方式,添加关心的监控指标,实施进一步的个性化监控。 本监控平台提供了针对 Bea Tuxedo、Bea Weblogic、IBM WebSphere MQ、IBM WebSphere App Server、 MS Exchange、MS IIS Server、Apache Server、Netscape Server、Tomcat、Oracle Application Server 等 主流中间件、应用服务器等的监控管理。 常规的监控种类包括如下: 应用服务器最大并发连接数 客户端连接队列个数 服务个数 队列等待个数 应用进程状态 Servlet 名称及访问 URL Servlet 被调用次数及最长、最短执行时间 JDBC 连接池名称 JDBC 总连接数及最高活动连接数 应用服务器监听端口 中间件管理 中间件监控参数 _WebLogic 用户可根据管理需求,随时通过配置方式添加新的指标。 7 服务器硬件监控 支持系统日志、数据库日志、中间件日志、设备日志、应用日志等监控。通过标准工业协议 syslog,从各种不同类 型的日志整合到监控系统中,实现日志的集中过滤、分析、监控报警、安全审计等。可依据关键字扫描日志文件, 并告警。 本平台提供对各品牌服务器的硬件状态监控,包括:HP 服务器、IBM 服务器、 DELL 服务器、联想服务器、浪潮服务器等。可监控指标示例如图所示: 日志监控 服务器硬件监控 VPN 即虚拟专用网络,其功能是:在公用网络上建立专用网络,进行加密通讯。VPN 网关通过对数据包的加密和 数据包目标地址的转换实现远程访问。VPN 有多种分类方式,主要是按协议进行分类。VPN 可通过服务器、硬件、 软件等多种方式实现。VPN 具有成本低,易于使用的特点,目前在企业网络中有广泛应用。 本平台提供了 VPN 结构视图展现功能,可直接展现 VPN 网络结构,展现 PE 设备和 CE 设备之间的关系、 VPN 网络设备之间的连接关系等,便于用户针对 VPN 网络结构进行精细化管理。 本平台支持 Vmware、Hyper-V、Citrix 等虚拟机的监控。主要监控内容包括: 虚拟设备物理主机的配置、健康度 CPU 总容量、CPU 使用量、 CPU 使用率 内存总量、 内存使用量、 内存使用率 网卡配置 虚拟机监控 按照虚拟机列表,支持如下监控与查看 虚拟机名称 IP 地址 被分配的内存 虚拟机 CPU 及内存利用率 状态(是否启动)、端口组、操作系统 所在主机、网络、存储信息 本平台的通用监控模型,提供了丰富的设备连接方式,通过配置方式可自定义监控设备、监控指标、采集方式等。 在实际中,通过灵活地利用这些特点,可以广泛地进行个性化应用的监控。 常规个性化应用的监控内容一般包括:应用配置信息监控、应用联机处理服务监控、应用批处理监控等。 VPN 监控 虚拟机监控 个性化应用管理 8 监 控 类 别 监控指标监控内容说明 配 置 信 息 版本信息应用版本信息 配置参数变动监控如:服务端地址、端口号;并发数量参数;链接数量参数;交易超时参数; 路径配置参数等。 配置参数以数据文件或数据库形式存储。 联 机 处 理 服 务 监 控 业 务 功 能 的 用 户 感 受 度监控 响应时间监控监控典型、关键功能的响应时间。 模拟典型功能、关键功能请求发起,监控联机处理的响应时间。 功能可用性监控监控典型、关键交易是否可用。 监控响应时间是否超过可忍受时间极限,相应结果是否正确。 应 用 系 统 整 体 服 务 状 况监控 成功率监控监控典型、关键功能的成功率。 通过数据库交易记录、交易日志等监控并计算处理成功率。 请求流量监控监控典型功能在不同时段的请求流量,可监控请求队列消息数。 在线用户数监控应用在线用户数 联 机 应 用 各 组 成 部 分 监控 网络监控监控主机间网络联通状态 应用进程监控应用进程启动、正常停止、异常停止时间;进程名称、数量情况;僵死进 程情况;进程资源消耗等。 队列监控监控消息队列长度是否超长 日志监控监控日志内异常信息、报警信息、日志大小的变化情况等。 应用数据监控关键表访问量监控;关键表记录、关键字段变化情况监控。 批 处 理 监 控 完 成 质 量监控 总处理时间批处理的总体处理时间是否超过预计时间。 总成功率批处理的处理成功率、各种失败状态占比等是否超过预估。 批 处 理 过 程 监 控 批处理输入监控输入数据完整性、合规性、数据量大小、数据到达及时性等监控。 批处理过程监控批处理开始时间是否符合预期监控; 处理过程中关键数据变化情况监控; 批处理关键步骤节点时间进度监控; 批处理过程异常信息监控; 结束时间预期性监控等。 批处理输出监控输出数据种类完整性、合规性、数据量大小监控。 9 按照 IT 资源的部署、使用周期,提供从资产管理与维保、到设备上架部署、到应用部署的各阶段的详细的 IT 资源 关系的梳理服务功能。 以基于自主知识产权的“通用监控对象模型”技术为基础,统一抽象各类 IT 监控对象,建立统一的 IT 资源配置库; 从机房资源、网络资源、主机服务资源、应用系统部署结构等多角度提供 IT 资源关联关系的梳理,帮助用户详细 梳理 IT 系统的内部结构、相互影响等;提供配置查询与冲突分析服务、事件归并处理服务、监控视图制作等,为 IT 系统综合监控、准确故障定位、变更冲突分析、运维流程管理、安全运维审计等提供根本保障。 IT资产管理:从资产管理角度, 对IT资源进行信息维护, 如:资源名称、资源类别、IP 地址、厂商、供应商、购 买合同信息、购买日期、投产日期、所属应用、设备所 属部门、物理位置等。 设备维保信息管理:围绕设备维保,提供维保商、维保 合同信息、 维保联系方式、 历次维保记录、 下次维保时间、 维保提醒等信息维护功能。 自定义附加信息维护:用户可根据自身资产管理需要, 自定义新的资产属性。 IT 资源管理 IT 资产信息维护 主要管理功能 机房空间、机柜、供电、布线 网络设备、主机、存储、操作系统、数据库、中间件、应用软件 IT资源登记监控对象模型自动扫描 配置查询与冲突分析故障定位处理各种监控视图展现 IT资源配置库 应用部署结构配置 网络拓扑配置 物理链路配置 IP资源管理 VLAN结构管理 主机服务驻留配置 机房资源配置 资源关联关系管理 资源关联关系管理 建立资源对象 10 网络拓扑结构管理:通过自动发现和人工编辑方式,建 立网络设备和子网之间的关联关系,并通过网络拓扑视 图展现。 物理链路结构管理:发现并管理 IP 设备和各网络设备 之间的物理连接关系,并通过物理链路视图展现。 主机服务发现:针对各个指定的主机设备,通过端口扫 描方式,发现设备上的操作系统、系统服务、应用软件 服务等。 应用部署结构管理 : 以应用系统的部署结构为主线,关 注业务功能从前端到后端各个组件之间的部署、访问关 系,并采用图形化方式,描述各个组件之间的关联关系。 针对每个业务系统的各项功能,随着这种应用部署结构 的大量梳理和积累,形成对业务服务管理的有效支撑。 物理链路图 应用系统部署结构配置 机房资源配置管理 机房资源配置管理:采用鼠标拖拽方式,直观对机房各 类辅助资源分配情况进行梳理。如:涉及机房空间资源 的机柜摆放、机架设备上架位置、供电线路的走线布局 等。 11 IP 资源管理 : 将 IP 地址视为网络资源进行统一管理, 对 IP 资源在各个主机上的部署分配进行详细梳理,并 提供日常终端 IP 合法性检查等。 IP 地址管理 TeaView 综合监控系统以资源配置库为核心,以资源配置管理提供的各种监控视图为基础,可对网络、主机、应用、 业务、机房环境等资源进行综合监控管理。 系统提供各种角度的专业视图,从而可以多维度的显示出包含:网络拓扑视图、物理链路视图、机房视图、应用部 署视图、自定义视图等,实现全方位监控。 网络监控:通过网络拓扑视图、物理链路视图进行网络 状况监控,如:网络设备性能(CPU 性能、内存性能) ; 设备端口监控 (端口总速率、 入/出速率、 错包率、 丢包率、 端口总带宽占比等);端口链路带宽、通断情况;设备 面板视图:直观展示端口状态等。 监控管理 IT 资源关系综合查询 : 提供多种角度查询各个设备之间 的关联关系,包括:网络拓扑关系、物理链路连接关系、 机房资源装配关系、应用部署结构关联关系等。 综合视图结构管理 : 用户自定义视图管理,体现用户关 注的设备关联关系。 IT 资源关系综合查询 多维度监控视图 网络视图 12 面板视图,详细展示端口状况 BSM 业务监控视图 机房视图 BSM 业务监控视图:以业务系统各项功能为主线,详 细展示应用各组成部分对业务功能的影响:组件性能下 降导致业务性能下降,组件故障导致业务中断。 机房视图:机房实景展示设备的物理位置、运行状况等。 设备运行视图:列表方式展现设备 CPU、内存、服务 等主要健康度指标。 设备运行监控 综合监控视图 综合监控视图:通过自定义方式定制监控视图,展现用 户关心的监控对象运行状态。例如:业务视图是以业务 系统为主线、展现该业务系统所包含软硬件设备的运行 状况的视图。 13 服务器硬件监控 IP 接入检测 IP地址检测 : 依据IP资源表, 对接入IP进行合法性检查。 轮询报警策略是指针对监控对象,采用什么样的时间策略进行轮询采集;采集的结果如何识别为正常与非正常;非 正常状态如何定义其报警级别与报警内容;以及更为复杂的轮询策略逻辑(如:多设备、多指标之间的联合报警、 条件报警;可变化的采集频率)等。因此,轮询报警策略是描述采集、报警的逻辑过程。 不同设备在不同使用场景下,会有不同的轮询报警策略。运维人员往往会总结出丰富的轮询经验,将这些轮询经验 进行固化并加以重用,对实施有效监控具有重要意义。 TeaView 监控平台引入监控轮询模型,将各种不同场景下的轮询报警模式进行抽象,形成一个个轮询种类,以适 应各种复杂轮询报警策略的需求。 监控经验数据库内置十余种最常用轮询报警策略模型,覆盖常规监控场景,可直接使用。如:单指标双高限轮 询模式、指标值变化模式、单指标高低四限轮询模式、单指标增长率轮询模式、主指标高限辅指标正文模式等。 提供可视化界面,进行更为复杂的轮询报警策略设置。 可针对各个设备的各个指标的报警级别、 每个级别的报警阀值、 告警内容、 监控采集的时间策略等进行综合设置。 针对各类设备可定义其缺省轮询报警策略,通用于所有类似设备;也可针对每个实际设备再进行具体监控策略 的调整。 轮询报警策略管理 设备属性浏览:深度探查每个软硬件设备的详细指标情 况。 设备属性浏览 14 轮询时间段设置 告警正文配置 轮询告警阀值设置 15 通过事件处理平台,对告警事件集中处理。事件按照来源种类分为两类,包括监控平台主动轮询产生的告警事件、 被动接收第三方产生的告警事件。 告警分级 : 监控平台将告警事件分为六级,按照严重度从低到高依次为:提示告警、一般告警、次要告警、主 要告警、严重告警、紧急告警。 告警展示:集中展示操作员所管理设备、当前所有未被处理的告警事件,可按照故障原因归类,将根本事件与 联动事件归并展示。 告警批注:可对事件进行批注处理;可对快速批注内容进行条目设置。 告警升级:告警事件若干时间段未被处理,可自动升级至高级别告警,以期获得关注。 告警查询:按时间、事件级别、业务系统等各种条件查询历史告警事件。 告警事件通知方式配置:可支持短信、电子邮件通知方式,并可进行精细化配置,可具体到某设备某级别事件 通知某人。 第三方事件接收:监控平台提供统一接口,可过滤接收各种第三方 syslog 数据源或 SNMP Trap 事件源的事件 信息告警。 事件处理中心 内置轮询告警模式 十余种轮询告警经验模式,广泛适应各种场景 单指标双高限轮询检测模式关注不断增长的趋势 单指标双低限轮询检测模式关注剩余量变化 单指标匹配轮询检测模式一旦出现,立即报警 单指标不符预期轮询检测模式只要不出现,马上报警 指标值变化轮询检测模式一旦变化,立即报警 单指标高低四限轮询检测模式高低范围内波动 双指标高限轮询检测模式两个指标联合告警 单指标增长率轮询检测模式变化过快或过慢 主指标高限辅指标事件正文整合第三方告警、日志接收 16 当前告警 告警通知配置 日志过滤器设置 17 统计分析 基于监控数据积累, 可直接提供:性能排行统计、 趋势分析、 故障统计、 磁盘I/O、 日志分析、 系统信息等几大类报表, 为 IT 服务容量管理、可持续性管理等提供数据支撑。 性能排行:包括 CPU 利用率排行、内存利用率排行、磁盘利用率排行、磁盘最小可用空间排行等。 趋势分析:CPU 利用率趋势排行、内存利用率趋势排行、磁盘利用率趋势排行等。 告警统计:告警分布统计、设备告警排行统计、设备故障时间段统计、业务系统故障统计、设备分类告警统计、 网络设备联通率统计等。 磁盘 I/O:繁忙度统计。 资产统计:设备资产信息统计。 各类报表 角色管理 系统管理 围绕监控系统自身的使用,提供相关系统管理功能。 用户管理:监控系统使用人员的角色管理、组织机构设 置、用户组管理、用户管理等。不同角色具有不同操作 权限。 采集器管理:监控平台可部署多个采集器,支持监控采 集的集群部署与负载均衡。每个采集器在集群中可承担 不同服务种类,并可配置其负载因子;监控平台可监控 各采集器的健康度。 采集器运行状态监控 缺省配置管理:对监控系统相关缺省项进行配置,包括: 默认我的视图设置、设备的默认缺省轮询项、默认报警 阀值、默认轮询频率等。 系统日志管理:查询监控人员操作日志。 菜单管理:设置系统功能项的交互菜单,如:菜单名称、 显示顺序、是否显示等。 恢复出厂设置:按系统数据进行全部初始化,恢复至初 始状态。 18 运维工具箱 监控平台提供一组工具供运维人员随时使用,包括 MIB 浏览器、 HTML工具、 Ping工具、 Tracert命令行工具等。 设备接口定义 _ 属性及获取方法 MIB 浏览器 个性化监控扩展 以通用监控模型专利技术为基础,结合用户自身监控需 求,进行监控扩展,包括定义新的监控设备、监控指标、 采集手段等,也可将应用抽象为应用设备实施监控。 图形化方式定义新的设备种类。 可定义新设备通过哪些通信协议连接访问,有哪些 监控指标,每个监控指标获取方式等。 应用监控:原则上,反映应用运行状态的任何监控 指标,均可通过某些方式直接或间接地获得,这些 方式都对应于在系统中进行的某些操作。因此,可 通过监控平台采用配置方式实施应用监控。 19 运行环境 部署结构 TeaView 监控运维平台可进行单级部署和多级部署,以满足不同规模的信息系统监控需求。 支持 Linux、Unix、Windows 操作系统及国产操作系统部署 支持 MySQL、Oracle 等关系型数据库及国产数据库部署 支持 WebLogic、Tomcat 部署 支持单级部署和多级部署 对于规模较小的信息系统,其系统的各部分分布于同一物理地点,此时,TeaView 监控平台可采用单级部署结构。 单级部署结构 运行环境与部署结构 单级部署结构 20 大型企业集团信息系统具有分布部署、管理分级的特点。通过 TeaView 监控运维管理平台的汇集中心模块,可进 行分布、分级部署,满足大型信息系统监控需要。 在每一级监控系统中,均部署监控平台,实现对本级设备的监控;同时,在上级可部署汇集中心模块,实现与下属 各监控平台之间数据传输与同步,包括:监控策略同步、IT 资源配置库同步、监控报警信息同步、实时采集信息同 步等。 针对海量设备的采集监控,TeaView 监控平台提供负载均衡解决方案,可将监控采集任务部署在服务器集群上, 集群内各服务器间可自动负载均衡,并支持容灾自动切换。 分布式、分级部署汇集中心 集群部署与负载均衡 多级部署结构 21 中国邮政储蓄银行作为全国第 6 大商业银行,依托其庞大的计算机系统,为全国数亿客户提供优质的个人金融服务。 该行目前已拥有营业网点 38000 多个,网点业务人员 10 万人。基于稳定的计算机系统,邮储银行的跨行交易成功 率始终位居全国前列,交易差错率保持全国最低水平。信息系统的稳定性始终是邮储银行提供优质金融服务的根本 保证。 海量设备、业务系统众多、运维负担极大 邮储银行现有服务器 5000 多台、上千个数据库、应用服务器等软件支撑系统设备、全网 7*24 实时运行的业务系 统总计 40 多个,涉及:个人、对公、信贷、理财、托管、外汇、信用卡、电子银行、保险、基金等 10 多类,业 务系统联机在线使用人员接近 10 万人。运维部门压力极大。 大集中模式导致 IT 风险急剧增长 邮储银行历经多年信息化建设, 特别是 “逻辑大集中工程” 后, 已经实现了交易集中处理、 数据集中存储的大数据模式。 在此模式下,IT 风险急剧增长。以 2012 年该行业务数据统计为依据计算,业务系统平均每中断 1 分钟,将导致人 员工资支付直接损失接近 12 万元,间接利润损失为 23.5 万元,总计为 36 万元。 传统建设、运维监控模式无法满足运维需要 针对运维监控, 邮储传统做法是伴随各个业务系统的开发, 由开发商配套开发专有监控子系统。 随着新系统迅速增加, 系统间的关系越来越复杂、联系更加密切并彼此影响,单一的监控子系统已经不能满足安全运行工作中综合分析问 题、准确定位问题、及时解决问题的需要。 众多监控子系统,切换频繁,不堪重负 随着各个监控子系统的急剧增长,运维人员在各系统间来回切换也不堪重负,并直接导致系统故障反应迟钝、直接 影响系统运行质量。 新增监控需求无法快速满足 各业务监控子系统存在功能有限、无法满足新增、个性化的业务监控需求。 需要集中监控系统,实现业务、基础架构综合监控 针对上述状况,迫切需要建设集中的计算机系统监控系统,在整合现有监控系统的基础上,实现硬件设备、主机操 作系统、数据库、中间件、各业务系统的集中监控管理。 邮储银行经过多次比选和慎重考虑,我公司的 TeaView 一体化综合平台凭借其良好的监控扩展性、个性化监控需 求的满足能力、海量设备监控能力、集群部署与负载均衡等特性,最终获得用户的青睐。 IT 系统的监控需要伴随着应用系统的生命周期持续不断地进行调整,总体上包括:监控需求分析、监控策略制定、 监控部署及运行、监控调整等不同阶段,整体上是一个不断往复循环的过程。 中国邮政储蓄银行 原系统运维状况 解决方案 科学的实施流程 客户案例 22 需求分析阶段 邮储银行的监控需求总体上划分为如下几部分: 基础设施的监控:包括主机、数据库、中间件、存储设备、网络设备监控。 应用系统监控:针对邮储所包括的全部应用系统的监控,如:储蓄、信用卡、信贷、ATM、汇兑、保险、基金、网 银、对公等 40 多个业务系统。 整合各业务系统原有监控工具:原有专用监控工具对用户而言使用已经很习惯,用户并不希望马上撤换,而更希望 通过整合, 在充分利用原有监控工具采集的基础上, 实现集中的报警展示, 并考虑在后继阶段逐步替换原有监控工具。 硬件监控:集成专业厂商的采集手段,接收报警信息,实现监控集中展现。 原有经验沉淀需求:在需求调研过程中,用户对原有监控中使用的各种 shell 脚本、SQL 命令、自行编写工具小程 序等,存在大量呼声要求予以保留,这些经验体现了对应用系统故障部位、故障特征、故障识别手段的经验积累。 在邮储银行的信息系统监控实施过程中,也是按照上述过程持续实施的。 监控部署与实施监控阶段 实施前期准备 监控系统安装 网络环境设置 主机监控用户建立 数据库监控用户建立 监控部署 系统配置库/网络拓扑图建立 监控视图建立 监控策略设置 人员权限设置 报警通知方式设置 监控日常运行 日常问题处理 定期统计分析 监控策略持续调整 监控系统自身定期维护 监控需求变化,开始新的实施周期 监控需求分析阶段 确定总体监控需求 系统现状 总体监控目标 总体监控范围 背景资料收集 收集系统开发商提供的资料 总结以往系统监控经验 监控需求详细分析 了解系统实际部署结构 基础设施监控需求 应用监控需求 统计分析需求 监控人员职责划分 监控策略设计阶段 基础设施监控策略设计 网络监控策略 主机/操作系统监控策略 数据库监控策略 中间件/应用服务器监控策略 应用监控策略设计 监控项确定 监控采集方式设计 监控权限划分 监控视图设计 报警通知方式设计(短信、电子邮件) 23 监控策略设计阶段 基础设施监控策略设计:结合各设备的适用场景、作用、运行特点,有针对性地进行监控策略制定,包括监控对象、 监控指标的选择,结合具体环境确定监控参数的获取方式,各监控指标的合理数值范围等; 针对应用监控策略设计:结合应用特点,综合设计、抽象出应用的监控指标、采集方式、报警条件等; 针对原有监控工具整合:充分利用 TeaView 监控平台的扩展性,采用多种策略整合,如:将原有工具的报警事件 表数据源抽象为监控对象,进行同步报警等。 原有经验沉淀:同样利用 TeaView 监控平台的扩展性,将原有的脚本、命令等作为监控对象采集获取方式,通过 配置方式快速加入监控系统中。随着监控系统的部署,这些经验性的脚本、命令等将在监控系统驱动下,按照预定 的轮询策略,实现对目标设备的监控。 监控部署与运行 利用 TeaView 监控平台,通过自动探查方式建立 IT 系统资源配置库,建立各应用系统及下层的应用服务器、数据 库、主机、存储、网络、机房外围环境等各层级的 IT 资源关联关系,为日常监控运行提供故障定位服务,并为日 后的 IT 设置配置变更提供配置冲突分析服务。 针对各基础设施,直接设置其监控策略。 针对应用监控,按照设计阶段的设计结果,通过配置方式添加应用监控对象、监控指标、配置采集方式等。 启动监控系统的日常运行,并处理各种问题。 监控需求调整及监控策略调整过程 针对发现的新问题,及时部署新的监控项,调整监控策略。 大规模提高系统监控覆盖度、杜绝监控漏区 TeaView 系统上线后,实现 40 多个业务系统及下层支撑的 5000 多台服务器、上千个数据库、应用服务器软件等 全部纳入监控范围,杜绝原有存在监控漏区问题。 统一集中监控策略管理,漏检概率降低 2.5 倍 TeaView 平台除了直接对相关系统实施监控之外,还集成了原有监控工具、原有采集经验,在此基础上,平台采 用了统一集中的监控策略管理,大幅提高了监控采集频度、降低故障漏检概率。相比原有分散监控采集模式,系统 漏监概率降低 2.5 倍。 有效整合原有各专有监控系统,实现集中报警,降低了人员劳动负荷 充分利用原有监控系统进行监控采集,通过 TeaView 监控平台实现集中报警展示

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论