版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、集团公司智慧IT运维平台技术路线方案 TOC o 1-5 h z HYPERLINK l bookmark0 o Current Document 目标及范围 5 HYPERLINK l bookmark2 o Current Document 项目目标 5 HYPERLINK l bookmark4 o Current Document 项目范围6 HYPERLINK l bookmark6 o Current Document 技术方案 7 HYPERLINK l bookmark8 o Current Document 技术路线7关键技术8运行监控系统8 HYPERLINK l book
2、mark12 o Current Document 配置管理数据库系统 27IT服务管理系统 31运维门户33大屏展示36平台集成38特色技术39电信级的统一数据采集技术 39科学的业务可用性量化算法 43特色的移动终端应用技术(掌上运维) 45强大的系统集成 ESB数据总线52高效的告警扫描产品 54面向SOA的流程引擎 54CMDB灵活建模和调和技术 58大屏综合展示开发技术 59系统性能61设备管理数量 61响应时间61容量62系统总体架构及部署 62总体架构 62系统组成及系统体系结构63标准化 64运行监控系统64运行监控系统接口规范 64监控对象命名规范 66运行监控服务目录 68
3、运行监控服务及报表申请流程 70服务管理系统73服务管理系统接口规范 73运维术语和运维流程73相关指标75基础数据77配置管理系统78配置项分类标准78配置项命名标准79配置项信息变更规范 81配置项信息模板85安全设计85物理安全86网络安全 86主机安全86数据安全89应用安全91安全管理92与其他系统的集成 93备份方案94备份方案94备份技术介绍 94备份策略介绍94备份技术要求95重点备份内容96恢复方案96恢复时间与策略96备份恢复处理流程97备份恢复处理方案98软硬件配置方案 101软件配置清单 101运行监控配置清单101服务管理配置清单 103配置管理配置清单 104运维门
4、户配置清单 104大屏展示配置清单 105硬件配置清单配置建议 105生产环境硬件配置建议105测试环境硬件配置清单106数据库配置建议 1071.目标及范围1.1项目目标集团公司在总部和企业层面已经建立了以综合网管系统和SAP SLM系统为主的运维支持系统,运维支持系统概览如错误!未找到引用源。所示。图运维支持系统概览集团公司总部建立呼叫中心系统实时响应了用户有关门户、OA、基础应用、 安全、视频、MES等系统的服务请求;工单系统实现了总部运维人员处理系统 故障的工单流转;SAP SLM实现了 ERP系统服务请求受理、事件管理、应用监 控及变更管理;网管监控系统实现了因特网、主干网、局域网、
5、服务器、安全设 备、企业防火墙、基础应用等基础设施的故障和性能监控;资金集中监控系统实 现了资金集中系统的网络设备、服务器、安全设备、存储、负载均衡、灾备和应 用系统的一体化监控;MES应用监控评价系统对 MES应用进行监控,为MES 上线达标、验收达标及深化应用提供了报告和依据。在企业,已建成76家企业的综合网管系统,实现了对企业基础设施的监控; 基本建成防病毒管理Bigfix系统,截至2012年1月,共安装18.3万台,授权数 18万。同时,广州石化、茂名石化、燕山石化、北京石油等部分企业已建设了 运维服务管理系统。本次项目的总体目标是整合运维支持系统,建设集中的一体化运维平台,支撑集团公
6、司IT运维共享服务,提高运行效率,降低成本,实现总部和企业运维 统一调度和集中管控,达到国内领先、国际一流的水平。(1)建设集团公司IT运维平台,实现运行监控、配置管理数据库、IT服 务管理、运维门户与大屏展示;实现与 SAP SLM、SSOC、云资源管理平台、资 金集中监控系统、加油卡监控等系统的集成。具体实现如下:统一调度运维资源:建成集中的服务管理系统,集成 SAP SLM,实现运 维支持工作的全过程管控和知识共享,通过在线流程有机协同总部、区 域中心和企业之间,运维队伍与项目组之间的运维支持工作。集中监控应用系统:建成集中的运行监控系统,实现对50套应用系统的 应用监控,从用户使用的角
7、度进行可用性监控,及时发现和处理问题,缩短系统不可用时间。集中管理配置信息:建成集中的配置管理数据库系统, 实现50套应用系 统与总部管理的基础设施的统一管理,为运维支持、变更风险分析、重 大问题处理决策等及时地提供真实数据。大屏展示运维情况:提升运维门户和大屏展示,通过系统集成大屏展示 应用监控指标、信息安全状况、服务受理情况、重大问题处理情况等运 维服务信息。(2)制定集团公司IT运维标准与规范。包括运行监控规范、服务管理规范、 配置管理规范等。1.2项目范围项目范围包含总部基础设施和总部统建的 50套应用系统,以及与两家试点 企业已有运维系统的集成。基础设施的范围主要包括总部 4个数据中
8、心,11个区域中心,涵盖服务器、 存储、安全设备、网络设备、数据库、中间件等,当前共有各类设备7000台左右,具体数量以实际为准。应用系统的范围主要包括 ERP、MES、资金集中管理、总部生产营运指挥、 电子商务、合同管理、综合办公、加油卡(区外)、APC等50套应用系统,主 要涵盖了 SAP、.NET、JAVA、Domino等技术平台。2.技术方案技术路线IT运维平台系统的建设将采取如下总体技术思路,兼并考虑平台的整体性 与可扩充性。(1)采用先进的企业级架构技术(2)采用先进的工作流引擎和组件化技术(3)支持自动配置项发现和识别(4)支持丰富的接口实现工具,保证相关系统协同运维平台主要包括
9、呼叫中心系统、 服务管理系统、运行监控系统、配置管理 数据库系统、综合展示与运维门户,平台实施的技术路线为:(1)产品路线1)选择先进的成熟产品,在考虑利旧的同时,考虑易于适应运维业务、平 台需求变更的产品;2)选择系统间接口采用标准协议或具有集成相关系统成熟套件的产品;3)基于云架构进行基础设施及应用部署。(2)实施路线将专业工具与通用平台相结合,通过系统集成满足专业管理需求与通用管 理需求。参照最佳运维实践,定制业务流程及主要功能。对于不能由产品定制 实现的功能,根据产品技术路线,采取 J2EE或.NET及其他技术路线进行二次 开发,采用标准接口或其他技术手段进行集成每个子系统使用的关键技
10、术详细描述如下。2.1.1关键技术IT运维平台在技术的选择上遵循先进性和成熟型的原则,确保IT运维平台达到国内领先。具体采用关键技术分系统描述。运行监控系统统一数据采集运行监控系统的数据采集层通过与被管系统的接口采集相关数据,送到数 据处理层进行数据处理。数据采集是运行监控系统的重点,采集的效率、准确 性直接影响到整套运行监控系统的效率。因此,需要一套高效、准确的采集平 台。自主开发的统一数据采集平台(软件登记名称:统一采集云平台软件V7.0 ) 经过多年的沉淀和积累可以很好地解决以上问题。统一采集平台的建设目标是 构建基于云架构的采集共享平台,能够实现统一采集、统一共享、统一管控:统一采集:
11、统一采集控制,对基础设施的监控进行管控,对不同厂商的监控工 具进行集中管理,实现监控软件的起停控制,策略的统一管理、下 发,支持采集客户端的的自动分发、集中部署。可接入各种设备系统,具备灵活的扩展性。支持第三方厂家适配器插件,提高采集系统的平台能力和开放性。更合理的采集策略和并行度,采集执行效率提升。支持云计算技术,突破硬件采集瓶颈。统一共享:按需采集,根据管理需要灵活设定采集范围和采集指标。采集平台 处理能力可根据负载进行调整,克服采集资源浪费的问题。统一的北向接口,采集规模可以平滑伸缩,通过采集机管理功能, 满足应用和用户规模伸缩的需要。 对不同的数据源采用不同的采集适配器,以插件形式集成
12、在统一采集平台。一次采集多处复用,实现数据开放性,并可按照约定接口向第三方 系统提供数据。统一管控:管理采集能力伸缩,支持超大规模数据采集,多服务器并行处理, 实现大数据量的并行采集,提升采集效率。动态负载均衡,通过采集节点同构、互换能力及任务转移等措施来 保障采集服务的高可靠性和容错能力。指标算法可视化。可视化的指标算法管理可方便维护人员对各类指 标算法的维护和使用,是实现数据质量管理和采集过程管理的基础。 采集流程透明化,可监控数据处理过程,简化了接入过程,减少了 维护工作量。统一数据采集的功能架构如图所示:我辩希的和区* I 也匕动湃理一q蛆堂儿胃叫制器防膏展必茂耨注肘函电TEH迫配耨在
13、局和e杳此旃发黑咬废制事件储 1*单71张量仲铁阳甲由H出g辨那H性照”字帝H萩母出*H11方才二 /航标心才1 *泪*1”丸也MM里惊帕在1气符耳法端HBi坞厅步双T需电Wi修象朴七科熊时月*.*!;异川斤rt*sTit采“嵬熊接也it苏士向世簧生璘色以合并H出版纲 T即11辑鼬霰出方星牧王拓搐疗:f.TW *文rt下达以崔星花打Ai敷信康信KX同“助才忖S(餐总举丫控二丁补麦关果百用餐】dicnXikfn“fl比七金注J tk*拉加gggjggg松鱼警量班宣图统一数据采集功能架构具备如下功能:(1)采集适配器实现与设备侧的接口协议适配,从设备侧获取原始数据,进行数据解析(词 法分析,数据格
14、式标准化,根据处理规则将采集到的底层数据转换成相应的信 息模型的数据)。采集适配器的功能组成如下:协议适配、数据获取、告警风暴 抑制、数据解析、数据上报,并支持被动接收设备侧发送的数据。经过解析后 的源数据通过适配器北向接口向上共享。(2)采集调度及处理数据处理接收采集任务,主动调用相应采集适配器从设备侧获取数据,对 数据进行解析、归一化,并根据需要进行 KPI指标计算。原始数据、归一化数 据、KPI指标均可以推送到数据共享层,可以文件、数据库、消息等方式进行 传送和保存。支持采集适配器的灵活扩展以支持不同设备的数据接入。同时可 以接收订阅策略,根据策略和当前时间实例化成采集任务,根据各采集节
15、点的 运行环境和资源空闲情况进行判断,能够选择合适的采集节点,并把任务下发; 能够接收采集节点反馈的任务执行情况,并监控各采集节点运行状态;根据任 务的采集结果分析数据是否完整,能够根据设定的策略触发数据的补采。支持 如下采集能力:自动采集能力满足定时任务周期性自动采集数据,采集周期和采集时间根据要求可任意 设置。采集的时间粒度可以基于单个网元选择。手动采集能力满足任意时间通过手工方式下发采集任务。通过对要采集数据范围设置开 关量,即可随时手动按网元或时间进行数据采集。全量采集功能提供按照全部被管理对象的全量采集任务集中下发,根据数据需要进行全 量数据的集中采集做系统整体数据更新能力。单网元采
16、集功能在全量采集基础上补充提供针对单网元的数据采集及数据更新,作为全量采集缺失的有效补充机制10(3)采集接入管理适配器的注册、查询、装载以及采集单元设置。(4)采集策略管理对采集策略的配置、查询等设置。能够根据采集对象、采集指标、采集频 率、采集时间、启停状态灵活定义被管理网元的采集策略。可支持批量采集策 略配置,即一次对一组被管理对象设定采集策略。 采集策略支持按分钟、小时、 天采集,可以是周期性连续的时间段,也可以根据实际使用需求需要针对一天 中的特定的几个时间点进行定制任务性采集数据。(5)指标算法管理采集算法的导入/导出、编辑、差异分析以及指标的核查分析等。(6)数据共享管理数据订阅
17、请求,对数据消费者的管理和查询、权限授权、根据设定的数据 订阅权限判断该订阅请求是否合理并作出响应。数据准备好后,给订阅该数据 的外部系统发送通知消息以及数据的访问方法,外部系统主动获取数据,对同 一份数据的不同订阅者分别发送通知。(7)负载均衡管理设置采集机/组启停、采集服务查询、负载均衡监控及负荷阈值查看。(8)采集数据监控分析对采集到的数据进行完整性等监控及质量问题分析。(9)系统自身管理对统一采集平台自身的管理,把适配器注册到平台中,设置访问设备的信 息,对统一采集平台中任务执行情况、数据共享情况的监控,设定各外部应用 系统对数据订阅的权限,支持通过统一采集平台直接完成外部系统对数据的
18、订 阅。部署架构统一数据采集平台的部署结构如图所示:11统一数采的部署结构图(1)各采集机做为采集节点,部署在各个专业网域内,和被管理设备进行 交互。采集调度服务器、消息服务器和各个采集节点进程之间保持网络畅通, 各采集节点之间可以不直接连通。这种部署方式通过采集节点同构、互换能力及任务转移等措施,可以保障 采集服务的高可靠性和容错能力。(2)采集调度服务器及其存储设备,部署控制层和应用层,根据需要可以 部署为主备服务器,支持在不同机器上分布部署。(3)消息服务器,接受、传递、转发消息,根据需要可以部署为主备服务数据来源本项目中,统一数据采集平台的数据来源如下图:12实时监控、运行分析、综合展
19、示统一数据采集数据解析分发通知事件管理采集策略定义snmp采集任务管理适配器管理采集接口管理Agent Telnet/ssh ODBCsyslog |应用系统(电子商务、OA/门户、合同管理等)1信息基础设施(网络、安全、 服务器、数据库、中间件、存 储等)直接采集接口TSNMPTrapWebserviceSocket第三方系统集成接口ManagerSAPSolutSCOSOC资金集中监控等其他监控系统在本项目中统一数据采集的数据来源有三方面:(1)直接采集网络、服务器、存储、数据库、中间件等基础设施的性能数 据、告警和主要配置数据。(2)直接采集22套应用系统的可用性和响应时间等应用监控数据
20、。22套应用系统包括会计集中、业务公开、合同管理、电子商务、综合办公、总部门 户、股份/集团公司网站、总部生产营运指挥、零售管理、目录服务系统、统一 邮件系统、统一通信系统、代理服务系统、文档安全管理系统、统一身份管理、 PKI/CA、日志审计系统、时间服务、防病毒。(3)通过和其他监控系统集成,实现对 50套重点应用系统(错误!未找 到引用源。昔误!未找到引用源。)中另外28套应用系统的应用监控。其他监 控系统包括SAP Solution Manager微软SCOM、安全SOC、资金集中监控系 统、加油卡监控系统、MES应用评价、APC运行监控、勘探开发监控、机房环 境监控系统。统一数据采集
21、至少提供但不限于以下三种数据采集方式:(1)通过配置实现采集:通过配置 Syslog、SNMP Trap、Socket、ODBC、 NetFlow、Eflow等方式将事件日志、告警信息、性能参数以及各类事件数据发 送到采集服务器或数据集中管理组件。13(2)安装代理实现采集:在服务器上安装采集引擎代理程序,执行后台采 集服务以及采集脚本,将目标系统上的事件日志、告警信息、性能参数以及各 类事件数据收集后发送给采集服务器或数据集中管理组件。采集到的数据暂存 于被管服务器端,缓存时长可调整,具备主动数据上传能力,在与上层模块通 讯中断的情况下,主动尝试重连,提供断点续传能力。(3)定时轮询采集:通
22、过ICMP、HTTP定时轮询、用户模拟体验来获取被 管对象的数据。平台至少支持:SNMP SNMP Trap、SYSLOG专用 Agent、Telnet/SSH、 Ping、ODBC JDBC WebService、Flow、SMI-S、Http/Https 、JMX Socket 年 数据采集协议和接口。重点支持协议支持如下:表运行监控系统支持的数据采集协议内容规范数据采集SNMP、SNMPTrap V1、V2、V3 :米石持 Snmp 协议的产品。Syslog:米集支持 Syslog协议的广品。Agent:采集专用Agent的数据,主要指服务器代理。Flow : Netflow、Netst
23、ream、Cflow、Sflow 米集支持 Flow 协议的产品。ODBC/JDBC :采集存储在数据库的系统日志。API采集:运行监控系统主动调用被监控系统提供的API,来族取监控信息。SMIS采集:存储设备、光纤交换机、HBA卡等SAN存储设备运行数据采集。FTP, NFS或SMB等通用文件接口:米集基于文件的日志,包括 数据库日志文件、中间件日志文件、 业务系统日志文件、定时采集系统资源而生成的文件等。专用日志采集接口:通过监控设备提供接口获取日志。采用代理获取:通过第二方代理获取日志。包括但不限于 SHELL、BAT、SOCKET等米集方式。终端用户体验:通过模拟用户操作行为,探测应用
24、可用性。使用情况监控:注册用户数、在线用户数、交易量、成功交易次数、14针对网络设备,获取的信息包括:接口数量、IP/MAC地址、接口索引、 接口类型、接口描述、接口速率、工作状态、管理状态、接口流量、VLAN 信息、丢包信息、错包信息等;针对安全设备,获取安全设备的安全告警日志和运行状态等信息;针对主机系统,获取的信息包括:操作系统类型和版本、网络接口数量、IP地址/MAC地址、子网掩码、CPU编号、内核数、内存大小、CPU动 态信息、内存动态信息、系统进程动态信息、硬盘动态信息、用户访问 信息等;针对数据库,获取的信息包括:数据库名称、数据路径、基本目录、数 据库版本、字符集、配置的临时表
25、大小、临时表目录、数据表信息、缓 存信息、线程信息、锁信息、页和行锁信息、查询命中率、数据库内存 使用性能指标、数据库特定表的空间性能指标、表空间性能指标、数据 文件或数据设备的读写次数性能指标、数据库碎片的情况性能指标、数 据库日志空间或回滚段使用情况性能指标等指标15 针对中间件,获取的信息包括:中间件系统类型、中间件系统版本信息、 会话动态信息、进程池动态信息、JDBC连接池动态信息、事务数动态 信息、事务的平均持续时间、JVM动态信息、EJB动态信息等; 针对存储设备,获取基本信息、健康度、磁盘信息、主机端口映射信息、 阵列lun信息、阵列组信息等;虚拟化管理:树立并建立虚拟化资源对象
26、间的关系模型,实现对虚拟化 配置管理系统、运行状态和故障管理、虚拟机运行性能管理。终端用户体验:对模拟终端用户访问各应用系统(如登录、查询、报表、 退出等)的过程进行监测,监测终端用户访问应用系统的可用性与响应 时间;应用系统使用情况:应用性能管理应该重点关注应用交易的状态,包括 注册用户数、在线用户数、交易量、成功交易次数、失败交易次数; 自定义对象监控:根据运行监控系统的要求,系统提供对监控对象和监 控内容的扩展,扩展方式简便,提供可视化、脚本等多种形式的扩展方 式。关键技术(1)管理服务器双机热备统一采集平台支持分布部署,在日常运行过程中管理服务器属于系统的核心 中枢,统一采集平台通过对
27、自身软件管理控制功能的优化改造,无需采用例如 HA等第三方的双机热备软件,即可实现管理服务器的双机热备。通过双机热备 方式,解决管理机单点故障,保障在一台机器故障的情况下,能够自动完成切换, 不丢失采集任务,正常输出数据,为上层应用提供稳定的数据支撑。统一采集平台实现的双机热备功能,是针对系统自身的实时性特点所定制的 高可用解决方案,属于应用软件级别的双机热备,不仅能够应对网络、主机等基础设施层面的故障,还能够支持应对主机应用程序的挂死等故障,保障采集任务的不丢失,有效提升了统一采集平台的稳定性与安全。统一采集平台实现管理服务器的双机热备,主要包括主备服务器信息同步功 能、主用服务器状态监控功
28、能、主/备服务器切换功能。16用例示意图如下:流程示意图如下:(2)采集节点负载均衡和容灾采集节点心跳监控:采集节点实时上报心跳信息给管理服务器, 心跳信息中 包含系统资源占用情况,包括 CPU、内存占用情况,管理服务器通过心跳信息 及时掌握各采集节点的状态,管理服务器在3个心跳周期没有收到心跳就置该采 集节点为不可用状态,不会再给该采集节点下发任务,同时发送告警信息及时通 知维护人员。17采集节点负载均衡:根据当前采集节点的资源空闲情况、当前运行任务情况, 待下发的任务权重,计算出发给每个采集节点的任务。支持定向到采集节点:由于网络路由限制,允许对采集节点进行分组,在采集节点组内部进行负载均
29、衡,支持对某个采集源的采集定向到某一个采集节点。采集节点容灾:当某个采集节点硬件出现故障后,该采集节点上正在执行的 任务会被重新分发给其他采集节点完成。(3)系统自恢复能力采集节点和管理服务器之间的网络断开后,采集节点应该能够不断尝试和 管理服务器通讯,网络恢复后采集节点会及时上报心跳信息,后续管理服务器 就会把该采集节点置为可用状态,下发新的任务。.1.5 监控数量(1)监控数量每级节点支持的管理对象下限如下,可通过软硬件处理能力进一步扩展:1)网络设备对象:不低于2000个(含虚拟网络设备)。2)服务器对象:不低于2000个操作系统(含虚拟服务器)。3)通用应用服务对象:不低于500个应用
30、实例(含DNS IIS、tomcat等)。4)数据库对象:不低于200个数据库实例,含Oracle、SQLServer、MySQL 等数据库支持,并支持对神通数据库的管理开发定制。5)存储设备对象:不低于20个。6)应用系统:不低于100个,主要为自主设计开发的专用业务系统。(2)数据存储能力1)系统保存所有原始告警数据,原始告警与监控系统或网元管理终端所获 告警保持一致,告警数据一致性能达到 100%2)原始粒度性能数据默认在线保持 3月以上,小时粒度性能数据默认在线保持1年以上,日粒度性能数据默认在线保持 2年以上。且此时间可以 根据用户需求自行修改;支持在线数据在线修改功能,用户可通过对
31、应18用界面进行修改。支持超过1年的数据归档导出,支持数据倒入恢复功 能。3)各种日志文件、历史告警文件应至少能保存 6个月的事件。6个月以上 数据采用光盘、磁带等介质进行备份,脱机保存,应提供查询功能。2.1,1.1,2视图管理拓扑视图主要是对IT基础网元拓扑关系的展示,业务视图主要是对 BSM (业务服务管理)要体现的业务系统与IT基础网元相互关系的展示。在拓扑关 系展示和业务关系展示的理论框架中,都包含服务的分解与构建、应用映射等 功能的模块,所以,运行监控子系统中采用统一的视图管理实现拓扑展示和业 务视图的展示。.2.1架构设计图web视图技术架构山arTopology在每一层次位置情
32、况如下:(1)数据源:配置文件将作为File数据被使用。在Topology模块中,对于XML File数19 据的需求与依赖程度远远高于其它模块,主要是因为Topology的全局开关与默 认参数、交互动作、事件插件、指标字典、显示转换器、告警、图标、右键菜 单等等核心功能全部基于配置工作,并进一步用于屏蔽项目个性化带来的分支 维护与版本升级压力。PM与AM分别指性能服务层与告警服务层,这部分并不发生改变,主要 为客户端提供实时的、高性能的性能与告警数据。Hyperspace是新的系统架构中用于提供资源服务的模块,与PM、AM同级,也是中层服务的一部分。Topology的所有资源数据都将不再依赖
33、于数据库,而 是直接从Hyperspace查询获得,这其中不仅仅包括最基本的网元等,还包括更 加高级的树与图。Database的作用在Topology核心功能中被弱化,但是在Topology各个业务 的外围功能中,地位不降反升,主要是因为趋势、统计、排名、状态类数据均 存在通过Topology集中图形化展示的需求。(2)架构层次:服务端:服务端DAO层次将借助Spring Transaction来进行事务管理。另 外,服务端对于拓扑图资源维护过程中的一些触发式的预计算也要进行更多的 支持,以便客户端能够更方便、更专注的完成图形绘制的工作。数据交互:新架构上变更较大的是由服务端向客户端主动推送数
34、据,在一 个浏览器中,Topology通过FlashPlayer与Web的整体框架共用同一个已经在服 务端注册过的消息客户端,从而接收由服务端主动推送给 Topology模块的告警、 资源变更、状态变更等消息,并在图中将变更快速、直观体现出来。止匕外, Hyperspace向外提供 RESTful 的 WebService访问接口,并提供 Java与 JavaScript 两种语言的客户端,所以Topology将直接应用其提供的客户端完成对于资源数 据和图结构数据的获取。客户端:采用JavaScript + CSS3 + SVG技术。除了智能手机的屏幕过小不适合浏览拓扑结构视图外,Pad等屏幕
35、稍大的移动终端应该能够支持拓扑图形的显示。智能终端推送可考虑小规模的异步轮 询模式,以极小代价获取服务端是否更新的动态标识,来达成推送的跨终端平 台能力。20.2.2 图形引擎拓扑的图形绘制完全由图形引擎(GraphEngine)负责,它的接口比纯粹的 点、线、面绘图更加高级,提供专门用于组织、绘制二维拓扑图形的全部高度 抽象接口。这些接口与具体绘制的拓扑业务无关。另外,图形引擎对其定义的 接口用哪一种绘图技术来实现也不关心,只要这种技术能够实现图形引擎所定 义的接口,那么业务逻辑部分就可以通过图形引擎的接口完成拓扑图的绘制。.3大数据技术数量庞大的IT资源,在运行过程当中,时时刻刻都在产生大
36、量的运行事件 信息,同时也积累了超大数据量的历史运行数据。采用大数据分析处理技术为 告警相关性挖掘、长周期性能分析与预测、实时数据业务性能数据分析、告警 日志检索、应用流量分析、数据分析挖掘等应用场景提供了新的途径和方法。大数据分析处理在产品系统中的应用场景说明:应用场景大鲍据技术应用说明逋过大数据技术.进行者瞥国1吉父觐列生或、告瞥侦S&告当历 史依理经验分布故障定位提升告警压辐率,卷晌率.关联度 历史敬据的漏电存储,薪处理、简单分析,应用系辨与信息基魅 设施的负戟负荷性能预测,节假日分析,场昊事件分析,提前融直 说没砸与应用素烧运行既跑针对翱照亚就g实外匏居采用大数据我由,进河重后欧亚业务
37、的分 业务、分应用。嵬能分析对非势粒化日志龌的海置处要圣栓案,w准定位美植宁热点区 城,对关瘴字世行重点组织,过渡分桁,地告输出利用大敷指技术,对网络SS的源.目的.全S、刨BL应用怫议等 迸行归整、曲析,定义异言沈昌 凝魂3,燕放芳泊量,掌握有宽 应用寿品,价于QoS策珞坑化对口运镂平台的海量的配鼠 性能、事忤瞥敌据进行挖掘分析,为口 笈二谓护慢伐深域分析与深黄支拄告会相关性解反周崩但能分析与预训实时数据小舞注邃数据今析告黑日帮建应用施分析数据挖掘分析.3.1大数据技术说明Hadoop是一个分布式系统基础架构,由 Apache基金会开发。用户可以在 不了解分布式底层细节的情况下,开发分布式程
38、序。充分利用集群的威力高速 运算和存储。Hadoop的成员架构如下图所示:21用户应用Flume日志收第工具Mahout . . HivePig黄据拽掘工具 数据仓库工具大数据处11JSqoop关系型数据库同步工具I Map Reduce并行计算框架HBase分布式NU5QL列数据隹Zookeeper分布式展服务Avro序列化中间件HDFS 分布式文件至统Hadoop成员架构图本次系统中使用到的Hadoop框架内容包括:HDFSHadoop分布式文件系统(Distributed File System) HDFS (Hadoop Distributed File System)Map-Redu
39、ce并行计算框架,0.20前使用org.apache.hadoop.mapred 旧接口,0.20版 本开始弓I入 org.apache.hadoop.mapreduce 的新 API。本项目中此项技术用来解决大数据的预处理或特定要求下的大规模计算。具体特点:海量数据快速加载。海量数据的清洗与转换工作。海量数据转换为Hbase格式数据。 HbaseHBase:类似 Google BigTable 的分布式 NoSQ圆数据库。(HBase和 Avro 已经于2010年5月成为顶级Apache项目),22本次项目中,将使用Hbase作为大数据的索引查询库使用,满足快速的ID查询需求。具体特点:满足
40、海量数据的快速查询。满足海量数据的过滤、排序、分拣等操作。 HiveHive:数据仓库工具,可以使用 SQL却本方式,对数据进行开发,本项目 作为日常的汇总统计工具。具体特点:满足对数据的稽核统计与Impala的结合,满足近线短周期的大数据快速JDBC ODB的式查询。(5) Redis内存数据库技术redis是一个key-value 存储系统。和Memcachedfe似,它支持存储的value 类型相对更多,包括 string(字符串)、list( 链表)、set(集合)、zset(sorted set -有序集合)和hashs(哈希类型)。本项目中,Redis库作为编码集中管理, 保持在集
41、群内部的编码统一。.3.2告警相关性挖掘通过时间序列模型、Hadoop技术、数据挖掘、时间窗口模型等大数据技 术,进行告警压缩、告警规则生成、告警预测、告警历史处理经验分析、故障 定位,提升告警压缩率、准确率、关联度。告警挖掘处理流程图23利用Hbase数据装载、与索引装载的异步实现、大数据压缩等Hadoop技术 和Hive开发的数据分析,对非结构化日志数据的海量处理和检索,精准定位关 键字热点区域,对关键字进行重点组织、过滤、分析、报告输出。实现查询 的跨越级目标,实现秒级查询。.4数据库设计.4.1数据库架构设计做好数据库的设计与优化是保证系统性能的关键:(1)数据库的设计,包括表的设计、
42、索引的设计等。增量层将去除不必要的 索引;(2)根据表、索引的设计情况,估算每个表的基准数据量及大小,还有表数据的增长情况,合理设计每个表的参数值。对于数据量大的表,采用分区表和 物化视图等技术,以及在设计上考虑历史表等方法来提高性能;(3)根据表、索引的设计情况,合理设计表空间的大小、在磁盘上的分布以 及相关的参数;(4)合理调整数据库的初始化参数以及操作系统的内核参数等;24(5)合理规划连接池及客户端对数据库的连接数目;(6)根据现场实际情况,定期监测和检查数据库的使用情况, 并对不合理参 数做出调整。同时,也定期对数据库中的碎片进行整理。.4.2大数据表设计(1)存储空间设计不要为监控
43、实例多、监控周期少的性能数据表设置存储的限制。在ORACLE 数据库中,对于一些数据容量比较小的表格,设置存储配额限制是合理的,可 以提高空间的利用率。对于大表设则不对其存储空间做出任何的限制。(2)为大表分配足够的临时空间查询时,我们还会经常的进行排序操作。当记录多的话,这个排序动作, 要求具有比较大的临时存储空间。所以,当某个表预计会有很大的记录数量的 时候,我们就要给其分配足够多的临时空间。(3)考虑表和表的索引分离存放大表所对应的索引通常也比较大。一般来说,索引的数量是随着表记录的 数量增加而增加,两者是接近于一个正比例的关系。考虑把表和他的索引分别 存储于不同的表空间中,最大的好处是
44、让索引比较容易的获得所需要的连续的 存储空间,从而提高输入输入的效率。(4)大表分区设计当数据库表记录达到千万条以上时,不但影响着数据库的运行效率,也增 大了数据库的维护难度,可以通过对大表进行合理分区得到很大的改善。当表和索引变得非常大时,分区可以将数据分为更小、更容易管理的部分 来提高系统的运行效率。系统通常按照如下的规划进行分区:5分钟性能表按天分区,小时表10天一个分区,天汇总表是1个月一个分区,表月也是一个月 一个分区。表及索引分区对用户的访问数据是透明的,完全不影响前端应用的数据访 问逻辑。每个分区可以被单独管理,可以不依赖于其他分区而单独发挥作用, 因而,分区可以提高可管理性、性
45、能与可用性,从而给各种各样的应用程序带25来极大的好处.5性能设计,5.1告警信息处理运行监控系统拥有强大告警数据处理能力,在处理设备产生告警的同时也 能接受Trap、syslog等告警数据。(1)网络正常情况下,集中告警系统的告警平均响应时间(指从网元发生告 警到集中告警系统显示告警)不大于 30秒。(2)告警处理时延(即本系统接口收到告警到本系统终端显示出告警之间的 时延):不超过3秒。(3)收集处理告警信息的能力:大于1000条/秒。(4)系统能处理的最大当前告警能力:大于5000条/秒。(5)在系统满负荷情况下,告警响应时间应不大于以上指标的150%设备管理数量每级节点支持的管理对象下
46、限如下,并可通过软硬件处理能力进一步扩展:(1)网络设备对象:不低于2000个(含虚拟网络设备)。(2)服务器对象:不低于2000个操作系统(含虚拟服务器)。(3)通用应用服务对象:不低于500个应用实例(含DNS IIS、tomcat等)。(4)数据库对象:不低于200个数据库实例,含Oracle、SQLServer、MySQL 等数据库支持,并支持对神通数据库的管理开发定制。(5)存储设备对象:不低于20个。(6)应用系统:不低于100个,主要为自主设计开发的专用业务系统。系统处理效率监控系统拥有高效的系统处理能力,具体参数如下:(1)后台采集及解析处理,单个等效网元不超过2毫秒。26(2
47、)后台处理响应:后台数据平均处理速度小于 7秒,最大不超过20秒。(3) 一般页面响应时间:用户进行界面操作时,系统响应时间小于2秒;用 户进行查询、汇总数据时,系统响应时间小于 5秒;用户生成报表时,系统响 应时间小于10秒。以上时间均排除网络延迟的干扰。(4)系统自身流量占用:平均每次采集请求/应答流量约为1 Kbyte ,经过 数据压缩后,流量名勺为0.5Kbyte ,约每5分钟采集一次,则带宽需求为:“50 * 0.5K*8 /300 = 0.67 Kbit/s ” 。(5)数据库:数据入库能力大于500条/秒。(6)运行监控系统自身软件占用资源:在系统硬件资源满足的前提下,系统 资源
48、平均内存占用少于30%峰值内存占用少于70%平均CPU占用少于30%, 峰值CPU占用少于60%主动拥有资源自动释放功能,会定期整理系统资源。 服务器端数据库性能稳定。数据存储能力(1)系统需要保存所有原始告警数据,原始告警应与监控系统或网元管理终 端所获告警保持一致,告警数据一致性能达到100%(2)性能数据默认在线保持1年以上,且此时间可以根据用户需求自行修改; 支持在线数据在线修改功能,用户可通过对应用界面进行修改。支持超过1年的数据归档导出,支持数据倒入恢复功能。(3)各种日志文件、历史告警文件应至少能保存6个月的事件。6个月以上 数据采用光盘、磁带等介质进行备份,脱机保存。配置管理数据库系统资源模型管理采用自主开发的成熟的资源建模软件产品GOAT,通过建立对象到关系型数据的映射和转换,达到了数据的对象化封装,包括对象查询, 数据检查,规则约束等。按照现在广泛使用的ORM的方法,完成对持久层产品的两个重要组件的创建和修改,它们是持久层JAVA类和映射文件(MAP文件)。通过按照对象映射,规则约束条件等生成的 JAVA类,最终打包成J2EE27的EJB发布在中间件的服务器上,并以此对外提供API方式访问。GOAT系统包括模型文件处理(Model Handle) 模型编辑模块(ModelEd让or)、 持久化模块(Persistent Modul
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 通义千问优化效能深度测评:ROI价值透视与服务商能力大比拼
- 尚志食用菌栽培技术员专项训练卷
- 基层工会经费管理解析
- 2025年福建泉州文旅集团招聘真题
- 2025年湘潭市市场监督管理局局属事业单位招聘真题
- 2025年贵州长江汽车有限公司招聘考试真题
- 《商务数据可视化》课件-6.4-制作相关分析图表
- “智汇国资”2026年绍兴市国有企业专场招聘岗位核减核销考试备考试题及答案解析
- 2026湖北荆州市石首市城市社区工作者招聘26人考试参考题库及答案解析
- 就业指导中心档案管理
- 酒店和足疗合作协议
- 道路交通事故救援破拆技术
- 用友软件合同协议
- 怀化市靖州县招聘事业单位工作人员笔试真题2024
- 2025急流救援技术培训规范
- 小区电动充电桩施工方案
- 2025中级消防设施操作员作业考试题及答案(1000题)
- 智能装备生产、运营及研发基地项目环评资料环境影响
- 动物疫病防治员(高级)理论考试题库大全-上(单选500题)
- HJ298-2019环境行业标准危险废物鉴别技术规范
- 高速铁路供电安全检测监测系统(6C系统)总体技术规范
评论
0/150
提交评论