




已阅读5页,还剩30页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
证通IT系统建设-运维管理需求暨ECC体系规划内部资料注意保密工程实施管理 文档编号:000证通IT系统建设运维管理需求暨ECC体系规划35证通IT系统建设-运维管理需求暨ECC体系规划目录第1章概述3第2章总体需求32.1总体目标32.1.1两地三中心运维目标32.1.2ECC建设目标52.1.3运维管理建设目标62.2总体架构102.2.1ECC总控中心总体架构102.2.2运维管理总体架构142.3总体实施思路202.3.1ECC物理环境212.3.2监控管理体系21第3章实施计划233.1实施内容233.2实施计划表25第4章ECC总控中心建设费用26附录监控指标清单27第1章 概述随着公司IT系统及生产双中心建设的逐步推进,需要建设一套科学、高效的运维管理体系。企业总控中心(ECC)作为数据中心管理的“大脑”,是一个汇聚了“人员”、“流程”、“技术”的逻辑及物理的场所,用于管理支持企业业务运转。通过对企业信息系统进行集中监控管理、采用自动化操作、引入新的信息管理和信息展示方式,从而实现信息系统运维管理效率和运维质量的同步提升。公司ECC总控中心,集信息汇集、运维监控、操作维护、应急处理、灾备决策等功能于一身,以流程管理为主线将IT运维管理各方面的工作进行统一管理,实现724对公司IT系统全面、集中、高效的监控和管理,使得公司IT系统的运维管理在较高水平上运行。第2章 总体需求2.1 总体目标2.1.1 两地三中心运维目标公司IT系统建设将实现两地三中心的规划和实施,运维体系和ECC的整体设计要满足两地三中心一体化管理的要求,从ECC布局、运维人员配备和运维工具及管理平台建设等方面更好的支撑多中心运维管理的需要。2.1.1.1 ECC布局建设目标2015年建立ECC总控中心与同城ECC副中心;2017年建立异地ECC副中心。ECC副中心在配置规模、实现功能等方面适当低于ECC总控中心。l ECC总控中心负责公司信息系统的运维管理,通过各类管理平台和工具、电话或视频会议能将同城ECC、异地ECC的运维管理人员纳入统一管理。l 同城ECC副中心作为ECC总控中心的应急及备份环境,部署必要的自动化工具和管理平台,定期进行人员和环境接管演练。l 异地ECC副中心作为ECC总控中心异地灾备环境,部署必要的自动化工具和管理平台,定期进行人员和环境接管演练。两地三中心运维架构如下图所示。ECC总控中心同城ECC副中心异地ECC副中心同城双活中心同城双活中心异地灾备中心图2.1.1.2-1 两地三中心运维示意图2.1.1.2 自动化工具和管理平台部署目标当生产系统在不同数据中心之间切换时,各类操作管理工具或平台(监控、操作、调度、流程等)能达到同步切换的目标,确保对信息系统的运维操作管理都具备统一的操作流程和管理流程。l ECC总控中心部署完整的各类自动化工具和管理平台,既满足同城双中心管理和运维的需求(如机房及环境监控等),也满足日常运维中两地三中心运维人员都能通过ECC总控中心的运维工具和管理平台实现对公司信息系统集中管理和维护及服务流程处理的需求。l 同城ECC副中心部署较为完整的各类自动化工具和管理平台,作为ECC总控中心的同城备份;在ECC总控中心切换时能够完全接管ECC总控中心的运维管理职能,运维人员通过同城ECC副中心各类管理工具平台实现对公司信息系统集中管理和维护及服务流程处理的需求。l 异地ECC副中心部署较为简单的自动化工具和管理平台,主要满足异地灾备中心本地管理和运维的需求(如:机房及环境监控、操作管理系统和工具的灾备环境等),同时能够向ECC总控中心和同城ECC副中心上传信息,实现集中管理。2.1.2 ECC建设目标2.1.2.1 集中展示公司信息系统运行情况l 信息系统运行情况集中展现能够从核心系统业务处理、重要应用系统运行、交易量实时展示、信息系统事件告警、信息系统当前性能情况等方面进行集中展示。l 业务发展多维度精细化展现根据需要从不同维度对公司当前业务发展和交易处理情况(如:交易实时情况、交易总量、交易峰值、交易平均值等)实现精细化的分区域展示,主要包括以下维度: 不同渠道包括智能电视、自助设备、PC、手机、微信等,对一些重要渠道交易能做到实时监控和预警监控展现。 不同机构把不同成员机构的交易运行情况在ECC大屏上予以展现,并可选定部分重点关注机构查看详细交易运行情况。 特定的应用如理财产品实时销售情况、理财账户转账和消费情况等。2.1.2.2 集中的运行操作和维护中心在ECC内建立完善的操作管理体系,借助自动化运维工具提高整体运维操作管理自动化水平,确保日常运维工作的标准化、规范化,提高运维操作管理效率,并通过技术手段实现安全、高效、集中的远程管理维护机制和远程支持机制,使ECC成为公司的运维管控中心。2.1.3 运维管理建设目标2.1.3.1 监控管理建设目标2.1.3.1.1 事件监控处理通过集中监控平台将信息系统中的不同子专业监控系统(系统、网络、应用、安全、机房环境等)集中、集成在一起,统一进行管理,采用图形化的界面,直观的监控到公司信息系统的异常运行状况,并联动自动语音报警系统和短信、邮件系统,确保对公司信息系统的统一集中监控,使运维人员和管理者可及时发现问题,能够快捷地解决问题,提高管理效率和管理质量,提升运维水平。2.1.3.1.2 性能预警监控处理结合性能容量管理制度和指标体系建设,强化信息系统性能预警监控工作。能够对所有采集的性能数据(包括系统、网络、应用、交易统计信息等)进行实时的集中展现,根据不同的阈值设置、性能容量分析和趋势分析结果对公司信息系统的运行情况进行预警监控,提高系统、网络、应用以及交易处理中关键环节的故障预警能力,提升公司排除潜在风险和故障的运维能力。2.1.3.2 操作管理建设目标为提高整体运维操作管理自动化水平,确保日常运维工作的标准化、规范化,进一步提高运维操作管理效率,需要建设和部署如下自动化运维工具和管理平台。2.1.3.2.1 操作管理体系建设建立完善的操作管理体系,充分借助自动化运维工具,对公司信息系统日常批量处理、作业调度、运行维护等实现集中化的管理,实现对任务发布、分派、执行、跟踪、审计、监控的全过程管理,使公司信息系统处于统一、集中的监控管理之中,最大限度的减少生产机房内部的人工操作数量,降低操作复杂度,避免操作风险,更有效地保障整体机房的安全运营。2.1.3.2.2 自动化运维工具建设l 系统巡检通过自动化平台将需要例行化手工检查内容自动执行,完成各类系统巡检并提交系统健康检查报告,发现严重情况时自动发送监控系统实现集中处理。系统巡检的检查对象包括服务器、网络设备。具体如各类操作系统(AIX、Linux、Windows等)、中间件(WAS、MQ、CICS等)的、数据库(DB2、Oracle等)的状态信息,网络设备及网络环境的运行状况(如OSPF邻居地址检测、HSRP切换检测、STP检测、网络设备引擎检测、网络设备槽板卡检测等),能够根据运维的需求定制各种检查项和检查内容,并支持批量平行处理巡检检查内容。l 系统配置管理根据各类技术管理规范、技术指引、现有生产环境配置定义等形成配置标准基线,通过配置管理工具能够对系统、网络、应用配置实现: 配置文件收集根据运维要求自动获取、备份服务器和网络设备中的各类配置文件。 新系统配置设置新设备安装完成后,按照配置管理要求,通过执行标准配置作业自动完成既定的配置参数设置。 应用软件配置设置新应用软件安装完成后,按照配置管理要求,通过执行标准配置作业自动完成制定参数的设置,如数据库的实例、连接池大小等管理。l 安全合规检查通过自动化工具将现行的各类安全技术规范、安全配置规范、操作规范和标准转化成对应的检查规则,通过执行自动化工具对系统、网络和应用环境依照检查规则进行审核,及时发现安全基线配置、用户管理、操作日志审计等方面存在的不安全、不规范的设置或事件。l 补丁管理对中心端设备、末端设备采用不同的方式,自动完成各种平台的补丁分析、安装和检查功能,即要求对补丁包通过自动化系统集中管理,统一分发、安装和升级。其功能包括支持多点并行执行补丁分发、安装作业,自动发现、展示系统补丁部署记录,补丁包安装完成后提供发布过程的日志信息等。l 应用发布应用软件实现自动化发布,并从应用发布条件检查、发布操作执行、执行过程监控、发布结果确认(发布失败回退)等方面确保应用发布的安全可靠,简化发布操作过程,提高发布效率,快速更新应用版本。2.1.3.2.3 远程管理维护通过设备管理控制台、KVM、带内/带外管理等手段实现在ECC总控中心能够远程访问生产机房内的各种服务器设备、网络及安全设备,能够方便快捷地对生产设备进行远程操作和维护,实现对公司生产网络、安全设备的集中管理,降低系统管理维护成本。2.1.3.3 性能容量管理建设目标对公司整体IT环境的对象性能容量进行管理,通过建立指标体系,运用各类监控工具和方法对软/硬件运行状况的监测结果进行分析,并适时调整软/硬件资源,保障系统的性能容量不影响关键业务的正常使用,满足当前及未来一定时期的业务需求,关注系统资源配置的合理性,提高系统资源使用率,确保整个IT环境的安全、稳定、高效运行。2.1.3.4 服务及流程管理建设目标2.1.3.4.1 服务指标体系建设建设数据中心服务指标体系,覆盖运行监控管理和服务水平管理,从公司信息系统整体指标(如:核心系统可用率、核心系统业务量、公司生产网络可用率等)、重要应用系统指标、生产事件和问题管理(如:公司3级以上事件分口径统计数量、事件解决率、事件关闭及时率、问题根本解决率和处理及时率等)、生产变更管理(如:生产变更成功率和正确率、应急变更占比等)等方面分别建立指标体系,用于衡量信息系统的整体运维水平。2.1.3.4.2 运维服务管理通过五个“一”建设(一个电话号码、一个电子邮箱、一个电话传真、一个微信号和一个管理平台)来建立面向公司和成员机构的科技运维服务渠道。统一受理、跟踪和反馈各项运行需求,强化与公司客户服务热线、业务处理中心、重点联系成员机构的信息联动与支持,力争第一时间掌握公司业务运行的问题与风险,为化解风险、制定措施提供依据。2.1.3.4.3 运维流程管理建设配置管理库和知识库,将事件问题管理、服务请求管理、变更管理、版本管理、应急管理进行集中管理,利用综合信息来做好服务支持。建设ITSM,深化IT服务受理、强化部门间联动功能、扩展并完善配置管理功能。2.2 总体架构2.2.1 ECC总控中心总体架构ECC总控中心将根据目前主流的ECC建设模式,围绕ECC物理功能布局、大屏展现、会议及通讯等领域进行规划和设计,实现对ECC的统一管理。ECC总控中心总体架构如图2.2.2-1所示。ECC总控中心同城数据中心总部分支机构异地数据中心外部单位图2.2.2-1 ECC总控中心总体架构2.2.1.1 物理功能布局ECC总控中心内部划分为多个功能区域,每个功能区域分别承担一个或多个现场运维管理活动,包括:l 大屏展示区用于安装大屏幕实现多功能、多模式的集中图像展示区域,由2*8共16块屏幕和大屏管理系统及相关辅助设备组成,可以实现不同的屏幕显示组合(单块、2块、4块、6块屏等)。l ECC监控维护区ECC内运维人员日常活动的主要区域,由集中监控席、运行管理席、维护管理席、安全及调度管理席等功能席位组成。l 变更保障区主要用于日常生产变更实施、项目投产变更实施、生产事件应急处理的区域,二、三线技术支持人员主要的活动区域。l 辅助功能区运维人员和运行操作人员的办公室、休息室/更衣室、会议室等辅助区域,例行的生产运行会议、应急方案讨论会、变更人员待命等都可在辅助功能区的会议室进行。2.2.1.2 ECC大屏展现通过ECC大屏幕使公司信息系统的运维情况得到实时展现,其展现内容可以包括业务开展、集中监控、服务流程、操作管理、机房管理、热点区域、信息提示等。对于需要特别关注的展示内容,可以灵活的调整显示内容的大小,大屏展示首先确保信息全面完整,其次突出告警和预警事件的展示,最后要求画面美观。l 大屏展现布局图根据ECC大屏幕的设计规格(共2*8屏),根据所需要展现内容的分类和详细内容要求,对不同的展现内容分别分派1块、2块、4块等不同的大屏,布局示意图和样例图,如图2.2.2-2、2.2.2-3所示。图2.2.2-2大屏展现布局示意样图图2.2.2-3大屏展现样例图l 大屏展现模式设定大屏展现模式设定均要求可以预设和可配置的,可以设置多种预设模式。平时大屏显示内容应保持稳定,一旦发生非常严重的3级以上事件时需要触发大屏切换,根据报警事件的类别(如系统类、网络类、应用类、性能类等),切换到不同的模式,将关键信息展现在热点窗口。l 展现场景切换对于日间联机和夜间批作业,分别有相应的日间模式和夜间模式对应,主要展现的内容有所不同,日间模式以信息系统生产运行情况和事件监控及预警展现为主、晚间模式以批量处理和24小时对外服务系统情况展现为主,接待外部参观时将以全面展现公司重要信息为主。各模式图例如图2.2.2-4、2.2.2-5所示。图2.2.2-4大屏展现模式图例-日间模式图2.2.2-5大屏展现模式图例-夜间模式l 信息展现扩展在总部7楼大厅安装较大尺寸的电视屏幕,该屏幕能将大屏幕的部分内容放大展现,也可将各类专业监控、环境监控、集中监控等放大或分别展现,还可将ECC综合管理区内任意一台或多台操作终端屏幕予以展现。按照不同模式和维度在ECC总控中心、总部7楼大厅等展示区域展现生产运行情况。2.2.2 运维管理总体架构运维管理总体逻辑架构,如图2.2.3-1所示。图2.2.3-1 ECC总体逻辑架构图2.2.2.1 监控管理体系公司IT系统的监控管理体系将由集中监控平台和一系列各专业监控系统组成,其中集中监控平台实现建立基于业务架构的、集中统一的监控视图,实现公司信息系统相关的系统、网络、应用及交易、机房环境、安全监控报警信息的集中集成和管理,支持监控平台与自动化操作的联动,支持监控平台与管理流程平台的集成。集中监控平台所有的信息来源于各专业监控子系统的监控信息,由集中监控平台进行统一汇聚、通过各类接口与子系统集成,并可通过不同的策略与规则确定需要收集的子系统告警信息和关键性能数据。l 展现关键应用系统当前的交易情况包括交易量、交易并发量、交易成功率等,以及能够根据不同的渠道(如PC、自助设备、手机、智能电视等)、不同的地区(如上海、北京等)进行交易运行情况的监控展现。l 建立统一的故障事件告警监控视图实现系统、网络、应用、硬件及机房环境、其他专业监控平台报警事件信息的集中管理,基于统一CMDB的业务依赖关系实现跨系统、网络、应用、硬件等各技术专业的严重事件关联分析,对各类故障事件和性能事件提供故障源分析和预警能力。所有4级以上的生产告警事件统一由集中监控平台进行展现,通过不同的颜色(如红色、蓝色、绿色等)区分不同的事件等级,并与生产事件管理办法中所定义的事件级别基本一致。l 建立统一的性能预警监控视图建立信息系统性能容量指标体系,对不同专业(系统、网络、应用交易、基础设施等)进行统一的管理。对采集的关键性能数据(包括重要应用系统相关的系统、应用、交易统计信息以及生产网络的性能信息等)进行实时的集中展现,通过对所采集历史性能数据的分析,设定不同运行阶段(如工作日联机、夜间批处理、月末等)比较合理的性能阈值,能够对当前的系统运行情况与各类性能阈值进行分析比较,对整体的运行趋势作出分析,提高性能管理的预警能力。l 展现重要应用系统的运行情况对重要应用系统实现以业务产品为单位、面向业务服务的个性化监控指标监控,将 IT 类事件与业务可用性状态进行关联分析、通过模拟交易和应用探针等手段实现监控视图展现。l 建立统一的信息安全事件监控视图通过建立和完善公司信息系统的安全防护体系,包括防病毒、防入侵、防泄漏、防攻击等安全防护体系,实现对公司内部的病毒防护、入侵检测、敏感信息泄漏、异常访问行为等进行集中监控,对行外的各类攻击行为进行实时防护和监控,做到对安全事件能及早发现、及时预警。l 与ITSM管理平台对接集中监控平台与ITSM运维平台结合,可以实现4级以上告警事件直接创建ITSM事件单的功能,以确保事件管理的有效性和实时性。与短信平台和邮件系统的联动,可以根据不同等级、不同专业的告警事件发送不同的人员,如3级事件直接短信发送科技部门管理人员、4级事件发送技术维护负责人员等。l 建设各专业子监控系统建设各专业子监控系统(包括系统、网络、应用及交易、安全、机房环境等),扩展事件和性能预警监控的覆盖面,改造各自系统接口满足集中监控平台上送数据的要求和规则。l ECC管理和运维为ECC监控人员、一线技术值班人员、二线技术支持人员和管理者提供多层次用户界面,提供信息系统相关的集成监控信息统一访问界面,建立一体化的监控体系。2.2.2.2 操作管理体系操作管理体系包括自动化作业调度系统、运维自动化系统、应用系统管理客户端系统等,还包括相关的规范和标准。通过操作管理体系自动化的手段、规范化的操作,有效控制操作风险、提升运维管理效率。实现对任务发布、分派、执行、跟踪、审计、监控的全生命周期的管理,降低操作风险,提高工作效率。操作管理体系的各系统平台需实现与监控系统、IT服务管理平台及相关运维分析、报表系统的对接,实现监、管、控、治联动。l 操作规范和标准对日常运维操作相关的内容需制定一系列规范和标准,包括作业的命名规范、作业的安排调度规范、操作脚本的命名标准、操作步骤和功能的规范等,通过制定操作管理体系的一系列规范和标准,实现从设计、实施到发布、执行、监控、日志记录、作业脚本库等环节的统一建设、管理。l 应用管理客户端通过统一的管理客户端系统,实现安全、高效、合理的信息系统日常维护和数据统计,主要包括如下需求: 应用维护和管理提供日常运维工作中信息系统的常用管理功能,包括应用启/停、应用进程状态检查、应用进程通讯状态检查等。 数据维护对交易过程中产生的异常或错误数据,并且无法通过系统已有功能或交易进行调整,由运维部门通过管理客户端的数据维护功能来完成调整。数据维护按类型分成业务部门误操作、系统自身bug和批量数据调整三大类。 交易数据汇总和统计提供各个应用系统的业务总量、业务明细、业务并发量的查询以及按业务类别、机构或时间等要素进行的分类统计功能。 日志管理等管理客户端各项操作都要被记录在日志文件中,日志文件按不同应用系统分类存放。l 批量操作要求部分重要的应用系统在批处理前应有预检功能,跑批前能通过一定的方法统计出当日的重要业务或处理量较大的业务的批处理量及其耗时预估,在批处理完成时需有统一、完整的查看批处理后完成情况的方法提供给运维人员。所有作业应有重复提交控制,系统间文件传输应采用自动甄别、自动传输的方式,控制手输参数,支持向应用监控类系统提供监控参数。除正常批处理外,批量操作应用程序还需对数据例外、程序越界等情况提供分析、处理、提示、报障的功能。l 自动化作业调度作业调度是公司信息系统日常运行的一项重要工作,自动化工具的使用能大大提高批量作业调度的效率,降低因人工操作的不稳定性带来的操作风险。通过自动化作业调度系统,实现跨地域、跨系统、跨平台的,统一的,安全、稳定、高效的自动化作业调度。l 集中维护和远程支持 集中维护ECC总控中心在技术上实现对所有生产环境的访问,通过堡垒机、HAC(Host Audit Control)系统、设备管理控制台、KVM、带内/带外管理等手段在ECC总控中心能够远程访问生产机房内的各种信息系统、各种服务器设备、带库、存储、网络及安全设备,方便快捷地对生产信息系统和设备进行远程操作和维护。 数据中心远程支持技术专家能通过vpn访问等手段,并在防问范围控制、授权启用策略、操作过程记录等安全访问机制的控制下,实现数据中心运维的远程支持维护体系,为数据中心骨干技术人员、公司软件开发人员以及服务商支持人员提供快速的应急响应渠道,以提高应急效率。解决在非工作时间发生较复杂问题时,现场技术值班人员无法完成故障排查工作的问题。2.2.2.3 服务和流程管理体系服务和流程管理体系是整个ECC实现高质量服务管理的重要一环,围绕总控中心日常管理工作,实现对分支机构和业务部门提供直接服务,做好内部的流程管理和控制,防范风险。服务和流程管理平台将与监控采集、服务受理、变更操作、信息通讯、公文流转类平台或系统进行对接,实现运维服务流程的高度集中,从而能整体把控生产系统运行状况,为服务请求合理配置资源,有效控制变更过程,确保配置信息的统一,全面衡量运维服务质量,促进优质服务。l 规范流程,建立标准的运维服务过程管理体系通过一系列制度规范定义清晰的策略和程序,确保生产事件、问题、变更、服务请求的处理过程中,每一个关键的申请环节有审核,每一个关键的操作环节有确认,每一个关键的方案有复核。将流程规范化,明确每个流程的关键管理要素,职责角色等等,建立一套行之有效的标准运维服务过程管理体系。l 运维流程处理综合平台,实现统一调度集成各个平台或系统,将分散的生产事件、服务请求集中到服务和流程管理平台(ITSM)进行统一调度。包括与集中监控平台集成,将采集到的高级别异常联动到事件管理流程;与公司办公系统集成,将总部部室提出的服务请求转入工单管理流程;与客服系统集成,共享知识库,合并工单系统;统一审批流程及变更管理。l 形成运维服务KPI指标,可视化展现提取运维流程管理关键KPI的数据,包括系统可用率、事件平均解决时效、问题解决率等。以直观的方式展示完整的运维流程、运行质量和运行效率,从而能迅速辨别待提高的服务薄弱点,有效采取措施,迅速切入并改进,高效经济地使用IT资源,保障运维服务质量。2.3 总体实施思路公司IT系统运维管理需求将按照整体规划、分步实施的策略开展后续建设实施工作,因两地三中心的运维目标和运维架构设计与两地三中心的整体定位及规划密切相关,本需求中对两地三中心的运维架构初步进行了统一的规划,按照先建设ECC总控中心、后建设同城ECC副中心、最后建设异地ECC副中心的次序分步建设,并在分步建设过程中根据两地三中心的整体定位进行相关调整和完善工作。本次实施以ECC总控中心建设为落脚点,主要从建设ECC物理环境(包括大屏)、建设ECC运维监控管理体系等方面展开,确保公司IT系统投产时ECC总控中心运维监控功能各模块就绪,满足日常运维监控管理要求。2.3.1 ECC物理环境ECC总控中心物理环境建设主要包括如下范围:l ECC基本物理设施包括灯光、门禁及内部运行操作设备等物理设施的安装、调试。l 大屏幕包括大屏幕以及大屏管理系统安装调试。l 多媒体会议及通信系统内外部多媒体视频会议系统和电话会议系统的安装调试,还包括内部的广播通讯系统。ECC总控中心物理环境相关建设任务在5月底完成实施工作。2.3.2 监控管理体系为满足公司IT系统监控管理建设目标,需建设6个监控系统:集中监控平台、应用监控系统、机房及环境监控系统、系统监控系统、网络监控系统、安管监控系统。l 集中监控平台集中监控平台汇聚各专业监控系统的监控信息,进行集中分析、展现,实现告警信息和关键性能数据的集中管理。集中监控平台建设主要包括如下需求: 与各专业监控系统集成; 故障告警集中; 性能数据集中; 业务关联分析; 与服务及流程管理联动。l 应用监控系统应用监控系统需实现对信息系统的应用级监控,从应用层面尽早发现问题,并能对应用系统运行情况及性能情况进行采集、分析、预警。应用监控系统建设主要包括如下需求: 应用信息实时展现; 异常情况及时告警; 交易数据综合分析。l 机房及环境监控系统机房及环境监控系统需实现对通联机房生产中心的机房及环境进行全面和集中地监控管理。机房及环境监控系统主要包括如下监控对象: UPS; 空调; 发电机配电间; 蓄电池; 消防设备; 新风设备; 门禁系统等。l 系统监控系统对服务器、操作系统、数据库、中间件等系统软硬件进行监控: 系统监控方式的丰富; 动态阈值的运用; 与自动化调度工具集成实现事件的动态屏蔽; 系统监控运维知识库的持续建设。l 网络监控系统对公司网络设备进行集中监控: 实现网络故障事件与业务影响的关联性分析; 实现网络故障事件模型分析; 实现常见网络故障事件自动化处理; 实现应用流量的深层次监控及分析能力。l 安管监控系统实现安全设备日志集中监控,重要区域攻击事件收集并告警,关键安全设备实现性能指标监控等功能: 实现安全事件与业务影响的关联性分析; 实现安全监控风险评估及安全事件关键性分析; 实现与ITSM知识库的对接,丰富安全知识; 实现基于应用的安全监控及分析能力。第3章 实施计划为确保在公司IT系统投产上线时,ECC总控中心能够同步完成建设工作,需要从ECC场地租用、ECC物理环境(包括大屏)建设、监控管理和操作管理体系、服务和流程管理平台等方面制定详细的实施计划。3.1 实施内容ECC总控中心建设包含以下子项目,分阶段进行。建设任务实施内容备注ECC场地ECC场地租用及装修ECC物理环境ECC物理布局大屏幕及大屏管理系统安装调试ECC内部其它设备安装调试集中监控平台故障告警集中性能数据集中业务关联分析与ITSM的联动与专业监控的集成应用监控应用监控系统功能的扩展与管理客户端系统的对接与集中监控平台的对接联网通汇、征信与身份核查、计费管理等系统监控模拟交易及真实交易抓包分析系统监控系统监控架构监控对象指标完成与集中监控平台集成日志集中收集分析处理事件丰富、事件过滤优化,以及监控运维知识库持续建设网络监控、安管(安全设备)监控完成网管、安管监控系统开发、调试工作完成部署及试运行工作机房及环境监控完成机房及环境监控部署工作完成与集中监控平台集成3.2 实施计划表ECC项目建设内容和各任务阶段的主要时间节点:实施内容实施阶段实施计划ECC场地ECC场地租用及装修2015年3月项目开始,7月底结束ECC物理环境ECC物理布局2015年3月项目开始,7月底结束大屏幕及大屏管理系统安装调试ECC内部其它设备安装调试监控平台建设集中监控平台建设2015年4月项目开始开发2015年7月项目结束开发及测试2015年8月完成在现有生产环境的试点投产2015年9月在ECC总控中心中心试运行应用监控系统建设2015年6月开始项目开发2015年9月完成应用监控开发、测试和投产2015年10月-2016年6月进行后续应用监控开发、测试和投产系统监控系统建设2015年4月底完成项目立项及需求分析、总体设计2015年5月中旬完成项目详细设计、客户化和测试2015年6月上旬完成项目试点实施部署及试运行2015年8月项目正式投产运行网络监控系统建设2015年4月中旬完成需求分析和总体设计2015年4月-8月进行项目上线测试。2015年4月中旬-5月下旬完成项目详细设计和项目开发2015年5月-6月下旬项目试运行,包括系统部署、调试和ECC总控中心中心试运行2015年6月下旬-7月底项目正式上线2015年8月上旬-9月上旬ECC总控中心部署安管(安全设备)监控系统建设2015年3月上旬完成需求分析、总体设计和详细设计2015年4月中旬完成项目开发、测试工作2015年5月完成系统部署和调试2015年8月中旬ECC总控中心中心试运行2015年8月中旬-2015年9月下旬ECC总控中心中心部署附录监控指标清单附件1:系统监控指标清单系统监控指标硬件设备(包括小型机、PC服务器、刀片服务器、存储阵列、带库、SAN光纤交换机等)序号指标名称1CPU指示灯2内存指示灯3网卡指示灯4风扇指示灯5磁盘指示灯6温度虚拟机系统1资源池使用情况2虚拟机状态UNIX系统1CPU使用率2内存使用率3交换分区使用率4磁盘使用率5磁盘I/O使用率6操作系统日志7网络连接情况Linux系统1CPU使用率2内存使用率3交换分区使用率4磁盘使用率5磁盘I/O使用率6操作系统日志7网络连接情况WAS中间件1线程池2数据库连接池3WAS错误日志MQ中间件1MQ端口连接数2MQ消息队列3MQ错误日志4MQ进程CPU占用率5交易并发度ORACLE数据库1数据库可用性2表空间使用率和状态3连接池使用率4Buffer Cache Hit5Library Cache Hit6shared pool7物理读写8逻辑读写9redo 日志写入情况10锁争用情况11日志报错情况12RAC双机情况13RAC Cache Fusion14ASM状态Mysql数据库1mysql进程数2主从复制状态3线程连接状态4Slow_query情况5错误日志6复制延时情况7Binlog Cache使用状况8Slave_running9TPS10QPS11InnoDB Buffer命中率12锁争用情况附件2:网络监控指标清单网络监控指标项目序号监控项网络设备性能监控1设备的CPU使用率2设备的内存使用率情况3连接数(防火墙)4Failover状态(防火墙)5进程数监控6设备温度7负载均衡状态监控8访问控制监控9吞吐量端口性能监控1端口流入流量、流出流量2端口丢包率3端口冲突数据包增长速率4交换机广播包流量5端口异常日志通讯线路性能监控1线路带宽利用率2一段时间内的丢包、错包数、CRC错误数3线路稳定性监控4线路异常流量监控路由监控1路由表条目监控2次优路径监控3路由表邻居监控主备设备/线路监控1主备状态监控2主备切换成功率监控网络资源管理1线路资源变化监控2端口资源变化监控3设备资源变化监控业务关联监控1设备故障关联性监控2线路故障关联性监控附件3:安全监控指标清单安全监控指标平台类型编号监控描述入侵防护系统(IPS)1风扇损坏2某一对或几对监控端口disable3内存占用过高4电源损坏(primary或sencondary)5出现内部连接错误6signature出现错误,会导致检测失效7与Manager之间的连接中断,通常是由于IPS宕机8软件出现错误9温度过高10与Manager之间的alert信道中断11健康状态异常,通常是由于signature出错或丢失12设备吞吐量利用率较高13端口运行在bypass直通模式14经历过一次重新启动应用防火墙(WAF)1网关设备的CPU利用率达到了定义的阈值2网关设备的可用磁盘空间达到定义最低值3网关设备进入bypass模式,所有流量直接透传4网关设备离开bypass模式,所有流量进行防护5网关设备成功启动6网关设备恢复正常,所有模块运行正常7网关设备状态监控-存在错误9网关或管理设备发生错误10安全策略被修改11设备吞吐量利用率超阀值12系统参数改变特权帐号管理系统1获取密码,但理由为空2手动让账号失效3CPM自动让账号失效4帐号失效恢复防DDOS攻击系统1DDOS攻击流量监控堡垒机管理系统1非法登陆监控防病毒系统1病毒日志监控补丁管理系统1版本监控附件4:应用监控指标清单应用监控指标监控对象监控指标说明监控要求举例说明实时交易1、交易金额2、交易响应码1、可以设置阀值,当交易金额超过阀值时报警2、对非成功类的交易,在监控界面用鲜艳的颜色进行展示区分某笔交易的交易金额大于100万元。日志信息1、日志文件中错误信息2、日志文件生成情况;3、日志文件的名称、格式、完整性;1、可以设定应用系统中报错信息及其含义对应表,如监控到对应用系统有实质影响的错误信息则报警;2、以每笔交易生成一个日志文件的方式保存交易情况,日志文件命名可采用交易码+交易流水号的方式;3、流水号的关联,日志中需提供同一笔交易在上下游应用系统中的流水号。流水号格式要求:应用系统英文简称+日期+序号(或请求时间);4、日志文件有缺失,则报警。某应用系统日志文件存放默认路径里中缺少前一天该应用系统日志文件;WebSphere日志中报数字证书出错;联机交易信息1、交易响应时间;2、交易成功率;3、交易并发量;4、交易总量;1、可以设置阀值,当交易响应时间超过阀值时则报警;2、可以设置阀值,当交易成功率低于阀值时则报警;3、可以设置阀值,当交易并发量超过阀值时则报警;4、可以设置阀值,当交易总量超过阀值时则报警;某应用系统在5分钟内,交易成功率小于90%;进程信息1、进程运行状态;2、进程运行时间;3、进程使用CPU情况;1、进程运行状态包括进程个数、进程是否僵死等内容的监控;2、可以设置进程运行时间的阀值,当实际运行时间大于阀值时报警;3、可以设置进程使用CPU比率的阀值,当实际使用率大于阀值时报警;外网网站在服务时间段内无法访问;某应用系统进程个数小于正常个数;端口信息1、端口侦听情况;2、端口连接数量;3、端口连接状态1、监控端口是否正常侦听;2、监控端口是否可以正常访问;3、监控端口上的网络连接数量,超过设定阀值则报警;4、监控端口上的TCP连接状态端口连接数过高;端
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国移动南昌市2025秋招企业文化50题速记
- 中国广电石嘴山市2025秋招心理测评常考题型与答题技巧
- 上海市中石油2025秋招笔试模拟题含答案财务与审计岗
- 威海市中石化2025秋招笔试模拟题含答案财务与审计岗
- 中国广电宣城市2025秋招笔试行测题库及答案行业解决方案经理岗
- 企业质量考试试题及答案
- 大唐电力遂宁市2025秋招面试专业追问及参考机械工程岗位
- 中国联通黔西南自治州2025秋招笔试行测题库及答案市场与服务类
- 海南地区中石化2025秋招面试半结构化模拟题及答案油田工程技术岗
- 巴中市中储粮2025秋招财务资产岗高频笔试题库含答案
- 2025年心理咨询师考试试题及答案
- 手机租机合同协议
- 铁路冬季作业安全知识
- 生物医药研发与临床实验数据表
- 村级出纳培训课件
- DBJ50-T-247-2016 建筑室外环境透水铺装设计标准
- 《屋顶分布式光伏电站建设规范》
- 高考英语读后续写自然景色描写升华句(风+雨+雪+霜+雾)清单
- 建筑师负责制工程建设项目建筑师标准服务内容与流程
- 《精护》第六章-精神活性物质所致精神障碍患者的护理
- 与孩子立契约协议书范本
评论
0/150
提交评论