云平台运维管理详细设计方案_第1页
云平台运维管理详细设计方案_第2页
云平台运维管理详细设计方案_第3页
云平台运维管理详细设计方案_第4页
云平台运维管理详细设计方案_第5页
已阅读5页,还剩314页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

案 12规范性引述文件 3缩略语和术语 1 3.2术语及定义 14私有云运维管理体系框架 24.1私有云运维管理的概述 24.2体系框架定位 44.3体系架构管控策略 54.4体系框架总图 64.5体系框架特点 74.6云运维管理与传统IT运维管理的差异 75云运维管理要求 85.1云运维管理体系概述 85.2云运维管理业务场景(需讨论业务场景的描述方式) 5.3云运维组织人员管理 5.4云运维流程制度管理(需讨论对每个流程的描述方式:流程定义()、流程图、流程说明?流程图也需统一格式) 服务台发了到期提醒租户未反馈的,先短信自动提醒,还未处理的需提交给客服处理 5.5运维活动考核指标(与5.4章节流程对应)(考核指标表格格式未统一) 6云运维技术要求(需讨论数据要求的格式) 6.1租户管理技术要求(亿阳) 6.2云资源管理技术要求(中兴) 6.3云监控技术要求(HP) 6.4服务目录管理技术要求(华胜)(服务目录具有灵活的增删改能力,需要提服务设计,通过服务设计来新增服务目录条目,服务目录的删除也需要提资源的回收等) 6.5服务等级管理技术要求(华胜) 6.6自动化部署技术要求(普元) 6.7策略管理技术要求(东软) 6.8配置管理技术要求(东软) 6.9资源数据模型设计要求(VMware) 6.10配置数据模型设计要求(VMware) 6.11云监控指标体系设计要求(VMware) 7云运维数据采集要求(泰岳)(参见《CUS_ITSM_03_IT服务管理支撑平台接口规范V1.0(送审稿)》) 1457.1业务数据采集接口技术要求 7.2数据采集性能要求 7.3同步接口要求 7.4与IaaS平台接口 7.5与PaaS平台接口 1907.6与SaaS平台接口 7.7与短信网关接口 7.8与网管系统接口 7.9与计费系统接口 2规范性引述文件3缩略语和术语3.1缩略语缩略语英文全称中文含义APIApplicationProgrammingInterface应用程序编程接口基础设施即服务信息技术平台即服务PartnerRelationshipManagement合作伙伴关系管理软件即服务ServiceOrientedArchitecture面向服务的体系架构3.2术语及定义解释基于开放的标准消息总线,用于通过标准的适配器和接口,来提供各程序和组件之间的互操作功能。它支持相互独立的异构环境中的服务、消息及基于事件的交互,并且具有适当的服务级别和可管理性。指数据抽取、转换、装载的过程。能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。以服务的形式,提供计算、存储、网络等基础设施资源,用户无需购买服务器、存储设备、网络设备,只需通过互联网租赁即可搭建自己的应用系统,帮助削减IT基础设施的建设成本和运维成本。以服务的形式,提供软件开发、测试、部署和运行环境,以及能力开放接口或应用服务引擎,屏蔽软件开发底层复杂的操作,用户可以快速开发出基于云平台的高性能、高可扩展的服务。以服务的形式,提供各种在线软件,用户不必购买软件,只需按需租用软件。一种新型的软件体系架构模式,它是在计算环境下设计、开发、应用、管理分散服务单元的一种规范,它将应用程序的不同功能单元(称为服务)通过服务间定义良好的接口和契约联系起来。可以根据需求通过网络对松散耦合的粗粒度服务进行分布式部署、组合和使用。云监控提供对云服务的资源监控,供用户查看资源的使用情况、运行性能等,包括了CPU的使用率、磁盘读写和网络流量情况云计算一种新的计算方法和商业模式,通过虚拟化、分布式处理和宽带网络等技术,按照“即插即用”的方式,将计算、存储、网络等IT基础设施,以及其上的开发平台、软件等服务,抽象成高效、弹性、可运营、可管理的公共信息处理资源,通过公众通信网络,以按需分配的服务形式向用户提供动态可扩展信息处理能力和应用服务,用户按实际使用数量进行付费在云计算下,使用者通过公众通信网络,以按需分配的服务形式,获得动态可扩展信息处理能力和应用服务,也是电信运营商新的信息服务产品和ICT交付模式,资源出租转化为能力出租,由自建自营到开放共赢。云平台云平台是指云运维管理所辖的IaaS/PaaS/SaaS综合管理平台,资源池资源池是一组物理资源或一组虚拟资源的集合,可以从池中获取资源,也可将资源回收到池中。资源包括物理机、虚拟机、虚拟网络设备、物理网络设备和IP地址等。4私有云运维管理体系框架根据私有云计算在运维和运营方面的特点,以及管理范畴的模糊划分,云运维管理的一体化服务支撑涵盖运营管理和运维管理两部分内容。云运维管理一方面面向内部的云资源使用者(租户),提供云计算服务需求受理、开通、服务计量和客户服务等服务;另一方面面向云资源管理者和云运维工程师,提供云资源的规划、监控、调度、分配、调拨、维护和优化建议。云运维管理的最终用户是运维管理人员及支撑人员。本规范将聚焦于私有云运营管理及运维管理的管理要求、技术要求及私有云运维管理的用户(最终用户对象需确认)私有云运维管理的最终用户包括内部的使用者、运维技术人员、运维管理人员及运营支撑人员。云运维管理的对象包括IaaS平台、PaaS平台和SaaS平台内的所有云资源。云资源包括IaaS层的物理资源和虚拟资源,PaaS层的数据库资源、中间件资源和技术服务组件资源,以及SaaS的私有云应用和公有云应用存在多个综合管理平台容量规模限制及管理要求,可能综合管理平台4.1.4的云运维管理体系云运维管理体系具有如下典型的三级部署架构:(资源池需统一画一起,传统硬件与云运维管理之间加入IT资源管理)云运维管理云运营管理云运维管理云运营管理PaaS综合管理平台PaaS资源池IaaS综合管理平台SaaS综合管理平台SaaS资源池图4-1云运维管理的三级部署架构对应于云运维管理体系的部署架构,其运维支撑体系也进行了三级划分,IaaS/PaaS/SaaS平台运维职责,同时在三线运维工程师增加了虚拟化平台(传统硬件运维箭头调整到云运维处)三线三线运维二线运维线运维运维职责云运维IaaS/PaaS/SaaS平台运维传统硬件运维资源池运维图4-2云运维管理体系运维工程师设置为一线运维工程师、二线运维工程师和三线运维工程师,职责如下:■一线运维工程师主要负责对IaaS/PaaS/SaaS资源池以及传统硬件的运维。云运维管理体系中一线维护人员参与的流程可参照代维对象代维管理办法中提供的流程。■二线运维工程师主要负责对IaaS/PaaS/SaaS平台的运维。云运维管理体系中二线维护人员参与的流程可参照代维对象代维管理办法中提供的流程。■三线运维工程师完成效益提升域、系统保障域和服务管控域中的运维管理工作。三线维护人员针对云运维管理进行维护。4.2体系框架定位云运维管理体系是信息化部关于建设集中化云运维管理所依据的总体纲领,其阐述了云运维管理的管理领域和建设内容,是各组织人员在进行云运维管理相关建设时的建设纲领和建设标准。各组织人员在进行云运维管理建设时,在严格遵循体系要求的前提下,根据各自的管理现状进行具体内容建设。体系框架定义了云运维管理体系所涵盖的管理域,包括组织人员、流程制度、技术工具、信息管控四个方面。云运维管理体系在信息化建设架构中的定位如下图所示:企业战略求服务管理专业考核评价管理运行维护管理建设管理规划管理专业队伍建设资源分配图4-3云运维管理体系定位4.3体系架构管控策略为了保障云运维管理体系最终的建设效果,切实提升信息化部的云运维管理水平和服务质量,各组织人员在进行云运维管理体系建设时,需严格执行以下管控策略:■各组织人员应严格遵循本次规范的要求,保证规范内容的有效落地■各组织人员应建立量化管控机制,通过量化管控的建设落实指标化管理。■建设单位要保证规范要求中的人员配套措施落实到位,要做到职责落实到岗、落实到人。■建设单位要充分认同实现全国一体化运维/运营的建设目标,优先开展全国一体化运维/运营服务受理体系和服务台建设。■各组织人员在建设过程中需保障规范中明确提出的总部信息化部管控要求的落地实现,例如流程建设中总部信息化部参与的要求;总部信息化部要求的管控指标等。4.4体系框架总图本次云运维管理体系设计,充分参考国内外运营商和互联网企业在云运维方向上的成功建设经验和ITIL(V3)的最佳实践,采用PPIT方法论,从组织人员、流程制度、技术工具、信息管控四个方面描述IT服务支撑体系。具体如下:(技术工具的门户需修改成自服务门户和运维门户)组织人员服务台服务管理职能公共资源管理职能运维第三方管理职能运维管理团队运维支撑团队流程制度持续优化规划建设分配运维服务管控域系统保障域效益提升域服务管控域系统保障域效益提升域技术工具运维门户资源管理运维服务管理运维需求管理资源监控管理业务监控管理资源策略管理资源配置管理集成管理统计分析信息管控服务价值域业务指标应用指标平台指标服务指标服务域资源域服务域资源域人员组织域人员组织域图4-4云运维管理体系框架总图4.5体系框架特点5云运维管理要求5.2云运维管理业务场景(需讨论业务场景的描述方式)服务开通受理场景(普元)云环境下的所有服务的使用者均视为租户。当租户申请服务后,并经过审批流程审批通过,到服务开通受理。根据服务开通申请流程提交的申请单的详细要求,服务管理员人工进相应服务,当服务提供完成后,提交服务管理员,服务管理员验证无误后通知提出申请的租户,标志服务开通受理完成。后要符合现有云平台能提供的能力,如超出现有云平台能力视为无效申请,将不予受理,打回重新申请。软件平台资源申请:应指明web服务器类型及版本、中间件平台的名称及版本、数据库的名称及版本等。软件服务申请:应指明服务接口名称,平均调用次数,最高并发调用及单次调用内存占用量,可能存在的并发高峰期的时间范围。文字服务开通受理流程租户租户服务开通申一人工受理或自动受理验证服务是否满云平台运维管理员服务管理员服务开通—l拒绝受理-服务变更场景(普元)场景一:租户发起的服务变更。租户根据实现业务需求变化发起的服务变更。如系统上线过程中,前期上线5个省,已经申请了5个省的服务资源,现在要全国上线,还需要再申请其余省份的服务资源,需要发起服务变更流程。场景二:服务提供方发起的服务变更。由于最终用户的需求发生变更,导致原有的服务接口中参数要发生变化。如财务系统与银行系统对接,由于银行系统实行全国统一规范,导致服务接口变化,从而导致财务系统的服务接口变化,需要发起服务变更流(缺乏场景二的需求分析)明,需要给租户提供已经定购的服务列表,租户可以在列表中选择相应的服务,点击可展示定购服务的全部信息,二是变更后的服务需求,两部分变更申请单的内容也要明确标识IAAS、PAAS、SAAS层的现状及需求。云运维管理员,各层云系统应与管理平台建立自动配置接口或流程贯通。云运维管理解决方案受理分配资源受理分配资源验证服务变更流程云平台运维管理员服务管理员租户云平台运维管理员服务管理员服务变更申请单拒绝受理一-人工受理或自动受理是否受理拒绝受理一-人工受理或自动受理一不满足重新分配一服务变更实施一不满足重新分配一一分配完成」服务开通一验证服务是否满一分配完成」服务开通一足租户需求使用服务服务撤销场景(普元)在云环境下,系统由于实际业务变更,已经定购的服务不再需要,需要对已经使用的服务进行撤消,因此由租户发起服务撤消流程。需求分析服务撤消流程需要由租户发起对已经定购的服务发起撤消的流程。需要给租户提供已经定购的服务列表,租户可以在列表中选择相应的服务,点击可展示定购服务的全部信息,并从这发起服务撤消申请。云运维管理解决方案服务撤消流程服务管理员租户服务管理员服务撤消申请单是否受理是否受理服务资源回收,加入资源库一回收完成」撤消完成一是否回收正确一回收完成」撤消完成一验证撤消资源稽查场景(泰岳)场景描述A:定制数据一致性、完整性、规范性资源数据稽核;资源数据有效性稽核资源管理员B:资源数据可用率稽核分配的资源长时间闲置资源管理员分配的资源利用率过低资源管理员在资源池忙闲时分配不均,资源池利用率过低资源管理员资源使用情况不均资源管理员A、定制数据一致性、完整性、规范性资源数据稽核1、资源数据有效性稽核,在云资源管理的日常活动中对相关资源信息进行校验核查,发现差错后,触发资源核查流程进行纠正,从而B、资源数据可用率稽核1、分配的资源长时间闲置:通过监控系统提供的资源报表查看分配2、分配的资源利用率过低,系统定义资源利用率阈值,当分配的资源利用率低于阈值,则分配的资源利用率过低;3、在资源池忙闲时分配不均,资源池利用率过低:例如分配的资源池资源数据在白天时不够用,在夜晚时候资源过剩的情况;4、资源使用情况不均:有的系统使用资源过高,有的系统使用资源资源管理员通过监控系统提供的资源报表查看资源使用不均的情况,申请资源重新分配,资源评审人员收到申请后评估是否可行,如果通过审核,转向租户审核,租户审核通过后,系统进入资源分配子流程。在云资源管理的日常活动中对相关资源信息进行校验核查,发现差错后,触发资源核查流程进行纠正,从而保证资源数据质量。资源数据稽核包括数据有效性检查、数据格式检查、数据使用率检查等。资源数据稽核应该包含资源数据入库前数据验证、入库后数据核查功能、云运维管理中资源数据与IaaS/PaaS/SaaS综合管理平>即时判断,主要针对用户手工录入或者通过文件批量导入以及自动采集的资源数据进行数据格式和有效性校验检查;>手工触发或定期自动检查云运维管理与IaaS/PaaS/SaaS平台的数据一致性检查,可以根据资源类型而确定选择范围,同时选定稽核规则。检查过程中,将发现的错误记录下来。■资源稽核规则定义根据核查规则对资源数据进行核查,并提供对核查规则的制定和查看功能。核查规则包括但不限于以下规则,需满足用户提供的多种核查规则:》固定值比较:比如某类资源的某个属性大于或小于某个固定值或在某个范围内的核查规则。>属性值比较:比如某类资源的某个属性和其他属性的比较规则。》数据格式合法性:比如日期的格式不正确、没有按照规定的格式填写特殊的字符串,应该是数字的填写了字符、应该填写日期的地方填写了数字、必填项为空等合法性核查规则。>资源关系一致性:比如某类资源的某属性和其他资源的某属性需要>数据一致性比对管理:云运维管理中的资源数据与IaaS/PaaS/SaaS综合管理平台实际运行的资源一致性比对》系统要根据资源核查报告,提供交互式操作支持,对核查出来的差错应生成核查报告或报表,同时通过告警通知方式统一由云运理的通知模块通知IaaS/PaaS/SaaS综合管理平台管理人员。>对于一致性检查结果,支持自动或手工纠正。对于自动纠正,系统应能定制纠正规则,默认以IaaS/PaaS/SaaS综合管理平台数据为准。>系统可以支持按以下几种方式供用户查看核查结果:日志、核查报资源纳管场景(泰岳)A:定义IaaS/PaaS/SaaS综合管理平台ID编号规则IaaS/PaaS/SaaS综合管理平台分配唯一标识的平台ID编号云运维工程师B:定义规范化审计流程对新纳管的IaaS/PaaS/SaaS综合管理平台下发云平台配置管理运维管理人员对新纳管的IaaS/PaaS/SaaS综合管理平台进行资源配置审计运维管理人员IaaS/PaaS/SaaS综合管理平台提出资源配置整改要求运维管理人员C:定义下发的运维管理要求根据新纳管IaaS/PaaS/SaaS综合管理平台资源信息,更新资源管理信息云运维工程师A、定义IaaS/PaaS/SaaS综合管理平台ID编号规则编制资源纳管策略,为新建的IaaS/PaaS/SaaS综合管理平台分配唯一标识的平台ID编号B、定义规范化审计流程1、对新纳管的IaaS/PaaS/SaaS综合管理平台下发云平台配置管理2、对新纳管的IaaS/PaaS/SaaS综合管理平台进行资源配置审计3、对资源配置审计未通过的新纳管IaaS/PaaS/SaaS综合管理平台提出资源配置整改要求C、定义下发的运维管理要求1、根据新纳管IaaS/PaaS/SaaS综合管理平台资源信息,更新资源管理将新建的IaaS/PaaS/SaaS综合管理平台纳管(注册)到云运维管理,为新建IaaS/PaaS/SaaS综合管理平台分配平台ID,通过下发云平台配置管理要求、审计资源配置、下发运维管理要求、更新资源管理信息后,完成对新纳管资源整体管控的整个过程。1、分配IaaS/PaaS/SaaS综合管理平台ID;资源纳管的功能要求如下:■应能够根据资源纳管策略,为新建的IaaS/PaaS/SaaS综合管理平台分配唯一标识的平台ID编号;■应能够对新纳管的IaaS/PaaS/SaaS综合管理平台下发云平台配置管■应能够对新纳管的IaaS/PaaS/SaaS综合管理平台进行资源配置审计;■应能够对资源配置审计未通过的新纳管IaaS/PaaS/SaaS综合管理平■应能够对新纳管IaaS/PaaS/SaaS综合管理平台下发运维管理要求;■应能够根据新纳管IaaS/PaaS/SaaS综合管理平台资源信息,更新资■定义下发的运维管理要求。资源优化场景(亿阳)在资源池内运行的应用系统,经常出现部分应用负载过低,导致严重的资源浪费,同时某些核心应用时常资源进行或因为系统宕机导致业务中断资源池内包括多种硬件资源和不同的虚拟化平台,资源优化是为了上层所有应用得到更好地支撑,实现业务应用稳定运行的同时避免资源的浪费。云运维管理解决方案在资源池内,将硬件(服务器、存储等)、虚拟化平台按照产品品牌分根据性能和故障率的统计信息将服务器分为不同等级。KVM平台等。通过根据性能和稳定性的统计信息将其分为不同等级。通过综合上述统计,管理员可设定基于不同的硬件+虚拟化平台组合的应用运行环境的等级。例如IBM+Vmware为一等运行环境、IBM+KVM为二等以此类推。用户可根据自己业务的重要性为核心业务申请较高等级的资源,边缘业务申请较低等级的资源,从而达到资源优化的效果。资源回收场景(东软)需求分析云运维管理解决方案服务计量场景(东软)场景描述需求分析云运维管理解决方案故障排查及处理场景(华胜)云运维管理解决方案5.3云运维组织人员管理5.3.1服务经理(亿阳)服务经理的职责包括:监督管理服务管理员,并对服务管理员提交上来的服务申请或变更申请做最终的审批。服务经理的活动主要包括:■服务管理员的人员以及权限设定■服务变更最终审批:由服务管理员提交,初级变更审批由服务管理员完成,服务经理负责最终审批(高级)■SLA需求申请审批(高级),由服务管理员提交,初级初级SLA申请由服务管理员完成,服务经理负责最终审批(高级)服务管理是整个平台的核心管理层,服务管理员负责指导资源管理员并保证云平台为用户和应用提供可靠的服务支撑。职责包括:用户管理、订单管理、资源模板管理、服务报表、服务变更管理、系统状态监控、在线客服、安全管理、用户备案信息管理等相关门户应用。■提供基于用户或业务的服务统计报表■用户的订单和变更单(初级)的审批和投诉建议处理■提供SLA报表和SLA需求申请审批(初级)资源管理员的职责是根据服务管理员的需求,管理资源池内的所有资源,确保资源对应用的良好的支撑。资源是在云服务中所包含的,可用于服务用户的各类有形和无形资源。资源的类型包括虚拟机、X86物理机、虚拟机备份、对象存储、块存储、网络带宽、公网IP地址以及云监控等。■资源池内物理设备以及虚拟机的健康状况的维护,如使用率,负载等■资源纳管:资源池内新添设备,老旧设备淘汰等■资源优化:记录资源的使用情况,对不同的设备、品牌、虚拟化平台的故障率做统计,推荐最优资源优化方案变更经理全面负责变更管理流程中的所有具体活动执行,保障所有变更依照预定流程顺利执行。通常由具有决策权的人员担任。■帮助变更管理员协调必要的变更时间、人员等方面的协调工作影响最小化■成立变更咨询委员会,并领导和主持变更咨询委员会流程改进建议变更主管通常由与变更请求内容相关的具体技术领域的负责人或直接变更处理人担任。可以根据不同的变更种类,分派不同的人员作为变更主管。变更主管主要关注在实施方案、详细实施计划等方面。性,必要时拒绝无关、无法实施或没有必要的变更请求。■确定和检查变更请求的分类、变更时间要求、分析风险等。■作为具体变更的项目经理,负责领导变更的构建/测试,实施和参与回顾。■制定变更实施计划、测试计划、回退计划等。变更咨询委员会是IT组织中对变更进行评估和决策、批准或者拒绝某个变更请求的虚拟组织,帮助变更经理进行变更决策。■针对具体变更请求,评估潜在影响和风险。■参加变更咨询委员会会议。■回顾已成功执行的重大变更,确保满足变更的目的。■对流程改进提出意见和建议。租户是指一个正在使用云平台所提供服务的个人、部门或的企业合作伙伴。租户的职责是根据自己的业务需求向云平台提出资源的使用申请或使用已申请的资源。服务申请以订单的形式提交给服务管理员。租户的活动主要包括:■服务申请的发起:根据自身业务的需求请求服务申请■服务变更的发起:根据业务负载变化发起服务变更■故障申告的发起:如遇故障着则发起故障申告和投诉建议■使用咨询的发起:向服务管理员提出咨询请求服务提供者根据对租户需求的调研,设定各类服务。租户和资源池之间通过服务提供者建立订购关系。■调研租户需求,根据业务或用户需求制定服务模板并制定服务计量计费■承上启下,根据服务管理来制定资源管理规范■租户所能看到的服务类型的定义■租户的服务变更初级审批主要活动租户注册、租户注销、修改租户信息、修改密码、密码重置、设置用户状态、查询用户信息、补充用户资料等用户管理相关功能。服务台接线员(亿阳)负责接收所有的事件,对事件进行初步的处理,并根据实际情况将事件分派到合适的云运维管理工程师或业务系统运维管理工程师。■负责24×7的值班和系统监控■响应客户投诉、热线电话、邮件、传真等事件报告式、事件特征表现、描述、发生时间等■为事件进行适当的分类、为事件分配优先级等属性■尝试使用工具、初步诊断、分析相关信息等方式解决问题■将事件分配给最合适的云运维管理工程师处理■检查事件记录的处理进度,保持与事件报告人的联系,适时通知事件处理进展■与用户确认事件解决方案,关闭事件云运维管理工程师(亿阳)云运维管理工程师负责对服务台无法解决的事件进行快速有效的分析,提出解决方案以尽快恢复服务,并在必要时提供现场支持。■验证事件的描述和信息,进一步收集相关信息■进行深入调查研究或协调厂商支持,提供有效的解决方案■更新事件解决信息,已解决的事件转回服务台业务系统运维管理工程师(亿阳)业务系统运维管理工程师是相关问题领域的专家。负责提供对云运维管理工程师无法解决的问题进一步进行调研,找出解决方案并尽快恢复服务。■验证事件的描述和信息,进一步收集相关信息■进行深入调查研究或协调厂商支持,提供有效的解决方案根据需要在系统中制定作业计划。对作业计划进行审批,同时对作业计划执行的结果进行审核;并负责的■对值班人提出的班次调度进行审核确认■通过值班日志以及值班作业计划记录定期检查值班人员的工作情况■对值班过程中所遇到的问题进行协调审计员的职责是对云平台中相关资源的操作行为进行审计跟踪分析和监督检查,以及时发现违规行为。定期分析相关业务操作人员业务处理过程日志文件,定期检查运维记录,对可疑的信息进行审计和跟踪控制,发现违规活动即时向运维负责人进行资源审计合规检查优化咨询委员会的职责是对资源池内的资源优化方案的评估。委员会成员由资源管理员、服务管理员、服务经理、应用维护人员以及其他云计算专家组成。资源管理员或服务管理员通过对系统的运维和监控提出资源的优化方案并提交给优化咨询委员会。优化咨询委员会的就已提出的优化方案进行评估和审批,决定是否采用5.4云运维流程制度管理(需讨论对每个流程的描述方式:流程定义()、流程图、流程说明?流程图也需统一格式)服务申请类(普元)是是一标准化服务申请流程流程定义(定义角色:租户申请(经过租户领导审批的申请)、系统判断资源是否符合需求?返回成功或失败信息,一个判断,成功返回开通成功,失败通知租户。)标准化服务申请流程租户服务台开始租户提交经租户领是否满足租户申请需求?提示标准化服务申请失败务更流程务服务开通成功结束流程说明(需由系统管理员设定一个阈值,超过阈值走工单申请)本流程只适用于小批量申请,大批量走工单申请,系统可配置。租户申请为经过租户领导审批的申请,属于线下流程,系统外流程。)服务变更类(普元)服务延期申请流程人员:租户申请(通过租户领导审批过的申请),云平台更新客户信息,返回延期申请成功信息。服务延长申请流程服务延长申请流程租户开始租户提交经租户领导审批过的廷长服务申请单结束服务台流程说明服务台发了到期提醒租户未反馈的,先短信自动提醒,还未处理的需提交给客服处理租户延期申请为经过租户领导审批的申请,属于线下流程,系统外流租户只有在满足提交申请条件下才能启动服务延期申请流程。此流程只有在服务期内才能生效。资源变更流程流程定义人员:租户变更申请(通过租户领导审批过的变更申请),云平台更新客户信息,返回变更申请成功信息。(此图需修改)资源变更流程服务台服务台开始租户提交经租户领导审批过的资源变更申请单提示资源变更申请失败是否申请开通或变更SLA更流程对租户资源进行变更更新资源库提示资源变更成功结束租户否是-流程说明无服务撤销流程人员:租户发起(经过租户领导审批的申请),云平台更新客户信息,进入资源回收子流程,返回服务撤销成功信息。服务撤销流程服务撤销流程租户开始租户提交经租户领导审批过的服务撤销申请单资源回收更新资源库服务撤销成功结束服务台流程说明服务撤销支持立即撤销和预约撤销,未到预约撤销时间租户可以取消该预约撤销申请。人员:服务经理申请、服务管理员设计、反馈给服务经理结束。投诉处理流程(华胜)人员:租户发起,服务台接线员启动工单流转到故障处理流程,反馈处理结果投诉处理流程租户服务台接线员开始租户提交投诉是是一是否技术类投诉?参见相关客服规则进行处理启动工单流转故障处理流程反馈处理结果结束流程说明投诉处理分技术类和非技术类,技术类流转到故障处理流程,非技术类由接线员参见相关客服规则进行处理。建议流程(华胜)流程定义人员:租户发起(按建议类别),服务台接线员定期导出技术类建议,转交给建议处理流程。建议流程租户租户服务台接线员开始租户提交建议是否技术类投诉?参见相关客服规则进行处理启动工单流转是一服务台接线员定期对租户技术类建议导出,建议分技术类和非技术类,技术类流转到建议处理流程,非技术类由接线员参见相关客服规则进行处资源识别类(泰岳)资源稽核流程资源稽核是指资源管理员通过监控系统提供的资源报表查看资源使用如果通过审核,转向租户审核,租户审核通过后,系统进入资源分配子流人员:资源管理员、资源经理,租户资源稽核流程资源稽核流程资源管理员资源评审人员租户开始定义规则资源数据稽核资源利用率过低申请资源分配是否同意资源分配是一是否同意资源分配结束流程说明资源管理员通过监控系统提供的资源报表查看资源数据,分析资源分配不均的情况;资源纳管流程流程定义资源纳管是指将新建的IaaS/PaaS/SaaS综合管理平台纳管(注册)到云运维管理,为新建IaaS/PaaS/SaaS综合管理平台分配平台ID,通过下发云平台配置管理要求、审计资源配置、下发运维管理要求、更新资源管理信息后,完成对新纳管资源整体管控的整个过程。人员:资源管理员发起资源纳管、资源经理审批、返回资源管理员进行纳管资源纳管流程运维管理人员云运维人员平台建设项目经理开请求资始源纳管台配置是否通过审核否分配laaS/PaaS/SaaSID下发配置管理要求审计配置是否通过配置执行平是1是1更新资源库数据信息结束流程说明3、云运维工程师给平台项目经理下发配置管理要求;6、云运维工程师更新资源库数据信息;服务目录管理流程(HP)服务目录创建人员:服务经理发起,服务管理员执行(创建服务目录id),服务管理员反馈给服务经理结果,服务经理定义计量,进入服务计量子流程。流程说明服务目录删除服务管理员人员:服务经理发起,服务管理员执行(删除服务目录id),服务管理员服务计量流程(东软)(待讨论)人员:服务经理资源回收流程(东软)流程定义(服务撤销流程-启动资源回收-回收网络资源/计算资源/存储资源/软件资源-结束)没涉及人员,只画流程图,平台自动完成。资源回收服务台资源管理员开始发起资源回收回收资源结束下发资源回收通知资源回收成功两种情况触发资源回收:1,服务到期,资源自动回收;2,租户主动撤销,发起资源回收申请。服务撤销触发资源回收流程,资源回收成功之后,服务撤销成功。合规审计流程(泰岳)流程定义人员:去掉运维系统负责人,其他人员保留合规审计流程运维管理人员运维管理人员运维管理委员会运维人员运维系统负责人审计专员开始定义合规规则评审合规规则规则下发执行规则审核规则审计报表结束合规审计运维管理人员线下得到合规要求,定义合规规则。一、合规规则参考如下:◆根据系统内置的业界审计规范定义巡检策略或通过脚本能够实现业◆能够更新和输入国际规范的合规审计信息和策略(包括:◆根据业界审计规范定义巡检策略进行系统巡检或通过相关脚本实现。●审计功能配置o审计功能的开启o所有信息事件配置o所有用户审计o审计数据的安全保护oSyslog的运行与配置安全◆检查当前服务器是否满足业界审计规范的要求。◆出具相关的合规报表◆根据系统内置的业界审计规范定义巡检策略或通过脚本能够实现业界规范的巡检策略◆出具相关的合规报表1)功能定义对审计信息进行分类处理,审计内容包括认证、授权、登录/登出、c)审计过滤根据定义的过滤规则,对审计信息进行过滤,便于分析和展现,过滤的属性,审计内容包括时间、帐号、操作类型、操作名称等内容。2)功能要求◆所有的操作要有详细的审计记录(包括命令行操作记录和作业记录)◆认证审计:认证日志由认证平台提供,当用户进行认证时,记◆授权审计:授权管理日志由帐号管理平台提供,当帐号被授权◆登录/登出审计:登录记录由认证平台提供,当用户登录运维门◆访问审计:运维门户提供集成云运维管理功能模块的访问资源,运维门户所有的页面提供审计的配置。◆审计功能配置>审计功能的开启>所有信息事件配置>所有用户审计>审计数据的安全保护>Syslog的运行与配置安全资源优化流程(亿阳)人员:当租户的资源达到资源优化触发条件时,系统向资源管理员推送资源优化消息,资源管理员查看资源利用率统计报表,判定是否正常,若不正常,上报服务管理员,服务管理员根据策略和实际情况,判定是否向租户下发资源优化建议。5.4.3系统保障域故障处理类(华胜)重大故障及安全事件上报流程人员:服务台传送故障工单给运维工程师及运维管理人员,运维工程师判定是否能独立处理,是则运维工程师处理故障并将处理结果上报给运维管理人员,否则走技术支援流程,获取处理结果上报给运维管理人员。重大故障及安全事件上报流程开始服务台生成故障工单接收故障工单接收故障工单判定是否独立解决否是处理故障工单技术支援获得故障处理结果,向运维管理人员上报获得故障处理结果结束流程说明技术支援流程(亿阳)本流程适用于运维工程师在面对不能解决的疑难故障处理、参数设置、投诉处理等情况时向技术支援人员寻求指导的场景。合作伙伴开始开始发起技术支援申请台是库中结束能否解决 助处理动说明输入信息输出信息部室/角信息名大、疑难故障在故障处理过程中面临的重大、疑难故障处理、参数配置等情况。运维工程师重大或者疑难故障信息技术支援申请人技术支援工单确认受理技术支援工单进行技术支援工作接收到相应的技术支援工单,提供支持服务。技术支援专家技术支援工单技术支援专家技术支援工单能否解决通过提供技术支援服务确定故障是否消除。是:确认并分析故障解决方案。否:对于各专业技术支援组解决不了的问题,触发技术支援流技术支援专家技术支援工单技术支设备厂家技术支援工单程,申请设备厂家进行处理。提出解决方案提出对于该问题的解决方案。集团技术设备厂家技术支援工单集团技术支援设备厂家技术支援工单确认并分析故障的解决方案各专业技术支援专家整理集团或设备厂家反馈的故障解决方案支持故障解决。技术支援专家技术支援工单区技术支援专家技术支援工单故障处理确认对故障处理确认业务是否恢复。运维工程师技术支援工单技术支援申请人技术支援工单是否解决专家的技术支援是否解决了存在的问题。运维工程师技术支援工单技术支援申请人技术支援工单入知识库技术方案入知识库。运维工程师技术支援工单技术支援专家技术支援工单入知识库维护变更请求流程(中兴)维护变更请求流程,是对通过初验上线运行的相关系统单一层级进行的维护变更请求(如:软件(含补丁)升级、硬件更新、网络调整、系统参数修改),通过标准、统一的方法和步骤来管理和控制的过程。包括变更请求申请、变更请求审批及变更请求实施等环节。资源管理员运维工程师运维管理人员交技术方案维护变更申请受理判定技术方案是否合规完善维护变更技术审批维护变更技术方案实施维护变更技术方案IT资源库信息更新流程通知用户测试并确认*实施结果是否审批?否告故障处理类流程是否为故障类是实施结果审批接收完工报告结束日常运维类(中兴)作业计划流程运维工程师运维管理人员开始作业计划提出记录作业计划按计划执行结束作业计划审核通过?值班管理流程运维工程师运维管理人员值班实施开始开始提出值班计划记录值班记录结束知识库管理流程机房施工申请流程知识库管理流程运维工程师运维管理人员开始知识提出申请审核通过?1知识分类入库N结束机房施工申请流程机房施工申请施工单位运维管理委员会运维工程师提交实施整体 方案否审批施工施工方案是否合规?实施结果审批结束 开始机房施工 申请是通知相关部 机房施工施工结束 施工情况记录IT机房设备申请流程运维工程师运维管理人员开始提出设备申请通知相关部门购买设备结束审核通过?是提出设备申请基线检查流程运维工程师运维管理人员检查基线出具检查报告是问题处理是否是否还有问题?开始提出基线检查要 是否有异常?否出具检查报告结束数据备份管理流程资源管理员资源经理开始提出数据备份方 是备份实施结束备份方案评审通过?否设备巡检流程运维工程师运维管理员设备巡检出具巡检报告是问题处理是是否还有问题?开始提出设备巡检要 是否有异常?否出具巡检报告结束应急预案流程(中兴)应急预案管理流程,是对应急预案的编制、变更、应急演练、应急启动应急预案管理流程租户运维管理人员运维工程师云运维管理平台开始√否1.应急预案编制否2.应急预案审批2.是否通过?2.是否通过?是档、管理√5.应急预案变更审批5.是否通过?是5.是否通过?是档、管理演练初步方案并上报8.组织相关部门讨论应急预案演练方案是9.确定最终演练是方案10.应急预案演练执行,完成后与相关单位进行调试11.对相关受影通告确认应急预案演练结果总结通报案演练报告15、应急预案是否需要变更运维评价考核流程(泰岳)运维评价考核关键点包括以下几部分:1、虚拟化服务考核1)、虚拟资源的可用率●服务器提供有效服务时间和时间周期2)、对物理机的可用率●倾向与应用系统对虚拟资源的利用1)、事件处理及时性考核;2)、问题处理及时性考核;3)、重大紧急告警处理及时性考核;4)、及时发现故障及时迁移1)值班考核,考核厂商值班响应及时性;2)故障处理情况考核,考核厂商对重大事件故障处理的及时性;3)对硬件资源备品备件到货率考核;考核基础设置阶段定义考核指标考核方案设计阶段定义考核方案考核实施管理定义实现方式生成考核结果考核表评分考核沟通管理考核结果反馈考核结果认可考核结果统计 考核结果汇总表考核结果审核考核排名及报表虚拟化服务考核1)、虚拟资源的可用率●服务器提供有效服务时间和时间周期2)、对物理机的可用率●倾向与资源池物理资源的利用情况运维服务及时性考核运维服务及时性考核包括:事件处理及时性考核、问题处理及时性考核、重大紧急告警处理及时性考核事件处理及时性指标名间隔事件处理成功率运维事件处理的成功率P1:成功量P2:失败量1天数值型中是事件处理成功量运维事件处理成功量P1:成功量1天数值型中是事件处理失败量运维事件处理失败量P1:失败量1天数值型中是事件处运维事件P1:事件处1天数中是理时长处理时长理接受时间P2:事件处理完成时间值型事件处理等待时长运维事件处理等待时长P1:事件提交起始时间P2:接受时间或放弃时间1天数值型中是指标名间隔问题处理成功率运维问题处理的成功率P1:成功量P2:失败量1天数值型中是问题处理成功量运维问题件处理成功量P1:成功量1天数值型中是问题处理失败量运维问题处理失败量P1:失败量1天数值型中是问题处运维问题P1:问题处1天数中是理时长处理时长理接受时间P2:问题处理完成时间值型问题处理等待时长运维问题处理等待时长P1:问题提交起始时间P2:接受时间或放弃时间1天数值型中是重大紧急告警处理及时性重大紧急告警事件处理成功率重大紧急告警事件处理的成功率P1:成功量P2:失败量1天数值型中是重大紧急告警事件处理成功重大紧急告警事件处理成功量P1:成功量1天数值型中是量重大紧急告警事件处理失败量重大紧急告警事件处理失败量P1:失败量1天数值型中是重大紧急告警事件处理时长重大紧急告警事件处理时长P1:故障处理接受时间P2:故障处理完成时间1天数值型中是重大紧急告警事件处理等待时长重大紧急告警事件处理等待时长P1:故障提交起始时间P2:接受时间或放弃时间1天数值型中旦人上厂家服务考核4)值班考核,考核厂商值班响应及时性;6)对硬件资源备品备件到货率考核;人员培训服务流程(亿阳)信息化系统操作培训申请流程是对租户需要使用云平台时,提出操作培训申请进行规范化管理的过程,包括申请、审批、培训计划落实、确认关闭等环节。流程的目的和管理范围流程目的:规范对租户需要使用云平台操作培训申请以及培训计划落实的过程。流程管理范围:■租户使用云平台操作培训操作培训申请流程操作培训申请流程租户开始1.提出培训申请3.受理租户请求4.审批租户请求5.培训请求汇总6.培训计划的确认落实8.租户确认结束7.通知租户培训落实情况服务台接线员服务管理员流程环节描述名称说明提出信息化系统操作培训申请租户填写培训申请表审批申请人部门领导审批培训申请受理租户申请服务台接线员受理培训申请审批租户申请服务管理员服务管理员审批培训申请培训请求汇总服务经理将租户申请汇总培训计划的确认落实服务经理根据申请汇总情况,落实培训计划通知租户培训落实情况服务台接线员通知培训落实情况租户确认租户确认培训落实情况流程表单要素编号说明申请人信息包括租户姓名、公司、部门、联系方式等申请培训名称申请培训系统名称申请说明申请说明期望培训时间期望培训时间领导审批人、审批时间、审批意见审批信息审批人、审批时间、审批意见培训落实反馈培训落实反馈信息地点地点联系方式联系方式流程角色和职责职责租户提出培训申请,参与培训,培训完毕填写反馈服务台接线员受理培训申请,通知申请处理结果服务管理员审批租户信息化系统操作培训申请服务经理汇总租户培训申请,落实培训计划,提供培训流程时限要求1.服务台接收培训申请响应时间是5×8小时;从服务台将所有审批通过后的服务请求转派到信息化维护支撑部门开始,信息化维护支撑部门完成时间不超过15个工作日(填写不合规范除外)。5.5运维活动考核指标(与5.4章节流程对应)(考核指标表格格式未统一)服务申请类(普元)标准化服务申请流程专家组审核:两个工作日反馈服务开通受理子流程:不同意(一个工作日反馈);同意(三个工作日反馈)。服务变更类(普元)服务延期申请流程专家组审核:两个工作日反馈服务开通受理子流程:不同意(一个工作日反馈);同意(三个工作日反馈)。服务资源变更流程部门领导审批:一个工作日反馈专家组审核:两个工作日反馈服务开通受理子流程:不同意(一个工作日反馈);同意(三个工作日反馈)。服务撤销流程专家组审核:两个工作日反馈服务开通受理子流程:不同意(一个工作日反馈);同意(三个工作日反馈)。故障申告流程(华胜)使用咨询流程(华胜)投诉建议流程(华胜)资源识别类(泰岳)资源稽核流程资源纳管流程服务目录管理流程(HP)服务目录创建服务目录变更服务目录删除服务计量流程(东软)资源回收流程(东软)合规审计流程(泰岳)资源优化流程(亿阳)故障处理类(华胜)重大故障及安全事件上报流程统计周期技术支援一次支持完成率技术支援一次支持完成率=(技术支援工单一次支持完成的工单数/技术支援工单总数)*100%案例生成率案例生成率=(根据技术支援工单生成的案例个数/技术支援工单总数)*100%变更请求流程(中兴)系统数据要求系统变更总量针对云运维管理所辖范围内IaaS/PaaS/Saas平台,考核周期内系统变更总量1天整型高否系统变更平均处理时长针对云运维管理所辖范围内IaaS/PaaS/Saas平台,考核周期内系统变更1天整型高否平均处理时长系统变更及时完成率针对云运维管理所辖范围内IaaS/PaaS/Saas平台,考核周期内系统变更及时完成率1天整型高否日常运维类(中兴)作业计划流程系统数据要求是否上报作业计划总量考核周期内执行作业计划的总量(包含地域、部门、业务、完成状态等)整型高是作业按时执行率作业计划按时执行率比值高是作业成功执行率作业计划成功执行率比值高是建议采集间隔故障发现总考核周期内值班发现的故障总量整型高是按时接班率考核周期内按时接班率整型高是知识库管理流程数据知识库维护总整型否机房施工申请流程是否上报机房施工总量考核周期内执行机房施工的总量(包含地域、部门、业务、完成状态等)整型高是机房施工平均处理时长机房施工平均耗时整型高是系统数据要求建议采集间隔IT机房设备申申请的总量(包含地域、整型否部门、业务、完成状态等)是否上报基线检查总量考核周期内基线检查的总量(包含地域、部门、业务、完成状态等)整型高是基线检查的正常率基线的正常情况占的比率比值高是数据备份管理流程系统数据要求数据备份的总量考核周期内数据备份的总量(包含地域、部门、业务、完成状态等)整型高是数据备份的平均处理时长数据备份的平均耗时整型高是是否上报设备巡检总量考核周期内设备巡检的总量(包含地域、部门、业务、完成状态等)整型高是设备巡检的正常率巡检结果正常占的比率比值高是应急预案流程(中兴)数据算法采集间隔类型上报配置项维护总量考核周期内配置项维护总量整型高否平均处理时长考核周期内配置信息维护流程平均处理时长比值高否完成及时率考核周期内配置信息维护完成及时率整型高否运维评价考核流程(泰岳)人员培训服务流程(亿阳)流程服务能力指标编号说明编号流程KPI说明考核周期内操作培训申请成功率考核周期内培训申请满意率6云运维技术要求(需讨论数据要求的格式)6.1租户管理技术要求(亿阳)租户管理为服务管理员提供云资源池内租户管理相关信息管理。租户管理是指对云平台中的租户资源进行统一管理和访问控制,包括租户管理,角色管理,权限管理等功能。此功能要求租户在申请注册时的租户信息的完整性。名称字段类型租户ID租户的唯一标识租户名称租户的自己的名称租户描述租户的相关信息描述角色角色的定义订单租户户所有的订单变更单租户所有的变更单生效时间租户生效的时间失效时间租户失效的时间6.2云资源管理技术要求(中兴)资源状态管理负责对IaaS、PaaS、SaaS三层资源对象的全生命周期状态进行管理。针对每层,状态包含但不限于如下:>物理层面:闲置、生产、维护、维修、待报废(停止服务)、报废(已下线)状态。>虚拟层面:预占、实占、维护、注销。SaaS层状态:开发、测试、部署(测试完成系统割接上线配置状态)、运■资源状态变更应能够由IaaS/PaaS/SaaS平台资源相关操作后触发运维管理平台自动变更,运维管理平台自动记录变更记录日志(通过日志管理模块实现)以及变更前状态信息。》支持在线查询:管理界面上支持直接输入待查询资源名称,如果有匹配资源,则直接转入到资源信息界面。》支持离线查询:支持管理员将资源信息导出到文件中,包括但不等格式。查询操作可以在导出结果中进行。■应能够提供批量修改资源状态功能(例如:纳管过程批量资源状态初始化)。通过定制数据一致性、完整性、规范性、资源数据异常核查规则,在资源管理的日常活动中对相关资源信息进行校验核查,发现差错后,触发资源核查流程进行纠正,从而保证资源数据质量。资源数据核查应该包含资源数据入库前数据验证、入库后数据核查功能、云运维管理平台中资源数据与IaaS/PaaS/SaaS平台实际运行资源核查等。>即时判断,主要针对租户手工录入或者通过文件批量导入以及自动采集的资源数据进行数据格式和有效性校验检查;》手工触发或定期自动检查云运维管理平台与I/P/S平台的数据一致性检查,可以根据资源类型而确定选择范围,同时选定核查规则。检查过程中,将发现的错误记录下来。根据核查规则对资源数据进行核查,并提供对核查规则的制定和查看》固定值比较:比如某类资源的某个属性大于或小于某个固定值或>属性值比较:比如某类资源的某个属性和其他属性的比较规则。>数据格式合法性:比如日期的格式不正确、没有按照规定的格式填写特殊的字符串,应该是数字的填写了字符、应该填写日期的地方填写了数字、必填项为空等合法性核查规则。>资源关系一致性:比如某类资源的某属性和其他资源的某属性需要一致的核查规则。:云运维管理平台中的资源数据与IaaS/PaaS/SaaS平台实际运行的资源一致性比对》系统要根据资源核查报告,提供交互式操作支持,对核查出来的差错应生成核查报告或报表,同时通过告警通知方式统一由云运维管理平台的通知模块通知IaaS/PaaS/SaaS平台管理人员。》对于一致性检查结果,支持自动或手工纠正。对于自动纠正,系统应能定制纠正规则,默认以IaaS/PaaS/SaaS平台数据为准。系统可以支持按以下几种方式供用户查看核查结果:日志、核查报表、主将云运维管理平台中的资源数据与IaaS/PaaS/SaaS平台平台中被管对数据提供是指将云运维管理平台的资源管理范围内的资源项属性以及资源项间关系提供给所有需要消费资源数据的模块,例如资源监控管理模块、运维服务管理模块等。数据提供应支持按照预先定义的数据格式、提供方式将满足条件的资源数据,提供给所有数据消费方。数据提供应支持定时和实时两种数据提供方式。定时数据提供需支持数数据提供应支持逐条和批量两种数据提供方式。数据提供应支持数据库、文件、接口等多种提供方式。应能够提供云运维管理平台中的所有资源项的属性和关系信息。资源及资源之间的关联关系是资源管理的核心。在IaaS/PaaS/SaaS平台各自的平台范围内,对关联关系模型进行清晰的定义,可以展现资源对精准的关联关系服务。在云计算架构下,不同的资源分属于不同的层面,Iaas层面主要包括资源之间的关联关系有:包含型关系、关联型关系。包含型关系用以描述一对多的关系,关联性关系用以描述多对多的关系,下表详细描述了关系关联部署源部署目标。如:oracle部署在服务器上网络连接表示两个逻辑单元的网络连接关系。如:服务器和路由器的网络连接存储连接表示两个逻辑单元的存储连接关系。如:服务器和存储光纤交换机的存储连接使用源使用目标。如:应用进程Uses文件系统依赖源依赖于目标。如:业务功能依赖于应用服务包含基于源基于目标。如:进程BasedOn应用服务运行在源运行在目标上。如:应用进程所有的增删改操作要求必须符合资源管理流程和运维服务管理流程的管理模型关系的建立可通过人工录入、程序扫描,系统应用接口等多渠道实现,从而多渠道的构建资源关系模型。■提供关联关系模型更新时的数据字段输入说明功能,可以提醒用户■提供关联关系模型修改的日志功能,修改日志应包括修改内容、修应能够提供所有资源关联关系类型和资源关联关系属性数据。资源数据拓扑展现资源数据拓扑展现是实现将各种资源及各种资源间的关联关系以拓扑的方式展现,使用户能够在拓扑图上直观的掌握整个资源的拓扑结构。资源拓扑能够分层显示资源的拓扑结构,并提供拓扑节点的级联功能,为用户监视整个云计算环境提供强有力的手段。物理拓扑展现物理拓扑展现主要指物理设备展现。拓扑管理要求分层次地呈现业务支撑系统所涉及的所有被管理资源的拓扑结构。系统应具有灵活的浏览、监视和编辑的功能。在拓扑节点上可以查看相应资源详细配置信息。■应能够依据用户的浏览需要,从不同的视角、不同的侧重层次、不■应能够选择拓扑图上的一个或多个资源,进一步显示其他视角的拓扑图,如在网络拓扑图上选择某主机,则显示该主机的结构拓扑图■应能够将拓扑图转换成另外视角的拓扑图,如按地理域划分拓扑图■应能够提供方便的查询操作方式,快速查询选定资源的基本信息;■应能够提供友好的视图钻取功能,可以逐层进入各级视图、返回前■应能够提供对拓扑图以及其背景位图的单个选中、批量选中(矩形方式、圆圈方式、逐个的选定方式等)、放大、缩小、移动、还原■应能够提供把当前监视视图保存成文件或送到打印机输出的功能。应能够按资源的组成结构的视角进行拓扑展现,包括网络拓扑图、硬件结构拓扑图、软件结构拓扑图、资源空间位置拓扑图。>二层网络拓扑:即OSI参考模型中第二层的网络拓扑,称为链路故障,精确地测定某个位置的性能和状态;>专业网络视图:除了网络连接拓扑外,资源监控管理模块还能提IGPOSPF拓扑等,帮助用户了解特>存储网络拓扑:能够展示从主机使用的存储空间(逻辑卷、文件控制器、磁盘的整个连接关系。并能在拓扑图上显示相应设备的告警信息、性能信息和容量信息;》可视化机房拓扑视图:以机房视角全局展示IT资源的整体运行状逻辑展现主要针对有关联关系的资源进行展现。主要展现业务关系、各类关联关系的视图。展现系统应该具备关联关系呈现的功能。■提供按管理域划分视图的视角进行拓扑展现功能,包括按地理域划分、按系统划分、按客户划分、按业务划分;■提供能够通过配置过滤条件批量显示或隐藏某些类型的资源或关联■提供支持在拓扑图上选择某些资源或关联关系进行显示或隐藏的功应提供有关联关系的资源之间,业务关系、各类关联关系的视图。■应提供关键逻辑拓扑视图,如业务应用关联拓扑关联关系指业务对象中业务角色实例和业务实体实例之间的结构关系。此信息不仅仅显示了资源依赖关系。每个关联关系都有自己的属性。业务应用关联拓扑是以业务应用为核心,将业务应用所依赖的应用类资源、逻辑类资源、物理类资源以及其他类资源贯穿起来,形成业务逻辑视图,可以直观的查看业务应用逻辑关系。对于业务应用关联拓扑可以通过提供方便的图形化配置修改工具,允许管理维护人员按业务服务的实际情况,修改相关联资源等基本配置信息。资源数据通过IaaS/PaaS/SaaS平台采集。数据维护指对资源管理数据库中保存数据的增删改维护操作。所有的增删改操作要求必须符合资源管理流程和变更管理流程的管理要求。■资源数据变更由IaaS/PaaS/SaaS平台资源相关操作后触发云运维管理平台自动变更,运维管理平台自动记录变更记录日志(通过日志管理模块实现)以及变更前数据信息备份。》支持界面逐条录入和批量导入功能;》支持生成数据导入模板,对符合模板要求的数据可以批量导入的>应提供数据字段输入说明,可以提醒用户字段的类型和输入要求。>资源管理支持对资源数据的修改进行权限控制,应包括用户授权、记录授权和字段授权三个授权级别;>支持批量修改的功能,具备批量修改前提示功能;>具备数据修改日志功能,修改日志应包括修改内容、修改人、修>应提供资源信息基线管理和版本管理功能,所有修改的历史版本》支持数据逐条和批量删除功能,批量删除应该具备删除前提示功》删除与其他资源项有关联关系的资源项时,系统应该有删除提示。■必须支持异构系统的连接和接入,功能模块间集成采用XML协议格式,批量数据同步采用ftp方式,实时通信采用webservice方式。■数据库必须支持HA技术,必须支持故障切换。资源预警是预先发现资源管理、资源应用相关问题,为资源规划建设、维护管理、业务支撑提供改进依据,并及时解决的有效手段。能预告网络可用存量资源情况,提高资源利用率,为容量管理(扩容)提资源预警识别预警发生时,将以告警的形式提醒管理人员,告警内容由资源管理模块前转至资源监控管理模块,由监控管理模块的告警管理模块统一进行处理和告警通知。管理人员通过云运维管理平台查看详细的资源资源预警功能包括预警规则的定义、预警数据的监控及查询、预警信息需要预警的资源对象,可提供界面,由用户根据实际需要自行设定。预警规则的配置包括预警监控对象,预警监控开关,监控阈值,报警级别,报警开关,报警次数等。针对不同的预警监控对象可以配置不同的预警级别、报警门限等参数。支持用户可查询资源预警门限,支持通过报表方式查看资源预警情况,方便用户快速查看现网资源的预警情况。提供灵活、快速的预警信息的查询功能,可按时间、对象、级别、等多种条件或组合条件查询。依据预警规则的定义,要能够向资源监控管理模块发送预警通知,对预提示相关人员及时处理。资源管理模块为满足云运维管理工作的各项要求,需要结合生产实际对资源、资源间关联关系进行刻画描述。模型管理,是创建、修改、删除资源类、资源类间相互关系以及维护资源实例化数据的一系列活动。资源管理模块提供模型管理功能,模型管理应包含实现资源建模、模可以依据资源对象模型进行管理数据分析与展现,可以建立并维护资源元资源管理模块应包含内置默认的资源模型,内置的资源模型应满足并符合本规范对于资源模型定义的范围,同时支持新资源模型的创建,并能够通过自动发现、手工录入等手段实现资源数据的填充。■模型管理模型管理中的类管理器中,可以按照树状结构、图形界面等形式,用不同视角来展示类和关系的结构,能查看和编辑任何节点的属性,操作包括对类和关系的:增、删和改。具体模型管理功能包括:>模型导出:将资源模型导出(资源及资源间关系)》模型对象增删改:单个或批量进行增加、删除和修改模型对象>模型对象属性增删改:单个或批量进行增加、删除和修改模型对象属性>模型对象属性关联关系约束:为确保属性值规范性,建立同一资源对象的维度属性之间的相互约束,如地市受省份约束>模型对象属性枚举约束:为确保输入的一致性和规范性,属性只能输入枚举范围内的值最小值检查》模型对象属性参与比较:可设置对象属性是否参与比较(比对)》模型对象属性记录变更:可设置对象属性变更记录是否记录>配置变更历史记录:可呈现某配置项属性变更历史的信息,并可进行检索查询在通用的资源模型管理功能之上,资源管理需要提供有效的资源模型以支持资源统计报表和机房拓扑图、网络拓扑图、存储拓扑图、设备业务关联拓扑、应用服务关联拓扑等界面呈现。资源数据模型管理应具备灵活扩展功能。资源生命周期管理模块为满足云运维管理工作的各项要求,需要结合生产实际对资源运行周期中各个阶段进行描述。资源生命周期管理,是创建、启动、暂停、恢复、停止、删除资源类、资源类间相互关系的一系列资源生命周期管理模块提供资源生命周期管理功能,生命周期管理应包含实现资源创建、资源启动、资源暂停、资源恢复、资源停止、资源删除等管理功能。生命周期管理可以对各种资源类别在各资源生命周期阶段中进行切换,维护资源生命周期各阶段之间的关系。■资源创建首先创建资源节点,根据资源的配置数据,创建出对应的磁盘映像,并将这些映像申请该资源需要的资源。■根据调度策略或者调度动作,对已经创建好的资源节点进行启动的操作。启动后的资源节点可以由资源生命周期管理模块继续监管。资源暂停根据调度策略或者调度动作,对正在运行的资源节点进行暂停操作,生命周期管理模块对该资源的状态进行登记管理。根据调度策略或者调度动作,对已经暂停的资源节点进行恢复的操作。恢复后的资源节点可以由资源生命周期管理模块继续监管,进入到生命周期的下一个阶段,用户可以重新对该资源进行征用。停止后的资源节点可以由资源生命周期管理模块继续监管,进入到生命周期的下一个阶段,,被停止的资源节点不能被用户继续使用。根据调度策略或者调度动作,对已经创建好的资源节点进行删除的操作。被删除的资源节点所占用的资源可以释放,该资源节点在生命周期管资源生命周期管理模块对资源的各阶段的操作应该要原子化。容量管理模块为满足云运维管理工作的各项要求,需要结合生产实际对资源进行容量相关的管理。容量管理,包括对资源的各种维度、类型进行度量,以保证系统对资源的分配和管理的合理性。资源容量管理模块提供资源容量管理功能,容量管理应包含对资源类型的定义,并能根据资源的类型进行资源的度量,对资源的分配以及回收提供数据的支撑。资源容量管理可以在各种资源类别进行分配和回收的生产活>资源容量录入:系统运行过程中,可以对系统各资源容量进行低登记维护,便于系统计算分配资源额度。>资源容量计算:系统运行过程中,可以对系统各资源进行支出和回收,统一管理系统资源容量,便于系统对资源的优化管理。资源可以根据类型和数量进行度量定义资源优化分析模块为满足云运维管理工作的各项要求,需要结合生产对资源使用趋势以及合理资源使用的建议,是系统对资源的分配和管理的资源优化分析模块提供资源优化分析功能,资源优化分析包含对资源的使用报表功能、资源使用的趋势预测功能以及对资源使用调整的优化建>资源使用报表功能:资源优化模块可根据资源的使用情况,对各个维度和粒度的进行数据的展示,供用户对资源的使用情况进行>资源使用趋势分析:根据资源的使用情况,以及业务的走势,对资源使用情况进行预测,供用户参考。>资源使用优化建议:根据资源的使用预测和资源使用情况,计算资源分配策略更改,调整资源优化配置并相应给出建议。云监控是指搭建云平台后,对云中的虚拟资源/物理资源(包括但不限于网络,存储,服务器,数据库,中间件,应用等)的动态性能参数,SLA等进行监控和告警的技术和工具。同时,监控数据也是云平台提供动态能力伸缩的触发器。由于云中资源的动态变化,区别于传统的IT数据中心,建议监控工具最好支持无代理方式,便于部署和回收。告警管理主要实现私有云数据中心的资源、应用软件、业务运行状态以及IaaS、PaaS、SaaS平台告警的统一处理功能。主要包括告警采集、告警数据处理和告警展示、告警配置等功能。告警采集主要实现私有云数据中心资源管理、应用软件、业务运行状态以及IaaS/PaaS/SaaS综合管理平台告警信息的采集和预处理功能。接采集;三、来自其他监控工具监控代理等,完成统一告警数据采集任务。应能够实现通过事件管理模块与IaaS/PaaS/SaaS综合管理平台接口,完成云资源相关告警数据采集任务。应能通过对采集到的告警数据进行预处理,完成告警格式一致性处理。应能根据告警分类规则,实现告警的分类。设备类型、设备状态等告警详细信息,对告警进行采集层屏蔽。应具备告警数据本地存储转发功能,当告警处理模块上行数据链路或集中告警处理服务器出现问题时,应能够暂存采集到的告警信息,记录在日应能够根据实际情况的需求,灵活的定制告警采集规则。监控管理的各类IT设备、数据库、中间件、应用软件、性能越限、模拟测试(如ICMP、业务体验模拟测试等)结果的告警;IaaS/PaaS/SaaS综合管理平台内部产生的各类资源变更、资源迁移等内部资源状态变化相关告警。告警的序列号;告警对象名称;IP地址;告警首次发生时间;告警最后发生时间;告警累计发生次数;告警确认时间;告警清除时间;原始告告警类型;告警组;告警详细信息等通过对大量重复的告警信息和次要、无意义的告警信息进行过滤,以避免事件风暴和无

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论