运行维护管理标准体系和新规制度标准规范_第1页
运行维护管理标准体系和新规制度标准规范_第2页
运行维护管理标准体系和新规制度标准规范_第3页
运行维护管理标准体系和新规制度标准规范_第4页
运行维护管理标准体系和新规制度标准规范_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

运行维护管理体系和制度规范目录1、总则 32、编制方法 33、运维工作职责 34、运维服务管理体系 54.1运维服务管理对象 64.2运维系统功效框架 64.3运维管理组织结构 74.3.1项目责任人 84.3.2项目经理 84.3.3技术主管 94.3.4服务台 94.3.5网络管理员 104.3.5应用、数据库管理员 104.3.7终端管理员 114.4运维服务步骤 114.4.1项目运维服务工作步骤图 124.4.2服务台 123.4.3事件管理 134.4.4工单管理 134.4.5问题管理 144.4.6变更管理 144.4.7配置管理 144.4.8知识库管理 154.4.9统计及工作汇报 155、运维服务内容 155.1服务目标 155.2 资产统计服务 165.3网络、安全系统运维服务 165.4主机、存放系统运维服务 175.5数据库系统运维服务 185.6中间件运维服务 195.7终端、外设运维服务 196、应急服务响应方法 196.1应急预案实施基础步骤 206.2突发事件应急策略 207、服务管理制度规范 217.1服务时间 217.2行为规范 221、总则为保障试验室系统软硬件设备良好运行,使职员运维工作制度化、步骤化、规范化,特制订本制度。运维工作总体目标:立足根本促发展,开拓运维新局面。在企业发展壮大时期,经过网络、桌面、系统等运维,促进企业稳定可连续性发展。运维管理制度适用范围:运维人员。2、编制方法本实施细则包含运维服务全生命周期管理方法、管理标准/规范、管理模式、管理支撑工具、管理对象和基于步骤管理方法。本实施细则以ITIL/ISO0为基础,以信息化项目标运维为目标,以管理支撑工具为手段,以步骤化、规范化、标准化管理为方法,以全生命周期PDCA循环为提升路径,表现了对运维服务全过程体系化管理。3、运维部工作职责一、负责网站运维和技术支持(一)依据网站运行战略和目标,负责网站整体架构、栏目、应用系统等技术开发方案制订和组织开发,保障网站技术稳定性和优异性。(二)负责网站栏目和应用系统使用培训和操作使用指南编写,对用户使用过程中出现问题沟通和处理。(三)网站设备和软件购置计划书确实定,包含采购数量、品牌规格、技术参数。会同行政部进行采购。(四)网站设备和软件操作规程和应用管理制度制订,并负责监督实施。(五)网站设备和软件安装、调试和验收,使用培训和维修保养。(六)网站日常运行过程中信息安全和技术问题协调处理,保障网站二十四小时安全稳定运行。(七)网站技术服务外包管理,关键包含技术外包开发、运行服务托管和空间域名管理。(八)负责网站管理系统及设备保密口令设置和保留,保密口令设置后报中心主任立案,保密口令设定后任何人不得随意更改,保密口令每三个月更新一次。(九)负责网站新程序、新系统和网站改版升级方案技术设计开发。二、负责网站信息和技术安全(一)实施国家和省上相关网络信息技术安全法律法规,和通信管理和网络安全监管部门联络,立即处理网站信息技术安全方面存在问题,确保网站安全、稳定、可靠运行。(二)网站信息技术安全保密制度和工作步骤制订,落实信息技术安全保密责任制,实施“谁主管、谁负责,谁主办、谁负责”标准,责任到人。(三)在服务器和计算机之间设置硬件防火墙,在服务器及工作站上均安装防病毒软件,进行硬件和技术双保护,确保网站不受病毒和黑客攻击。(四)负责网站信息技术安全应急处理预案制订和实施。(五)安排专员监控网站各频道,各页面,各版块,各栏目信息内容,建立网站信息技术安全监控值班登记制度,发觉问题立即处理,并登记问题和处理结果登记;(六)建立多机备份网站信息服务系统机制,一旦主系统碰到故障或受到攻击造成不能正常运行,能够在最短时间内替换主系统提供服务。(七)建立网站系统集中式权限管理,根据岗位职责设定工作人员操作权限,针对不一样应用系统、终端、操作人员,设置共享数据库信息访问权限,并设置密码。不一样操作人员设定不一样用户名,且定时更换,严禁操作人员泄漏密码。4、运维服务管理体系运维服务管理体系要求了运维活动包含各类实体,和这些实体间相互关系。相关实体根据运维服务管理体系进行有机组织,并协调工作,根据服务协议要求提供不一样等级IT运维服务。4.1运维服务管理对象运维服务管理对象包含基础设施、应用系统、用户、研发部门和IT运维部门和人员,具体内容以下:(1)基础设施包含网络、主机系统、存放系统、安全系统等。(2)应用系统包含uap云管理平台、cloud门户、demo、zabbix、机房设备管理系统、vmware和yum源等。(3)用户包含使用如上应用系统用户。(4)研发部门包含Iaas平台研发部门。(5)运维部门和人员包含内部参与运维活动相关部门和人员,和提供运维服务企业和相关人员。4.2运维系统功效框架依据建设单位系统结构和业务开展需要,运维项目组将项目标维护框架分为9个具体组成部分,分别为:服务台、事件管理、工单管理、问题管理、变更管理、配置管理、工程师考评、知识库管理、统计、系统管理等9个子项。而具体运维步骤将以此为依据开展工作。4.3运维管理组织结构本运维项目标运维管理结构位三层模式,具体以下图所表示。由项目责任人和甲方进行业务范围接洽,并将沟通结果向下传输。项目经理负责项目标整体运维工作,包含多种制度制订和实施。运维工程师则在项目经理指导下开展维护工作。4.3.1运维责任人职责:负责项目商务、整体协调事宜。职位描述:1)、整体负责建设单位运维项目服务计划制订,领导项目经理并安排项目工作,指导项目经理完成具体维护工作,每七天听取项目经理工作汇报,负责考评项目经理工作完成情况。2)、帮助建设单位完成新增项目标调研、方案设计并指导项目经理进行具体实施。4.3.2运维主管职责:计划、实施、完善信息化项目标运维工作,指导网络、数据库维护工程师开展工作。职位描述:1、依据企业战略目标,指导下属工程师开展用户服务工作,确保运维工作能够满足用户实际需要;2、建立和连续完善运维管理体系,优化运维步骤步骤,处理运维服务中出现特殊问题;3、计划并提升运维工程师专业服务能力,在整体上提升用户满意度;4、制订和连续完善绩效考评体系;5、制订整理运维项目标应急预案系统,并指导运维工程师实施;6、提升本身专业技能,在业务方面给网络管理员和数据库管理员指导。4.3.3系统管理员职责:操作系统、应用、数据库管理,oracle性能调优,实现应用负载均衡。职位描述:技术主管非项目常驻人员,依据项目需要进行专业方面指导;负责数据库性能分析和调优,数据库运行状态监控,立即发觉异常并快速处理。熟练掌握Oracle10GRAC技术,能够实现布署及调优。掌握WAS、Weblogic、Tomcat、websphere等中间件工作原理,能够实现布署调优及故障处理。熟练掌握red-flag、redhat等linux操作系统,布署oracle10g、mysql数据库。熟练掌握dataguard技术,确保oracle数据库冗灾、数据保护、故障恢复。负责应用负载均衡布署和调试。负责指导数据库工程师管理员开展工作。4.3.4网络管理员职责:维护建设单位网络系统正常,处理网络相关故障。职位描述:1、对现有服务器、局域网络及机房、配线间日常管理维护;2、对信息安全建设提出相关提议,确保网络安全;3、确保外网光纤线路正常,确保局域网运行正常;4、对网络系统和网络设备运行状态进行监控;5、熟练掌握域策略设置、DHCP、DNS、FTP服务器、NTFS权限设置等;6、编写网络部分应用处理预案并实施。7、工作认真、细致,主动主动有条理性,含有良好沟通能力及团体合作精神.4.3.5应用、数据库管理员职责:维护建设单位业务系统运行正常,处理应用和数据库故障。职位描述:1、监测业务系统运行情况,应用、数据库性能监视及优化,作必需调整;2、计划不一样数据生命周期,制订备份、恢复、迁移和灾备策略,依据业务需要实施数据转换及迁移等操作;3、确保应用和数据库系统安全性、完整性和运行效率。4、负责数据库平台整体架构及处理方案制订和实施;5、工作认真、细致,主动主动有条理性,含有良好沟通能力及团体合作精神.4.4运维服务标准步骤IT运维服务管理步骤包含事件管理、问题管理、配置管理、变更管理、公布管理、服务等级管理、财务管理、能力管理、可用性管理、服务连续性管理、知识管理及供给商管理等,伴随运维活动不停深入和连续改善,其它步骤可能会逐步独立并规范。4.4.1项目运维服务工作标准步骤图4.4.2服务台(暂无)服务台是支持运维服务关键功效,和各个步骤联络亲密。全部管理步骤全部要经过服务台为用户提供单点联络,解答用户相关问题和需求,或为用户寻求对应支持人员。在本系统中,服务台是接收多种起源服务请求和相关信息反馈唯一入口和出口,同时服务台还负责通常请求、经过知识库(历史事件)能够处理请求;她也是复杂问题二线处理桥梁。因为目前人员不足,服务台工作临时由运维工程师统一处理。4.4.3事件管理事件管理步骤关键目标是立即恢复服务提供并降低其对业务不利影响,尽可能确保最好服务质量和可用性等级。事件管理步骤通常包含事件侦测和统计、事件分类和支持、事件调查和诊疗、事件处理和恢复和事件关闭。本系统把全部服务请求和报警归结为事件。事件管理是提供服务台和事件管理者对于事件统计、处理、查询、审核、派发等功效。它也包含经过和第三方监控系统对接,把其发送报警形成事件功效。4.4.4工单管理工单管理:工单是现场运维、二线支持任务载体,运维工程依据所接收工单进行运维工作。工单管理是对工单实现创建、变更、查询浏览、派发、监督等功效模块。4.4.5问题管理问题管理步骤关键目标是预防问题和事故再次发生,并将未能处理事件影响降低到最小。问题管理步骤包含诊疗事件根本原因和确定问题处理方案所需要活动,经过适宜控制过程,尤其是变更管理和公布管理,负责确保处理方案实施。问题管理还将维护相关问题、应急方案和处理方案信息。问题管理是针对已处理事件遗留问题或处理事件方案只是治标不治本不能根本处理问题而考虑模块。依据事件、及处理方案,问题处理人经过调查、诊疗并提出最终处理方法。4.4.6变更管理变更管理实现全部基础设施和应用系统变更,变更管理应统计并对全部要求变更进行分类,应评定变更请求风险、影响和业务收益。其关键目标是以对服务最小干扰实现有益变更。变更管理是要对重大资源新增、变更、升级等运维活动进行审核功效,以免这些活动对现有资源可用性造成没有必需影响和破坏;同时,她还要实现在工单中产生改变进行后审计功效。4.4.7配置管理配置管理步骤负责核实基础设施和应用系统中实施变更和配置项之间关系是否已经被正确统计下来;确保配置管理数据库能够正确地反应现存配置项实际版本状态。配置管理实际上是全部资源统一管理功效,包含资源整个生命周期参数或配置改变统计管理。管理信息关键包含分类、型号、版本、位置,状态、相关资料等基础信息还包含关键参数等4.4.8知识库管理运维知识经验总结、维护和共享是提升职员运维技能水平、增强单位凝聚力关键手段,也是把宝贵经验教训从支持人员头脑逐步沉淀、固化关键方法。知识库管理:知识库是提供给运维人员关键技术资料内容,她聚集在工作碰到经典案例归纳总结知识关键点和全方面实用资料手册。在本系统中,知识库管理提供便于使用人机接口、快速查询技术手段和维护手段。4.4.9统计及工作汇报运维管理系统提供一线处理率统计、用户满意度统计、按分类事件汇总统计、工作汇报生成功效,根据一定格式依据事件数据、工单数据、问题数据、配置数据、变更数据能够帮助运维管理者能把运维所做工作内容清楚罗列出来。5、运维服务内容5.1运维服务目标试验室运维部门提供运行维护服务包含,虚拟机、主机设备、操作系统、数据库、网络安全设备和存放设备运行维护服务,确保云管理平台正常运行,降低整体管理成本,提升Iaas平台整体服务水平。同时依据日常维护数据和统计,给研发部门提供Iaas平台优化及改善提议。试验室运维组成关键可分为两类:硬件设备和软件系统。硬件设备包含网络设备、安全设备、主机设备、存放设备等;软件设备可分为云管理平台、操作系统、经典应用软件(如:数据库软件等)等。服务项目范围覆盖信息系统资源以下方面关键状态及参数指标:运行状态、故障情况配置信息可用性情况及健康情况性能指标IT资产统计服务服务内容包含:硬件设备型号、数量、版本等信息统计统计软件产品型号、版本和补丁等信息统计统计网络结构、网络路由、网络IP地址统计统计综合布线系统结构图绘制其它隶属设备统计统计5.3网络、安全系统运维服务从网络连通性、网络性能、网络监控管理三个方面实现对网络系统运维管理,网络设备在IT架构骨干位置,下面是需要监控指标,及对应健康情况故障以后可能引发问题。设备基础性能检测:cpu、内存使用情况监测。当cpu、内存使用率过高,会造成用户网络访问质量下降,丢包、时延较高等情况产生。说明目前网络设备负载较高,需要对下行设备进行迁移,分流,减轻负载。设备日志查看;当设备日志出现异常时,可能是设备出现异常访问或异常配置,可能会造成网络中止。需要检测防火墙等安全设备状态。设备snmp、telnet状态;当snmp、telnet全部不可达时,通常是设备脱网情况产生,会造成网络中止。需要人工查看设备运行状态。测试Ping,tracert等工具连通性;当ping丢包率过高,说明网络访问质量有问题,需要tracert查看网络路径是哪一跳对应IP设备时延较高或不可达。分析是哪个网关路由或策略引发问题。网络安全策略应用是否正常;安全策略异常会造成网络设备遭受入侵,会影响整个网络访问。Internet带宽流量实时监测;流量所占带宽比较高,会造成目前网络设备对应端口网关全部网络访问质量下降。需要抓包查看是哪些设备对应访问流量较高,决定是加大带宽还是服务器中毒。网络拓扑链路状态监测;链路状态异常说明网络中某个设备异常,需要查看链路对应网络设备健康情况,结合其它指标分析问题所在。异常网络数据包流量、Dos、ddos等网络攻击情况监测;存在异常网络数据流量包等,会造成正常网络质量下降,说明网络可能受到攻击,需要结合netflow和流量情况查看异常流量访问网段,从路由策略或防火墙限制该网段访问光纤光口光功率、光电口误码率大小。光功率值不在光模块默认光功率范围内,会造成光口不可用,可能是光模块出现故障,需要联络厂家查看光模块是否正常5.4主机、存放系统运维服务提供主机、存放系统运维服务包含:主机、存放设备日常监控,设备运行状态监控,故障处理,操作系统维护,补丁升级等内容。进行监控管理内容包含:CPU性能管理;GPU指标过高,会造成服务器程序运行缓慢,出现卡死情况。需要查看引发GPU过高原因,做虚机迁移等操作,减轻服务器压力。内存使用情况管理;内存使用率过大,会造成服务器瓦解,需要立即扩充内存资源,或回收不再使用虚机资源。硬盘利用情况管理;硬盘使用率过高,会造成开始开启失败,需要定时清理服务器临时文件,或扩充服务器硬盘。系统进程管理;服务器关键进程运行是否正常,异常会造成服务器瓦解,需要查看进程异常原因。实时监控主机电源、风扇使用情况及主机机箱内部温度;电源状态异常,可能会造成服务器断电,风扇异常,主机稳定过高会造成服务器重启,需要和厂商联络,查看硬件是否正常监控主机硬盘运行状态;硬盘读写状态等标识硬盘可用性,需要查看是否硬盘压力过大,考虑更换存放类型ssd等监控主机网卡等硬件状态;主机网卡down掉,会影响服务器网络访问,硬件异常会影响服务器正常运行,需要联络厂商做硬件检测。监控主机HA运行情况;灾备系统运行异常,会造成HA切换异常,需要查看引发HA异常原因,是软件问题还是硬件问题,逐步排除原因。5.5数据库系统运维服务提供数据库运行维护服务是包含主动数据库性能管理,数据库主动性能管理对系统运维很关键。经过主动式性能管理可了解数据库日常运行状态,识别数据库性能问题发生在什么地方,有针对性地进行性能优化。同时,亲密注意数据库系统改变,主动地预防可能发生问题。进行监控管理内容包含:数据库基础信息:文件系统、碎片、死锁、CPU占用率较大或时间较长SQL语句。存在上面会造成业务访问缓慢,需要定位那些SQL占用内存较大或死锁,针对具体情况进行优化代码。表空间使用信息监测;表空间占用太大会影响查询效率,需要优化存放结构,将集中存放换为单表文件,索引依据实际业务进行优化,是否需要索引,或索引删除重建,或建立分区表。数据库文件I/0读写情况;数据库I/0反应数据库瓶颈,查看引发I/O较大原因是业务量较大还是服务器I/O现在,更换存放类型,必需情况下更换内存数据库等。Session连接数量监控;Session长链接数量较大会造成数据库负载较高,需要考虑将长链接更换为短连接。数据库监听运行状态监测;数据库运行状态为down会造成业务中止,查看是业务层还是网络层引发问题,假如为网络层,需要对网络情况排除,假如为业务层造成,要进行SQL优化。查看每日数据备份、数据同时是否正常;数据库备份异常,会造成备份数据丢失,对于数据库迁移,和数据恢复造成不可恢复影响,需要具体查看引发该问题是数据库本身还是服务器问题,具体问题具体分析处理。对表和索引进行Analyze,检验表空间碎片;数据库表和索引占用量太大会影响查询效率,需要调整表结构或索引删除重建。数据库对象空间扩展情况监测;表空间扩展太快会造成数据库服务器存放空间占满,数据库down掉等异常情况,需要优化表结构。5.6云管理平台运维服务云管理平台关键包含管理节点、计算节点、存放节点运维。同时,实时监控关键虚拟机,确保关键业务不中止。关键内容包含:ManagementServer状态及性能监控(cpu、内存、磁盘、io、mysql数据库、系统及应用日志等);虚拟化主机agent状态监控;主存放及二级存放使用率监控;数据中心虚拟资源(cpu、内存、磁盘)使用量监控;单台计算节点cpu、内存分配及实际使用量监控;单台存放节点硬盘分配及实际使用量监控;虚拟机模版、网络、方案策略制订;系统虚拟机、虚机路由状态监控;非计费用户闲置虚拟资源回收;用户资源审批、账户充值及余额管理;虚拟机外网网络及端口开通;计算节点主机及存放节点扩容;5.7运维工具监控工具试验室选择开源运维工具Zabbix,Zabbix是一个基于WEB界面提供分布式系统监控和网络监控功效企业级开源运维平台,也是现在中国互联网用户中使用最广监控软件。 Grafana-zabbix展示效果入门轻易、上手简单、功效强大而且开源无偿是对Zabbix最直观评价。Zabbix易于管理和配置,能生成比较漂亮数据图,其自动发觉功效大大减轻日常管理工作量,丰富数据采集方法和API接口能够让用户灵活进行数据采集,而分布式系统架构能够支持监控更多设备。理论上,经过Zabbix提供插件式架构,能够满足企业任何需求。优点:1.支持多平台企业级分布式开源监控软件;2.安装布署简单、管理方便;3.功效强大,监控灵活,可实现复杂多条件告警;4.多个数据采集插件,灵活集成;5.自带画图功效,得到数据能够绘成图形;6.同时支持调用脚本,很方便;7.提供多个API接口,定制化最高监控软件;8.出现问题时可自动远程实施命令(需对agent设置实施权限);缺点:1.项目批量修改不方便;2.小区即使成熟,不过汉字资料相对较少,服务支持有限;3.入门轻易,能实现基础监控,不过深层次需求需要很熟悉Zabbix并进行大量二次定制开发,难度较大;4.系统等级报警设置相对比较多,假如不筛选话报警邮件会很多;而且自定义项目报警需要自己设置,过程比较繁琐;5.缺乏数据汇总功效,如无法查看一组\o"服务器"服务器平均值,需进行二次开发;6.数据报表需要特殊二次开发定义;试验室监控体系也有集中式监控扩展到分布式监控,监控系统之间耦合性逐步降低。在分布式系统中,整个系统有一个监控中心服务器,若干个子监控服务器和被监控对象组成,每一个子监控服务器负责监控属于它所属子系统,不一样子系统之间也不完全独立,她们之间规模也不大,产生数据也不是很大。这么就大大减小中心监控服务器工作压力。图:分布式监控架构分布式监控关键分三个层次,最底层是需要监控节点,她经过开启snmp服务或主动发送trapped或开启agent进程。搜集每个节点状态信息,并向监控子服务器发送搜集信息。中间层是proxy服务器层,它负责搜集每个节点发送给它监控信息,然后向中心监控服务器发送搜集到监控信息。最上面一层是中心监控服务器,它关键负责搜集每个子监控服务器数据,然后存入数据库,再经过web服务器发送提供展现、查询、等服务。分布式监控结构将大量数据采集工作分散到每个监控子系统中,从而极大降低了监控中心服务器压力,降低了网络负载,不过也可能带来一定系统延迟。Zabbix性能优化:性能指标采集方法依据不一样指标类型进行指标分组,如CPU组、内存组、文件系统组、进程组等,每个性能组又对应若干个性能,依据不一样用户对于不一样指标关注度不一样,指标采集力度也不一样,如CPU内存等实时度要求比较高,需要1分钟采集一次,而对应存放硬盘检测可能趋势改变不大,所以采集力度可能比较大一周或一月。而伴随设备量增加,虚机扩张变快,zabbix服务器优化不得不加入考虑,Zabbix即使采取分布式结构,不过指标计算(根据通用指标统计):2500(服务器数量)*15(指标数量)*3600(一天)=Zabbixserver性能同过查看指标,每秒处理数和等候队列长度Zabbix数据库调优:使用innodb,为每一张数据库表使用一个文件,修改my.cfinnodb_file_per_table=1;使用分区表关闭houerkeeper,zabbix_server.conf参数DisableHousekeeper=1;使用分区表,需要建立分区相关表f配置文件相关样例以下图:6、应急服务响应方法运维项目组制订了详尽应急处理预案,整个步骤严谨而有序。但在服务维护过程中,意外情况将难以完全避免。我们将对项目实施突发风险进行具体分析,而且针对各类突发事件,设计了对应预防和处理方法,同时提供了完

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论