运行维护管理体系和制度规范_第1页
运行维护管理体系和制度规范_第2页
运行维护管理体系和制度规范_第3页
运行维护管理体系和制度规范_第4页
运行维护管理体系和制度规范_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

运行维护治理体系和制度标准132333456674。工程经理84。3.49。5104。3。5104。3。7114。411124。4.283。4.394。4。49--10-4。4。594。4.6104。4。710。8104。4.9115、运维效劳内容115。111。2125。3125。4135。6165。7176、应急效劳响应措施206。120207217。1217.2221、总则维工作制度化、流程化、标准化,特制订本制度。其次条运维工作总体目标:立足根本促进展,开拓运维局面。在企业进展壮大时期,通过网络、桌面、系统等的运维,促进企业稳定可持续性进展。第三条运维治理制度的适用范围:运维人员。2、编制方法本实施细则包括运维效劳全生命周期治理方法、治理标准/标准、治理模式、治理支撑工具、治理对象以及基于流程的治理方法。本实施细则以ITIL/ISO20230为根底,以信息化工程的运维为目以全生命周期的PDCA系化治理.3、运维部工作职责一、负责网站运维和技术支持(一〕,负责网站整体架构、栏目、应用系统等技术开发方案制定和组织开发,保障网站技术的稳定性和先进性。〔二〕负责网站栏目和应用系统的使用培训和操作使用指南编写,对用户使用过程中消灭问题的沟通和解决。〔三〕网站设备和软件购置打算书的拟定,包括选购数量、品牌规格、技术参数。会同行政部进展选购.〔四)网站设备和软件操作规程和应用治理制度的制定,并负责监视执行。(五〕网站设备和软件安装、调试和验收,使用培训和修理保养。〔六24〔七〕网站技术效劳外包治理,主要包括技术外包开发、运行效劳托管和空间域名治理.〔八)负责网站治理系统及设备保密口令的设置和保存,保密口密口令每季度更一次.(九〕负责网站程序、系统和网站改版升级方案技术的设计开发。二、负责网站信息和技术安全〔一信治理和网络安全监管部门联络,准时处理网站信息技术安全方面存在的问题,确保网站安全、稳定、牢靠运行。〔二)网站信息技术安全保密制度和工作流程的制定,落实信息技术安全保密责任制,执行“谁主管、谁负责,谁主办、谁负责”的原则,责任到人。(三〕在效劳器和计算机之间设置硬件防火墙,在效劳器及工毒和黑客攻击。〔四〕负责网站信息技术安全应急处理预案制定和实施。〔五〕安排专人监控网站各频道,各页面,各版块,各栏目信息内容,建立网站信息技术安全监控值班登记制度,觉察问题准时处理,并登记问题和处理结果登记;效劳.(七建立网站系统集中式权限治理,依据岗位职责设定工作人员操作权限,针对不同应用系统、终端、操作人员,设置共享数据库信息的访问权限,并设置密码。不同的操作人员设定不同的用户名,且定期更换,严禁操作人员泄漏密码。4、运维效劳治理体系运维效劳治理体系规定了运维活动涉及的各类实体,以及这些实体间的相互关系。相关的实体依据运维效劳治理体系进展有机组织,并协调工作,依据效劳协议要求供给不同级别的IT运维效劳。4.1运维效劳治理对象包括根底设施、应用系统、用户、研发部门以及IT运维部门和人员,具体内容如下:〔1〕根底设施包括网络、主机系统、存储系统、安全系统等。〔2)应用系统包括uap云治理平台、cloud门户、demo、zabbix、机房设备治理系统、vmware以及yum源等。〔3〕用户包括使用如上应用系统的用户。(4)研发部门包括Iaas平台研发部门。运维部门和人员包括内部参与运维活动的相关部门和人员,以及供给运维效劳的企业和相关人员。4。2依据建设单位的系统构造和业务开展需要,运维工程组将工程的维护框架分为9个具体组成局部,分别为:效劳台、大事治理、工单治理、问题治理、变更治理、配置治理、工程师考核、学问库治理、统计、系统治理等9个子项.而具体运维流程将以此为依据开展工作。4。3师则在工程经理的指导下开展维护工作.4.3。1职责:负责工程商务、整体协调事宜。职位描述:1〕、整体负责建设单位运维工程效劳打算的制定,领导工程经理并安排工程工作,指导工程经理完成具体维护工作,每周听取工程经理的工作汇报,负责考核工程经理工作完成状况。2〕、帮助建设单位完成增工程的调研、方案设计并指导工程经理进展具体实施。4.3.2职责:规划、执行、完善信息化工程的运维工作,指导网络、数据库维护工程师开展工作。职位描述:1、依据公司战略目标,指导下属工程师开展客户效劳工作,确保运维工作能够满足客户的实际需要;2效劳中消灭的特别问题;3、规划并提升运维工程师专业效劳力气,在整体上提高客户满足度;4、制定和持续完善绩效考核体系;5、制定整理运维工程的应急预案系统,并指导运维工程师实施;6员指导。4.3。3,oracle性能调优,实现应用负载均衡。职位描述:1、 技术主管非工程常驻人员,依据工程需要进展专业方面指导;2、 负责数据库性能分析与调优,数据库运行状态监控,准时觉察特别并快速处理。3、 娴熟把握Oracle10G的RAC技术,能够实现部署及调优。4、 把握WAS、Weblogic、Tomcat、websphere等中间件的工作原理,能够实现部署调优及故障解决。5、 娴熟把握red—flag、redhat等linux操作系统,部署oracle10g、mysql数据库。娴熟把握dataguard技术,保证oracle数据库冗灾、数据保护、故障恢复。6、 负责应用负载均衡的部署和调试。7、 负责指导数据库工程师治理员开展工作。。4职责:维护建设单位网络系统正常,解决网络相关故障.职位描述:1、对现有效劳器、局域网络及机房、配线间的日常治理维护;2、对信息安全建设提出相关建议,确保网络的安全;3、保证外网光纤线路正常,保证局域网运行正常;4、对网络系统和网络设备的运行状态进展监控;置等;6、编写网络局部的应用处理预案并实施。7、工作认真、细致,乐观主动有条理性,具有良好的沟通力气及团队合作精神.4。3。5职位描述:1、监测业务系统运行状况,应用、数据库性能监视及优化,作必要调整;2、规划不同数据的生命周期,制订备份、恢复、迁移和灾备策略,依据业务的需要执行数据转换及迁移等操作;3、保证应用和数据库系统的安全性、完整性和运行效率。4、负责数据库平台的整体架构及解决方案的制定和实施;5团队合作精神。4。4IT入和持续改进,其他流程可能会逐步独立并标准。4。4.14。4。2〔暂无〕效劳台是支持运维效劳的核心功能,与各个流程联系亲热。全部治理流程都要通过效劳台为用户供给单点联系,解答用户的相关问题和需求,或为用户寻求相应的支持人员。在本系统中,效劳台是接收各种来源效劳恳求和相关信息反响的唯一入口和出口,同时效劳台还负责一般恳求、通过学问库(历史大事)能够解决的恳求;他也是简洁问题二线处理的桥梁。由于当前人员缺乏,效劳台的工作临时由运维工程师统一处理。4。4.3大事治理流程的主要目标是尽快恢复效劳供给并削减其对业务的不利影响,尽可能保证最好的效劳质量和可用性等级。大事治理流程大事的解决和恢复以及大事的关闭。台和大事治理者对于大事记录、处理、查询、审核、派发等功能。它也包括通过和第三方监控系统对接,把其发送报警形成大事的功能。4。4.4所接收工单进展运维工作。工单治理是对工单实现创立、变更、查询扫瞄、派发、监视等功能的模块。。5问题治理流程的主要目标是预防问题和事故的再次发生,并将未有关问题、应急方案和解决方案的信息。问题治理是针对已处理大事的遗留问题或处理大事的方案只是治问题处理人经过调查、诊断并提出最终解决方法。4。4。6变更治理实现全部根底设施和应用系统的变更,变更治理应记录收益.其主要目标是以对效劳最小的干扰实现有益的变更。变更治理是要对重大资源的增、变更、升级等运维活动进展审破坏;同时,他还要实现在工单中产生的变化进展后审计的功能.4。4.7配置治理流程负责核实根底设施和应用系统中实施的变更以及配准确地反映现存配置项的实际版本状态。配置治理实际上是全部资源的统一治理的功能,包括资源整个生命周期的参数或配置的变化记录的治理.治理信息主要涉及分类、型号、版本、位置,状态、相关资料等根本信息还包括核心参数等4.4。8运维学问阅历的总结、维护和共享是提高员工运维技能水平、增加步沉淀、固化的重要方式。学问库治理:学问库是供给应运维人员重要的技术资料内容,他集合在工作的遇到的典型案例归纳总结的学问要点和全面有用资料手册。在本系统中,学问库治理供给便于使用的人机接口、快速查询的技术手段和维护手段。4。4.9运维治理系统供给一线解决率统计、客户满足度统计、按分类的大事汇总统计、工作报告生成的功能,依据确定格式依据大事数据、工单数据、问题数据、配置数据、变更数据可以帮助运维治理者能把运维的所做的工作内容清楚的排列出来。5、运维效劳内容运维效劳目标试验室运维部门供给的运行维护效劳包括,虚拟机、主机设备、操作系统、数据库、网络安全设备和存储设备的运行维护效劳,保证IaasIaas台优化及改善建议。试验室运维的组成主要可分为两类:硬件设备和软件系统。硬件设备包括网络设备、安全设备、主机设备、存储设备等;软件设备可分为云治理平台、操作系统、典型应用软件(如:数据库软件等〕等。效劳工程范围掩盖的信息系统资源以下方面的关键状态及参数指标:运行状态、故障状况配置信息可用性状况及安康状况性能指标IT资产统计效劳效劳内容包括:硬件设备型号、数量、版本等信息统计记录软件产品型号、版本和补丁等信息统计记录网络构造、网络路由、网络IP综合布线系统构造图的绘制其它附属设备的统计记录5。3从网络的连通性、网络的性能、网络的监控治理三个方面实现对IT要监控的指标,及对应安康状况故障以后可能引起的问题。设备根底性能检测:cpu、内存使用状况监测。当cpu、内存使用率过高,会导致用户网络访问质量下降,丢包、时延较高等状况的产生。说明当前网络设备负载较高,需要对下行设备进展迁移,分流,减轻负载.设备日志查看;当设备日志消灭特别时,可能是设备消灭特别访问或者特别配置,可能会导致网络中断。需要检测防火墙等安全设备状态.设备snmp、telnetsnmp、telnet会导致网络中断.需要人工查看设备运行状态。测试Ping,tracert当pingtracertIP分析是哪个网关路由或者策略引起的问题.网络安全策略应用是否正常;安全策略特别会导致网络设备患病入侵,会影响整个网络的访问.Internet网络访问质量下降.需要抓包查看是哪些设备对应的访问流量较高,打算是加大带宽还是效劳器中毒。网络拓扑链路状态监测;链路状态特别说明网络中某个设备特别,需要查看链路对应的网络设备安康状况,结合其他指标分析问题所在。特别网络数据包流量、Dos、ddos存在特别网络数据流量包等,会导致正常的网络质量下降,说netflow流量的访问网段,从路由策略或者防火墙限制该网段的访问光纤光口光功率、光电口误码率大小。光功率值不在光模块的默认光功率范围内,会导致光口不行常主机、存储系统运维效劳供给的主机、存储系统的运维效劳包括:主机、存储设备的日常监控,设备的运行状态监控,故障处理,操作系统维护,补丁升级等内容。进展监控治理的内容包括:CPUGPUGPU压力.内存使用状况治理;或者回收不再使用的虚机资源。硬盘利用状况治理;硬盘使用率过高,会导致开头启动失败,需要定期清理效劳器临时文件,或者扩大效劳器硬盘.系统进程治理;查看进程特别缘由。实时监控主机电源、风扇的使用状况及主机机箱内部温度;电源状态特别,可能会导致效劳器断电,风扇特别,主机稳定监控主机硬盘运行状态;考虑更换存储类型ssd监控主机网卡等硬件状态;down响效劳器正常运行,需要联系厂商做硬件检测.HAHAHA的缘由,是软件问题还是硬件问题,逐步排解缘由.数据库系统运维效劳供给的数据库运行维护效劳是包括主动数据库性能治理,数据库据库的日常运行状态,识别数据库的性能问题发生在什么地方,有针对性地进展性能优化。同时,亲热留意数据库系统的变化,主动地预防可能发生的问题。进展监控治理的内容包括:数据库根本信息:文件系统、碎片、死锁、CPU占用率较大或SQLSQL大或者死锁,针对具体状况进展优化代码。表空间使用信息监测;引,或者索引删除重建,或者建立分区表。I/0I/0I/O量较大还是效劳器I/O内存数据库等。SessionSession长链接更换为短连接.数据库监听运行状态监测;down网络层引起的问题,假设为网络层,需要对网络状况排解,假设为业务层导致,要进展SQL查看每日数据备份、数据同步是否正常;数据库备份特别,会导致备份数据丧失,对于数据库迁移,和据库本身还是效劳器问题,具体问题具体分析解决。对表和索引进展Analyze,检查表空间碎片;或者索引删除重建。数据库对象的空间扩展状况监测;表空间扩展太快会导致数据库效劳器存储空间占满,数据库down云治理平台运维效劳实时监控重点虚拟机,保证主要业务不中断。主要内容包括:Server〔cpu、内存、磁盘、io、mysql数据库、系统及应用日志等;agent主存储及二级存储使用率监控;数据中心虚拟资源〔cpu、内存、磁盘〕使用量监控;单台计算节点cpu、内存安排及实际使用量监控;单台存储节点硬盘安排及实际使用量监控;虚拟机模版、网络、方案策略制定;系统虚拟机、虚机路由状态监控;非计费用户闲置虚拟资源回收;用户资源审批、账户充值及余额治理;虚拟机外网网络及端口开通;计算节点主机及存储节点扩容;运维工具监控工具前国内互联网用户中使用最广的监控软件.Grafana-zabbix呈现效果入门简洁、上手简洁、功能强大并且开源免费是对Zabbix的最直观评价。Zabbix易于治理和配置,能生成比较秀丽的数据图,其自动觉察功能大大减轻日常治理的工作量,丰富的数据采集方式和API接口可以让用户灵敏进展数据采集,而分布式系统架构可以支持监控更多的设备。理论上,通过Zabbix供给的插件式架构,可以满足企业的任何需求。优点:1.23.功能强大,监控灵敏,可实现简洁多条件告警;4自带画图功能,得到的数据可以绘成图形;同时支持调用脚本,很便利;供给多种API接口,定制化最高的监控软件;消灭问题时可自动远程执行命令〔需对agent设置执行权限〕;缺点:1。工程批量修改不便利;2入门简洁,能实现根底的监控,但是深层次需求需要格外生疏Zabbix并进展大量的二次定制开发,难度较大;系统级别报警设置相比照较多,假设不筛选的话报警邮件会很多;并且自定义的工程报警需要自己设置,过程比较繁琐;5二次开发;6.试验室监控体系也有集中式监控扩展到分布式监控,监控系统之间的耦合性逐步降低。效劳器和被监控对象组成的,每一个子监控效劳器负责监控属于它所压力。图:分布式监控架构动snmp效劳或者主动发送trapped或者启动agent的状态信息,并向监控子效劳器发送收集的信息。中间层是proxy效劳web效劳器发送供给呈现、查询、等效劳。分布式的监控构造将大延迟。Zabbix性能优化:CPU组、内存组、文件系统组、进程组等,每共性能组又对应假设干共性能,依据不同用户对于不同指标关注度不同,指标采集力度也不同,如CPU内存等实时度要求比较高的,需要1分钟采集一次,而对应存储的硬盘检测可能趋势变化不大,所以采集力度可能比较大一周或者一月.而随着设备量的增加,虚机的扩张变快,zabbix效劳器的优化不得不参与考虑,Zabbix虽然承受分布式构造,但是指标计算〔依据通用指标统计):2500〔效劳器数量)*15〔指标数量)*3600(一天)=135000000Zabbixserver的性能同过查看指标,每秒处理数和等待队列长度Zabbix数据库调优:使用innodbmy。cfinnodb_file_per_table=1;使用分区表关闭houerkeeper,zabbix_server.confDisableHousekeeper=1;使用分区表,需要建立分区的相关表f配置文件相关样例如以以下图:6、应急效劳响应措施运维工程组制定了详尽的应急处理预案,整个流程严谨而有序。的突发风险进展具体分析,并且针对各类突发大事,设计了相应的预防与解决措施,同时供给了完整的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论