大数据中心运维解决方案_第1页
大数据中心运维解决方案_第2页
大数据中心运维解决方案_第3页
大数据中心运维解决方案_第4页
大数据中心运维解决方案_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据中心运维解决方案

目录

1运维目标及对象...............................................4

2运维工作内容.................................................4

3工单及故障处理流程...........................................6

3.1.工单处理流程..............................................6

3.2.故障处理流程..............................................7

4运维服务方案建议书............................................8

4.1运维支持人员..............................................8

4.1.1驻场运维...............................................8

4.1.2二线运维..............................................9

4.2日常工作内容...............................................9

4.2.1云平台运维............................................9

4.2.2服务器存储运维.......................................10

4.2.3网络管理运维.........................................11

4.2.4桌面运维.............................................11

4.3服务流程..................................................13

4.3.1运维流程..............................................13

4.3.1.1事件管理..........................................13

4.3.1.2变更管理..........................................17

4.3.1.3配置管理..........................................24

4.3.2运维服务电话..........................................29

4.3.3管理流程接口及分工界面................................29

4.3.4双方工作职责..........................................31

4.4节假日运维保障............................................32

4.5服务承诺..................................................33

4.6工作规范与考核............................................33

4.7提交文档..................................................36

4.8项目验收..................................................38

5.应急处置预案................................................40

5.1应急预案..................................................40

5.2应急方案制定更新与演练....................................43

5.3紧急故障应急预案制定及处理服务规范........................44

5.4应急演练..................................................45

1运维目标及对象

云平台的运维工作以保障云平台的稳定性、各个云产品的可用性以及基础

软件的可用性为目标,具体运维的产品列表如下:

产品名称产品描述

ECS弹性计算服务

RDS关系型数据库服务

OSS开放存储服务

SLB负载均衡服务

OTS开放结构化数据服务

ODPS开放数据处理服务

ADS分析数据库服务

BASE数据管理服务

ERMS云产品管理控制台

2运维工作内容

云平台运维工作内容包括:

1)资源管理

对云平台的物理资源及产品库存资源进行管理。随时掌握产品资源情况,为

客户的各种资源需求提供参考和建议,如库存水位超限需及时发出预警。

2)产品技术支持

用户在云产品的开通、使用过程中相关问题的咨询、解答、解决。

3)告警处理及监控优化

及时发现和处理云平台的告警,对现有的监控项不断进行改进和优化。

4)日常巡检

对云平台进行巡检,掌握各类运行情况,提前发现隐患并跟进解决,避免引

发故障。

5)故障处理

故障的发现、响应、到场排查、初步判定及解决。不能解决的情况,及时联

系二线支持,在二线支持的指导下现场解决。故障后,对问题进行review、总结

和改进。

6)问题收集及跟进

云平台的全方位问题收集、反馈、并跟进解决,推进专有云产品的不断完善。

3工单及故障处理流程

3.1.工单处理流程

三芟W蜚

流程关键节点说明

主要关键节点说明:

问题提交:用户有田可问题,通过工单平台以工单的形式提单到G0Co

工单流转:用户在阿里官网通过工单系统提交工单会直接到GOC-监控

工作内容

中心团队。(注:GOC只处理阿里云平台和产品相关故障,不涉及应用

简述

层问题。)

视问题需要,GOC将协调现场支持,现场支持人员可在4小时内到达

现场。

交付物《工单处理记录》

3.2.故障处理流程

故障处理流程如下:

故障处悭流程

C

-sH处理故潼故障解决

<

关键点说明如下:

流程关键节点说明

故障主要关键节点说明:

故障来源有2类:监控发现和用户反馈

故障需要确认。计划中的变更引起的异常,用户使用造成的问题等不判

定为故障。

报障信息:客户报障需要描述准确故障现象、业务影响、页面URL、IP

地址、问题发生时间、报错前操作截图和报错截图、ping和tracert截

工作内容图等,可引导客户提交工单来提供故障信息、。(详情见故障信息提交模

板)

确认故障后5分钟内发送故障通告。

如果故障处理超过2小时,故障支持每2小时更新进展。

故障中如需现场支持,GOC将协调人员在4小时内到达现场。

故障后将对问题进行跟踪,包括:问题原因、问题跟进责任人、改进措

施、预计解决时间点、验收标准等。

交付物《故障通告》、《故障报告》

4运维服务方案建议书

4.1运维支持人员

运维支持包括驻场运维及二线运维,驻场运维可以通过电话/工单联系二线

运维。

4.1.1驻场运维

驻场运维人员的工作内容包括各类日常巡检、问题处理、监控优化等以保

障平台稳定性及高效运行。同时,驻场运维工程师将视具体需求承担一定的场

内运维工程师的技术咨询和培训。

•的驻场运维人员:付金龙,电话/p>

4.1.2二线运维

对于云平台的二线运维,提供大客户技术经理、技术支持。

的客户技术经理:电话。

技术支持提供7*24服务,负责日常工单转派和紧急事务的协调。技术支

持的后端支持团队包括平台运维、大数据运维、网络运维、数据库运维、技术

支持。

问题受理渠道

工单入口问题受理的官方正式渠道,任何问题均需由场

内运维服务提供人员提交工单。

热线电话热线电话为故障的紧急申报渠道,以及问题处

理过程中的辅助沟通渠道。紧急故障驻场运维

服务提供人员电话申报后需立即补提工单。紧

急问题处理过程,二线运维与驻场运维电话沟

通。

4.2日常工作内容

4.2.1云平台运维

驻场运维人员需要定时对云平台进行巡检工作,以保证专有云运行的安全性

和稳定性,及时发现故障和问题,在第一时间进行处理,减少故障带来的损失、

维修费用、人员成本和消耗,并提高云平台运行的经济性和完好率,掌握资源的

使用情况,包括水位和性能,保证足量资源投入运行,保证投资效果

云平台巡检工作内容请参见-附件2《***项目云平台巡检手册》

项目具体工作内容备注

1、数据库、文件备份与恢复;

2、应用程序备份与恢复;

3、多台服务器间的数据库同步;

1.数据备份、迁移类

4、应用程序迁移,包括配置、权限、站点文

件、附件等迁移;

5、数据库、文件迁移

6、数据迁移;

1、系统、网站异常排查,日志维护、审计;

2、系统账户维护、异常账户检查;

3、系统各类服务、端口开启与关闭;

4、系统、站点漏洞排查、漏洞修复、病毒及

木马清理、防火墙策略、安全加固及调优;

5、各类应用软件安装配置、参数配置、版本

升级;

6、磁盘分区、加载及清理空间;

7、数据库配置、重装、升级,报错联调;

8、实时监控系统运行状态检查,联调;

2.技术运维类

9、系统、网络、数据库、站点运行状况巡

检,出具巡检报告;

10、系统资源、应用程序、进程优化;

11、木马、黑客攻击防范;

12、系统、应用程序高可用配置;

13、应用故障、报错排查;

14、网站负载排查、网站配置文件修复、网

站代码调试;

15、站点故障排查(针对网站无法打开,访

问慢等情况)

1、系统基础环境搭建(US、asp、.net、

Apache、nginx、MySQL、FTP等软件安装及参

数调整)

3.环境安装&网站搭

2、伪静态组件安装及调试;

建类

3、云平台安全环境配置;

4、云平台状态监测;

5、多机负载均衡配置;

4.2.2服务器存储运维

项目具体工作内容备注

1.巡检频率:每周一次

PC服务器和操作系统2检查CPU使用情况、内存使用情况、磁盘

维护状况、操作系统日志。

3.每周进行系统分析并提交报告;

1.巡检频率:每周一次

SAN网络维护2.检查系统配置情况、整理标签和线缆

3.每周进行系统分析并提交报告;

1.巡检频率:每周一次

2.检查备份作业、验证备份有效性、备份介质

备份系统

异地存放。

3.每周进行系统分析并提交报告;

1.巡检频率:每周一次

2.检查硬件状态灯、检查系统配置情况、检查

存储设备维护

系统日志

3.每周进行系统分析并提交报告;

1.巡检频率:每周一次

2.检查机房环境温湿度、配电设备运行情况、

机房巡检

空调运行状况等。

3.每周进行系统分析并提交报告;

1.根据应用系统要求调整服务器、存储配置;

配合应用系统调整配厂商进入机房,

2.较为复杂的,如排查故障。

置(大)需陪站

3.按每套系统每年一次调整计算

1.根据应用系统要求调整服务器、存储配置。

配合应用系统调整配厂商进入机房,

2.较为简单的,如更新程序。

置(小)需陪站

3.按每套系统每半年一次调整计算

4.2.3网络管理运维

项目具体工作内容

网络技术支持网络诊断解决,按每台设备每年发生1次网络故障计算

网络链路物理问题修维修内外网网点的故障,按每个物理点位每5年发生一次故障

复计算

网络设备配置信息备对网络设备的配置信息进行备份,以备设备故障时恢复。

份固定每半年1次,更改后立即备份。

核心网络设备巡检核心设备状态检查,网络设备路由状态查看每周1次

接入设备巡检网络设备巡查1个月一次(包括内网和外网\

内网机房巡检内网机房巡检每周一次。

4.2.4桌面运维

项目具体工作内容备注

1.接听热线电话。

2.记录事件,尝试电话解决,一线解决率不

彳肝50%

服务台是运维工作的总

服务台3.监督现场工程师工作,将事件处理结果反

调度

馈给用户。

4.每周分析报告,对于高频事件,升级为问

题,交由二线解决。

1、现场技术支持,按5年1次频率计算。

W历技术支持厂商现场维修需陪站,

2、复杂的,原因未知的故障,如软件冲

(大)存储介质免回收

突、硬件损坏更换。

3、包括PC机、打印机、读卡器等各种硬

件设备和操作系统。

1、现场技术支持,按2年1次频率计算。

2、较为复杂的,如重装系统、重装软件、

现场技术支持不能按照常规方法排错的。

(中)3、打印机故障,如卡纸、配件损坏。

4、包括PC机、打印机、读卡器等各种硬

件设备和操作系统。

1、现场技术支持,按1年2次频率计算

、较为简单的,如程序使用问题、简单硬

现场技术支持2

件故障、软件调试配置等。

(小)

3、包括PC机、打印机、读卡器等各种硬

件设备和操作系统。

1.巡检频率:每季度一次

2.检查客户端工作是否正常、清理灰尘、整

客户端设备巡

理线缆。

检3.检查靠统配置和参数是否与文档一致。

1、根据应用系统需求或网络需求更改客户

客户端配置调端酉己置

整2、更改配置时应符合安全规定。

3、按每年一次计算

1.参与组织新用户信息系统培训

参与组织用户2.会场准备、设备调试、人员通知、人员考

培训核

3.每季度一次,每次2场

1.设备发放、管理

日常行政事务2.传送公文、领用办公用品

3.其他办公室行政事务

4.3服务流程

4.3.1运维流程

4.3.1.1事件管理

事件管理的目标是尽快恢复客户正常的IT服务,将业务操作受到的负

面影响降为最低,同时根据服务级别指标确保尽可能高的服务质量和可用性,

最大程度上减小事件对客户业务的影响。

运维工程师在日常工作中将及时响应设备的突发故障和其他服务请求,进

行处理、协调、升级和记录等工作。以赢得用户高满意度,达到期望的服务质

量。

4.3.1.1.1故障分类

业务故障:由于信息系统硬件设备不能正常运行、应用软件错误、系统接

口故障、人为差错等原因,造成信息系统相关功能无法正常使用。

设备故障:信息系统的主备用设备由于各种原因不能正常运行,对业务正

常的运行造成隐患,但尚未影响相关功能的正常使用。

在业务故障和设备故障同时出现的情况下,定义为业务故障。

.2事件管理流程目标

准确记录所有事件并进行分类;

以最快的速度帮助用户解决故障或进行故障升级,力求使故障对用户的影

响最小化;

准确回答用户的查询问题并给予用户及时地反馈信息,达到故障状态透明

化,提高用户满意度;

产生故障的统计汇总报告,提供运维管理所需信息,为工作量的考核提供

参考依据。

.3事件管理流程图

流程图相关符合说明:

=流程起始点=子流程活动=流程接口

.4流程说明

步骤输入步骤描述输出

事件的提交人可以通过各种渠道获

取事件信息,包括监控系统;

支持人员填写的驻场支持团队人员负责了解事件症

1.事件侦事件单、监控工状,准确记录在系统或电子表单完整的事件

测和记录具自动创建的事中;单

件单其他支持人员如果在日常工作中发

现事件,可直接记录在系统或电子

表单中并进行分配。

驻场支持团队人员对事件进行分类

2.分类和包括事件的优先级、影响度、紧急分类和分配

完整的事件单

现场支持度和分类;的事件单

通过查询知识库尝试解决事件;

步骤输入步骤描述输出

如果驻场支持团队支持可以解决事

件,流程进入步骤"4.解决和恢

复";

如果驻场支持团队无法解决事件,

则将事件根据分类分派给相应的专

家支持团队或协调联系第三方设备

厂商更换备件支持;

对于无法分类的事件,驻场支持团

队人员将事件升级给客户方管理

员。

专家支持团队对事件进行调查和诊

断,给出解决方案,流程进入步骤

"4.解决和恢复";

若未找出解决方案且需要对事件请

3.调查和分类和分配的事求重新分配,专家技术支持将事件

解决方案

诊断件单提交事件经理,重新分派此事件;

如果未找到解决措施,且专家支持

需要找到事件的根本原因,专家支

持为事件创建问题;场是交给厂商

支持进行处理。

4.解决和已解决的事

解决方案根据解决方案解决故障,恢复运行

恢复件单

5联系厂联系原厂商/第三方维保服务提供商故障处理记

厂商报障

商进行故障处理,或进行备件更换录

6解决和原厂商/第三方维保服务提供商解决已解决的事

解决方案

恢复故障,或更换备件,恢复运行。件单

7故障处由运维支持团队向客户提交故障处故障处理报

理汇报理报告告

事件解决后,由驻场支持团队人员

与客户方管理员进行确认,如果用

8.与用户确户没有确认事件的解决,则重新分

已解决的事件单

认配该事件继续进行调查和诊断。

如果有新的解决方案,则更新知识

库;

得到用户确认后,可将事件关闭,

已得到用户确认关闭的事件

9.事件关闭关闭前需要检查信息是否都记录正

的事件单单

确。

该步骤监控所有事件的生命周期;

10.监控事

事件对关键时间点进行监控,并根据升级的事件

SLA、OLA、UC进行升级。

.5流程接口说明

流程接口接口方式流程描述客户原厂

驻场运维专家支运维

团队持团队团队

用户申报故障、

服务管理平服务请求

故障受理台、故障工负责故障侦测、负责

单受理、记录、分

类和初始升级

协调、跟踪原厂负责协助

商/第三方维保

服务提供商进行

转派工单、故障处理、备件

协调厂商进

跟踪处理过更换

行故障处理

程原厂商/第三方协助负责

维保服务提供商

执行故障处理、

备件更换

提交故障处理报负责

故障处理结故障审批流

故障解决后,客负责

果审批程

户方管理员审

查、确认

.6角色职责划分

负责人/

角色描述

组织机构

负责事件管理流程的设计和改进;

负责事件管理流程文档的发布;

负责提高事件处理的效率和效果,实现流程既定的绩效指

标;

负责管理系统中的事件模块,以满足应用的变化和流程的改

进,

监粗和分析事件管理工作量;

事件经理

确保受到影响的用户及时了解其事件的进展;驻场项目经理

协助服务台经理处理未及时接收的任务、推进事件的解决;

协助服务台经理对被拒绝的事件进行协调;

负责事件的分析回顾,并组织相应的培训以提高一线解决能

力;

负责事件汇总、生成报告并汇报管理信息(周报、月报、季

报和年报X

负责人/

角色描述

组织机构

创建新的事件/代理事件的提交人创建事件;

通过查询知识库,尝试解决事件;

驻场运维支创建问题,并将事件与问题相关联;

驻场运维工程

持对于事件/问题进行处理,包括分派、等待、接单、解决等操

作;

向知识库提交解决方案。

创建新的事件/代理事件的发现人创建事件;

尝试解决事件;

创建问题,并将事件与问题相关联;

专家支持团

对于事件/问题进行处理,包括等待、接单、解决以及要求重

队后台专家

新分配等操作;

向知识库提交解决方案;

必要时,将事件生成问题或升级到三线支持。

厂商、第三方维保服务提供商、客户管理员等支持人员用户IT部门

及时受理升级的故障给出反馈;管理员

三线支持向驻场支持团队提供知识;厂商

必要时,厂商/第三方维保服务提供商进行故障现场处理或备第三方维保服

件更换。务提供商

.7与其他流程的关系

■和问题管理流程的关系

事件管理流程将提供故障的详细、精确的记录信息给问题管理流程来定位

问题及分析问题的趋势。

■和配置管理流程的关系

需要从配置管理数据库中查询配置项的属性和配置项间的关联关系来定

位故障和帮助快速的恢复。

■和变更管理流程的关系

应了解变更管理流程中目前正在进行的变更信息,检测因变更而可能引发

的事件。在故障的解决过程中,必要时需要发起变更请求来解决故障。

变更管理

应答方对系统进行升级、割接等变更操作,应按需求方要求完成前期准备

工作,制定升级割接方案和审批表并提交需求方审批。在经需求方批准授权后

方可开展,不得擅自进行变更操作。变更操作前应通过邮件、短信或公告通知

系统涉及相关人员等。变更操作实施前应做好系统、日志和数据备份,变更操

作不成功应及时回退。结束后应及时通报需求方

变更管理包括协调,优化和安排合理的资源对所有的变化所带来的潜在危

险加以分析,以期寻找出最优的计划,并监控、管理整个变更过程,将风险降

至最低,变化的影响降至最小。变更管理是IT服务管理(ITSM)的核心,并与

问题管理及配置管理密切相联。变化管理设施的目标在于:

■协调变化过程以保证所有相关方能充分意识到变化及带来的影响;

■根据变化的紧急程度排定优先级;

■确保所有要求的变化都有相应的授权;

■在双方同意的时间中实施变化的计划并安排合适的资源;

■评估变化带来的风险,并确保有相应的风险处理方案存在;

为了确保被管理的服务器在运维管理阶段的持续性、可靠性和稳定性,的

运维管理团队将依据变更管理流程来执行可能的变更,并尽可能规避变更带来

的风险。将依据成熟的变更管理流程来控制和执行可能的应用系统变更,对被

管理系统的所有变更需求进行风险分析,以确保做到尽快和全面的发现变更可

能带给系统的风险和影响和设立相应的风险应对方案,从而保证系统的持续稳

定、可靠和安全。

变更管理流程目标:

确保所有变更都在管控下发起、评估、批准、实施和回顾;

确保使用标准的方法和工作步骤处理变更;

将变更所产生的事件(Incidents),对服务质量所造成的负面影响降低到最

小;

确保采用高效、快捷的方式实施已批准的变更;

使变更可跟踪。

变更管理流程:

4.3.1.2.1流程图相关符合说明

变更管理概要流程

委6

•审批意见一

员CAB审批

变是否需要

更制接审批7

经否收集审批意见

5

紧急变更是否需要

变更经理

CAB审批

子流程审批

13

关闭变更

•驳同

更8

主紧急变更

4安持和分派任

管2

变更技术方案务

评估和计划

审核

派发变更实

施任务单

简雌变更

维R制定变更技

团\术方案10

队实能变更实施强告/

请i

求变更申请

4.3.1.2.2流程描述

序号步骤名称责任输入输出说明

系统中提出变更请求,跟相关部门或用

记录的户确认

更初始变创建变更请求记录

变更更请求

相内部的任何人都可以成为变更请

1变更申请请求

关求者提出变更请求

息系统根据变更类别,自动提交给

合适的变更主管

对变更加以描述,初步判断变更

类型,风险等级等

序号步骤名称责任输入输出说明

经过完变更主管负责对变更请求者提交

善的变的RFC进行检直,如有必要则对RFC

更请相关信息完善或更正,以保证RFC的

正确性和完整性

含常有

查询配置管理数据库

必需的初步评估变更的类型、风险等,

正确信必须提出可能会影响哪些业务系统和

部门,以供决策参考

估分

评对紧急变更,确认后立刻提交给

变更经理按照401紧急变更子流程处

对简单变更,制定变更计划,直

评估和计变更接转400.6安排和分派任务

2初

划主管对标准变更,协调资源,制定变

更计划,包括实施计划、测试计划、

回退计划、配置项更新计划(资源管

理更新计划)等

实施计划要求有详细的操作命

令,并包括实施变更的具体时间、操

作执行人、核查人以及实施变更后观

察期内的监控人员等

配置项更新计划包括配置项属性

和关系的更新等

将实施计划、测试报告、回退计

戈人配置项更新计划等提交给变更经

理审批

驻场变更技根据变更主管提出的变更计划,

制定变更运

术实施从技术角度制定实施方案及实施计划

3技术方案工

方案提交变更主管进行方案审批

变更技术变更技术审批意对运维工程师提交的变更技术方

4

方案审批主管方案见案进行审批、确认

变更拒绝或变更经理接受变更请求,评估和

请求批准的确定变更的类型、风险等级等

两书变更请审阅所有提交的计划,包括实施

分析

求计划、测试报告、回退计划、配置项

结果

变更经理变更更新计划(资源管理更新计划)等

5

审批经理变更经理将风险等级为重大或高

变更

的变更报送变更委员会审批,变更委

计戈

U员会的成员由变更经理确定

变更经理可以做出驳回或批准的

意见

序号步骤名称责任输入输出说明

更拒绝或变更委员会由各领域的专家、领

求批准的导、用户或相关厂商组成,对变更实

变更估变更请施计划、测试报告、回退计划、配置

CAB审批管理析项更新计划等审阅

6求

变更委员果变更委员会可以做出驳回或批准

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论