大数据平台运维服务方案(仅用于学习的参考模板)_第1页
大数据平台运维服务方案(仅用于学习的参考模板)_第2页
大数据平台运维服务方案(仅用于学习的参考模板)_第3页
大数据平台运维服务方案(仅用于学习的参考模板)_第4页
大数据平台运维服务方案(仅用于学习的参考模板)_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

某大数据运维服务方案当故障出现时,通知相关人员,相关人员必须在最短时间内查看故障点状态,并分析故障原因;运维工程师在排查出故障后,立即着手解决;故障排除后,对发生故障的设备或软件进行事后跟踪;故障排除后,对故障原因及解决方法进行详细说明记录。二级预警当故障出现时,通知相关人员,相关人员必须在最短时间内查看故障点状态,并分析故障原因;应急小组组长应及时将故障相关情况报告给业主方部门领导,在故障完全排查清楚后以书面形式递交“故障报告单”;运维工程师在排查出故障后,立即着手解决,如需其他厂商或人员协助,及时上报给应急小组,协调相关人员参与故障的排查;故障排除后,对发生故障的设备或软件进行事后跟踪;故障排除后,对故障原因及解决方法进行详细说明记录。三级预警当故障出现时,通知相关人员,相关人员必须在最短时间内查看故障点状态,并分析故障原因;应急小组组长应及时将故障相关情况报告给业主方部门领导,在故障完全排查清楚后以书面形式递交“故障报告单”;运维工程师在排查出故障后,立即着手解决,如需其他厂商或人员协助,及时上报给应急小组,协调相关人员参与故障的排查;如因硬件设备问题导致故障的发生,则由硬件继承方及时派出人员参与解决,并支持硬件设备的更新;故障排除后,对发生故障的设备或软件进行事后跟踪;故障排除后,对故障原因及解决方法进行详细说明记录。服务内容服务目标本运维服务方案针对某地大数据台相关系统,服务内容包括日常运维服务、主要支撑软件维保服务、主要应用软件系统维保服务、数据安全服务、咨询支持服务等。服务目标包含以下几点:保障支撑软件和应用软件的稳定性和可靠性;保障支撑软件和应用软件的安全性和可恢复性;保障数据的安全性故障的及时响应与修复;客户问题的及时响应与支持信息资产统计服务大数据台信息资产包含服务器资源、支撑软件以及应用系统三部分。服务器资源类型用途数量虚拟机应用服务器4数据库服务器3交换台3大数据存储集群4前置机5测试服务器2堡垒机1物理机数据库服务器2文件服务器1支撑软件类型名称版本数量操作系统Centos7.320WindowsServer2008R264位5数据库Postgresql9.24Mysql5.63Oracle11g1WEB容器Tomcat8.0.534Nginx1.7.81应用系统系统名称访问地址大数据台8数据可视化台3:3025/dav/login.do展厅大屏3:3025/gg/login.jsp网络、安全系统运维服务大数据台运行网络环境复杂,涉及外网、互联网和专网。为保障数据的安全性和交换共享,各网域之间严格隔离,借助安全设备(网闸、防火墙、交换机等),实现数据高效传输。网络、安全系统维护的目标是:通过网络、安全系统管理服务,降低网络设备故障率,提高网络设备的运行性能和应用系统的稳定性、可靠性,保障数据传输的安全性。具体服务内容如下:网络故障排查网络设备硬件状态检查网络流量监测安全策略配置及配置优化网络设备资料整理,配置参数整理网络使用状况趋势分析及建议主机、存储系统运维服务主机维护主机维护指大数据台在用的各类服务器的维护:数据库服务器、应用服务器、GIS服务器、交换台服务器等。具体运维服务内容包括以下几项:服务器硬件状态检查服务器设备事件管理服务服务器性能监控服务器防病毒软件的维护服务器系统漏洞修补服务器进程与服务检查 服务器磁盘空间检查系统垃圾清理记录与报告以上内容要求云计算中心运维人员以及值班人员定期巡检,实时掌握服务器的运行状态,依照运维规定有序记录事件日志,形成操作管理手册、事故管理文档、故障处理报告、监控报告等文档,保障服务器自身的正常运转。除以上内容外,应用系统运维人员定期巡检支撑软件以及应用系统的运行状态,了解对服务器的需求是否发生变化,为服务器的动态调整提供依据。存储系统维护大数据台汇聚了各部门的大量数据,存储系统的维护是一项十分重要的工作。存储系统的维护主要包括存储硬件的管理维护和数据的冗余备份,具体服务内容包括:存储设备日常状态检查维护存储设备事件管理维护备份及恢复策略制定备份介质管理备份作业检查数据的冗余存储备份数据恢复备份数据整理记录和报告,针对巡检、故障处理、调整等操作环节,详细记录日志,形成文档存档以备查阅数据库系统运维服务大数据台中使用了多种数据库:Postgresql、Mysql、Oracle、文件数据库。具体服务内容包括:数据库运行状态检查数据库使用磁盘空间检查数据库备份任务检查数据库连接情况监控数据库告警日志检查分析数据表数据量检查数据库恢复中间件运维服务中间件是应用系统稳定运行的必要组件,大数据台中的中间件包含WEB容器、负载均衡中间等。中间件的维护主要包括以下内容:运行监控异常日志分析应用系统更新导致对中间件版本、配置的变更维护中间件自身缺陷导致对中间件进行升级更新的维护中间件升级更新对应用系统产生的影响维护中间件的配置调优维护运维服务流程主动式服务定期预防性维护服务维护团队根据系统维护服务计划或用户要求为用户提供定期预防性维护服务。此类服务是有计划有步骤进行的,目的是为了提高系统的可使用率和高可靠性,把系统故障的可能性降低到最低。在硬件维护方面,要求维护团队工程师每两周进行一次现场例行检查,为用户维护硬件设备,并为用户替换那些虽然能够工作但不是很正常的部件,以避免系统崩溃的情况发生,防患于未然。系统运行健康检查维护团队应提供一月一次的系统运行健康检查,按计划由专家定期对主机系统性能进行诊断,根据结果出具性能诊断报告,并征得用户同意后调整系统参数,使系统始终在最佳状态下运行。对可能出现的问题提供学预测,并采取必要的预防和补救措施,防患于未然。系统运行状况分析每季一次对系统的运行状况分析。提供本项目服务器设备运行状态和性能的分析、评估服务,以提高系统的可靠性、可用性和整体性能。每年一次向用户提交详细的系统可用性、安全性、运行状况分析等预防性维护策略、报告和总结。纠错性维护维护团队应提供电话技术支持服务或现场维护服务。在部件服务方面,维护团队应及时确认故障原因,并更换故障部件,恢复系统正常运行。解决系统软件问题,恢复系统软件正常运行,作系统备份,递交系统检查报告等。服务管理制度规范服务时间日常服务响应时间针对由硬件(如虚机、存储、内存等)导致的问题,由云计算中心运维人员或值班工程师及时发现并及时解决,服务时间做到及时响应。若出现应用系统层面的问题,则由运维人员配合软件技术支持人员,及时解决,可采用远程方式或到现场操作,做到近及时响应。事故分级服务响应时间各级故障事件的最晚响应时间为:确认时间一级故障事件二级故障事件三级故障事件四级故障事件1小时技术服务人员4小时专业工程师技术服务人员24小时技术支持专家专业工程师技术服务人员48小时服务项目经理服务项目经理专业工程师技术服务人员故障事件等级划分如下:一级故障事件:现有的网络或系统停机,或遭到严重攻击行为或安全事件,对信息系统的业务运作有重大影响;二级故障事件:现有网络或系统的操作性能严重降级,或由于网络性能失常或安全事件严重影响信息系统用户业务运作;三级故障事件:网络或系统的操作性能受损,安全事件(例如病毒在小范围内发作),但大部分业务运作仍可正常工作;四级故障事件:在网络、服务器、存储、安全设备功能、安装或配置方面需要调整或优化。本级故障事件对信息系统的业务运作几乎无影响,或影响很小。依据事故重要性和紧急性的原则,每一级事故严格定义升级时间为2小时,其中在二级事故和一级事故应急处理过程中,要及时考虑替代恢复方案,尽可能在最短的时间内恢复业务系统。其中三级事故的处理,驻场服务人员在事故响应1个小时内,如果不能快速判断问题所在,可以寻求整个服务团队的支持。在一、二级事故判断中,服务人员在监控中发现问题,一方面应迅速将问题向部门领导进行反应,一方面须快速判断问题和收集事故信息,涉及到具体产品提供商或服务商内,及时告知客户协调相关厂商现场支持。为保障业务台的正常运行,除对突发故障的应急支持外,要充分保障日常对业务系统软硬件的应急灾备恢复预案,并通过定期的演练加强应对突发事故的意识和流程。行为规范对待工作要有责任心遇事不推诿,不抱怨每日工作做到日清日毕,不拖拉发现问题,多沟通,多理解关注成本,倡导节约服务过程中耐心细致服务之后认真确认严格尊受保密诸项要求和规范现场服务支持规范着装整齐,佩戴工牌服务过程遇交流情况,使用普通话与客户沟通时,耐心聆听客户问题,并及时给出回应,遇不冷静客户,保持克制工作场所严禁吃东西、睡觉等与工作无关事情进入机房等要求严格的场所或区域必须尊受相关规定办公电脑上只能安装和使用工作相关的程序或软件收到任务或问题后,及时解决并反馈做好服务支持记录问题记录规范针对运维服务过程中自检或突发遇到的问题,严格记录问题相关信息,包含但不限于以下信息项:问题描述问题发生时间问题当前状态问题提出人、记录人、处理人问题发生单位、记录时间、处理时间原因分析处理方法防范措施事故主要责任方应急服务响应措施应急基本流程从整个生命周期划分,应急服务响应包含准备阶段、监测与预警阶段、处置阶段和总结改进阶段四个阶段的工作。应急准备阶段组建应急响应组织,确定应急响应制度,系统性识别运行维护服务对象及运行维护活动中可能出现的风险,定义应急事件级别,制定预案,开展培训和演练。监测与预警阶段进行日常监测,及时发现应急事件并有效预警,进行核实和评估,以规定的策略和程序启动预案,并保持对应急事件的跟踪。应急处置阶段采取必要的应急调度手段,基于预案开展故障排查与诊断,对故障进行有效、快速的处理与系统恢复,及时通报应急事件,提供持续性服务保障,进行结果评价,关闭事件。该阶段流程如下:总结改进阶段对应急事件发生原因、处理过程和结果进行总结分析,持续改进应急工作,完善信息系统。预防措施做好应急准备阶段的各项工作:划分预警级别,制定各级别预警的应对方案;做好风险评估工作,对各种潜在的预警实施演练;做好监控与巡检工作:人工+设备+软件的多渠道监控排查方案,尽早发现不确定因素、不稳定性,将问题解决在发生之前;故障发生恢复后,记录过程中各项注意事项,及时总结经验,及时排查是否在别处存在同样的问题。突发事件应急策略突发事件发生后,首先评估事件影响情况,依据预警级别的定义(如下表),确定事件预警级别:预警级别警报内容情况描述一级网络流量升高主机性能降低数据备份出现异常监控软甲出现故障日志大量累计……系统出现故障,但不影响系统的正常运转二级网络中断或网路设备异常主机、硬盘等出现故障黑客入侵或病毒发作……系统出现故障,影响系统的正常运转,经运维工程师排查,可在较短时间内恢复系统三级网络防火墙宕机无法使用主机宕机无法启动操作系统、数据库无发启动……系统出现故障,影响系统的正常运转,经运维工程师不能再短时间内排除故障,影响用户业务的正常运作针对上表中的预警情况,应急策略分别如下:一级预警当故障出现时,通知相关人员,相关人员必须在最短时间内查看故障点状态,并分析故障原因;运维工程师在排查出故障后,立即着手解决;故障排除后,对发生故障的设备或软件进行事后跟踪;故障排除后,对故障原因及解决方法进行详细说明记录。二级预警当故障出现时,通知相关人员,相关人员必须在最短时间内查看故障点状态,并分析故障原因;应急小组组长应及时将故障相关情况报告给业主方部门领导,在故障完全排查清楚后以书面形式递交“故障报告单”;运维工程师在排查出故障后,立即着手解决,如需其他厂商或人员协助,及时上报给应急小组,协调相关人员参与故障的排查;故障排除后,对发生故障的设备或软件进行事后跟踪;故障排除后,对故障原因及解决方法进行详细

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论