网络设备项目售后服务方案.doc_第1页
网络设备项目售后服务方案.doc_第2页
网络设备项目售后服务方案.doc_第3页
网络设备项目售后服务方案.doc_第4页
网络设备项目售后服务方案.doc_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、.4.4.1.售后服务方案描述及相关承诺1. 总述1.1 项目名称XXXXX网络设备项目。1.2 项目背景描述随着互联网应用的快速增长,以及下一代互联网的加速推进,短信、网游、语音以及视频宽带业务的日益火爆,电子商务的再度兴起,IDC 市场迅速升温, IDC业务收入迅速增长, IDC 业务的客户群也迅速增大。为了抢占潜在客户资源,大力推广 IDC 业务,这样就需要建设一个侧重中、高端客户,兼顾低端客户需求的 IDC 机房系统。1.3 服务期限及范围为 XXX核心网络设备(含 2 台防火墙, 2 台交换机, 2 台路由器),其检修和维护。我公司将按质按量完成 XXX核心网络设备维护修理维护服务。

2、1.4 实施目标为 XXX核心网络设备提供优质的维护修理服务,并对2 台防火墙, 2 台交换机, 2台路由器统提供卓越的技术支持与运行维护服务。保证2 台防火墙, 2 台交换机, 2 台路由器运行稳定。1) 我方通过严格的修理维护服务,保证相关本次所涉及的相关软硬件的高效稳定运行。2) 我方具备应急处理能力并制定了完善的应急预案,减少计划内和计划外的停机时间,最终能够保障电力业务核心系统每周7 天× 24 小时不间断稳定运行。3) 我方定期对现有软硬件平台系统运转状况进行巡检、跟踪和分析,科学地预测和掌握软硬件平台系统的性能状态,提出科学合理的扩容和升级建议。.4) 我方在维护中熟悉

3、各主机上承载应用系统, 结合 IT 系统和业务应用的具体实际情况,查漏补缺,提出整改建议,配合应用厂商不断优化系统整体性能,提高系统运行整体效率。1.5 术语定义1) 业主方: xxxxx 团有限公司。2) 故障级别定义如下:P1 级故障:重大故障,系统瘫痪,无法运行,业务丢失。P2 级故障:系统部分设备故障,影响和限制了部分业务运营。P3 级故障:一般性技术故障,发现系统和设备的技术问题,但系统和业务仍可正常运行。P4 级故障:在系统功能配置、运维管理方面需要信息或支援,对用户的业务几乎无影响。.2. 总体实施方案2.1 服务流程xxx 有限公司将根据 XXX核心网络设备(含 2 台防火墙,

4、2 台交换机,2 台路由器)服务内容制定了相关的服务流程, 以下流程适用于本项目的含防火墙, 交换机,路由器流程。2.1.1 高级故障诊断及检修流程1) 针对系统、设备发生的一级、二级故障进行响应,分别在规定时间内进行维修、恢复服务。其中紧急重大故障要求 15 分钟内到达现场处理。2) 我方提供服务相当于原厂技术服务水平。 并提供电话或现场技术咨询和技术支持服务。服务流程图高级故障诊断及检修服务流程生请求结束发 障备 故设呼叫服务台员 )服务台响应人 线5远程是否持 .支1是否N调查与诊断现场处理台、解决和事件关闭用户回访线重大故障处理故障务恢复,1服(方案按故障已解决YY级别时员间,处人 )

5、故障现场响应现场是否更改理故障持线3调查与诊断设备支/2场 (更换设备或现Y部件务服 持知识管理它 支其.服务流程说明序号步骤名称责任人1服务台响应服务台2现 场 支故障现场相应持人员.说明服务台人员接受来自用户上报的故障以及各类服务请求。在验证用户基本信息后,服务台人员在服务管理平台上登记一条故障信息并进行跟踪和处理,并创建故障事件单。服务台人员判断故障是否重大事件,如重大事件将立刻通知现场支持人员到现场。如不是重大故障,将根据故障级别及故障类型,安排工程师进行故障处理如果是一条重复事件,则新建该事件记录后,更新原有事件为“主事件” ,并建立重复事件与原有事件的关联关系。如果是一条复发事件,

6、则创建一个新的事件单,复制原始事件单的内容,并说明这是复发的事件。根据服务台所描述的基本故障情况,现场支持人员将在 15 分钟内到达故障现场,为用户处理故障服务台人员根据事件分类表确认事件的分类,根据事件的影响度和紧急度,为事件分配优先级。分析故障原因,在知识库中查询是否有解决方案,制远程调查与诊服 务 台定初步的故障处理方案。3支 持 人断员如故障是由于设备硬件引起或远程无法处理时,将通知现场维护人员,到现场处理处理故障。进行调查诊断,尝试解决,必要时联系第三方供应商协助处理。现场支持人员在现场判断故障情况,根据故障的具体4现 场 支情况,制定解决方案。现场调查诊断持人员判断故障是否需要更换

7、部件,如需更换备件,我方将联系仓管调出设备配件,并负责设备的安装和卸载。5更换设备或部现 场 支更换完设备后再对故障进行检测,如故障未被处理,件持人员将继续对故障进行分析,彻底解决故障问题。.序号步骤名称责任人说明服务台、按照制定好的解决方案对故障进行处理。6解决与恢复现 场 支判断实施解决方案是否可行,并制定变更方法。持人员实施成功后,详细记录解决方案或变通方法。服 务 台将故障处理情况提交至知识管理。7事件关闭支 持 人关闭事件。并对故障记录进行归档,再制定用户回访员计划。服 务 台向用户确认故障是否已得到解决。8用户回访支 持 人确认用户是否报告其他问题。员用户反馈故障处理情况,并对本次

8、服务进行评价。.2.1.2 设备调优流程1) 针对长期出现资源瓶颈的设备进行分析,提出解决方案或优化方案。2) 对系统进行定期评估,给出评估优化方案。服务流程.服务流程说明序号步骤名称责任人设 备 性 能 检服务器、存储支持1测工程师统计资源瓶服务器、存储支持2 颈的设备数工程师量3硬件问题分析服务器、存储支持工程师4系统问题分析操作系统支持工程师5平台问题分析应用平台支持工程师6数据库问题分数据库支持工程师析设计服务器、服务器、存储支持7存储解决方工程师案8设计系统解操作系统支持工程决方案师9设计平台解应用平台支持工程决方案师10设计数据库数据库支持工程师解决方案说明利用有效的工具对设备进行

9、检测。对设备进行健康检查,标记存在资源瓶颈的设备。根据标记的资源设备进行设备统计对资源瓶颈的设备进行故障原因分析,判断资源瓶颈的问题是由何种原因所引起。分派问题到各个专业工程师设计解决方案。分析设备硬件上的资源瓶颈问题,列出引起此故障的原因分析操作系统上的资源瓶颈问题,列出引起此故障的原因分析应用平台上的资源瓶颈问题,列出引起此故障的原因分析数据库上的资源瓶颈问题,列出引起此故障的原因对列出服务器、存储硬件问题逐条给出处理意见与优化方案。对列出操作系统问题逐条给出处理意见与优化方案。对列出应用平台问题逐条给出处理意见与优化方案。对列出数据库问题逐条给出处理意见与优化方案。.序号步骤名称责任人说

10、明11整合方案我方项目负责人业务部门审12设备负责人批13优化实施各技术支持工程师整合各技术支持工程师给出的解决方案。对解决方案的内容进行审核,确保处理意见的安全和有效。制定实施计划,并将方案提交给业务部门。业务部门负责人对整合的方案进行审批。按实施计划通知每个人设备负责人。工程师按照最终的实施计划和方案对设备进行调优工作。2.1.3 备件保修和更换流程1) 当设备出现故障时,我方应及时进行检查、维修或更换故障部件。2) 如果硬件设备故障, 保证在 2 小时内提供不低于故障设备规格型号档次的备用设备替代使用,直至故障设备修复为止,以最大限度保证业务系统不间断地正常运行。3) 若需要更换部件,其

11、更换的部件必须是原厂的部件,与原有部件具备同等的质量和性能。.服务流程图.服务流程说明序号步骤名称责任人说明现场检查,判断故障引起的原因和故障位1置故障设备检查现场支持人员判断故障是否能现场处理,例如通过配置等方法解决故障,即现场处理。2对故障进行处理,通过技术手段等解决故现场维修现场支持人员障问题。故障由于设备的硬件引起,难以现场立刻3提供备件现场支持人员处理,我方提供同等设备型号和功能的配件给用户使用。4现场卸载故障的设备。现场安装与卸载设备维修人员安装我方提供的备件设备。判断设备是否已经过保。并制定维修计划。5故障设备维修设备维修人员设备未过保,通知设备的提供商对故障设备进行修复。设备已

12、过保,我方提供或采购相应的备件和部件,对设备进行维修。6设备提供厂商维修设备提供厂商设备提供厂商对故障设备进行修复我方安排专业对技术人员更换或维修故7提供所需的备件或设备维修人员障设备。部件进行维修将拆卸的故障部件进行封存,交还给设备提供商。设备维修成功后,我方现场支持人员到现8场对修复好的设备进行复位。故障设备复查现场支持人员检查设备的运行情况,如设备还存在故障问题,我方将继续对故障进行处理与解决。.2.1.4 特保服务流程1) 按照公司要求,对于特殊时期必须保障设备运行的, 我方根据要求驻场值守和服务,完成特殊时期保障任务。2) 需预计每年安排约有 2 个月的特保时间。服务流程图服务流程说

13、明序号步骤名称责任人说明现场值班人员制定值班服务计划制定特殊时1现场支持人员期值班计划业务部门审2设备负责人批3值班现场支持人员值班计划包含人员的联系方式与相关设备系统的负责人的联系方式业务部审批值班服务计划如服务计划未能满足用户的需求,将退回现场值班的人员重新设定值班计划。按计划是时间地点到现场进行值班工作。记录值班所需的相关表格遇上重大事件及时通知设备负责人员提交设备巡汇报设备出现的安全隐患。4设备维修人员检报告提交当天的值班记录和相关资料。.2.1.5 系统补丁通知及推荐流程1) 预防式补丁服务:我方在已知服务器、存储软、硬件缺陷可能导致潜在问题的情况下,将通过配置管理或巡检等方式对用户

14、服务器进行增补软件分析并提出版本升级建议,并由用户进行相关业务、客户影响分析后确认进行。2) 响应式补丁服务:当设备出现故障后,我方对故障进行分析并确认是软件缺陷所导致的故障,我方将提供针对该软件缺陷的软件补丁程序,并由用户进行相关业务、客户影响分析后确认进行。服务流程图服务流程说明.序号步骤名称制定补丁通知及1推荐计划2 预防式补丁服务3 响应式补丁服务设备故障数据统4计与分析配置管理与巡检5常发故障设备6 增补软件分析制定版本升级建7议责任人现场支持人员服务台支持人员现场支持人员服务台支持人员现场支持人员各技术支持工程师各技术支持工程师.说明制定补丁通知及推荐计划。判断是否有由于补丁问题造

15、成的故障。如没有由于补丁造成的故障, 将实行与预防式补丁服务,如由于补丁发生故障, 将实施响应式补丁服务。预防方式的补丁服务以预防、排查隐患为主,对现有设备的安全、性能隐患制定补丁更新计划。对用户所发现的故障进行处理,并且向用户提供可处理此故障的补丁程序在预防式补丁服务中,对以往出现故障的设备进行统计,总结普遍的故障现象在预防式补丁服务中,通过配置管理与巡检的方式, 检查系统运行情况, 定位常发故障设备的位置, 查明故障发生的原因, 制定相关补丁的更新计划。结合故障数据统计结果与巡检所发现的故障情况, 对增补软件进行评估与分析。得出适合增补的软件列表。根据分析结果制定版本升级建议与实施计划业务

16、部门对实施计划的内容进行审核,如8业务部门审批设备负责人9处理和分析故障现场支持人员发现补丁版本升级不符合要求,将返回重新制定补丁升级计划。在响应式补丁服务中,对故障进行的处理,在发现可以通过更新补丁来消除隐患时,我方将制定补丁更新计划,寻找相关的软件补丁。.序号步骤名称责任人说明提供软件补丁程各技术支持工10程师序11补丁更新实施现场支持人员对寻找相关的软件补丁进行测试,通过测试后,我方将测试报告与软件补丁程序提交给用户。经过审批通过后,我方安装实施计划的方案与内容,对相关设备进行补丁更新工作。2.1.6 季度巡检流程1) 每季度提供一次健康巡检,对设备硬件、系统运行状况进行检查,排除隐含错

17、误或安全隐患,并提交健康巡检报告。2) 巡检的具体时间由双方协商确定。服务流程.服务流程说明序号步骤名称责任人说明1制定季度健康巡检现场支持人员根据要求制定监控巡检计划与方案,内容计划包括巡检方式、操作步骤等。业务部审批巡检计划2业务部门审批现场支持人员如服务巡检计划未能满足用户的需求,将退回重新设定巡检计划。实施设备的健康巡检。3记录巡检中发现的设备问题提供健康巡检报告现场支持人员提交健康巡检报告, 汇报设备存在的安全隐患。对报告中存在安全隐患进行处理。4排除隐含错误设备维修人员问题处理后将对系统进行再次检测,检查与安全隐患问题处理情况。.2.1.7 培训服务流程1) 我方定期进行运行维护技

18、术培训,并定期与业主方技术人员进行技术交流。服务流程服务流程说明序号步骤名称责任人说明询问用户的培训需要。 了解用户对培训的要求。判断用户是否对新或难度高的技术开展1咨询业务部门咨询受理人员技术交流。需求收集业务部门提出的培训要求。 按培训要求的内容、等级进行分类,组织相关人员开展培训准备工作。2制定培训计划咨询受理人员根据培训内容、培训的深度制定培训计与培训内容划,并提交业务部门进行审批工作。业务部门对培训内容进行审核工作,对培3业务部门审批设备负责人训内容存在异议或不满意的地方,将返回修改培训计划或培训方案。相关技术人员对培训方案的内容准备培4安排培训议程各技术支持工程训资料,并安排培训所

19、需场地与准备相关的设备与材料师或软件。.2.1.8 系统规划(非建设项目)流程1) 根据硬件、应用软件环境完成数据库的初步规划、安装配置工作。服务流程服务流程说明序号步骤名称责任人说明对运行环境进行硬件、软件的运行分析,硬件、应用环境分1现场支持人员检查运行环境是否符运行要求。析记录硬件、应用环境的基础参数。根据运行环境评估与硬件、应用环境的2制定实施方案技术支持工程师基础参数,制定实施方案和初步规划。提交业务部门对方案进行审批业务部门审批实施方案。3业务部门审批设备负责人如实施方案和规划未能满足用户的需求,将退回修改实施方案。根据实施方案到现场进行安装、配置工4实施安装配置技术支持工程师作。

20、.2.1.9 备份恢复测试流程1) 根据业务重要性及数据安全等级要求,定期对备份数据进行恢复测试,保障备份数据完整、有效、可用。服务流程服务流程说明序号步骤名称责任人说明技术支持工程师检查备份数据,病句业1数据时效性检查技术支持工程师务重要性及安全级别,判断数据的有效期,如数据已过保存期, 我方将对系统业务数据进行备份2备份系统业务数据现场支持人员对系统的数据进行全备份,以保证数据的完整。对备份的数据进行恢复测试,并对相关功能进行操作,检查数据的准确性。3如备份数据存在异常,我方将到现场排数据恢复测试技术支持工程师除故障原因,分析系统故障还是备份失误导致,如不是备份失误,我方将通知相关业务部门

21、进行故障处理。.序号步骤名称责任人说明备份数据测试成功后,我方对备份数据尽可能保存最近5 个版本的存档。4备份版本控制技术支持工程师对备份数据进行版本控制,按系统、安全级别、重要性、备份时间对备份数据进行存档。2.1.10 专家现场技术支持流程1) 包括数据库紧急救援服务。2) 如出现故障,导致数据库不能正常工作,服务方须尽快安排资深工程师到现场先回复应用,并保证持续跟进直到问题完全解决。3) 如果不能解决问题, 服务方需自行请专家或其他高级技术人员对系统情况进行分析,直至解决问题。4) 服务方在接到现场系统维护请求后 1 小时内响应,对宕机或紧急恢复等严重问题,要求立即响应并在 15 分钟内

22、到达现场。.服务流程服务流程说明序号步骤名称责任人说明进行紧急救援服务,安排资深工程师到1现场情况调查技术支持工程师现场进行调查响应。尽快提出故障处理方案。我方根据故障的级别、安全性对故障采取应急的处理情况。由于设备硬件造成的故障,我方立即启2故障应急处理现场支持人员动热备件。及时恢复系统的正常运行。由于软件或设置造成的故障,我方对设置进行初始化操作,保证系统的正常运行.序号步骤名称责任人说明3启动热备件技术支持工程师根据提前准备好的设备热备件,我方对设备进行更换和切换操作。恢复设备的运行。在现场对故障设备进行一般的修复处4故障设备修复设备维修人员理,如不能处理,我方将故障设备提取回维修中心进

23、行维修。故障设备修复成功后,我方把完成修复5更换备件现场支持人员的设备安装回原位置。 并把正式服务切换回正式环境。6技术支持工程师对数据库的运行环境进行初始化配置操恢复初始化设置作。恢复系统的运行环境。7检查数据库的日志,找出数据库中存在日志文件检查技术支持工程师的故障问题。8软件配置修复技术支持工程师根据存在的故障问题对数据库的配置进行修改和故障处理。9修复检查现场支持人员故障修复后对故障进行检查,排查存在的安全隐患。.2.1.11 技术支持服务流程1) 提供电话或现场技术咨询和技术支持服务。服务流程服务流程说明序号步骤名称责任人说明服务台响应用户的咨询请求,对用户做出快速的请求响应。1服务

24、台响应咨询技术支持工程师了解用户的需要,提供有效的技术支持与咨询服务。我方派出工程师到现场对用户的疑问进2现场技术支持现场支持人员行解答。为用户现场处理用户的故障问题。现场技术支持完成后,我方电话回访用3用户回访技术支持工程师户对服务的满意度, 并咨询是否需要更还现场支持服务或变更服务如用户需要电话直接支持,我方将采用4电话技术支持设备维修人员电话的方式立即响应用户的请求,并尽可能完成用户的需求和远程处理用户的故障。2.2 服务管理.2.2.1 实施规范管理我方按照业主方的管理制度、修理维护规范、操作指导等相关规则制度开展修理维护服务。为保障修理维护服务规范化的顺利执行,同时修理维护服务各个环

25、节清晰可追述,我方任何操作必须严格按照业主方相关流程进行操作,尽量减少对业主方正常业务的干扰,每步操作须有明确的成果反馈记录,禁止任何不按流程处理的任何操作,一经发现将严肃处理。2.2.2 人员工作规范我方对运维人员进行明确分工及职责定义,避免运维人员无序混乱工作,职责分工需符合运行单位运维工作要求。2.2.3 项目风险与责任我方谨慎和用心履行合同责任,并对其员工的过失承担责任。由于我方实施人员服务不及时(没有按照合同约定时间规定)或服务操作不当,造成大量在线数据遭受不可恢复性损失,我方应负责恢复数据,并承担所有费用。由于我方原因服务不到位,我方应向业主方作出书面解释,并提出整改措施。造成损失

26、的,我方承担全部责任。2.2.4 人员稳定性鉴于信息系统及设备重要性以及安全保密性,我方保证服务期内修理维护团队人员稳定,避免人员流动对业主方业务系统及设备造成安全隐患,特殊情况下人员变动需经业主方同意后方可变动,禁止未经业主方同意人员直接变动。2.2.5 人员质量控制我方所派出的服务人员,应能熟练胜任相关维护工作。业主方拥有向所提供的实施人员进行面试的权力。如我方人员业务能力如不符要求,业主方有权要求我方更换人员。服务人员资质要求如下:a) 大学专科或以上学历,有 3 年以上类似产品维护经验。.b) 具有相应产品认证证书。2.2.6 项目进度控制我方技术服务团队每周向业主方项目管理部门提交维

27、护工作周报,并抄送我方项目管理部门。为了更好的让业主方了解项目的进度和目前的情况,我方将向业主方进行以下工作:每月提交工作月报,维护工作月报的内容必须包括以下内容:主要的已完成工作内容、未完成工作内容、故障处理报告、维护建议及工作计划安排。技术服务团队每月度对相关工作进行总结提炼,提交运行维护工作月报。技术服务团队每季度对相关工作进行总结提炼,提交运行维护工作季报。技术服务团队每年对全年工作进行总结,并对下一年度工作进行规划,提交运行维护工作年报,协助系统管理员完成系统年度维护总结。除上述文档整理工作外,我方承担业主方相关维护文档的修编配合工作。2.2.7 项目安全控制提供现场服务时,我方将确

28、保其现场人员遵守业主方有关安全规定,前提是我方收到业主方提供的有关安全规定。我方有为业主方保密的义务,未经业主方许可,我方服务人员不得对业主方的业务经营数据进行增删、修改、复制、传送、记录;我方不得向任何第三方泄露业主方业务数据内容或在公开场合引用业主方数据。2.2.8 质量控制为保障服务质量及服务适应性,在服务期内,我方需根据服务内容发生的变化进行适应性的改进,并在修理维护过程中根据业主方的要求进行服务改进。2.2.9 项目质量保证服务质量要达到可衡量必须制定严格的服务SLA,我方在服务期开始时须与业主方协商制定切实可行的服务SLA,并严格遵守SLA 进行修理维护服务。其服务标准如下:.一、

29、紧急情况当服务器宕机,数据库无法读写等一级紧急事件时,我方在1 小时内响应,2 小时内协助解决该情况。并在因外部原因无法立即解决时(例如服务器所在机房受到黑客攻击,服务器硬盘读写失败等事件),向客户报告情况并提供具体解决的时间。并提供一套完善的应急解决方案,帮助客户及时解决突发事件,最大程度的挽救因服务无法使用导致的损失。二、重要情况系统服务上线过程后,有时会出现在验收过程中没有察觉的bug,这个时候,我方积极协助客户解决该bug ,具体的响应时间根据bug 造成的影响程度而定。根据 SLA 服务标准,bug 的等级亦可进行进一步的划分并制定相应的解决方案。这里不予以赘述。三、标准情况在系统部

30、署阶段,因工作人员协作环节的不一致性,有可能出故障问题和兼容性问题。 以及由于临时需求的变更和新增,都会对系统服务产生新的维护需求。我方按照需求的难易性和工作量制定相应的响应标准,保证客户满意度。四、次要情况包括服务的小调整,如数据库、中间件的配置更替等,通常在24 小时内响应,双方商议的时间内进行解决即可。我方以SLA 服务体系为出发点,为IT 服务提供完善、标准、科学的解决方案,尽可能不影响客户满意度。2.2.10 制定全年的支持服务计划我方客户经理应主动地和业主方共同协商、制定全年的支持服务计划。服务计划包括以下主要内容:a) 业务 /IT 系统概况,业务系统对服务的需求b) 服务合同的

31、工作内容,设备清单和响应服务级别c) 我方的工作团队和职责d) 支持服务的流程e) 运维服务活动的计划, 包括:增值服务实施、 服务总结报告、 回顾会议、巡检、技术交流等f) 服务计划双方的确认.2.2.11 项目总结会议我方客户经理至少每季度会安排与业主方一起召开系统运行和服务情况定期总结回顾会议,内容包括但不限于:a) 总结前一段时间服务实施的情况b) 回顾升级问题 / 重要问题的处理过程c) 听取运行单位对服务的反馈意见和服务需求d) 同业主方运维经理们讨论服务改进措施e) 讨论、修订服务计划。2.3 维护内容我方将根据xxx 有限公司服务器、存储设备、虚拟化服务器、A 认证系统服务内容

32、简要的介绍常见故障所采用的维护解决办法,在实际的应用中,我方会根据实际情况进行相应的修改与优化。2.3.1 服务器故障诊断计算机故障类型以及故障的诊断手段有很多,对于服务器( IBM 服务器为例)故障采取以下2 种诊断方式:2.3.1.1硬件故障诊断诊断并排除由硬件引起的故障,先从外观上检查硬件情况,检查设备故障灯是否有亮。各种设备上都有故障指示灯,通常为橙色并有标记。对于高端服务器,应检查 UEPO开关上的系统故障指示灯是否亮,检查部件故障灯, 如 I/O drawer 、PCI 卡,硬盘等。所有安装的部件(如CPU book )所对应的绿色LED 应长亮。任何故障指示灯(橙色)都应不亮,设

33、备发生故障时通常伴有出错代码,必须把所有故障代码记录下来。除此以外还应注意有否其他异常情况(如硬盘、风扇异常的声音、电缆破损、系统出风是否顺畅、气流是否因为异物遮挡而影响散热效果等)。?检查服务器网卡状态、IP 地址是否正常。网卡的设置应与交换机端口的设置匹配。检查网卡通信是否正常,如是否丢包,速度是否正常等。并且检查路由表是否正常、/etc/hosts文件或DNS设置是否正常等。.2.3.1.2软件故障诊断诊断并排除由软件(操作系统和应用软件等)引起的故障可以先查看系统日志相关软件报错的记录,同时登录软件检查当前应用使用状态、软件应用进程等进行多方面的诊断。2.3.2 检测服务器、存储设备运

34、行情况对于一个系统而言资源总是有一定限度的,而任务总是要消耗系统资源的。关键是要找出哪些资源不能满足应用程序运行的需求。这里存在一个性能瓶颈的问题。不同的应用程序可能会有不同的资源要求,可能会产生不同的瓶颈。系统资源中的CPU、内存、磁盘或是网络都有可能成为瓶颈。系统性能调优需要找出这些资源成为瓶颈的原因,是资源的不足,是系统设置不合理,还是应用程序的问题。查找性能瓶颈的顺序非常重要,正确的顺序是:CPU> 内存 > I/O > 网络,如下图所示:是CPU 瓶颈采取对策否是否I/O 瓶颈是内存瓶颈采取对策否采取对策是否网络瓶颈采取对策继续测试采取对策.2.3.2.1查看 CP

35、U瓶颈通过查看当前服务器CPU使用情况判断CPU的使用情况, 一般情况下 CPU使用率不应该长期超过80%,如出现 CPU使用率长期处于甚至超过80%的情况,则初步可判断CPU资源不足,出现瓶颈。2.3.2.2检测内存问题部分厂商服务器在内存使用上模式默认最大化使用,因此内存的使用率不能作为是否存在内存瓶颈的依据。如果达到内存瓶颈,此时检查系统内存交换区的使用,会发现使用率较高。由于有大量的内存页面写入内存交换区,这会导致wa( I/O 等待)值上升,但此时并非I/O 瓶颈引起。当内存交换区使用率超过70%时需要增加交换区的大小。但增加内存交换区的大小并不会提高系统的性能。相反,内存交换区使用

36、越多, 系统性能下降越多。当内存不足时,正确的方法是增加物理内存的数量或优化应用程序。2.3.2.3查看系统的 I/O情况磁盘的数据流量很大程度上与应用程序的I/O 方式相关。某些应用程序的I/O SIZE可能非常低,而且产生大量的随机读写操作,从而使硬盘的读写效率大大降低,导致CPU的 I/O 等待增加。有时 I/O问题是 I/O 带宽不足引起的。当所有连接在一块I/O 卡上的硬盘的流量总和达到I/O 卡带宽的70%以上时,应考虑增加更多的I/O卡。数据的分布也是很重要的因素。通常把数据分布到更多的硬盘上更有利于提高I/O 性能。2.3.2.4查看网络的情况:对于网络问题可以通过检查服务器端

37、口情况、网线速率、端口模式,甚至通过服务器与服务器、服务器与测试设备之间进行链路测试、传输速率测试检测服务器网络上的问题,必要时需要网络工程师检查交换机层面的健康情况加以分析判断。.如果都没有发现系统有资源上的瓶颈,则很可能是应用程序的问题,需要应用程序开发商进行进一步的分析。2.3.3 服务器备件检修服务器备件保修主要以更换设备为主, 并对造成备件故障的原因作出分析, 最后通过分析的故障结果。 对所有故障进行排查, 不能单单只是更换备件这么简单, 服务器备件一旦发生故障不一定是其本身问题, 极大情况下是外部环境所造成。 因此,服务器备件检修需要考虑其使用环境,从根本上解决故障问题,防止其它备件的损坏。2.3.3.1服务器备件硬件故障维修对于一般的设备硬件的故障,我方采用以下方式采取维修处理:序号故障类型维修方式操作方式1内存条损坏直接更换现场更换2主板元器件损坏直接更换现场更换先进行数据恢复,再更数据恢复需离3阵列损坏开现场。换硬盘备件现场更换4电源损坏直接更换现场更换5指示灯损坏先检测健康状态,再更现场更换换指示灯6CPU风扇损坏直接更换现场更换7数据线损坏直接更换现场更换8C

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论