《数据中心系统工程及应用》-第四章数据中心运行维护-康楠.docx_第1页
《数据中心系统工程及应用》-第四章数据中心运行维护-康楠.docx_第2页
《数据中心系统工程及应用》-第四章数据中心运行维护-康楠.docx_第3页
《数据中心系统工程及应用》-第四章数据中心运行维护-康楠.docx_第4页
《数据中心系统工程及应用》-第四章数据中心运行维护-康楠.docx_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章数据中心运行维护数据中心运行维护是重中之重的工作,要支撑数据中心业务稳定,按照数据中心运行维护要面向网络、面向产品、面向客户的要求,结合客户系统设备特点,本着提供差异化服务为原则,吸取借鉴多年来机房运行维护工作中经验,利用电子运维平台等自动化维护手段,进一步规范数据中心运行维护工作,以提供机房可靠、高效的基础设施运行维护、网络通信及安全管理服务。第一节维护部门职责界面1、网管生产部门主要职责是:落实、细化各级网络运维部门下达的IDC维护规程,编制本单位IDC维护管理实施细则;根据各级网络运维部门下达的运行指标及KPI指标,对本维护单位运行指标和KPI指标进行合理的分解,全面完成各级运维部门下达的各项维护考核指标和KPI指标,并对指标的完成情况汇总;按照各级运维部门全网运行维护作业计划项目和要求,组织编写运行维护作业实施计划,并按照各级网络运维部门的要求上报;负责维护作业计划指导书的编制和修订;负责组织本维护单位实施运维部门下达的网络运行维护作业计划,负责保证维护作业计划的全面完成,并督促、汇总、分析维护作业计划的完成情况,解决维护作业计划执行中发现的问题;对IDC网络运行情况进行综合分析、汇总,对存在的问题找出其质量指标变化或达不到使用要求的原因,提出并采取预防质量下降或改善运行质量的相应解决措施。提出网络优化意见和资源使用状况的分析报告;制定IDC的应急通信方案和重要电路的通信保障方案,负责网络运行中重大故障的排除及抢险工作,并组织相关部门查明原因,制定解决方案及改进措施;完成业务工单并及时填写、管理好用户开通及更改记录资料,保证用户资料的完整、准确并与实际相符;负责工程的质量验收,组织维护人员参与IDC相关工程项目的设计会审、工程质量监督和竣工验收工作等。2、现场维护部门主要职责是:负责724小时实时监测IDC网络设备运行情况,做到及时检修、及时发现故障、及时汇报,遇到重大故障按照上报流程及时向上级报告,及时排除故障;完成业务工单并及时填写和管理好客户开通资料、客户业务变更资料,保证用户资料的完整、准确并与实际相符;负责执行IDC的应急通信方案和重要电路的通信保障方案,负责网络运行中重大故障的排除及抢险工作,并配合相关部门查明原因,制定解决方案及改进措施。3、各专业运行维护责任界面:动力专业与IDC的运行维护责任界面:动力机房根据用电标准向IDC机房供电,IDC机房若有特殊要求,应由动力维护主管部门协调解决;动力机房至IDC机房配电设备第一受电端子间的电力线(含第一受电端子)由动力专业维护,该端子以后部分由IDC负责维护;对于分散供电系统,应按电源系统的组成方式划分维护责任,动力专业负责到电源供电端子(含供电端子);分散在机房内的空调设备的维护由动力设备维护部门负责,非动力专业的维护人员未经允许不准操作,发现问题应立即通知动力设备维护部门。动力设备维护部门接到通知后应及时进行处理;动力及环境监控系统的维护由动力设备维护部门负责;IDC机房应合理使用电能,需要增减(交流、直流、UPS电源)负荷时必须经相应的动力设备维护部门审核,并报上级主管部门批准后方可实施。客户设备用电负荷增减需求由相关业务部门负责提交。IT系统专业与IDC的运行维护责任界面:以IDC专业提供的上行链路端口为界,IDC侧(该端口以下包括路由器或交换机)属IDC维护,IT设备侧由IT系统专业维护,中间的链路由IDC专业负责监控。IT系统专业必须按照相关业务流程进行业务申请,IDC维护人员配合相关维护工作。IDC负责维护服务器等相关的网络设备和配套设备,IT系统专业负责服务器等软件及硬件的维护。4、维护人员工作要求IDC维护人员应严格遵守机房安全保密制度。IDC维护人员应做到接待客户热情耐心、周到细致。IDC维护人员应定期巡视机房,对机房环境、温度、湿度、设备运行等进行登记和监视。维护人员对机房内的设施、设备及工具负有管理责任,在巡视检查机房时,应对机房内通信设备、用户设备、认真检查,发现问题及时与相关人员联系处理。IDC维护人员应对用户网络进行724小时监控,发现故障及时进行判断和处理。IDC维护人员在接到业务工单后,应主动与用户联系,询问用户网络上联的具体情况,了解用户需求。在用户装机之前,维护人员应为用户准备好供用户网络上联用的线路,并且积极配合用户做好装机工作。IDC维护人员在接到用户端口速率变更或撤机工单后,应积极协助用户做好用户网络的调整工作。IDC维护人员应724小时监控用户端口状态及流量情况,发现用户网络问题或有可疑情况时,应及时与用户取得联系,迅速解决问题,最大程度保证用户网络正常运行。第二节运行维护管理1、维护管理内容网络设备维护管理:IDC网络设备维护管理、设备资料管理以及业务数据维护管理应依据设备维护的相关规程执行。IDC主要设备包括网络设备、主机设备、软件及数据:网络设备主要包括:路由器、二层交换设备、防火墙等安全设备以及负载均衡等相关设备;主机设备主要包括:服务器、磁盘阵列等设备;软件及数据主要包括:IDC网络设备运行软件、各类操作系统软件、网管软件、漏洞扫描及病毒防护等安全软件、其它网络所使用的具备独立功能的软件,网络配置数据、业务数据。IDC网络设备的监控:对各类网络设备的运行状况、系统性能进行监控。被监控的设备包括IDC网络核心路由器、汇聚交换机、接入交换机等各类设备,实时监测设备的性能、运行情况、系统资源等,统计分析设备对业务的承载能力。同时包含对IDC网管系统设备的监控,即对网管主机设备、软件系统的监控。IDC网络流量的监控:对IDC机房接入用户至IDC网络设备的互联链路、IDC各网络设备之间的互联链路、IDC核心路由器至本地骨干网之间的互联链路的流量监控,用以分析、统计网络带宽资源的利用率、趋势、模型和用户的业务流量以及发现网络的异常流量。用户网络连通性的监控:对IDC机房网络接入用户连通性进行监控,用以实时监测用户的通断,及时发现网络故障。新建的IDC相关工程必须经过工程初验,满足设计的各项技术指标和设计要求后正式移交属地IDC维护部门之后方可进行业务的接入。对于在建工程进行的业务开放,原则上不予实施,特殊情况需经相关的网络运行维护管理部门批准后方可实施。IDC维护单位对管辖范围内的所有IDC网络设备、电路等应建立准确、完备的资料档案,对所维护范围内用户的相关资料应建立详细、准确的台帐信息,并做到及时更新。IDC配套设备主要包括:用于网络设备监控的设备,设备之间连接及业务接入的通信线缆、动力线缆、地线、机架电源、空调设备、配线架,光电转换器,仪表仪器、专业工具、备品备件等。IDC配套设备由现场维护部门负责维护。配套设备的选型、工程随工、验收工作应依据相应工程规划。配套设备维护要求:IDC指定专人进行日常巡查和管理;未经授权人员不得擅入IDC机房进行任何操作;现场维护部门值班人员需保障机房内各项设施安全、防火防盗。IDC机房配线应遵循以下布线原则:上走线机房在布放各类缆线时,应按照走线槽走向布放,不许在走线槽外布放或跳跃走线槽;上走线机房在布放各类缆线时,应注意高空作业时的安全问题,须实行双人操作制;下走线机房应固定走线槽道,一般在机架前布放信号电缆,在机架后面布放电力电缆,下走线机房在布放各类缆线时,应注意不要碰伤其它已布放的缆线,布放完成后对活动地板要恢复牢固,以防塌陷;信号线和电力电缆应分开布放,不允许混放;临时布放的各类缆线应按上述要求执行;各类缆线布放完毕后,应制作并粘贴相应的标签,作好资料记录。2、安全管理网络设备的核心处理及交换模块、电源模块必须为1:1主备模式;设备采用双/多路冗余供电方式;设备的线路卡要求N:1备份;设备必须支持热插拔功能;设备在故障状态下可以实现一定程度上的故障自恢复,包括主备引擎的切换、不中断业务的转发等。在新设备入网前,必须与现网网络设备进行严格的互通性测试,由新入网设备厂家提供测试报告及测试案例,确保新设备符合相关设备的技术要求。任何设备接入到IDC网络前必须做好详细的割接实施方案和集成方案,方案必须经过严格的审核。方案中应对实施的风险进行预测并采取相关措施降低风险程度。网络设备必须采用经过厂家测试并正式发布的、性能稳定可靠的内核软件和操作系统软件版本;所采用的硬件和软件产品本身应具备一定的安全功能。数据机房网络设备原则上设置不少于2台核心设备,并保证核心设备间直联。每台非核心网络设备通过双或多链路上联核心设备,防止单链路失效导致设备脱网。双或多上联链路原则上从本设备的不同板卡引出,连接到不同核心设备或同一核心设备的不同板卡。必须关闭网络设备未使用的物理端口。定期拨测检查带外网管通道,保证其通畅性。IDC维护单位应定期查看IP网络安全站点的安全公告,跟踪和研究各种IP网络安全漏洞和攻击手段,跟踪主机系统使用的操作系统、应用系统最新版本和安全补丁程序的发布情况,以便及时制定相应的对策,做好安全防护工作。当出现由安全问题引起的重大故障时,应及时向相关网络运维部门上报。IDC维护人员负责防火墙系统的日常维护工作,并根据网络安全访问控制策略拟定相应的防火墙安全控制准则,并对安全控制准则和访问控制策略的一致性进行校验。如发现客户设备因病毒、攻击或其它原因出现危及网络安全,危及其他客户正常使用的情况,IDC维护人员应立即通知相关客户,并及时向相关网络运维部门上报,同时积极和客户协商处理办法。应开启路由器、以太网交换机日志功能,同时必须保证日志功能对设备性能的影响较小。应针对路由器、交换机配置AAA功能。关闭路由器、以太网交换机、服务器上不必要的服务。发现安全漏洞时,应采取必要的防护措施,并及时升级软件版本或安装补丁。病毒防护和帐号口令的管理按照安全管理的相关要求执行。应对网络设备进行周期性安全审计和评估,形成评估报告,对评估报告中发现的安全隐患,应采取措施予以消除。同时做好相关资料的存档。2.1设备的日常安全管理:各级维护部门应严格执行维护作业计划,每月定期检查网络设备的安全策略配置,并填写和保留有关记录;每月定期进行设备硬件、系统软件、应用软件运行状态检查,及时发现设备运行中的安全隐患,并填写和保留有关记录;每周定期检查安全日志(包括系统访问日志、配置更改日志等),及时发现非法访问和异常配置的安全隐患,并填写和保留有关记录;对网络安全检查中发现的问题,应根据问题的严重性及影响范围制订修补计划,必要时可以寻求专业安全技术厂商的支持并报上级主管部门审批,在安全小组成员的监督下,由安全技术厂商进行渗透性测试,以检查安全问题解决的效果。2.2主机系统的安全要求:须配置冗余的电源模块,或采用双机热备份,保证避免因单台设备故障而影响业务服务;应部署服务器病毒防护系统,减少病毒对系统和应用软件造成破坏的机会,保证服务器的可用性;杜绝对系统的非授权访问;执行严格的审计策略,以增强系统的安全性;严格管理软件版本及其补丁,保证及时进行服务器软件补丁升级、修补漏洞。2.3MIB安全管理:设备MIB库的读写字串必须设定为非缺省值,避免攻击者窃取其中的信息,威胁网络的安全;非必要情况下,不设置写权限;必须通过设备的访问控制列表严格限制可读/写设备MIB库的主机,原则上禁止从网管网段外访问MIB库;对于不同的网管系统,应设置独立的SNMP字串和访问控制列表。2.4远程登录访问控制:确保在所有登录服务的位置设置口令防护,其中设备登录和认证的通信过程应加密,确保AUX和Console接口设置EXEC口令;严格限定特定的IP地址远程登录网络设备或主机设备;对设备的远程登录会话最大无响应连接断开时间应设置为不大于10分钟。2.5安全保密制度:对有关设备、网络组织结构、电路开放信息等机房机密资料不得随意放置,用完后放回资料柜保存好,有关人员不得任意泄漏、抄录、复制和擅自带出机房;机房内严禁私自照相、摄像。机房内严禁从事与工作无关的各项活动。IDC维护人员必须遵守有关安全管理制度,认真执行用电、防火的规定,做好防火、防盗、防爆、防雷、防冻、防潮、防鼠害等工作,确保人身和设备安全。IDC维护人员出入机房应佩戴工作证件,进入机房应着防静电工作服、工作鞋。机房应执行安全保卫管理规定,外来人员不得擅自进入机房。外部人员因公进入机房,应经上级批准并由有关人员带领方可入内,如须携带与工作相关物品的,需要将所携带物品作详细登记。外籍人员因工作需要进入机房,须严格履行涉外手续,经主管部门领导批准后,指定中方陪同人员并详细记录进出机房人员的姓名、时间、批准人及工作情况。IDC维护人员应遵守动力维护部门的相关制度与管理规定,非专业人员禁止对动力设备进行操作,发现问题应立即通知动力维护部门。当机房的交流供电系统全部停止工作时,维护人员应立即向相关网络运维部门报告,并采取必要措施保证设备安全。维护和管理人员,均应熟悉并严格执行有关安全保密规定。IDC的所有员工要具有高度的职业道德素质,对用户在机房使用的各种资源信息及资料要严格保密,不能泄漏给任何其他人员。网络运行维护部门应定期检查安全保密制度执行情况。2.6故障管理IDC故障分为重大故障、较大故障、一般故障、其它故障。重大故障:电信网络安全防护定级3.1级以上的IDC全阻或严重拥塞1小时以上;党政军重要机关业务及重保期间业务重大通信阻断。较大故障:电信网络安全防护定级2级以上的IDC全阻或严重拥塞1小时以上。一般故障:其它IDC全阻或严重拥塞1小时以上。其它故障:除上述三类故障以外的IDC故障。在发生故障时应依据“先抢通、后修复”原则及时进行故障处理。发生重大故障或较大故障时应按照公共分册中的要求及时向相关网络运维管理单位进行报告。在恢复通信后应就故障现象、影响范围和时间、故障原因、解决处理情况等进行整理,形成正式的故障报告及时上报相关网络运维管理单位。对于一般故障应做好详细记录,定期对故障及处理情况进行汇总统计并上报相关网络运维管理单位。故障记录内容应包括故障现象、故障类型、故障起始时间、故障修复时间、故障历时、原因分析及解决情况、故障处理情况及责任分析等。3、资源管理客户资源维护管理基本规定:IDC客户资源包括IDC的客户信息以及客户设备信息。IDC所有的客户档案归市场部门统一管理,IDC维护人员应严格遵守安全保密制度保护客户的档案信息。IDC用户资料是进行统计分析、做好经常性维护工作的重要资料,必须做到记录和统计及时、准确,并妥善保管。客户资源管理:所有客户设备由客户自身负责维护维修,未经用户授权或许可,IDC维护人员不得对客户设备进行维护操作,在紧急情况下经用户代表授权许可,维护人员可以协助客户进行简单的设备重启操作。客户设备出现报警等异常情况时,机房维护人员应及时根据客户资料通知客户,以便客户及时赶到现场。IDC机房维护人员须对进出机房的用户设备进行登记,除去客户设备正常的维护性更换以外,客户需要在IDC机房内增加或者减少设备时,IDC维护人员需要得到相关业务部门的批准才能允许客户带入或带出设备。IDC为机笼式和专用机房客户提供钥匙,分别由客户以及IDC机房保管,并保证只有相关人员能够接触到客户设备,最大程度保证用户设备安全。为重要客户提供的独立机房,除定期维护工作以外,任何人员进入机房须经客户同意。4、质量管理IDC质量管理是对IDC的各个环节进行质量控制,发现质量隐患,采取预防措施,不断提高设备运行质量和服务质量。质量统计项目:机房现场:包括机房UPS使用情况(UPS负荷)、机架用电情况(每架用电量)、机房温度、机房湿度、机房用户机架占用情况;网络设备:包括网络设备负荷情况(CPU、内存使用率)、网络资源占用情况、网络互联带宽使用情况(峰值流量)、传输资源占用情况(ODF/DDF联络缆使用率)、用户情况统计。故障统计项目:机房现场:包括机房UPS故障、列头柜故障导致机架断电次数及历时;机房空调告警次数;机房门禁系统故障次数及历时;机房监控系统故障次数;网络设备:包括网络设备发生故障次数及历时;网络互联链路发生中断次数及历时。依据上述项目的综合统计数据,找出其产生故障和异常现象的原因,找出其质量指标变化或达不到使用要求的原因,提出相应解决措施。应每月召开质量统计分析会,遇有典型或疑难故障,应组织相关维护部门召开专题分析会,研究改进措施。5、维护作业计划维护作业的执行及记录:IDC维护作业计划应报相关运行维护管理部门,获批准后认真执行,所列项目和周期未经批准不得删减变动。维护作业计划完成后,必须详细记录完成情况和测试情况,同时将发现的问题摘要记录并做相应处理;测试记录应妥善保管。维护作业应在业务空闲时进行,发现不正常情况应及时处理和详细记录,对于无法处理的问题,应立即向主管负责人报告。在记录里写明作业执行的结果,数据要具体、量化,要求记录发现的问题及处理过程等。如需调整维护作业计划,必须上报上级运维管理单位审核批准后方可调整。IDC网络设备和配套设备的维护项目和维护周期:序号维护作业项目周期1机房温、湿度记录及安全巡视日2机房电源使用情况监测日3机房环境清洁周4设备清洁周5风扇、过滤网检查及清洁

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论