QC-减少IT故障历时,提高远程支援能力.doc_第1页
QC-减少IT故障历时,提高远程支援能力.doc_第2页
QC-减少IT故障历时,提高远程支援能力.doc_第3页
QC-减少IT故障历时,提高远程支援能力.doc_第4页
QC-减少IT故障历时,提高远程支援能力.doc_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

湖北移动网管中心QC项目减少IT故障历时,提高远程支援能力“减少IT故障历时”QC小组目录名词解释2一、小组概况3二、选择课题4(1)选题理由4(2)课题选定4三、目标设定5(1)课题现状5(2)目标分析6(3)目标选定8四、方案选择9(1)带外和带内管理的选择10(2)承载方式选择11(3)堡垒主机与4A安全平台选择12五、制定对策13(1)5W1H对策计划表13(2)对策流程14六、对策实施15(1)远程支援平台建设15(2)远程登陆VPN系统接入17(3)4A安全认证平台接入18(4)行为审计建设19(5)流程设定20七、效果确认21(1)维护反应时间优化效果21(2)故障判断处理时间优化效果22(3)经济与社会效益22八、标准化工作23(1)全省应用23(2)全国标准化23九、巩固措施23十、总结及下一步打算24(1)经验总结24(2)下一步计划25名词解释1、故障历时 从故障发生起到故障处理结束为故障历时; 如果故障影响业务,则以业务恢复为故障结束; 如果业务通过倒换恢复,但故障还存在,也算作故障结束。2、IT技术支援 集团公司将数据技术支援分为:数据业务技术支援和IT技术支援两个部分; IT技术支援主要针对网络设备和承载网平台; 由于湖北移动数据业务集中化维护,因此数据技术支援即为IT技术支援。3、带外与带内网管 带外网管指通过非业务网络的链路和端口来进行网络管理的系统,一般通过另外一套网络来进行传输,接入到设备的console口或AUX口; 带内网管指通过业务网络本身来传输网管信号,无需利用其他网络和端口。4、KVM KVM(键盘(Keyboard)、显示器(Video)、鼠标(Mouse)的缩写),在网络系统中应用为多设备控制器,即可使用一套终端来进行多台设备的管理。5、4A安全认证平台4A (认证Authentication、账号Account、授权Authorization、审计Audit)统一安全管理平台由湖北移动自行建设的安全认证平台,可对接入平台的系统的管理人员、帐号以及登陆过程、操作过程进行认证和审核。一、小组概况(1)小组简介小组名称 “减少IT故障历时”QC小组所在公司/部门网管中心成立时间2008年3月联系人及电题名称减少IT故障历时,提高远程支援能力课题类型技术创新型计划活动时间2008年3月-10月注册时间2008年3月注册号HBYD-08-WG-009(2) 成员简介针对以以上课题背景,为更好的发挥专家的作用,提高技术支援的效率和成效,湖北移动公司成立了数据技术支援体系优化小组,小组成员涉及管理、CMNET、IP承载网和MDCN等各方面专家,能够为本QC活动提供各方面的支持。姓名职务组内职务在本小组中承担主要工作任务谭晖湖北移动网络部项目经理组长组织、协调、方案规划与审核冯文仲湖北移动网管中心技术支持部数据室技术支持副组长方案制定、过程实施和效果监督尹卓君湖北移动网管中心技术支持部数据室数据维护组员计划制定、过程实施二、选择课题(1)选题理由随着通信技术的进步和通信行业的发展,网络IP化成为下一步移动通信发展的趋势。因此,如何在网络IP化的前提下,保证承载在各类IP网络的各项重要业务的运行稳定性成为目前最重要的一个研究课题之一。鉴于IP网络承载业务运行的稳定性将直接影响到用户的感知,一旦出现较长时间的中断,将直接引起大面积投诉从而导致移动公司的信誉度下降。以IP承载网为例,在历史故障中,业务恢复时间远远超过重大故障处理时限,IP承载网故障历时严重影响到交换业务稳定性。重大故障历时见下图: 图2.1 历史中国移动和湖北移动重大故障处理历时从上图可见,所有重大故障的历时均超过重大故障处理时限60分钟,严重影响到软交换话音业务,造成重大影响。因此,减少数据承载网故障故障历时,提高网络的稳定性是一个重要的任务,必须将故障时长控制在一个非常短的时间范围以内。(2)课题选定经过QC小组活动,采用头脑风暴的方式,各小组成员提出了四种课题目标。小组根据课题目标的效果、安全性、投资情况,采用比较法选择最为可行的课题。比较表见下表:序号课题分析评估得分选定课题效果安全性投资1通过建设系统堡垒主机进行远程登陆1、容易实施;2、效果不大;3、安全性不足;4、投资少2136不选2增加值班人员,提高维护人员技术水平1、难实施;2、效果不明显;3、安全性满足;4、无投资3249不选3增加承载网接入网健壮性1、不容易实施;2、效果不明显3、安全性满足;4、投资大1315不选4建设远程支援系统,提高IT远程支援能力1、容易实施;2、效果显著;3、安全性高;4、投资较大44210选定表2.1 比较法课题选择表经过全体专家的讨论,通过比较分析,最终确定本次小组活动主题为“减少IT故障历时,提高远程支援能力”。三、目标设定(1)课题现状QC小组经过历年来湖北移动数据支撑网维护工作情况和地市维护人员的实际调研,分析了目前IP网络故障历时情况。故障历时可分为以下4个部分:告警发起Text in hereText in hereText in here设备登录故障判断业务倒换图3.1 故障历时模型 告警反应时间:从故障发生时到告警派单发出,通知到维护人员的时间; 维护反应时间:维护人员从接到故障通知到成功登录设备,开始处理故障的时间; 故障判断和处理时间:维护人员开始处理故障到判断故障无法及时处理,开始业务倒换或故障处理完毕的时间; 业务倒换时间:业务开始倒换到业务倒换完毕,业务恢复时间。从上图可以看出,要减少故障发生到业务恢复时间,必须经历以上4个部分。QC小组对以前出现的各类典型的故障以及在各类演练中出现的各种情况进行统计,以从中找出影响最大的时延阶段和最值得压缩的阶段,以制定QC目标。故障情况业务恢复时间告警反应时间维护反应时间判断和处理时间业务倒换时间2006年8月24日武汉IP专网路由器重启引起路由环路导致软交换业务中断故障。150分20分20分(专家无法远程登陆)110分无2007年12月31日江汉软交换MGW由于3804交换机端口设置错误导致业务中断。213分20分35分(专家无法远程登陆)158分无2007年2月6日武汉CR出现TUNNEL中断后无法恢复的软件故障导致南朝UMG退服的故障。100分10分5分85分无2007年3月8日青海AR1/AR2由于误操作导致路由错误引起青海UMG脱网142分29分10分93分无2007年4月17日西安AR1由于错误配置ROUTER ID导致路由错误引起部分业务中断275分15分5分255分无2007年5月12日南京CR2由于单板故障导致TUNNEL中断引起部分话务溢出。150分25分15分110分无2007年7月7日上海AR由于软件问题引起南昌UMG退服118分20分25分73分无平均164分20分12分27.5分(专家无法远程登陆)126分0表3.1 历时故障历时分析表由上表可见,在一个故障开始到业务恢复之间,影响最大的时延是判断和处理时间,约占总时间的77,而波动最大的时延是维护反应时间。如果出现专家无法远程登陆,该时延甚至可以占重要故障限定回复时间1个小时的50以上! 从上表可见,维护反应时间(即设备登陆时间)波动最大,且属于非故障处理历时,对故障处理毫无帮助。其次,故障和判断处理时间占比最高。因此,减少维护反映时间和故障判断和处理时间应当作为课题的研究方向。(2)目标分析针对以上两个研究方向,小组成员对影响因素进行了比较分析。1、维护反应时间分析:目前湖北移动和中国移动采用的远程登陆方式有两种:a) 在移动机房利用本网络维护终端登陆;b) 在其他地方利用Internet网络通过公网终端远程登陆,一般为堡垒主机或VPN方式;这两种方式的故障反应时间不同,以下是对客观情况下可能出现的最长反应时间的分析表:开始登陆时间登陆第一台网络设备时间登陆目标网络设备时间总时间机房登陆05分钟1-2分钟710分钟CMNET远程登陆10-15分钟(开机上网)5分钟1-2分钟15-20分钟IP承载网远程登陆0.52小时(到公司)5分钟1-2分钟0.52.5小时 表3.2 故障反应时间分析表根据上表,我们可以得出目前最长维护反应时间(最坏情况下)现状为:(专家不在公司时)远程登陆时间20分钟(有远程登陆手段)或2.5小时(没有远程登陆手段);(设备脱网时)机房现场登录时间需要2小时15分(没有远程登陆手段)。专家在公司时;网络远程登陆时间36分钟 专家不在公司时:远程登陆时间20分钟(CMNET)或2.5小时(IP承载网) 最长的反应时间需要2.5小时,远远超出了业务恢复对维护反应时间的要求网络故障时:登录时间需要2小时15分 图3.2 维护反应时长原因图2、故障判断和处理时间分析:经过现场演示和对比分析,项目组确定有以下4个原因:a) 现场维护人员技术水平不足,无法迅速判断故障原因;b) 现场处理人员可能不是实际维护人员,经验不足;c) 技术支援专家无法远程登录,只能通过电话指导;d) 专家无法实际操作,无法准备判断故障和进行处理;总结来说,由于专家和普通维护人员水平差距和经验水平造成故障处理延误,如果专家能及时参与故障处理,故障处理时间将会大幅度下降。无法及时有效的判断和处理 故障处理时间最长可达1个小时以上 例如湖北移动1月31日的承载网CE故障,由于专家无法远程登录,现场维护人员经验不足,导致故障处理时长超过1个小时。而如果由专家处理,故障时长可以压缩到20分钟以内。 现场维护人员技术水平不足,无法迅速判断故障原因现场处理人员可能不是实际维护人员,经验不足,技术支援专家无法远程登录,只能通过电话指导专家无法实际操作,无法准备判断故障和进行处理图3.3 故障处理时长原因图(3)目标选定经过原因分析,小组完成两个研究方向的比较分析图维护人员是否能及时登陆对故障处理影响 30-60分钟 10分钟维护人员不在机房现场能及时登陆影响大专家能否参与故障处理影响1005070由地市维护人员自行处理由专家远程处理影响大 图3.4 故障历时问题比较图经过前期的分析过程,QC小组得出结论:要想在较大程度上较少故障历时,需要解决维护人员和专家远程维护的问题。为了保证重大故障历时不超过一个小时,经过QC小组成员一致认定,中国移动的技术支援方式必须基于远程登陆。但目前的远程登陆方式在某些故障(设备脱网)时无法实现有效的技术支援,同时目前远程登陆方式安全性和可控性还无法满足集团公司的IT技术支援能力的要求,因此,QC小组设定了以下项目目标: 基于安全原则,建立远程支援系统,使技术支援专家(或维护人员)在任意地点、任意时间快速登录(15分钟以内)任何一台网络设备。 该目标可以分为三个细化的目标:a) 建设远程支援平台,并保证该平台的可靠性;b) 压缩故障反应时间,使通过远程登陆的方式更加简洁,减少中间跳转和口令输入的时间。专家在公网上通过远程登陆故障设备时间压缩到15分钟以内,移动机房内登陆时间压缩到3分钟以内;c) 加强支援系统的安全性,系统应能保证专家只能登陆权限范围内的设备,并建议帐号口令由系统代填,减少人为输入时口令泄漏的风险。四、方案选择QC小组通过开展活动,使用头脑风暴的方式,提出了多种实施方案,并进行了论证分析,选择了最优的方案。管理方式承载方式安全平台带外网管IP承载网堡垒主机带内网管MDCN4A安全认证平台CMNET 表4.1 所有可选方案(1)带外和带内管理的选择1. 是否占用正常带宽:鉴于部分链路带宽已处于拥塞状态,远程管理系统尽量不要占用正常的业务带宽,避免忙时出现操作反应慢的情况。(带内网管不满足);2. 是否具备独立接入链路:相对CMNET/IP承载网等重要承载网络,远程支援系统应当独立组网,避免业务网链路中断时影响支援系统。(带内网管不满足) ;3. 设备脱网时能否控制:在网络结构简单的网络中,如MDCN,CMNET城域网中单链路较多,设备脱网情况经常发生。在 IP承载网等结构完善的网络中,一旦出现板卡吊死或设备宕机等现象,也会造成设备脱网;如果不能控制,将只能依靠现场维护人员通过console来进行操作,专家将无法对设备进行操作,基本上无法实施技术支援,造成故障处理延误;因此远程支援系统必须保证在设备脱网/板卡故障导致无法通过IP地址远程登录时也能进行操作。(带内网管不满足)鉴于以上分析,决定采用带外网管方式进行实施。是否占用正常带宽选择带外网管系统各种恶劣情况下均可使用是否具备独立接入链路设备脱网时能否控制带内网管带外网管Console转接器图4.1 带内和带外网管比较图(2)承载方式选择为了达到项目目标,我们对项目实施方案进行调研,初步制定了以下几个可供选择的承载方案:1. 利用IP承载网承载,使用带外以太口管理;2. 使用CMNET承载,使用KVM进行管理;3. 使用MDCN承载,使用KVM系统进行管理。经过现场调研,项目组选择了第三种方案来完成本项目,原因如下:1. 是否能推广到其他系统:经过早期的试行,通过KVM方式实现console口远程一点管理是可行的。通过接口转换的方式,可以将各厂家的网络设备的console口信号转换成IP信号在IP网络中传输,并可以通过telnet IP地址或IP地址加端口号的方式直接远程登陆;使用IP承载网带承载可以实现IP承载网的带外管理,但无法管理CMNET和MDCN系统;2. 设备脱网时能否使用:不管用哪套网络承载都将无法保证本网络的稳定性,但从网络重要性来看,MDCN的重要性最低,选择MDCN网络最优;3. 安全性是否满足要求:湖北移动4A统一认证平台正在建设,通过4A平台来进行统一接入和帐号口令管理以提高登陆的安全性,同时通过TBA来进行后期的行为审计经过验证是可行的;而采用IP承载网和CMNET接入方式,则没有与4A系统相连的接口,如果强行打通路由,则会造成路由安全隐患; 选择MDCN系统承载三项要求综合考虑是否能推广到其他系统安全性是否满足要求设备脱网时能否控制使用IP承载网或CMNET承载将无法满足安全性问题利用IP承载网承载,使用带外以太口管理 。仅能用于IP承载网。使用IP承载网或CMNET承载将无法保证本网络的控制。图4.2 承载方式比较图通过以上四点分析,以MDCN为支撑网,以KVM系统为技术手段,以4A系统为统一接入平台来加以安全控制,QC的目标完全可以做到切实可行。(3)堡垒主机与4A安全平台选择1、 是否会受到公网攻击:堡垒主机的功能有限且直接暴露在公网上,一旦堡垒主机贝攻破,将会对所有网络设备造成安全隐患。4A安全在内网,不会受到公网攻击;2、 是否能通过帐号来划分专家权限:堡垒主机无法通过帐号口令来划分专家权限,因此,专家的口令如果泄漏,可能会有恶意攻击系统设备的情况。4A安全系统可以根据专家帐号来确定登陆设备范围,减少攻击面;3、 是否需要每次登陆输入口令:每次登陆设备输入超级口令,密码很容易泄漏。尤其是需要其他省技术支援专家或厂家来进行支援的情况。堡垒主机方式不满足,而4A安全平台方式无需输入口令,只需加强登陆控制即可保证;4、 是否有短信认证方式:堡垒主机需要进行改造才能满足,4A安全系统已经满足短信认证方式。鉴于以上4点,远程支援平台采用4A安全平台来进行安全保证。五、制定对策QC小组经过早期的试行,发现可以通过KVM方式实现console口远程一点管理。经过分析,可通过MDCN网络和私网地址来承载远程管理系统且通过4A平台来进行统一接入和帐号口令管理以提高登陆的安全性经过验证是可行的。因此,本项目将设计以MDCN为支撑网,以KVM系统为技术手段,以4A系统为统一接入平台来加以安全控制。(1)5W1H对策计划表为了有效完成任务,项目小组将相应要因和对策方案进行分解,制定5W1H对策表,如下表:序号要因对策目标措施地点时间负责人1登陆时间过长建立KVM系统,通过CONSOLE口对网络设备进行管理通过IP地址+端口实现远程登陆CONSOLR口全省各重要机房布置AVOCENT的带外网管系统全省08.10冯文仲、尹卓君2处理人员技术水平不足3无法远程登陆利用4A系统远程登陆VPN系统,进行远程登陆控制能通过VPN登陆,并实现短信动态认证使用网管中心VPN接入远程支援系统网管08.6冯文仲4带内网管存在脱网隐患KVM系统通过MDCN网络进行传输,提高稳定性通过MDCN网进行KVM信号将全省带外网管设备接入MDCN全省08.5冯文仲、尹卓君5帐号口令输入安全问题将KVM系统结合4A安全平台,避免直接输入口令通过4A平台,直接登陆,由平台进行口令代填和4A系统进行联动开发网管08.11冯文仲6登陆行为无法控制通过行为审计系统和4A安全平台的相关功能,对登陆和操作进行审计通过4A和VPN实现登陆监控开发4A系统相关功能网管08.8冯文仲7操作行为无法审计通过行为审计系统进行实时和事后的审计08.11冯文仲表5.1 5W1H对策实施表(2)对策流程按照前文对策表,项目小组将项目主要分为三个步骤进行实施,分别为KVM(远程支援平台)、4A安全认证系统以及帐号口令管理规范;流程图如下:远程支援系统帐号口令管理规范4A安全认证KVM图5.1 项目流程图QC小组开展对策制定活动,通过PDPC法,制定每一步对策实施细则:1. 远程支援平台建设:通过串口专用代外管理系统对网络设备的console口管理,串口专用带外管理设备通过MDCN网进行互联并在核心节点(武汉)设置网管服务器统一控制。这样,可以通过远程支援平台实现一步式登陆,减少网络跳转的时间;总体建设方案为:在每个局点(包括地市局点)放置一台串口专用32口带外管理设备;采用100M以太网线双归至本地的MDCN接入交换机上,通过本地MDCN汇聚路由器BLN接入到武汉核心节点,增强网络可靠性。各局楼KVM设备采用console口接入本局楼需要管理的网络设备。由于MDCN网络为双节点非对称性冗余备份链路互联,网络可靠性能够得到很好的保证;2. 建立安全的远程登陆系统:利用VPN、防火墙、4A安全认证系统和4A行为审计系统搭建一套统一的具有高安全性的远程登陆系统。技术支援专家通过VPN系统可以从公网远程登陆到4A认证平台上,通过4A认证平台动态口令认证和行为审计后,再通过4A代填密码的方式登陆IP承载网远程支援堡垒主机或CMNET带外管理服务器,然后再登陆承载网路由器或交换机进行操作,减少了密码查询和不同帐号输入的时间,同时,加强了密码口令管理,实现了帐号统一管理,并能对登陆过程进行监督; 图5.2 远程技术支援平台架构3. 在远程登陆的控制上,为了保证湖北移动数据支撑网网络安全和帐号口令安全,技术支援系统需要满足以下规范:a) 技术支援专家拥有自己的VPN帐号,4A认证平台帐号以及堡垒主机帐号。帐号和密码可以一样,但保证设置必须满足安全规范;b) 所有CMNET和IP承载网交换机和路由器可以对远程管理系统开放最高权限并为每位技术支援专家分配最高权限帐号,但必须做到权限的最小化。非技术支援专家或有需求的本地维护人员,不得拥有配置权限的操作帐号;c) 所有远程支援的登陆流程和操作流程都必须进行监督和审计.六、对策实施(1)远程支援平台建设考虑到湖北移动网络设备的多样性,其带外网管采用数字KVM在各局楼接入,并由MDCN网络进行互联:1. CMNET带外网管网络将在每个局点(包括地市局点)放置一台AVOCENT系列ATP0100串口专用32口带外管理设备(待定)。ATP0100是按局楼放置,即每个局楼放置一台。初步定为宜昌、江汉、黄冈、荆州、咸宁、孝感各两台,随州、襄樊、荆门、黄石、十堰、恩施、鄂州各一台,武汉常青、关南、火车站数据机房各两台,罗家路、紫阳路等7处交换机房各放置一台16口带外网管设备。2. 各局楼ATP0100采用一条100M以太网线双归至本局楼的MDCN接入交换机BAY450上,通过本地MDCN汇聚路由器BLN接入到武汉核心节点,增强网络可靠性。BAY450归属业务为地市小业务群接入交换机。3. 武汉常青、火车站、关南核心数据机房节点两台ATP0100采用100M网线连接MDCN核心节点接入交换机,单独划分VLAN;4. 武汉各交换机房ATP0010采用100M以太网线接入MDCN交换机房接入交换机上,单独划分VLAN;5. 各局楼ATP0100采用console口接入本局楼所有公网路由器和交换机设备。CMNET和城域网设备使用console端口作为带外网管监控口。6. 常青网管机房CMNET和城域网带外网管网管服务器通过常青节点MDCN接入交换机cisco3500与各地市节点的ATP0100互联,通过数字信号传输维护信息。由于MDCN网络为双节点非对称性冗余备份链路互联,网络可靠性能够得到很好的保证。7. 常青网管机房的带外网管维护终端通过100M网线接入到MDCN接入节点交换机cisco3550,通过同一个VLAN与网管服务器互联。8. ATP0100通过以太网接入MDCN交换机,作为MDCN接入业务进行互联,同时禁止MDCN接入网元端口收发OSPF报文和重分布直连路由,防止伪邻居欺骗。带外网管网络层连接方式同MDCN内网,不作变更。9. 在MDCN接入路由器BLN上,对ATP0100接入VLAN制作ACL,只允许ATP0100所在网段进行互访,其余访问地址全部进行封堵。10. IP地址规划:带外网管网络的IP地址采用与现网MDCN业务地址不同的一全新网段,所有网元均使用/22地址段地址共4个C。地址规划仅只涉及ATP0100设备本地管理地址以及和MDCN接入交换机BAY450互联地址,即每个局楼配置一个29位掩码的网段。其中每个29位网段首位地址分配给ATP0100作为管理地址,紧接两位分配给BAY450连接的VLAN。后期新增带外管理系统,互联从地址段顺序取用;11. 后期新增设备配置:指定接入设备的console端口,接入到ATP0100设备空闲端口上,并在网管系统中增加对应的接口设备。图6.1 远程支援平台组网图(2)远程登陆VPN系统接入 如下图,KVM系统接入远程登陆VPN: 图6.2 远程登陆VPN组网图1. VPN系统通过MDCN连接短信中心,并将每个用户的帐号和手机号匹配储存。用户通过HTTPS方式访问VPN网关,输入用户名后,VPN系统将随机生成一个密码,通过短信方式发送到用户手机上。2. 用户用该密码开始登录时,VPN软件将会自动调用一个ActiveX控件,这个控件会检测该客户端PC上是否有VPN拨号客户端软件和拨号证书.如果没有会自动下载,安装配置VPN客户端软件,并自动拨号和VPN网关建立IPSEC隧道连接。当隧道建立后VPN能自动连接到4A系统PORTAL页面,并完成4A系统的登陆操作.3. VPN系统和4A系统进行联动,能实现帐号的自动同步工作。(3)4A安全认证平台接入4A系统作为用户的身份访问控制系统,对于用户的信息和访问权限需要做统一的管理,KVM系统的权限控制,要和4A系统进行同步。4A系统在用户登录后需要直接显示用户所能访问的设备的列表,KVM在用户访问设备时应该是透明的。 4A统一认证平台按以下功能进行接入和开发:1. 结合VPN,实现登录控制和管理;2. 对用户帐号的登录和访问进行记录,以备审计;3. 对所有被控网络设备进行管理;4. 确定被控设备的登录方式:在远程支援系统中,登录方式是telnet IP地址(KVM)端口号;5. 管理被控网络设备的帐号密码。通过加密方式记录在4A系统内部,由管理员掌握。专家进行远程登录时直接由系统代填,减少口令泄露的风险,并能加强对帐号口令的权限管理;6. 对设备管理权限和专家帐号进行关联,以保证专家通过4A平台只能访问自己支援职责内的设备,以保证技术支援行为的可控性;7. 统一呈现访问列表。专家登录4A平台后,系统将可访问的设备进行统一呈现,使专家在进行技术支援时能方便快捷的登录被控网络设备。接入完成后,4A登陆控制平面如下图:图6.3 4A认证控制平台登陆界面(4)行为审计建设 对KVM系统的访问权限通过与行为审计系统的结合对用户访问和操作行为进行关联分析和控制,以及操作记录审计,防止非法操作和重大操作使用。1. 系统配置:网管中心两台核心交换机上各部署一台行为审计设备,在展示区和集中接入区分别放置一台堡垒主机(TBA);2. 审计方式:用户不直接访问设备,而是通过堡垒主机(TBA),经KVM转发数据包来访问设备,堡垒主机(TBA)成为用户在客户端访问设备的统一入口,用户在登陆TBA后,通过KVM对设备进行操作,KVM把设备返回的结果经TBA转发给用户客户端。TBA将经过其发送到被控网络设备的所有操作指令进行记录并予以关键字审计;KVM记录设备返回的结果,并将记录设备转发给TBA,作为审计资料(本项作为后期开发项)。3. 审计内容;网络行为审计产品除了原有网络行为的操作行为审计,新增了网络设备的日志管理和审计。包括以下几类(计划为后期开发):a) 非授权终端访问控制;b) 敏感命令过滤,当越权执行某些特定命令或者使用特权的时候进行告警或者阻断; c) 终端访问的过滤和阻断;d) 关键内核参数和配置文件审计,设定规则,对关键配置文件操作(读、写、更改属性等)进行监控与告警 。(5)流程设定 经过全省技术支援专家的试用和讨论,初步将技术支援操作流程定义为以下四步:1. VPN认证:用户通过VPN连接到4A系统PORTAL页面;2. 4A登陆:4A登录界面显示该专家支援范围内的所有设备链接。通过链接,自动启用终端上的相关登录软件,如CRT等连接被控网络设备;3. 堡垒主机转发:用户终端通过堡垒主机经KVM转发数据包来访问设备,远程支援系统以telnet方式登录被控设备console接口;4. 代填密码:4A系统将自动代填口令密码,减少密码泄露的可能性,专家对被控网络设备的操作记录均通过TBA进行保存,以备日后审核。VPN登录4A平台显示操作设备 图6.4 远程支援系统登陆图七、效果确认经过远程支援平台的建设,全省纳入技术支援的网络设备已经可以做到一次性登录,不需要再通过堡垒主机进行逐级跳转登录,也不需要在登录时多次查询口令。减少登录时间、提高故障处理速度的同时,还避免了密码泄漏造成的安全隐患。经过实际操作确认,在专家进入系统到登录到最终设备时间不超过30秒,在工程全部完工后,通过4A系统进行统一认证和密码自动输入的方式进行登录,即使从外网登录,时间也不会超过2分钟,大大提高了遇到紧急故障时的工作效率。(1)维护反应时间优化效果为了确认本项目提高的效果,我们针对维护人员所处的不同环境来验证维护反应时间。A、 直接在各省中心的维护终端上登录任意一台IP承载网CE设备的时间;B、 从公网进行登录:维护人员通过电信或网通的网络,以VPN的方式登录远程支援系统,然后直接跳转到任意一台CE设备的时间。 经过实际操作确认,通过维护终端登录,维护人员从进入系统到登录到最终设备时间不超过30秒。而通过外网登录,经过4A系统进行统一认证和密码自动输入的方式进,时间也不会超过2分钟,和项目开始前的情况有了显著的提升,提升率达到100,大大提高了遇到紧急故障时的工作效率。 图7.1 故障反应时间优化效果图(2)故障判断处理时间优化效果采用应急演练的方式来进行测试。由一位维护人员设置一个路由故障,然后由其他不知情的地市维护人员和技术支援专家来分别进行故障分析和判断,以测试故障分析与判断时间。地市维护人员平均处理时长约2030分钟,专家处理时长约10分钟,节省故障历时50。如果故障不是简单链路故障,而是很难判断的路由或VPN软件BUG故障,专家较一般维护人员处理的效果更加明显。图7.2 故障判断处理时间优化效果图(3)经济与社会效益1. 远程支援系统使用后,大大缩短了故障发现以及定位处理时间,从以前的60分钟以上缩短至30分钟内,每起故障可节约20分钟以上处理时间。以IP承载网为例,按照每个端局话务量约6000ERL,以15元/ERL计算,平均每起故障影响7个端局,每端局可直接避免经济损失2000ERL*15元/ERL=30000元。每起重大故障可以直接避免经济损失210000元。2. 在网络支撑能力方面,全面实现了全省网络设备的远程维护,提高了工作效率,网络质量得到了稳步提升,支撑市场发展的能力得到了全面增强。3. 在维护人员素质方面,将技术支援专家虚拟团队正式应用,通过远程支援系统,技术支援专家可以在面向任务的层次化维护模型中全面负责较高难度的任务制定和故障处理工作,普通维护人员负责基于现场的简单日常维护和任务执行工作,简化了维护人员的学习与积累流程。在提升IT技术支援能力的同时,由于可以远程快速支援的实施,湖北专家团队人数进行了精简,相关人力资源成本降低了10。 八、标准化工作(1)全省应用本项目能够有效的压减故障处理和技术支援时间,同时提高了支援行为的安全性,并增加了关键点审计的功能,具备很高的推广价值。目前已在湖北移动全省性的进行应用。(2)全国标准化该课题还通过集团技术支援体系向集团公司进行上报并推荐,得到了集团公司领导的认可。目前湖北移动远程支援系统已作为集团试点项目,本项目的建设规范已经作为全国性的标准通过集团公司在整个中国移动范围内进行发布应用。(规范在集

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论