N2000 BMS故障处理专题.ppt_第1页
N2000 BMS故障处理专题.ppt_第2页
N2000 BMS故障处理专题.ppt_第3页
N2000 BMS故障处理专题.ppt_第4页
N2000 BMS故障处理专题.ppt_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

N2000BMS故障处理专题,ISSUE1.1,Page1,学习完本课程,您应该能够:了解N2000BMS网管故障处理的一般流程,常用思路与方法掌握N2000BMS网管故障信息收集的具体内容与方法及常用工具的基本使用方法,学习目标,Page2,前提,处理网管问题,应该首先具备如下基础知识Solaris系统及其常用命令SQL常用语言的语法SNMP协议知识网管基本实现原理,Page3,第一章网管基础知识第二章常用工具使用方法第三章一般故障处理思路,Page4,BMS网管基本结构,BMS网管分为客户端和服务器端,在服务器端运行数据库,网管后台程序,通过9800端口提供客户端访问接口。,Page5,N2000BMS进程简介(以R8为例),Page6,各进程对应功能,明确各后台进程的依赖进程以及提供的功能,是处理问题的关键,Page7,Page8,第一章网管基础知识第二章常用工具使用方法第三章一般故障处理思路,Page9,Debug调试信息,网管提供对各业务后台进程的debug调试接口,接入方法为:打开服务器端的一个命令行终端,输入:telnet9810iMAPsetdbgparaProcessID:84根据实际进程更改,具体进程的ProcID可查看相应的n2000/server/conf/sysmoni目录下对应的配置文件如MA5100的配置文件为:monima5100v1dm.cfgScope(formatismodule_submodule.default,allmodule):Debuglevelasfollowing:0,None;1,Error.2,ErrorandWarning.3,ErrorWarningandInfo.Pleaseselectlevel:3Debugoutputorientasfollowing:0,Standardoutput.1,file.2,sharememory.3,EmfExamDm.Pleaseselectorient:1Settingsucceeded!,Page10,Debug调试信息,关闭debug:iMAPsetdbgparaProcessID:84Scope(formatismodule_submodule.default,allmodule):Debuglevelasfollowing:0,None;1,Error.2,ErrorandWarning.3,ErrorWarningandInfo.Pleaseselectlevel:0Debugoutputorientasfollowing:0,Standardoutput.1,file.2,sharememory.3,EmfExamDm.Pleaseselectorient:0Settingsucceeded!注意:开启debug开关,搜集信息后,应记得把debug开关关掉。debug信息存放在/n2000/server/debug目录下,以对应进程名命名,Page11,抓包工具,Solaris系统:推荐使用snmpsniff工具Windows系统:推荐使用Ethereal工具snmpsniff基本用方法:将snmpsniff软件上传至服务器,使用chmod更改其属性为777,然后执行./snmpsniffve“andhost1andhost”a.txt将1与之间的snmp报文输出到a.txtEthereal基本使用方法:在服务器端安装Ethereal软件,有些版本的Ethereal还需要WinPap软件的支持运行Ethereal,然后点击capturestart,然后在capturefilter中填写主机的地址HostIP,如需要抓取本机与之间的报文,在capturefilter中填写host,点击OK即可,Page12,Coredump,如果出现某个进程异常停止,欲分析其原因,则需要采集coredump信息Solaris系统中:coreadm-eglobal-g/opt/n2000/core.%f.%p每core一次,生成一个文件coreadm-eglobal-g/opt/n2000/coredump生成的自动覆盖以前的core文件记得采集到信息后,将全局core开关关闭coreadm-dglobal-dprocess返回信息时,将pstackcore.x.x的结果返回即可Windows系统中:使用usercoredump工具。如果某个进程占用资源过高,可以采集core信息:先使用ps命令查询其PID然后使用gcorePID在当前目录下生成一个core.PID文件,Page13,端口检查工具,网管的后台都会使用一些端口,如故障进程需要使用162端口;数据库备份后台需要使用9809端口。当这些端口被其他进程占用时,相应的后台进程就无法启动,那么如何定位是什么进程在占用这个端口呢:Solaris下:修改脚本checkport.sh文件中的“$port”=“9809”为想检查的端口,如162运行脚本即可:#chmod+xcheckport.sh#./checkport.shx#morex191041910419106191061910519105#ps-ef|grep19104(查看这些进程是否重要)#kill-9910491059106,Page14,端口检查工具,Windows下:使用Fport工具,切换到命令行执行即可,Page15,第一章网管基础知识第二章常用工具使用方法第三章一般故障处理思路,Page16,操作系统及数据库,对于Solaris操作系统,我们只要求处理一般的故障和一些简单的配置问题,如重启后无法进入图形化界面(FSCK),修改IP地址等,如遇到疑难问题,可以求助800。对于Windows系统,可维护的更少,一般是病毒问题,可以安装杀毒软件,如果遇到疑难问题,可以求助外构件供应商或者重新安装系统,但是从维护经验来看,Windows本身的故障很少很少。对于Sybase数据库,主要是根据日志信息来判断,日志的存放位置在$SYBASE/ASE-12_0/install/N2000DBServer.log其中N2000DBServer为数据库名如有疑难问题,求助渠道是北京Sybase公司热线。对于SQLServer数据库,由于SQLServer相对于Sybase有很多智能化的功能,比如动态扩充数据库等等,因此主要是图形化工具使用操作方面的问题,或者开局设置方面的问题,可以平时注意积累。,Page17,案例1由于Sybase连接数不够导致进程无法启动,现象:MA5300进程无法启动,无法打开MA5300设备的面板分析处理过程:当某个进程无法启动的时候,处理过程就是在sysmontior中将其设置为手工启动,然后设置其状态为停止,使sysmonitor不去监控此进程然后切换至server/bin目录下,手工启动该进程,根据打印消息判断问题在这个案例中,看到的打印消息为2007-08-1714:08:00ASSERT:./gnldbmgr.cpp(333):falseCantgetdatabaseconnect!PrepareWorkfailed然后重点检查数据库日志:,Page18,案例1由于Sybase连接数不够导致进程无法启动,00:00000:00002:2007/08/1714:08:00.69serverError:1601,Severity:21,State:300:00000:00002:2007/08/1714:08:00.71serverTherearenotenoughuserconnectionsavailabletostartanewprocess.Retrywhentherearefeweractiveusers,oraskyourSystemAdministratortoreconfigureSQLServerwithmoreuserconnections.于是使用isql语句修改最大连接数:sp_configurenumberofuserconnection,1024修改后重新启动网管后台进程和数据库,问题解决。,Page19,网管安装,对于SolarisSybase环境下的安装,严格按照操作指导书,是不会出现问题的,经常遇到的问题是系统参数设置不对(etc/system),或者是安装N2000网管软件的时候,提示sa密码不对(可以使用isql命令连接数据库验证密码)对于Windows+SQLServer环境下的安装,严格按照操作指导书,是不会出现问题的,需要注意的一点是,R11网管Windows版本Windows2003ServerR2SP2,SQLServer必须安装SP4的补丁,且安装时候需要选择【二进制】的排序规则。,Page20,网管安装,在遇到疑难问题的时候,需要分析安装日志SolarisSybase环境下,安装日志在/var/tmp目录下的installdisk.log和installInfo.log,可以查看安装日志发现问题。WindowsSQLServer环境下,安装日志在%temp%目录下,文件名与Solaris环境下相同,Page21,案例2安装Sybase时,提示创建“AdaptiveServer”失败,现象:安装完Solaris后,再安装Sybase数据库时,提示创建AdaptiveServer失败分析处理过程:如果严格按照安装指导书,是不会出现什么问题的,往往前方工程师会粗心大意,漏配置一些参数,所以,这方面的问题,需要我们经验的积累,在Solaris系统中,/etc/system文件中需要添加三行文字,这是前方工程师经常忘记的地方在/etc/system文件的最后添加setrlim_fd_max=4096setrlim_fd_cur=2048setshmsys:shminfo_shmmax=2097152000其中2097152000根据实际情况计算物理内存大小(单位:M)*1024*1000”,超过4G的情况,以4G计算。重新启动Solaris系统后,安装Sybase成功。,Page22,案例3安装N2000到数据库服务配置信息步骤失败,Page23,案例3安装N2000到数据库服务配置信息步骤失败,分析处理过程:1、首先前台报错项检查设置是否正确,正常。2、检查服务器是否插网线,如果不插网线可能会引起无法ping通实际网卡地址,检查没有问题。3、结合安装日志(临时目录下的installdisk文件)发现问题可能是由于1433端口无法被正常监听导致的:1548532Thread-9DEBUGcom.huawei.install.gui.DoCostTimeWorkDlg-DBURL:jdbc:jtds:sqlserver:/3hread-9WARNcom.huawei.install.gui.DoCostTimeWorkDlg-java.sql.SQLException:NetworkerrorIOException:Connectionrefused:connect4、netstatna检查不到1433端口,怀疑是SQLServer补丁没有安装导致,安装SQLServerSP4补丁后再次检查1433已经被正常监听,安装失败问题顺利解决。,Page24,网管升级,网管的升级是使用升级工具(推荐使用V200R001C01B061SP06)将原网管的数据提取并做格式转换,在写入到新版本的网管数据库中,所以升级的流程可想而知:升级准备安装目标版本网管升级网管数据库升级准备:主要完成网管的数据备份,新版本网管的数据库预设置安装目标版本网管:这个操作与新装网管有些区别,需要将UpgradeTool_win中installDisk目录下的文件及目录覆盖到V200R008B02D061SP11的安装盘解压后的路径升级网管数据库:将原网管的数据经过格式转换,写入到新网管的数据库,Page25,网管升级,UpgradeTool_solUpgraderlog目录下的所有日志说明:UpgradeTool_solUpgraderlogbasic主要记录程序各阶段执行的结果,是debug日志的子集UpgradeTool_solUpgraderlogtemp主要生成各种临时的脚本以及脚本执行的执行结果UpgradeTool_solUpgraderlogdebug详细记录各种日志信息备份目录/DB源版本号/库名/result.txt说明:该文件记录了dump,log,sql语句执行的结果,对相应的数据库升级的所有sql语句的日志都放在该文件中。,Page26,案例4由于未完成数据库升级阶段,网管上无任何数据,现象:R7网管升级至R8网管后,拓扑图中没有网元,所有数据丢失。分析处理过程:首先处理升级的问题,首先要明白网管升级的原理和步骤,在安装了目标版本的网管后,还需要执行数据库升级步骤,将原网管的数据重新组合写入新版本的网管数据库。前方正是没有做数据库升级,导致新网管上没有任何数据。执行数据库升级阶段工作后,问题解决。,Page27,拓扑功能,拓扑图可以提供一个直观的网元图,并且对设备的操作的入口都是右击或者双击网元图标进入,因此,拓扑功能是网管的一个重要基本功能。在目前关于拓扑方面的故障,常见的就是无法添加网元,原因有如下:设备上的nms参数设置问题检查设备配置网管数据库有冗余数据使用Ctrl+Alt+D解决,或者查询案例网管与设备之间通信通道问题检查能否ping通,161,162端口是否被屏蔽操作问题要正确选择相应的设备类型,Page28,案例6R11网管添加MA5600V3设备失败,Page29,案例6R11网管添加MA5600V3设备失败,分析处理过程:1、与设备通信异常首先保证网络是通的,ping该设备IP,没有问题。2、从报文交互的角度去考虑,由于添加设备基本上都是get或者get-next报文,则要考虑主机的读团体字是否和网管设置的一致,图片中已经看到网管设置的SNMP协议版本及参数,需要进一步要核对主机侧设置的这些参数是否一致。3、进一步检查主机发现读团体字跟网管不一致,调整主机侧参数后问题解决。4、实际故障处理中还有可能碰到无法激活去激活端口等情况,需要核对写团体字,告警无法接受情况,需要进一步打开主机上报开关等,如果还无法定位则可以结合抓包分析。参考:主机侧需要设置的内容如下:snmp-agentcommunityreadpublic/设置snmp读团体字snmp-agentcommunitywriteprivate/设置snmp写团体字snmp-agentsys-infoversionv1v2c/设置snmp协议版本(默认我们用v1版本)snmp-agenttrapenablestandard/设置主机允许发送trap报文snmp-agenttarget-hosttrapaddress99securityname199/设置trap上报地址,Page30,案例7EPON网管添加5680T提示组件没有安装,Page31,案例7EPON网管添加5680T提示组件没有安装,分析处理过程:1、经过抓包分析是主机上报的设备类型错误导致的,主机将类型上报成了MA5600T导致的。,2、设备侧命令调整方法:MA5680T_A(config)#diagnose/进入设备诊断模式MA5680T_A(diagnose)%suChallenge:1YQQUHFD/设备的明文挑战字Pleaseinputpassword:/可通过800获取明文MA5680T_A(su)%displaydevice/查看默认的设备类型是否为5680TSystemproducttypeisMA5680T/如果有问题的在这里显示5600TMA5680T_A(su)%devicema5680T/修改方式-CommandofsuMode:-PleasepressENTERtoexecutecommand,Page32,安全管理,安全管理模块主要提供了鉴权等功能,此功能模块影响用户登陆,所以,如果用户反馈登陆出现问题,主要的就是考虑这个模块。这方面常见的问题没个帐号登陆上去无法显示拓扑网元,登陆的时候提示“一个客户端只支持一个客户登陆”、“用户不在ACL设置范围”、“用户被锁定”等等License管理也是由此模块实现。处理这方面的问题,主要是设置的问题“一个客户端只支持一个客户登陆”修改iMap.cfg,重启安全后台“用户不在ACL设置范围”在用户管理界面设置ACL“用户被锁定”要么等15分钟后再登陆,要么删除/server/conf/userlist.sav文件,重启安全后台无法显示网元检查该帐号的管理权限是否设置正确,所属用户组是否正确,Page33,案例9由于网管与客户端之间存在NAT设备,导致客户端无法登陆网管服务器,提示不在ACL范围,现象:客户端登陆时,一直提示不在ACL范围,检查了该帐号的ACL设置,没有发现问题。分析处理过程:一般出现提示不在ACL范围,我们都会去检查该帐号的ACL设置,但是局方工程师检查了很多遍,都没发现问题,那么我们就集中在核实这个客户端IP的工作上,可以通过【浏览用户日志】,查看这个网管认为的“非法用户”是从哪个IP登陆上来,最后发现这个客户端在网管上显示的IP并非为其计算机的IP。经查,该服务器和客户端之间使用NAT设备,将客户端的IP转换了,重新设置ACL访问控制后,问题解决,Page34,案例10R11版本使用正式license无法登录服务器,Page35,案例10R11版本使用正式license无法登录服务器,分析处理过程:1、从V200R009C02B056SCP001版本开始,iManagerN2000BMS网管产品启用了新格式的License,新License格式与之前的License格式不能兼容,同时控制项也发生变化。R8网管版本申请的license不区分受控项,所有资源统一使用,R11网管版本license受控项已经细化到各种资源。附件是两个新旧版本license对比,同时附上license申请表。,补充:还有一些局点更新license之后提示license过期,或者提示该license无效,我们可以同样先分析该正式license文件,检查“Feature=COMMON”是否缺少LSW1VALI01(有效期)受控项,同时也要关注license中的BMSWG(资源控制项),如果该服务器有某项业务,但是license项缺少这些资源会导致无法增加相应资源。,2、根据前方申请的正式license分析发现里面缺少“Feature=COMMON”中的LSW1CONN01(最大客户端接入数)受控项,则说明该license默认不会授权客户端登录使用,因此需要重新申请license增加该受控项,重新申请后问题解决。,Page36,告警功能,网管通过告警功能模块,能够实时的反应现网设备的运行情况,并且将告警输出到前台。在平时的问题处理中,常见问题是:网管漏报告警根据下文的流程来分析网管的告警不能自动恢复网管收到设备发送的恢复告警的trap后,才会自动恢复该告警,根据下文的流程来分析网管告警北向转发接口(SNMPAgent)无法正常转发告警通常是设置方面的问题,此文件值得大家研究,Page37,告警功能,处理告警问题的流程是:,Page38,性能统计,性能统计模块提供了一个对设备的运行性能做统计的一个接口,可以统计端口的流量,CPU利用率等等运行参数。在这里,需要指出,我们网管有实时性能进程EmfPerfDm和IPMSDmEmfPerfDm:提供对设备的实时性能查询,如:右键单击主控板,查询CPU使用率IPMSDm:提供对设备的长期运行参数进行统计,如:统计一段时间内主控板的CPU使用率在平时的问题处理当中有咨询类的,如怎样创建性能统计任务自行上机多操作即可有故障类的,如无法查看到统计数据,统计数据太不可理解明白性能统计的流程,再配合抓包,可以处理大部分问题,Page39,性能统计,性能统计的基本流程为:在性能统计中,网管实现的原理是创建自动任务,定时去设备上读取特定MIB节点的值,根据该节点值的变化,经过计算,形成统计数据,在客户端前台显示。在这部分问题的处理中,涉及多个数据库表,而且还需要抓取分析报文。关于网管的性能统计的具体内部计算过程,可以参考如下文档:,Page40,北向接口,BMS网管北向接口包括TL1业务发放接口,SNMPAgent告警转发接口,112测试系统接口,Corba告警转发接口,FTP接口那么,在平时的问题处理中,我们经常会遇到的是TL1接口和SNMPAgent告警转发接口的故障。在TL1中,我们遇到的问题有:第三方软件无法连接BMSTL1接口使用telnet命令访问BMS9819端口,看是否能够成功登陆。第三方软件无法执行某些命令telnet到9819端口,输入相应的命令,看是否能够执行成功。第三方软件与TL1接口配合的问题,如双方超时处理需要与第三方开发和BMS研发协调TL1接口只是完成将TL1语句经过解析,再输入到业务后台执行,一般属于TL1接口本身的问题比较少,多数都是业务后台的问题,如果是业务后台的问题,在图形化界面中,做相应的操作,也不会成功。在SNMPAgent中,我们遇到的问题有:如何设置SNMPAgent接口参考snmpagent.cfg文件中的解释第三方网管无法接收到BMS转发的告警或者有问题抓包分析,Page41,案例11由于配置文件问题导致TL1下发命令提示设备不存在,现象:下发TL1命令后,返回“设备不存在”;ACT-ADSLPORT:DEV=1,FN=1,SN=1,PN=1:2:;02007-08-2010:05:30M2COMPLDEN=2686058531ENDESC=设备不存在分析处理过程:我们TL1语句对设备操作,支持使用设备的名字定位,也可以使用设备的IP地址定位,那么,具体使用哪个,是看serverconfTL1NBiDMmainTL1NBiDmmanager.cfg中的#DEVMEAN表示对应设备名称(0)还是设备IP(1)?默认为设备名称0。DEVMEAN=0经发现,现场该DEVMEAN0,应该在DEV后面跟设备的名字,而不是跟设备的IP,修改TL1语句中的DEV为设备名字后,问题解决,Page42,DataCenter数据中心,DC提供如下功能:版本管理:统计现网设备的版本和数量备份&自动备份:备份设备数据恢复:使用网管上的备份数据恢复设备配置加载程序&补丁:对设备升级自动化批量升级:目前支持5300,5600MA5100使用单独开发的V200R008UpgradeDevTool,UA5000研发说支持,但是没有应用,在海外opal使用过,但是成功率不高DC遇到的问题中,如何使用是一方面的咨询问题,另外更多的就是提示tftp不可达等报错,这种一般都是由于trap引起的,需要打开DC的日志开关或者抓包来看设备是否有送带有进度(xx%)的报文上来,Page43,案例12MA5300数据配置有误导致DC自动保存备份数据失败,现象:DataCenter按照自动保存和备份策略进行MA5300设备数据的保存和备份时失败。手动进行保存时,提示操作超时。手动备份时,在进度条到达99%时出现错误提示“设备不可达或tftp服务器没有运行”。分析处理过程:在遇到DC备份问题时,如果提示“设备不可达或tftp服务器没有运行”,则可以telnet到设备上,手工做backup命令,看是否成功(提醒:如果是Solaris

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论