巡检培训材料.doc_第1页
巡检培训材料.doc_第2页
巡检培训材料.doc_第3页
巡检培训材料.doc_第4页
巡检培训材料.doc_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 功能概述l 基于运维规程,结合具体的网络资源型号,将维护作业任务实例化;l 自动执行维护作业任务,将运维人员从大量的重复劳动中解放出来;l 以矩阵方式图形化展示检查结果,便于运维人员发现问题。提供即时检查功能,便于运维人员排查、解决、验证问题;l 基于检查结果,对资源维护情况打分,便于考核、督促运维人员的维护工作;l 通过健康档案、历史查询等,便于运维人员掌握网络资源的运行情况、故障发生时间、持续时间等;l 通过维护文档功能,将厂商提供的维护方法、运维人员总结的运维经验固化在系统中,以实现运维知识的积累、共享,并减少人员流动对运维工作的影响。l 支持的网络资源类型包括:网络设备、主机、数据库、应用;l 常用的维护作业任务包括:n CPU利用率、内存利用率、CEF占用率n ARP告警、系统告警、板卡crash、软件进程运行状况、主备引擎n 磁盘状态、风扇、电源、温度、版本信息、硬件序号、MAC地址空间n QoS丢包、传输误码、端口状况、交换矩阵n NTP时钟、异常LOG、上联中继、STP状态n BGP协议、路由超限、LDP协议、LDP规范、PIM邻居、链路Metric、ISIS中继、单点隐患1.1 资源范围:支持对主机、应用、设备等进行巡检;1.2 前台功能介绍主要操作流程如下:巡检项配置巡检模板配置巡检资源组配置维护巡检计划资源巡检结果矩阵巡检计划完成情况l 巡检项配置:n 将维护作业任务定义成巡检项,定义:巡检项名称、编码、检查周期、描述;n 将巡检项分类,便于图形化、灵活展现巡检结果;n 修改维护文档,将运维知识、运维经验固化在系统中。n 对于已经实例化的巡检项,将关联显示对于的资源类型;l 巡检模板配置:n 结合网络资源型号,将巡检项实例化,定义:巡检方式(Telnet/SSH、SNMP、SQL)、巡检命令、巡检逻辑、打分规则等;l 巡检资源组配置n 将需检查的网络资源划分成不同的资源组,划分条件为:资源型号、所属节点、资源标签等条件l 维护巡检计划n 定义计划名称、检查周期(可空。如果配置的话,则按统一的检查周期执行所有的巡检项)、计划起始时间、结束时间、资源组;n 配置巡检项将巡检计划、资源组、巡检项三者关联在一起。配置完成后,在巡检计划、资源组、巡检项之间建立起对应关系。对于某巡检计划、某资源组中的网络资源,只有存在对应关系的巡检项才会执行。l 资源巡检结果矩阵n 监视资源运行情况n 以巡检项结果矩阵的方式图形化展示巡检结果。n 可查看巡检结果详细信息、监控档案、历史信息、维护文档等l 巡检计划完成情况n 查询巡检历史信息。1.2.1 配置巡检项根据巡检内容,配置巡检项。查询巡检项:增加巡检项:1、 巡检项主要信息为:名称、检查周期。2、 网管要求巡检项的名称必须是唯一的设置巡检项检查周期:修改巡检项:1.2.2 配置巡检模板对于需巡检的资源,按资源型号进行分类。若对某资源型号,需执行某巡检项,则对这样一个资源型号和巡检项的组合,需要定义一个巡检模板。巡检模板需按照PERL语法进行编写,已预置了一些巡检函数,详见2。巡检模板中主要包括如下内容:1)获取资源状态信息,支持的巡检方式包括:数据库、Telnet/SSH、SNMP等巡检方式;2)巡检结果判断逻辑,得到巡检结果;3)保存巡检结果。为便于编写巡检模板,提供模板内容检查功能;查询巡检模版:增加巡检模版:1、 巡检模版主要信息为:模版名称、巡检项、资源型号、模版内容。2、 资源型号与资源类型联动3、 资源类型下拉框仅用于过滤资源型号,不用于配置巡检模版的相关信息。4、 配置完模版内容后点击“检查模版”按钮,进行模版内容检查,检查结果出现在模版检查提示信息文本框中。修改巡检模版:1、只允许修改模版名称、模版内容1.2.3 配置资源组支持按资源类型、资源型号和TAG等条件定义资源组;资源组其实是一个资源集合,集合中的元素是符合上述条件的资源;查询资源组:新增资源组:1、 资源组主要信息为:节点、资源组名称、资源范围。2、 网管要求资源组的名称必须是唯一的3、 点击“添加”、“删除”按钮,配置资源组中的资源范围。选择资源组中的资源范围:1、 点击“选择”按钮,选择资源标签。选择资源标签:修改维护资源组:查看资源组内的资源详细信息:1.2.4 配置巡检计划根据用户巡检范围、巡检频度等需求,配置巡检计划,主要包括:名称、检查周期(优先级比巡检项的检查周期高)、资源组、起始结束时间等;对巡检计划,巡检后台程序根据巡检计划的资源组定位需巡检的资源,并根据资源型号定位巡检项,进而定位到巡检模板,并执行该模板;查询巡检计划:1、 将用户具有配置权限的节点记为用户节点;仅当用户节点涵盖某巡检计划的全部资源组对应的节点时,用户才有权限对此巡检计划进行维护新增资源巡检计划:1、 巡检计划主要内容为巡检计划名称、检查周期(优先级比巡检项的检查周期高)、资源组、起始结束时间。2、 网管要求巡检计划名称必须是唯一的3、 可点击“设置”、“清空”按钮,设置检查周期。设置检查周期:修改维护巡检计划:1.2.5 查询巡检结果 列表形式提供日历风格的巡检结果查询页面;并可人工确认巡检结果;查询巡检计划:1、 提供日历风格页面,显示巡检计划信息。点击年月两侧的按钮,可跳转到其它年月。2、 查询时要按照用户的节点进行过滤(仅当用户节点涵盖某巡检计划的全部资源组对应的节点时,用户才有权限查看此巡检计划)3、 每日默认最多显示5个巡检计划,多与5个巡检计划,单元格中会出现下拉展开按钮。巡检计划执行情况:1、点击日历中的某一巡检计划,查看该巡检计划执行情况,显示根据该计划检查的资源数,异常及采集失败资源数。巡检计划执行情况详细信息:1、 巡检计划执行情况页面,右键可查看某一巡检计划执行情况的详细信息,显示出根据巡检计划检查的设备的详细情况。2、 S:正常 ;E:异常 ;U:不确定 ;F:采集失败。巡检结果确认:1、选件计划执行情况详细信息页面,选中某一行记录,点击“确认巡检结果”按钮,进行相关的确认工作。 矩阵形式1.2.6 巡检报表以报表形式展现巡检结果。模板类型名称为:Rcheck报表-资源巡检报表2 采集原理在采集机上执行,执行结果保存在数据库中。采集机负责的资源范围:根据资源分组表ResGroup (coltype = PERF)确定巡检计划:根据资源巡检计划表的起始/结束时间来确定巡检项、巡检资源的范围:根据资源巡检计划、资源巡检计划巡检项关联表、巡检资源组、巡检资源组定义等数据表来确定: 巡检模板范围:由巡检模板定义表来确认巡检模板执行周期:由巡检项定义、资源巡检计划等数据表来确定。巡检模板执行原理:巡检支持网管的三种资源:设备/主机/应用支持三种巡检方式:telnet/ssh、snmp、sql对设备/主机一般采用telnet/ssh方式。对普通的网管应用,一般需直接读取网管数据库中的应用性能信息,对于数据库应用,一般采用sql方式。究竟采用哪种方式,取决于模板内容。l 若模板内容中出现函数cmd _show,则需建立telnet/ssh连接,执行相应的命令l 若模板内容中出现函数cmd_sql,则与资源建立sql连接,执行sql查询l 若模板内容中出现函数cmd_snmp,则与资源建立SNMP连接,执行snmp命令后台程序:巡检调度程序:RCheckTaskDispatch.pl可通过cron定时调用,定时执行巡检模板;也可接受前台即时调用。巡检结果按日汇总程序:RCheckTaskSumD.plB06自动巡检模块调试与维护录制视频教程(演示所有前台功能使用,后台调用的程序,日志文件,数据文件,和数据库表)1.自动巡检前台功能介绍2.自动巡检的设计采集原理3.典型案例介绍自动巡检的产品应用过程4.通过一个实际指标的例子演示如何定制满足用户对于某个巡检指标的采集需求5.巡检模板的语法说明,常用模板语句演示6.常见维护问题及处理3 实际案例3.1 整体考虑以矩阵形式展示结果时,采用一个资源组一个矩阵的形式。l 为使矩阵整齐好看,避免出现稀疏矩阵的情况,需先根据要巡检的资源、巡检项情况,尽量把巡检项重合度比较大的资源分在一个资源组中;l 可以把若干巡检项,组织成一个巡检项组。在显示结果时,巡检项组可折叠/展开。3.2 新增一个检查项目因各地项目用的比较多的是对设备的巡检,以检查设备cpu利用率为例。3.2.1 确定设备型号及检查规则设备型号:CISCO路由器 检查规则:命令及返回结果:Cisco87#sh proc cpu | i CPU utilizationCPU utilization for five seconds: 4%/0%; one minute: 2%; five minutes: 5%异常判断方法建议:将输出结果中标红的域与阀值(设置为50%)进行对比,大于阀值则异常。周期建议:每天一次只看五分钟的统计3.2.2 设置巡检项:3.2.3 配置巡检模板模板内容:exec_cmd(sh proc cpu | i CPU utilization);if ($CMD_ERROR ne )writelog(n! CardCPU check error:$CMD_ERROR);return -1;SetParmDefault();SetCheckRowsByRowFeature(INC-FEATURE=for five seconds #行特征为存在” for five seconds”字符串);AddCheckRowsCondition(CONDITION=$COLUMN_VALUE11 flintstone,dino = undef,barney = rubble,betty = rubble,);2.访问hash元素$hash$some_key$family_namefred = flintstone;3.针对hash每个元素的循环while ( ($key, $value) = each %hash ) print $key = $valuen;4.2.2 时间范围比较功能说明:判断时间time是否属于某时间范围当前时间,当前时间-timeInterval;函数语法:$result = isTimeBetween(time, timeInterval),参数说明:time,指定时间;time_interval,时间范围的跨度。time的格式是yyyymmddhh24miss。timeInterval为数字,单位为分钟;返回结果:0,不属于;1,属于;4.2.3 读取资源监控指标当前值信息功能说明:读取资源监控指标的当前性能值和记录时间;函数语法:%curInfo=getResMoniCurInfo(DataItemID)。参数说明:DataItemID指资源监控指标编码,如B_CardTempreature,B_BMC_DSKAvgQueue等;返回结果:包括监控指标当前性能值、记录时间的二级Hash,一级Hash的key是资源参数的取值,二级key是time、item,分别对应记录时间和性能值;示意如下:失败时:返回空hash数据库值:select * from resmonicurinfo where RESID = CIR01098RESIDRESPARADATAITEMIDVALUERECORDTIMECIR010981InSpeed2222222009-3-4 21:05:33例子:%curhash = getResMoniCurInfo(InSpeed);if ($CMD_ERROR ne ) writelog(failure:getResMoniCurInfo); logCheckResult2DB(F,failure:$CMD_ERROR); return -1;my $result;while(my ($key,$value) = each %curhash)writelog( key:$key,value:$valuen);while(my ($key2,$value2) = each %$curhash$key) $result .= key2:$key2,value2:$value2n; writelog( key2:$key2,value2:$value2n); logCheckResult2DB(S,$result);return 0;返回值:key2:time,value2:20090304210533key2:item,value2:2222224.2.4 存储巡检结果功能说明:将巡检结果存入网管数据库的资源巡检计划执行日志(RCheckResCheckLog)表中;函数语法:logCheckResult2DB(checkResult, detailLog)函数,参数说明:checkResult指检查结果(如正常、异常等),detailLog指检查详细日志内容,如巡检项的性能值等信息;返回结果:无4.2.5 采集应用监控指标函数说明:调用应用对应的采集程序,直接分析检查结果文件,返回各监控指标及其性能值;函数语法:%result=colAppVarVal(),参数说明:无参数(调用时补充参数:资源标识,资源分组,例如:APP00037,01. PRS00000),默认值为当前应用;查询ResColProgCfg表,根据资源型号标识、操作类型(Opertype=PERFCOL)查询出采集程序(ProgramName字段),并同步调用此程序(以应用标识作为调用参数),返回值为0(成功),或者1(失败)。解析结果文件(含指定应用标识的最新的结果文件),返回各监控指标及其性能值;由于拨测程序部署在Windows采集机上,因此需要考虑程序的Windows平台移植问题。返回值:监控指标性能值Hash,以监控指标编码为key(itemname),value为(指标对应的值)失败返回空hash资源分组:appcolinfo_03.PRS00000APP00086;APP_RDBMS_SYBASE;rocommunity-1ss;snmpport-18161;hostip-11;APP00087;APP_RDBMS_SQLSERVER;rocommunity-1public;snmpport-18161;hostip-18;APP00088;APP_RDBMS_ORACLE;rocommunity-1public;snmpport-18161;hostip-11;%curhash=colAppVarVal();if ($CMD_ERROR ne ) writelog(failure:colAppVarVal); logCheckResult2DB(F,failure:$CMD_ERROR); return -1;my $result;while(my ($key,$value) = each %curhash) $rssult .= key:$key,value:$valuen; /ItemName:B_OnlineSession Value:45/ItemName:B_LockNum Value:2writelog( result:$resultn);logCheckResult2DB(C,$result);return 0;日志:key:B_LockNum,value:2key:B_TbSpaceUsedRatio,value:70.13key:B_DBValid,value:1key:B_APPStatus,value:0key:B_OnlineSession,value:45key:B_BlockLockNum,value:04.2.6 读取SNMP信息函数说明:读取指定资源的snmp信息。函数语法:valList = cmd_snmp(OID,SNMPCollInfo,序号),参数说明:OID指SNMP对象的ID。SNMPCollInfo是应用采集配置项编码,序号是正整数,如1,2,3.。SNMPCollInfo的取值格式如下。需要根据参数中的序号,从中提取出需要的值,用于建立SNMP连接;community1:IP1;comm2:IP2.返回结果:OID下的全部对象的取值,数组ResultResult是一个2维数组,维度1是输入的oid,维度2为oid对应的表index,值为value例子:snmp = cmd_snmp(.);/sysDescr/..1.1 (ifIndex)if ($CMD_ERROR ne ) writelog(failure:cmd_snmp); logCheckResult2DB(F,failure:$CMD_ERROR); return -1;logCheckResult2DB(S,sysDescr:$snmp00n);writelog( sysDescr:$snmp00n);return 0;返回值:sysDescr:Cisco Internetwork Operating System Software IOS (tm) C2600 Software (C2600-TELCO-M), Version 12.3(13a), RELEASE SOFTWARE (fc2)Technical Support: /techsupportCopyright (c) 1986-2005 by cisco Systems, Inc.Compiled Mon 25-Apr-054.2.7 执行SQL命令函数说明:在数据库应用上执行sql语句;函数语法:valList = cmd_sql(sqlString,JDBCCollInfo,序号),参数说明:sqlString指标准的sql语句,如select * from appinfo;JDBCCollInfo是应用采集配置项编码,序号是正整数,如1,2,3.。JDBCCollInfo取值格式如下。需要根据参数中的序号,从中提取出需要的值,用于建立JDBC连接;UserName1:Pass1:URL1;UserName2:Pass2:URL2;.返回结果:valList是一个一维数组

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论