Watchsys机房监控方案带IT监控.doc_第1页
Watchsys机房监控方案带IT监控.doc_第2页
Watchsys机房监控方案带IT监控.doc_第3页
Watchsys机房监控方案带IT监控.doc_第4页
Watchsys机房监控方案带IT监控.doc_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Watchsys机房环境集中监控深圳市金鹏正科技有限公司目 录第一章 概 述2第二章 设计依据和原则31.设计依据32.设计原则3第三章 系统选型51.项目需求52.系统选型63.网络操作系统94.前台应用程序机房组态监控系统10第四章 设备监控分析171. UPS与电池性能监测172 发电机监控193. 精密空调监控系统204. 普通空调监控系统215. 配电开关状态监测236. 供电系统参数监测247. 防雷系统监测258. 漏水监测系统259. 闭路电视监控系统2710. 门禁监控系统2811. 温湿度监控3112. 消防监测系统3313. 网络设备与应用系统监控(详见独立方案)33第五章 系统管理371. 系统运行日志372. 系统配置383. 报警排表404. 定时任务405. 联动416. 短信息双向互动42第六章 系统安全及事件响应44安全性44实时响应45短信/电话查询45第七章 产品特点与优势46第一章 概 述随着计算机技术的发展和普及,计算机系统数量与日俱增,其配套的环境设备也日益增多,计算机房已成为各大单位的重要组成部分。机房的环境设备(如供配电、UPS、发电机、精密空调、环境温湿度、漏水监测、消防监测与联动、安保等)必须时刻为计算机系统提供正常的运行环境,一旦机房环境设备出现故障而又得不到及时的处理,就会影响到计算机系统的运行并对数据传输、存储及系统运行的可靠性构成威胁,尤其是对于需要实时交换数据单位的机房,其机房管理就显得更为重要,一旦系统发生故障,造成的影响和经济损失将是不可估量。此外,目前许多机房不得不采用24小时专人值班的方式定时巡查机房环境设备,这样不仅加重了管理人员的负担,而且往往不能及时排除故障,对事故发生的时间及责任也无科学的管理;更缺乏对已发生的故障作全面的分析数据,使得问题不能得到完善的解决。尤其目前国内普遍缺乏机房环境设备的专业管理人员,这对机房的安全运行无疑又是一个不利因素。因此,对机房环境与设备的集中监控和科学管理就显得非常重要。鉴于以上诸多因素我们推出了Watchsys机房集中监控平台,为各方的数据应用系统护航。第二章 设计依据和原则1.设计依据计算机机房集中监控用户要求: 智能建筑设计标准(DBJ08-47-95) 民用建筑电气设备规范(JGJ/T16-92) 商用建筑线缆标准(EIA/TIA-569) 工业电视系统工程设计规范(GBJ115-87) 电气装置安装工程施工及验收规范(GBJ23-90,92) 民用闭路监视系统工程技术规范(GB50198-91) 安全防范工程程序与要求(GA/T75-94) 建筑及建筑群综合布线系统工程设计规范(GB/T50311-2000) 建筑及建筑群综合布线系统工程设计规范(GB/T50312-2000) 民用闭路监视系统工程技术规范(GB50198-94) 安全防范系统通用图形符号(GA/10408.5-2000) 民用建筑电缆电视系统工程技术规范(GBJ-120-78) 电气装置安装施工及验收规范(BJ232-90,92) 公安部监控设备安装规范 建筑防雷设计规范(GBJ57-83)2.设计原则本系统严格按照“严格、合理、可靠、经济、完善”和“无人值守、少人值班”的要求进行设计,具体原则如下: 系统选型高起点: 技术先进性:选用国际最新的专业技术与产品; 系统高可靠性:系统的硬件和软件均采用技术成熟的产品,平均无故障时间均在10万小时以上; 系统运行管理方便:软件系统中文化,操作方便; 设计架构先进:系统采用真正的B/S架构,业内唯一全程WEB支持的监控平台; 技术支持能力强:承建单位技术实力强,服务完善; 系统集成度高:系统完美整合了设备实时监控、数字视频系统、门禁考勤系统、网络设备监控、服务器运行状态等等; 系统交互性好:用户可通过短信方式实时查询系统设备的各种参数与状态,掌握主动权; 系统可扩展性能强:模块化结构有利于扩容与扩展。 高可靠性保证:系统支持双机/多机热备方案,特殊应用没有后顾之忧; 投资少:系统选型具有高性能价格比。 建设时间短:在较短的时间内完成系统的安装调试。 优质的服务:本着“用户第一、服务至上”的原则,为用户提供一流的售前、售后服务。 第三章 系统选型1.项目需求计算机中心机房是重要的信息处理中心,需要根据有关计算机机房的设计规范针对计算机机房进行整体设计,确保中心计算机设备能正常有效的工作。根据用户要求,系统可以对如下设备进行集中监控管理: UPS电源电池系统 UPS后备电池系统 发电机系统 精密空调系统 普通空调系统 配电开关状态监控系统 配电系统参数 防雷监测 闭路监控系统 门禁考勤系统 温湿度检测系统 消防监测系统 漏水监测系统 网络设备&服务器监测系统 其它设备系统技术要求:系统能集中监控分布在各机房场地的设备,实现无人值守。系统应集成综合保安、设备监控、报警处理、系统配置等功能,并支持真正全功能的Web访问。设备应选用高可靠的工业级采控单元,保障系统7*24小时不间断运行。系统应采用模块化结构,方便对软件和硬件进行合理的在线式组建、配置、维护、扩充。具备高度的可靠性,通讯与管理层设备与现场设备相互独立运行。良好的人机界面,所有界面完全图形化,提供多达100余种的图形组态工具,和现场完全一致的3D管理界面,极大地方便了用户的管理。具有良好的容错性和兼容性,人性化的交互界面,贴切的提示,完善的系统权限管理。具有合理的数据保存与查询管理功能,提供完善的报表管理;多任务并行处理,报警分级排序处理,设备间的联动触发管理,自定义界面巡视,纯WEB管理支持,设备文档数据管理。各种智能设备厂家提供监测的数据与状态量的采集与记录,相关设备的遥控遥调等;功能完整的门禁管理系统,专业化的数字视频监控系统等等。2.系统选型为了解决概述问题和实现上述功能,决定选用我公司最新版的专业机房监控软件“Watchsys机房集中监控系统” ,“Watchsysy机房集中监控系统”可以很好实现了对机房环境设备的统一监控与管理。通过采用先进的计算机技术、网络通讯技术、视频传输技术、图像处理技术等,可方便地实现对各个智能设备运行状态、运行参数的显示、处理和存储等;并可实现各子系统之间的数据流动,具有强大的联动功能;同时,本系统的故障自动检测与专家诊断功能以及丰富的报警功能,也极大地减轻了机房维护人员负担,在提高了机房系统的可靠性的同时提高了整个机房的运行效率,实现了对于机房的科学管理。强大的二次开发接口,内置完整VBScript,兼容各种通用控件,能够及其方便快速地对用户的特殊需求作开发,完全不必担心影响系统稳定性。具体有以下优秀的性能:1) 系统特性 通用性: 监控系统的设计符合国际工业监控与开放式设计标准。 可靠性: 监控系统具有良好的电磁兼容性和电气隔离性能,不影响被监控设备正常工作。 监控系统具有专家诊断功能,对通信中断、软件故障能够诊段出故障并及时告警;监视各智能设备各部件的运行状态和工作参数;监控系统提供一年的历史曲线和事件发生记录,便于查询。 监控系统可以承受365天*24小时连续工作压力,均采用工业级产品,重要硬件设备国外进口,可靠性极高,平均无故障时间大于10万小时。 监控系统网络通信协议符合国际网络协议标准,操作系统选用实时多任务管理的Windows2000操作系统,标准开放式的数据库接口,可支持各种类型的数据库,可满足从集中监控中心(CSC)到现场监控单元(FSU)的三层结构管理。 兼容性: 支持世界各著名厂家提供的智能设备,实现完美的监控。目前系统兼容设备的品牌有:STULZ、LIEBTRT、RC、HIROSS、佳力图、艾默生等机房精密空调;MGE、EXIDE、SICON、LIEBERT、APC、IMV、艾默生、山特等UPS。对新投入市场的设备,只要提供通讯协议,我们都可以集成到系统中。 采用电信标准的报警与查询系统。 业界首次提出视频组态概念,真正一体化视频系统的集成。 多种系统拓扑形式,适合构建大型系统。 安全性: 系统拥有强大的自检功能,可以对系统与各设备的通讯状态和各设备的故障状态进行全面及时的检测;同时也对软件数据库、动态库等进行全面的自检。 系统强大的多媒体技术,对各种设备的报警提供专家处理提示,报警形式丰富包括屏幕报警、警铃报警、多媒体语音、短消息系统信息和电话语音报警系统等。 强大的报警处理功能。可区分1000级报警级别,报警事件发生时,系统按事件级别排队报警,显示处理,并将系统界面自动切换到相应的报警画面。 实时管制门禁系统权限,发卡,补卡,注销,授权,级别,分类,统计全部搞定。 强大的事件管理功能。对任一事件都针对机房的具体情况给出相应的处理提示,指导值班人员解决问题。 完善的权限管理。系统采用WIN2K/XP的权限控制策略对系统管理和维护人员进行多级权限分类以区分限制各级别用户对系统的访问和操作能力。 强大的网络管理功能,亦可根据需要全面监控主机、服务器、路由器等工作状态、数据流量、网络负荷。 严格的密码管理,确保系统运行安全。 可与保安闭路等系统联动,直接在监控主机上实现事件录像、回放,火警自动开门等。 系统具有防潮、防雷、防静电、防干扰等抗干扰功能,符合国际电工标准。 系统及设备出现故障不影响被监控的其他设备正常工作和功能控制,具有最好的安全隔离功能。 开放性: 在联网监控中,集中监控中心可挂接65000个以上的区域管理中心和现场监控单元,实际应用中完全不存在容量限制问题。 系统采用通用数据库,提供开放的数据接口(如OPC等)。 对用户提供通讯协议和通讯接口的设备可以方便连接。 实时性:包括(实时数据刷新速率、联动的响应速率、报警速率) 实时数据刷新: 不同数据量可以配置不同的数据刷新速率,最快的刷新速度为0.6秒,其他可以为1秒、2秒、4秒或者更长。 按实际需求系统可提供轮巡传送、有值变化传送、系统自动选择三种方式来传送数据,根据实际需求选择恰当,可以最大的提高系统的实时性。 做到1秒内完成本地数据采集,3秒内完成本地到区域和集中监控中心的所有命令响应、执行。 系统通过硬件选型,软件优化等多种方法节省资源的占用率降低响应时间。 可维护性: 统运行进行在线运行状态诊断和监测,能及时发现系统各功能单元故障情况,便于系统故障的维护处理。 软件系统的设计采用模块化结构设计和规范化标识保证软件的可维护性要求。 系统软件通过设备、人机界面和功能组态等实现系统的组建、维护、扩充。 可伸缩性:系统软硬件设计采用模块化可扩充结构及标准化模块结构,便于系统适应不同规范和功能要求的监控网络系统;由于系统设计为开放型网络结构,支持设备配置、软件模块配置、通用OCX调用、内嵌完整VBSCRIPT语言,在设备规模扩容、系统功能扩充、软件升级等方方面面都极为方便,保证系统的无间断安全运行的同时,不对其他站点、设备产生任何影响。2) 软件主要功能、特点系统软件选型综合考虑实际的使用环境、成本、可移植等因素,我们的数据平台选用微软公司的SQL Server/Access;操作系统采用微软公司Windows系统;前台应用程序机房组态监控系统,采用Visual C+开发而成;网络数据通讯采用TCPIP协议。3.网络操作系统Windows 2000/XP/VISTA是Microsoft公司推出的基于Client/Server结构的企业级操作系统,它是一个业界最具发展前途的多用户多任务网络操作系统。在性能上,可以与UNIX相比拟,但在使用、管理等方面都比UNIX更具优势。Windows 2000/XP/VISTA的主要特点如下: 提供与友好的操作界面,管理起来十分方便。 与硬件平台无关,可支持Intel,Alpha,MIPS,Power PC等多种平台。 可伸缩性强,支持工作TCP/IP,SPX/IPX,Netbeui等各种网络协议。 内置安全机制,控制用户、组等访问权限,达C2级安全性。 支持NTFS文件系统,具有高可靠性的特点。 支持多线率,多处理器硬件结构。 关键特征包括对主要系统的访问被动态平衡和平均分配在任何可利用的CPU上;并且NT对磁盘与网络I/O进行专门优化,极大地提高了I/O能力;NT中的虚拟内存管理能力也相当强,用户程序不可能破坏系统进程空间。 是一个强壮高容错能力的操作系统,具体体现在:可恢复的文件系统、磁盘在线备份、磁盘阵列RAID5支持及C2级安全性等。 特别适合于作为Client/Server方式下企业级的应用服务器与办公系统服务器, 也十分适合于作为Internet/Intranet服务器。 通过使用TCP/IP、IPX/SPX及NetBEUI协议的组合,在异型网络上也可以发挥作用。更重要的是它可以同时运行多种网络协议,不需要用户额外的支出。4.系统架构整个现场监控系统分为现场监控站、浏览站及智能设备三层,其中的数据库和WEB服务等组件,与现场监控软件安装在同一台监控主机上,提供远程访问服务;设备通过串口扩展模块或串口联网服务器、以太网与主机构成物理连接(不管设备本身的通讯接口是RS232/485/422、CANBUS、LONWORK等等物理信号通讯标准或者采用JBUS/MODBUS、SNMP、TEXTP、以及其他不规范的通讯协议都可以完美集成到本架构中)。系统支持多种报警方式,使用灵活性能可靠,保机房障机房安全。常用报警方式1 现场报警提示音2 电话真人发声报警3 GSM手机短信报警远程浏览模块可以运行在WIN98/NT/2000/XP等各种操作系统上,它提供远程桌面系统浏览实时信息的能力,便于领导和管理人员直接在办公室了解并控制机房设备的运行。远程浏览模块的界面和功能与现场监控站完全一至,授权人员可以浏览现场监控站的所有信息,并完成系统设置、报警设置、门禁设置等各种控制任务,给用户提供极大方便,这是本系统区别于其他监控系统的一个重要特点。系统还提供基于Internet浏览器的远程监控模块,用户通过浏览器即可浏览所有的智能设备实时信息以及实时视频流,无需预装任何软件,使用十分方便,而功能与本地站也完全一致。现场监控站由智能模块、协议转换模块、信号处理模块、多设备驱动卡及智能设备等组成。为了增强系统的功能,用户可根据需要选择配置多媒体声卡、电话语音卡、视频压缩卡等设备。远程站与现场监控站之间的实时数据(视频除外)传输量极小,与每个现场监控站之间的流量不大于500 BPS,通过MODEM拨号即可达到实时性要求。视频数据在网络传输的时候采用先进的H.264压缩格式进行传输,理想的视频传输(25FPS),每通道需占据300K带宽,可以通过调节每秒帧数调节带宽,在60K的传输介质上可以传输每秒3帧的视频,可应用于低速网络。 第四章 设备监控分析1. UPS与电池性能监测UPS部分系统兼容法国梅兰日兰系列、先控、美国EXIDE、力博特、IMV、SIEL、APC、SIMENS、艾默生等世界各品牌的UPS。采用厂家提供的通讯协议和智能通讯接口,实时监视UPS的工作状态与参数。通过由 UPS厂家提供的通讯协议及智能通讯接口,对 UPS 进行监控,对UPS内部整流器、逆变器、电池、旁路、负载等各部件的运行状态进行实时监视,一旦有部件发生故障,系统会自动报警。并且实时监视UPS的各种电压、电流、频率、功率等参数,并有直观的图形界面显示。UPS自带RS232通讯接口。通过RS232RS485转换后可将信号远距离传输。监控主机可全面诊断UPS状况,监视UPS的各种参数。一旦UPS报警,将自动切换到相关画面。越限参数将变色,并伴随有报警声音,有相应的处理提示。可根据用户需要设置电话语音或短信通知。对于重要的参数,可作曲线记录,可查询一年内的曲线,并可显示选定某天的最大值,最小值,使管理人员对UPS的状况有全面的了解。监控设备的通讯协议及通讯板由厂家提供,最终监测的内容和控制的项目与该型号通讯协议规定的内容有关。2. 精密空调监控系统系统兼容德国STULZ、美国LIEBERT、意大利HIROSS、英国AIRETRON、佳力图、RC等世界各大品牌的机房精密空调。采用厂家提供的通讯协议和智能通讯接口,实时监视精密空调的工作状态与参数。通过空调自带智能通讯接口及通讯协议,系统可实时、全面诊断空调运行状况,监控空调各部件(如压缩机、风机、加热器、加湿器、去湿器、滤网等) 的运行状态与参数,并可通过软件在系统上或通过网络远程修改空调设置参数(温度、湿度、温度上下限、湿度上下限等),并实现空调的远程开关机。系统一旦监测到有报警或参数越限,将自动切换到相关的运行画面。越限参数将变色,并伴随有报警声音,有相应的处理提示,及相关处理提示。对重要参数,可作曲线记录,用户可通过曲线记录直观地看到空调机组的运行品质。空调机组即使有微小的故障,也可以通过系统检测出来,及时采取步骤防止空调机组进一步损坏。对严重的故障,可按用户要求加设电话语音报警。本机房组态监控系统可实时监控空调的状态,并可远程修改空调的运行模式和开关空调。监控设备的通讯协议及通讯板由厂家提供,最终监测的内容和控制的项目与该型号通讯协议规定的内容有关。3. 配电开关状态监测监视各级的开关状态(进线柜、母联柜、出线柜及其他配电柜的开关状态),对于机房的重要配电开关,监视开关是否跳闸或断电等状态非常必要,一旦开关跳闸断电,计算机系统立即停止工作,将造成整个系统崩溃,如不尽快处理造成的损失将无法估计。当开关跳闸或断电时,系统自动切换到相应的运行画面,同时发出多媒体语音和电话语音或短信报警,通知管理员尽快处理,并事件记录到系统中。4. 供电系统参数监测采用电量监控仪组成配电参数监测系统,电量仪是集三相相电压、相电流、线电压、线电流、有功、无功、视在功率、频率、功率因数、电度等参数于一体的智能仪表。该表带有报警功能和智能通讯接口可与计算机相连,将采集的参数送到计算机上,使用户能非常方便的读取配电的电流、电压,了解供电质量。用鼠标点主画面的配电图标的配电参数菜单,即可进入查看所监测配电线路的参数,如图所示。相应的参数存有历史曲线,可点击该参数下挂的历史曲线菜单进入历史曲线图。机房因电源问题引发的问题通常都能通过电量仪和UPS的历史曲线分析出故障原因,甚至预防很多故障的发生。如果某参数超出设定范围,系统即发出多媒体语音报警,如果设有电话语音报警,即同时启动电话拨号告警。状态指示灯交替闪烁显示报警,在事件窗内可看到哪个参数越限,双击该事件,显示界面自动切换到相应画面上。5. 漏水监测系统计算机房是大楼的心脏地域,计算机房的设备必须保证大楼正常运营,保证网络和计算机等高级设备能长期而可靠地运行。同时其配套的环境设备也日益增多,因此计算机房的环境设备或子系统(如供配电、 UPS、空调等)必须时时刻刻为大楼系统提供正常的运行环境。一旦计算机房环境设备出现故障,就会影响到设备系统的运行,对数据传输、存储以及整个系统运行的可靠性构成威胁,若事故严重又没有得到及时的处理,就可能损坏硬件设备,造成严重后果。随着大楼在对其设备管理上的日趋完善,泄漏检测也逐渐成为设备系统中必不可少的组成部分。由于地板下强电、弱电、地线、电缆纵横交错,一旦漏水,后果将不堪设想。设备房漏水危害大,又不容易发现,对设备房内的漏水状态进行实时的检测是十分必要的。根据用户的需求、场地的情况及为了方便用户今后的维护,我们对国内外市场的泄漏检测设备进行性能价格综合比较,最终选用了美国RAYCHEM公司的测漏产品。本系统包括:漏水控制器、漏水感应绳、引出线、固定胶贴和电源等;其工作原理为:采用耐腐蚀,强度高的感应绳与控制器及其他附件,通过将用漏水绳将有水源的地方围起来,一旦有液体泄漏接触到漏水绳,控制器就会将信号输到监控站上,及时通知有关人员排除。6. 温湿度监控为了确保计算机安全可靠地运行,严格控制温度之外,还要把湿度控制在规定的范围之内。一般地讲,当相对湿度低于40时,空气被认为是干燥的;而当相对湿度高于80时,则认为空气是潮湿的;当相对湿度为100时,空气处在饱和状态。在相对湿度保持不变的情况下,温度越高,水蒸气压力增大,水蒸气对计算机设备的影响越大,随着压力增大,水蒸气在元器件或由介质材料表面形成的水膜越来越厚,造成“导电小路”和出现飞弧现象,引起设备故障。高湿度对电子计算机设备的危害是明显的,而低湿度的危害有时更加严重。在相同的条件下,相对湿度越低,也就是说越干燥,静电电压越高,影响电子计算机设备的正常工作越明显。实验表明,当计算机机房的相对湿度为30时,静电电压为5000v,当相对湿度为20时,静电电压就到了10000V,而相对湿度降到5时,则静电电压可高达20000V。所以需要在机房的各个重要部位,装设温湿度检测模块,记录温湿度曲线供管理人员查询,一旦发现温湿度越限即刻启动报警;提醒管理人员及时调整空调的工作设置值或调整机房内的设备分布情况,系统也可自动调整空调的工作设置值。同时系统记录下的曲线可供机房管理人员参考;以方便根据当地的各季节的温湿度状况适时调整,及时防范因温湿度质量造成不必要的设备损坏;在问题发生后可根据历史曲线轻松找到问题所在,方便解决问题。根据对于面积较大的机房,由于气流及设备分布的影响,温湿度值会有较大的区别,所以仅仅根据机密空调的回风参数来了解机房温湿度值已是远远不能满足机房安全管理的需要了(特别是有些还没有做到全部使用机房精密空调机房);通过加装温湿度传感器,采集机房内局部比照区域的实时温湿度,提供机房关键位置准确的实际温湿度值,便于管理员了解机房各点的实际温湿度值,以便通过调节送风口的位置、数量,设定空调的运行温湿度值,尽可能让机房各点的温湿度趋向合理,确保机房设备的安全正常运行。8. 消防监测系统由消防控制箱给出的报警信号,通过开关量数据采集模块,将消防控制器上的干接点变化信号送到监控主机,实时监测机房内的火灾情况,即便无人值守,可以确定消防工作状态。消防一旦报警,系统可根据需要联动门禁系统打开所有的门锁,让工作人员能尽快地脱离现场,并可以联动摄像机进行拍照。 第五章 IT系统监控本系统的网络监控与其他监控完全融合在一起,构成环境设备和核心数据网络的完整监控系统。监控主机通过网络与交换机、路由器、服务器、小型机等建立通讯联系,直接从这些网络设备中获取各种信息,通讯过程采用国际上通用的SNMP、MON等,无需在网络设备上添加任何应用程序,即可监控各种主流网络设备或服务器,确保网络系统的安全可靠性。同时,由于采用了通用协议,也给系统的扩容和升级带来极大方便。监控主机通过网络与路由器、服务器、小型机等建立通讯联系,直接从这些网络设备中获取各种信息,通讯过程采用国际上通用的简单网络管理协议(SNMP),无需在网络设备上添加任何应用程序,即可监控机房内服务器、路由器、工作站及其他网络设备的工作状态;记录网络设备的启停时间、网络流量-时间曲线;统计通讯繁忙程度、通讯可靠性;对于服务器非法关机、通讯拥塞或通讯瘫痪等严重事件立即给出报警信息,并弹出该网络设备的相应画面和处理建议,辅助管理人员排除网络过障;提供网络通讯状况的详尽资料,辅助管理人员预先发现网络问题隐患,有力保障网络系统的网络系统的安全可靠性。同时,由于采用了通用协议,也给系统的扩容和升级带来极大方便。l 保证网络信息平台持续高效运行随着信息化的普及,网络信息平台将合作伙伴、供应商、客户和员工有机的结合起来。企业经营的成功与否,越来越依赖于网络系统的正常运行和高可用性,系统出现故障或响应时间过长,将对企业的整个经营活动产生巨大的影响。因此,高效的网络与系统管理不仅是必需的,而且已经成为企业成功的先决条件。l 先进的可视化功能Watchsys的网络拓扑功能使繁杂的网络信息平台运营维护管理工作变得直观和方便。系统的管理人员通过一个基于浏览器的用户界面,可以一目了然地了解整个异构系统、网络设备及其应用的运行状况。Watchsys不仅可以用来保证网络基础架构的高可用性,还可以用来追踪各种企业关键网络应用的运行情况,查看各种设备之间的关联并在复杂的IT架构中漫游,从而实现方便高效的管理。l 适用于各种复杂的网络环境不管你是简单的局域网,还是遍布全国的庞大的广域网或存储局域网,Watchsys都可根据你的需求生成各种相应的网络拓扑图,并且可以十分方便地在各个拓扑图间进行切换,从而使复杂的网络信息系统管理工作变得直观和轻松。l 后台数据与网络拓扑的完美结合直观反映整个系统运行状况网络拓扑图一旦生成,Watchsys可以自动查找、添加与相应的服务器、网络设备、IP地址、端口相关的各种监测参数。单击网络拓扑图上的任意组件,与该组件相关的监测参数的运行状况都将直接显示出来,点击任意监测参数可以查看该监测参数的历史数据和实时报告。网络拓扑图中任何组件的监测参数中只要有一个达到了事先设定危险或错误的条件,该组件颜色就会变成相应的黄色或红色,系统管理人员从网络应用拓扑图可一目了然地了解整个网络信息平台的运行状况。1 面向应用的网络拓扑Watchsys的网络拓扑发现不仅可以用来直观地反映服务器、网络设备等网络基础架构的运行状况和网络状况,而且可以直观地显示数据库、Mail、FTP等等各种网络应用的运行情况,从而帮助系统管理人员从应用层面确保整个网络信息平台的正常运营。拓扑发现分为:网络骨架搜索和网络子网搜索,网络骨架搜索对应路由器交换机的拓扑;网络子网搜索对应整个网络的设备。只要设备允许PING它就能被发现,如果设备支持网管它就能被识别出设备类型。2.网络连通性当一台或多台计算机无法与其它网络区域的计算机进行通信时,这可能是由网络连通性问题所引起。有关连通性问题我们可以归结为以下三种:l 连通性丢失 用户不能访问网络的某些部分。 l 间断连通性(Intermittent Connectivity) 尽管用户有时可以访问网络资源,但仍存在周期性停机现象。间断连通性问题表明用户的机器面临大型故障危机。l 超时问题(Timeout) 超时会导致连通性丢失。它通常是由网络性能较差所引起。 产生网络连通性问题的原因有多种,主要包括以下几种:1. 网络适配器和交换机端口双工方式或传输速率设置不匹配;2. 传输速率为10/100 Mbps 的网络适配器或交换机转换不正确;自动感应设置可能无法正确检测某些网络适配器的传输速率;3. 网络适配器与母板或其它硬件或软件组件和驱动不兼容。4. 防火墙设置为禁止接受PING包或者是拒绝应答。连通性测试程序就是ping,是一种常见的网络工具。用这种工具可以测试端到端的连通性,即检查源端到目的端网络是否通畅。Ping即从源端向目的端发出一定数量的网络包,然后从目的端返回这些包的响应,如果在一定的时间内收到响应,则程序返回从包发出到收到的时间间隔,这样根据时间间隔就可以统计网络的延迟。如果网络包的响应在一定时间间隔内没有收到,则程序认为包丢失,返回请求超时的结果。这样如果让ping一次发一定数量的包,然后检查收到相应的包的数量,则可统计出端到端网络的丢包率,而丢包率是检验网络质量的重要参数。在广域网中,线路一般是网络的重要对象,因此监测线路的通断,统计线路的延迟与丢包率是发现网络故障、检查网络质量的重要手段。而网络中线路两端一般是路由器的两个端口,所以通常的监测手段就是登录到线路一端的路由器端口上ping线路另一端路由器的端口地址,从而掌握该线路的通断情况和网络延迟等参数。由于登录是可以远程进行的,所以即使网络管理者在异地,只要他有足够的权限,就能监测任意线路的情况。本系统通过在设定时间内使用IP PING 的方式查询系统中的主要节点设备、主机、服务器等设备连接状况,以便相关业务系统设备因故与网络失去联系,影响业务的正常运作并给企业造成不良影响。3.路由器监控兼容Cisco等各型主流路由器,监控其CPU使用率、路由器内存、接口流量、关键接口(如光纤接口)是否down、接口是否有丢包现象;监测Cisco设备底板风扇状态、模块状态、端口状态;监控路由器各界面接收字节总数、接收单播字节数、接收广播或多播字节数、丢弃的接收数据包数、错误的接收数据包数、丢弃的未知协议或不支持的数据包数、发送字节总数、发送单播字节数、发送广播或多播字节数、丢弃的发送数据包数、错误的发送数据包数、发送队列长度等,据此判别网络通讯质量是否可靠,网络设备的处理能力是否满足要求等;监控其IP通讯接收数据包数、丢弃的错误数据包数、丢弃的错误地址数据包数、传递数据包数、丢弃的未知协议或不支持的数据包数、丢弃的接收数据包数、处理的数据包数、发送队列数据包数、丢弃的发送数据包数、丢弃的无路由数据包数、数据包装配最大等待秒数、需装配的IP碎片数、装配好的IP包数、包装配失败计数、成功分割的数据包数、分割失败的数据包数、分割的碎片数,据此判别网络通讯IP曾的可靠性和主要网络设备的处理能力,发现问题立即报警,保障网络设备的可靠运行,也给网络升级提供客观依据。如特殊设备厂家未公开协议库必要时可通过设备管理端口对设备进行监控。4.交换机监控兼容IBM、Cisco、Catalyst等各型交换机,监控其CPU使用率、交换机内存使用率、接口流量、关键接口(如光纤接口)是否down、接口是否有丢包现象。如设备厂家未公开协议库必要时可通过设备管理端口对设备进行监控。5.防火墙监控兼容CheckPoint、Cisco PIX等各型防火墙,监控其交换机CPU使用率、交换机内存使用率、拒绝的数据包数、丢弃的数据包数、fw模块状态、写入日志的数据数、接口流量。6.服务器监控服务器是数据业务系统的核心,其上运行各种服务程序(数据库、Web服务、邮件服务、办公系统)或应用程序,确保操作系统的可靠运行、确保各种服务的正常工作,才能使企业的生产管理正常进行,意义十分重大。由于系统资源的使用、系统的工作好坏仅靠人工难于解决,必须由其他程序进行全面深入的监控。本系统设有专门模块监视服务器的资源使用以及各进程的活动。7.服务器运行状态监控监测并记录CPU的平均利用率,监测指定磁盘的剩余空间及利用率,监测物理内存、虚拟内存的利用率及剩余空间,一旦发现错误,立即报警,保障数据系统的可靠工作。主机资源监控监测并记录CPU的平均利用率,监测指定磁盘的剩余空间及利用率,监测物理内存、虚拟内存的利用率及剩余空间,监测文件系统状态,监测交换分区状态,监测登录状态用户进程的数量,一旦发现错误,立即报警,保障系统平台的可靠工作。主机系统资源的监控可以采取SNMP实现,条件是系统必须安装有关主机性能的MIB库,该方法的优点是安全可靠,兼容性好,实现方便。如果条件不具备,可以编写代理软件,运行在该主机上,定时采集系统数据,在指定端口侦听监控主机的连接请求,采用TCP协议应答监控主机的询问,这种方式的优点是信息比较详尽,量体裁衣,通讯量小,但实现复杂。特别针对主机系统。系统进程监控监测指定进程的CPU及内存占用量,监测指定进程(服务)是否启动,监测进程是否正常工作。重要进程发生异常应当自动将进程断开,并重新启动,并报告该事件。进程监控可以通过SNMP实现,条件是系统必须安装有关主机性能的MIB库,否则必须通过代理实现;进程重新启动必须通过在主机上运行的代理实现。代理软件定时采集进程运行状况,在指定端口侦听监控主机的连接请求,采用TCP协议应答监控主机的询问,这种方案量体裁衣,通讯量小,但实现复杂。具体实施手段视实际情况而定。特别针对主机系统。8.系统运行日志监测各后台程序运行时会产生大量的log文件,这些log文件对于检查程序运行状态、查找程序出错原因很有帮助。跟踪syslog.log,db2diag.log,前置进程和通讯产生的log文件的内容。在上述日志文件中发现的报错和异常信息进行及时报告。系统日志的检测可以通过FTP定时将日志文件取回分析其中的报错和异常信息,也可以通过主机上运行的代理分析日志文件,并传回监控系统。日志种错误信息的特征字可以方便地增加或删除,报警方式也可灵活设置。9.网络通讯监控监测主机网络通讯接口(网络骨架/网卡)接收字节总数、接收单播字节数、接收广播或多播字节数、丢弃的接收数据包数、错误的接收数据包数、丢弃的未知协议或不支持的数据包数、发送字节总数、发送单播字节数、发送广播或多播字节数、丢弃的发送数据包数、错误的发送数据包数、发送队列长度等,据此判别网络通讯质量是否可靠,网络设备的处理能力是否满足要求等;监控其IP通讯接收数据包数、丢弃的错误数据包数、丢弃的错误地址数据包数、传递数据包数、丢弃的未知协议或不支持的数据包数、丢弃的接收数据包数、处理的数据包数、发送队列数据包数、丢弃的发送数据包数、丢弃的无路由数据包数、数据包装配最大等待秒数、需装配的IP碎片数、装配好的IP包数、包装配失败计数、成功分割的数据包数、分割失败的数据包数、分割的碎片数,据此判别网络通讯IP曾的可靠旬和主要网络设备的处理能力,发现问题立即报警,保障网络设备的可靠运行,也给网络升级提供客观依据。10.WWW服务监测WWW服务提供新闻、通知及综合管理信息的基本平台,WWW服务的可靠性关系到日常工作正常进行,因而有必要对其服务质量进行监控。本系统监控WWW服务的发送字节总数、接收字节总数、发送文件总数、接收文件总数、当前匿名用户数、当前非匿名用户数、总共匿名用户数、总共非匿名用户数、当前连接数、最大连接数、连接尝试数、登录尝试数、Http请求总数、删除移动拷贝总数、当前CGI请求数、当前BGI请求数、CGI请求总数、当前BGI请求总数、当前阻赛的请求数、阻赛的请求总数、拒绝的请求总数、未找到内容的总次数、HTTP服务的实际带宽等,发现异常、即启动报警、保障WWW服务的可靠性,记录数据可用于评估WWW服务质量、性能。11.FTP服务监测Ftp服务主要提供共享软件、文档资料,给企业工作人员带来极大方便。本系统监控Ftp服务的发送字节总数、接收字节总数、发送文件总数、接收文件总数、当前匿名用户数、当前非匿名用户数、总共匿名用户数、总共非匿名用户数、当前连接数、最大连接数、连接尝试数、登录尝试数等,发现异常、即启动报警、保障Ftp服务的可靠性,记录数据可用于评估Ftp服务质量、性能。12.Oracle数据库监测生产、管理等各种数据均来源于数据库服务,数据库系统是否可靠工作、其性能好坏直接影响各个部门的工作,有些关键数据不可丢失,所以有必要采取严格措施保障数据库系统的可靠性,本系统对数据库系统的性能、工作状态进行全方位的监控,发现异常,立即通知管理人员,便于及时排除事故隐患,保障整个作业系统的可靠性。本系统监测数据库的运行状态(运行、暂停、正在启动、正在停止、正在继续、正在暂停),监测系统启动时间、启动以来处理的事务批次、读取得物理页数,启动以来单页写入总数、批处理写入总页数、日志页写入数、硬盘读取的请求数、硬盘写入请求数、读取已在缓存中的百分数、缓存大小,启动以来从网络读取得表格数据流总数,采用预读方式读取的总页数,用户连接数,服务采用的锁的总数、阻塞其他进程的锁的总数,被其他用户阻塞的用户数,监测各数据库活动状态(活动、单用户、只读、离线、装载),监测各数据库待分配的空间大小、目前实际大小、保留空间大小、未用空间、数据库索引占用空间、事务日志空间大小、数据库碎片大小等。当发现工作异常、性能下降、硬盘空间不足活碎片过多等、立即启动报警,保障系统可靠运行,同时记录各种性能参数,供查询和分析。13.Sybase数据库1. 监测主机CPU、内存、磁盘I/O及磁盘空间使用情况,确保SYBASE数据库系统有一个良好的运行环境。2. 监测SYBASE进程运行情况,检查SYBASE进程占用的CPU、内存,探测Sybase监听端口是否有响应。3. Sybase可用性监测,发送SQL请求给Sybase数据库,检查Sybase数据库是否能正常执行SQL请求,执行时间是否过长。4. 检查SYBASE数据库空间使用情况,查询SYBASE数据库提供的管理视图,了解表空间的使用情况,避免因为表空间用完而产生的错误。5. 监测SYBASE数据库的运行性能,通过查询SYBASE数据库的动态视图,掌握SYBASE数据库的当前运行状态,从中发现问题,找出优化办法。6. 检查各表索引的使用情况,在适当的时候重建索引会有效地提高SYBASE数据库系统的性能。14.SQL Server数据库1. 应用可用性监测,监测SQL Server执行一段SQL语句所花费的时间,从应用的层次判断SQL Server的运行情况。2. 系统资源监测,监测1433端口,此端口是SQL Server接受用户连接的关键端口,一旦出现问题则客户端将无法访问SQL Server3. 监测SQL Server进程,可以有效的获知当前SQL Server进程的CPU使用情况,内存使用情况。4. 应用自身性能指标监测,直接了解被测数据库的各方面信息,包括使用内存量,活动连接数,数据文件大小,事务频率,登录,注销频率等等。通过对这些关键参数的监测,可以使用户获知数据库哪方面出了问题。5. 检查主机,检查CPU、内存、磁盘I/O及磁盘空间使用情况,确保数据库系统有一个良好的运行环境,如果CPU、内存使用率过高、磁盘空间不足会导致系统崩溃,无法使用。15.DB2数据库通过在主机上运行代理软件,监测数据库系统的运行状况。对数据库系统的性能、工作状态进行全方位的监控,发现异常,立即通知管理人员,便于及时排除事故隐患,保障整个作业系统的可靠性。本系统监测数据库的运行状态,监测各数据库活动状态,监测各数据库待分配的空间大小、目前实际大小、保留空间大小、未用空间等。当发现工作异常、性能下降、硬盘空间不足等、立即启动报警,保障系统可靠运行,同时记录各种性能参数,供查询和分析。l 数据库表空间状态和使用情况监测。l 如发现剩余表空间小于设定值即报警。l 数据库管理进程状态l 监测数据库进程是否存在,及占用资源大小,如果进程退出,则启动报警。l 与数据库连接的db2agent进程的数目l 协调程序代理代表应用程序协调工作,并且使用进程间通讯(Inter process communication,IPC)或者远程通讯协议与其它的代理通讯。所有的客户端应用程序连接请求,无论是本地的或远程的,都会分配一个相应的协调程序代理。l 一些重要库表的状态l 监测本机连接数、远程连接数,连接的数据库数。l DB2的primary日志和second日志的使用情况l 监测锁的信息,包括互锁等待、死锁等内容;监测过滤信息,包括过滤时间、过滤溢出等内容;监测缓冲池和I/O信息,包括读写次数等内容;监测SQL执行计数,包括提交、撤销、读取等内容;还有处理的记录数、应用连接数及登录信息等内容。l primary日志和second日志l 实时分析日志中记录的信息,发现错误信息即报警。16.应用系统监测应用系统处于业务系统的顶层,网络系统、主机系统的可靠运行,其目的是为保障应用系统的可靠运行,应用系统的任何故障即会引起业务中断,给企业造成损失,因此必须对其进行监控,确保其可靠运行。l 监测对帐系统:每天定时进行自动对帐,当对帐完成后会生成日志文件,记录状态号,当状态号为错误号时还生成错误原因,系统定时打开日志文件,分析状态号判断是否成功完成对帐。l 监测中间件稳定性:检查系统使用的中间件的状态(MQ应用等)。l 监测光纤通道端口状态:列出光纤通道端口状态,如果状态字符串中包含down、error等字符串则认为光纤通道出现问题。l 监测当前CPU使用率最高的前若干个进程或监测指定进程:定时列出当前CPU使用率最高的前若干个进程,以及它们的CPU、内存使用量。从而发现被监测主机最消耗系统资源的进程。l 监测登陆用户状况l 列出当前所有登陆用户的用户名、IP地址、登陆时间、idle时间等,根据以上信息判断登陆用户是否可疑。17.邮件系统监测l 监测主机,监测CPU、内存、磁盘I/O及磁盘空间使用情况,确保邮件系统有一个良好的运行环境,如果CPU、内存使用率过高、磁盘空间不足会导致系统崩溃,无法使用。l 进程监测,检查邮件服务进程占用的CPU、内存,探测25、110端口是否有响应。l 可用性监测,模拟真实用户用SMTP、POP3方式发送、接收邮件,检查邮件服务是否可用,发送、接收邮件速度。l 性能监测,监测邮件系统的性能指标,POP3当前连接数、SMTP当前连接数、POP3连接拒绝数、POP3验证失败数等。18.网络出口管理进入网络时代所有人都疯狂地在网络上获取资讯,或娱乐休闲,因此网络带宽我们永远会觉得不够用,对于网管员来说我们除了想要知道网络系统工作是否正常外,很多时候为保证机构的主要业务传输会需要有一种灵活便捷的方式去控制网络的数据出口数据路径的方法和做法。显然可以人为的把一个子网从一台三层交换机的端口上直接拔下的确是一个非常干脆有效的方法,但却显然是一个不受人欢迎的做法,首先即便是设计成易插拔的结构的网络端口也是经不住长期禁不住的磨损的;其次这个做法好象有些麻烦。或许Telnet到一台设备上去设置一次也是一个行之有效的办法,当然如果能有三天两头上去设一把而不厌其烦的劲头的话,而且还要保证能永不出错。现在我们有了一种更好的选择,通过Watchsys网管系统你只要点击一下你那个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论