国家电网公司电视电话会议系统告警监控平台_第1页
国家电网公司电视电话会议系统告警监控平台_第2页
国家电网公司电视电话会议系统告警监控平台_第3页
国家电网公司电视电话会议系统告警监控平台_第4页
国家电网公司电视电话会议系统告警监控平台_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国家电网公司电视电话会议系统告警监控平台调研与设计摘要本文深入调研了国家电网公司电视电话会议的会议保障工作和系统运维工作,总结了电视电话会议保障工作中面临的实际困难和监控需求,分析了当前电视电话会议系统故障监控的实际情况和不足之处,提出一种适用于国家电网公司自有电视电话会议系统的告警监控平台设计方案。该方案基于电视电话会议保障运维实际工作的监控需求,覆盖影响系统运行情况和实际会议效果的各项风险点,并对监控采集的告警信息进行合理分级和展示,减轻运维工作负担,提高运维工作效率。关键字电视电话会议;系统运维调研;告警监控0引言国家电网公司电视电话会议系统是为国家电网公司提供电视电话会议服务的内部系统,通过实时传送各级单位会议语音、画面及会议资料,为公司内部进行决策部署、工作交流、行政宣贯、培训座谈、抗震指挥及大型工程开竣工仪式等场合提供了便利的沟通平台。作为公司电视电话会议的专用系统,国家电网公司电视电话会议系统具有两大一高的显著特点,即大系统、大场面、大规格。目前国家电网公司视电话会议系统已覆盖到公司经营范围内的省市地县各级单位,每年召开电视电话会议数量数以千计,并曾有幸多次为国家领导人服务。庞大的电视电话会议系统、巨大的会议保障工作量以及对工作质量的极高要求给会议保障工作和会议系统运维工作带来了极大地挑战。本文深入调研了国家电网公司电视电话会议系统,分析了会议系统的运维内容和会议保障工作的关注重点,总结了会议运维工作的监控需求,探讨了当前会议系统监控手段的不足,并基于公司现有的会议管理系统,提出了会议系统监控平台的初步设想。1运维工作概述11运维系统现状目前国家电网公司会议保障工作中涉及的系统包括协同办公系统、会议管理系统(以下简称会管系统)和自有电视电话会议系统。协同办公系统为国网总部的协同办公系统,提供会议预约功能,与会管系统有信息交互;会管系统是会议信息的整体展示界面,负责会议信息展示、会议工单创建、会议保障任务指派、会议室与会场设备关联等功能,与协同办公系统、综合网管、短信平台和自有电视电话会议SMC系统等多个系统有信息交互;自有电视电话管理系统负责召开电视电话会议,由SMC系统及行政平台、应急平台和资源池平台三个会议资源平台组成。SMC系统为自有电视电话会议系统的综合管理系统,负责系统配置、会议资源调度、会议控制、会场管理等功能。111系统互联情况协同办公系统、会管系统与自有电视电话会议系统的系统连接和设备连接图如图1所示。如图所示,协同办公系统与会管系统有双向接口;会管系统与多个系统有互联接口,以实现其自身的特定功能,其中与SMC的互联接口用于同步会议相关信息;SMC系统是整个会议信息系统的末端,与会管系统互联,接收会管系统向其同步的信息。图1系统及设备连接图会议从预约到召开,会议相关数据信息按照图2所示的流程流转。会议主办方在协同办公中预约会议,协同办公将会议信息传送给会管系统,会管随即创建会议。当会议经审批通过后,协同办公向会管传送同步批准信息,会管更图1系统及设备连接图新会议状态为待召开,并根据会议室和会议范围选定会议平台,包括行政专线平台、行政网络平台和资源池平台,同时会管将会议信息传送给SMC系统。每当参会单位在协同办公上回执参会会议室,协同办公都会与会管进行会议室信息同步,会管将接收到的会议室信息与会议室设备关联匹配,并将会议设备信息同步给SMC。在会议召开后,可在SMC中进行会议控制操作,包括主席轮巡、广播会场、点名发言等。会议信息流转图会管OASMC阶段申请会议发布会议创建会议(申请中)更新会议状态(待召开)接受会议信息,召开会议(资源池)会议回执更新会议信息根据会管同步信息创建会议图2会议信息流转图112系统硬件部署情况电视电话系统的一般结构如图3所示,由SMC服务器、GK服务器、MCU服务器和电视电话终端组成。其中SMC服务器位于电视电话系统的运营支撑层,为SMC系统提供业务服务;GK服务器位于电视电话系统的网络控制层,提供呼叫处理、信令处理和QOS策略控制等功能;MCU为多点交换单元,位于系统结构中的媒体交换层,是视频会议系统的关键设备,作用类似于交换机,负责音视频交换、音频混合、数据处理、终端接入、信令交换等功能,是电视电话系统的流媒体处理中心,上述各项功能分别通过各种功能板卡实现。图3电视电话会议系统结构图自有电视电话会议系统包括行政专线、网络平台,资源池平台和应急指挥平台。行政专线、网络平台的组网示意图如图4所示,总部运管范围内共部署有2台MCU服务器,此外还有2台SMC服务器。资源池平台的组网示意图如图5所示,总部运管范围内部署有3台MCU服务器,2台SMC服务器并带有磁盘阵列,并部署有GK服务器。应急平台的组网示意图如图6所示,总部运管范围内部署有2台MCU服务器,2台SMC服务器。音视频矩阵总部专线终端总部网络终端专线MCU1华北MCU华中MCU华东MCU东北MCU西北MCUMSTP4MMSTP4ME12E12E12分部总部分部终端省终端省终端省终端转接设备省终端省MCU省公司地市公司县公司地市终端县终端省终端地市MCU地市终端县终端省MCU省终端地市终端1地市终端2县终端省MCU地市MCU模拟转接数据网MCU2分部终端5省终端27省内通道组织分为专线、网络、专线网络混合三种情况分部终端分部终端分部终端分部终端视频矩阵调音台视频矩阵调音台视频矩阵调音台省终端省终端地市MCU地市终端县终端省MCU视频矩阵调音台县MCU图4行政专线、网络平台电视会议系统组网示意图图5资源池电视会议系统组网示意图音视频矩阵总部网络终端总部专线终端数据网MCU分部终端MSTP4M分部总部省MCU省公司地市公司县公司专线MCU分部终端省终端总部与省MCU存在级联和模拟转接两种方式省MCU省终端地市终端地市MCU县终端省MCU省终端模拟转接省内通道存在专线、网络、专线网络混合三种方式省MCU省终端地市终端地市MCU县MCU路由器路由器路由器县终端县终端县终端地市终端省终端地市终端地市终端地市MCU图6应急指挥电视会议系统组网示意图12日常会议保障工作重点在实际的视频会议保障工作中,视频会议的音视频效果是决定会议成功的关键。具体表现为,各个分会场的在线情况,各个分会场音效是否正常,能否正常收听及发言,画面是否清晰流畅,是否出现卡顿失真等。2运维监控功能需求结合上述的系统分析和工作重点,告警平台设计过程中需要关注的告警内容应包括系统运维过程中存在的风险隐患点和会议保障过程中存在的实时性故障。在系统设备运维层面,目前运维范围内的系统设备为自有电视电话会议系统的设备,包含行政专线、行政网络和资源池三个平台上部署在总部的SMC服务器、MCU设备、GK服务器和视频终端。设备的硬件运行状况(硬盘、内存利用率,设备板卡温度等)、各服务器中关键服务的运行状况、服务器外接设备(如磁盘阵列等)的硬件情况、外接设备的服务(如群集服务)运行状况、各设备的在线情况、系统界面的正常登陆情况以及系统间的数据同步情况是影响系统运行稳定性的主要因素。在日常视频会议保障中,以下因素因其影响会议召开效果,是保障工作中的关注重点,具体包括各分会场终端的在线情况,主会场与分会场之间网络的时延状况和各分会场上下行数据的丢包情况。综上所述,日常运维工作中关注的告警信息应包括1系统的硬件情况与性能指标。具体包括MCU板卡状态,磁盘阵列状态,各个服务器的内存利用率等;2系统服务运行情况。具体包括GK、SMC中的各项服务是否正常,群集服务是否正常;3GK服务器、MCU服务器在线情况;4SMC系统能否正常登录;5会管系统中与SMC系统中的会议信息是否一致。会议保障过程中关注的告警信息应包括1分会场终端在线状态;(2)分会场与主会场之间的网络时延状况;(3)分会场上下行数据的丢包率(通信传输误码率)。3监控平台设计电视电话会议系统监控平台的设计初衷,是建立一个专业服务于公司电视电话会议系统运维和保障工作的监控平台,融合会议效果监控与会议系统监控,覆盖会议保障运维工作重点关注的各个方面,实现会议系统运行状态的实时在控,会议召开效果的实时可知,增强对系统故障的反应能力,提升运维工作的可靠性。监控平台设计的具体落脚点在以下几点对告警信息的完备采集,对告警信息的有效整合和对告警信息的合理展示。通过监控影响系统运行的所有风险点,收集所有系统运行情况和会议状态信息,并对故障进行合理的筛选和整合,最大限度消除信息冗余,提炼关键信息,并以合理的声光电手段进行展现,确保运维人员能通过告警信息快速定位故障,对系统和在开会议有全面且实时的掌控,提升运维质量。31系统当前监控组织情况在目前的运维范围内,SMC服务器和MCU服务器均对自身的运行情况和缺陷故障设置了部分监控和告警提示,会管系统也有告警采集和展示功能,能在一定程度上展现系统的运行情况,但在告警收集、等级设置和内容展示方面仍存在较多不足,无法有效支撑会议运维工作。在告警信息的收集阶段,SMC系统作为会议系统的服务管理中心,收集的告警信息包括设备在线状况告警(如MCU离线,设备离线等),设备业务状况告警(如GK注册失败,SNMP连接失败等)、丢包情况告警(如视频丢包、音频丢包、辅流丢包等)和GK设备相关告警;MCU服务器收集的告警信息包括板卡、风扇和电源模块的硬件运行情况以及板卡的业务告警(如主控板与扣板通信失败,软件版本不匹配等);会管系统从SMC系统中读取其产生的全部告警信息,此外综合网管对会管系统设有数据接口,向会管系统推送网络时延等网络状态信息。对比之前总结的监控需求,可知上述的告警采集工作仍有较大欠缺,大量可能影响系统稳定性的指标未被监控,相关告警信息未被收集,系统风险点监控不全面,告警信息收集不完备。在告警信息的整合方面,SMC对收集的告警信息级别设置欠合理,会管未对告警信息进行过滤筛选和整理合并,导致相同故障引起的各级别告警重复提示,当前非重要业务的故障作为重要告警反复提示,造成告警数量庞大,告警信息冗余,难以从大量告警中快速定位有效告警,告警信息无异于系统日志,告警功能形同虚设。在告警信息的展示方面,SMC系统设有告警展示界面,其中告警信息按照不同的告警级别和状态设置了不同的告警提示颜色和字体;MCU服务器在可视界面中提供了告警展示功能,展示了MCU的硬件状态和系统状态,但仅就板卡在线状态进行了标示,对于其他信息仅显示当前状态,均未设置正常阈值和异常状态提示;会管系统对从SMC中读取的告警信息和综合数据网推送来的告警信息分别设置了两个独立的界面进行展示,从SMC中读取的告警信息展示依照SMC系统设置的告警级别设置了不同标识进行展示,从综合数据网推送来的网络数据结合当前会议信息,逐项展示分会场至主会场的网络时延情况和传输层丢包情况。上述所有系统展示的告警均需运维人员主动登录告警展示界面查看,没有就告警级别设置不同的告警提示方式,展示方式单一被动。由上述可知,系统当前告警监控的设置较为基础,功能仍不完善。在告警采集方面未覆盖影响系统稳定性和在开会议效果的所有风险点;在告警信息处理方面未对收集到的信息设置合理的阈值和级别,不同来源的告警信息未能进行有效的整合,导致告警信息冗杂,重点不突出,不能有效聚焦故障点;在告警展示方面,告警展示分散,需遍历多个系统分别查询系统运行状态,且未能按照故障对系统的影响程度和范围设置不同的提示形式,展示形式被动单一,不利于运维人员实时掌握系统状况。32监控平台设计方案电视电话会议系统监控平台的设计方案立足于系统现有的告警监控功能,以会管系统为实施平台,全面收集系统风险点运行状态,整合各系统告警信息,设置合理的告警级别,并利用声光电手段展示不同级别的告警信息,确保运维人员能第一时间掌握需要的系统状态。其功能模块图如图7所示,以会管系统为展现平台,负责收集监控需求内的告警信息,对信息进行筛选整合,将整合后的信息配以声光效果,展示在系统自身的告警展示界面中,并利用与短信平台的接口,向运维人员发送紧急告警。以下将按照之前提出的告警采集、告警整合和告警展示三个方面展开说明设计方案。图7监控平台功能模块图321告警信息采集在告警信息采集范围方面,应参考之前提出的监控需求,覆盖需求范围内的所有系统风险点,确保系统状态信息的完全获取。在告警信息的采集手段上,可分为被动收集和主动获取。被动收集适用于目前已设有接口向会管系统推送告警信息的情况(如SMC系统告警信息和综合数据网网络状况信息),会管系统负责收集信息存入数据库,以备后续整合处理。对于监控需求中尚未对会管系统设置推送接口的系统运行信息,会管系统可利用自动巡检工具与探针结合的方式获取系统运行信息。对于需要实时掌握运行指标的节点,设置自动巡检工具,针对不同节点的特性设置不同的巡检频率全天候进行巡检,利用探针将掌握的运行指标反馈给会管系统。322告警信息整理告警信息整理的目的是将上一阶段采集到的告警进行合理的分析处理,过滤无用信息,合并同一故障引起的告警,力求减少告警信息内的无用信息,提高用于展现的告警信息的信息量。告警信息整理的具体工作内容包括告警等级的合理设置,告警信息的压缩与合并。对于采集到的运行指标,应设置合理的阈值界定系统运行状态,从而确定告警等级。此外,还应结合引起告警的故障对系统和当前会议的影响范围,对告警信息界定告警等级,例如MCU服务器板卡故障一律设为紧急告警,而对不在参会状态下的终端离线告警设为无用告警并进行过滤,对在参会状态下的终端离线告警设为紧急告警。对于重复出现的同一条告警信息,应将其压缩为一条告警信息,并给出第一次发生时间、最后更新时间和重复次数。特定故障若单位时间发生频率过高或历时过长,系统应自动提高其告警级别,以便得到优先处理。对于同一故障引起的各级告警信息,应理清依赖关系,设置合理抑制条件,只保留最高级别或最有指向性的告警信息,防止无效信息过量淹没有效信息,影响运维人员处置效率。323告警信息展现在对告警信息进行了全面采集、合理整合后,对告警信息以恰当的声光电方式呈献给运维人员是告警信息展现部分的主要内容。按照设备工作状态,可将展示界面分为日常系统运行状态告警和与会系统运行状态告警两部分展现。日常系统运行状态显示运管范围内所有系统的运行情况和告警信息,可按照告警级别、告警发生时间排序,并对告警信息按不同的状态和等级用不同的颜色或字体加以区分;与会系统运行状态是将当前正在参会的设备的运行信息单独提取出来,以单个会议为单位,进行专项展示,界面中可以只显示当前召开的会议和会议健康度,点击会议名称可以查看影响会议健康度的各项告警信息。按照告警信息的级别,不同的信息应设有不同的告警提示方式,低级告警只在会管系统的告警展示界面中展示,重要告警可设置语音提示并辅以动态画面提示,帮助运维人员及时发现故障,紧急告警除了语音提示和动画提示,还可利用会管系统与短信平台的已有接口,向会议运维人员发送告警短信,长时间未处理的紧急告警可随时间推移逐级向上级运维负责人发送短信,确保重大故障及时通知到位。324其他功能作为系统运维监控平台,还可提供告警操作、报表统计、故障处理库等功能,以提升平台可用性,更好地辅助运维工作。告警操作指对于告警信息的确认、清除和查询等操作。告警信息确认指由运维人员确认告警信息已读并需要处理,在多位运维人员一起查看告警界面时,该功能可明确告警信息是否已被运维人员发现,减少沟通成本。当运维人员确认告警已消除或告警故障无需处理时,可手动清除告警信息。运维人员可以使用关键字对告警信息进行搜索查询,方便回顾历史告警信息。报表统计功能允许用户按历史告警的数量、级别、系统分部、区域分布等信息分别导出统计报表,为改进运维工作提供数据参考。故障处理库是对故障处理措施的总结和记录,在运维过程中实际故障的处置方法可以作为处置建议写入故障处理库,随着运维经验的不断积累,故障处理库可以作为处置参考,有效指导运维人员处理各类故障。以上。4结语本文深入调研了国家电网公司电视电话会议系统当前的部署状态和会议电视运维保障人员工作中的关注重点,总结出了运维工作的监控需求,分析了现有监控手段的不足之处,结合现有的系统平台,提出了覆盖更全面、信息更精准、展现更直观的电视电话会议监控平台设计方案,对电视电话会议

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论