版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 应用监控系统平台技术方案建议书目 录 TOC o 1-3 h z u HYPERLINK l _Toc501400306 1需求分析 需求分析随着某某银行业务的快速发展,信息系统日渐庞大和复杂,数据中心运维管理难度和重要性也日渐凸显,对业务连续性要求和运维服务质量的要求也不断提高,迫切需要建设一套科学、高效的运维管理体系。在监控管理体系方面,需新建应用监控系统。应用监控系统实现从业务的视角审视所有的应用系统,真实了解应用运行过程中的状况,不但能够及时展现应用系统的运行情况、发现应用系统问题,而且能为运维人员及时采取措施解决问题提供支持。通过应用监控的部署和使用,可以提升IT 的服务级别,达到
2、提高某某银行对外服务质量和最终用户使用感受的目的。平台方案方案概述应用性能管理是如今金融机构服务运营流程当中的一个重要功能环节,在这个环节获得可测量的应用性能数据,是后续事件管理、故障管理、问题管理的发起源头,也为后续流程当中进行分析、追踪、定位提供数据和功能支持。即时获得有效的应用性能管理数据可以帮助企业IT部门了解、把握业务应用系统的运行状态,一旦发现异常波动,可以及时采取措施,在预防阶段捕捉并解决问题,避免因业务性能下降或中断范围扩大而导致业务经营损失;而在问题发生时,能够帮助企业IT部门加速分析、追踪和定位故障,减少业务中断时间,达成SLA目标。CrossFlow网络及应用性能管理监控
3、平台(以下简称:Crossflow)基于先进的协议解码技术,充分利用可靠的网络数据资源,帮助用户IT部门建立应用性能管理平台,在指标上以交易为中心,提供交易量、成功率、响应时间三大关键指标,并区分交易类型、子交易类型、交易渠道及关键网络指标(可用性、性能、负载量)进行指标统计。在监视范围上覆盖端到端的应用服务组件,实现了应用性能和可用性的多维度可视化,并提供应用快速故障诊断。Crossflow采用的旁路式的监控技术不会对被管理应用产生任何影响,完全避免了传统监控方式所带来的性能风险,同时也可以获得实时统计能力,第一时间为IT部门提供应用性能数据。对标准协议和已支持的私有协议采用配置化的协议解码
4、技术,以及配置化的应用服务定义方式确保了Crossflow平台可以灵活、快速实施。本方案通过成熟的设计、先进的产品、可靠的技术、合理的规划部署,帮助用户轻松应对应用管理中的常见问题:应用组件、主机的可用性、性能及负载量监控交易量、成功率、响应时间性能评估分析不同交易类别、子交易类别、交易渠道的性能差异追踪应用性能指标波动,分析连锁反应,找出根源组件、主机交易追踪查询,快速故障诊断和分析关联分析多层应用交易,找出深层原因获得实时的性能事件告警,快速响应CrossFlow的系统由三部分组成:第一部分是监控数据采集层,负责采集网络数据报文并输送给上层进行分析;第二部分是协议解码引擎层(主/从),负责
5、分析原始数据报文并进行统计和汇总;第三部分是界面呈现层,用户通过Web浏览器登录Crossflow界面,根据具体应用的结构,配置服务路径图,然后将统计信息融入服务路径图进行展现,实时查看应用的各项关键性能指标和交易状态。如下图所示下面对这三层分别进行阐述:CrossFlow以服务为导向组织监视管理视图,以网络服务的逻辑关系为基础把有关联的网络组件、应用组件串连起来,形成完整的网络服务视图,直接体现网络设施对业务应用的支撑能力。针对特定网络服务质量事件,即时判断即时通知,帮助用户快速发现、定位网络服务质量问题。同时提供自动化的专家系统,在问题发生后直接指出故障根本原因和发生的位置,为管理人员提供
6、有力的数据证据。Crossflow创新性的以服务为导向的网络性能管理方法以及自动化故障诊断、定位技术,帮助IT组织快速提高运维敏捷性,减少因网络故障带来的业务损失,改善网络服务质量,确保网络服务高效可用。 利用网络数据的应用性能管理平台使得这些问题迎刃而解,实时性、可关联、低成本、高可用成为这种平台的技术优势,给企业IT部门带来诸多收益。应用性能管理着眼的是应用系统整体的性能管理,而非仅仅针对某个技术层次的“竖井”式的解决方案。数据采集层设计在当今主流金融机构的业务系统架构下,应用服务层级划分非常清晰,层级间的交易全部通过网络传输完成,基础设施和交付设施本身都以服务为中心向应用提供界限明确的服
7、务功能,无论是双中心同时运行、多层网络区域控制或双机双网的环境下,采集设备可以轻松获得关键交易环节的网络数据,这给网络数据源的获取带来极大便利和灵活性。同时由于Crossflow能够完全解析数据包中的节点信息,对各种类型的应用数据路径均能够准确识别和处理,对应用实现端到端全路径的监控。Crossflow系统支持通过交换机镜像/Tap Switch等方式进行网络层数据采集,交换机镜像是成熟技术,一般的网络交换机都具备该功能,因此这种采集方式可以很好地利用现有投资,省去了对数据采集的重复投资。目前,网络数据的获取方式主要有两种:第一种是专用流量复制设备,例如TAP Switch类产品,这些专用流量
8、复制设备为后端数据分析提供优秀的数据源整理功能,包括过滤、汇聚、分发类基础功能,以及数据包裁切、剥离/加载标签等高级功能,并且能够确保数据包先后顺序的准确性。采用这种流量镜像方式可以在流量获取环节获得最大优势,为后端数据处理环节节省资源消耗。另外一种是交换机端口镜像(SPAN)方式,这种技术起源于思科,是成熟、稳定的网络流量获取技术,已经普及于各大厂商的网络产品,包括思科、华为等等,具备十分广泛的可用性。分布式的架构能够支持多中心模式应用。金融机构IT建设多数据中心,应用架构也采用负载分担或主备模式运营,这给应用性能管理带来的问题就是需要跨数据中心进行监视管理。需要在两个中心分别采集数据进行分
9、析,Crossflow的分布式架构可以很好的支持这种场景,每个数据中心部署监控平台处理设备,分别在本地获取、分析、存储数据,然后将分析结果呈现在统一用户管理界面上。这避免了在广域网上传输数据而占用大量带宽,同时又能够保证整体平台的处理性能。具体实施的时候,可以根据用户的实际环境,在两个中心灵活采用镜像或TAP的方式,Crossflow均能够很好地支持。通过合理的捕获点设计和部署,我们可以采集到应用的点到点数据流向,甚至是跨双中心的,或是会话往返不同路径、应用处理流程为多跳式的(Multi-Tier)的数据流,由于数据报文的头部和应用层负载部分均包含可以用来做前后关联依据的字段,因此Crossf
10、low能够准确处理这类实际环境下的问题,对应用点到点网络数据分析提供支持。Crossflow在客户应用场景中遇到过各种类似的场景,例如某机构的开通业务,由于业务量大等原因,必须设计成异步连接模式,即请求的发送和结果的返回是分别由两个方向的连接来连续传输的:在传统监控手段下,无法对其进行关联,但是在Crossflow体系下,通过对应用层负载中的任务号字段进行解码匹配,可以完美关联两条路径中的同一个业务交易分析。Smart Probe自动识别服务器网卡设备,自动检测端口状态,灵活选择以太网端口作为数据包捕获端口,完成数据包的抓取2.2.1故障数据的采集用于事后分析的现场数据主要包含两种:1.原始数
11、据报文Crossflow采用的数据采集设备具备海量存储,能够自动循环保存所采集的全部网络原始数据包,无需人工干预。因此,一旦发生故障,故障前中后三个阶段的数据都被自动保存在设备上,即使故障当时没有人及时处理,也不会造成现场数据丢失,为故障原因的客观、深入分析,提供详细且真实的现场数据。2.统计指标对比通过调用故障发生前、发生中、发生后三个阶段的应用各项统计指标、网络层各项指标进行对比,可以快速发现异常特征,帮助明确问题类型、问题分析方向。结合原始数据报文,可以分析问题的根本原因。同时通过指标的变化建立案例库,让运维团队在未来能够更直观地发现问题征兆。其中原始数据报文可以直接从采集设备上获取,采
12、集设备提供简单易用的接口来获取指定时间范围、指定应用系统、指定捕获点的数据包文件。而统计指标保存在Crossflow平台中,只需设置时间范围、选择服务路径,即可查看到。由于Crossflow平台的所有数据均为旁路方式采集,因此对故障现场数据的收集均在Crossflow系统内部完成,不会对应用系统产生任何影响,对应用来说整个采集过程是透明的,因此具有非常高的安全性。平台协议解码分析引擎协议解码是上层分析平台的底层基础,应用性能分析的指标均来自于协议解码信息。类似于SOAP、HTTP、ISO8583这些标准化协议的使用给协议解码技术带来了极大优势。由于协议采用标准规范,解码器可以适用于所有基于SO
13、AP、HTTP等标准协议的解码,而针对不同的应用环境,只需要配置化修改解码字段即可适用,不需要重新开发解码器。也就是说在协议解码这个环节,可以广泛适用于采用标准协议的架构例如SOA。无论是对于公有标准协议,还是私有协议,Crossflow平台均按照规范的流程进行分析和解码。而事实上,Crossflow平台在实施过程中,第一个环节就是应用梳理,该环节是后续协议解码、部署实施的基础,在这个环节中,需要用户多方管理人员配合调研,梳理目标应用的业务逻辑、数据路径、协议字段等关键信息。应用梳理工作主要涉及三个方面,工作目标如下:业务逻辑:针对一个应用服务,理清客户访问该应用服务的过程,即业务处理流程,包
14、括该应用不同层次服务之间的逻辑关系。主要信息包括:服务器IP地址、服务端口号、访问关系。数据路径:针对一个应用服务,理清客户从业务请求发起到结束,数据的实际物理路径。主要信息包括:物理拓扑图、数据路径标识。协议字段:针对一个应用服务,理清该应用服务所使用的一个或多个通信协议和应用协议。主要信息包括:传输层协议类型(一般为TCP),应用层协议类型,应用层协议规范,自定义协议字段查询表。一旦明确了这些信息,即可进行解码工作,在这个过程中,需要使用实际的数据样本来进行验证,并最终完成对公有或私有协议的解码。通过协议解码,获得基础的性能信息以及更加深入的应用交互信息,基于此事件追踪查询功能,即支持快速
15、简洁的时间、IP、交易类型、交易结果等基础信息组合查询,又支持应用协议中多字段组合查询,同时为一线运维人员和专家提供易用的交易追踪接口和深度解析能力。而基于多层应用之间协议中的字段信息,进行自动化的交易关联,使得在服务路径上能够关联各层级应用组件,获得端到端的交易追踪查询能力,帮助IT部门快速定位问题原因和位置。下图是对SOAP协议进行解码开发的流程示例:协议解码扩展能力对于国内金融业采用的一些私有协议,我们已经支持大量私有协议的解码,同时提供灵活的扩展支持,对客户需要分析的私有协议进行分析、解码并验证,然后整合到Crossflow监控平台中去。正由于Crossflow具备这种扩展性,我们能够
16、根据用户应用交易流程、模式的变化,扩展对私有协议的分析能力。对于同类型的交易协议的扩展,例如都以SOAP协议封装的不同业务,我们完全不需要引入解码开发工作,只需在Crossflow平台上对各个业务进行解码配置即可,以SOAP封装的XML为例,只需配置输出字段和字段含义,即可实现对业务协议的支持。随着用户业务的发展,业务流程变化可能导致应用交易模式的变化,我们充分考虑到了这一点,在遇到这种情况时,仍然只需对解码进行配置的调整即可匹配新的交易模式。上层分析平台在CrossFlow系统的最上层,是CrossFlow上层分析平台,解码分析引擎将数据包解码分析后,将统计结果提交到该层分析平台,用户可以直
17、接通过Web浏览器访问,查看应用服务的各项指标,并以此对应用性能进行分析和评估。CrossFlow能够呈现对应用性能管理最重要的五大指标,并还可通过两大维度进行呈现:1. 交易量反映了应用服务的负载量2. 响应时间是应用服务的核心性能指标3. 成功率是应用服务的核心可用性指标4. 返回码应用服务可用性状态5. 响应率反映应用服务的响应性而以上五大指标,可以通过另外两个维度进行呈现:1. 交易类别区分交易、子交易类别2. 交易渠道区分交易发起的渠道用户通过这五大指标两大维度,即可掌握业务的运行状态、运行性能,实现对重要业务的实时监控和分析。同时,还记录应用的网络层指标,同时分析应用对网络的负载。
18、包括:流量、并发连接数、客户端数量、重传重置、TCP事件等指标。Crossflow上层分析平台主要提供用户以下几大块功能:功能描述配置配置化协议解码配置服务路径图配置组件属性监视区分应用组件动态呈现交易性能直接定位告警位置统计关键指标变化趋势统计报告告警基准线偏离告警捕获特定返回码发送至第三方接口追踪选择时间范围字段组合过滤多层自动关联平台应用整体框架管理应用监控平台具备完善的应用监控策略、监控数据处理机制,对于监控数据,支持导出到第三方平台,以便与用户的现有平台进行集成。我方实施团队具备针对此类需求的处理能力。平台通过关注应用性能的六大指标以及网络层指标作为应用监控的策略,对监控数据采用被动
19、采集、主动分析的处理机制,使得项目的可行性高,风险小,可落地性强。数据采用分层管理机制,原始数据由数据采集层负责处理,统计数据由Crossflow引擎与上层分析平台进行管理,而应用的结构信息则通过服务路径图进行保存和呈现:Crossflow平台的统计数据和告警均可以发送至第三方平台,因此可以与用户现有的监控平台进行集成。BPC方案设计及实施计划 根据某某银行的监控需求,采用Crossflow网络及交易性能监控管理解决方案方案概述从被监控的业务系统系统应用分段获取流量,所需交换机镜像的流量输送到Crossflow服务器,Crossflow内置Smart Probe,可直接完成数据包的抓取,进而实
20、现报文解码,完成监控、告警、故障诊断及报告等功能镜像源的数量可能会超出Crossflow服务器的网卡数量,并且镜像精细度比较粗,流量较大超出Crossflow服务器处理能力,在这些情况 ,建议在部署架构采用TAP设备。从应用镜像或分光出来的流量经过TAP Switch后,可完成汇聚、过滤及安全掩码等功能,经过TAP Switch处理后的流量再进入Crossflow服务器,可有效减少网卡数量和无关流量,使Crossflow服务器的工作更加高效准确。实施概要实施内容POC内容摘要目标业务应用核心解密、超级网银、人行二代支付、ESB等实施设备BPC服务器(1台)需要某某银行准备的清单清单如下:物理服
21、务器1台; 相关应用的网络镜像(需要网络部门配合)输出; 相关应用的拓朴架构、IP地址,TCP端口号; 相关应用业务组件的通信接口规范及样本数据包实施人员安排实施相关人员包括:公司网络及合作伙伴:某某银行相关人员实施过程中,需要某某银行人员配合应用运维人员: 全程配合,目标实施应用的选取,实施环境的准备,设备的上架,应用的梳理,监控指标的确认等;网络运维人员: 数据镜像的输出等事宜上,可能需要提供支持实施环境准备服务器硬件要求项目最低配置要求操作系统Linux 64位 内核2.6版本, 推荐CentOS 5.9CPU英特尔 至强 系列处理器2.0GHz 16核 或更高内存128GBRAID配置
22、RAID 5/RAID10磁盘空间5*300GB 或 6*250GB网卡至少2个1000兆以太网接口电源双电源冗余备份操作系统环境的要求BPC运行在CentOS 5.9 64位Linux上,服务器准备裸机即可,由厂方在现场进行安装操作系统, web登录端要求BPC为B/S架构,在普通PC上无须安装任何客户端, 使用web浏览器即可登录,需要安装Firefox / Chrome / Safari 并安装Adobe Flash Player 11,推荐使用12801024或更高分辨率的显示器实施过程所需资源Ip地址资源实施过程需要分配1个IP地址,用于以下设备:BPC服务器网络布线准备项目类型条数
23、长度BPC服务器普通网线1BPC服务器数据镜像口布线普通网线2-3可以连接到TAP位置电源线普通电源线2交换机镜像配置项目要求交换机镜像(监控流量)建议监控业务一些关键节点的流量,一般忽略路由器和交换机等基础架构设备防火墙前,负载均衡前, APP主机前等节点,包括银联前置,TIPS前置等在监控流量所需的交换机上做好交换机镜像配置,将这些镜像流量输送到BPC服务器或TAP设备。本次实施,建议按照实施内容中所选定的业务应用,配置相关业务组件的网络镜像附:交换机镜像与TAP对应及分析平台接口对应表交换机镜像位置流量涵盖的业务组件对应TAP设备接入口对应TAP设备输出口对应的服务器网卡XXX交换机XX
24、X端口Xx业务WEB前,APP前等18 eth1网络防火墙开放策略BPC是以相应被监控应用的网络镜像作为数据源,故BPC服务器与监控应用服务器之间无需开放任何网络端口,亦不需要提供服务器的登录权限。B/S架构下,访问BPC的Web客户端与BPC服务器间的通信端口如下表:协议端口应用访问关系TCP80BPC WEBWEB客户端访问BPCTCP22SSHWEB客户端访问BPC业务监控需求调研准备网络服务逻辑图调研需要明确被监控业务的网络拓扑图和架构, 提供涉及应用的网络拓扑图和应用访问关系说明图(应用逻辑图), Netis会根据网络拓扑图来帮助用户梳理并设计SPAN的位置,同时Netis会根据应用
25、逻辑图来帮助用户梳理应用逻辑并设置BPC的SPV(服务路径图)业务系统各个服务层级IP及服务端口调研某某交易服务IP及端口对应表组件名称IP地址协议端口应用协议类型TCP连接模式负载均衡Web服务器APP服务器ESB核心银行注:连接模式一项可填写:常规TCP连接、TCP长连接、异步双工模式的TCP长连接。以上信息是创建服务监视视图时需要的必要信息,在BPC系统的服务创建流程中,提供服务路径图的编辑功能,在此功能中可以直接将该部分信息定义并保存在服务路径图中。协议解码准备需要实施的应用,如果是私有协议,则需要进行协议解码,须提供通信接口规范及样本数据包关于协议规范协议规范用于说明应用协议的结构、
26、组成以及内容,通信双方的应用程序都将遵循协议规范,以完成数据的交互以及程序接口的调用。一般而言,协议规范包含以下几点主要内容:1. 报文交互的细节。例如,在场景A下,报文交互顺序为:客户端请求服务器响应;2. 报文结构。例如,在场景A的请求报文中,包含了、等10个字段,而响应报文中则包含了、等6个字段;3. 字段含义。例如,在请求报文中,字段表示业务类型,而在响应报文中,字段则表示返回码;4. 字段值说明。例如,字段的值为若202则表示业务办理成功,若为404则表示找不到服务器,字段的值若为1表示该笔业务为话费查询业务类型;5. 报文细节说明。例如,若的值为1,且有且只有5位数,则表示该笔业务
27、业务类型为1且用户是使用短号登陆的。报文细节说明了应用数据某些含义不明显的特殊封装规则;6. 特殊协议规范(多为私有协议)。某些协议不是采用XML来封装应用数据,而是根据自定义的规则封装数据,例如,一个业务请求由27位字符串 - 002013072512331873020002404组成,1-18位表示业务流水号,19-20位表示渠道类型,21-27位表示交易类型;性能管理方案实时监控监控总览蓝色色条代表数据正常获取,红色代理有告警事件产生,鼠标点击可直接进入各应用查看更为详细的信息。监控总览服务动态运行图如下图示意填图以服务路径图为中心,直观展现业务系统应用服务的业务逻辑和依赖关系,实时呈现
28、每个业务内部组件、主机的关键性能指标,集中体现服务运行质量; Time Machine时间轴,实时更新每分钟的服务运行状态,标识故障点,移动时间轴即可回放故障演变过程多台服务器的交易环节中,系统支持查看每台服务器的交易关键指标,以每台服务器进行指标统计。支持异地双活架构应用的监控,包括交易的请求、响应分别在两地的场景,能够通过分布式部署,捕获并关联统计交易结果。支持各服务运行状态的总览,在单一视图中呈现所有服务路径的最近30分钟的运行状态,以每1分钟时间片的精度呈现,如正常、有故障、数据处理中等状态,并支持任意时间片直接关联至服务路径视图的分析。支持在单一视图中呈现一个服务路径上各服务组件节点
29、的关键指标,并可以时间轴的方式查询历史数据,可选择日期和时间,精度达到1分钟。支持双向交易应用的监控,能够分离同一通道中的双向交易,每个交易方向各自做指标统计和分析。支持呈现站点视图的功能,支持在单一视图中呈现站点区分的关键指标,支持站点选择、搜索,支持站点分组。支持提供由指标或告警信息直接关联至对应组件的统计视图。分支机构监控Crossflow对各分支机构还提供独立的监控界面,实时掌控各分支机构的连接状态及交易指标。智能告警Crossflow支持多种条件的阈值或基线告警支持针对关键交易指标支持阈值加持续时间的复合条件告警和基于基准线的动态告警,告警条件可设置超出或低于基线值百分比的阈值设定,
30、同时复合超出或低于阈值的持续时间,作为最终产生告警的条件。支持定返回码告警和基于组件、交易类型、交易渠道进行统计的阈值告警。支持逻辑可配置的故障定位算法,能够根据组件的依赖关系和各自的告警指标进行逻辑判断,定位引起故障的根源和原因。支持告警合并功能,并记录该条告警信息的触发时间和持续时间,告警记录可关联至对应告警触发该告警的时间段的服务仪表台视图。支持告警排期功能,用户能够自定义时间段,使某个时间段不列入基线计算数据中;或屏蔽掉该时间段的告警通知。指标统计分析及追踪交易指标统计服务路径导航,结构清晰,快速选取分析目标,查看关键指标数据同时以时序图、快照展现统计结果,在了解变化趋势的同时可统计汇
31、总区分交易类型、子交易类型、交易渠道的统计方式,深入解析应用问题根源实时监测网络服务质量动态记录历史数据,呈现变化趋势交易追踪分析Crossflowf支持通过应用层关键字进行端到端的关联追踪可以通过查询接口,包括时间、IP、交易类型、交易结果等字段,以及自选的扩展字段,进行快速查询;可以由多维统计视图直接关联查询在单个组件上,呈现每笔交易的详细信息,包括交易关键字(如流水号,可自选)、易时间、交易结果、返回码等详细信息支持异构环境下的多层关联,自动关联多层交易记录,为每笔交易区分在每个组件上的时间消耗,暴露性能瓶颈提供单一关键字追踪分析,完整展现被查询对象的交易行为和每次交易的处理过程性能与容
32、量设计BPC基于成熟稳定的X86 64位Linux平台,724小时长期持续稳定运行,支持以时间轴的方式查询历史数据,可选择日期和时间,精度达到1分钟,应用监控系统以WEB方式提供实时高效的界面展现,可支持200人的同时访问。单台应用监控系统服务器的性能指标主要包含二个指标:交易量:30万笔/分钟流量:250Mbps服务器配置要求为:128GB内存24核CPU8*1TB硬盘按某某银行的性能需求分析,考虑冗余,按目前预估的流量和交易量,可配置1-2台服务器实现IT交易系统的监控分析,实际上线所需要的服务器数量遵照以上所术的交易量及流量限制的原则。可扩展性设计灵活的部署架构Crossflow BPC
33、应用监控系统具有较强的扩展性,能够在包括监控范围、管理功能、管理对象数量等方面提供灵活、多样的扩展能力;可以适应生产系统新业务、新技术的要求,适应于系统未来发展的需要,并能与其他基于业界标准的软件进行集成。应用监控系统采用“分布部署、集中监控”模式,在业务扩展时,可根据系统性能和容量的要求,增加相应的服务器就可以实现系统处理能力的扩展。系统可以在WEB页面通过鼠标拖拉即可快速构建应用访问路径,灵活的支持被监控业务架构的调整,快速满足对新增业务系统的监控需求。系统支持主从模式的部署和扩展方式,满足双中心、多中心扩展部署,以支持双中心双活、跨中心应用的架构。强大的协议解码扩展系统采用配置化界面实现
34、对新协议的支持,当增加新应用协议的监控分析时,可根据内置模板,实现对新应用协议的监控支持。对于国内金融业采用的一些私有协议,我们已经支持大量私有协议的解码,同时提供灵活的扩展支持,对客户需要分析的私有协议进行分析、解码并验证,然后整合到Crossflow监控平台中去。正由于Crossflow具备这种扩展性,我们能够根据用户应用交易流程、模式的变化,扩展对私有协议的分析能力。对于同类型的交易协议的扩展,例如都以SOAP协议封装的不同业务,我们完全不需要引入解码开发工作,只需在Crossflow平台上对各个业务进行解码配置即可,以SOAP封装的XML为例,只需配置输出字段和字段含义,即可实现对业务
35、协议的支持。随着用户业务的发展,业务流程变化可能导致应用交易模式的变化,我们充分考虑到了这一点,在遇到这种情况时,仍然只需对解码进行配置的调整即可匹配新的交易模式。应用监控系统目前已经支持解码了银行业常用协议,比如:8583类、IFX for ATM/POS、SNA、CICS、WTC、WAS、WESB、WMQ、WMB、卡组织(CUPS/VISA/Mastercard/AE/JCB)、人行(征信/国库/联网核查/商业汇票/超级网银/二代支付等等)、三大运营商短信、Flexcube核心、TATA Bancs核心、FiServe核心、IBM CBOD核心、SAP核心等等。而且对SOA中广泛使用的协议
36、,也都支持快速解码,比如:XML(包括各种封装、嵌套的XML)、SOAP、Java序列化传输(RMI/Socket/EJB/JMS)、JSON、BSON等等。另外,对于用户的私有协议,也能根据项目情况快速进行解码。针对某某银行的需求,BPC支持应用系统中的所有报文协议解码,包括标准的XML、ISO8583等、我行核心系统的其他类标准格式的报文协议;支持各类支付业务、中间业务、前置业务的整合部署以及支行系统;并且考虑到某某银行ESB系统的应用拓扑和网络拓扑的变更情况,能够支持ESB通讯的报文协议规范;可维护性及易用性Crossflow BPC应用监控系统有系统自检和数据捕获状态自检功能,能自动检
37、测系统的运行状态。同时应用监控系统的解码输出、交易类型和交易渠道定义、多段关联交易追踪、数据存储设定、告警设置等都是通过配置文件或者WEB界面的方式进行配置化可视化设置,易于维护。另外,应用监控系统针对解码引擎、内部数据转换、UI显示等都有日志跟踪和即时输出等排查机制,可以快速对系统自身的运行状态进行跟踪记录。Crossflow BPC应用监控系统通过专业的UI设计,在系统界面、常用功能、业务处理流程等方面有很好的易用性。应用监控系统有投放大屏的总体监控视图,供一线运维人员使用。上述总体视图由用户选择定义,并可投影到监控大屏,当业务交易出现性能问题并触发告警时,通过系统智能算法可快速定位问题组
38、件,并将告警信息通过syslog及时发送到统一监控平台。2、在出现告警时,应用监控系统根据内置的智能算法自动化故障定位问题组件所在。3、查看具体业务系统的服务路径图,利用Time Machine功能快速回溯故障现象,查阅。4、关键指标统计视图,可查阅交易量、成功率、响应时间、响应率的变化趋势和返回码分布情况。5、多维度统计,支持逐层关联定位,找出最需要解决或优化的交易类型。6、多层关联追踪,支持异构环境下的多层关联,发现连锁反应,揭示问题根源。计算每一个服务层级的响应时间,定位性能瓶颈。7、单笔交易追踪,以交易关键字为中心,呈现交易过程,在多层架构下呈现每个层级的响应性和返回状态。安全性设计架
39、构安全性Crossflow BPC应用监控系统基于旁路方式获取业务系统数据包,不会对业务系统自身产生任何影响,即使应用监控系统自身出现问题也不会影响生产系统。同时应用监控系统运行在稳定可靠的64位Linux系统上,应用监控系统有高效稳定的多线程解码引擎,利用CPU多核技术多线程分布式处理交易,轻松应对业务高峰;应用监控系统提供自身状态检测机制和日志追踪机制保障系统自身的高可用性。数据安全性应用监控系统提供了强大的数据安全性。关注交易行为本身的性能、负载量 及可用性,不处理和显示交易金额和密码等第三敏感字段;对行卡号,身份证号等等感字段进行掩码处理 备份与恢复设计备份策略 BPC的数据主要包括:
40、配置数据、统计数据、告警数据、故障数据和交易详细数据。可对上述数据制定自动化的定期备份策略。数据存储周期应用监控系统的数据存储周期,可在软件界面中设置。如下图,以天为单位。数据备份机制应用监控系统的配置数据可通过管理界面实现配置的备份,如下图所示: 业务交易的配置可备份为JSON格式文件。统计数据、告警数据、故障数据的备份支持全量备份和增量备份备份方式,可由用户指定具体方式。交易详细数据可通过备份文件的方式实现备份。数据清理机制应用监控系统采用先进先出的数据清理机制。按用户设定的存储时间,对达到期限的的数据进行清理。下图为各数据的存储时间。如告警数据达到120天存储时限后,系统将自动对第1天的
41、数据做清理,保留120天的告警历史数据。数据恢复机制应用监控系统提供数据恢复机制,用于将备份数据恢复到系统。应用监控系统的配置数据可通过管理界面实现配置的恢复,如下图所示: 执行恢复操作可将JSON格式的业务交易配置文件恢复到系统中。统计数据、告警数据、故障数据的恢复可通过管理界面实现数据的恢复。交易详细数据可通过复制备份文件的方式实现备份。管理用户分级权限Crossflow BPC应用监控系统用户权限可根据角色进行区分,分别提供添加、配置、查看服务路径图、下载数据包,用户管理等权限的控制。可以对不同用户分配不同的角色,可与AD或LDAP进行集成,支持单点登录功能。接口设计Crossflow
42、BPC应用监控系统设计架构如下图:图:应用监控系统设计架构应用监控系统对外的接口包括告警接口、数据输出接口。告警接口主要是告警信息可通过syslog发送到第三方事件管理平台进行集成,统一进行汇总处理。数据输出接口可将应用监控系统统计的交易性能数据按JSON方式或CSV文件方式导出,提供给第三方系统。技术关键点和创新点应用监控系统基于协议解码技术,充分利用网络数据资源,帮助银行IT部门快速建立应用性能管理平台。应用监控系统提供交易量、成功率、响应时间、响应率、返回码五大关键指标,并区分交易类型、交易渠道两个统计维度,展现服务组件的运行状态。在监视范围上可以覆盖端到端、双中心的应用服务路径,实现了
43、应用可用性、性能、负载量的全面可视化。同时能快速追踪应用性能指标的波动情况,自动分析应用组件间的连锁反应,及时找出问题根源组件,并支持异构环境下的单笔交易追踪查询,快速故障诊断和分析深层原因,并获得实时的异常、故障事件告警,提升运维响应速度。应用监控系统的技术关键点和创新点是:协议解码、故障定位、交易追踪和可靠落地,这也是Crossflow BPC应用监控系统的核心优势。首先,Crossflow BPC应用监控系统目前已经支持解码了银行业常用协议,比如:8583类、IFX for ATM/POS、SNA、CICS、WTC、WAS、WESB、WMQ、WMB、卡组织(CUPS/VISA/Maste
44、rcard/AE/JCB)、人行(征信/国库/联网核查/商业汇票/超级网银/二代支付等等)、三大运营商短信、Flexcube核心、TATA Bancs核心、FiServe核心、IBM CBOD核心、SAP核心等等。而且对SOA中广泛使用的协议,也都支持快速解码,比如:XML(包括各种封装、嵌套的XML)、SOAP、Java序列化传输(RMI/Socket/EJB/JMS)、JSON、BSON等等。另外,对于用户的私有协议,也能根据项目情况快速进行解码。其次,Crossflow BPC应用监控系统基于内置的故障判定逻辑,在出现问题时能自动进行故障定位,同时,该故障定位逻辑是可配置的,可根据具体场
45、景进行自定义故障定位逻辑,以更加适应用户具体场景。如下图是故障判定逻辑说明:图:应用监控系统故障定位逻辑Crossflow BPC应用监控系统提供交易追踪界面,能够根据交易的基本信息,以及特定应用的专属字段作为复合查询条件进行交易查询追踪,并支持自定义交易关键字,可以选择任意解码字段作为交易关键字,以用作单笔交易追踪的关联字段。另外,交易查询结果还能展开为交易的原始记录,原始记录信息中包含应用协议中所有的被解码字段,以辅助用户做更加深入的故障排查。通过单一关键字或者多个关键字进行交易的多层关联,体现交易经过多层应用组件时在每个层级上的时间消耗和处理结果。同时具备敏感信息加密功能,支持对敏感字段
46、信息的不可逆的加密、加扰,使敏感字段信息被保护,防止敏感信息泄露。支持以特定关键字段为关联依据,进行单笔交易的多层关联追踪,能按照时间序列逐层排列交易的请求、响应记录,并统计每条交易记录的相对时间和交易记录之间的间隔时间。旁路式的监控技术不会对被管理应用产生任何影响,完全避免了传统监控方式所带来的性能风险,可以获得实时统计能力,第一时间为 IT 部门提供应用性能数据。可配置的协议解码器、应用服务路径,以及故障定位逻辑确保了Crossflow BPC应用监控系统 平台可以灵活、快速实施落地。应用拓朴发现及梳理功能SPV Discovery 产品依托于真实网络流量,实现应用服务路径的可视化,为 I
47、T 部门提供准确有效的应用组件、交付设备之间的访问依赖关系信息,并且可以被持续管理,为应用项目的建设、监控、排障、迁移提供可靠的信息支持。通过简单快捷的合并、拆分、筛选操作,以及自动化的梳理功能,SPV Discovery 产品为使用者提供了一种高效的应用梳理方法,可大大减少此项工作的时间和人力资源投入,提升IT管理的效率和价值。SPD Disvery功能可以自动呈现被监控网络数据的 IP 连接性,快速梳理应用组件之间的逻辑访问关系,为Crossflow 提供SPV定义使用的客户端、服务器、服务端口等准确数据可根据应用服务的网络流量数据,自动生成IP连接关系图。支持协议识别,能够根据采集的数据
48、样本识别特定服务端口的协议类型和名称。支持统计TCP会话记录信息,包括源IP地址、目标IP地址、源端口、目标端口、总字节数、单向字节数、TCP SYN标志位、TCP FIN标志位、TCP RST标志位。支持分析TCP连接的模式,包括同步TCP、异步TCP。支持分析TCP连接的可用性,包括单向会话、重复数据支持按照IP地址、端口、设备名,或者以上条件的复合条件进行搜索,并在拓扑图上对搜索结果进行标识。支持多次提取数据,能够在一张拓扑图中更换使用多份数据,并自动对比不同数据源中数据内容的增减。支持IP节点合并,以及节点命名。支持自定义节点的服务端口,并在拓扑图上标识客户端、服务器之间的访问方向。支
49、持IP地址的过滤。支持按照组件与IP地址的对照表自动完成梳理。支持IP地址与设备名的转换显示。支持即时创建快照,在快照中提供访问关系、节点IP地址和服务端口列表。支持以快照为编辑的起始点,重新加载数据再次进行编辑。支持数据包导出,能够按照服务端口导出数据包,能够全局打包导出数据包。SPV Discovery优势以真实网络流量为依托,使服务路径可视化,反映应用组件、交付设备之间形成的访问关系建立服务路径图档案库,提供准确的应用环境信息,使得应用组件之间的访问依赖关系可持续管理,降低变更风险有效降低应用梳理的时间消耗和人力成本,提升应用故障排查,以及监控系统实施的速度广泛适用于SOA、多层异构,以
50、及虚拟化的应用场景CrossFlow性能管理方案优势面向网络服务,构建以网络服务为中心的管理视图,一对一垂直支撑业务,与用户体验相关联覆盖端到端的应用组件,全面可视化应用性能和可用性;业务动态实时呈现,展现应用性能对用户体验的影响;体现应用六大关键指标:交易量、成功率、响应时间、返回代码分布、交易类别、交易渠道;深入网络精细测量网络服务质量,体现网络关键指标:流量、连接数、客户端数量、TCP事件、重传重置等;分布式架构,支持双中心架构应用的本地采集、分析,集中管理、呈现;配置化解码,无需开发,敏捷实施,可靠落地;组合条件交易追踪,适用于一线、二线运维人员,快速获得目标信息,找出问题位置、原因;
51、无代理,旁路式监控,不影响被管理应用,0风险;标准协议如SOAP支持配置解码,应用服务支持配置化定义,无需开发,快速实施,可靠落地;自动生成基准线、支持基于基线的动态告警以及阈值告警,即时告警即时通知;标准告警通知格式,支持与第三方平台集成。支撑业务保障核心网络服务,提升运维敏捷性,支撑服务优化的结果验证快速排障 基于场景,融入专家判断,自动分析、诊断、定位故障 即时发现问题,即时通知,释放人力资源项目交付计划项目计划及交付物实施计划如下表:序号服务内容工作量需求调研及分析1实施范围确定,协议规范,样本数据包,网络拓扑图,应用架构图(服务流程图),服务端口IP列表,协议类型及关键字确认22确定
52、相关应用组件所涉及的应用协议,如果是私有协议,则配协助用户准备应用架构拓朴、 应用协议规范及样本数据包2解码阶段3相关私有协议解码20系统实施4确定实施环境,包括服务器配置,交换机镜像输出,应用拓朴架构及IP地址端口号列表,网络资源等0.55设备上架及初始化配置0.56Crossflow服务器安装0.57软件安装调试0.59业务监控配置,配置业务服务路径110实时数据导入,确认交易性能监控分析信息正确, 相关指标能否正常显示211其它相关配置0.5系统测试及上线13系统调优0.514用户培训(使用及管理)115测试用例准备和用户测试、测试报告提交1项目管理16Project Managemen
53、t人天小计:32项目交付物工作名称可交付物名称备 注启动及需求调研阶段项目计划表需求分析报告架构设计方案PPT+Word安装及实施阶段产品安装配置手册功能测试用例系统维护手册项目测试计划系统使用手册Word +PDF系统测试、培训及初验阶段测试报告培训资料培训计划项目验收计划Word +PDF系统试运行及项目终验阶段运行维护手册项目完工验收报告Word +PDF知识转移为了拥有一支技术过硬的用户操作和维护队伍、成功实现技术的转移是保证系统顺利建设并长期稳定、良好运转的重要保障,也是本项目的重要建设目标之一,为此公司采用下述培训策略。首先进行产品培训,所有项目中使用的产品我们将提供现场培训。其次
54、,针对每个产品的负责人我们将有明确的考核指标,确保产品负责人对产品的了解已经达到了预期的目标。项目管理范围管理范围管理保证项目包含了所有要做的工作而且只包含要求的工作,它主要涉及定义并控制哪些是项目范畴内的,哪些不是不属于本项目范围。对这个项目,范围管理主要管理以下内容:需求收集、定义范围、范围分解、范围核实、控制范围等等。 1定义范围将通过访谈、问卷调查、研讨会和原型法等形式收集项目的需求。针对用户的需求,公司和某某银行的项目团队根据需求的理由、需求的优先级、需求的来源、需求实现的可行性进行讨论,确定项目的范围,最终制定项目范围说明书。恰当的范围定义对项目成功十分关键,当范围定义不明确时,变
55、更就不可避免地出现,很可能造成返工、延长工期、降低团队士气等一系列不利的后果。2范围分解项目实施本身是一个复杂的过程,明确了大的范围,并不意味着能把项目做好,我们必须采取分解的手段把主要的可交付成果分成更容易管理的单元,最终得出项目的工作分解结构(WBS)。我们将用项目进度为依据划分WBS,第一层是大的项目成果框架,每层下面再把工作分解,这种方式的优点是结合进度划分直观,时间感强,评审中容易发现遗漏或多出的部分,也更容易被大多数人理解。3控制范围 在项目实施过程中,范围不进行任何变更变几乎是不可能的。因此对变更的管理是项目经理必备的素质之一。变更并不糟糕,糟糕的是缺乏规范的变更管理过程。范围变
56、更的原因是多方面的,比如用户要求增加产品功能而导致设计方案修改而增加施工内容。项目经理在管理过程中必须通过监督绩效报告、当前进展情况等来分析和预测可能出现的范围变更,发生变更时遵循变更程序来管理变更。 沟通管理项目沟通的主要方式为提交项目状态报告和举行例会,具体建议见下面的描述。另外,为了使项目顺利正常地进行,在项目中鼓励项目组内进行充分的沟通,采取的方式主要有:项目例会项目周报电话E-mail项目状态报告:文档名/描述频率项目管理报告每月项目周报每周项目例会:会议类型参加人频率项目启动会议所有项目组成员,项目管理委员会成 员,其它特邀嘉宾1次,项目开始时周例会公司项目组成员每周,建议为周五上
57、午月例会公司和某某银行的项目管理委员会成员和项目经理每月,每月的最后一天问题管理问题管理问题管理流程的目的是保证所有问题被发现,记录,清楚地定义,和项目干系人沟通,被跟踪直到结束。 下面是问题管理流程:识别项目问题建立问题跟踪机制评估该问题升级重要问题决定问题解决办法升级导致变更的问题 执行问题解决办法结束该问题识别项目问题任何问题都会对项目的执行和结果带来负面影响,所以必须识别出来,尤其是问题的根源。建立问题跟踪机制源自不同方面的问题需要被记录和监控。采用问题/行动报告-Case-Date记录识别出的问题,并跟踪解决的全过程。评估发现的问题评估问题影响的范围,发现问题的原因。 当初步的问题识
58、别和评估完成,项目经理会对问题设定重要程度和处理的优先级。优先级:高需要马上解决中需要立即讨论,安排解决时间低需要确定讨论和解决的时间升级重要的问题为保证能平稳和及时解决问题,任何重要问题都需要升级到更高的管理层。在本项目中,重要问题有下面的特征:潜在的和合同条款有冲突威胁到项目继续下去的问题资源的效能或可用性导致实现项目目标的可能性下降。成本或进度与计划的不一致超出可接受的极限潜在的和项目需求不一致为做避险准备或未识别出的风险发生了或要发生。被识别出的问题超出预计时限还没有解决决定解决办法项目经理负责审核问题的建议和解决办法,并保证有可接受的解决办法前,不会分派项目资源。对于小问题,可能只是
59、和负责的个人进行简短的讨论。对重要问题,就需要详细的行动计划。重要的一点是确定完成的时间。项目经理这时需要决定是实施问题解决办法,或是升级,以做进一步的评估。如果解决问题的建议被接受,就会安排相应人员,并及时通报最新情况。升级导致项目变更的问题解决办法的实施导致项目成本、进度、项目基准计划、交付物变更的,需要走项目变更流程。项目变更流程保证对项目各方面进行详尽的影响评估,使得所有需要变更的部分都被识别出来,并且在整个项目周期中被监控。实施解决办法 依据问题范围的不同,对于简单问题,最后可能是一个简单的解决报告;对复杂问题,可能是举行定期的进展沟通会议。结束该问题 在问题解决结束时,相关信息需要
60、通知所有相关各方,确保问题的确是解决了,并拿到正式确认。升级流程升级流程是为了保证问题能被有效、及时、真正地管理和解决。升级流程提供沟通机制,使高级管理层注意到没有解决的那些问题。公司和某某银行的项目组成员都可以提出项目中存在的问题。开始时,问题会报告给组长,如果在这一级不能解决(3天内),就要升级给项目经理。如果5天内不能解决或不是项目经理的权限可以解决,问题将被升级到项目管理委员会。基于定义升级流程的目的,这里说的“解决”的意思是正在处理(问题可以解决),而不一定是完成。质量管理公司公司非常重视质量保证工作,在公司公司的各方面工作中,始终贯彻ISO-9000系列质量管理标准。本项目的质量方
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025浙江嘉兴市银建工程咨询评估有限公司招聘笔试历年备考题库附带答案详解
- 2025年安义县工投商业管理有限公司第四批招聘1人笔试历年典型考点题库附带答案详解
- 北科大固体电解质教案
- 初中语文教学中经典诵读与情感教育的实践探索课题报告教学研究课题报告
- 建筑物拆除场地清理垃圾外运施工及方案
- 2026年执业医师定期考核综合练习完整参考答案详解
- 2026年水处理考核多选题考前冲刺测试卷及参考答案详解【轻巧夺冠】
- 高中生利用X射线荧光光谱法测定饼干中锌含量课题报告教学研究课题报告
- 2026年包装设计行业创意趋势报告
- 绿电交易合同
- 海报排版创意构图教案
- 杀虫剂知识培训课件
- 2025年中国防晒添加原料数据监测研究报告
- 2025年广东省纪委监委公开遴选公务员笔试试题及答案解析
- 股权转让交割清单
- 献血常识题库及答案
- 小学美术风筝主题教学案例与学生反馈
- 2026年高考语文备考之文言文实词复习(含口诀、真题、规律总结、技巧等)
- 《征兵入伍应征公民体格检查标准条文释义》
- 教育舆情预防与应对策略
- 企业菌种管理制度
评论
0/150
提交评论