网络性能管理系统建设方案_第1页
网络性能管理系统建设方案_第2页
网络性能管理系统建设方案_第3页
网络性能管理系统建设方案_第4页
网络性能管理系统建设方案_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、网络行为分析、性能监控、主动预警及故障排查解决方案一、 网络使用及管理需求:随着 信息化的发展, 各类信息系统不断增加, 的计算机网络规模不断扩大,随之而来对信息科的业务管理水平也提出了更高的要求;由于我院计算机网络覆盖面较大,来自于设备自身故障以及使用人员不当行为造成网络故障也屡见不鲜,如何能最好的管理好 网络?特别是故障发生后能以最短的时间检查排除故障,甚至在故障爆发前能有效准确的预见预知到可能的故障点,是摆在网络管理人员面前的一个必须尽快解决的问题。 现阶段我院整体网络平台已正常运行近2年,但是对 网络的管理及故障分析还停留在手工处理的模式,在手工处理的工作模式下,很难快速有效的对整体网

2、络行为、性能及故障的分析进行处理,所以为完善当前我院的网络管理效率,急需引进一套专业的网络管理监测分析软件。二、Cascade产品定位:整体网络行为分析、性能监控、主动预警及故障排查Cascade的产品定位为整体网络行为分析、性能监控、主动预警及故障排查。Cascade通过对全网的IP流(Netflow)和SPAN端口的IP数据包捕捉采集,解析第七层应用层信息并作智能化的分析,为用户的网络管理员/主管提供对于全网信息的完整分析报告,如端到端的流量分析、应用识别和性能监控、服务器依赖关系、IT资产管理,异常网络行为等等,并能对网络及应用性能下降进行全方位的预警和快速故障定位。和通常的网络设备管理

3、和监控系统只能提供故障发生“事后”协助排错不同,Cascade可以预先“侦测”到关键应用系统的主要性能指标的异常波动,提前对管理人员做出主动式的“预警”;同时对于网络中出现的性能故障进行排查分析出其根本的原因。在很多情况下还可以把即将发生的应用性能故障消灭在爆发之前,如图所示:Cascade在 的内部网络日常运行管理中可以起到多方面的功能,其涉及到并可以整合的网络管理内容包含以下这些方面:Cascade的产品定位为自顶向下的整体网络及应用性能监控和行为分析平台。Cascade通过对全网的IP流(Netflow)和SPAN IP数据包第七层应用层信息进行智能化的分析,为用户的网络管理员以及具体技

4、术人员(而非仅仅是底层“抓包”的人员)提供对于全网信息的完整分析报告,如端到端的流量分析、应用识别和性能监控、服务器依赖关系、IT资产管理,异常网络行为等等,并能实现网络及应用性能下降的预警和故障快速定位。Cascade特有的服务器依赖关系(Server Dependency)生成工具、Baseline基线性能指标自动生成和差异性监控、内部网络安全等自动化流量分析模块都是Sniffer所不具备的。由于Cascade不依赖于专有的硬件探针,而是充分利用现有的网络设备的Netflow信息,性价比要远高于Sniffer,其部署、管理、及使用都非常方便。三、Cascade可以为 提供的最佳实践 - P

5、rofiler 宏观分析用户Cascade的分析管理界面自顶向下分为:端到端宏观IP Flow分析的Profiler Web界面和微观IP 数据包分析的Pilot控制台界面。1.全方位的网络性能监控和信息逐层“挖掘”Cascade通过IP Flow、Sensor,以及和现有环境里的SNMP、DHCP、Active Directory系统的整合,能够充分发现用户网络中的所有相关信息和数据。而传统的基于SNMP的网络管理工具,一般只支持提供端口或链路的流量数据(Traffic),无法作深入细致的分析。Cascade可以提供给用户的信息包括:全网任意节点的流量情况、流量的具体应用组成、基于80端口的

6、Http应用的深入应用类型识别、和应用相关的主机/服务器信息、 客户端(client)信息、具体用户名(user name)、 应用交付的全路径、每段路径的网路延时、服务器延时,等等。并且,在所有这些重要信息之间,用户可以快速的相互切换,或进行“信息钻取”(Drill Down)。 Cascade的报表生成工具非常灵活,数据的组织和挖掘也很人性化。用户可以自定义报表的条件和格式,并且定期自动运行,以邮件和SNMP Trap的形式主动发送。Example: problem related to high WAN utilizationLets find the applicationWhich

7、user is responsible?Lets find the serverWe found its John Smith2.全网应用运行状况实时监控 Dash Board 仪表盘功能Cascade可以实时提供网络中最活跃的Top和Bottom的应用和用户,IT管理员也可以对于最关注的特定应用进行全方位的监控。并且用户可以根据需求定制自身所关注的信息,排列在仪表盘Dash Board上。所显示的信息每分钟自动刷新。用户可以根据不同使用者的身份建立不同的账号,比如网络管理员,主机管理员和应用系统管理员等。不同身份的用户登录到Cascade的Profiler后系统可以显示不同的仪表板Dashb

8、oard。Dashboard可以根据不同身份的用户所关注的网络和应用指标来定制。每个用户的Dashboard包含多个内容块Content Block,用户可以根据自己的需要配置和排列不同类型和数量的Content Block。每个Content Block可以以图表的形式显示和监控特定的网络或应用的特定指标,并且自动刷新。这些特定的指标包括:Top流量的主机/主机组,Top流量的应用,关注的应用流量,关注的主机/主机组,关键应用的响应时间等。见下图:3.灵活丰富、可定制的报表Cascade提供了一个灵活易用且功能强大的报告功能,可基于小时、日、周、月、年、或自定义时间段来报告历史数据,并且可基

9、于主机、协议、应用、端口、分组等条件设置报告范围 ,可报告的内容有服务性能、服务健康性、流量、事件、告警等。而且还可以计划定期的生成报告。设置报告条件:流量分布报告:主机排行报告:其它报表形式:4.关键应用性能智能分析及主动告警Cascade对于特定应用的性能监控内容包括该应用提供的并发用户数、TCP连接数 / 秒、连接平均持续时间、应用响应时间、应用层吞吐率、TCP Retransmit数量和TCP Reset百分比等。通过对这些指标全方位的监控,Cascade可以提供最为细致的应用运行性能状况。此外Cascade还可以将这些指标的实时数据与历史数据的基线Baseline作比较,帮助用户判断

10、当前应用运行是否正常。Cascade根据采集到的数据,可以自动形成正常网络状况下的各种性能基线Baseline,管理员可以根据关注的不同指标定义各种相应的策略,如基于特定端口的流量,特定服务器的连接数,特定应用的反应时间等,对于实际网络或应用性能与基线偏离到设定的幅度时即提供告警。同时Cascade可以区分应用的整体响应时间中网络链路时延和服务器时延。这样,当有应用性能下降,响应时间增大的情况发生时,Cascade可以告诉管理员究竟是由于网络时延(网络故障)还是服务器时延(服务器故障)造成的。通过主动告警,管理员往往可以在最终用户感知到网络或应用性能问题之前就及时发现问题并着手解决问题,而网络

11、延时和服务器延时的报告更能帮助用户快速故障定位,从而大幅降低IT Helpdesk的电话求助率以及故障修复时间(MTTR)。在应用性能各个指标的监控方面,Cascade摒弃了“固定阀值”的判断方式,而是通过特有的“行为基线”Baseline配合“容忍幅度”的方式来监控关键应用的性能。用户只需要通过游标的方式调整基线变化幅度Sigma值即可,如下图所示:活动连接数:响应时间:每秒新建连接数:5.服务器相关性(Server Dependency)用户可以定义基于IP Subnet的Server Group服务器群组。基于IP Flow的信息,给定相应的位于数据中心的特定服务器群组条件, Casca

12、de Profiler可以自动的“描绘”出相关服务器之间的流量关系。服务器相关性Server Dependency的信息可以帮助用户了解服务器之间实时的相互依存关系,对某一服务器的故障可能造成的影响面有一个明确的掌握,同时满足多种IT运行操作的需求。比如CMDB变更管理、服务器维护预先通知、多层次应用系统Multi-Tier Application性能分析等。Cascade Profiler可以根据所学习到的服务器流量相关性自动生成图形化的拓朴,向管理员提供一个形象的服务器关联性视图。Cascade 也可以以表格的形式提供服务器相关性的详细信息,如下图:6.应用服务仪表板监控Service D

13、ashboard举例说明如下:通过之前对应用服务器进行关联性分析后,我们可以在Cascade的实时监控区域定义应用系统的服务器关联图,通过服务器关联图,从宏观层面对PDM系统、ERP系统、CRM系统进行实时监控。从图中看到,整个系统可以分为三层结构,前端web应用,中间app应用和后台数据库。其中,web应用可分为ssl web和http web两种。其中,图中的每个节点,除用户节点外,都代表一个服务器群组,线条的走向勾画出了群组之间的关联性。图中的绿色线条表示服务器群组提供的服务处于健康状态,如果线条的颜色由绿色变为红色,则说明服务出现了状况,需要进一步分析。从上图可以看出,Cascade对

14、于基于SSL安全协议的系统发出了告警,下面我们就这个问题进行深入分析。通过Cascade Profiler层层深入挖掘数据,分析问题的能力,我们首先就上图中红色线条部分进行数据挖掘,得到如下的结果:从上图可以看出,从2011年10月日12:30开始,产生了系统服务的告警事件,这个事件持续的时间为小时,告警的指标为TCPRetransmission. 打开事件222897的详细报告,我们可以看到TCP重传已经超出了绿色区域的容忍度范围。通过进一步分析,可以发现影响面最大的服务器地址为9, 该服务器的平均TCP重传数据为2132bits/s, 与昨天相比,TCP重传数据量有

15、较大的增加。进一步分析服务器9的流量变化状况,可以发现流量从25Mbps上升到近30Mbps, 同时,可以发现服务器的响应时间最高达到3531ms, 说明服务器的负载很大。7.IT资产管理 Asset Management通过全网的IP流量监控,Cascade可以发现系统中所有Active的主机,通过和SNMP、DHCP、DNS服务的整合,Cascade可以统计出系统中所有活跃的IP节点,并显示相应的主机名、MAC、所连接的交换机端口等信息。这些信息可以作为 IT资产管理的十分准确的有效工具。8.内部网络安全,网络异常行为分析和警报通常意义上的内部网络安全是通过IP P

16、ayload载荷中的某些特征值识别,来检测该IP流量是否属于某种病毒或网络攻击手段。这种特征值识别的技术的缺陷在于需要维护一个特征值的库并且不断更新,对于新出现的或变种的攻击手段无法识别和判断。Cascade Profiler除了具备以上所描述的特征值识别技术以外,还可以通过一种特有的网络行为分析的功能来检测网络中的病毒和攻击行为。事实上Cascade的一大特色就是强大的网络行为分析(Network Behavior Analysis)的功能。通过对全网IP流量的监控,Cascade Profiler可以感知到所有主机的网络行为,对于其中一些“可疑”的网络流量和行为,Cascade内置的分析引

17、擎可以自动检测并提供告警。这些“可疑”的流量包括主机扫描Host Scan、端口扫描Port Scan、蠕虫病毒Worm、可疑连接Suspicious Connection等。此外对于一些异常IP流量Cascade也可以自动检测并报警,包括新出现的服务端口New Service Port、新出现的主机New Host等。下面的图例显示IP地址为5的主机在过去的四天时间里有Host和Port的Scan行为。Cascade的事件报告对于主机的可疑扫描行为有详细的纪录和形象的报告:对于被扫描的目标IP,Cascade根据Subnet分组,并以圆形图标的大小表示被扫描的主机数量多少对于

18、成功和失败的扫描以及被扫描的目标端口进行分类以图表的形式显示该主机的感染范围和途径,被感染的主机列表和端口分部等信息报告还可基于被扫描的特定主机IP地址,以及“传染”的顺序提供图形化的报告。这样可以帮助管理员第一时间不仅掌握病毒的发作源头,同时了解哪些主机已经受到了感染,这样可以使管理员可以实施更完整而有效的“隔离”方案。系统也可以提供图表形式的受感染主机详细信息,如下图:四、Cascade可以为 提供的最佳实践 - Pilot 微观分析Pilot是基于Windows系统的客户端软件,Pilot可以远程控制Shark Appliance专用抓包硬件设备,并且对所捕捉到的数据包做实时的微观深度分

19、析。其内置了Wire Shark软件,可以对筛选过的数据直接调用Wire Shark来对原始数据包的分析。1.IP 报文统计分析及带宽利用情况Bandwidth Over Time视图可以看到整个网络在不同时间段的带宽利用情况,数据流在上午9:00后才出现是因为9:00是开市时间,从此图可以看出,带宽利用的高峰期是开市后的9:00-10:00。2.协议的分布Protocol Distributed Bit视图可以统计出网络中某个时间段的各种网络协议的分布以及它们所占用的带宽,下图是某个时间段Web交易系统网络内相关的流量分布图,可以看到最大的流量是HTTPS应用,即Web交易系统的业务流量占据

20、了绝大部份。3.流量类型Network Useage By traffic Type视图可以看到在特定时间段内的各种流量类型,以及流量类型所占的比例和排行统计。从此截图中我们可以看到占用流量最多的是Web等应用,即Web交易系统的业务流量占据了绝大部份。 4.IP之间的通信IP Conversation视图显示出特定时间段内段里所有IP与IP之间的通信图,从图中看以看到通6这几个IP与其它IP有较多的通信,这是因为这个IP是后端Citrix,源自于Internet的所有主机都是先访问到它,然后由它进行负载均衡到各台交易服务器。5.TCP错误包TCP Error Over tim

21、e显示出特定时间段内出现的TCP错误包,通过此视图可以了解到网络中有哪些错误包,下图中可看看到TCP错误包中Duplicate Acks(重复的Ack确认包)和Retransmission(重传包)所占的比例比较大。6.IP 报文错误分析从以上视图看到可疑点后,可以把范围缩小对可疑点进行深入的分析,Casecade可以提供多种筛选条、视图来把分析的范围缩小,甚至可以通过Wireshark进行原始数据包级别的分析,使用Wireshark无须再次额外抓取数据包,可直接在线分析,通过这些可以快速的作故障定位。查看交易网关服务器上的TCP错误包根据TCP Error Over time视图进行了进一步

22、的筛选,查看交易网关服务器服务器1的和通迅平台服务器之间的TCP错误包,下图中可看看到这两台服务器之间的通迅还是有一些TCP错误包,但均属于一个正常范围值。7.基于流量类型来查看TCP错误包TCP errors By Traffic可以基于流量类型显示出TCP错误包的情况,下图将筛选出与交易网关服务器通信有哪些流量类型存在TCP错误包,图中可以看到与交易网关服务器通信所产生的错误包都是基于Web应用的。8.应用层性能及内容分析及服务的平均响应时间Service Response Time Over Time视图可以统计出所有或特定服务在特定时间段的平均响应时间,从下图可以

23、看到交易服务器与公网用户的平均响应时间大概在100ms左右。9.通信序列图Sequence Diagram 根据某对IP通信的情况,自动描绘出它们之间每个数据包往返通信的图,并且可以看到每次传输的包的大小、TCP状态位、所用的时间等等 ,下图可以看到后端公网的用户与Citrix之间的TCP连接建立、通迅、连接拆除等。 10.Web对象的下载时间Web Download Time and Rate By Object显示出每一个Web对象的下载时间以及大小,从下图中可以发现newtrade/view/gupiao/action对象的平均下载时间都要比其它对象长得多(下图已标注),平均每次下载该对

24、象都要25秒,对象大小是52字节。下载速率是539Byte/s。这么小的对象确需要那么长的下载时间,明显高于其它对象,建议检查该地方是否设计合理。11.TCP 连接处理时间Transaction Analysis by Web Object视图可以呈现某个应用每一次交易连接处理的持续时间、源和目的地址和端口、对象等。12.通过Wireshark查看原始数据如查需要对某些数据流进行深入的分析,可以在相应的视图下设置过滤条件,右击”Send to Wireshark“直接调用WireShark来进行原始数据包的分析。五、Cascade的工作方式和其它使用场景不同于以往的基于SNMP为主的网络管理工

25、具,Cascade整合了基于IP Flow 采集和Sensor网络探针的技术。Cascade 收集网络流数据,并使用应用程序和用户身份识别、行为分析和网络性能指标对这些流数据进行增强。Cascade 可以创建基于逻辑业务类别的分组,呈现了业务环境中复杂的基础设施。预定义的可定制行为分析使用户可以及时识别性能、可用性和安全方面的问题,避免这些问题破坏业务服务。完整、准确的资源占用情况和相关性数据为用户作出正确的优化及管理变更决策提供了主要依据。Cascade 还提供广泛的集成,能够智能地与其它系统进行交互操作,从而提高这些系统的价值并改善工作流。同时,Cascade 透明的无代理部署方式使得用户

26、可以快速的实施。Cascade 使用户能够有效地管理 IT 基础设施的改变。因此,客户能够确保业务服务的可用性、性能和安全,还能降低成本,并满足法规要求。具体来说,客户出于以下原因使用 Cascade:1.应用程序性能管理 行为分析与用户定义策略相结合,提供所需的信息并执行相关政策,以主动确保服务交付。情境化警报提供迅速解决问题所需的信息。增强安全 广泛的分析能够识别难以检测的安全威胁,例如零时差攻击、“精品”恶意软件和证书攻击。2.WAN 和虚拟化环境的可见性 获得对传统的“盲”环境(例如,优化的 WAN 和虚拟化系统)的全面可见性。3.自动化合规性可见性和报告功能支持自动规划和策略执行,并

27、减少支持审计所需的工作和成本。4.数据中心整合和迁移应用程序相关性映射提供进行适当规划所需的信息。变更影响信息可确保顺利实施。5.CMDB Discovery 深入、连续、透明的发现和相关性映射实现准确、低成本的全院范围覆盖。通过以上的描述可以发现事实上Cascade可以帮助我院的网络运行管理不同方面如数据中心管理、内部安全管理、法规从属性监控、广域网优化状况、应用系统性能监控、IT资产和变更管理等充当强有力的工具。六、Cascade 的组成部分和部署方式Cascade的系统逻辑上由Profiler、Gateway 、Shark和Pilot几部分组成。一个独立的Cascade系统包含一个Pro

28、filer组件和若干可选的Gateway,Sensor , Shark和Pilot。1.Gateway:负责IP Flow的采集工作,同时还提供IP Flow信息的De-dup合并重复工作,并且对于该IP Flow标注上Cascade特有的扩展信息。Gateway将经过处理的IP Flow数据传递给Profiler。2.Shark Appliance:通过SPAN端口实现高速数据包捕捉和海量原始包存储,并且向Profiler发送由原始包形成的cascade-flow信息,包括应用响应时间等参数。同时配合Pilot可进行深度包分析。3.Mini Shark:RiOS 7.0以上Steelhead

29、具备内置的Mini Shark 功能,可以通过Pilot远程管理Steelhead的tcpdump抓包任务,并在不需要传输原始抓包文件的情况下进行远程的统计分析。4.Pilot:基于Windows平台的客户端软件,配合Shark Appliance使用,可对所捕捉到的原始IP报文做实时的深度内容分析。5.Profiler:整个系统的核心部分,端到端宏观IP Flow分析平台。Profiler接受来自于Gateway和Shark Appliance的扩展的IP Flow信息并进行处理。Cascade所有报表呈现功能和网络行为分析Network Behavior Analysis功能都是由Prof

30、iler实现,Profiler是用户对Cascade系统的主要使用和管理界面。系统常见的部署是在用户的DC数据中心安装Profiler、Sensor或Shark、Gateway。远程的数据流信息通过flow采集,如需测量远程用户的用户体验数据,可选择在远端的Steelhead上安装Sensor-VE或启用Mini Shark功能。Gateway基于IP Flow的流量信息采集Cascade的Gateway部件主要负责IP Flow的信息采集。基于IP Flow 的好处是可以通过数据中心的同一台Gateway采集全网的IP Flow,不像Probe的解决方案需要在每个分支机构安装探测器才能了解全

31、网的流量状况。这样可以使得Cascade整个系统的部署非常“轻量化”,Foot Print很小,成本也低。此外,Cascade的Gateway支持业界几乎所有的Flow格式,如下图。除了较常见的Cisco的NetFlow,还支持IETF标准的IPFIX,以及Juniper的J-Flow、Brocade的sFlow、Packeteer的FDR等。这种能力使得Cascade对不同用户的现有网络中不同品牌的基础设备兼容性达到最高。对于有Riverbed Steelhead广域网优化设备的环境,Cascade还可以支持Riverbed特有的增强的Flow信息,从而取得更多的网络流量信息。基于Sensor和Shark Appliance的探针Cascade系统的网络探针分两种,分为“轻量级”的Sensor和“重量级”的Shark Appliance。 Sensor 通过SPAN端口Sensor可以捕捉到服务器和客户端以及服务器群之间交互的IP包。Cascade特有的L7应用层内容特征值识别可以充分辨别出流量的应用类型,不同于通常的基于L4端口号的应用分类,Cascade 的L7应用识别更精准,更符合用户的实际应用场景。比如同样是80端口的流量Sensor可以辨别是否的确属于HTTP的应用,或者是其他类型的流量(甚至是通过80端口隧道方式的恶意攻击)借用在80端口上传输。用户还可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论