科来网络回溯分析系统深圳超算测试报告_第1页
科来网络回溯分析系统深圳超算测试报告_第2页
科来网络回溯分析系统深圳超算测试报告_第3页
科来网络回溯分析系统深圳超算测试报告_第4页
科来网络回溯分析系统深圳超算测试报告_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

深圳超算科来回溯分析系统测试分析报告目录TOC\o"1-5"\h\z\u1. 测试概要 11.1. 需求分析 11.2. 测试目标 22. 设备部署 43. 网络流量可视化监控及异常事件回溯 63.1. 网络流量可视化监控 63.2. 异常事件一:流量突发分析 93.3. 异常事件二:服务器主动外联 103.4. 异常事件三:异常TCP连接行为 143.5. 异常事件四:路由环路 173.6. 异常事件五:数据泄露 194. 业务与分支机构流量梳理 214.1. 业务流量梳理 214.2. 分支机构流量梳理 235. “WEB服务器”流量与性能监控 255.1. 业务访问量分析 265.2. 最慢语句追踪 295.3. 网络质量监控 306. 告警设置 326.1. 服务器与网络时延预警 326.2. 流量突发预警 336.3. 主机扫描预警 346.4. TCP异常通信预警 356.5. CIFS蠕虫攻击告警 366.6. DDOS攻击预警 376.7. 邮件安全预警 386.8. 可疑域名检查 417. 科来软件公司简介 43测试概要需求分析随着网络与应用信息化的全面建设和快速发展,网络中承载了越来越多的关键业务及应用。深圳超算托管了大量重要的业务系统,所有关键业务都实现了网络化运营。确保应用访问质量以及网络安全稳定高效的运行已经成为支撑深圳超算运营的关键。保障网络与应用的安全稳定高效的运行,一直是维护部门的主要任务。但如今网络和应用日益复杂,出故障的可能性也越大,造成的损失也越大;而且现今网络攻击越来越普遍和隐蔽。如何能够迅速的定位网络中的故障,找出攻击者成为网络管理人员头疼的问题。实践证明网络分析能实时的监控和分析网络运行情况,及时发现网络的异常和安全异常行为,快速定位分析网络和应用问题,同时提供强大的安全分析功能,是保障网络安全高效持续运行的非常有效的手段。传统的便携式网络分析产品虽然能够对网络安全事件进行分析。但是,面对越来越复杂的网络安全问题,如何从海量的网络数据中快速发现异常,如何在网络故攻击发生后快速重现攻击现象,并找出攻击源,如何提供长期的数据存储并快速提取历史数据进行精细的数据挖掘分析,是当前网络管理面临的新的挑战,便携式实时网络分析产品面对新的网络管理需求时,存在以下不足:无法实现长期的原始数据保存;无法实现持续的流量监控;无法查看分析历史通讯数据;无法还原历史攻击现象;无法进行网络链路统一集中管理;故障回溯分析能力欠缺;针对新的网络管理挑战,科来软件提供了高性能的网络回溯分析系统,使用灵活、简单的系统架构,实现了长期、大容量的数据存储、历史数据回溯及持续的网络流量监控,为企业网络管理提供了全新的解决方案。测试目标测试产品 科来网络回溯分析系统RAS3004ST;测试目标深圳超算IDC机房承载着重要的业务系统及办公系统,能否有效的运行将影响到业务系统各个环节的协调,因此保障系统网络能够高效、安全的同时,还需要能够监控到网络中承载的业务的流量特征、运行状况,体现运维的核心价值:弥补现有管理手段的空白:网络与应用是互相依托的,都会对用户的业务体验造成影响,现有网络设备由网管工具进行监控,而应用系统则由系统本身的日志进行监控,这两个数据无法进行关联分析;而科来网络回溯分析系统可以从网络角度,通过网络时延、服务器应用语句处理时延、丢包、误码等量化指标来衡量用户的业务体验,弥补现有管理的空白;生产应用梳理:理清网络中各种业务系统流量,从而掌握网络资源占用情况,及时发现异常流量或新上线业务;生产应用监控:通过长期监控分析,建立关键生产应用的安全生产的运行基线,并建立合理的告警阀值,主动的发现生产业务的异常;生产业务性能分析:需要对用户指定的自定义应用进行实时监控和质量分析,能够实时显示及事后分析关键应用的重要通讯质量指标,如:网络响应时间、服务响应时间、通讯会话数量等等。实现主动化、数据化的精细业务质量监控与分析;运维价值展现:横向和纵向的多维度的展现网络运维的价值,流量最大的业务系统排序,每个业务主要有哪些用户在用;流量最大的用户排序,最繁忙的用户主要在跑什么业务系统;网络安全监控:通过7*24小时的监控,发现流量最大的内网/外网主机,分析网络中是否存在攻击、病毒、异常流量等安全隐患。智能预警:根据网络与业务系统的健康基准,设置各种针对业务系统的性能与安全预警,主动的发现问题。

设备部署部署方式采用端口镜像(Monitor)旁路方式接入(不会影响原有网络与应用结构)部署拓扑图测试设备 本次测试采用的设备为科来网络回溯分析服务器RAS3014ST,RAS3000系列产品针对大、中型企业网络,RAS3000提供了高达1000Mbps流量的线速捕获,采用RAID5/RAID6存储技术,存储容量最高可达16TB,冗余电源,可热插拔驱动器,提供双口RJ45及双口SFP数据采集网卡。硬件参数指标:捕获性能:2000Mbps流量实时捕获管理配置口:双口RJ45Ethernet数据采集口:双口千兆RJ45/双口千兆SFP数据存储性能:2000MbpsRAID模式:RAID5/RAID6硬盘:8×2TSATA2

网络流量可视化监控及异常事件回溯网络流量可视化监控流量负载监控:深圳超算外网流量主要集中在上班时间的平均流量持续在200Mbps左右,偶尔也有些突发,但是突发流量不是很明显,大概在300Mbps左右,可以通过流量回溯,追踪突发的源头,从而判断是否为异常,下图为10天的流量趋势图。十天流量趋势图一天流量趋势图网络流量实时可视化监控:通过对数据包进行7层的深度检查,我们可以掌握网络实时监控状态:流量负载及趋势变化:流量大小、数据包速率及TCP连接等健康指标;TOP网段监控:掌握是哪些部门、各网点在访问系统状况;TOP应用监控:掌握哪些业务系统使用频率高、是否存在非业务流量;TOP主机:掌握哪些用户流量最大,及时发现异常客户端;实时预警:及时掌握网络突发、攻击、网络及应用时延下降、应用访问失败等异常状况: 这些统计数据及通信数据包也会被记录在回溯分析系统中,这样对于过去发生的异常事件,我们也可以通过回溯挖掘分析。异常事件一:流量突发分析突发流量回溯:2015/12/711:21:00-11:42:00的时间段出现一次流量突发,回溯到该时间段我们发现,突发持续了21分钟左右,平均流量超过400Mbps,主要应用为“未知UDP应用”,总字节数为21.96GB,主要的IP地址为:4和52:对其流量深入挖掘,发现为IP:52向IP:4的443端口发送了10GB以上的流量。异常事件二:服务器主动外联TCP建立连接时,客户端会发一个“同步请求包”,服务器回应一个“同步确认包”,正常情况下,这两个参数应该是一致。但测试时间段一直发现一台服务器IP:65(土地房产交易服务器)向大量的客户端发起建立连接,而且还发送了大量的TCP重置包。如下图所示。继续深入挖掘其通讯行为,发现在20分钟发起的TCP连接数超过50万条,其中还有一个会话是建立成功的,并且和建立的会话的IP:4属于北美地区的IP。对其数据流重组可以很清晰的看出,IP:65(土地房产交易服务器)主动向境外IP:4发起建立连接,境外IP响应其建立连接请求,后续土地房产交易服务器发起的数据请求。数据流解码可以看出以下为土地房产交易服务器发起的数据请求内容。下面境外IP响应地房产交易服务器的内容解码。通过通讯流可以看出其通讯规律主要是IP:65(土地房产交易服务器)发起了异常的交易请求,然后境外IP会响应一大堆异常的通讯内容。通过其会话的持续时间发现,该会话从凌晨建立起连接,到第二天早上九点多都一直保持着,该行为也非常不正常。通过以上的数据行为分析,土地房产交易服务器应该成为肉鸡,主要受控于境外IP:4。由土地房产交易服务器先主动向境外服务器发起连接,境外再发起一些恶意程序给土地房产交易服务器,由其再向其他IP发起攻击行为。建议:尽快对土地房产交易服务器进行病毒查杀。异常事件三:异常TCP连接行为TCP建立连接时,客户端会发一个“同步请求包”,服务器回应一个“同步确认包”,正常情况下,这两个参数应该是一致。在测试期间发现IP:1通过随机端口一直向IP:01的9090端口一直发起连接请求,但IP:01并没有响应。单独把IP:IP:01的流量趋势及与其通讯的IP提取出来分析,发现其流量趋势很有规律一直保持不变,和它通讯的IP有46个,并且这些IP都是发起TCP连接包(同步包数基本一致,将近3000个),服务器都没有响应。对某个IP的数据流重组发现,发起连接请求的IP其请求的连接频率非常高,而且都是毫秒级的发起连接请求。其中所有和IP:02的行为也是一样。通过以上的行为分析发现,所有发起和IP:01和02进行连接的终端电脑,应该都是安装了某种应用的客户端程序,应该是IP:01和02之前提供的某种服务,现在已经停止。但是终端电脑的策略没有调整过来,导致出现了以上的现象。影响:以上行为的影响主要是:1、网络里面存在大量没用流量,占用网络带宽;2、大量的连接请求数据包也会影响网络设备和安全设备的性能,从而影响整体网络的性能。建议:确认IP:01和02如果已经不再提供某种应用服务器,可以调整终端电脑的客户端程序策略,或卸载客户端程序。异常事件四:路由环路在测试期间发现IP:3的ICMP协议流量很大,通过其流量趋势可以看出,每秒的流量非常不大,但是流量非常平稳。发现主要就是IP:和IP:和其通讯的ICMP流量。数据包下载分析,通过我们的专家诊断触发了IPTTL太小诊断。深入分析发现IP:3向IP:发起ICMP请求数据包,但该数据包在通讯过程中其TTL值一直减到1,而且是从251一直减到1。数据包TTL值减到1后该数据包就丢弃,以上行为主要是由于路由环路导致的,由于路由环路一个数据就会在以上两IP的网络间不断来回的传输251次,又刚好IP:3和IP:间存在的心跳包,就会不定时发起ICMP包确认对方的存在,这样一来就会导致ICMP包在网络里面大量存在。建议:尽快调整路由策略,排除网络环路。异常事件五:数据泄露测试期间发现境外很多IP都能连接IP:7(深圳人民医院)的3389端口,而且都能建立成功并传输数据。如下为越南IP:24通过随机端口一直能与IP:7(深圳人民医院)的3389端口建立连接。下面是更多的境外IP与其建立连接。数据包解码深入分析。发现境外IP建立连接后,通过默认的管理员账号administrator都能登陆人民医院服务器。后续还看到人民医院服务器向境外IP发送大量的数据。建议:加强对该服务器3389端口的管理,可以关闭该端口,或者对访问其端口的权限做控制,以防止数据泄露。业务与分支机构流量梳理业务流量梳理挖掘任意历史流量最大的主机,如过去24小时最大的主机流量:下一步,可以通过“源目标IP+服务端口号”、URL及URL子目录等方式识别网络中的各种业务流量,如访问服务器“65”归属为“土地房产交易”服务器: 进行梳理后,便能获取网络中的各种业务流量占比,如一天中,流量最大的业务系统分别为:对于未梳理的流量,可以快速的定位到流量的源目标通信源头,从而快速的判断其是否为异常流量,例如:ICMP应用流量较大。分支机构流量梳理可通过IP地址,IP地址段等方式对各分支机构进行定义,例如:名称“测试网段”,IP地址子网为:/24。通过分支机构定义后即可清晰看到每条链路每天的分支机构流量排名,或结合上面的定义的业务应用,也可以清晰看到每个业务系统每天主要都是哪些分支机构在访问。如果全部把网段都定义上,可以更加直观的看到每个网段的流量排名。通过对分支机构的流量梳理,可以为分支机构的流量扩容或业务策略调整提供很好参考依据。例如:“测试网段”的总字节数,总利用率,还有进网利用率,出网利用率等。还可以深入挖掘网段里面具体的IP流量成分。如下图:“WEB服务器”流量与性能监控业务性能监控原理:将TCP会话数据流重组,便可通过时延、丢包、重传等参数判断服务器与网络的性能。例如:通过三次握手,可以判断客户端网络时延与服务器端网络时延;对与客户端的每一次请求,我们都可以计算服务器花了多长时间查询、多长时间响应:

业务访问量分析流量负载:“WEB服务器”流量负载峰值出现不高,大概在5Mbps左右。下面为所有客户端访问“WEB服务器”的连接效率。接下来对访问不成功的会话进行升入分析。对其会话流进行深入分析,可以看到客户端发起SYN包,服务器也回应了SYNACK,而且还重复回复多个包,客户单都没有响应,应该是该数据包已经在丢掉了。导致客户端重新再发起连接。该现象主要是由于互联网链路不稳定导致。最慢语句追踪响应时间监控:WEB服务器部分请求最大响应时间为1185.21毫秒,这明显会影响到用户的体验:对其数据流重组发现,网络延时很小,只有29毫秒的网络延时,但是对于一个交易请求时延达到1185.21毫秒,请求的语句GET/thread-609960-1-21.htmlHTTP/1.1。网络质量监控“三次握手时间”:相当于服务器和客户端ping时间,可用于衡量服务器到客户端的网络时延;“三次握手客户端RTT”:可用于衡量监控点到客户端的网络时延;“三次握手服务器RTT”:可用于衡量监控点到服务器的网络时延; 访问“WEB服务器”的客户端中,网络时延超过1000毫秒客户端数量很多,为了更精确确认延时大的范围,我们还有基于多种条件筛选,例如:可以按地理位置筛选,看延时大是否都属于某个区域,这说明为了影响业务体验的第一个瓶颈主要在于某个区域的客户端接入的网络质量:服务器端的延时都非常小,只在2毫秒之内,说明服务器端的网络质量挺好。对某个会话客户端延时大的数据流进行重组,可以发现出现延时大,主要是由于客户端的网络链路不稳定导致的。客户端发起的连接请求,服务器已经很快响应,并在一定时间内发起多个数据包确认,但客户单没有回应。接下来客户端再发起连接请求。通过以上的分析甘肃区域(移动用户)网络延时较大,这样会直接影响客户端访问业务系统的体验效果。告警设置服务器与网络时延预警 我们可以根据三次握手响应时延、丢包问题去发现网络问题 如“客户端网络时延异常”预警:“三次握手平均时延超过100毫秒”同时“三次握手平均客户端时延超过100毫秒”; 出发该预警的客户端,肯定是网络质量除了问题 服务器“响应质量下降”预警:通过这段时间的监控我们了解到“WEB服务器”平均响应时延不超过200ms,那么如果“TCP交易数量”超过10000pps、“平均响应时延”超过1000毫秒,则说明由于业务量上升,服务器的质量严重下降: 随着我们对业务系统的深入了解,我们可以设置更多这样有针对性的预警,及时发现业务体验的变化,快速的定制应对的策略。流量突发预警 测试的过程中,我们梳理出生产业务流量,如果某天出现“未知TCP流量”突发,很可能就是网络异常:

主机扫描预警设置目的:发现针对网段特定服务端口的主机扫描行为,这种行为会短时间内向某网段所有IP的特定TCP端口发起连接请求,一般每秒会超过100个SYN包,但不会持续很长时间。设置方法:这是一个高级警报设置,类型为“任意应用警报”,触发条件为“每秒数据包数>=100”AND“平均包长<72”,触发时间为1秒

TCP异常通信预警设置目的:及时发现发起/受到端口扫描或SYN攻击的异常IP地址。设置方法:高级警报设置,类型为“任意IP警报”,触发条件为(“每秒发送TCP同步包>=50”AND“接收TCP同步确认包<15”)OR(“每秒接收TCP同步包>=50”AND“发送TCP同步确认包<15”),触发时间为1秒。补充说明:这个警报和“主机扫描”警报配合可以快速定位发起主机扫描的IP地址,同一时间发生主机扫描和TCP通信异常警报,基本可以判断是TCP通信异常的IP地址发起的主机扫描;一些P2P应用有时会触发这个警报。

CIFS蠕虫攻击告警设置目的:网络中存在利用CIFS漏洞传播的蠕虫时,利用此警报及时发现。设置方法:简单警报设置,类型为“单个应用警报”,应用选则“CIFS”,触发条件为“平均包长<128”,触发时间为5秒。补充说明:这个警报只适用于监控互联网出口链路的情况,因为互联网出口链路上一般情况下CIFS应用很少;如果是CIFS应用流量较大的链路,大量文件共享的大包会拉高CIFS应用的平均包长,导致警报失效。

DDOS攻击预警SYNFlood攻击预警设置目的:当某IP发起SYNFlood攻击时报警。设置方法:高级警报设置,类型为“任意IP警报”,触发条件为“每秒发送TCP同步包>=300”AND“接收TCP同步确认包<15”,触发时间为1秒。补充说明:这个警报与“TCP通信异常”警报相比,可以更精确的报警SYNFlood攻击行为。DoS攻击预警

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论