互联网流量流向研讨.doc_第1页
互联网流量流向研讨.doc_第2页
互联网流量流向研讨.doc_第3页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、互联网流量流向研讨随着宽带互联网应用的普及,互联网用户数量在不断增加,各个领域的应用也在逐步深入,网络规模持续扩展,网络流量高速增长。尤其是p2p技术产生以来,互联网网络流量激增,对网络的处理能力提出了更高的要求。同时,要合理、有效地疏导流量,必须对网络流量进行科学、细致的分析,通过流量分析可以有效地总结出网内、网外流量比例,各区域用户产生的流量大小,进而对用户使用习惯、各类应用带宽消耗情况等进行分析,从而可以对不同区域用户使用习惯、网内资源建设方向等进行有效的指导。不仅要依据数据的目的地址去疏导流量,还要明晰流量的来源和成分,区分流量类型,以精确地计算成本,合理分配ip地址数量和流量占用带宽

2、,使流量管理更加规范。flow技术最早由cisco公司研发,首先被用于网络设备对数据交换进行加速,并可同步实现对高速转发的ip数据流进行测量和统计。经过多年的技术演进,flow对流经网络设备的ip数据流进行测量和统计的功能更加成熟,并成为当今互联网领域公认的最主要的ip/mpls流量分析、统计和计费行业标准。flow技术能对ip/mpls网络的通信流量进行详细的行为模式分析和计量,并提供网络运行的详细统计数据。通过对某电信运营商的网络进行改造,引入互联网流量分析系统,以互联网流量数据为分析对象,实现以下功能:(1)精确判断流量归属地;(2)精确统计流量类型;(3)精确区分流量成分;(4)以天为

3、单位,对某一天的流量及以天为周期单位的时间段产生的流量进行查询。1流量分析系统设计由于flow仅能宏观地对网络流量进行分析和监控,无法满足精细化管理的要求。鉴于此,需要建立网络流量分析系统。首先在省级主干路中引入流控设备,对全省网络流量进行控制。通过建立一台linux服务器(cmserver),在流控设备中将流量镜像至此服务器的数据库中,便可采集到全网的流量明细,进而通过存储过程将各种需要分析的数据进行聚合成表,便可对全网流量进行实时监控分析。本系统包括4个功能模块,分别是数据采集模块、接口程序模块、数据库模块、页面呈现模块。1.1数据采集模块要实现对流量源和目的地的分析,首先要进行流量采集并

4、存储,采集的数据中要包含数据包的源地址、目的地址、数据包发送时间等信息。本系统采用flowV9版本进行数据采集,需要对flow协议、待采集的路由器端口和数据采集存储服务器等进行配置。由于需要分析的路由器端口数据量很大,而且分析目的主要为各方向流量数据比例,综合考虑数据处理量和数据准确性之后,将采集周期定为5分钟,采样比例定为1000:1,此时每5分钟flow数据流约有30万40万条,存储flow数据流的文件大小约2030mB。在采集数据的端口选择方面,既要采集所有流量数据,保证数据的完整性;又要避免数据重复采集,以保证数据的准确性。按照上述条件,选择省级主干中路由器上行端口为流量采集端口,通过

5、该端口既可以采集所有互联网用户访问inter的流量数据,又不会发生流量数据重复采集情况。为分析路由器端口的网络流量数据,必须将从路由器中送出的flow数据收集并存储,以便进一步的处理,所以需要配置flow采集存储服务器。具体配置为2.4gHz四核cpu、2g内存,使用linux系统,并安装ciscoflowcollector(nFc)采集软件。1.2接口程序模块经过采集,每5分钟会输出一个格式为xml的文件,文件数据分3部分:数据头、模板部分、数据部分。flowV9的数据格式可以自定义,根据分析需要,定义数据模板主要包括我们关心的13个字段,分别为:源地址、目的地址、源端口号、目的端口号、入接

6、口、出接口、协议、服务类型、流数量、报文数、字节数、开始时间、结束时间。每个字段使用“|”分开。选用c+程序语言进行数据的分析及入库。程序语言完成的主要功能为按照字段定义进行数据分列,并按要求建立数据表,然后将分析后的数据导入数据库中。原始数据每天自动生成一个文件夹,文件夹中每5分钟生成一个数据文件,为了达到自动读取数据的功能,采用“日期+时间”循环来自动读取数据文件。读取数据文件对每行按照不同字段分列。由于每个数据文件的数据头部分完全相同,而且不包含所要分析的数据信息,所以可以把数据头部分跳过,然后根据每行数据的“|”将每个字段的数据进行分列。再根据各字段数据分析的需要,转换成相应的数据类型

7、,并与数据库连接写入数据库中。1.3数据库模块作为基于flow流量的分析系统,数据库成为系统的基础及核心,一切功能模块及数据采集均需建立在数据库中,从性能、成本、易用性、可靠性等方面综合考虑,选用mysQl作为本系统的数据库。首先是基本表的设计。在程序操作数据表时,读写的性能受数据表字段所占字节数的影响,数据表字段所占字节数越大,则需要更长的读写操作时间,字段所占字节数越小,则其读写操作的性能将会有所提高。因此,设计数据库字段的属性对整个系统的性能至关重要。在分析程序对数据按照规则条件进行匹配后,将更新数据表中ip地址等相应的归属信息,但在数据的进一步汇总中,如果汇总程序按照ip地址归属信息进

8、行数据分组汇总,则需要读取归属信息的全部字节数,这对于系统整体汇总而言,其运行效率仍会受到影响。本着读取最少字节数以提升系统工作效率的原则,需要将归属信息代码化,汇总程序仅需要根据归属信息代码作为分组条件即可。根据flow的原始数据量,如果对其进行一一匹配对应,则无法在5分钟内完成相应的数据归属、流量分析等操作。为了提高数据库效率,最直接的方法就是先进行关键字段的聚合,然后进行相应的递归聚合,最后将分析数据进行匹配分析,这样可以有效地减少原始数据的运算量,尤其在磁盘i/o有限的条件下,性能提升更明显。在数据递归聚合后,虽然数据量已经有了极大的压缩,但数据库运算仍然十分缓慢,因此在各级数据表中,

9、对需进行运算的字段进行索引配置。索引是用来快速地寻找那些具有特定值的记录,所有mysQl索引都以B-树的形式保存。如果没有索引,执行查询时mysQl必须从第一个记录开始扫描整个表的所有记录,直至找到符合要求的记录。表里面的记录数量越多,这个操作的代价就越高。如果作为搜索条件的列上已经创建了索引,mysQl无需扫描任何记录即可迅速得到目标记录所在的位置。由索引带来的效率提升则是非常明显的,如同看书时按照目录查询章节一样迅速。在本系统中,由于要从目的ip地址中分析出该ip的分公司归属,这对于运营商庞大的不连续的ip地址段数据表来说,其哈希运算将会带来极大的系统符合,其运算效率也将随着两张数据表记录

10、的增长而成倍的增长。通过对比测试,在没有配置索引的情况下,其数据运算的时间大约为20分钟,而索引可以将此工作缩短至1分半钟左右,这恰好可以完成数据在5分钟内的运算操作。1.4页面呈现模块在对数据进行分析处理后,利用eclipse+Jsp+tomcat平台,将结果以网页形式展现出来,并实现多种查询功能(如图1所示)。2结束语在研究互联网技术和相关协议的基础上,通过对互联网流量数据的分析处理,运用c+,mysQl,eclipse,Jsp和tomcat+Java等工具,实现了互联网流量分析系统的设计,解决了互联网流量分析管理过于宏观的问题。在互联网规模不断扩展和应用领域不断增加的趋势下,互联网流量的迅猛增长

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论