




已阅读5页,还剩60页未读, 继续免费阅读
(计算机系统结构专业论文)ip_tascm平台的数据管理系统的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
y 1 7 6 1 7 1 6 t hede sig na ndimp l emen t a t ion0fd a m m a n a gemen ts y s t em0fipt a s c m p l a t f o r m at h e s i ss u b m i t t e dt o s o u t h e a s tu n i v e r s i t y f o rt h ea c a d e m i cd e g r e eo fm a s t e ro fe n g i n e e r i n g b y x l aq i n g d in gw e i p r o f e s s o r s o u t h e a s tu n i v e r s i t y m a y2 0 1 0 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所 知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本 研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名骂,盔 吼乙矿p 易i 乙 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电 子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相 一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括以电子信息形式刊登) 论文的全部内容或中、英文摘要等部分内容。 学研究生院办理。 论文的公布( 包括以电子信息形式刊登) 授权东南大 研究生签名:二霾j l 导师签名日期幽砂 摘要 摘要 i p t a s c m 平台的数据管理系统的设计与实现 研究生:夏青,导师:丁伟,东南大学 i pt a s c m ( i pt r a c ea n a l y s i ss y s t e mb a s e do nc o d em o v i n g ) 数据平台是 c e r n e t 华东( 北) 地区网络中心,为了支持网络测量数据的整理和分析所开发的 一个i pt r a c e 采集、分析和结果共享的软件平台系统。该系统需要存储大量的i p t r a c e 以满足研究需要。本论文的研究和开发工作围绕该数据平台的数据管理系 统进行,该系统能够以合理的方式和有效的手段对i pt a s c m 平台中i pt r a c e 进 行高效的管理,使磁盘空间和i pt r a c e 信息资源都可以得到最合理的利用。 论文首先讨论分析了数据管理系统的需求,并根据需求确定了论文研究目标和 研究内容。 随后,论文对数据管理系统有关的关键问题进行了讨论和解决,包括数据压缩 算法的选择与改进,数据预测和数据管理算法的设计,数据还原的模型与算法等。 其中压缩算法包括文本压缩、抽样和聚类3 类方法,并给出了单独压缩和组合 压缩方案。数据预测方法根据对数据量变化规律的分析从传统的预测方法中进行选 择并改进。数据管理算法采用背包算法的改进方法,使得磁盘空间和数据资源都可 以得到最合理的利用。而还原模型根据网络协议的特点以及应用对还原流量的要求, 分别设计了不同的模型,包括3 个t c p 还原模型和2 个u d p 还原模型。 依据以上这些问题的研究并结合系统需求,从6 个方面给出了系统的功能和相 应的结构设计,并给出了各个模块具体的结构和算法流程,最终实现了数据管理系 统。 最后,论文设计了2 个方案对数据管理系统进行了测试。方案l 模拟了系统即 将满的情况,测试了系统给出的管理策略。方案2 对一段i pt r a c e 进行压缩和还 原并对比了结果与原数据,证实了还原的可靠性。 【关键词】i pt r a c e 的压缩,数据管理,i p t r a c e 生成,流规范 东南大学硕士学位论文 a b s t r a c t t h ed e s i g na n di m p l e m e n t a t i o no fd a t am a n a g e m e n ts y s t e mo fi p _ t a s c mp l a t f o r m b yx i aq i n g ,s u p e r v i s e db yd i n gw e i ,s o u t h e a s tu n i v e r s i t y i pt r a c ea n a l y s i ss y s t e mb a s e do nc o d em o v i n g ( i p _ t a s c m ) i sas y s t e m ,w h i c h c o l l e c ta n da n a l y z ei pt r a c ea sw e l la ss h a r em e a s u r e m e n tr e s u l t s i tw a sd e v e l o p e db y c e r n e tj i a n g s un e t w o r kc e n t e ra n dn e e dh a n d l et h eh u g ea m o u n to fi pt r a c e c o l l e c t e db yt h ec e n t e r t h ek e yo f t h i sp a p e ri sad a t am a n a g e m e n ts y s t e mo f l p t a s c m p l a t f o r m ,w h i c ha i m st om a n a g ei pt r a c e d a t ao ft h ep l a t f o r mb yu s i n ge f f e c t i v ea n d r e a s o n a b l em e a s u r e s t h i sc a nm a k eg o o du s eo fi n f o r m a t i o ns o u r c e sa n dh a r dd i s k f i r s t l y , i ta n a l y z e dt h er e q u i r e m e n t so fd a t am a n a g e m e n ts y s t e ma n dp r o p o s e dt h e p u r p o s ea n dc o n t e n to fs t u d y t h e n ,t h ep a p e rs o l v e dt h ek e yp r o b l e m so fd a t am a n a g e m e n ts y s t e m ,i n c l u d i n g c h o i c ea n di m p r o v e m e n to fd a t ac o m p r e s s i o na l g o r i t h m ,d e s i g no fd a t am a n a g e m e n t a l g o r i t h m ,d a t ar e c o n s t r u c t i o nm o d e l sa n da l g o r i t h m t h e r ei s3k i n do fd a t ac o m p r e s s i o na l g o r i t h m si n c l u d et e x tc o m p r e s s i o n ,s a m p l i n g a l g o r i t h m ,c l u s t e r i n ga l g o r i t h m i ta l s od e s c r i b e ds i n g l ea n dc o m b i n e dc o m p r e s s i o n a l g o r i t h m so ft h e s ek i n d s d a t ap r e d i c t i o nm e t h o dw a ss e l e c t e da n di m p r o v e df r o m t r a d i t i o n a lp r e d i c t i o nm e t h o d sb a s e do na n a l y s i so fd a t av a r i a t i o n t h ed a t am a n a g e m e n t a l g o r i t h mu s e da ni m p r o v e dk n a p s a c ka l g o r i t h m ,w h i c hc a np r o v i d es t o r a g es p a c ef o r n e wi n f o r m a t i o na n dl o s ea sl e s sd a t av a l u e sa sp o s s i b l e d i f f e r e n tr e d u c t i o nm o d e l sw e r e d e s i g n e db a s eo nt h ec h a r a c t e r i s t i c so fn e t w o r kp r o t o c o l sa n da p p l i c a t i o nr e q u i r e m e n t s , i n c l u d e d3t c pr e d u c t i o nm o d e l sa n d2u d pr e d u c t i o nm o d e l s b a s e do nt h er e s e a r c h e sa b o v ea n dt h er e q u i r e m e n t so ft h es y s t e m ,i td e s c r i b e dt h e s y s t e mf u n c t i o n sf r o mf i v ea s p e c t s ,a n da l s od e s i g n e dt h ec o r r e s p o n d i n go n e so ft h e s y s t e m t h e ni ti n t r o d u c e dt h es t r u c t u r ed e t a i la n da l g o r i t h mf l o wo ft h ew h o l es y s t e m a n de v e r ym o d u l e ,a n di m p l e m e n t e dd a t em a n a g e m e n ts y s t e m f i n a l l y , t h ep a p e rt e s t e dt h ef u n c t i o n so fd a t am a n a g e m e n ts y s t e mb yt w ot e s tp l a n s t h ef i r s to n es i m u l a t e das i t u a t i o nt h a tt h es y s t e mw a sf i l l e dw i t hd a t aa n dt e s t e dt h e s y s t e mm a n a g e m e n tm e a s u r e s a n o t h e ro n ec o m p a r e dw i t ht h er e c o n s t r u c t e dr e s u l ta n d t h eo r i g i n a ld a t a , a n dv e r i f i e dt h er e l i a b i l i t yo fr e c o n s t r u c t i o n k e yw o r d si i pt r a c ec o m p r e s s i o n ,d a t am a n a g e m e n t , d a t ar e c o n s t r u c t i o n ,f l o w s p e c i f i c a t i o n 目录 摘要 目录 i i h目录 第一章绪论 l 1 1 论文研究背景。l 1 1 1 网络测量技术1 1 1 2 被动测量领域问题2 1 1 3 国内外研究现状2 1 1 4i pt a s c m 平台及其对i pt r a c e 的管理需求3 1 - 2 论文研究目标和主要内容3 1 2 1 论文研究目标3 1 2 2 论文研究内容4 1 3 课题来源5 1 4 论文组织结构。5 第二二章面向i pt r a c e 的管理方法6 2 1 系统中各数据相应的压缩算法6 2 2 本文压缩6 2 3 抽样7 2 4 基于网络数据流规范的聚类。7 2 4 1 流规范7 2 4 2 流记录字段9 2 4 3 组流算法1 1 2 5n e t f l o w 到高层统计信息的聚类1 2 2 5 1 基于流层次的统计测度1 2 2 。5 2r r e 记录格式一1 2 2 5 3r r e 记录字段1 3 2 5 4r r e 的生成算法1 7 2 5 5r r e 与n e t f l o w 的比较1 8 2 5 6s e s s i o n 的记录格式1 9 2 5 7s e s s i o n 的生成算法及数据分析。1 9 2 6 本章小结2 0 第三章 空间存储管理技术及方案2 1 3 1 空间预测问题2 l 3 1 1 常用的预测技术。2 l 3 1 2 预测模型的建立2 2 3 2 权值设置2 3 3 3 数据管理算法2 7 3 3 1 背包问题背景2 7 3 3 2 背包问题算法2 8 3 3 3 数据管理问题向背包问题的转化2 8 3 4 本章小结2 9 第四章数据:还原算法研究。3 0 川 东南大学硕士学位论文 4 1 网络数据流到i pt r a c e 的还原算法3 0 4 1 1 t c p 还原模型3 0 4 1 2u d p 还原模型3 4 4 1 3 抽样报文与流模型的结合3 4 4 2 高层统计信息到网络数据流的还原算法3 4 4 3 本章总结3 5 第五章系统的实现与测试 5 1 系统设计3 6 5 1 1 系统结构设计3 6 5 1 2 预测模块和系统管理模块3 6 5 1 4 管理员接口3 8 5 1 5 压缩模块。3 8 5 1 6 还原模块4 0 5 1 7 任务管理模块。4 2 5 2 外部数据结构4 4 5 2 1 文件存储结构4 4 5 2 2 文件命名规范4 5 5 2 3 数据库表4 6 5 4 系统钡9 式一4 6 5 4 1 系统测试方案4 6 5 4 2 测试方案l 4 7 5 4 4 测试方案2 4 8 5 5 本章小结。5 2 第六章总结与展望 6 1 论文工作总结5 3 6 2 未来工作展望5 3 重参考文南j c 5 5 附录! ;8 l 、, 绪论 第一章绪论 从上世纪末以来,互联网快速走进人类的生活。短短几十年中,特别是近十几 年,由于各种不同应用的驱动,网络已经深入到世界的各个角落,成为目前信息交 流的最主要平台之一。1 9 8 1 年8 月全世界的联网主机仅有2 1 3 台,而截至到2 0 0 9 年1 2 月,根据c n n i c 的统计仅我国网民规模达3 8 4 亿,互联网普及率为2 8 9 【1 】。 由于这样的发展速度和规模已远远超过设计者的预期,因此互联网也在运行和控制 方面面临着巨大的挑战。解决这个问题需要从在充分了解网络运行的真实情况方面 入手,而网络测量是解决这个问题的一个有效手段,通过测量可以感知网络,在此 基础上可以对大规模网络结构进行动态描述,并根据网络流量的变化分析网络的性 能。为加强网络管理、提高网络利用率、防范大规模网络攻击提供技术平台等等需 求的实现都离不开实际的网络测量。 1 1 论文研究背景 1 1 1 网络测量技术 1 9 7 4 年l e o n a r dk l e i n r o c k 等人在a r p r 网上对流量分布进行了测量【2 1 ,测量的 规模较小。9 0 年代中期以后为网络测量发展的第二个阶段,主要侧重于建立进行全 方位网络性能测量与分析的测量系统或测量基础设施。1 9 9 5 年,美国自然科学基金 委员会开始着手系统地对互联网进行测量。1 9 9 6 年初,美国应用网络研究国家实验 室( n l a n r ) 在n s f 的支持下召开了互联网统计与指标分析( i s m a ) 研讨会【3 1 ,对进行 网络测量的难点与迫切需要解决的问题进行了探讨,标志着网络性能测量的重要性 已被政府部门、大学和研究机构、工业界所共识,也是进行大规模、系统化网络性 能测量的开始。1 9 9 7 年,成立了依托于美国加州大学圣地亚哥分校超级计算中心 ( s d s c ) 的互联网数据分析合作组织( c a i d a ) ,对网络测量的相关理论和方法展开系 统研究。i e t f 也成立了i p 性能指标工作组( i p p m w g ) 对i p 网络性能测量框架、指 标定义与指标测量方法进行研究。 根据测量方式,网络测量可分为主动测量和被动测量。 主动测量方式通过向网络中发送数据,观察结果和发送数据所需要的时间来研 究网络的行为【4 】。主动测量不会捕获网络中现有的流量,因而不会对用户信息的隐 私和安全造成威胁。但是主动测量需向网络发送数据包,数据包本身会对网络性造 成影响和干扰。例如在网络发生拥塞情况下,探测数据包可能会使网络性能进一步 恶化,造成测量结果的失真,影响性能指标的可用性与可靠性【5 】。主要的测量工具 有:p i n g 和t r a c e r o u t e 命令,免费工具n e t p e r f 以及t r e n o 、p a t h c h a r 等【4 。 被动测量方式是指按照一定的策略,在测量点捕获网络流量中的数据包报头信 东南大学硕士学位论文 息,实现对网络指标的分析【5 1 。与主动测量不同的是,它不向网络发送数据包,因 而不会对网络造成任何干扰,其主要技术有数据包抓取技术和流技术。 1 1 2 被动测量领域问题 被动测量由于对网络不会造成任何干扰,被广泛地应用到实际的网络测量中。 然而被动测量领域却面临着许多问题包括: 1 数据量庞大【6 】:在全流量被动测量中,数据量己达到t b 级,数据的存储和管 理已经有较大难度,对其处理则更加困难。所以,大部分公布的主干t r a c e 都只 有几分钟,基本不超过1 5 分钟,这样的数据量对于宏观模型的研究和验证是远远不 够的。而这些数据是相关领域研究的人员进行统计分析和验证假设模型的唯一的真 实数据来源。 2 软硬件要求高【5 】:海量数据的处理过程,需占大量的存储空间和系统资源。需 要高性能的硬件设备,如小型机或者运算能力相当的高性能计算设备( 高性能计算 机群系统) 。这些硬件设施需要较高投入,一般科研机构不具备相应条件。 3 对分析算法质量要求高【6 】:要求建立良好的数据处理模型,降低算法时间复杂 度,编写正确的程序代码,在细节上减少系统开销对程序效率的影响。目前在海量 数据处理中,应用较多的技术有数据库,数据仓库,数据挖掘、数据抽样、并行处 理技术等。这些技术在网络测量数据的处理中,也得到了不同程度的应用。 4 代码重复利用率低【5 】:数据的存储和管理占用了网络很大的带宽,而真正的运 算却少之又少,绝大多数的研究人员都是通过下载网上公开发布的i pt r a c e 来进 行自己的工作,流量和时间都浪费在数据的下载和管理上。 1 1 3 国内外研究现状 为了解决这些问题国际上一些测量机构针对测量数据的管理问题进行了相关研 究,主要侧重于测量数据的跟踪、反馈和提高可用性。相关工作主要有: 1 可扩展网络测量知识库( s i m r ) :文献【_ 7 】中,描述了一种用于管理网络测量 数据和相关元数据的可扩展互联网测量知识库。该系统协助研究人员收集大量种类 繁多的测量数据,促进研究团体内部的数据共享,是一种提供集中式共享存储空间 的管理信息系统。 2 i s t - m o m e 8 j 数据库:通过统一接口提供符合公共标准格式的数据,包括报 文、流、路由信息、q o s 数据等。对于某些数据还附有分析结果,包括平均流量、 报文大小、到达速率等【9 】。此外,它也提供一些网络监控和测量工具。 3 c a i d a 网络测量数据目录l l o ( i m d c ) :i m d c ( i n t e m e tm e a s u r e m e n td a t a c a t a l o g ) 在设计过程中借鉴了s i m r 和i s t - m o m e 数据库。与s i m r 和i s t - m o m e 数据 绪论 库相比,i m d c 不提供测量数据的集中共享,也不将测量数据转化为特定的标准格 式,而是试图对分布在整个互联网范围内的测量数据进行有效跟踪,并着重于对测 量数据的描述。 上述3 种系统不管是提供集中式数据共享还是分布式数据编录,它们在本质上都 是关于测量数据的管理信息系统,没有提供数据管理和共享之外的其它功能,尤其 是对数据和分析算法的可重用性考虑的很少。 1 1 4i pt a s c m 平台及其对i pt r a c e 的管理需求 c e r n e t 华东北地区网络中心基于长期在该领域工作的基础及经验,在国家9 7 3 和国家支撑计划课题的支持下设计并实现了一个面向代码移动i pt r a c e 管理和分 析平台i pt a s c m 引。 i pt a s c m ( i pt r a c e a n a l y s i ss y s t e mb a s e do nc o d em o v i n g ) 是一个实用的数 据分析系统,它可以完成对包括原始i pt r a c e 数据的采集、管理、分析算法的复 用、结果共享等功能的支持,为网络行为学研究提供数据分析工具和共享计算平台。 用户可以将自己完成调试的算法上传,共享计算平台,也可以指定数据和分析算法 在系统的监测下完成分析工作。 高速网络报文采集系统w a t c h e r 是i p - t a s c m 平台的采集子系统,能在一段 连续时间内,以低丢包率完成对指定长度的双向全部i p 报文头部进行完全捕捉并以 固定长度和命名方式的文件形式进行存储,供分析程序使用【1 1 1 。照目前的网络数据 采集情况,采集器每2 3 天收集2 个小时的i pt r a c e 文件大小约为1 2 0 g 1 3 0 g , 然而i p t a s c m 用于存储t r a c e 的硬盘空间是有限的,按照这样的速度硬盘很快 就会被填满。对任何海量的存储设备而言,其硬盘空间都是有限的,因此仅采用扩 充存储空间的方式不能从根本上解决问题。本文的研究工作以此为核心展开。 1 2 论文研究目标和主要内容 1 2 1 论文研究目标 本论文的主要目标是设计并实现一个系统( 以下简称数据管理系统) ,它可以合 理的方式和有效的手段对i pt a s c m 平台中i p t r a c e 进行高效的管理,使磁盘空 间和i pt r a c e 信息资源都可以得到最合理的利用。 围绕这个目标,i pt a s c m 系统对i pt r a c e 管理的总体需求可更具体地描述 如下: 1 存储需求:能够接收并保存从采集器和收集器传来的i p 认c e ; 2 压缩需求:寻找一些压缩手段来将i pt r a c e 数据压缩为较小格式的文件, 并尽可能保存更多有价值的信息: 3 东南大学硕士学位论文 3 管理需求:以最合理的方式对这些海量的i pt r a c e 以及压缩后的较小格式 的文件进行管理,这包括: i 对每天采集器的采集量进行合理的预测; i i 在硬盘空间不够时,对现有i pt r a c e 进行压缩或者删除处理,以空出 足够的空间,并尽可能保存更多有用的数据。 4 还原需求:将压缩后较小格式的文件还原成i pt r a c e ,使其尽可能在某些 统计特征方面满足用户的还原要求。 1 2 2 论文研究内容 1 i p t r a c e 压缩: 围绕在将原始i pt r a c e 删除前,从语义角度尽可能高效地保留相关信息这个 目标,研究工作具体从以下几个方面展开: 单独的压缩策略: a )组流:组流是最有效的节省空间方式。相关的研究内容包括选取合 适的流规范、研究有针对性的高效组流方法等。 b )统计上层信息:根据流特征提取流以上层次的统计信息来进一步压 缩。 c )其它有可能的策略:包括抽样、文本压缩等可以节省空间的方式。 组合方案: a ) 各方案效率研究:寻找合适的测度和具体的计算方式,来确定各方案 在信息含量和空间压缩率方面的表现。 b ) 根据效率研究的结果,研究相关测度值的组合计算方法,以确定有 效的组合方案。 2 存储空间管理策略: 数据管理策略:在硬盘空间紧张时,需要根据硬盘中各数据的量和属性以及处理 后所生成数据还原难易程度等多方面因素,选择处理( 压缩或删除) 一个或多个文 件。因此需要设计一个算法或者启发式调度策略来进行合理的选择。 数据目录索引:设计各数据存放目录以方便数据管理和高效的检索。 i pt r a c e 的预测:设计一个预测模型,根据历史信息,预测下一次采集的m t r a c e 需要的存储空间。 数据保护机制:为保护重要数据和保证研究需要的数据量,制定一些限制策略 禁止某些情况下对部分数据作更改。 3 i p t r a c e 还原 单独的统计信息或流文件可以直接还原为i p t r a c e 。而其他数据如抽样数据 4 绪论 需要和统计信息、流文件等信息结合起来还原。 1 ) 基于流文件的还原:研究流与网络传输中会话的关系,将流转化为会话。根据 协议的报文传输特点,设计会话生成i pt r a c e 的模型来还原i pt r a c e 。 2 ) 基于统计信息的还原:寻找合适的统计测度( 例如:t c p 报文比例) ,在抽样 或删除操作进行前进行相应的计算并保留,这些统计测度可以结合还原模型使 用,以保证被还原的i pt r a c e 与原始i pt r a c e 在相应统计测度上保持一致。 3 ) 基于抽样数据的还原:设计合适的算法将抽样的i pt r a c e 做为辅助信息加入 到流文件和统计信息还原的过程中,使得还原后的i pt r a c e 在这些信息上与 还原前保持一致。 4 ) 组合信息还原:设计组合算法使以上三种数据或其中的两种可以组合起来做还 原,以增强还原后数据的准确性。 1 3 课题来源 论文研究依托于中国教育和科研计算机网( c e r n e t ) 华东( 北) 地区网络中心承 担的国家重点基础研究发展规划( 9 7 3 ) 课题“网络动态行为和传输控制理论”( 课题 编号:2 0 0 3 c b 3 1 4 8 0 4 ) 。本论文研究工作中设计和实现的数据管理系统,将为该课 题后继研究工作的基础性保障平台i pt a s c m 的数据进行高效的管理和硬盘空间的 合理利用。 1 4 论文组织结构 第一章是相关的背景介绍,以此为基础明确了论文工作的研究目标,确定了相 应的研究目标和内容。 第二章是对可以使用的压缩技术的讨论,重点介绍了基于n e t f l o w 网络数据流 规范的聚类和n e t f l o w 到高层统计信息的聚类算法。 第三章介绍了系统中数据管理方面的模型和算法,包括数据预测模型、数据管 理算法等。 第四章介绍了系统中还原功能所使用的算法和模型,包括n e t f l o w 到i p t r a c e 的还原算法、高层统计信息到n e t f l o w 的还原算法等。 第五章介绍了数据管理系统总体的功能和结构,并逐个介绍了各个模块的结构 与实现要点。最后设计了2 个测试方案对系统主要功能进行了测试,并对比了压缩 后再还原的数据与原数据的主要特征。 第六章对论文工作进行总结,并对系统中存在的不足提出改进意见,同时对未 来工作进行了展望。 s 东南大学硕士学位论文 第二章面向i pt i 认c e 的管理方法 本章介绍了数据管理系统中各数据可以使用的压缩算法,重点是基于网络数据 流规范的聚类算法和n e t f l o w 到高层统计信息的聚类算法。 2 1 系统中各数据相应的压缩算法 压缩技术能够在有限的空间内存入更多的信息,它利用算法将文件有损或无损 地处理,令文件体积变小,以达到保留最多文件信息的目的。 数据压缩按照编码失真程度可以分为有损压缩和无损压缩【l2 1 。有损压缩其原始 数据不能由压缩数据完全恢复过来。无损压缩中原始数据可以从被压缩的格式中完 整地重构出来。系统中所使用的文本压缩方法,为无损压缩方法,而其他压缩方法 包括组流、抽样、生成r r e 、生成s e s s i o n 均为有损压缩。 本系统中每种数据除了i pt r a c e 以外都由相应的压缩算法生成。表2 1 列出 了系统中的数据以及对应可以使用的压缩算法。 表2 1 硬盘中数据类型以及可以使用的压缩方式 数据类型压缩算法 原始口n 认c e组流、抽样、文本压缩、组流+ 文本压缩、抽样+ 文本压缩、组流+ 抽样+ 文本压缩 l n i pt r a c e 抽样、文本压缩、抽样+ 文本压缩 1 1 n e t f l o w文本压缩、生成r r e 、生成r r e + 文本压缩 1 2 5 6 n e t f l o w 文本压缩 r r e 数据文本压缩、生成s e s s i o n 、生成s e s s i o n + 文本压缩 s e s s i o n 数据 文本压缩 网络统计信息文本压缩 表2 一l 中加号表示算法的联合使用。从表中看出对所有的数据都可以使用文本 压缩,而文本压缩可以和其他有损压缩方案联合使用。例如:组流+ 文本压缩是指 对i pt r a c e 文件先进行组流,再对生成的流进行文本压缩。而组流+ 抽样+ 文本压 缩是指对i pt r a c e 文件分别进行组流和压缩再对结果分别进行文本压缩。系统中 所有的数据默认都采用针对该类的最后一种压缩方法( 都含有文本压缩方法) 进行 压缩。 以下分别对各种单独压缩方法进行介绍。 2 2 文本压缩 文本压缩属于无损压缩技术,发展到现在已经有很多文本压缩的算法:h u f f m a n 编码,算术编码,游程编码,l z 编码,l z w 编码等【1 2 1 。 h u f f m a n 编码是一种基于信号概率的数据压缩算法。每个源信号根据它出现频 率大小被赋予一定的编码,然后用信号对应的编码去取代源数据中的信号。 算术编码是一种高效清除字串冗余的算法,使用一个浮点数来代替一串输入符 6 第二章面向i pt r a c e 的管理方法 号。 l z w 算法压缩的原理在于用字典中词条的编码代替被压缩数据中的字符串。字 典中的词条越长越多,压缩率就越高。目前常用的z i p 和r a r 等软件就属于这类 文本压缩技术。本文中使用r a r 软件对各数据进行压缩。 2 3 抽样 抽样属于有损压缩方法。典型的抽样方法有系统抽样、随机抽样以及分层抽样 三大类【1 3 】: 1 系统抽样:通过一个事先确定的函数来决定抽样的起点和抽样间隔等关键参 数。其中典型的周期抽样方法,以每1 1 个数据为周期提取样本。本文中以报文为数 据单位,每n 个报文提取一个数据。 2 简单随机抽样:分为“no u to f n ”型抽样和概率抽样,其中“no u to f n 抽样是从 n 个报文总体中随机选取n 个报文作为样本;概率抽样依据预先定义好的抽样概率 值来判决是否提取某个报文。 3 分层抽样:使用总体中的一些逻辑信息来增加测量精度,根据这些信息在抽样 前对总体报文进行智能分组,因而可以在相同样本容量的情况下获得较高的测量精 度。 本系统采用系统抽样。 2 4 基于网络数据流规范的聚类 数据流是符合特定的流规范和超时约束的一系列数据包的集合。对于相同的数 据包序列,采用不同的流规范和超时约束可以得到不同的流集合。在网络测量中, 广泛使用以( 源地址,宿地址,源端口,宿端口,协议类型) 五元组为基础的流规 范来区分不同的流【l l 】,因此一个数据流是对一次连接的报文的聚类,它只需要用一 个记录来表述,从而大大减少了所需存储空间。同时,流记录还可以包含流的起始 时间、终止时间和一些可能的统计信息,方便分析者使用,因此它是一种高效的面 向i pt r a c e 的数据压缩方式。 2 4 1 流规范 以五元组为基础的流规范有很多种实现版本,本系统采用的是c i s c o 公司的 n e t f l o w 的组流规范,该规范通过分析i p 数据包的以下7 个属性判断任何两个i p 数 据包是否属于同一个f l o w : 1 源i p 地址; 2 宿i p 地址; 7 东南大学硕士学位论文 3 源通信端口号; 4 宿通信端口号; 5 第三层协议类型; 6 月务类型( t o s ) 字节; 7 网络设备输入或输出的逻辑网络端d ( i f l n d e x ) 。 由于i pt r a c e 中不含上述第7 条信息,本文的组流技术使用前6 条规则,即 本文以( 源地址、宿地址、源端口、宿端口、第三层协议类型、t o s ) 6 元组定义 流。 在实现时,本系统采用的具体流记录格式为n e t f l o wv 51 1 4 】,其具体描述见附录 l 。由于n e t f l o w v 5 中部分字段记录了与路由器有关的信息,这些信息在i p t r a c e 中无法获得,本系统在实现时利用这写字段保留该数据流的其它关键信息,以方便 分析者使用并满足还原时的需要,具体见表2 2 : 表2 - 2n e t f l o wv 5 格式中替换的字段 被替换的字段名 替换后的字段名描述 u n i x s e c sm i n i n t e r v a l _ t i m e流内两报文间隔时间的最小值 u n i x n s e c sm a x c l u s t e r n u m流内所有簇中最大报文个数 s y s u p t i m e r n m e t c p 报文的链接所用时间 e x a d d r p a y l o a d _ p a c k e t _ n u m有负载的报文个数 n e x t h o pp u s h u m 有p u s h 标记的报文个数 i n p u t c n u m 簇个数 o u t p u t i n i tw i n 初始窗口大小 p a ds f c _ f l a g s发起端结束端标志 s i ca s l o s e ,a c k e t n u m丢包数 d s ta s a v g _ p a y l o a d _ l e n g t h平均负载长度 这些被替换字段的计算方法在随后详细介绍。 所以本文最终使用的流规范描述如表2 3 所示: 表2 - 3 修改后的n e t h o wv 5 流记录格式 名称描述字节数 m i n 。i n t e r v a l t i m e见表2 - 2 4 m a x c l u s t e r n u m 见表2 - 2 4 l t i m e 见表2 - 2 4 p a y l o a dp a c k e t _ n u m见表2 - 2 4 s r c a d d r 源地址 4 d s t a d d r 宿地址 4 p u s h n a m见表2 - 2 4 c n t i m 见表2 2 2 i i l i tw i n 见表2 2 2 d p k t s 流内报文数 4 d o c t e t s 流内报文总字节 4 f i r s t 流开始时间 4 8 第二章面向i p t r a c e 的管理方法 l a s t 流结束时间 4 s r c p o r t源端口 2 d s l p o r t宿端口 2 p r o t 协议号 l t o s 服务质量 l t c p _ f l a g st c p 标志 l s f c _ f l a g s 见表2 - 2 l e n g i n e _ t y p e未用位 l e n g i n e _ i d未用位 l s r c m a s k未用位 1 d s tm a s k 未用位 1 l o s e p a c k e t n u m 见表2 2 2 a v g _ _ p a y l o a d _ l e n g t h见表2 - 2 2 2 4 2 流记录字段 上述格式中流内两报文间隔时间的最小值、有负载的报文个数、有p u s h 标记 的报文个数、平均负载长度、流内报文数等是文献【1 5 】【1 6 ”1 中用来进行流应用分类依 据的属性。而丢包数、簇个数、发起端结束端标志、簇内最大报文数等字段主要用 于i p t r a c e 的还原。 这些字段统计原理以及算法如下: 1 流内两报文间隔时间的最小值:初始化该值为流内第l 和第2 个报文的间隔 时间,当有新的报文加入流时如果小于该值,则将其更新,否则不做操作。然后重 复上述过程直到该流
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 清理水仓知识培训内容总结
- 市政管网工地材料管理与消耗控制方案
- 2025年国家基本药物与合理用药培训考试题(附答案)
- 清溪消防知识培训公司课件
- 高三试卷:河南省金太阳高三联考2024-2025学年高三上学期11月期中化学试题
- 水资源综合调度优化方案
- 砸脚的安全培训课件
- 消防材料及配套磷酸技改项目建设工程方案
- 医院医养中心项目建设工程方案
- 砖厂消防安全培训记录课件
- 森林防火智能预警监测系统方案
- 1200吨黑水虻养殖项目可行性研究报告写作模板-备案审批
- 13《黄鹤楼》公开课课件
- 申办餐饮食品经营许可证:14项管理制度清单
- 为什么篮球可以弹起来
- 第2课 第一框 中国特色社会主义的开创和发展
- 鱼池净化系统施工方案
- 新概念第一册语法汇总
- 第八届全国小动物医师技能大赛考试复习题库(含答案)
- 2输变电工程施工质量验收统一表式(变电工程土建专业)
- 公司职级职务管理办法RL
评论
0/150
提交评论