




已阅读5页,还剩69页未读, 继续免费阅读
(计算机软件与理论专业论文)p2p流量识别方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
南京邮电大学硕士研究生学位论文 摘要 摘要 针对当前应用日益广泛的p 2 p 技术,本文提出了基于流量统计滑动窗口的p 2 p 流量识 别模型。p 2 p 通讯的最基本特点是,p 2 p 网络中的每个节点可以直接地与其他任何节点进 行通信、每个节点既是服务的提供者又是服务的享用者,这与传统的客户端一服务器通讯 模型是根本不同的,这也导致p 2 p 流量与传统客户端- i l l 务器通讯流量存在着不同的行为 统计特性。当前常用的基于关键字或端口的p 2 p 流量识别方法通过获取网络流量的内容, 匹配特定p 2 p 通讯协议的关键字或者端口号,识别p 2 p 流量。本文基于流量统计滑动窗口 的p 2 p 流量识别模型则通过提取p 2 p 流量区别于传统网络流量的行为统计特性,识别p 2 p 流量,而且不需要获取p 2 p 流量的具体内容,因此该模型可以识别未知协议的p 2 p 流量。 作者还根据基于流量统计滑动窗口的p 2 p 流量识别模型实现了p 2 p 流量识别系统 ( p 2 p t i s ) ,以验证基于流量统计滑动窗口的p 2 p 流量识别模型的可行性。该系统分为流量 、特性量化、一次p 2 p 流量识别和基于滑动窗口的p 2 p 流量识别三部分。流量特性量化模块 将获取的流量的连续性、多连接性、协议混合性、端口离散性和输入输出均衡性信息进行 统计量化,一次p 2 p 流量识别模块是对流量的特性量化值直接应用流量识别策略进行第一 次的判断;一次流量识别的结果是基于滑动窗口机制的p 2 p 流量识别的基础,后者相当于 进行二次流量识别。p 2 p 流量控制策略不是本文研究的重点,p 2 p 流量控制部分仅对识别 出的p 2 p 流量进行告警。系统实验结果表明p 2 p t i s 系统能有效地识别出已知和未知的p 2 p 流量。 关键词:p 2 p ,客户端,服务器,流量识别,滑动窗口 第1 页 南京邮电大学硕士研究生学位论文 a b s t r a c t f o rp 2 pi si n c r e a s i n g l y , w i d e l yu s e da tp r e s e n t , t h i sd i s s e r t a t i o np r e s e n t san o v e lm o d e lo f p 2 pt r a f f i ci d e n t i f i c a t i o nb a s e do nt r a f f i cs t a t i s t i c a lf e a t u r e sa n ds l i d e 、砘n d o w t h ev e r yb a s i c c o m m u n i c a t i o nc h a r a c t e r i s t i c so fp 2 pa r et h a t , e a c hp e e ri np 2 pn e t w o r kc a nc o m m u n i c a t e 、 ,i n l a n yo t h e rp e e r s ,a n de a c hp e e rc a nb et h es e r v e ra n dt h ec l i e n ta tt h es a m et i m ei np 2 pn e t w o r k , w h i c ha r ev e r yd i f f e r e n tf r o mc l i e n t s e r v e rm o d e l n e s ec h a r a c t e r i s t i c sr e s u l ti nv e r yd i f f e r e n t s t a t i s t i c a lb e h a v i o rf e a t u r e sb e t w e e np 2 pt r a f f i ca n dt r a d i t i o n a lc l i e n t s e r v e rt r a f f i c d i f f e r e n t f r o mt h o s et r a d i t i o n a lp 2 pt r a f f i ci d e n t i f i c a t i o nm e t h o d sb a s e do nk e y w o r d so rp o r t s ,w h i c hn e e d t og e tt r a 街cc o n t e n t t h ep 2 pt r a f j f i ci d e n t i f i c a t i o nm o d e lb a s e do nt r a f f i cs t a t i s t i c a lf e a t u r e sa n d s l i d e w i n d o wi nt h i sd i s s e r t a t i o ni d e n t i f i e sp 2 pt r a f f i cb ye x t r a c t i n gp 2 ps t a t i s t i c a lb e h a v i o r f e a t u r e sw h i c ha r ed i f f e r e n tf r o mt r a d i t i o n a ln e t w o r kt r a f f i c b e c a u s et h i sn o v e lm o d e ld o e sn o t n e e dr e a lc o n t e n to fp 2 pt r a f f i c ,i tc a ni d e n t i f yu n k n o w np 2 pt r a 伍c f o rv a l i d a t i n gt h ef e a s i b i l i t yo ft h en o v e lp 2 pt r a f f i ci d e n t i f i c a t i o nm e t h o d ,t h ea u t h o r i m p l e m e n t sap 2 pt r a f f i ci d e n t i f i c a t i o ns y s t e mb a s e do nt h i sn o v e lm o d e l m ss y s t e mm a i n l y c o m p o s e so ft h r e ep a r t s ,o n ep a r ti st h em o d u l eo fd i g i t i z i n gt r a f f i cf e a t u r e s ,a n o t h e rp a r ti st h e m o d u l eo fo n c e - i d e n t i f i c a t i o no fp 2 pt r a f f i c ,a n dt h el a s t p a r t i st h em o d u l eo f q u a d r a t i c - i d e n t i f i c a t i o no fp 2 pt r a f f i cb a s e do ns l i d e w i n d o w 1 1 l ef i r s tm o d u l ei sr e s p o n s i b l ef o r d i g i t i z i n go r i g i n a ls t a t i s t i c a lt r a f f i ci n f o r m a t i o no fc o n t i n u i t y , m u l t i c o n n e c t i o n ,m i x e d - p r o t o c o l , d i s p e r s e d p o r t s a n db a l a n c e d i o t h eo n c e i d e n t i f i c a t i o nm o d u l ew i l l a p p l y at r a f f e i d e n t i f i c a t i o nm e t h o dt ot h e s ed i g i t i z e df e a t u r e s ,a n dm a k et h eo n c ep 2 pt r a f f i ci d e n t i f i c a t i o n 砀eq u a d r a t i c i d e n t i f i c a t i o nm o d u l eb a s e so nr e s u l t so fo n c e i d e n t i f i c a t i o n 刀砖a u t h o rd o e sn o t m a k em u c hr e s e a r c ho nm e t h o d so fc o n t r o l l i n gp 2 pt r a f f e ,a n di nt h i sd i s s e r t a t i o n ,s h ej u s tg i v e s s o m ea l a r m sa st h ec o n t r o l l i n gm e t h o d 。r e s u l t so ft h es y s t e mp r o v et h a t ,t h i ss y s t e mc a ni d e n t i f y k n o w na n du n k n o w np 2 pt r a f f i ce f f i c i e n t l y k e y w o r d s :p 2 p 、c l i e n t 、s e r v e r 、r r a f f i ci d e n t i f i c a t i o n 、s l i d e - w i 【n d o w 第1 i 页 南京邮电大学硕士研究生学位论文符号表 符号表 符号 英文全称中文意义 b l n 呵cb l i n dc l a s s i f i c a t i o n一种流分类研究方法 b tb i tt o r r e n t 比特洪流 c s c l i e n t s e r v e r 客户端朋艮务器 d h t d i s t r i b u t e dh a s ht 出1 e分布式哈希表 d n sd o m a mn a m es y s t e m 域名系统 f t pf i l et r a n s m i s s i o np r o t o c o l 文件传输协议 g d cg a m ed e v e l o p e r sc o n f e r e n c e游戏开发商大会 h t t p h y p e r t e x tt r a n s f e rp r o t o c o l 超文本传输协议 h t t p ss e c u r eh y p e rt e x tt r a n s f e rp r o t o c o l 安全超文本传输协议 i d i d e n t i f i c a t i o n标识符 i pi n t e r n e tp r o t o c o l 网际协议 i o i n p u t o u t p u t输入输出 k a dk a d e m i l an e t w o r k一种无服务器网络 p 2 p p e e r - t o - p e e r点对点通信 p 2 p t i sp 2 pt r a f f i ci d e n t i f i c a t i o ns y s t e mp 2 p 流量识别系统 s v m s u p p o r tv e c t o rm a c h i n e s支持向量机制 t c pt r a n s m i s s i o nc o n t r o lp r o t o c o l传输控制协议 1 v r lt i m e t o1 i v e 生存周期 u d pu s e rd a t a g r a mp r o t o c o l用户数据报协议 u r l u n i f o r mr e s o u r c el o c a t o r统一资源定位器 第v 页 南京邮电大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了 明确的说明并表示了谢意。 研究生签名:塑! 监日期:竺z :竺呈 南京邮电大学学位论文使用授权声明 南京邮电大学、中国科学技术信息研究所、国家图书馆有权保留 本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其 他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一 致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布 ( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权 南京邮电大学研究生部办理。 签名:1 一乏防日期: 南京邮电大学硕士研究生学位论文 第一章引言 1 1p 2 p 简介 第一章引言 p 2 p 网络服务的概念最早是在1 9 6 9 年s t e v ec r o c k e r 提出的 1 】。每个参与p 2 p 网络服 务的主机都称为一个p e e r ,由p e e r - t o - p e e r 发起的一个个连接构成的网络就称为p 2 p 网络。 p 2 p 网络中的每个p e e r 都可以独立地或直接地和其他任何一个p e e r 进行资源共享或通讯。 最近几年,对等技术( p e e r - t o p e e r ,简称p 2 p ) 日益受到计算机界的关注和青睐,迅速成 为业界关注的热门话题之一。但是,到目前为止,无论是学术界还是工业界对p 2 p 都没有 一个统一的定义,文献 2 歹f j :1 5 了当前比较常用的几种p 2 p 参考定义。 定义1 :p e e r - t o p e e ri sat y p eo fi n t e r n e tn e t w o r ka l l o w i n gag r o u po fc o m p u t e ru s e r sw i t h t h es a m en e t w o r k i n gp r o g r a mt oc o n n e c t 、 ,i t l le a c ho t h e rf o r t h ep u r p o s e so fd i r e c t l ya c c e s s i n g f i l e sf r o mo n ea n o t h c r sh a r dd r i v e s ( p 2 p 是一种网络,在p 2 p 网络中,运行了相同软件的一组计算机用户之间能够直接 相互访问并获取各自所需的资源。) 定义2 :p e e r - t o - p e e rn e t w o r k i n g ( p 2 p ) i s a na p p l i c a t i o nt h a tr r n so nap e r s o n a lc o m p u t e ra n d s h a r e sf i l e sw i t ho t h e ru s e r sa c r o s st h ei n t e r a c t p 2 pn e t w o r k sw o r kb yc o n n e c t i n gi n d i v i d u a l c o m p u t e r st o g e t h e rt os h a r ef i l e si n s t e a do fh a v i n gt og ot h r o u g hac e n t r a ls e r v e r ( p 2 p 是运行在p c 机上的一个应用软件,该p c 机可以通过i n t e r a c t 与其他运行相同 p 2 p 软件的p c 之间进行文件共享。p 2 p 把所有p c ( p e e r 节点) 连接在一起,并在这些p c 之间进行文件共享而不需要通过中心服务器。) 定义3 :p 2 p 是一种分布式网络,网络的参与者共享他们所拥有的一部分硬件资源( 处 理能力、存储能力、网络连接能力、打印机等) ,这些共享资源需要由网络提供服务和内 容,能被其它对等节点( p e e r ) 直接访问而无需经过中间实体。在此网络中的参与者既是 资源( 服务和内容) 的提供者( s e r v e r ) ,又是资源( 服务和内容) 的获取者( c l i e n t ) 。 i n t e l 将p 2 p 技术定义为“通过系统间的直接交换达成计算机资源与信息的共享 ,这些 资源与服务包括信息交换、处理器时钟、缓存和磁盘空间等。 i b m 则对p 2 p 赋予了更广阔的定义,把它看成是由若干互联协作的计算机构成的系统, 并具备如下若干特性之一:系统依存于边缘化( 非中央式服务器) 设备的主动协作,每个成 第1 页 南京邮电大学硕士研究生学位论文 第一章引言 员直接从其他成员而不是从服务器的参与中受益;系统中成员同时扮演服务器与客户端的 角色;系统应用的用户能够意识到彼此的存在而构成一个虚拟或实际的群体。 不管是p 2 p 网络提出时的简单定义,还是各个组织和企业对p 2 p 赋予的独特定义,尽 管它们在表述上略有不同,但都表达了一个共同的意思:p 2 p 是一种网络,p 2 p 网络打破 了传统的c s 模式,在p 2 p 网络中的每个主机节点的地位都是对等的,每个节点既充当服 务器,为其他节点提供服务,同时也享用其他节点提供的服务。p 2 p 节点之间可以共享的 资源可以是文件信息、软件资源,也可以是硬件资源,如处理能力、存储能力、打印机等。 p 2 p 技术并非一种全新的技术,它在2 0 世纪7 0 年代出现时有两个典型代表:u s e n e t 和f i d o n e t 这两个分散、分布的信息交换系统。真正的p 2 p 技术的大规模应用起源于1 9 9 9 年投入运行的文件交换软件n a p s t e r 3 。虽然“客户服务器”模型是目前互联网上占统治 地位的计算模型,但从某种意义来说,p 2 p 技术可以说是一种向传统互联网技术的回归, 体现了互联网的本质,因为互联网最初的设计目标就是让网络上的计算机互相之间可以直 接通信而不需要中介。 目前,p 2 p 技术的应用前景十分广阔。i n t e m t 上各种p 2 p 应用软件层出不穷,用户数 量更是急剧增加。p 2 p 技术目前主要的应用领域包括:信息共享、实时通信、网络游戏、金 融服务、信息检索、协同工作、普及计算和网络存储 4 。 l 、信息共享 信息共享是p 2 p 技术最典型的应用。目前基于w e b 技术的信息资源共享系统中, w e b 服务器被用来对大量用户的访问提供有效的服务,w e b 服务器不可避免地称为信息资源共 享系统的瓶颈。基于p 2 p 技术的信息资源共享系统可以更加充分利用网络中的带宽资源, 提高系统数据通信的效率。目前有很多著名的或流行的p 2 p 文件共享应用软件包括 c m u t e l l a 、b i t t o r r e n t 、e d o n k e y 、e m u l e 、迅雷等。 2 、实时通信 实时通信技术是网络中重要的通信技术,成功的实时通信技术吸引了数以万计的在线 用户。目前的实时通信技术一般采用一个中心服务器控制用户的认证等基本信息,节点之 间直接进行数据通信。i c q 、o l c q 、m s n 等是典型的实时通信系统,这些系统也包含好 友列表等基本功能。目前流行i 拘i s k y p e 2 8 是完全采用p 2 p 技术的即时通信工具。 3 、网络游戏 宽带网络游戏消耗的带宽比较多,通过p 2 p 技术,一方面是可以下载游戏场景,另一方 面可以省却一些昂贵的游戏服务器。游戏用户之间可以直接通信,而不需要通过游戏服务 器进行转发。【2 9 i b m 公司在2 0 0 5 年的“g d c 2 0 0 5 上就曾提出“通过让游戏机相互之间 第2 页 塑壅墅皇奎堂堡主竺壅竺堂竺丝苎笙二雯! ! 童 共享数据,内容发行商只需提供规模远远小于过去的下载服务器即可 来解决通信带宽这 一网络游戏的瓶颈问题。 4 、金融服务 p 2 p 网络中,任意两个节点之间可以直接通信,不会有第三者知道双方通信的信息,所 以p 2 p 技术非常适合发展在线金融服务。美国的b i l l p o i n t 公司己将p 2 p 技术应用于电子商务 的付费机制,通过e b a y 向全球3 5 个国家的使用者提供了这种技术,他们可直接用彼此的信 用卡进行交易。 5 、信息检索 搜索引擎是日前人们在网络中检索信息资源的主要工具,目前的搜索引擎如:g o o g l e 、 天网等都是集中式的搜索引擎,用户向服务器发出信息搜索指令,服务器把检索出来的相 关目录通过一定的排序法则呈现在用户面前,这就不可避免的存在一些问题:服务器信息 更新周期的长短将直接影响信息的及时性和有效性;服务器信息收集能力将直接影响信息 的广度;同时服务器只担当信息搜索任务,极可能带来很多冗余信息或垃圾信息等。而p 2 p 技术以用户为中心,所有的用户地位都是平等的,所有用户都共享了他们认为最有价值的 东西,这将使互联网上信息的价值得到极大的提升。j x t as e a r c h 3 0 采用p 2 p 的搜索技术 来有效的跟踪数据的更新速度、提高访问的有效性以及检索的效率。p a n d a n g o 3 1 搜索引 擎也利用了p 2 p 技术。 6 、协同工作 协同工作是指多个用户之间利用网络中的协同计算平台互相协同来共同完成计算任 务。通过采用p 2 p 计算技术个人和组织可以随时采用各种方式建立在线、非在线的协同应 用环境。协同工作使得在不同地点的参与者可以在一起工作,因为采用文件直接共享的方 式可以保证系统中的每个人所获得的信息总是最新的,同时节省了采用单独服务器时对该 服务器存储以及性能的要求。g r o o v e 3 2 是基于i n t e m e t 的p 2 p 协同应用软件的典型代表, 其用户可以直接进行实时的协同工作。 7 、普及计算 普及计算技术研究的是如何充分利用网络中各种各样的计算单元来共同完成大规模的 计算任务。由于单一计算单元的计算能力总是有限的,目前一般采用并行技术、分布式技 术将多个计算单元节点联合起来共同完成大规模的计算任务,同时目前网络中的计算机的 计算能力一直利用的不是很充分,人们期望能够充分利用网络中的闲散计算能力来完成大 规模的计算任务,这样将会使得网络中所蕴含的海量计算能力得到更加充分的利用。p 2 p 计算技术则为普及计算技术的发展提供了新的机遇。s e t i h o m e 3 3 是u cb e r k e l e y 大学 第3 页 南京邮电大学硕士研究生学位论文 第一苹引言 启动的普及计算的研究项目,目前大约吸引了一百万台计算机参与研究。g r i d 是研究普及 计算的典型代表 3 4 。 8 、网络存储 存储技术一直是人们所关注的一项技术。由于网络规模的扩大,网络使用的灵活程度 增加,传统的分布式操作系统、局域存储技术开始向基于i n t e m e t 的文件存储系统发展。一 些研究项目开始使用基于d h t 的p 2 p 技术来组织和存储文件,典型的系统包括: o c e a n s t o r e 3 5 ,3 6 、m i c r o s o r 提出的f a r s i t e 3 7 等。这些项目的目标都是提供面向全球规 模的文件存储服务。 1 2 网络拓扑结构研究 服务器 c s 网络模型 p 2 p 节点 p 2 p 节点 p 2 p 网络模型 图1 一l 网络模型比较 c s 网络结构是当前网络中应用最广泛的网络模型,也是传统的网络模型;p 2 p 网络所 使用的虽不是新兴技术,但与c s 网络结构相比较,p 2 p 网络是一种全新的网络模型。如 图1 一l 所示两种网络模型结构。 在c s 网络模型中,客户请求服务,服务器提供服务,客户端都是主动与服务器建立连 接,请求具体的资源或请求提供具体的服务,而服务器则被动地等待客户端发起连接,并 且客户端之间不互相通信。在当今i n t e m e t 上应用广泛的w ,e b 服务、邮件服务、f t p 服务 等都是c s 模式的服务。c s 网络模型是中央化体系的一个例子,整个的网络都依靠中央 的节点和命名的服务器来提供服务,如w e b 服务器、邮件服务器、f t p 服务器等,如果没 有服务器,网络将是毫无意义的。 p 2 p 网络模型,即对等网络,是基于p 2 p 技术的网络架构形式,旨在建立对等的计算机 网络,以更加高效的方式来提供网络里的信息和服务。p 2 p 网络技术是目前国际计算机网 第4 页 堕室堕皇奎兰塑主堕壅竺堂堡堕茎蔓二兰! ! 童 络技术领域研究中的一个热点,被财富杂志誉为将改变互联网未来的四大新技术之一, 目前微软、s u n 、i b m 等很多著名的企业和公司都投入到对p 2 p 网络技术的研究之中。 p 2 p 网络的拓扑结构主要有4 种形式【2 】:中心化拓扑、全分布式非结构化拓扑、全分 布式结构化拓扑和半分布式拓扑。 中心化拓扑网络依赖于中心化的目录系统实现资源搜索,搜索算法灵活高效并能够实 现复杂查询。这是第一代p 2 p 网络采用的结构模式,经典案例就是著名的m p 3 共享软件 n a p s t e r 。在n a p s t e r 模型中,一群高性能的中央服务器保存着网络中所有活动对等计算机 共享资源的目录信息。当需要查询某个文件时,p e e r 主机会向一台中央服务器发出文件查 询请求。中央服务器进行相应的检索和查询后,会返回符合查询要求的p e e r 主机地址信息 列表。查询发起p e e r 主机接收到应答后,会根据网络流量和延迟等信息进行选择,和合适 的p e e r 主机建立连接,并开始文件传输。这种对等网络模型存在很多问题,主要表现为: ( 1 ) 中央服务器的瘫痪容易导致整个网络的崩馈,可靠性和安全性较低。( 2 ) 随着网络规模的 扩大,对中央索引服务器进行维护和更新的费用将急剧增加,所需成本过高。( 3 ) 中央服务 器的存在引起共享资源在版权问题上的纠纷,并因此被攻击为非纯粹意义上的p 2 p 网络模 型。对小型网络而言,集中目录式模型在管理和控制方面占一定优势。但鉴于其存在的种 种缺陷,该模型并不适合大型网络应用。 全分布非结构化网络采用随机图的组织方式,结点度数服从”p o w e r - l a w ”规律,能够较 快发现目的结点,面对网络的动态变化有较好的容错能力,同时可以支持复杂查询,如带 有规则表达式的多关键词查询,模糊查询等,最典型的案例是g n u t e l l a 。g n u t e l l a 是一个 p 2 p 文件共享系统,它和n a p s t e r 最大的区别在于g n u t e l l a 是纯粹的p 2 p 系统,没有索引 服务器,它采用了基于完全随机图的洪泛发现和随机转发机制。为了控制搜索消息的传输, 通过t 1 r l 的减值来实现。在c m u t e l l a 分布式对等网络模型中,每一个联网主机在功能上 都是对等的,既是客户机同时又是服务器,所以被称为对等机。但是随着联网节点的不断 增多,网络规模不断扩大,通过这种洪泛方式定位对等点的方法将造成网络流量急剧增加, 从而导致网络中部分低带宽节点因网络资源过载而失效。全分布非结构化网络的查询访问 只能在网络的很小一部分进行,因此网络的可扩展性不好。由于没有确定拓扑结构的支持, 非结构化网络无法保证资源发现的效率。即使需要查找的目的结点存在发现也有可能失 败。由于采用t t l 、洪泛、随机漫步或有选择转发算法,直径不可控,可扩展性较差。因 此发现的准确性和可扩展性是非结构化网络面临的两个重要问题。 完全分布式结构化拓扑网络采用分布式散列表,按照一定的方式为网络节点分配一个 唯一的结点标识符,资源对象通过散列运算产生一个唯一的资源标识符,且该资源将存储 第5 页 妻室墅皇奎堂堡主塑塑竺堂堡丝奎兰二皇! ! 童 在结点i d 与之相等或者相近的结点上。需要查找该资源时,采用同样的方法可定位到存 储该资源的结点。基于d h t 的完全分布式结构化网络能够自适应结点的动态加入退出, 有着良好的可扩展性、鲁棒性、结点i d 分配的均匀性和自组织能力。由于重叠网络采用 了确定性拓扑结构,d h t 可以提供精确的发现。只要目的结点存在于网络中d h t 总能发 现它,发现的准确性得到了保证,最经典的案例是t a p e s t r y ,c h o r d ,c a n 和p a s t r y 。基于 d h t 的完全分布式结构化网络最大的问题是d h t 的维护机制较为复杂,尤其是结点频繁 加入退出造成的网络波动会极大增加d h t 的维护代价。d h t 所面临的另外一个问题是 d h t 仅支持精确关键词匹配查询,无法支持内容语义等复杂查询。 半分布式结构吸取了中心化结构和全分布式非结构化拓扑的优点,选择性能较高( 处 理、存储、带宽等方面性能) 的结点作为超级点,在各个超级点上存储了系统中其他部分 结点的信息,发现算法仅在超级点之间转发,超级点再将查询请求转发给适当的叶子结点。 半分布式结构也是一个层次式结构,超级点之间构成一个高速转发层,超级点和所负责的 普通结点构成若干层次。最典型的案例就是k a z a a 。半分布式结构的优点是性能、可扩展 性较好,较容易管理,但对超级点依赖性大,易于受到攻击,容错性也受到影响。 与传统的c s 网络相比,p 2 p 网络中所有节点主机功能地位相等,任两个节点之间可以 实现直接、高速的通信,不需要第三者的干涉,使得p 2 p 网络成为一种完全分布式的、强 连通的网络。p 2 p 网络表现的非中心化、强连通性、高速通信等优势使得p 2 p 技术的应用 前景更加广阔,正逐渐运用到军事领域,商业领域,政府信息等更多领域。 1 3 研究背景 p 2 p 技术不仅能提供快速高效的文件共享、低成本高可用的计算资源和存储资源共享, 而且具有强大的网络连通性,以及更直接更灵活的信息沟通能力。p 2 p 技术的众多优势使 得p 2 p 技术的应用领域日益广阔,但是p 2 p 网络在提供高效快速资源共享的同时,也带来 了众多的问题:p 2 p 传输速度高,且p 2 p 应用的数据交换具有一对多、突发性和分布式特 性,其用户抢占了6 0 - - 8 0 的网络带宽,仅将剩余带宽留给非p 2 p 用户,容易引起企业 及i s p 瓶颈链路的阻塞;p 2 p 用户的超大容量下载,消耗大量带宽;p 2 p 用户不分时段地 进行高速下载,增大网络设备的负荷,容易造成高峰时段的链路拥塞,等等。随着p 2 p 应用 的快速发展,p 2 p 指数级增长的数据传输使得网络带宽资源更加宝贵【2 7 】。因此,为了确 保其他正常网络用户的服务,同时为了更好地发挥p 2 p 技术的优势,对p 2 p 流量进行分类、 识别就越来越受到关注。 目前p 2 p 流量识别技术大体可以分为四类:基于数据包内容的p 2 p 流量识别技术 第6 页 南京邮电大学硕士研究生学位论文第一章引言 1 9 ,2 3 ,基于伪参与技术的p 2 p 流量识别技术【5 ,6 】,基于传输层端口的p 2 p 流量识别技术 【2 0 ,2 1 1 ,和基于p 2 p 流量特征的识别方法 8 ,9 】。 基于p 2 p 流量内容的识别技术 2 4 】也称为基于应用层签名的p 2 p 流量识别技术或基于 关键字的p 2 p 流量识别技术,也可以将其称为解密技术。由于当前流行的p 2 p 应用软件多 种多样,而且对p 2 p 协议又没有一个统一的定义,因此,大部分p 2 p 应用软件,如b t 、 g n u t e l l a 等流量包中都有各自标记性的关键字。基于应用层签名的p 2 p 流量识别技术通过 检查数据包的数据内容,找到特定p 2 p 协议的关键字以识别p 2 p 流量。这种p 2 p 流量检测 方法直观、检测效率高,并且误检率低。但是也存在以下几个问题:( 1 ) 只能检测已知p 2 p 协议的p 2 p 流量,对于各种各样新型的p 2 p 协议流量则无能为力,因此检测方法的适用范 围不易扩展;( 2 ) 对每一个数据报内容进行关键字检测耗费时间长,在不影响正常通讯的 前提下对系统的需求很高;( 3 ) 有些p 2 p 协议使用了数据加密技术,导致无法检测其数据 包内容,从而也无法识别其流量;( 4 ) 基于数据包内容的p 2 p 流量检测技术需要对数据包 的具体内容进行研究,有可能涉及机密或隐私问题,因此存在法律上的争议。文献【1 5 】对 传统的基于流量内容的p 2 p 识别方法进行改进,只对t c p 连接的前5 个数据包进行分析, 从而可以识别大部分的p 2 p 流量,该方法提高了基于内容的p 2 p 流量识别的效率,方法简 单,但是并没有完全解决基于内容的流量检测方法的所有问题。 基于伪参与技术的p 2 p 流量识别方法是用一台或多台实验主机主动参与到p 2 p 网络 中,通过与p 2 p 用户进行包交换获取该p 2 p 用户的i p 地址等信息,同时对获取的信息进 行分析,并以此来识别p 2 p 流量。基于伪参与技术的p 2 p 流量识别方法识别准确度高,但 是也存在一些缺点:在参与文件共享时可能违反文件的使用版权,另外,由于只能识别真 正与实验主机进行包交换的p 2 p 用户,因此有识别不完全的弊端,漏检率很高。 在早期的纯p 2 p 网络中,很多p 2 p 应用软件在节点与节点之间进行通信时都采用固定 的端口号,因此,对于纯p 2 p 应用流,采用基于传输层端口的p 2 p 流量识别方法实现非常 简单,也不用花费太多的系统资源【7 ,1 4 】。但是随着p 2 p 技术的发展,当前很多p 2 p 协议 都开始采用动态端口技术以规避检测,还有相当一部分p 2 p 协议使用f t p 端口和h ”限端 口,可以穿透防火墙,从而给基于传输层端口的p 2 p 流量识别技术带来挑战。因此,单纯 利用传输层端口号进行p 2 p 流量识别的技术在当前已经不适用了,将传输层端口号作为流 量识别特征的一部分【2 5 】,并结合其他特征进行p 2 p 流量识别和分类,可以快速简便地对 流量进行初步分类。 以上三类p 2 p 流量识别技术都是从固定的某种p 2 p 协议着眼,以该协议的某方面固定 特征为依据来识别相应的p 2 p 流量,因此,这些识别p 2 p 流量的方法不可避免地存在无法 第7 页 南京邮电大学硕士研究生学位论文第一章引言 识别未知协议或未参与p 2 p 的流量等缺陷。针对这些缺陷,t h o m a sk a r a g i a n n i s 等人另辟 蹊径,从流量的特征出发,在文献【8 】中提出了根据p 2 p 应用的传输层通信模式特点进行 p 2 p 流量识别,如现有许多p 2 p 应用( c d o n k c y ,g n u t e l l a 等) 的传输层通信协议特征、端口 与目的i p 关系等,这种方法能够识别出采用随机端口以及借用熟知端口进行通信的p 2 p 应用流量;并且他在文献 9 中更加深入地对多种流量( 包括p 2 p 、w e b 、m a i l 等) 进行分 析,并根据各种流量的最基本特性提出了一种新的流量分类和识别方法b l l n c ,该方法避 开了传统的以流量为研究对象的研究方法,以网络主机作为研究对象,从三方面对网络主 机进行定位分析:社会级别一一通过与被研究主机通信的主机数量反映该主机的受欢迎程 度,功能级别一一主机担任服务的提供者还是客户端,应用级别一一传输层主机之间具体 的通信特征。b l i n c 从各种应用的主机统计特性出发,识别流量方法简单、误检率低,但 是,不可避免地只能识别出p 2 p 流量而不能确定具体的p 2 p 应用协议类型。 文献 1 0 】从p 2 p 应用的最基本特征出发,如p 2 p 网络的网络直径很大并且每个节点都 可以同时担当服务提供端和服务请求端,不需要任何应用层的信息而是用简单的统计的方 法,可以有效地识别已知协议和未知协议类型的p 2 p 应用流。文献 1 1 】和文献【1 2 】也提出了 基于流量特征的p 2 p 流量识别和分类方法,但与上述的基于流量特征的方法相比,这两个 文献是利用p 2 p 流量的统计特征,如节点的连接成功率、节点的连接响应成功率等,进行 p 2 p 流量识别和分类。文献【2 6 】在文献【8 】的基础上对其中的p 2 p 流量特征及其新提出的一 个p 2 p 流量特征一一d n s 访问日志进行量化,建立了基于统计信息的p 2 p 流量识别方法, 并可以识别运行了p 2 p 流量的特定主机。文献【2 2 】将基于关键字p 2 p 流量识别方法和基于 统计特征的p 2 p 流量识别方法相结合,提出用多层流量信息进行p 2 p 流量识别的方法,该 方法结合基于关键字的p 2 p 流量识别和基于统计特征的p 2 p 流量识别方法的优点,形成了 一种新的p 2 p 流量识别思路,但是,同基于关键字识别方法类似,该方法在使用上有一定 的限制,对一些特定p 2 p 网络流量仍然无法识别。 基于s v m 的p 2 p 流量识别方法是一种新的p 2 p 流量识别方法,该方法同时也是以统 计方法为基础的。本文将其归结于基于信息统计的p 2 p 流量识别方法中。文献【1 6 】和文献 1 7 都将优化的s v m 技术应用于p 2 p 流量识别和应用层流量分类,不仅能够识别大部分的 p 2 p 流量,而且可以识别新的p 2 p 流量和经过内容加密的p 2 p 流量;但是部分基于s v m 技术的p 2 p 流量识别方法暂时无法识别采用u d p 协议的p 2 p 流量。 基于网络流量统计特征的p 2 p 流量识别技术通过使用p 2 p 流量的统计特征,来识别p 2 p 流量,这种方法可以很好地识别现有已知协议类型的p 2 p 流量,同时也很容易识别未知协 议的p 2 p 流量。基于网络流量特征的流量识别技术是识别p 2 p 流量的一种新的有效途径。 第8 页 堕室坚皇盔兰堡主婴塞生堂垡丝塞 苎二兰! ! 童 本文所介绍的p 2 p 流量识别方法就是基于网络流量统计特征的p 2 p 流量识别技术。该方法 可以有效识别协议类型已知和协议类型未知的p 2 p 流量,检测方法实现简单。 对于普通的网络应用流量而言,p 2 p 流量是一种异常流量。p 2 p 流量很大,并且一般 持续时间较长,抢占大部分网络带宽,尤其是在工作时间,由于网络带宽的限制,局域网 内一个或几个p 2 p 用户的p 2 p 下载流量就足以导致其他网络主机之间无法正常通信,给正 常的网络用户带来不便,因此,对p 2 p 流量进行适当的控制刻不容缓。 p 2 p 流量控制的具体策略因实际需要而有很大的差异,目前应用较多的两种方法是: ( 1 ) 定时限制策略,在一定的时间段内( 如正常工作时间) 将所有检测到的p 2 p 流量都 过滤并丢弃掉,而在其他时间将p 2 p 流量视为正常流量不予任何限制;( 2 ) 带宽限制策略, 只提供一定的带宽给局域网内的p 2 p 用户,使p 2 p 流量不能抢占其他正常用户的网络带宽, 也能够保证网络主机之间的正常通信。 本文专注于p 2 p 流量的行为特征提取和流量识别,对p 2 p 流量控制部分不做更深入的 研究和阐述。 1 4 论文选题及主要内容 由于受技术因素的影响,虽然当前提高网络带宽的技术得到发展,但是网络带宽作为 一种宝贵的网络资源仍然不能满足大家的需要,尤其是p 2 p 技术得到快速发展以来,网络 带宽这种资源尤其显得不足。尽管p 2 p 流量也属于是正常应用流量,但是p 2 p 流量大,会 抢占大部分的网络带宽,给其他正常的传统网络服务用户带来诸多不便。本文的主要目的 就是找到一种更加有效、更加简洁的p 2 p 流量识别方法,准确识别出p 2 p 流量,并对p 2 p 流量加以控制,使得在不影响正常的传统网络服务使用的情况下,p 2 p 技术得到更广泛的 发展、p 2 p 软件得到更广泛的应用。 本文得到以下项目的支持:( 1 ) 国家8 6 3 项目( 2 0 0 5 a a 7 7 5 0 5 0 ) 网络流量分析及攻 击技术研究;( 2 ) 扬州市政府基金项目( y z 2 0 0 6 0 3 ) :基于p 2 p 流量控制及其管理系统的 研究;( 3 ) 华为基金课题( 2 0 0 5 外1 7 ) :p 2 p 流量识别控制关键技术研究。本人主要负责其 中的流量分析及识别部分的研究,本文成果主要体现在以下几个方面: l 、p 2 p 网络研究 p 2 p 技术并不是一种新兴技术,但p 2 p 网络却是一种有异于传统c s 网络的新型网络, p 2 p 网络是一种强连通的、分布式网络,p 2 p 网络中的每个主机节点可以直接与其他任何 主机节点进行通信,p 2 p 网络中的所有主机节点处于同等的地位,并且每个主机节点可以 同时是网络服务提供者,也可以是网络服务享用者,p 2 p 节点从其他主机节点下载资源或 第9 页 南京邮电大学硕士研究生学位论文第一章引言 共享信息的同时,还可以为其他更多的主机节点提供相应的资源下载服务。 p 2 p 网络及p 2 p 网络主机节点流量特性研究是本文建立p 2 p 流量识别模型以及构建p 2 p 流量识别系统的基础。 2 、p 2 p 流量特性分析及量化 本文立足于p 2 p 网络的最基本特征,用流量抓取工具e t h e r e a l
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 政审考试题库及答案解析
- 矿山电子高级考试题库及答案
- 征信考试题库及答案
- 商业合作市场调研分析报告合同
- 企业合同管理模板及风险提示
- 2025年新疆农作物制种质量保障合同
- 2025年贵州公需科目之乡村振兴试题(含答案)
- 祁阳历史中考试卷及答案
- 技校政治考试题目及答案
- 唐山单招十类考试题及答案
- 第三方担保欠款协议书范文模板
- 【百岁居】百岁居内外勤版本
- 国开(河北)2024年《商务谈判实务》形成性考核1-4答案
- 2024年上海交易集团有限公司招聘笔试冲刺题(带答案解析)
- 2024年首届全国“红旗杯”班组长大赛考试题库800题(含答案)
- 职场英语口语900句
- 物流地产行业报告:物流地产商业模式与投资解析
- 朝花夕拾鲁迅笔下的人物
- 设备类风险辨识培训课件
- DB32-T 4638-2024 智能泵站技术导则
- 黔菜菜名英译规范
评论
0/150
提交评论