(计算机系统结构专业论文)bt流量识别技术的研究.pdf_第1页
(计算机系统结构专业论文)bt流量识别技术的研究.pdf_第2页
(计算机系统结构专业论文)bt流量识别技术的研究.pdf_第3页
(计算机系统结构专业论文)bt流量识别技术的研究.pdf_第4页
(计算机系统结构专业论文)bt流量识别技术的研究.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(计算机系统结构专业论文)bt流量识别技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

i 14 ! r j j】 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 龆一嘞刁年月日 论文使用授权 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:翌墼 。_ 15 l。r 摘要 摘要 随着网络的发展和普及,p 2 p 已成为了目前网络的“杀手应用之一,而 b i 皿d n - 髓t ,简称b t ,则是p 2 p 中的佼佼者。据统计,当前我国在h l t e n l e t 主干网 络的通信流量中,有6 0 以上是属于p 2 p 应用,而p 2 p 应用中,大约5 0 的通 信流量被b t 应用所占有。 由于网络中多媒体业务和p 2 p 业务的广泛应用,对网络流量识别和控制技术 的研究已经成为网络流量管理中的重要课题。网络流量控制是保证网络中关键业 务正常运行的重要手段,网络流量识别技术为实施网络流量控制提供了必要的前 提条件。 本文描述了基于有效载荷流量特征的b t 识别技术的改进。我们从p 2 p 的介绍 和p 2 p 网络的特点开始阐述,以p 2 p 的典型应用b i t l b 玎e n t 为研究对象,通过对 b i 仃d n 锄t 协议和源代码的研究以及对当前几种典型的p 2 p 应用如b i t t o r r e n t 、迅雷 等的实际传输数据情况进行分析比较,找出b t 流传输中更多的有效载荷特征,将 b t 流从其他数据流中识别出来,增强了b t 流量识别的准确性和灵活性。 最后则从准确性、可扩展性等方面讨论该识别技术,分析了误报率和漏报率, 并指出该技术存在的缺陷。通过b i t t o r r e n t 传输的实际数据的验证,识别技术只有 不到2 的误报率和漏报率,也有着很低的包丢失率。但对于b i t c o n m e t 、b i t s p i r i t 等对b t 协议作了扩展的软件传输的数据,准确性较差,可扩展性也有所欠缺,而 且在高速网络上的性能有待进一步研究。 关键字:p 2 p ,流量识别,b i t l o r r e n t ,有效载荷 a b s t r a c t a b s t r a c t a l o n g 、) l ,i mm ed e v d o p m e n t 锄dp o p i u l 撕z a t i o no fi n t e n l e t ,p 2 ph a sb e c o m eo o f 髓1 1 i n ga p p l i c a t i o n s ”,柚d 硷b i t ,r 0 仃e 眦,讹c hi s c a l l e db t 矗ws h o 心i sn l e 叫t s t a 瓜陆g0 n eo f p 2 p h lc = l l i n 如a c c o r d i l l gt 0s t a t i s t i c ,i nt l l ec u m m tc o m 咖】n i c a t i 伽 仃a 伍co fh l t e n l e tb a c k b o n en e 研。出a b o u t6 0 b e l o n g st op 2 pa p p i l i c a t i o 坞觚di l lp 2 p a p p l i c a t i o 玛a b o u t5 0 c o m m 咖i c a t i o n 仃a f ! 丘cb e l o n g s t 0b ta p p l i c a t i o nw l l i c h d e v e l o p e d m r e c e n t t 、) l ,o0 rn 1 1 优y e 掷 w i n la l e 祈d ea p p l i c 撕伽o fm u l t i i i l e d i aa i l dp 2 p ,t e c l l i l o l o 酉豁o fn e 研o r k 饿讧j f i c i d e n t i f i c a t i o na n dc o n t r o la r eb e c o m i l l gah o t s p o ti nn e t w o f kt r i a l f j 丘cm a n a g 锄e n ta r e a i t i sg u 础m t e e d 廿l a tk e yn e t 、瑚r kn o wc 觚r u ns m o o n l l yo nn 曲砷r kb yn e 柳o r k 妇m c c o m r 0 1t e c 妇1 0 l o 百e s n e t w o r k仃a 伍ci d e n t i f i c a t i o nt ec _ k 1 0 l o 舀e s s u p p o r t e s s e r l t i a l c o n d i t i o 璐点mn e t 、) i r o r k 仃a 伍cc o n 缸o lb yt r a 伍ci d t i f i c a t i o n b 弱e d0 n 1 ei n l p r o v 锄1 锄:t so fp 2 p 劬商ci d e n t i f i c a t i o nt e c l l l l o l o g yw l l i c h c h a r a c t 舐z e d b yp a y l o a d i tb e g m w i m 1 ei n 呐d u c t i o no f 坞p 2 pa i l d 吐l e c h a 嬲耐s t i c so fp 2 pn 咖o r k ,廿1 et y p i c a lp 2 pa p p l i c a t i o nb i t t o 仃t 斌i st a k e n 硒t l l e r e s e a r 吐o b j e c t ,m r o u 曲m eb i t t o 仃t m tp r o t o c o l 锄dm es o l l r c ec o d eo fm ec u 玎t m t r e s e 锄沌a sw e l l 蠲s e v e r a lt y p i c a lp 2 pa p p l i c a t i o n ss u c h 嬲b i 怕嗍l t ,n m n d e r b o l t l c 删t r a l n s i i l i s s i o no fd a t a ,s u c h 舔m es i t u a t i o na i l a l y s i so fc o i n p 撕s o nt of i n do u t m o r eb ts 仃e 锄i n gp a y l o a dc h a 删e r i s t i c s ,b ts t r e 锄啦c a l lb ei d e n t i 丘c d 舶m o m e rd a t as 臼e 锄st oe i l l l a i l c em ea c c 眦c y 锄dn e x i b i l i 锣o f l eb t 扛a 伍ct oi d 锄- t i 每。 f i n a l l y 胁mm ea s p e c t so fa c c u r a c y ,s c a l a b i l i t y ,m ei d e n t i f i c a t i o nt e c h n 0 1 0 9 yi s d i s c u s s e d ,f a l s ei d 肌t i f i c a t i o nr a t ea n d1 e a k a g er a t ei 8a n a l y z e d ,觚dm es h o r t c o m i n g s e x i s ti nt h et e c l l i l o l o g yi sp o i n t e do u t b yt h ea c t l l a ld a t ao fb t 仃a 伍c ,t h em e a s u r e i i l e n t s s h o wm a tm et e c h n i q u ea c h i e v c sl 懿sm a l l2 f a l s ep o s i t i v e 锄df a l s en e g a t i v er a t i o s , a 1 1 dl o wp a c k e tl o s sr a t i o 。b u tf o rm ed a t aw l l i c hi s 拓越圆m i t t e db yb i t c o 瑚m e t 、b i t s p i r n 、7 i r h i c he x t 锄dm eb t p r o t o c o l ,m es c a l a b i l i t ) ,i sn o t s o9 0 0 d h o w e v t h ec a p a b i l 毋o n h i g hs p e e dn e 咖i ki ss t i l lw a i t i n gf o rs t u d y 洫g k e y w o r d s :p 2 p ,仃a 伍ci d 锄t i f i c a l i o n ,b i t r r o r r e n t ,p a y l o a d i i 1 p 目录 目录 第一章引言1 1 1 选题意义及背景1 1 2 研究面临的困难和关键技术2 1 3 本文的组织结构。3 第二章p 2 p 的介绍。4 2 1p 2 p 与c s 模式互联网技术的比较4 2 2p 2 p 的发展过程。5 2 2 1 第一代p 2 p 系统中心化结构( 集中式p 2 p ) 5 2 2 2 第二代p 2 p 系统一纯分布式p 2 p 6 2 2 3 第三代p 2 p 系统一混合式p 2 p 8 2 3 网络特点9 2 3 1 分散化9 2 3 2 可扩展性9 2 3 3 健壮性。1 0 2 3 4 隐私性1 0 2 3 5 高性能。1 0 2 4 常用协议1 l 2 4 1b t 协议1 1 2 4 2e d o l l l 【e v 协议1 2 2 4 3g n u t e l l a 协议1 2 2 4 4 迅雷1 3 2 5 本章小结1 4 第三章b i t t 0 r r e n t 原理和特征1 5 3 1b i t t o 玳i n t 下载机制15 3 1 1 文件片的下载1 5 3 1 2b i t t o r r e n t 激励机制1 6 3 2b i t t 0 玳m t 原理概述1 7 3 2 1 跟踪服务器1 8 i l i 目录 3 2 2 种子文件19 3 2 3 客户端。1 9 3 3b t 有效载荷特征2 2 3 4 客户端与跟踪服务器( 蛔c k 神通讯数据的特征2 4 3 5 小结2 4 第四章b t 流量识别技术2 5 4 1b i 佃d 玳斌流量识别的研究情况2 5 4 2 协议分析2 7 4 2 1t c p m 基本原理2 7 4 2 2t c p 首部3 0 4 3 协议分析软件w h s h a r k ( e n l e a l ) 31 4 4 基于流量特征的b t 识别技术的改进3 3 4 2 1 验证实验一3 4 4 2 2 验证实验二3 5 4 3 小结3 6 第五章基于有效载荷的b t 流量识别的实现和性能研究3 8 5 1 识别原理3 8 5 2 实现方案3 9 5 2 1 实现环境。3 9 5 2 2 原型模型结构3 9 5 2 3 原型模型的实现3 9 5 3 性能研究4 6 5 3 1 准确性4 6 5 3 2 可扩展性5 0 5 3 3 包丢失率5 l 5 4 小结5 1 总结5 3 致谢5 4 参考文献5 5 附录a 主要源程序5 8 1 1 选题意义及背景 第一章引言 随着网络的发展和普及,p 2 p 应用已成为目前网络的“杀手应用”之一。有别 于传统的c s 网络服务模型,p 2 p 应用可以更加快速可靠的传递文件和信息,但是 p 2 p 也给网络运营带来很大压力。一些研究【l 卅表明由于p 2 p 的普及,传统的网络 流量特征已经发生改变,如骨干线路所承载的网络流量从以前的绝大多数为 w w w 应用流量转变为p 2 p 流量。p 2 p 应用的普及对网络性能有极大影响,给当 前的互联网结构和路由器等关键设备的正常运营带来一定的问题。由于其对网络 的消极影响,一些i s p 甚至试图阻塞p 2 p 网络应用的流量,这种做法阻碍了网络 的发展,也降低了i s p 的市场竞争力,只能是权宜之计。为保证互联网的正常运 营和网络的使用效率,迫切需要对p 2 p 应用在大规模互联网中的行为特征进行分 析和研究,研究其对互联网影响的广度和深度,分析其影响产生的原因,对其协 议和应用方式进行改进和优化,减少其对网络的消极影响。因此,识别网络中的 p 2 p 流量是这些研究的基础。然而,当前p 2 p 的应用很多,比较著名的有b i t t 0 r r e n t , e d o i l l 【e v ,k a z 觚,g 1 1 u t e l l a ,迅雷等等,其中b i t t i o e n t 以飞快的发展速度迅速成 为p 2 p 界的霸主。随着近几年p 2 p 流量识别的大量研究,出现了很多新技术和新 方法,大量的p 2 p 流被识别出来并加以控制。在这样的情况下,p 2 p 的传输者之间 为了避开相关监控设备的识别和控制,逐渐采用加密的方式进行p 2 p 握手消息通 信,这样给p 2 p 流量的监测和控制带来了更加严峻的挑战。 当前p 2 p 应用很多,比较著名的有b i t t 0 玎c m ,e d o l l k e y ,g n u t e l l a 、迅雷等等。 如果要求识别出每一种p 2 p 应用显然超出了本文的范围,因而,本文仅仅讨论如 何识别一种主要的p 2 p 应用,即b i f r o 蚴t 。 b i t ,r o 玎翎t ( b t ) 是一种典型的p 2 p 应用,由c o h e i l 在2 0 0 2 年发明,此后在全 球受到热捧。目前,全世界的b t 用户数已经超过了4 5 0 0 万。据c a c h e l o 西c 的网 络流量统计,2 0 0 4 年年底,b t 的下载流量已经达到了全球网络流量的3 0 。据统 计,当前在我国的i n t e n l e t 主干网络的通信流量中,有6 0 以上是属于p 2 p 应用, 而p 2 p 应用中,大约5 0 【5 】以上的通信流量被近几年发展起来的b t 应用占有。 目前在p c 和普通的网络环境下,使用b i t t o r r e n t 下载,速度能够达到1 m b p s ,而 电子科技大学硕士学位论文 通过传统的f t p 或者h r r p 方式下载速度一般不超过1 0 0 p s 。从以上所述情况 发现,研究b i t t o 艄l t 的流量特征,准确识别网络中的b t 流,对分析p 2 p 网络特 征有着十分重要的作用。因此,本文以b i t r r c n t 为研究对象,研究其数据流的有 效载荷特征来对b t 流更好的识别。 1 2 研究面临的困难和关键技术 要得到足够多的特征用以识别各种b t 数据包面临着几个困难: ( 1 ) 缺乏一个完整的,最新的,标准的b t 协议规范。虽然,b t 协议的文档是 公开的,但是,并不完整,甚至某些内容已经过时。 ( 2 ) 仅仅研究协议描述是不够的识别b t 流量需要具体的特征。 ( 3 ) 当前的p 2 p 加密方式很多,新型p 2 p 流的加密握手包,无法识别。而b t 也存在同样的问题。 本文结合可用的文档信息,公开的b i t n r r c - n t 源代码和从数据包记录的分析中 抽取的信息找出潜在的特征,克服原有研究的缺陷,力争能够更有效的识别b t 数 据包。 为了能够在有限的时间内完成研究目标,同时也受研究条件所限,对b t 的研 究不可能面面俱到,这里列出本文涉及到的几个关键技术: ( 1 ) b i t t b r r e n tv 删sb i t c o m e t 、b i t s p i r i t :b i 佃删是由b t 协议的作者c o h 髓 开发的b t 软件,是一个开放源代码的软件,而b i t c o m e t 、b i t s p i r i t 则是在b i 佃d r r e n t 基础上进行扩展和改进发展出来的软件,其源代码是不开放的,并且数据可以加 密传输。基于研究最纯正的b t 传输的目的和可以研究源代码的优势,本文将重点 放在对b i t t o 小斌传输的数据的研究上,要求能够准确识别它传输的数据,而对 b i t c o m e t 、b i t s p i r i t 则仅仅对其传输的实际数据作分析,要求能够识别它们传输的 数据即可,并不深入研究。 ( 2 ) t c pv e r s u su d p :根据b t 协议,b t 传输应该是基于t c p 的。然而经过 b i t c o m e t 、b i t s p i r i t 等软件的扩展,现在已经可以基于u d p 来进行数据传输。但 是即使是b i t c o m e t 或b i t s p i r i t ,目前基于u d p 传输的比重也不是很大,再加上本 文研究的重点是b i t ,r o 册l t 这个遵守b t 协议的软件,所以文中仅研究基于t c p 传 输的b t 包的有效载荷特征,而对于基于u d p 传输的b t 包不做考虑。 ( 3 ) 用户之间通讯v e r 叭s 与跟踪服务器通讯:p 2 p 传输的数据有两部分,一 部分是客户端与客户端之间进行数据传输,另一部分则是客户端与跟踪服务器通 2 11 讯。由于客户端与跟踪服务器的通讯传输的数据量很小,故不将其作为研究重点, 仅仅根据其数据特征识别出跟踪服务器即可,同时也不将它们之间传输的数据包 归为p 2 p 数据包。而用户之间的通讯则是本文研究的重点。 ( 4 ) 对其他的p 2 p 协议及应用软件,其协议的源代码和重要技术不公开,我们 只能对实际的数据传输情况进行研究,并以此为依据来分析比较得出规律。 1 3 本文的组织结构 本文主要研究的内容: 1 将p 2 p 和传统的c s 模式进行比较得出p 2 p 网络的特点。 2 简单介绍了几种常用p 2 p 协议及应用 3 在阐述b t 协议的传输原理及其过程的基础上,对传输过程中各阶段信息 包的有效载荷特征进行详细的分析。 4 通过对网络流量的抓包分析比较得出b t 流量特征规律,将b t 从其它的 网络流量中识别出来。 5 根据识别原理得出原型模型的实现,并对识别技术的准确性、可扩展性和 包丢失率进行详细的分析,得出该方式存在一定的实用价值性。 本文的其余章节安排如下: 第2 章讨论p 2 p 的发展过程和其网络结构特点,以及当前流行的p 2 p 协议。 第3 章首先对t c p 口的基本原理和t c p 报文包头的进行简要阐述,然后介绍 b t 的工作原理和b t 数据包有效载荷的特征。为下一章的b t 流量中的t c p 包有 效载荷流量特征的识别给出理论基础。 第4 章首先简要阐述了当前b t 流量识别的研究情况,然后描述了如何利用第 3 章提供的有效载荷特征,对原有b t 流量的识别技术进行改进。 第5 章首先根据识别原理得到原型模型的实现,再对b t 流量识别方法的准确 性和可扩展性等进行分析。 最后,总结全文。 电子科技大学硕士学位论文 第二章p 2 p 的介绍 p 2 p 即p e 髓t 0 - p e e f ,可以理解为“伙伴对伙伴”的意思,或称为对等网。在这 种网络中所有节点都是平等的,也就是对等,各个节点具有相同的责任和能力协 调完成任务。p 2 p 对于大家来说其实也不是什么新技术,自从h 吐e m e t 出现以来就一 直存在,它只不过是因为n a p s t e r 的流行才引起人们对该技术的极大兴趣,但正是 这项技术或者称之为思想,将很可能改变整个互联网的基础。p 2 p 技术的发展以及 p 2 p 技术与网络技术的结合,影响了整个计算机网络的概念和人们获取信息的模 式,从真正意义上实现“网络是计算机,计算机就是网络 的梦想。 2 1p 2 p 与c s 模式互联网技术的比较 p 2 p 技术与c s 模式互联网技术的根本区别在于两者的拓扑结构不同,或者说 两个系统中节点间的连接方式不同。分布式网络拓扑结构存在四种基本形式:集 中式拓扑、环型拓扑、树型拓扑和分散式拓扑。将这四种基本的拓扑结构相互结 合还可以形成各种混合式拓扑结构。部分p 2 p 技术属于纯分散式拓扑,其余的多属 于带有服务器的混合式拓扑结构,而c s 模式为集中式拓扑。当前互联网的主要 技术模式是c s 模式,要求设置拥有强大处理能力和大带宽的高性能计算机,再配 合高档的服务器软件,将大量的数据集中存放在服务器上,而且还要安装多样化 的服务软件,在集中处理数据的同时还可以对互联网上的其他需求提供服务,发 送或接收数据,提供处理能力及其他的应用。而p 2 p 技术的主要特征就是弱化服务 器的作用,甚至取消服务器,把与服务器联机并接受服务的客户端利用起来,实 现任意两台p c 互为服务器,同时又是客户端。 c s 模式导致互联网上的信息资源和成本资源均在服务器上集中,这种模式 的优点是易于管理、安全性好,而且符合一对多、强对弱的社会关系形式,从网 络发展的历史长河来看,至少目前为止c s 模式是符合市场需求的。p 2 p 方式其优 势在于降低了对服务器的依赖,将信息资源、成本资源都向互联网的各对等点分 布,也就是所谓的“边缘化 趋势。一些p 2 p 模式甚至不需要服务器,用户可以不 经过服务器和其他用户直接进行连接和信息交互。该方式交互性、即时性好,符 合“一对一刀的特点,以及彼此对等的社会关系形式,也是符合市场需求的。由 4 j 1、_ 第二章p 2 p 的介绍 于以上这些各自的优点,许多机构和公司同样重视p 2 p 和c s 模式,两种模式各有 千秋,所以这两种方式在较长的时间内将会共同生存下去,关于p 2 p 将会完全替代 c s 模式的说法是不成立的。p 2 p 有其独特的市场空间,是现有互联网应用的补充。 p 2 p 与c s 模式的对比如图2 1 所示: 2 2p 2 p 的发展过程 图2 1c s 与p 2 p 模式的对比 p 2 p 的发展【6 - 8 】经历了这样几个阶段: 2 2 1 第一代p 2 p 系统中心化结构( 集中式p 2 p ) 第一代p 2 p 系统采用的集中式网络架构( 如图2 2 所示) ,该系统结构有维护简单 且发现效率高的特点。在该系统中通过中心化的目录系统来发现资源,所有对等 端( p e e r ) 被要求首先登录到中心服务器上,然后通过中心服务器实现所有对等端 的共享文件目录信息的保存和维护。由于网络中资源的发现都依靠中心目录系统, 该结构采用了一种快速搜索算法,该算法排队响应时间短、灵活高效,并且能够 实现复杂的信息查询。第一代p 2 p 系统的典型代表是著名的m p 3 共享软件n a p s t e r p j 。 n a p s t e r 【9 】是最早出现的p 2 p 技术的代表软件,在非常短的时间内迅速的成长起 来。在n a p s t e r 模型中,所有n a p s t e r 用户上传的音乐文件索引和存放位置的信息 都保存在一群高性能的中央索引服务器上,当用户a 需要查询某个音乐文件时,将 向中央服务器提出查询请求,因此,首先连接到n a p s t e r 中央索引服务器,然后在 服务器上进行检索和查询后,服务器再把符合查询请求的音乐文件的对等机信息 电子科技大学硕士学位论文 返回给请求用户a 。用户a 收到服务器返回的信息后,选择合适的对等机与之建立 连接,并开始传输音乐文件。 实质上n a p s t e r 并非是纯粹的p 2 p 系统,它是将数据文件的存储功能分摊到每 个对等机上,而n a p s t e r 的中央服务器只提供数据文件存放的对等机地址信息。 n a p s t e r 的用户和服务器间只有查询资源地址信息的关系,再根据这些地址信息, 对等机间直接进行连接和文件数据的传输。n a p s t e r 首先实现了文件查询与文件传 输的分离,有效地节省了中央服务器的带宽消耗,减少了系统的文件传输延时。 图2 2 集中式p 2 p 中心化结构模型对于小型网络系统而言,在管理和控制方面具有很大的优势, 但随着网络规模的发展,对中央索引服务器的维护和更新将会更加的困难,而且 如果一旦服务器出现故障将导致整个网络的瘫痪,同时还容易引起访问的“热点 现象和版权纠纷等相关问题。由于以上原因,该结构模型不适合于大型网络应用。 2 2 2 第二代p 2 p 系统纯分布式p 2 p 纯分布式p 2 p 结构也被称为全分布式非结构化拓扑结构。其结构形式如图2 3 所示,在该网络结构中没有中心服务器的参与,此时网中的所有节点都成为真正 意义上的对等端。在该结构模型中,没有中央服务器,所有的对等端既是客户机 同时又是服务器,共同来负责相互问的通信与搜索,节省了客户机和服务器的通 信时间,还采用了p 0 w e r l a w 规律( 幂次法则) ,从而能够更快地发现目的结点。 没有服务器这个中央控制点,不会因为服务器的故障而导致整个网络的瘫痪,提 6 第二章p 2 p 的介绍 高了系统的可靠性和安全性,是真正意义上的分布式网络。这种模式具有自组织 行为,不需要对中央服务器进行更新和维护,节约了这部分费用,降低了成本。 该结构最显著的代表就是g n u t e l1 a 。 图2 3 纯分布式p 2 p 在g n u t e l l a 【l o 】网络中没有中央索引服务器,每台机器既是客户机同时又是服务 器,是真正意义上的对等关系,我们称这些机器为对等机( s e r v e n t ,s e r v e r + c 1 ie n t 的组合) 。因此,和n a p s t e r 相比g n u t e l l a 是更加纯粹的p 2 p 系统。在文件检索方面, g n u t e l l a 与第一代集中式p 2 p 结构也有很大的不同。最初,g n u t e l l a 采用的是随机 图f l o o d i n g 发现和随机转发的方式。由于g n u t e l l a 支持带有规则表达式的多关键 词查询、模糊查询等复杂查询,因此当一台客户计算机要下载一个文件时,首先 以相应的关键字生成一个查询,然后把这个查询发送给与该客户计算机相连的所 有其它计算机,如果这些计算机存在这个文件,则与查询的客户计算机建立连接。 如果不存在这个文件,这些计算机则继续随机的在与自己相邻的计算机之间继续 转发这个查询,直到找到下载文件为止。在该方式中一般通过t t l ( t i m et ol i v e ) 的减值来控制查询的深度,避免查询的消息一直传递下去。 这种网络结构中,每个客户计算机都拥有自身文件的列表和与之相连的客户 列表,当某个计算机想要下载文件时就向其他与之相连的计算机发送查询信息, 并且这些相连的计算机又向与它相连的计算机传送下去,这样反复查询下去。大 家想象一下,随着联网节点的不断增多,网络规模的不断扩大,再加上每次数据 搜索都在全网进行,将会造成网络流量的消耗急剧增加,搜索速度及其缓慢,甚 至导致网络中部分低带宽节点因网络资源过载而失效。 7 。一 电子科技大学硕士学位论文 2 2 3 第三代p 2 p 系统混合式p 2 p 第三代p 2 p 我们称之为混合式p 2 p ,它结合了集中式和分布式p 2 p 的特点,采用 的混合式架构( 如图2 4 所示) ,在有的文章口删也称之为半分布式拓扑结构。该结 构中选择性能较高的超级节点( s u p e r p e e r ) 作为分布式中心服务器,各节点间 相互连接。s u p e r p e e r 是由p 2 p 软件自动随机选择的,在这些s u p e r p e e r 上存储了 系统中一部分节点的信息,并负责为这部分普通p e e r 提供目录服务。在混合式p 2 p 中超级节点充当了集中式p 2 p 中央服务器的角色,它只是负责辅助网络中的对等节 图2 4 混合式p 2 p 点间建立连接,如果连接一旦成功,各对等节点之间将直接进行通信,不再需要 服务器。当某个节点提出查询请求时,将该请求信息发送给与之相连的超级节点, 超级节点间再相互转发,最后再由超级节点选择适当的叶子节点转发查询请求。 在混合式p 2 p 结构中,发现算法在超级节点间实现,这就使得目录信息具有层次结 构。 该模式结合了第一代和第二代p 2 p 结构的优点,用分布的超级结点取代第一代 p 2 p 的中央检索服务器。查询请求不在整个网络洪发,而采用分层次的快速搜索方 式,改进了搜索性能,缩短了排队响应时间,而且每次排队产生的流量也低于第 二代分布网络,实现了快速检索以及网络的可测量性。超级智能结点的布设提供 较高的性能和弹性,没有中央控制点,也不会因为一点故障导致全部瘫痪。 本文要研究的对象b i t ,砌r 铷t 就属于第三代p 2 p 系统混合式p 2 p 的典型代表。 1j- , i k 第二章p 2 p 的介绍 2 3 网络特点 p 2 p 是i n t 锄c t 上的一种应用模式,它采用的是一种分布式系统结构,被称之 为“对等”,其意思是指网络上的任何设备( 包括大型机、p c 机、手机等等) 在 逻辑上具有相同的地位,之间都可以平等的直接进行连接和通信。和传统的集中 式客户朋艮务器( c s ) 模式相比,今天的p 2 p 结构中没有专用的中央服务器,系统中 的各个节点是一种对等的关系,并在网络中充当了客户端和服务器的双重角色。 每个节点可以请求服务,也可以提供服务,节点间可以直接交流信息而不必再通 过服务器,而且具有同一时间下载的人越多,下载速度就越快的特点。在大量的 研究发现和总结的基础上,得出p 2 p 网络具有以下几个方面的特点【7 声 l l ,1 2 j : 2 3 1 分散化 p 2 p 是一种分布式的结构,网络中的资源和服务不再集中在中央服务器上,而 是分散在所有节点上,由所有节点相互直接进行信息的传输和提供服务,无需中 间服务者服务器的介入,弱化了服务器的作用,同时也避免了服务器性能影 响导致的瓶颈。即使是在混合的p 2 p 中,虽然地址目录检索仍然需要集中式服务 器的参与,但大部分信息的交换最终在节点之间直接完成,早期服务器的功能已 经分散到各个节点上。 分散化是p 2 p 的最基本特点,由此带来了其在可扩展性、健壮性等方面的优 势。 2 3 2 可扩展性 在c s 模式网络结构中,由于服务器能力的限制,网络中的用户数量和服务 都非常有限,所以在服务器端就使用了用大容量高性能的计算机,铺设高带宽的 网络来支持网络中不断增加的用户及其需求。在此系统结构下,集中式服务器之 间的同步、协同等处理产生了大量的网络开销,导致系统规模的扩展非常受限。 而在p 2 p 网络中,大部分处理是直接在节点之间,服务器的作用主要是查找 节点资源、定位服务等方面,不会因为用户的增加降低服务器的能力或者产生大 量网络开销的情况,因而能够很容易地扩展到数百万个以上的用户。在诸如b t 等 p 2 p 应用中不会因为用户数量的增加导致速度的下降,反而是下载用户越多,速度 会越快。在p 2 p 网络中,随着用户的加入,在用户服务需求增加的同时,系统整 9 电子科技大学硕士学位论文 体的资源和服务能力也在同步地扩展,始终能够较容易地满足用户的需求。而对 于纯p 2 p 来说,整个体系是全分布的,不存在瓶颈。理论上来说,其可扩展性几 乎可以认为是无限的。 2 3 3 健壮性 在传统c s 模式中,采用的是集中式服务模式,信息资源和服务都集中在中 央服务器上,服务器成为整个系统的要害所在,一旦服务器出现问题,就会影响 到整个网络系统,导致系统瘫痪。而p 2 p 架构则天生具有耐攻击、高容错的优点。 在p 2 p 架构中,由于信息的传输和服务都不再依赖于服务器,而是分散在各个节 点之间直接进行的,如果部分节点失效或网络遭到破坏,系统能够自动调整整体 拓扑,保持其它节点的连通性。所以,在p 2 p 网络结构中,可能出现的各种网络 异常不会给系统的稳定性和服务的持续性带来多大的影响。事实上,p 2 p 网络通常 都是以自组织的方式建立起来的,并允许节点自由地加入和离开。一些p 2 p 模型 还能够根据网络带宽、节点数、负载等变化不断地做自适应的调整。 2 3 4 隐私性 计算机网络最大的特点就是资源共享,在共享资源的传输过程中,由于目前 的h n 锄e t 通用协议不支持隐藏通信端地址的功能,导致一些攻击者可以监控用户 的流量信息,更有甚者通过流量信息中的地址追踪到个人用户。随着互联网的迅 速发展,网络已经普及到人们生活和工作中,收集隐私信息也变得越来越容易, 隐私的保护作为网络安全研究的一个方面越来越被大家所关注。 目前,为了解决隐私问题,n e l l c t 网络中主要采用中继转发的技术,将通信 的参与者隐藏在众多的网络实体之中。而对于p 2 p 网络来说,所有节点既是客户 端又是服务器,所有节点都可以充当中继服务器,提供中继转发的功能,因而极 大地提高了匿名通讯的灵活性和可靠性,能够为用户提供更好的隐私保护环境。 与此同时,p 2 p 网络中信息的传输都分散在各节点之间进行,无需经过某个中间环 节,用户的隐私信息被窃听和泄漏的可能性也大大减小。 2 3 5 高性能 随着p 2 p 架构的出现和迅速发展以及该架构形式的高性能价格比的大幅度跃 升,使得p 2 p 被更加广泛的关注。随着当前微处理器、内外存等硬件技术的发展, l o 第二章p 2 p 的介绍 个人计算机的计算、存储以及网络带宽等性能依照摩尔定律高速的增长。然而即 使个人计算机性能高速的增长,在传统的互联网络中,个人计算机仍然只是以普 通客户机的身份连接到网络上,并作为信息和服务的消费者,作用于互联网络的 边缘。对于这些边际计算机节点的高性能来说,是一种极大的浪费。前面我们提 到,p 2 p 架构是将信息的传输和服务等资源分摊到网络中的所有节点上,由这些节 点来实现即使客户机又是服务器的功能。p 2 p 架构利用这种方式将网络中散布的大 量普通客户节点有效的利用起来,利用它们闲置的计算能力和存储空间,以实现 整个网络高性能的计算和海量存储的能力。这与当前高性能计算机中采用的分布 式计算的思想是一致的,同时利用网络中大量空闲的资源,还可以实现用更低的 成本来提供更高的计算和存储能力。 2 4 常用协议 p 2 p 其实并不是一个全新的概念,自从n e n l e t 出现以来它就一直存在。近些 年来,由于技术上的变化和计算能力的提高给p 2 p 带来了大范围的复兴以及飞速 的发展,从而也不断涌现出许多新型的p 2 p 协议及其应用软件。目前常用的p 2 p 协议及客户端软件如:b t 、n l u n d e r 、e d o i l k e y 、g r l u t e l l a 等。 2 4 1b t 协议 b i t ,r o r r e n t 网络【1 3 】是由p e e r s 与一个中心服务器组成。p e e r s 之间直接发送和接 收一个文件的某一部分,中心服务器( t r a c k 神的作用仅仅是调整p e e r s 的行为和管 理它们之间的连接。b i t t b 袱斌网络的服务器不负责为p e e r s 搜索文件,在b i t t l o 仃i m t 网络中p e e r s 通过w 曲上传种子文件( t o 删,通过点击种子文件的超链接下载文 件片。因此,b i t t o 艄l t 网络没有搜索阶段,大多数通过研究传输阶段的数据段来 提取特征值。 b i t t o r r e n t 协议使用的t c p 端口为6 8 8 1 6 8 8 9 。 网络中p e e r s 之间的连接始终是以一个固定长度的握手消息开始的,于是可以 通过提取如下的特征值来识别b i f r o r r e n t 协议: ( 1 ) t c p 载荷第一个字节的值是特征值1 9 ( o x l 3 ) 。 ( 2 ) 接下来1 9 个字节的值匹配于字符串“b i 仃。仃c i n tp r o t o c o l 。 电子科技大学硕士学位论文 2 4 2e d o n k e y 协议 当前有两个著名的基于w i n d o w s 的客户端软件采用了e d o i l k e vp 2 p 【1 4 】协议, 它们是e d o n k e y 2 0 0 0 和开放源代码的e m u l e 客户端。e d o i l l ( e y 协议通常使用两个 t c p 端口( 4 6 6 1 ,4 6 6 2 ) 和一个u d p 端口( 4 6 6 5 ) ,数据传输通过t c p 协议进行,而 控制包既可以用t c p 也可以用u d p 。 块的大小:在心伽e 客户端的源码中指出了e d o i l l ( e y 数据传输块的长度为 1 0 2 4 0 个字节,通常在8 个连续的数据包中。 在研究e d o n k e y 数据包之后,发现在搜索阶段和传输阶段都有如下一个通用 协议i d ( 1 b y t e )分组长度( 4 b y t e ) 在这里,e d o i l l 【e y 协议的d 值始终是1 6 进制的o x e 3 ( 吐钿1 e 的i d 值为0 x c 5 ) , 分组长度的值是t c p 数据包的长度减去e d o i l k e y 头的长度( 5 字节) 。所以可以从分 析结果中提取出如下的特征值来识别e d o i l l ( e y 协议: ( 1 ) 在t c p 头后面第一个字节的值应该是( o x e 3 ) 。 ( 2 ) 接下来的4 个字节应该是分组长度,其值应是t c p 数据包的长度减去 e 眦e y 头的长度( 5 字节) 。 2 4 3g n u t eiia 协议 受到n a p s t e r 规则变化的启发,另一个基于p 2 p 的模型g n l l t e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论