




已阅读5页,还剩58页未读, 继续免费阅读
(计算机应用技术专业论文)基于linux内核的p2p流媒体流量的识别与控制.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 1 1 111 11 1 1 1 i iii iii ii ii 、t17 3 615 4 原创性声明 本人声明:所呈交的学位论文是本人在导师的指导下进行的研究工作及取得的研究成 果。除本文已经注明引用的内容外,论文中不包含其他人已经发表或撰写过的研究成果,也 不包含为获得应苤直太堂及其他教育机构的学位或证书而使用过的材料。与我一同工作的同 志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢意。 学位论文作者签名趾指导教师签名:壤 日 期:幺g 之:笸:! 日 期: 塑z 芝:丝华 在学期间研究成果使用承诺书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:内蒙古大学有权将 学位论文的全部内容或部分保留并向国家有关机构、部门送交学位论文的复印件和磁盘,允 许编入有关数据库进行检索,也可以采用影印、缩印或其他复制手段保存、汇编学位论文。 为保护学院和导师的知识产权,作者在学期间取得的研究成果属于内蒙古大学。作者今后使 用涉及在学期间主要研究内容或研究成果,须征得内蒙古大学就读期间导师的同意;若用于 发表论文,版权单位必须署名为内蒙古大学方可投稿或公开发表。 学位论文作者签名:指导教师签名: 日期:2 叟 丝! 厶印 日 雅 内蒙古大学硕士学位论文 基于l if l u 内核的p 2 p 流媒体流量的识别与控制 摘要 p 2 p 流媒体技术的出现相对于传统的客户端服务器模式流媒体播放技术无 疑是一个巨大的进步。p 2 p 的体系结构弱化了服务器在网络服务中的重要程度, 使用户与用户之间可以对等地直接进行沟通,从而节省了宝贵的服务器资源。 在当前网络环境中,以u u s e e 和p p l i v e 等为代表的p 2 p 流媒体播放软件占用 了网络接入的大量带宽,降低了网络性能,劣化了网络服务质量,影响了其他 用户对网络的访问。同时,这类软件总是能最大限度地将带宽利用起来,带宽 的扩容永远只能是杯水车薪,其它用户对网络的正常使用仍然无法保证。因此 实现对p 2 p 流媒体流量的识别与控制越来越成为企业、学校急需解决的问题。 本文首先对p 2 p 网络的特点、p 2 p 流媒体流量识别的现状以及p 2 p 流媒体 发展可能带来的危害进行了研究。分析了目前p 2 p 流量识别方法的基本原理, 各方法在p 2 p 流量识别过程中的特点和存在的问题,以及其发展现状,发展趋 势。对u u s e e 播放网络系统进行研究,对其客户端软件在视频播放时的数据 包进行抓取,分析得到了p 2 p 流媒体播放软件u u s e e 流量特征以及数据包载 荷部分的特征值。对q u i c ks e a r c h 算法进行了研究,并依据文中所匹配模式串 对其进行改进。提出了一种新的获取p 2 p 流媒体数据包特征值的方法。研究了 l i n u x 2 6 2 2 新的内核防火墙n e t f i l t e r 系统框架及其扩展性,编写l i n u x 内核防 火墙扩展模块m y i p p 2 p ,实现了对p 2 p 流媒体流量的识别与控制。本论文所实 l 基于l i n u x 内核扩展模块的p 2 p 流媒体流量的识别与控制 现的扩展模块经过小型局域网环境下的测试,可以在不影响其他业务的情况下 有效的识别封锁u u s e ep 2 p 流媒体数据流,阻止用户收看所有的节目,取得了 良好的实际效果。 关键字:p 2 p 流媒体,u u s e e ,深度包检测,q s 算法,n e t f i l t e r i p t a b l e s , l i n u x r e s o u r c e s i nc u r r e n ti n t e r n e te n v i r o n m e n t ,p 2 ps t r e a m i n gm e d i aa p p l i c a t i o n , s u c h a su u s e ea n dp p l i v eo c c u p i e dal o to fb a n d w i d t h ,r e d u c e dt h en e t w o r k p e r f o r m a n c e ,d e g r a d e dt h en e t w o r kq u a l i t yo fs e r v i c e ,a f f e c t e do t h e r sa c c e s st ot h e n e t w o r k t h e s ea p p l i c a t i o n su t i l i z e da sm u c hb a n d w i d t ha st h e yc o u l d ,b a n d w i d t h e x p a n s i o nc o u l d d ol i t t l eo ne n s u r i n gq o s h o wt o i d e n t i f ya n dc o n t r o lp 2 p s t r e a m i n gm e d i a t r a f f i ca c c u r a t e l yw a sac r i t i c a lp r o b l e mt ot h ee n t e r p r i s ea n ds c h 0 0 1 i nt h i st h e s i sw ef i r s td i s c u s s e dt h e c h a r a c t e r i s t i c so fp 2 pn e t w o r ka n dt h e r e s e a r c hs t a t u sq u oo fi d e n t i f ya n dc o n t r o lp 2 ps t r e a m i n gm e d i at r a f f i c s t u d i e dt h e p o t e n t i a lh a r mc a u s e db yt h ep 2 ps t r e a m i n gm e d i at e c h n o l o g y a n a l y z e dt h eb a s i c p r i n c i p l e ,t h ec h a r a c t e r i s t i c s ,e x i s t e n t i a lp r o b l e m sa n dd e v e l o p m e n ts t a t u sa n dt r e n d s o ft h em e t h o do fi d e n t i f ya n dc o n t r o lp 2 ps t r e a m i n gm e d i at r a f f i c t h e ns t u d i e dt h e u u s e e s t r e a m i n gn e t w o r ka n dc l i e n t sp r o t o c o l s ,g o ti t sp a c k e t sc h a r a c t e r i s t i c sa n d s t r e a m i n gc h a r a c t e r i s t i c s s t u d i e d a n di m p r o v e dq u i c ks e a r c ha l g o r i t h m t h e n s t u d i e dl i n u x2 6 2 2 n e t f i l t e r i p t a b l e sf r a m e w o r ka n di t se x p a n s i b i l i t y ,a n dt h e n d e s i g n s a n di m p l e m e n t sal i n u xf i r e w a l ln e t f i l t e r - b a s e dp 2 ps t r e a m i n gt r a f f i c i d e n t i f i c a t i o na n dc o n t r o lm o d u l em y i p p 2 p i nt h el a ne n v i r o n m e n t s ,t h ee x p a n s i o n m o d u l ec o u l de f f e c t i v ei d e n t i f ya n db l o c k a d eu u s e em e d i at r a f f i cw i t h o u ta f f e c t i n g o t h e rb u s i n e s s ,p r e v e n tu s e r sw a t c h i n ga l lt h eu u s e ep r o g r a m s ,a n da c h i e v eg o o d p r a c t i c a lr e s u l t s i i i 基于l i n u x 内核扩展模块的p 2 p 流媒体流量的识别与控制 k e y w o r d s :p 2 ps t r e a m i n gm e d i a ,u u s e e ,d e e pp a c k e ti n s p e c t i o n , q u i c ks e a r c h a l g o r i t h m , n e t f i l t e r i p t a b l e s ,l i n u x i v 内蒙 摘要 a b s t r a c t 。 图表目录 第一章引言 1 1 研究背景1 1 1 1 p 2 p 简介l 1 1 2 p 2 p 技术特点1 1 1 3 p 2 p 应用技术分类3 1 1 4 p 2 p 发展及存在的问题3 1 2 p 2 p 流媒体应用4 1 3 本文研究内容5 1 4 本文的组织结构5 第二章国内外研究现状7 2 1 p 2 p 模型7 2 2 p 2 p 流媒体网络系统10 2 3 p 2 p 流量控制研究现状一1 1 2 3 1 深度包检测1 l 2 3 2 深度流检测12 2 3 3 两种p 2 p 流量识别方式比较13 2 4 相关产品13 2 5 小结1 4 第三章u u s e e 协议分析15 3 1 u u s e e 简介。l5 3 2 u u s e e 协议分析l5 3 2 1 u u s e e 网络特征1 5 3 2 2 u u s e e 播放列表的获取1 6 v 基于l i n u x 内核扩展模块的p 2 p 流媒体流量的识别与控制 3 2 3 u u s e e 数据包的分析1 8 3 2 4 u u s e e 的流量分析18 3 2 5 u u s e e 数据包长度的分析2 2 3 3 u u s e e 协议特征2 3 3 4 u u s e e 数据包载荷特征值的提取和验证2 3 3 4 1 q s 算法2 4 3 4 2 对u u s e e 数据包特征值的验证2 6 3 4 3 验证结果2 8 3 5 p 2 p 流媒体数据包特征值提取方法2 9 第四章u u s e e 控制模块m y i p p 2 p 的具体实现3 l 4 1 n e t f i l t e r 基础31 4 1 1 n e t f i l t e r 框架31 4 1 2 包选择工具i p t a b l e s 3 3 4 2 m y i p p 2 p 模块具体实现3 4 4 2 1 m y i p p 2 p 内核部分扩展3 5 4 2 2 用户空间扩展3 8 第五章性能测试与评估4 2 5 1 局域网测试环境4 2 5 2 局域网测试4 3 5 2 1 性能测试4 3 5 2 2 误判率测试4 4 5 3 本章小结4 5 第六章总结与展望4 6 6 1 总结4 6 6 2 展望4 7 参考文献4 8 致谢5l v i 内蒙古大学硕士学位论文 图表目录 图2 1 集中式p 2 p 网络系统7 图2 2 分布式p 2 p 网络系统8 图2 3 混合式p 2 p 网络系统9 图2 4b i t t o r r e n t 数据包特征值12 图3 1u u s e e 流媒体播放网络l5 图3 2u u s e e 获取播放列表的请求16 图3 3 频道列表u u t 删p l a y e r o v e r s e a x m l 16 图3 4 正在播放列表n o w p l a y _ l i v e x m l 17 图3 5 频道请求信息l7 图3 6 频道信息文件”c h a n n e li d x m l 1 7 图3 70 3 2 4 0 3 流量图a 19 图3 80 3 0 2 4 流量图a 19 图3 90 3 2 4 0 3 流量图b 2 0 图3 100 3 0 2 4 流量图b 2 0 图3 1 10 3 0 2 4 0 3t c p 流量图2 0 图3 120 3 0 2 4t c p 流量图2 0 图3 1 30 3 0 2 4 0 3u d p 流量图2 1 图3 140 3 0 2 4u d p 流量图2 1 图3 160 3 2 4 t c p 数据包长度组成2 2 图3 150 3 2 4 0 3 t c p 数据包长度组成2 2 图3 170 3 2 4 0 3 u d p 数据包长度组成2 2 图3 180 3 2 4 u d p 数据包长度组成2 2 图3 19q s 算法流程图2 6 图3 2 0q s 算法歧义问题2 7 图3 2 1 改进后的q s 算法结果2 7 图3 2 2q u i c k s e a r c h 0 函数2 8 v t i 基于l i n u x 内核扩展模块的p 2 p 流媒体流量的识别与控制 图3 2 3 获取p 2 p 流媒体应用数据包载荷特征值流程图3 0 图4 1n e t f i l t e r 处理流经网络接口的数据包过程图3 2 图4 2m y i p p 2 p 挂接位置3 4 图4 3x tm a t c h 结构实例。3 5 图4 4 匹配函数m a t c h ( ) 的实现3 7 图4 5 函数u d p _ s e a r c h _ u u s e e ( ) 3 8 图4 6s t r u c tx t a b l e s m a t c h 3 9 图4 7 打印选项函数h e l p ( ) 3 9 图4 8 解析命令函数p a r s e ( ) 4 0 图4 9 空间函数s t a t i cv o i di n i t 0 4 1 图5 1 局域网测试环境4 2 图5 2 系统内核工作日志4 3 图5 3 系统日志截图4 5 表3 1 用于u u s e e 协议分析所数据包的基本信息a 1 8 表3 2 用于u u s e e 协议分析所数据包的基本信息b 18 表3 3 小于7 9 字节的u d p 数据包长度分布2 4 表3 4 模式串p 中各字符移动的距离2 4 表3 5q s 算法匹配全过程2 5 表3 6q s 算法匹配结果。2 8 表3 7u u s e eu d p 数据包的备选特征值2 9 表4 1n e t f i l t e r 挂载点。3 2 表5 1 性能测试4 3 表5 2 常用软件测试结果4 4 v i 内蒙古大学硕士学位论文 1 1 研究背景 1 1 1 p 2 p 简介 第一章引言弗一早5l 苗 p 2 p 是p e e r t o p e e r 的缩写,可以理解为“端对端”、“点对点”,通常称为对等网络。i b m 则给p 2 p 赋予了广阔的定义,把它看成是由若干互联协作的计算机构成的系统并具备如下若 干特性之一:系统依存于边缘化( 非中央式服务器) 设备的主动协作,每个成员直接从其他成 员而不是从服务器的参与中受益;系统中成员同时扮演服务器与客户端的角色;系统应用的 用户能够意识到彼此的存在构成一个虚拟或实际的群体【心】。 p 2 p 是一种技术,但更多的是一种思想,有着改变整个互联网基础的潜能的思想。p 2 p 直接将人们联系起来,让人们通过互联网直接交流,使得网络上的沟通变得更容易,各用户 之间可以直接进行交互和共享文件,真正的消除了中间环节。p 2 p 技术允许终端用户利用 i n t e r n e t 架构一个动态、匿名、分布式网络来相互传递信息,颠覆了传统的c s 信息服务模 式,允许终端用户相互直接搜索和共享信息资源。p 2 p 改变了互联网以大网站为中心的状态, 重返“非中心化”,并把权力交还给用户,让我们的语言影像以最直接的方式传递到对方身边。 它最符合互联网络设计者的初衷,给了人们一个完全自主的超级网络资源库。p 2 p 使得互联 网的存储模式将由“内容位于中心”模式转变为“内容位于边缘”模式。p 2 p 的实质代表了信息 和服务在一个个人或对等设备与另一个个人与对等设备间的流动。p 2 p 应用并没有像在其发 展初期有人所预言的那样,因为涉及侵犯知识产权问题而逐步消亡,反而呈现出越来越迅猛 的发展势头【3 4 】。 1 1 2 p 2 p 技术特点 经过对现有p 2 p 技术和网络研究分析后发现,现有p 2 p 技术具有以下特点: 1 ) 分布化结构 基于l i n u x 内核扩展模块的p 2 p 流媒体流量的识别与控制 网络中的资源和服务分散在所有结点上,数据的传输和服务的实现都直接在节点之间进 行,可以无需中间环节和中心服务器的介入,避免了可能碰到的瓶颈。p 2 p 的非中心化基本 特点,带来了其在负载、可扩展性、健壮性等方面的优势。 2 ) 动态变化性 p 2 p 网络系统中往往存在大量节点,这些节点是动态的。第一,p 2 p 系统中节点是自主 的,节点可能会频繁的加入和离开网络,p 2 p 网络在不停的变化中。第二,加入到p 2 p 网络 的节点不仅在物理特性如延迟,带宽,性能上,而且在行为如共享文件数量,生命周期上都 具有比较大的动态差异性。 3 ) 负载均衡 p 2 p 网络环境下由于每个节点既是客户端又是服务器,减少了对传统c s 结构中服务器 计算能力、存储能力的要求,同时因为资源分布在多个节点,更好的实现了整个网络的负载 均衡。 4 ) 扩展性强 在p 2 p 网络中,随着用户节点的加入,不仅服务的需求增加了,系统整体的资源和服务 能力也在同步地扩充,能较容易地满足用户的需要。整个体系是分布式的,不存在瓶颈。理 论上其可扩展性可以认为是无限的。 5 ) 健壮性好 p 2 p 架构具有健壮性好、耐攻击、高容错的优点。由于服务是分散在各个结点之间进行 的,部分结点或网络遭到破坏对其它部分的影响很小。p 2 p 网络一般在部分结点失效时能够 自动调整整体拓扑,保持其它结点的连通性。p 2 p 网络通常都是以自组织的方式建立起来的, 并允许结点自由地加入和离开。p 2 p 网络还能够根据网络带宽、结点数、负载等变化不断地 做自适应式的调整。 6 ) 性价比高 性价比优势是p 2 p 被广泛关注的一个重要原因。随着硬件技术的发展,个人计算机的计 7 算和存储能力以及网络带宽等性能依照摩尔定理高速增长。采用p 2 p 架构可以有效地利用互 联网中散布的大量普通结点,将计算任务或存储资料分布到所有结点上。利用其中闲置的计 算能力或存储空间,达到高性能计算和海量存储的目的。通过利用网络中的大量空闲资源, 可以用更低的成本提供更高的计算和存储能力。 2 内蒙古大学硕士学位论文 7 ) 更好的隐私保护 在p 2 p 网络中,由于数据的传输分散在各节点之间进行而无需经过某个集中环节,用户 的隐私信息被窃听和泄漏的可能性大大缩小。此外,目前解决i n t e r n e t 隐私问题主要采用中继 转发的技术方法,从而将通信的参与者隐藏在众多的网络实体之中。在传统的一些匿名通信 系统中,实现这一机制依赖于某些中继服务器节点。而在p 2 p 中,所有参与者都可以提供中 继转发的功能,因而大大提高了匿名通讯的灵活性和可靠性,能够为用户的隐私提供更好的 保护机制。 1 1 3 p 2 p 应用技术分类 p 2 p 技术在底层来说,有一些共性的问题如节点表示、资源路由、可扩展性、安全性等 受到人们的普遍关注。从应用角度来看,目前p 2 p 技术研究主要涉及到以下几个领域【5 】: 提供文件和其它内容共享的p 2 p 网络,如n a p s t e r 、g n u t e l l a 、e d o n k e y 、b i t t o r r e n t 等; 挖掘p 2 p 对等计算能力和存储共享能力,如s e t i h o m e 、a v a k i 等; 基于p 2 p 方式的协同处理与服务共享平台,如j x t a 、m a g i 、g r o o v e 等; 即时通讯交流,如q q 、m e s s e n g e r 、g t a l k 等; 安全的p 2 p 通讯与信息共享,如s k y p e 、c r o w d s 、o n i o nr o u t i n g 等; 基于p 2 p 技术的网络电视,如p p l i v e 、p p s t r e a m 、q q l i v e 、u u s e e 等。 1 1 4 p 2 p 发展及存在的问题 实际上,大多数在p 2 p 网络上共享的文件是版权流行音乐和电影,包括各种格式( m p 3 , m p e g ,r m 等) 。匿名p 2 p 网络允许发布材料,无论合法不合法,在各种司法范围内都很 少或不承担法律责任。p 2 p 技术在我国法律方面处于空白状态,原则上不受政府的官方限制。 出于对国内产业支持和信息控制的考虑,也会限制一些p 2 p 方式的即时通讯软件。信息产业 部曾发文要求v o l p 只能在指定的网络运营商进行试验,并有地区封杀s k y p e 。2 0 0 9 年1 2 月, 广电总局以无视听许可证为由,由工信部撤消了b t c h i n a 网站的备案号,使其被迫关站。此 次行动还影响了包括悠悠鸟论坛等b t 站点。在日本,根据日本现行著作权法,日本境内一 切免费提供商业软件或其他数据下载的网站均属非法。违法情节严重的可被判处有期徒刑, 同时处以罚款。e m u l e 和b i t t o r r e n t 系列软件均被禁止【6 】。 3 基于l i n u x 内核扩展模块的p 2 p 流媒体流量的识别与控制 目前,p 2 p 的流量占国内互联网带宽的6 0 8 0 ,包括了普通p 2 p 数据流量和p 2 p 视 频流量,这说明:一方面对于运营商来讲,p 2 p 流量已经成为杀手级宽带互联网应用。p 2 p 业务不断增加,造成了网络带宽的巨大消耗,甚至引起网络拥塞,降低其它业务的性能。另 一方面对于企业用户来说,内部员工利用企业网下载文件或收看流式媒体占用了巨大的网络 资源:而通过并不安全的网络环境获得的应用程序和p 2 p 协议,将可能为企业安全防护打开 一扇后窗,使得病毒和恶意代码得以躲过安全审查潜入企业内部网络。 1 。2 p 2 p 流媒体应用 如今随着技术的发展i n t e r n e t 上的传输内容早己由单纯的文字传输转变成为包含文本、音 频、视频的多媒体数据传输。这样的改变不仅使i n t e m e t 使用者能获得更为丰富多样的信息, 同时也标志着多媒体网络时代的来临。对于目前的i n t e m e t 带宽要实现实时网络的视频、音频 传输,最好的解决方案就是采用流式媒体的传输方式。 传统的分布式多媒体系统主要使用客户端服务器模式,服务器以单播的方式和每个客户 建立连接。由于流媒体服务具有高带宽、持续时间长等特点,随着客户数目的快速增加,无 论服务器资源( 如带宽) 很快就会被消耗殆尽,成为系统瓶颈。为了解决系统的可扩展性问 题,许多研究都提出了相应的解决办法,如i p 组播技术、针对服务器提出的缓解负载技术 以及内容分发网络技术,然而由于实现困难或只能有限缓解服务器压力等原因,这些技术都 没有取得显著的效果【7 】。而p 2 p 模式可以在大规模的网络应用中有效提高系统的可扩展性随 着p 2 p 网络技术和多媒体信息处理技术的飞速发展,我们已经无需再忍受c s 模式那种服务 器以单播的方式和每个客户建立连接。基于p 2 p 技术的流媒体网络电视是内容为主导,同时 集传输、解码、播放于一身的新技术,与传统的流媒体应用技术相比具有以下优势: 服务器不再是瓶颈,用户可以流畅地观看视频节目。 资源使用少,服务提供商只需很少的服务器,就可以提供很好的服务。 客户端程序简单便利。只需安装一个软件,就能看到绝大部分感兴趣的电视。 用户不再是被动地接受来自广播电视的节目,而是在自己方便的时间来接收自己需要的 信息。这将在一定程度上提高受众的地位,使他们在新闻和广告传播中占有主动权,对新闻 媒体的活动产生更为直接的影响。 4 内蒙古大学硕士学位论文 但随着p 2 p 流媒体服务的迅猛发展,也存在着一些问题,主要表现在以下两个方面: ( 1 ) 不同于有线电视专网,p 2 p 流媒体服务架设在互联网的开放环境中,只要掌握了 平台技术,任何个人或组织都可以进行视频内容的传播,不利于对p 2 p 流媒体节目实行有效 的监管。而仅仅利用加入节点即可插播有害内容,攻击手段隐蔽性更强,成本更低。 ( 2 ) 同p 2 p 文件共享协议一样,p 2 p 应用抢占了6 0 糊0 的网络带宽,、仅将剩余带 宽留给非p 2 p 用户,容易引起企业及i s p 瓶颈链路的阻塞,p 2 p 流媒体传输应用提供端到端 的数据传输,使得任何两个普通节点之间都可能存在大量数据业务,业务的分散性与不确定 性极大增加了中转链路的流量。 1 3 本文研究内容 p 2 p 流媒体流量控制通常包含三大步骤:流量采集,流量识别和流量控制。其中,流量 识别是最关键、最核心的环节。因此,p 2 p 流媒体流量识别技术的研究对进行p 2 p 流媒体流 量控制具有十分重要的意义。对于p 2 p 流媒体识别控制领域,国内外依然处于摸索阶段,没 有太多成熟经验可供借鉴。目前国内外对p 2 p 流媒体的识别研究大多基于流量分析,特征值 研究较少,并且p 2 p 流媒体具有高流量性,突发性以及连接相对稳定性等特征,在不同的网 络环境下应采取不同的识别方法。本文通过利用w i r e s h a r k 抓取u u s e e 客户端软件播放视 频时的数据包,然后根据包中数据部分的内容进行统计分析,找到u u s e e 协议数据包特征 值。对q s 算法进行研究,根据本文中所用的模式串的特点对q s 算法进行改进用以验证 u u s e e 数据包的特征值。并通过编写l i n u x 内核防火墙n e t f i l t e r 的扩展模块,实现对u u s e e 流量的识别与控制。 1 4 本文的组织结构 第一章介绍了整个p 2 p 技术的发展史,p 2 p 应用技术的分类、p 2 p 流媒体的特点以及对 其监控的意义和原因。 第二章介绍了国内外p 2 p 流媒体技术的研究现状以及p 2 p 流媒体流量识别和控制方法。 第三章对u u s e e 流媒体客户端进行分析在经过大量实验数据统计分析后,从协议角度 分析u u s e e 协议流量特征,从单一节点的数据角度分析了p 2 p 流媒体的流特点。通过改进 基于l i n u x 内核扩展模块的p 2 p 流媒体流量的识别与控制 q s 算法,对得到的u u s e e 流媒体数据包特征值进行了验证。并提出了获取p 2 p 流媒体数 据包特征值的方法。 第四章介绍了u u s e e 流量控制模块m y i p p 2 p 的总体设计与架构,以及具体实现方法。 第五章描述了在小型局域网中对m y i p p 2 p 模块实际测试情况,介绍了流量控制模块的运 行情况,并进行了评估。 第六章是对本文工作的总结与对未来的展望。 6 1 ) 集中式 芝二p 图2 1 集中式p 2 p 网络系统 f i g 2 1c e n t r a l i z e dp 2 pn e t w o r ks y s t e m 集中式的网络组成如图2 1 所示,它需要节点登录到一个中心索引服务器,这个服务器 维护着所有登录的节点及其共享文件的信息。节点需要向服务器查询保存有所需文件的所有 节点信息,然后它将访问这些节点并开始进行文件传输,服务器并不参与实际的文件传输。 通常这些p 2 p 应用会使用一个固定的t c p 端口。从某种意义上说,集中式p 2 p 网络同分布 式的p 2 p 思想相矛盾,因为它们需要有一个中心服务器。然而,这种网络可以提供最有效最 快速的文件传输方式,并且同时具有相当高的搜索命中率。 n a p s t e r 是集中式结构的著名代表。这种网络模型存在很多问题,主要表现为: 7 芦v 基于l i n u x 内核扩展模块的p 2 p 流媒体流量的识别与控制 中央服务器的瘫痪容易导致整个网络的崩溃,可靠性和安全性较低。随着网络规模 的扩大,对中央索引服务器进行维护和更新的费用将急剧增加,所需成本过高。 中央服务器的存在引起共享资源在版权问题上的纠纷。 2 ) 分布式p 2 p 图2 2 分布式p 2 p 网络系统 f i g 2 2d i s t r i b u t e dp 2 pn e t w o r ks y s t e m 分布式p 2 p 网络模型取消了传统的客户端月艮务器模型中的中央服务器在这种网络模型中 每个节点随机的接入网络中,并且与相邻的节点都建立一条端到端的连接。分布式p 2 p 网络 模型也被称为纯p 2 p 网络模型。所要查询的内容都是通过相邻节点之间的相互连接来实现的, 在搜索信息的同时,每个节点还会保存下搜索的轨迹,保证不出现搜索环路。目前分布式p 2 p 网络模型最典型的代表就是g n u t e l l a 。 这种系统中由于已经完全没有了中央服务器,每个本地节点上都会保存相关的一些信息, 节点在寻找要连接的节点时,就是通过这些保存的信息来进行的,它通过在网络上发布广播 消息来完成对共享文件的搜索。当一个节点要搜索信息的时候,就向网络上的其它节点发送 广播消息,在网络上的相邻节点收到查询消息之后,首先会检索自己的共享文件,就把自己 的确i p 地址和所找到的文件信息返回给发送消息的节点,如果没有,就把收到的查询信息发送 给其它相邻的节点,并把查询消息中的t t l 值减1 ,反复进行上面的操作,直到t t l 值为零 或找到目标文件为止。 内蒙古大学硕士学位论文 由于分布式p 2 p 网络模型的结构简单,不需要昂贵的中央结点服务器,所以投资也相对 较少,并且信息分布比较散,也有利于用户信息和隐私的保护。这种网络模型的缺点在于定 位和查找比较复杂,容易遭到攻击等。另外随着网络规模的扩大,使用广播方式查找速度会 相对比较低,查找信息时会增加网络的流量,造成网络拥塞问题。 在第二代p 2 p 中常使用一些方法来绕过网络安全设备: p o r t - h o p p i n g :p 2 p 软件不再使用固定的端1 2 1 号,每个p e e r 使用一个随机的或手工设 置的端口号。 、e l l - k n o w np o r t s :一些p 2 p 软件可以使用h t t p 协议的8 0 端口来绕过防火墙的限制, 来获取网络访问的权限。因为企业都会开放一些已知端口网络访问权限,比如8 0 端 口,同样的,一些i s p 会在8 0 端口上提供更好的服务质量,因为这些数据流会被认 为是h t t p 协议。 h t t pt u n n e l i n g :在许多企业网络中,通常只有使用h t t p 代理才能够访问互联网, 因此那些不是基于h t t p 协议的或是不支持h t t p 代理的应用程序是不能访问网络 的。为了避免这些限制,很多p 2 p 应用都采用了h t t p 作为它们的协议来逃避管理 员的监控。 因此,为了精确地鉴别某一应用程序,需要一种工具可以对应用层数据进行检测。 3 ) 混合式p 2 p 图2 3 混合式p 2 p 网络系统 f i g 2 3h y b r i dp 2 pn e t w o r ks y s t e m 9 一蓼一毋鲥 访 馓锨 基于l i n u x 内核扩展模块的p 2 p 流媒体流量的识别与控制 混合式p 2 p 网络模型的系统机构中共包含用户节点、搜索节点和索引节点3 种节点。普 通的节点就是指的一般的用户节点,在网络中仅仅是充当一个客户端。搜索节点从它们的相 邻节点中搜索那些带有信息的节点,这种节点要在网络中不断的进行搜索,所以对网络连接 速度要求比较高。索引节点的作用保存那些搜索到的信息、标识信息的状态以及让网络的结 构保持在一个稳定的状态,所以搜索节点一般选择那些连接速度快的节点。而且一个节点可 以既作为搜索节点也作为索引节点。每个搜索节点能够维护的孩子节点的个数是相对一定的, 共享信息列表是由孩子节点提供的。当网络中的一个用户节点作为孩子节点存在时候,就提 供给父节点这些共享信息。 在混合式p 2 p 网络模型中最关键的一点就是索引节点的引入,实质上索引节点只是为用 户的下载连接提供了一个地址,也就是说它只是告诉用户节点想得到的资源在什么地方,至 于用户下载的内容是和索引节点无关的。混合式p 2 p 网络模型还有一个特点就是在网络中建 立了一些用于搜索的特殊节点,这些用于搜索的特殊节点的实质就是起到一个中间桥梁的作 用,也就是说当用户学要查找所要相连的节点时,先是通过这些索引节点进行连接,然后再 实现信息的查询。用户节点直接相连的搜索节点的个数满足要求( 搜索节点的个可以由用户自 己设定) 就可以停止搜索,如果没有所设定的个数的要求,则会发送搜索请求给它旁边相邻的 一些搜索节点,若是达不到需求的个数,会采用一种类似递归的方式一直向外发送请求直到 后来发现所有的节点都已经被访问到过,则说明所有的搜索节点都已经被搜索到了,这样就 加快了搜索速度。 p 2 p 系统在不断地发展,我们上面所描述的三种网络模型是p 2 p 最典型的三种网络模型, 也还有其它的一些p 2 p 的网络模型。这些p 2 p 网络模型各自有各自的优点,但也有一些不足 之处。混合式p 2 p 网络模型是将这些网络模型的优缺点结合的最好的一种,所以它也是当今 使用比较多的一种网络模型。随着计算机性能和网络带宽的不断提高,以后可能还会出现一 些更为先进的p 2 p 网络模型。 2 2 p 2 p 流媒体网络系统 p 2 p 流媒体系统与p 2 p 文件共享系统最大的不同在于对等节点间数据共享的模式:传统 文件共享系统是“下载后运行”( p l a y - a f t e r d o w n l o a d ) 模式,而流媒体系统采用“边下载边运 l o 内蒙古大学硕士学位论文 行”( p l a y w h i l e d o w n l o a d i n g ) 。因此,与传统的p 2 p 文件共享系统相比,p 2 p 流媒体系统 需要为流媒体数据的实时传输提供要求更为严格的资源管理和控制功能。 在结构上,p 2 p 流媒体整体网络也引入超级节点( s u p e r p e e r ) ,既有集中式结构的特点, 又有完全分布式的特点,同时也采用d i s t r i b u t e dh a s ht a b l e ( d h t 表) 进行超级节点定位。超 级节点相当于一个小型服务器,将其它的节点再组织成一个自治的组,对普通节点的管理先 在本地所属的组内进行,超级节点之间进行有限的泛洪进行网络结构的维护。这种结构可以 在一定程度上消除纯p 2 p 结构中使用泛洪算法带来的网络拥塞、搜索迟缓等不利影响。同时, 由于每个组中的超级节点监控所有普通节点的行为,这也能确保一些恶意的攻击行为能在网 络局部得到控制,并且超级节点的存在也能在很好的提高整个了网络的负载平衡,克服了传 统c o n t e n td e l i v e r yn e t w o r k ( c d n ) 网络的诸多弊端8 。9 ,1 9 1 。 2 3 p 2 p 流量控制研究现状 如今的p 2 p 应用程序相对于早期采用固定端口进行通讯的p 2 p 软件已经发生很大变化。 由于p 2 p 应用没有国际通用的标准,且许多p 2 p 协议都是源码公开的,很多特征都可由软件 开发者自行定义,所以许多实际应用的协议实现与公开的协议文档不一致。不再使用固定的 端口号,为了躲避内容监管,现有p 2 p 应用程序大多对其载荷进行了加密处理来伪装自己的 数据包。加密特性使得常规的模
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年饮料行业健康饮品市场前景研究报告
- 2025年医药行业医疗器械市场需求预测报告
- 2025年放射科影像学报告结果解读模拟试卷答案及解析
- 不高考协议书
- 抚州高新区2025年公开招聘五级主办工作人员【11人】笔试模拟试题及答案解析
- 玛沁县公安局2025年下半年招聘警务辅助人员笔试备考试题及答案解析
- 2025年消化科肠胃溃疡疾病的饮食调理模拟测验答案及解析
- 2025广东潮州市教育局直属学校赴“百万英才汇南粤”潮州市秋季招聘会(广州站) 招聘教师14人笔试模拟试题及答案解析
- 2026秋季中国移动通信集团云南有限公司校园招聘笔试备考题库及答案解析
- 2025年滁州全椒县县属国有公司“凤还巢”人才返乡招募7人笔试备考试题及答案解析
- 2025面向机器学习的数据标注规范
- YY/T 0339-2024呼吸道用吸引导管
- 围手术期高血压专家管理共识
- 外科患者疼痛护理与管理
- 租金延迟缴纳申请书
- DL-T 2563-2022 分布式能源自动发电控制与自动电压控制系统测试技术规范
- 食堂工作人员培训内容
- 骨折康复护理的常见问题和处理方法
- 泛影葡胺在消化道造影中的应用
- 2022年11月四川省凉山州中级人民法院逐级遴选4名法官笔试题库含答案解析
- 两江三镇说武汉智慧树知到答案章节测试2023年武汉纺织大学
评论
0/150
提交评论