(计算机软件与理论专业论文)p2p流量监控技术研究与应用.pdf_第1页
(计算机软件与理论专业论文)p2p流量监控技术研究与应用.pdf_第2页
(计算机软件与理论专业论文)p2p流量监控技术研究与应用.pdf_第3页
(计算机软件与理论专业论文)p2p流量监控技术研究与应用.pdf_第4页
(计算机软件与理论专业论文)p2p流量监控技术研究与应用.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(计算机软件与理论专业论文)p2p流量监控技术研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔滨t 程歹j 学硕十学伊论文 摘要 p 2 p ( 对等网络) 业务流量在对i n t e m e t 起巨大推动作用的同时,也带来 了因资源过度占用而引起的网络拥塞、安全隐患以及数字版权等问题,p 2 p 的自由开放性令其成为盗版和非法内容滋生传播的温床。在p 2 p 网络中,引 入对等概念,使得用户之间共享其中的带宽、共同处理其中的信息,每个终 端既是客户端又是服务器,网络模型趋于扁平化。 随着p 2 p 应用的大量出现,网络流量模型出现了一些变化:p 2 p 流量成 为i n t e m e t 的主要流量,占到总量的6 0 8 0 ,下载型业务和视频类业务占 大部分,妨碍了正常的网络业务的开展,己成为杀手级的宽带互联网应用; 由于p 2 p 的对称特点,导致网络流量模型逐渐从不对称模型向对称模型迁移; p 2 p 为了保证传输质量,需要创建大量的连接,而这些连接并不真正传输数 据,浪费了网络资源。 在这种背景下,如何有效的对p 2 p 流量进行监控,己成为迫在眉睫的研 究任务。论文在这方面的工作有:总结分析了当前国内外现有的p 2 p 流量识 别与控管技术,包括常见方案、系统部署等;在分析深层数据包优势的基础 上,设计并验证识别b t 流量、d h t 流量以及阻断b t 流量的方案;研究p 2 p 流量模型与传统c s 流量模型的区别,并重点分析局域网p 2 p 流量模型与公 网p 2 p 流量模型的区别,提出并验证识别局域网p 2 p 流量的方案;结合深层 数据包检测和局域网p 2 p 流量在传输层的连接特征,辅以有状态节点方法实 现p 2 p 流量监控系统。 关键词:对等网络( p 2 p ) ;网络流量模型;流量识别;控管技术;深层数据 包检测;传输层连接特征 哈尔滨t 千罕,:学硕十学伊论文 a b s t r a c t p 2 pt r a c f f i cp l a y sah u g er o l ei nt h ei n t e m e tp r o m o t i n g ,b u ta l s ob r i n g s a c c o u p a t er e s o u r c e so v e rt h en e t w o r kc o n g e s t i o n ,s e c u r i t ya n dd i g i t a lc o p y r i g h t i s s u e s ,t h en a t u r e so ff r e ea n do p e nl e tp 2 pn e t w o r kb e c o m i n gb r e e d i n gg r o u n df o r t h es p r e a do fi l l e g a lc o n t e n th o t b e d i np 2 pn e t w o r k ,t h ec o n c e p to fp e e ra l l o w s u s e r st os h a r eb a n d w i d t h ,j o i n t l yd e a lw i t ht h ei n f o r m a t i o n s ,e a c ht e r m i n a li sb o t h ac l i e n ta n das e r v e r , w h i c hm a k i n gn e t w o r km o d e lt e n d st of l a t w i t ht h el a r g en u m b e ro fp 2 pa p p l i c a t i o n s ,n e t w o r kf l o wm o d e lt h e r eh a v e b e e ns o m ec h a n g e s :p 2 pt r a f f i ch a sb e c o m et h em a i nf l o wo fi n t e m e t ,a c c o u n t i n g f o r6 0 - 8 0 o ft h et o t a l ,d o w n l o a d i n ga n dv i d e o b a s e do p e r a t i o n sa c c o u n t e df o r t h em a j o r i t yo fb u s i n e s s ,w h i c hi m p e d et h en o r m a ln e t w o r ko p e r a t i o n sc a r r i e do u t , h a sb e c o m et h ek i l l e r a p p l i c a t i o n o fb r o a d b a n di n t e r n e t ;d u et ot h ep 2 p c h a r a c t e r i s t i co fs y m m e t r y , n e t w o r kt r a f f i cm o d e l sg r a d u a l l ym i g r a t ef r o m a s y m m e t r i ct os y m m e t r i cm o d e l ;i no r d e rt oe n s u r et r a n s m i s s i o nq u a l i t y , p 2 pn e e d t oc r e a t eal a r g en u m b e ro fc o n n e c t i o n s ,w h i c ha r en o tr e a l l yd a t at r a n s m i t i o n c o n n e c t i o n s ,b u tw a s t eo fn e t w o r kr e s o u r c e s ; i nt h i s b a c k g r o u n d ,h o we f f e c t i v em o n i t o r i n go fp 2 pt r a f f i c h a sb e c o m e e x t r e m e l yu r g e n tr e s e a r c ht a s k s t h e s i sw o r k si n t h e s ea r e a s :s u m m a r i za n d a n a l y z et h ec u r r e n td o m e s t i ca n df o r e i g ne x i s t i n gp 2 pt r a f f i ci d e n t i f i c a t i o na n d c o n t r o lt e c h n o l o g y , i n c l u d i n gt h ec o m m o np r o g r a m ,s y s t e md e p l o y m e n t ,e t c ;o n t h eb a s i so fa n a l y z i n gt h ea d v a n t a g e so fd e e pp a c k e ti n s p e c t i o n ,d e s i g na n dv e r i f y p r o g r a m o fi d e n t i f i c a t i o no fb tt r a f f i c ,d h tt r a f f i ca n d b l o c k i n g b t t r a 衢c ;r e s e a r c ho nd i s t i n c t i o nb e t w e e np 2 pt r a 街cm o d e lw i t ha n dt r a d i t i o n a lc s t r a f f i cm o d e l ,w i t haf o c u so na n a l y s i so fl a nn e t w o r kt r a f f i cm o d e la n dp u b l i c n e t w o r kt r a f f i cm o d e la b o u tp 2 p , d e s i g na n dv e r i f yp r o g r a mo fi d e n t i f yp 2 pt r a f f i c i nl a nn e t w o r k ;c o m b i n a t i o no fd e e pp a c k e t i n s p e c t i o n a n d c o n n e c t i v i t y c h a r a c t e r i s t i co fl a np 2 pt r a f f i ci nt h et r a n s p o r tl a y e r , d e s i g na n di m p l e m e n tp 2 p t r a f f i cm o n i t o r i n gs y s t e ma s s i s t e db ys t a t e f u ln o d em e t h o d 哈尔滨t 干旱大学硕十学伊论文 k e yw o r d s :p e e r - t o - p e e r ( p 2 p ) ;n e t w o r kt r a 伍cm o d e l ;t r a 伍ci d e n t i f i c a t i o n ; c o n t r o lt e c h n o l o g y ;d e e pp a c k e ti n s p e c t i o n ;c o n n e c t i v i t y c h a r a c t e r i s t i c so ft r a n s p o r tl a y e r 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由 作者本人独立完成的。有关观点、方法、数据和文献的引用已在 文中指出,并与参考文献相对应。除文中己注明引用的内容外, 本论文不包含任何其他个人或集体已经公开发表的作品成果。对 本文的研究做出重要贡献的个人和集体,均己在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 作者( 签字) : 剃 日期:沙j 年弓月7 日 哈尔滨工程大学 学位论文授权使用声明 本人完全了解学校保护知识产权的有关规定,即研究生在校 攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨 工程大学有权保留并向国家有关部门或机构送交论文的复印件。 本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据 库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本 学位论文,可以公布论文的全部内容。同时本人保证毕业后结合 学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈 尔滨工程大学。涉密学位论文待解密后适用本声明。 本论文( 口在授予学位后即可口在授予学位1 2 个月后 口 解密后) 由哈尔滨工程大学送交有关部门进行保存、汇编等。 作者( 签字) :亏骂q 日期: 如7 年弓月f 日 导师( 签字) :弧志豫 矽,年3 月归 哈尔滨t 程,:学硕十学伊论文 第1 章绪论 1 1 课题研究背景与意义 一般认为1 9 9 9 年n a p s t e r 的出现是p e e r t o p e e r ( p 2 p ) 应用兴起的标志, 这种应用使用户的机器具有客户端和服务器的双重角色。近年来,也由传统 文件共享发展到实时处理的软件电话及多媒体通信服务( 包括网络电视等) 领域。特别是基于p 2 p 系统的文件共享应用不断壮大,如k a z a n , 、e d o n k e y 、 b i t t o r r e n t 、p p l i v e 等。据3 c o m 公司技术白皮书称,p 2 p 的流量已经占据 i n t e r n e t 上7 0 的流量,同时据张云飞等人测量结果表明2 0 7 的p e e r s 传 输了9 0 的p 2 p 流量( p 2 p 流量符合重尾分布) ,p 2 p 应用使得极少数人占用 了绝大部分网络带宽资源。这造成了网络带宽的巨大消耗,容易引起网络拥 塞,降低网络性能,劣化网络服务质量,使得网络资源使用紧张,其他比p 2 p 应用更重要的应用无法得到网络资源的保证。同时由于p 2 p 系统本身签字认 证引起的安全问题,已经受到网络运营商和网络管理者的高度重视。近年来, 关于p 2 p 的版权官司已经在全球相继开审,封杀p 2 p 的呼声此起彼伏。但是, 简单的封杀并不能解决问题,如何对p 2 p 流量进行监控,寻求i n t e r n e t 用户、 网络运营商( 网络管理员) 和内容提供商三方面博弈的解决方案,是一个值 得深入研究的问题。 1 2 国内外研究现状与发展趋势 1 2 1p 2 p 流量识别国内外研究现状 p 2 p 应用在近两年内经历着快速变化的过程。由简单到复杂,由低级到 高级。其网络结构也经历了由中心控制到全分布的变化,其端口特性也由最 初的固定端口发展到随机动态端口再到伪装端口。i n t e r n e t 上p 2 p 应用软件也 是层出不穷,国内外的研究学者在这方面也做出了大量的研究,并取得了一 定的成果。随着p 2 p 技术的不断演进,p 2 p 流量检测技术也在不断完善,目 前国内外关于p 2 p 流量检测的技术主要有以下几种: 哈尔滨一i :程,:学硕十学伊论文 1 基于端u 的p 2 p 识别 为了实现简单,早期的p 2 p 应用大都使用默认的传输层端口,比如o 4 4 版本的e m u l e 就使用t c p 端口4 6 6 2 、u d p 端口4 6 7 2 或者4 6 7 3 。这种识别 方法的特点是简单快速,然而一些p 2 p 协议不使用固定的端口,而是动态地 使用随即端口,也包括盗用一些知名服务的端口,比如k a z a a 就是使用了 h t t p 的服务端口8 0 来通信的,而像d i r e c tc o n n e c t 、b t 等更是使用了随机 端口。h t t p 隧道、端口跳跃等技术的使用更是加大了识别、跟踪、控制的 难度。文献【2 】 3 4 5 采用该方法研究p 2 p 。 2 基于深层数据包扫描的识别( d p i 技术) 深层数据包检测技术( d p i ) 是通过对数据包进行应用层协议的还原解析 来发现p 2 p 应用。这种技术使用一个载荷特征库存储载荷特征串,符合载荷 特征串的数据包即视为p 2 p 数据包。 几乎每种p 2 p 应用都基于自己的应用层协议,通过数据报报文捕获,分 析报文特征,为每种p 2 p 应用层协议定义唯一的特征串,定义特征串的原则 为:选择该协议特有的,交互过程中必须出现且实际环境中出现频率最高的 字段作为协议的特征串。这种方法的特点是识别率高,根据一次p 2 p 会话的 头几条报文检测出该p 2 p 应用,并且能把后续的报文分类到所属的p 2 p 会话。 据有关资料表明该方法的识别正确度高达9 5 。但是这种方法是通过识别包 载荷中的特征字段来捕捉相应的p 2 p 流量,它依赖于报文内容,面对负载加 密的p 2 p 流量或者内容特征尚未公布的新型p 2 p 流量显得力不从心。此外, 算法检测性能与载荷特征串的复杂度有关,载荷特征越复杂,则检测代价越 高,算法性能越差。 文献 6 使用应用层签名识别技术,分析了多种流行的p 2 p 协议,并提出 了应用层签名。他们提出的分类器能精确识别流量,并能利用模式匹配发现 协议签名。文献 7 也采用了特征码识别的方式对流量进行分析,发现p 2 p 文 件共享行为并未如传言中的那样因为版权问题而减少,反而有增长的趋势。 文献 8 则将特征码识别用于服务分类。文献 9 提出了自动发现应用层签名技 术。 3 基于流统计特性的识别 这一识别方法是建立在p 2 p 网络的测量工作的基础上,p 2 p 测量是进行 哈尔滨t 干几了:学硕十学伊论文 p 2 p 流量监控和网络行为学分析的基础,它主要分为p 2 p 流量特征测量、p 2 p 拓扑特征测量和p 2 p 可用性测量等【l2 1 。可选择的流量特征集合非常庞大,通 常需要联合多个统计特征来组成具有识别p 2 p 能力的描述集【l3 1 ,包括数据包 层面特征( 数据包平均长度) 、数据流层面特征( 平均流持续时间、平均流字 节数等) 、连接层面特征( 连接对称性等) 。文献 1 4 1 1 1 5 1 1 6 分析了部分知名 的p 2 p 网络协议的流量特性,这些协议流量通常在某些区域或某时间段内占 所p 2 p 流量的主体,是运营商和研究学者关注的对象。另外一些p 2 p 测量工 作则从其他方面研究了p 2 p 网络的特性,如文献 1 7 从流( f l o wl e v e l ) 层面研究 p 2 p 网络的拓扑特性。文献 1 8 研究了诸如瓶颈带宽等属性,文献 1 9 研究p 2 p 网络数据交换的c a c h e 问题。 p 2 p 流量具有两个明显特点:一是宏观上的昼行性;另一方面是微观上 的自相似性。s e n 5 j 等人的研究结果表明,f a s t t r a c k 、g n u t e l l a 、d i r e c tc o n e c t 等三种p 2 p 流量在傍晚和凌晨之间最大,在上午显著下降。p l i s s o n n e a u 等人 对b i t t o r r e n t 和e d o n k e y 测量结果表明,这两种p 2 p 应用的流量也有类似的 特点。2 0 0 4 年韩国的j o os d t j 等人对p 2 p 流量的自相似形特征进行了验证, 结果表明,p 2 p 流量的h u r s t 参数等于0 9 7 4 ,具有明显的自相似性特征。根 据微观上的自相似性,确立了基于流统计特性的识别方法。基于流的识别方 法是基于统计的观点 ,通过分析p 2 p 流的几个特征属性( 平均速率、字节 数等) ,从宏观上进行识别。研究表明,p 2 p 流量具有长时间固定连接、数据 量大、高速传输、非突发性、上行流量与下行流量相当等特点。通过分析不 同数据流的属性,可以把p 2 p 流与其它应用的数据流区别开来。有些流的特 征和p 2 p 的相似,如:f t p 文件传输。对于这些流,可以综合端口识别方法 进行判断。基于流的p 2 p 识别方法可以将p 2 p 从其他非p 2 p 服务类型区别开, 易于检测对负载进行加密的流量以及新出现的和未知的p 2 p 流量,但是不能 区分具体是哪种p 2 p 协议,另外,这种方法的灵活性好但精确性不高。 4 基于传输层的行为特征识别 t h o m a sk a r a g i a n n i s 2 0 】等人在仔细研究了p 2 p 流量的传输层特征后,于 2 0 0 4 年提出一种基于传输层连接特征的p 2 p 流量检测方法。该方法以p 2 p 流量在传输层所表现出来的两种一般特性为依据并结合传统的端口检测技 术。基于传输层的p 2 p 识别与基于流的p 2 p 识别有相似之处,都是通过宏观 哈尔演t 挥j j 学:硕十学伊论文 分析自勺方法进行识鄹,丽不进行任何微观内容的检测,迈i | 司之处在于,基于 流的p 2 p 识别依据的是p 2 p 流的字节数,平均速率以及持续时间等属性特征, 焉传输层的p 2 p 识别则是根据p 2 p 连接的p 地址和端麓号的连接特征进行 识别的。网基于流的识别方法一样,这种识别方法最大的问题也是不能区分 出具体的p 2 p 协议,灵活性较好,即可以识别未知的p 2 p 协议,据称该方法 可以识别9 5 左右的p 2 p 应用,误判率在8 1 2 。 文献【2 l 】在文献【2 0 】输出的p 2 p 节点分类基础上,进步提出利用传输层 特征来区分p 2 p 普通节点和超级节点的算法,该算法应用了如下启发:知名 超级节点端口:些协议为超级节点保留了专用的侦听端口( 如 k a z a a l 2 1 4 ) ,另外一些协议的普通节点烫l 使雳僳留的端嗣与超级节点遽信, 如( f a s t t a c k l 2 1 3 ) ,超级节点转发来自节点的查询,超级节点只转发查询请 求至超级节点。 文献 2 2 1 通过在传输层上考察p 2 p 主机在网络中的流行度、功能角色和 功能小图( g r a p h l e t ) ,并根据此总结战启发集( h e u r i s t i c ) ,主要从社会、功 能和应用三个层次柬分别研究p 2 p 主机的行为特征:社会层次,考查与该主 机通信的其他主机的数目及主机群落;功能层次,考查主机在网络中的功能 角色,郎充当客户概、服务器或者两者皆有;应用层次,考查不瞬应用类型 的网络主机呈现的不同通信模式( 即g r a p h l e t ) ,对其首先按照四元组分类, 再根据特定流的信息( 协议类型、包长度) 进一步细化。 文献 2 3 1 研究了网络中参与特定协议和端阴的主机连接图并考虑到p 2 p 协议的大直径和许多节点同时充当客户机和服务器焦色等重要特性,归纳撼 了如下启发,将某个端口归为p 2 p 应用( 别人评论实验表明该法误称率过高, 且文中并未讨论算法实现的可能性) :记录各个主机在每个端口进出的连接并 通过测量主机的层次来估计网络的直径;在特定端墨同时充当客户杌和服务 器角色的主机数目大于某个设定的阐值;估计的网络直径大于等于2 ;在网 络的第一屡和最后一层存在的主枧数黧大于设宠的边缘屡次阐值。 在生命期内p 2 p 节点需要发送控制数据包与分布式架构网络交互,而且 节点通常会使角一个或多个u d p 端盈来实现该控制功能,这说明采用分蠢式 架构的p 2 p 应用大都具有同样的u d p 连接模式,文献 2 4 】总结出如下p 2 p 识 别魍发:在固定时间间隔x 内,从单个撙地址、固定的u d p 端口与很多( 比 4 哈尔滨i :稃f :学硕十学位论文 如y 个) 目的p 地址、固定或随机的u d p 端u 通信;x 与y 分别耳义值5 和 3 时分类结果比较理想;另外,需要通过业务功能端口排除传统的d n s 、游 戏及媒体服务器以防止误判。 5 统计分类识别 应用统计分类的方法将网络流量分为p 2 p 应用和非p 2 p 应用,常用的分 类方法有贝叶斯分类器、基于支持向量机( s v m ) 、基于无监督学习的聚类 等。文献 2 5 表明,s v m 方法对p 2 p 流量识别具有很高的精确度和推广度, 值得进一步研究。文献 2 6 1 2 7 表明,选择适当的流量行为特征和聚类算法进 行流量分类进而识别p 2 p 是可行的,并且可以取得比较满意的分类结果。 6 其他方法 文献 2 8 通过研究发现,在中心化的、纯分布式的或者混合的p 2 p 网络 中,比如s k y p e 、k a z a a 、s h a r e a z w 、b i t t o r e n t 、e m u l e 和e d o n k e y 等应用, 其对等节点不通过d n s 来查询来得到目标节点的相关i p 地址信息,而是从 中心服务器或者超级节点或者d h t 网络得到相关节点的信息,因此d n s 服 务器的日志记录能作为p 2 p 主机节点的一个凭据。根据陈振祥【2 8 等人的实验, 在一个5 分钟的问隔内,对于一个固定i p 主机节点,如果它发出连接的主机 数目超过5 个,但是d n s 关于该主机的查询日志为空,那么这可能就是一个 p 2 p 主机。用一个数学公式来描述,在5 分钟内,某一个固定i p 的d n s 查 询记录数记为n l 。g ,它所连接的i p 地址数记为n 。1 1 ,记f d n s = n 1 。g n 。i i 。如果 f d n s 等于0 ,那么这个i p 所在主机可以认为是一个p 2 p 节点,f d n s 越小是p 2 p 节点的可能性就越大。通过主机i p 地址的识别,可以分类出集中式p 2 p 中的 目录服务器及混合式p 2 p 中的超级节点,进而通过源地址p 对p 2 p 流量进 行识别检测。 1 2 2p 2 p 流量控管国内外研究现状 随着b t 等一系列p 2 p 应用的兴起,网络流量犹如洪水到来,各运营商 正在面临巨大的网络压力。首先运营商并不能全面封杀p 2 p ,这其中不仅仅 有违反电信法的嫌疑,更重要的是,运营商需要的是控制应用层流量带宽, 并制定q o s 保障与制定应用占用带宽的优先级别,在带宽富裕的情况下是允 哈尔滨t 程大学硕十学伊论文 许用户尢限制的使用p 2 p 应用。封杀b t 虽能节省一部分带宽,但b t 的不 可用会直接导致用户的满意程度大大下降,这是运营商不希望看到的。而对 于企业网络来说,p 2 p 应用占用了大部分的带宽资源,导致网络服务质量恶 化,丢包率、时延及时延抖动大大增加,使部分对端到端q o s 要求较高的非 p 2 p 业务受到很大影响,因此有完全封杀或者一定范围内限制p 2 p 使用的需 求。因此,p 2 p 控管技术主要是指p 2 p 封堵技术和p 2 p 限速技术。 但是在学术界,关于企业网络的p 2 p 流量封杀和限速技术的文献很少, 大部分都集中在如何使网络运营商最有效的利用网络带宽,经过探测网络带 宽,如果资源充分,则不对p 2 p 流量进行控制;相反,如果资源有限,甚至 出现网络拥塞的情况下,对p 2 p 流量进行控制。文献 2 9 研究a z u r e u s b i t t o r r e n t 客户端,修改了协议中节点选择策略,使选择的节点尽量分布在一 个自治系统a s ( a u t o n o m o u ss y s t e m ) 内,使b t 流量本地化,减少网络流量 ( i s p 之间的流量) 。修改的选择策略依据是:b t 协议中使用动态d n s 将客 户端重定向到延时较低的服务器,如果两个客户端被重定向到一些类似或者 相同的服务器,就认为两客户端间的距离较近,极有可能在同一个自治域内。 文献 3 0 31 】 3 2 对于节点的选择算法提出质疑,如果选择的算法能偏向于一 个a s 内,将有效降低i s p 之间的p 2 p 流量。文献 3 3 】 3 4 3 5 3 6 】利用缓存技 术:诱导i s p 的w e b 缓存来缓存p 2 p 数据,即把p 2 p 文件或者p 2 p 流分成 段,用h t t p 协议伪造成h t t p 数据。文献 3 8 提出在不同的自治系统a s e s ( a u t o n o m o u ss y s t e m s ) 放置代理缓存( 分段法和部分缓存法) 的方法实现 流量的监控。文献 3 4 提出了两种缓存算法。文献 3 7 在p 2 p 全局网络角度上 看,使用动态路由策略来平衡p 2 p 网络的流量,一个路由发生拥塞,把流量 平衡到其他路由;动态路由策略带来的负面影响:包无序到达等在p 2 p 网络 没有影响,因为p 2 p 网络本身就是多点并行下载。文献 4 0 提出p 2 p 网络具 有小世界规律和幂率特征,即小部分节点具有更高的连接度,也就意味着这 些节点对整个p 2 p 网络的贡献相对于低连接度的节点要大。文献 4 1 在 4 0 的基础上还提出对连接度高的节点进行删除,可以破坏p 2 p 拓扑结构,降低 节点间的连通性,达到控制p 2 p 流量的目的。 以上是从网络运营商的角度出发,从p 2 p 本身的架构、所用的底层协议 等出发,在本质上寻找减少p 2 p 流量的方法。从企业监控的角度上看,流量 6 哈尔滨1 _ 挥,:学硕十学位论文 控管有两大类,表1 1 是两种方案的比较结果: 1 直路串接流量控制 直路串接流量控制设备通常以透明模式串接入网络设备中,通过对网络 上各种类型的应用流量进行分类,并根据控制策略,利用硬件( 路由器、网 络处理器等) 和软件( 防火墙、i d s 系统、l i n u x 的t c 等) 相结创 j ,可根 据一定算法将需要控制的p 2 p 流量数据包丢弃。p 2 p 数据传输的两端客户端 由于在一定时间内未收到数据包或确认信息,将启用t c p i p 协议的拥塞控制 机制或应用层协议进行降速传输,从而实现对p 2 p 流量进行控制的目的。直 路串接流量控制采用丢弃数据包的方式,控制方式比旁路方式直接,不占用 额外的干扰接入端口。但是所有的网络数据流都要经过流量控制设备处理再 进行转发,容易带来附加延时,引起网络服务的质量问题;由于检测设备必 须部署到网络流量真实路径上,有可能形成处理瓶颈和单点故障;直路串接 方式对流量控制设备的处理和转发性能要求都很高。文献 4 2 】采用特征码匹 配算法识别p 2 p 数据包,在高性能的三态内容寻址存贮器和修改的2 g b i t s 的 线速病毒特征匹配算法基础上实现了线速匹配数据包,在直路串联基础上用 随机丢弃策略来有效控制高带宽的p 2 p 流量。文献 4 3 1 系统安置在i n t e m e t 边际路由器之外,通过扩展l i n u x 内核库,利用共享库实现用户数据空间与 内核空间的数据交互,扩展防火墙的规则集,从而实现p 2 p 流量控制的方法。 文献 4 4 在直路上,结合网络处理器i x p 2 4 0 0 ( 硬件) 和深层数据包检测法 识别p 2 p 流量,采用丢弃( 单令牌桶算法) 和转发来控制流量。文献 4 5 对 b t 软件进行工作原理和过程分析;提出了利用代理缓存( 代理服务器是网络 中的一台主机,它隔断了内部网络和外部网络的直接联系) 技术来减少 i n t e m e t 网络数据传输量,防止网络拥塞,提高网络性能;b t 阻断是通过挂 断种子文件的请求( 伪造f i n 报文) 。 2 旁路干扰流量控制 旁路干扰流量控制主要采用数据包伪装技术将伪装的干扰数据包发到正 在通信的t c p 、u d p 流中,降低连接的数据传输速率或者切断连接以达到流 量控制的目的。由于p 2 p 数据传输采用t c p 或u d p 方式,因此旁路干扰流 量控制方法有如下几种:t c p 阻断,通过伪造并发送t c pr s t 报文来截断 t c p 连接;t c p 降速,通过伪造并发送特殊s e q u e n c e 报文来减小t c p 的滑 哈尔滨t 稗歹:学硕十学伊论文 动窗l j 值;u d p 截断,通过伪造并发送p 2 p 应用层特殊控韦0 命令方式来截断 u d p 连接,比如b t 协议中的c a n c e l 消息意味着下载结束,接收方在收到 消息后自动停止;u d p 降速,通过伪造并发送p 2 p 应用层特殊控制命令方式 来降低u d p 连接的传送速率,比如b t 协议中的c h o c k 消息意味着网络拥 塞,接收方在收到消息后自动减缓发送速度。避免采用串接模式部署p 2 p 流 控制设备,不会对原有网络性能造成任何影响。但是旁路干扰方法技术单一, 不能对流量进行精确控制。 表1 1 直路串接方案与旁路干扰方案的比较 性能点直路串接旁路干扰 是否有性能瓶颈是 否 单点故障问题 有 无 扩展性差好 部署方便性差好 控制效果好中 1 2 3p 2 p 流量监控技术发展趋势 p 2 p 流量监控技术,指p 2 p 流量识别技术和p 2 p 流量控制技术。所要解 决的主要问题是如何准确地识别网络中各种形式的p 2 p 应用流量,并且自己 设定策略,对其进行有效的控制管理,以实现p 2 p 流量的精细化管理。它涉 及到信息论、数据挖掘、机器学习等多个科技术。在p 2 p 流量监控中,经常 用到信息论来分析流量。比如利用一些分布变化情况来衡量流量的某个特征 的信,皂、量。这种方法常用来描述流量的特征,例如:利用熵理论来分析流量 特征的变化。 现有的几种识别方法都有一定应用背景,对于快速演化的p 2 p 应用,有 些力不从心。单一的识别方法已经不能满足于现在的网络,多种识别方法的 结合是将来的研究重点。另外,如何提取更为有效的p 2 p 内在行为特征,也 将是未来p 2 p 流量识别中的重要工作。目前,随着数据挖掘和机器学习技术 的不断发展,已经有很多研究人员将机器学习中的贝叶斯分类、雅各布算法 等常用手段引入到流量识别的研究当中,如何利用这些数学工具,深入挖掘 p 2 p 流量的内在行为分析,根据其不变传输特性建立相应的分析模型,提出 哈尔滨7 - 挥了:学硕十学伊论文 新的理论框架是王见今一个比较自挑战性的问题。 对于流量控管,封堵不是出路 4 6 】,而应该是从封堵到疏导,引导p 2 p 的 有效使用。在直路串联系统中应用带宽测量技术和q o s 等有效分配p 2 p 带宽 【47 j 将是以后的发展重点。 1 3 课题的主要研究内容 针对p 2 p 流量监控的客观需求,本文通过大量的文献阅读、分析和实验, 重点开展以下几方面的工作: ( 1 ) b t 协议分析:p 2 p 的运用中b t 流量占总p 2 p 流量的绝大部分 4 8 】, 因此有必要对b t 协议采取可靠的识别方案和控制方案。论文通过理论研究 和实际数据包的分析,清晰地展现了b t 协议的会话过程,提出并验证了b t 协议识别和阻断的方案。 ( 2 ) p 2 p 流量模型与传统c s 流量模型分析:p 2 p 技术打破了传统的c s 模式的网络传输方式,其各个节点地位平等,节点间之间共享、检索和访问 各种资源,同时充当客户端、服务器端和应用层路由器的角色,并且可以动 态加入和离开,从而在底层的互联网基础设施上形成了一个逻辑p 2 p 网络。 论文通过理论研究重点分析了p 2 p 网络和传统c s 网络之间拓扑结构及连接 模式的区别,并设计实验验证了结论。 ( 3 ) 公网p 2 p 流量模型与局域网p 2 p 流量模型分析:由于局域网采用共 享口的方式,局域网内主机与i n t e m e t 进行通信,必须借助n a t 代理、h t t p 代理、s o c k 4 、s o c k 5 代理等第三方中介。论文在研究了公网和局域网p 2 p 流 量模型的区别之后,分析了局域网中p 2 p 流量的特性,包括t c p 流量特性和 u d p 流量特性,并提出了识别局域网中p 2 p 流量的算法,最后设计实验验证 了算法的有效性。 ( 4 ) 在前面三点工作的基础上,实现了p 2 p 监控原形系统。系统功能是: 识别b t 流量并实施阻断措施;识别d h t 流量;识别局域网中的p 2 p 流量, 包括t c p 流量和u d p 流量。 哈尔滨t 稃了:学硕十学伊论文 1 4 论文的组织结构 论文剩余部分的组织结构如下: 第2 章从系统的设计原则采用高准确度的方法来识别大比重的p 2 p 协议出发,提出深层数据包检测法。介绍此方法的优点,然后在系统应用角 度上分析b t 协议和d h t 应用,设计实验验证深层数据包检测法的可行性。 第3 章在p 2 p 识别方法发展方向的指导下,提出基于传输层连接特征的 识别法。首先分析p 2 p 流量模型与传统c s 流量模型的区别,并设计实验验 证模型的正确性。再根据p 2 p 流量模型分析局域网中的p 2 p 流量模型的特性, 提出局域网p 2 p 流量的识别方法,并设计实验验证方案正确性。 第4 章通过实验验证第2 章和第3 章中提出的流量识别方法,介绍系统 的总体设计以及各个模块的设计与实现,介绍各子模块所必需的关键技术和 关键数据结构。最后设计实验,分析系统的性能,包括识别性能、误判因素、 漏判因素等。 第2 章基于深层数据包扫描的p 2 p 流量识别技术 研究 为了避开第三方对p 2 p 流量的监控,多数p 2 p 应用软件都使用端口跳动 技术或者盗用些常用服务的协议端口进行通信传输,所以通过对端口对它 们进行识别显然是远远不够,传统的流量限速设备无能为力。因此,所有的 数据包都必须到应用层面( a p p l i c a t i o nl a y e r ) 上进行检查,即对传输协议如 t c p 协议的载荷( p a y l o a d ) 部分进行检查,以判断它们是否符合代表某种应 用代码的样本特征。深层数据包扫描识别洼准确度可以达到9 5 ,是诸多方 法中较高的一个。 21b t 协议分析 21 1b t 协议会话过程分析 在b t 会话中,需要两种服务器,w e b 服务器和t r a c k e r 服务器 是与传统的服务器有本质的区别,它们不提供下载的源文件。只是提供 下载所需要的信息,具体会话过程如图21 描述: 目21b t 会话过程 但 些 哈尔滨t 挥夕:学硕十学伊论文 当一个新用户需要通过b t 来f 载文件时,首先向w e b 服务器提出请求, 提供b t 发布的w e b 服务器便会向用户提供一个t o r r e n t 文件。t o r r e n t 文件 中记录了t r a c k e r 服务器的地址,以及下载文件的相关信息。新用户的 b t 软件会分析t o r r e n t 文件,得到t r a c k e r 服务器的地址,并通过h t t p 协议与t r a c i 江r 服务器建立连接。t r a c k e r 服务器随时搜索网络上的在 线用户,并将它们的i p 地址等信息加入到自己的列表( i i s t ) 中,然后t r a c e r 服务器会从自己的列表中通过随机算法( r a n d o m ) 选择多个用户( p e e r s ) ,并把他 们的i p 地址等信息返回给新用户。同时t r a c e r 服务器会反连新用户的 i p ,并将新用户的i p ,传输端口等信息加入到自己的列表中,以便其他用户 可以找到自己。这样新用户通过t r a c e r 服务器提供的信息,与其他用户 建立起点到点的双向连接方式,同时也建立了属于自己的集群( p e e r s e t s ) ,然 后通过p e e r 交换协议开始进行文件传输与交换,并且文件传输使用的是t c p 协议。用框图2 2 描述如下: 定义b t 式文件发布需要的实体:普通的网络服务器( p u ) 、一个静 态元信息文件( m f ) 、一个b tt r a c k e r 服务器( t s ) 、文件发布者( m d ) 、 网络终端浏览器( b l ) 、网络终端的下载者( o p e e r ) 1 ) o p e e r 通过t c p 三次握手与p u 建立连接,发送m f 请求信息; 2 ) p u 通过h t t p 返回m f ; 3 ) o p e e r 分析m f ,定期通过h t t p 与t s 取得联系; 4 ) t s 定期返回候选节点列表l 【p e e r l ,p e e r 2 ,p e e r 3 , ; 5 ) o p e e r 从节点列表l 中选择活跃节点列表a l p e e r 2 ,p e e r 3 , ; 6 ) o p e e r 与a l 中的节点通过三次握手,再进行对等协议二次握 手; 7 ) o p e e r 通过a l 下载文件。 系统通过识别过程( 3 ) 和( 6 ) ,并且对其进行阻断操作,有效地控制了 b t 的使用。 图2 2b t 会话过程框图 b t 协议如果不加密,可以识别b t 节点与t r a c e r 服务器的交互过程, 也能识别b t 节点之间的交互过程,由图2 2 的分析,如果封堵这两个过程, 哈尔滨t 稃歹:学硕十学伊论文 能有效地控制b t 的使用,图2 3 是封堵器的实现: 2 1 2 实验结果分析 图2 3 封堵器 本节的主要工作是通过对实际数据包的捕获和分析,来验证识别和阻断 b t 流量的可行性,产生流量的客户端是迅雷软件,版本号为5 8 5 5 9 5 ,捕获 数据包的软件为s n i f f e rp r o : ( 1 ) 内网主机1 9 2 1 6 8 1 0 0 1 4 与b yt r a c k e r 服务器6 0 1 9 0 2 2 2 2 3 0 通 过三次握手建立连接,如图2 4 显示: 1 6 8 1 6 8 1 6 8 1 6 8 1 6 8 1 6 8 1 0 0 1 0 0 1 0 0 1 0 0 如0 1 0 0 1 4 “】 1 4 】 1 4 】 1 4 1 4 t = pd = 8 0 8 0s = 3 6 2 3s 硼s e e :1 8 3 5 1 4 8 6 :l d = ow i i i = 6 5 5 8 5 t r pi ) - 8 0 8 05 = 3 6 2 4s n l ;e := 4 1 0 7 0 7 4 6 1 5t f i ;- - 0v i n = 6 5 8 3 5 t 凹d = 8 0 7 75 = 3 6 2 5s y l js e c ;= 2 9 9 8 2 3 6 9 2l 邛= 0 t i l l = e5 5 3 5 t 凹i ) - - 8 0 8 05 :3 6 2 65 y ns e 叠? 5 4 2 4 :7 7 5 2l e n :0f t n = 65 5 3 5 t c pd = 8 cs :8 6 2 7 ;环;1 0 = 6 7 3 9 8 8 4 5 8 二d j = o i n = 6 5 s 3 5 t 凹肛8 05 = 3 6 2 8 ;盯j 萌= 2 5 2 47 3 0 4 5 q 二 = g l i ; 6 5 5 3 5 【1 9 21 6 81 0 81 4 【6 01 9 02 2 22 3 0 t c p 【= 8 0 8 05 = 3 6 2 3 c m = 18 0 6 5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论