已阅读5页,还剩63页未读, 继续免费阅读
(计算机应用技术专业论文)p2p客户端行为机制研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 伴随着互联网的高速发展,对等计算( p e * p e 盯,简称p 2 p ) 迅速成为 当前互联网最热门的应用技术之一。p 2 p 网络是一种分布式网络,网络中的参 与者既是资源提供者,又是资源获取者。p 2 p 网络不但方便了网络用户之间的 文件和内容共享,还能提供基于p 2 p 方式的协同处理和存储共享服务。然而p 2 p 网络由于其独有的开放性,这就使得它在安全方面的问题日渐突出。另外由于 其流量占用大量网络设备的带宽,严重影响了网络的正常使用。因此,需要对 p 2 p 应用进行研究,制定针对典型p 2 p 应用的实时识别、网络测量和信息阻断 的技术方案,从而实现对p 2 p 应用进行发现与监控的目标。 本文首先提出了p 2 p 应用研究系统的总体设计,介绍了系统的框架架构、 功能模块的划分以及各模块问的交互。整个p 2 p 应用研究系统由运行机制研究、 协议匹配和监控平台三个模块组成。本文将详细介绍这几个模块的设计方案。 p 2 p 应用运行机制研究主要针对不同的p 2 p 应用,研究它们的协议规范, 并找出它们各自特有的特征,为后续的研究做好铺垫。这些特征包括每种p 2 p 应用独有的协议特征、流量特征。研究出来的特征还应当建立相应的信息库, 为后面的流量特征匹配、协议特征匹配等提供支持。 p 2 p 应用的协议匹配是研究如何利用得到的p 2 p 应用的各种特征来进行匹 配,是下一步进行流量实时识别和监控的前提。需要对应各种类型的特征设计 出相应的匹配算法,能够有效地在大量数据报中提取出相应的p 2 p 应用来。在 设计算法的同时,还应考虑算法的高效性和可扩展性。 p 2 p 应用监控平台是面向网络管理员的集中化平台。通过监控平台,网络 管理员可以随时掌握网络的运行状况,并对各种p 2 p 应用进行监视。对影响网 络正常使用的p 2 p 应用,网络管理员还可以进行控制策略下发到网络设备,阻 断和抑制p 2 p 应用。 关键词p 2 p ;流量识别;模式匹配算法;数据报捕获 a b s t r a ( 叮 a b s t r a c t f o n o 、咖gm eb i g h 即e c d 出妇呻枷o f 帆也e 删鲫q p i i 刚强 ( p e 呻e i 8c a l l e d p 刎r 印i d l y b e c 叫瞄加e o f _ h c m o 甜c u r r e n tp 0 岬l a f h 蚴a p p h c 撕 t e c h l 蟛嚣n 忙p 2 p t 哪k i s c 虹n d o fd i l 瞳曲嘣加t w o l l 【i n n ”n e t 釉出p a 埘c i p 柚t n o t l y i s l h e 删t 恤帆a l s o i 。恤咖瞄伽l y m e p 2 p 删h a 8 鲥l i 州 脚。咖m s h a 】吨b e t i 蝴m en e t 僦咖,b i l l a l s o 啪删d e b a s e d 姐m e p 2 p w a yc 0 删碰衄d o n 珥钒矧i 嘲柚d 蛐姗g e 曲础髓廊h 们w i v 嚣p 2 p 珊拥,供kh a 8 也e | e p 0 8 缘珥i o f o p 咖,t i i i sc 卸m 也e 舢曲锄蹦毋删b i ed a y 加d a * m w 咖蛔蛐妇t h e 础n l e b m d 椭d i ho f 删唧嘲也j 8h a sa 彘c t e dm e 删删m a l 啪舻嘲| 伽s l y n 咖 n 鲥删i n t om e p 2 p 印p l i 僦,f o r 酬咖 t e c h n 瑚p l a n 删c hj n c l u d e 8 血em o d e ip 2 p 嘲i h 刚蛆吲缸硒o g n i d 鲫,血cn e t w 址 湖e y 砌m e 础触b l 幽岫幽t om e 刚o f d i 8 吣d m o n i t o r i n gm e p 2 p 叩删o m 儆枷c l e 缸t 删m c 洲d e 她o f m e p 2 p 哪i i e d 删s y $ 呱劬d d u 诫t h e s y s i 衄栅e 蛐咖甜舳,m e 蛐m d i l l e 蛐器w 蝴l h e 鼬删v c m a 出坞p :z p 印叫i c 撕。咀托砌窖蜘j n d l i d e sb 由谢o fm k m 衄托钾她n l ep - o 咖i m a 岫伪a n d m 砌岫也ep l 砒栅岫m 吠i i d 鼠t 胁甜吐c k w m m 呶咖m e d 鹤i 弘珥q 脚d o f i h e n d i l l 嚣j nd e t a i l p 2 p b e h 砌蛐螂砌m a i n l y 细砒缸硼删p 2 p 酬b 6 0 n 咖d i 璐崎 p 址。l 叩擒舡啷,柚dd i 叭协也e i r 砖叩酬ym d 叩坤曲脚戳:i c d 娟c 唧l e t e s 也c 啦o l 蛔y 细缸刎a 晌g 瑚翻nt h e s e 吐a 僦蝴鲥伪雠t i l d cl h c 叫t o 。o lc h a 删s d c , t b et r a 伍嚣瑚脚c h 蹦i c t 蛐o f 龆c hh n do f p 2 p 娜p n c 以。礼1 n h e 瑚u l 协o f 地嘲础缸gi 蛔 幽撇嘶舭山o m 似b e 咖嘲j m 她嗍m 血g 锄a b a 跪w h i c h 蝴f b r m e b e h i n d t r a 伍c h 盯嘛确cm 砷c h ,l h e 印t o c 0 ic h 缸a c t e f i 鲥cm a 埘1a n d o 也 mp 2 pa 娜d i c 撕舯t o c o lm a t c hi sw i 尚n gf o rh o wt o 瑚t c h c hk i n do fp p 叩p l i c a 吐衄w i i hm e 吐删丑c t 贫i 硝co fm 锄n e x ts t 印r r i 嚣m e 倘c s 删一岫er o g n i 虹 a n dm 蛐i 棚n g w bn e e dt od 蝴t h em 种c ha l g 耐l h mc 0 盯稍删t o 龆曲枷o ft y 】p e c ,喇c h 幽酬y 础棚鲫椭p 2 p j n m m 刚魄d 晌g d e s 啦a l 鲥t 嗵骶a | s ob h 砌d 伽1 8 i d e f 也eh i g h l y 硪蜘锄d 血c 酬删t yo f a l g 叫i m n 1 kp 2 pa p p n 虹蚀m d n i 0 rp l a 怕mi sa 曲锄z e dp l a 怕瑚缸嚣1 i 出n c t 、v o l l 【 砒h n i n i s 扛i l t a t t h r o u g hi h ep l a t f b 玎吗m e 饿拥,m ka d m i n i s 仃i n o rm a y 掣舶p 曲cn e t w o r k m o v 啪衄t 伽d i d 觞n 嘟a 睇a n dm o n i t o r 髓c hl d n do fp 2 pa p p l i c a 娃鲫f 0 fn m tp 2 p a p p l i c 硝w h i c hc 妣a 丘扭l h en c t w o 血n o m l a lu ,t h en c t w o r ka 血n i l l i s 仃;l t o ra l m 8 y 北京工业大学工学硕士学位论文 凼咖咖m e 咖删8 眦e g yt om en 咖啦唧蛳咄m k s d 唧岬t h ep 2 p 叩叫i c a l i k e y w o r d ip 2 p ;n a 伍c sm 6 助p a l 钯mm 岫a 1 耐t h l n ;p a 如协c a p t i 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均己在论文中作了明确的说明并表示了谢意。 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有 权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部 或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:啦导师签名:绌 口苴日如z 7 夕矽 日期: 勿矿钞 第l 章绪论 1 1 研究背景 第1 章绪论 最近几年,对等计算( p e * t o _ p o 盯,简称p 2 p ,迅速成为计算机界关注的 热门话题之一,财富杂志更将p 2 p 列为影响i n t 眦斌未来的四项科技之一。p 2 p 是一种分布式网络,网络韵参与者共享他们所拥有的一部分硬件资源( 处理能力、 存储能力、网络连接能力、打印机等) ,这些共享资源需要由网络提供服务和内 容,能被其它对等节点( p e 口) 直接访问而无需经过中间实体。在此网络中的参 与者既是资源( 服务和内容) 提供者( s e 册) ,又是资源( 服务和内容) 获取者 ( c h 髓t ) 脚。 p 2 p 并非一种全新的技术,而是一种技术的全新的应用。随着某些新技术与 软件工程结合,形成了一种将工作分散的趋势脚,以魇互联网的飞速发展,人们 对分布式技术的研究日益深入,出现了各种各样的p 2 p 应用: 提供文件和其它内容共享的p 2 p 网络,如:n a p s t c f 、g l 哦e n a 、础c y 、 b t 等; 挖掘p 2 p 对等计算能力和存储共享能力,如:a v a 虹、p o p l l l 甜p o w 盯等; 基于p 2 p 方式的协同处理与服务共享平台,如:j x r a 、m a 玺、g l v c 、n e t 等; 即时通讯交流,如;i c q 、o l c q 、m 酷s 衄鸯盯等; 安全的p 2 p 通讯与信息共享,如:鸯k y :p e 、,踟w d s 、伽蝴r ( 嘣嵋等脚。 p 2 p 应用为广大互联网用户搜索、共享文件和通讯提供了便利的手段,但同 时也将网络安全的问题引入进来。p 2 p 的应用大多采用匿名的方式进行信息交换 或采用匿名的方式提供服务;许多应用的协议也还不成熟、完善,使得这些p 2 p 应用的网络中存在着很大的安全隐患。目前常见的问题有; 版权问题。比如n 印s t 盯,虽然它自己声辩在其服务器上没有放置任何 m p 3 文件,只不过提供软件供音乐迷在自己的硬盘上共享歌曲文件,搜 索其他用户共享的歌曲文件,并到其他也使用孙嘲盱服务的用户硬盘上 去下载歌曲。但最终它还是放五大唱片商以侵犯版权推上被告席而成为 世界的焦点嘲。 非法内容的传播。以前为了对互联网上的色情、暴力,反动内容进行屏 蔽,各国政府和安全部门做了大量的措施。但现在p 2 p 应用网络大都具 有匿名性,端到端的网络连接建立后,很多应用都是采用编码传输或加 北京工业大学工学硕士学位论文 密传输,并采取分片下载,对传输的内容很难实现监控。 恶意文件的传播。由于砣p 应用允许用户互传文件,而且对文件的安全 性通常不作检查,所以一些恶意文件,如:蠕虫病毒、木马程序、间谍 软件和广告软件都可以通过p 2 p 应用网络传播到用户的电脑中,从而造 成更广泛的危害。 信息泄露和篡改。如果企业内的p 2 p 用户电脑被感染上了病毒或恶意代 码,那就有可能面临内部保密资料的泄露甚至篡改。 d l d 攻击。p 2 p 应用会占用磁盘空间,使得系统性能降低升值完全瘫痪。 如果被大量恶意韵使用,就会出现正常服务请求得不到服务的现象。 消耗网络带宽。p 2 p 网络中的用户的增长符合一个幂次 规则“,所以会 占据大量的网络带宽。据实验统计显示,在一个校园网环境中,p 2 p 应 用的流量能占到校园网出口流量的4 0 枷。 因此,对p 2 p 应用进行深入研究,制定出一套对典型p 2 p 系统进行实时识 别、网络测量、恶意信息阻断和遏制的整体技术方案,对于解决目前p 2 p 流量占 甩大量鼹络带宽的闯题,提高网络的利用率,净化网络环境和保证保联网的健康 发展都有十分重要的意义 1 2 相关研究概况 一p 2 p 网络跟传统网络最大的不同就是它的拓扑结构,它是要构造一个非集中 式的拓扑结构,在构造过程中需要解决系统中所包含的大量结点如何命名、组织 以及确定结点的加入离开方式、出错恢复等问题。研究p 2 p 网络的拓扑结构是 研究p 2 p 应用的基础,从而我们才能对它进行特征分析和监控。 ,- 根据拓扑结构的关系可以将p 2 p 分为4 种形式:中心化拓扑( c c 纳r a l i z e d 1 0 p o l o g y ) ,全分布式非结构化拓扑( d t 嬲曲幽z c du 删帅鳓枷1 o p o l o g y ) ,全分 布式络构化拓扑( d 叫嘲i z c ds 臼1 l c t i 砌1 0 p o l o g y ,也称作d h t 网络) 和半分 布式拓扑( p 甜i a l l yd e 咖h 谢i z c d1 o p o l o g y ) 。 , 中心化拓扑类似于传统的客户机服务器结构,最大的优点是维护简单发现 效率高,资源的发现依赖中心化的目录系统,发现算法灵活高效并能够实现复杂 查询。最大的问题是容易造成单点故障,这是第一代p 2 p 网络采用的结构模式, 经典案例就是著名的 佃3 共享软件n a 辨缸。它通过一个中央服务器保存所有 n a p s t 匿用户上传的音乐文件索引和存放位置的信息,当某个用户需要某个音乐 文件时,首先连接到n a p s 缸服务器,在服务器进行检索,并由服务器返回存有 该文件的用户信息,再由请求者直接连到文件的所有者传输文件。 全分布非结构化网络在重叠网络( o v e r l a y ) 采用了随机图的组织方式,从而 能够较快发现目的结点,面对网络的动态变化体现了较好的容错能力,因此具有 第1 章绪论 较好的可用性。同时可以支持复杂查询,如带有规则表达式的多关键词查询,模 糊查询等,最典型的案例是g l i u t e n a 。其拓扑结构图如图1 1 所示。g n l l t e u a 和 n 印s t e r 最大的区别在于g i l m e n a 是纯粹的p 2 p 系统,没有索引服务器,它采用 了基于完全随机图的洪泛( f l o o d i n g ) 发现和随机转发( r a n d 咖w h l k 钉) 机制。 在g i 眦e u a 分布式对等网络模型n 中,每一个联网计算机在功能上都是对等的, 既是客户机同时又是服务器,所以被称为对等机。随着联网节点的不断增多,网 络规模不断扩大,通过这种洪泛方式定位对等点的方法将造成网络流量急剧增 加,从而导致网络中部分低带宽节点因网络资源过载而失效。由于没有确定拓扑 结构的支持,非结构化网络无法保证资源发现的效率。因此发现的准确性和可扩 展性是非结构化网络面临的两个重要问题。目前对此类结构的研究主要集中于改 进发现算法和复制策略以提高发现的准确率和性能。 图1 - 1 全分布非结构化网络拓扑图 f i g 哦1 1t b p o l o g y o f d 瞰l r a l i z e d u t n l c h 栅n e 脚o l k 全分布式结构化拓扑网络采用了分布式散列表( f r ) 。分布式散列表( d h t ) 实际上是一个由广域范围大量结点共同维护的巨大散列表。散列表被分割成不连 续的块,每个结点被分配给一个属于自己的散列块,并成为这个散列块的管理者。 d h t 的结点既是动态的,结点数量也是巨大的,因此非中心化和原子自组织成 为两个设计的重要目标。d h t 类结构能够自适应结点的动态加入退出,有着良 好的可扩展性、鲁棒性、结点d 分配的均匀性和自组织能力。由于重叠网络采 用了确定性拓扑结构,d h t 可以提供精确的发现。d h t 类结构最大的问题是d h t 的维护机制较为复杂,尤其是结点频繁加入退出造成的网络波动( c h 啪) 会极 大增加d h t 的维护代价。d h t 所面临的另外一个问题是d h t 仅支持精确关键 词匹配查询,无法支持内容,语义等复杂查询。最经典的案例是p 啪和c h o r d 。 北京工业大学工学硕士学位论文 p 咖是微软研究院提出的可扩展的分布式对象定位和路由协议,可用于构建大 规模的p 2 p 系统。c l l o m 是m r r 的一个研究项目,其目标是提供一个适合于p 2 p 环境的分布式资源发现服务,它通过使用d h t 技术使得发现指定对象只需要维 护0 0 0 鳓长度的路由表。 半分布式结构吸取了中心化结构和全分布式非结构化拓扑的优点,选择性能 较高( 处理、存储、带宽等方面性能) 的结点作为超级点( s 坤燃n o d 船) ,在各 个超级点上存储了系统中其他部分结点的信息,发现算法仅在超级点之间转发, 超级点再将查询请求转发给适当的叶子结点。半分布式结构也是一个层次式结 构,超级点之间构成一个高速转发层,超级点和所负责的普通结点构成若干层次。 其拓扑结构图如图l - 2 所示。最典型的案例就是k a z 舱。它结合了n 撇和 g n u t c l l a 共同的优点。从结构上来说,它使用了o 仰t c l l a 的全分布式的结构,这 样可以是系统更好的扩展r 因为它无需中央索引服务器存储文件名,它是自动的 把性能好的机器成为s 唧神蚰d e ,它存储着离它最近的叶子节点的文件信息,这 些s u p 醐q c h d e 再连通起来形成一个o v e f l a y t 、o 呔。由于s u p 神q o d e 的索引功 能,使搜索效率大大提高。半分布式结构的优点是性能、可扩展性较好,较容易 管理,但对超级点依赖性大,易于受到攻击,容错性也受到影响。 图1 2 半分布式结构网络拓扑图 f i g i 船l 2t o p o l o g yo f p a 而a l l yd e 啪昀1 i z c ds 帅c m r c dn e 咐讲k 随着p 2 p 应用在互联网上的日益流行,其巨大的流量严重影响了网络带宽。 根据c a 公司统计,光使用i z 缸软件进行文件传输就消耗了互联网4 0 的带 第l 章绪论 宽。因此网络设备的制造商们首先行动起来,在它们的产品中加入了限制部分 p 2 p 应用的模块。 c i s c o 推出了名为n b a r 删e 呐o f i 【一b 勰c d a p p h c a t i r o g n i 畦) 的新技术, n b a r 是一种动态能在四到七层寻找协议的技术,它不但能做到普通a c l 能做 到那样控制静态的、简单的网络应用协议t c p u d p 的端口号,也能做到控制一 般a c l 不能做到动态的端口的那些协议,例如v o m 使用的h 3 2 3 ,s 口等。例 如:要实现对p 2 p 流量的控雠,就要在c i s 路由器上实现对p d l m 的支持。 p d 啪、是p a c k c t 队坶c r i 砸妇g 阻g em o d t l l e 的所写,意思是数据报描述语言模 块。它是一种对网络高层应用的协议层的描述,例如协议类型,服务端口号等。 它的优势是让n b a r 适应很多已有的网络应用,像m 田u i 也,d n s ,f 1 p ,v o 口 等,同时它还可以通过定义,来使n b a r 支持许多新兴的网络应甩,例如p 2 p 工具”。 另外c h o c kp o i n t 公引的i - s e c i 琅r r ys p 5 5 0 0 和f 酣i n 武公司的f o r t i g a t e 3 6 0 0 也支持p 2 p 流量的控制,并且还提供了新增特征的功能,即通过输入某种 软件的应用层特征,来实现对该软件的控制。因为现在每天都会有新韵p 2 p 软件 被开发出来,使用这种特性可以使用户不必等到下次产品升级就可以对其进行控 一 制嗍。 这些公司研究出来的控制p 2 p 流量的技术是保密的,所以对于我们研究如何 分析和监控p 2 p 流量没有太多的帮助作用。目前国内进行这方面研究的组织和机 构也有很多,但研究的原理和策略大体相同,都是基于特征代码匹配或深度包检 测d 口( d pp a c l 硪h s p e c t i ) 技术的。 1 3 课题来源及主要研究内容 本课题来源于北京工业大学计算机学院信息安全学科部所承载的信息产业 部互联网应急处理协调办公室下达的国家2 4 2 信息安全计划( 课题编号: 2 0 0 5 c 4 7 ) 。该2 4 2 信息安全计划的目标是针对主流类型p 2 p 应用,对其资源、 流量、行为和拓扑等测量对象的特征及其内在联系进行系统研究,针对大规模、 高带宽、多协议的网络环境,提出对典型p 2 p 应用进行实时识别、网络测量、恶 意信息阻断和遏制的整体技术方案。 本文的主要研究内容: 针对主流的p 2 p 应用,对其在资源、行为、流量和协议等方面具体的特 征进行研究。建立相关的p 2 p 应用特征库; 在深入研究p 2 p 应用运行机制的基础上,研究以协议特征匹配、流量特 征匹配和应用协议解析为主的p 2 p 实时识别和测量方法; 开发p 2 p 应用监测平台,满足在高带宽、多协议环境中的p 2 p 实时识别 北京工业大学工学硕士学位论文 和被动测量要求,实现对p 2 p 应用的监视和控制的技术方案。 1 4 本文组织结构 本文的后续章节安排如下: 第2 章,探讨了p 2 p 应用研究系统的需求分析和拟采用的设计方案,并介绍 了系统总体框架,然后对框架中的各个功能模块进行了详细讲述。 第3 章,针对几种典型的p 2 p 应用,从协议特征、协议规范和流量特征三个 方面进行详细研究分析。同时对在研究过程中应用的相关技术也进行了简要的阐 述。 第4 章,介绍了p 2 p 协议特征匹配技术,描述了特征匹配的总体流程,详细 阐述了其中应用的模式匹配算法。然后介绍了流量特征识别的方法,并举例分析。 最后对协议匹配的插件化处理进行了详细的说明 第5 章,首先简要介绍了p 2 p 应用监控平台的总体设计思路和各个模块的功 能。然后针对每个模块的功能设计进行了详细的阐述,并对涉及到的相关技术做 了介绍。最后通过实验数据对监控平台的性能进行评估。 第2 章系统总体方案设计 第2 章系统总体方案设计 目前网络上使用的p 2 p 应用越来越多,更新的速度也越来越快。其覆盖的范 围也不只是单纯的文件共享,而是向视频聊天、语音电话和网络电视等领域拓展。 因此本论文要研究和关注的不应只针对当前流行的p 2 p 应用,还要考虑到研究的 结果是否具有可扩展性,做到对新的p 2 p 应用的快速适应,所以在进行系统总体 方案设计时要充分考虑到这些要点。 2 :1 系统需求分析 2 1 i 舵p 应用运行机制研究 想要深入了解p 2 p 应用,必须首先对p 2 p 应用的运行机制进行研究。第一 代的p 2 p 采用中心化拓扑结构,类似于传统的客户机服务器结构,当某个用户 需要某个文件时,首先连接到一个中央服务器,在服务器进行检索,并由服务器 返回存有该文件的用户信息,再由请求者直接连到文件的所有者传输文件。而之 后出现的p 2 p 应用大多采用全分布或半分布式的结构,有许多结点担当了以前中 央服务器的角色m 。 对于这些不同结构的p 2 p 应用需要找出它们共同的特点,为后面的研究做好 铺垫。例如它们都有用于检索文件的服务器,可以找出各种p 2 p 应用所对应的服 务器歹口表。其次,各种p 2 p 应用通常采用t c p 或u d p 方式来进行通讯,通过对 这些通讯数据报进行分析,能够发现每种p 2 p 应用所独有的特征。 研究出来的特征还应当建立相应的信息库,为后面的流量特征匹配、协议特 征匹配和应用协议解析等提供支持。 2 1 2p 2 p 应用的协议匹配 如何根据前面得到的p 2 p 应用的各种特征来进行匹配,是下一步进行流量实 时识别和监控的前提。需要对应各种类型的特征设计出相应的匹配算法,能够有 效地在大量数据报中提取出相应的p 2 p 应用来。在设计算法的同时,还应考虑算 法的高效性和可扩展性,因为在网络环境里,数据报的实时识别对匹配过程的延 时有相当严格的要求。另外,为适应新的p 2 p 应用,协议匹配的算法还必须具有 可扩展性, 对于协议匹配的结果还需要进行精确性的评估,有两种不精确的分类,都是 不希望有的:( 1 ) 将别的非p 2 p 应用的流量识别成p 2 p 应用的流量。这是误报 北京工业大学工学硕士学位论文 率( f p ) ;( 2 ) 没有识别出p 2 p 应用的流量,这是漏报率( f n ) 。误报率和漏报 率评估的是协议匹配算法的准确度,如果误报率和漏报率太高,说明协议匹配算 法有一定的缺陷,应当改进算法。另外还有可能是先前得到的p 2 p 应用的各种特 征不够准确或完备,导致后面的匹配过程出现偏差,这就需要在研究过程中不断 的修正得出的p 2 p 应用的特征 2 1 3p 2 p 应用监控平台 监控平台是面向网络管理员的,他们日常的工作中需要频繁的接触各种网络 设备,如何提高他们的工作效率,降低他们的工作强度是在设计监控平台时首先 要考虑的因素。 首先,网络管理员最关心的是网络设备是否运行正常,他们需要得到设备最 新的各种运行数据,包括网络流量数值、流量时间分布、流量类型分布等等。这 需要对采集到的网络设备的流量进行实时分析,对p 2 p 应用的流量进行实时识 别,分离出各种类型的p 2 p 应用,并建立相应的数据。对建立好的数据还要提供 图形化的展示方式,方便网络管理员进行后续的数据分析与统计,统计的周期可 以按天,周、月以及自定义的方式由管理员自行选择。 其次,网络管理员控制网络设备需要频繁的登录设备,而且所要控制的设备 不止一台,不同的设备口地址、用户名和密码都不同。另外,不同厂商提供的 网络设备,其操作命令也不同,为了方便管理,需要为网络管理员提供统一的管 理手段,只要管理员一次性的将所有设备的信息如提供商、口地址,用户名和 密码等配置好,以后每次都可以通过监控平台自动的下发指令到相应的网络设 备。管理员不再需要手动连接到远程的网络设备上,只需要通过监控平台的界面, 轻点几下鼠标就可以完成任务。原来控制几台设备需要十几分钟时间,现在只需 要几秒钟,这大大提高了工作效率,同时也降低了网络管理员误操作的几率。 最后,还要提供日志管理服务,不仅用户每次的登入登出操作需要记录, 而且每次用户配置和管理监控平台的操作,以及每次通过监控平台控制网络设备 的操作都需要记录。这样如果有人为的恶意使用,也可以通过日志信息进行追踪。 这就要求监控平台还要并提供日志查询的服务。 2 2 系统设计方案 首先考虑到整个系统的设计和开发会由不同的开发人员来完成,开发的进度 安排会有所影响。因此,为了保证系统整体的可靠和稳定,系统采用了模块化设 计的原则,各模块间使用标准化接口进行连接,降低了各模块问的耦合度。这样 保证了由不同开发人员完成的各个模块在进行系统联调时不会出现模块连接的 第2 章系统总体方案设计 问题。 其次,对于p 2 p 监控平台的设计,考虑到监控平台的监控点是分布在网络上 各个重要的结点位置,如何将这些地理位置分散的监控点进行统一集中的管理是 非常重要的,这会大大减轻网络管理员的工作强度。因此需要采用b s 的架构来 设计p 2 p 监控平台,并尽可能做到自动化、智能化。 2 3 系统总体框架 上一节论述了系统的设计方案,根据这种设计方案,系统的总体框架如图 2 l 所示,系统由p 2 p 运行机制研究、协议匹配和监控平台三个部分组成,每个 部分都是一个相对独立的模块,下面分别对各个部分进行介绍: 图2 一l 系统总体框架 f i g e2 la f c h i t e i :t 哪o f s y g e m 2 3 1p 2 p 应用运行机制研究 2 - 3 1 1 协议特征 各种类型的p 2 p 应用都有其自己的特征,这些特征包括:特定的服务器或超 级结点的口地址、特定的端口号、数据报中特定的字节特征码以及特定的报文 长度等等。对于早期的p 2 p 应用,由于大都没有做加密处理,而且端口号也比较 固定,所以可以通过研究得到它们的许多协议特征4 埘。但是随着p 2 p 应用的普 及,网络运营商对它们开始进行限制,新的p 2 p 应用也随之出现。它们大多采用 北京工业大学工学硕士学位论文 加密技术,而且端口号可以变化,能够避开运营商的种种限制措施。所以要想得 到它们的协议特征就比较难了,但还是可以通过一些方法来获取它们部分的特 征,比如采用数据挖掘中的序列分析的思想。 2 3 1 2 协议规范 部分p 2 p 应用的协议是开放的,比如b i f r o r r 锶t 协议,大家都可以基于其开 放的协议来开发自己的p 2 p 应用程序。也可以通过对这些协议进行分析,找到相 应的办法以达到协议匹配识别、协议监控的目的。 但是对于某些私有的p 2 p 协议,比如s k y p e ,因为其商业软件的性质,协议 是保密的,就不能通过这种方法来实现了。 2 3 1 3 流量特征 p 2 p 应用最大的特点是其流量十分巨大,有时能消耗网络设备一大半的带 宽,严重的能导致网络设备瘫痪。所以通过研究其流量的特征,比如报文长度、 方向、地址和端口分布等,可以找到一些措旌来抑制其流量,减轻网络设备的负 荷。 2 3 2p 2 p 应用的协议匹配 通过p 2 p 运行机制的研究可以得到一些舵p 应用的协议特征、协议规范和 流量特征,下一步需要根据这些特征和规范去实现p 2 p 协议匹配的途径。比如对 于数据报中特定的字节特征码,需要研究对应的字符串匹配算法,这样就可以从 大量的数据报中提取出符合这种p 2 p 协议特征的数据。对于特征不能通过一个数 据报来体现的,如流量特征,需要研究一种流量模式匹配的算法,通过分析一定 量的数据报来识别。所有的算法都需要考虑匹配的效率,以及漏报率和误报率。 在设计匹配算法时,考虑到要为今后的新的p 2 p 应用提供可扩展性,设计时 采用插件化的方式来解决这个问题。针对每种p 2 p 应用,设计相应的插件,在做 协议匹配时载入相应的插件,不需要匹配某种p 2 p 应用就不用载入其对应的插 件。这样不但适应了协议可扩展的要求,还可以有针对性地测试匹配算法,提高 了测试的有效性。 2 3 3p 2 p 应用监控平台 针对p 2 p 应用的流量进行实时识别,并对识别出来的流量进行分类并建立数 据库。同时还能为网络管理员提供数据分析与统计,并能将控制策略下发到网络 第2 章系统总体方案设计 设备上,做到对指定p 2 p 应用进行阻断和遏制。监控平台还提供日志管理服务, 针对用户的登入登出、配置和管理等操作提供详实的记录,并提供日志查询功 能。p 2 p 监控平台应该包含如下一些技术特点: 实时性:在高带宽、多协议环境下的性能满足全网监控的要求; 准确性:综合多种识别技术减少识别的误报和漏报; 通用性:覆盖主流的p 2 p 协议,技术手段不依赖于特定协议; 扩展性:提供对可识别协议的扩充能力,且容易维护; 实用性:良好规范的接口和数据输出,为测量、监控和阻断等提供支持。 2 4 系统框架的特色 2 4 1 模块化设计 首先,采用了模块化设计的原则,各模块间使用标准化接口进行连接,降低 了各模块间的耦合度。这样在开发时各模块的设计和开发可以相对独立,提高了 系统的开发效率,同时也易于系统的整体维护 2 4 2b s 架构的监控平台 p 2 p 监控平台的设计采用了b s 的架构,网络管理员可以通过监控平台管理 和控制分布在各个监控点的设备,极大程度上降低了网络管理的成本,提高了网 络管理员的工作效率。 2 5 本章小结 本章首先对系统设计时的需求进行了详细的分析,然后按照系统可以针对新 的p 2 p 应用向后扩展的原则,设计出了与之相符合的系统框架和结构,并对其中 的功能模块的划分和功能进行了详细的说明。最后对本章中设计的系统框架和结 构的特色进行了分析。 第3 章p 2 p 应用运行机制研究 第3 章p 2 p 应用运行机制研究 本章将针对当前主流的p 2 p 应用的运行机制进行研究,研究范围大体包括协 议特征、协议规范和流量特征三个部分。本章将对这三个部分进行详细的研究和 分析,从丽比较全面的理解p 2 p 应用的运行机制,为后面的工作做好铺垫。 3 1 协议特征研究 当前网络中使用的p 2 p 应用相当多,想做到对每种应用都详细研究是相当耗 费人力和时间的。考虑到大多数p 2 p 应用在原理上差别不是太多,甚至有一些就 是先前的p 2 p 应用的改进版本,所以在研究时选择了几种比较典型的,差别比较 大的p 2 p 应用来研究。这里选择的p 2 p 应用有:b i m 姗m 和s k y p e 。 3 1 1b i t r r o r r e n t 的协议特征 b t 采用的是一种类似传销的方式来达到共享,在下载的同时,也在为其他 用户提供上传,所以不会随着用户数的增加而降低下载速度,使用非常方便。其 特点简单的说就是:下载的人越多,速度越快。一般在b t 网络中,至少需要一 个普通的w e b 服务器、一个种子文件、个跟踪( 酗d 【仃) 服务器、终端用户 的w e b 浏览器、终端下载者及部分构成。1 m c k e 硌从所有下载者处接收信息,并 返回给它们一个随机的p o 哪的列表。这种交互是通过i 玎曰或h ,n 落协议来 完成的。下载者周期性的向t r a 妇登记,使得1 m c l 【盯能了解它们的进度;下 载者之间通过直接连接进行数据豹上传和下载。 种子服务器和t r a c l 【盯服务器之闻基于m 1 p 的通信,告诉服务器上传了多 少,t f a c k e r 服务器回应种子服务器有哪些下载主机想下载此文件。种子服务器 和p e 嘟之间的基于t c p 的数据传输。在此注意:种子服务器是没有下载的。 通过上述的原理分析,我们可以推测b t 网络在通信过程中应该会有一些明 显的特征。经过大量的抓包实验分析,我们得到的一些b t 网络的通信特征如下: b t 下载首先必须要有种子文件,通常是有人将需要共享的文件利用工具 制作出相应的种子文件,再将种子文件放到一个w e b 服务器上供大家浏 览并下载。 b t 早期版本下载必须要有一个t r a c k e r 服务器这样的枢纽。一般w c b 服 务器和1 r a c k e r 服务器可以放到一台服务器上,p e c r 下载时必须首先和 t r a c k e r 服务器连接上。但是在b i t c o m e i o 5 9 及以后版本都支持d h t 网 络,当要下载时,可以不与t r a c k e r 服务器连接而直接加入d h t 网络中 北京工业大学工学硕士学位论文 进行下载。 。所有和t r a c k 盯服务器的通信都是基于 r r r p 协议的,而p e 啦之间的数 据传输( 不管是上传还是下载) 都是基于t c p 协议的。 p e 嘲和1 m d 河服务器通信时是具有特征码的,且是明文的。这个可以 通过抓包得到。 b t 下载的端口早期是固定的,但是随着版本的更新,很快就不固定了, 并可以在客户端随意更改。 在p o 懿得到p e e r 列表之后,和其他对等结点三次握手之后的第一个1 p 连接,数据中都有一个b 册p f t ) 协c o l 瞬特征码,并且之后不再出现 【枷 o 我们能够识别出部分的下载客户端,并用一定的特征码来标识。常用的 b t 软件有b i t c 呲醴、b 舰棚、佃d 栅tp i 璐等。我们主要对b i t c 咖c t 的特征进行分析总结。在b i 佗o m e t 客户端向t 馏c k e r 发出g e t 请求时, 包含的p e 雕i d 有以下特征:是一个2 0 字节长的字符串,这2 0 个字节依 次是:四个a s c 豇字符锄【t 一,一个n u l l 字节,单个a s c 数字,1 4 字节随机的字符串。不同的b i t c o m 雠版本,有不同的a s c n 数字,它 会随着嘏反本的增加而增加。如b i t c o m c c 版本号为0 5 3 时,这个a s c 数字是5 ;当b 嗽舢e t 版本号为o 5 7 时,这个a s c 数字是9 。 3 1 0s k y p e 的协议特征 ;s 姆p e 是二_ 个p 狰重叠嚼络( 。o v 嘲蟹n 确i i 【) 。在这种重叠瞬络中存在着两 种结点:普通结点( 8 c 和超级结点( s n ) 叫凹。普通结点是运行在客户端的 可以进行通话以及发送即时消息的s l 【y p e 应用程序,面超级缝点负责将酱通结点 连接到8 k y p e 网络上“”。任何一个拥有公网p 地址,足够的c p u ,内存以及网 络带宽的结点都可以被选作超级结点。一个普通结点必须连接到一个超级结点, 并且必须向登录服务器( 2 1 2 7 2 4 9 1 4 l :3 3 0 3 3 或1 9 5 2 1 5 8 1 4 l :3 3 0 3 3 ) 注册以 获得成功登录。尽管本身并不是网络中的结点,但s k ) ,p e 登录服务器是s k y p c 网络中一个非常重要的实体。用户的名字和密码都保留在登录服务器上,用户登 录时的验证过程也是在服务器上进行的。服务器保证了用户名称在整个s l c y p e 用户名空间中的唯一性。从蛳1 2 版本开始好友列表保存在本机( c : 、d o 咖曲【协a n d s 酬j 1 1 9 如口瑚融a p p h c a l i d a t 姻l 【) ,p e 惋i 她x i i l l ) 的同时也保存在登录服务器上。普通结点和超级结点以及登录服 务器之间的关系如图3 - l 所示。 第3 章p 2 p 应用运行机制研究 圈3 1s b p e 网络拓扑图 f i g u 坞3 一l1 b p o l o g y o f s k y p e n 时啪矗 在用户安装s k y p e 程序后第一次运行时,客户端向s k y p cw 曲服务器 ( h 哪:s k y 阵啪) 发送一个m 1 p1 1g e t 请求。请求数据的第一行包含关键 字“岫t a l l o d ,在之后的启动过程中,客户端仅仅向服务器发送一个h 兀p1 1g e t 请求来确定是否有新版本可使用。这时请求数据的第一行包含的关键字为 “g c i l g t 姆t 、,e 稻i ”。 ,登录过程中客户端要向登录服务器认证用户名和密码,并向好友通知他上 线,确定客户端所在的n 衄和防火墙类型。当选定一个s n 作为此次登录的超 级节点后,就检查是否有8 娜e 的更新版本,然后客户端显示登录成功。s k p y e 启动开始,即开始p i n g 四次前两字节不变后两字节随机的四个m ,分别为: 1 3 0 2 4 4 ( 瑞典) 2 0 4 1 5 2 ( 美国) 2 0 2 2 3 2 ( 日本) 2 0 2 1 3 9 + ( 澳大利亚) 猜想这是一个将s c 提升为s n 的机制之一,分别p i n g 四大洲的口根据返 回数据报信息来确定本s c 的位置及环境配置状况,是否累计p i n g 通时问、次数 等来确定本s c 是否能自动提升为s n 。 s c 登录成功后数分钟内,主机的超级结点列表中将包含2 0 0 个s n 的m 和 端口,保证客户端能够通过s n 连接到s k y p e 网络中。如果超级结点列表中仅包 北京工业大学工学硕士学位论文 含一个不正确的入口( 非法入口) ,那么客户端在选择不自动登录时就不能够登 录成功并且会报告登录失败。若选择自动登录,s c 总能找到一个s n 然后登录 成功。 s c 登录过程是识别s k y p e 的关键时期,首先是s c 用同一端口向多个s n 发 送1 8 个字节的u d p 报中数据段有特征码,即前两字节为包的序列号,递增2 。 第三个字节值为0 2 ,第8 个字节中的第一个数不变。第一个返回1 8 个字节u d p 报的s n 将成为后来通信的选定s n ,并建立t c p 连接,s c 采用端口号l l o o 以 上的连续端口与多个s n 或服务器的端口( 除采用4 4 3 、8 0 端口外,与u d p 端 口相同) 进行连接。在后期的会话通信中,s c 一直与s n 保持t c p 连接,s c 与 s c 之间鲻大多数用u d p 进行语音通信。u d p 报数据段的第三个字节为0 2 ,是 s k y p e 的私有协议发送信号的特征码。 s c 给s n 发出3 9 0 字节左右的u d p 后,s c 收到s n 返回的1 1 个字节的叻p 包中的特征码为:数据段第四个字节开始是曲d6 2 ,将这些字段转换成m 地址就是s c 的公网口地址。 在语音视频通信中p 嘲之间的u d p 报的第三个字节为$ d ,其中$ 表示o o 。 语音数据报约1 0 0 字节。视频数据报在3 0 0 字节以上,大多约为9 0 0 字节。叻p 报数据段第三个字节$ d 为蜘语音通话数据报的特征码。 下面列出的是s k y p c 网络中的一些关键p 地址: 七个默认的引导s n ,端口号都为3 3 0 3 3 :t 6 4 2 4 6 4 8 2 3 “2 4 6 4 9 6 0 6 4 2 4 6 4 9 6 1 6 6 ,2 3 5 1 8 0 9 6 6 2 3 5 1 8 1 9 1 9 5 2 1 5 8 1 4 5 2 1 2 7 2 4 9 1 4 3 s k y
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 神经科重症医学科颅脑外伤护理指南
- 《城市轨道交通车站机电设备运行与维护(智媒体版)》课件 任务9.2 通信主干传输网和电话系统
- 2025年中级会计职称之中级会计财务管理考前冲刺模拟试卷B卷含答案
- 2025餐饮店总经理聘用合同
- 2021年北京重点校高一(上)期中物理试卷试题汇编:匀变速直线运动的研究3
- 2025珠宝首饰批发代理合同
- 2025能源绩效改进合同
- 质量意识培训资料
- 类风湿关节炎康复训练指南
- 员工入职基本礼仪培训
- DGJ08-70-2021 建筑物、构筑物拆除技术标准
- 生产部门6S管理规范
- 甘南景点介绍课件
- 肠道传染病防控培训课件
- 流行唱法教学课件
- 华为业财融合案例
- 局健身器材管理制度
- 电力铁塔拆除方案(3篇)
- 中药不良反应监测报告管理制度
- 美好生活大调查:中国居民消费特点及趋势报告(2025年度)
- 政治●广西卷丨2024年广西普通高中学业水平选择性考试高考政治真题试卷及答案
评论
0/150
提交评论