(计算机软件与理论专业论文)基于通信网络拓扑结构的p2p流识别模型研究.pdf_第1页
(计算机软件与理论专业论文)基于通信网络拓扑结构的p2p流识别模型研究.pdf_第2页
(计算机软件与理论专业论文)基于通信网络拓扑结构的p2p流识别模型研究.pdf_第3页
(计算机软件与理论专业论文)基于通信网络拓扑结构的p2p流识别模型研究.pdf_第4页
(计算机软件与理论专业论文)基于通信网络拓扑结构的p2p流识别模型研究.pdf_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京邮电大学硕士研究生学位论文 中文摘要 中文摘要 针对p 2 p 流的识别问题,本文从p 2 p 独有的通信网络拓扑结构出发,提出了基于通 信网络拓扑结构的p 2 p 流识别模型p 2 p c n t i m 。p 2 p c n t i m 使用p 2 p 流的多主机特征 和通信对端类型特征对p 2 p 流进行识别,并通过这两个特征的有机结合以提高模型的识 别准确率和识别效率。文中首先分析了p 2 p 在i r t t e m e t 上的通信网络拓扑特征,并选择可 以将数据流准确划分为p 2 p 流和非p 2 p 流的多主机特征和通信对端类型特征作为识别p 2 p 流的主要方法,接着给出了检测通信对端类型的关键技术以实现基于通信对端类型特征的 p 2 p 流识别,随后建立了p 2 p - c n t i m 的判断函数、调度机制及核心过程。 在这一模型的基础上,我们进行了基于p 2 p - c n t i m 的p 2 p 识别、控制管理原型系统 的设计和实现,该原型系统主要功能包含p 2 p 流识别、p 2 p 应用识别以及p 2 p 控制管理, 文中给出了系统的结构设计、模块设计,并在核心模块中详细描述了使用的关键技术、处 理流程以及核心数据结构。实验测试的结果表明,基于p 2 p c n t i m 的p 2 p 识别、控制管 理原型系统有着较低的误判率和较高的识别准确率,并且和传统的基于p a y l o a d 特征的 p 2 p 识别方法相比,其在执行效率上有着明显地提高。 关键词:对等网络,网络拓扑,流识别 南京邮电大学硕士研究生学位论文 a bs t r a c t t or e s o l v et h ep r o b l e mo fp 2 pt r a f f i ci d e n t i f i c a t i o n , t h i sp a p e rp r e s e n t san e wm o d e l p 2 p c n t i mf o ri d e n t i f y i n gp 2 pt r a f f i cb a s e do nt h e s p e c i a l c h a r a c t e r i s t i c so fp 2 p c o m m u n i c a t i o nn e t w o r kt o p o l o g y i no r d e rt oi m p r o v et h ei d e n t i f i c a t i o na c c u r a c ya n d e f f i c i e n c y , p 2 p - c n t i mc o m b i n e st h ec h a r a c t e r i s t i co fm u l t i h o s t s 、 ,i t l lt h ec h a r a c t e r i s t i co ft h e t y p eo ft h eo t h e rc o m m u n i c a t i n gp a r t yo fp 2 pt oi d e n t i f yp 2 pf l o w s t h ep a p e rf i r s ta n a l y z e st h e c h a r a c t e r i s t i c so fp 2 pc o m m u n i c a t i o nn e t w o r kt o p o l o g yi ni n t e m e t ,a n ds e l e c t st h e c h a r a c t e r i s t i co fm u l t i - h o s t sa n dt h ec h a r a c t e r i s t i co ft h et y p eo ft h eo t h e rc o m m u n i c a t i n gp a r t y a st h ep r i m a r ym e t h o df o ri d e n t i f y i n gp 2 pt r a 街c ,w h i c hc a nd i v i d ed a t as t r e a m sa c c u r a t e l yi n t o p 2 pf l o wa n dn o n - p 2 pf l o w , t h e nt h ec r i t i c a lt e c h n i q u ef o rd e t e c t i n gt h et y p eo ft h eo t h e r c o m m u n i c a t i n gp a r t y i s p r e s e n t e dt o r e a l i z e dp 2 pt r a f f i ci d e n t i f i c a t i o nb a s e do nt h e c h a r a c t e r i s t i co ft h et y p eo fo t h e rc o m m u n i c a t i n gp a r t y s u b s e q u e n t l y , w ep r e s e n tt h e a s s e s s m e n tf u n c t i o n s ,s c h e d u l i n gm e c h a n i s ma n dt h ec o r ep r o c e s so fp 2 p - c n t i m o nt h eb a s i so ft h i sm o d e l ,w ea c h i e v et h ed e s i g na n di m p l e m e n t a t i o no fp 2 pt r a f f i c i d e n t i f i c a t i o n ,a sw e l la sc o n t r o la n dm a n a g e m e n tp r o t o t y p es y s t e mw h o s em a i nf u n c t i o n s c o n t a i n st h ei d e n t i f i c a t i o no fp 2 ps t r e a m i n ga n dp 2 pa p p l i c a t i o n ,p 2 pc o n t r o la n dm a n a g e m e n t t h ep a p e rp r o v i d e st h ed e l i b e r a t ed e s i g no fs y s t e ms t r u c t u r ea n dm o d u l ed i v i d i n g ,a n dt h e c r i t i c a lt e c h n i q u e ,d e a lp r o c e s s ,a sw e l la sc o r ed a t as t r u c t u r ea r ed e s c r i b e di nd e t a i li nt h ec o r e m o d u l e s e x p e r i m e n t a lt e s tr e s u l t ss h o wt h a tt h ep r o t o t y p es y s t e mb a s e do np 2 p - c n t i m h a sa l o w e rm i s j u d g e m e n tr a t ea n dh i g h e ri d e n t i f i c a t i o na c c u r a c y f u r t h e r m o r e ,t h ei m p l e m e n t a t i o n e f f i c i e n c yo ft h ep r o t o t y p es y s t e mi so b v i o u s l yi m p r o v e di nc o m p a r i s o nw i mt h em e t h o do fp 2 p i d e n t i f i c a t i o nb a s e do nt h et r a d i t i o n a lp a y l o a dc h a r a c t e r i s t i c s k e yw o r d s :p 2 p , n e t w o r kt o p o l o g y , f l o wi d e n t i f i c a t i o n 南京邮电大学学位论文原创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包 含其他人已经发表或撰写过的研究成果,也不包含为获得南京邮电大学或其它 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名: 挑日期:必 南京邮电大学学位论文使用授权声明 南京邮电大学、中国科学技术信息研究所、国家图书馆有权保留本人所送 交学位论文的复印件和电子文档,可以采用影印、缩印或其它复制手段保存论 文。本文电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文 外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。 论文的公布( 包括刊登) 授权南京邮电大学研究生部办理。 研究生签名:罩虹导师签名:l 唑期: 南京邮电大学硕士研究生学位论文第一章引言 第一章引言 p 2 p 技术的广泛使用带来了一些负面的影响,如带宽占用、知识产权、安全隐患等, 如何对p 2 p 进行识别、控制和管理已经成为i s p 和企业急需解决的问题,所以研究如何 进行p 2 p 管理具有重要的意义。 1 1 课题背景 p 2 p ( p e e r - t o p e e r ) 技术自出现以来,得到了快速的普及和发展,以n a p s t e r 、b i t t o r r e n t 、 e d o n k e y 、k a z a a 为代表的文件共享应用凭借自由开放的资源共享方式迅速成为主流的下 载工具,以s k y p e 为代表的v o p 应用凭借较高的通话质量和廉价的通话费用使网络电话 快速普及,以p p l i v e 、q q 直播、p p s t r e a m 为代表的流媒体应用凭借流畅的播放效果以及 丰富多彩的节目内容使网络电视悄然流行,随着各种p 2 p 应用软件的发展,p 2 p 流量在整 个网络流量中的比重也与日俱增。据统计,仅在短短的几年时间内,p 2 p 流量已经占据了 固定网络中6 0 以上的带宽,相对于传统的i n t e m e t 应用,p 2 p 主要带来了下面的几个问 题: 1 ) 网络资源占用问题 p 2 p 流量一般持续占用网络6 0 到8 0 的带宽,对于使用其它网络应用的用户来说, 可能出现带宽不足,网速变慢。一个i s p 教育机构d a n i s h 经过一段时间对包括e d o n k e y 、 m o r p h e u s 以及k a z a a 等p 2 p 应用的监测,发现这些应用会消耗掉8 0 以上的网络带宽, 而普通w e b 浏览只占用大约5 的带宽。网络资源对于i s p 来说是有限的,p 2 p 导致了i s p 的运行成本的增加以及服务质量的下降。 2 ) 知识产权问题 在c s 模式下资源集中在服务器上,监管好服务器就能实现对知识产权的保护,p 2 p 模式下资源分散在所有结点上,目前缺乏有效的分布式监管机制,很容易导致知识产权问 题,n a p s t e r 、e d o n k e y 、k a z a a 、b t 都收到过侵权起诉。 3 ) 安全问题 第1 页 南京邮电大学硕士研究生学位论文第一章引言 用户可以通过p 2 p 网络分发任何内容,这就容易引起蠕虫、病毒或其它的恶意代码 的传播。另外,p 2 p 软件具有穿透防火墙的能力,会在企业网络内部形成安全防护的漏洞, 导致一系列的安全问题。 p 2 p 之所以产生上述问题,其主要原因在于缺少对各种各样的p 2 p 应用的有效监督, 由于其在满足主体需求时却无视各种规约的存在,最终会导致多种负面的影响,与此同时, 不断涌现出来新型的p 2 p 协议及应用软件,使得上述的问题愈演愈烈,因而如何高效的 实现分类、标识和控制p 2 p 流量就成为企业、网络运营商急需解决的问题。针对p 2 p 识 别、控制和管理问题,目前已经取得了一些进展,然而,从总体上来说,现有的检测识别 机制只分别适合应用在不同的场景下,且收到的约束条件较多,关于p 2 p 流的识别分类 模型的研究还有待进一步深入、完善。 本文从p 2 p 独有的通信网络拓扑结构出发,提出了基于通信网络拓扑结构的p 2 p 流 识别模型p 2 p c n t i m 。p 2 p c n t i m 使用p 2 p 流的多主机特征和通信对端类型特征对p 2 p 流进行识别,并通过这两个特征的有机结合以提高模型的识别准确率和识别效率,从实际 应用需要的出发,本文将其和其它p 2 p 识别技术有机的结合在一起,实现了基于 p 2 p c n t i m 的p 2 p 识别、控制管理原型系统。 1 2 课题来源及本文组织 本文研究的内容来源于华为科技基金项目一基于多维向量机的p 2 p 流量识别与监控 系统研究的子课题。该项目针对现有p 2 p 流量识别方法所存在的种种弊端和不足,以及 基于统计信息和基于s v m 技术在p 2 p 流量识别技术中的优势,建立了基于信息统计和 s v m 技术的p 2 p 流量识别模型。对此,孙知信教授所领导的研究室中组成了课题小组, 本人作为项目小组的成员之一,主要负责基于流量统计特征的p 2 p 识别,在项目过程中, 本人提出了基于通信网络拓扑结构的p 2 p 流识别技术,该技术根据p 2 p 流的多主机特征 和通信对端类型特征对p 2 p 流进行识别。 全文共分七个章节,内容组织如下: 第一章介绍了本课题的背景、来源,并给出了本文组织。 第二章介绍了本文所用到的相关技术,包括p 2 p 技术、n a t 相关技术、p 2 p 识别技 术的研究现状。 第2 页 南京邮电大学硕士研究生学位论文 第一章引言 第三章详细阐述了基于通信网络拓扑结构的p 2 p 流识别模型p 2 p c n t i m ,首先分析 了在i n t e m e t 网络环境下,p 2 p 应用的通信网络拓扑结构的显著特征,即多主机特征和通 信对端类型特征,并介绍了其他学者研究总结出的p 2 p 流特征:在第三节本文把p 2 p 流 特征划分为确定性特征和非确定性特征,并且选择了确定性特征作为p 2 p 识别模块的依 据;为了实现基于对端类型的特征检测,在第四节本文给出了检测通信对端类型的核心技 术;在第五节,本文给出了完整的p 2 p c n t i m 模型。 第四章详细介绍了基于p 2 p c n t i m 的p 2 p 识别、控制管理原型系统的设计和实现, 首先介绍了系统实现的目标,然后介绍了系统的主要功能,即p 2 p 流识别、p 2 p 应用识别 以及p 2 p 控制管理,下面的一节给出了系统的结构设计、模块设计,然后分节介绍了系 统的各个模块的设计与实现,在每个模块中详细描述了使用的关键技术、处理流程以及核 心数据结构。 第五章介绍了基于p 2 p c n t i m 的p 2 p 识别、控制管理原型系统的测试情况,首先介 绍了系统的测试环境,然后分别介绍了误判率测试、识别准确率测试以及识别效率的对比 测试,并对测试结果进行了详细的分析。 第六章总结了本文所做的工作,并对该课题进一步研究的方向进行了展望。 第3 页 南京邮电大学硕士研究生学位论文第二章相关技术简介 第二章相关技术简介 在本章中,将对本文提出的流识别模型p 2 p c n t i m 相关的技术进行介绍,包括p 2 p 的发展历史、技术特点、网络结构、以及存在问题与研究方向,又由于p 2 p 应用使用的 n a t 穿越技术和本文提出的流识别模型p 2 p c n t i m 密切相关,所以本章也对n a t 的相 关技术进行了简单的介绍,本章最后对p 2 p 识别目前的研究进展情况进行了总结。 2 1p 2 p 相关技术简介 2 1 1p 2 p 发展历史 p 2 p ( p e e r - t o p e e r ) 1 是2 0 世纪末兴起的不同于传统的c s ( 客户栅服务器) 模型的一种 全新的分布式的通信模型和应用模型。参照d e j a n 在p e e r - t o - p e e rc o m p u t i n g 文中的定义: p 2 p 指的是一类用分布式资源( 包括计算能力、数据资料、网络带宽、以及计算机和人等 等) 实现一个重要功能的系统或应用。其中分布式可以指系统所用的算法或者数据等,不 排除系统的某些部分采用中心式结构。 p 2 p 改变了传统网络的工作模式,由中心目录服务器的集中式控制转向边缘节点的协 同合作方式,将服务器的功能分散到网络各个节点上。网络中每一个节点都具有类似的能 力,既可以作为客户机,也可以作为服务器,以对等的关系接入网络。这种分布式的结构 不需要特殊的中心服务器,所有用户向系统提供资源( 包括c p u ,磁盘空间等) 共享。随着 节点个数的增多,整个系统的计算能力,存储空间也会随之增长,增强了系统的可扩展性, 克服了c s 结构的一些缺点。 1 9 9 8 年1 8 岁的肖恩范宁编写了n a p s t e r 程序,该软件供音乐迷在自己的硬盘上共享 m p 3 歌曲文件,搜索其他用户共享的歌曲文件,并到其他也使用n a p s t e r 服务的用户硬盘 上去下载歌曲。n a p s t e r 在短时间里吸引了5 0 0 0 万用户,其在最高峰时有8 0 0 0 万注册用 户。随后,各种p 2 p 软件就层出不穷,按照其应用的领域分类如下: 1 ) 提供文件和其它内容共享的p 2 p 网络,例如n a p s t e r 、g n u t e l l a 、c a n 、e d o n k e y 、 b i t t o r r e n t 等: 第4 页 南京邮电大学硕士研究生学位论文 第二章相关技术简介 2 ) 挖掘p 2 p 对等计算能力和存储共享能力,例如s e t i h o m e 、a v a k i 、p o p u l a r p o w e r 等; 3 ) 基于p 2 p 方式的协同处理与服务共享平台,例如j x t a 、m a g i 、g r o o v e 等; 4 ) 即时通信交流,包括i c q 、o i c q 、y a h o om e s s e n g e r 等; 5 ) 安全的p 2 p 通信与信息共享,例如c l i q u e n e t 、c r o w d s 、o n i o nr o u t i n g 等; 6 ) 流媒体应用,例如p p l i v e 、q q 直播、p p s t r e a m 等。 近年来,对等网络( p 2 p ) 的用户规模、应用类型和流量均呈爆发式增长。分析结果表 明,基于p 2 p 的语音通信软件s k y p e 在中国同时在线用户数高达9 0 0 万,p 2 p 互联网电视 ( 如p p l i v e 、p p s t r e a m 等) 的注册用户数已超过l 亿,在线收视者数达到1 0 0 5 0 0 万。p 2 p 应用类型也已经从文件共享,扩展到语音、视频等应用领域。同样,中国互联网实际流量 模式分析报告表明,p 2 p 流量已占整个互联网流量的6 0 。 2 1 2p 2 p 技术特点 p 2 p 技术能够获得迅猛发展的原因在于其和传统的c s 体系结构相比,具有其特有的 优点 2 1 - 1 ) 去中心化:p 2 p 网络中的资源分散在所有节点上,消息的传输和实现都直接在结 点之间进行,避免了可能的瓶颈。这一特点为p 2 p 带来了可扩展性、健壮性方面 的优势。 2 ) 可扩展性:由于资源不再集中在少数服务器上,节点对资源的访问不再受到服务 器性能的限制。对于纯p 2 p 来说,整个体系是全分布的,理论上的可扩展性几乎 是无限的。实际应用的系统,如n a p s t e r 、b i t t o r r e n t 、e d o n k e y 都体现出良好的 可扩展性。 3 ) 健壮性:p 2 p 架构天生具有耐攻击、高容错的特点。由于服务分散在各个节点之 间进行,部分结点或部分网络遭到破坏,对其它部分影响很小。另外,现在的 p 2 p 网络技术还能够自适应的调整网络拓扑,排除失效节点和离开的节点,并根 据网络带宽、节点数、负载等变化情况进行性能优化。 4 ) 高性价比:随着硬件技术的发展,个人计算机的计算、存储能力以及网络带宽 等性能按照摩尔定律飞速增长,p 2 p 有效利用了网络中大量闲置计算能力、存储 第5 页 南京啡自学砸研究生学证* 立 第= 章楣关技术简舟 空间和带宽资源,相对于购买服务器和高带宽网络来说成本要低很多。 5 ) 隐私保护:一方面用户信息分散在节点上,无需经过或存储在中间节点上使得 用户隐私信息被窃听的可能性太大减小:另一方面,传统的匿名通信系统依赖中 继服务器转发请求以保护匿名通信者p 2 p 网络中每个节点都可以作为中继节 点,这就为实现匿名p 2 p 提供了良好的条件。 6 ) 负载均衡:一方面,资源分散在所有节点上,有利于整个网络的负载均衡:另一 方面,可以同时访问多个节点获取同一个资源,减少了对单个节点的负载压力。 2 13p 2 p 网络结构 根据拓扑结构的关系可以将p 2 p 研究分为4 种形式 2 :中心化拓扑( c e n t r a l i z e d f o p o l o g y ) :全分布式非结构化拓扑( d e c e n t r a l i z e d u c t u r e d t o p o l o g y ) ;全分布式结构 化拓扑( d e c e n t r a l i z e ds u c 恤d t o p o l o g y ,也称作d h t 网络) 和半分柿式拓扑( p a r t i a l l y d c c c n t r a l i z c d f o p o l o g y ) 。 l 、中心化网络 图2 一i 中心化网络 中心化拓扑最大的优点是维护简单发现效率高,它的结构如图2 1 。但由于资源的发 现依赖中心化的目录系统,发现算法灵活高效并能够实现复杂查询。晟大的问题与传统 c s 结构类似,容易造成单点故障。这是第一代p 2 p 阿络采用的结构模式。 2 1 全分布非结构化网络 夸分布非结构化网络在重叠网络( o v e r l a y ) 采用了随机图的组织方式,节点度数服 镕6 壹皇些皇查兰堡主里塞兰兰堡堡兰苎三兰塑苎苎苎堡生 从“p o w e r - l a w ”规律 3 】,从而能够较快发现目的节点,面对网络的动态变化体现了较好的 容错能力,因此具有较好的可用性。同时可以支持复杂查询,如带有规则表达式的多关键 词查询,模糊查询等,最典型的案倒是g n u t e l l a 4 。 圈2 - 2 全分布非结构化网络 由于没有确定拓扑结构的支持,非结构化网络无法保证资源发现的效率。即使需要查 找的目的节点存在,发现也有可能失败。由于采用t t l ( t i m e t o l i v e ) 、洪泛( f l o o d i n g ) 、 随机漫步或有选择转发算法,因此直径不可控,可扩展性较差。 3 ) 半分布式网络 半分布式结构吸取了中心化结构和全分布式非结构化拓扑的优点选择性能较高( 处 理、存储、带宽等方面性能) 的节点作为超级节点( s u p e r n o d e s 或h u b s ) ,在各个超级节 点上存储了系统中其他部分节点的信息,发现算法仅在超级节点之间转技,超级节点再将 查询请求转发给适当的叶子节点。半分布式结构也是一个层次式结构,超级节点之间构成 一个高速转发层。超级节点和所负责的普通节点构成若干层次。其结构如图2 3 。 第7 南京邮电 学硕士研究生学位论立第二章相关技术简舟 图2 - 3 半分布式网络 半分布式拓扑结构最典型的例子就是s k y p e 5 。半分布式结构的优点是性能、可扩展 性较好,较容易管理,但对超级节点依赖性大,易于受到攻击容错性也受到影响。 4 ) 全分布式结构化网络 在全分布式结构化拓扑网络中,每个节点的地位平等,功能相同,可以最大化地分担 网络的负载。每个节点可以连接到p 2 p 网络的任意一个在线的节点,无任何数目瓶颈。 节点连接前首先需在p 2 p 网络中找到另一节点,这种查找算法叫d h t 算法。基于分布式 哈希表( d h n 的p 2 p 路由算法是近年来p 2 p 技术领域的突破,也是今后p 2 p 网络分布式 路由算法的发展方向,咀此为代表的典型算法包括p a s t r y 6 ,c h o r d 7 ,c a n 8 ,t a p e s w 9 】 等。 图2 4 全分布式结构化网络 图2 - 4 是全分布式结构化网络示意图。d h t 这类结构最大的问题是d h t 的维护机制 较为复杂,尤其是结点频繁加入退出造成的网络波动( c h u r n ) 会极大增加d h t 的维护 代价。d h t 所面l 临的另外一个问题是d h t 仅支持精确关键词匹配查询,无法支持内容 语义等复杂查询。 214p 2 p 存在问题及其研究方向 目前,对p 2 p 网络的主要研究方向包括以下几个方面 第8 页 南京邮电大学硕士研究生学位论文第二章相关技术简介 1 ) 拓扑一致性和资源定位 在一个缺少集中化服务器的动态环境下,各个节点很难维持一致的网络拓扑信息。由 于p 2 p 网络中节点的加入和离开非常频繁,传统路由扩散的方法难以解决这一问题,所 以需要一个高效的一致性信息维护机制。例如,当网络拓扑变化时,快速恢复网络的稳定 性问题需要解决,而且多个节点的并发加入和离开使得解决这一问题更具挑战性。另外, 用户从大量分散的节点中找到需要的资源和服务也是一个需要研究的问题。 2 ) 管理困难 由于p 2 p 网络中的每个节点既是客户机又是服务器,且彼此独立,所以没有人知道 对方有什么内容。缺乏管理的p 2 p 网络可能会成为病毒、色情内容、非法交易的温床, 甚至为恐怖分子所利用。许多p 2 p 公司打算通过p 2 p 网络开展电子商务,但是付费、流 量计算、商品价值验证等诸多问题一时都难以解决。 3 ) 垃圾信息 由于p 2 p 网络的用户众多,当用户进行搜索时,会得到大量的搜索结果,除了少数 有用信息以外,其它大多数信息可能都属于垃圾信息。用户必须在大量垃圾信息中再寻找 自己想要的东西,这就使得查找的效率降低。必须采用可靠的手段,来保证有用信息不被 垃圾信息掩盖。 4 ) 互操作性问题 p 2 p 系统必须面对各种各样的操作系统、网络技术和平台。现在的p 2 p 系统执行的是 相对简单的任务,例如传输m p 3 音乐文件,它们能够和脚本翻译、软件打包以及其他互 联网上的互操作性技术兼容。将来,p 2 p 系统需要更高级的互操作性技术以便执行复杂的 任务,因此,p 2 p 系统的互操作性也是一个非常重要的研究方向。 5 ) 安全问题 安全问题是p 2 p 网络面临的一个比较困难的问题。与传统的客户机服务器的结构相 比,p 2 p 网络自身的开放性和自治性使得它的安全性要差得多。传统的集中安全控制机制 可以解决目前网络中的多数安全问题,而在p 2 p 网络分布式环境中,不仅存在与目前网 络环境同样的安全威胁,而且还带来了一些在动态环境中如何保障资源和系统安全的新课 题。一个拥有众多用户的p 2 p 网络可能会成为黑客新的攻击目标,而且分散式结构的p 2 p 网络有利于木马、病毒等破坏性程序的传播,这将极大地威胁p 2 p 网络的安全。p 2 p 网络 的安全性问题主要可以分为以下几个方面:用户认证问题、数据加密与解密问题、路由安 第9 贾 南京邮电大学硕士研究生学位论文 第二章相关技术简介 全问题、存储与访问安全问题、恶意破坏问题、故意欺骗问题、应用安全问题和个人隐私 问题。遗憾的是,到目前为止,还没有任何一个p 2 p 系统在任何一个方面完全满足要求。 6 ) 带宽占用 因为p 2 p 技术允许用户从网络上下载影视等大型文件,所以这项技术可能需要大量 的带宽,i s p 从其自身利益出发需要对p 2 p 流进行控制,这一点可能会成为p 2 p 网络的推 广障碍,但随着各种宽带网络技术的采用与发展,这一问题可能会得到缓解。 2 2n a t 相关技术简介 2 2 1n a t 的概念 n a t ( n e t w o r ka d d r e s st r a n s l a t i o n ) 【1 0 ,即网络地址转换,它给局域网内的所有网 络设备配置私网虚拟i p ,它们通过一个n a t 路由器( 或者网关) 与公网相连。当它们的 i p 包向外网发送时,通过n a t 把内部地址翻译成合法的口地址在i n t e m e t 上使用,其具 体的做法是把i p 包内的地址域用合法的i p 地址来替换。n a t 设备维护一个状态表,用 来把私网内的i p 地址映射到合法的全局唯一i p 地址上。每个包在n a t 设备中都被翻译 成正确的i p 地址,发往下一级。当收到回复的口包,n a t 路由器再将i p 包头的目标地 址字段中的数据改成相应的私网i p 及端口,转发给局域网内的设备。 2 2 2n a t 的类型 n a t 的主要功能是网络地址和端口转换,由于n a t 穿越的端口号将改变,它会给许 多应用带来影响。按照地址映射的实现方式,n a t 分为以下4 类: 1 ) 全锥形( f u l lc o n e ) n a t 一个私网及端口对应一个公网i p 及端口,公网上的设备只需要知道私网设备所对 应的公网i p 及端口,就可以与该私网设备通信。 第1 0 页 南京邮电大学硕士研究生学位论文第二章相关技术简介 图2 - 5 全锥形n a t 图2 - 5 为全锥形n a t ,任何外部设备都可以与内网设备联系。因此出于安全的考虑, 这种n a t 基本上不会被采用。 2 ) 受限锥形( r e s t r i c t e dc o n e ) n a t 只有当私网p 向外发出数据包时,该n a t 才会进行私网i p 及端口与公网口及端口 的映射,这时目标公网m 的返回数据包能通过n a t 到达私网设备,而其他公网所发 送的数据包都会被拒绝。如图2 5 ,由于主机a 没有主动和主机b 建立联系,因此主机b 的数据包都将被n a t 拒绝。只有当n a t 内设备主动与其通信时,该i p 设备发出的数据 包才能获得通过。 受限锥形n a t 比全锥形n a t 显得更加安全,私网设备不会被莫名的外网设备骚扰, 但在实际应用中,受限锥形n a t 的采用也不多见。 3 ) 端口受限锥形( p o r tr e s t r i c t e dc o n e ) n a t 和受限锥形n a t 类似,只是限制范围从p 地址扩展到 地址,即只有当内 部主机向某个外部的 地址发送过数据包后,该外部的 地址才能通 过映射后的地址进入内网。 第l l 页 南京邮电大学硕士研究生学位论文第二章相关技术简介 i p :1 0 0 0 1 麓誊徽塞萨锄峨濑 图2 - 6 端口受限锥形n a t 如图2 - 6 ,内网主机a 向外网主机b 的8 0 端口发送了数据包,但并未向b 的8 0 8 0 端口发送过数据包,因此来自b 的8 0 8 0 端口的数据包将被n a t 阻挡。 这种类型的n a t 比受限锥形n a t 多加了端口的限制,能避免内网设备受不明应用程 序的骚扰,这与防火墙的功能类似,目前大多数n a t 都是端口受限锥形n a t 。 4 ) 对称式( s y m m e t r i c ) n a t 和锥形n a t 不同,它的地址绑定只能用于指定的内网 地址和外网 地址对,也就是说,对于每一个内外网的 地址对之间的会话必须单独分配 一个地址映射绑定。 器戆二 图2 - 7 对称式n a t 如图2 7 ,内网主机a 与外网主机b 和c 通信时,n a t 将为它分配不同的公有 地址2 0 2 1 1 9 2 3 0 1 0 :1 1 1 1 和2 0 2 1 1 9 2 3 0 。1 0 :2 2 2 2 ,相互之间不能混用。且一个映射 i p 端口只与一个目标i p 端口相对应,此i p 端口不接受其他i p 端口的数据包。对称式n a t 是最为严格的n a t 类型。 2 2 3 现有n a t 穿越解决方法 1 ) h o l ep u n c h i n g h o l ep u n c h i n g 在r f c 3 0 2 7 1 1 进行了介绍,相对其他n a t 解决方案来说,打洞技 术显得比较通用和简单,而它的基本原理也被另外一些解决方案所使用。打洞技术的要点 是:连接双方需先获知对方的地址,然后向对方地址发起连接,即要在各自的n a t 上形 成与对方绑定的“洞”,从而实现n a t 穿越。但是打洞技术有两个限制:一是需借助公网 上的服务器来获知对方地址;二是n a t 的类型限制为锥形n a t ,对于双方都在对称式 n a t 之后的情况,打洞方法并不能使双方建立直连,因为根据对称式n a t 的特性,新的 应用连接产生新的公网m 端口对,而对方并不能得知这一新的地址。 2 ) s t u n 利用s t u n ( s i m p l e t r a v e r s a lo f u d p t h r o u g hn a t ) 1 2 协议,处在n a t 之后的网络 设备通过自身集成的s t u n 客户端与公网上的s t u n 服务器进行信息交互,检测所处n a t 环境的类型,同时获知n a t 为其分配的公网i p 地址。目前大多数商用n a t 都是某种形 式的锥形n a t ,因此s 删方式穿越n a t 有其广泛应用的网络基础。但s t u n 方式的局 限是:需对主机应用加装s t u n 客户端功能及不支持穿越对称式n a t 。 3 ) t u r n t u r n ( t r a v e r s a lu s i n gr e l a yn a t ) 1 3 ,即通过r e l a y ( 中继) 方式穿越n a t 。此 方式解决n a t 问题的设计思路是:在公网上部署t u r n 服务器,n a t 后的主机利用t u r n 协议从t u r n 服务器得到分配的地址和端口,此地址称为中继地址( r e l a y e dt r a n s p o r t a d d r e s s e s ) ,然后将报文发送到t u r n 服务器,t u r n 服务器对此报文的中目的地址信息 作地址变换后r e l a y 转发,因为采用了中继方式,所以t u r n 方法很容易穿越所有类型 的n a t ,这是它的优势。但也正是因为采用了中继方式,将会使得包的时延增加,同时 t u r n 服务器的负荷也会比较重。 4 ) i c e 第1 3 页 南京邮电大学硕士研究生学位论文第二章相关技术简介 与s t u n 和t u r n 相比,i c e ( i n t e r a c t i v ec o n n e c t i v i t ye s t a b l i s h m e n t ) 【1 4 并非是解 决n a t 穿越问题的协议,而是一个框架。在这个框架中,可以整合其他现存的n a t 穿越 协议,如s t u n 、t u r n 等。区别于其他的n a t 穿越解决方案,i c e 是一种探索和更新 式的解决方案,通过搜集自身和对端尽可能多的网络信息( 各种网络地址) ,尝试在这些 地址间建立数据通道,并在这一过程中不断更新先前收集到的信息,从而找出和选择能够 进行n a t 穿越的数据通道。 2 3p 2 p 识别技术研究现状 2 3 1p 2 p 识别技术 1 ) 端i = 1 识别 在早期的纯p 2 p 网络中,p e e r 之间进行通信时都采用固定的端口号,因此,对于纯 p 2 p 应用流,采用基于传输层端口的p 2 p 流量识别方法实现非常简单,也不用花费太多的 系统资源 1 5 1 1 1 6 1 1 1 7 1 。但是随着p 2 p 技术的发展,当前很多p 2 p 协议都开始采用动态端 口技术以规避检测,因此,单纯利用传输层端口号进行p 2 p 流量识别的技术在当前已经 不再适用了。 2 ) 基于p a y l o a d 特征识别 大部分p 2 p 应用软件,如b t 、g n u t e l l a 等,其通信协议包中都有各自标记性的关键 字。基于p 2 p 流晕内容的识别技术【1 8 】 1 9 】 2 0 】【2 1 】【2 2 】通过检查数据包的数据内容,找到 特定p 2 p 协议的关键字以识别p 2 p 流量。这种p 2 p 流量检测方法直观、检测效率高,并 且误检率低。但是也存在以下几个问题:( 1 ) 只能检测已知p 2 p 协议的p 2 p 流量,对于各 种各样新型的p 2 p 协议流量则无能为力,因此限制了该检测方法的适用范围:( 2 ) 对每一 个数据报内容进行关键字检测耗费时间长,而若要求不影响正常通信,则对系统的需求很 高;( 3 ) 有些p 2 p 协议使用了数据加密技术,导致无法检测其数据包内容,从而也无法识 别其流量;( 4 ) 基于数据包内容的p 2 p 流量检测技术需要对数据包的具体内容进行解析, 有可能涉及机密或隐私问题,因此存在社会争议。 3 ) 伪参与技术的p 2 p 流量识别 文献 2 3 】 2 4 】提供出了一种新颖的基于伪参与技术的p 2 p 流量识别方法,该方法是用 一台或多台实验主机主动参与到p 2 p 网络中,通过与p 2 p 用户进行报交换获取该p 2 p 用 第1 4 页 南京邮电大学硕士研究生学位论文第二章相关技术简介 户的口地址等信息,同时对获取的信息进行分析,并以此来识别p 2 p 流量。该方法识别 准确度高,但是也存在一些缺点:在参与文件共享时可能违反文件的使用版权,另外,由 于只能识别真正与实验主机进行包交换的p 2 p 用户,因此有识别不完全的弊端,漏检率 也很高。 4 ) 流量特征识别 t h o m a sk a r a g i a n n i s 等人从流量的特征出发进行p 2 p 流量识别,文献【2 5 】分析了p 2 p 应用的传输层通信模式特点,如现有许多p 2 p 应用( e d o n k e y , c m u t e l l a 等) 的传输层通信协 议特征、端口与目的i p 关系等。文献【2 6 】从p 2 p 应用的最基本特征出发,如p 2 p 网络的 网络直径很大等信息,不需要任何应用层信息而是用简单的统计方法,就可以识别已知协 议和未知协议类型的p 2 p 应用流。文献 2 7 】和文献 2 8 】则根据流量的统计特征进行p 2 p 流 量识别和分类,这些统计特征有p e e r 的连接成功率、p e e r 的连接响应成功率等。尽管基 于统计信息的p 2 p 流量识别方法解决了传统p 2 p 流量识别方法的种种弊端,但是无法识 别出具体的p 2 p 流量类型。 5 ) 跨层识别 i d e d i n s k i 等人提出一种基于活跃网络( a c t i v en e t w o r k i n g ) 的跨层流量识别和优化 方法【2 9 】。该方法既使用p a y l o a d 特征,也使用流量特征的检测方法,可以避免只使用 p 2 p 流特征或者只使用p a y l o a d 特征方法的一些缺点,发挥它们的优点,从而达到提高检 测精度和效率的目的。 6 ) 基于机器学习的p 2 p 流识别 目前,采用机器学习的方法进行流量的分类受到了越来越多的关注,m o o r e 3 0 采用有 监督的n a i v eb a y e s 分类方法进行流量分类与应用识别。笔者已经将网络流量数据手动分 类,确定了流量的具体应用类型,并将流量数据分成训练集和测试集。为了评估n b 方法 的性能,每个数据集依次作为训练集输入到n a i v eb a y e s 分类器中,其他的数据集作为测 试集进行评估,获得的平均分类准确性超过了8 3 。j e r m a n 等人【3 1 采用无监督的方法 e x p e c t a t i o n m a x i m i z a t i o n ( e m ) 来识别不同应用的网络流量,通过与b a y e s 的分类方法进行 比较,获得了更为准确的分类结果。文献【3 2 】中,作者将模糊数学的理论应用在p 2 p 流量 识别中,提出了一种基于流特性描述的模糊识别方法。业界近期又提出采用支持向量机 ( s v m ) 进行p 2 p 流量的识别和分类 3 3 】 3 4 】,该方法采用p 2 p 流量的基本特征( 五元组) 进行支持向量机的训练,并采用二维向量机进行p 2 p 流量的识别,采用多维支持向量机 第1 5 页 南京邮电大学硕士研究生学位论文 第二章相关技术简介 进行p 2 p 流的分类。鉴于网络流量本身具有的复杂性与动态性,使用机器学习的方法对 网络流量进行分类的应用还处在发展阶段。 2 3 2 相关产品 现在国内外市场上用于流量检测的产品主要分为纯软件系和软硬件搭配型。 1 ) 纯软件型 硬件采用普通p c 机或服务器,软件设计与硬件无关,这种产品一般售价低廉,甚至 免费,如开源软件i p p 2 p 3 5 ,适用于小流量的网络环境 2 ) 软件

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论