




已阅读5页,还剩53页未读, 继续免费阅读
(计算机应用技术专业论文)基于流量特征的p2p流量检测.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着9 0 年代初p 2 p ( p e e r - t o p e e r ) f f c j , w , 现,p 2 p 应用迅速的增长,已经发展成为i n t e r n e t 中流量增长最为迅速的应用之一。与第一代p 2 p 使用确定的端口号不同,现在的p 2 p 应用 通过使用诸如动态端口号,端口号跳跃,冒充唧和有效载荷加密等技术,已经拥有 了掩盖其存在的能力。随着p 2 p 应用的不断发展,我们需要健壮、有效的方法来进行p 2 p 流量的识别。 本文从p 2 p 协议的工作原理与实现机制入手,研究分析了目前p 2 p 应用发展的状况及 典型的p 2 p 应用,并在此基础上做了以下工作: 1 研究分析了当前存在的几种p 2 p 流量识别方案的工作原理,及其在p 2 p 流量识 别过程中的特点和存在的问题。 2 提出了一种新的基于传输层连接特征的p 2 p 流量识别方法。介绍了该方法的 理论基础、涉及的n e t f l o w 数据格式及支持向量机的相关知识。 3 设计并实现了基于本文识别方法的p 2 p 流量识别系统。介绍了p 2 p 流量识别系 统的总体设计架构和实现机制,进而详细说明该系统的组成模块。 4 在真实的网络环境中,对本文提出的方案进行实验,并对实验结果进行分析、 评价。 关键词:对等网络p 2 p 流量识别连接特征n e t f l o w 支持向量机 a b s t r a c t s i n c et h ee m e r g e n c eo fp e e r - t o - p e e r ( p 2 p ) n e t w o r k i n gi nt h el a t e 9 0 s ,p 2 pa p p l i c a t i o n s h a v em u l t i p l i e d ,e v o l v e da n de s t a b l i s h e dt h e m s e l v e s 勰t h el e a d i n gg r o w t ha p p l i c a t i o n so f i n t e r n e tt r a f f i cw o r k l o a d i nc o n t r a s tt of i r s t g e n e r a t i o n p 2 pn e t w o r k sw h i c hu s e d w e l l - d e f i n e dp o r tn u m b e r s ,c u r r e n tp 2 pa p p l i c a t i o n sh a v et h ea b i l i t yt od i s g u i s et h e i r e x i s t e n c et h r o u g ht h eu s eo fs e v e r a lo b f u s c a t i o nt e c h n i q u e s ,i n c l u d i n gd y n a m i cp o r tn u m b e r s , p o r th o p p i n g ,h t t pm a s q u e r a d i n g , a n de n c r y p t e dp a y l o a d s a sp 2 pa p p l i c a t i o n sc o n t i n u et o e v o l v e ,r o b u s ta n de f f e c t i v em e t h o d sa r en e e d e df o rp 2 p t r a f f i ci d e n t i f i c a t i o n t h i sp a p e rw eb e g a nw i t ht h ew o r kp r i n c i p l eo fp 2 p p r o t o c o l ,t h e nw ea n a l y z e t h ep r e s e n t s t a t u so fp 2 pa p p l i c a t i o n sa n dt y p i c a lp 2 pa p p l i c a t i o n s t h ew o r k st h i sp a p e rh a sd o n el i s t 弱 f o l l o w s : 1 r e s e a r c hs e v e r a lc u r r e n tp 2 pt r a f f i ci d e n t i f i c a t i o n s o l u t i o n s a n a l y z e t h e c h a r a c t e r i s t i c sa n dp r o b l e m si nt h e s es o l u t i o n s 2 an e wm e t h o d o l o g yf o rp 2 p ( p e e r - t o p e e r ) h o s tr e c o g n i t i o ni sp r e s e n ti nt h ep a p e r , i nw h i c ht h et r a n s p o r tl a y e rc o n n e c t i o nc h a r a c t e r i s t i c so fp 2 pp r o t o c o l si su s e d i n t h i sp a p e r , w ei n t r o d u c e dt h eb a s i ct h e o r yo ft h i sm e t h o d o l o g y ,n e t f l o wd a t af o r m a t a n dt h ec o r r e l a t i v ek n o w l e d g eo fs u p p o r tv e c t o rm a c h i n e s 3 d e s i g n e da n di m p l e m e n t e dt h ep 2 pt r a f f i ci d e n t i f i c a t i o ns y s t e mb a s e do nt h e m e t h o d o l o g yp r e s e n ti nt h ep a p e r w ei n t r o d u c e dt h ef r a m e w o r k a n dt h ei m p l e m e n t m e c h a n i s mo ft h i sp 2 pt r a f f i ci d e n t i f i c a t i o ns y s t e ma n dt h e ne l a b o r a t e do nt h e m o d u l s 4 w ee x p e r i m e n tt h ep 2 pt r a f f i ci d e n t i f i c a t i o ns y s t e mi nr e a ln e t w o r ka n da n a l y z e dt h e r e s u l to ft h ee x p e r i m e n t k e yw o r d s :p e e r t op e e r ,p 2 pt r a f f i ci d e n t i f i c a t i o n ,c o n n e c t i o nc h a r a c t e r i s t i c , n e t f l o w , s u p p o r tv e c t o rm a c h i n e s 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取 得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得 墨盗堡兰盘堂 或 其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研 究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 学位论文作者签名:艄签字日期:伽留年,月寥日 学位论文版权使用授权书 本学位论文作者完全了解 墨盗堡墨太堂有关保留、使用学位论文 的规定。特授权叁盗墨墨盘堂 可以将学位论文的全部或部分内容编入 有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编, 以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复本和电子 文件。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:涨岩 导师签名:歹乃乃彳3 签字日期:酗箩年,月,g 日签字日期:硼年,月分日 第一章绪论 1 1 研究背景 第一章绪论 随着互联网的飞速发展,工作效率的提高越来越依赖于信息技术的发展。p 2 p ( p e e r - t o p e e r 点对点) 技术使信息资源的最大程度共享变为可能,它将人们直接的连 接起来,让人们通过互联网可以进行直接的交互。p 2 p 使得网络上的沟通变得更容易、 实现了直接共享和交互。p 2 p 使得人们可以直接连接到其他用户的计算机、交换文件, 而不是像过去那样连接到服务器去浏览与下载。随着p 2 p 技术应用的不断扩展,特别是 基于p 2 p 系统的文件共享业务不断壮大,p 2 p 系统本身潜在的安全隐患和对资源( 尤其 是网络带宽资源) 的滥用等问题,已经受到各个网络运营商和学校网络管理者的高度重 视。 当前用于文件共享的p 2 p 协议种类很多,在美国大量使用的是k a z a a ,在欧洲存在 大量用户的是e d o n k e y 和w i n m x ,在我国使用最频繁的是b i t t o r r e n t ,其它常用的p 2 p 协议还有如f a s t t r a c k 、e g u l e 、g r o k s t e r 、g r o o v e 、g n u t e ll a 等。同时p 2 p 用户的总 数庞大到数以百万计,其累计业务量已占互联网业务总量的很大部分,造成了网络带宽 的巨大消耗,甚至引起网络拥塞,大大降低了网络性能,劣化了网络服务质量,妨碍了 正常网络业务的开展和关键应用的普及,例如:在教育网内部b i t t o r r e n t 应用非常广 泛,仅从清华大学校园网出口的流量监控来看,b i t t o r r e n t 的流量早已超过了w e b 等传 统的业务流量,约占整个流量的1 5 。同时通过并不安全的网络环境获得的应用程序 给网络安全带来了极大的隐患。 这些问题随着p 2 p 技术应用的普及而日益突显,由于简单的扩容无法满足业务容量 增长的需要,所以对p 2 p 业务进行识别、标识、分析、建模、控制和管理成为人们研究 的热点,本文正是在这样的背景下产生的。 1 2 研究内容及目标 1 2 1 研究内容 1 深入了解目前典型p 2 p 应用 这是提出自己创新观点的基础,只有对目前典型p 2 p 应用有了深入地了解,才有可 能找到其区别于非p 2 p 流量的特点。 2 p 2 p 流量特征的提出 由于不对称路由和丢包、重传现象的存在,导致无法精确确定流量特征。很多流量 特征都不是p 2 p 流量唯一的,其它应用也有可能表现出这种流量特征。因此给p 2 p 流量 第一章绪论 特征的提出带来了困难。解决的方法就是通过利用大量已知类型的流量来检验特征的选 取是否合适,尝试不同的特征组合,从而找出区分度最好的若干特征,提高识别的准确 率。 3 识别模型的选取 最终的识别准确率是由特征值的选取和识别模型的选取共同决定的,而识别模型的 识别结果又是检验特征值选取合适与否的唯一标准,因此识别模型的选取就显得尤为重 要。 1 2 2 研究目标 1 提出典型p 2 p 应用在流量统计以及连接模式上的若干特征。 2 编写出通过校园网流量检验的具有一定p 2 p 流量识别能力的软件。 1 3 本文的组织结构 第一章绪论。首先介绍了p 2 p 协议的基本概念,类型及发展过程中出现的问题, 说明本文的研究背景。在此背景下,提出了本文的研究内容和研究目标。在本章的最后, 列出了本文的组织结构。 第二章p 2 p 协议概述。首先对p 2 p 协议的内容、原理及应用分类进行介绍,并针对 目前使用最为广泛的典型p 2 p 应用进行详细的分析,最后根据p 2 p 的发展现状、趋势引 出存在的各种问题。 第三章p 2 p 流量检测技术现状及分析。本章首先对国内外p 2 p 流量检测技术的现状 及原理进行介绍,然后针对主流的p 2 p 流量检测技术进行详细的分析和对比,根据这些 技术的特点提出其适用范围和局限性。 第四章基于连接特征的p 2 p 流量识别方法及系统实现。通过第三章对现有p 2 p 流 量检测技术局限性的分析,提出一种基于连接特征的p 2 p 流量识别方法,该方法属于流 量特征检测技术。首先介绍该方法的理论基础和该方法涉及的相关数据格式及模式识别 的相关知识。然后介绍应用该方法的p 2 p 流量识别系统的总体设计架构和实现机制,进 而详细说明该系统的组成模块。 第五章p 2 p 流量识别系统的实际性能测试结果及分析。本章介绍本文的实验环境和 实验方法,本文的实验数据完全来自真实的网络环境,对实验结果的评估则是以业界公 认的a l l o t 公司的产品同步测试后得到的结果,最后对实验结果进行分析、评价。 第六章总结和展望。本章对论文中所涉及到的工作进行归纳总结,并对未来工作 进行展望。 第二章p 2 p 技术概述 2 1p 2 p 的概念 第二章p 2 p 技术概述 p 2 p 是p e e r - t o - p e e r 的缩写,p e e r 在英语里有“对等、同等者、伙伴 等意义, p 2 p 可以理解为“端对端,点对点 的意思,称为对等网。p 2 p 起源于最初的联网通信 方式,是一种比较古老的技术,如产生于1 9 7 9 年的u s e n e t 和1 9 8 4 年的f i d o n e t 都是 基于p 2 p 技术的,但是目前p 2 p 己被赋予了新的含义,是旧有技术新的应用模式。p 2 p 技术,是在i n t e r n e t 上实施网络计算的一种新的计算模型。在这种网络中所有的节点 是对等的( 称为对等节点) ,各节点具有相同的责任与能力并协同完成任务。对等节点 之间通过直接互连,共享信息资源、处理器资源、存储资源甚至高速缓存资源等,无需 依赖集中式服务器就可完成。i b m 为p 2 p 作了如下定义:系统依存于边缘化( 非中央式 服务器) 设备的主动协作,每个成员直接从其他成员而不是从服务器的参与中受益,系 统中成员同时扮演服务器与客户端的角色,系统应用的用户能够意识到彼此的存在,构 成一个虚拟或实际的群体。 从技术角度来说,p 2 p 并不是新的技术,而是一种新的应用技术模式。t c p i p 是 i n t e r n e t 整体架构的基础,它的最初设计就是提供固定节点间的点对点通信,并不存 在客户机和服务器的概念。发送方指定接收方的i p 地址,i p 层将数据报文投递到指 定i p 地址的固定节点。这种简单的点对点通信模型后来随着网络的发展逐步被c s 模式替代。c s 模式形成互联网上的集中,信息资源向同一方向集中,这样的模式符合 一对多、强对弱的社会形式,满足了计算机网络的发展需求。但是随着计算机网络的发 展,越来越多的资源加入到系统中,大量资源集聚在少数服务器节点上,使服务器的负 载越来越重,难以向客户提供快捷的服务,从而形成系统的瓶颈。 2 2p 2 p 技术的应用1 1 p 2 p 引导网络计算模式从集中式向分布式偏移,也就是说网络应用的核心从中央服 务器向网络边缘的终端设备扩散:服务器到服务器、服务器到p c 机、p c 机到p c 机、 p c 机到w a p 手机。所有网络节点上的设备都可以建立p 2 p 对话。这使人们在i n t e r n e t 上的共享行为被提到了一个更高的层次,使人们可以用更主动、更深刻的方式参与到网 络中去。正如d o u g v a n h o u w e l i n g 在中国之行时说到的:“下一代互联网民们将真正参 与到网络中来,每个人都能为网络的资源和功能扩展作出自己的贡献。”分类来讲,其 主要应用和研究领域分布在以下几个方面: 1 文件交换:以p 2 p 模式实现了自由的文件交换体系,从而引发了网络的p 2 p 技术革 命。一种是“中心文件目录分布式文件系统 ,交换数据时是通过中央服务器来进行目 第二章p 2 p 技术概述 录管理的。n a p s t e r 就属于此类。由于采用集中式目录管理,所以不可避免地存在单点 瓶颈的问题。另外一种属于完全的p 2 p ,这类系统没有中间服务器。g n u t e l l a 和f r e e n e t 是这方面两个典型的应用。第三类系统是上面两类系统的折衷有中间服务器,但文 件目录是分布的,如w o r k s l i n k 。在这方面,m a z e 同时也是国内具有代表性的p 2 p 应 用软件。 2 对等计算:c e n t r a t a 、d a t a s y n a p s e 、d i s t r i b u t e d n e t 、d i s t r i b u t e d s c i e n c e 、 e n t r o p i a ,p a r a b o n c o m p u t a t i o n ,p o p u l a rp o w e r ,p o r i v ot e c h n o l o g i e s i n c , s e t i h o m e 、u b e r o 、u n i t e dd e v i c e 等研究项目均是目前基于p 2 p 的分布式计算的典型 代表。i n t e l 也利用对等计算技术来设计其c p u ,并为其节省极大的费用。同时由于对 等计算的发展是以p c 机资源的有效利用为根本出发点的,它也受到i n t e l 的极力推崇。 就本质而言,对等计算即是网络上c p u 资源的共享。 3 协同工作:协同工作是指多个用户之间利用网络中的协同计算平台互相协同来共同完 成计算任务,共享各种各样的信息资源等。在p 2 p 出现之前,协同工作的任务通常由 诸如l o t u sn o t e s 、m s e x c h a n g e 等来实现,l o t o u s 公司的创始人组织开发的g r o o v e 是 目前最著名的p 2 p 协同工作产品。g r o o v e 采用中间传递服务器( r e l a ys e r v e r s ) 来实 现p 2 p 的多播,采用x m l 表示的路由协议,多个不同的g r o u p 之间不仅仅可以共享文 件、聊天信息还可以共享各种应用程序。另外,e n g e n i as o f t w a r ei n t e r b a n d 等都是 协同工作的典型应用。 4 即时通讯:从某种意义上说,由于版权的限制,即时通讯应用将超过文件共享应用, 成为p 2 p 的第一大应用。在即时通讯领域,a o l 和微软、y a h o o 一直有比较激烈的争斗, 当然国内还是o i c q 一家的天下。与i r c 、b b s 或w e b 聊天室比较,p 2 p 的即时通讯软 件不仅可以随时知晓对方在线与否,而且交流双方的通讯完全是点对点进行,不依赖服 务器的性能和网络带宽。j a b b e r 是一个开放源码的实时通信平台,j a b b e r 提出了一个 在不兼容的各种实时通信平台之间进行消息交换的协议,这种协议包含在一个采用) ( m l 表示的路由协议中。最近,s k y p e 公司推出的s k y p e 即时通讯软件简单易用,话音质量 比较高,但是不支持视频,不能传输图像。h e a d c a l l 公司应用p 2 p 技术建立h e a d c a l l 通讯平台,推出a n y c h a t 即时通讯软件、h e a d m e e ti n g 视频会议系统和h e a d c a ll 网络 电话,实现了真正免费的通信。国内的p p l i v e 实现了利用p 2 p 技术实现远程流媒体的 实时传输,节约了带宽,提高了性能。 5 搜索引擎:搜索引擎是目前人们在网络中搜索信息的主要工具。目前的搜索引擎如: g o o g l e 、天网等都是集中式的搜索引擎。即使是g o o g l e 这个目前最出色的全中文搜索 引擎只能搜索到2 0 一3 0 的网络资源。p 2 p 网络模式中节点之间动态而又对等的互联关 系使得搜索可以在对等点之间直接地、实时地进行,既可以保证搜索的实时性,又可以 达到传统目录式搜索引擎无可比拟的深度( 理论上将包括网络上所有开放的信息资源) 。 p 2 p 为互联网的信息搜索提供了全新的解决之道。 6 网络游戏:采用p 2 p 技术建立起来的分布式小组服务模型,配以动态分配的技术,每 个服务器的承载人数将在数量级上超过传统的服务器模式,这将大大提高目前多人在线 交互游戏的性能。 第二章p 2 p 技术概述 7 基于i n t e r n e t 的文件存储系统:一些研究项目开始使用p 2 p 技术来组织和存储文件, 像o c e a n s t o r e 、f a r s i t e 等。这些项目的目标都是提供面向全球规模的文件存储服务。 8 基于i n t e r n e t 的操作系统。 2 3p 2 p 网络的特点乜1 与其他网络模型相比,p 2 p 具有以下特点: 1 分散化 网络中的资源和服务分散在所有节点上,信息的传输和服务的实现都直接在节点之 间进行,可以无需中间环节和服务器的介入,避免了可能的瓶颈。 即使是在混合p 2 p 中,虽然在查找资源、定位服务或安全检验等环节需要集中式服 务器的参与,但主要的信息交换最终仍然在节点中间直接完成这样就大大降低了对集 中式服务器的资源和性能要求。分散化是p 2 p 的基本特点,由此带来了其在可扩展性、 健壮性等方面的优势。 2 可扩展性 在传统的c s 架构中,系统能够容纳的用户数量和提供服务的能力主要受服务器的 资源限制。为支持互联网上的大量用户,需要在服务器端使用大量高性能的计算机,铺 设大带宽的网络。为此机群、c l u s t e r 等技术纷纷上阵。在此结构下,集中式服务器之 间的同步、协同等处理产生了大量的开销,限制了系统规模的扩展。而在p 2 p 网络中, 随着用户的加入,不仅服务的需求增加了,系统整体的资源和服务能力也在同步地扩充, 始终能较容易地满足用户的需要。即使在诸如n a p s t e r 等混合型架构中,由于大部分处 理直接在节点之间进行,大大减少了对服务器的依赖,因而能够方便地扩展到数百万个 以上的用户。而对于纯p 2 p 来说,整个体系是全分布的,不存在瓶颈。理论上其可扩展 性几乎可以认为是无限的。 p 2 p 可扩展性好这一优点已经在一些得到应用的实例中得以证明,如 n a p s t e r ,g n u t e ll a ,f r e e n e t 等。 3 健壮性 在互联网上随时可能出现异常情况,网络中断、网络拥塞、节点失效等各种异常事 件都会给系统的稳定性和服务持续性带来影响。在传统的集中式服务模式中,集中式服 务器成为整个系统的要害所在,一旦发生异常就会影响到所有用户的使用。而p 2 p 架构 则天生具有耐攻击、高容错的优点。由于服务是分散在各个节点之间进行的,部分节点 或网络遭到破坏对其它部分的影响很小。而且p 2 p 模型一般在部分节点失效时能够自动 调整整体拓扑,保持其它节点的连通性。事实上,p 2 p 网络通常都是以自组织的方式建 立起来的,并允许节点自由地加入和离开。一些p 2 p 模型还能够根据网络带宽、节点数、 负载等变化不断地做自适应式的调整。 4 隐私性 随着互联网的普及和计算存储能力飞速增长,收集隐私信息正在变得越来越容易。 第二章p 2 p 技术概述 隐私的保护作为网络安全性的一个方面越来越被大家所关注。目前的i n t e r n e t 通用协 议不支持隐藏通信端地址的功能。攻击者可以监控用户的流量特征,获得i p 地址。甚 至可以使用一些跟踪软件直接从i p 地址追踪到个人用户。在p 2 p 网络中,由于信息的 传输分散在各节点之间进行而无需经过某个集中环节,用户的隐私信息被窃听和泄漏的 可能性大大缩小。此外,目前解决i n t e r n e t 隐私问题主要采用中继转发的技术方法, 从而将通信的参与者隐藏在众多的网络实体之中。在传统的一些匿名通信系统中,实现 这一机制依赖于某些中继服务器节点。而在p 2 p 中,所有参与者都可以提供中继转发的 功能,因而大大提高了匿名通讯的灵活性和可靠性,能够为用户提供更好的隐私保护。 5 高性能 性能优势是p 2 p 被广泛关注的一个重要原因。随着硬件技术的发展,个人计算机的 计算和存储能力以及网络带宽等性能依照摩尔定理高速增长。而在目前的互联网上,这 些普通用户拥有的节点只是以客户机的方式连接到网络中,仅仅作为信息和服务的消费 者,游离于互联网的边缘。对于这些边际节点的能力来说,存在极大的浪费。采用p 2 p 架构可以有效地利用互联网中散布的大量普通节点,将计算任务或存储资料分布到所有 节点上。利用真中闲置的计算能力或存储空间,达到高性能计算和海量存储的目的。这 与当前高性能计算机中普遍采用的分布式计算的思想是一致的。但通过利用网络中的大 量空闲资源,可以用更低的成本提供更高的计算和存储能力。 表2 - 1p 2 p 应用与传统应用对比 参数对网络计划的重要性传统应用的影响p 2 p 应用带来的变化 网络在属性上具有不对称常见的住宅用户使用p 2 p 应用鼓励用户共享 性: 网络执行下行应用。文件,通常一个对等体提 网络保持上行传输的流量这些应用( 电子邮供几船的文件,从而导 ( 例如从用户到网络) 与它件、网页浏览等) 为单致上行下行比率发生变 舔在反方向保持的流量不同。个上行请求生成大量化,结果使上行链路发生 下行流这两个方向规定的比率与下行流量,服务提供拥塞( 因为单个用户文件 量比率使用网络的应用直接相关。商必须依靠该比率。上载增加) 。 网络是按照预定的比率构 建的,如果该比率不正确, 则会导致拥塞和较高的无 效容量。 服务提供商通常假定每个住宅宽带用户每天的p 2 p 应用通常用来上载或 用户每天使用网络的平均操作时间和百分比的下载大容量( 几m b ) 文件。 时长和( 根据用户信息收计算前提是用户必须有时应用一方面在不断 集) 使用高峰时期。服务提物理出现,而且正在下载文件列表,另一方面 供商通常能够预测、计算网使用连接,如网页浏又在处理其它对等体发 络“高峰时段”和网络使用览和阅读电子邮件出的几个文件请求,但这 每天的 较少发生拥塞的时段。 等。 个过程一直未被人察觉, 第二章p 2 p 技术概述 操作时用户信息收集分两类:主要这就导致网络流量整天 间及百在周末和夜间使用网络的处于连续的高容量传输 分比住宅用户和主要在工作时状态: 间使用网络的远程工作者例如,具备宽带连接的学 和小型办公用户。两大类用生虽然身在学校,但在工 户使用的突然变化可能导作时段,他们使用的计算 致以前不易发生拥塞的时 机则可能与远程工作者 段产生拥塞。 争夺重要的网络资源。 为每个网络分组和连接提传统的数据网络主要p 2 p 流量明显增加了家庭 供服务所产生的费用有时提供o n n e t 应用( 电用户之间的流量。在出现 与用户对等体的位置有关。子邮件、n n t p 和w e b该技术之前,两名家庭用 与其他网络提供商仔细制代理) 或者定向到少户( 无论他们是否使用同 订对等协议,有助于减少流量内容提供商和数据一个服务提供商) 不能建 流量目量,进而减少昂贵的中转连网站。立直接连接。p 2 p 文件交 的地和接费用。 换明显增加了这种交叉 对等点此外,不离开服务提供商骨连接的流量。 干网的本地流量( 通常称为 o n n e t ) 比离开服务提供商 域的流量( o f f n e t ) 的成本 低很多。 无论网络采用什么拓扑或传统的应用具有重要p 2 p 应用主要用来共享 结构体系,它给所有用户提“使用时间”“每字节关注” 估计的 供的带宽总是有限的,并且 ( ti m e t o c o n s u m e ) ( a t t e n t i o n p e r 。b y t e ) 流量在计划网络容量时,通常还概念:浏览小网页需率很低的二进位文件。3 预设了一定的超额订购。要几分钟,而浏览一分钟的歌曲通常为 封电子邮件则可能花3 5 船,1 0 分钟的电影可 费几个小时。以高达几百m b 。 2 4 典型p 2 p 系统介绍 1 n a p s t e r n a p s t e r 是p 2 p 网络技术的先驱,它对p 2 p 网络的发展起了巨大的推进作用。 n a p s t e r 利用一个类似于服务器的节点集中提供对等节点标识和资源索引信息。当节点 加入网络时,首先向服务器发送共享资源的信息列表,而服务器把它的i p 地址和端口 号作为其在网络中的标识。当需要查找资源时,p 2 p 网络中的用户通过登录服务器,向 集中索引服务器发出搜索请求,服务器返回资源所在节点的地址信息。查询发起的对等 节点收到应答后,p i n g 每一台拥有资源的节点,根据网络流量和延迟信息进行选择, 以便与合适的对等节点直接建立连接。在n a p s t e r 网络中,系统并不关心网络拓扑结构 第二章p 2 p 技术概述 和节点离开行为,实际上也没有提供节点的逻辑命名机制,仍然以i p 地址和端口作为 节点的标识1 。显然n a p s t e r 属于中心式的控制模式。 2 g n u t e l l a g n u t e l l a 网络没有中央目录服务器,是全分布式的p 2 p 网络。初始状态下,通过 访问某些节点提供的g n u t e l l a 网络中的活动节点地址缓存列表,新加入的对等节点可 以任选一个地址。一旦获得该地址,新加入的节点就可以与该地址所代表的活动对等点 建立t c p i p 连接,从而接入g n u t e l l a 网络。一旦加入g n u t e l l a 网络,对等节点就 可以直接和其它节点通信。g n u t e l l a 采用泛洪策略( f l o o d i n g ) 进行路由搜索。对等 节点通过“扩散”方式向所有与之连接的节点发出p i n g 描述符,而接收到p i n g 描述 符的对等点或者响应一个p o n g 描述符,或者在不能满足请求时,将该请求向与自己相 连的其它节点广播,直至p i n g 报文中的t t l ( t i m eo f1 i f e ) 属性值递减为0 时, 停止继续转发报文。每转发一次p i n g 报文,将其t t l 值减1 。为了减少广播带来的 网络带宽浪费,一般对广播传递跳数进行限制。即如果请求在经过有限的循环广播之后, 仍不能得到响应,则发送请求的节点将得到一个错误信息。g n u t e l l a 同n a p s t e r 一样, 也没有自己的逻辑标识,系统中的对等点仅能确定直接与之通信的对等点所在位置,无 法得知整个网络的结构或者组成网络的各对等点的身份。不同之处在于新节点加入时, g n u t e l l a 协议需要活动节点地址缓存列表获得网络内一个节点的标识,而不是求助于 集中服务器h 1 。 3 f r e e n e t f r e e n e t 是一个基于j a v a 的跨平台分布式文件存储系统,其最大的特点就是匿名。 文件的发布者、查询者包括文件的持有者在f r e e n e t 中都是匿名的。为了实现匿名, f r e e n e t 在路由上降低了效率,路由中的每个节点不能判断前一个节点是否是文件的请 求者、也不能判断后一个节点是否是文件的持有者。f r e e n e t 节点可以通过指定本地的 共享目录来共享自己的存储( 而不仅仅是共享文件或者对象) ,任何其他节点都可以向 这个共享目录中写入文件。每个文件都通过一个反映文件内容的关键字( 并不要求全局 唯一) 进行标识,关键字也可以包括访问权限等其他信息。每个节点都使用一个最近最 少使用的缓冲区保存本地存储文件的信息,使用另一个最近最少使用缓冲区保存本地文 件和某些远程文件的元数据信息。当节点收到查找请求时,将使用元数据信息有效地把 查找定位到最可能保存该文件的节点。如果收到查找请求的节点在本地元数据中找不到 任何匹配,它将把请求发送到关键字比较接近于查找关键字的节点,这一过程将重复进 行直到达到预先确定传播层次数,如果仍然没有找到匹配则返回一个错误指示。如果找 到了一个匹配,请求的对象将按照查找路径返回。在f r e e n e t 中,查找路径中的每个节 点都将缓存返回的文件数据以备将来使用。对象的插入过程和查找过程类似,在本地插 入一个对象之后,本地节点将向邻居节点传播该对象的信息,直到达到事先确定的传播 层次。 4 b t b t 全称为b i t t o r r e n t ,它是用开放源代码脚本编程语言p y t h o n 开发的。与经典的 p 2 p 下载软件( 如e d o n k e y 和e m u l e ) 的技术原理相似,用户在利用b t 客户端下载的同 第二章p 2 p 技术概述 时也为其他用户提供上传,每一台客户机同时也是服务器。这样,下载的人越多,速度 就越快。作为一种革新性下载工具,b t 吸纳了第一代、第二代p 2 p 的技术优势,利用 集群技术简单而有效地实现了下载压力的分散凸3 。b t 首先在上传者端把一个文件分成了 z 个部分,甲在服务器随机下载了第n 各部分,乙在服务器随机下载了第m 个部分,这 样甲的b t 就会根据情况到乙的电脑上去拿乙已经下载好的m 部分,乙的b t 就会根据 情况去到甲的电脑上去拿甲已经下载好的n 部分,这样就不但减轻了服务器端的负荷, 也加快了用户方( 甲乙) 的下载速度,效率也提高了,更同样减少了地域之间的限制。 比如说丙要连到服务器去下载的话可能才几k ,但是要是到甲和乙的电脑上去拿就快得 多了。所以说用的人越多,下载的人越多,大家也就越快,b t 的优越性就在这里。而 且,在你下载的同时,你也在上传( 别人从你的电脑上拿那个文件的某个部分) ,所以说 在享受别人提供的下载的同时,你也在贡献。所以b t 下载的模式改变了以往的类似 h t t p ,f t p 下载的情况,在后者,在连接用户过多的情况时,下载速度会下降,并且占 用大量带宽,并且容易导致服务器当掉。 5 e d o n k e y 对等网络集群下载的应用开发始于e d o n k e y ,它是建立在点对点( p 2 p ) 技术上的文 件共享软件。它与传统文件共享的区别是:共享文件不是在集中的服务器上等待用户端 来下载,而是分散在所有参与者的硬盘上。所有参与者组成一个虚拟网络,每个用户端 都可以从这个虚拟网络里的任何一个人的机器里下载文件,同时每个人也可以把自己的 文件共享给任何人。在e d o n k e y 体系里有一些服务器,不过这些服务器不再存放文件, 而是存放这些共享文件的目录或地址。每个用户端从服务器处得到或搜索到共享文件的 地址,然后自动从别的客户端处进行下载,参与的客户端越多,下载的速度越快。 显然,e d o n k e y 体系里的虚拟网络属于集群计算机系统,利用集群方式有效地实现 了下载负担的负载均衡,体系中采用服务器中心控制的方式,服务器接受下载请求,寻 找尽可能多的能满足下载要求的节点,将请求重定向到这些提供服务的多个点,由这些 节点来处理用户请求,完成下载任务。 6 p p l i v e p p l i v e 作为网络电视代表性软件,充分将p 2 p 的优势运用到极限,具有使用人越 多,播放越流畅的特点。p p l i v e 播放视频采用微软的编解码方案,w i n d o w s 操作系统自 带播放器,支持w m v 和r e a l 格式的流媒体播放器,符合一般w i n d o w s 用户的使用习惯 和需求,使用起来简单和舒服。同时该软件非常小巧,对系统的配置要求很低,由于用 得是内存缓存,不同于b t 对电脑硬盘的损伤,p p l i v e 传输是以t c p 为主,u d p 传输 节点信息,网状结构。同时p p l i v e 提供了u p n p 映射功能,对于那些内网用户收看网 络电视无疑提供了更好的保障。p p l i v e 软件播放的电视节目的码率一般为5 0 0 k b p s 左 右,有些频道已经开始提供高达8 0 0 k b p s 的码率。 第二章p 2 p 技术概述 2 5p 2 p 的发展过程及所面临的问题 2 5 1p 2 p 的发展过程 第一代集中式p 2 p 模式,如n a p s t e r 有一个中心服务器来负责记录共享信息以及回 答对这些信息的查询,每一个对等实体对它将要共享的信息以及进行的通信负责,根据 需要下载它所需要的其它对等实体上的信息。集中式对等网络可提供中心服务器目录检 索和管理服务和标准的点到点通信,具有高效的检索和低效的交换服务的特点。集中式 对等网络对小型网络而言在管理和控制方面占一定优势,但对大型网络并不适合。主要 缺点是:中央服务器的瘫痪容易导致整个网络的崩溃:可靠性和安全性较低;维护和更 新的费用成本过高;缺乏有效的强制共享机制,资源可用性差。 第二代分布式对等p 2 p 模式,如早期的g n u t e ll a 。在分布式对等网中,对等机通过 与相邻对等机之间的连接遍历整个网络体系。每个对等机在功能上都是相似的,并没有 专门的服务器,而对等机必须依靠它们所在的分布网络来查找文件和定位其它对等机。 这种无中心、纯分布式系统的特点是:它不再是简单的点到点通信,而是更高效、更复 杂的网络通信;引入了强制共享机制,在一定程度上避免了第一代p 2 p 纯个人服务器管 理带来的随意性和低效率。主要缺点是:由于每次搜索都要在全网进行,造成大量网络 流量,占用很多带宽,花费时间长,使得其搜索速度慢,排队响应时间长。容易导致网 络拥塞,网络的可扩展性不好,不适合大型网络;安全性不高,易遭受恶意攻击。用户 p c 性能及其与网络连接方式决定网络弹性和性能。 第三代混合p 2 p 模式,结合了集中式p 2 p 模式和分布式p 2 p 模式的优点,在设计思 想和处理能力上都得到近一步优化。它克服了集中式容易遭到直接的攻击和分布式p 2 p 缺乏快速搜索和可扩展性的缺点。它在分布式模式基础上,将用户节点按能力进行分类, 用分布的超级结点取代中央检索服务器。采用分层次的快速搜索改进了搜索性能,缩短 了排队响应时间,每次排队产生的流量低于第二代分布网络。超级智能结点的布设提供 高性能和弹性。没有中央控制点,不会因为一点故障导致全部瘫痪。其速度要比纯p 2 p 模式快得多。b t 就是第三代混合式p 2 p 网络的典型代表。某些第三代p 2 p 系统,如w i n n y 甚至使用s s l ( s e c u r i t ys o c k e tl a y e r ) 协议加密流量。 2 5 2p 2 p 技术所面临的问题 1 版权问题 就像n a p s t e r 的出现冲击着唱片公司的利益一样,大多数p 2 p 服务都将不可避免地 和知识产权发生冲突。 2 管理困难 p 2 p 网络的精髓在于其“乌托邦”式的管理方式,这种方式给了用户更多的自由, 但是这也陷入了“无政府主义”的困境。可以想象,缺乏管理的p 2 p 网络将会成为病毒、 色情内容以及非法交易的温床。许多p 2 p 公司打算通过p 2 p 网络开展电子商务,但是付 第二章p 2 p 技术概述 费问题、流量计算、商品价值的验证等等都是一时很难克服的困难。 3 吞噬网络带宽 p 2 p 使网络变得空前活跃,大多数用户愿意利用p 2 p 网络在计算机之间传送文件, 这将大量吞噬网络带宽,特别是在大多数用户更喜欢传送大体积的m p 3 文件、视频文件 的时候,这个问题更加不容忽视。在我国,网络带宽较窄成了p 2 p 应用难以逾越的障碍。 4 安全问题 一个拥有众多用户的p 2 p 网络可能会成为黑客新的攻击目标,而且分散式结构的 p 2 p 网络有利于木马、病毒等破坏性程序的传播,这将极大地威胁p 2 p 网络的安全。 5 垃圾信息 由于p 2 p 网络的用户众多,当某个用户进行搜索时,自然会得到大量的搜索结果。 而除了少数有用的信息以外,其他大多数的信息可能都属于垃圾信息。在缺乏统一的管 理的情况下,p 2 p 网络很难对搜索结果进行排序,用户将不可避免地陷入垃圾信息的汪 洋大海。 6 标准之争 各大公司利益分歧导致开发标准难以统一,这将成为目前p 2 p 发展的主要困难之一。 第三章p 2 p 流量检测技术现状及分析 第三章p 2 p 流量检测技术现状及分析 3 1 当前p 2 p 流量检测技术现状 p 2 p 流量检测方法划分为三类: 1 基于p a y l o a d ( 净荷) 的检测方法 这类方法是依靠提取和分析数据包的净荷来识别p 2 p 应用的。这类p 2 p 流量检测方 法首先要捕获网络中的数据包,随后提取出数据包中的净荷,通过与p 2 p 应用进行应用 层协议特征匹配来确定其是否是p 2 p 应用,即使用一个p a y l o a d 特征库存储p a y l o a d 特征信息,符合p a y l o a d 特征的数据包即视为p 2 p 数据包。 下面介绍这类p 2 p 流量检测方法中比较有代表性的方法: s u b h a b r a t as e n 等人于2 0 0 4 年初提出基于应用签名的p 2 p 流量检测方法】。该方 法通过数据报有效负荷来识别比特流。对于适用于净荷检测法的p 2 p 协议,必须对不同 协议的数据报进行单独的分析,因为它们的协议都是不标准的,而是自定义的。具体方 案是抓取用户的数据报,通过各自协议特有的比特流和众所周知协议端口号来识别p 2 p 流量。将数据报分类成流,包含源i p ,目的i p 源端口,目的端口和协议类型,通过三 个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 搭建二层安全协议书合同
- 承包畜牧合同书6篇
- 2025年学校炊事员聘用合同2篇
- 土方开挖与外运安全生产合同7篇
- 饭店的投资合同8篇
- (2025年-2025年)建设工程勘察合同3篇
- 个人消费用担保借款合同3篇
- 私人住所租赁合同范本
- 代购树林合同范本
- 饭店招聘合同范本
- 2025秋人教部编版三年级上册语文教学计划
- 妇产科护理 课件06章-正常产褥期母婴的护理
- 普通高中生物学课程标准 (2025 年版 2025 年修订 )
- DB6101T3128-2022养老服务规范 助餐服务
- 临时用地复垦与方案
- 语言学纲要课件
- 地下室开槽引流方案
- 新苏教版科学六年级上册教学计划含进度表
- 2021年新苏教版科学六年级上册知识点整理
- 美的观念(玛丽艳)
- 区委书记在全区惠企政策解读会上的讲话
评论
0/150
提交评论