




已阅读5页,还剩73页未读, 继续免费阅读
(计算机科学与技术专业论文)基于支持向量机的p2p流量实时检测技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国防科学技术大学研究生院硕士学位论文 摘要 p 2 p 系统打破了原有的“客户端服务器 模式的网络结构,给用户带来了极 大的方便。但是p 2 p 应用的持续增长,也影响了用户的其他应用的正常运行。 为了对p 2 p 应用进行控制,首先需要将p 2 p 流量检测出来。传统的p 2 p 流量 检测技术模式单调,实时性能力是采用基于p a y l o a d 特征等方法来实现的,并不能 随着网络变化而调整。随着加密技术在p 2 p 系统中的运用,以及安全隐私性的考 虑,该方法已经逐步失效,而基于支持向量机方法的p 2 p 流量检测方法虽然能够 应对网络变化,发挥机器学习的优势,但其训练速度慢,效率低下,从而不能满 足实时性要求。 本文针对上述问题,首先提出了一种基于熵优化的支持向量机方法。该方法 通过训练样本点空间位置的信息,建立信息熵模型,通过样本点的熵特征,对样 本点进行筛选,剔除冗余的无关样本点,保留对最终结果起决定作用的支持向量, 从而缩小样本集合,减少训练时间,提高训练效率。新的支持向量机模型简单、 高效,克服了原有支持向量机运算速度慢、实现复杂等缺点。实验证明,一次训 练的时间缩d , n 原有的不到1 0 个百分点,对上万的样本集合进行训练时间在一分 钟以内,从而完全满足p 2 p 流量的实时检测要求。然后,文章根据网络流量管理 的需要,设计了基于熵优化支持向量机的p 2 p 流量实时检测系统,并以校园网体 系结构为基础,对系统进行了实现和测试,初步验证了该系统在p 2 p 流量实时检 测方面的可行性。实验证明,该方法在解决线性可分的基于两类的分类问题时与 同类方法相比时,具有简单、易于实现、效率高等特点,适合于解决p 2 p 流量实 时检测的要求。 主题词:对等计算,流量实时检测,s v m ,信息熵 第i 页 国防科学技术大学研究生院硕士学位论文 a b s t r a c t p 2 ps y s t e mb r o k et h et r a d i t i o n a lc l i e n t s e r v e rn e t w o r ka r c h i t e c t u r e ,w h i c h b r o u g h tg r e a tc o n v e n i e n c e st ou s e r s ,w h i l et h es u s t a i n i n gg r o w t ho fp 2 pa p p l i c a t i o n s a l s oa f f e c t e du s e r s n o r m a la c t i o n s p 2 pt r a f f i cm u s tb ei d e n t i f i e df i r s tf o rc o n t r o l l i n gt h ep 2 pa p p l i c a t i o n t r a d i t i o n m o d e lo fp 2 pt r a f f i ci d e n t i f i c a t i o nb a s e do np a y l o a df e a t u r e sw a st o om o n o t o n o u st o m a k ea d j u s t m e n t sa c c o r d i n gt on e t w o r k w i t l le n c r y t i o nt e c h n o l o g yb e e nb r o u g h ti n t o p 2 ps y s t e m ,a n dc o n s i d e r a t i o no fs e c u r i t ya n dp r i v a c y ,m e t h o db a s e do np a y l o a d f e a t u r e sh a sl o s ti t se m c a c yg r a d u a l l y a l t h o u g hp 2 pt r a f f i ci d e n t i f i c a t i o nb a s e do n s v mw a sa b l et o a d j u s ti t s e l f t on e t w o r kc h a n g e s ,p l a y i n gt h ea d v a n t a g eo f m a c h i n e - l e a r n i n g ,i t s t r a i n i n gs p e e dw a st o os l o w , t h u sl o we f f i c i e n c yt om e e tt h e r e q u i r e m e n t so f r e a l - t i m e a c c o r d i n gt ot h ea b o v e ,t h et h e s i sf i r s t l yp r o p o s e da ns v mm e t h o db a s e do n e n t r o p yo p t i m i z a t i o n i tb u i l ta ne n t r o p ym o d e lb yt r a n i n gs p a c el o c a t i o no fs a m p l e p o i n t s ,a n df i l t e r e ds a m p l ep o i n t sa c c o r d i n gt oe n t r o p yf e a t u r e s ,w h i c hc u l l e do u t r e d u n d a n tu n r e l a t e ds a m p l ep o i n t s ,w h i l ek e e p i n gc r u c i a ls u p p o r tv e c t o r sw h i c hd e c i d e d t h ee n dr e s u l t s b yr e d u c i n gt h es a m p l es e t s ,t r a i n i n gt i m ew a sc u to f fa n dt r a i n i n g b e c a m em o r ee f f i c i e n c y t h en e ws v mm o d e lw a ss i m p l ea n dm o r ee f f i c i e n c y ,w h i c h s u r m o u n t e dt h ew e a kp o i n t ss u c ha st r a i n i n gs l o w l ya n dl o we f f i c i e n c y b ye x p e r i m e n t s , t r a i n i n gt i m ew a sd e c r e a s e dl e s st h a nt e np e r c e n t so fo r i g i n a lo n ea n di tw a sl e s st h a n o n em i n u t ew h e nt h es a m p l es e t sw a sm o r et h a nt e nt h o u s a n d ,w h i c hm e e tt h e r e q u i r e m e n t so fp 2 pt r a f f i cr e a l t i m ei d e n t i f i c a t i o n t h e n ,t h et h e s i sd e s i g n e da r e a l - t i m ep 2 pt r a f f i cm o n i t o r i n gs y s t e mb a s e do ne n t r o p yo p t i m i z a t i o ns v m a c c o r d i n g t on e t w o r kt r a f f i cm a n a g e m e n td e m a n d s ,r e a l i z e dt h es y s t e mb a s e do nc a m p u sn e t w o r k a r c h i t e c u r ea n dv a l i d a t e di t sf e a s i b i l i t yi nr e a l t i m ep 2 pt r a f f i ci d e n t i f i c a t i o nb y e x p e r i m e n t s c o m p a r e dw i mc o n g e n e r i cm e t h o d s t h el a t t e rm e t h o d w a sp r o v e dt h r o u g h e x p e r i m e n t st ob em o r es i m p l e e a s y t o a c h i e v ea n de f j f i c i e n ti ns o v l i n gl i n e a r d i v i s a b l e c l a s s i f i c a t i o np r o b l e m sb a s e do nt w oc l a s s e s ,m e e t i n gr e q u i r e m e n t so fr e a l t i m e k e yw o r d s :p 2 p ,t r a f f i cr e a l - t i m ei d e n t i f i c a t i o n ,s v m ,e n t r o p y 第i i 页 国防科学技术大学研究生院硕士学位论文 图1 1 图1 2 图1 3 图1 - 4 图1 5 图2 1 图2 2 图3 1 图3 2 图3 3 图3 4 图3 5 图4 1 图4 2 图4 3 图4 4 图4 5 图4 - 6 图5 1 图5 2 图5 3 图5 4 图5 5 图5 - 6 图5 7 图5 8 图5 - 9 图5 1 0 图5 1 l 图5 1 2 图目录 c l i e n t s e r v e r 亏p e e r - t o p e e r 2 n a p s t e r 网络的体系结构。3 纯分布式p 2 p 的结构3 混合式p 2 p 网络结构5 p 2 p 出现后占据了互联网流量的主要部分8 基于机器学习的流量分类1 5 信息传递过程2 4 文献中信息熵与支持向量机示意图3 2 支持向量与另一类样本点距离的关系。3 2 样本点数目与熵值的关系3 8 训练样本规模与训练时间的关系3 9 熵与精度的关系3 9 基于e s v m 的p 2 p 流量实时检测系统的层次结构图4 3 基于e s v m 的p 2 p 流量实时检测系统的模块结构图4 4 流量特征提取模块的工作示意图。4 5 支持向量机训练模块的工作示意图。4 6 以h e a r t s c a l e 数据为例表示数据库格式。4 7 系统整体工作流程图4 8 校园网结构图5 1 校园网结构下管理计算机的部署位置示意图5 2 校园网结构下迅雷运行时的上下行速度情况5 3 校园网结构下p p l i v e 运行时的上下行速度情况5 4 校园网结构下访问w e b 页面时上下行速度情况5 5 记录链路的数据结构5 8 i p 地址的数据结构5 9 统计流量与连接数的流程图5 9 流量特征向量的数据结构。6 0 计算熵值函数6 0 测试网络环境6 1 系统测试的熵与精度的关系6 2 第1 v 页 国防科学技术大学研究生院硕士学位论文 表目录 表2 1几种流行p 2 p 协议的p a y l o a d 特征字段1 2 表2 2 传统p 2 p 流量检测方法性能的比较1 4 表3 1 用于验证支持向量机训练效率的两组数据3 6 表3 2 实验一的结果3 7 表3 3 一组心脏病人数据示例一3 8 表3 - 4 熵、时间以及精度的对比4 0 表3 5 三种方法性能的对比4 1 表5 一l 校园网结构下,w e b 、迅雷以及p p l i v e 程序运行时对外连接的状态5 5 表5 2 系统测试的熵、时间以及精度的对比6 2 表5 3 系统的检测精度6 3 第1 i i 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究- 1 - 作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已 经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它教育机构的学 位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意。 学位论文题目:基王塞挂囱量扭的里! 里速量塞盟拴巡拉苤盈窥 学位论文作者签名: 自垒是日期:油8 年i 溯巧日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权国 防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档,允 许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库进行检索, 可以采用影印、缩印或扫描等复制手段保存、汇编学位论文 ( 保密学位论文在解密后适用本授权书。) 学位论文题目:基王塞挂囱量扭煎呈2 旦速量塞吐拴趔堇盔盈究 学位论文作者签名:塾盔璺 日期: 加牌f ) ,月巧日 作者指导教师签名:客垒圭塑日期:加口吕年,z 月罗日 国防科学技术大学研究生院硕士学位论文 第一章绪论 1 1p 2 p 技术简介 众所周知,作为全世界最大的计算机网络,因特网( i n t e m e t ) 起源于美国国防部 高级研究计划局( a r p a ) 1 9 6 8 年主持研制的计算机试验网a r p a n e t 。受到早期计 算机性能、资源等因素的限制,大多数连接到因特网上的普通用户并没有能力提 供网络服务,从而逐步形成了以少数服务器为中心的客户机服务器( c l i e n t s e r v e r ) 架构【i 】o 对等网络( p e e r t o p e e rn e t w o r k ,简称p 2 p 网络) 是分布式系统和计算机网络相 结合的产物,它在网络协议的应用层,打破过去的“客户机服务器 模式,让所 有网络成员享受“自由、平等、互联 的功能,不再有客户机、服务器之分,任 何两个网络节点之间都能共享文件、传递消息。对等网络起源于1 9 9 9 年风行一时 的音乐文件共享软件n a p s t e r ,随后则是一系列人们非常熟悉的网络软件:g n u t e l l a , k a z a a ,b i t t o r r e n t ,e d o n k e y e m u l e ,s k y p e 等等。虽然仅仅产生了几年的历史, 但是对等网络在应用领域和学术界获得了广泛的重视和成功,并占据了当前 i n t e m e t 超过一半的带宽资源,被称为“改变i n t e m e t 的新一代网络技术1 2 j 。 1 1 1p 2 p 的定义 p 2 p 是p e e rt op e e r ( 对等网络或对等技术) 的简称,在p 2 p 网络中的各个节点被 称为p e e r ( 对等体) 。目前,业界对p 2 p 的定义有多种,比较典型的两种分别是i n t e l 公司和i b m 公司对p 2 p 的定义i l j 。 i n t e l 公司将p 2 p 定义为“通过系统间的直接交换达成计算机资源与信息共享 的系统,这些资源与服务包括信息交换、处理器时钟、缓存和磁盘空间等。 i b m 公司对p 2 p 的定义则更为广泛,认为p 2 p 是由若干个互联协作的计算机 构成的系统,系统具备以下特征: ( 1 ) 系统依存于边缘化( 非中央式服务器) 设备的主动协作,每个成员直接从其他 成员而不是从服务器的参与中受益; ( 2 ) 系统中成员同时扮演服务器与客户端的双重角色; ( 3 ) 系统应用的用户能够意识到彼此的存在而构成一个虚拟或实际的群体。 而从学术研究的角度看,p 2 p 包含三个层面的含义。 ( 1 ) p 2 p 实现技术:指的是构建p 2 p 应用系统时所用到的技术,包括相关协议( 如 g n u t e l l a 、f a s t t r a c k 等) 。 ( 2 ) p 2 p 通信模式:p 2 p 通信模式与传统的c s 模式不同,每个通信方都具备相 第1 页 固防科学技术人学研究生院硕士学忡论文 同的逻辑能力,升且每个通信方都有能力发起一个通信过程。 ( 3 ) p 2 p 网络:指由p 2 p 节点、附属管理设各( 如索引服务器等) 及其相关应用等 组成的可实现p 2 p 功能的网络,它是一种运行在因特网上的动态变化逻辑网络。 每个p 2 p 系统都对应一个p 2 p 网络。p 2 p 网络是一种具有较高扩展性的分市式系 统结构,其对等概念是指网络中的物理节点在逻辑上具有相同的地位而非处理 能力的对等。 简单地说,p 2 p 技术就是打破了传统的“c s ”模式,使得网络中的节点地位 平等,每一个p e e r 都具备客户机和服务器的双重身份,在网络中为别人服务,又 从别人那里获舣自己想要的资源和信息。正是这样的模式改变,大大优化了网络 资源,提高了网络性能,从而使得p 2 p 技术在当今飞速发展。 幽t - 1c l i e n t s e r v e r jp e e r - t o p e e r 2p 2 p 的体系结构分类及相关应用产品 按着p 2 p 网络的结构,可以将p 2 p 网络划分成三种:集巾式p 2 p 网络结构、 纯分布式p 2 p 网络结构和混合式p 2 p 网络结构。 ( 1 ) 集中式p 2 p 网络结构 集中式p 2 p 州络结构被称为第一代p 2 p 应用,n a p s t e r 程序是这一代p 2 p 应用 的典型代表,它的网络结构也是集中式p 2 p 网络结构的代表。n a p s t e r 是种用丁 音乐文件检索和下载的p 2 p 类型的网络应用软件。n a p s t e r 网络( 如图2 所示”1 ) 由中 心服务器和n a p s t e r 客户端( 安装了n a p s t e r 客户端程序的汁算机,也称为n a p s t e r 节点) 组成。所谓“集中式”,正是由于这种p 2 p 结构必然存在一个充当资源索引 服务器角色的节点。 在集中式结构中,中心服务器为其他节点提供资源索引服务,当用户需要其 享资源时,需向索引服务器进行资源注册,索引服务器中保存着系统中所有资源 的标识符和指针列表。当用户需要查找资源时,首先通过资源标识符查询索引服 务器,服务器返回浚资源的指制,用户通过该指针定位。当定位到资源的存储位 第2 页 奈 矽肜 国防科学技术人学研究生院硕士学位论文 置后,资源的下载在节点之间直接进行,与索引服务器没有关系了。 集中式p 2 p 结构简单,共享资源丰富,但受到中央服务器性能的限制。中央 服务器的可靠性和安全性影响着整个网络系统的性能。而且,中央服务器的存在 引起了共享资源在版权上的纠纷,这致使n a p s t e r 最终于2 0 0 2 年6 月宣布破产。 图l - 2 n a p s t e r 网络的体系结构 r 2 1 纯分却式p 2 p 网络结构 纯分柿式p 2 p 应用被称为第二代p 2 p 应用,它的出现是为了从根本卜改进新 一代p 2 p 技术的缺陷。纯分布式p 2 p 网络中不存在中心目录服务器,所有的服务 及相关信息完全散布于各个p 2 p 节点中,因此其最显著特点就是“完全去中心化”。 g - n u t e l l a 网络是第二代p 2 p 应用的典型代表。g n u t e l l a 网络由g n u t e l l a 节点( 安装了 g n u t e l l a 软件的计算机) 构成,它们在网络中的逻辑地位完全平等,没有区别于其 他节点的服务器节点。纯分布式p 2 p 的结构如图1 - 3 所不。 圈i - 3 纯分布式p 2 p 的结构 纯分布式p 2 p 网络结构由于没有中央目录服务器,因此采用泛洪式请求 第3 页 国防科学技术大学研究生院硕士学位论文 ( f l o o d i n gr e q u e s t ) 。用户的请求通过所有连接的节点传递,这些节点或者相应该请 求,或者在不能满足该请求时,将该请求向与自己相连的其他节点广播,直到请 求得到相应为止。以g n u t e l l a 网络为例,一台新对等机首先通过访问某种特殊站 点提供的“主机缓存服务”( h o s tc a c h es e r v i c e s ) 机制来得到一台活动对等机地址, 通过与它建立一个连接将自己接入g n u t e l l a 网络。然后,该新对等机主动探查网 络中的其他对等机,找到与之相邻的所有活动对等点。在进行文件查找时,该对 等机首先向与之相邻的所有活动对等点发送一个查询描述符。在其他对等机接收 到该查询描述符后,检查本地是否又符合要求的文件内容,有,则按着查询描述 符的发送路径返回一个查询相应。不管本机是否有被查询的文件内容,都需要把 查询请求继续在网络中传递,直到查询包中t t l ( t i m eo f l i f e ) 属性值递减为o 时才 停止继续转发;一旦定位了相应查询文件的对等机之后,就与响应对等机建立t c p 连接,通过h t t p 协议从响应对等机中下载自己查询的文件。文件的传输不再经 过g n u t e l l a 网络进行。 与集中式p 2 p 网络相比,纯分布式p 2 p 网络由于没有中央目录服务器而健壮 性增强很多,而且系统的容错性和扩展性都有很大提高。另外,由于泛洪传播的 方式查询,遍历整个网络,因而实现了深度搜索的功能,使得网络资源进一步被 充分挖掘。最后,部分纯分布式p 2 p 网络强制共享机制,这样在一定程度上也避 免了集中式p 2 p 用户自主管理造成的随意性和低效率。然而,泛洪式搜索要遍历 整个网络,这样搜索时间就比集中式p 2 p 网络长,另外,大量请求在网络上传输, 也占用了大量带宽,增大了网络的负载。另外,单个节点的故障有可能造成网络 被分片,使整个网络的可用性下降。最后,纯分布式p 2 p 网络的安全性不高,容 易受到攻击,比如攻击者频繁发送垃圾查询信息将使得网络瘫痪。因此,纯分布 式p 2 p 网络只适合于节点信任值和依赖度都较高的小型网络环境。 ( 3 ) 混合式p 2 p 网络结构 混合式p 2 p 网络吸取了集中式结构和纯分布式结构的优点,选择性能( 一般是 指处理、存储、带宽等方面的性能) 较高的节点作为超级节点,在各个超级节点上 存储了系统中其他部分节点的信息,发现算法仅在超级节点之间转发,超级节点 再将查询请求转发给适当的终端节点。混合式结构也是一个层次式结构,超级节 点之间构成一个提供索引、搜索等服务的层次,超级节点和所负责的普通节点构 成若干个独立的自治层次。混合式p 2 p 结构如图1 4 所示。 k a z a a 模型是p 2 p 混合模型的典型代表。它在纯p 2 p 分布式模型的基础上引 入了超级节点的概念,综合了集中式p 2 p 快速查找和纯p 2 p 去中心化的优势。 k a z a a 模型将节点按能力的不同区分为普通节点和搜索节点两类( 也有的进一步将 节点分成三类,其思想本质是相同的) 。其中搜索节点与其临近的若干普通节点之 第4 页 国防科学技术人学研究生院硕士学位皓文 间构成一个自治的簇,簇内采用基于集中式的p 2 p 模式,而整个网络,各个簇之 间刚采用纯分布式的p 2 p 网络结构。甚至也可以在各个搜索节点之问再选取性能 晟优的节点,或者另外引入一个新的性能最优的节点作为索引节点来保存整个网 络中可以利用的资源信息情况。也就是多层次的资源搜索管理模式。本地节点在 需要资源时,首先在本地的簇里面进行搜索当搜索失败时,才通过搜索节点之 闻进行泛洪式的搜索。这样就极为有效的消除了纯分布式p 2 p 模式由于泛洪搜索 而造成的网络拥塞、搜索迟缓的现象。另外,由于每个簇中的搜索节点监控蔟内 各个节点的行为,也确保了一些恶意行为能在网络局部得到控制。超级节点的存 在也能在一定程度卜提高州络的负载平衡。 蚓1 - 4 混台式p 2 p 网络结构 从目前的情况看,这种基于节点分类的p 2 p 应用模式仍然存在着一些局限性 不能较好的解决由于超级节点的脆弱性给网络带来的不稳定,某个超级节点如果 发生故障,则整个一个子簇将与整个网络失去联系,而簇内普通节点也将得不到 服务而失效。 l13p 2 p 的主要应用 p 2 p 技术打破传统的“客户端服务器”模式,将网络计算模式从集中式向分 散式偏移,这就意味着中央服务器的性能将分散到各个参与网络环境的节点之中。 p 2 p 技术的应用主要体现在如下几个方面: f 1 1 文件变换 可以说,文件共享的需要是直接促成p 2 p 技术产生和发展的最根本的动力。 传统的w e b 方式中,要实现文件交换需要w e b 服务器的大力参与,通过将文件上 第5 页 国防科学技术大学研究生院硕士学位论文 传到某个特定的网站,用户再到该网站搜索需要的文件,然后下载。这就要求w e b 服务器能够对大量用户的访问提供有效的服务,因而经常成为w e b 方式这类应用 的瓶颈之一。而p 2 p 技术可以使用户利用基于p 2 p 网络协议的客户端软件脱离服 务器,直接从含有所需文件的对等节点机下载该文件。应用实例有:n a p s t e r 、 g n u t e l l a 、f r e e n e t 等。 ( 2 ) 分布式计算 对等计算就是设计某种机制使得网络中多台计算机暂时不用的计算能力能够 被充分地结合起来,发挥它们的最大性能,深度挖掘系统资源,从而实现超级运 算能力。实质上,对等计算就是网络上c p u 资源的共享。当前一些应用实例主要 有:d i s t r i b u t e n e t 和s e t i h o m e 等。 ( 3 ) 协同工作 协同工作是指多个普通节点之间通过网络互联一起协同的完成某个任务,在 完成任务过程中,各个结点之间实现共享信息资源,协同一致等。目前的协同工 作技术中,采用的是中央服务器统一组织的模式,而采用p 2 p 技术后,就可以可 以去掉中央服务器,让参与协同工作的计算机直接建立连接,相互通信,实现资 源共享,同步执行的性能要求。一些应用实例有:i n t e l 的n e t b a t c h 软件,上海鹰 腾公司的p a s p e s c h o o l 等。 ( 4 ) 搜索引擎 p 2 p 技术的另一个强大优势就是开发出了强大的搜索引擎功能。一些文件共享 软件大多支持p 2 p 方式的专用搜索引擎。但这里说的“p 2 p 搜索引擎 是指能像 g o o g l e 、百度、雅虎那样包罗万象、基于w e b 的通用搜索引擎。p 2 p 技术使用户 能够深度搜索文档,而且无需通过w e b 服务器,也可以不受信息文档格式和宿主 设备的限制,达到传统目录式搜索引擎( 只能搜索到2 0 一3 0 的网络资源) 无可 比拟的深度( 理论上将包括网络上的所有开放的信息资源) 。较为有代表性的产品 有:美国的p a n d a n g o 等。 ( 5 ) 多媒体传输 最初的多媒体传输采用传统的c s 方式,所有的发送带宽都有一个服务器来 提供,很显然,当用户数量急剧增加的时候,网络带宽将不堪重负,而服务器也 将无法满足如此大的负担。而将p 2 p 技术引入到多媒体传输领域后,由于所需要 的大量带宽被所有共享多媒体文件的用户共同分担,这就使得当用户急剧增多时 不仅网络不会受到影响,相反用户越多,传输越好。而且一两个用户中途因各种 原因退出都不会影响到网络的正常运行,这也避免了原有c s 模式下,单靠一个 服务器提供资源时所造成的不稳定性。当前,多媒体p 2 p 传输软件层出不穷,常 用的有:s k y p e 、p e e r c a s t 、a n y s e e 、p p l i v e 、q q 直播等等。 第6 页 国防科学技术大学研究生院硕士学位论文 随着p 2 p 技术的不断发展,其所应用的领域也将不断扩大。除了上面叙述的 几个主要应用外,还有诸如即时通信、应用层多播、w e b 缓存、事件发布、无线 应用等等【2 1 。相信在未来的生活中,会有更多p 2 p 技术的产品为我们提供更加优质 的服务。 1 2p 2 p 技术面临的问题 p 2 p 技术在给我们的生活带来了便利的同时,也带来了诸多问题。 ( 1 ) 知识产权保护 在p 2 p 共享网络中普遍存在着知识产权保护问题。尽管目前g n u t e l l a 、k a z a a 等p 2 p 共享软件宣传其骨干服务器上并没有存储任何涉及产权保护的内容的备份, 而仅仅是保存了各个内容在互联网上的存储索引。但无疑的是,p 2 p 共享软件的繁 荣加速了盗版媒体的分发,提高了知识产权保护的难点。美国唱片工业协会r i a a 与这些共享软件公司展开了漫长的官司拉锯战,著名的n a p s t e r 便是这场战争的第 一个牺牲者。从n a p s t e r 以后,p 2 p 共享软件开始迫切寻找一个和媒体发布厂商的 共生互利之道。如何更加合法合理的应用这些共享软件,是一个新时代的课题。 毕竟p 2 p 除了共享盗版软件,还可以共享相当多的有益的信息。 网络社会与自然社会一样,其自身具有一种自发地在无序和有序之间寻找平 衡的趋势。p 2 p 技术为网络信息共享带来了革命性的改进,而这种改进如果想要持 续长期地为广大用户带来好处,必须以不损害内容提供商的基本利益为前提。这 就要求在不影响现有p 2 p 共享软件性能的前提下,一定程度上实现知识产权保护 机制。目前,已经有些p 2 p 厂商和其它公司一起在研究这样的问题。这也许将是 下一代p 2 p 共享软件面临的挑战性技术问题之一。 ( 2 ) 网络病毒传播 随着计算机网络应用的深入发展,计算机病毒对信息安全的威胁日益增加。 特别是在p 2 p 环境下,方便的共享和快速的选路机制,为某些网络病毒提供了更 好的入侵机会。 由于p 2 p 网络中逻辑相邻的节点,地理位置可能相隔很远,而参与p 2 p 网络 的节点数量又非常大,因此通过p 2 p 系统传播的病毒,波及范围大,覆盖面广, 从而造成的损失会很大。在p 2 p 网络中,每个节点防御病毒的能力是不同的。只 要有一个节点感染病毒,就可以通过内部共享和通信机制将病毒扩散到附近的邻 居节点。在短时间内可以造成网络拥塞甚至瘫痪,共享信息丢失,机密信息失窃, 甚至通过网络病毒可以完全控制整个网络。一个突出的例子就是2 0 0 3 年通过即时 通讯软件传播病毒的案例显著增多。包括s y m a n t e c 公司和m c a f e e 公司的高层技 术主管都预测即时通讯软件将会成为网络病毒传播和黑客攻击的主要载体之一。 第7 页 国防科学技术大学研究生院硕士学位论文 随着p 2 p 技术的发展,将来会出现各种专门针对f 2 p 系统的网络病毒。利用系统 漏洞,达到迅速破坏、瓦解、控制系统的目的。因此,网络病毒的潜在危机对p 2 p 系统安全性和健壮性提出了更高的要求,迫切需要建立一套完整、高效、安全的 防毒体系。 ( 3 ) 安全问题 p 2 p 网络系统的开发除了涉及传统的安全性的领域:身份识别认证、授权、 数据完整性、保密性和不可否认性,还有一系列安全管理问题比较突出: p 2 p 网络没有中心服务器,信息完全共享。这给了使用者很大的自由,但是这 也使其陷入“无政府主义”的困境。色情影片、暴力影片在这些系统中随处可见,获 取完全免费,这样对青少年成长会造成负面影响。 由于p 2 p 系统的复制传播迅速,一些机密文件一旦丢失,在p 2 p 系统_ 要有 一份拷贝,就有可能迅速扩张,造成大面积的影响。 间谍软件已经成为p 2 p 软件的硬伤。例如,p 2 p 软件k a z a a 在大面积流行的 时候,里面出现了大量的间谍软件,c a 公司称:k a z a a 是互联网最具威胁的自j 谍 件。许多使用p 2 p 网络下载的用户被植入间谍软件。 ( 4 ) 网络带宽问题 p 2 p 文件共享和下载给用户带来了很大便利。然而,随着它的大面积流行,p 2 p 下载流量占用带宽接入的大量资源,被许多i s p 视为洪水猛兽。据统计,在一些 地方,i n t e r a c t 超过了7 0 以上的流量被p 2 p 相关应用占据,很多公司和学校不得 不封杀p 2 p 端口来阻止这种视频、音频文件传输。这样的下载流量在有时会影响 了某些用户使用正常的w e b 。e m a i l 以及视频点播等业务。如图卜5 所示qj ,可以清 晰地看出p 2 p 软件出现后网络传输内容的变化情况。 p 2 pc h a n g i n gn e t w o r ke n g i n e e r i n gp a r a d i g m 一霹芗嚣掣 鲤二筌 “譬。, 弘; j j ,jj 。麓=,。 一 图l - 5p 2 p 出现后占据了互联网流鼍的主要部分 第8 页 国防科学技术大学研究生院硕七学位论文 为了应对上面的问题,人们提出了很多解决问题的办法。这就涉及到了p 2 p 检测的问题。对p 2 p 的检测主要包括p 2 p 拓扑特征的检测、p 2 p 流量特征的检测 以及p 2 p 可用性的检测。诸如针对p 2 p 大量占用网络带宽的问题,管理者需要先 通过p 2 p 流量检测技术将p 2 p 流量从其他网络流量中分离出来,然后再进行管理。 当今,随着信息化建设不断深入,高校校园网蓬勃发展。校园网应为学校教 学、科研提供先进的信息化教学环境。这就要求校园网是一个具有高带宽、具有 交互功能和专业性很强的局域网络。校园网必须具备教学、科研、管理和通信等 功能,能够为教师学生提供上网浏览或查询资料,进行教学设计和科研工作等服 务。然而随着校园网络架设到普通学生宿舍并且与国际互联网对接,使得许多其 他网络行为也大量诞生于校园网之中。大量的p 2 p 流量,诸如学生下载电影,观 看多媒体视频节目等,也涌现在校园网中。这就不可避免的对原有的正常的教学、 科研行为构成影响。因此,在校园网特定的网络结构中,建立起对p 2 p 流量的监 控管理体系是至关重要的。要在既保证正常的教学、科研活动能顺利进行的前提 下,满足用户的其他行为的要求。 1 3 本文的主要工作 本课题来源于湖南省自然科学基金项目大规模网络异常流量新型检测技 术研究。 本文首先介绍了p 2 p 技术的发展状况,并详细论述了p 2 p 技术当前所面临的 各项问题。而后,本文详细研究了现有的p 2 p 流量检测技术的发展情况,总结了 各种p 2 p 流量检测技术的优缺点,并对起未来发展状况进行了展望。 其次,本文深入研究了支持向量机技术;并讨论了优化支持向量机的各种方 法,并结合信息熵的思想,提出了一种基于熵优化的支持向量机模型。该模型从 数学的角度出发,针对大规模训练样本数占据训练支持向量机的主要时空开销的 情况,提出了一种根据样本点熵特征来减少样本点、缩小训练样本集的方法,从 而大大提高训练效率,降低训练时间,并且,检测精度也能达到要求。 最后,设计了具有实时性能力的基于s v m 的p 2 p 流量实时检测系统的原型系 统,并针对校园网特定的体系结构,在校园网结构下,将原型系统实现,设计了 基于校园网特征的p 2 p 流量管理系统。该系统针对校园网络的特征,选取更具实 时性的p 2 p 流量特征用于检测,并使用基于熵优化的支持向量机技术来对校园网 中的p 2 p 流量进行监控和管理。该系统在p 2 p 流量检测方法上追求实时性,支持 管理员在线实时的对网络进行有效的管理和控制,并能根据网络的具体情况发挥 机器学习方法的优势不断调整检测相关参数,从而保证检测的有效性,提高管理 效率。最后,进行了测试与实验结果的分析。 第9 页 国防科学技术大学研究生院硕十学位论文 文末对基于机器学习领域的网络流量检测技术的未来发展进行了展望,并对 具有实时性能力的基于支持向量机技术的p 2 p 流量管理系统提出了改进意见。 1 4 本文的组织结构 本文一共分为六章: 第一章:绪论。介绍了p 2 p 技术的基本情况,包括p 2 p 的定义,p 2 p 的体系 结构、主要应用以及p 2 p 技术当前所面临的主要问题。并介绍了本文的主要工作 以及文章的组织结构。 第二章:相关技术研究。主要讨论了p 2 p 流量检测技术的发展状况,总结了 传统的p 2 p 流量检测技术,并对刚刚兴起的基于机器学习的p 2 p 流量检测技术进 行了探讨,并对未来的发展方向给出了预测:介绍了支持向量机技术的相关情况, 包括支持向量机的理论分析以及应用情况;最后,介绍了信息熵的相关概念,以 及熵在网络流量等领域的应用情况。 第三章:基于熵优化的支持向量机( e s v m ) 。提出了种针对缩小样本的数的 方法来降低训练支持向量机的开销,提高训练效率。首先介绍分析了优化支持向 量机的几类方法;而后介绍了熵与支持向量的关系,进而建立了支持熵优化的支 持向量机模型。最后,通过实验数据,证明了该方法的可行性。 第四章:基于e s v m 的p 2 p 流量实时检测原型系统框架模型。这一部分首先 设计了原型系统的体系结构框架模型,而后细化讨论了各主要功能模块的功能以 及设计要求,最后给出了系统整体的工作流程图。 第五章:面向校园网的p 2 p 流量实时检测原型系统的实现与测试。本章首先 讨论了校园网的网络结构,并讨论了校园网上p 2 p 流量的特征情况,并选取了具 有区别p 2 p 流量和非p 2 p 流量能力的网络流量特征。然后,介绍了主要模块的重 要数据结构和工作,最后给出了实验结果以及分析。 第六章:结束语。总结了全文的主要工作以及创新点,并对下一步研究工作 进行了展望和讨论。 第l o 页 国防科学技术大学研究生院硕士学位论文 第二章相关技术研究 本章介绍了本文涉及到的各项技术的基本情况。首先分析讨论了p 2 p 流量检 测技术的发展情况,第二节对支持向量机技术进行了简单的介绍,主要包括支持 向量机的理论分析以及应用情况。最后,简要介绍了信息熵技术的概念以及所应 用的领域效果。 2 1p 2 p 流量检测技术 为了应对p 2 p 网络流量大量占据网络带宽以及各种安全因素等问题,管理者 需要将p 2 p 流量从网络中分离出来,在必要时对p 2 p 应用进行限制,从而提高网 络性能。因此,p 2 p 流量检测技术得到了研究与发展。最初,p 2 p 流量是易于检测 的,因为p 2 p 协议使用指定的t c p 或u d p 端口。但是,随着许多p 2 p 应用使用 非标准端口以隐蔽其行踪,甚至包括用于w e b 应用的8 0 端口;p 2 p 应用没有国际 通用的标准,所有的p 2 p 协议都是软件开发者自定义的,且许多应用的协议实现 与协议文档不一致;有的p 2 p 应用开始采用加密传输技术。这些新特征的出现导 致p 2 p 流量检测技术必须不断推新,针对p 2 p 流量研究并开发新的检测方法。 2 1 1 传统p 2 p 流量检测技术 传统的p 2 p 流量检测技术大体可以划分为三类: ( 1 ) 基于端口号的检测方法 基于端口号的检测方法是根据t c p 或u d p 数据包首部的源端口号或目的端口 号识别一些常见业务的流量,如h t t p ,s m t p ,t e l n e t ,h t t p s 等。该方法简单 易于实现,它通过截取数据包头部的五元组,将获得的通信端口号与已知应用类 型的端口号列表进行比对,从而判断网络流的成分。该方法优点在于简单、精度 高、并且实时性好,但是现在的p 2 p 应用软件大量采用可变端口及伪装端口,这 导致端口识别法无法正确识别流量的应用类型,存在严重的漏分误分问题,精度 大幅下降,因此,基于端口号的检测方法已经基本上被淘汰或者作为辅助方法与 其他方法结合使用。文献 3 】第一次提出了p 2 p 流量识别问题,对f a s t t r a c k 、g n u t e l l a 和d i r e c t c o n n e c t3 种
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 约定接车服务协议书
- 2025年文化经济与管理创新试题及答案
- 美容医院保密协议书
- 联合摄制电影协议书
- 聘请法人代表协议书
- 2025吴堡县县属国有企业招聘(20人)笔试参考题库附带答案详解
- 联营承接工程协议书
- 美容股东保密协议书
- 联合开展讲座协议书
- 自我检测2025年护士考试试题及答案
- 吊装安全确认表及技术交底
- 遥控器检验作业指导书
- DBJ41∕T 228-2019 河南省房屋建筑施工现场安全资料管理标准
- 三级安全教育考试试题(的)
- 生态环境执法大练兵练习(行政处罚法、新固废法、大气法)
- 芒针疗法课件
- 小学二年级下册科学课件1.《春夏秋冬》大象版(22张)ppt课件
- 第三章:船舶主机安装工艺
- 鼻咽癌放疗临床路径
- 地下水八大离子-阴阳离子平衡计算公式
- T∕CCES 23-2021 装配式多层混凝土墙板建筑技术规程
评论
0/150
提交评论