(信号与信息处理专业论文)面向业务感知的流量监控技术研究.pdf_第1页
(信号与信息处理专业论文)面向业务感知的流量监控技术研究.pdf_第2页
(信号与信息处理专业论文)面向业务感知的流量监控技术研究.pdf_第3页
(信号与信息处理专业论文)面向业务感知的流量监控技术研究.pdf_第4页
(信号与信息处理专业论文)面向业务感知的流量监控技术研究.pdf_第5页
已阅读5页,还剩142页未读 继续免费阅读

(信号与信息处理专业论文)面向业务感知的流量监控技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

b y z h u h o n g l i a n g s u p e r v i s o r :p r o f h uz h e n g m i n g ad i s s e r 砌0 n p r e s e n n ! d1 ot h ef a c u u f r y o ft h eu n i v e r s i t yo f p o s t s & t e l e c o m m u n i c a t i o n s i nc a n d i d a c y f o rt h ed e g r e eo f d o ( ? 0 ro fp h i l o s o p h y r e c o m m e n d e df o ra c c e p t a n c e b y t h es c h o o l o f c o m p u t e rs c 正n c ea n d t e c h n o l o g y m a y 2 0 1 0 c o p y r i g h tb yz h uh o n g l i a n g ,2 0 1 0 a l lf i g h t sr e s e r v e d r k“毫。q7“,2到l f,。,7;且气量】,。:,7 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权 保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅 和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印 或其它复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密 论文注释:本 本人签名 导师签名 ,适用本授权书。 日期: 2 2 么| 口。 ii i :3 0 2g e d i r c tii l 一一一l l i c x ii i 一 l i i n i v 工t b l b o b i i l i l l i l 卜 l z l p c n z i f 1 0 0t r y i n | 卜一一一 l l 一一一i 1 8 0r i n il 噜i i 1 8 0k i z g i z gl 一一一i i 一一l i i 2 1 2 00 1 1 2 o ki i i b o t ht l yr t f | o d i i l = = = = = = = = = = = = = = = = := = := = = = ;= = = := = = = = 葛= = = := := = = = i l b t z i i b y ei 扣一i i l 2 0 0o g i i l 一一一 i ili 图2 - 4s i p 协议基本呼叫流程示例图 3 1h 3 2 3 与s i p 协议差异 h 3 2 3 协议和s i p 的支持呼叫控制功能都是在连接呼叫时进行信息交换, 和目的设备通信时要维持和监控呼叫,挂起电话时则终止呼叫;两者支持的业 务类型也基本相同,如遇忙转移、多播会议、桥接会议等。尽管支持的控制功 能和业务类型相同,但是两者也存在很大区别【2 3 1 。 在协议系统结构上,h 3 2 3 系统体现了一种层次式、集中式的控制模式: s i p 的呼叫路由选择和会话管理功能等网络功能均分布在s i p 的所有节点上, 终端需要更加智能化。 在协议复杂性方面,h 3 2 3 是一个相当复杂的协议簇,不是特意为v o i p 设 计的。s i p 由i e t f 特意为v o i p 开发的协议,结构更简单灵活。 在可扩展性方面,s i p 网络有着较高的可扩展性,s i p 在研究制订时建立了 一套丰富的扩展和兼容功能;h 3 2 3 同样提供可扩展机制,主要利用添加非标 准参数来进行扩展,具有一定的局限性。 在时间延迟方面,h 3 2 3 相对s i p 有更多的时间延迟,常规呼叫建立就需 要6 7 个往返时延,即使采用快启也需要3 4 个往返时延。而s i p 独立于底层 协议,一般采用u d p 等无连接的传输协议,只需2 个往返时延即可。 在正文编码方面,s i p 采用比较简单的文本编码方式,而h 3 2 3 采用基于 第1 4 页 北京邮电人学博士学位论文 a s n 1p e r 的二进制方式进行编码,需要专用的代码生成器来进行语法和语义 分析。 4 ) 私有信令协议 除了前面介绍的标准信令协议h 3 2 3 和s i p 以及其他标准化组织制定的信 令协议标准如m g c p 、h 2 4 8 m e g a c o 等之外,随着v o l p 技术的发展,目前 业内有很大一部分i p 电话采用私有协议,这些私有协议有些是在s i p 和h 3 2 3 上进行了细微的改动,有些则是完全自定义的非公开的封闭协议,如目前最盛 行的m 电话s k y p e 、q q 等。下面以s k y p e 为例进行介绍。 s k y p e l 2 4 j 是由k a z a a 于2 0 0 3 年发明的基于p 2 p 技术的v o l p 客户端,用户 可通过s k y p e 在互联网进行语音和文本的传输。s k y p e 能够穿透n a t 、代理服 务器和防火墙,通信协议是不公开的,并且通信内容使用a e s ( a d v a n c e d e n c r y p t i o ns t a n d a r d ) 力i i 密标准实现端到端的加密,从而保证s k y p e 在信息发送之 前进行加密,在接收时进行解密,不会在中途被窃听。 在s k y p e 网络中存在两种节点:普通节点( o r d i n a r yn o d e ,s c ) 和超级节点 ( s u p e rn o d e ,s n ) 。普通节点是运行在客户端、可以进行通话以及能够发送即时 消息的s k y p e 应用程序,而超级节点则负责将普通节点连接到s k y p e 网络上。 一个普通节点需要连接到一个超级节点,并向登录服务器登录。s k y p e 的网络 结构i 冽如图2 5 所示。 第1 5 页 北京邮电大学博:卜学位论文 普通节点 超级肖点 邻居关系 图2 - 5s k y p e 网络结构图 登录服务器作为中央服务器保存用户的用户名和密码等相关用户信息。 s k y p e 与m s n 、q q 等其他i m 工具最大的不同在于其除了用户登录,其余工作 基本上不依赖于中央服务器,在穿透防火墙通信时完全使用p 2 p 技术。 每个客户端都维护一个可以到达的主机列表( h o s tc a c h e ,h c ) ,包括其l p 地址和对应端e l 号。s k y p e 在登录时会先使用u d p 请求h c 中的i p ;如果不行, 就用t c p 请求h c 中的i p 及端口;如果仍然不行,用t c p 请求h c 中的i p 及 8 0 端口;如果还不行,再请求h c 中的i p 及4 4 3 端口,这时若还登录不了才最 终失效。整个过程传输的数据量大概在8 k - 1 0 k ,持续的时间在3 至3 5 秒之间。 在寻址方面,s k y p e 使用全球索 ( g l o b a li n d e x ,g i ) 技术进行用户搜索; 在编解码方面,s k y p e 采用了i l b c 、i s a c 和一个保密的编解码器,能够对 5 0 8 0 0 0 h z 范围内的语音信号进行编码。 不难看出,鉴于s k y p e 的通信过程采用p 2 p 技术以及端到端加密,不能很 清晰地了解到通信协议细节,从而在监控上也带来了很大的困难。 5 ) r t p 协议 r t p 是用于i n t e r n e t 上针对多媒体数据流的一种传输协议,用来为i p 网上 的语音、图像、传真等多种需要实时传输的多媒体数据提供端到端的实时传输 服务。r 1 陪通常使用u d p 协议来进行传输,当应用程序开始进行一个r t p 会 第1 6 页 北京邮电人学博士学位论文 话时将分配两个端口:一个给r t p ,一个给r t c p 。r t p 依靠r t c p 提供可靠 传输、流量控制和拥塞控制等服务。r t p 协议报文封装格式如图2 - 6 所示。 08l62 43 l v = 2p l x l c c i mp r l s e q u e n c en u m b t i m e s t a m p s y n c h r o n i z a t i o ns o u r c e ( s s r c ) i d e n t i f i e r c o n t r i b u t i n gs o u r c e ( c s r c ) i d e n t i f i e r 图2 - 6r t p 报文头部格式 其中,v 、p 、x 等分别为版本号、填充位、扩展位等信息。比较重要的字 段包括: p t :载荷类型,7 比特,标识r t p 载荷的类型,即需要传输的音视频流的 编码方式,如2 表示g 7 2 1 编码;3 表示g s m 编码;3 1 表示h 2 6 1 编码等等。 s n :序列号,1 6 比特,发送方每发送完一个r t p 包后就将该字段的值增1 , 接收方可以由该字段检测包的丢失及恢复包序列,序列号的初始值是随机的。 t i m e s t a m p :时间戳选项,3 2 比特,记录了该包中数据的第一个字节的采 样的时刻。时间戳的数值也要随时间而不断地增加。 s s r c :同步源标识符,3 2 比特,同步源就是指r t p 包流的发送来源,该 标识符是随机选取的,唯一的标示媒体流的发送方。 2 3p 2 p 技术 p 2 p 技术属于覆盖层网络( o v e r l a yn e 帆o r k l 的范畴1 2 6 l ,是一种网络模型, 更是一种思想,在这种网络中各个节点是对等的,具有相同的责任和能力并协 同完成任务。目前,在学术界、工业界对于p 2 p 还没有一个统一的定义,常见 的定义是从不同的应用角度来描述p 2 p 的特点 2 7 1 ,i n t e l 将p 2 p 计算定义为“通 过系统间的直接交换所达成的计算机资源与信息的共享 ,这些资源与服务包括 信息交换、处理器时钟、缓存和磁盘空间等。 2 3 1 网络结构 p 2 p 网络可以从体系结构和组织结构两个方面进行分类。组织结构是体系 第1 7 页 北京邮电大学博士学位论文 结构的具体实现【捌,p 2 p 网络在本质上是无结构,无集中控制的分布式系统, 节点通过自组织的o v e r l a y 网络实现文件分发、流媒体及语音等服务。 1 ) 体系结构 按照体系结构可以分为三类:集中式、分布式和混合式【2 9 1 。 幻集中式p 2 p 网络 此模型具有中心化的特点,查找效率高,并且易于管理;但服务器负担较 大,存在单点失效问题。提供m p 3 检索服务的n a p s t e r 就是一种典型的集中式 p 2 p 网络,网络拓扑如图2 7 所示。 _ 一叫卜 查询漉 - - 下载漉 图2 7 集中式p 2 p 网络拓扑图 b ) 分布式p 2 p 网络 此模型没有专门的服务器,每个对等节点在功能上都是类似的。这种p 2 p 网络模型解决了单点失效的问题,但是又缺乏快速搜索的能力和较强的可扩展 性。以g n u t e l l a 为代表的完全分布式非结构化p 2 p 网络拓扑如图2 8 所示。 图2 8 分布式p 2 p 网络拓扑图 c ) 混合式p 2 p 网络 混合式p 2 p 结合了集中式和分布式p 2 p 模型的优点,在设计思想和处理能 力上都得到了进一步的优化和改善,目前p 2 p 技术的应用大多为这种模式。 第1 8 页 图2 - 9 混合式p 2 p 网络拓扑图 2 ) 组织结构 按照组织方式可以分为结构化和非结构化两种【3 0 j 。所谓结构化和非结构化 的根本区别在于每个节点所维护的邻居是否能够按照某种全局方式组织起来以 利于快速查找。 幻结构化 结构化p 2 p 模式是一种采用纯分布式的消息传递机制和根据关键字进行查 找的定位服务。这类系统的特点是文件的发布和网络拓扑紧密相关【3 l 】。结构化 的p 2 p 网络有很多不同的实现方法,比较著名的有分布式哈希表( d h t ) 、 c h o r d 3 2 1 、c a n l 3 3 1 、p a s t r y 3 4 1 、e c a n 3 引,下面对c h o r d 做简单介绍。 c h o r d 基本原理:节点按照标识的大小在逻辑上组成一个环,数据同样也 有标识并且存放在和自己标识最接近的节点上。当在某一个节点上进行查询的。 时候,如果节点的标识小于数据的标识,则向该节点所知的下一个节点请求文 件,下一个节点如果拥有相应文件则返回结果,否则按前面的方式继续转发。 图2 1 0 所示为c h o r d 节点维护的指针表。其中。代表第4 个节点。 第1 9 页 北京邮电大学博:上学位论文 n 3 2 指针表 n 8 + ln 1 4 n 8 + 2n 1 4 n 8 + 4 n 1 4 n 8 + 8n 2 1 n 8 + 1 6n 3 2 n 8 + 3 2n 4 2 图2 - 1 0c h o r d 节点维护的指针表 b 1 非结构化 这类系统的特点是文件的发布和网络拓扑松散相关。这类系统具有很好的 自组织性和扩展性,缺点是对于非热点文件较难共享和交流。 典型的非结构化p 2 p 网络如f r e e n e t 【3 6 j 、g n u t e l l a 3 7 1 、f a s t t r a c k 3 引、 k a z a a i 3 9 1 ,下面简单介绍一下g n u t e l l a 的工作原理。 g n u t e l l a 的分布式的文件定位和响应方法比较特别,图2 1 1 显示了g n u t e l l a 文件的定位和获取方法。由于数据查询不依赖于任何拓扑结构,所以查询的方 式只能是把请求广播到所有邻近的节点( p e e r ) ,相应节点收到请求后响应消息, 之后建立连接下载所需的文件。一个节点想要加入g n u t e l l a 网络,首先需要连 接一些全局的直通的节点,一旦建立连接,节点将以广播的方式通告给其他节 点它的存在。 第2 0 页 可扩展性:在p 2 p 网络中,随着用户不断增多,系统整体的资源和服务能 力会随着服务需求的增加而同步地进行扩充,整个体系结构是全分布式的,不 存在性能瓶颈,理论上可以认为是无限的。 健壮性:p 2 p 架构天生具有高容错、耐攻击的优点。由于服务是分散在各 个不同的节点之间进行的,部分节点或网络在遭到破坏时不会对其他部分产生 较大的影响。p 2 p 网络一般能够在单点失效时自动调整整体的拓扑结构,保持 其他节点的连通性。 高性价比:性能优势是p 2 p 得到广泛关注的一个重要原因。采用p 2 p 架构 可以将计算任务或存储资料分布在各个节点上。通过利用网络中大量的闲置资 源,用更低的成本提供更高的存储和计算能力。 隐私保护:由于信息的传输是分散在各节点之间进行而无需经过某个集中 第2 l 页 北京邮电大学博士学位论文 环节,用户的隐私信息被窃听和泄漏的可能性会大大缩小,因而大大地提高了 匿名通信的灵活性和可靠性。 负载均衡:在p 2 p 网络中每个节点既充当服务器的角色又充当客户端的角 色,资源分布在多个网络节点,能够更好地实现了整个网络的负载均衡。 2 3 3p 2 p 网络应用 p 2 p 网络目前得到了大规模的应用,按其应用领域大致分为如下几个方面: 文件共享类、网络电视类( 包括直播和点播等类型) 、即时通信和网络电话、协 同处理( 对等计算) 、数据搜索,分布式存储,游戏软件等。 文件共享类:提供文件或其他内容的p 2 p 网络,例如:n a p s t e r 、g n u t e l l a 、 e d o n k e y 、e m u l e 、b i t t o r r e n t 等。 网络电视类:提供网络电视的直播和点播功能,采用p 2 p 方式提供节目的 成本较低,但却可以得到较好的收视质量。这类软件有:p p l i v e 、p p s t r e a m 、 沸点、c o o l s t r e a m i n g 、q q l i v e 、s o p c a s t 等。 即时通信和网络电话类:包括i c q 、m s n 、y a h o om e s s e n g e r 、s k y p e 等。 协同处理类:基于p 2 p 方式进行协同处理与服务共享的平台,也可以利用 网络中的协同计算平台互相协作完成计算任务。例如:s e t i h o m e 、g r o o v e 、 m a g i 、n e tm y s e r v i c e 等。 数据搜索类:基于p 2 p 的文件搜索技术,无需通过服务器,也不受宿主设 备和文档格式的限制,可以进行深度搜索。如j a t a s e a r c h 技术、i n f r a s e a r c h 、 p o i n t e r a 类数据搜索及查询软件。 分布式存储:可以提供高效率的、负载平衡的文件存取功能,增加了数据 的传输速度和可靠性。例如f a r s i t e 、o c e a ns t o r e 类数据存储软件。 游戏软件:大型网络在线游戏和网络对战游戏得到很多游戏玩家的青睐, 例如,华中科大集群与网格计算重点实验室推出的p k t o w n 系统【删就是一个 支持多种网络对战游戏的p 2 p 平台,目前支持魔兽争霸、星际争霸、反恐精英 等几款游戏。 2 3 4p 2 p 网络协议 p 2 p 网络实体之间互相通信的一套机制形成了p 2 p 网络协议,协议规定了 第2 2 页 北京邮电大学博十学位论文 p 2 p 软件相互之间通信的一些事件、动作、响应的规范,尤其定义了网络中交 互相关信息的数据格式。随着目前p 2 p 软件如雨后春笋般的扩大,形成了众多 的p 2 p 网络协议,其中不仅包括b i t t o r r e n t 等非常成熟的公有协议,更出现了占 绝大多数的p 2 p 私有协议。下面重点以b i t t o r r e n t 协议【4 1 1 ( 以下简称b t 协议) 为例说明p 2 p 网络运作的机制。 b i t t o r r e n t 起初是由美国软件工程师b r a m c o h e n 用p y t h o n 语言编写的开源 p 2 p 软件,用于文件分发。后来形成了标准协议规范,也就是b t 协议。 b i t t o r r e n t 运行的基本流程是:b t 客户端用户首先从普通w e b 服务器上获 取下载文件的元信息文件,元信息文件中包含下载文件名以及数据部分的h a s h 值,还包括一个或多个t r a c k e r 服务器地址。真正的文件下载过程中主要分为两 个步骤:第一,b t 客户端根据元信息文件获取到t r a c k e r 服务器的地址,然后 向该t r a c k e r 服务器注册并发出下载请求,t r a c k e r 服务器返回给b t 客户端下 载相同文件的其他节点的注册信息;第二,b t 客户端根据t r a c k e r 服务器返回 的信息与其他b t 客户端节点建立连接,开始下载和上传数据。在下载过程中, b t 系统会将下载文件划分成若干片断( p i e c e s ) ,b t 客户端下载文件时,选择自 己需要的某些片段进行下载,同时将自己拥有的片段提供给其他感兴趣的节点。 在b t 通信过程【4 2 】中存在两种通信协议:h t r p 协议和b t 对等协议。 1 、h t r p 协议为b t 客户端与t r a c k e r 服务器之间交互采用的协议。 一个b t 客户端通过h r r p 协议与t r a c k e r 服务器通信,报告自己的状态同 时获取其他下载节点的信息,一般通过一个h t i p 的g e t 请求,将自己信息放 在g e t 消息参数中,如下: g e t a n n o u n c e ? i p = 1 9 2 1 6 8 1 2 ;p o r t = 1 0 0 5 6h 删1 0 第一部分g e t 表示请求消息,第二部分是请求的u r l ,b t 客户端要把报 告给t r a c k e r 的信息放在u r l 中,如上例的i p 和p o r t 信息,实际过程中还有 h a s h 值,上传量,下载量等参数。 2 、b t 对等协议是b t 客户端与其他对等节点交换信息的协议。 b t 对等协议首先从一个握手消息开始,然后是后续的消息流,每个消息的 前面都有一个数字来表示消息的长度。如握手过程就是首先发送1 9 ,然后发送 协议名称“b i t t o r r e n tp r o t o c o l ,1 9 就是“b i t t o r r e n tp r o t o c o l 的长度。通过 w i r e s h a r k 协议分析软件【4 3 j 捕获到的b t 数据包及其解析如图2 1 2 所示。 第2 3 页 北京邮电人学博1 j 学位论文 of r a m e2 0 8 ( 1 2 2b y t e s0 1 9w ir e ,1 2 2b y t e sc a p t u r e d ) _ e t h e r n e ti t 。s r c :h e w l e t t p b 5 :0 9 :f 8 ( o o :l b :7 8 :b 5 :o g :f 8 ) ,d s t :f e :f d :0 2 :0 0 :1 ;,i n t e r n e tp r o t o c o l ,s r c :】0 3 1 8 2 ( i o 3 1 8 2 ) ,d s t :2 1 9 1 4 5 5 5 6 3 ( 2 1 9 1 4 5 ,丁r a n s m is s to nc o n t r o lp r o t o c o l ,s r cp o r t :1m p e r a ( 1 7 1 0 ) ,d s tp o r t :1 5 1 0 8 ( 1 1 jb i t t o r r e n t i p r o t o c 0 1n a m e b io re n to t o c oi:t tr p r r e s e r v e de x t e n s io nb y t e s :6 5 - s 0 0 0 0 0 0 0 0 0 0 0 1 s h a ih a s ho f1 n f od i c t l o n a r y :f 8 e a l 4 e e b b c 4 0 8 8 4 6 1 8 0 5 3 4 9 8 9 1 5 c 8 7 b d 2 6 d 0 5 2 3 p e e ri d :2 d 5 8 4 c 3 0 3 0 3 1 3 1 2 d 4 a 7 5 f f 2 6 f o e e 8 2 f 8 c b l c 3 d 9 3 ;一州“: 3 0 3 0 量qq q 王量墨垒q q q q l 丝。:乏2 一点旦一:生5 垒五f z 2z 2 五5 五硝 缓b1 t t o r r e n 3 0 ;0 f 42 0 7 07 26 f 7 46 f6 曼 6 f6 c l6 57 8 0 0 0 00 00 0tp r o t o c0 1 e x 3 0 5 00 00 1 f 8e a1 1 4e eb 8c 40 8b 46 】s 0s 34 98 9 】- 5a s t 3 0 6 0c 87 bd 26 d0 52 3 2 d5 84 c3 0 3 0 3 1 3 12 d4 a 7 5 m # - xl 0 0 1 1 3 u 3 0 7 0f f2 6f oe e8 2f 8c bl c3 d9 3一 图2 1 2b i t t o r r e n t 协议数据包格式解析 图中上部分为w i r e s h a r k 软件解析的结果,下部分为网络中实际传输的二进 制数据( 以十六进制编码方式显示) 。从图中可以很清晰的看到,i p 网络数据包 的封装是以第2 1 节所述分层的方式进行。b i t t o r r e n t 协议属于应用层协议,其 数据也属于负载部分,图中二进制部分从0 x1 3 字节( 高亮部分) 开始就是应用层 的负载。负载开始o x1 34 26 97 4 5 46 f7 27 26 56 e7 42 07 07 26 f7 46 f6 36 f6 c 就是b t 协议消息头“b i t t o r r e n tp r o t o c o l 的二进制编码。 除了软件共享类p 2 p 网络之外,其他的p 2 p 网络处理流程也基本类似,如 网络电话类,首先需要连接服务器获取节目列表,然后客户端用户选择要看的 节目,则通过网络协议将用户自身的p e e r 标识及节目编码等信息请求服务器, 服务器根据请求节目回应客户端正在观看或拥有该节目资源的其他p e e r 节点信 息,接着客户端就联系其他p e e r 节点获取所需资源,同时在观看过程中也上传 自己所拥有的节目资源片段。当然,不同的软件和客户端对协议的定义有所不 同,网络上传输的数据也就相应的有所区别,也正是可以利用数据的差异性来 分析通信协议的差异,从而识别出不同的p 2 p 网络服务和应用。 2 4 业务识别技术 业务识别技术主要解决运营商缺乏对应用层业务缺乏感知和控制能力的问 题,可以对各种应用做针对性的协议分析,分析的程度可以高到满足网络管控 的需要,如在线视频、p 2 p 、在线游戏、即时通信、网络安全等等,此外,还能 在非信息还原的前提下进行深入的客户行为分析。业务识别技术可以根据进行 的各种应用层分析,包括业务分析,用户上网喜好分析,异常流量分析等,除 第2 4 页 北京邮电大学博f :学位论文 进行基本的管控之外,还可以进行针对性营销,业务推送,服务质量保证等等。 当然,国家安全部门也可以按照业务识别结果执行信息安全检测与举证操作, 从而保障国家安全。业务识别主要涉及的技术包括d p i 、d f i 、模式匹配算法、 自学习算法等。 2 4 1 国内外研究现状 从2 0 0 4 年开始,亚洲的运营商因为p 2 p 流量增加的高额网络运营成本最先 采用d p i 产品。而欧洲也相对比较早采用d p i 技术,不过其原因却与亚洲截然 不同,主要是因为提供d s l 接入业务的运营商之间竞争激烈,运营商们需要通 过d p i 技术来提供差异化的增值服务。在北美,有线运营商是最早采用d p i 技 术的,相比d s l 运营商来说,运营商在“用户最后一公里”处面临更加激烈的 竞争;此外,后来随着i p t v 的部署,美国很多大的有线和无线运营商们也丌 始大规模部署d p i 产品i 矧。 根据l i g h tr e a d i n gi n s i d e r 的研究报割4 引,截止2 0 1 2 年,d p i 市场将超过 $ 1 ,0 0 0 ,0 0 0 ,0 0 0 的份额。全球主流的d p i 厂商的产品定位及客户定位如图2 1 3 所示。其中,a l l o t 、c a s p i a n 、c i s c o 、s a n d v i n e 等主要针对运营商市场;p a c k e t e e r 、 i p a n e m a 、f 5 等致力于企业市场;c i s c o 等大型网络设备厂商拥有流量管理控制 及d p i 深度报文检测的全线产品线。而在国内,d p i 厂商主要满足运营商对p 2 p 、 v o l p 等业务的检测和封堵需求,如:华为、南京信风、宽广电信、中创信测、 北京畅讯信通科技、西岭科技等等。同时市场上针对中低端应用的g e 接口产 品、可针对运营商边缘网络部署的p o s2 5 g 产品以及针对骨干网的p o s1 0 g 高性能产品均已出现,产品线覆盖各种应用场景和网络 第2 5 页 北京邮电大学博十学位论文 检测粒度 d p i ( l 5 - l 7 ) 流量管理 ( l 1 - l 4 ) 企业 i s p 业务量 图2 1 3 全球主流d p i 厂商产品定位及客户定位 当然d p i 技术的部署以及其倡导的新商业模式也一度受到欧美网络中立理 论的质疑和反对,因此d p i 在全球一阵热捧之后并没有得到大规模的部署。另 外,鉴于国内外应用软件的使用情况和热度有很大差异,国内d p i 厂家在本地 化方面也优于国外厂家。目前国内市场上国内厂家占有很大份额,主要涉及协 议的全面识别和少量p 2 p 业务的控制。在国外,相应产品一直不愠不火,2 0 0 7 年9 月c a s p i a n 宣布倒闭,并停止运营,其他厂商如c i s c o 也很长时间没有后续 产品更新【矧。 当前d p i 市场进一步分散化,同时移动互联网高速接入服务商也对d p i 表 现出很大的兴趣,而产品形态也呈现出分化演进的念势。主要表现在有效性, 即准确识别流量的能力及新出现的流量类型更新能力,对用户数、流量数、有 线速率下能处理的带宽数等指标方面的扩展能力,可编程能力,兼容性,在线 和离线分析能力,提供网络接口范围等方面。 目前广泛研究和实验部署的下一代演进网络n g n 架构中也采用了d p i 的 策略控制功能,为业务控制和网络控制提供全面信息。相应的商用化产品也大 量涌现,如c i s c o 的7 6 0 0 系列,华为的m e 6 0 和r e d b a c k 的s m a r t e d g e1 2 0 0 , 最具代表性的产品是华为的多业务控制网关( m s c g ) ,可提供一种层次化的d p i 解决方案,在功能和性能方面取得均衡。m s c g 层次化d p i 的过程,就是利 用m s c g 将d p i 技术应用分为三个处理部分:m s c g 内部直通业务识别处理、 第2 6 页 北京邮电火学博+ l :学位论文 m s c g 内嵌d p i 处理和m s c g 外置d p i 引擎处理。m s c g 层次化d p i 解决方 案如图2 1 4 所示。 图2 - 1 4 华为m s c g 层次化d p i 解决方案 m s c g 的直通业务处理层区分出不需要进行d p i 处理的数据流;内置的 d p i 处理层深度检测识别出b t 、e d o n k e y 、p p l i v e 、e m u l e 等大众化的p 2 p 业务流;m s c g 外置的d p i 引擎处理更加复杂难以识别的业务流。这样既保证 了系统处理的吞吐量和处理性能,也保证了业务识别的全面性、灵活性和广泛 性【4 7 1 。 2 4 2 流表建立 业务识别的基本流程就是首先获取网络上的二进制数据,然后根据相应的 业务识别技术判断出这些数据属于什么业务以及做进一步的分析。然而数据源 如果以单个数据帧为单位,一来极大地降低检测效率;二来并不是每个数据帧 都有检测特征,极大地降低了检测命中率和准确率。 在第2 1 节中介绍了网络层协议i p 和传输层协议t c p 、u d p ,这也是在i p 网络中最常用到的三个协议。口数据包格式如图2 1 5 所示,源i p 地址和目的 i p 地址各占4 个字节,位于i p 分组头部第1 3 2 0 字节。 第2 7 页 北京邮电大学博十学位论文 o 1 51 6 3 1 4 位4 位首 s i r 服务类型 1 6 位总长度( 字节数) j 版本部长度 ( t o s ) 3 位 1 6 位标识1 3 位片偏移 标忠 8 位生存时间 8 位协议 1 6 位首部检验和 2 ( t r l ) 3 2 位源i p 地址 3 2 位目的i p 地址 _ 7 选项( 如果有) z 7 了 数据 亨 i 图2 - 1 5i p 协议数据包格式 在t c p i p 协议栈中,i p 地址是进行互联网络路由选择的依据,通过i p 地 址可以把数据传输到对应的目标主机,但是对于将这些数据交给哪个应用程序 哪个进程来处理则是根据端口决定的。在t c p 和u d p 协议中,端口由两个字 节来定义,范围在0 6 5 5 3 5 之问。图2 1 6 为t c p 协议数据包格式,前1 6 位为 源端口号,接下来1 6 位为目的端口号。 源端u 号目的端l j 号 顺序号 确认号 uaprs f 头部长 保留rcs syi窗u 大小 席个 检验和紧急指针 可选项 数据 图2 - 1 6 t c p 数据包格式 u d p 协议也有相应的数据包格式,同样定义了源端口和目的端口。由于t c p 协议和u d p 两个协议是独立的,因此各自的端口号也是相互独立的,并不冲突。 因此,不难看出,由源i p 地址和源端口号确定了发送方的具体进程,也就 是运行的应用软件;而由目的口地址和目的端口号决定了通信对方的具体进程 和应用程序,也就是说五元组 决定了通信双方的具体业务应用进程,也就是说 相同的五元组数据肯定是同一业务数据,称具有相同五元组的数据为一条流。 因此,同一条流属于相同的业务类型,只要判断出一条流中一个数据包的业务 类型,则同一条流的其他数据包业务也就判断出来了。 所以业务识别的数据源基础是不同的流,流的概念也类似对网络流量进行 了初步分类。当获取到网络数据后,首先根据数据包的五元组情况建立流表, 然后以流为单位判断业务类型即建立如下映射关系。 流 业务类型 后续章节在默认情况下均是以流为单位进行分析和检测算法的研究。 2 4 3 端口识别 从上一节的介绍中可以看出端口是应用程序和进程进行网络通信的出入 口,按照协议类型可以将端口分为两类: 1 、知名端口 知名端口范围是从0 到1 0 2 3 ,如常用的用于网页浏览的w w w 服务采用8 0 端口,f t p 服务使用2 1 端口,d n s 域名服务采用5 3 端口等。对于所有的知名 端口对应的服务定义参见i a n a 网站【4 引。 2 、动态端口 动态端口的范围是从1 0 2 4 到6 5 5 3 5 ,它一般不固定分配给某种服务,但一 个系统进程需要进行网络通信时,它向主机申请一个端口,主机会从可用的端 口中分配一个供它使用,当进程关闭时,则释放所占用的端口。虽然动态端口 不是固定分配给某种服务,但某些软件或协议也会固定使用某个端口提供服务, 如h t f p 服务也经常使用8 0 8 0 端口,s i p 协议默认使用端口5 0 6 0 等。 基于端口特征进行业务识别的思路就是利用知名端口或者某些服务经常使 用的动态端口号进行匹配,建立知名端口服务对应库,通过匹配识别业务的数 据流。 不难看出,端口识别方法简单快捷,能够快速匹配,但是误判率也极高。 因为某些服务通过知名端口提供,如一些p 2 p 业务也可以使用8 0 端口通信;同 样知名服务也可以使用动态端口进行,如h t r p 服务可以使用8 0 0 0 ,8 0 0 8 等等, 只需要在访问网页时在网址后加上端口号即可。 第2 9 页 北京邮电大学博七学位论文 2 4 4 特征识别 特定的应用协议会有特有的协议格式,包括公有协议和私有协议。公有协 议有标准文档来定义,如第2 2 4 节谈到的v o l p 的标准协议s i p 、h 3 2 3 等;私 有协议则有软件厂家自身定义,没有对外公开,也没有在行业内推广,一般只 应用于厂家自身开发的软硬件设备。这些应用协议数据均封装在应用层,也就 是数据包的负载部分。 因此,基于特征的识别算法主要是分析各个不同的软件或协议独有的一些 协议特征,这些特征通常都是应用层协议头或负载中特定位置的特定字段,形 成特征专家库。在检测时,通过获取重组完整的i p 数据包,剥离应用层以下( 含 传输层、网络层等) 数据报头,提取应用层负载的内容,与特征专家库进行匹配, 从而定位出特定的业务类型4 引。如第2 3 4 节中提到的b i t t o r r e n t 协议,其特 征字段就是“b i t t o r r e n tp r o t o c o l ,包括长度编码,共2 0 个字节,对应1 6 进制 代码即0 ) 【1 34 26 97 4 5 46 f7 2 7 26 56 e7 4 2 0 7 07 26 f7 46 f 6 36 f6 c ,从负载第一 字节开始匹配该2 0 个字节,如果完全匹配则认为是b i t t o r r e n t 协议。 基于特征识别算法主要涉及到特征模式设计,协议特征提取自动化,专家 库建立,模式匹配算法等技术。特征模式的设计是本文的一个重点,固定字段 固定偏移的模式只是最简单的一种特征匹配模式,在3 1 节中会详细介绍更多 的匹配模式。匹配算法的优劣涉及到算法性能和实时效果,模式匹配算法包括 单模匹配和多模匹配。目前常用的单模式算法有b f 算法、k m p 算法f 5 、b m 算法【5 1 i 等;而多模式算法主要有基于d f a 确定性有限自动机理论的a c 算法 【5 2 j ,鉴于多模匹配算法的高效性,在协议识别匹配领域广泛使用。对于协议特 征提取自动化、专家库建立和模式匹配算法选取不作为本文的研究重点。 2 4 5 协议关联分析 在很多应用系统中,通信过程并不是由单一的协议和进程完成,而是需要 多协议结合进行,如v o i p 系统、p 2 p 系统等,这种情况下,同一业务就会在网 络上产生多条流,而实际上并不是每条流都有比较明显的特征并且往往是真正 的数据流特征不明显,这种情况下单独检测每条流的业务就很难保证检测的准 确性和命中率,因此需要用到协议关联分析技术。 1 ) v 0 口系统检测 第3 0 页 北京邮电人学博。t c 学位论文 在第2 2 节谈到,v o l p 协议中包括信令协议和媒体协议,信令协议主要是 控制协议,用于协商通话参数,建立媒体通道等,大约占v o l p 业务总流量的 2 左右;而媒体协议是在已有媒体通道的基础上进行音视频流的传输,媒体协 议一般采用r t p 协议。由v o l p 通信流程不难看出,信令协议的一个重要作用 就是建立媒体通道,也就是协商r t p 协议传输所采用的i p 、端口等信息,而同 时信令协议的特征比较明显。因此对v o i p 系统的检测可以首先深入分析信令协 议,从信令消息中提取建立媒体通道的参数,从而关联出媒体流传输的五元组 信息,进而达到检测出媒体流的目的。图2 1 7 为v o l p 一种应用场景下信令媒 体关联示意图。 信令流! 媒体流 图2 - 1 7v o i p 系统信今媒体关联示意图 v o l p 终端经由网守与网关进行信令流的交互,网关再根据被叫号码将呼 叫转给相应的端局,发给对端。待建立了媒体通道之后,就开始了端到端的媒 体传输。 检测设备通过对信令流的检测,可以获取以下关键信息:发起方的用户信 息,发起方口地址,被叫方号 l - - s ( e 1 6 4 ) ,网守地址,媒体通道信息( 双方进行 媒体传输时的端口号等) ,以及一些媒体协商参数( 如采用何种编码方式等信息) 。 通过这些参数,建立了一些映射关系,如发起方口信息与被叫方号码之间的会 话信息,发起方端口与被叫方的网关端口信息,通过存储这些信息,当收到指 定源i p 、目的i p ( 此时为网关口信息) ,源端口,目的端口( 端口即双方协商 的媒体通道) 的数据流时即为通话的语音信息,完成协议关联。 第3 1 页 北京邮电人学博士学位论文 更具体地,信令采用s i p 协议时,主要包含两条流:s i p 协议流和r t p 媒 体流。在图2 4 中,可以通过检测i n v i t e 消息和2 0 0o k 消息提取r t p 媒体 会话参数。其中i n v i t e 消息中相关参数确定如图2 1 8 所示,相关参数通过s d p 来描述,其中c 字段确定源端i p 地址,m 字段确定源端r t p 端口号。对端相 应参数在2 0 0o k 消息中确定。 图2 - 1 8i n v i t e 消息中媒体参数协商 当信令采用h 3 2 3 协议时过程类似,只是更复杂一些,此时基于h 3 2 3 的 v o l p 应用主要包括四条流:r a s 信令流,h 2 2 5 信令流,h 2 4 5 信令流和r t p 媒体流,其中r a s 消息可协商h 2 2 5 信令信道,h 2 2 5 消息协商h 2 4 5 信令信 道,h 2 4 5 消息协商媒体通道,需要依次进行协议解析,最终r t p 媒体参数在 h 2 4 5 的o p e n l o g i c c h a n n e l 及其响应消息中确定。 2 ) p 2 p 系统检测 在第2 3 节中的介绍中可以看出,p 2 p 应用系统中也包括多条流:p 2 p 客户 端与注册服务器或超级节点之间的信令流以及与不同p e e r 对端的不同数据流。 尤其在集中式的p 2 p 网络中,p 2 p 客户端会首先与服务器建立通信报告自己的 状态同时获取其他p e e r 端的信息。因此,可以通过检测分析客户端与服务器之 间通信的信令获取后续数据流交互的路径端口信息,从而完成对数据流的关联 检测。 第3 2 页 北京邮电人学博:t 学位论文 当然,在p 2 p 系统中,这种方式实现起来相对v o l p 关联方案有较大的复杂 性,首先t r a c k e r 服务器返回的p e e r 端信息非常庞大,需要预保存可能交互的 p e e r 节点,但后续b t 客户端不一定会全部联系这些p e e r 节点,即使联系双方 也不一定有数据交互( 如双方互相没有彼此需要的资源) ,造成前期存储效率降 低。此外,b t 客户端与p e e r 端进行通信时,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论