




已阅读5页,还剩53页未读, 继续免费阅读
(计算机应用技术专业论文)基于应用协议分析的网络信息监控系统.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
哈尔演下程大学硕士学位论文 i i i 篁鞘攀置暑篁宣i 1 i i l l li h l i l l l l l 赫l l li i 宣i ;置宣;i 警尊 摘要 随着网络的发展翻网络技术的成熟,i n t e r n a 已经在全世界范围得到普 及。i n t e m e t 上的各种信息,给人们的工作、学习生活带来了极大便利,人们 对计算机网络的依赖性也越来越强。企业员工、在校学生利用i n t e r n e t 在工 作、学习时间进行大量与工作和学习无关的网络访问行为已近成为影响企业 生产、学校教学不容忽视的负面问题。政府、企业、学校等单位都提出了对 用户的霹络行为进行监视与控铡的要求。 论文从基于内容的应用协议分析技术出发,针对当前利用简单协议特征 进行协议解析的识别准确率较差的情况进行改进,实现了一种基予网络数据 流内容的应用协议分析方法。 论文还从基于行为特征的应用协议分析技术如发,针对当前非常流行的 p 2 p 协议提出了一种基予行为特征的p 2 p 协议分析方法。 最后,论文在以上论述的两种技术基础上,设计并实现了基于应用协议 分析的网络信息监控系统。该系统能够透过p 地址与u r l 地址对数据包进 行合法性判断,还能以敏感关键字的方式对协议内容进行分析。系统还可以 利用基于行为特征的方法对p 2 p 流量进行监测,对非法连接实施阻断。系统 实际运行效果明显,具有良好的使用和推广价值。 关键词:网络监控;访议分析;内容分析;行为特征分析 a b s t r a c t w i t ht h ed e v e l o p m e n to fi n t e m e ta n dn e t w o r kt e c h n o l o g y , i n t e r n e t h a s b e c o m em o a l l dm o r ep o p u l a ra r o u n dt h ew o d d i tm a k e st h ep e o p l e sd a i l y l i f e e a s vt ou s ev a 疸o u sk i n d s o fi n f o r m a t i o n 。a n db y a n db y , p e o p l ec a n td e p a r ta w a y f r o mi ta n ym o r e i t sas e r i o u sp r o b l e mt h a tt h ee m p l o y e e si nt h ec o r p o r a t i o na n d s t l l d 烈i t si nt h ec a m p u st a k et o om u c ht i m ef o rw o r ka n ds t u d yt od os o m e t h i n g 越s et h r o u g hi n t e r a c t 。i ta f f e c t st h en o r m a lp r o d u c i n ga c t i v i t yo fc o r p o r a t i o na n d 池c a t i o no fc o l l e g e s ot h eg o v e r n m e n t ,c o r p o r a t i o na n dc o l l e g ee t cr a i s e t h e r e q u i r e m e n to f m o n i t o r i n ga n de o n 拓o u m g t h en e t w o r ku s o r sa c t i o n f r o mt h ea s p e c to ft h ea p p l i c a t i o np r o t o c o la n a l y s i st e c h n o l o g yb a s e do n n l 戚c :h a r 搿删s t i c ,t h i sp a p e ri m p l e m e n t s 覆m e t h o db a s e d0 1 1t h ea p # i c a t i o n p r o t o c o la n a l y s i so fd a t a s t r e a mc o n t e n ta sa l i m i t a t i o no ft h et e c h n o l o g yw h i c h m a k e su s eo fs i m p l ep r o t o c o l sc h a r a c t e r , f r o m 氇ea s p e c to ft h ea p p l i c a t i o np r o t o c o la n a l y s i st e c h n o l o g yb a s e do n b e h a v i o rc h 锹毽c t e d s t i c t h i sp a p e rp u t sf o r w a r dap 2 pp r o t o c o la n a l y s i sm e t h o d b a s e do nb e h a v i o re h a r a c t e r i s t i c i nt h ee n d ,t h i sp a p e rd e s i g n sa n di m p l e m e n t s an e t w o r ki n f o r m a t i o n m o 撼t o d n ga n dc o n t r o l l i n gs y s t e mb a s e d o nt h ea p p l i c a t i o np r o t o c o la n a | 姆s w i t h b o mt e c h n 0 1 0 西e sa b o v e t h es y s t e mc a nc h e c kt h ed a t ap a c k e t sv a l i d i t y , a n d 髓越v z et h ep r o t o c o l ,sc o n t e n tw i t hs e n s i t i v ek e y w o r d s i tc a nm o n i t o r p 2 pf l o w r a t ew i m 也eb e h a v i o rc h a r a c t e r i s t i c s a n a l y s i sm e t h o d , a n db r e a kt h ei l l e g a l c o l m o c t i o n t h es y s t e m so p e r a t i n gr e s u l ti so b v i o u s ,i t sw o r t ht oe m p l o ya l l d p o p u l a r i z e 。 k e yw o r d s :n e t w o r km o n i t o r i n g ;p r o t o c o la n a l y s i s ;c o n t e n ta n a l y s i s ;a n a l y s i s o fb e h a v i o rc h a r a 咖 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导 下,由作者本人独立完成的。有关观点、方法、数据和文 献的引用已在文中指出,并与参考文献相对应。除文中已 注明引用的内容外,本论文不包含任何其他个人或集体已 经公开发表的作品成果。对本论文的研究做出重要贡献的 个人和集体,均已在文中以明确方式标明。本人完全意识 到本声明的法律结果由本人承担。 作者( 签字) : 敝 日期:五譬年毒周了日 哈尔滨工程大学硕士学位论文 第1 章绪论 l 。l 课题背景 随着计算机网络技术的发展,i n t e r n e t 已经在全世界范围得以普及,而且 很多的学校、中小机构、企业也构建了宣己的局域办公网,麸焉大幅度的提 升了工作效率,而且对计算机网络的依赖性也越来越强。据有关资料显示, 因特网已经遍及世界1 8 0 多个国家,容纳了6 0 多万个网络,接入了2 2 多万 台主机,为1 亿多用户提供了多样化的网络与信息服务。在英特网上,除了 原来的电子邮件、新闻论坛等文本信息的交流与传播之外,网上电话、网上 传真、静态及视频等通信技术也都在不断地发展与完善。在信息化社会中, 网络信息系统将在政治、军事、金融、商业、交通、电信、文教等方面发挥 越来越大的作用,社会对网络信息系统的依赖也霞益增强。各种各样完备的 网络信息系统,使得秘密信息和财富高度集中于计算机中。同时,这些网络 信息系统都依靠计算桃圈络接收和处理信息,实现其相互闯麴联系和对隧标 的管理、控制。以网络方式获得信息和交流信息已经成为现代信息社会的一 个重要特征。网络正在逐步改变人们的工作方式和生活方式,成为当今社会 发展的一个主题。 然而,计算机网络在给用户带来了方便的同时,另一方面也使得设计、 维护和保证网络安全变得困难。因此,对用于分析、诊断、测试网络性糍帮 安全性的工具的需求不断增加。这些工具需要获得网络传输的数据并在网络 王作时捕获它,实现对踺络数据的实时监控。 通过对网络信息的监测与分析,可记录网络中数据的流量,对网络信息 给予适当控制,并有助于分析网络的性能,监控网络各层的协议和服务,分 析网内各主机的处理能力,提高对网络的管理。网络信息监测的意义还在于 可用于调试网络应用程序,判断应用程序是否正确的发送或接收了数据包; 可以维护网络环境,杜绝不健康站点的不健康内容;可应用于安全防范,监 视信息内容、保障网络安全,截获情报、分析怀有敌意的网络,在计算机网 哈尔滨t 程大学硕士学位论文 络上实施有效的攻击与保护。 目前市场上已出现一些专用的网络监控和协议分析软件,它们的共同特 点是:利焉共享式以太网的广播技术,监控软件能够访问本地网络上数据链 路层传输的所有数据包,并按用户的需求对这些包进行相关处理;对各种协 议进行分析,从而可以对网终受载流量情况、阙络所有的各种遗讯协议进行 监控。 然而,隧着网络技术的进一步发展,共享式以太网逐步被交换式以太网 所取代,这些软件的使用效果往往不能令人满意。因此,我们需要研究一种 可以很好的对交换式以太网进行监控的系统,以满足人们的需要。 1 2 课题研究必要性 应焉层协议分析是阏络信息分析领域的核心技术。杰于互联网的无边界 性和管理困难,大量的有害信息通过各种应用层协议被传播。比如:每个网 民每周可能收到7 9 封垃圾邮件f l l 。这些垃圾邮件是通过s m t p 、p o p 3 等邮 件协议传输的:互联网过滤评估机构估计,全球大概是4 2 0 万个色情网站, 占所有网站总数的1 2 ,平均每年全球色情网站的访问量是7 2 0 0 万1 2 l 。这些 色情信息被h t t p 协议所携带;一些j 蠢法文件可能被b t 、e m u l 等p 2 p 协 议共享传输;公司的一些机密情报随时可能在即时通讯( m s n 、i c q 协议) 软件的聊天中被泄露;两各静层出不穷的应用软件都会定制一套盘己的应用 层通讯协议。为了有效控制和管理各种应用层协议和软件中传递的内容,必 须对应用层协议傲细致的分析。 在网络安全领域,随着网络技术的不断发展,网络攻击行为已经逐步向 高层转移,利用操作系统和网络设备本身安全问题进行攻击的浪潮已经逐步 较低,人们越来越将攻击的目的转向高层的应用。目前最严重的十个应用层 漏洞产生的原因,相信这会是以后网络安全攻防的趋势【3 1 。因此应用层协议 分析技术作为应用层瘸毒、蠕虫的重要检测手段在霜络安全中起着重要作用。 值得注意的是,应用层协议分析本身也会成为黑客攻击的目标。2 0 0 4 年 3 月2 0 日一个名为w i t t y 的蠕虫病毒利惩了i s s 公司的防火墙的一个漏漏发 动针对性攻击。全球网络在短短的半个小时之内,已经有3 0 0 0 多台服务器和 个人电脑受到了未知病毒的攻击丽陷入瘫痪状态。之后发现,这次漏洞的出 2 哈尔滨工程大学硕士学位论文 现的原因是由于公司防火墙等安全产品在i c q 协议分析时对异常数据处理的 不好,导致缓冲溢出,而黑客或病毒要触发该漏洞时,被攻击者的系统上并 不需要运行瓣q 。可觅一个健壮的应用层协议分析过程对网络安全至关重要。 1 3 论文的研究内容 基于数据流内容的应用协议分析方法将协议的一次完整的数据交互看作 一个过程,在这一过程中的提取出若干的阶段,然后找出这些阶段的特征, 从而建立一个该协议的串行分析规则。该方法不受协议随机指定端口的影响, 只要数据流能够匹配分析规则既能识别燃该协议数据。 另外它比基于简肇协议特征的分析方法更加的准确,基于数据流的协议 分析方法好比对若干个步骤进行多次的协议特征匹配,使得仅仅满足少数几 个特征的其能协议数据不会被错误的识别。本文扶基于内容分析的应用协议 分析技术出发,针对现有内容分析方法的存在的问题进行分析和改进,实现 了一种基于数据流内容的应用协议分析方法,并墨利用h t t p 与f t p 这两个 当今非常流行的应用协议迸行举例,说明具体的实现方法。 本文还从基于行为的应用协议分析角度出发,对当前非常流行的p 2 p 软 件进行研究,提出一种针对于p 2 p 协议的基于行为的分析方法( 基于行为的 内网p 2 p 协议识别算法) 。该方法是通过对数据报文的简单特征进行分析( 四 元组及传输层协议类型) 根据制定的撰则来判定是否为p 2 p 数据流量。此种 分析方法加快了分析的速度,减少了系统的开销。对未知的p 2 p 协议以及通 过加密或压缩鹃p 2 p 携议都有很好的识别能力。 此外本文根据上述关键技术实现了基于应用协议分析的网络信息监控系 统。该系统对各种常见的应用协议进行内容分析,对p 2 p 锛议进行流量统计。 通过撙地址和u r l 地址对应用协议进行合法性判定,并利用人为定义关键 词的方式来判断网络内容的合法性。 1 4 论文的组织结构 本文是对应用协议分析技术的研究与改进,全文共分为五章。 第一章,介绍了课题的背景知道以及研究本课题的必要性,介绍了本文 的研究工作内容和论文结构。 哈尔滨下程大学硕士学位论文 第二章,从基于内容分析的应用协议分析方法与基于行为分析的应用协 议分析方法两点出发,分别阐述了两种分析方法的当今研究现状。 第三章,以h t t p 协议与f t p 协议为例,利用基于数据流内容的应用协 议分析方法分别对这两个协议进行了详细的分析,并给出伪代码以及代码描 述。 第四章,利用基于行为分析的应用协议分析方法对p 2 p 协议的行为分析 进行了详细的描述,并给出伪代码以及代码描述以及算法的实验分析。本章 最后论述该算法的不足与改进方案。 第五章,在第三章与第四章所述的分析技术的基础上实现了基于应用协 议分析的网络信息监控系统。该系统对p 2 p 协议进行流量统计并对各种常见 的应用协议进行内容分析。通过m 地址和u r l 地址对应用协议进行合法性 判定,并利用入为定义关键词的方式来判断网络内容的合法性。最后还给崽 系统运行实例分析。 4 哈尔滨t 程大学硕士学位论文 第2 章应用协议分析技术的研究现状 2 。l 基于内容的应用协议分析研究现状 网络协议发展初期,绝大部分的协议识别是按照端口映射方式实现的。 这样傲的蔹据是由于大多数操作系统和应用软件都是在假定r f c 被严格遵 守的情况下编写的。在协议规范公开的同时已经设定好该协议默认使用的通 信端目并且假定使用者们都会遵守这些规范。如h t t p 协议使用8 0 端1 2 1 ,f t p 协议使用2 1 端口等等。目前很多的协议分析工具如e t h e r e a l 、s n i f f e r 当中很 大一部分协议都是以这种方式进行协议识别的1 4 1 5 1 。但是随着网络协议的发 展,这种协议识别方法出现了越来越多的问题。这主要表现在: 1 ) 不使用固定通信端口进行通信。例如目前最流行的p 2 p 软件下载方 式( b t 、e m u l e 等) ,很多客户端为了避免被禁止使用而采焉了动态端墨设 定的方式。 2 ) 复爰公开端1 2 1 进行私有协议通信( 吃如q q 2 0 0 6 版开始使耀8 0 端1 :1 1 并 且数据包中没有明显特征字串) 。 3 ) 采用已知公开协议的传输工具( 比如迅雷使用8 0 端口并使用h t t p 协 议进行传输) 。 因此对于以上这些情况,只能采取协议内容分析进行协议识别的方法。 当藏协议内容识别的方法主要适用于在协议流的开头( 一般在前+ 个字节内) 就具有明显的协议特征 6 7 1 8 1 。这种方法识别准确,同时由于只需要识别前几 个字节系统效率也不会有太大影响。 例如根据h t t p 协议的r f c 标准【9 】。客户端向服务器端发送请求的第一 行格式为“h t t p 协议定义个各种方法+ 空格+ 请求的资源u r l + 空格+ h t t p 协议版本号”。而服务端向客户端返回的消息第一行为“h p 协议版本号+ 空 格+ 状态码+ 空格+ 描述”。要通过内容识别h t t p 协议,可以分为2 个半连接 来识别。对于客户端到服务器的半连接,主要看内容开头几个字节是否为 h t t p 协议定义的方法( g e t 、p o s t 等) ;对于服务器到客户端的半连接检 哈尔滨工程大学硕士学位论文 验开始几个字节是否为h t t p 1 即可。事实上对于大部分的具有单一连接的 应用协议都可以通过协议的r f c 文档,在开始的几个字节就识别出不同的协 议类型来。这是因为各个协议制定中已经考虑到协议要尽快识别,所以各个 协议的开头一般都有很大不同。 对于那些特征不明显的协议做的协议识别。比如一些p 2 p 协议,以及一 些代理协议和协议隧道等。他们的识别通常要深入到协议中去发现特征字段。 这些情况包括: p 2 p 的协议识别【l o i l 。比如基于p 2 p 协议的k a z a a 软件,他的特征是文件 下载时t c p 连接头几个字节为g e t 或者h t t p ,而后续的传输中有个字段 是x k a z a a ,为了识别这个协议就必须搜索x k a z a a 字段。 使用代理的协议识别。用户在使用网络服务时有相当部分都是使用了 各种代理。应用层中的代理有h t t p 、f t p 、s m t p 等各个应用层协议的代理。 他们共同的特征都是实现协议转发功能。使用应用层代理时连接的数据内容 和没有使用代理的时候差不多,只是在相关字段上有所修改。比如使用h t t p 代理访问网络的话在请求头上会出现p r o x y - c o n n e c t i o n :k e e p a l i v e 字段,而 一般直接连接时只是出现c o n n e c t i o n :k e e p a l i v e 。此时的协议识别和正常识 别时一样的,唯一的变化是记录的口地址:要么是客户和代理服务器的口, 要么是代理服务器的网页服务器的i p 。 协议隧道和协议组合。现在很多软件在一个协议的数据中封装另外一个 协议,到了服务器端再解开里面的协议数据并转发。其目的是穿透防火墙。 比如在h t t p 协议中封装即时通讯协议的数据。这类软件有s o c k e t 2 h t t p , h t t p p o r t ,i c q p r o x y 等等,他们共同的特点是需要一个公共服务器来接受请 求并解析内部协议数据再转发数据。通过各种协议隧道软件和各种代理软件 的组合使用可以构造出很复杂的协议流。这些协议流最终要经过两次以上的 协议识别。 s u b h a n b r a t as e n 等人于2 0 0 4 年初提出基于应用签名的p 2 p 流量检测方 法,该方法提供了一种通过应用层协议特征识别p 2 p 应用数据流量的有效方 法 1 2 】。作者给出了当今最流行的五种p 2 p 协议的应用层协议特征,通过实验 得出利用该方法误报率低于5 。文中的提到五种p 2 p 协议为: 1 ) g n u t e l l a 协议【1 3 1 : 6 哈尔滨工程大学硕壬学位论文 g n u t e l l a 是一种完全的分布式协议。在g n u t e l l a 网络中,每一个客户端 同肘也是一个服务器因此客户端和服务器同时在一个系统中执行,把这个方 式命名为s e r v e n t 。当个s e r v e n t 通过网络利用t c p 协议连接到g n u t e l l a 网 络时,它与该网络中的其他s e r v e n t 结点利用g n u t e l l a 协议进行通讯来发现网 络中的可用结点。该网络的文件下载行为类似于运用珏t 秘协议,一个s e r v e n t 结点发送请求数据,被申请的s e r v e n t 结点回送回应数据并提供下载文件。该 协议的t c p 建立连接的特征为: 。 g n u t e l l a c o n n e c t 妣a 返回的回应数据特征为: g i 斟t e l 乙ao k k n h l 当需要下载数据时请求端用到的h t t p 请求头部为: g e t g e t h t t p 1 0x r k n c o n n e c t i o n :k e e p a l i v e k n r a n g e :b y t e = 0 一沪旧 u s 昏a g 黝t : 执 沪国 圆复下载请求的h t t p 相应头部格式为: h t t p2 0 0o k k r b a s e r v e r : r k n c o n t e n t - t y p e a r 遮 c o n t e n t l e n g t h :v k n 争睡 2 ) e d o n k e y 协议 1 4 1 1 一个e d o n k e y 网络由一组客户端和服务器组成。每个客户端通过t c p 协 议连接到一个主服务器端,在发送信号阶段,客户端首先发送一个搜索请求 数据到他的主服务器端。来接收其他客户端一系列的下载文件,有时客户端 也会利用u d p 按议直接对其他的服务器产生连接,这是一种e d o n k e y 的扩 展搜索行为。客户端与其他的资源客户端分别建立t c p 连接,然后向每个连 接的客户端请求一个文件不同部分的数据。 7 哈尔滨工程大学硕士学位论文 在实验中发现e d o n k e y 数据包不管是信号数据还是下载数据的t c p 数据 包都有一个相同的t c p 头部。 12 ,s | ,bl 23t56 日l23 5 b123l5 e - - p 尊 - i 渤z i t e t i - 叫啼謦- p 啼- - p + 畸- f - 幸- 摹+ - q - | 和_ - - 叫_ 一唪 i触c i c e 乞k n g t 矗l tb 3 f l c e s l l - i i - - t - 啤小q 叫p 啼- - 参- - 参i 扣叫卜噜- im e s s s q et y 转i r - 卜+ 一 _ 图2 1e d o n k e y 的t c p 头部结构 m a r k e r 的值总是为十六进制的0 x e 3 。数据包的长度格式为网络字节序, 它的值是e d o n k e y 数据内容的长度,其中不包括m a r k e r 的一个字节及其本身 的四个字节长度。通过以上对该协议的特征发现得出了e d o n k e y 数据包的识 别方法。 对于t c p 信号数据包和t c p 握手数据包可利用以下两个阶段进行 e d o n k e y 数据的识别: i p + t c p 头部后的第一个字节是m a r k e r 位。 接下来的四个字节等于整个数据包的长度减去i p + t c p 头部的长度以及 前五个字节长度。 3 ) d i r e c t c o n n e c t 协议【1 5 l : d i r e c t c o n n e e t 网络由一系列的网络集线器,客户端和一个带有多个服务 器的超级网络集线器组成。所有这些设备都通过t c p 协议在4 1 1 端口监听连 接与改变命令( 例如搜索请求) 。客户端结点存储文件,并且负责回应搜索请 求到本结点文件的数据。超级网络集线器为所有的网络集线器提供了名字服 务器的功能,所有的网络集线器在超级网络集线器注册,当客户端需要发现 网络集线器的时候它就询问超级网络集线器。每一个客户端都有一个名字, 并且都在4 1 2 端口监听连接数据信息,如果4 1 2 端口被占用那么客户端将会 顺序的利用4 1 3 ,4 1 4 等端口。d i r e c t c o n n e c t 利用t c p 协议为客户端与服务 器建立连接,同时也利用u d p 协议数据进行服务器与服务器之间的沟通。 t c p 命令的数据格式为: $ c o m m a n d i _ t y p e f i e l d1f i e l d 2 哈尔滨工程大学硕士学位论文 命令数据以$ 字符开头,以i 字符结尾。c o m m a n dt y p e 的可能为 m y n i c k ,l o c k ,k e y , d i r e c t i o n ,g e t l i s t l e n ,l i s t l e n ,m a x e d o u t ,e r r o r , s e n d ,g e t ,f i l e l e n g t h ,c a n c e l e d ,h u b n a m e ,v a l i d a t a n i c k ,v a l i d a t e d e n i d e ,g e t p a s s ,m y p a s s ,b a d p a s s ,v e r s i o n ,h e l l o ,l o g e d i n ,m y i n f o ,g e t l n f o ,g e t n i c k l i s t ,n i c k l f s t ,o p l i s t ,t o ,c o i m e c t t o m e ,m u l t i c o n n e c t t o m e ,r e v c o r m e c t t o m e ,s e a r c h ,m u l t i s e a r c h ,s r , 鼬c k ,o p f o r c e m o v e ,f o r c e m o v e ,q u i t 。 为了提高识别的性能,文章提供基于两个步骤的特征识别方法: 首先,在i p + t c p 头部后的第一个字节为字符$ 并且数据包的最后一个 字符为i 。 其次,在$ 字符后,以空格为结尾的字符串应满足上述列出的 c o m m a n dt y p e 可能的字符串。 4 ) b i t t o r r e n t 协议 1 6 1 : b i t t o r r e n t 网络由许多的客户端和一个中心服务器组成。客户端之间彼此 互相连接来传递文件的分片。中心服务器( t r a c k e r ) 只是起到调整各个客户 端的行为。与上述讨论的所有协议不同,b i t t o r r e n t 服务器对搜索各个客户端 上存在的文件没有提供任何响应,取而代之的是b i t t o r r o l t 网络客户端通过 网络自身去定位一个t o r r e n t 文件。客户端通过超链接的形式下载到t o r r e n t 文 件并下载,在此以后在b i t t o r r e n t 网络上没有任何的信号交互信息。为了识 别b i t t o r r e n t 流量,文章主要从客户端之间下载文件来进行识别。 每次客户端之间建立连接都是通过如下的形式: 第一个字节值为1 9 ,s t r i n g 的值是b i t t o r r e n tp r o t o c o l ,通过这种通用 的头部格式,文章利用一下特征来对b i t t o r r e n t 流量进行识别: 数据包第一个字节的t c p 数据为字符为1 9 ( 0 x 1 3 ) 。 接下来的1 9 个字节应匹配字符串b i t t o r r e n tp r o t o c o l 。 由于这种方法需要对数据包的2 0 个字符长度进行定位,所以会非常影响 识别的效率。 5 ) k a z a a 协议【i7 】: k a z a a 网络是一个分布式、自组织的网络。在k a z r a 网络中,客户端拥 有超强的连接,性能优秀的计算机被自动的选择作为超级结点( s u p e r n o d e s ) 。 9 哈尔滨工程大学硕士学位论文 超级结点通过网络集线器进行定位,一般的客户端连接他们临近的超级结点 来上传它们共享的文件信息同时执行搜索,超级节点轮流的回复这些搜索请 求。 k a z a a 的请求下载的h t t p 请求头部内容为: g e t f i l e sh t t p 1 1 、:r k n h o s t :i pa d d r e s s p o r t k r k n u s e r a g e n t :k a z a a c l i e n t k r k n x k a z a a n e t w o r k :k a z a a v n x - k a z a a - i p :口l n x - k a z a a - s u p e r n o d e l p :k r k n k a z a a 的h t t p 回应头部内容为: h t t p 1 12 0 0o k k r k n c o n t e n t l e n g t h :r k n x k a z a a - u s e m a m e :k r k n x k a z a a - n e t w o r k :x r k n x k a z a a i pa r x n x - k a z a a - s u p e m o d e l p a r k u c o n t e n t t y p e :h r k n 根据以上头部的分析得出的识别规则为: t c p i p 头部以后的字符串应为g e t 和h t t p 。 在协议的头部内容中一定有一个域会出现字符串x k a z a a 。 t h o m a sk a r a g i a n n i s 等人搜集了8 种流行的p 2 p 协议的关键字,并和端 口识别的方法结合起来,对因特网主干流量两条0 c 4 8 链路进行了分析, 结果否定了p 2 p 应用由于受到版权官司的打击而没落的说法,相反,p 2 p 用 户只是从一种受打击的p 2 p 应用转向其他更隐蔽的p 2 p 应用而己【1 8 】【1 9 】。 m a t t h e wr o u g h a n 等人针对q o s 的分类需求和挑战,提出一种用于m 流量分 类的统计签名方法,该方法中的签名对特定应用层协议不敏感,而是倾向于 指示该应用是用于信息交互,还是用于传输大量数据t 2 0 1 。 h o l g e rb l e u l 等人基于应用层签名,提出了一种简单、有效、灵活的p 2 p 流量测量方法,且该方法具有易于扩展到新p 2 p 应用的特点 2 f l 。对校园网流 1 0 哈尔滨工程大学硕士学位论文 量进行的实验表明,该方法不仅精度高,而且性能和可扩展性都达到了实用 水平。文章指出,对新的p 2 p 协议进行细致研究的一个根本性的问题在于当 今的新兴p 2 p 协议例如k a z a a 和s k y p e 都为私人所有。这些协议的数据都是 加密的,因此要得到这些协议的内容只能先将加密的数据解密。此外被加过 密的p 2 p 协议数据还会被错误的当成为h t t p 的流量数据。大多数的当今p 2 p 客户端都采用非固定端口的通讯机制,使得识别工作更加困难。另一个问题 在于p 2 p 协议的快速变化周期以及大范围的修改。在l i n u x 系统中,像诸如 g n u t e l l a ,k a z a a 和e d o n k e y 等协议已经提供了基本的协议特征。因此利用 应用层协议特征来识别p 2 p 流量是可行的。为了能够利用应用层特征对p 2 p 流量进行识别,关键在于准确的找出适合于各种协议的内容特征。对于当今 流行的p 2 p 协议,总结出以下特征。 表2 1 四种p 2 p 协议特征 p r o t o c o l s i n a t u r ee l e m e n t s t r a n s p p r o t o c o ld e f p o r t s g n u t e l l a , g i v ”, t c p ”g e t u r i 删,t c p g e t g e e , t c p x - d y n a m i ” t c p ,) ( - q u e r y , t c p x - u l t r a p ”, t c p x m a x it c p6 3 4 6 g n u t e l l a x - o u e s s ”, t c p6 3 4 7 x - t r y t c p ) ( - e x f 。 t c p ”x - d e g r e e , t c p x - v e r s i o , t c p ? 【g n u t e l ”t c p ”g n d ”u d p “g e t h a s h ”, t c p f a s t t r a c k 1 2 1 4 g i v e , t c p 哈尔滨工程大学硕士学位论文 x - k a z a a , t c p o x 2 7 0 0 0 0 0 0 2 9 8 0 u d p o x 2 8 0 ( ) 0 0 0 0 2 9 0 0 u d p o ) 【2 9 0 0 0 0 0 0u d p 0 x c 0 2 8 ,0 x c l ( 5b y t e s ) , u d p 0 x 2 a ( 3b y t e s ) u d p 4 6 6 1 - 4 6 6 e d o n k e y o x e 3 0 x c 5t c p ,l j d p 5 “s s e n d , t c p s s e a r c h ”, t c p $ c o n n e c t 。 t c p $ g e t t c p s m y n i c k , t c p ”$ d i r e c t i o n ”, t c p4 1 l d i r e c t c o n n e c t $ h e l l o , t c p4 1 2 $ q u i t , t c p s to c k ,t c p s t :e , t c p $ m y l n f o 。 t c p ”$ s r ”s p i n ”u d p 与基于端口的识别方法相比,上述方法能够识别出使用可变端口的应用 协议,提高了其结果的准确性,例如在同样情况下,通过基于内容分析识别 应用协议的方法是仅仅采用端口进行识别的方法得到结果的几倍。但是经过 分析不难发现,这一方法存在下述一些问题: 只能针对已知数据格式的应用协议进行识别,这使得每出现一种新的应 用协议,就需要修改上述实现,因而造成其扩展性不好。 对用户数据的检查不符合i n t e r n e t 的基本原则,并且由于诸如法律、个 人隐私等原因,检查用户数据在许多情况下几乎是不可能的。 由于需要对分组内部数据进行全面的检查分析,使得其实现效率不是很 t - 两。 1 2 哈尔滨工程大学硕士学位论文 随着技术的发展,一些应用协议开始以密文方式进行数据传输,面对这 种情况用户数据识别方式则完全无能为力。 上述种种原因导致用户数据识别方法的通用性十分有限,而且,随着应 用协议的不断发展,这种识别方法也会与通过固定端口进行识别的方法相类 似,逐渐不适应实际的需要,因此有必要找到其他方法对应用协议进行较为 精确的识别。 通过分析端口识别法和基于内容的应用协议分析法可以发现,尽管两者 的实现机理完全不同,但是其基本思想均是基于应用协议的一些外在特征, 并且这些外在特征是可以隐藏的,_ 旦出现上述情况,这些识别方法就不再 适用。而且,上述两种方法只能识别已知协议,一旦出现一种新的协议,则 必须修改上述识别方法才能对其进行识别,这限制了它们的应用范围。因此, 为了能从根本上解决这些问题,必须利用其它方法对应用协议进行识别。 2 2 基于行为的应用协议分析研究现状 对于上节中提出的一些基于内容的应用协议分析解决不了的问题,例如 对未知协议以及对传输的数据内容进行了加密的应用协议的无法识别等问 题i 可利用基于行为的应用协议分析方法。 对于基于行为的应用协议分析方法,主要应用在对当今流行p 2 p 应用协 议的识别上。同其他应用协议相比,p 2 p 协议具有以下特点: p 2 p 协议的传输端口可以随意的指定,这使得基于端口的应用协议识别 方法完全失效。 由于当今p 2 p 软件的流行,使得不断有新的p 2 p 协议产生,并且已有的 p 2 p 协议为了改进其自身的缺陷也在大幅度的发生改变,这给基于内容的应 用协议分析方法带来了很大的负担。 p 2 p 协议的内容数据很多是以数据加密或者压缩的方式进行传输的,这 使得对于协议的数据内容无法进行识别,对基于内容的应用协议方法来说是 无法进行分析的。 2 2 1 连接模式识别法 该类方法利用网络流量的流量特征如p 地址、端口数量、报文长度等信 1 三i 哈尔滨工程大学硕士学位论文 息而非协议特征字来检测p 2 p 流量的方法 2 2 【2 3 2 4 1 1 2 5 。与上一种方法相比,基于 流量特征的应用协议分析方法能够对加密的流量以及内容特征未知的p 2 p 流 量进行分析。而且,在大规模流量环境或安全网络中,出于对安全或网络性 能的考虑,一般不允许部署检测协议内容的网络设备,从而使得基于协议内 容检测的方法不适用于绝大部分这种网络,而基于流量特征的方法不会有这 个障碍。 韩国的j a m e s w o nk i h o n g 等人于2 0 0 3 年提出一种基于传输层特征的p 2 p 流量检测算法,该算法的主要思想是通过数据的交互特征来准确的识别出 p 2 p 数据流量,例如w e b 流量常常通过基于端口8 0 或8 0 8 0 的h t t p 协议产 生,有些是通过端口号为4 4 3 的h t t p s 协议而产生【:6 1 。这些由w e b 服务器 和客户端所产生的流量是非常明显的,在流量数据中源端口或目的端口号为 8 0 ,8 0 8 0 ,或4 4 3 的数据即可视为是w e b 的数据流量。而在p 2 p 数据流量中, 端口号要比w e b 复杂的多。p 2 p 数据流量使用大于1 0 2 4 的端口号并且这些 端口号是动态生成的。如果所有的p 2 p 数据流量能够通过一个完整的范围流 量被选择出来,然后对不同的p 2 p 协议进行分组,那么p 2 p 的流量识别将会 非常准确。为了实现这一目的算法共有四个主要部分组成: 第一阶段的目的是构造一个应用层协议端口表( a p t ) ,表结构如下所示。 表2 2 应用层协议端口表( a p t ) t c pu d p a p p l i c a t i o n r e p r e s e n t a t i v er e p r e s e n t a t i v e w j i i k n o w n n a m ew e l l - k n o w np o r t s p o r tp o r tp o r t s m s n 1 8 6 3 1 8 6 3 ,6 9 8 1 - 6 9 9 0 ,1 4 5 9 4 m e s s e n g e r y a h o o 5 1 0 l 5 1 0 1 ,5 0 5 0 m e s s e n g e r a i m i c q 5 1 9 05 1 9 0 s o r t b a d a2 2 3 2 2 2 2 3 2 2 ,7 6 7 5 ,7 6 7 6 ,7 6 7 7 2 2 3 2 1 2 2 3 2 1 ,7 6 7 4 e d o n k e y 4 6 6 1 4 6 6 1 ,4 6 6 2 ,6 6 6 7 s h a r e s h a r e6 3 9 96 3 9 9 6 3 8 8 ,6 7 3 3 ,6 7 7 7 1 4 哈尔滨工程大学硕士学位论文 a p t 楚通过离线分析各种p 2 p 数据包来得到的,a p t 包含p 2 p 应用程序 的名字,这些应用程序常用的端口号和协议类型。这些信息被用来在p 2 p 数 据判断阶段来分析爨该p 2 p 流量是属予哪种p 2 p 应用软俘的。 第二阶段通过数据包采集器来捕获流量的信息,信息由五元组组成分别 为:源p 地址,源端盈号,层的i p 地址,露的端口号和传输层协议类型。 由于p 2 p 流量数据包的源端口或目的端口号通常大于1 0 2 4 ,所以将具有这种 特征的数据包提取出来。 第三阶段的主要工作是建立一个流量关联图( f r m ) 。大多数的p 2 p 应 用软件利用多个连接来提供各种的功能,所以在数据流量中有可能发现特征 不同的数据产生于相同的p 2 p 应用软件。 最后一个阶段的工作
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度办公空间设计与消防设备一体化安装服务合同
- 2025年度音乐剧全国巡演演员培训及后勤保障服务合同
- 2025年教育机构培训场地租赁服务合同范本
- 2025年章琦张伟婚姻解除及共同财产分割详细协议书
- 2025学年度学校农田租赁与特色农产品展销中心建设合同
- 2025年度精装修房屋租赁及装修升级服务协议
- 2025年高级厨师劳动合同及职业技能等级评定标准
- 2025年智能驾驶技术专利保护与商业秘密保密合同
- 2025年高品质玻璃钢储罐工程设计与改造升级合同
- 2025年高端商务大厦物业清洁保养与安全维护合同
- 2025年新版小学语文新课标标准课件
- 《功能高分子材料》课程教学大纲
- 企业反恐防暴安全
- 高标准农田建设项目方案投标文件(技术方案)
- 《大学生求职面试礼仪指南课件》
- 私募股权投资基金(双GP)合作框架协议书范本
- 城市经理人合作合同范本
- 2025年度合伙人股权代持风险防范及解除协议
- 电网工程设备材料信息参考价(2024年第四季度)
- 上海(虹口宝山黄浦松江)2024-2025学年上学期七年级英语期末统考卷(含笔试答案无听力答案、原文及音频)
- 临床医学课程思政案例
评论
0/150
提交评论