已阅读5页,还剩62页未读, 继续免费阅读
(计算机应用技术专业论文)网络内容审计系统关键技术研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
d a t eo fs u b m i s s i o n :m a r c h ,2 0 10 d a t eo fo r a le x a m i n a t i o n : m a r c h , 2 0 10 u n i v e r s i t y :h a r b i ne n g i n e e r i n gu n i v e r s i t y 一r 、 | 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由 作者本人独立完成的。有关观点、方法、数据和文献的引用己在 文中指出,并与参考文献相对应。除文中已注明引用的内容外, 本论文不包含任何其他个人或集体已经公开发表的作品成果。对 本文的研究做出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 作者( 签字) : 司纭垆 日期:印肜年3 月 日 哈尔滨工程大学 学位论文授权使用声明 本人完全了解学校保护知识产权的有关规定,即研究生在校 攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨 工程大学有权保留并向国家有关部门或机构送交论文的复印件。 本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据 库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本 学位论文,可以公布论文的全部内容。同时本人保证毕业后结合 学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈 尔滨工程大学。涉密学位论文待解密后适用本声明。 本论文( 口在授予学位后即可口在授予学位1 2 个月后 口 解密后) 由哈尔滨工程大学送交有关部门进行保存、汇编等。 作者( 签字) :司嘲华导师( 签字) :习锨 日期:1 力b 年乡月日砂d 年3 月 日 泠i r 1 ; j l 哈尔滨工程大学硕士学位论文 摘要 在科学技术日新月异发展的今天,随着互联网中各种应用日益丰富,网 民希望计算机网络是一个有利于身心健康发展的网络,避免看到不良信息; 公司的管理者希望避免员工在网络上泄露公司的机密信息;国家的政府部门 更是希望在网络内容的层面上对网络进行审计,防止反动言论和色情资料等 影响国家和社会稳定的信息出现在网络中,因此,对网络内容审计的需求越 来越大。针对网络内容审计系统关键技术进行研究,并实现网络内容审计系 统是非常必要的。 针对网络内容审计系统关键技术的研究与实现,本文在国内外相关研究 的基础上,重点研究了以下两个关键技术与实现: 现有网络内容审计系统,一般在网络协议还原时性能比较低,不能满足 高速网络流量下内容审计的需要。本文研究了网络协议并行还原技术,提高 了网络协议还原的性能,并通过实验证明了网络协议并行还原的高效和优势, 说明网络协议并行还原技术适合应用于网络内容审计系统,使其能够满足高 速网络流量下内容审计的需要。 在网络内容审计系统中,需要处理大量重复访问的u r l 信息。而现有网 络内容审计系统中,针对重复u r l 的过滤和判定,要么受限于存储空间,要 么受限于过滤速度。本文研究的基于重复访问判定的u r l 过滤技术,采用基 于m m a p 改进的文件目录寻址法,在缩小u r l 存储空间的同时,提高了u r l 去重的速度。将基于m m a p 改进的文件目录寻址法和基于哈希表的u r l 过滤 器结合应用于网络内容审计系统中,能够提高重复u r l 判定和过滤的速度。 最后,本文实现了一个网络内容审计系统。理论和实践均证明,应用本 文研究的关键技术,能够提高网络内容审计系统的性能,使其能够满足高速 网络流量下内容审计的需要。 关键词:内容审计;并行处理;协议还原;u r l 过滤;u r l 去重 囊 。 -【 a b s t r a c t a sv a r i o u sa p p l i c a t i o n si nt h ei n t e r n e t b e c o m ei n c r e a s i n g l ye n r i c h e d ,t h e i n t e r a c tu s e r sh o p et h a tt h ei n t e r a c tc a nb ep r o v i d e da san e t w o r kc o n d u c i v et o t h ep h y s i c a la n dp s y c h o l o g i c a ld e v e l o p m e n tb yw a yo fa v o i d i n gs e e i n gb a d i n f o r m a t i o n ;a n dt h ec o m p a n y sm a n a g e r sh o p et oa v o i dd i s c l o s u r ec o n f i d e n t i a l i n f o r m a t i o no nt h ei n t e r n e tb ye m p l o y e e s ;t h eg o v e r n m e n tf b l t h e re x p e c t st h a t a u d i tt ot h en e t w o r kc a nb ec a r r i e do u ta tt h el e v e lo f w e bc o n t e n ta st ok e e pt h e t h er e a c t i o n a r yr e m a r k sa n dp o r n o g r a p h yt h a tw i l lp r o d u c eb a di m p a c to nn a t i o n a l a n ds o c i a ls t a b i l i t yo u to ft h ei n t e r n e t h e n c e ,t h ed e m a n df o rw e bc o n t e n ta u d i ti s b a d l yn e e d e d i ti sp a r t i c u l a r l ye s s e n t i a lt o r e s e a r c ho nt h ek e yt e c h n o l o g i e si n r e g a r dt ot h ew e bc o n t e n ta u d i ts y s t e m a n dt h e na c t u a l i z ei t a i m i n ga tr e s e a r c ha n di m p l e m e n t a t i o l ao fk e yt e c h n o l o g i e so fw e bc o n t e n t a u d i ts y s t e m ,t h i sp a p e ro nt h eb a s i so fr e l a t e dr e s e a r c ha t h o m ea n da b r o a d , f o c u s e so nt h ef o l l o w i n gt w ok e yt e c h n o l o g i e sa n di m p l e m e n t a t i o n s : h l 吐1 ee x i s t i n gw e bc o n t e n ta u d i ts y s t e m ,t h ep e r f o r m a n c eo fn e t w o r k p r o t o c o la s s e m b l yi sr e l a t i v e l yl o wi ng e n e r a l ,a n di t c a n n o tm e e tt h en e e do f c o l a t e n ta u d i tu n d e rt h eh i g h - s p e e dn e t w o r kt r a f f i c t h i sp a p e r s t u d i e st h e t e c h n o l o g yo fn e t w o r kp r o t o c o l s i n p a r a l l e l t oa s s e m b l et o i m p r o v e t h e p e r f o r m a n c eo ft h en e t w o r kp r o t o c o la s s e m b l y , a n dt h e np r o v e so fi t se f f i c i e n c y a n da d v a n t a g et h r o u g he x p e r i m e n t s ,a n df u r t h e ri n d i c a t e st h ep a r a l l e la s s e m b l y t e c h n o l o g yo fn e t w o r kp r o t o c o l si ss u i t a b l ef o rw e bc o n t e n ta u d i ts y s t e ma n dc a n m e e tt h ec o n t e n ta u d i tu n d e rt h eh i g h s p e e dn e t w o r kt r a f f i cn e e d s t h ew e bc o n t e n ta u d i ts y s t e mn e e d st oh a n d l eal a r g en u m b e ro fr e p e a t e d v i s i t st ou r l a n dt h ee x i s t i n gw e bc o n t e n ta u d i ts y s t e mf o rr e p e a t e du r l f i l t e r i n ga n dd e t e r m i n i n gi sl i m i t e db y t h es p a c es t o r a g eo rl i m i t e db yt h ef i l t r a t i o n r a t e t h i sp a p e rm a k e sr e s e a r c h e so nt h eu r lf i l t e r i n gt e c h n o l o g yb a s e do nt h e j u d g m e n to fr e p e a tv i s i t sa n da p p l i e sf i l ed i r e c t o r ya d d r e s s i n gm e t h o di m p r o v e d 一 、l卜i卜 , j 哈尔滨- t 程大学硕士学位论文 m m a pt oi ts oa st oi nc o n s e q u e n c en a r r o wt h eu r ls t o r a g es p a c ed o w no n t h e o n eh a l l da n di n e a s et h er a t eo fd u p l i c a t e du r lr e m o v a lo nt h eo t h e nt h a t a p p l i e sm m a p b a s e df i l ed i r e c t o r yi m p r o v e da d d r e s s i n gm e t h o da n dh a s ht a b l e b a s e du r lf i l t e rt ow e bc o n t e n ta u d i ts y s t e m ,c a ni m p r o v et h e r a t eo ft h e d u p l i c a t e du r lj u d g m e n ta n df i l t e r i n g f i n a l l y , t h i sp a p e ri m p l e m e n t sa w e bc o n t e n ta u d i ts y s t e m b o t ht h et h e o r y a n dt h ep r a c t i c eh a v ep r o v e dt h a tt h ea p p l i c a t i o no ft h ek e yt e c h n o l o g i e si nt h i s s t u d yc a ni m p r o v e t h ep e r f o r m a n c eo fw e bc o m e n ta u d i ts y s t e mw h e r e b ym e e t t h e d e m a n d so ft h ew e bc o n t e n ta u d i tu n d e rt h eh i g h - s p e e dn e t w o r kt r a f f i c k e yw o r d s :c o m e n ta u d i t ;p a r a l l e lp r o c e s s i n g ;p r o t o c o la s s e m b l y ;u r lf i l t e r i n g ; d u p l i c a t e du r l r e m o v a l 一i 一 j 逗 j p 分 c - : 叫 4 3 基于重复访问判定的u r l 过滤技术方案设计3 0 4 3 1 基于m m a p 的改进文件目录寻址法设计3 0 4 3 2 基于位图法哈希表的u r l 过滤方案设计3 l 4 3 3 基于b l o o mf i l t e r 算法的u r l 去重方案设计”3 2 4 4 实验结果与分析3 3 4 4 1 实验步骤3 3 4 4 2 实验结果一o 3 3 4 4 3 实验对比分析3 6 4 5 本章小结”3 8 第5 章网络内容审计系统设计与实现3 9 5 1 引言“3 9 5 2 系统主要功能与总体架构“3 9 5 2 1 系统主要功能3 9 5 2 2 系统总体架构3 9 5 3 系统模块设计与实现4 l 5 3 1 系统模块汇总4 1 5 3 2 主要模块设计与接口4 3 5 4 网络协议并行还原模块实现4 3 5 4 1 缓冲区管理类设计方案4 3 5 4 2 并行t c p 数据重组详细实现”4 4 5 4 3 线程池实现接口4 7 一 谴 一, 哈尔滨工程大学硕士学位论文 5 5 基于重复访问判定的u r l 过滤模块实现4 7 5 5 1 基于m m a p 的改进目录寻址法u r l 去重设计4 8 5 5 2 基于哈希表的u r l 过滤设计4 9 5 6 系统测试与性能分析4 9 5 6 1 系统功能测试4 9 5 6 2 系统性能分析5 0 5 7 本章小结。5 1 结论5 3 参考文献5 4 攻读硕士学位期间发表的论文和取得的科研成果5 8 致谢。5 9 们关注的焦点。从本质上说,网络安全就是网络上的信息安全;从广义上说, 网络安全的研究领域包括网络上信息的完整性、可用性、真实性、保密性和 可控性的相关理论和技术【l 】。防火墙是目前比较成熟且应用最广泛的网络安 全解决方案,能够根据用户制定的过滤规则,对网络数据包进行过滤。然而, 这种过滤一般只是针对端口和口地址的过滤,很少涉及网络信息内容的过 滤。当今社会人们对网络安全的需求也越来越高:网民希望计算机网络是一 个有利于身心健康发展的网络,避免看到不良信息;公司的管理者希望避免 员工在网络上泄露公司的机密信息;国家的政府部门更是希望在网络内容的 层面上对网络进行审计,防止反动言论和色情资料等影响国家和社会稳定的 信息出现在网络中。以上这些需求单纯靠简单的防火墙手段已经不能满足, 而需要功能更加强大的网络内容审计系统对网络内容信息进行监控。在这个 时代背景下,对网络内容审计系统关键技术的研究与实现就变得越来越重要。 另外,现有的网络内容审计系统一般只适合应用于家庭和企业网络中,处理 性能不能满足高速网络流量下内容审计的需要。 因此,本文的研究目的在于研究实现网络内容审计系统相关关键技术, 提高网络内容审计系统的性能,使其能够满足高速网络流量下内容审计的需 要。 1 2 国内外研究现状 正是因为网络内容审计越来越重要,并日益引起网络管理员和企业领导、 1 t 哈尔滨丁程大学硕士学位论文 甚至政府部门的高度重视,国内外的科学研究工作者都对其投入了极大的精 力进行研究。目前,针对网络内容审计系统的研究在总体理论上已经有了成 型的概念,而且已经出现了相关的成型系统。国内外已有多种网络内容审计 系统,可以在一定程度上对网络信息的内容进行有效审计。当然,现有成型 系统在某些方面( 比如处理性能等方面) 依然存在不足,需要进一步研究相 关关键技术来进行改进( 如提高性能) ,这也正是本文继续研究此课题的原因。 下面从国内和国外两方面介绍网络内容审计系统关键技术的研究现状。 从国外的研究来看,互联网自2 0 世纪9 0 年代中期商业化运作后,随着 互联网在全球迅速的发展和壮大,伴随而来的负面影响也日渐明显。近年来, 互联网络内容所衍生的问题,逐渐影响到人们的现实生活,对人们产生了很 大的影响。因此,对互联网内容的规范与管理已被各国政府与组织所重视, 互联网的发展与管理应达到平衡已成为普遍共识,而在互联网发展初期时政 府态度是政府不应对互联网信息传播多加干涉。在网络内容审计系统中,比 较著名的有美国联邦调查局f b i ( f e d e r a lb u r e a uo f i n v e s t i g a t i o n ) 开发的电子 邮件监视工具“d c s l 0 0 0 ”( 原名“食肉猛兽”c a r n i v o r e ) ,它本来是用于监测毒 品走私犯罪活动的,对犯罪嫌疑人的电话等通信进行审计,后来应用到互联 网中,就对电子邮件等网络信息内容进行审计,然而在应用过程中,审计对 象不仅有犯罪嫌疑人,也包括了普通公民【2 】。美国国家安全局和英国军情五 处等机构所采用的最强大的监控系统艾克龙系统,可以随时监听电话内 容,记录并审计宾馆旅客和飞行乘客资料,监视信用卡支付,甚至还记录了 公民在美国公共图书馆的借书资料1 3 1 。澳大利亚政府实施l i v ep i l o t 计划,实 行互联网服务提供商级别的内容过滤,来支持全方位的网络安全的措施,包 括法律和教育等信息内容的监控【4 】。韩国已经于2 0 0 8 年开始实行网络实名 制,用来对网络内容进行更加有效的审计。可见,国外对于网络内容审计系 统的研究和应用是非常多的,政府机构也对此非常重视,加大了投入和关注。 从国内的研究情况来看,目前从事信息与网络安全技术研究和产品开发 与销售的企业越来越多,同时各种信息安全研究机构也在不断壮大,国内 些重点大学纷纷成立信息安全研究中心。这些企业和科研机构以前主要是从 事网络系统安全产品的开发和生产,产品线主要集中在防火墙系统、入侵检 测系统、漏洞扫描系统和防病毒系统等信息安全产品,随着网络内容审计的 哈尔滨丁程大学硕士学位论文 需求日益引起人们的重视,他们也纷纷加入了网络内容审计系统研发的大军。 首先来看一下国内网络内容审计系统的产品。湖北省武汉市硅丰科技发 展有限公司开发的“硅丰佳盾互联网内容过滤系统( g u a r d f o r c e ) ,是联合华 中科技大学推出的全新互联网内容过滤系统软件,g u a r d f o r c e 是一套以旁路 方式监听网络内容的网络内容过滤审计软件,同时还有记录客户端上网的功 能等等。北京市盈众汇智软件有限公司开发的网清网络内容监控系统,是新 一代的网络内容智能监控系统,网清首创的“语义关联深度搜索算法引擎”优 化平衡了检索精度和性能,针对网络提供了全面高效的内容监控手段,采用 自动机的内容过滤方法和先进的集中管理模式,还提供了自动化的关键词发 布和系统升级等功能,使网络内容审计的工作更加高效和方便。另外,上海 市金诺网络安全技术发展股份有限公司的上网行为管理系统( e m ) 和北京 市天融信公司的“网络卫士”信息审计系统也都提供了应用层数据的内容审计 功能。这些网络内容审计系统产品是当前的国内相关研究成果的体现。 除公司外,国内很多大学等科研机构都对网络内容审计系统进行了大量 的研究。电子科技大学的万国根博士实现的面向内容的网络安全监控系统 c b n s m s ( c o m e mb a s e dn e t w o r ks e c u r i t ym o n i t o r i n gs y s t e m ) 就是一种针对 网络传输内容与行为进行分析审计和监控的专用系统,他提出了网络安全审 计系统的相关模型,主要有结构模型、数据交换模型和管理模型,而且提出 了实现负载均衡的数据分流算法,将大流量的网络数据分流成多个l o o m 的 网络流量,并改进了a c b m 算法,提出了a c b m h 算法,提高了关键字的 匹配速度,提高了c b n s m s 的系统性能【5 】。南京理工大学的代六玲博士也对 互联网内容监管系统关键技术进行了研究,设计了高效的多关键字匹配算法 q m s ,并实现了主动型网络内容监管系统,达到了非常好的审计效果f 6 】。 1 3 论文研究内容 从国内外的研究现状来看,目前网络内容审计系统产品大多是针对家庭 用户和企业网络,一般无法满足骨干高速网络流量下网络内容信息审计的需 要。这些现有产品系统大多数只支持u r l 过滤、p 过滤和端1 :3 过滤以及上 网行为记录等功能,同时现有的网络内容审计系统一般缺乏扩展性,无法针 对不同的网络环境进行灵活的配置。另外,目前大多数网络内容审计系统, 哈尔滨工程大学硕士学位论文 采用被动模式的系统比较多,主动模式的内容审计系统相对来说比较少。所 谓被动模式,是指网络内容审计系统以监听网络镜像的方式捕获网络数据包, 对其内容进行审计的模式。而主动模式,是指网络内容审计系统使用网络爬 虫等方式,主动去网站等网络资源上去获取信息,并对其内容进行审计。 本文对网络内容审计系统的关键技术进行研究的目的在于提高系统性 能,使其能够应用于高速网络流量下的内容审计。因此,本文研究的关键技 术是影响网络内容审计系统性能的两个关键技术,进行了重点深入地研究。 首先,在采用被动模式的网络内容审计系统中,网络协议还原速度的快 慢,直接影响系统的处理性能,如果网络协议还原非常低效,将成为系统的 瓶颈。为了满足高速网络流量下内容审计的需要,在系统捕获数据包后,如 何快速地还原重组网络数据包成了首先要解决的问题。一般而言,并行方式 的处理速度快于串行方式处理,而大多数网络内容审计系统一般都是使用串 行数据流重组的方案。本文为了提高审计系统的处理性能,研究了网络协议 并行还原技术。在采用被动模式的网络内容审计系统中,应用网络协议并行 还原技术能明显的加快处理速度,因而这是本文的重点研究内容之一。 其次,无论是被动模式还是主动模式的网络内容审计系统,都需要涉及 对重复统一资源定位符u r l ( u n i f o r mr e s o u r c el o c a t o r ) 的过滤与处理。在 被动模式的网络内容审计系统中,会捕获到大量重复的热门u r l ,如果能够 快速识别出重复u r l ,免去网页内容解析的步骤,将大大提高网络内容审计 系统的处理性能。而主动模式的网络内容审计系统,更是需要对已经访问的 u r l 进行标识。因此,本文研究了基于重复访问判定的u r l 过滤技术,提 高了重复u r l 识别和去重的速度,进而提高了网络内容审计系统的性能。 最后,应用本文研究的网络内容审计系统的关键技术,实现了网络内容 审计系统,并进行了相关实验来验证关键技术。通过实验证明,本文将所研 究的网络协议并行还原技术和基于重复访问判定的u r l 过滤技术应用于网 络内容审计系统后,能够提高网络内容审计系统的性能,使其能够满足高速 网络流量下的内容审计的需要。另外,本文实现的网络内容审计系统是被动 模式和主动模式相结合的,扩大了网络内容审计的广度,这也是本研究所做 的工作之一。 4 哈尔滨t 程大学硕士学位论文 1 4 论文组织结构 本文以网络内容审计需求越来越大的今天为时代背景,介绍了网络内容 审计系统关键技术的研究现状和相关产品,重点研究了网络协议并行还原技 术和基于重复访问判定的u r l 过滤技术,最终实现了网络内容审计系统,证 明了本文所研究的关键技术能够提高网络内容审计系统的处理性能。 本文具体的组织结构安排如下: 第1 章是绪论,介绍了课题来源及目的意义和国内外在网络内容审计系 统关键技术研究与实现领域的研究现状,然后是论文的研究内容和组织结构。 第2 章是网络内容审计系统关键技术中网络协议并行还原技术和基于重 复访问判定的u r l 过滤技术的相关技术背景、国内和国外的研究现状、相关 关键技术和发展趋势分析。 第3 章是网络协议并行还原技术研究,介绍了网络协议并行还原技术的 总体技术方案和关键技术方案,并通过实验证明了网络协议并行还原技术优 于串行还原技术,能够提高网络内容审计系统的性能。 第4 章是基于重复访问判定的u r l 过滤技术研究,指出了文件目录寻址 法的不足之处,并改进了文件目录寻址法,介绍了基于m m a p 改进的文件目 录寻址法的整体方案和流程,也实现了基于位图法哈希表的u r l 过滤方案和 基于b l o o mf i l t e r 算法的u r l 去重方案,最后通过实验对比,验证了基于 m m a p 改进的文件寻址法在u r l 去重中的效果,证明了此方案的可行性。 第5 章是网络内容审计系统的设计与实现。首先介绍了网络内容审计系 统的主要功能和总体架构,以及系统模块设计与实现,重点介绍了网络协议 并行还原子模块的实现和基于重复访问判定的u r l 过滤子模块的实现。然后 构建了一个网络实验环境,利用网络内容审计系统对此网络的内容进行审计, 验证了系统的有效性。最后对系统的性能进行了测试,验证了本文所研究的 关键技术能够有效地提高网络内容审计系统的性能,达到了预期的效果。 最后对本文的研究工作进行总结,分析了本文研究的主要内容和创新点, 分析了当前研究工作的不足之处,并对本领域未来的发展方向做出展望。 哈尔滨工程大学硕士学位论文 第2 章网络内容审计系统关键技术 2 1 引言 网络内容审计系统处理的数据信息来源为网络,只能通过被动模式监听 网络镜像的方式监听网络数据包,或者采用主动模式使用网络爬虫等方式, 模拟应用层协议主动去网站等网络资源获取网络数据来对其进行内容审计。 在采用被动模式的网络内容审计系统中,网络协议还原速度的快慢,直 接影响系统的处理性能。本文为了提高网络内容审计系统网络协议还原的处 理性能,进行了网络协议并行还原技术的研究。所谓网络协议还原,是指网 络协议的描述类似于数据结构中栈的形式,根据互联网协议栈中各个协议规 定的格式,将捕获到的网络协议报文按网络协议表示的数据还原成日常的信 息描述。由于t c p i p ( t r a n s m i s s i o nc o n t r o lp r o t o c o l i n t e m e tp r o t o c 0 1 ) 协议 簇被互联网广泛使用,因此针对t c p i p 协议簇进行还原的分析技术是本章的 一个研究方向,即将i p 数据流按照t c p 协议格式进行t c p 数据流重组。 无论是被动模式还是主动模式的网络内容审计系统,都需要涉及对重复 u r l 的过滤与处理。在被动模式的网络内容审计系统中,会捕获到大量重复 的热f - ju r l 。如果网络内容审计系统不处理重复u r l ,而只认为它是普通的 u r l ,则要经过应用层协议还原的完整步骤,得到网页的数据信息,然后对 此数据信息进行关键字查找匹配,审计其内容是否含有敏感信息,由此带来 的开销会比较大,而且这是可以避免的,只要能够快速识别出重复u r l ,完 全可以免去协议还原和关键字匹配等步骤,直接根据此u r l 上次分析的结果 选择放行或写日志记录或进行阻断连接等操作,这将大大提高系统的处理性 能,有利于将其应用于高速网络流量下的内容审计。在主动模式的网络内容 审计系统中,更需要对已经访问过的u r l 进行标识,以避免重复访问同一个 网址,进而去主动探测更多的网页来审计其内容。 因此,本文主要研究了网络内容审计系统中的网络协议并行还原技术和 基于重复访问判定的u r l 过滤技术,来提高网络内容审计系统的性能。 6 哈尔滨工程大学硕士学位论文 2 2 网络协议并行还原技术 2 2 1 网络协议还原技术背景 随着网络内容审计系统越来越受到重视,国内外对于网络报文捕获技术 的研究也越来越多。报文捕获是实现网络内容安全审计系统的关键技术之一, 也是网络协议还原的前提条件。高速网络流量环境对传统网络报文捕获技术 的实现提出了挑战。从国外的研究来看,由美国伯克利大学l a w r e n c e 国家实 验室的v a nj a c o b s o n 、c r a i gl e r e s 和s t e v e nm c c a n n e 编写的数据包捕获开发 包l i b p c a p ( t h ep a c k e tc a p t u r el i b r a r y ) 得到了最广泛应用,该开发包支持 l i n u x 、s o l a r i s 和b s d 操作系统,是一个与操作系统无关的网络数据包捕获 开发包,是一个封装比较好的函数编程接口,隐藏了许多操作系统的细节, 可以捕获网络上的所有数据包m 。l i b p c a pm m a p 8 1 是美国l o sa l a m o s 国家实 验室编写的开发包,它改掉了l i b p c a p 中存在两次内存拷贝的问题,使用 m m a p ( ) 函数实现内存映射,将内核空间中的数据包缓冲区映射到用户空间, 避免了这次拷贝数据带来的消耗,而且还实现了用一个循环缓冲区来存储网 络数据包,可以实现缓冲区的循环利用,所以进一步提高了捕获数据包的性 能【9 】。然而,文献 8 】也通过实验证明了l i b p c a p 相比 性能得m m a pl i b p c a p 到了提升,但仍然不是最好的选择,应该有性能更好的处理方案。数据包从 网络设备到用户程序空间传递的过程中,减少数据拷贝次数,减少系统调用, 实现c p u 的零参与,彻底消除c p u 在这方面的负载,这就是零拷贝的报文 捕获 1 0 1 ,这个方案与l i b p c a pm m a p 有相似的地方,但它提高网络捕获数据 包的性能更大,因此在国内外都有非常广泛的研究。美国莱斯大学( r i c e u n i v e r s i t y ) 的r o m e rg i l 和中国哈尔滨工业大学的王佰玲等人,都研究了零 拷贝技术。实现零拷贝技术用到的最主要技术是直接内存访问d m a ( d i r e c t m e m o r ya c c e s s ) 数据传输技术和内存区域映射技术。零拷贝技术首先利用 d m a 技术将网络数据包直接拷贝到系统内核预先分配的缓冲区中,而在 d m a 数据传输过程中,只有数据传送开始和结束时需要c p u 的参与,其余 时间都避免了c p u 的参与,由d m a 控制器控制数据的传送,提高了性能【1 1 1 ; 另外,将系统内核中存储数据报的内存缓冲区映射到应用程序空间,从而减 少了系统由内核空间向用户空间的内存数据拷贝,同时也减少了系统调用的 哈尔滨丁程大学硕七学位论文 开销【1 2 j 。由此可见,采用零拷贝技术的网络数据包捕获方案能够提高网络内 容审计系统捕获数据包的处理性能,达到了比较好的效果。 由于应用零拷贝技术能够提高报文捕获的性能,如果协议还原处理数据 包速度低于捕包速度,将使网络协议还原成为网络内容审计系统的瓶颈。在 这个背景下,研究网络协议还原技术,并提高其处理性能是非常必要的。 t c p i p 协议还原的主要采用协议栈模拟技术,即通过享有网络知识圣经 美誉的r f c ( r e q u e s tf o rc o m m e n t s ) 文档描述的协议工作过程,使用程序 来实现协议的还原。r f c 意即“请求注解”,包含了关于互联网的几乎所有重 要的文字资料,是互联网工程任务组i e t f ( t h ei n t e m e te n g i n e e r i n gt a s k f o r c e ) 的描述方法、行为和研究创新,适用于互联网和基于互联网工作的系 统发表的备忘录1 1 3 。在捕获网络数据包之后,根据协议栈对齐进行分析,如 果与现在协议描述过程吻合,就可以实现数据还原。网络硬件设备的飞速发 展,极大地提高了网络性能,网络带宽越来越大,因此纯软件的协议还原分 析技术收到了极大的挑战,所以共享存储多处理器平台( 处理器数量大于2 ) 1 1 4 等方案出现,然而这样的方案需要很高的硬件代价。当前并不是所有的应 用环境都可以支付得起高配置的硬件平台,如果能在单机平台上使用先进的 网络协议还原技术,并应用到网络内容审计系统中,将具有广阔的应用前景。 2 2 2 网络协议还原技术研究现状 r a f a lw o j t c z u k 设计实现的l i b n i d s 是早期比较不错的网络协议还原开发 包,它是一个网络入侵检测系统的组成部分,它模拟口堆栈,提供i p 分片 重组和t c p 数据流重组的功能,而且提供t c p 端口扫描检测的功能旧。t c p 数据流重组功能,这是l i b p c a p 没有的,使t c p 数据流重组,将网络协议进 行还原,可以对基于t c p 连接的应用层协议进行还原与分析【1 6 j 。l i b n i d s 的 早期版本采用串行方式还原协议,但凭借它在t c p 数据流重组和网络协议还 原中的强大功能,成为网络安全开发领域中应用最为广泛的开发包之一,被 很多成型的网络内容审计系统产品所采用。 在网络协议还原技术的研究中,哈尔滨工业大学的罗浩在网络入侵检测 系统的网络协议还原技术中提出并实现了一套多线程并行的t c p i p 协议还 原方案( p a c t n i d s l i b ) ,该开发方案提高了网络入侵检测系统在对称多处理器 哈尔滨t 程大学硕士学位论文 体系结构s m p ( s y m m e t r i cm u l t i p r o c e s s o r ) 下的处理性能,同时还极大优化 了s m p 结构下的负载均衡和并发临界区等问题,取得了明显的效果【| 4 】。中 国科学院计算技术研究所的张志斌提出并实现了一种基于自动机分解的网络 协议并行处理策略,解决了并行体系结构中线程间共享资源的竞争问题,利 用模拟协议自动机的方案,使用有限自动机分解的方法将协议自动机分成若 干个子自动机后并行起来处理,提高了效率【l7 1 。由此可见,要想提高协议还 原的处理性能,必须采用并行处理来实现,充分利用多核c p u 的带来的优势。 2 2 3 网络协议并行还原相关关键技术 1 、t c p 口协议分析 本章主要研究的是网络协议并行还原技术,这里的网络协议主要是在 t c p i p 协议簇下。在t c p i p 协议簇中,i p 协议是最核心的协议,所有t c p 和u d p 等运输层的协议数据,都以p 数据报格式传输。母协议提供了在主 机之间进行数据报传送的能力,根据其目的主机的p 地址将数据报在网络中 进行路由选择。运输层协议为它的上层应用层提供的是进程之间的通信服务。 计算机网络的运输层有两种主要的协议,一种是面向连接的传输控制协议 t c p ( t r a n s s m i s s i o nc o n t r o lp r o t o c 0 1 ) ,它提供可靠的数据传输,是大部分 i n t e m e t 应用的基础;另一种是无连接的用户数据报协议u d p ( u s e rd a t a g r a m p r o t o c 0 1 ) ,它提供的是一种无连接服务,每个数据包独立传输,在传统的应 用中因为不能像t c p 那样保证数据的可靠传输而应用较少 i s 】。当然,对于实 时性要求比较高的视频和音频等数据的传输来说,由于t c p 重传带来的时延 太大了,所以这类数据的传输一般选择使用u d p 协议,因为u d p 协议不进 行数据确认和重传,所以u d p 协议为互联网上实时视频和音频服务提供了很 好的网络环境f 1 8 】。本文研究的网络内容审计系统审计的应用层协议有h 婶协 议、f t p 协议、t e l n e t 协议、s m t p 协议和p o p 3 协议等,这些都是基于运输层 t c p 协议的。所以需要研究t c p 协议相关知识。在网络协议还原中,需要处 理t c p 协议的各种情况。首先,来看一下t c p 协议中可靠数据传输。t c p 协议采用“带重传功能的肯定确认( p o s i t i v ea c k n o w l e d g e w i t h r e t r a n s m i s s i o n ) ”的技术作为提供可靠数据传输服务的基础,t c p 协议规定 在确认信息中稍带一个分组的序号,来避免由于网络延迟引起迟到的确认和 9 哈尔滨t 程大学硕士学位论文 重复的确认,使接收方能正确将分组与确认关联起来【1 9 】。为了还原运输层的 t c p 协议,还需要研究t c p 协议报文的格式。运输层之间传输的数据单元称 为报文段,t c p 建立连接、传输数据、发出确认、通知窗口大小和关闭连接, 都是通过报文段的交互来实现的;t c p 报文分为两部分,前面是报头,后面 是数据1 1 9 1 。t c p 是一个面向连接的协议,无论哪一方向另一方发送数据之前, 都必须先在双方之间建立一条连接,t c p 使用三次握手来建立连接;t c p 连 接建立起来后,就可以在两个方向传输数据。当t c p 连接需要关闭时,t c p 协议使用修改后的三次握手协议来关闭连接,又称为四次握手【1 9 】。掌握了这 些基础的协议知识,有助于实现对t c p 协议进行还原。 2 、多线程并行协议还原 文献 2 0 】通过实验证明,2 0 0 7 年以前的计算机体系结构和对单核中央处 理器c p u ( c e n t r a lp r o c e s s i n gu n i t ) 的改进,对于提高网络协议分析与还原 性能的效果并不十分明显,没有太大效果。2 0 0 7 年,i n t e l 首先推出多核 c p u 的成型产品之后,处理器的性能终于得到了很大的提高。原来在单核 c p u 时代,处理器也已经支持多线程运算,在逻辑上模拟出多个c p u 内核, 来实现多任务调度和并发处理,但是,处理过程始终由单个c p u 以线程切换 的方式完成;多核c p u 是在一个c p u 内真正意义上实现了多个独立的c p u 内核,并使各个内核通过协作方式实现运算负载的均衡分配【2 l 】。和传统的单 核c p u 比起来,多核c p u 使c p u 的并行处理能力更强,它对多线程的支持 达到了完美的境界,因为它真正实现了多个线程同时运行,能够极大地提高 系统的性能。因此,充分利用多核c p u 带来的优势,采用网络协议并行还原 技术,是进一步提高网络内容审计系统处理速度的前提之一。为了满足高速 网络环境下对t c p 流重组效率的要求,采用多线程的网络协议并行还原技 术。多线程的网络协议并行还原技术可以在不同的层次进行实施,文献 1 4 简单介绍了数据包级、函数级、协议栈层次间和连接级并行报文处理策略。 网络内容审计系统审计的网络应用大多数是基于t c p 协议,而t c p 协议有 着很强的上下文信息和状态信息,如果采用数据包级别的并行还原肯定要处 理多线程间的同步,从而使此方案实现比较复杂而且提升的效率也不高【1 4 】。 相比较而言,采用连接的级别上并行,对于处理同一个t c p 连接的所有数据 包,都会由同一个线程处理,由同一个线程维护连接状态,因此不需要在多 1 0 哈尔滨工程大学硕士学位论文 个线程之间同步,实现相对简单,对效率的提升也会非常大,所以基于t c p 连接级别上的并行方案是一个比较不错的选择。 3 、线程池技术 在传统多线程程序设计中,一般都是接收到一个请求后,就去创建一个 新的线程,让这个新线程去执行相应工作。当此线程执行完毕后,线程就退 出了,这就是“用则创建,用完销毁”的策略。尽管创
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国物流秋招题库及答案
- 正式劳动协议劳动合同
- TCNPHARS 0003-2025 药品检验检测机构 光度检测技术鲎试剂质量标准
- 施工项目分包协议书
- 乘车免责协议书模板
- 柴房出租转让合同范本
- 服务器租用合同协议书
- 文具店购销合同范本
- 食堂委托授权合同范本
- 2026-2031年中国闪存存储器行业市场发展现状及投资前景预测报告
- (2025)政府采购评审专家考试真题(含答案)
- 电力营销安全教育课件
- 宁夏银川一中2025-2026学年高一上学期期中考试政治试卷
- 2025-2026学年上海华东师大二附中高一(上)10月月考语文试题及答案
- DB3208∕T 216-2024 机关中央空调系统运行管理规范
- GA/T 1567-2019城市道路交通隔离栏设置指南
- 教育个体功能
- 城镇污水处理厂现场核查
- 路面标线质量检验评定表
- 中国现代文学史8巴金课件
- 短视频人设打造
评论
0/150
提交评论