(计算机应用技术专业论文)基于多级查询的网络安全资源共享平台的设计和实现.pdf_第1页
(计算机应用技术专业论文)基于多级查询的网络安全资源共享平台的设计和实现.pdf_第2页
(计算机应用技术专业论文)基于多级查询的网络安全资源共享平台的设计和实现.pdf_第3页
(计算机应用技术专业论文)基于多级查询的网络安全资源共享平台的设计和实现.pdf_第4页
(计算机应用技术专业论文)基于多级查询的网络安全资源共享平台的设计和实现.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机应用技术专业论文)基于多级查询的网络安全资源共享平台的设计和实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京邮电大学硕士研究生学位论文 摘要 基于多级查询的网络安全资源共享平台的设计与实现 摘要 随着互联网时代的到来,越来越多的经济活动和社会活动融入到 互联网之中,整个社会的发展都已经与互联网紧密地联系到一起,随 之而来的网络安全问题已经引起了人们的重视。目前我国内急需网络 安全的共享资源数据和统一的实验平台。多级查询目前是查询系统中 对于复杂资源查询的一种较为高效的方法,对于一项查询,将其拆分 多级查询,提高查询效率。 在整个网络安全资源共享平台的建设过程中,需要在真实的网络 环境中采集大量可靠的科学的网络资源数据。对与采集完成的数据, 系统提供了在线的信息分析统计功能,用户可以自由地对于数据包进 行分析和统计。 论文作者在研究生期间主要参与了“教育部网络安全科研基础资 源和科学实验平台”的研究、设计和开发工作,在前期对网络数据的 采集分析的基础上,完成了资源共享平台的设计,搭建和实现工作, 后期工作主要是针对现有系统进行改进,提出一个基于架构的优化方 案,包括查询优化等过程。 论文首先介绍了系统的功能需求。在需求分析的基础上对服务器 端的设计方案进行论证,描述了具体设计及关键技术的实现方案,详 细介绍了在共享平台下网络数据的多级查询功能的实现细节,用图形 化的形式给出了用户查询的统计结果,并给出了测试及分析结果。然 后,论文分析了现有系统存在的问题,分析了系统的不足,提出了一 种新的方案,并验证通过了新的优化方案。 关键词:多级查询,网络安全,共享平台,i p 地址匿名化 北京邮电大学硕主翌壅生兰垡笙窒 垒里羔! 坠g ! _ _ - _ _ _ _ _ - _ _ _ - - _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ - _ _ _ l - _ - _ - _ - _ _ _ 。_ - 。_ _ - 。_ _ - - i l _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ 。一一 d e s i g na n di m p l e m e n t a t i o no f m u t i l e v e l q u e r y - b a s e dn e t w o r k s e c u r i t yr e s o u r c es h a r i n gp l a t f o r m a b s t r a c t w i t ht h ea r r i v a lo ft h ei n t e m e tt i m e ,m o r ea n dm o r es o c i a la c t i v i t i e s a n de c o n m i ca c t i v i t i e sa r ei n c l u d e di ni n t e r n e tp l a t f o r m ;t h ed e v e l o p m e n t o ft h es o c i e t yh a v eb e e nt i e dw i t hi n t e m e td e e p l y a c c o m p a n y e db y i n t e r n e td e v e l o p ,p r o b l e m so fn e t w o r ks e c u r i t ya t t r a c tp e o p l e sa t t e n t i o n n o w , c h i n an e e ds h a r i n g r e s o u r c ed a t aa n du n i f o r me x p e r i m e n t a l p l a t f o r m m u l t i l e v e lq u e r yi sak i n do f e f f i c i e n tq u e r ym e t h o di nc o m p l e x d a t aq u e r y f o ro n ec o m p l e xq u e r y , u s e r sc a nm a k em u l t i l e v e lq u e r yt o p r o m o t et h ee f f i c i e n c y i nt h ep e r i o do fp l a t f o r mb u i l d i n g ,i tn e e d sl a r g eq u a n t i t i e so f r e l i a b l ea n ds c i e n t i f i cn e t w o r kd a t a a n dt h es y s t e mp r o v i d e st h ed u m p o f d a t a ,q u e r ya n dm a k es t a t i s t i co f t h en e t w o r kd a t a t h ea u t h o r o ft h ep a p e rm a i n l yw o r k e di nt h er e s e a r c ha n d d e v e l o p m e n to f m i n i s t r yo fe d u c a t i o nn e t w o r ks e c u r i t yr e s o u r c ea n d s c i e n t i f i ce x p r i m e n t a lp l a t f o r m 9 w i 也t h ep r e l i m i n a r ys t u d i e sa n dd a t a g a t h e r i n gf r o mt h ei n t e m e t ,t h ea u t h o r sm a j o rt a s ki s t h ed e s i g na n d i m p l e m e n t a t i o no ft h e n e t w o r k s e c u r i t yp l a t f o r m a n d a s y s t e m a r c h i t e c t u r eb a s e do nf e a s i b l eo p t i m i z a t i o nw a sr a i s e d a st h ef i r s tp a r t ,t h i sp a p e ri n t r o d u c e st h ef u n c t i o nr e q u i r e m e n t t h e ni te m p h a s i z e so nt h ed e s i g na n di m p l e m e n t a t i o no ft h es y s t e m ,a n d p r o v i d et h et e s tr e s u l t s i nt h i sp a r t ,t h ep a p e rd e s c r i b e st h e d e t a i l so ft h e i l l 北京邮电大学硕士研究生学位论文 a b s t r a c t m u l t i l e v e l q u e r yo n r e s o u r c es h a r i n gp l a t f o r ma n ds h o w st h es t a t i s t i cd a t a b yg r a p h i c a lm e t h o d st ou s e r s s e c o n d l y i tg a v et h ea n a l y s i so ft h es y s t e m p e r f o r m a n c eo ft h eq u e r y i n ga n di t s e x i s t e dp r o b l e m ,a sw e l la st h e d e f i c i e n c yo ft h es y s t e md e s i g na n dt h ep o r f o m a n c e o fq u e r y l a s t l y , t h i s p a p e rp r o p o s e dan e wo p t i m i z a t i o ns c h e m ea n dv e r i f yt h ef e a s i b i l i t yo f i t k e yw o r d s m u l t i l e v e lq u e r y n e t w o r ks e c u r i t yr e s o u r c es h a r i n gp l a t f o r m i pa d d r e s sa n o n y m i z a t i o n i v 北京邮电大学硕士研究生学位论文 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特另l j ) j n 以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:缒延劬日期:塑罗! 丑恒 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名:选! 选垒:l 导师签名: 日期:塑里:兰:! 茎 日期: 2 砬堡:兰:! 北京邮电大学硕上研究生学位论文 第章绪论 1 1研究背景 第一章绪论 随着互联网时代的到来,越来越多的经济活动和社会活动融入到互联网之 中,整个社会的发展都已经与互联网紧密地联系到一起,随之而来的网络安全问 题已经引起了人们的重视。网络安全科研基础资源平台依托中国教育和科研计算 机网,以及正在建设的国家下一代互联网示范工程,对项目合作单位在网络安全 领域的科研实验资源( 包括基础数据资源、网络实验资源等) 进行收集整理和开 放共享,在此基础上重点建设网络安全基础资源共享平台,初步建立起支持示范 应用的网络化科研实验平台,为教育部高等院校网络安全领域研究与应用人员提 供一个网络化的先进科研基础资源平台以及科学实验环境,为大规模网络安全科 学研究活动提供资源支撑平台 我国信息安全研究经历了通信保密、计算机数据保护两个发展阶段,正在进 入网络信息安全的研究阶段。目前我国网络安全实验数据、实验设备等科学实验 资源存在着条块分割、共享困难的现象和重复建设等问题,现有科研工作环境现 状已不能很好地适应未来网络安全研究发展趋势,不利于促进科技的进步和更快 的发展。尽管国内正在积极进行科技基础条件平台的建设工作,但是国内网络安 全领域的基础资源共享以及网络安全实验平台的建设尚属于空白阶段。因此当前 构建以网络安全科研基础数据资源共享为核心的协同式网络安全研究和实验环 境对于我国网络安全科学研究领域的发展显得尤为重要。 网络安全技术研究具有很强的针对性,在网络安全问题越来越呈现出规模 化、立体化、复杂化的发展趋势时,科研数据的完备性、时效性以及实验环境的 完善性、真实性成为影响研究成果应用价值的重要因素,因此传统的以单机或单 系统仿真、小数据量实验的网络安全研究方法越来越难以满足网络安全科学研究 的需要。为提高我国网络安全技术研究的国际竞争力和可持续发展能力,迫切需 要在网络安全领域构建先进网络科技环境,具体表现在以下几个方面: 网络安全基础数据资源在网络安全研究中具有重要的地位,一方面是为网络 安全研究和实验提供研究对象的数据基础,使研究工作更具有针对性和实用性; 另一方面为科研成果的测试提供统一的实验数据基础,使评判工作具有重要的参 考依据。 总的来说,我国的网络安全研究起步晚,国内缺乏可共享的、权威性的网络 安全研究数据资源。目前国内高校相关研究机构使用的网络安全研究和实验数据 1 北京邮电大学硕士研究生学位论文第一章绪论 主要来自于国外大学或者研究机构,比如美国麻省理工大学林肯实验室的网络入 侵检测数据集和蜜网项目组( h o n e y n e tp r o j e c t ) i 】的数据集。其次,国内研究力量 分散,已具有的网络安全研究和实验资源未得到充分利用。目前我国在网络安全 领域拥有相互分散的网络监测和实验数据资源,但是资源的整合和共享尚属空 白。许多实验数据和实验资源往往只有研究机构内部少数人员了解,而缺少将这 些知识共享以提高国内网络安全领域整体研究水平的途径。目前网络安全领域研 究越来越深入,国内研究人员缺少一个共享和沟通的平台来保证这些知识的不断 积累和发布。因此应该加强横向联系,凝聚国内相关学科的优势单位和优秀人才, 加强合作与资源共享,消除信息孤岛,实现信息共享;同时,加强数据共享的软 环境和运行机制的建设,强化网络服务功能,使科技人员可以方便的获取长期观 测和不断积累的科学数据,保证科技创新活动的顺利开展。 1 2研究内容 本文力图设计和建立网络安全资源共享平台,依据教育部科技基础条件平 台项目申报书【2 1 ,提出教育部科技基础条件平台网络安全方向的解决方案。具 体工作有: 设计并实现网络安全资源共享平台,提供网络安全数据的共享和管理, 以及用户登陆、查询等用户功能,为广大网络安全领域的研究人员及客 户提供数据资源支持。 采集互联网上的数据流,对数据流进行分析和处理,为网络安全资源共 享平台提供数据资源。数据采集方法分为:n e t f l o w 数据流,与j p c a p 数据包的采集两种方法。 设计和实现平台数据的多级查询功能,通过查询优化和关键信息的匿名 化处理优化多级数据查询功能,并生动地呈现给用户。 1 3 论文的组织 本文共分七章,内容安排如下: 第一章:序论,介绍本课题的背景、课题任务、以及论文结构等。 第二章:系统概述及需求分析,介绍本系统的整体结构组成以及系统整 体需求分析,对于不同需求有详细的阐述。 第三章:数据采集模块的设计,详细介绍了n e t f l o w 数据流采集和j p c a p 数据采集的异同,以及网络数据采集模块的功能及实现细节。 第四章:总体设计,描述了系统的总体设计,对于系统的设计目标原则 做了细致的描述。同时详细划分了系统模块,给出了系统模块结构图和接口 2 北京邮电大学硕士研究生学位论文 第一章绪论 信息。 第五章:详细设计和关键模块的实现,讲述了详细设计目标和思想,给 出了重要数据结构的设计和详细类图。对于关键的技术:一级查询、二级查 询以及i p 地址匿名化工作做了阐述和说明。 第六章:资源共享平台的测试,介绍了测试目标,测试项目,设计了测 试用例给出了系统测试的结果。同时介绍了j f r e e c h a r t 库的使用方法和其在 本系统中的应用。 第七章:结束语,对本文工作进行全面的总结,给出本文的成果,指明 了存在问题和改进方向。 3 北京邮电大学硕士研究生学位论文第二章系统概述及需求分析 第二章系统概述及需求分析 当今的社会是网络的时代,网络已经从各个角落渗入人们的生活中,从海量 的数据新闻信息,到电子商务的电子账单,网络以及成为时代发展的重要经济和 信息载体。在网络应用不断发展的今天,网络信息安全的重要性越来越明显地显 现出来了。 目前我国的网络安全科学实验资源存在诸多困难,例如共享困难、互通性差 等现象和重复建设等问题,现有的科研工作环境现状已不能很好地适应未来网络 安全研究发展趋势,不利于促进科技的不断进步和更快的发展,跟进国际潮流。 虽然目前国内正在积极进行各种科技基平台的建设和设计工作,但是国内在网络 安全领域的基础资源共享以及网络安全实验平台的建设尚属于空白阶段。因此目 前构建以网络安全科研基础数据资源共享为核心的协同式网络安全研究和实验 环境对于我国网络安全科学研究领域的发展显得尤为重要。 本文旨在设计和建设一个统一的资源共享平台,平台整合多种数据网络数 据,为网络安全领域的系统研究提供广泛而真实的网络数据。同时平台提供对于 这些网络数据的查询和分析功能,能够分析出数据资源的一些细节特征,如:网 络协议的种类及使用的百分比,网络数据包的目标、源m 地址等信息。参考这 些信息,研究人员就可以从中发现网络数据的特征,并通过分析制定相应对策和 方法。 2 1 网络安全资源的采集 网络安全资源共享平台应该拥有大量的,真实的网络数据资源,并将这些资 源按照同一格式存储。系统需要在真实的网络环境中采集到大量的网络数据。 网络安全资源的采集主要是需要通过设备或者软件,在互联网的较大规模的 数据交换信息节点上进行采集,对于所有的这些数据,必须来自与真实的,可信 的网络,并且这个采集网络需要是专业性不强、通用性很强的网络环境,对于在 这种环境下采集的数据,具有普遍意义,可以更好地服务与科学研究和探索。 网络安全资源采集之后,系统需要对这些数据进行分析和处理,甚至某些格 式的转化,这是由于网络上采集得来的原始数据,不能够满足查询需求,其中有 很多对于研究者无用的或是几乎无用的数据信息,这些数据会占用存储空间,而 当数据的查询时,这些数据会对造成严重的时延,直接影响到查询的效率。而数 据分析处理工作能使这些数据变得更加有效,对于查询的优化起到良好的效果。 2 2 网络安全数据的查询 4 北京邮电大学硕士研究生学位论文第- 二章系统概述及需求分析 对于网络上采集得来的数据,系统经过分析处理转化后,将其按照相应的格 式存入存储服务器。之后,通过系统进行过滤、统计、分析,为用户提供查询功 能的实现。 查询分为两级查询,一级查询的工作目的是通过关键字匹配不断缩小查询范 围,关键字包括:数据采集时间,采集地点,采集人等信息。通过一级查询,二 级查询所面对的数据包数量有显著地缩小,提高了整个查询工作的工作效率。二 级查询依据过滤核心信息进行,这些核心信息包括:数据包源地址,目的地址, 源端口,目的端口,数据包大小,数据协议等要素,用户从客户端( 浏览器) 提交 查询请求,请求包括以上的一种或者多种要素,系统需要根据这些要素进行分析 得到需要的数据。 系统通过查询将给出依据过滤信息后的数据包的统计信息,其中包括,某个 地址的口包占总包文的百分比及数量,某个端口的口包文占总包文的百分比及 数量,以及某个某种网络协议的数据包占总包文的百分比及数量。统计功能是查 询功能中的十分重要的组成部分,所有的用户的任何请求都必须给出相应的统计 分析结果,直接为以后的数据结果呈现部分提供直接的、客观的、科学的数据支 撑和内容支持。 系统对于呈现于用户面前的口地址等私密信息必须进行较为严格的匿名化 处理,而不能以真实的信息公布于互联网上,用以防止对用户的隐私造成侵犯。 同时为了科学研究的需要,匿名化的i p 地址需保留相关的网络原始特征,例如 原始数据中有两个i p 是同一个子网的,经过匿名化的这两个口地址同样应该是 属于同一个子网,有同样的网络号,和子网信息。这种匿名化方法成为保持前缀 的匿名化,对于保持前缀的匿名化方法能够满足微观科研的需要,对特殊要求的 网络数据的研究提供数据支持。 2 3 需求分析 2 3 1 功能需求 网络安全资源共享平台的总体功能是要为网络安全研究人员提供一个可以 自由共享数据资源,并对研究人员提供若干真实可靠的数据资源,即真实可靠的 互联网数据,这些数据应该是随机采集,带有随机性和普遍性,而不是针对某个 特殊的网络环境所特别设计的网络数据,这些数据必须要有足够的数量,这样能 够保证进行网络安全实验的数据样本空间带有普遍性。 目前设计的系统包括如下业务功能: 1 大规模网络数据的采集 5 北京邮电大学硕士研究生学位论文 第二章系统概述及需求分析 网络安全资源共享平台应该拥有大量的,真实的网络数据资源,并将这些资 源按照同一格式存储。系统需要在真实的网络环境中采集到大量的网络数据,这 里必须要注意以下几点 1 ) 网络数据采集的环境不能是规模较小的网络环境 较小的网络环境所产生的网络数据量相对较小,不能够满足科学研究和实验 对于数据的要求,由于网络安全的研究需要大量的数据,小规模采集环境如果开 启大量的采集功能,会对整个网路的性能,如网络带宽,网络流量造成一定影响, 较小的网络环境,一旦有些影响会放大到每个用户,那么这样就会干扰正常的工 作学习。如果进行长时间的采集,必然对采集服务器的硬盘造成较大的使用,对 硬件的影响会进一步加大,很可能会在短时间内损坏硬盘。 2 ) 网络数据采集的环境不能是专业性较强的网络 专业性较强的网络意味着,在该网络中所交换流动的网络数据带有较强的专 业性,例如在一个大型视频下载网站所在的网络环境中,大量视频数据在网络中 传播,而其他的数据信息就会非常少,这样对于研究人员的研究工作会造成很大 的限制。由于较为专业或者特征性很强的网络环境所采集的数据带有明显的某种 业务的倾向性,这样会使网络安全资源共享平台的数据的样本空间十分狭小,很 多的研究会面临没有合适数据资源的尴尬境地。所以数据采集的网络环境必须是 一个业务特征不明显的网络环境,在这个环境中,各种业务的倾向性不很明显, 能在这个网络环境中采集到各种网络数据,并且这些网络数据所占的比例相当, 没有非常明显的优势。这样就可以保证网络数据的多样性,保证网络数据样本空 间的丰富性。 2 针对采集得到的网络数据的分析处理转化 对于采集得来的大规模网络数据,系统必须对与网络数据有较为完善的分析 和处理。由于从网络上采集得来的原始数据带有各种信息,很多信息对于网络安 全的的研究是可有可无的,例如视频文件的内容,一般的网络安全研究不会涉及 对于视频内容的研究,并且视频数据的规模往往会非常大,对于存储这样的信息 也是没有意义的。鉴于采集得来的原始数据中有大量的研究不相关数据,必须对 于网络数据进行分析并转化,将这些数据转化为易于存储且易于对于用户查询的 数据存储格式,对于特定的数据信息,例如采集地点,采集人,采集时间等信息, 必须将这些在数据包中没有包含的一些信息f 如以上所提到的采集地点,采集人, 采集时间等信息) 以及数据包的一些重要特征信息( 如:数据包大小的信息) 存入 x m l 文档中,供以后的查询使用。 3 对用户提供网络安全数据查询,统计,分析功能 从网络上采集得来的数据经过分析处理转化后,将其按照合适的格式存入存 6 北京邮电大学硕上研究生学位论文第二章系统概述及需求分析 储服务器,对于存储服务器中的这些数据,通过系统进行过滤、统计、分析,为 用户提供查询功能。 查询依据关键字进行,关键字包括:数据采集时间,采集地点,采集人,数 据包源地址,目的地址,源端口,目的端口,数据包大小,数据协议等要素,用 户从客户端( 浏览器) 提交请求,请求包括以上要素,系统需要根据这些要素进行 分析得到需要的数据。 系统将需给出依据关键字查询的数据包的统计信息,其中包括,某个地址的 i p 包占总包文的百分比,某个端口的m 包文占总包文的百分比,以及某个某种 网络协议的数据包占总包文的百分比。统计功能是查询部分的重要组成部分,所 有的用户的请求必须给出相应的统计分析结果,直接为以后的数据结果展示部分 提供直接的数据支持和内容支持。 系统对于呈现给用户的口地址等私密信息必须进行匿名化处理,不能以真 实的信息公布于互联网上,防止对用户的隐私造成侵犯。同时为了科学研究的需 要,匿名化的i p 地址必须保留相关的网络特征,例如原始数据中有两个口是同 一个子网的,经过匿名化的这两个i p 地址同样应该是属于同一个子网,有同样 的网络号,和子网信息。保证微观科研的需要。 4 对用户查询结果信息的展示功能 用户通过查询得到的信息,需要用合理的方式展现给用户。例如,可以通过 详细的报表,也可以用柱状图,饼状图等图形化的表示形式。但是考虑到最终用 户的背景知识水平不同,更好的办法是用柱状图、饼状图等图形化的形式形象地 表现整个查询统计结果,这更加对用户友好,更加易于将查询分析后的结果呈现 给用户,满足其科研、使用的需求。 2 3 2 接口需求接口需求 本系统结构图如第二章所述,目前控制服务器和t o m c a t 服务器以及存储服 务器的交互和耦合关系比较紧密,另外备用服务器与控制服务器的之间也有联 系,因此控制服务器与其他功能的接口有:与t o m c a t 服务器的接口;与存储服 务器的接口;与备用服务器的接口。 1 控制服务器与t o m c a t 服务器之间的接口 控制服务器与t o m c a t 服务器之间的接口应该提供良好的适应性功能。由于 t o m c a t 服务器负责发布并部署管理员所放置其上的网页信息。所以t o m c a t 服务 器与控制服务器之间的接口必须做到灵活且强壮,t o m c a t 服务器上的页面信息 会调用控制服务器提供的系统工具命令,这些系统工具命令在不同的系统上会有 不同的名称以及用法,为了保证移植性,控制服务器与t o m c a t 服务器间的接口 必须有良好的适应能力和鲁棒性。 1 北京邮电大学硕士研究生学位论文第二章系统概述及需求分析 控制服务器与t o m c a t 的接口需要实现,控制服务器改变后接口能快速地与 t o m c a t 服务器进行适应的功能,同时接口必须能对于不同的系统环境有较强的 适应性,对于不同的系统环境,接口应有不同的应对策略实现帮助系统实现功能。 接口对于控制服务器的工作,能方便地将控制服务器的数据转化成网页信息,交 由t o m c a t 进行部署;接口对于t o m c a t 服务器的工作,能够保证t o m c a t 转化的 用户请求能自动地、准确地转化为系统命令,并有效执行。完成从命令执行,到 结果显示在网页上这个过程的顺利完成。 2 控制服务器与存储服务器之间的接口 控制服务器与存储服务器之间的接口把存储服务器上的数据提取出来交与 控制服务器进行查询和分析。在存储服务器上的数据按照一定的格式存放这,接 口必须了解这种存放格式。接口通过控制服务器的信息,从存储服务器中寻找相 应的数据包格式,之后获取该数据包信息,传递给控制服务器进行下一步的处理 和分析。 在具体操作上,对于数据存放的格式和方法,事先必须有个严格和明确的方 法措施,用文档进行明确的定义和说明,接口参考说明文档进行编写,提供完整 的解决方案。接口通过对于存储服务器的查找和分析,获得的数据信息传递给控 制服务器,完成一次对数据的查询和读取。 3 控制服务器与备份服务器之间的接口 控制服务器与备份服务器之间的接口实现的功能是对控制服务器的心跳检 测,在控制服务器出现宕机时能够自动切换到备份服务器上。 接口的心跳检测的实现主要是备份服务器每隔一段时间便从控制服务器出 获取特定信息,如果获取不到,则立即将工作转移到备份服务器。这其中的转移 工作主要是通过配置文件读取相应的信息,将备份模块的系统启动,将t o m c a t 服务器的相应u r l 订制进行改变。 2 3 3 数据需求 系统需要的数据信息包括系统输入信息和查询的原始数据。系统需要的系统 输入信息包括用户查询的信息,包括关键字输入,t o m c a t 服务器所需要的域名 信息等。进行查询所需要的原始数据包括从互联网上抓取的大规模的真实网络数 据,以及对于这些网络数据的描述信息。需要维护的静态数据包括服务器本地配 置、开启系统的安全认证信息等。 2 4 性能和运行环境需求 本系统需要提供快速处理能力,根据文档教育部科技基础条件平台项目申 8 北京邮电大学硕十研究生学位论文 第二章系统概述及需求分析 报书中设定的目标可以获得如下性能需求: 通常情况下,系统处理一级查询消息的时延不超过1 秒;处理二级查询 消息的时延不超过2 秒; 夺通常情况下,用于用户呈现的部分显示的时延不超过1 秒; 夺并发处理能力,在实验室环境下,台普通p 4 计算机上运行分别能够同 时处理5 0 0 个并发请求的能力。 令查询所需原始数据库容量,应存储不小于2 0 t b 的信息;存储大于一个 采集点采集的数据信息; 运行环境需求包括: 夺服务器运行环境,需要c p u 处理速度不低于1 g h z ,内存不小于2 5 6 m 。 令网络环境,需要支持i p v 6 和i p v 4 的网络,网络带宽达到1 m 以上。 令服务器需要按照7 * 2 4 的模式运行。 9 北京邮电大学硕士研究生学位论文第三章数据采集任务及数据整理 第三章数据采集任务及数据整理 数据采集模块的主要功能是采集局域网出口的入境出境流量,并将捕获的 数据包提交给流量数据分析进行统计和分析。基于现有技术和具体情况,设计了 两种不同的采集策略:基于n e t f l o w 数据流的采集方式及基于j p c a p 数据包的采 集方式,下面就数据采集环境和上述两种采集方式进行详细介绍。 3 1 网络数据采集环境 通常,网络流量采集有以下两种典型的网络应用环境: ( 1 ) 核心网的骨干节点。网络流量监测系统在核心网上的应用通常源于网 络服务提供商( i s p ) 的流量监测需求。除了传统意义上对链路连接状况、链路负 载、带宽使用率等指标的关注,当前的网络服务提供商开始越来越多地将兴趣转 移到网络资源的使用状况上。具体来讲,i s p 通常希望了解其提供的网络链路在 各个时间段上的使用率变化趋势、各类i n t e m e t 应用所产生的流量大小及占整体 流量的比例、各种用户群体的网络使用行为趋势等。这些指标的发掘有助于网络 服务提供商跟踪当前的市场需求、制定未来的网络部署规划、有针对性地提供 q o s 保障服务以及制定更加合理的价格策略等。 这种网络环境有一些显著的特点:首先,网络流量非常大。通常都是千兆、 万兆甚至更大的数量级的网络流量。其次,用户接入方式复杂,光纤接入、a d s l 接入等多种接入方式,以及公有、私有地址混杂不一也增加了这种网络环境的复 杂度。另外,由于i s p 对网络流量分析的完整性和精确性要求较高,因此,对此 种网络流量一般都是采取离线分析。即先将网络流量存成文件( 一般是标准的通 过t e p d u m p 或e t h e r e a l 获得的c a p 格式的文件) ,而后通过多种复杂的分析算法进 行流量分类。 ( 2 ) 局域网的网络出口。这里提到的局域网包括校园网,企业内部网等网 络环境。局域网上的流量采集应用通常源于对网络用户的网络使用行为进行分 析、管理的需求。以最典型的企业内部网为例,此网络中的用户为企业员工。企 业提供网络访问条件的目的是为了方便信息检索、降低通信成本、远程协同工作、 提高生产效率等,对于影响正常工作的网络使用方式必须加以限制或禁止。在这 个意义上来说,网络游戏、f t p 下载、p 2 p 文件共享应用等不仅会分散员工在工 作时的注意力,还会对网络带宽资源造成严重侵占,影响其他正常网络应用的使 用。在高校的校园网中,这种情况同样存在。在局域网内采集到的数据可以作为 科研管理人员的参考,进行网络的优化和维护,因此,网络管理员需要根据网络 1 0 北京邮电太学顿= i 研兜生学位论文 第三章教据采集任务教据整理 使用规定限制网络用户访问某些服务器、使用某些网络应用或占用过多的网络资 源。 本文的数据采集对象就是上述第二种网络环境。网络拓扑如下图所示: 局域网内各主i 抟舔娑 图3 - l 数据采集的网络环境 奉文的目标是要得到从这个出口路由器经过的网络数据包的n e t f l o w 信息 然后对其进行进一步的分析。该网络环境有如下的特点: 刚络规模适中,具有可统计数量的主机。 主机迥过不同交换机与唯一路由器相连,并通过统一接口连到i n t e r n e t 上。 所有主机均采用g l o b a l 的i p 地址,且都在一个固定的地址范围内。 3 2 基于n c t f l o w 的流量数据采集方式 本课题对互联网异常流量的特征分析主要基于n e t f i o w 数据,因此首先对 n c t f l o w l 3 1 做简单介绍。 1n e t f l o w 的由来 传统上的网络管理者通常是通过s n m p ( s i m p l e n e t w o r k m a n a g e m e n t p r o t o c o l l 协议的工具从支持s n m p 的网络设施搜集网络流量数据,虽然通过这 种方式取得信息不会造成处理七过重的负担,但是s n m p 提供的只是租糙、简 略的资料。这些信息只能让管理者发现问题,却无法进一步解决问题。 那么有没有另外一种能提供更详细网络信息的技术呢? 网络探针r s n i f f e r ) 或是类似的监听工具开始被部署在网络设备上,用来捕捉流过的数据包并将数据 包加以翻译,找出数据包头中字段的相关信息,并进一步分析其内容以取得更详 细的信息。 北京邮电大学硕士研究生学位论文第三章数据采集任务及数据整理 虽然通过数据包监听工具可以取得更详细的网络信息,但监听工具通常专注 在单一网络数据包的内容,所以网络管理者很难从监听工具所提供的信息来掌握 整体网络的状态。此外,分析数据包非常耗费时间,而且数据包监听所储存并需 要分析的数据量非常庞大,对于资源和人员的消耗是惊人的,这种方式显然在很 多环境下并不合适。 n e t f l o w 便是在这种情况下应运而生并成为网管人员热门工具的,越来越多 的机构在通过这一工具了解网络使用情形。n e t f l o w 不仅能提供更详细的网络信 息,而且其分析方式避免了网络频宽及运算资源过重的负担。 2 n e t f l o w 的运作机制 n e t f l o w 技术最早于1 9 9 6 年由思科公司的d a r r e nk e r r 和b a r r yb r u i n s 发明 的n e t f l o w 技术首先被用于网络设备对数据交换进行加速,并可同步实现对高速 转发的i p 数据流( f l o w ) 进行测量和统计。经过多年的技术演进,n e t f l o w 原来用 于数据交换加速的功能已经逐步由网络设备中的专用a s i c 芯片实现,而对流经 网络设备的口数据流进行测量和统计的功能也已更加成熟,并成为了当今互联 网领域公认的最主要的i p m p l s 流量分析,统计和计费行业标准。 n e t f l o w 是一种数据交换方式,其工作原理是:n e t f l o w 利用标准的交换模 式处理数据流的第一个i p 包数据,生成n e t f l o w 缓存,随后同样的数据基于缓 存信息在同一个数据流中进行传输,不再匹配相关的访问控制等策略,n e t f l o w 缓存同时包含了随后数据流的统计信息。 一个n e t f l o w 流定义为在一个源i p 地址和目的i p 地址间传输的单向数据包 流,且所有数据包具有共同的传输层源、目的端口号。 n e t f l o w 本身是一套网络流量统计协议,其主要原理是根据网络数据包传输 时,连续相邻的数据包通常是往相同目的地i p 地址传送的特性,配合c a c h e 快 取机制,当网络管理者开启路由器或交换机接口的n e t f l o w 功能时,设备会在 接收数据包时分析其数据包的标头部分来取得流量资料,并将所接到的数据包流 量信息汇整成一笔一笔的f l o w ,在n e t f l o w 协议中f l o w 是被定义为两端点间 单一方向连续的数据流,这意味着每一个网络的连接都会被分别纪录成两笔 f l o w 数据,其中一笔记录从客户端连到服务器端,另外随着一笔纪录从服务器 端连回到客户端的信息。 网络设备通过以下字段来区分每一笔f l o w :来源i p 地址( s o u r c ei p a d d r e s s ) 、来源端口号( s o u r c ep o r tn u m b e r ) 、目的i p 位址( d e s t i n a t i o ni pa d d r e s s ) 、 目的端口号( d e s t i n a t i o np o r tn u m b e r ) 、协议种类( p r o t o c o lt y p e ) 、服务种类( t y p eo f s e r v i c e ) 及路由器输入接口( r o u t e r i n p u t i n t e r f a c e ) ,任何时间当设备接收到新的数 据包时,会检视这七个字段来判断这个数据包是否属于任何已记录的f l o w ,有 1 2 北京邮电人学硕士研究生学位论文第三章数据采集任务及数据整理 的话则将新收集到的数据包的相关流量信息整合到对应的f l o w 记录中,如果找 不到数据包对应的f l o w 记录,便产生一个新的f l o w 记录来储存相关的流量 信息。由于设备内高速缓存的空间有限,无法无限制地容纳持续增加的f l o w 纪 录,所以n e t f l o w 协议也定义了终结f l o w 记录的机制,来维持网络设备中储 存f l o w 信息的空间。 只要下面三种情况任何一个成立,路由器就会通过u d p 数据包将终止的 f l o w 纪录汇出到使用者事先指定的n e t f l o w 数据收集设备上:当数据包内字段 f l a g 显示传输协议中传输完成的讯息如t c pf i n 时;流量停止超过1 5 秒:流 量持续传送,每3 0 分钟会自动终止。 虽然大部分的网络硬件供货商都支持n e t f l o w ,但n e t f l o w 版本有很多, 其中n e t f l o wv e r s i o n5 是常见的n e t f l o w 数据格式,包含以下几个字段: s o u r c ei pa d d r e s s ( 源主机p 地址) 、d e s t i n a t i o ni pa d d r e s s ( 目的主机口位址) 、 s o u r c et c p u d pp o r t ( 源主机所使用的端口号) 、d e s t i n a t i o nt c p u d pp o r t ( 目的 主机所使用的端口号) 、n e x th o pa d d r e s s ( 下一个端点的地址) 、s o u r c ea sn u m b e r ( 来源主机所属的a s 编号) 、d e s t i n a t i o n a sn u m b e r ( e l 的主机所属的a s 编号) 、 s o u r c ep r e f i xm a s k ( 来源主机所属网域的子网掩码) 、d e s t i n a t i o np r e f i xm a s k ( 目 的主机所属网络的子网掩码) 、p r o t o c o l ( 使用的通讯协议) 、t c pf l a g ( 数据包控制 标记) 、t y p eo f s e r v i c e ( q o s 需求参数) 、s t a r ts y s u p t i m e ( 起始时间) 、e n d s y s u p t i m e ( 终止时间) 、i n p u ti f l n d e x ( 信息流流入接口编号) 、o u t p u ti f i n d e x ( 信息 流流出接口编号) 、p a c k e tc o u n t ( 数据包数量) 、b y t ec o u n t ( b y t e 数量) 。 支持n e t f l o w 功能的网络设备将其所收集到的f l o w 信息以u d p 数据包 送往预先设置好的流量接收主机,配合n e t f l o w 相关收集软件,将这些原始流 量资料作适当的处理、储存以提供后续的相关应用。 3 n e t f l o w 的两种工作方式 路由器提供对n e t f l o w 的支持。这种情况操作起来比较简单,只需要 在路由器接口上启用n e t f l o w 流采集功能( 同时指定流收集器的地址和端口) , 路由器就会将经过此接口的数据包信息以“流”的形式发到指定的采集机上。如 下左图所示: 1 3 北京邮电大学碗i 研究生学位论立第! 章鼗据采* 任务& 数据整理 囤3 - 2n e t f t o w 流数据采集方法1图3 - 3n o t f l o w 流数据采集方法2 a n o n y m o u s 类的工作是对于查询得到的i p 地址进行匿名化工作,主要通过v o i d a n o n y m o u s p r o c e s s o i 函数对于i p 地址进行随机化。 p u l i b cc l a s sa n o n y m o u s s t r i n gs i p = n u l l ; | | 漶骚 s t r i n gd i p = n u l l ; 处理后的 v o i da n o n y m o u s p r o c e s s 0 ; 匿名化过程函数 ) 3 0 北京邮电大学硕士研究生学位论文 第五章详细设计和关键模拟的实现 对于监测模块的实现使用f u n c t i o n c h e c k 类实现,f u n c t i o n c h e c k 类的功能就 是检测系统的状态,并且告诉备份服务器当前系统的状态信息。主要的函数有 v o i dc h e c k ( ) ,v o i dc o m t o b a c k u p ( s t r i n gi p ,i n tp o r t ) ,前者监测系统的状态,后者将系 统情况报告给备份服务器。 p u b l i cc l a s sf u n c t i o n c h e c k s t r i n gb a c k u p l p ; i n ts p o t ; 源

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论