(计算机系统结构专业论文)面向代码移动的ip_tascm分析平台内子系统的设计与实现.pdf_第1页
(计算机系统结构专业论文)面向代码移动的ip_tascm分析平台内子系统的设计与实现.pdf_第2页
(计算机系统结构专业论文)面向代码移动的ip_tascm分析平台内子系统的设计与实现.pdf_第3页
(计算机系统结构专业论文)面向代码移动的ip_tascm分析平台内子系统的设计与实现.pdf_第4页
(计算机系统结构专业论文)面向代码移动的ip_tascm分析平台内子系统的设计与实现.pdf_第5页
已阅读5页,还剩71页未读 继续免费阅读

(计算机系统结构专业论文)面向代码移动的ip_tascm分析平台内子系统的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 面向代码移动的i pt a s c m 分析平台内子系统的设计与实现 张寒,丁伟 东南大学计算机科学与工程学院 本论文的研究和开发工作围绕一个面向代码移动的i pt a s c m ( i pt r a c ea n a l y s i s s y s t e mb a s e do nc o d em o v i n g ) 分析系统进行,该系统的工作目标是为了解决大规模高速网 络被动测量的背景下海量数据存储、分析算法、测量结论和计算资源的共享问题。论文设计 并实现了i pt a s c m 的内子系统,并利用i pt a s c m 对采集自c e r n e t 江苏省网边界信道 的t r a c e 进行分析。 论文首先讨论分析了i pt a s c m 系统6 个方面的需求,分别为用户、数据、分析算法、 日志管理、任务的提交与运行,以及数据查询。根据这些需求,论文进一步讨论了系统的功 能,并设计了以执行子系统为核心,采集器为辅助的内子系统的体系结构。随后,论文对 i pt a s c m 中内子系统有关的关键问题进行了讨论和解决,其中包括用户分级管理、建立用 户信任评价系统、管理员审核策略、基于系统状态信息的任务并发度自调整算法以及任务调 度算法等。依据以上这些问题的研究,论文给出了整体及各个模块的数据流与控制流控制方 案,并最终实现了i pt a s c m 内子系统。 最后,论文用一个语义上完整的试验和从教育网江苏省网边界采集的数据对已实现的系 统进行了测试以验证其功能的完备性。这个实例是通过一组测度比对不同组流流规范间的差 距。在i pt a s c m 系统的支持下,试验圆满完成,并获得了相关的结果。 【关键词】i p t r a c e ,网络测量,软件系统,数据分析算法,流规范 东南大学硕+ 学位论文 a b s t r a c t t h ed e s i g na n di m p l e m e n t a t i o no ft h ei n t e r n a ls u b s y s t e mo fl pt r a c e a n a l y s i ss y s t e mb a s e do nc o d em o v i n g h a n z h a n g , w e id i n g s c h o o lo fc o m p u t e rs c i e n c ea n de n g i n e e r i n g ,s o u t h e a s tu n i v e r s i t y t h ek e yo ft h i sp a p e ri sa l li p t r a c ea n a l y s i ss y s t e mb a s e do nc o d em o v i n go p3 k s c m ) 。 w h i c ha i m st os o l v et h ep r o b l e m sr e s u l tf r o ml a r g e - s c a l es t o r a g ea n dt h es h a r i n go fa n a l y s i s , m e a s u r e m e n tc o n c l u s i o na n dc o m p u t i n gr e s o u r c ei nt h ef i e l do fp a s s i v em e a s u r e m e n t i td e s i g n e d a n di m p l e m e n t e dt h ei n t e r n a ls u b - s y s t e mo fi p _ t a s c m ,a tt h es a m et i m e ,a n a l y z e dt h et r a c e c o l l e c t e df r o mc e r n e tb a c k b o n et h r o u g hj i a n g s up r o v i n c e f i r s t l y , t h ep a p e ra n a l y z e dt h er e q u i r e m e n t so fi p _ t a s c m ,i n c l u d i n gt h em a n a g e m e n to f u s e r , d a t a s e t , a n a l y s i sa l g o r i t h m ,t a s ka p p l i c a t i o na n de x e c u t i o na sw e l la sd a t ai n q u i r y b a s e do n t h er e q u i r e m e n t sa b o v e ,i td i s c u s s e dt h ef u n c t i o n sa n dd e s i g n e dt h ea r c h i t e c t u r ec o m p o s e do ft h e e x e c u t i o nc o r em o d u l ea n dd a t ac o l l e c t i o ns e r v e r s a n dt h e n ,t h ep a p e rs o l v e dt h ek e yp r o b l e m so f i p t a s c m ,i n c l u d i n gu s e rc l a s s i f i c a t i o n ,u s e rb e h a v i o rs y s t e mb a s e do n t r u s tp o i n t ,a d m i n i s t r a t o r a u d i tp o l i c y , a d a p t i v ea l g o r i t h mo fp a r a l l e lt a s kn u m b e ra n dt a s ks c h e d u l ea l g o r i t h m b a s e do nt h e r e s e a r c h e sa b o v e ,i td e s c r i b e dt h ed a t aa n dc o m m a n ds t r e a mo ft h ew h o l es y s t e ma n de v e r y m o d u l e ,a n di m p l e m e n t e di p t a s c m f i n a l l y , i tt e s t e dt h ef u n c t i o ni n t e g r i t yo fi p t a s c mw i t ht h ed a t a s e tc o l l e c t e df r o m c e r n e tb a c k b o n ea n daw e l ld e s i g n e dm e a s u r e m e n t t h et e s ta n a l y z e dt h ed i f f e r e n c e sb e t w e e n f l o ws p e c i f i c a t i o n sb a s e do i lag r o u po fm e t r i c s ,w h i c hf u l f i l l e dw i t ht h es u p p o r to fi p t a s c m a n do b t a i n e ds o m ev a l u a b l ec o n c l u s i o n s k e y w o r d s : i pt r a c e ,n e t w o r km e a s u r e m e n t ,s o f t w a r es y s t e m ,a n a l y s i sa l g o r i t h m , f l o ws p e c i f i c a t i o n 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构 的学位或证书两使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 己在论文中作了明确的说明并表示了谢意。 研究生签名:量垦寒 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位 论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人 电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论 文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包 括刊登) 授权东南大学研究生院办理。 研究生签名:弓氏寒导师签名: 彳气三 , , 7 日期:川f 弓j 第一章绪论 1 1引言 1 1 1 网络发展 第一章绪论 从上世纪末以来,互联网快速走进人类的生活。这样的发展速度,出乎包括其设计者在 内所有人的意料,因此,不可避免地带来了一系列问题。问题的核心在于网络流量和规模的 快速增长导致网络行为越来越复杂,这将使人类对网络的运行和掌控面临挑战。 近年来,相关领域的研究工作越来越重视网络急剧扩张对其在可扩展、服务质量、安全 和创新性应用等方面产生的影响,于是开始重点研究网络运行的客观规律,以期望从中发现 各种问题的根源以及解决方法。然而,到目前为止研究工作还只停留在通过对网络进行测量, 探讨这一庞大非线性复杂系统所表现的未知行为,对网络运行客观规律的研究还缺乏系统的 概念和方法。 在网络测量的基础上,系统分析网络行为,获取网络中各种类型应用的流量差异,以及 影响网络性能和服务质量的因素,有助于更好地了解各种网络应用和服务的实际工作状况, 为技术和管理策略的改进提供参考。 在大规模高速网络被动测量的科研需求下,本论文的研究内容和相关工作,着重于网络 测量数据的分析系统的研究。本文将设计和实现一个大规模高速网络环境下面向代码移动的 i pt r a c e 数据分析系统l pt r a c ea n a l y s i ss y s t e mb a s e do nc o d em o v i n g ( i p 。最后_tascm) 以从中国教育网( c e r n e t ) 下属的一组省网边界信道上采集的t r a c e 为对象,利用已实现的 i p _ t a s c m 完成对该t r a c e 的一些分析工作。 1 1 2网络测量技术 网络测量的意义 1 9 7 4 年l e o n a r dk l e i n r o c k 等人在a r p r 网上对流量分布进行了测量【1 】,然而在随后的 近2 0 年中,网络测量主要侧重于对网络单一性能指标的测量,研究相应指标测晕工具,测 量的规模也较小。而9 0 年代中期以后为网络测量发展的第二个阶段,主要侧重于建立进行 全方位网络性能测量与分析的测量系统或测量基础设施。1 9 9 5 年,美国自然科学基金委员 会开始着手系统地对互联网进行测量。1 9 9 6 年初,美国应用网络研究国家实验室( n l a n r ) 在n s f 的支持下召开了互联网统计与指标分析( i s m a ) 研讨会 2 】,对进行网络测量的难点与 迫切需要解决的问题进行了探讨,标志着网络性能、测量的重要性已被政府部门、大学和研 究机构、工业界所共识,也是进行大规模、系统化网络性能测量的开始。1 9 9 7 年,成立了 依托于美国加州大学圣地亚哥分校超级计算中, 1 二( s d s c ) 的互联网数据分析合作组织 ( c a i d a ) ,对网络测量的相关理论和方法展开系统研究。i e t f 也成立了i p 性能指标工作组 ( i p p m w g ) 对i p 网络性能测量框架、指标定义与指标测量方法进行研究。网络测量的重要 性主要体现在以下几个方面: 1 )网络测量是建立精确网络模型的重要手段之一 网络的日益复杂性,使不同应用具有不同的流量特征与行为特征,仅仅利用数学仿真、 经典排队论模型进行建模和分析是远远不够的。基于测量的网络建模与分析是对理论模型进 行验证与修正的重要基准【3 】。在互联网发展的很长一段时间内,理论上的研究与分析仍然 借鉴了电路交换方式下经典的p o i s s o n 模型或m a r k o v 模型。在对互联网流量特征进行测量 后发现,其结果与p o i s s o n 模型有较人差距【4 】【5 】【6 】【7 】。因此,利用网络测量及其分析的结 论,可以更加准确的仿真模拟i n t e m e t 环境,进行网络设备设计、优化,协议开发与评价。 东南人学硕士学位论文 2 ) 网络测量为网络安全监测提供了依据 利用大规模网络测量可以对网络流量与网络拓扑的变化进行分析,对网络在异常环境下 的可生存性做出分析与评估,从而为防范大规模网络攻击提供预警手段 8 】。如在僵尸网络 监测系统的网络行为分析中就采用了每小时流数避、流平均报文数、报文平均字节等作为网 络异常的判断依据 9 1 1 1 0 1 1 11 1 ,此外超点的判别也大大促进了对整个僵尸网络拓扑结构的重 构 1 2 1 。 3 ) 网络测量为q o s 提供必要的前提 网络应用对网络传输服务提出了一组可度量的要求,主要包括带宽、端到端延迟、丢包 率、抖动等【1 3 】。不同的网络应用对q o s 有着不同需求,要求必须通过实时网络性能测量以 评估网络当前对应用的支持程度。利用网络测量技术,特别是精确的实时在线网络性能测量 可以准确地反映网络的运行状况,为实施自适应q o s 策略提供依据,保证应用的性能。 4 ) 网络测量是诊断网络运行状况、进行网络管理的重要技术手段。 通过网络测量,可以实时获取网络延迟、带宽、丢包率和抖动等网络性能参数,从而及 时了解网络运行状况,获取网络的性能视图,实施有效的网络管理。通过网络测量,可以检 测网络拥塞状况、定位网络性能瓶颈,为网络资源优化提供依据。基于对网络性能参数的长 期测量和统计分析,可以合理地分配网络资源和优化网络结构,提高资源的利用效率 1 4 1 。 网络测度 在进行网络测量过程中,必须要定义一系列定量的参数来描述测量参数和测量目标,使 用户和运营商对网络所提供的服务能力或网络的整体性能有全面、准确的理解。这些统称为 测度( m e t r i c s ) 。经典的测度主要包括链路或端到端延迟、带宽、丢包率、吞吐量、突发频率 和网络拓扑,并开展网络可靠性、稳定性、可达性等方面的分析等。 1 ) 延迟 网络延迟由传播延j 匠( p r o p a g a t i o nd e l a y ) 、传输延迟( t r a n s m i s s i o nd e l a y ) 、排队延迟( q u e u i n g d e l a y ) 、介质访问延迟( m e d i aa c c e s sd e l a y ) 和服务器响应时间( s e r v e rr e s p o n s et i m e ) 等几个部分 组成。 2 ) 带宽 网络带宽的测量包括链路带宽( 1 i n kb a n d w i d t h ) 、瓶颈带宽( b o t t l e n e c kb a n d w i d t h ) 和可用带 宽( a v a i l a b l eb a n d w i d t h ) 。链路带宽是链路的最大吞吐量。瓶宽是指没有背景流量存在时,一 条网络路径所能提供的最大吞吐量。可用带宽是指存在背景流量的情况下,一条网络路径所 能提供给某个业务的最大吞吐量。 3 ) 丢包率 数据包丢失主要是因为路由器队列满了以后无法再处理新到达的数据报文,而将数据包 丢弃引起的。其它的一些网络出错可能会导致包丢失或者包损坏,但并不是很普遍。网络丢 包率是在指定时间间隔内从客户端到服务器传输的数据包丢失的比率。 4 ) 吞吐率 吞吐率是数据报文通过网络的速率,通常表示为每秒比特( b i t sp e rs e c o n d ) ,每秒字节 ( b y t e sp e rs e c o n d ) 或者每秒包( p a c k e t sp e rs e c o n d ) 。 测量方法 网络测量的分类标准有多种 1 4 1 。根据测鼍的方式,分为主动测量和被动测量;根据被 测量者知情与否,分为协作式测晕与非协作式测蕈;根据测量点的多少,分为单点测量与多 点测量;根据测量的内容,分为拓扑测量与性能测量;根据测量所采用的协议,分为基于 b g p 协议的测最、基于t c p i p 协议的测量以及基于n s m p 协议的测量。 1 ) 主动测量 主动测量是向网络中发送探测数据包,通过对探测数据包所受网络影响而发生特性变化 2 第一章绪论 的分析,计算出所要测量的性能指标。主动测量可以获知用户感兴趣的端到端的网络状况和 网络行为,通常不需要多个节点之间的协作,具有灵活方便、可操作性强等优点。由于主动 测量不会捕获网络中现有的流量,因此不会对网络用户信息的隐私和安全造成威胁。但是主 动测量需向网络发送数据包,数据包本身会对网络性能造成影响,例如在网络发生拥塞情况 下,探测数据包可能会使网络性能进一步恶化,造成测量结果的失真,影响性能指标的可用 性与可靠性。 2 ) 被动测量 与主动测量相反,被动测量不需主动向网络发送探测数据包,而是在测量点按照一定的 策略,捕获网络流量中的数据包报头信息,实现对网络指标的分析。捕获的网络流量数据可 以实现对多种网络性能指标的分析与网络行为建模。此外也常常用被动测量来监测网络流, 如计算经过路由器或者两个网络节点问的报文数量来获得网络流龟的大小。被动测量不必发 送主动测量包,所以不会占用网络带宽,对网络影响较小,可以获得更为准确的测量结果。 但是被动测量也具有缺点,难以了解端到端的性能,也难以获取全局性能视图,并且测量时 需要多方的协作,因此测量范围受限,实现复杂度较高。在高速网络中,测量结果的准确度 依赖于包捕获器的性能和抽样方法。另外,被动测量需要捕获和分析用户数据包信息,可能 会侵犯用户隐私,影响网络的安全。 1 2论文研究背景 1 2 1 相关工作 网络测量对于研究i n t e m e t 拓扑结构和流量特征,优化网络结构,实施有效管理,保障 网络安全均有非常重要的意义,因此国内外开展了大量的研究项目。以下介绍一些有代表性 的网络测量项目。 1 ) n l n a r 为了加强对互联网的研究,美国国家科学基金n s f 资助成立了网络应用研究国家实验 室n l a n r ( n a t i o n a ll a b o r a t o r yf o ra p p l i e dn e t w o r kr e s e a r c h ) 【1 5 】。n l a n r 由三个研究小组 组成:依托于美国伊利诺斯大学,国家超级计算应用中心的分布式应用支持组,旨在为分布 式的高性能网络应用提供支持,并开发一些网络工具;依托于美国卡耐基梅隆大学匹兹堡超 级计算中心的工程服务组,旨在为高性能的广域网提供支持;依托于美国加州大学圣地亚哥 分校圣地弧哥超级计算中心的测量分析组,负责测量高速网络站点的性能,并进行网络流量 等网络性能数据的分析。n l a n r 开展了主动测量工程、被动测量和分析工程等多个研究项 目。 2 ) a m p 主动测量工程( a c t i v em e a s u r e m e n tp r o j e c t ) 1 6 是n l n a r 的测量分析组( m e 踟e m e m a n d a n a l y s i s t e a m ) 开展的两个核心研究项目之一,旨在测量和分析通过高速网络互联的网络 节点间的性能。a m p 采用主动测量方式测量网络同路延迟、丢包率、拓扑结构和网络吞吐 量等网络性能参数。a m p 的测量数据能够帮助网络工程设计人员和研究者,监测和分析日 益增长的网络流量及其对网络的影响,并根据网络流量的长期形态特征优化和升级网络体系 结构。 3 )p m a 被动测量和分析t 程( p a s s i v em e a s u r e m e n ta n da n a l y s i s ) 【l7 】是n l n a r 的测量分析组开 展的两个核心研究项目之一,旨在深入研究i n t e m e t 的网络形态和健壮性,并为高性能网络 ( 如v b n s ,a b l i e n e 等) 提供协作性的服务支持。p m a 采用被动测量方式监测网络性能,不 干扰网络的正常行为。p m a 监测生成的被动报文头跟踪数据,可用于在高速网络环境下研 3 东南大学硕上学位论文 究网络流量、链路负载等网络性能参数。 4 )n i m i n i m i ( n a t i o n a li n t e m e tm e a s u r e m e n ti n f r a s t r u c t u r e ) 【l8 】是在b e r k e l e y 大学v e mp a x s o n 设 计的n p d ( n e t w o r kp r o b ed a e m o n ) 基础上建立的第一个进行全球大规模端到端i n t e m e t 行为 测量的基础设施。n i m i 采用层次体系结构与主动测量技术,在网络中不同的测晕点部署人 量的测量探针( p r o b e ) ,实现对网络动态行为的测量。n i m i 还是一个开放的基础设施,对任 何指标的测量都可以作为第三方测量工具集成到基础设施中,而无需对探针进行修改。 5 ) c a i d a 依托于美国加州大学圣地亚哥分校圣地哥超级计算中心的c a i d a ( c o o p e r a t i v e a s s o c i a t i o ni n t e m e td a t a a n a l y s i s ) 1 9 2 0 ,是众多研究机构、厂商和政府部门支持的一个研 究联盟,开展网络测量、分析、可视化工具的研发,维护全球冈特网平台的健壮性和可扩放 性,并提供支持协同工作的一个中立框架。c a i d a 的研究对象包括i n t e m e t 拓扑结构、网络 负载、网络性能、网络路由,监测正异常活动,关注带宽估计,负载刻画,长期趋势识别, 以进行流量工程设计、能力计划、安全迹象检测等【1 4 】。c a i d a 推出了一系列测量工具, 如c o r a l r e e f f 21 ,s k i t t e r 2 2 ,e f l o w d 2 3 等 6 ) i e t f 和l p p m 互联网工程任务组i e t f ( t h ei n t e m e te n g i n e e r i n gt a s k ) 是由关注互联网建设和发展的工 程研究人员自发组织和管理的国际民间机构。i e t f 的主要任务是负责互联网相关技术规范 的制定,目前己成为全球研究互联网最具权威的大型技术研究组织。i e t f 中的i p 性能度量 工作组,负责研究网络性能及制定性能参数的测量标准。 7 ) s u r v e y o r s u r v e y o r 工程【2 4 】是由非盈利性国际学术研究组织a d v a n c e dn e t w o r k & s e r v i c e si n c 1 6 】 开展的一个研究项目,s u r v e y o r 的主要目的是在建立测量基础设施和实现对指标测量的基础 上,使用户和各级服务提供商能够对i n t e m e t 路径的可靠性与性能有比较准确的认识【2 5 】。 s u r v e y o r 采用i p p m 定义的标准测量方法,采用主动测量方式测量i n t e r n e t 的路径性能,包 括单向延时、损耗、路由拓扑等。 随着网络测量的持续开展,测量数据的规模迅速增长,对应的统计分析工具、软件和分 析结果的数量、规模也随之增长,研究工作开始面临各种新的问题。国际上一些测量机构针 对测量数据的管理问题进行了相关研究,主要侧重于测量数据的跟踪、反馈和提高可用性。 相关工作主要有: 1 ) s c a l a b l ei n t e m e tm e a s u r e m e n tr e p o s i t o r y ( s i m r ) 可扩展网络测晕知识库( s i m r ) 【2 6 】:s i m r 是一种用于管理网络测量数据和相关元数据 的可扩展互联网测量知识库。它以一个集中式数据库为中心。相关元数据包括用户信息、测 量工具、数据采集平台和部署位置、数据特征、实验内容、与其它数据集合的关系等。建立 该知识库系统的目的是协助研究人员收集大量种类繁多的测量数据,促进研究团体内部的数 据共享,并允许研究人员利用共享的分析工具和测量数据验证他人的研究成果。从本质来说, 可扩展网络测量知识库是一种提供集中式共享存储空间的管理信息系统。s i m r 包括了三个 方面:测量存储目录,用于存储真正的测量结果。用户,即通过页面下载测量数据的研究人 员。一个集中式数据库。但是s i m r 并不是一个公开的数据库,而是只接受那些已知的用户 的操作。结构图见图1 1 : 4 第一章绪论 图1 - 1s i m r 结构图 2 ) m o n i t o r i n ga n dm e a s u r e m e n tc l u s t e r ( i s t - m o m e ) i s t - m o m e 数据库:m o m e 2 7 1 项目建立i s t - m o m e 数据库,目的是为欧盟的信息社会 计划在l p 网络监控和测量方面提供协同。i s t - m o m e 数据库通过统一接口提供符合公共标准 格式的数据,包括报文、流、路由信息、q o s 数据等。某些数据还附有分析结果,包括平均 流量、报文大小、到达速率、到达间隔时间等,并且以直方图等图形方式显示了部分分析结 果 2 8 1 。此外,它也提供一些网络监控和测鼍工具。与s i m r 相比,i s t - m o m e 数据库更注重 共享数据的格式标准化。i s t - m o m e 的整体结构图如图1 2 : 图1 2l s t _ m o m e 整体结构图 5 东南大学硕士学位论文 3 ) i n t e r n e tm e a s u r e m e n td a t ac a t a l o g u e0 m d c ) c a i d a 网络测量数据目录( i m d c ) 2 9 :由于采集的主动和被动测量数据增长迅速,科 研人员遇到了很多困难,于是c a i d a 在2 0 0 1 年向美国国家科学基金会提出建立一个注册和 注释测量数据的公共系统,该系统能够与c a l d a 的测量数据以及其它网络测量数据良好协 作,目的是为研究人员提供测量数据分布和相关研究工作的检索服务1 6 j 。它可以使得科研人 员标注数据集,并且对使用数据集过程中发现的问题和新特点进行反馈,增加其实用性。与 此同时,可以使得数据集的文档更加完备,通过逐渐扩充数据集和标准的数据标注,研究人 员可以方便的查找自己所感兴趣的内容并找到答案。2 0 0 2 年,c a i d a 正式开始建立 i m d c ( i n t e m e tm e a s u r e m e n td a t ac a t a l o g ) 。i m d c 在设计过程中借鉴了s i m r 和i s t - m o m e 数 据库,并将与i s t - m o m e 数据库和其它网络测量知识库的综合和交互,作为其将来工作的重 点之一。与s i m r 和i s t - m o m e 数据库相比,i m d c 不提供测量数据的集中共享,也不将测量 数据转化为特定的标准格式,而是试图对分布在整个互联网范围内的测最数据进行有效跟 踪,并着重于对测量数据的描述。 在实现以上这些系统的过程中,均需要用到存储测量工具元数据的平台,而网络上提供 了很多这方面的开源软件,其中较为常用和知名的有: 1 )s o u r c e f o r g e s o u r c e f o r g e 3 0 的目标是在开源范围内提供协作发展。它提供了一个开源代码和应 用的大型目录。特点在于用户注册与认证,论坛系统,针对每个项目工程的用户管 理,工程搜索工具( 例如通过描述和名称等) ,代码下载地址和信息等。 2 ) s o u r c e w e l l s o u r c e w e l l 31 】是一个软件应用发布和下载的系统。s o u r c e w e i l 的设计理念和 s o u r c e f o r g e 相类似,同样基于用户认证,支持多语言,邮件列表等。而目标也是为 开源领域提供一个中立的平台。它是由在b e r l i o s 的一个研究小组所维护和支持的。 3 ) f r e s h m e a t f r e s h m e a t 3 2 同样是一个开源软件的目录系统,用于为用户提供应用软件的信息 等,而很多基于u n i x 的应用软件也被收录在f r e s h m e a t 的数据库中。它所提供的功 能和信息有:用户管理和认证,目录信息搜索,基于w e b 的管理和软件下载链接等。 1 2 2面临的问题 虽然网络测量具有以上提到的诸多重大意义,但是被动测量需要将海量网络数据全部或 者经过抽样后采集到本地,然后进行科学研究,这样的测量方式存在的主要问题之一在于信 息共享:在网络测量研究中,科研人员已经做了大量的工作,但是其中很多工作是相同或者 相似的,尤其是一些基础性数据测量分析,然而由于没有很好的代码共享机制,每个科研人 员都需要从最基本的编码工作开始完成,使得在重复性的t 作上花费了大量精力。此外,一 个有价值的网络测量结果从得出到被广大科研人员所认可需要一段较长的时间,当其他科研 人员需要验证或者使用该数据与工具的时候,可能数据和分析工具已经被删除或移动。 在已实现的网络测鼍信息共享系统,例如i s t - m o m e ,s i m r 和i m d c 中,对测量实例、 科研数据和分析工具的属性进行了详细的统计和关联,方便科研人员对其进行查询。其中一 些还提供了论坛功能,并且允许用户对数据和工具等进行评价和注释,所有用户共同维护信 息。然而这些系统仅仅对于元数据进行了存储,例如科研工具和数据的u r l ,并没有对这 些要素本身进行存储。虽然这些系统对各种信息进行了有效的共享,但是仍然存在其他的问 题: 1 )代码安全:以上系统中仅仅提供分析工具的下载点,并不对代码的安全性进行验证, 因此恶意用户可以通过向信息共享系统添加错误的记录使得科研人员下载这些代 6 第一章绪论 码并执行恶意操作。 2 )数据及工具卜载点有效性:由于各科研机构可能会对所存储的网络数据和工具进行 定期或者不定期的更新和删除,这就给下载点的跟踪带来了很大的挑战,而且存放 在存储介质中的测鼍数据,会因为可能发生的硬件损坏而丢失,这将使得一些测量 实例变得不可重复。 3 )海量数据下载:大多数科研机构选择将数据下载到本地后再进行科学计算,数据不 能进行有效的共享,然而在全流量被动测量中,数据鼍已达到t b 级,目前网络带 宽有限,用户数量庞大,导致下载速度较慢,尤其是国际流量的下载。另一方面, 对于国际流量的下载可能会涉及到高额流量费用的问题。 4 )计算资源共享问题:如果处理的数据量达到t b 级,要考虑使用小型机或者运算能 力相当的高性能计算设施,如高性能计算机集群系统。这些硬件设施需要较高投入, 一般科研机构不具备条件。 1 3i pt a s c m i pt a s c m ( i p t r a c e a n a l y s i ss y s t e mb a s e do nc o d em o v i n g ) 是中国教育和科研计算机 网( c e r n e t ) 华东( 北) 地区网络中心针对上面所讨论的问题,在国家重点基础研究发展规 划( 9 7 3 ) 课题“网络动态行为和传输控制理论”的支持下,设计的一个实用的数据分析系统, 它可以完成对包括原始i p t r a c e 数据的采集、管理、分析算法的复用、结果共享等功能的支 持,为网络行为学研究提供数据分析工具和共享计算平台。更具体来说,它能够支持对网络 测量中的科研数据,分析算法和分析结果的信息进行详尽的统计、归类与管理,并在本地存 储,方便科研人员对其查找和使用。除了系统中集成的分析算法和科研数据外,用户可以将 自己编写的算法进行上传,同时可以提出申请要求i pt a s c m 对数据进行采集和下载。该 系统的最大特点在于提供了共享计算平台,用户可以指定数据和分析算法在系统的安全监测 下进行科学分析工作。 考虑到i pt a s c m 系统的最终目标是能够提供开发的服务,所以不便采用完全集中式 结构,即所有的网络数据、分析算法、测量结果以及数据库全部存储在一台服务器上,这是 因为系统暴露在攻击者的视野下,带来了更多的安全隐患,主要体现在: 由于要向所有注册用户提供交互平台,所以任何外部主机均可以对系统所在服务器 进行访问,给黑客的直接攻击提供了机会。 注册用户中可能隐藏着恶意用户,而这些用户可以先将恶意代码上传至系统,再通 过配置任务运行该代码,从而对系统进行破坏,这也给系统的安全管理机制带来了 很大的问题。 所有重要信息均存储在同一台服务器上,所以一旦系统被攻破,则可能所有数据均 被毁坏。虽然数据库和代码等可以在其他服务器上进行备份,但是由于t r a c e 往往 达到t 级别,所以难以全部备份,如果造成损失将是不可恢复的。 为了解决以上问题,i pt a s c m 由外部子系统和内部子系统组成,整体结构见图1 3 : 浏览器用户: 数据采集器 w a t c h e r 外部子内部执行 浏览器用户i 系统子系统 数据收集器 g a t h e r 7 东南大学硕士学位论文 图l i p t a s c m 整体结构图 注册用户通过外部子系统进行操作,外部子系统对用户的执行请求进行处理后通过通信 接口与内部子系统进行命令传输,内部子系统对命令进行解析并调用相应的处理程序,对数 据库表项进行更新等,将程序返回值反馈给外部子系统。外部子系统根据返回值做出相应的 处理显示给用户。 1 4 论文研究目标和主要内容 1 4 1论文研究目标 本论文的目的是完成包括用户信用评价在内的内子系统和相关接口的设计、实现和测试 工作。更具体的描述如下: 1 ) i pt a s c m 内部子系统:完成面向代码移动的大规模网络数据分析系统 ( i pt a s c m ) 内部子系统的设计与实现,该系统对网络测量中的要素:网络数据、 分析算法和测量结果进行有效的管理,提供高效和多粒度的查询方法。为科研人员 提供共享计算平台,通过该平台用户可以自行上传分析算法,提出任务申请指定数 据和分析算法在平台上完成科学分析工作。此外,系统可以根据用户需求对数据进 行采集和下载。 2 ) 用户信用评价体系:提出一套基于开放性系统的用户信用评价体系,综合考虑影响 用户信用的因素,对用户进行分级管理,同时对用户行为进行划分,并为不同的行 为设定相应的分数。 3 ) 数据分析系统的测试方案:设计一套测试方案,从功能完备性,系统安全性等方面 对该数据分析系统进行测试。并用该系统对从教育网江苏省网边界采集的一组科研 数据进行分析,得出一些有用的结论。 1 4 2论文研究内容 数据分析系统 1 ) 体系结构的设计:研究系统的体系结构,该结构应使系统具有良好的可扩展性,方 便集成新的任务处理模块,同时具有较好的可操作性,较高的自动化工作效率。所 以,应从系统整体角度,综合考虑系统安全性,可扩展性,可操作性以及自动化程 度,进行系统模型设计,该体系结构要具有清晰的控制流和数据流。 2 ) 系统自动化运行:系统运行和日常管理的工作量十分庞大,要尽可能的减少人工参 与来提高系统的工作效率,减少人工误操作。与此同时,需要设置系统的关键点, 在这些环节需要管理员的批准审核,从而保证系统的安全性。此外如何实现这些流 程的自动化也是要解决的重要问题之一。 3 ) 通信接口的设计:在外部子系统、内部核心控制系统、数据采集器和数据下载器之 间有大量的命令和数据需要传输,对命令进行合理的编码,使得命令可以进行安全 高效而无歧义性的传输,同时设置各端系统之间采取的传输模式,对等传输模式或 者c s 传输模式。 4 ) 用户、代码和数据管理:根据用户评价体系对系统的用户进行级别划分,并为每个 级别的用户赋予相应的权限。对上传代码进行隔离管理,防止非授权使用及破坏。 用户对数据的定制、下载和系统内数据的更新删除也需要制定合理的策略。 5 ) 任务参数的配置:不同用户编写的程序对参数有不同的格式要求,这就涉及到如何 将用户定义的数据格式,用一种标准的语言进行描述,并且必须是程序可理解的。 需要寻找一种合适的数据描述语言,并研究在程序中如何提交配置参数和如何对使 8 第一章绪论 用该语言的描述脚本进行解析。 用户信用评价体系 提出一套用户信用评价体系,在该体系中对用户进行信用管理,考虑影响信用的各种因 素,并将用户的行为进行分类,为每一类赋予相应的分数,当分数增加或者降低到一定阈值 时对用户进行奖惩,从而在约束了用户不良行为的同时也鼓励用户进行更多有意义的操作。 将该用户评价体系应用剑i pt a s c m 上。 系统测试 对系统各个功能模块进行测试,分别以不同用户身份登录系统,验证所有功能的完备性。 而测试重点为用户分析算法的上传与数据分析功能,即利用i pt a s c m ,对从教育网江苏省 网边界采集的数据进行分析,目的是提出一种可操作的方法,对组流过程中不同流规范的代 价和精度以及它们之间的关联程度进行定量的分析。 1 5课题来源课题采源 论文研究依托于中国教育和科研计算机网( c e r n e t ) 华东( 北) 地区网络中心承担的 国家重点基础研究发展规划( 9 7 3 ) 课题“网络动态行为和传输控制理论”( 课题编号: 2 0 0 3 c b 3 1 4 8 0 4 ) 。该课题是国家重点基础研究项目“新一代互联网体系结构理论研究”的重 要组成部分。课题围绕“网络动态行为及其可控性”这一科学问题,对该问题的研究将解决 未知的网络行为与确定的传输控制目标之间的矛盾。 目前,该9 7 3 课题组已经开展的研究工作主要有流行为研究、流测度研究、流分类技术、 应用层协议识别、流识别算法研究、报文和流的抽样算法研究、t c p 连接完整性研究,以 及数据净化等。这些研究都需要使用从网络上采集的i pt r a c e ,进行各种实验。实验中存在 很多相同或者类似的工作,因此针对9 7 3 课题组涉及的数据分析处理中的通用需求,设计一 个具有可扩展性的i pt r a c e 数据分析系统,用于在以后的研究工作中不断集成各种可以复用 的数据分析算法,具有现实意义。 本论文课题基于此,论文研究工作中设计和实现的数据分析系统,将为9 7 3 网络行为学 课题提供一个基础性的保障设施。 1 6论文组织结构 第一章对网络测量的历史和发展现状进行了概括与分析,提出了用于被动网络测量管理 系统的必要性,并对已有系统进行了简要介绍。最终确定了论文的研究内容和难点,明确了 研究目标。 第二章进行了需求分析,提出了i pt a s c m 的设计原则:数据共享,代码共享,测量 结果共享以及计算资源共享。随后介绍了系统提供的功能,包括用户管理,数据管理,分析 算法管理,日志管理,任务的提交与运行和数据查询等。 第三章重点介绍了内部子系统的结构设计,其中包括控制与功能模块,数据库,t r a c e 库,代码库,任务库,数据下载系统以及数据采集系统。并对管理员和普通用户的功能进行 了划分。 第四章在前几章系统需求分析,功能和结构设计的基础上,给出了i pt a s c m 内部子 系统的整体工作流程,以及用户、t r a c e 、分析算法和任务等功能的详细工作流程。 第五章介绍了系统中使用的规则和策略。首先对用户进行分级管理并赋予相虑的权限。 将用户行为分为对系统有益的操作、普通操作和恶意操作,对其进行量化及评分,设立相应 的奖惩措施。接下来介绍了根据系统状态自动调整任务并行度的算法,管理员审核策略和日 志备份策略。最后给出了系统关键要素的命名规则。 9 东南大学硕士学位论文 第六章主要介绍了i pt a s c m 的实现,其中的重点为执行子系统的总体流程和各个模 块的工作流程,此外也介绍了系统实现环境、命令传输方式和数据库的实现等。 第七章对己实现的系统进行测试,首先验证其功能的完备性。然后利用i pt a s c m ,对 从教育网江苏省网边界采集的数据进行分析,对组流过程中不同流规范的代价和精度以及它 们之间的关联程度进行定革的分析。最后对系统任务调度算法进行了测试。 第八章对论文工作进行总结,并对系统中存在的不足提出改进意见,同时对朱来工作进 行了展望。 1 0 第二章内部子系统需求分析和功能设计 第二章内部子系统需求分析和功能设计 众所周之,在软件生命周期中,需求分析( r e q u i r e m e n t sa n a l y s i s ) 是最重要的一个阶 段。因此,本文将首先讨论系统的需求分析以及功能设计,为系统的结构设计和实现做好准 备工作。 2 1内部子系统需求分析 被动网络测量的两大要素是数据和分析算法。其中数据主要来自于科研机构的数据发布 系统或者通过研究者自行采集,这就使得不具备数据的科研人员必须将数据下载至本地后再 进行分析,但是这种方式带来了很多问题。首先,数据通常较为庞大,对其进行下载需要占 用大量网络带宽,这会使得已经日益不足的网络资源变得更加紧张。其次,如果是对国际科 研数据的下载,通常导致下载速度过慢,甚至等待时间超出可忍受的范同,而且也将导致国 际流量费用的增加。此

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论