




已阅读5页,还剩57页未读, 继续免费阅读
(计算机应用技术专业论文)p2p在east数据系统中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 e a s t 超导托卡马克装置已经在中国科学院等离子体物理研究所建设完成, 开始运行。为支持物理研究,设计开发了一个诊断、数据采集和处理系统一一 e a s t 数据系统。这个系统是一个具有多模块的具有高度自治操作能力的分布式 计算机系统,它的前身h t 7 u 数据系统是基于c s 模式设计的。但是随着e a s t 实验的进行与深入,基于c s 方式的e a s t 数据系统将难以满足实验的需要,因 此,要求我们建立新的数据系统,提高系统性能,满足实验的需要。 基于p 2 p 的e a s t 数据系统将为e a s t 实验提供数据采集和处理。在p 2 p 方式下,在线系统和离线系统都采用了类似n a p s t e r 的体系结构。在实验数据采 集过程中,数据被分布式地存储在数据采集子系统本地,然后再传输到数据服务 器。在线系统索引服务器用于对原始数据建立索引。p cc l i e n t 可以通过p 2 p 结 构直接访问采集子系统上的原始数据,这样可以缩短从开始放电到原始数据可用 的时间及完成数据处理与绘图的时间。在离线系统中,索引服务器只管理少量的 索引信息,提高了系统负载能力,p cc l i e n t 既可以作为客户端又可以作为服务 器,可以充分利用系统资源,使网络负载趋于平衡,提高系统性能。 我们分别在l i n u x 和w i n d o w s 环境下实现了e a s t n a p 索引服务器程序和 e a s t s c o p e 等客户端程序。程序中使用了通用的s o c k e t 编程函数,并通过p o l l 等函数对多个连接进行管理。我们将设计实现的程序在h t 7 实验中进行了试用。 使用分析、仿真等技术分别对在线系统和离线系统进行了性能评价。分析和仿真 都表明,与基于c s 方式的e a s t 数据系统相比,基于p 2 p 的e a s t 数据系统可 以大大减少在线系统原始数据的完成时间和实时处理时间,并且可以增加离线系 统的工作负载能力,减少系统延迟时间。 关键词:c s 系统;p 2 p 系统;数据采集;实时分析与显示;性能评价 a b s t r a c t t h ee x p e r i m e n t a la d v a n c e ds u p e r c o n d u c t i n gt o k a m a kh a sc o n s t r u c t e da tt h e i n s t i t u t eo fp l a s m ap h y s i c s ,c h i n e s ea c a d e m yo fs c i e n c e ac o m p u t e rd a t as y s t e m t h ee a s td a t as y s t e m h a sb e i n gd e s i g n e dt os u p p o r tt h ep h y s i c sr e s e a r c ha c t i v i t i e s b yp r o v i d i n gd i a g n o s t i cd a t aa c q u i s i t i o na n dd a t aa n a l y s i s t h es y s t e mi sad i s t r i b u t e d c o m p u t e rs y s t e mw i t l lah i g hd e g r e eo fm o d u l a r i t ya n dc a p a b i l i t yf o ra u t o n o m o u s o p e r a t i o n t h ep r e v i o u sd e s i g nf o rt h ee a s td a t as y s t e m ( n a m e dh t - 7 ud a t as y s t e m ) w a sb a s e do nc sm o d e b u tw i t ht h ei m p r o v e m e n to fe a s te x p e r i m e n t ,t h e c s b a s e de a s td a t as y s t e mh a sb e e nu n a b l et om e e tt h e r e q u i r e m e n t so f e x p e r i m e n t s s ow en e e dt od e s i g nn e w d a t as y s t e mt oi m p r o v es y s t e mp e r f o r m a n c e ap 2 p - b a s e de a s td a t as y s t e mw i l lp r o v i d ed a t aa c q u i s i t i o na n da n a l y s i s s u p p o r tf o rt h ee a s ts u p e r c o n d u c t i n gt o k a m a k i nt h ep 2 pe n v i r o n m e n t ,b o t ho n l i n e a n do f f i i n es y s t e m sa r eb a s e do nn a p s t e r - l i k ep 2 pa r c h i t e c t u r e i nt h ec o u r s eo ft h e e x p e r i m e n t , a l lc o l l e c t e dd a t aa r es t o r e di nt h ed a t aa c q u i s i t i o ns u b s y s t e m sl o c a l l y , a n dt h e nt r a n s m i tt ot h ed a t as e r v e r s o nt h eo n l i n es y s t e r m , t h ei n d e xs e r v e ri su e s e d t om a n a g ei n d e xt a b l ef o ra l ll a wd a t a p cc l i e n t sc a l la c c e s st h er a wd a t ad i r e c t l y u s i n gt h ep 2 pa r c h i t e c t u r e t h i sc a ns i g n i f i c a n t l yr e d u c et h ec o m p l e t i o nt i m eo fr a w d a t ad i s p l a ya n dr e a l - t i m ep r o c e s s i n g o nt h eo f f i i n es y s t e r m ,t h ei n d e xs e r v e ro n l y m a n a g ea f e wi n d e xi n f o r m a t i o n ,a n dp cc l i e n ta c tb o t ha sac l i e n ta n da sas e r v e r t h e s ei m p r o v et h ee f f i c i e n c yo ft h es y s t e m w ed e s i g n e dt h e e a s t n a pa n de a s t s c o p e i nl i n u xa n dw i n d o w s e n v i r o n m e n t sr e s p e c t i v e l y , a n du s ep o l lf u n c t i o nt om a n a g ec o n n e c t i o n s t h en e w d e s i g n e dd a t as y s t e ma r ei m p l e m e n t e da n du s e d0 1 1t h ee x i s t i n gh t - 7t o k a m a kf o r t e s t i n g a na n a l y s i st e c h n i q u ea n d as i m u l a t i o n - b a s e dm e t h o da r eu s e df o r p e r f o r m a n c ee v a l u a t i o n c o m p a r i n gt h ep 2 p - b a s e ds y s t e mw i t ht h ec s - b a s e ds y s t e m , b o t hs i m u l a t i o na n da n a l y s i ss t u d i e si n d i c a t et h a tt h en e wd e s i g n e dp 2 p b a s e ds y s t e m c a ns i g n i f i c a n t l yr e d u c et h ec o m p l e t i o nt i m eo fl a wd a t ad i s p l a ya n dr e a l t i m e p r o c e s s i n go fo n l i n es y s t e m , a n dr a i s et h ew o r k l o a dc a p a c i t ya n dr e d u c et h ea v e r a g e d e l a yo ft h eo f n i n es y s t e m k e yw o r d s :c l i e n t s e r v e rs y s t e m s ;p e e r - t o - p e e rs y s t e m s ;d a t aa c q u i s i t i o n ;r e a l - t i m e a n a l y s i sa n dd i s p l a y ;p e r f o r m a n c ee v a l u a t i o n 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得丕鲞盘堂或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:赵 苄辛 签字日期: 讪1 年后月,岁日 学位论文版权使用授权书 本学位论文作者完全了解基盗苤堂有关保留、使用学位论文的规定。 特授权墨洼盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:起f 韦丰 签字日期:伽1 年月f 厂日 聊躲移交条 签字日期妒7 年月厅日 第一章绪论 1 1 课题背景 第一章绪论 1 1 1 核聚变研究的发展现状 众所周知,能源是人类社会生存和发展所必须的。随着地球上不可再生资源 的枯竭,能源危机日渐逼近,开发和利用更为广泛、清洁和高效的新能源已迫在 眉睫。 近代物理学的发展使核能的和平利用得到了进一步的发展,核能的获取主要 有两种方法:一种是由重原子核裂变释放能量;另外一种是由轻原子核聚变释放 能量。核裂变能现在已经成为人类能源的一个组成部分,但其存在燃料的有限性 和潜在的放射污染等问题。而核聚变与核裂变相比具有资源无穷性、环境可接受 性以及经济竞争性等优势,因此核聚变能作为一种目前人类所能认识到的可最终 解决人类能源和环境问题的新型能源已进入了全球科学家的视野。但要作为稳定 的、能广泛使用的能源,核聚变反应必须是稳态可控的,因此诞生了一个新的研 究领域:受控热核聚变。该领域的研究目标是:在实验室中产生可控的人造“小 太阳”,并最终建立具有商业价值的聚变能电站,使人类的能源问题得到彻底解 决,为人类的可持续发展提供保证。 随着和平利用热核聚变能的研究工作的发展,托卡马克( t o k a m a k ) 环形磁 约束热核聚变研究取得了巨大的进展,世界上多个国家都在进行研究,同时各国 也正在合作建设i t e r ( 国际热核聚变实验堆) ,该装置的建设标志着人类在能源 利用方面有了新的发展。尽管国际上在核聚变研究上取得了一系列的重要进展, 但是何时能够建造经济实用的聚变堆,目前国际上尚无定论。 随着中国核聚变研究的发展,中国科学院离子体物理研究所( a s i p p ) 在1 9 9 4 年底建成中国第一台超导托卡马克装置h t - 7 ,在此基础上,又在国家“九五 大 科学工程中立项,自行设计、建设了下一代核聚变实验装置一一e a s t ( e x p e r i m e n t a la d v a n c e ds u p e r c o n d u c t i n gt o k a m a k - - 一实验型的先进超导托卡马 克装置,原名h t - 7 u ) 翻,装置全貌如图i - i 。该装置具有真正意义的全超导和 非圆截面特性,它是世界上第一台全超导非圆截面托卡马克装置,它的主要科学 目标是探索稳态的先进运行模式,并为发展国际i t e r 奠定物理和工程技术基础。 在经过科研人员的努力后,e a s t 于2 0 0 6 年9 月2 6 日成功的进行了首轮放电实 第一幸绪论 骑。该装置的建设完成标志我国在核聚变装置开发方面取得了重要的突破,同叫 也标志着我国在同类核壤变研究方面进入世界先进行列。 图1 1e a s t 核聚变装置 1 1 2p 2 p 网络技术的发展及研究现状 现在,大多席片j 的计算模型都是传统的c s ( c l i e n t j s e r v e r ) 模型。在这种模 型中,服务器- 般棚有大繁的资源它负责对所有p cc l i e n t 提出的资源或者数 据请求作响麻。冈此,存这种模型中服务器及其周边嘲络可能成为整个网络系 统的颈瓶。在最近几年一种称为p 2 p ( p e e r - t o - p e e r ) 的新的例络体系结构正曲二 运渐被人们重视。这种系统结构的特点是网络巾的所有节血以不通过中央服务 器而上接丰日可:访问、一u 虬利刚网络中性能较强的训算机完成本机无洁宽成的1 ;_ f = 务。现在的p c 机都具有非常强大的处理能力、非常天的内存以及大量的硬盘空 川,他们在进行普通的计算仃务时都没有被充分利用。明此,对许多廊用米蜕, 现在的p c 机既可以用作c l i e n t 又可以用作s e r v e r 。 p 2 p 网络相比传统的c s 网络有很多优势:”r 以共享网络中的处理能力、对 分布式计算仃务分配计算资源、允许本地资源直接共享而不需要中间服务器c 因 此,整个p 2 p 网络的成本非常低网络中心和边缘的数据资源都可以被共享; p 2 p 网络存易扩展,比单个服务器的网络可靠,它可以避免服务器失效带来的颈 瓶问题。作为分布式系统,p 2 p 系统需要实叫的姓刊节m 的加入和离开t 使系统 处于稳定状态。p 2 p 系统可以使网络负载均衡允许多对节点同时进行通信,闻 此效率非常高。 p 2 p 阿络其有以下实用特点: 第一章绪论 数据共享 一可以共享多种类型的数据,如二进制文件、文本文件、音频、视频文件等 一对同一个文件可以存储多个复本 可以从多个数据源同时下载数据 一可以通过关键字、属性等查找数据 资源共享,如c p u 、存储能力 一分布式计算处理 网络负载平衡 通信安全 p 2 p 文件共享体系结构可以根据它们的集中度进行分类,如它们对使用服务 器来维护节点之间的互动的依赖程度,依此标准p 2 p 系统可以分为两类:纯分布 式和混和分布式口1 。 在纯分布式系统中,网络中的所有节点执行相同的任务,他们既充当服务器 又作为客户端,网络中没有设备对他们进行协调管理。g n u t e l l a 跚和f r e e n e t 雎是 纯分布式的典型例子,它们网络中的每一个节点都是一个“s e r v e n t ” ( s e r 、,e r s + c l i e e n t s ) ,它能够完全平等的与相连接的其它节点通信。每个用户 必须从一个节点到另一个节点发布查询信息。在这种方式下,如果要查找所需要 的文件,必须在网络中广播大量的查询包,容易导致网络拥塞,并且查找时间较 长,波动性大。 然而,现在网络中广泛使用的文件共享系统j t e i n a p s t e r 阳3 并不适合这个定义, 因为它的一些节点具有特殊的功能。例如,在n a p s t e r 中,一个服务器节点对所有 用户拥有的文件建立了一个索引表,用户到服务器上查找他感兴趣的文件,如果 找到并定位了该文件所在的机器,则直接从拥有该文件的机器进行下载。我们称 这种系统为混和系统,因为系统中有p 2 p 和c s 两种结构元素共存。当前,混和文 件共享系统具有比纯分布式系统更好的性能,因为对查找这样的任务它会更快更 有效。 1 1 3 核聚变装置数据采集与处理系统 随着计算机的发展,数据采集与处理已经成为计算机应用的一个重要分支。 在现实生活中,我们要研究某种物理现象,首先要采用一定的技术手段来观察和 了解这一物理现象,然而很多物理现象无法通过人的直接观察来了解其规律,这 就需要我们通过一定的仪器设备将其信息转换为人能够直接观察的对象。我们在 使用计算机进行这种转换时就需要使用数据采集与处理系统d a p s ( d a t a 第一章绪论 a c q u i s i t i o na n dp r o c e s ss y s t e m ) ,如图1 - 2 。 物测采通 计 理 量 卜、 集 卜、 讯 入 算 对系 萱 接 象统 机 兀口 图1 - 2 数据采集与处理系统 d a p s 与被采集的对象以及使用的采集手段和计算机系统是密切相关的。每 个d a p s 都有其独特的特点,数据采集与处理系统在核物理实验中获得广泛应用 开始于7 0 年代。核聚变实验装置具有独特的工作方式:它以脉冲方式工作,放 电时数据流的脉冲速率很高,要求采集的数据量很大,并且要求在放电间隔时间 内对部分关键数据进行实时处理与显示;放电周期不长。如e a s t 设计每次放电 时间1 0 0 0 秒,放电周期大约为1 5 分钟,每次放电需要采集大约2 0 0 0 个通道的 数据,数据量可达3 2 g b 。 针对这些特点,经过几十年的发展,应用于核物理实验的d a p s 不再是只进 行数据采集的简单系统,而是包含了实时监控、数据采集、实时处理、数据存储、 数据传输等功能的复杂系统。 a s i p p 现在使用的数据采集软件是m i t 研制的m d s ,物理信号经过传感器 变为电信号,传至c a m a c 机箱上的放大器,经过放大后传至a d 转换器,a d 转换器将模拟信号转换成数字量,然后存放在c a m a c 的本地缓存中。m d s 软 件在放电前需要进行初始化,完成采集运行参数的设置,放电结束后再对采集得 到的数字量进行后续的处理。 在a s i p p 建立e a s t 核聚变实验装置的同时,为支持物理研究,一个为e a s t 物理实验提供数据采集和处理的数据系统,也处于同步开发之中。这个系统是一 个具有多模块的具有高度自治操作能力的分布式计算机系统。 现在运行的e a s t 数据系统( h t 7 u 数据系统) 是基于c s 模式设计的,它 的多个服务器用于存储数据,并通过c s 模式为p cc l i e n t 提供数据分析。随着 e a s t 实验的不断深入,它对数据系统的要求越来越高,基于c s 方式的e a s t 数据系统已经不能满足e a s t 实验的需要。这就要求我们建立新的数据系统,并 对其进行性能评价,以满足实验需要。 第一章绪论 1 2 本文的主要工作 本文作者根据e a s t 实验的需要,在充分研究t p 2 p 技术的基础上实现了基于 p 2 p 的e a s t 数据系统,并对其进行了性能评价,文章主要工作包括如下几个主要 部分”: 1 ) 在综合评价了目前p 2 p 网络性能以及拓扑结构的基础上,根据e a s t 实 验对数据系统的需要,综合对基于c s 方式的数据系统基本参数的分析, 建立类似n a p s t e r 的基于p 2 p 的e a s t 数据系统一- - e a s t n a p 。 2 ) 对e a s t n a p 系统进行了具体编码实现,并在实验现场进行了相关的运 行测试。 3 ) 分别对基于c s 和p 2 p 的系统相关参数进行了测量与总结。 4 ) 利用测量获得的相关参数,通过计算机系统性能评价技术,对基于p 2 p 的e a s t 数据系统进行了性能评价,并与原来基于c s 的数据系统进行 了比较分析。 1 3 本文的组织结构 本文的组织结构如下:第一章主要介绍了课题相关背景;第二章对p 2 p 网络 技术进行了简单的介绍;在第三章中,描述了基于p 2 p 的e a s t 数据系统的提出 背景、具体设计及实现;第四章对实现后的程序进行了相关参数的测量工作;第 五章分别对在线和离线系统进行了性能评价;第六章对全文进行总结,并对今后 的研究和工作进行展望。 第_ 章p 2 p 网络技术 2 1p 2 p 的定义 第二章p 2 p 网络技术 在最近几年,随着计算机网络技术的快速发展,一种称为p 2 p 的新的网络体 系结构迅速成为计算机科学研究的一个热点m 。它的定义包含了以下内容: p 2 p 打破了传统c s 模式的结构特点,在网络中的每台机器都是一个节 点,它们的地位都是对等的。 每个节点既充当服务器,为其他节点提供服务,同时也亨用其他节点提 供的服务。 节点之问能够直接共享和交互资源,而不需要任何服务器或者中间介质 的转发。 c s 模式与p 2 p 模式的对比如图2 1 、2 2 所示。 图2 1c l i e n t s e r v e r 模式图2 2p e e rt op e e r 模式 2 2p 2 p 的网络特点 在传统的c s 计算模型中,服务器拥有所有共享资源,负责对所有c l i e n t 提出的资源或者数据请求作出响应,因此,在这种模型中服务器及其周边网络经 常成为整个系统的颈瓶。而p 2 p 网络相比传统的c s 网络有很多优势,在p 2 p 模型中节点可以不通过中央服务器而直接相互访问,可以充分利用网络中的现有 第二章p 2 p 网络技术 资源,使得网络负载均衡。具体表现在以下几个方面: 1 ) 非中心化:网络中的资源和服务分散在所有网络节点上,信息的传输和 服务的实现都直接在节点之间进行,可以无需中间环节和服务器的介入, 避免了服务器瓶颈问题。p 2 p 非中心化的特点,使得它在可扩展性、健 壮性方面的具有较大优势。 2 ) 可扩展性:在p 2 p 网络中,随着用户的加入,不仅服务的需求增加了, 系统整体的资源和服务能力也在同步增加,理论上其可扩展性可以认为 是无限的。 3 ) 健壮性:p 2 p 架构天生具有耐攻击、高容错的优点。由于服务是分散在 各个节点之问进行的,部分节点或网络遭到破坏对其它部分的影响很小。 p 2 p 网络一般在部分节点失效时能够自动调整整体拓扑,保持其它节点 的连通性。p 2 p 网络通常都是以自组织的方式建立起来的,并允许节点 自由地加入和离开。p 2 p 网络还能够根据网络带宽、节点数、负载等变 化不断地做自适应式的调整。 4 ) 负载均衡:由于p 2 p 网络中信息的传输和服务的实现都直接在节点之间 进行,允许多对节点同时进行通信,减少了对传统c s 结构服务器计算 能力、存储能力的要求,更好的实现了整个网络的负载均衡,因此效率 更高。 5 ) 高性能价格比:随着硬件技术的发展,个人计算机的计算和存储能力以 及网络带宽等性能依照摩尔定理高速增长。采用p 2 p 架构可以有效地利 用互联网中散布的大量普通节点,将计算任务或存储资料分布到所有节 点上。利用网络中闲置的计算能力和存储空间,可以用很低的成本提供 高性能计算和海量存储的目的。 6 ) 隐私保护:在p 2 p 网络中,由于信息的传输分散在各节点之间进行而无 需经过某个集中环节,用户的隐私信息被窃听和泄漏的可能性大大缩小。 2 3p 2 p 网络的分类 拓扑结构是指分布式系统中各个计算单元之间的物理或逻辑的互连关系,节 点之间的拓扑结构一直是确定系统类型的重要依据。目前互联网络中广泛使用集 中式、层次式等拓扑结构。i n t e m e t 本身是世界上最大的非集中式的互联网络, 九十年代所建立的一些网络应用系统都是完全集中式的系统,很多w e b 应用都 是运行在集中式的服务器系统上。但是p 2 p 系统一般是要构造一个非集中式的拓 第二章p 2 p 网络技术 扑结构。 根据拓扑结构可以将p 2 p 网络分为4 种:集中式拓扑、完全分布式非结构化 拓扑、完全分布式结构化拓扑、混和式拓扑。 2 3 1 集中式拓扑结构 集中式拓扑结构类似于c s 结构,如图2 3 ,在这种p 2 p 网络结构中有一个 索引服务器,但是其功能与c s 结构下的服务器的功能有本质的区别。在c s 模 型中,服务器拥有所有共享资源,并负责对c l i e n t 提出的资源或者数据请求作出 响应。如:w e b 服务器,它拥有所有的信息资源,并向所有与其连接的c l i e n t 提供信息服务;文件服务器,它存储了大量的共亨文件,为用户提供下载服务等。 因此,在这种网络中,服务器及其周罔网络可能成为整个网络的颈瓶。 图2 3 集中式拓扑结构 在集中式p 2 p 网络中,索引服务器的作用是用来维护所有c l i e n t s 的连接状 态,并保存网络中所有活动c l i e n t s 共享资源的目录信息,为c l i e n t s 提供文件查 找服务。当某个c l i e n t a 需要下载文件时,首先与索引服务器建立连接,并发送 文件查询请求,服务器进行相应的查找定位后,向a 返回符合查询要求的c l i e n t s 地址信息列表,然后a 根据返回信息列表选择最优的c l i e m 进行连接,并完成 文件传输。因此,大量的文件传输工作并不通过服务器,而是直接在两个c l i e n t s 之问进行,这样就减轻了服务器的负担,降低了服务器颈瓶的可能性,同时也使 得整个网络的带宽负载趋于平衡。 集中式拓扑结构具有维护简单、发现效率高等优点;由于资源的发现依赖中 第二章p 2 p 网络技术 心化的目录系统,发现算法灵活高效并能够实现复杂查询。 它的主要缺点表现为: 1 ) 与传统的c s 结构类似,索引服务器的瘫痪容易导致整个网络的崩馈, 系统的安全性和健壮性较低。 2 ) 随着网络规模的扩大,对中央索引服务器的要求、以及维护和更新的费 用将急剧增加。 因此,集中式拓扑结构在小型网络的管理和控制方面占一定优势,不适合大 型网络应用。它的经典案例是著名的m p 3 共享软件n a p s t e r 。 2 3 2 完全分布式非结构化拓扑结构 完全分布式拓扑结构是真正意义上的分布式p 2 p ,如图2 2 。在这种结构里, 网络上的每一个计算机在功能上都是对等的,它既是客户机同时又是服务器,所 以又被称为对等机s e r v e n t 。由于网络中不存在集中的索引服务器,所以要想找 到网络中的某二资源,就需采用定的搜索策略。按搜索策略的不同,完全分布 式p 2 p 网络又可以分为结构化和非结构化两类。 分布式非结构化p 2 p 网络n 2 3 在应用层构建起一个使用特有路由机制的虚拟网 络,各个节点维护一个记录邻居节点的路由表,用来传递消息。当一个节点需要 搜索一个文件时,它采用了基于完全随机的洪泛和随机转发机制向周围节点发送 消息。为了控制搜索消息的传输,可通过t t l ( t i m et ol i v e ) 的减值来实现。 分布式非结构化网络有效地解决了集中式p 2 p 架构对索引服务器的依赖,提 高了系统的健壮性,受节点频繁加入和退出系统的影响小,可以支持复杂查询, 如带有规则表达式的多关键词查询,模糊查询等。缺点表现在:由于采用应用层 广播的协议,随着联网节点的不断增多,网络规模不断扩大,导致网络流量急剧 增加,从而导致网络中部分低带宽节点因网络资源过载而失效,这使得分布式非 结构化p 2 p 网络在可扩展性方面具有一定的局限性。另外,由于没有确定拓扑结 构的支持,非结构化网络无法保证资源发现的效率,即使需要查找的目的节点存 在,发现也有可能失败。 因此,发现的准确性和可扩展性是非结构化网络面临的两个重要问题。目前 对此类结构的研究主要集中于改进发现算法等方面。这种架构的p 2 p 网络以 g n u t e l l a 为代表。 第二章p 2 p 网络技术 2 3 3 完全分布式结构化拓扑结构 因为非结构化系统中的随机搜索策略造成网络的可扩展性较差,所以如何构 造一个高度结构化的系统、如何有效地查找信息成为目前研究的重点,最新的成 果都是基于d h t 的分布式发现和路由算法的。这些算法都避免了集中式结构的 中央服务器,也不是像完全分布式非结构化拓扑那样基于广播进行查找,而是通 过分布式散列函数,将输入的关键字唯一映射到某个节点上,然后使用某些路由 算法同该节点建立连接,形成完全分布式结构化拓扑网络。 在d h t 技术中,网络节点按照一定的方式分配一个唯一节点标识符,资源 对象通过散列运算产生一个唯一的资源标识符,且该资源将存储在节点i d 与之 相等或者相近的节点上。需要查找该资源时,采用同样的方法可定位到存储该资 源的节点。 完全分布式结构化拓扑能够自适应节点的动态加入和退出,有着良好的可扩 展性、鲁棒性、节点i d 分配的均匀性和自组织能力;由于网络采用了确定性拓 扑结构,可以提供精确的发现。它的最大的问题是d h t 的维护机制较为复杂, 尤其是节点频繁加入和退出造成的网络波动会极大增加d h t 的维护代价。d h t 所面临的另外一个问题是d h t 仅支持精确关键词匹配查询,无法支持内容、语 义等复杂查询。 2 3 4 混和式拓扑结构 混和式p 2 p 结构吸取了集中式结构和全分布式非结构化拓扑的优点,它在网 络里选择性能较高( 处理能力、存储能力、带宽等方面性能) 的节点作为超级节 点( 索引服务器) ,每个超级点上维护一个集中式p 2 p 子网,各超级节点之间又 通过分布式p 2 p 方式建立连接,构成一个高速转发层,发现算法仅在超级点之间 转发。网络结构如图2 _ 4 。 这种网络从结构上来说,它是完全分布式和集中式网络结构的结合,因此, 它具有更好扩展性,较容易管理,搜索效率较高。但对超级点有一定的依赖性, 易于受到攻击,容错性也受到影响。 四种结构的性能比较如表2 1 所示。 第二章p 2 p 网络技术 图2 4 混合式拓扑结构 表2 1 四种结构性能比较表 类别集中式拓扑全分布式全分布式混和式拓扑 比较标准 非结构化拓扑 结构化拓扑 可扩展性 些 差好中 红 可靠性差好 好 由 可维护性最好最好好 中 发现效率最高中同中 复杂查询支持支持不支持支持 2 4p 2 p 技术的应用及研究热点 由于p 2 p 技术具有众多的优点,因此它不仅作为在i n t e m e t 上用户之间进行文 件交换的一种有效的方式,而且被应用于一些高性能数据处理环境中。如美国斯 坦福大学的线性加速中心( s l a c ) 以及c e r n u3 | 。s l a c 将2 0 0t e r a b y t e s 字节的 实时数据存储在o b j e c t i v i t y d b 中,并把这些实时数据库分布在2 5 0 台l i n u x 服务 器中,通过p 2 p 的方式实现对这些数据的共享。p 2 p 技术在s l a c 的成功运行,表 明其在高性能数据处理应用领域也具有广阔的前景n 钆埔1 。 根据具体应用不同,可以把p 2 p 分为以下这些类型: 1 ) 提供高效率的、负载平衡的文件和其它数据共享的p 2 p 网络,如n a p s t e r 、 e d o n k e y 、b i t t o r r e n t 等。 2 ) 挖掘p 2 p 对等计算能力和存储共享能力,加入对等网络的节点除了可以 第二章p 2 p 网络技术 共享存储能力之外,还可以共享c p u 处理能力。这种计算能力共享系统 可以用于进行基因数据库检索和密码破解等需要大规模计算能力的应 用。例如a v 出、p o p u l a rp o w e r 等。 3 ) 基于p 2 p 方式的协同处理与服务共享平台,例如j x t a 、m a g i 、 g r o o v e 、n e t 、m ys e r v i c e 等。 4 ) 即时通信交流,包括i c q 、o i c q 、y a h o om e s s e n g e r 等。 5 ) 安全的p 2 p 通信与信息共享,例如s k y p e 、c r o w d s 、o n i o nr o u t i n g 等。 目前,对于p 2 p 系统的研究热点主要在分布式p 2 p 的搜索机制和可扩展性 方面。对于集中式和混合式p 2 p 系统,虽然已在大量的领域进行了广泛的应用, 但目前还是缺乏系统的、定量的研究。 2 5 本章小结 p 2 p 技术从出现到在各个领域获得大量的应用,仅用了几年的时间,说明 p 2 p 技术具有c s 结构不可比拟的优点。 我们将在综合评价目前p 2 p 网络拓扑结构的基础上,根据e a s t 数据系统的 要求,提出一种基于类似n a p s t e r 的混合式p 2 p 数据处理和共享方案。实现基于 p 2 p 的e a s t 数据系统,并对其进行性能评价,将为e a s t 数据系统的设计提供 一个可行、可靠的方案。 第三章基于p 2 p 的e a s t 数据系统的设计与实现 第三章基于p 2 p 的e a s t 数据系统的设计与实现 3 1 基于p 2 p 的e a s t 数据系统方案 3 1 1 系统设计背景 目前a s i p p 在进行e a s t 实验时使用的数据处理系统是基于c s 模式设计的 n6 】,该系统有多个数据服务器用于存储实验通道数据,并通过c s 模式为p c c l i e n t 提供数据下载及分析。根据系统各部分在实验时职能的不同,它被分为两个独立 的子系统:在线系统和离线系统。其网络结构如图3 1 。 p r lp r 卜o n l i n es y s t e m 一 扣o f f - l i n es y s t e r n 。叫 图3 1 基于c s 模式的e a s t 数据系统 在线系统是一个独立的数据采集子系统,在实验时它负责从多个诊断设备采 集实验通道数据,然后迅速的将采集获得的大量原始数据传输到离线系统的数据 服务器上。在线系统包括几个独立的数据采集子系统:v 子系统、c a m a c 子 第三章基于p 2 p 的e a s t 数据系统的设计与实现 系统以及p c i 子系统n ,每个子系统分别负责从几个诊断设备获得实验数据。离 线系统的主要功能是为实验提供数据存储以及分析处理等工作,它包括多个数据 服务器和大量p cc l i e n t 对实验数据进行分布式的存储和处理。在每次实验放电 完成后,只有当所有数据都传输到数据服务器后,在线系统的操作人员和离线系 统的分析人员才能从数据服务器上获取实验通道数据,进行显示、分析和处理。 服务器装有一个实时数据库和一个商业化的关系数据库用于存储不同层次 的数据。实时数据库是一个分为几层的等级结构,采集获得的原始数据和处理后 的数据首先被存储在实时数据库的最低层,实时数据库中每一层的数据被选择或 者浓缩后立即存储到上一层。在实时数据库的最高层,数据被浓缩后存储到关系 数据库里。如果系统不能够存储完所有原始的在线数据,一个事件触发的转移存 储结构将被用于存储最近最有意义的原始在线数据u 刨。 随着e a s t 实验的不断进行和深入,设计实验放电时问不断加长,采集通道 数量不断增加,每次放电采集的数据量也大大增加,这对网络的数据传输能力、 数据服务器的处理能力等都提出了更高的要求。因此基于c s 方式的e a s t 数据 系统已经不能满足e a s t 实验的需要,它增加了在线系统数据显示和处理的完成 时间,数据服务器及其周边网络成为系统的颈瓶,增加了对离线系统用户请求的 响应时间。这就要求我们建立新的数据系统,提高系统性能,以满足实验需要。 近今年来,随着计算机硬件技术的快速进步,p c 机的计算处理能力、存储 能力等都在飞速发展,这使得p c 机在作为客户机使用的同时也具备了作为服务 器使用的能力。现在a s i p p 研究人员使用的这些高端p c 机主要作为客户机使用, 用于基本的日常工作,这是对这些机器资源的浪费。 p 2 p 网络体系结构在最近几年越来越被人们重视。p 2 p 网络相比传统的c s 网络有很多优势:可以共享网络中边缘机器的各种资源( 如处理能力、存储能力 等) 、允许各种资源在客户端之问直接传输而不需要中间服务器的转发。因此, 基于p 2 p 的网络成本非常低;整个网络中心和边缘的数据资源都可以被共享;网 络容易扩展;比单个服务器的网络更可靠,它可以避免因为服务器失效带来的系 统颈瓶问题;可以使网络传输负载平衡、允许多对节点同时进行通信,传输效率 高。 3 1 2 基于p 2 p 的e a s t 数据系统的设计 基于以上原因,为了满足e a s t 实验的需要,同时充分利用a s i p p 的网络 资源和p c 机的计算以及存储能力,提供比原来处理系统更好的系统性能,我们 在综合评价了目前p 2 p 网络性能以及拓扑结构的基础上,根据e a s t 实验对数据 第三章基于p 2 p 的e a s t 数据系统的设计与实现 系统的需要,综合对基于c s 方式的数据系统基本参数的分析,决定采用p 2 p 技术对e a s t 数据系统的在线和离线部分进行设计,建立类似n a p s t e r 的基于p 2 p 的e a s t 数据系统一- - e a s t n a p 。改进后的网络架构图如3 - 2 。 p c ip c k ”o n - l i n es y s t e r n 一, 9 - o f f - l i n es y s t e m 图3 2 基于p 2 p 的e a s t 数据系统 在p 2 p 方式下,我们在系统中增加了一台索引服务器,用于对采集机、p c c l i e n t 以及它们的共享数据信息进行管理,并负责响应p cc l i e n t 的文件查询请 求,为了提高e a s t n a p 索引服务器的查找效率,我们使索引内容常驻内存。因为 索引服务器仅处理非常少量的索引数据,所以,e a s t n a p 具有简单快速的查找响 应优势。 在e a s t n a p 系统中,为了能够更快的访问采集获得的原始数据,实验时采 集机并不立即将实验数据上传数据服务器,而是将这些数据作为基本原始数据存 储在数据采集子系统本地,同时在索引服务器建立文件索引。系统用户要访问数 据时,可以通过p 2 p 方式首先到索引服务器查找定位通道文件所在采集机的信 息,然后直接从相应的采集机下载通道数据。通过这种方式既消除了将大量数据 传输到数据服务器的时间,减少了在线系统的数据处理完成时间,又使网络负载 第三章基于p 2 p 的e a s t 数据系统的设计与实现 更趋平衡,提高了系统的整体性能。 离线系统索引服务器也可以对p cc l i e n t 上的共享文件建立索引,使p c c l i e n t 之间也可以直接进行文件的传输,充分利用网络中散布的机器的性能,尤 其是当部分p cc l i e n t 分布在a s i p p 之外时可以大大减少数据的传输时间,例如, 现在e a s t 实验时,很多美国研究人员会通过网络对实验进行实时的视频观看、 远程控制等操作,这时如果t o m 需要对通道数据a 进行访问,他需要通过索引 服务器定位到某一台采集机,之后从a s i p p 内的采集机进行数据下载,这时t o m 机器内也有了文件a 的备份信息。此后,当j a c k 也需要此通道文件时,他就可 以通过索引服务器定位到与他同在美国的t o m 的机器,之后从t o m 的机器上进 行下载,因此就减少了文件的传输时间。 离线系统为e a s t 实验提供二级数据存储和数据分析,它包括多个数据存储 服务器、大量分布式数据存储和处理的p c 客户端。所有采集的数据在数据采集 子系统空闲时传到离线系统的存储服务器,然后p c 客户可以从服务器获得原始 数据。p c 客户有一个离线的实时数据库和一个关系数据库用来在不同的层次存 储数据。在离线系统的p 2 p 体系结构中,每一个参与的p cc l i e n t 在作为一个c l i e n t 的同时也提供服务器的功能。这就允许这个它在一定的应用程序下既可以充当 c l i e n t 又可以充当服务器。 以上的设计方案,我们采用在线和离线部分共享一台索引服务器。这种p 2 p 网络,一方面增加了中央搜索服务器成为“攻击目标”的可能性,降低了整个网 络系统的可靠性;另一方面限制了p 2 p 网络系统的可扩展性,因为随着加入p 2 p 网络的节点的增多,中央索引服务器的性能有可能成为整个p 2 p 网络系统的瓶 颈。为了解决单个服务器的颈瓶问题,提高系统的可靠性,我们采用多台索
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 托班五一节课件
- 大豆国际品牌合作创新创业项目商业计划书
- 播客内容策划与生产创新创业项目商业计划书
- 2025年高纯羰基硫行业研究报告及未来行业发展趋势预测
- 2025年反恐安防行业研究报告及未来行业发展趋势预测
- 2025年厨房挂件行业研究报告及未来行业发展趋势预测
- 2025年玻尿酸丰唇行业研究报告及未来行业发展趋势预测
- 2025年防火电缆行业研究报告及未来行业发展趋势预测
- 2025年代驾服务行业研究报告及未来行业发展趋势预测
- 2025年3-氯苯酐行业研究报告及未来行业发展趋势预测
- T-CRHA 089-2024 成人床旁心电监测护理规程
- 2025年全国企业员工全面质量管理知识竞赛题库(试题及答案)
- 2025年电信人工智能学习考试题库(含答案)
- 地热井气举反循环施工方案
- 医院药学相关法规课件
- 2024年金昌市科技馆招聘笔试真题
- 有机肥采购合同书
- 团建活动申请书
- 2025年度加油站油品储存安全协议范本
- 保安保洁培训计划方案
- GB/T 29912-2024城市物流配送汽车选型技术要求
评论
0/150
提交评论