(计算机软件与理论专业论文)基于p2p的分布式网络数据管理.pdf_第1页
(计算机软件与理论专业论文)基于p2p的分布式网络数据管理.pdf_第2页
(计算机软件与理论专业论文)基于p2p的分布式网络数据管理.pdf_第3页
(计算机软件与理论专业论文)基于p2p的分布式网络数据管理.pdf_第4页
(计算机软件与理论专业论文)基于p2p的分布式网络数据管理.pdf_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 分布式网络数据管理是针对目前电子政务、行业数据集成等应用 需求,为用户提供地域透明、具体操作透明的数据服务,满足网络不 同节点数据交换、查询、支持数据的自由流动和共享。 本文首先分析了分布式网络环境下数据的特点,介绍了目前国内 外分布式网络数据管理的研究现状和采用的主要技术。然后对分布式 应用系统常用的两种架构模型( c s 和p 2 p ) 的优点和缺点作了系统 的分析。 在分析以上架构模型的基础上,根据实际网络物理结构,作者提 出了基于a g e n tp 2 pm o d e l 的分布式网络数据管理应用系统框架,并 对该框架下叠加网络( o v e r l a yn e t w o r k ) 结构、节点组织方式、查 询过程、查询应答模型等方面进行了研究。在该框架下节点之间通过 消息进行通讯,本文在b e e p 协议的基础上定义了系统节点通讯模型 和消息机制。 实现p 2 p 模式下分布式网络异构数据的管理,必须对节点数据语 义进行定义和描述,并实现异构数据语义集成,否则用户无法获知查 询对象和对象的存在形式。本文采用元数据对网络节点结构化和非结 构化数据进行了描述,并提出非结构化数据信息模型的定义和结构化 模式信息提取的实现方法;在数据集成方面,本文采用层次化模型分 解方法将系统数据模型进行分解,提出了针对a g e n tp 2 pm o d e l 框架 下数据集成的实现方式。 最后,作者给出了节点系统的实现,介绍了各子模块的功能和接 口定义,实现了一个分布式网络数据管理应用系统原型。 关键词分布式网络,数据集成,p 2 p ,元数据,b e e p a b s t r a c t d i s t r i b u t e dn e t w o r kd a t am a n a g e m e n tb a s e do nn e e do ft h e d a t a i n t e g r a t i o na p p l i c a t i o ns u c ha se - g o v e r n m e n ta n de c o m m e r c e i t p r o v i d e sg e o g r a p h i c ,o p e r a t i o n st r a n s p a r e n td a t as e r v i c e sf o ru s e r s i t a c h i e v e st h ef r e ef l o wa n ds h a r i n go fd a t a a m o n gd i f f e r e n tn e t w o r k n o d e s f i r s t l y , t h ed a t a sf e a t u r e si nl a r g ed i s t r i b u t e dn e t w o r ka r ea n a l y s e d i nt h et h e s i s ,t h ec u r r e n td o m e s t i ca n di n t e r n a t i o n a lr e s e a r c h s t a t u si n d i s t r i b u t e dn e t w o r kd a t am a n a g e m e n ti si n t r o d u c e d t h e n ,t h ea d v a n t a g e s a n ds h o r t c o m i n g so ft h ec u r r e n ta r c h i t e c t u r em o d e l ( c s & p 2 p ) w h i c h u s e di nb u i l d i n gd i s t r i b u t e da p p l i c a t i o n si sa n a l y s e d a c c o r d i n g t od a t a sf e a t u r e sa n d p h y s i c a l s t r u c t u r ei n l a r g e d i s t r i b u t e d n e t w o r k ,t h ea u t h o rm a d ead i s t r i b u t e dn e t w o r kd a t a m a n a g e m e n ta p p l i c a t i o n sf r a m e w o r kb a s eo na g e n tp 2 pm o d e l ( a p m ) f r o ma n a l y s i so ft h ec u r r e n ta r c h i t e c t u r em o d e lo f d i s t r i b u t e da p p l i c a t i o n s r e s e a r c ho v e r l a yn e t w o r ks t r u c t u r e ,n o d eo r g a n i z a t i o n ,q u e r yp r o c e s s i n g , r e s p o n s em o d e l sa n dc o m m u n i c a t i o nm o d e lo fa p mf r a m e w o r k i na p m f r a m e w o r k ,t h ec o m m u n i c a t i o nb e t w e e nn o d e st h r o u g hm e s s a g e s ,t h e c o m m u n i c a t i o nm o d e la n dt h em e s s a g em e c h a n i s m sb e t w e e nn o d e sb a s e o nb e e p p r o t o c o li sd e f i n e di nt h et h e s i s f o ri m p l e m e n td a t am a n a g e m e n ti np 2 pm o d e ld i s t r i b u t e dn e t w o r k , i ti sn e e dt od e s c r i b ea n di n t e g r a t et h es e m a n t i c s o fd a t a i nn o d e s o t h e r w i s e ,t h eu s e r sc a nn o tb ei n f o r m e dt h eq u e r yo b j e c t sa n di t s e x i s t e n c e t h i st h e s i sd e s c r i b e dt h es t r u c t u r e da n du n s t r u c t u r e dd a t ai n n e t w o r kn o d e su s i n gm e t a d a t a ,i tp r o v i d e di n f o r m a t i o nm o d e ld e f i n i t i o n s o fu n s t r u c t u r e dd a t aa n dh o wt or e t r i e v a li t s s t r u c t u r e di n f o 咖a t i o n i n t e r m so fd a t ai n t e g r a t i o n ,t h i st h e s i sd i s a g g r e g a t e ds y s t e m sd a t am o d e lb y i i u s i n g t h em e t h o do fl e v e l - m o d e l d e c o m p o s i t i o n ,t h ew a y t o i m p l e m e n t a t i o no fd a t ai n t e g r a t i o ni na g e n tp 2 pm o d e lf r a m e w o r ki s g i v e n f i n a l l y , t h ea u t h o rp r o v i d e dai m p l e m e n t a t i o no ft h en o d es y s t e m , t h em o d u l ef u n c t i o n sa n dt h ei n t e r f a c ed e f i n i t i o ni nn o d es y s t e ma r e i l s t r a t e d k e y w o r d sd i s t r i b u t e dn e t w o r k ,d a t ai n t e g r a t i o n ,p 2 p , m e t a d a t a , b e e p 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均已在在论文中作了明确的说 明。 储獬:晔醐:碰年月兰日 关于学位论文使用授权说明 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位 论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论 文;学校可根据国家或湖南省有关部门规定送交学位论文。 作者签名:骅新签名壁坠期:兰年月望日 硕士学位论文第一章绪论 1 1 背景 第一章绪论 个人计算机和计算机网络的发展使得大型机一统天下的时代成为历史,在这 一变革中,终端用户获得更为强大的处理能力,各种计算资源像燎原烈火一般, 燃遍信息世界的每一个角落。大量应用系统随之由集中转向分布,计算机的应用 也步入电子商务和电子政务时代,我们处理的数据量正在飞速增长。近年来,通 讯技术和硬件技术的发展呈加速态势,但各种应用的核心一数据,仍以不同的 形式存储在不同的系统中,分而不聚,聚而不合,呈分布异构状态。由于成本和 应用的原因,不可能建立一个全新的系统来取代这些系统。很多情况下,我们虽 知道这些数据存放在什么地方,当前的技术手段也能将计算机在物理上连接起 来。然而,大多数系统都独立于其他系统,以自己的方式工作,当前技术还不能 在不同系统之间提供完全的互操作和集成,这大大制约了计算机应用的发展。因 此,如何低成本从多个分布、异构的数据源获取数据,并在不同的硬件系统平台 上处理它,并按照友好方式提供给用户,成为急待解决的问题。 如湖南省民政信息网络包括基层社区居委会、街道区、县、市等多级信息管 理节点,以及公众信息服务系统。网络要完成政府需要的多种信息的迅速上传和 下达,为政府决策提供一个及时的重要的参考。但是由于系统建设具有阶段性和 分布性的特点,现有系统的开发处于相当分散的状态。许多开发机构参与了各个 级别节点中不同的系统和子系统的开发,造成了网络各个节点存在着大量的数据 重构和模式冲突,节点之间共享信息十分困难,形成了一个个信息孤岛。 分布式网络数据管理就是在分布式网络下透明的对各个节点数据进行定义 与创建、查询、存储、以及相关的控制等,其中以分布式网络数据查询为主。 1 2 分布式网络数据的特点 分布式网络数据管理与传统分布式数据库相比,二者就有相同之处又有区 别。分布式数据库系统拥有单一的逻辑数据库,各个数据库可以在物理上分布, 但有一个d b m s 为其服务,提供一致的查询与更新,严格地说,各个子系统库必 须是同构的。而分布式数据管理则是由大量异构的、自主的分布式数据源为基础, 通过一定程度的集成而构成的一个集成应用( a p p l i c a t i o n ) 。 分布式网络数据的主要特征为o : 硕士学位论文第一章绪论 异构性: 排除数据宿主系统的异构性,数据的异构性主要由两方面构成: a 数据库管理系统( d b m s ) 的异构 由于节点的各个数据库系统可以不同,因此形成了d b m s 的异构,这种 异构实际上可以分为以下三方面: 结构的区别:根据不同的方法论,d b m s 采用不同的数据模型和数据 结构。 规则的不同:不同的数据模型造成了不同的规则不同的规则有直接影 响数据库功能的实现。 查询语言的不同:不同的数据模型,必然造成不同的数据类型,所采 用的数据操作机制也不同,即使支持相同标准,但不同的d b m s 采用 的语言也有所区别。 b 语义( s e m a n t i c ) 的异构 与d b m s 的异构不同语义的异构是由于数据库的使用人员对数据的定义 作用以及描述的二义理解造成的。由此可能造成的异构情况有: 命名异构:由于不同的应用需求及方法论,对现实世界实体及其属性 采用不同的命名方法,造成命名的冲突; 数据存储种类的异构:相同或相似的现实世界数据,存在表达的多样 性,因此表现在不同的数据库系统中存储方式也不同,这些不同可以 是数据类型、范围、精度以及组成部分的异构。 关系表达的异构:因为不同环境及需求,现有世界中两个事物之间的 关系可以从多方面理解,由此造成在数据库中关系表达的异构。如数 据的分割和组合以及关系连接的不同。 数据遗漏集冲突:不同的应用对数据对象的不同侧面要求不同,很可 能在某种领域内非常必须的数据在另外一个环境可以忽略,或者是另 外一种数据,所以数据的遗漏和冲突在所难免。 分布性: 数据分布在不同位置的各个节点,在各节点以不同的方式保存,系统通过通 讯网络建立各个节点之间的连接,没有严格的逻辑要求。 自治性: 网络中各个节点数据具有各自的自治性,这些自主性体现在他们拥有自身系 统内各种资源的使用权利,包括设计、执行、修改等,同时,他们拥有与其他系 统的交互的权利,包括加入、退出、通讯、提供服务等。他们有权利接受外来 硕士学位论文第一章绪论 的服务请求,也有拒绝或者请求服务的权利。 动态性: 由于节点的自治性以及网络和系统稳定性的影响,网络是动态的,主要表现 在数据的动态性和结构的动态两个方面: 数据动态性:数据可以随时被插入、删除和更新。 结构动态性:各节点从属与多个不同的管理域,可以随时断开网络或连接网 络。 1 3 国内外研究现状 数据集成应用的需求推动着分布式网络数据管理技术的发展。从) t - i 一年代后 期开始国内外大量的大学、公司、机构都在进行分布式网络下异构数据管理的研 究,相续有些科研成果开始出现。进入九十年代后期,随着联邦数据模型、中间 件技术、对等计算( p 2 p ) 等新技术的出现,分布式网络数据管理技术有了新的 发展,出现了很多分布式网络数据管理应用原型系统,一些数据库公司也开始将 其成果转化为产品。其中具有代表性的技术有:联邦数据库、数据复制和基于 p 2 p 的数据管理。 i ) 联邦数据库0 1 联邦数据库系统( f d b s ) 是一个彼此协作却又相互独立的单元数据库( 通常称 相互独立运行的数据库系统为单元数据库系统,简称c d b s ) 的集合,它将单元数据 库系统按不同程度进行集成。对该系统提供整体控制和协同操作的软件叫做联邦 数据库管理系统( f d b m s ) 。一个单元数据库可以加入若干个联邦系统,每个单元 数据库系统的d b m s 可以是集中的,也可以是分布的,或者是另外一个f d b m s 。 i b md b 2d a t a j o i n e r : d b 2d a t a j o i n e r 的用户可以随意查询存储在联邦系统中任意位置的数据, 而不必担心数据的位置、实际数据源系统的s q l 语言种类或者存储的能力。对 于联邦数据库中的任何数据,用户可以按照d b 2 的方式来进行操作。 s y b a s ee n t e r p r i s ec o n n e c t e n t e r p r i s ec o n n e c t 声称可以在不改变应用程序的情况下实现数据的合并 和分散,能够实现分布式网络中异构数据的集成与复制,同时,它支持多达2 5 种企业数据库,并提供简单易用的用户界面。 2 ) 数据复制”1 数据复制技术将各个数据源的数据复制到与其相关的其它数据源上,并维护 数据源整体上的数据一致性、提高信息共享利用的效率。数据复制可以是整个数 据源的复制,也可以是仅对变化数据的传播与复制。数据复制方法可以减少用户 硕士学位论文第一章绪论 使用数据集成系统时对异构数据源的数据访问量,从而提高数据集成系统的性 能。 最常见的数据复制方法就是数据仓库方法。该方法提取、转换数据并把数据 导入新的目标数据仓库( e x t r a c t i o n ,t r a n s f o r m a t i o n ,l o a d 或e t l ) 。用户则 像访问普通数据库一样直接访问数据仓库。 3 ) 基于p 2 p 的数据管理“” 自1 9 9 9 年开始,很多科研机构和企业从不同角度开展了基于p 2 p 的分布式 网络数据管理的研究,在p 2 p 模式下每个节点都可能提供数据,一般不存在集中 控制,即每个节点都是“对等的”;而且每个节点都是自主的,它们可能拥有不 同的模式;p 2 p 模式下具有更好的扩展性和健壮性可以支持大量的数据节点,所 以其更加符合分布式网络数据的特点。目前在p 2 p 模式下数据管理应用系统仍未 见商业化的产品,绝大多数为实验室原型系统。 p i e r 项目: 由u c b e r k e l e y 大学研发,被设计为在结构化叠加网络( s t r u c t u r e d o v e r l a yn e t w o r k ) 上提供复杂查询支持的查询引擎,侧重于在已有的结构化p 2 p 网络上提供各种查询功能的研究。 p i a z z a 项目: 由w a s h i n g t o n 大学研发,被设计为在能够预知节点问模式映射( s c h e m a m a p p i n g ) 的p 2 p 环境下的数据管理系统,侧重于如何提供模式映射、利用模式映 射的查询重写等方面的研究。 p e e r d b 项目: 由新加坡国立大学和复旦大学联合研发,被设计为在非结构化p 2 p 环境下的 数据共享与查询系统,侧重于利用信息检索技术的近似查询处理以及利用非结构 化p 2 p 网络提供的节点的自组织和自配置功能增强查询处理效率的研究。 1 4 研究内容及论文结构 分布式网络数据管理是针对目前电子政务、行业数据集成等应用需求,为用 户提供地域透明、具体操作透明的数据服务,满足网络不同节点数据交换、查询、 支持数据的自由流动和共享。本文对分布式网络数据的特点、网络环境和分布式 应用系统架构模型进行了系统的分析,在此基础上提出了a g e n tp 2 pm o d e l 应 用系统框架,并对框架下查询过程、通讯模型、数据描述、模式集成等方面进行 了研究。本文的主要工作包括: 1 ) 分析了分布式系统的架构方式,系统介绍了c s 结构和p 2 p 结构的特点 和局限性,对以上两种结构进行了全面的对比。 硕士学位论文 第一章绪论 2 ) 提出了基于超级节点p 2 p 结构的a g e n tp 2 pm o d e l 应用系统框架,构建 了基于多层结构的系统叠加网络( o v e r l a yn e t w o r k ) 。 3 ) 研究了a g e n tp 2 pm o d e l 框架下查询过程和查询应答模式。 4 ) 提出了基于b e e p 协议的节点通讯模型,对系统通讯元语和消息模型进 行了定义。 5 ) 采用元数据对网络节点结构化和非结构化数据进行了描述,并提出非结 构化数据信息模型的定义和结构化模式信息提取的实现方式。 6 ) 对p 2 p 系统数据集成进行了研究,采用层次化模型分解方法将系统数据 模型进行分解,提出在a g e n tp 2 pm o d e l 框架下数据集成的实现方式。 7 ) 给出了系统的实现和关键子模块接口描述。 本文共分五章,首先在第一章介绍了分布式网络数据管理的产生背景及应用 价值,分布式网络数据的特点和国内外研究现状。在第二章作者分析了c s 和 p 2 p 两种常用的分布式系统架构模型,提出了基于a g e n tp 2 pm o d e 应用系统框 架,并对该框架下查询过程和通讯模型进行了研究。第三章主要介绍节点数据描 述元数据建模和数据集成的实现方法。第四章给出了节点系统的实现和接口定 义。最后对本文进行了总结并对将来的工作进行了展望。 硕士学位论文第二章基于p 2 p 技术的分布式应用系统框架 第二章基于p 2 p 技术的分布式应用系统框架 分布式网络数据管理系统作为大型分布式应用系统,其所处的网络物理结构 和在物理结构之上构建的分布式系统架构是该系统能否达到预期目标的基础。以 下我们对目前分布式系统的几种常用系统架构进行了论证。 2 1 几种系统架构模型的比较 2 1 1o s 模式 c s 架构是一种非常流行的分布式系统架构模式,在该模式中依据软件的角 色将系统区分为客户端( c 1 i e n t ) 和服务端( s e r v e r ) o 。c 1 i e n t 端主要用来管理 用户界面、执行用户程序( 包括向服务器发送应用请求和数据的采集处理) ; s e r v e r 端主要用来承担数据库系统的共享处理、文件管理及向c 1 i e n t 端提供服 务客户端和服务端相互配合,各取所长,构成应用平台。 伴随着应用系统的大型化、客户端数量的增加和区域范围的延伸,c s 模式 得到了持续的扩张和延伸: 在程序模块的划分上将应用分布在最适合完成其任务的计算机上运行,以便 使c 1 l e n t 和s e r v e r 上的负载得到均匀高分配,从而最大限度的发挥c 1 l e n t 和 s e r v e r 端的处理能力,并减少网络的传输量。如当s e r v e r 端具有强大的处理能 力时,s e r v e r 端可以承担更多的处理任务,把某些有c 1 l e n t 端完成的业务处理 部分地移到s e r v e r 端来实现。 在功能逻辑上划分上引入了三层( 多层) 结构的应用程序结构,把业务逻辑独 立出来,形成了客户端的客户接口层、中间业务逻辑层( 可细化为多层) 和后端数 据库服务器层“3 。大大提高了系统的安全性、可理解性、易维护性和灵活性。随 着浏览器( b r o w s e r ) 成熟和广泛应用,提出了利用浏览器作为表示层的承载容器, 形成了特殊的b s 结构。 目前c s 架构是分布式数据管理系统主要的架构方式,c s 架构数据管理系 统能够提供统一的全局数据模型( g l o b a ld a t am o d e l ) “3 ,联邦数据库管理系 统和中间件集成系统。”是典型的c s 架构分布式网络数据管理应用,其系统模型 如下图所示。 硕士学位论文 第二章基于p 2 p 技术的分布式应用系统框架 图2 - 1c s 型网络数据管理系统模型6 2 12p 2 p ( p e e r - t o p e e r ) 模式 p 2 p 系统最近成为数据管理领域内的一个热点,这归因于应用领域内许多 p 2 p 系统的成功应用,p 2 p 模式已经成为很多个人用户之间交换数据的一个基本 模式。p 2 p 系统的成功主要归于与他们的自适应、自组织、负载均衡、容错能力 强和系统稳定等特点。1 。根据参考文献 8 ,p 2 p 的定义为: 定义1 1 下面这样的分布式的网络系统被称为p 2 p 系统:所有参与者共享 他们的一部分硬件资源( 存储空间、计算能力、网络连接、外设) ;这些共享的资 源是对于网络上提供服务和数据共享是很必要的;这些共享的资源可以被网络上 的其他节点不经过任何中间节点而直接存取;参与这个网络的所有节点既是服务 和数据的提供者又是服务和数据的需求者。 p 2 p 系统在实际应用中有很多种不同的结构,比如带有核心服务器的p 2 p 结 构( 如n a p s t e r ) 、纯p 2 p 结构( 如o n u t e l l a ,f r e e n e t ) 、带有超级节点的p 2 p 结 构( 如m o r p h e u s ,k a z a a ) 等,这些结构都具有各自不同的特点。下面我们分别来 看看这些结构的特点。 a 纯p 2 p 结构 我们根据文献 8 中的定义给出纯p 2 p 结构的定义:如果一个分布式的网络 结构满足下面的两个条件,那么可以称为纯p 2 p 结构: 满足定义1 1 : 在去掉网络中的任何一个节点时,对于整个网络的服务没有任何影响。 无核心服务器,每个节点维护本地共享的目录和文件。 查询只送往自己相邻的节点。 每个节点接到查询请求后查询本地目录,将结果返回给提出查询的节点。 硕士学位论文第二章基于p 2 p 技术的分布式应刚系统框架 每个查询都会给一个跳数限制,各个节点根据这个跳数决定查询是否继 续转发到相邻的节点。 这种p 2 p 结构的问题是网络中的消息会随着时间的变化而迅速增多,使得网 络负载增加,而且查询结果往往是不完全的。但是这种结构的优点也是非常明显 的,它是纯粹的p 2 p 结构,任何一个节点停机或者离开网络后不会对其他节点的 查询产生致命的影响,同时也没有任何节点成为查询的瓶颈。 b 混合p 2 p 结构 同样,根据文献 8 中的定义我们给出混合p 2 p 结构的定义:如果一个分布 式的网络结构满足下面的两个条件,那么可以称为混合p 2 p 结构: 满足定义1 1 ; 必须有一个核心实体( 称为核心服务器) 来专门提供服务,这个节点不向 其他节点提供需求,只提供服务。 每个节点将要共享的文件名传送到服务器,服务器上维护目录列表来管 理每个节点共享的文件名。 客户端发送一个查询文件的请求 服务器返回满足查询条件的结果。 查询节点直接向返回的结果节点发送提取文件的请求。 提供数据的节点直接将文件发到查询节点。 数据文件的发送不经过任何中间节点。 这种带有核心服务器的p 2 p 结构最主要的弱点就是服务器成为一个瓶颈,所 有的查询都要求有服务器来回答,这不符合p 2 p 结构的最初出发点。而且服务器 如果停机,所有的服务将不能使用,这种结构还有可能带来法律方面的问题。 c 带有超级节点的p 2 p 结构 由于纯p 2 p 结构和混合p 2 p 结构都存在明显的优缺点,在文献 9 中,作者 提出了带有超级节点的p 2 p 结构: 最开始时,网络中无超级节点,所有的节点功能都相同。 随着时间变化,根据各个节点在网络中的表现,选出一些来作为超级节 点。 各个节点将要共享的目录和文件信息发送到自己的超级节点。超级节点 维护自己所属的节点的共享文件信息。 各节点查询时将请求发送到自己的超级节点,超级节点之间采用消息机 制来发送查询和查询结果。 超级节点将查询结果和其他超级节点返回的查询结果返回给查询节点。 带有超级节点的p 2 p 结构是对于前两种结构的一种利弊权衡,结合了两者的 硕士学位论文第二章基于p 2 p 技术的分布式应用系统框架 优点,但同时也带来了新的问题。比如,每个s u p e rp e e r 的规模应该多大,如 何选择一个节点作为s u p e rp e e r ,s u p e rp e e r 应该如何管理等。 当前面向文件共享领域已经又很多成功的商业产品如:n a p s t e r 、f r e e n e t 、 m o r p h e u s 等,但面向提供通用p 2 p 数据管理( 结构化非结构化数据) 领域仍是 研究热点,已有多个实验室原型系统。如:u c b e r k e l e y 的p i e r 项目、u n i v e r s i t y o fw a s h i n g t o n 的p i a z z a 系统以及新加坡国立大学和复旦大学联合开发的 p e e r d b 等“。 2 1 3c s 和p 2 p 模式的比较 目前分布式应用主要采用c s 模式,此方式需要在互联网上设置拥有强大 处理能力和大带宽的高性能计算机,配合高档的服务器软件,再将大量的数据集 中存放在上面,并且要安装多样化的服务软件,在集中处理数据的同时可以对互 联网上其他p c 进行服务,提供或接收数据,提供处理能力及其它应用。对于一 台与服务器联机并接受服务的p c 机来说,这台p c 机就是客户机,其性能可以相 对弱小。而p 2 p 技术的特征之一就是弱化了服务器的作用,甚至取消服务器,任 意两台p c 互为服务器,同时又是客户机,即对等。 c s 模式造成互联网络上的集中,无论信息资源还是成本资源均向同一方 向集中,这样的模式符合一对多、强对弱的社会关系形式,如政府对个人、对企 业,学校对学生,企业对职工等等关系。所以c s 架构符合应用需求的。p 2 p 模式将导致信息数量、成本资源都向互联网各点均匀分布,也就是所谓“边缘化” 的趋势。此模式符合“一对一”的特点,以及彼此相当的社会关系形式,如个人 对个人,规模相当的企业之间,等等,这也是符合应用需求的“。 在应用系统架构设计时,应用系统的业务模型也是选择架构的重要参考指 标,就分布式数据管理来说,在架构设计时必须考虑数据模式集成、数据分布状 态、应用规模、检索机制实现、安全性等多种因素。 表2 - ip 2 p 架构与c s 架构的比较 比较项目 p 2 p c s 中:虽然有很多开发环境如:低:目前c s 架构已经十分成熟, 开发难度j x t a 和x pp 2 ps d k 但仍不成 拥有大量的专业开发人员和中间 熟。件 差:系统运行于地理位置分布好:系统具有集中化管理机制,管 可管理性 的环境下,管理成本高。理方便,成本低。 可扩展性好:随着用户的加入,系统整差:随着应用的扩大和用户的增 硕士学位论文 第二章基于p 2 p 技术的分布式应用系统框架 体的资源和服务能力也在同步加,不仅需要添置昂贵的服务器还 地扩充,始终能较容易地满足需要使用负载平衡和集群等技术, 用户的需要。扩展成本高。 好:由于信息的传输分散在各 中:信息的传输通过了服务器节点 节点之间进行而无需经过某个进行了处理和转发,增加了用户隐 隐私保护 集中环节,用户的隐私信息被私信息被窃听和泄漏的可能性。 窃听和泄漏的可能性大大缩 ,j 、。 好:每个节点既是服务器又是 差:所有数据和资源由服务器端集 客户机,减少了对传统c s 结 中管理,只能通过添置服务器实现 构服务器计算能力、存储能力s e r v e r 端有限的负载均衡,大量 负载均衡 的要求,同时因为资源分布在的客户端得不到成分的利用造成 多个节点,更好的实现了整个闲置。 网络的负载均衡。 好:天生具有耐攻击、高容错差:由于所有客户端都需要和服务 的优点。由于服务是分散在各 端交互以获取服务,在服务端遭到 健壮性个结点之间进行的,部分结点攻击或破环的情况下容易造成单 或网络遭到破坏对其它部分的 点故障使整个系统崩溃。 影响很小。 数据模式 难:由于采用全分布式结构, 易:采用集中式的结构能够很好的 无法建立全局数据模型,增加支持全局数据模型。 集成 了数据模式集成的难度。 大:能够适用于大规模高分布 中:一般用于部门或企业级分布式 应用规模的数据网络。 数据管理数据,支持的节点数据有 限。 检索机制难:没有集中管理机制,无法易:具有集中管理机制,可以进行 实现做到全局优化和调度。 全局优化和调度。 好:由于数据存在各个节点可差:数据更改和发布需要复制到服 数据更新以实现方便的发布、更新。 务端或者更新服务端数据模式,时 效性差。 高:随着个人计算机的增加,低:只能通过扩充服务及达到扩充 可以充分利用闲置计算能力和 计算能力的目的,同时造成大量计 性价比 存储空间,可以用更低的成本算机资源的闲置。 提供更高的计算和存储能力。 o 硕士学位论文第二章基于p 2 p 技术的分布式应用系统框架 2 2a g e n tp 2 pm o d e ip 2 p 模式 2 2 1o v e r i a yn e t w o r k 简介 o v e r l a yn e t w o r k 为我们提供了一种构造网络的方法,它可在原有物理网络 的基础上,通过构造一个虚拟网络,来支持原有网络没有或很难提供的功能。并 能最大限度地保证与原有网络的兼容性。因o v e r l a y 特殊的网络构造方式,使 o v e r l a yn e t w o r k 不需得到网络中所有组件的支持且无需改变已有的网络结构, 即可为新型应用提供所需的服务。使网络资源更加易于控制和管理,同时也增强 了网络的安全性能。以o v e r l a yn e t w o r k 为基础,研究网络系统的优化问题,屏 蔽物理网络的异构性和不确定性,使问题得到一定程度的简化,易于兼容现有的 网络和系统,从而在动态异构的物理网络环境上提供个性化的功能适应业务变化 和满足即时需求n ”“。 利用o v e r l a yn e t w o r k ,可以不需修改已存在的软件协议和网络的底层结构 而快速地添加新的网络功能。研究者们提出了很多种p 2 po v e r l a yn e t w o r k 的组 织结构。比如著名的音乐交换软件n a p s t e r 的中心索引服务器结构;文件共享软 件g n u t e l a 的松散的纯分布式结构;f a s t t r a c k 项目的超节点结构( 纯分布式结 构和服务器结构的混合体) ;f r e e n e t 项目的非结构化的d h t :以及现在的各种结 构化的d h t 。结构化的d h t 具有纯分布式的特性,可以避免由服务器结构带来的 问题:同时由于其结构化的特征,可以避免非结构化的纯分布式系统的不确定性 ( f r e e n e t ) 以及对网络带宽的急剧消耗( g n u t e l l a ) 等问题,但是d h t 仅支持精确 关键词匹配查询,无法支持内容语义等复杂查询,限制了其在信息检索等领域 的发展。结构化d h t 的代表性系统有加州大学伯克利分校的c a n 项目和t a p e s t r y 项目;麻省理工的c h o r d 项目;微软研究院的p a s t r y 项目等“。 本文使用o v e r l a yn e t w o r k 技术,在考虑上述大规模网络物理结构和网络 数据特点的基础上,提出一种适合于本文应用的叠加网络结构( o v e r l a y n e t w o r k ) 和架构模型。 2 2 2 网络物理结构 本文所述分布式网络( 以下简称网络) 主要指大型电子政务网络和行业应用 网络,如:民政信息网络、煤炭行业信息网络等。在该网络中企业、单位作为网 络的一个子集,企业i n t r a n e t 通过i n t e r n e t 形成互连,网络各数据节点可以通 过企业i n t r a n e t 也可以直接接入i n t e r n e t 连入数据网络,网络使用t c p i p 协 议进行通讯。网络的物理结构如图2 - 3 所示: 硕士学位论文第二章基于p 2 p 技术的分布式应用系统框架 图2 - 3 本又所述分布式网络物理结构 上述网络具有以下特点: 非中心化:网络总体呈现非中心化趋势,网络数据分散在所有结点,各节点 具有自主管理的权限( 如:加入或退出网络) 。 高分布性:网络数据分布在随机分布的网络内各个节点,呈高度分布的特点。 节点异构:网络中各节点在物理结构、操作系统、带宽和处理能力方面各不 相同。如:节点的带宽可以从5 0 k b p s 1 0 0 0 m b p s ,节点可用性可以从i - 9 9 9 。 综合考虑本文网络数据的特点( i 2 节) 和网络物理结构,构建分布式网络 数据管理应用系统,不管采用c s 结构还是p 2 p 结构都具有一定的局限性,所以 本文提出一种基于代理( a g e n t ) 的混合p 2 p 架构模型( a g e n tp 2 pm o d e l ) “”4 1 5 2 2 3a g e n tp 2 pm o d e i 结构描述 a g e n tp 2 pm o d e l ( a p m ) 是一种混合集中化和非集中化的架构模型,他总体 呈现非集中化架构,在局部将集中化的c s 计算模型进行无缝集成。我们给出 a g e n tp 2 pm o d e l 结构的定义: 具有有多个核心节点( 称为a g e n t 节点) 提供路由及管理功能,这些节点 采用纯p 2 p 方式连接,形成的对等网络称为中心网络( c e n t e rn e t w o r k ) 。中心 网络拓扑结构如图2 7 所示,中心网络完全基于非结构化p 2 p 网络结构,没有管 理节点,采用随机图的方式组织。 多个普通节点( 称为e d g e 节点) 和一个a g e n t 节点按照混合型p 2 p 结构 形成网络称为边缘网络( e d g en e t w o r k ) ,其中a g e n t 节点担当核心服务器角色, 维护自己所属e d g e 节点的共享数据信息并提供集中管理服务。 e d g e 节点查询时将请求发送到自己的a g e n t 节点,a g e n t 节点将查询其 管理的边缘网络,并从边缘网络中e d g e 节点提取匹配数据后返回( 查询称为本 硕士学位论文第二章基于p 2 p 技术的分布式应用系统框架 地网查询l o c a ln e t w o r kq u e r y ) 。 当a g e n t 节点接收到查询时,a g e n t 节点首先进行本地网查询再将查询 向其它邻接a g e n t 节点发送。网络各节点之间采用消息机制来发送查询和接收查 询结果。 a g e n t 节点在开始构建网络时预先指定具有较强处理能力和较大带宽的 节点担当,如企业或部门的服务器。 o t 图2 - 4a g e n tp 2 pm o d e l 结构图 a g e n tp 2 pm o d e l 网络的组织采用自顶向下的方式,网络初始化和节点加入 过程描述如下: ( 1 ) 在网络初始化阶段首先使用高性能节点作为a g e n t 构造初始中心网络。 ( 2 ) 新节点加入时可以根据自身处理能力和带宽选择加入中心网络成为 a g e n t 或连接某个a g e n t 成为e d g e 节点,当为a g e n t 节点执行( 3 ) ,当为e d g e 节 点执行( 4 ) 。 ( 3 ) 新a g e n t 节点a n 首先向网络查找离自己最近的a g e n t 节点集( 通过比较 平均应答延时r t t ) ,然后选取最近a g e n t 节点作为邻接节点加入网络,具体过 程如下: 1 新节点a n 首先与网络中一个已知a g e n t 节点联系,该节点充当a n 节点 的引导节点。 2 a n 节点通过引导节点向中心网络发送查询消息( 通常采用基于直接应 答的q u e r y 消息,详见2 3 1 ,2 4 2 ) ,根据返回的应答消息s e n d 的应 答延时( r t t ) 选择最近a g e n t 节点集( 最近节点集大小为n n m ,n 、 m 在初始化时设定) ,如果节点集小于n 时逐倍增大广播消息的t t l 值 继续执行 2 。 3 选取最近a g e n t 节点集中的a g e n t 节点作为邻接节点加入网络。 硕士学位论文第二章基于p 2 p 技术的分布式应用系统框架 ( 4 ) 新e d g e 节点e n 首先向网络查找接入a g e n t ( 所管理的e d g e 节点最少和 连接速度最快的a g e n t ) ,然后连接该a g e n t 加入相应边缘网络,具体过程如下: 1 新节点e n 首先与网络中一个已知节点联系,该节点充当e n 节点的引导 节点。 2 e n 节点通过引导节点以较大t t l 向中心网络发送查询消息( 通常采用 基于直接应答的q u e r y 消息,详见2 3 1 ,2 4 2 ) 。返回的应答消息s e n d 应包括目标节点的边缘子网节点数,e n 节点分析目标节点的边缘子网 节点数和应答延时( r t t ) 选择接入节点,如果有合适的节点执行 4 , 否则执行 3 。 3 产生网络超负荷报警通知管理员扩充中心网络,e n 节点进行二次选择 以a g e n t 节点加入执行( 3 ) ,仍以e d g e 节点加入增大t t l 继续执行 2 。 4 连接接入a g e n t 加入相应边缘网络。 当e d g e 节点加入到边缘网络后,根据自身的带宽能力和计算能力解析出一 个优先级,并把这个优先级发送至管理节点,管理节点把所有节点的优先级记录 在一个节点优先级列表中。一般来说充当a g e n t 的节点状态相对稳定,不会频繁 的加入或断开网络,当a g e n t 节点断开网络时将选择优先级最高的e d g e 节点代 替其成为a g e n t 并将状态信息( 局部数据模式、子网信息等) 发送到该节点。 图2 - 6 边缘网络结构图2 - 7 中。网络拓扑 根据文档 2 6 对s u p e r p e e rp 2 p 网络研究的结果,当a g e n t 节点的平均输 出度( o u t d e g r e e :和其他a g e n t 连接数) 平均为3 4 时,总节点数和子网平均 节点数之比为i 0 0 :1 时具有较高的效率。本文所述覆盖网络遵循上述分布。 2 2 4a g e n tp 2 pm o d e l 特性 传统的p 2 p 架构大多采用s e r v e n t 模型( 如:g n u

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论