(计算机系统结构专业论文)一种高性能资源索引服务器的设计与实现.pdf_第1页
(计算机系统结构专业论文)一种高性能资源索引服务器的设计与实现.pdf_第2页
(计算机系统结构专业论文)一种高性能资源索引服务器的设计与实现.pdf_第3页
(计算机系统结构专业论文)一种高性能资源索引服务器的设计与实现.pdf_第4页
(计算机系统结构专业论文)一种高性能资源索引服务器的设计与实现.pdf_第5页
已阅读5页,还剩97页未读 继续免费阅读

(计算机系统结构专业论文)一种高性能资源索引服务器的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文攘要 中文摘要 涤源定短是p 2 p 溺络的核心闻题之一,也是p 2 p 阏络研究的热点。资源定位 机制点接关系到p 2 p 威用系统( 例如p 2 p 文件共享系统等) 的性能和可扩展性。 p 2 p 的资源定位模型,按照耀络拓羚结构可分势霸释:孛心拓卦的定位模型,分布 式非结构化的定位模型,分布式结构化的定位模型和混合式定位模型。在p 2 p 文 件共事系统中,既有传统的集中式资源定蕴模型,熟n a p s t e r ;又有使霜非常广泛 的分布式非结构化资源定位模型,如c m u t e l l a ;迩有目前最受研究者们关注的基于 d h t ( 分布式哈希表) 鳇分布式结构化资源定位模型。集中式资源定位模型的曩 录索引和定位信息维护简单,赘源定位效率高,并且支持复杂关键字的查询,但 存在中央服务器的单点失效问题,成本离,可扩展性差并存在版权方面的闲题; 分布式菲结构诧资源定位模型解决了单点失效的闯题,整个系统的容错性好,徨 是资源定位机制复杂,定位延迟大并产生大量冗余信息,白白消耗大量带宽;结 橡化p 2 p 资源定箍模型使用d h t 进行赘源定经,资源定搜效率离,爵扩展性好, 但是只支持关键字的精确查找,且没有考虑节点间的物理位置信息。 本文在北京市科委靠基于蛰诵的下一代互联网关键技术研发及产业佬推进帮 项目课题“i p v 6 流媒体分发应用系统支撑系统的开发的带动下,综合了集中式 和分布式结构化资源定位模型的优点,提出了一种混合式分层的p 2 p 网络费源定 位模蓬上层采用基于c h o r d 的d h t 结构,下层是菲结构化子掰,并对该资源定 位模型中的资源索引服务器( i n d e xs e r v e ri nh y b r i dp 2 pn e t w o r k ,i s h p n ) 进行了 设计秘实现。i s h p n 基于l i n u x 平台,采耀模块纯的愚想进行设计,系统各模块 运行在一个基于异步事件驱动的程序框架之上;针对资源索引服务器高网络i o 的 特点,采用l k n u x 2 ,6 内核的e p o u 橇翻进行溺络事箨监测,是一个单线程鼍# 阻塞、 高性能的集中式索引服务器。i s h p n 是构成本文混合式p 2 p 网络资源定位模型上 层c h o r d 型主干网络的基本元素,并必下层菲结构讫子鲻提供集率式资源发布及 索弓l 服务。子黼节点按照与i s h p n 的物理距离进行聚类,并可以遴过i s h p n 在子 网内以及c h o r d 型主干网上进彳亍资源发姆及索引,资源定位速度快,可扩展性强。 经系统盛力测试,该资源索弓l 服务器能够很好的支持大量节点的并发连接,使 用自定义的功能协议,能够通过添加新的模块支持更多的开放标准协议。上层由 资源索辱 服务器梅成鲶d h t 潮终也使整个资源定位模型具有饶秀翡可扩展健,给 中文摘要 中小型机构提供了一种低成本、高性能的文件共享方案。 关键词:索引服务器,混合式p 2 p ,d h t ,异步i o ,事件驱动 a b s t r a c t a b s t r a c t r e s o u r c e sl o c a t i n gi sak e yi s s u eo f p 2 pn e t w o r ka n dar e s e a r c hh o t s p o ta sw e l l r e s o u r c e sl o c a t i n gm e c h a n i s md i r e c t l ya f f e c t st h ep e r f o r m a n c ea n d e x p a n s i b i l i t yo fp 2 p a p p l i c a t i o n ( s u c ha sp 2 p f i l es h a r i n gs y s t e m , e t c ) t h er e s o u r c e sl o c a t i n gm o d e l so fp 2 p s y s t e ma r ed i v i d e di n t o4t y p e s :c e n t r a l i z e dt o p o l o g y , d e c e n t r a l i z e du n s t r u c t u r e d t o p o l o g y , d e c e n t r a l i z e ds t r u c t u r e dt o p o l o g ya n dh y b r i dt o p o l o g y i np 2 pf i l es h a r i n g s y s t e m ,t h e r ea r et r a d i t i o n a lc e n t r a l i z e dm o d e l ,s u c h a sn a p s t e r , d e c e n t r a l i z e d u n s t r u c t u r e dm o d e lw h i c hi s w i d e l yu s e d ,s u c h a s g n u t e l l a , a n dd h t - b a s e d d e c e n t r a l i z es t r u c t u r e dm o d e lw h i c hh a sr e c e n t l yb e c o m eaf o c u si nt h er e s e a r c ha r e a c e n t r a l i z e dr e s o u r c el o c a t i n gm o d e lh a sv e r ys i m p l em a n a g e m e n tm e c h a n i s mo nt h e i n d e xi n f o r m a t i o na n dv e r ye f f i c i e n tl o c a t i n gs c h e m e , i ts u p p o r tc o m p l e xk e y w o r d s e a r c ht o o b u tt h ec e n t r a ls e r v e rh a ss o m ep r o b l e m s ,s u c ha ss i n 西ep o i n to ff a i l u r e , l l i g hc o s t p o o re x p a n s i b i l i t y , c o p y r i g h tp r o b l e m s ;d e c e n t r a l i z e du n s t r u c t u r e dr e s o u r c e s l o c a t i n gm o d e lh a ss o l v e dt h ep r o b l e mo fs i n g l ep o i n to ff a i l u r e ,a n dh a sg o o d f a u l t - t o l e r a n tc a p a c i t y , b u tr e s o u r c e sl o c a t i n gs c h e m ei sv e r yc o m p l e x t h el o n gd e l a y a n dt h el a r g en u m b e ro fr e d u n d a n tl o c a t i n gi n f o r m a t i o nc o n s u m el a r g ea m o u n t so f b a n d w i d t h ;d e c e n t r a l i z es t r u c t u r e dr e s d ) u r c e $ l o c a t i n gm o d e li sb a s e do nd h ta n dh a s e f f i c i e n tl o c a t i n gp e r f o r m a n c ea n d9 0 0 de x p a n s i b i l i t y ;b u to n l ys u p p o r tp r e c i s ek e y w o r d s e a r c h ,a n dd on o tc o n s i d e rt h ep h y s i c a ll o c a t i o no ft h ep e e r s b a s e d0 1 1t h es u b j e c t - “d e v e l o p m e n to fs u p p o r t i n gs y s t e mo fi p v 6s t r e a m d i s t r i b u t i o na p p l i c a t i o n s y s t e m w h i c hs u p p o r t e db y r e s e a r c ho ft h ei p v 6b a s e d n e x tg e n e r a t i o ni n t e r n e tk e yt e c h n o l o g ya n di n d u s t r i a l i z a t i o np r o m o t i o n o fb e i j i n g m u n i c i p a ls c i e n c ea n dt e c h n o l o g yc o m m i s s i o n , 、聃mt h ea d v a n t a g eo fc e n t r a l i z e da n d d e c e n t r a l i z e ds t r u c t u r e dr e s o u r c e sl o c a t i n gm o d e l ,t h i st h e s i sp u t sf o r w a r dah y b r i d h i e r a r c h i c a lp 2 pr e s o u r c e sl o c a t i n gm o d e l t h eu p p e r l a y e ri sb a s e do nc h o r d ,a n d t h el o w e rl a y e ri sd e c e n t r a l i z e du n s t r u c t u r e d ,a n di n t r o d u c e st h e d e s i g n a n d i m p l e m e n t a t i o nd e t a i l so fai n d e xs e r v e ri nh y b r i dp 2 pn e t w o r k ,w h i c hi st h ek e yp a r t o ft h em o d e l t h ei n d e xs 6 t v e ri sd e v e l o p e du n d e rl i n u xu s i n gm o d u l a r i z a t i o ni d e a , a l l m o d u l e sa r er u n n i n go na na s y n c h r o n o u se v e n td r i v e ns e r v i c er u n t i m ef r a m e w o r k o u r i i i a b s t r a c t i n d e xs e r v e ri sas i n g l e - - t h r e a d e da n dh i g h - - p o w e r e dc e n t r a l i z e df r a m e w o r ka n di s o p t i m i z e df o rt h eh i g hn e t w o r ki o ,u s i n ge p o l lf r o ml i n u x2 6k e r n e l t h ei n d e x s e r v e r i st h eb a s i ce l e m e n to ft h ec h o r d - b a s e du p p e rl a y e r , a n ds e r v et h ed e c e n t r a l i z e d u n s t r u c t u r e ds u b n e t t h ep e e r so ft h es u b n e ti sg r o u p e db yt h ed i s t a n c eb e t w e e nt h e m a n dt h ei n d e xs e l v e l ,a n dc a l lp u b l i s ha n dq u e r yr e s o u r c e sb o t ho nt h el o w e rl a y e ra n d u p p e rl a y e r p e r f o r m a n c et e s t sa r em a d e t h ei n d e xs e r v e rc a nh a n d l et h o u s a n d so fr e q u e s t s s i m u l t a n e o u s l ya n dc a l ls u p p o r tm o l eo p e ns t a n d a r dp r o t o c o l sb ya d d i n gn e wm o d u l e s t h ec h o r d - b a s e du p p e rl a y e rr e s u l t si n9 0 0 de x p a n s i b i l i t ya n do f f e r sal o w - c o s t , h i g h - p o w e r e df i l es h a r i n gs c h e m et os m a l la n d m i d d l eo r g a n i z a t i o n s k e y w o r d s :i n d e xs e r v e r , h y b r i dp 2 p , d h t , a s y n c h r o n o u si o ,e v e n td r i v e n 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他入已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名:日期:2 0 。8 年s 月2 6 日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本入授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名: 第一章绪论 1 1 研究背景 第一章绪论 今天,信息的高速增长给人们的生活带来了日新月异的变化,科学家预言,二 十一世纪是一个信息的世纪,网络的世纪。随着信怠技术的快速发展,互联网上 的信息每天都在快速增长。计算机处理能力的增强和价格的降低使计算机得以广 泛普及。与此同时,计算速度每十八个胃翻一番,麓络速度每九个月翻一番,几 乎每五年差一个数量级【l 】。根据g o o g l e 公司的报道,截至2 0 0 5 年2 月,g o o g l e 数据 库己经索引了8 0 6 亿个网页,1 1 8 亿图像及8 4 亿新闻组帖子。根据2 0 0 7 年1 2 月中国 互联网信息中心第二十一次中国互联网网络发展状况调查统计报告【2 】,仅在中国, 网页总数就已经达到8 4 。7 亿个。如何有效的管理和利用如此庞大的信息成为一个亟 待解决的问题。曙前,互联网主要的应用方式是客户机绡琵务器( c s c l i e n t s e r v e r ) 模式,这种网络模式以服务器为中心,服务器向互联网上的各种终端,提供服务 和资源,控制着互联随的主要信息流。这种模式在过去很长的一段时间量很好的 解决了互联网的有效资源共享的问题。但是,随着互联网用户数量的激增,客户 端变多,这种统集中的模式使得服务器负载越来越重,服务器成为了整个网络 的瓶颈。而且,从经济层面上说,一个可靠的服务器,无论从硬件还是软件的角 度考虑都是相当昂贵的,从而增加了企业事业单位在互联踺上部署资源的成本。 另外,c s 模式的覆盖面狭窄,即使使用强大的搜索引擎( 如g o o g l e ,百度等) , 也难以到达网络的边缘,因此它难以充分利用互联网为数众多的客户端资源。 如何消除高负载中心赧务器带来的网络瓶颈,尽可能的利用网络边缘鹃空闲资源, 使得整个互联网负载均衡呢? 网络研究者们提出了p 2 p 的概念。p 2 p 是 p e e r - t o - p e e r 的简写,中文译名为对等互联或者点对点技术。匿前,在学术界、工 业界对于p 2 p 没有一个统一的定义,我们可以认为p 2 p 是一种分布式网络,p 2 p 技术不同于c l i e n t s e r v e r ,b r o w s e r s e r v e r 等传统模式,它抛开了应用服务器的束 缚,使得网络中的节点以种对等的方式共享这些节点的存储空间、处理器计算 能力、网络带宽等资源,在此网络中的参与者既是资源( 包括服务和内容) 提供 者,又是资源获取者,每个结点既充当服务器,为其他结点提供服务,同时也享 电子科技大学硕士学便论文 用其他结点提供的服务,从而使得边缘的客户端资源可以被充分利用。一方面节 点闻可以直接进行交互,不再需要服务器作为媒介来进行中转,从面使交流更直 接、高效;另一方面节点不再依赖中央服务器,从而解决了因服务器能力不足而 引起的性能瓶颈问题,增强了系统的可伸缩性,同时也避免了因中央服务器的失 败而导致的整个系统无法工作的可能性,使得系统的可靠性更强。p 2 p 技术的应 用非常广泛,其中一个重要的应用领域就是内容共享和发布。目前已出现了很多 流行的p 2 p 态容共享和发布软件,入稍霹以抛开应用服务器,通过p 2 p 软件自由、 实时而廉价的共享、发布自己感兴趣的内容。更重要的是p 2 p 内容发布和其享系 统可以遥过p 2 p 节点闻的协作,实现内容的快速分发,大大减轻了应用服务器的 负载。但是p 2 p 软件带来的是网络带宽的大量占用。据权威部门统计,当前p 2 p 流量已经占整个互联网流量的约7 0 ,并且正在以每年3 5 0 的速度增长。p 2 p 流量消耗了巨大的网络带宽,尤其是国际带宽,使网络拥塞,提高了运营商的运 营成本,使网络基础设施不堪重负,运营商苦不堪言。因此,内容分发系统,又 称蠹容分发鼹络( c o n t e n td i s t r i b u t i o nn e t w o r k 或者c o n t e n td d i v 缀 yn e t w o r k ,简 称c d n ) ,将供应商的内容推送到部署在网络边缘的节点上,从而有效的减少了 骨于网络的流量,避免了当发生一些热点事件时,产生的局部热点效应( 通常称 为f l a s hc r o w d s 3 j 或s l a s h d o te f f e c t 4 ,指的是对某些资源的访问请求在几分钟内 突然之间剧增并且可能持续长达数天时间) ,从甄使应用服务器过载退出服务。 结合p 2 p 和c d n 技术优势的p p c d n 系统来源于北京市科委“基于i p v 6 的下 一代互联网关键技术研发及产业化推进 项目课题“p v 6 流媒体分发应用系统支撑 系统的开发”,课题主要研究的是如何设计一个能够支撑大规模用户的高性能的内 容分发系统。 p p c d n 整个系统主要是由内容路由服务器( c 爻) 、存储服务器( e s p ) 、谈证 服务器( c a ) 、下载跟踪服务器( t r a c k e r ) 组成。其中内容路由服务器的作用是 存放文件的索引信息,负责管理存储服务器的存储空间;存储服务器是负责存储 具体的文件数据,负责为用户发布和下载文件提供服务;下载跟踪服务器负责统 计下载文件的用户信息,负责为用户提供其他下载用户的地址。系统拓扑结构如 图1 1 所示。系统的组织关系为:一个域( 一般是分城市部署) 国一个内容路由 服务器、多个存储服务器、一个认证服务器,一个下载跟踪服务器组成,各个域 的内容路由服务器通过d h t 鼹络互联,将所存储的文件发布到d h t 网络上,并 从d h t 网络上获得文件的索引信息( 文件名,大小,内容路由服务器地址,发 布用户等) 。p p c d n 系统的具体设计与实现超出了本文的范围,本文不作讨论。 2 第牵绪论 图1 - 1p p c d n 系统拓扑图 从运营商的焦度来看,p p c d n 系统确实能降低骨干阙络的带宽,降低运营商 的成本,提高内容分发的效率和用户体验,但是p p c d n 系统部署在广域网上, 由于c d n 系统的存在,不可避免的需要大量边缘服务器( e d g es e r v i c ep r o v i d e r , 简称e s p ) ,这对于小型机构或单位而言,是无力承担的;由于p p c d n 是流媒体 分发系统,因此对于凿通用户而言,需要将内容发布到c d n 系统上,再由整个 p p c d n 系统进行内容分发,从丽保证流媒体分发的q o s ( q u a l i t yo f s e r v i c e ) ,但 是对于文件共享系统( f i l es h a r i n gs y s t e m ) 而言,这对于大量的闲散节点资源 ( c p u 资源,存储资源,带宽资源) 仍然是一个浪费。 因此,借鉴p p c d n 系统的架构和设计理念,本文提出一种混合式p 2 p 架构 的资源定位模型( h y b r i dh i e r a r c h i c a lp 2 p r e s o u r c e s l o c a t i n gm o d e l ,h h p r l m ) , 并对其中最重要的组成部分高性能索引服务器( i n d e xs e r v e ri nh y b r i dp 2 p n e t w o r k ,i s h p n ) 进行了设计与实现,i s h p n 采用单线程异步i o 驱动机制,结 合上层d h t 网络,能够支撑上万规模的用户并发访闻,具有高效的资源定位功 能,并具有良好的可扩展性,较好的利用了大量闲散节点的资源。 1 2 本文的工作及创新 在总结p p c d n 系统的优劣势的基础上,本文提出了一种混合式p 2 p 架构的 资源定位模型,并对其中的高性能索引服务器进行了设计和开发,基于l i n u x2 6 3 电子科技大学硕士学馕论文 平台,针对索引服务器高网络i o 的特点,设计出一套基于异步枣件驱动的网络 服务运行框架,高效的运行框架奠定了服务器效率的基础,然后在此运行框架之 上,使用面向对象、模块化的方式对服务器进行了设计工作。高性能索引服务器 由异步事件驱动运行环境、i s h p n 交互模块、节点交互模块、资源管理模块几部 分组成。 本文的贡献和创新点主要如下; 提出了一种新型的混合式p 2 p 架构的文件共享系统模型,上层网络采用结构 化拓扑,由i s h p n 构成c h o r d 主干网,下层充分考虑到节点间的地理位置信 息,按照聚类方式构成子曜,并由某个i s h p n 提供本地服务,在整个主干霹 上,还可为子网节点提供远程服务。 i s h p n 采用基于事件驱动舱方式进行设计,避免了网络阻塞和大量线程带来 的开销,使系统运行高效。 i s h p n 在系统中只存储资源的索引信息,并不参与实际的数据传输,使大量 客户端资源可以得捌有效利用,极大的提高了系统的可扩展性。采用了中心 索引服务器,使得查询效率高,查询延迟小,并使复杂查询成为可能。 1 3 本文的内容和组织 本文的主要内容,是描述了l i n u x 平台下,基于异步事件驱动的,高效可扩 展的索引服务器i s h p n 的设计与实现过程。论文分为七个部分,以下是各部分的 介绍: 第一章绪论 对课题的相关背景,本文主要工作进行了简要介绍。 第二章p 2 p 技术概述 对p 2 p 的概念、分类、应用研究等方面进行了介绍。 第三章p 2 p 系统资源定位机制的研究及典型系统分析 介绍了集中式、分布式非结构化和分布式结构化及混合式p 2 p 资源定位模型, 主要研究了典型的分布式非结构纯和分布式结构纯p 2 p 网络架构,并对其中 的资源定位机制特别是非结构化p 2 p 系统的资源定位机制进行了一定的研 究,为高性畿资源索引服务器的设计打下理论基础。 第四章高性能资源索引服务器的概要设计 在前面的研究基础上,开震了对高性能资源索引服务器的概要设计工作,重 4 第一章绪论 点对服务器框架进行了研究,提出一种基于异步事件驱动的程序运行框架, 介绍了各个模块的主要功能及整个系统的基本数据结构。 第五章高性能资源索引服务器的详细设计 在概要设计的基础上,开展了对高性能资源索引服务器的详细设计,给出了 各个模块的详细运作原理和流程。 第六章资源索引服务器压力测试及性能分析 设计了一种负载发生器,对资源索引服务器进行了压力测试,并依据结果对 资源索引服务器的性能进行了分析。 第七章结论和展望 对本文所设计的索引服务器的特点进行了总结,提出了今后的研究方向。 电子科技大学硕士学位论文 第二章p 2 p 技术概述 p 2 p 是英文p e e r - t o - p e e r 的缩写,与传统的c s 计算模式不同,p 2 p 系统中的 各节点是地位平等的对等体,使计算机系统之间可以直接共享信息和计算资源, 丽不必逯过服务器中转。放霞从更广泛的兔度利用节点的计算、存储、信息和带 宽等资源。p 2 p 技术并不是种新兴的技术,2 0 世纪7 0 年代中期,源于局域网 的文件共享p 2 p 技术就开始流行起来了。霉前大家所关注的p 凹技术,是| 基有技 术的新的应用模式。1 9 9 9 年1 月,正在读大学年级的s h a w nf a n n i n g 开发了一 个叫n a p s t d 5 】的软件。这个软件能让乐迷之间方便地共享自己硬盘上的m p 3 音 乐。这个软件通过目录服务器找到需要的m p 3 文件后,它会直接连接拥有该文件 的其他用户主机并下载。这避免了原来集中下载服务器的存储空间不足和带宽瓶 颈。虽然与r i a a ( r e c o r d i n gi n d u s t r y a s s o c i a t i o no f a m e r i c a ) 酶一场官司最终使 n a p s t e r 不得不从索引服务器上删除所有受版权保护的条图,但是全世界第一次领 略到了p 2 p 的伟大力量。美国翱利福尼亚大学伯克利分校开展的寻找外星生命的 s e t i h o m e 6 】研究计划是至今最成功的分布式计算项目。1 9 9 9 年,s e t i h o m e 开始使用p 2 p 计算方法来分析星际闻的无线电信号,寻找宇宙中可能存在的其它 外星文明证据。p 2 p 技术串联所有参与研究计划者闲置的电脑来执行庞大复杂的 运算,然后把结果传到s e t i h o m e 总部,s e t i h o m e 是充分利用分布在网络 边缘的计算资源的成功范例,从丽推动了一股p 2 p 技术热潮。之后,各种基于p 2 p 的应用风起云涌,如g n u t e l l a 7 1 、k a z a a 8 】以及b i t t 0 小眦【9 】等。据统计,目前i n t e m e t 上各类挖p 应用的流量己占骨于霹流量鲍7 0 以上。m o o r e 定律早就指出:微处 理器速度和磁盘的存储能力每1 8 个月翻一番,单台机器的计算和处理能力飞速增 强,髓前单台p c 的计算和存储缝力已经超过早期的巨型概,并且大量过剩。g i l d e r 定律也指出网络带宽每6 个月翻一番,迅速增长的网络带宽为更多p c 的宽带接 入提供了可能,宽带接入为许多宽带应用提供了通信层的物理基础。因此,p 2 p 技术日益成为计算机界研究的热点技术也就成为了技术进步和社会发展的必然趋 势和最终结果。 6 第二章p 2 p 技术概述 2 1p 2 p 的定义 目前,在学术界、工业界对p 2 p 并没有个统一的定义。一些著名的定义有: m m 为p 2 p 下了如下定义【1 0 1 :p 2 p 系统由若于互联协作的计算机构成,且至 少具有如下特征之一:系统依存于边缘化( 非中央式服务器) 设备的主动协 作,每个成员直接从其它成员而不是从服务器的参与中受益;系统中成员同 时扮演服务器与客户端的角色;系统应用的用户能够意识到彼此的存在,构 成一个虚拟或实际的群体。 英特尔公司p 2 p 工作组( p 2 pw o r k i n gg r o u p ) 将p 2 p 系统定义为通过在系统 之间直接进行交换来共享计算机资源和服务的系统【1 1 】。 g r a h a m 通过描述p 2 p 节点所需的三个必备条件来定义p 2 p 系统【1 2 1 。三个必 备条件如下:( 1 ) 具备服务器的能力;( 2 ) 拥有独立予d n s 的寻址系统;( 3 ) 能够处理可变的连接。 s h i r k y 将p 2 p 定义为一类利用各种i n t e m e t 边缘资源的应用程序,边缘资源包 括存储、计算、内容、人力等【1 3 】;访问这些分散资源意味着在不可预测的p 地址和不稳定的网络连接环境中进行,所以p 2 p 节点必须独立子d n s 系统和 中心服务器,完全或高度的自治和囱组织。 以上定义都道出了p 2 p ( 也称为对等计算或对等网络) 与c s 模式的主要区 别,即p 2 p 网络中无专门的服务器,计算节点在功能上是对等的。传统的c s 计 算模式在应用层是采取集中控制的,由服务器提供服务并对客户端进行控制;而 p 2 p 网络中各个节点在应用层是逻辑对等的,各个节点之间可以直接进行数据通 信而不需要通过中间的服务器,每个节点同时充当其他节点的服务器和客户。因 此p 2 p 是一种看起来很新,但是也只是阍b 2 c ,b 2 b 等将现实世界的东西移植至l 互联网上的技术一样,模仿人类社会p e r s o n t o - p e r s o n 的交流方式而已。 2 2p 2 p 的特征 与其它网络模型相比,p 2 p 其有以下特础1 稍: 1 ) 无中心化 蠢于p 2 p 系统的每个节点既是客户端又是服务器,缝位平等,丽网络巾的资 源和服务分散在这些节点上,信息的传输和服务的实现都直接在节点之间进行, 所以消除了c s 模式中服务器方面形成的网络瓶颈。即使是在混含式p 2 p 中,虽 7 电子科技大学硕士学位论文 然在查找资源、定位服务或安全检验等环节都需要集中式服务器的参与,但主要 的信息交换最终仍然在节点之间直接完成。这样就大大降低了对集中式服务器的 资源和性能要求。无中心化的特点,使p 2 p 网络在可扩展性、健壮性等方面占据 了绝对的优势。 2 ) 健壮性 p 2 p 系统具有很强的自适应性。p 2 p 架构的服务分散性将互联网上随时可能出 现异常情况,如网络中断、网络拥塞、节点失效等给系统的稳定性和服务持续性 带来的影响都降到最小。即使部分节点瘫痪或受到攻击,整个系统仍能够正常运 行,对网络的其他部分影响较小。而且p 2 p 模型一般在部分节点失效时能够自动 调整整体拓扑,保持其它节点的连通性。事实上,p 2 p 网络通常都是以自组织的 方式建立起来的,并允许节点自由地加入和离开。一些p 2 p 模型还能够根据网络 带宽、节点数、负载等变化不断地做自适应式的调整。 3 ) 可扩展性 p 2 p 系统全分布的体系结构不存在中心点和瓶颈。随着用户的加入,服务的 需求增加了,但是系统整体的资源和服务能力也在同步地扩充,即使在诸如 n a p s t e r 等混合型架构中,由于大部分处理直接在节点之间进行,大大减少了对服 务器的依赖,因而能够方便地扩展到数百万个以上的用户。而对于纯p 2 p 来说, 整个体系是全分布的,不存在瓶颈。理论上其可扩展性几乎可以认为是无限的。 4 ) 隐私性 p 2 p 系统的数据传输无需通过中心节点,用户的隐私信息被窃听和泄漏的可 能性大大缩小。此外,目前解决i n t e r n e t 隐私问题主要采用中继转发技术,从而 将通信的参与者隐藏在众多的网络实体之中。在传统的一些匿名通信系统中,实 现这一机制依赖于某些中继服务器节点。而在p 2 p 中,所有参与者都可以提供中 继转发的功能,因而大大提高了匿名通讯的灵活性和可靠性,能够为用户提供更 好的隐私保护。 5 ) 高性价比 p 2 p 被广泛使用的一个重要原因是高性价比优势。随着硬件技术地发展,端 用户( e n du s e r ) 的计算能力不断增长,甚至现在p d a ( p e r s o n a ld i g i t a la s s i s t a n t , 个人数字助理) 的计算能力都比阿波罗登月计划时所用的主机的计算能力要强。 而在目前的互联网上,这些普通用户拥有的节点只是以客户机的方式连接到网络 中,仅仅作为信息和服务的消费者,游离于互联网的边缘。对于这些边际节点的 能力来说,存在极大的浪费。采用p 2 p 架构可以有效地利用互联网中散布的大量 第二章p 2 p 技术概述 普通节点,将计算任务或存储资料分布到所有节点上。利用其中闲置的计算能力 或存储宅间,达到高性能计算和海量存储的目的。通过利用网络中的大量空闲资 源,町以用更低的成本获得更高的计算和存储能力,这比搭建一组高性能的服务 器集群要划算得多。 23p 2 p 模式的分类 p 2 p 模式的分类主要根据p 2 p 系统拓扑结构的分散度和耦合度“,1 6 , m 。 1 ) 按分散度分类:分散度是指p 2 p 系统的拓扑结构对中央服务器的依赖程度, 从分散度的发展经历来看,p 2 p 系统升为集中式、半分布式和全分布式3 种模式。 集中式 在集中式拓扑的p 2 p 系统中,存在着一个( 或少数几个) 中央索引服务器, 在这种网络中,索引服务器存放了当前该共享网络中所有共享文件资源的索引信 息,而文件资源仍然存储在各个客户端上,而不是存储在服务器上,因此节点之 间的交互与资源共享等行为仍是直接以p 2 p 方式进行的。典型系统如n a p s t e r 和 b i t t o r r e a t 等。 : 二口 书 姆 i 书 固2 - 1 集中式p 2 p 网结结构图 电子科技大学硕士学位论文 半分布式 在半分布式拓扑的p 2 p 系统中,存在一些“超级节点”( s u p e r - p e e r ) 。超级节 点般具有比普通节点更强的能力和更高的地位,通常充当其它一些节点的目录 服务器的角色。这些超级节点都是由p 2 p 系统动态选择和组织的,具有一定的自 组织性和自适应性,一般不会给p 2 p 系统带来荤点失效等问题。典型系统如 f a s t t r a c k 2 1 峰。 图2 - 2 半分布式p 2 p 网络结构图 全分布式拓扑 在全分布式拓扑的p 2 p 系统中,所有节点都是完全平等的,每个节点既是服 务器也是客户端,系统中没有任何目录服务器。典型系统如c - a u t e l l a i ” 、f l _ e e - - l a e t ”i 和c h o r d 2 0 。 趣 第二章p 2 p 技术概述 一p 田2 - 3 垒分布式p 2 p 阿络结构图 2 ) 按耦合度分类:耦台度是用来衡量p 2 p 系统的拓扑构造过程是受某种机制严 格控制还是动态、非确定性的。从耦合度的发展经历来看,p 2 p 系统可分为结构 化和非结构化2 大类。 非结构化拓扑( u n m u c t u r e d ) 在非结构化拓扑的p 2 p 系统中,叠加网络( n e t w o r k o v e r l a y ) 通常采用了随机 图的组织方式,节点间的逻辑拓扑关系通常较为松散,具有较大的随意性。因而 能够较快的发现节点,对网络的动态变化有很好的容错能力。非结构化拓扑的实 现和维护相对简单,可支持灵活的资源搜索条件,同时可以支持复杂查询,如带 有正则表达式的多关键字查询,模糊查询等。但是由于没有确定拓扑结构的支持, 因此资源定位( 通常都是采用泛洪、随机漫步等方法) 的效率不敢保证。当系统 规模很大的时候,产生的冗余查询信息可能在系统中形成网络风暴,可扩展性得 不到保证。 结构化拓扑( s t r u c t u r e d ) 在结构化拓扑的p 2 p 系统中,节点问的逻辑拓扑关系通常由确定性的算法严 格控制,数据位置被精确的控制,这些都使得数据查询鞍为容易实现,并且具有 较高的效率。结构化拓扑p 2 p 系统通常采用分布式哈希表技术( d i s l l i b u t e dh a s h t a b l e ,d h t ) 构建。它实际上是一个由广域范围上大量节点共同维护的巨大散列 表。散列表被分割成不连续的块,每个节点被分配给一个属于自己的散列块,并 成为这个散列块的管理者。结构化拓扑资源定位准确并且可保证一定的效率,有 着良好的可扩展性和性能,但结构化拓扑的维护相对复杂,通常只支持精确匹配 $ 毫子科技大学硕士学链论文 资源搜索,对复杂搜索条件的支持较差。 3 ) 综合分类 可以进一步按照分散度对结构化和非结构化p 2 p 网络进行分类: 对于非结构化拓扑:集中式非结构化拓扑( 如n a p s t e r ,b i t t o r r e n t 等) ,全分 布式非结构化拓扑( 如g n u t e l l a 和f r e e n e t 等) ,半分布式非结构化拓扑( 如 f a s t t r a c k 等) 。 对于结构化拓扑:结构诧拓扑的p 2 p 系统大都是全分布式的,如c h o r d l 2 。1 、 t a p e s t t 3 j 2 2 1 和c a n t 2 3 】等;也有少部分是半分布式的,如b r o c a d e 【2 4 1 。 2 。4p 2 p 的应用 蚕2 0p 2 p 系统分类及代表系统 g n u t e l l a b r o c a d e c h o r dc a nt a p e s t r y p 2 p 计算在i n t e r a c t 中已经存在很多种应用,并且人们仍然在不断的开发出新 的更适合子p 2 p 计算的应用。p 2 p 的应用主要体现在如下几个方蕊: 1 ) 对等计算 对等计算研究的是如何充分程用鼹络孛各种计算单元来共同完成大规模的计 算密集型任务,一方面,这种任务一般由昂贵的高性能中心服务器( 常常是超级 计算机,通过采用并行技术、分布式技术等将多个计算单元节点联合起来) 来承 担,费用十分昂贵,维护困难,小型机构无法承担;另一方面,网络的边缘计算 资源闲置非常严重。如何充分地把网络中多台计算机暂时不用的计算能力结合起 1 2 第二章p 2 p 技术概述 来,使用积累的能力执行超级计算机的任务,就是p 2 p 对等计算产生的初衷。应 用实例有:d i s t r i b u t e n e t 2 5 】和s e t i h o m e ( s e a r c hf o re x t r a t e r r e s t r i a li n t e l l i g e n c e ) 【6 】篁 寸o 2 ) 协同工作 协同工作是指多个用户之间利用网络中的协同计算平台来共同完成某项任 务,共享信息资源等。一般的协同应用包括:实时通信、聊天室、好友列表、文 件共享、语音通讯等基本的功能,除了这些基本的功能,用户之间还可以共享白 板,协同写作进行视频会议等。在这种用户量大,数据量多的工作环境中,传统 的c s 模式很难满足对效率的需求,采用p 2 p 技术,参与协同的计算机可以直接 建立连接,可以让一个工作小组建立和管理同步或非同步的协同工作,并提高他 们的效率。比较著名的p 2 p 协同工作系统包括g - r o o v e l 2 6 1 、m a g i 2 7 】等。 3 ) 搜索引擎 搜索引擎是目前人们在网络中检索信息资源的主要工具,p 2 p 技术使用户能 够深度搜索文档,而且无需通过w e b 服务器,也可以不受信息文档格式和宿主设 备的限制,达到g o o g l e 2 8 】等传统集中式引擎( 只能搜索到2 0 3 0 的网络资源) 无可比拟的深度( 理论上将包括网络上的所有开放的信息资源) 。典型的系统有 d i 西t a l 公司开发的搜索引擎p a n d a n g o 2 9 1 以及j x t a 项目的子项目j x t a s e a r c h 3 0 1 。 4 ) 文件信息共享 文件信息共享一直是网络技术发展的重要推动力也是p 2 p 技术中最典型的应 用。传统的w e b 方式中,要实现文件交换需要w e b 服务器的大力参与,通过将 文件上传到某个特定的网站,用户再到该网站搜索需要的文件,然后下载。这就 要求w e b 服务器能够对大量用户的访问提供有效的服务,因而经常成为w e b 方 式这类应用的瓶颈之一。而p 2 p 技术可以使用户之间可以直接共享、传输文件而 不需要通过中心服务器,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论