(计算机应用技术专业论文)p2p流媒体服务索引技术的研究与实现.pdf_第1页
(计算机应用技术专业论文)p2p流媒体服务索引技术的研究与实现.pdf_第2页
(计算机应用技术专业论文)p2p流媒体服务索引技术的研究与实现.pdf_第3页
(计算机应用技术专业论文)p2p流媒体服务索引技术的研究与实现.pdf_第4页
(计算机应用技术专业论文)p2p流媒体服务索引技术的研究与实现.pdf_第5页
已阅读5页,还剩65页未读 继续免费阅读

(计算机应用技术专业论文)p2p流媒体服务索引技术的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 近年来,以b i t t o r r e n t 和e m u l e 为代表的p 2 p 文件共享技术在应用领域获得了 很大的成功;另一方面,传统流媒体系统的服务能力越来越不能满足需求。于是 应用p 2 p 模式解决流媒体服务系统的瓶颈问题成为当前研究的热点。 资源定位是任何p 2 p 模式首要解决的问题。本文在分析p 2 p 系统、流媒体系 统体系的基础上,深入研究了各种资源定位方法,详细阐明了索引服务是适合p 2 p 视频点播系统的资源定位技术。 本文主要研究p 2 p 视频点播系统的索引服务技术,其中创新性的研究工作主 要包括两大部分: ( 1 ) 索引源的快速检索算法; ( 2 ) 基于软件流水线的索引服务技术。 这些工作针对p 2 p 视频点播系统,但这些技术本身可以适用于任何p 2 p 环境, 甚至其他更广泛的领域。 对于检索算法,本文首先分析了索引源检索的重要性;然后提出了索引源的 快速检索算法;最后通过实验模拟验证了本算法能降低p 2 p 网络中节点间平均延 迟,也通过基准性能测试验证了本算法的时空开销可以被服务系统接受。 对于索引服务技术,本文首先分析了已有服务器结构模型的不足;然后提出 了索引服务器的两种软件流水线技术:非对称处理流水线、旋转式同步操作数据 流水线;最后通过实验验证了这种软件流水线技术的有效性,实验中我们在不同 的坏境下观测其性能提升。 本文还对基于p 2 p 方式的视频点播系统进行了总体设计,并应用本文提出的 技术实现了其中的索引服务器。 关键词:端到端,流媒体,资源定位,分布式哈希表,索引,软件流水线 a b s t r a c t i l l u s t r a t i n gw i t hb i t t o r r e n ta n de m u l e ,p 2 pf i l e s h a r i n gs y s t e mh a sm a d ea g r e a t a i h i e v e m e n ti nr e c e n ty e a r s w h e r e a s ,i ti sb e c o m i n gm u c hm o r ed i f f i c u l tf o rt r a d i t i o n a l s t r e a m i n gm e d i as y s t e mt om e e tt h em q m r e m e n t i np r e s e n tn e t w o r kc o n t e x t t h e r e f o r e , i n t r o d u c i n gt h ep 2 pm o d e li ns t r e a m i n gm e d i as y s t e mb e c o m e su r g e n ta n d m a k e sw h i c h ac u r r e n tr e s e a r c hh o t s p o t r e s c i u r c ea l l o c a t i n gm e t h o di st h ef i r s ti s s u ef a c i n gu pt op 2 p m o d e l b a s e du p o n t h eb a c k g r o u n dk n o w l e d g eo f b o t hp 2 ps y s t e ma n ds t r e a m i n gm e d i as y s t e m , w ea n a l y z e t h er e s o u r c el o c a t i n ga l g o r i t h m si nd e p t h ,a n dc o m p r e h e n s i v e l yc l a n f yt h ef a c tt h a tt h e i n d e xs e r v e ri st h em o s ts u i t a b l ew a yf o rap 2 pv o d ( v i d e oo nd e m a n d ) s y s t e m o u rr e s e a 玎c hi sc o n c e n t r a t e do nt h ei n d e x i n gt e c h n o l o g yf o ra p 2 pv o ds y s t e m ,o f w 1 1 i d lt h ei n n o v a t i v er e s e a r c hi n c l u d e s :( 1 ) af a s ti n d e x i n ga l g o r i t h mo r i e n t i n gs o u r c e p e e r s ,a n d ( 2 ) a ni n d e x i n gt e c h n o l o g yu s i n g s o f t w a r ep i p e l i n i n g t h e s er e s e a r c hw o r k s t ot h ep 2 pv o ds y s t e m ,w h e r e a st h et e c h n o l o g yt h e m s e l v e sc o u l db eu s e di na n y o t h e r p 2 ps y s t e m so rf i e l d sa sw e l l a sf o rt l l ei n d e x i n ga l g o r i t h m ,w ef i r s t l ya n a l y z et h ei m p o r t a n c eo fs o u r c ep e e r o r i e n t e di n d e x i n g t h e nw ep r o p o s eaf a s ta l g o r i t h mo r i e n t i n gs o u r c ep e e r s f i n a l l yw e p r o v et h a tt h i sa l g o r i t h mi sc a p a b l eo fo p t i m i z i n gt h ea v e r a g ed e l a y b e t w e e np e e r sma p 2 ps y s t e mt h r o u g he x p e r i m e n t s ,a n dw ep r o v et h et i m ea n ds p a c ec o s ti sa c c e p t a b l et o t h es e r v i c es y s t e mv i ab e n c h m a r kt e s t s a sf 研t 1 1 ei n d e x i n gs e r v i c et e c h n o l o g y , w ef i r s t l ya n a l y z et h es h o r t c o m i n go ft h e p r e s e n ts e r v e ra r c h i t e c t u r e s t h e nw ep r o p o s et w ot y p e s o fs o f t w a r ep i p e l i n i n g t e c h n o l o g i e s ,o n ei s t h en o n s y m m e t r i cp r o c e s s i n gp i p e l i n i n g , a n dt h eo t h e ri st h e s y n c h r o n i z a t i o nd a t ap i p e l i n i n g f i n a l l y , e x p e r i m e n t sv a l i d a t et h ee f f e c t i v e n e s so f t h i s t e c h n o l o g y , a n dw eo b s e r v e t h ep e r f o r m a n c ei m p r o v e m e n t si nv a r i e dc o n f i g u r a t i o n s e v e n t u a l l y , w ep r e s e n tt h es y s t e md e s i g no ft h ep 2 p v o ds y s t e m ,a n di m p l e m e n t t h ei n d e x i n gs e r v e ra p p l y i n gt h et e c h n o l o g i e sw e h a v ep r o p o s e d k e y w o r d s :p 2 p , s t r e a m i n gm e d i a , r e s o u r c el o c a t i n g ,i n d e x i n g ,s o f t w a r ep i p e l i n i n g i i 图表索引 图表索引 图1 - 1 分组融合技术4 图1 - 2 支持流媒体的c d n 服务5 图1 - 3 传统c s 下载方式7 图1 - 4p 2 p 下载方式7 图卜5c o o l s t r e a m i n g 中o v e r l a y 数据传递8 图3 - 1 超级节点模式2 1 图4 - 1 根据坐标对节点进行聚类划分2 5 图4 - 2 源节点检索过程2 6 图5 - 1典型的服务器软件流水线体系结构3 0 图5 2“双缓冲”数据流水线同步操作3 1 图5 3“三缓冲 数据流水线同步操作平滑过渡3 3 图5 - 4 检索请求负载均衡方案3 5 图5 - 5 全相连超级节点3 5 图5 - 6c a n 虚拟空间3 6 图6 1t r o y v o d 系统结构图3 7 图6 - 2t r o y v o d 组件及功能模块划分图3 8 图6 3以块为单位的媒体数据并行传输3 9 图6 4 段与块4 0 图6 5 索引服务器结构及模块4 0 图6 6 动态位向量4 2 图6 - 7 流管理类图4 5 图6 - 8 块类图4 7 图6 9 缓冲区管理模块类图4 8 图6 1 0 服务协议类图5 0 图6 一l l 数据传输的c a l l b a c k 机制5 0 图6 1 2 请求协议类图5 1 图6 1 3 数据下载模块类图5 3 图6 1 4 数据发送模块类图5 4 v 图表索引 图6 - 1 5 图6 - 1 6 图6 1 7 图6 - 1 8 v i 4 5 6 7 5 5 5 5 图 一 一图向图图序流序序时递时时能传能能功息功功发消载送转、下发器据据据放数数数播 表格索引 表5 - 1 表6 - 1 表6 - 2 表6 - 3 表6 - 4 表6 - 5 表6 - 6 表6 - 7 表6 - 8 表6 - 9 表6 - 1 0 表格索引 软件流水线索引服务器性能试验结果3 4 t r o y v o d 服务系统功能模块3 8 各组件、模块间信息流程3 9 p e e r 节点软件模及其依赖关系4 4 基础功能层4 5 i s t r e a m 类成员4 6 c b l o c k 类成员4 7 c b u f f e r 类成员4 8 c s e r v e r 类成员4 9 c c l i e n t 类成员5 1 逻辑功能层5 2 v i i 缩略词表 缩略词表 英文缩写英文全称中文释义 p 2 pp e e r - t o p e e r点到点端到端 v o dv i d e oo nd e m a n d 视频点播 d h t d i s t r i b u t e dh a s ht a b l e 分布式哈希表 a c ea d v a n c e dc o m m u n i c a t i o ne n 圻r o n m e n t 网络通信程序框架库 c d nc o n t e i l td e l i v e r yn e t w o r k 内容传输网络 p r o m i s eap e e r - t o p e e rs e r v i c ef o rm e d i as 仃e a m i n g p 2 p 流媒体系统原型 d a cd i s t i n c ta c c e s sc o n t r o lp r o t o c o l 区分准入控制协议 s m p s y m m e t r i c a lm u l t i p r o c e s s i n g 对称多处理 v i i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他入已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名: 耸选 日期:汩子年,月沙日 i 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:导师签名: 日期:年 月日 第一章绪论 1 1课题背景及意义 第一章绪论弟一旱三百了匕 从流媒体服务系统发展历程来看【l 】,传统流媒体服务器体系结构经历了三个阶 段: 第一阶段是1 9 9 5 1 9 9 9 年左右的单服务器体系结构,由单一的媒体服务器向客 户提供服务,服务器是瓶颈; 第二阶段是1 9 9 9 2 0 0 2 年左右的并行或集群多服务器体系结构,由相对紧耦合 的服务器群向客户提供服务,服务器群的接入网络以及主干网络的带宽是瓶颈; 第三阶段是2 0 0 1 2 0 0 3 年左右的多服务器加代理缓冲服务器体系结构,由相对 客户较近的代理缓冲服务器通过缓冲预取策略从多服务器获取数据再向客户提供 服务,能满足的并发用户数与代理缓冲服务器的数量和位置相关。 三个阶段的推进就是为了提高流媒体服务系统的并发用户量。然而,随着流 媒体应用范围不断拓宽,用户数量的不断增长,传统的c s 流媒体服务模式固有 缺陷使得服务器负载重、价格高,主干网传输压力大,系统越来越难以满足需求。 p 2 p 是一种利用广泛分布的自治资源来完成特定功能的技术,它能较好地适应 面向海量伸缩性的应用系统的需求。其资源包括计算、存储、网络带宽等,所完 成的特定功能可以是分布计算、数据内容共享、通信协作以及流媒体服务等。与 传统的c s 模式不同,在p 2 p 中分布的各个对等节点地位平等,直接交换共享计 算、存储、信息等资源和服务,每个节点在享受服务的同时,还为其它节点提供 服务。这样,通过廉价节点的协作就能产生巨大系统增益。 将p 2 p 的思想应用于流媒体服务,请求节点不仅可以向媒体服务器请求服务, 而且可以向先前己被服务或直接拥有该媒体文件的对等节点请求服务,就可以依 靠大量对等节点自身的能力来减轻服务器和主干网络的压力。我们的研究内容就 是利用p 2 p 技术构建新型的流媒体服务系统,使得在较低的成本水平就可使系统 具有良好的扩展性、健壮性和适应性。 目前流媒体服务己成为i n t e m e t 上的重要业务,并且所占比例有越来越高的趋 电子科技大学硕士学位论文 势,本课题的研究不仅能够推动流媒体技术的发展,也将对流媒体服务应用起到 促进作用。 1 2已有技术研究现状 1 2 i传统媒体流传输方式 多媒体数据包括文字、图形、语音、图像等等,计算机对多媒体数据进行处理, 要解决信息采集、编码、压缩、存储、传输、解压缩、解码、信息重现等等一系 列的问题。由于视频文件所包含的信息量大,需要占用很大的存储空间,使得视 频文件在i n t e r n e t 上进行流式传输有许多的技术困难。 在早期,人们要观看i n t e r n e t 上的视频节目需下载整个视频文件,而流媒体 技术的产生、发展使得人们只需等待很短的时间就能以边接收边播放的方式欣赏 视频节目,消除了以往下载方式带来的长时间等待。 流式传输中,服务器将原视频文件分解成一个个小的数据包,按照特定的顺序, 以比较平稳的速度发送到网络上;客户端的播放程序可边接收数据边播放,不必 等到文件整个内容全部到达。流式传输还带来另外两大好处:一是只占用很少的用 户端空间;二是对媒体内容的版权进行了保护。 流媒体传输有许多不同的实现方式: ( 1 ) 广播和组播技术 广播方式中,数据包的单独一个拷贝各发送给网络上的所有用户( 无论用户需 要否) 。无疑它减小了网络的负载和发送者的负担。但广播方式只有在支持广播的 网络上才能实现,使得广播方式通常只能在小范围内使用。 在组播方式中,数据包将发送到一个组地址,所有加入该组的用户都可以收 到。目前,组播已经得到了广泛的应用,很多实时的多媒体会议及教育系统都是 基于组播开发的。 ( 2 ) 广播式点播技术 广播式点播是以广播的方式满足点播需求。其基本思想是将一个节目划分为 若干段,每一段单独占用一个广播频道并在该广播频道上轮循广播。用户在点播 时,先等待至第一段的开始;在播放某一段时,可以同时接收下一段的视频内容, 以达到段段之间的不间断播放。由于视频输出采用广播模式,且分段轮循,因此 2 第一章绪论 用户在任意时刻想观看该节目时,只要稍作等待便可,达到点播观看的目的。该 模式一般应用于热门节目的播放中。 ( 3 ) 分组技术 在v o d 应用中,由于大多数请求集中在少数的热门节目上,而且经常集中在 一个黄金时段,在此黄金时段中每一个短的间隔时间内都可能有对同一节目的大 量请求。分组技术的做法是,将黄金时间段平均分成许多小的时间间隔,针对每 一个时间间隔,收集所有的用户请求并加以分组,相同请求的用户在同一组中。 然后服务器为不同的请求各分配一个信道,同一组的用户共享一个信道上的相同 的视频流。这种策略虽然使一些用户的时延增大,但却可能大大提高服务器的服 务能力。 ( 4 ) 融合技术 融合技术在于将针对于同一节目请求的时间比较接近的多个视频流合并为一 个流以减少开销。融合技术同分组技术的基本出发点是相同的,都是为了使得多 个用户共享同一视频流。与分组技术不同的是,融合技术首先保证即时响应用户 请求,然后根据情况,对相同节目且时间接近的多个视频流,在时间相对较快视 频流中插入一些本不必要的帧( 如重复帧) 以减慢其步伐,相反,在时间相对较 慢视频流中丢弃一些帧( 如不重要的帧) 以加快其步伐,一旦出现视频流同步时, 就让它们共享一个信道,从而达到节约带宽资源目的,以让更多的用户能得到服 务。 ( 5 ) 分组融合技术 分组融合技术是分组技术和融合技术的结合物。一方面,使用分组技术,对 用户进行分组,同组用户共享信道;另一方面,使用融合技术,将节目相同且时 间接近的不同信道进行融合,使小组成为大组。这样,将更加提高网络带宽的利 用率,也减少系统开销。如图1 1 ,在 o ,t l 】时段请求q i l q i m ,共享流从时刻t l 发出的s l ,在 t l ,t 2 】时段请求q 2 1 、q 2 n ,共享流从时刻t 2 发出的s 2 ,在时刻t 2 开始对s l 和s 2 进行融合,直至它们速度相同,这时恢复s l 至正常速度,去掉s 2 , 让两组请求一起共享s l 。 电子科技大学硕士学位论文 v ( 速度) , 罗 形 t l t 2 t 3 t 4 0 1 1 0 1 n0 2 1 0 2 n ( 3 3 1 0 3 n0 4 1 0 4 n t ( 时间) 1 2 2 内容传送技术 图卜1 分组融合技术 随着i n t c r n c t 的迅速发展,媒体网站和企业网站的业务都急剧增加,因此,网 站必须拿出应付的策略。并行服务器结构,从局部来看它是一种很好的策略,但 从整体上看,还是存在很大的问题:i n t c r n c t 难堪重负。因为,传统的媒体发布系 统采用标准的集中式的客户机服务器技术实现内容的传送,每个客户端都需要创 建一个直接连接服务器的信道。 ( 1 ) 镜像服务器技术 镜像服务器技术是一种“送货上门”的技术。一些门户网站在需求量很大的 地方建立镜像服务器,它既分担服务器的网络流量,同时也给i n t c r n c t 减轻了很大 的压力。 ( 2 ) 边缘服务器技术 在这种架构中,发布服务器由多台位于核心的广播服务器和位于网络边缘的 服务器组成,形成一种可伸缩的应用级内容传送解决方案。任何一台广播服务器 都可以向边缘服务器发布内容,而由边缘服务器向客户提供服务。这种新的架构 具有很好的扩展性。随着企业的发展,网络的流量不断增加,可以在网络的边缘 增加这类服务器。 ( 3 ) c d n 技术 c d n ( c o n t e n td e l i v e r yn e t w o r k ) 技术也是提供边缘服务。与边缘服务器不同的 是,c d n 服务由独立的运营商提供。c d n 可简单理解为网络缓存、网络代理。它 的工作方式是将网站的内容发布到最接近用户的网络边缘,使用户可以就近取得 4 第一辛绪论 所需的内容。c d n 主要h 来减少骨干带宽的负担,提高骨t 网的利用率。 如图卜2 所示,流媒体的c d n 服务主要有两方面的用选: 一是用丁处理访问量比较大的卅站的几常流量,例如c c t v 5 n b a 在线直播: 二是用束应付重大事件所产生的爆发流帚,例如氽业所做的重大活动的网上 商措 滏一浮 图12 支持流媒体的c d n 服务 2 3p 2 p 网络环境下媒体流传输 从2 0 0 1 年开始,针对p 2 p 模式媒体服务技术的研究逐步引起众多研究者的关 沣,2 0 0 2 年至今发表了许多该领域内的论文,其研究技术主要是p 2 p 应用层组播 树。 在早期的i n t e m e t 体系结构中,i p 层实现最小的功能尽力传输的单描数捌 服务,而终端系统实现最大功能诸如错误处理、拥塞控制、流量控制等功能。这 个最小最大原则是i n t e m e t 能从研究性网络走向全臻的、商业性基础设施的一个芎 要的技术原因。 随着i n t e r n e t 的飞速发展,应用也不断在深 发展。应用需要更加丰富的嘲络 功能,尤其对于媒体服务而吉,由于媒体数据具自数据量大、持续时怕j 长、要求 带宽高等特点,如果能够把组播功能和流调度策略结介起来,就能使得服务能力 迅速增长,满足海母用户需求。那么,组播功能应该放在哪层足个值得商榷的叫 题。根据端到端原则,任何功能府孩尽量放存l 层,除非放任下层能技得巨大的 性能受益。 如果放在i p 层,1 p 层组播有以下缺点: 电子科技大学硕士学位论文 ( 1 ) 需要路由器保持每个组播组的状态信息,这违反了原有设计的“无状态”结构 原则,增加复杂性并有严重的扩展约束,尤其是在各网段带宽、节点处理能力、 节点存储能力等方面存在较大差异的情况下; ( 2 ) 需要在基础架构层有相应改变,这就延缓了广泛实施配置的进程,因为需要在 路由器中增加新的协议。 应用层组播基本能解决i p 组播所面临的困境: ( 1 ) 所有数据包都是通过单播传输的,无需路由器的支持,得到广泛配置的速度加 快; ( 2 ) 底层物理网络无需保存状态信息,而终端节点仅需要保存该组少量与其邻近成 员的信息; ( 3 ) 利用单播可以有效地采取适合媒体应用特点的错误恢复、流量控制、拥塞控制 等策略。 但应用层组播也有其缺点: ( 1 ) 效率不高,一条应用层链路可能会反复经过同一条物理网络链路; ( 2 ) 延迟大,两个终端节点之间的通讯可能要通过其它节点,这使得所有节点的访 问延迟增大。 1 2 4实际使用中的p 2 p 系统 b i t t o r r e n t 与e m u l e 同属p 2 p 文件共享系统,其工作原理大体相当:共享的文 件被切分成相对较小的块;数据传输以块为单位,同时发生在p e e r ( 臣p 种子节点) 与 p e e r 之间和p e e r 与s e r v e r 之间;任何p e e r 在下载数据块的同时也为其他p e e r 提供 数据。 p 2 p 系统数据传输路径如图所示,传统的文件下载方式( 图1 3 ) 是各个客户 机与服务器相连,下载所需文件。当采用这种方式提供大型热门文件下载时,需 要投入极大的服务器资源和网络资源。而p 2 p 文件共享系统( 图1 4 ) 大大缓解了 服务器压力,不会遇到类似问题。 6 第章绪论 陟 吲i _ 3 传统( 2 sf 载方式 ,瓣 蕊书。 罔卜4i 2 pf 载方式 这种p 2 p 文件茫享传输的方式大大减轻了服务器的负 j ! ,增强了文件发布系 统的扩展。将p 2 p 思想应用于流媒体系统,点播片j 户在接收媒体数槲的同时也为 其他片| 户提供媒体数据,j f 好可以解决传统c s 结构给流媒体系统带来的瓶颈问 题。 当前使用的p 2 p 流媒体系统主要以p p l i v e 和c o o l s t r e a m i n g 为代表。这两大 系统均采用了 状的o v e r l a y “覆盖嘲”结构,均达到了很高的同时在线人数。 c o o l s t r e a m i n g 的o v e r l a y 网络邻节点数据传递圈如罔15 所示。 ,+ 赫t - ,o - : 8 ! _t g - h 纠15c 0 0 1s t r e a m in g 中o v e r la y 数据传递 3本文的主要研究工作 本文主要研究p 2 p 视频点捕系统索引服务技术,其中创新性的研究丁作主要 包括阿大部分:索0 f 滞的陕遮榆索算法和基十软件流水线的索引服务技术。列于 检索算法,本文首先分析了索引源椅索的苇要忭:然后提m 了索 | 源的快速椅索 算法,最后通过实验模拟验证了本算法将降低p 2 p 酬络巾节点f jj 1 f 均延迟,也通 过基准陛能测试验l i f 了术博法的时宅外销u r 以被服务系统接受。对r 素0 服务技 术,本文首先分析了已自服务器结构模型| 1 刁不足,然后提出了索引服务器的非对 称处理流水线、旋转式同步操作数据流水线等两种软什流水线技术;最后通过试 验验证了这种软什流水线技术的自效性,试验c i j 我们在不同的环境观测到了相应 的性能提引。 奉义研究t 作以索日服务器为研究背景,但这些技术可麻j 王| 于多种资源定化 技术( 如d h t l 当中,甚、其他更多领域,并小仪仪局限于索引服务器。 4 论文结构 全文分七蚕: 第一章介绍课题的研究背景及研究现状。 第二章介绍基丁p 2 p 流媒体网络的相关理论,包括p 2 p 网络的拓扑结构和流 行算法。 第二章埘现有的p 2 p 资源定忙方式进行了深入的分析,指出了“索引服务器 搜超级节点”的模式是啦半群p 2 p 流媒体系统中采用的资源定位方式,刷e i , i 也指 出了其中仍需要研究的司题。 8 第一章绪论 第四章提出了索引源的快速检索算法,解决了资源定位中普遍存在的定位质 量和处理速度之间的矛盾。 第五章提出了基于软件流水线的索引服务技术,在大大提高服务器检索性能 的基础上,本章还分析了“索引服务器及超级节点 模式的具体技术细节。 第六章对p 2 p 视频点播系统、索引服务器及p e e r 节点的软件进行分析、设计 与实现。 第七章总结全文,并阐述了进一步的研究方向。 9 电子科技大学硕士学位论文 第二章基于p 2 p 流媒体网络的相关理论 对等网络( p e e rt op e e rp 2 p ) 是一种分布式网络,网络的参与者共享他们所拥有 的一部分硬件资源( 处理器、存储器能力、网络带宽、打印机等) ,这些共享资源需 要由网络提供服务和内容,能被其它对等节点( p e e r ) 直接访问而无需经过中间实 体。在此网络中的参与者既是资源( 服务和内容) 提供者( s e r v e r ) ,又是资源( 服务和 内容) 获取者( c l i e n 0 利用p 2 p 网络来构架流媒体服务系统,打破了传统的 c l i e n t s e r v e r ( c s ) 流媒体服务模式,在网络中的每个结点的地位都是对等的。每个 结点既充当服务器,为其他结点提供流媒体服务,同时又享用其他结点提供的流 媒体服务。本章先介绍了p 2 p 的发展,接着对p 2 p 拓扑结构和算法做了详细陈述。 2 1p 2 p 的发展 2 1 1 n a p s t e r 近期的p 2 p 应用起始于1 9 9 9 年文件共享系统n a p s t e r 的诞生【2 】。在n a p s t e r 中 使用一个中心服务器,称为目录服务器,存放所有文件的元数据信息( 文件的标题 和一些简单的描述信息) 以及存放结点的i p 地址。结点加入系统时首先要连接目录 服务器并报告自身地址及共享的文件列表。用户需要某个文件时向目录服务器提 交搜索请求,目录服务器返回符合搜索要求的所有文件的存储地址,之后用户根 据对应地址直接从共享此文件的结点处进行文件下载。由于目录服务器只提供索 引服务,而不承担文件存储和下载服务,因此它支持上万结点同时在线。n a p s t e r 在发布后迅速流行起来,很快成为增长最快的网络应用系统。 n a p s t e r 在初期取得了巨大成功之后,很快遇到版权问题的困扰。由于n a p s t e r 上共享的文件有很多是音乐媒体文件,这些音乐媒体在未被授权时是不允许被广 泛传播的。而n a p s t e r 的目录服务器恰恰为这些文件的传播提供了支持,因此 n a p s t e r 很快受到音乐著作方为保护版权而发起的挑战,并于2 0 0 1 年被迫关闭。 n a p s t e r 第一次验证了p 2 p 思想在广域网范围内的可行性,在n a p s t e r 关闭之后, 更多的p 2 p 文件共享系统迅速崛起,成为i n t e m e t 发展的一股巨大浪潮,其中最著 名的是g n u t e l l a 和k a z 啦。 1 0 第二章基于p 2 p 流媒体网络的相关理论 2 1 2g n u t ei ia g n u t e l l a 对n a p s t e r 的体系结构进行了彻底的改变,不再使用中心目录服务器 【3 】,转而使用全对等结构:每个结点记录多个其它结点的口地址( 或称为“指针”) , 这样整个系统的拓扑就成为一个由指针搭建起来的有向图,通常称这张图为“覆 盖网 ( o v e r l a y ) ,由于g n u t c l l a 的覆盖网中没有规定哪些结点之间必须有指针相连, 因此整个覆盖网没有一个有序的结构( 比如环形、立方体形、层次结构、树形结构、 有向无环图等) ,被称作“非结构化覆盖网 ( u n s t r u c t u r e do v e r l a y ) 。 g n u t c l l a 所有的查询都通过网络中以有限的“洪泛( f l o o d i n g ) 的方式进行, 这种方式虽然可以有效地找到需要的信息,但却会在网络中产生大量的流量。另 外g n u t e l l a 也没有提供足够的安全机制。 2 1 3k a z a a 和m o r p h e u s k a z a a 对g n u t e u a 做了进一步的改进。由于系统中的大多数结点的动态性都 很高,因此覆盖网中结点的指针就必须频繁更新,去除掉那些已经离开系统的结 点,补入新的在线结点。于是引入了s u p e r n o d e s ( 超级节点) 的概念。网络中的其它 节点在超级节点上登记并建立目录路由表。单个的超级节点不能组成一个p 2 p 网 络,它们是被动态任命为超级节点的。如果节点具有足够的带宽和很强的处理能 力,就会成为超级节点。 在m o r p h e u s 中,一个中心式的服务器上有一个或者多个超级节点的列表。超 级节点为连接到它们上的节点的共享文件建立目录路由表,并代理其它节点进行 查询,因此查询被发送到超级节点上,而不是其它节点。部分中心式系统的优点 是它和纯分布式系统的查询相比,查询时间缩短了,而且由于网络中没有一个唯 一的中心服务器,因此不会出现由于中心服务器出现故障而使得整个网络瘫痪的 故障。如果一个或者多个超级节点出现故障,连接到它们上的节点可以与其它超 级节点建立新的连接,网络仍然能够继续运行。即使大量的超级节点甚至全部超 级节点都出现故障,那么现存的节点可以自己充当超级节点,从而保持网络仍能 运行。 电子科技大学硕七学位论文 2 2 p 2 p 的分类 p 2 p 系统有很多种划分方法,按照拓扑结构划分或按照网络结构来区分。可分 为: ( 1 ) 非结构化的网络 非结构化的p 2 p 系统中不需要建立覆盖网,这种结构的优点是网络具有很强 的动态性,节点可以随时离开和加入网络,缺点是查找到理想的文件需要进行大 范围的搜索。因为这个原因,非结构的p 2 p 系统被认为是可扩展性不强,可是现 在正在进行许多研究以增加非结构化系统的可扩展性。 非结构化的系统对于精确查询提供了一个可扩展的方案,因为要查找的资料 的标识符是明确的。在这种系统中文件的位置和覆盖网完全没有关系。因为节点 没有相关文件的信息进行文件定位,所以需要查询每个节点是否有与查询条件匹 配的文件。 非结构化的网络代表有:g n u t e l l a 等。 ( 2 ) 结构化的网络 结构化网络的出现主要是解决非结构网络可扩展性差的问题。这些系统建立 覆盖网后,将文件放置在规定好的位置上,在文件标识符和文件位置之间建立了 一个映射,形成了一个分布式的哈希表( d h t ) ,使得查询能够有效的定位到要查 找的文件。 结构化系统的缺点是很难在具有高动态性的网络中( 如g n u t e l l a 网络中节点 加入、离开网络很频繁) 维持网络的结构。 结构化的网络代表有:p a s t r y ,c h o r d ,c a n ,t a p e s t r y 等。 2 3p 2 p 流媒体系统的拓扑结构 拓扑结构是指分布式系统中各个计算单元之间的物理或逻辑的互联关系,结 点之间的拓扑结构一直是确定系统类型的重要依据。目前互联网络中广泛使用的 流媒体系统有集中式、层次式等拓扑结构,i n t e r n e t 本身是世界上最大的非集中式 的互联网络,但是九十年代所建立的一些网络应用系统却是完全的集中式系统, 很多w e b 应用都是运行在集中式的服务器系统上。集中式流媒体系统拓扑结构系 第二章基于p 2 p 流媒体网络的相关理论 统目前面临着过量存储负载、d o s ( d e n i a lo f s e r v i c e ) 攻击等一些难以解决的问题。 基于p 2 p 的流媒体系统一般要构造一个非集中式的拓扑结构,在构造过程中 需要解决系统中所包含的大量结点如何命名、组织以及确定结点的加入离开方式 等问题。 根据拓扑结构的关系可以将p 2 p 流媒体系统研究分为4 种形式【4 】: 中心化拓手b ( c e n t r a l i z e dt o p o l o g y ) : 全分布式非结构化拓手b ( d e c e n t r a l i z e du n s t r u c t u r e dt o p o l o g y ) ; 半分布式拓扑( p a r t i a l l yd e c e l l 删i z e dt 0 p o l o g y ) 和 全分布式结构化拓扑( d e c e n t r a l i z e ds t r u c t u r e dt o p o l o g y ,也称作d h t 网络) 。 2 3 1中心化拓扑结构 在中心化拓扑结构中,节点资源的控制信息在中央索引服务器中交换,而数 据的交换将以纯点对点的方式进行。这种结构对中央索引服务器有着非常强的依 赖性:系统内所有的节点都由中央索引服务器来统一管理,由其负责收集所有节 点的节点信息,任意一个节点加入时都需要向中央索引服务器提出加入申请,节 点离开时也需要向中央索引服务器提出离开请求。这种结构有利于保证信息的一 致性,但是它的缺点也在于中央索引服务器的使用,一旦索引服务器出现故障, 那么对等节点之间的连接和组织都将无法进行。 中心化拓扑最大的优点是维护简单和发现效率高。由于资源的发现依赖中央 索引服务器,发现算法灵活高效并能够实现复杂查询。 在p 2 p 流媒体系统中,微软研究院vp a d m a n a b h a n 等人提出的c o o p n e t 系统 【5 】,采用了这种结构模式。系统内所有的节点都由一个中央服务器来统一管理:任 意一个节点加入时都需要向中央服务器申请,由服务器来指派这个节点的父节点; 当节点离开时,它也需要向服务器报告,然后由服务器为这个节点的子节点重新 指派一个父节点。它的优点是:节点可以快速的加入和离开;流媒体文件的搜索 在中央服务器上完成,搜索效率非常高。 但是这种对等网络模型存在很多问题,主要表现为【6 】: 1 ) 中央索引服务器的瘫痪容易导致整个网络的崩溃,可靠性和安全性较低。 1 3 电子科技大学硕士学位论文 2 ) 对小型网络而言,集中目录式模型在管理和控制方面占一定优势。但鉴于其 存在的局限性,该模型并不适合大型网络应用环境。随着网络规模的扩大,对中 央索引服务器进行维护和更新的费用将会急剧增加,所需成本过高。 3 ) r 9 央服务器的存在使得共享资源在版权问题上会引起纠纷。 2 3 2 全分布式非结构化拓扑 全分布式非结构化网络又称为纯p 2 p ( p u r ep 2 p ) 网络,采用了随机图的组织方 式,结点度数服从“p o w e r - l a w 规律,从而能够较快发现目的结点,面对网络的 动态变化体现了较好的容错能力,因此具有较好的可用性。同时可以支持复杂查 询,如带有规则表达式的多关键词查询,模糊查询等。 在全分布式非结构化网络中,对等点既充当客户端,又作为服务器。控制流 和数据流都在对等点之间交互,而没有中央索引服务器这个角色。全分布式非结 构化网络的显著优点在于它的可扩展性和稳定性。任何一个节点可以随时加入网 络并且与其他节点进行交互,同时分散性系统具有良好的容错性,当其中的一个 节点出现故障时,它并不会对整个系统造成致命的影响。 虽然全分布式非结构化网络没有了中央目录服务器的瓶颈,但是这种结构也 有它的局限性:节点可以非常轻松的进出网络,但由此却会引起系统的一系列波动, 请求进入或离开系统的节点需要向周围的节点发出系统更新消息,而这类消息随 着节点数目的不断增加而呈指数级的增长,最终造成系统的不稳定。此外,这种 结构的问题是随着时间的变化,网络中的查询消息也会呈指数级的增长,使得网 络负载增加,并且搜索速度会在系统中低带宽的节点上产生瓶颈。 在p 2 p 流媒体系统中,p u r d u e 大学j i a n g 等人提出的g n u s t r e a m 流媒体系统是 构建于g n u t e l l a 协议【7 】之上的由用户驱动的流媒体传输系统。g n u t e l l a 是一个p 2 p 文件共享协议,最早由j u s t i nf r a n k e l 和t o mp e p p e r 共同开发,它没有索引服务器, 采用基于泛洪( f l o o d i n g ) 发现和随机转发( r a n d o mw a l k e r ) 机制【8 】。为了控制搜索消 息的传输,通过盯l ( t i m et ol i v e ) 的减值来实现。 它考虑到了p 2 p 网络的动态性和异构型,每一个接收者都能从多个发送者那 里获得流媒体文件,然后由接收者在本地进行整合排序。对于流媒体文件的查询, 这种系统的优点是有较高的自治性、负载平衡和健壮性。然而,它的问题是随着 1 4 第二章基于p 2 p 流媒体网络的相关理论 时间的变化,网络中的查询消息会呈现指数级的增长,使得网络负载增加,并且 搜索速度会在低带宽的节点上产生瓶颈,因此网络的可扩展性比较差,而且由于 没有确定拓扑结构的支持,非结构化网络无法保证资源发现的效率。即使需要查 找的目的结点存在发现也有可能失败。 2 3 3 半分布式拓扑结构 半分布式拓扑结构又称为混合结构( h y b r i ds t r u c t u r e ) 或s u p e r - p e e r 结构【9 】,它 吸取了中心化结构和全分布式非结构化拓扑的优点,选择性能较高的结点作

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论