




已阅读5页,还剩50页未读, 继续免费阅读
(计算机软件与理论专业论文)BitTorrent种子质量评估与检索系统设计.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
b i t t o r r e n t 种子质量评倍与检索系统设计 b i t t o r r e n t 种子质量评估与检索系统设计 摘要 p 2 p ( p e e rt op e e r ) 技术将人们直接的连接起来,使得人们可以直接连接 到其他用户的计算机、交换文件,而不是像过去那样连接到服务器去浏览与下载。 p 2 p 中的b t ( b i t t o r r e n t ) 技术是一种优秀的文件资源共享技术,随着鼹技术 的日趋完善和发展,b t 技术逐渐成为互联网上必不可少的下载手段之一。 目前b t 资源发布站点不断涌现,b t 用户必须在众多的网站中查找种子文件, 查找的低效率和种予文件质量的参差不齐使得下载的效率比较低,浪费了网络带 宽。 本文首先对p 2 p 协议和几种基于p 2 p 技术的文件共享协议进行了详细分析,同 时系统地阐述了b t 的运作的机制和过程,逐渐引出了默网络下载可能存在的一些 问题。针对这些闯题,本文设计了b t 种子文件的质量评估和检索系统。该系统包 含针对b t 种子文件的网络爬虫和种子文件解析器,它能自动采集网络中的b t 种子 文件;褥从中分离出共事文件的描述信息,建立索引和描述信息的历史纪录。紧 接着,基于这些历史纪录提出了8 t 种子文件质量的时间序列预测评估方法,并以 此方法对种子文件进行排序,给予用户较好的查询结果。实验证明,该系统能够 向用户提供优质的种子。 除此之外,基于该检索系统,本文还提出了一种b t 客户端的改进策略。可 以将相似种子文件进行合并,来提高下载的效率。 关键词:p 2 p ;b i t t o r r e n t :网络爬虫;搜索引擎:质量评估;时间序列预测 中国海洋丈学颁士毕业论文 d e s i g no fb t s e e dq u a l i t ya s s e s s m e n ta n dr e t r i e v a ls y s t e m a b s t r a c t p 2 pt e c h n o l o g yc o n n e c t su s e r s c o m p u t e r sd i r e c t l yt oe x c h a n g ef i l e sr a t h e rt h a n c o n n e c t i n gt oas e r v e rf i r s ta n dt h e nd o w n l o a d b tt e c h n o l o g yi nt h ep 2 pi s a l l e x c e l l e n tf i l er e s o u r c es h a r i n gt e c h n o l o g y n o w a d a y sb tt e c h n o l o g yb e c o m e sm o r e a n dm o r ep o p u l a ra n dp e r f e c t ,a n di sb e c o m i n gan e c e s s a r yw a yt od o w n l o a dr e s o u r c e f r o mn e t c u r r e n t l ym a n yb tp u b l i s hs i t e sh a v ee m e r g e d b tu s e rm u s ts u r fn u m e r o u s p u b l i s hs i t e sf o rn e e d yf i l e s g e n e r a l l y ,i tr e s u l t si nl o we f f i c i e n c y m o r e o v e r ,t h e u n e v e nq u a l i t yo fs e e df i l e sm a k e sd o w n l o a d i n gr e l a t i v e l yl o we f f i c i e n ta n dw a s t e s n e t w o r kb a n d w i d t h f i r s t l y , p 2 pt e c h n o l o g ya n ds e v e r a lk i n d so ff i l e - s h a r i n gp r o t o c o lb a s e do np 2 p a r ea n a l y z e di nd e t m li nt h ep a p e r - a tt h es a m et i m e ,d e t a i l e da n a l y s i sa n ds y s t e m a t i c e x p o s i t i o no ft h eo p e r a t i o no ft h eb tm e c h a n i s m sa n dp r o c e s s e sa r ep r e s e n t e d ,a n d s o m ep r o b l e m s e x i s t i n g b td o w n l o a dp r o c e s sa r e g r a d u a l l ye l i c i t e d q u a l i t y a s s e s s m e n ta n dr e t r i e v a ls y s t e mo fb ts e e df i l e si sd e s i g n e dt ot h e s ep r o b l e m s 。t h i s s y s t e mi n c l u d e sa w e bc r a w l e ra n daf i l ep a r s e ra g a i n s tt h es e e df i l e s t h e r e f o r e ,i tc a n a u t o m a t i c a l l yc o l l e c tb ts e e df i l e s i nt h en e t w o r ka n ds e p a r a t et h ed e s c r i p t i o n i n f o r m a t i o nf r o ms h a r i n gf i l e s ,a n dr e c o r dt h eh i s t o r i c a li n d e xa n dd e s c r i p t i o n t h e n ,a t i m es e r i e sf o r e c a s t i n gm e t h o dc a na s s e s st h eq u a l i t yo ft h es e e df i l e sb a s e do nt h o s e h i s t o r i c a lr e c o r d s t h r o u g ht h i sm e t h o dt h es y s t e mc a ns o r tt h es e e df i l e sa n dg i v e u s e r sb e t t e rq u e r yr e s u l t s e x p e r i m e n ts h o w st h es y s t e mw o r k sw e l lt of i n ds e e d sw i t h g o o dq u a l i t y b e s i d e s ,b a s e do nt h er e t r i e v a ls y s t e m ,ab tc l i e n ti m p r o v e m e n ts t r a t e g yi s p r e s e n t e dt om e r g es i m i l a rs e e df i l e st oe n h a n c et h ee f f i c i e n c yo fd o w n l o a d i n g k e y w o r d s :p 2 p ;b i t t o r r e n t ;w e bc r a w l e r ;s e a r c he n g i n e e r ;q u a l i t ) ,e v a l u a t i o n ;t i m e s e r i e sf o r e c a s t i n g 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成 果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果,也不包含未获得( 注;翅邃直墓丝盂塞壁型童明的:奎拦亘 窒l 或其他教育机构的学位或证书使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均己在论文中作了明确的说明并表示谢意。 学位论文作者签名: 至亦季签字日期:加瑚年6 月归 学位论文版权使用授权书 本学位论文作者完全了解学校有j t - f 呆留、使用学位论文的规定,有权保留并向国 家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权学校 可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。同时授权中国科学技术信息研究所将本学位论 文收录到中国学位论文全文数据库,并通过网络向社会公众提供信息服务。( 保密 的学位论文在解密后适用本授权书) 学位论文作者签名: 互标 签字日期:垆埸年6 且2 一日 导师签字:谗铭 签字日期:加谚年月2 同 b i t t o r r e n t 种子质量评估呵榆索系统设计 l 。l 引言 第一章绪论 近年来,随着互联网技术的普及和发展,越来越多韵机器获得了网络连接。 与此同时,计算资源的价格不断下降,性能却在迅速提高。如今,即使是一台普 通的个人计算机也具备了相当的服务能力。尽管个人用户无法像专业服务商那样 提供大规模的服务能力,僵是如果把溺络上数量巨大的个入计算机作为一个整体 联系起来,就可以提供任何集中式服务器无法比拟的计算资源。正是基于这样的 恩想,蕴含着巨大的商业和技术价值的p 2 p ( p e e r t o p e e r ) 技术受到了研究人 员越来越多的关注,而以b i t t o r r e n t 为代表的各种p 2 p 应用软件更是层出不穷, 网渐流行 1 , 2 1 。 根据被引用毙较多的的定义,p 2 p 技术是在现有i n t e r n e t 资源组织和查找 形式之外研究新的资源组织与发现方法,p 2 p 技术最大的意义在于不依赖中心结 点恧依靠网络边缘结点自组织对等协作的资源发现形式。顾名思义,对等网络打 破了传统的c s 丽模式,对等霹络率的每个结点的地位都是对等的。每个结点既 充当服务器,为其他结点提供服务,同时也享用其他结点提供的服务。虽然近年 来网络带宽成倍增加,但是热门站点仍然不堪重负。恧空闲的链路带宽却被白自 浪费。利用p 2 p 提供的分布式结构的图的则是有效的均衡负载,充分利用带宽。 此外,计算机的计算能力按照摩尔定律在飞速增加,但增加的计算能力并未被充 分挖掘,p 2 p 为充分挖掘计算机空阕计算麓力提供了可能。 目前互联网络中p 2 p 文件共李业务流量非常大,包括大家熟知的 b it t o r r e n t ,e d o n k e y ,e m u le ,都是较为流行的p 2 p 文件共享软件。p 2 p 业务特 点占用大量网络带宽,据某些专家统计:磊前中国p 2 p 占用了大量的带宽资源 白天7 0 是p 2 p ,到了晚上9 0 的资源都被p 2 p 占用,消耗带宽现象非常严重,其 中5 0 为b i t t o r r e n t 流量。 b i t t o r r e n t ( 中文全称比特流,简称b t ) 是舀前最流行的p 2 p 应用软件, 但是它与原来的p 2 p 软件有很大不同,它采用了多点对多点的原理进行文件共 享。b t 客户端在下载文件的同时也在上传,客户端都处在同步传送的状态。盯 中国海洋大学颂t 毕业论文 技术的使用是互联网上一个新的浪潮,加快了网络间大体积文件的共享,提高了 信息传播率和网络带宽利用率。 用户在进行酎下载时,酋先要从凡个阻发布站点搜寻希望下载的文件,然 后通过b i t t o r r e n t 客户端软件下载。随着b t 发布站点的数量增多,相同文件的 共享种子文件也越来越多。相同文件不同种子的下载质量有很大差别,用户在搜 索的时候经常会遇到这样几种问题:1 ) 下载速度特别慢的种子,2 ) 已经被废弃 的种子,3 ) 最新推出的热门文件资源,往往有多个人同时发布种子,这样就存 在多个文件相同丽种子不同的信息。 这些阀题不仅给用户的选择种子带来极大的不便,也浪费了许多宝贵的带宽 资源,因此有必要对种子文件的质量提出一个评价值,供用户参考。针对多个完 全相同种子文件,我们设想加以利用,将种子文件加以合并,以提高下载的效率。 这也是本文研究的价值所在。 1 2 相关研究 目前,对w 种子的评估主要集中在p 2 p 系统的可用性和种子描述文件质量两 个方面,有效的方法不是很多。 在p 2 p 系统的可用性方蘧,文献 3 】通过对一个p 2 p 文件共享系统b it t o r r e n t s u p e r n o v a 的研究,对种子的下载性能、可用性、生成周期等进行了分析和总结, 提出了改善b t 系统可用性和性能的意见。加州大学位嵬利分校的c h r i s t i n 等人 对g n u t e l l a ,e d o n k e y ,e d o n k e y o v e r n e t ,f a s t t r a c k 这4 种主流p 2 p 网络的可用 性进行了测量。测量结果表明,网络拓扑和内容可用性密切相关,内容重复度通常 符合幂律分布,目标文件的重复度越高,下载到正确文件的时间就越短 4 。刘琼 在文献 5 中,讨论了p 2 p 可用性的测量,她认为,可用性的相关因素非常复杂, 只能通过对查询返回数量、查询响应时间、内容稳定性、内容重复度、下载完成 时间等量化指标的测量来间接反映。 在种子的质量评估方面,周文莉在文献 6 中提出了一种根据d o w n l o a d e r 的 m g c ,o 模型和s e e d 的m m 评估b i t t o r r e n t 系统中文件热f - 程度的模型。肖建勇 在文献 5 j 中介绍了种基予p 2 p 的b i t t o r r e n t 关键词检索系统c l a i r ,该系统根 据发布站点的权威性和用户反馈进行评估。认为来源于权威b t 发布站点的种子描 b i t t o r r e n t 种子质量评估与检索系统设计 述文件质量相对高,而来源于一些普通站点的则认为其质量一般,并根据用户的 点击次数来评估种子的质量。 但是,上述的方法都是对某个时间点的共享文件信息进行分析评估,使得结 果在某些情况下有误差。如文献 6 中,作者认为文件热门程度高,表明该文件 在线下载人数多,这样可供客户端同时连接下载的共享用户数多,相应的下载速 率能够快一些。但是我们经常会遇到这样一种情况:当某个低带宽的用户发布一 个种子,这个种子的热门程度很高,但是由于发布初始文件的用户的带宽限制, 使得该种子的热门程度很高,连接人数很多,但是用户能够下载完成却要花很长 时间。在文件下载一段时间之后,在某些高带宽用户下载完成,成为新的种子的 时候,下载速率才会提高。 而文献 7 中提到的办法只考虑到站点的权威性和用户的点击数,没有考虑 b t 种子描述文件有其可用性生命期。通常,某个权威站点在某个时间段发布了一 个种子,下载的用户会很多,但是,随着所有的用户下载完成并退出客户端,该 种子的生命期结束,后续的用户就无法再利用该种子完成下载了。 综合考虑这些因素,我们认为上述方法失效的原因在于只考虑到了某一个时 间点的信息,如果能基于用户查询前的一个时间段进行分析,预测下一个时间段 的种子的可用性,将极大地提高种子质量评估的可信度。 我们经常遇到的还有一种情况是:如果一个先发布的种子a 吸引了大批用户 下载,当前期的下载用户下载完成并退出共享后,后期进入的用户则无法继续完 成下载,有的用户甚至已完成9 0 以上,但由于原种子失效,只能放弃已完成的 部分,重新选择种子下载【1 2 1 。 此外,刚刚出现热门资源的时候,会有许多人抢先发布,这样网络上会出现 多个共享文件完全相同的不同种子文件。b t 的思想是越多人下载,下载速度越 快,这样多个服务器分摊了用户,就降低了单个种子文件的下载速度,浪费了资 源。 如果能够将发布的内容相同的种子进行合并,上述两个问题即可迎刃而解。 1 3 本文研究思路 由此本人设计了一个专门的b t 种子文件搜索引擎,这个搜索引擎可以只针 中国海洋大学硕士毕业论文 对于网络中的b t 种子文件信息进行爬行下载,并对来自于不同发布站点的种子 文件信息进行分析和质量评价。 聚焦爬虫的技术可以很好的解决酊种子文件信息的搜集问题。它可以定时 的爬行网络,从搜集到的网页中筛选出b t 种子文件信息,保存这些信息,为b t 用户查询提供数据资源。但是如何勰决种子文件的质量评价问题? 种子文件质量评价蟊前已经有了很多方法,如考察种子文件热门程度、点击 数量、发布站点的权威性等分析方法。但是这些分析方法都是基于发布的b t 种子 文件某一时刻的状态信息。这些信息如点击率都是种子发布站点历史累加起来的 静态信息,并不能反映下一时间段的种子文件的质量变化。网络爬虫为我们搜集 并保存了种子文件的历史信息资料。如果能基于用户查询前的一个时间段内的历 史资料进行分析,预测下一个时闰段的种子的下载效率,将极大地提高种子质量 评估的可信度。 这种历史资料延伸预测法,也称为时间序列预测法。它是以时间数列所能反 映的社会经济现象的发展过程和规律性,进行引伸外推,预测其发展趋势的方法。 我们通过编制和分析酐种子文件信息的历史资料,根据时间序列所反映出来的 发展过程、方向和趋势,进行类推或延伸,借以预测下一段时闻内可能达到的水 平。 在b t 种子的合并问题上,我们将采集回来的种子进行分析匹配,将编码过 的种子文件,根据b e n c o d i n g 编码构造读取出元信息文本,发送到后台的数据瘁。 对解客户端进行改造,设计这样一个功能:在搜索到一个种子文件的同时,查 看是否存在和这个种子文件完全一样的种子文件,将多个种子文件包含的 t r a c e r 服务器信息合并,提高下载的效率。 如何能找的完全一样的种子呢? 这就需要搜索引擎的帮助。目前g o o g l e 等 一些搜索引擎对b t 的支持很不好,这是由于b t 种子文件的生存周期都比较短。 一般大型的搜索引擎都有自己的网页抓取程序网络爬虫。网络爬虫顺着溺页 中的超链接,连续地抓取网页。由于互联网中超链接的应用很普遍,理论上,从 一定范围的网页出发,就能搜集到绝大多数的网页。搜索引擎抓到网页后,运要 做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建 立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。所以 b i t t o r r e n t 种子质量评估与检索系统蹬汁 对网络进行遍历、建立索引并用于用户检索的时间周期一般比较长( g o o g l e 是 2 8 天) ,所以我们通过搜索引擎获得的种子文件往往已经过时废弃或者直接搜索 不到最新的种子。 搜索引擎技术正在不断发展,其中的网络爬虫技术也在不断的进步。最新出 现了“聚焦爬虫,也叫“定题爬虫”。与通用网络爬虫( g e n e r a 卜p u r p o s ew e b c r a w l e r ) 不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题 内容相关的网页,为面向主题的用户查询准备数据资源。 由此我们设想能不能建立一个专门的b ,r 种子文件搜索引擎? 这个搜索引擎 可以只针对于网络中的b t 种子文件信息进行爬行下载,并对来自于不同发布站 点的种子文件信息进行分析和质量评价。 聚焦爬虫的技术可以很好的解决b t 种子文件信息的搜集问题。它可以定时 的爬行网络,从搜集到的网页中筛选出b t 种子文件信息,保存这些信息,为b t 用户查询提供数据资源。 基于这些思路,我们设计并开发完成了该系统。 1 4 论文组织 本文的工作围绕p 2 p 网络中的b i t t o r r e n t 种子文件质量评估展开,全文共 分为六章。 第一章为绪论,简要介绍了p 2 p 技术的研究背景、研究现状、以及本文的研 究思路和全文的组织。 第二章简单介绍p 2 p 技术的概念。首先概述了p 2 p 与c s 的不同,并分析了 p 2 p 网络结构特点。其次介绍了p 2 p 的应用现状,其中列举了一些p 2 p 文件共享 协议,着重提出了b i t t o r r e n t 协议。 第三章为第二章介绍内容的延续,对b i t t o r r e n t 协议工作原理进行进一步 的介绍,分析了b t 种子文件的结构原理和用户共享文件的流程,提出b i t t o r r e n t 下载过程中存在的问题。简单介绍b t 搜索系统的种子质量评价功能,以及目前 几种b i t t o r r e n t 种子文件质量评估方法,说明本系统与其采用的评估方式的不 同点。本章的最后分析了b t 客户端的工作原理,基于本文设计的b t 搜索评估系 统,提出了一种b t 客户端的改进方法。 中国海洋大学硕上毕业论文 第四章介绍了本系统的系统架构,详细描述了系统的各模块功能。 第五章通过观察历史数据资料,提出基于时间序列预测的数学模型,并根据 历史数据对模型有效性进行检验。 第六章通过实验对本文提出的b i t t o r r e n t 种子文件质量评价和检索系统进 行验证,给出了模拟环境下系统的运行性能,并与其它同类型的系统进行了比较。 第七章总结全文的工作,并指出今后工作中需要改进的地方。 b i t t o r r c n t 种子质量评估与检索系统设计 2 1p 2 p 的概念 第二章p 2 p 简介 p e e r c op e e r 点对点网络,简称p 2 p ,是指网络用户之间可以直接通信的 网络结构。简单的说,p 2 p 直接将人们联系起来,让人们通过互联网直接交互。 使得网络上的沟通变得容易、更直接共享和交互,真正地消除中间环节。p 2 p 使 用户可以直接连接到其他用户的计算机,而不是像过去那样连接到服务器去浏览 与下载。p 2 p 另一个重要特点是改变互联网现在的以大网站为中心的状态,重返 “非中心化 ,把权力交还给用户。 从互联网的发展历史上看,p 2 p 并不是一个全新的概念。我们知道t c p i p 是现代互联网整体架构的基础,但在t c p i p 并没有客户端和服务器的概念,所 有的设备都是通信的平等的一端。早在年前许多公司的计算结构就可以划分到现 在的p 2 p 中,只不过由于带宽及处理能力等的限制,使得我们的沟通中出现了很 多的中间环节,如中间服务器、导航网站、第三方信息交易平台等。可是,对于 服务器来说,它们之间仍然是对等互联的。例如电子邮件系统,互联网上并没有 一个巨大的、唯一的邮件服务器来处理所有的电子邮件,而是对等联网的邮件服 务器相互协作把电子邮件传送到相应的服务器上去。但是,互联网在应用层以上 层面的发展使得互联网上绝大部分的非服务器节点不能和其它节点直接地交流, 而失去了网络的p 2 p 特点。现在,廉价的计算能力、网络通信能力、p c 计算机 的存储能力强有力的推动了这项技术的迅速发展【3 5 0 9 1 。 2 2p 2 p 与c s 客户端服务器( c 1 i e n t s e r v e r ,简称c s ) 与点对点网络( p 2 p ) 是因特 网中的两种最主要的网络模型。如下图2 - 1 ,2 - 2 : 中国海洋大学硕士毕业论文 舀2 - 1c s 模型 图2 - 2p 2 p 模型 他们之间主要的区别在于c s 模型是不对称得,丽p 2 p 模型是对称的。在 c s 模型中,一般的通信过程是这样的:客户端与服务器建立连接,客户端发送 请求,服务器应答。与c s 模型不同,在p 2 p 模型中,节点( 使用者,相当于 c s 模型中的客户端) 之间互相发送服务请求,也会互相提供服务。实际上,在 p 2 p 模型的透信过程中,每次通信过程都是一个微型c s 结构的通信,由某节点 发出请求,另一节点提供服务。所以可以认为p 2 p 模型中任一节点都既是服务器, 也是客户端。 传统的网络应用比如h t t p 、矸p 等都是基予e s 结构的,但是c s 结构在网 楼越来越发达的情况下暴露出了一个问题:服务器端的可用性不足。c s 模型中, 对于某一服务器端,当连接的客户端数量逐渐增加时,服务器端的负荷越来越重。 丽一且服务器端失效,所有客户端都无法正常使用网络。这个问题被称为“单点 失效 。人们为了解决这个问题,使用过很多办法,比如使用更高级的硬件、镜 像技术等。但是当客户端数量更多时,服务器还是无法应付,只能更换更高级的 硬件,使用更多的镜像,陷入一个恶性循环。 p 2 p 模型中不存在单点失效的问题。因为不存在一个服务器,丽且所有的节 点的地位均等,所以单一节点失效不影响整个网络,其他节点之间还可以继续通 信。通过下表我们可以更直观的看出p 2 p 与c s 的不同之处。 表2 - 1p 2 p 与c s 特点的比较 性能p 2 pc s 数据分布好蓑 b i t t o r r e n t 种子质量评估o j 榆索系统设计 数据互动性( 传输速度)好差 数据即时性( 传输速度)好差 数据安全性差好 数据更新( 价值)好 差 数据覆盖率和数量( 价值) 由 好 数据成本控制 好 差 数据管理方便性 差好 表2 - 1p 2 p 与c s 特点的比较 2 3p 2 p 网络结构特点 f 如上所述,p 2 p 网络中,节点是对称的。除此之外,网络还有以下特点 1 ) 节点自治性 p 2 p 系统中的节点具有很高的自治性,每个节点都希望得到更多的服务。在 p 2 p 系统中,某个节点得到的服务一定是其他节点提供的,然而就某个节点来讲, 它总是希望能得到别的节点提供的服务,而不愿意为其他节点提供服务。为了让 更多的节点提供服务,在很多p 2 p 系统中,有一些激励手段,让提供服务的节点 可以优先享受服务。 2 ) 充分利用网络资源 c s 结构根本的问题在于资源使用的不合理,服务器端负荷很重,但是客户 端的资源并没有完全发挥作用。p 2 p 结构中客户端的资源得n t 充分利用,整个 系统性能提高了很多。客户端( 也就是p 2 p 模型中的节点,p e e r ) 贡献可用资源, 给其他节点提供服务,有效的减轻了服务器端的负荷。 3 ) 高度动态性 p 2 p 网络是高度动态的,节点可以随时加入或离开网络。另外,节点之间的 连接很不稳定,随时都可能断开。p 2 p 系统必须能适应网络结构的变化。 2 4p 2 p 应用现状 关于p 2 p 的研究很多,i p t p s ( i n t e r n e tw o r k s h o po rp e e r t o p e e rs y s t e m s ) 中国海洋大学硕上毕业论文 是专门关于p 2 p 相关技术应用的学术会议,一些网络方面的国际会议上也会出现 p 2 p 方面的论文。p 2 p 研究的方向包括p 2 p 网络算法,p 2 p 安全性,关于p 2 p 网 络测试和比较等等。 p 2 p 应用大致分为几种p 2 p 文件共享,即时通信,p 2 p 流媒体等。下面简单 介绍一下各种p 2 p 应用 1 ) p 2 p 文件共享 p 2 p 文件共享网络的出现解决了以往c s 结构中单点失效的问题,在p 2 p 文件共享网络中,用户可以很容易的共享自己的文件,也可以从别的用户直接下 载自己感兴趣的文件。在典型的p 2 p 文件共享网络中,文件被分为小块,当很多 用户同时下载同一文件时,他们之间会互相交换已经下载好的小块,能有效的提 高下载效率。当前已经有很多p 2 p 文件共享协议,在因特网上流行的有f a s t t r a c e r ( k a z a a 使用的协议) 、e d o n k e y o v e r n e t 、b i t t o r r e n t 、g n u t e l l a 等。 p 2 p 文件共享的流量巨大,是p 2 p 网络乃至整个因特网的最主要流量,因此 对于p 2 p 文件共享系统的研究将影响整个因特网的发展。在p 2 p 文件共享系系统 中可扩展性的研究统中,如何更高效的搜索,如何使系统可扩展性更好,如何提 高系统的安全性、匿名性,都是值得研究的问题。 2 ) 即时通信 即时通信,( i n s t a n tm e s s a g e ) 简称i m 软件是广大网络用户最常用的软件 之一,例如q q 、m s n 、i c q 、网易泡泡、雅虎通、s k y p e 等。i m 软件最大的特点 是广泛的交互性。无论是在办公室还是在家,无论近在咫尺或是远隔重洋,亲朋 好友或同事之间都可以通过软件进行文字、语音、视频交流。随着网络的成熟与 发展,即时通信工具的实时交互、资费低廉等优点开始逐渐受到用户的喜爱,己 经成为网络生活中不可或缺的一部分。 3 ) 流媒体 p 2 p 技术也可以应用到流媒体,目前流行的p 2 p 流媒体系统有p p l i v e 、 p p s t r e a m 等。每个流媒体用户也是一个p 2 p 中的一个节点。传统的流媒体系统 中用户之间是没有任何联系的,但是采用p 2 p 技术后,用户可以根据他们的网络 状态和设备能力与一个或几个用户建立连接来分享数据,这种连接能减少服务器 的负担和提高每个用户的视频质量。p 2 p 技术在流媒体应用中特别适用于一些热 b i t t o r r e n t 种子质量评估1 j 检索系统发汁 门事件,即使是大量的用户同时访问流媒体服务器,也不会造成服务器因负载过 重而瘫痪。此外,对于多人的多媒体实时通信,p 2 p 技术也会对网络状况和音视 频质量带来很大改进。 2 5 常见的p 2 p 协议 目前在因特网上流行的有f a s t t r a c e r ( k a z a a 使用的协议) 、 e d o n k e y o v e r n e t 、b i t t o r r e n t 、g n u t e l l a 等。其中最为流行的b i t t o r r e n t 共 享文件系统的用户数量急剧增长,根据2 0 0 5 年国内互联网流量的测量统计【1 5 】, p 2 p 流量占据了互联网流量的4 0 ,- - - 7 0 ,而且还在进一步的增加。我们先简单了 解一下这些协议【1 1 1 4 1 。 2 5 in a p s t a r n a p s t a r 是最早的p 2 p 文件共享协议。n a p s t a r 是一个专门交换m p 3 文件的 平台,用户可以搜索m p 3 文件,然后连接到拥有该m p 3 文件的用户,下载m p 3 。 n a p s t a r 使用了一个中央服务器作为索引服务器,即哪些用户共享了哪些文件, 都在中央服务器上记录,用户在查找m p 3 文件时也先连接到中央服务器提交查找 条件,然后从中央服务器得到拥有该m p 3 文件的用户地址列表,然后才能连接到 该用户。n a p s t a r 虽然采用了p 2 p 方式( 用户之间直接传输文件) ,但系统中可扩 展性的研究是整个系统还是依赖于中央服务器,属于单点失效的系统。 图2 - 3n a p s t a r 模型 中国海洋大学颁“t 毕业论义 2 。5 。2g n u t e l l a g n u t e l l a 是男一个文件共享协议。g n u t e l l a 与n a p s t a r 完全不同,系统中 没有中央服务器,称为分布式结构。在g n u t e l l a 中节点与些其他的节点连接, 这些节点称为“邻屠圩,节点之闻通过交换邻屠列表,来“认识捧更多的邻屠, 孽连接更多翁节点。雳户要下载莱文侔,必须在霹络上进行搜索。在g n u t e i l a 的搜索过程中,节点向所有邻屠发送搜索请求,每个邻居收到搜索请求后会检查 本机是否有符会条件的文件,另外,也会越是邑的邻屠发送搜索请求,邻鼹的邻 居继续向自己的邻居发送搜索请求。这样,一传十,十传百,搜索可以遍历 g n u t e l l a 系统中所有节点【1 3 】。 黧2 qg n u t e l l a 模型 但是o n u t e l l a 系统的最大闽题是搜索的不可扩展性,搜索带来的冗余网络 流量太多。g n u t e l l a 系统中,搜索必须遍历每个节点,再巍节点亲鲁检查本 机是否有搜索发起者需要的文件。如果能把节点拥有的文件做成索碍i ,统一放在 一起,那么搜索产生的冗余网络流量就可以减少很多,就像n a p s t a r 系统中的中 央服务器。 为了解决葛# 结构纯系统率的随机搜索造成的不可扩震性,大量的研究集率在 翔何构造一个嵩度结构化懿系统。在这些结构纯蕊系统串,网络结构被严格控制, 文件或者文件指针存放在确定鹣位置土。系统提供从文俘标识符到存放该文箨鹃 节点标识的映射服务,然后查找请求路由到该节点。通过以上方法系统提供了一 个可扩展豁方案实现了文件的“精确匹配”查找。 b i t t o r r e n t 种子质量评估与检索系统设计 2 5 3k a z a a k a z a a 是一个基于协议的文件共享平台,k a z a a 最主要的特点是它的分层结 构。在k a z a a 中节点分为两种,普通节点和超级节点,普通节点必须通过超级节 点连接到k a z a a 网络中,超级节点之间互相直接连接。搜索时,子节点向超级节 点提交搜索请求,超级节点在自己的子节点信息中找,另外也询问其他超级节点, 综合两者,返回一些符合条件的节点地址列表,然后子节点直接与资源拥有者通 信【l2 1 。k a z a a 的分层结构介于的n a p s t a r 集中式结构和的g n u t e l l a 分散式结构 之间,较好的解决了单点失效和可扩展性问题之间的矛盾。 2 5 4e d o n k e y o v e r n e t 图2 5k a z a a 模型 e d o n k e y o v e r n e t 是另外一种文件共享平台,它分为两种网络结构e d 2 k 和 k a d e m li a 。e d 2 k 是类似于n a p s t a r 的服务器结构,节点必须连接到某个服务器, 服务器管理所有连接到服务器的节点共享文件的信息。k a d e m li a 是一种基于d h t 算法的分布式p 2 p 网络,不依赖于服务器。两种网络结构一起构成了 e d o n k e y o v e r n e t 系统,两者之间形成互补【1 4 】。 2 5 5b i t t o r r e n t b i t t o r r e n t ( 简称b t ,比特洪流) 是目前比较流行,而且应用最广泛,也最为 人熟知的一种p 2 p 文件共享协议。我们将在下一章详细介绍。 中国海洋犬学颁l 毕业论文 第三章b i t t o r r e n t 3 。1b i t t o r r e n t 协议简介 b i t t o r r e n t ( 简称酐,比特洪流) 是一个多点下载的的p 2 p 文件共享软件。 它由程序员b r a mc o h e n 使用p y t h o n 语言编写,并且还是代码开源的专利软 件,可以鸯由地下载和传播。它采用高效的软件分发系统和点对点技术共享大体 积文件( 如一部电影或电视节目) ,使多个用户同时下载一个文件的时候,他们 之间互相为对方提供自己所拥有的文件部分的下载。这样就把文件下载的带宽开 销分摊到每个用户那里,理论上料下载可以支持无限多个用户来下载同一个文 件。因此,b t 被人们称之为“群集、散布、集中 的文件传输协议。目前,各 种支持b t 下载的软件层出不穷,b t 技术已经被广泛的应用于文件下载中【l l l 。 一般来说一个酐文件发布系统由以下几个部分组成: 1 ) 一个普通的w e b 服务器: 2 ) 一个静态元信息文件,基 j b t 种子文件( 以。t o r r e n t 结尾,包含了文件的 基本属性) : 3 ) 一个跟踪服务器( t r a c k e r ) ;t r a c k e r 实际上是一台服务器,它负责帮 助p e e r 之间相互建立连接。 4 ) b t 客户端( p e e r ,系统的核心部分,用于实现下载策略) 。 5 ) 一个被下载文件的拥有者( s e e d ) 酐是通过一个扩展名为t o r r e n t 的文件进行下载部署的,t o r r e n t 的文件 放在一个普通的网络服务器上,它包含了要共享的文件的信息,包括文件名、大 小、文件的分块信息和一个指向t r a c k e r 的超级链接u r l 。被下载文件的拥有者 也可以看成这个文件的“原始 下载者。要求文件下载的用户通过b t 客户端软 件分解。t o r r e n t 文件,取撂文件的信息和指向t r a c k e r 服务器的u r l ,同t r a c k e r 进行通讯。 b t 种子文件( t o r r e n t ) 和t r a c k e r 的回应信息都以一种简单高效可扩展 的格式b e n c o d i n g ( 8 编码) 编码。 t b e n c o d i n g 有四种类型的数据:s t r i n g s ( 字符串) ,i n t e g e r s ( 整数) , 1 4 。 b i t t o r r e n t 种了:质量评估弓检索系统设汁 l i s t s ( 列表) ,d i c t i o n a r i e s ( 字典) 。编码规则如下: s t r i n g s ( 字符串) 编码为: : 例如:4 :t e s t 表示为字符串“t e s t ;4 :例子表示为字符串“例子”。 字符串长度单位为字节,没开始或结束标记。 i n t e g e r s ( 整数) 编码为:i e 开始标记i ,结束标记为e 例如:i 1 2 3 4 e 表示为整数1 2 3 4 ;i - 1 2 3 4 e 表示为整数- 1 2 3 4 。 整数没有大小限制,i o e 表示为整数0 ,i - o e 为非法,以o 开头的为非法如: i 0 1 2 3 4 e 为非法。 1i s t s ( 列表) 编码为:l e 开始标记为1 ,结束标记为e 。 列表里可以包含任何b e n c o d i n g 编码类型,包括整数,字符串,列表,字典。 例如:1 4 :t e s t 5 a b c d e e 表示为二个字符串 “t e s t ,“a b c d e d i c t i o n a r i e s ( 字典) 编码为:d e 开始标记为d ,结束标记为e 。关键字必须为b e n c o d i n g 字符串值可以为任何 b e n c o d i n g 编码类型( 用原始字符串编码的,而且不是数字字母混合编码的) 。 例如:d 3 :a g e i 2 0 e e 表示为 a g e = 2 0 :d 4 :p a t h 3 :c :8 :f i l e n a m e 8 :t e s t t x t e 表示为( “p a t h = “c :”,“f i l e n a m e = “t e s t t x t b t 种子文件( t o r r e n t ) 的具体文件结构如下: 全部内容必须都为b e n c o d i n g 编码类型。整个文件为一个字典结构,包含如 下关键字: a n n o u n c e :t r a c k e r 服务器的u r l ( 字符串) a n n o u n c e li s t ( 可选) :备用t r a c k e r 服务器列表( 列表) c r e a t i o nd a t e ( 可选) :种子创建的时间,u n i x 标准时闻格式,从1 9 7 01 月 1 日0 0 :0 0 :0 0 到创建时间的秒数( 整数) c o m m e n t ( 可选) :备注( 字符串) c r e a t e db y ( 可选) :创建人或创建程序的信息( 字符串) i n f o :一个字典结构,包含文件的主要信息,为分二种情况:单文件结构或 多文件结构 中国海洋人学硕上毕业论文 单文件结构如下: l e n g t h :文件长度,单位字节( 整数) m d 5 s u m ( 可选) :长3 2 个字符的文件的m d 5 校验和,b t 不使用这个值, 只是为了兼容一些程序所保留! ( 字符串) n a m e :文件名( 字符串) p i e c el e n g t h :每个块的大小,单位字节( 整数) ,块长一般来说是2 的 权值。 p i e c e s :每个块的2 0 个字节的s h a ih a s h 的值( 二进制格式) 多文件结构如下: f i l e s :一个字典结构 l e n g t h :文件长度,单位字节( 整数) m d 5 s u m ( 可选) :与单文件结构中相同 p a t h :文件的路径和名字,是一个列表结构,妻h t e s t t e s t t x t 列表为 1 4 :t e s t 8 t e s t t x t e n a m e :最上层的目录名字( 字符串) p i e c el e n g t h :与单文件结构中相同 p i e c e s :与单文件结构中相同 让我们看一个实例: 用记事本打
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 IEC 62541-18:2025 EN-FR OPC unified architecture - Part 18: Role-Based Security
- 【正版授权】 IEC 60335-2-49:2021+AMD1:2025 CSV EN Household and similar electrical appliances - Safety - Part 2-49: Particular requirements for commercial electric appliances for keeping
- 初中数学垂直于弦的直径 课件人教版数学九年级上册
- 新解读《GB-T 14592-2014钼圆片》
- 人版八年级英语(上册)期末复习知识点总结
- DB6108-T 69-2023 马铃薯黑痣病防控技术规范
- 老年人防灾减灾知识培训课件
- 老年人轮椅使用课件
- 老年人科学戒烟知识培训课件
- 重卡充电知识培训课件
- 《城市轨道交通车辆标志规范》
- 人事工作目标及规划
- 第十三讲-先锋队与中华民族独立解放-中华民族共同体概论教案
- 糖尿病处方点评
- 诊断学-常见症状的诊疗(临床疾病概要课件)
- 咨询类合同合同范例
- 九上道法【思维导图+重点句+考点问题+典型例题】
- 水土保持工程概(估)算编制规定
- 2024至2030年中国山西省轨道交通行业市场深度研究及投资战略规划报告
- 《第一课-学会管理情绪课件》高中心理健康教育北师大版高中二年级全一册1634
- 旅游新媒体营销
评论
0/150
提交评论