(通信与信息系统专业论文)bit+torrent传输数据的测量与分析.pdf_第1页
(通信与信息系统专业论文)bit+torrent传输数据的测量与分析.pdf_第2页
(通信与信息系统专业论文)bit+torrent传输数据的测量与分析.pdf_第3页
(通信与信息系统专业论文)bit+torrent传输数据的测量与分析.pdf_第4页
(通信与信息系统专业论文)bit+torrent传输数据的测量与分析.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(通信与信息系统专业论文)bit+torrent传输数据的测量与分析.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京交通大学硕士毕业论文 y8 7 9 9 6 3 摘要 随着网络应用的快速发展,p 2 p 技术已成为重要的新一代开放互联 模式。其中以b i ct 0 r r e n t 为代表的混合式p 2 p 网络技术成为了当前文件下 载的主流方式,但随着b t 用户的激增,其流量也极大地冲击了网络负载 能力,从而在接入网、传输网、骨干网等不同层面形成瓶颈,造成资源 紧张。 本文首先认识对等网络的概念,对比了对等网络和c s 型网络的区 别,讨论了p 2 p 网络的发展,然后介绍了b i tt o r r e n t 的发展背景、基 本概念以及和p 2 p 的关系,并在此基础上分析了它的工作原理和技术框 架,接着解释b i tt o r r e n t 在下载中的特点、给网络带来的问题。 本文的主体部分是通过对网站的页面抓耿快照,得到原始数据并进 行处理,利用数据挖掘出b t 在传输过程中对于网络带宽的占用,通过描 述速率与时间的关系、用户数与时间的关系、种子比例与种子上传比例 的关系、下载者上传量随时间的关系、上传速率与下载者人数之问的关 系、以及下载速率与完成度的关系。揭示了种子和下载者在不同情况下 进行文件复制时的规律,揭露了b t 网络在传输中种子和下载者的行为特 点,为进一步的研究提供了理论根据。 文章最后是对今后的发展提出了理论性的建议 关键宇:对等网b i t t o r r e n tt r a c k e r 服务器种子下载者 第1 页 北京交通大学硕士毕业论文 a b s t r a c t p e e r t o p e e rn e t w o r kt e c h n o l o g yi sa ni m p o r t a n to p e n c o n n e c t i o nm o d eo fn e wg e n e r a t i o nf o l l o w i n gt h e ( 1 u i c kd e v e l o p m e n t o ft h en e t w o r k b i tt o r r e n tr e p r e s e n t e df o rm i x e dp 2 pn e t w o r k t e c h n o l o g yi sb e c o m i n gam a i nf a s h i o nf o rd o w n l o a df 儿e s ,b u tw h e n b tu s e r si n c r e a s e , i t sd a t as t r e a mg r e a t l yi m p a c to nn e t w o r kl o a d c a p a c i t y a n df o r 册 b o t t l e n e c k si 兀 d if f e r e n t 1 a y e r sa ta c c e s s n e t w o r k 、 t r a n s p o r tn e t w o r k t h er e s o u r c eb e c o m i n gl e s s e r a i m e da tc u r r e n t l yp r o b l e mi np 2 p ,w ef i r s ti n t r o d u c et h e c o n c e p to fp 2 pn e t w o r k , c o m p a r ec 1i e n t s e r v e rm o d e , d is c u s st h e d e v e l o p m e n to fp 2 pt e c h n o l o g y s e c o n d l yw ei n t r o d u c eb t s b a c k g r o u n d , b a s i cc o n c e p ta n dt h er e l a t i o n s h i po fp 2 p b a s e dt h i s w ea n a l y s ei t sw o r km e t h o da n df r a m eo ft e c h n o l o g y t h i r d lye x p l a in t h ec h a r a c t e r i s t i co fb i t t o r r e n ti nd o w n l o a d t i m e , t h ep r o b l e m s i m p a c t e do nn e t w o r k a tm a i np a r to ft h jsp a p e rw eg e to r i g i n a l d a t at h r o u g hs n a t c ha tp a g e sa n du s i n gt h i sd a t af i n dt h eu s a g e o fn e t w o r kb a n d w jd t h t h r o u g ht h er e l a t i o no fs p e e da n dt i m e ,u s e r n u m b e ra n dt i m e ,s e e d sp r o p o r t i o na n ds e e d s u p l o a dp r o p o r t i o n , d o w n l o a du s e r su p l o a dq u a n t it ya n dt i l i l e , u p l o a ds p e e da n d d o w n l o a du s e rn u m b e r ,d o w n l o a ds p e e da n df i n i s hs c a l e ,w ef i n dt h e r u l ew h e ns e e da n dd o w n 】o a du s e rc o p i n gf i l e si nd i f f e r e n ti n s t a n c e s h o wt l eu s i n gc h a r a c t e r i s t jco fs e e da n dd o w n l o a du s e rw h e nt h e y t r a n s p o r td a t ai nb tn e t w o r k , i tp r o v i d ef o u n d a t i o nt h e o r yf o r 第2 页 北京交通大学硕士毕业论文 f a r t h e rr e s e a r c h f i n a l l yi st h ea c a d e m i cs u g g e s t i o nf o rd e v e l o p i n gt t i ef e s e a r c hr e s u l t 第3 页 北京交通太学硕士毕业论文 第1 章绪论 1 1 研究背景 b i tt o r r e n t 这样的p 2 p 系统因为能够减轻最初数据的拥有者的负担 得同时又能够有高速的共享能力而吸引着因特网用户的兴趣。 当前,网络主要应用都是架构在t c p i p 协议上的服务器和客户机 ( c s ) 或浏览器和w e b 服务器模型( b s ) ,而这种模型必须要设置一个 服务器,信息必须先上传到服务器上,然后才能提供测览或下载。这样 的结构存在很大不足:系统必须需要一个或多个服务器,并且当服务器 上信息很多时,访问流量较大时,服务器带宽的传输瓶颈问题将成为影 响用户使用的主要问题,在硬件支持上就必须保持更新来维护系统的正 常运行。这种模型以不能满足日益发展的需求。由于对功能强大的网络 计算机的需求和昂贵的带宽开销,促使了分布式结构的发展。 p 2 p 模型正是满足这种需求的一种分布式结构,p 2 p 模型是不同于服 务器和客户机模型的一种网络应用结构,它取消了服务器和客户机的概 念,每个用户间都是对等的,不需要应用服务器的束缚,它的出现使网 络出现新的研究高潮。p 2 p 技术起初约应用热点是类似n a p s t e r 这样的m p 3 音乐站点,不过随着多方面的进展,p 2 p 技术己经被应用于文件共享、分 布计算、协同工作、搜索引擎、游戏软件、企业网络( i n t r a n e t ) 等等很 多方面。 随着p 2 p 的发展,出现了很多不同的p 2 p 模式及应用。从最初的 n a p s t e r 和g n u t e l l a 到目前的k a z a a ,e m u l e 等都是p 2 p 的应用模式,这些系 统的用户数量急剧增长。目前网络上最为流行的一种下载方式就是b i t t o r r e n t ( 比特流) 下载( 简称b t ) ,这是p 2 p 技术的一种发展模式,也 篇6 硬 北京交通大学硕士毕业论文 随之成为p 2 p 研究的新课题。 随着p 2 p 用户使用数量的不断增多,p 2 p 网络的流量也不断增多,其 中有相当一部分网络流量是由b t 的使用产生的,网络流量增幅过快引起 网络负荷增加,使网络服务质量受到影响,这是值得关注的重大问题。 1 2 研究内容和意义 首先深入了解p 2 p 模型的工作原理及应用,然后对b i tt o r r e n t 协议 的分析,解释b t 的工作原理。在此基础上,主要针对b t 下载方式的流量 问题进行研究,对t r a c k e r 日志跟踪,抓取数据,通过仿真揭露b i t t o r r e n t 传输中种子和下载者的行为,来发现b i tt o r r e n t 协议在实现过 程中的特点,为现有的b t 模型进行改正提供理论支持;此外,提出在传 输中关于上下行流量的控制方法,指出导致网络流量拥塞问题的关键点, 给b t 软件的改进提供新的思路。 本课题不仅在理论上为现有b t 模型的改进提供了依据,还指明了改 进b t 网络的方向,提供了改进网络的思路。 第7 页 北京变鼬大学研士毕业论文 第2 章对等式网络 p 2 p ( p e e rt op e e r ,对等网络) 引导网络计算模式从集中式向分布 式偏移,也就是说网络应用的核心从中央服务器向网络边缘的终端设备 扩散:服务器到服务器、服务器到p c 机、p c 机到p c 机、p c 机到w a p 手机 所有网络节点上的设备都可以建立p 2 p 对话。p 2 p 使互联网的分布、茫享 精神都有了新的展现。 2 1 对等式网络( p 2 p ) 的概念 p 2 p 是p e e r t o p e e r 的缩写,p e e r 在英语里有”( 地位、能力等) 同等者”、”同事”和。伙伴”等意义。这样一来,p 2 p 也就可 三i 理解为”伙 伴对伙伴”的意思,或称为对等网络。p 2 p 技术是计算机之间资源共享和 系统问直接交换服务。这些资源和服务包括信息的交换、循环处理、缓 冲存储和对文件的磁盘存储。目前人们认为其在加强网络上人的交流、 文件交换、分布计算等方面大有前途。 目前,对p 2 r 的定义还没有一个标准的说法,i n t e l 将p 2 p 技术定 义为“通过系统问的直接交换达成计算机资源与信息的共亨”,这些姿 源与服务包括信息交换、处理器时钟、缓存和磁盘空间等。i b m 则对p 2 p 赋予了更广阔的定义,把它看成是由若干互联协作的计算机构成的系统 并具蔷如下若干特性之:系统依存丁边缘化( 非中央式服务器) 设备 的主动协作,每个成员直接从其他成员而不是从服务器的参与中受益; 系统中成员同时扮演服务器与客户端的角色;系统应用的用户能够意识 到彼此的存存而构成一个虚拟或实际的群体。 p 2 p 直接将人们联系起来,让人们通过互联网直接交互。p 2 p 使得网 络上的沟通变得容易、更直接共享和交互。真正地消除中问商。p 2 p 就 络上的沟通变得容易、更直接共享和交互。真正地消除中问商。p 2 p 就 第8 页 北京交通大学硕士毕业论文 是人可以直接连接到其他用户的计算机、交换文件,而不是像过去那样 连接到服务器去浏览与下载。p 2 p 另一个重要特点是改变互联网现在的 以大网站为中心的状态、重返”非中心化”,并把权力交还给用户。 p 2 p 看起来似乎很新,但是正如b 2 c 、b 2 b 是将现实世界中很平常的东西移植 到互联网上一样,p 2 p 并不是什么新东西。在现实生活中我们每天都按 照p 2 p 模式面对面地或者通过电话交流和沟通。 从网络看,p 2 p 也不是新概念,p 2 p 是互联网整体架构的基础。互联 网最基本的协议t c p i p 并没有客户机和服务器的概念,所有的设备都是 通讯的平等的一端。在十年之前,所有的互联网上的系统都同时具有服 务器和客户机的功能。当然,后来发展的那些架构在t c p i p 之上的软件 的确采用了客户机且艮务器的结构:浏览器和w e b 服务器,邮件客户端和 邮件服务器。但是,对于服务器来说,它们之间仍然是对等联网的。以 e m a i l 为例,互联网上并役有一个巨大的、唯一的邮件服务器来处理所 有的e 眦i 】,而是对等联网的邮件服务器相互协作把e m a i l 传送到相应 的服务器上去。另外用户之间e m a i l 则一直对等的联络渠道。 但是过去的5 年里,互联网的发展至少从表面上远离了p 2 p ,互联 网上绝大部分的节点也不能和其他节点直接地交流。n a p s t e r 正是唤醒 了深藏在互联网背后的对等联网。n a p s t e r 的文件共享功能在局域网中 共享目录也是再平常不过的事情。但是n a p s t e r 的成功促使人们认识到 把这种”对等联网”拓展到整个互联网范围的可能性。当然,在许多人的 眼中,n a p s t e r 并不是纯粹的p 2 p ,它仍然需要一个处于中心协调机制。 2 2c s 模型与p 2 p 模型比较 目前互联网主要技术模式是客户机服务器( c s ) 方式,此方式要 第9 页 北京交通大学硕士毕业论文 在互联网上设置拥有强大处理能力和大带宽的高性能计算机,配合高档 的服务器软件,再将大量的数据集中存放在上面,并且要安装多样化的 服务软件在集中处理数据的同时可以对互联网上其他p c 进行服务,提 供或接收数据,提供处理能力及其它应用。对于一台与服务器联机并接 受服务的p c 机来说,这台p c 机就是客户机,其性能可以相对弱小。 c s 模式的共同特点是: 都需要有一个中央服务器来处理绝大部分的运算工作。 客户端和服务段处在完全不同的角色中。客户端更被动,通常是 发送一个请求。而服务端处在一个支配的地位,获取这个请求,进行计 算,然后返回一个结果来相应这个请求。 即便如陆a i l 这种看上去比较不同的网络应用,也对c e n t 和 s e r v e r 有着明显得分工。 这类网络应用模型有着一个明显的缺点就是:随着服务的客户数目 的增多,服务端所需要占用的资源也随之增加,显而易见最终制约了 c l i e n t 的数目的增长。 并且,我们需要许多隐藏在i n t e r n e t 深处的服务的支持才能获取我 们需要的服务,如d n s ,如路由。这也就是为什么即便每台机器都开设 一个w e bs e r v e r ,也无法被全部被访问到。( 由于i p 地址的限制,不可 能每台机器都有一个静态的i p 。或是由于内部网络的原因,也许即便你 有一个静态不变的内部地址,也可能没有一个路由到达你的机器或是访 问被防火墙过滤) 。 并且由于现在的i n t e r n e t 过分的依赖于d n s 和网关,只要其中有一个 服务出了“问题”,相应的其他任何服务就都无法获得。 而p 2 p 技术的特征之一就是弱化了服务器的作用,甚至取消服务器, 第】0 面 北京交通大学硕士毕业论文 任意两台p c 互为服务器,同时又是客户机,即对等。它的通信方式如图 2 1 所示。它打破了传统的c s 方式,在对等网络中,每个节点的地位都 是相同的,具备客户端和服务器双重特性,可以同时作为服务器使用者 和服务提供者。由于p 2 p 技术的飞速发展,互联网的存储模式将有目前的 “内容位于中心”模式转变为“内容位于边缘”模式,改变i n t e r n e t 现 在的以大网站为中心的状态,重返“非中心化”,将权利交还给用户。 图2 1 :p 2 p 网络通信方式 p 2 p 就是把控制权重新还到用户手中去。人们通过p 2 p 可以共享硬 盘上的文件、目录甚至整个硬盘。这种能量是非常令人激动的,那些费 心存储在自己的硬盘上的东西肯定是我们认为最有价值,所有人都共享 了他们认为最有价值的东西,这将使互联网上信息的价值得到极大的提 升。 如果回顾一下,我们会发现在w w w 出现伊始p 2 p 就是互联网的本质 特征之一。人们各自建立网页、互相做链接,人们上网是沿着链接冲浪。 那时的w e b 是真正的”网”( w e b ) 。但是当y a h o o ! 和l y c o s 建立了搜索 引擎和门户站点后,人们上网的方式被改变了,人们从此到一个地方去 获取所有的信息。最大的问题是,这些站点控制了信息的流动、充斥了 第1 1 页 北京交通大学硕士毕业论文 过时的信息、阻碍了真正的交流。 因为每个p e e r 都代表了其后的人,基于自组织的网上社区也正在显 现。与门户站点从上而下建立社区的方式不同,人们将以自发的方式形 成社区。 当人们加入p 2 p 网络的时候,所有人都拥有了平等的机会,所有人 都拥有了极容易地在网络上创造”内容”的机会。当然,真正在网络上创 造或提供内容的人还是少数的,据统计g n u t e l l a 的用户中仅仅有2 向 其他用户提供了内容,即使在比较活跃的u s e n e t 张贴文章的用户也仅占 所有用户的7 。但是,p 2 p 第一次使得所有上网的人都拥有了平等的机 会。 比较项目 p 2 ps c 数据发布 好 差 数据接收 中 好 数据互动性 好差 数据即时性( 传输速度)好差 数据安全性差好 数据更新好 差 数据质量( 价值)差好 数据覆盖率和数量( 价值)差好 数据成本控制好差 数据管理方便性差好 表2 1 表2 1 对p 2 p 和c s 方式进行了比较,会发现:c s 方式造成互联网络 第1 2 页 北京交通大学硕士毕业论文 上的集中,无论信息资源还是成本资源均向同一方向集中,这样的模式 符合一对多、强对弱的社会关系形式,如政府对个人、对企业,学校对 学生,企业对职工等等关系。所以c s 方式是符合市场需求的。p 2 p 方式 将导致信息数量、成本资源都向互联网各点均匀分布,也就是所谓“边 缘化”的趋势。此模式符合“一对一”的特点,以及彼此相当的社会关 系形式,如个人对个人,规模相当的企业之间,等等,这也是符合市场 需求的( 如i c q ) 。因此,p 2 p 作为一种新型网络模式是可行的。鉴于c s 方式和p 2 p 方式各有所长,所以这两种方式会共存,而有关p 2 p 即将替代 c s 模式的说法是不成立的。作为一种新型应用技术,p 2 p 有其独特的市 场空间,它将成为现有互联网应用的有效补充。 p 2 p 技术特性: ( 1 ) 既是c 又是s ,如何表现取决于用户的要求,网络应用由使用 者自由操作。 ( 2 ) 信息在网络设备间直接流动,高速及时,降低中转服务成本。 ( 3 ) 构成网络设备互动的基础和应用。 ( 4 ) 在网络信息分散化的同时,相同特性的p 2 p 设备可以构成存在 于互联网这张大网中的一个子网,使信息按新方式又一次集 中。 2 3 p 2 p 的发展 p 2 p 网络下载技术的发展可以被划分为三代。 2 3 1 集中式目录结构 集中目录式p 2 p 结构是最早出现的p 2 p 应用模式,因为仍然具有中 第1 3 页 北京交通大学硬士毕业论文 心化的特点也被称为非纯粹的p 2 p 结构,其拓扑图如图2 2 。用于共享 m p 3 音乐文件的n a p s t e r 是其中晟典型的代表。 n a p s t e r 提供的m p 3 下载服务就是最早的p 2 p 实践。它并不提供m p 3 音乐资源,只是提供动态刷新的m p 3 目录服务。音乐资源散布在全球互 联网上的用户手中,借助n a p s t e r 几乎可以找到任何一首歌曲,这是一 种集中式对等网络模式。 集中式p 2 p 模式由一个中心服务器来负责记录共享信息以及反馈对 这些信息的查询;每一个对等实体要对它所需共享的信息以及进行的通 信负责,根据需要下载它所需要的其他对等实体上的信息。这种形式具 有中心化的特点,但是它不同于传统意义上的c 1 i e n t s e r v e r 模式。因 为传统意义上的c 1 i e n t s e r v e r 模式采用的是一种垄断的手段,所有资 料都存放在服务器上,客户机只能被动地从服务器上读取信息,并且客 户机之问不具有交互能力;而集中式p 2 p 模式则是所有网上提供的资料 都存放在提供该资料的客户机上,服务器上只保留索引信息,此外服务 器与对等实体以及对等实体之问都具有交互能力。 北京变通大学硕士毕业论文 图2 2 :集中式目录p 2 p 网络拓扑 集中式p 2 p 可提供中心服务器目录检索、管理服务和标准的点到点通信, 具有高效的检索和低效的交换服务的特点。集中式p 2 p 对小型网络而言 在管理和控制方面占有一定的优势,但对大型网络并不适合。 2 3 2 纯分布式p 2 p 网络模型 n a p s t e r 因为中央服务器的存在引起的版权纠纷导致了它的破产,以 g n u t e l l a 和e d o n k e y 或e m u l e 为代表的后来者们吸取了n a p s t e r 失败的 教训,将n a p s t e r 的理念推进步。当用户p c 安装这些软件后,就会立 即变成一台能够提供完整目录和文件服务的服务器,并会自动搜寻其他 同类服务器,从而联成一台由无数p c 组成的网络超级服务器。与n a p s t e r 网络不同,它不存在中枢目录服务器,或者说把所有机器都变成了服务 器,这就是第二代p 2 p 分布式p 2 p ,其拓扑图如图2 3 。 图2 3 :纯分布式p 2 p 网络拓扑 第1 5 页 北京交通大学硕士毕业论文 在分布式p 2 p 中,对等机通过与相邻对等机之间的连接遍历整个网 络体系。每个对等机在功能上都是相似的,并没有专门的服务器,而对 等机必须依靠它们所在的分布网络来查找文件和定位其他对等机。 以g n u t e l l a 网络为例,一台新对等机首先通过访问某特殊站点提供 的“主机缓存服务”( h o s tc a c h es e r v i c e s ) 机制来得到一台活动对等 机地址,通过与它建立一个连接将自己接入g n u t e n a 网络;接着,该新 对等机主动探查网络中的其它对等机,找到与之相邻的对等机节点,在 进行文件查找时,该对等机首先向与之相邻的所有活动对等点发送一个 查询描述符q u e r y ,在其他对等机接收到该查询描述符后,检查本地是 否有符合查询请求的文件内容,如果有,则按查询描述符的发送路径返 回一个查询响应描述符q u e r y h i t ,无论本地是否存在符合查询请求的文 件内容,其他对等机都会将该查询包通过扩散方式继续在网络中传递, 直至查询包中t t l ( t i m eo fl if e ) 属性值递减为o 时才停止继续转发; 一旦定位了响应查询文件的对等机之后,就与响应对等机建立t c p 连接, 通过h t t p 协议从响应对等机中下载自己查询的文件。文件的传输不再经 过g n u t e l l a 网络进行。 这种无中心、纯分布式系统的特点是:它不再是简单的点到点通信, 而是更高效、更复杂的网络通信;e d o n k e y 和e m u l e 等软件引入了强制 共享机制,在一定程度上避免了第一代p 2 p 纯个人服务器管理带来的随 意性和低效率。 2 3 3 混合式网络模型 集中式p 2 p 有利于网络资源的快速检索,并目只要服务器能力足够 第1 6 页 北京交通大学硕士毕业论文 强大就可以无限扩展,但是其中心化的模式容易遭到直接的攻击;分布 式p 2 p 解决了抗攻击问题,但是又缺乏快速搜索和可扩展性。混合式p 2 p 结合了集中式和分布式p 2 p 的优点,在设计思想和处理能力上都得到了 进一步的优化,其拓扑图如图2 4 。它在分布式模式的基础上,将用户 节点按能力进行分类,使某些节点担任特殊的任务。 一个节点可以既是搜索节点又是索引节点。用户节点可以选择3 个 搜索节点作为它的“父”节点,如果“父”节点接受该用户节点作为它 的“孩子”的话,那么该用户节点就可以提交其所要共享的列表给它的 “父”节点。在缺省的情况下,搜索节点可以最多维护5 0 0 个“孩子” 节点。在第三代p 2 p 的软件体系结构中,采用了混合式p 2 p 。这种模式 的关键之一是引入了索引节点,索引节点不会直接连接到有版权的资料 上,它就像搜索引擎一样,只是搜索和所需资料相关的地址,至于用户 到底连接下载了什么内容则和它无关。这种模式的关键之二是引入搜索 节点,搜索节点管理着所属用户的文件列表。用户节点通过索引节点获 得搜索节点信息,之后用户节点就与获得的搜索节点相连,每一次查询 都通过该搜索节点进行。当用户发出搜索请求后,如果和用户节点直接 相连的搜索节点查询结果达到1 0 0 个( 这里的1 0 0 个搜索结果,可以由 用户自己来设定) 就停止;如果不足l o o 个,就向相邻的搜索节点发出 请求,如果查询结果还不够,就继续向外快速发散,直到所有的搜索节 点都被搜索到为止。若所有的搜索节点都被访问过,就意味着整个网络 上的节点都被搜索到了,其速度要比纯p 2 p 模式快得多。 第1 7 页 北京交通大学硕士毕业论文 图2 4 :混合式p 2 p 网络拓扑 b t 就是第三代混合式p 2 p 网络的典型代表,开创了新一代p 2 p 的潮 流,它批判地继承了前辈产品的优点,将中心目录服务器的稳定性同优 化的分布式文件管理结合起来,从而在效率上远远超出了e d o n k e y 这类 产品。它要求提供一个或多个统一的w e b 发布服务器,以供发布和搜寻 资料。在客户端,它通过一个i e 插件提供下载、上传管理。b t 把一份 大文件切割成碎片,为每一个碎片标上特殊标识,用户无需到一个固定 地点( 例如传统网络的中心服务器) 上下载完整的文件,系统会自动寻 找、随机下载具有相同标识的文件碎片,将其加以整合成为完整的文件。 总的来说,基于超级节点的混合式p 2 p 网络结构比以往有较大程度 的改进。 2 4p 2 p 技术的影响 如上文所言,p 2 p 不是一个新思想,从某些角度看它甚至是整个最 第1 8 页 北京交通大学硕士毕业论文 初创建互联网的最基本的思想。 p 2 p 的三大特点是: 1 只读网络的终结 2 使网络远离电视 3 使你深刻体验互联网的基本思想 互联网的存储模式将由现在的”内容位于中心”模式转变为”内容位 于边缘”模式。从这个角度看p 2 p 带来了几个改变: 首先,客户不再需要将文件上载到服务器,而只需要使用p 2 p 将共 享信息提供出去; 其次,运行p 2 p 的个人电脑不需要固定i p 地址和永久的互联网连接, 这使得那些拨号上网的用户也可以享受p 2 p 带来的变革,这部分用户在 所有用户中占有极大的比重; 摄后,p 2 p 完全改变过去控制互联网的客户机服务器模式,消除客 户机和服务器二者之间的差别。 第1 9 页 北京交通大学硕士毕业论文 第3 章b i tt o r r e n t 下载 b t 是目前网络上非常流行的一种下载方式,也是p 2 p 技术的一种模 式,它的宗旨是“我为人人,人人为我”,简单的说就是下载人数越多, 速度越快,它的出现使网络的共享精神得到了充分发挥。 3 1发展背景 随着p 2 p 技术的发展,p 2 p 软件也不断产生,主要流行的有 e m u l e ,e d o n k e y ,k a z a a 等软件。而b i tt o r r e n t ( 简称b t ) 的是其发展 最快的一种,也是不需要有专门的服务器,它目前以经成为一种下载文 件的主流。它具有下载速度高且稳定的特性,下载人数越多下载速度就 越快,是区别于其他文件交换软件的地方。 3 2b t 下载的概念 b i tt o r r e n t ( 中文全称比特流,简称b t ) 是一个多点下载的p 2 p 软件。不像f t p 那样只有一个发送源,b t 有多个发送点,当你在下载时 同时也在上传,使大家都处在同步传送的状态。 其特点是在下载d o w n l o a d 同时,也在为其他用户提供u p l o a d 上传, 所以不会随着用户的增加而降低下载速度。使用非常方便,很适合新发 布的热门下载。其特点简单的说就是:下载人数越多,速度越快。 3 3 b t 与p 2 p 的关系 b t 之父b r a mc 。h e n 宣称:“很明显,他们( 指传统方式的下载软件) 的问题在于没有足够的带宽来满足人们的需要。我很清楚,实际上有很 多的带宽摆在那里,但是它没有被恰当的使用。还有许多上传容量是人 们没用到的。” 第2 0 页 北京变通大学硕士毕业论文 文章第二部分提到p 2 p 网络下载技术的发展可以被划分为三代:第 一代是以n a p s t e r 为代表的、还用中央服务器管理的p 2 p ,这一代的p 2 p 生命力十分脆弱只要关闭服务器,网络就死了。n a p s t e r 后来因为 版权法被封了,这个p 2 p 的网络就消失了;第二代分布式p 2 p 没有中央 服务器,但是速度太慢,如g n u t e l l a ,e m u l e 这样的文件共享软件;而 第三代为混合型,采用分布式服务器。目前流行的b t 就是属于这类。 在像n a p s t e r 和g n u t e l l a 这样较早期的p 2 p 文件共享系统下,实际 上只有很小部分人把文件向其他人分享,大部分用户都只是简单地下载。 然而b t 则使用了所谓的g 0 1 d e nr u l e 原理:你上传的速度越快,你下载 的速度就越快。b t 把档案分割成许多小块,当一个用户下载了某一小块 时,它就会立即把这一小块上传给其它用户。因此,所有的用户在下载 的同时,也在把自己已下载部分上传给他人。b t 的这种工作原理,使得 做“种子”的用户只需少许带宽,就可以把大文件共享给大量的下载者。 如果说n a p s t c r 是文件交换的第一波,g n u t e l l a 则代表了第二波。那么,由b r a m c o h e n 开发的b t 将会引领文件交换的第三波目前b t 实际的用户难以估量, 但是b t 这个软件至少被下载了1 0 0 0 万次以上。 3 4 b t 下载的工作原理 b t 下载速度快,它的出现使网络下载出现了高潮,是由于它的工作 原理与其他下载方式不同,首先介绍一下传统下载方式的工作原理。 就h t t p 、f t p 、p u b 等下载方式而言,一般都是首先将文件放到服务 器上,然后再由服务器传送到每位用户的机器上,它的工作原理如图3 1 所示。因此如果同时刻下载的用户数量太多,势必影响到所有用 户的下载速度,如果某些用户使用了多线程下载,那对带宽的影响就更 第2 1 页 北京交通大学硕士毕业论文 严重了而且用户过多就会造成瓶颈,因此几乎所有的下载服务器都有用 户数量和最高下载速度等方面的限制。 图3 一l :一般下载方式工作原理 很明显,由于上述的原因,即使你使用的是宽带网,通常也很难达 到运营商许诺的最高下载速度,这里面固然有网络的原因,但与服务器 的限制也不无关系。正因如此,b t 下载方式出现之后,很快就成为了最 受欢迎的下载方式。 b t 服务器是通过一种传销的方式来实现文件共享的,它的工作原理 如图3 2 所示。举个例子来说吧,例如b t 服务器将一个文件分成了n 个部分,有甲、乙、丙、丁四位用户同时下载,那么b t 并不会完全从服 务器下载这个文件的所有部分,而是根据实际情况有选择地从其他用户 第2 2 砸 北京交通大学硕士毕业论文 的机器中下载已下载完成的部分。例如甲已经下载了第1 部分,乙已经 下载了第2 部分,那么丙就会从甲的机器中下载第1 部分,从乙的机器 中下载第2 部分,当然甲、乙、丁三位用户也在同时从丙的机器中下载 相应的部分,这就大大减轻了b t 服务器的负荷,也同时加快了丙的下载 速度,也就是说每台参加下载的计算机既从其他用户的计算机上下载文 件,同时自身也向其他用户提供下载,因此参与下载的用户数量越多, 下载速度也越高。 图3 2 :b t 下载方式工作原理 其实b t 跟助也十分相似,e d ( 一种p 2 p 软件) 跟b t 不同的地方有: e d 需连上个固定s e r v e r b t 没有固定s e r v e r ,只要分 享者制作出该分享档案的t o r r e n t 文件公布出来便可 第2 3 页 北京变通大学硕士毕业论文 e d 一分享的人越多速度越快b t 种子s e e d 越多速度越快 e 一世界性的分享b t 一团体性的分享( 可做到速度保证) e 一知道在分享者的u s e r n a m e b t 一没显示使用者分享者名 字 比起其它的p 2 p 软件,b t 有个独特的地方,它存在一个中间的w e b 服务器,就是我们在发布的时所填写的a n n o u n c e 。该服务器提供了发布 的统一管理,不像其它p 2 p 软件那样到处去找那些非常不稳定的个人服 务器,相对起来让人放心使用。 从原理上来说,由于b t 先进的下载方式减轻了服务器端的负荷,同 时加快了客户端的下载速度。所以b t 下载的人越多,速度越快。丽传统 的服务器下载方式,速度取决于你的带宽和服务器分给你的带宽。 3 5b t 技术框架 3 5 1 发布内容 为了部署b t 首先将一个扩展名为t o r r e n t 的文件放在一个普通 的w e b 服务器上。t o r r e n t 文件包含了要共享的文件的信息,包括文件 名、大小、文件的散列信息和一个指向t r a c k e r 的u r l 。t r a c k e r 负责帮助 下载者能够获取其它下载者的信息。t r a c k e r 和下载者之间使用一种很简 单的基于h t t p 的协议进行交互,下载者告诉t r a c k e r 自己要下载的文件、 自己使用的端口以及类似的信息,t r a c k e r 告诉下载者其它下载同样文件 的下载者的联系信息。下载者利用这些信息相互之间建立连接。要使的 一个文件可被下载,一个被成为“种子”的下载者,他有完整的文件, 必须启动来使得这个系统可以运行。对t r a c k e r 和w e b 服务器的带宽需求 第2 4 酉 北京交通大学硕士毕业论文 很低,而种子必须至少发送原始文件的一份完整拷贝。 3 5 2 对等发布 所有和文件下载相关的逻辑问题,通过p e e r s 之间的交互来解决。 一些关于下载和上传的速率的信息被发送给t r a c k e r ,但t r a c k e r 搜集这 些信息仅用于得到一些统计。t r a c k e r 的职责被严格限定为“帮助p e e r s 相互发现对方”。尽管t r a c k e r 是p e e r s 之间相互发现的唯一途径,也是 p e e r s 之间相互协作的唯一地点,标准的t r a c k e r 算法返回一个随机的 p e e r s 的列表。 为了掌握每个p e e r s 都拥有什么,b t 将文件切割为固定大小的片( 典 型的大小是2 5 6 k ) 。每个下载者必须通知其它p e e r s ,它拥有哪些片。为 了验证文件的完整性,对每个片断都通过s h a l 算法计算出它的h a s h 信息, 并保存在t o r r e n t 文件中。p e e r s 只有在检查了片断的完整性之后,才会 通知其它p e e r s 它拥有这个片断。删除代码( e r a s u r ec o d e s ) 是一种被 建议使用的能协助文件分布的技术,但是这种更简单的方法( 即分片+ h a s h ) 也是可用的。 p e e r s 不断的从它能连接到的p e e r s 那里下载文件片断。当然,它不 能从没有跟它建立连接的p e e r s 那里下载任何东西。即使是建立了连接的 p e e r s ,有的也并不包含它想要的片断,或者还不允许它去下载。关于不 允许其它p e e r s 从它那里下载文件片断的策略,被称为阻塞c h o k i n g ,随 后将进行讨论。其它关于文件分布的方法通常都要用到树结构,在树结 构中树叶的上载能力并没有被利用起来。简单的让p e e r s 宣布它拥有什 么导致不到1 的带宽开支,却因此可以可靠地利用所有的上载能力。 第2 5 页 北京交通大学硕士毕业论文 3 5 3 流水作业 构架在t c p 之上的应用层协议,例如b t ,很重要的一点是应该同 时发送多个请求,以避免在两个片断发送之间的延迟,因为那样会严重 影响传输速率。为了达到这种目的,b t 将每个片断又进一步分为子片断, 每个子片断的大小一般是1 6 k ,同时,它一直保持几个请求( 通常是5 个) 被流水的同时发送。流水作业所选择的d a t a ( 应该是指的同时发送 的请求数目,也就是5 个r e q u e s t ) 的依据是能使得大多数连接变得饱和。 3 5 4 片断选择 选择一个好的顺序来下载片断,对提高性能非常重要。一个差的片 断选择算法可能导致所有的片断都处于下载中,或者另一种情况,没有 任何片断被上载给其它p e e r s 。 3 5 5b t 下载的优点 1 b t 是一个自由的下载工具,用类似e d 的方式,不象f t p 或者 传统p 2 p 软件那样只有一个发送源,而是所有正在下载某个文件或者已 经下好了某个文件但还没有把下载窗口关闭的人都是发送源。下载的人 越多,下载的速度也越快,类似的工作方式,使得b t 有f t p 和传统p 2 p 不可比拟的速度优势,但同样也需要下载的人能自觉的继续提供文件给 别人下载。 2 b t 不需要指定服务器,虽然在b t 里面有服务器的概念,但使 用b t 的人并不需要关心服务器在哪里。b t 的服务器称为t r a c k e r ,起 第2 6 丽 北京交通大学硕士毕业论文 资源定位的作用,为c l i e n t 指明s e e d 的位置。只有用b t 发布文件 的人才需要知道服务器的具体地址。 3 b t 发布只需上传t o r r e n t 文件,服务器上不需要有源文件,减 轻了服务器的负担。 3 6b t 给网络带来的问题 b t 的使用者在不断增加,但b t 的总体使用情况是很难去衡量的。 但是i n t e r n e t 2 主干网基础构造的主管s t e v e nc c o r b a t o 表示,他在 2 0 0 3 年5 月份开始就注意到b t 的流量开始激增。从当年l o 月份开始, 盯的流量更是超过了这个超高速网络总体流量的1 0 。与之对比,其它 的文件交换系统的流量没有一个能超过i n t e r n e t 2 总体流量的1 。去年 的6 月份( 2 0 0 4 6 ) ,更是一个分水岭,在互联网上流传的视频流首次超 过了音频流,这中间b t 的作用功不可没。随着p 2 p 的用户增多,其流量 也迅速增加,统计可以看出b i t t o r r e n t 和e d o n k e y 等p 2 p 协议已经占到 了网络总流量的6 0 一8 0 ,而在传统网络中占据绝对优势的h t t p 协 议流量,呈现出越来越小的趋势。 b t 在高速网络上下载巨大的音乐、电影文件是非常流行和普遍的。 不过,麻烦也随之而来。 3 6 1 占用网络带宽 与信息文件的传统获取方式相比,p 2 p ( 以b t 为主) 的方便快捷将 使普通用户都乐于并频繁使用。当大量用户运用p 2 p ( 以b t 为主) 方式 传送数据量相当大的m p 3 音乐文件、视频文件的时候,我们赖以生存的 第2 7 页 北京交通大学硕士毕业论文 网络带宽将被迅速吞噬。因此p 2 p 的使用是使网络带宽变窄、造成网速 变慢的原因。 3 6 2 改变了网络流量 尽管很多网络管理者知道在他们的网络中间存在b t 下载,但很少有 人真正了解这种应用占据了多少带宽资源。如果他们知道b t 下载使用了 他们网络中间6 0 7 0 的广域网带宽,可以想象他们会如何惊讶。很多企 业使用广域网来连接各个地区的分支机构,b 下载严重破坏了广域网的 出口带宽资源分配,彻底改变了网络流量构成。 第2 8 页 北京交通大学硕士毕业论文 3 6 3 网络流量不可预知性 b t 下载流量具有很大侵略性。为了更有效率的交换文件,b t 下载程 序在启动时会建立数量巨大的连接,这些连接会使得网络流量突然迸发, 进而在相当一段时问内维持很大的网络流量。这种情况会带来很严重的 问题。在企业网络中间,盯下载不是唯一的应用程序,其他关键应用同 样运行在这个网络上,并且使用了同一个广域网出口。 3 6 4 网络拥挤 一些关键业务,如e r p 系统、财务管理系统、供应链管理系统等等, 这些应用会和b t 下载共享的网络带宽。而这些业务系统通常都是对反应 时间要求很高的。在b t 下载运行时,操作人员会明显地感觉到这些业务 系统反应很慢,甚至没有反应。其他对反应时间要求不是很高的应用, 如电子邮件、数据备份、数据库数据同步等等,也很容易遭受到带宽的 威胁。 3 6 5 无法正确识别b t 流量 尽管很多网络的管理者知道在他们的网络上运行有b t 下载应用,但 他们通常没有工具去发现这些流量,因此也不会了解b t 下载对他们管理 的网络带来的冲击。造成这种问题的原因有很大一方面来自b t 下载使用 的通讯机制。b t 下载使用的机制比较容易迷惑人,它使

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论