(通信与信息系统专业论文)数据抓取平台设计搭建与对等网络研究.pdf_第1页
(通信与信息系统专业论文)数据抓取平台设计搭建与对等网络研究.pdf_第2页
(通信与信息系统专业论文)数据抓取平台设计搭建与对等网络研究.pdf_第3页
(通信与信息系统专业论文)数据抓取平台设计搭建与对等网络研究.pdf_第4页
(通信与信息系统专业论文)数据抓取平台设计搭建与对等网络研究.pdf_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

e 塞套遵太堂亟堂垃途塞虫塞擅墨 中文摘要 研究网络一种常用的方法是通过抓取网络“快照”来实现,对每一个“快照” 的分析可以反映网络的各方面特性,这些特性对于刻画网络特征具有重要的作用。 对一些连续的”快照”分析则可以反映各特性的动态变化情况;而抓取这些“快 照”一般需要用到专门的抓取平台。 在本文中,我们介绍了针对g n u t e l l a 网络的研究,设计实现的相关平台。采 用的基本原理是利用g n u t e l l a 协议中p i n g p o n g 消息获取节点和文件相关信息,使 用的硬件是普通的p c ,软件是g t k g n u t e l l a 修改而来,运行在l i n u x 环境下,采用 控制端与工作端相结合的方式;优化方面,我们在软件、硬件和数据库三个部分, 通过比较实验,分别探讨了影响平台性能的因素;优化后的平台每台机器每分钟 获得的p o n g 数量可以达到1 5 0 0 0 ,可以访问3 0 0 个p e e r ,同时还可以得到节点的 连接关系、文件的详细信息以及文件节点的相关信息等等;通过与其他相关平台 的比较,得知平台抓取速率的瓶颈在于建立t c p 连接对时间的消耗,对以后的设 计提出了相应建议。 我们利用在1 5 个小时抓取的数据对网络特性进行了分析,得到了包括文件类 型、流行度及其动态分析,网络拓扑分布等几个方面的信息。最后对p 2 p 网络污 染问题进行了简要介绍,对之前的污染检测标准提出了基于应用方面的改进,并 通过实验,得到了g n u t e l l a 网络中不存在大规模污染的结论。 关键词:p 2 p ;平台;优化;污染;分布 分类号: 匙塞銮烫盘堂亟堂焦绘塞堡s ! 基垒z a b s t r a c t :ac o m m o nm e t h o dt op e r f o r man e t w o r kr e s e a r c hi st os t u d yt h en e t w o r k s n a p s h o t s ,t h e s ec a nr e f l e c tm o s ta s p e c t so ft h en e t w o r k , t h i sc h a r a c t e r i s t i c sa r e i m p o r t a n tt om a pan e t w o r k w ec a na l s og e tt h ed y n a m i c sb ya n a l y z i n gs o m e s e q u e n t i a ls n a p s h o t s ;ap l a t f o r m i sn e e d e dt oc r a w lt h e s es n a p s h o t s i nt h i sp a p e r , w ei n t r o d u c eap l a t f o r mt h a ti su s e df o rt h eg n u t e l l an e t w o r k t h eb a s i c t h e o r yi sp i n g p o n gm e s s a g ei ng n u t e l l ap r o t o c o l ,a n dt h eh a r d w a r ei sp c ;t h es o f t w a r e i sam o d i f i c a t i o no ft h eg t k - g n u t e l l a , w h i c hn l n su n d e rl i n u x ;t h ed a t a b a s ei sm y s q l w e f o c u so nt h e s et h r e ea s p e c t st om o d i f yt h ep l a t f o r ma n ds t u d yt h ef a c t o r st h a ti n f l u e n c e t h ep e r f o r m a n c e w ec a nc r a w l e r1 5 ,0 0 0p o n g sa n d3 0 0p e e r se a c hc o m p u t e ri n1 m i n u t e ,a n dc a ng e tt h ei n f o r m a t i o no ft h ec o n n e c t i o n ,f i l ea n dn o d e sa tt h es a m et i m e a f t e rs o m ec o o p e r a t i o nw i t ht h eo t h e rs i m i l a rp l a t f o r m s ,w ec a ng e tt h a tt h eb o t t l e n e c k o fac r a w l i n gs p e e di st h et i m eu s e dt of o r mat c pc o n n e c t i o n w ed os o m ea n a l y s i so nt h en e t w o r kc h a r a c t e r i s t i cu s i n go u r1 5 - h o u rd a t a w eg e t s o m ei n f o r m a t i o na b o u tt h ef i l et y p e ,p o p u l a r i t ya n dn e t w o r kt o p o l o g y a tl a s tw e i n t r o d u c et h ep o l l u t i o ni np 2 pn e t w o r k w eg i v ea n o t h e rs t a n d a r dt oj u s t i f yp o l l u t i o n a f t e rs o m ee x p e r i m e n t s w ei n c l u d et h a tt h e r ei sn o tl a r g e s c a l ep o l l u t i o ni np 2 p n e t w o r k s k e y w o r d s :p 2 p ;p l a t f o r m ;t o p o l o g y ;p o l l u t i o n ;d i s t r i b u t i o n c l a s s n o : 致谢 本论文的工作是在我的导师陈常嘉教授的悉心指导下完成的,陈常嘉教授严 谨的治学态度和科学的工作方法给了我极大的帮助和影响。在此衷心感谢三年来 陈常嘉老师对我的关心和指导。 胡师舜老师悉心指导我们完成了实验室的科研工作,在学习上和生活上都给 予了我很大的关心和帮助,在此向胡师舜老师表示衷心的谢意。 郭字春张立军、赵永祥几位副教授对于我的科研工作和论文都提出了许多 的宝贵意见,在此表示衷心的感谢。 在实验室工作及撰写论文期问,李纯喜老师、贾晋康,张敏、刘斯伟、韩运 宝等同学对我论文中的许多研究工作给予了热情帮助,在此向他们表达我的感激 之情。 另外也感谢父母,他们的理解和支持使我能够在学校专心完成我的学业。 1 引言 对等网络的发展是近年来互联网的一个热点,无论是以b t 为代表的文件交 换,还是以p p l i v e ,p p s t r e a m 为代表的互联网网络电视,以及s k y p e ,q q 等即时通 信,都给人们的网上生活带来了巨大的变化并提供了丰富的资源和信息。 如此多的应用,使得p 2 p 网络成为了近年来互联网研究的热点,因此良好 的研究平台就成为了对p 2 p 网络有良好认识的重要手段。国外的许多大学和研究 机构在此花费了相当的精力,通过设计性能良好的平台大大提高了研究效率,得 到了许多重要的结论。本文着重立足于在现有的实验室条件下,通过设计搭建研 究平台,尽可能的实现自己需要的数据采集和抓取工作,同时通过对比优化,提 高抓取速度,增进实验效率。 在对p 2 p 网络的研究中,我们把重点放在文件共享这部分,选取的研究对象 是g n u t e l l a 网络,我们偏重于研究对等网络的网络拓扑和文件拓扑。此前针对 g n u t e l l a 的节点拓扑的相关研究已经不少,但是文件等方面的研究还不是很多, 特别是污染状况的分析和对文件拓扑的了解还比较少。本文自己实现的研究平 台,对网络进行了长时间的测量,得到了一系列的相关结论: 1 通过平台内机器的对比实验,得到了实验机器硬件配置、软件参数和数 据库等方面优化的方式。 2 通过与其他平台的横向对比得到了c r a w l e r 结构对抓取速率的影响,找 到了自身进程协调方面的不足。 3 提出了对于平台性能判别的指标,并结合抓取的数掘对平台做了分析。 4 通过平台抓取的数据对g n u t e l l a 网络中文件和节点做了几个方面的刻画。 5 提出了网络污染这一问题,并针对g n u t e l l a 网络的使用做出了几个相关 结论。 论文的具体组织结构如下: 第一章为绪论,主要介绍了研究重点和对象,提出了主要的工作内容 第二章是基础部分,介绍了p 2 p 网络发展的相关的背景,以及g n u t e l l a 网 络的应用特点,网络特点和相关协议。 第三章主要介绍了我们的实验,f 台。包括,f 台组成,实验室网络,软件特 点等;后一部分是关于平台的优化,包括几个参数的对比实验。 第四章分为三部分,第一部分是我们通过一次完整的抓取,对获取的数据 进行基本分析。包括了文件分析、抓取速率分析、覆盖率分析和其他一些相关的 分析;第二部分是与其他平台的抓取速率的横向比较;最后以部分介绍了污染相 关的内容 最后一部分是结论,对全文做了总结并提出了进一步工作的建议。 2 2 相关基础知识介绍 我们的工作主要是针对g n u t e l l a 网络进行,所以在文章的开始,我们先对 g n u t e l l a 网络应用做一个大致的介绍:对本文涉及到的诸如g n u t e l l a 协议,相应的 客户端的工作原理等方面,做较为详细的叙述。 2 1 p 2 p 网络发展概述 p 2 p 的风暴源起于几年前美国的一场著名官司,被告名叫n a p s t e r 。n a p s t e r 提 供一种免费软件,用户安装联网后,p c 就变成了一台m p 3 服务器,可以实现本地 m p 3 资源的全球共享,互联网上无数台这样的个人电脑,交织成一个庞大的m p 3 资源网络。此举等于砸了传统唱片商的饭碗,代表传统产业利益的美国唱片协会 ( r i a a ) 和美国音乐出版协会( n n m p a ) 自然不会坐视不管,他们联名将n a p s t e r 告上了美国联邦法庭。结果n a p s t e r 以败诉收场,被勒令关闭。但是令所有人始料 不及的是:p 2 p 非但没有被扼杀于襁褓中,反而生生不息地繁衍下来。n a p s t e r 这 场官司的输赢似乎已不重要,重要的是它开启了一个注定影响深远的时代 p 2 p 时代。 n a p s t e r 提供的m p 3 下载服务就是最早的p 2 p 实践。 传统互联网基于服务器客户机模式,处于网络中心地位的服务器为处于终端 边缘的客户机提供管理和服务,信息传输、控制相关的所有核心指令需要通过看 不见摸不着、永远处于幕后的神秘的中心服务器来实现,网管可以随意“踢人”, 服务器拥有生杀予夺的特权;客户机永远处于从属位置,是游戏的被动的参与者, 地位自然要低一等。 p 2 p 一开始就是传统秩序的颠覆者,可以说是长期以来处于受压迫地位的客户 机的反叛和革命,以p 2 p 的鼻祖n a p s t e r 为例,它并不提供m p 3 音乐资源,只是 提供动态刷新的m p 3 目录服务,音乐资源是散布在全球互联网上的用户手中。借 助n a p s t e r 你几乎都可以找到任何一首歌曲。分布式运算的可怕聚合力彰显无遗。 n a p s t e r 的特点是提供中心服务器目录检索和管理服务,提供标准的点到点通 信,缺乏有效的强制共享机制,资源可用性差,具有高效的检索和低效的交换服 务的特点,可以说是第一代p 2 p 工具的代表。 n a p s t e r 虽然最终官司缠身,被迫申请破产保护。成百上千的p 2 p 新秀却纷至 沓来,高擎自由共享大旗前进。传统唱片商很快就发现:自己面对的不是一家网 站,而是一种新技术,反叛的力鞋源自! 匕生不息的技术进步。 g n u t e l l a 、s c o u r n e t 、c u t m x c o m 等提供类似服务的网站相继跟进。g n u t e l l a 是n u l l s o f l 公司推出的一款开放源代码音乐下载工具,它吸取了n a p s t e r 的失败教 训,将n a p s t e r 的理念更推进一步:用户p c 只要安装该软件,立即变成一台能够 提供完整目录和文件服务的服务器,并会自动搜寻其它同类服务器,从而联成一 台由无数p c 组成的网络超级服务器,与n a p s t e r 网络不同,它不存在中枢目录服 务器,或者说把所有机器都变成了服务器,如此一来,传统网络关于“中心服务 器”和“终端客户机”的定义就要重写,传统版权主义者想打官司都找不到被告, 这还只是p 2 p 颠覆传统秩序的开始。 p 2 p 的后起之秀电驴( e d o n k e y ) 及其改良品种电骡( e m u l e ) 改进了第一代 p 2 p 系统,中央服务器提供简单的文件列表功能,下载、安装客户端以后,无需注 册即可使用。电驴的革命性突破就在于:它不是只在一个用户那里下载文件,而 是同时从许多个用户那里下载文件。如果另一个用户仅仅只有你要的文件的一个 小小片断,他也会自动地把这个片断分享个大家。反过来也一样。只要你得到了 一个文件片断,系统就会把这个片断共享给大家。尽管通过选项的设置你可以对 上传速度做一些控制,但你无法关闭它。 g n u t e l l a 和电驴代表了第二代p 2 p 无中心、纯分布式系统的特点,它不再是简 单的点到点通信,而是更高效、更复杂的网络通信。电驴开始引入强制共享机制, 一定程度上避免了第一代p 2 p 纯个人服务器管理带来的随意性和低效率。 而p 2 p 发展到2 0 0 3 年,一个叫b r a mc o h e n 的美国程序员突发奇想,开发了 著名的b i t t o r r e n t ,就是我们常说的b t 下载。b t 首先在上传者端把一个文件分成 了很多部分,用户甲随机下载了其中的一些部分,而用户乙则随机下载了另外一 些部分。这样甲的b t 就会根据情况( 根据与不同电脑之间的网络连接速度自动选 择最快的一端) 到乙的电脑上去拿乙已经下载好的部分,同样乙的b t 就会根据情 况去到甲的电脑上去拿甲已经下载好的部分,这样不但减轻了服务器端的负荷, 也加快了双方的下载速度。实际上每个用户在下载的同时,也在作为源在上传( 别 人从你的电脑上拿那个文件的某个部分) 。这种情况有效的利用了上行的带宽,也 避免了传统的f t p 大家都挤到服务器上下载同一个文件的瓶颈。而加入下载的人 越多,实际上传的人也多,其它用户下载得就越快,b t 的优势就在这里体现出来。 和通常的兀t 、m 1 甲下载不同,使用b t 下载不需要指定服务器,虽然在b t 里 面还是有服务器的概念,但下载的人并不需要关心服务器在哪里。只有发布原始 共享文件的人才需要了解。提供b t 的服务器称为t r a c k e r ,把文件用b t 发布出来 的人需要知道该使用哪个服务器来为要发布的文件提供t r a c k e r 。由于不指定服务 器,b i t t o r r e n t 采用b t 文件来确定下载源。b t 文件后缀名为t o r r e n t ,容量很小, 通常是几十k 的样子,这个文件里面存放了对应的发布文件的描述信息、该使用 4 哪个t r a c k e r ( 记录下载用户信息的服务器1 、文件的校验信息等。b t 客户端通过处 理b t 文件来找到下载源和进行相关的下载操作。b t 把提供完整文件档案的人称 为种子( s e e d ) ,正在下载的人称为客户( c l i e n t ) ,某一个文件现在有多少种子多少 客户是可以看到的,只要有一个种子,就可以放心的下载,一定能抓完。当然, 种子越多、客户越多的文件抓起来的速度会越快。 下面我们总结一下,表1 给出了p 2 p 文件共享的大概发展情况及各个阶段的 代表应用和网络。 图1p 2 p 网络应用发展情况 阶段特征详细介绍代表应用 及网络 第一代集中服务器式客户端( 对等点) 必须连接到指定的运行在 n a p s t e r 该网络中的个人或商业服务器( 一个或多o p e n n a p 个服务器) ,依赖于服务器。 第二代客户服务器式仍旧是基于服务器,只不过废除了集中的 g n u t e l l a 服务器,取而代之的是客户端软件既有服e d o n k e y 务器的功能也有客户端的功能,或者专门 k a z a a 的服务器软件可以和客户端软件一起运 f a s t t r a c k 行,即将服务器分布化。 第三代t r a c k e r 型下载的人并不需要关心服务器在哪里。只 b t 有发布原始共享文件的人才需要了解。提 供b t 的服务器称为t r a c k e r ,把文件用 b t 发布出来的人需要知道该使用哪个服 务器来为要发布的文件提供t r a c k e r 。 2 2g n u t e l l a 的相关介绍 g n u t e l l a 是一种完全分布的信息共享技术。刚开始有网络时候,它是这样工作 的:当我上传一张网页,你就可以链接它,同样,我也可以链接你的。为了四处 浏览,我们就在网上冲浪。网络就是这样的。但是不久,象y a h o o ! 和l y c o s 这样 的网站出现了,他们建立了搜索引擎,或说信息入口。我们可以到一个地方去找 寻所有需要的信息。在观念上它是完美的。问题是他们在入口处填满了广告。他 5 们是过时的。他们只是操纵了信息的流动。 然而,现在,g n u t e l l a 把这种私人交互还给了因特网。当你运行g n u t e l l a 软件, 和g n u t e l l a 网络连接时,你也完全公开了你带来的信息。它可能是一个文件,一 个目录,或者你整个的硬盘驱动器,当然这样做并不可取。 这种共享信息的能力是不可估量的。它使在你硬盘上的数据都是你认为有价 值的。所以当你分享它的时候,你就在分享整个的因特网。并且你可以控制这种 共享。决定停止共享? 离线,拿走你想要的文件。想分享更多? 选择更多的文件 并共享它们。这确实相当简单。 2 2 1g n u t e l i a 的应用特点 一、g n u t e l l a 是文件共享 在g n u t e l l a 上的任何人都可以共享他们的资料。g n u t e l l a 上的客户也是服务者。 你不仅可以寻找资料,也可以给他人提供资料。如果你有别人所要的资料,你就 可以回答别人的请求,和g n u t e l l a 网络上其余的人共享。 二、g n u t e l l a 是匿名的 n a p s t e r 和其它象它这样的一个问题就是他们是集中式的。所有这些商业的实 时搜索引擎可能保存了记录,使得它可以给你发广告。至少它保留记录,以便他 们知道一天的访问量并告诉他们的投资者。并且他们有可能运行一些数据挖掘程 序来计算多少人搜索m p 3 ,等等。这样他们可以知道顾客想要什么。 g n u t e l l a 停止了这些诡计。当你向g n u t e l l a 网络发出请求时,几乎没有询问。 而且也不可能计算出谁要什么。每当你的请求通过时,这种请求是呈指数增长的。 在下一节将仔细说。 总之,没有人保留记录,没有人剖析你。 三、g n u t e l l a 具有顽强的生命力 毫不夸张的说,它甚至可能成为军需品。我们知道g n u t e l l a 网络不可能被象 i c m pf l o o d 这样简单的东西所击垮。当你被s m u r f s 侵袭的时候,你不会像y a h o o ! 那样束手无策。g n u t e l l a 的概念就是拥有很多g n u t e l l a 服务的提供者,不可能全部 崩溃。我们在论文中还会从污染的一个角度来提到这方面的问题。 另外还要说的是:g n u t e l l a 是一个协议。是自由得到的信息。没有哪个公司可 以控告。没有哪一个实体真的负责g n u t e l l a t 同时,g n u t d l a 并不是促进音乐的盗 版。它是一种技术,而不是音乐盗版工具。它是可靠的,是兆兆位数据的共享, 是绝对不会被阻止的。 2 2 2g n u t e l l a 的网络特点 6 g n u t e l l a 的网络结构及原理 作为典型的二代p 2 p 网络,g n u t e l l a 没有中心服务器,每一个s e r v a n t 既是客 户端 圈l 双层 g - c m c a t 结构( s 功趋缓节点,时为昔通节点 又是服务器。如图1 所示,由于这几种网络采用的都是无中心的双层结构,即整 个网络由两类节点( 超级节点和普通节点) ,每个普通节点只与一个超级节点底层 相连,而超级节点之间高层互连组成网络,超级节点充当简单的管理和汇聚功能, 它会搜集与之相连的所有普通节点的信息形成局部索引。 当一般用户查找感兴趣文件时,普通节点通过t c p 连接向超级节点发出关键 字查询,超级节点根据查询关键字返回相应的元数据和i p 地址。如果搜索结果有 限,超级节点也可以向其它超级节点发送以扩大查询范围。不管匹配的结果是否 找到,p e e r 会继续把查询以泛洪的方式发送出去( 见图2 图中p 代表p e e r :o 代 表查询;r 代表查询结果的返回:d 代表下载) 。 图2g n u t e l l a 查询返回下载过程示意 g n u 协议使用p i n g 和p o n g 消息来帮助p e e r s 发现其他节点。一个节点收到另 一个节点发出的p i n g 消息,会回一个p o n g 的消息,同时把这个p i n g 消息转发给 邻居。 7 2 2 36 n u t e i l a 协议的进一步介绍 下面我们详细介绍一下g n u t e l l a 协议,以便更好地理解我们接下来的工作: g n u t e l l a 网络的点对点本质要求客户机合适地路由网络( 包括查询、查询响应、推 送文件请求等) 。 首先,一个好的客户机应该根据以下的规则路由协议的描述符: 1 p o n g 描述符应该只沿进入的p i n g 描述符的路径发送。这样可以保证只有路由 p i n g 描述符的客户机将看到的p o n g 描述符作为响应返回。一个客户机如果收到 一个带有描述符i d = n 的p o n g 描述符,但没有看到一个带有描述符i d = n 的p i n g 描述符的,应该把p o n g 描述符从网络中删除。 2 q u e r yh i t 描述符应该只沿进入的q u e r y 描述符的路径发送。这样可以保证只 有路由q u e r y 描述符的客户机将看到的p o n g 描述符作为响应返回。一个客户机 如果收到一个带有描述符i d :n 的q u e r yh i t 描述符,但没有看到一个带有描述 符i d = n 的q u e r y 描述符的,应该把p o n g 描述符从网络中删除。 3 p u s h 描述符应该只沿进入的q u e r y 描述符的路径发送。这样可以保证只有路 由q u e r yh i t 描述符的客户机将看到的p o n g 描述符作为响应返回。一个客户机如 果收到一个带有描述符i d = n 的p u s h 描述符,但没有看到一个带有描述符i d = n 的q u e r yh i t 描述符的,应该把p u s h 描述符从网络中删除。一个客户机如果收到 一个带有客户机i d - - - - n 的p u s h 描述符,但没有看到一个带有客户机i d = n 的q u e r y h i t 描述符的,应该把p u s h 描述符从网络中删除。p u s h 描述符通过客户机i d 进 行路由,而不是通过描述符i d 。 4 一个客户机将通过进来的p i n g 和q u e r y 描述符向前到达所有与它直接相连的 客户机,但负责传递进入的p i n g 和q u e r y 的那些客户机除外。 5 一个客户机将在它向前传递描述符到与它直接相连的客户机静,减少一个描 述头的1 儿区,并增加h o p s 区。如果,减少头部的t r l 区后,1 m 中的值等 于0 ,描述符将不再向前传递到任何连接。 6 一个客户机收到一个与它之前接收过的描述符具有相同有效描述符和描述符 i d 的描述符,应该避免再向前传递这个描述符到其它的连接。它已经接收过这 样一个描述符,再把它传递出去只会浪费带宽。 一旦一个客户机收到一个q u e r yh i t 描述符,它将初始化直接下载描述符的结果 集其中的一个文件。文件将不通过g n u t e l l a 的网络进行下载,一个源客户机和目 标客户机直接建立连接进行数据的传输。文件数据从来不会通过g n u t e l l a 网络进 行传送。 其次,对于防火墙后的客户机 并非总是在初始化一个文件下载后都可以与g n u t e l l a 客户机建立直接连接。 客户机可能在防火墙后并不允许通过它的g n u t e l l a 端口进入的连接。如果一个直 接连接不能建立,客户机若想下载文件可能会请求共享文件的客户机采用“推送” 方式来代替。一个客户机可以通过发送一个p u s h 文件推送请求到发送q u e r yh i t 请求的客户机处来实现。作为p u s h 请求目标的客户机( 在客户机标志区标示一 个p u s h 的描述符) 应该接收p u s h 描述符,尝试建立一个新的t c p i p 连接到请 求客户机( 在p u s h 描述符中标示有i p 地址和端口) 。如果直接连接不能建立, 那么可能发起p u s h 请求的客户机自己也在防火墙后。这种情况,文件传输将不 能进行。 9 3 研究平台的设计搭建与优化 良好的实验平台对于获取高质量的实验数据、提高实验效率有着重要的作用, 尤其对于网络测量,高性能的研究平台将对数据的准确性和可靠性有着决定性的 影响;同时在平台的设计中,要充分结合实际,做到对现有资源的充分利用;同 时平台要有良好的扩展性,能根据不同的实验要求进行调整,做到简单易行。本 节我们就我们使用平台的设计搭建以及之后的根据实验室环境的相关优化作详细 介绍,同时给出我们与其他平台的性能方面的比较。 3 1 平台介绍 3 1 1 平台硬件构成 平台由多台( 目前有5 台左右) p c 构成,其中一台作为控制端,几台负责测 试的机器地位平等且配置相同,另有两台配置不同,作为硬件实验的比较对象, 但考虑到其对实验结果产生的或有影响,在实际实验中不用这些机器。同时我们 的控制端由于同时还要用来进行数据处理,而且配置也不尽相同,所以也不参与 正式实验。 硬件与操作系统:, 控制端i n t e lp 42 42 5 6 mr a m 实验端l a t e lc e l e r o n3 02 5 6 mr a m r e d h a t2 4 2 0 比较端1i n t e lp i l l7 3 3 m 2 5 6 m r a m f e d o r a 2 6 9 比较端2i n t e lp i v2 0 g2 5 6 mr a m f e d o r a 2 6 9 3 2 实验室网络介绍及平台拓扑设计 3 2 1 实验室网络介绍 如图所示,我们使用的是a d s l ,所有机器连接到一个交换机上,w o r k e r l 4 是我们的实验用机:左下角的框中为我们的比较用机,他们在网络中的地位与实 验用机是一致的,这是为了便于实验结果的比较;所有的机器均由c o n t r o l l e r 控制。 同时实验用机和比较用机同时又足数据库,因为我们的结果足存放在本机的。为 了数据处理的方便,在后面的内容中,我们也会将数据库独立出来,其他所有机 器抓取的数掘都写入同一数据库中,这种网络结构的改变将在下文介绍。为了充 1 0 “t * q d 图3 实验室网络殛平台结构 分利用资源,并节省成本,我们的平台结构由现有条件决定。实验室网络拓扑如 图所示:其中,我们实验用到的更多的是左侧的a d s l 的线路,带宽4 m ,之前的 a d s l 经常掉线,使得实验过程中抓取的数据可能会有间断,后来改为固定连接后, 这个问题解决了,但由于共享的人比较多,不能完全保证其带宽,而且a d s l 本 身也就不是非常稳定。这些都会影响到我们实验的结果,是实验过程中需要注意 的方面,选取连续抓取、中间没有断网的数据。 3 2 艺平台特点 直观上说,我们的机器有限,能够充分利用每一台机器是提高效率的重 要手段。总的说来,这样的结构有如下特点: 提高了运行效率和数掘质量。一台机器控制多台可以减少操作时间,提高 实验效率;几台机器同时运行缩短了测量时间,减少了因时问问题造成的 网络变化带来的误差,进而使得测量的精确度提高。 节省了成本。我们的测试端p c 省掉了显示器,键盘,鼠标,降低了平台 的成本,而且减少了系统连线,有利于精简系统规模。大大简化布线还可 以提高了可靠性,并降低了由此带来的维护成本。 设各即插即用。只需要通过简单的软硬件配置,就可以很方便地从系统中 删除或者增加新的节点,具有非常大的灵活性。 系统信息集成和设备诊断方便。网络的扁平化,控制层网络与管理层网络的无 缝连接,使得管理系统很容易获得控制系统的运行状况和设各的状态信息,以 及其它各种信息,可以方便地在线故障检测与诊断。 3 2 3 平台软件介绍 我们使用的工具是由g t k g n u t e l l a 修改而来的,g t k - g n u t e l l a 是一个专门针 对g n u t e l l a 网络的服务器客户端软件,其界面如图所示,由于我们对其进行了 修改,抓取的数据直接存入数据库;对于界面的依赖不是很大,有几个参数可以 调整,但我们在实验中可以通过改变配置文件的设置值来调整,对于详细的配置、 参数设置以及各个参数所代表的含义,我们会在以后的实验中详细介绍。它可以 运行在任何支持g t k + ( 1 2 及以上) 和l i b x m l 的u n i x 系统下,例如l i n u x 。 f r e e b s d ,n e t b s d ,0 p e n b s d ,d a r w i n ,s o l a r i s ,t r u 6 4u n i x ( o s f 1 ) ,s g ii r i x 不需要g n o m e 桌面环境。支持的c p u 结构包括x 8 6 ,a m d 6 4 ,p o w e r p c ,s p a r c ,m i p s g t k g n u t e ll a 主要技术特点如下: 可以在g n u t e l l a 网络( l i m e w i r e ,b e a r s h a r e ,x o l o x ,g n u c l e u s 。s h a r e a z a , m o r p h e u s ) 上共享文件:从多用户同时下载文件( s w a m i n g ) :被动搜索:可 以通过u r n :s h a l 和m a g n e t 进行搜索;强有力的过滤功能:带宽的管理和限制; 多方面的设置;可以进行许多方面的统计:通过下载m e s h 和检测搜索来自动获取 更多的源。 图4g t k - g n u t e l l a 界面 g t k g n u t e l l a 的开发者认为他们的技术是优于e d 2 k 的。因为它开源,而且因 为它没有一个中心服务器,足完全用户之间互联的一个网络,从而保证用户不会 被中心服务器监视。可以说,只要有人还在用这个软件,这个网络就不可能消失。 虽然最近由于b t 等的兴起,其用户数下降比较厉害,但是仍旧可以搜索到大量的 资源,速度也很好,搜索网络资源对带宽的需求也比e d 2 k 小。简单地说, g t k - g n u t e l l a 的用户们互相连成一个网络,你的搜索将发给其他g t k - g n u t e l l a 用户, 他们再传出去,形成巨大的搜索网络。看起来这样非常消耗网络资源,但是 g t k g n u t e l l a 引入了u l t r a p e e r 和l e a f 的概念。如果带宽比较小,搜索请求就会主 要传给带宽富裕的u l t r a p e e r ,他们会帮你继续和其他节点联系搜索事宜,搜索到 再告诉你。g t k o g n u t e l l a 是一个兼容性不错的客户端,只需要g t k + 或者g t k 2 ,而不 需要g n o m e 桌面环境。 3 3 平台优化 3 3 1 概述 对网络的测量方法根据关注问题的不同而不同:可以检测网络,抓取数据, 进行分析,而不人为地引入对网络得影响,这是被动测量;但总的说来,对于p 2 p 网络拓扑方面的测量更多的需要主动地去查询或获取想要地数据,比如给定查询, 统计返回结果,或者选定文件,对所有下载该文件的用户进行测量;除此之外, 研究人员还可能自己去向网络内“注入”特殊标记的数据,以验证或测量这些文 件的扩散传播情况。当然为了提高测量效率,可能会有相应的测试工具及优化策 略。 研究p 2 p 拓扑一种常用的方法是通过抓取网络”快照”来实现,p e e r 是参数, 连接作为边:对每_ 个”快照”的分析可以反映网络的各方面特性:覆盖的规模与 半径,节点的度的分布等等。对一些连续的”陕照”分析则可以反映各特性的动态 变化情况,因此,这些结果的准确性很大程度上取决于抓取的”快照”的准确性。 最完美的”快照”当然是瞬间抓取的,同时是完整的覆盖,但事实上这是不 可能的,主要原因如下:首先,即使是再快的平台,抓取总需要一定的时间,所 谓的瞬时只是一个理想状态,而实际上是不可能达到的。对于网络来说,拓扑是 在快速动态变化的。这样就形成了矛盾抓取过程中网络也在变化,那下一秒抓取的 数据和上一秒的不一定是同时存在的:这样的”快照”就会与实际有差距。此外 还牵扯到精度的问题,比如说如果我们要用一个小时才能完成抓取的话我们就了 解不到半小时内网络拓扑的变化。 另外一个因素是那些不可达的p e e r ,许多研究简单的认为这些p e e r 离开了系 统或者干脆不考虑他们,但事实上这些p e e r 占有不小的比例,不能随便忽视,正 是由于这些p e e r 的存在使得我们抓取的”快照”并不完整。有研究 9 1 发现:这 些不可达的p e e r 很大一部分是在防火墙后,或者是收到了太多的s y n 包( 过载) , 这在后面的实验中也得到了验证。同时,在利用实验平台抓取的过程中,存在一 个完整性与准确度之间的平衡。通过延长超时时间或增加失败后的重试次数,可 以加大连接成功的概率,但要付出的代价就是抓取时间的增加。研究表明在不可 达的p e e r 中,2 一3 的是离开了系统,1 5 2 4 i 艉在防火墙后,剩余的要么是在 防火墙后,要么是过载,而并非是离开。 3 3 2 指标 为了对平台的性能有较为全面的了解,我们选取了几个指标,作为评判平台 优化效果的依据。这些指标基本围绕的还是与上面所说的抓取的完整性和准确度 相联系的,反映到具体的指标就是抓取速率和覆盖率。 平均抓取速率:c r a w l e r 要循序渐进地抓取,抓取一遍要经过一定的时间,这期间 会有许多的节点加入或离开网络,拓扑有一定的变化,这种意义上说,要获得一 个绝对精确的“快照”是不可能的。但是一个准确“快照”要求抓取时间尽可能 短,g n u t e l l a 采用的l n f o r s e a r c h 技术可以把用户的搜索在互联网的p c 之间接力传 送下去,而不是像传统网络搜索技术那样,由一个主服务器作为搜索引擎来作关 键字分析。使用p 2 p 技术,可以得到实时的搜索结果及文档,而不仅仅是传统搜 索引擎提供的网站地址。为了进行比较,这个指标可以细化,比如可以比较某一 个特定时间段内的平均速率,来判断平台的反应速率等等。 启动速率:这个指标主要反映了平台的初始化速率。初始化过程非常关键,快速 准确的初始化过程对提高后面亚作的效率有重要影响,在后面的比较中,我们给 出了启动后几分钟到几个小时的数量变化,这一期间的平均速率可以作为启动速 率。 覆盖率:这也是衡量平台性能的重要指标,一个网络”快照”只有在较为完整的 情况下才有意义,较小的不完整性可能导致对于拓扑描述很大的失真。但在实验 过程中,由于抓取速率等的原因,完全的覆盖是不可能达到的,甚至我们通过长 时间抓取的拓扑其实是一个严重“扭曲”的拓扑,怎么使这个“扭曲”的程度降 低仍然需要抓取速率的配合。这个指标可以由以下几个直观的数据来体现:发现 的u l t r ap e e r 数目、l e a fp e e r 数目、u l t r ap e e r 之问的连接数目以及同l e a f 的连接数 目。在本文的中,我们会单独讨论这个问题。 3 3 3 工作原理 我们的平台采用的工作方式为主动测量,基本的工作原理来自g n u t e l l a 协议, 通过p i n g p o n g 消息,访问不同的节点,获取节点的相关信息,同时抓取连接到此 节点的所有p e e r 信息。总的说来,平台分为拓扑和文件两大部分。图6 来自我们 数据中关于拓扑的- d , 部分,我们用来说明平台拓扑的工作原理:每一簇的端点 1 4 ( 簇头) 就是我们访问到的节点,而每个分支就是连接到该节点的p e e r 针对这个 节点发出p i n g 而返回的p o n g ,这些p e e r 既包括超级节点也包括普通节点。从图中 我们还可以看到一些相对孤立的节点,他们只负责两个被访问节点的中继,这些 节点是网络中的路由器。在每一次抓取的初始化阶段,我们的平台从c a c h e _ p o n g 中得到一定数目的p e e r ,然后去获得相关信息;每访问到某些节点,则将所有与 这些节点连接的节点i p 加入到c a c h e _ p o n g 中,便于以后访问,以此类推。对于文 件来说,我们没访问到一个节点,就会获取此节点上关于文件的所有信息,这些 文件不但来自本地,也可能来自与此节点相连接,被此节点事先获取保存在本地 的信息。下面介绍一下我们的数据库表的情况,能更好的了解工作原理,并对数 据情况比较深入的掌握。 c a c h ep o n g :用来存放将要抓取的p e e r 信息,包括i p 地址,端口号,类型, 是否被抓取过以及创建时间,访问时间等等。 c a c h ep o n g _ l e a f :同c a c h e _ p o n g ,只是包含的p e e r 均为l e a f c r a w l e rp e e r i n f o :用来存放已经抓取过的p e e r 的信息,包括了i p 地址,端口 号,用户客户端类型,p e e r 类型,创建时间等等。 c r a w l e r _ r e c v _ p o n g :用来存放接收到的p e e r 返回的p o n g 信息。包含源主机( 发 出p i n g 的主机) 的i p 地址,端口号以及目的主机( 返回p o n g 的主机) 的i p 地址 和端口号,同时标示目的主机的p e e r 类型,此外还包括创建时间。 f i l e c r a w l e rf i l e i n f o :用来存放获取的文件的信息,包括文件名,大小,哈希 值,文件的一些相关描述信息等等方面。同时会给拥有此文件的用户的一个编号, 用于与下面的表相连接。下面的图是关于文件表的结构。图5 给出了这个表的结 构( 表头) 。 f i l e c r a w l e r :用来存放拥有文件的节点的信息。包括与上面表对node o ff i l e 应的节点的编号,用户在g n u t e l l a 网中的i d 用户i p 地址,端口号,国家,创建 时间等等。 一一一一 一+ 一- 一一十- 一十 i f i e l d lf 弹ein u l lle 町il 斌a u l ti 鼬r al h i di r t t ( 1 1 ) 0 f a d i n t ( 1 i ) o v a t c h a t ( 2 5 5 it e s珂j l l v a r 曲位r 5 0 i1 f e s眦 l d a i m ( , 馑s龇l s b 8 ir a t c h e t ( 5 0 t e 5飘l t a v c h a r ( 2 0 y e s眦 n ly e s肚l a l t c n ti n t ( 3 )y e s玎j l l 1 0 :7 缸c h 缸( 4 征s矾正l 图5 表f i l e c r a _ ;! r l e r - f i l e i n f o 的结构 图6 平台工作原理图 3 3 4 平台优化 我们测量的基本方法是采用每次实验只测量一个参数,其他配置完全相同的 方式。两台测试机要同时开始,每次测量时间也相同。同时会有一些有不同的持 续时间和开始时刻的实验,以便能够获取在不同时间段网络的情况。我们选取的 指标主要是根据表来定的。采用的指标有p o n g 、p e e r 、f i l e 、n o d e ,涉及到的表 也是前面介绍的几个。侧重于p o n g 和f i l e 两个方面。对于这两方面,我们更关 注抓取速率方面,而覆盖方面则没有太多比较价值。p o n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论