下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、主控网状通信策略在web搜集系统中的应用及模拟分析摘要:搜索引擎所处理的对象是eb上成千上万的eb效劳器通过网页之间的链接构成的海量信息,各个主机之间的联络或多或少,但都可以说是相对独立的本文研究了网状主控通信策略在eb搜集系统中的应用情况。关键词:主控网状通信策略eb搜集系统中模拟0引言搜索引擎已经成为快速、准确地在纷繁的信息网中定位自己所需东西的重要手段。然而要在搜索引擎中尽可能地找到用户所需信息,就要求搜索引擎索引尽可能多的网页。因此索引网页数量是评价一个搜索引擎好坏的关键因素之一。要索引更多的网页就要获取更多的网页,因此高效地获取网页是一个好搜索引擎的基矗然而,单机系统受限于pu的处理
2、才能、磁盘存储的容量,而最致命的是系统可扩展性低,扩大规模的唯一方法是换成处理才能更强的系统,宏大的本钱是难以令人承受的。采用可扩展并行分布式计算机系统构造处理eb上的海量信息,成为很自然和诱人的方案,扩大分布式系统处理才能只需要增加机器即可。并行分布技术的可实现性来自计算机网络速度的不断进步,交换技术保证各节点的通信可以互相独立,而不是像共享式技术一样所有节点共享全部带宽。在10以太网的环境下,文件传输的速度可以到达1b/s;在100以太网的环境下,文件传输的速度可以到达10b/s。一个以太网帧的最大长度是1518个字节,在10以太网的环境下传输时间是1.2毫秒;假如在千兆网环境下传输时间那
3、么是12微秒,这个时间延迟对于大多数应用都是可以忽略的。本文研究了网状主控通信策略在eb搜集系统中的应用情况。1eb搜集系统概述一个完好的eb搜集系统主要包括搜集系统、索引系统、检索系统等不同组成局部,其中eb信息搜集系统是核心部件。系统分布的核心是数据的分布。对搜集局部而言,实际是将url分布在执行搜集任务的机器之间,保证它们搜集的url不会重复。对查询局部,那么是将索引数据分布在执行检索任务的机器之间。搜集节点之间互相协调,分配url,保证每个eb主机的全部网页只能存在于一个搜集节点上。每个索引节点对应搜集节点搜集的网页,查询代理节点通过多播向所有索引节点发送查询命令,等待搜集到全部索引节
4、点返回的检索结果后,对所有结果根据相关度排序,并缓存一定数量的结果,最后向用户返回结果的首页。用户的后续查询翻页,将会在缓存命中,不必再次启动后面的网络查询,这将大大减少查询的响应时间,降低后面查询系统的负载,从而进步查询系统的性能。2eb搜集系统的主控通信策略2.1主控通信策略的类型整个eb可以看作是一张有向图g=(v,e)组成,v表示网页的url,e表示两个网页之间存在的超链接url,即一个网页中有另一个网页的url。对于图中任意两个顶点vi,vjv,假如vi到vj有途径,那么称vi与vj是连通的。假设存在集合vs,其中初始仅起始url,随着对g的遍历,不断的扩大vs,对于g中任意一个vi
5、v,存在vsivs,从vsi到vi有途径,那么认为g是连通的。所以eb的搜集过程可以看作是从集合vs出发,发现有向图g中所有v的过程。为了尽快的发现有向图g中所有的v,应该采用多个搜集分系统从多个起始url开场。考虑到网络速度限制和集中式系统中单台机器性能的限制,应该采用分布式并行工作。因此就存在一个主控通信的问题,一般主控通信策略主要包括以下两种:主控环形通信策略,邻近的主控之间建立连接,形成环状图。外发url的传送可以选定顺时针或逆时针方向。主控网状通信策略,各主控制之间两两建立连接,形成一个外发网状图。外发url的传送可以直接传递。主控环形通信策略的系统运行初始化简单,但是因为有屡次传送
6、外发url可能,存在通信量大的缺点。而采用主控网状通信策略那么有明显优势,速度快,而且由于每两台主控之间都有连接,当有一台主控当机的情况下或增加新主控时,可以迅速的调整url的分配。2.2主控网状通信策略的应用eb搜集系统使用主控环形通信策略的构造如图1所示。在图1中,调度模块(ebgatherserverregistry,简记为sr),存储分布式系统内所有登记主控的信息,包括各登记主控的ip和端口号。当任一个主控的信息有所改变时,sr负责发送新的主控信息给其他主控,便于建立连接和变更连接。每个主控模块主控1,主控2,主控n负责搜集存储属于自己范围内的网页。每一个搜集模块搜集器1,搜集器2,搜
7、集器n附属于相应的主控模块,负责接收所属主控发送的url,抓取该url指向的网页并传送回所属主控。各主控模块之间都建立有双向连接,可以全双工的工作。当任一主控发现自己的搜集模块发回的网页中包含不属于自己的url时,将此url传送给它应属的主控去处理。为减少通信量,各主控之间只传送url。3模拟分析3.1模拟环境ebgather自1997年10月正式提供查询效劳以来,得到了广阔用户的好评。本文以ebgathe作为模拟环境,在ebgather正常运行过程中,利用附加程序,产生分布式算法需要使用的模拟数据,对于每个网页保存了url及其所包含的url信息,大小为507b。通过运行程序,产生一有761,
8、129个网页的模拟eb数据。以此作为我们的实验对象。程序运行的机器是一台p机,配有双intel550pu,内存为512b,硬盘36gb,运行的操作系统为slaris8.0。基于上述实验环境,我们分别模拟实验了主控数n为2,4,8,16时四种情况。四组模拟实验分四次完成,每次运行n个主控时,同时运行一个集中式主控。每组运行时间至少为三天,获得了大量模拟实验数据。由于实验环境需要具有一致性,我们采用了集中解析域名方式,因此各个主控之间只有外发url的通信量。各主控之间传递的只是url,根据经历值取定每个url长度最大为128字节。这样的设定值既能满足绝大局部url的长度规那么,又可以有效控制通信量
9、。考虑在上述后两种情况下的主控通信中,一个副本要传送给多个主控,在实际系统的运行中可以采用多播(ultiast)技术。3.2运行结果分析为使系统负载平衡,采用hash函数动态分配url给每个主控进展搜集,负载平衡的效果可以通过分析每个主控每小时搜集网页数获得,在运行环境一样的条件下,假如每个主控在一样的时间间隔内搜到的网页数大致相等,那么证明系统是负载平衡的。可以看出,在主控数分别为2,4,8,16情况下,方差值均小于参照方差值,从图中可以看出任何一组实验数据的方差都小于参考方差。在图2中三角形线表示参考数据方差,方形线表示主控数为2时的方差,钻石形线表示主控数为4时的方差,加号形线表示主控数为8时的方差,星号形线表示主控数为16时的方差。这说明在各组实验条件下,分布式系统的每个主控程序承当的工作量根本相等表达为搜集的网页数根本相等,因此搜索引擎分布式系统负载平衡到达预期目的。参考文献:1孟涛,闫宏
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 5124.2-2026硬质合金化学分析方法第2部分:不溶(游离)碳量的测定重量法和气体容量法
- 永州市双牌县2025届四下数学期末达标测试试题含答案解析
- 永宁县2025年三上数学阶段模拟试题含解析
- 永吉县2025年数学三年级下学期期末统考试题含答案解析
- 刘墉清官形象的历史解析
- GB∕T 45953-2025 供应链安全管理体系规范之16:“8运作-8.3风险评估和应对”专业深度解读和应用指导材料(雷泽佳编制-2026A0)
- DB61∕T 2168-2026 耕地破坏程度鉴定技术规范
- 传感器-项目五-任务1 多传感器融合测试
- 单元12控制层基础
- 2026年学生乘车安全告家长书
- 山东省临沂市罗庄区2024-2025学年七年级下学期期末考试数学试题
- 疼痛护理质量管理
- 湖南省2025年中考物理真题(含答案)
- 2025年7月浙江省普通高中学业水平考试化学试题(解析版)
- 煤矿自然发火培训课件
- 2024年云南高中学业水平合格考历史试卷真题(含答案详解)
- 专题六持续增进民生福祉切实提高人民群众获得感幸福感-2024秋形势与政策课件
- 灌溉施工方案
- GJB179A-96军品抽样方案
- 《现代汉语(二 )》期末试卷A
- O型圈新国标尺寸表
评论
0/150
提交评论