




已阅读5页,还剩26页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京大学硕士研究生学位论文 布式中英文 息发现系统 第 1 页 论 文 摘 要 本文首先介绍了 迅速发展状况,随后分析了 说明了 但是信息的源泉同时也是信息的迷宫,必须有信息发现工具协助用户定位所需信息。 在介绍了已有的信息发现服务和工具 及流行的“搜索引擎”之后,对不同的类型的信息发现及服务方式的分类进行了介绍,说明了在 提供信息发现服务必须采用分布式的技术。 为了适应 规模,变化性以及自治性等特点,文中介绍了在广域网络环境下设计分布式应用的若干技术和应引起重视的问题。例如:增加应用的容错性,适应 治性,控制分布操作以及广域环境下数据一致性问题等。接着分析了 息发现研究课题组研制的分布式信息发现系统明了 许多值得利用和借鉴的技术以及几个影响推广使用的问题。 依据 “九五”攻关项目“计算机信息网络及其应用关键技术研究”中确立的“中文编码和分布中英文信息发现”子专题的项目要求设计实现了分布式中英文 息发现系统。并提出了支持中文信息,有 良好分布和高度并行的设计目标。随后介绍了它的信息收集和检索两个子系统的设计。 文章最后详细介绍了该系统中若干设计问题和关键技术:为便于不同系统之间的信息交换、保持良好的开放性,使用了“ 据格式。对收集子系统分布协同控制的若干方法进行了讨论。介绍了智能化收集信息的若干技术,例如权值预测,导向收集,规整 持“ 约定等。为了支持中文,使用了成熟的中文分词软件。介绍了为支持多副本检索服务而设计实现的多点投递工具 关键词 : 资源信息发现、 搜 索引擎 北京大学硕士研究生学位论文 布式中英文 息发现系统 第 2 页 目 录 目 录 . 2 第一章 息发现技术发展与现状 . 3 一、 发展 . 3 二、 息资源的特点 . 3 三、 特点及其迅速发展 . 4 四、信息发现服务的迫切性 . 4 五、 息发现技术的发展状况 . 5 (一)已有信息发现系统的回顾 . 5 (二)信息发现服务的分类及技术 . 7 第二章 广域网分布式应用的特点及技术 . 8 1、广域网环境下的若干容错技术 . 9 2、适应 自治性 . 9 3、控制分布的范围 . 9 4、广域网信息发现服务对数据一致性的要求 . 10 5、 统的分析 . 10 第三章 布式中英文 息发现系统设计 . 13 项目背景 . 13 设计目标 . 13 系统的体系结构 . 14 信息收集子系统 . 15 1、收集系统的内部结构 . 15 2、多个收集系统分布协同收集 . 18 信息检索子系统 . 20 第四章 设计问题及关键技术 . 21 1、采用扩展的 . 21 2、控制子节点收集范围 . 23 3、系统的智能性 . 25 4、对中文的支持 . 26 5、单信息源的多点投递工具设计与实现 . 27 总结 . 29 参考书目 . 30 北京大学硕士研究生学位论文 布式中英文 息发现系统 第 3 页 第一章 息发现技术发展与现状 一、 发展 的前身是 60 年代末, 70 年代初美国国防部高级研究计划署的实验性网络 1983 年后, 有关军事的部分被隔离为 后, 1986 年诞生的美国国家科学基金会 90 年代初到现在,是 长最迅速的时期,加入 人员、计算机和网络的数量以指数方式增长, 的网络从 1985 年的 100 个左右,迅速发展到 1992 年的 5000 多个。截止 1996 年 7 月, 连接了 134346个网络,入网主机 1228 万台,以及数以亿计的用户。 二 、 息资源的特点 随着各个国家和组织的网络不断加入, 为一个规模巨大、自治性强、发展变化快,用户访问频繁的国际互联网络。 的信息资源随着发展也呈现了以下特点: 信息量大而且分散:目前,网上有几千个匿名 务器分布在网上的不同区域,为用户提供了数以百万计的文件资料。我们将在后面提到的 又构成了另一个广阔的信息空间。可以说,世界范围内的信息量最大的图书馆,为人们提供了丰富的信息资源。 自治性强:作为广域互连的 是也不可能是由一个国家或组织单独管理的。提供何种服务,如何提供,使用何种技术都是由每个接入 组织自己作主。在这种广域网的环境下,要达成广泛的一致意见往往比较困难。 信息资源多种多样: 用户可以通过 的多种服务获得信息,如等,这些信息资源无论从内容还是形式都呈现出多样异构的特点。 北京大学硕士研究生学位论文 布式中英文 息发现系统 第 4 页 信息变化快:首先,随着 增加,新的信息不断涌现,其次,现有的信息也在不断变化。最典型的当属“ 务,其以 单位的信息隔几天就要更新一次。 不一致性和不完整性。例如,一个人的信息可以在个人 页, 信息发生改变时,在这些信息源中改动的次序和改动是否完整都会影响信息的一致性和完整性。 信息发现系统的一个重要目标就是提供给用户一个有组织的一致的信息视图,在设计系统时,我们应当考虑到 信息的特点。 三、 特点及其迅速发展 九十年代初 的全球性的网络信息系统。超文本和超媒体是 用的关键技术。它使文本、图象、音频和视频等信息有机地结合起来,提供了丰富的信息表示能力。用户可以用友好、方便多样的界面存取信息,成为人们发布和共享信息的重要工具。越来越多的公司通过自己的主页展示推销自己;越来越多的大学、科研机构也通过网页来交流研究成果;越来越多的个人也拥有了自己的主页,所有这些都导致信息迅速膨胀。在 1993 年下半年, 不到三个月的时间里翻了一翻,即使现在 以每六个月一翻的速度增长。 1995 年 4 月, 网上的流量超过了 一直稳居 首位。据不完全统计, 1996 年初,网上大约有1900 万网页,到现在 的网页数决不会低于 2 亿。 四、信息发现服务的迫切性 作为一个无穷无尽的信息源泉, 人们提供了巨大的并且还在不断增长的信息资源和服务, 各种各样的信息源源不断地流向人们。然而在你寻找所需的信息时, 象是一个信息的迷宫,让人感觉无所适从,不知如何迅速定位自己真正需要的信息,仅依靠超文本链在迷宫中漫游,多半会徒劳无功。所以,人们迫切希望有信息发现工具为他们在 搜寻信息提供导航。 北京大学硕士研究生学位论文 布式中英文 息发现系统 第 5 页 五、 息发现技术的发展状况 (一)已有信息发现系统的回顾 随着 展, 的信息发现服务和工具也逐渐发展起来。比较典型的有 ,另外,还有众多的“搜索引擎”( 如 1、 际上是一个大型的数据库,和与这个数据库相关的一套检索方法。 据库存有通过 取的资源信息,包括这些资源的文件名、文件长度、存放该文件的主机名及目录 。目前, 据库已存入了大约 1200个 务器、 250 万个文件的资料。 有三十几个 务器,查询 任务分布在各个服务器,它们之间通过执行基于扩散( 一致性保持协议,来保证信息的一致性。 开发者把它描述为资源发现和信息获取的低端技术( 案。 成功要归结于它的简单性和对已有机制的利用。 点类似于图书馆中的检索卡片。当你去图书馆查阅书籍时,如果你不知道你要寻找的书放于哪一个馆区的哪 一个书架,那么,你通常不会挨个书架去找,而是会先查阅图书检索卡片。 一样,如果你不知道您要拷贝的文件放在哪一台 务器中,你根本不可能挨个 务器去查找,通过 可以根据文件名比较方便地找到文件存贮的位置。不过,有针对文件的简要说明,仅通过文件名进行索引,利用 索时,你必须事先知道文件名或文件名的某些部份。 有另外一个不足的地方,就是它收集的资料还不全面。由于是否把 务器的资料放入 全取决于自愿原则,错漏或更新不及 时的情况就难以避免。 2、 样,在最初的时候也是为解决查找 件的难题而被研制和开发的。 供了一种根据文件名查找 件的方法, 统最早由 学的一群计算机人员开发,按他们的构想,每个信息源的拥有者应为自己的资源建立一个分类目录。 分类目录按一定的层次结构进行组织,并被放入 务器中供用户检索。用户是通过一个称为 户软件的程序以菜单的方式查阅该目录,直 到找到所需要的信息为止。 务器的另一个功能是服务器之间的互联性,通过一个 京大学硕士研究生学位论文 布式中英文 息发现系统 第 6 页 服务器,你可进入另一个 务器,直接获得该服务器中列出的资源。这样,只要进入任何一个 务器,您就可以在不同的 务器之间漫游,方便地检索和拷贝已建立 录的任何一台计算机中的信息。 不过,随着 务器的增多,其目录系统变得越来越复杂,以每个务器有一百条子目录计, 1000 个服务器就有十万条目录,这样,光是察看目录系统就会占用大量的时间,而且 难以找到你所需要的目录,于是,一些帮助用户更好地在 间中漫游的工具不断地被开发出来,例如,通过一种称为 务,你可以通过输入目录的名称直接进入某个目录,省去了逐级调用目录菜单以及查找所需目录的麻烦。 3、 “ (广域信息服务 ) 的缩写。 似,提供了一种检索 源的方法。 过文件名进行检索, 过文件类别进行检索, 按关键字对文件进 行全文检索。 一种基于客户 /服务器结构的软件系统。在服务器端,管理员建立一个文件索引数据库。与 据库一样,该数据库包括文件的名称及查找路径,比 据库更进一步的是,该数据库还包括文件内容的全文索引。这样,用户不但可以通过文件名,而且可以通过关键字去检索文件内容。在用户端,用户只需要输入某些关键字, 务器就会自动查找出现该关键字频率最高的文件,并根据这个频率按一定的加权方法计算文件与关键字的“关联值” ,选中的文件将依据“关联值”进行排列,“关联值”最大的文件目录排在最前 面。 统虽面世不久,但已在 得到广泛应用。由于 们建立了一个称为“ of 专门收集 个数据库本身也采用了 统。当用户需要查找某一文件,而又不清楚该文件会放在哪一个 务器时, 就可以采用二级查找方法 : 先通过“ 定哪些 务器可能包含要查找的文件,然后在选中的 务器中进行二级查找。 4、 目录服务领域标准化努力的结果。与 条目由一组属性与值的对构成,它可以接受基于属性的查询。名字空间被组织成层次结构分布于多个服务器上。这个全球名字空间的各部分的管理权被委派给了不同的自治的组织,这些组织又可以将此子树进一步分派管理权。部分 名字空间通过指定主从服务器的简单复制机制复制到不同的服务器。 北京大学硕士研究生学位论文 布式中英文 息发现系统 第 7 页 5、随着 迅速发展, 出现了 息查询服务,它们通常被称作搜索引擎。目前网上比较有名的搜索引擎有 。这些搜索引擎一般是预先由程序自动地在网上递归地访问面,将访问的信息存入数据库。然后将数据库中的信息建立索引,并提供给用户 查询界面。搜索引擎根据用户的请求查询数据库,并将结果按相关程度排序后输出给用户。这样用户可以很方便地定位所需资源。值得一提的是 它更应被称之为 主题分类目录。它在人工的参与下将息作了较好的分类,用户可以直接沿着分类目录找到网页。搜索引擎的出现给用户带来了极大方便,吸引了大批用户。下图显示了 1998 年 3 月访 问各个搜索引擎用户数目的估计。 ( 摘自“ ) 近来随着搜索引擎的不断增多,网上又出现了“ 14或者“ 它本身并不收集和存储任何数据,只是代理用户同时向多个搜索引擎提交查询,将各个搜索引擎的查询结果通过一定的策略规整后返回给用户。目前,这个领域也在不断发展之中。 (二)信息发现服务的分类及技术 的信息发现模式可以分为两类:一类是基于数据组织提供用户浏览。数据组织是指人 工参与下的如何使信息相关联的过程,通常是将数据排序和组织成有向图。如 件系统中的层次目录, 的菜单条目等。用户可以使用相应的浏览工具来浏览和搜索资源空间。这种方法的有效性依赖于如何北京大学硕士研究生学位论文 布式中英文 息发现系统 第 8 页 有效地组织数据空间, 数据量如此之大,保持一个良好的数据组织是非常困难的。另外,由于不同的用户有不同的需求,何种数据有用,如何有效地组织等,都是很难确定的。 另一类信息发现系统是基于搜索的。一般是用户提供有关资源的描述,由信息发现系统自动定位。这种方法能较好的适应数据的增长,应用也越来越普遍。 从 系统实现来看,基于搜索的信息发现又可以分为两类:一类是基于服务器的搜索工具,另一类是基于客户机的搜索工具。 基于服务器的搜索工具由软件自动地在网上发现资源,把搜索的结果保存必要的信息,并建立索引供用户查询。一般,这类系统可以分为收集和检索两个子系统。收集子系统以一定的策略引导信息的发现并处理信息的更新,检索子系统则负责使用户能快速有效地利用收集到的信息,其特点是提供服务,被动地接受用户查询。 基于客户机的搜索工具是由客户方按照用户事先定义的信息检索要求,在发现满足要求的信息或指定的信息发生改变时主动通知用户 。用户无需反复搜索所需信息,减少了用户检索信息的时间。但往往由于客户机能力的限制,对于庞大的 能搜寻极少的部分,而且速度较慢,如果许多用户使用,则对网络资源消耗比较大。 随着 上的数据量呈指数增长,为了达到适当的性能要求,信息发现服务以及它们的数据必须在成百上千个网络上加以复制。以 理的是高度动态(用户可以随时向 消息),弱一致性,(一个用户的文章在一段时间后才能被其它用户响应),数据量大(可以达到千兆字节)的数据,然而由于 数千个副本服务器,对用户查询的响应时间却在几秒之内。与此形成对比的是 务, 理的数据要少得多( 150响应时间却可能会长达 15 分钟。这是因为 只有30 多个副本。所以采用分布式系统中的多副本技术、分布协同技术 1是建立一个扩展性强、可用性高、响应时间合理并具有良好的信息定位能力的信息发现系统的重要技术倾向。 第二章 广域网分布式应用的特点及技术 随着网络互联规模的日益扩大,我们必须开发许多分布式的应用来有效地北京大学硕士研究生学位论文 布式中英文 息发现系统 第 9 页 利用网络,这种广域分布的应用要 适应 规模、变化以及自治性等特点,本身应具有许多新的特性 2值得我们在设计开发过程中加以重视。 1、广域网环境下的若干容错技术 广域网的复杂性导致网络资源的失效情况和可能性增加。广域网分布式应用和局域网分布式应用一样,也会遇到主机、网络的崩溃和软件的错误,但由于环境与规模不同,这些错误会发生地更频繁,错误的组合也会更复杂。因此我们必须增加分布式应用的容错性。常用的方法有: 冗余和多副本是分布式环境中提高容错性的主要手段,例如,我们可以在不同的子网上运行多个服务器,或对这些服务器增加冗余线 路等。 把 缓慢变化的数据存储在本地,减少对远端系统的依赖性。这样,甚至在远端系统服务不可用时,也可能不影响应用的执行。这种技术也用在了域名解析中,每个本地域名服务器都在本地缓存根服务器的信息。这样,在根服务器出现故障时,仍然能够进行域名解析。此外,还减少了网络操作加快了速度。 定时尝试服务的可用性。有些服务往往不是永久停止了,而是由于一时的网络拥塞、软件错误或正在维护等,因而不久就会恢复服务。 2、适应 自治性 由于 巨大规模和高度的自治特点,我们很难想象会象局网那样使用 同一种产品。这时的分布式应用就不能期待着与这些产品交互时它们的行为是一致的。不仅如此,我们还应估计到对方产品出错的可能性。例如,在收集 收集程序可能会同各种不同的 务器打交道,这些服务器实现的议在某些地方会有差异,他们提供的 件的格式也可能是错误百出。这就要求我们开发的应用必须有更强的适应性,支持多种协议以及适应它们的各种实现。 3、控制分布的范围 “ 危害大家都有所耳闻,它造成危害的根本原因是在无限制地扩散。当然,这是人为的 恶意扩散,但这同时也警告我们,北京大学硕士研究生学位论文 布式中英文 息发现系统 第 10 页 在广域网上的分布式应用必须要对它可能产生的负载、作用的范围有所控制。在信息发现时,这种控制更为重要。例如,在 息发现中,信息收集子系统往往会启用一个“ 游于 超文本链中,递归地搜索这些超文本链所指向的文档。利用“ 其是访问远端的资源,会对网络造成极大的负载。在极短的时间内大量集中地访问一个主机,会对其它的用户造成网络和机器资源的短缺。因此,必须对这种“ 用的分布操作及范围有所控制。另外, 的 信息如此巨大,不加控制的收集信息,也会超出应用本身的处理能力。 4、广域网信息发现服务对数据一致性的要求 信息发现工具往往是提取用户的信息,并存入本地数据库提供查询服务。当用户信息发生改变时,并不能通知它去更新数据库。这时,数据就产生了不一致。为了使这种不一致性减少到最低,就要有一定的策略主动更新信息。另外,当服务有多个副本时,副本之间也要保持一致性,也就是副本间处理更新信息时要按照一个一致的顺序。 不同的应用对一致性有不同的要求,强一致性的分布式应用可能要求信息更新是原子的、同步的、操作顺序完全相同的。然 而, 强一致性协议的实现需要较高的代价,而且在不可靠的广域网中其扩展性差。在这种网络中,使用强一致性协议会产生相当可观的延迟和网络负载。 但是,广域网上信息发现的多副本服务对信息更新仅仅要求弱一致性就可以,也就是说,各个副本之间达到一致性的时间应有限,但无界。由于要求最终能够达到一个一致性的状态,因而这种应用也必须处理网络或服务器崩溃的问题。 5、 统的分析 统是 1994 年美国科罗拉多大学、南加州大学等在 息资源发现服务领域开展的研究工作成果,作为 息发现研究课题组( 设计目标是要在国家信息基础设施上提供资源发现服务。 考虑到目前的大多数资源索引系统彼此间对信息收集缺乏协作,使他们对网络和服务器增加了不必要的负载。 计了有效的收集和分布索引信息北京大学硕士研究生学位论文 布式中英文 息发现系统 第 11 页 的方法。图 1 显示了 整体结构 5610。 图 1: 统的结构 如图 1 所示, 若干子系统组 成。 信息资源站点 务器)上提供的资源中收集索引信息(如关键词,作者,标题等)。 一个或多个 取回索引信息、去掉重复的信息、存储下来并提供一个 查询界面。 1 中 于在 复制 信息。 为了减少网络流量、加快用户访问 息资源的缓冲。 一个被称为 特殊 保存网上所有的 有关信息。 为了有效地利用网络和服务器, 以被配置成多种方式: 计的目标是运行在信息提供者的机器上,进行本地收集,以便节省服务器和网络资源。 可以通过网络来收集信息,这样不需要每个服务器都安装时要在网上传送原始信息而不是索引信息,所以,对网络的利用不是很有效。 一个 以从多个 搜集索引信息,建立 广泛的信息索引。 以给多个 供信息,不用重复收集原始信息。 北京大学硕士研究生学位论文 布式中英文 息发现系统 第 12 页 以从其他 提取信息。 引和查询。 图 2: 统的配置示例 过 格式来交换信息。 摘要对象交换格式,它为多种类型的对象提供了足够的表达方式,同时,由于格式本身是一个属性与属性值的字节流,便于格式 分析、显示和交换。其具体格式我们将在第四章介绍。 为了支持对索引信息的复制, 供了一个弱一致性,广域的文件复制系统 复制就是建立在这样一个弱一致性的复制算法之上的。 是建立在一个层次的组通信子系统 上。 据对网络的测量(带宽,时延)自动计算出一个具有 内成员利用这个拓扑来传播数据。一个成员可以同时属于多个组,这样组和组之间就通过共有的成员连在了一起。通过这种连接方式就可以构造出有成千上万个节点的层 次化的组通信系统,使 统有良好的扩展性,适应了 广泛复制服务的通信要求。 在一个复制组里 期向它的近邻传播完整的状态信息,通过这种方法来发现可能由于长时间网络断连,主机或者 件的失效而没有递交给 更新信息。在这个基础上, 现了最终一致性:即如果不北京大学硕士研究生学位论文 布式中英文 息发现系统 第 13 页 再有更新信息,副本之间最终会汇聚到一个相同状态。 我们提供了广域网资源信息收集、查询的分布式体系结构,有很多地方值得我们借鉴和利用。然而 统也是 一个庞大复杂的系统,其算法复杂,开销比较大,对其推广使用造成了一定影响。 第三章 布式中英文 息发现系统设计 项目背景 上 息的迅速增长,是建立网上的 息发现成为迫切需要解决的问题。目前,国外有一些此类的系统如 ,给用户查询信息带来了极大的方便。但是,这些系统都是面向英文设计的,不适合中文的查询。而且,信息也大多是国外站点的,国内信息较少。为了方便日益增多的国内用户,促进 “九五”攻关项目“计算机信息网络及其应用关键技术研究”中确立了“中文编码和分布中英文信息发现”子专题。北京大学计算机系网络研究室承担了其中部分研究开发工作,所研制的中英文信息发现系统叫“天网”( 3。我的论文工作是围绕这个项目进行的,设计开发了分布式中英文 息发现系统,它建立在已有的“天网”基础上,为的是进一步适应网络规模和资源的不断增长。 设计目标 本项目是要在 首要目标是利用一定 的分布式策略和导向功能自动地收集网上的息,而不是人工分类;基于关键词智能化的提取摘要;并能将摘要信息分布到 的多个副本建立索引数据库,接受用户的中英文查询请求,并将查询结果返回给用户。 系统要求对中文信息有较强的处理能力,能自动识别转换,有效地提取摘北京大学硕士研究生学位论文 布式中英文 息发现系统 第 14 页 要信息。依据国内网络的规模,数据量也应能达到十到一百万网页的量级,且查询响应速度,以及查询结果的相关度均应达到实用化要求。另外,系统运行具有较高的效率,较低的网络资源消耗也是研究的重要目标。 针对以上的研究目标,尤其是分布式的要求,系统应该具 有如下特性: 1良好的分布和高度的并行性。 的信息如此巨大,在信息发现过程中如果仅靠单个的机器来处理是不能适应信息量的要求的。假设网上有一亿个 页,由于网页的存在和网页的内容随时都会变化,信息收集系统必须定期检查所有的网页。再假定系统每个月检查一次,则我们每天必需要访问一百万个网页,如此大量的信息由一台机器处理是不合理也是不现实的。因此在系统设计中,必须采用分布式技术将任务分布到多台机器上并行的处理。信息源广泛的分布在网络上,对并行访问提供了充分的可能性和合理性。同时,分布并行还会 节省网络带宽资源。 2有良好的可用性。尤其在为用户提供查询服务时,采用多副本技术可同时提供多个检索服务器,缩短响应时间,减少用户访问的网络流量。对这些检索服务器的维护过程中,力求不中断服务,对用户透明。 3中英文信息的支持。收集处理信息时支持常用汉字编码识别与转换,智能化提取关键词,在检索时提供中英文的查询界面。 4良好的开放性。尽可能使用和遵循现有的标准和协议,加强与其它系统交换信息的能力。 5可定制性。系统可以让用户依据自己对信息的兴趣,配置用于引导系统收集的导向词,以及收集的范围。 6有一定 的扩展性。系统能在 网络环境下有效的运行,不需改动或改动很少就能适应不同的需要。 系统的体系结构 从前面对 统的介绍,我们知道 供了从信息收集、复制、到查询的一整套方案。其中有许多地方值得我们在设计 布式信息发现系统时加以借鉴。例如, 统对摘要信息用“ 示,并且在 间交换信息时也采用这个格式。设计系统时,我们也可以考虑支持和使用“ 但是, 许多地方并不适合我们的设计目标。 北京大学硕士研究生学位论文 布式中英文 息发现系统 第 15 页 信息提供方的机器上运行时,会有较好的效果。但是,我们不可能要求每个信息提供者都这样做。利用 集一定范围信息时,对收集缺乏有效的控制。例如,我们要求遵守有关“ 定,另外,还要对收集有一定的导向。 查询是对单个 查询 ,单个 信息数量,信息范围都是有限制的。我们的查询目标是对整个收集范围的查询,对查全率、查准率和响应时间要求较高。 支持中文编码识别和转换。 系统提供的是广域网多副本复制的算法,它是为成千上万个副本的复制而设计的,算法较为复杂。我们的设计目标是 0 到 20 个副本的检索服务,因此我们可以使用相对简单的设计。 另外,我们的系统对收集信息的速度有一定要求,而 设计在这一方面没有考虑。 所以,根据项目的特点、研究目标,我们的系统采用的是主动收集信息提取关键词和摘要,并提供用户检索的方法,分为信息收集子系统和信息检索子系统两部分。它们之间相互独立又相互联系,收集子系统通过分布式算法高效的收集信息,信 息检索子系统通过多点投递工具将信息分发给提供服务的多个副本。这样既提高了系统的模块化、有利于简化系统设计、便于系统的分布和分担负载、加快了收集和检索的速度,也为提供多副本检索服务提供了可能。 以下分别介绍两个子系统的设计。 信息收集子系统 1、收集系统的内部结构 集中式版本“天网”中收集系统是由主控、 取分析、信息数据库几部分组成的。其结构如图 3 所示。 “ 取分析进程”负责从信息服务器上获得所需的文档资源,并提取关键词和摘要,形成 式的摘要,再传送给“主进程”进一步处理。主控北京大学硕士研究生学位论文 布式中英文 息发现系统 第 16 页 模块负责 按照一定的条件选取未访问 送给“ 取分析进程”,并从“ 取分析进程”接收摘要信息存入数据库。 取分析 取分析主进程. . .r o b o t s 存取分析进程 结果插入进程期检查进程S O C K E T 接口S O I F 数据格式P I P E 接口S O I F 数据格式通过信号S I G U S R 1 通知取分析新 u r l 处理进程未访问 u r l 选取进程U r l C a c h e w U r l C a c h :单个收集系统结构图 主控由六个进程组成: 负责产生其他进程,接受 取分析进程的连接,与存取分析进程交互。给存取分析进程分配访问的 接受返回的结果。 通过 收主进程得到的访问结果,通过各种检查后存入数据库。其中新 数据库新中, 等待新 理进程进行处理。 取分析进程 得到主进程的 号后,检查主机表中的表项并按要求进行 取分析,或定期滤除过期的信息,1 未访问 待进行访问的 2 新 档中抽取出的未经过处理的 北京大学硕士研究生学位论文 布式中英文 息发现系统 第 17 页 以重新访问。 期检查进程 定期检查数据库中过时的 将其放入未访问表中。 取进程 从未访问 中选取合格的未访问的 入 。 理进程 从 数据库新 中,取出新 行处理。 “主进程”与“ 取分析进程”之间 的交互是通过 实现的,这样主控与存取分析进程可以运行于不同的机器上。它们之间是通过 由于传送的是摘要信息而不是原文,这样减小了主控所在机器的负载和网络流量。 通过这种设计,系统的功能及模块的划分比较清晰,主控模块中多个进程并发工作极大地提高了收集处理信息的速度。另外,系统在选取未访问 和处理新 使用了两个缓冲,“未访问 取进程”不必每次等待“主进程”取走选取结果而可以继续选取。“结果插入进程”也不必等所有新 理完才从“主进程”接收下一个结果进行处 理。这样,进一步提高了进程间的并行程度。 管理员可以根据实际情况,将主控和“ 取分析进程”进行分布和组合,也可以动态控制“ 取分析进程”的数目。以达到分担服务器负载,提高并发度,加快信息收集的目的。 在进行信息访问时,我们同时要遵循有关“ 各种约定:例如,不要在短时间内多次访问同一个服务器;获取“ 件,不访问由它指定的目录等。为此我们在数据库中建立了一个主机表和一个禁止访问目录表,主机表记录了最近一次访问一个主机的时间,以及“ 件的访问信息(没有、超时或成功访问)。只有在当前时间与此主机上次访问时间之差大于规定的时间间隔,并且不在禁止目录表中时,才允许访问此主机上的 信息数据库存储收集到的 息摘要和关键词,供用户检索。由于传统的关系数据库满足不了搜索引擎在信息检索方式和速度方面的要求,这里的索引数据库是有针对性地专门设计开发的 8。 北京大学硕士研究生学位论文 布式中英文 息发现系统 第 18 页 2、多个收集系统分布协同收集 分布式收集子系统的结构如图 4 所示。 图 4:分布式收集子系统结构图 为了达到收集子系统并行高速收集信息,减少网络流量,不丢失发现的信息的目的,信息收集子 系统设计为多个收集系统协同工作来完成收集信息的任务。这些收集系统可以分布在不同的网络上,每个收集系统在收集信息时,只收集本节点附近的子网内信息,各收集系统之间通过协同与通信模块交换信息和协同工作。协同与通讯模块是多个收集系统节点间协同工作的基础。这样,整个系统构成了一种树形的层次分布结构。 采用树形结构是因为它有良好的扩展性。例如,当有的子网内信息资源过多时,我们可以把这个子网分成两部分,由两个收集系统共同收集,这样就均衡了负载。当试图收集新的子网内的信息时,可以在这个子网内安装一个仅收集此子网内信息的收集 系统。 系统是如何将信息的收集范围限制在子网内的呢?这是通过限制访问 体细节将在第四章介绍。然而, 虽然我们限制了访问的范围,但是,从这个范围内取得的 挡中的超文
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中级经济师之中级经济师经济基础知识考前冲刺试卷B卷含答案
- 公共关系职业发展的趋势试题及答案
- 公共关系学核心能力考察试题及答案
- 2025年中国建设银行云南大理支行春季校招考试笔试试题含答案
- 公共关系的舆情管理体系研究试题及答案
- 水利水电工程信息沟通策略试题及答案
- 2024-2025工厂员工安全培训考试试题答案新
- 2025安全管理人员安全培训考试试题答案全套
- 2025年工程经济学习策略分享试题及答案
- 水利水电工程数据管理系统试题及答案
- 人教版小学英语单词表(完整版)
- 中医外科学泌尿男性生殖系疾病课件
- 《带上她的眼睛》课件
- 三年级下册语文【课文说明道理及主人公品质】归纳
- 疑难病例讨论护理
- 绝缘电阻测试记录表(范本)
- 国家开放大学《心理健康教育》形考任务1-9参考答案
- 棋牌室运营方案策划书
- 第5课 中古时期的非洲和美洲(课件)
- 康美药业审计风险分析
- MOOC 大学摄影-河南理工大学 中国大学慕课答案
评论
0/150
提交评论