【毕业学位论文】(Word原稿)海量的基于Web的FTP搜索引擎系统的设计与实现_第1页
【毕业学位论文】(Word原稿)海量的基于Web的FTP搜索引擎系统的设计与实现_第2页
【毕业学位论文】(Word原稿)海量的基于Web的FTP搜索引擎系统的设计与实现_第3页
【毕业学位论文】(Word原稿)海量的基于Web的FTP搜索引擎系统的设计与实现_第4页
【毕业学位论文】(Word原稿)海量的基于Web的FTP搜索引擎系统的设计与实现_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

海量的基于 of a 要 在因特网上对众多 点进行快速的文件条目查找,是网络信息搜索的重要组成部分。本文以“天网” 索引擎为例,介绍了千万级基于 强大的索引擎的设计与实现,并重点分析了系统所采用的关键技术和方法。 关键词 搜索引擎, is a to TP In of TP as as we 量的基于 索引擎系统的设计与实现 2 目 录 一、 引言 . .、 搜索引擎的历史与发展 4 a) 搜索引擎的起源 4 b) 真正意义的搜索引擎 c) 搜索引擎 、基于文本的 索引擎: . I、基于 索引擎。 5 三、 天网 索引擎的现状 .5 a) 天网 索产生的起源与发展历史。 .5 b) 天网 6 i. 提供的功能 6 1. 文件类型的分类 . 时间过滤 6 3. 大小过滤 6 4. 精确匹配 6 5. 站点限制 6 6. 结果中查询功能 . 支持常用的 *, ?,与,并 操作 . 多语言版本 7 9. 快捷方式系统 .7 数据量 . 站点数量在 3000 以上 7 2. 文件条目 1300 万左右 7 3. 快捷方式约一千条 .7 访问量 . 日页面下载量在 3 万左右 . 日访问人数在 以上 8 四、 海量 索引擎的系统结构设计 .9 a) 系统的结构设计:四大模块和五个数据库 9 b) 数据库功能和结构说明 10 i. 文件类型库 .站点列表库 11 素材数据库 11 索引数据库 12 v. 快捷方式数据库 13 c) 搜集建库模块 .i. 搜集建库过程说明 站点获得策略 14 并发搜集策略 15 分布搜集策略 15 v. 多次尝试和断点续搜 .线性的建库过程 数据库的切换 16 海量的基于 索引擎系统的设计与实现 3 d) 搜索服务模块 .i. 搜索服务过程说明 16 服务接口说明 17 匹配算法 .略 18 v. 强大的过滤功能的实现 . 文件类别过滤 18 2. 文件大小过滤 18 3. 文件最后修改时间过滤 . 站点过滤 18 5. 精确匹配 18 对“与”、“并”、 *、?操作以及结果中再搜索的支持 19 e) 索界面 .i. 数说明 20 智能的换页机制 20 使用结果页面模板 多语言版本的支持 v. 漂亮、实 用的结果输出页面 .为支持分布搜索的改进 . 使用多服务器的可能性和必要性 . 分布搜索的实现 . 对分布搜索的加速 .f) 支持多媒体文件的特别处理技术 23 i. 多媒体文件条目的文件名特殊性以及查询特殊性 2 3 一种比较有效的处理技术 .在建库模块的改动 在 块的改动 2 4 g) 快捷方式系统 2 4 i. 使用快捷方式的原因 .快捷方式系统的关系图 .文件分类类别层次的显示 .快捷方式条目的显示 .v. 注册新的软件 2 6 过滤用户注册的快捷方式 2 6 管理快捷方式系统 .、 天网 索与国内国际 索引擎的比较 .a) 国内国际 索引擎系统按原型分类说明: .b) 功能比较: 2 7 c) 数据量比较: 28 d) 速度比较: 28 六、 天网 索引擎未来的发展 .、 结束语 量的基于 索引擎系统的设计与实现 4 一、 引言 今天搜索引擎的核心是网络导航服务,搜索引擎是一个网络门户,他们提供新闻,在线图书馆,词典,以及其它网络资源,他们提供了不仅仅是网站搜索的服务,他们的涉及面越来越广,也越来越有用。比如, 重的是网站分类归总服务,而如 则注重 提供庞大的搜索数据库。 根据中国互联网络信息中心 (关中国 展状况统计报告,搜索引擎是除电子邮件以外网民使用最多的服务。面对浩如烟海的网络信息资源,网络搜索与导航已成为网络用户必不可少的工具。与相对众多的 索引擎相比,功能强大的 索引擎并不常见,由此限制了人们对具有大量信息与资源的 点的访问。实现一个高速、海量、功能强大而又基于 索引擎将为网络用户提供极大方便。 为此,北京大学计算机系网络与分布式系统领域最新开发出了“天网” 已作为“ 天网”中、英文搜索引擎 1, 2的一个子系统在网上提供服务 , 获得了广大用户的一致好评。本文将从“天网” 索引擎的系统结构与算法出发阐述一种千万级 索引擎的设计与实现的方案。 二、 搜索引擎的历史与发展 a) 搜索引擎的起源 1991 年, 本提供了一个有着友好界面的信息搜索系统,但这个系统要求很特殊的文件格式。而在同一年还出现了另外一个信息搜索系统,这是我们所称之为的 一种按 菜单 形式组织的分布式文档查询系统 , 最初在 学发展起来 (1991 年 ), 开始用于校园网 , 后来推广到 用户查询信息提供一个多级的菜单界面 , 只需按照菜单指示的路径就能获取你想要的信息 , 使用非常方便 . 户 (序和 务器(序两部分组成 . 在 建立了数以千计的运行务器程序的 务器 . 它们是一些能为用户提供信息查询服务的计算机系统 . 到 1995年初的统计 , 约有 6, 000主机安装了 遍及全世界 100 多个国家 . 绝大多数 务器都是向 所有 信息文件可能驻留在不同的计算机上 , 通过目录结构把它们链接在一起 . 一个 务器的所有信息文件组成一棵信息树 . 由于这种链接是透明的 , 用户查询时可以在信息树之间自由穿越 , 不必考虑信息的物理位置 . 户程序是用户端的信息浏览程序 , 用于同 行对话 . 用户查询时 , 通过 任何一台能够通过某种方式与 都可以通过一定方法成为 b) 真正意义的搜索引擎 最早的真正意义上的搜索引擎是 建于 1994 年的春天,当时 序接入到其索引程序中。 是在当年成立的。而 现在 1993 年, 现在 1994年。 搜索引擎起源于传统 的信息全文检索理论,即计算机程序通过扫描每一海量的基于 索引擎系统的设计与实现 5 篇文章中的每一个词,建立以词为单位的 倒 排文件,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果。搜索引擎除了全文检索系统之外,还要有 “蜘蛛 ”(统,即能够从互联网上自动收集网页的数据搜集系统。蜘蛛将搜集所得的网页内容交给索引和检索系统处理,就形成了我们常见互联网搜索引擎系统。 c) 搜索引擎 I、基于文本的 索引擎: 在只知道文件名的 前提下,为用户找到这个文件所在的 际上是一个大型的数据库,再加上与这个大型数据库相关联的一套检索方法。该数据库中包括大量可通过 载的文件资源的有关信息,包括这些资源的文件名、文件长度、存放该文件的计算机名及目录名等。 使用 务器有三条途径,常用到的是:通过远程登录到 机,用 为登录名。一旦登录成功,一个 时一次输入一条命令,告诉 果 用户对自己想要的东西并不太清楚, 提供“ 务项目,该服务提供成千上万个程序、数据文件和文档的简短说明。 于 索引擎。 出现改变了 文件搜索方面的统治地位,在美观、方便的 面上搜索 件成为用户的一大需求。在功能上,基于 索引擎实现的功能与 本一样,都是对用户提交的查询匹配串找到可以下载的 点链接。但基于 索引擎也有很多特色的功能,比如天网 索引擎的文件分类功能等等。基于 索引擎也采用了很多 索引擎的策略,比如使用 动收集数据,采用倒排索引,智能换页链接技术以及大型 索引擎必须采用的分布收集和服务技术。目前国内国际 索引擎已有不少,但在系统底层上有区别的只有几种,其中较为有名的有北京大学天网搜索引擎的 系统,华南木棉的 索系统,号称全球最大的 索引擎的 用的 型网站常使用的 统以及其他一些搜索引 擎。 三、 天网 索引擎的现状 a) 天网 索产生的起源与发展历史。 在天网 统里,有一个简单的 索引擎,它只扫描几个教育网的 点,算法上基本由 令组成,只能提供简单的字符匹配功能,而且界面很简单。由于用户对 索的需求增加,我们在 1999 年秋开始了 索引擎的项目,并于 2000 年春交付了一个可以服务的百万级 索引擎,它搜索了 30 多个站点,提供 150 万的文件条目检索。根据用户反馈和用户查询行为的分析,经过不断改进,在 2000 年秋 索引擎和天网的 索引擎同时 升级并更换主页界面,提供了更为人性化的查询界面和结果界面,系统也更为稳定健壮。 2000 年冬,天网 索引擎开始进海量的基于 索引擎系统的设计与实现 6 行从百万级到千万级的改变。直到 2001 年春,一个搜索了国内 3000 多个点,提供 1300 万文件条目索引,并有分类快捷方式系统的全新的天网索引擎提供服务了。 b) 天网 i. 提供的功能 天网 索引擎与其它 索引擎相比,最大的特点就在于它的功能强大。尤其其中的文件类型过滤和快捷方式系统是所有 索引擎中独有的。 目前天网 提供的各种功能包括: 1. 文件类型 的分类 目前文件类型分类分成图象、声音、视频、压缩、文档、程序、源代码、目录等。文件分类的标准是按文件的扩展名。 由于天网 索引擎有特有的文件分类功能,使得我们在搜索时精确度更高,比如要查电影“垂直极限”,只需输入名字“垂直极限”,选择“视频”类型,则各种文件类型的“垂直极限”的下载都找出来了。如果没有类型过滤,则如果用户输入过于简单的话,可能查出的结果未必都是电影,如果用户输入包括了扩展名的话,则查询结果显然又少了很多,而且非计算机专业用户往往并不知道某个文件类的扩展名有些什么。另外,在搜索的结果页 面里,天网索引擎使用了生动的图标区分各个类型的文件,使得文件所属类型一目了然。文件分类已经成为了天网搜索引擎最强大又最有特色的功能。 2. 时间过滤 可以精确到年月日的文件最后修改时间过滤。这个功能在寻找特定时间的文件时很有用。 3. 大小过滤 这个功能与文件类型过滤功能的集合,可以帮助寻找特定类型的文件。比如同为“ 件,有的是电影格式,有的是普通的数据文件。但一般而言,大于 40M 的“ 件应该是电影。当我们加上这个限制的时候,也就可以找到扩展名为“ 电影了。 4. 精确匹配 精确匹配对于 查找短文件名的文件比较方便 ,系统缺省使用是子串匹配,因为子串匹配更符合普通人的思维。 5. 站点限制 在天网搜索的 3000多个站点里,用户可以选择其中的某个站点,仅仅对其中的文件进行查找。这个功能使得用户可以只搜对他(她)而言比较快的 点,或他(她)比较喜欢的站点。 6. 结果中查询功能 很多 索引擎支持结果中查询的功能,但大部分 索引擎并不支持结果中查询。天网 索引擎采用巧妙的算法实现了结果中查询的功能,使用户可以逐步缩小搜索范围,最终得到海量的基于 索引擎系统的设计与实现 7 想要的结果。 7. 支持常用的 *, ?,与,并 操作 由于大部 分用户的查询都不是十分精确的, *, ?,与,并 这四个操作就显得十分重要。与的操作符是空格,并的操作符是逗号。这些操作的结合可以产生令人惊奇的结果,比如要查羽泉的最美,输入“羽泉 最美”,则用“羽泉”的查询结果和“最美”的查询结果作“与”操作,得到了用户想要的结果。 8. 多语言版本 天网 索引擎在结果输出时采用模板技术,使得提供多语言、多界面的搜索结果页面成为可能。目前天网 索引擎支持简体中文和英文,并保留支持其它语言和其它模板的接口。 9. 快捷方式系统 快捷方式系统是天网 索引擎独有的功能。目 前其它的 没有考虑到广大搜索引擎用户大部分是普通网民而非计算机专业人士,使用上的简单化和傻瓜化是软件发展的必然。因而天网 索引擎建立了快捷方式系统,用户可以不输入任何字串,用鼠标就可以找到无数电影、音乐、程序、图片等等软件。而且快捷方式系统包含了注册功能,用户可以注册自己关心的软件,以便其它用户可以很方便的得到搜索结果。同时,我们对每个快捷方式的点击计数,在显示每一类快捷方式的时候排序,这样对于用户的非特定查询十分方便 数据量 1. 站点数量在 3000 以上 站点列表来源于手工获得和机器扫描,由于扫描了国内大部分网段,因为可以说天网 索引擎可以查到几乎国内所有的 点。 2. 文件条目 1300 万左右 据国外的统计,全球 点文件数目约一亿两千万,也就是说天网 索引擎已经搜集到全球十分之一强的 站。对比已知的若干 索引擎,我们可以说天网 索引擎已经是国内最大的 索引擎。 4. 快捷方式约一千条 这个数目将随着用户注册的增加而增加。目前已经有 528 条电影快捷方式, 295 条音乐快捷方式, 375 条程序下载, 59 条开发资源快捷方式。 访问量 1. 日页面下载量在 3 万左右 从 2001 年 5 月 5 日开始,我们记录了页面下载的总数,并定期计算每日页面下载量,下表 (图 1)为我们记录的页面下载日志统计: 时间 页面下载总数 平均每日下载量 = = = 海量的基于 索引擎系统的设计与实现 8 305 305 1011 796 10625 2403 16225 5600 23494 3634 30147 3326 37883 3868 41797 1957 46757 4960 53410 3326 138562 1419 142548 3986 202286 2389 227974 2568 263068 3899 271261 8193 277893 3316 377003 5830 410703 6740 511067 5575 660012 9309 702001 10497 851550 10682 880054 9501 893388 13334 925253 10621 1131402 14724 1213852 16490 1252818 19483 1502691 14698 1800674 7449 2108148 15373 2177719 23190 2265346 29209 3679936 29209 3855190 29209 图【 1】 天网 索引擎用户访问日志 从上表可以看出,天网 索引擎从最初的每日访问量只有几百,上升到现在的每日 3 万,经历了约一年的时间。在这一年里,天网 用户随着天网的不断改进不断增加。而且,其中访问量下降的阶段都是学校的暑假和寒假,由此得出访问天网 索引擎的大部分用户是教育网用户。 2. 日访问人数在 以上 海量的基于 索引擎系统的设计与实现 9 由每个用户平均查询一到两次算,估计天网 索引擎现在每日的访问人数已经达到 以上。而天网搜索引擎总的每日访问人数在 4 到 5 万之间,也就是说天网 索引擎已经成为 天网搜索引擎系统十分重要、不可缺少的部分,也是天网搜索引擎越来越受用户欢迎的一个因素。 四、 海量 索引擎的系统结构设计 a) 系统的结构设计:四大模块和五个数据库 参考 索引擎的一般系统结构,我们设计了如下的四个模块:搜集建库模块、搜索服务模块、 面模块以及快捷方式系统。其中使用了五个数据库包括:站点列表数据库、文件类型数据库、素材库、索引库、快捷方式数据库。 系统程序和数据的物理位置分配主要分七个部分: 1) 数据目录。 包括搜集建库的程序 点列表 库,文件类型库和素材库。同时也存放搜集程序的日志。 2) 目录。 包括搜索服务器 引库。其中索引库由三个子库组成,它们是:用于显示的 、用户过滤的和用户匹配字串的 。同时也存放建库程序的日志,搜索服务器的日志,页面下载的日志。 3) 理程序目录。 包括快捷方式管理系统,站点列表获得程序 P 站点列表和域名站点列表合并程序 索服务器状态监控程序 等 。其中快捷方式系统包括用 户 注 册 项 过 滤 器 快 捷 方 式 条 目 管 理 4) 录。 包括提供服务用的 快捷方式系统中的注册 目显示 目点击计数 等。 5) 面目录。包括主页面(中英文),搜索结果页面模板(中英文),复杂搜索页面模板(中英文),文件分类标志图片等等。 6) 索结果存放的缓冲目录。 7) 据库系统。 目前使用的是 统。用于存放快捷方式系统里的数据。 海量的基于 索引擎系统的设计与实现 10 系统结构关系如图 2: 传送请求 图【 2】 海量 索引擎系统结构设计图 b) 数据库功能和结构说明 i. 文件类型库 为了进行文件按扩展名分类,建立了文件类型数据库。它对每类文件给于一个编号以及属于该类型的所有扩展名。目前各分类的扩展名包括: 发送请求 回送结果 发送请求 回送结果 客户方 服务方 快捷方式登记 搜集程序 快捷方式 数据 库 站点列表数据库 文件类型数据库 点列 表 获得程序 快捷方式 管理系统 用 户 接 口 索引 数 据 库 搜 索 服 务 器 建库程序 快 捷 方 式 系 统 素材数据库 海量的基于 索引擎系统的设计与实现 11 1)图象: )声音: 669, )视频: )压缩: z, )文档: )程序: )源代码: c, h, 100)目录。目录类型由文件条目属性决定。 0)其它。所有不在上述范围内的文件归类到其它中。 文件类型库保存在 式上采用文本格式,例如: 0 图 象 声音 个库只在数据搜集程序中用到。 站点列表库 站点列表库保存在 下的 ,每一行作为一个站点地址以文本格式保存。站点列表来源于站点获得程序扫描得到的 址列表 手 工 产 生 的 有 域 名 的 地 址 列 表过 序合成产生。站点列表库用于确定搜集程序 搜集范围和建库程序的建库范围。目前站点列表库大约有三千多个站点地址。 素材数据库 素材数据库是由搜集程序产生的简单搜集结果。搜集程序启动多个线程同时访问多个 点,并行的将各个站点得到的文件条目经过简单的加工用存放在各个站点对应的素材库里。比如 点的文件条目信息保存在 件内。每个文件条目按文件名、最后修改时间、文件大小、站内路径、文件类 型以一行行字符串的形式保存在对应的素材库里。例如: 文件名 19700101 最后修改时间 13421 文件大小 (图象 ) 由 此可见,素材库是一个非结构化的数据库,这种结构能够适应长文件名情况,而在空间利用上也相对比较充分。而如果采用固定大小的结构化数据库,则文件名和路径的长度就不得不作限制,最终导致不能海量的基于 索引擎系统的设计与实现 12 正确访问下载地址或者可能浪费大量的存储空间。 索引数据库 索引数据库是直接用于搜索的数据库,它关系到搜索服务的速度与效率。它由用于显示的 、用于过滤的 和用于匹配字串的 组成。我们采用双字母倒排表的方式组织索引表。 56*256 个双字母索引文件,每两个字母对应一个索引。其 中 和 常驻内存, 只在输出结果时才被打开读取。对每一个 点的文件条目,将其文件信息如创建时间,大小,文件类型等非字符串定长数据以及一个指向显示文件中对应的文件名和路径字串起始位置的偏移指针( 录在 里,由数据在 的位置获得该文件的唯一编号( 同时在文件名的每两个连续字母对应的双字母索引里生成以 高 24 位,该双字母组在文件名内的偏移为低 8 位的 32 位索引项。 是结构化的库,保存在 ,它的条目结构为 /文件类型 /文件大小 /所在站点编号 /创建时间 ,如 1999 年 2 月为 : 199902 /文件名长度 /对应的字串表示在 里的偏移 *256 个 双 字 母 倒 排 表 , 保 存 在 文 件,它的结构为 _56*256+1; /每个双字母表在库里的偏移和库结尾的偏移 _.; /0 号字母和 0 号字母组成的索引表 _.; /0 号字母和 1 号字母组成的索引表 _.; /0 号字母和 2 号字母组成的索 引表 . _.; /255 号字母和 255 号字母组成的索引表 每个双字母倒排表的长度可以由 相邻两项计算得到。倒排表由一系列 32 位结构组成,这个 32 位结构为 _D:24; /该文件条目在 的编号决定 _; /双字母在文件名里的偏移 海量的基于 索引擎系统的设计与实现 13 为非结构化 库,以适应无限长度文件名和路径名情况。保存在 ,它的每个条目的结构定义为 文件名 19700101 最后修改时间 13421 文件大小 (图象 ) v. 快捷方式数据库 快捷方式数据库由三个子库组成,用户注册查询项的临时库:捷方式分类层次库: 捷方式条目库: 有的快捷方式数据库都在 统上实现。 临时库 结构: /用于区分不用项的系统自动 4 /用户注册查询项的名字 ,比如 “ 影” 54 /用户注册查询项的内容,比如 “ /该注册项的类别号,比如“电影、 快捷方式条目库 结构: /该查询项的类别号,比如“电影、 4 /查询项的名字,比如 “ 影” 54 /查询项的内容,比如 “ /用户点击该条目的次数 /用于区分不用项的系统自动 捷方式分类层次库 结构: /类别的编号,如果整百则为主类,否则为子类 4 /类别的名称 例如: 100 电影、 01 爱情 102 动作 103 c) 搜集建库模块 i. 搜集建库过程说明 海量的基于 索引擎系统的设计与实现 14 搜集建库运行的时机与频率是保证数据实时性的重要因素。由于搜集时要访 问众多的 点、进行大量的网络数据传输,因而搜集应在网络速率比较快的时候进行,一般来说凌晨 3、 4 点是最佳时机。为了加快搜集的速度,我们采用多线程方式同时搜集多个站点的文件信息,并指定一个超时时间,以结束所有搜集,并转入建库程序。搜集程序得到的数据保存在素材库里,以被建库程序使用。 建库程序将素材数据库转化为临时的索引数据库。完成后通知服务器暂停搜索服务,用更改名称的方法将临时的索引数据库迅速切换为最终索引数据库,服务器重新读入索引数据库的索引库 内容库放对外搜索服务。 搜 集建库过程如图 3: 图【 3】 搜集建库流程图 站点获得策略 索引擎与 索引擎最大的区别就在于 点内没有与 面相对应的超链接,因而 索引擎的站点获得策略就不能模仿搜索引擎业非常时兴的超链分析技术。在北大天网 索引擎里,我们采用了 描技术和手工添加技术的中和。一方面,我们用描全国网段,比如北大的 的所有可能 址,把每个提供了 务的站点 存到 一方面,我们依靠搜索引擎用户提供给我们的有域名的 点名称,以及管理员自己找到的常用的 点地址,存放到 。 然 后 调 用 并 除其中的 址重复的项,并代之于域名。同时把没有扫描到的已知 点添加进去,最定时启动搜集 多线程搜集 素材库 单线程建库 临时的索引库 最终的索引库 停止搜索服务切换数据库 启动搜索服务,完成 海量的基于 索引擎系统的设计与实现 15 后产生 件,也就是搜集建 库使用的 点列表。为了使得 描到更稳定开放的机器,我们一般在晚上启动 描程序 并发搜集策略 由于 索引擎搜集的站点数目极其巨大,目前已经有大约三千多个 点在搜集范围内,如果采用单线程显然是不现实也没有必要的。我们的 索引擎采用有限的多线程搜集模式,一般同时启动约三百个线程,并精确计算当前运行的线程总数,每十分钟检测一次启动线程数是否达到三百个,如果没有,则再启动新的线程搜集新的站点。线程的数目一方面受限于系统的最大线程能力,另一 方面则受限于所有线程打开资源的总数。由于在天网 索引擎中,每个搜集线程至少打开一个文件,因为线程总数受限于系统可以打开的文件总数。因而我们经过测试和比较,得到同时打开三百个线程是最佳的。每个线程打开的这个文件就是素材库里一个站点对应的素材文件,所对应的素材文件就是 于每个线程所写的资源各自独立,因而并不会有 共享冲突。 分布搜集策略 在最新的 索引擎里,为了应付可能发生的系统内存或者硬盘资源不足的情况,我们设计了多台计算机分布搜集分布服务的策略。具体而言就是把一部分 点列表给某台计算机,使它对这些 点搜集并建库。当用户提交搜索请求时, 序把请求发送到各个独立的搜索服务器,并把合并后的结果返回用户。对用户而言,他(她)并不会知道后台使用了分布策略,但搜索速度和数据量都大为增强了。 v. 多次尝试和断点续搜 考虑到国内网络的现状,网络的不稳定性成为影响搜集完整性的重要因素。比方很多 点对访问 人数作了最大限制,因而一个 点当时不能访问并不是说它是不可访问的,我们采用了三次尝试,每次尝试失败后休眠两分钟继续尝试,如果三次之后仍然无法访问,则说明该站点的确访问不了。另一方面,在搜索引擎得到 件条目的过程中,也可能发生各种网络故障以致忽然中断,为了解决这个问题,我们采用了断点续搜的功能。当搜集过程中发生异常 (致搜集中断时,线程休眠两分钟,利用保存的未搜集目录表从中断发生的目录继续搜索,而且这个搜集过程的启动也是三次尝试,但搜集的结果是在原来搜集结果中继续增加。这样,我 们就可以得到基本上完整的该 点的文件条目列表。 线性的建库过程 建库过程是线性的,这是因为要给每一个文件条目一个系统唯一的个 是该文件条目在索引库的 库里的记录号。为了在建库的过程中保存无法预知大小的双字母索引,我们采用临时文件策略,在 安双字母建立

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论