【毕业学位论文】(Word原稿)InfoMall数据检索服务的设计以及全文检索系统的初步实现-计算机系网络与分布式系统_第1页
【毕业学位论文】(Word原稿)InfoMall数据检索服务的设计以及全文检索系统的初步实现-计算机系网络与分布式系统_第2页
【毕业学位论文】(Word原稿)InfoMall数据检索服务的设计以及全文检索系统的初步实现-计算机系网络与分布式系统_第3页
【毕业学位论文】(Word原稿)InfoMall数据检索服务的设计以及全文检索系统的初步实现-计算机系网络与分布式系统_第4页
【毕业学位论文】(Word原稿)InfoMall数据检索服务的设计以及全文检索系统的初步实现-计算机系网络与分布式系统_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

据 检索服务的设计以及全文检索 系统的 初步 实现 名: 学号: 00108094 院系: 信息科学技术学院 专业: 计算机科学与技术 指导教师: 闫宏飞 2005 年 6 月 - i - 论文评定 导师评语 为历史存档的网页信息提供全文信息检索,是更好展示和挖掘网页历史信息必不可少的手段。为历史存档网页建立索引提供检索服务,不同于搜索引擎,通常其数 据量更大,并且具有自己的特性。杨志丰同学的毕业论文工作,是对这一部分 内容 有益的探索。 论文所涉及的工作是在中国 息博物馆( 的基础上完成的。通过对 页信息博物馆的数据需求的分析,利用基于时间、空间、内容的网页数据三维模型,设计了 据检索服务,并规约了服务原语,设计了系统组成。 该 文进一步设计和实现了 据检索服务的系统组成中的主要模块 全文索引系统。主要针对 据的特点和数据检索服务的需求,在空间利用率和系统灵活性两个 方面做了探讨和优化。 论文内容丰富,所涉及的工作量大,且有较强的系统性,是一篇很有价值的论文。 在毕业设计工作的过程中,该同学态度端正,积极努力,表现出很强的进取精神和踏实的工作作风,为 发展做出了贡献。 成绩 _优 _ 指导教师签字 _闫宏飞 _ _2005_年 _6_月 _9_日 - 摘要 中国 息博物馆 是 北京大学网络实验室研究和开发的中国万维网( 史信息的存储和展示系统 。但现有系统提供的服务不能满足用户对宝贵的历史网页数据的 信息 需求 , 因而限制了它的广泛使用。 本文试图从实际出发,探讨和尝试如何利用保存下来历史网页数据提供公共信息服务。 本文通过对 页信息博物馆的数据需求的分析, 利用基于 时间、空间、内容的网页数据三维模型,设计了 据检索服务,并规约了服务原语,设计了系统组成。 例如, 利用我们提供的服务 ,用户可以查询 “ 1997 年 2 月到 2005 年 2 月期间内蒙古自治区范围内所有 *名下内容包含民主的网页文档的全文” 。 本文设计和实现 了 全文索引系统。 我们 主要针对 据的特点和数据检索服务的需求,在空间利用率和系统灵活性两个方面做了探讨和优化。 关键词 历史网页, 信息检索,倒排 文件 , 索引 - is a to eb to is to s it is a of In we of to to to In we s a a on We of of In we is a is to be 目录 论文评定 . i 摘要 . 键词 . . . 录 . 引言 . 1 景 . 1 关工作 . 2 文贡献 . 2 2 数据检索服务的设计 . 3 据模型 . 3 务 . 5 务原 语 . 6 据传输协议 . 8 统组成模块 . 8 3 全文检索系统设计和实现 . 9 统设计目标 . 9 统结构和处理流程 . 11 统设计决策 . 13 要的数据结构和算法 . 14 典结构 . 14 排文件索引项 . 14 排文件索引构建算法 . 15 引数据压缩 . 16 缩编码 . 16 - v - 步点问题 . 19 小索引空间的进一步改进 . 20 4 总结和未来工作展望 . 20 参考文献 . 21 致谢 . 23 - 1 - 1 引言 景 中国 息博物馆 ( 16是在国家 973 和 985 项目支持下,北京大学网络实验室研究和开发的中国万维网( 史信息的存储和展示系统。 它以“天网”搜索引擎 17为基础,存储其搜 集来的网页(以中文网页为主)。 目前, 护 2001 年以来从中国万维网上搜集的 近 12 亿 篇网页 (约 20,并且网页数量以 每月 1000 万的速度增长 ( 20 1000 万,这两个数字准吗?) 。 存储历史网页可以做什么呢? 文献 1中认为, 保存 仅是对人类精神财富的保护,还具有重要的史料价值。 我们希望利用 这些宝贵的数据,结合 海量索引,网页再现,海量信息检索,网页建模,海量信息分类,数据挖掘 等信息技术,不仅从中提取和检索有用的信息,而且 能 挖掘出有意义 的社会现象 和其背后的规律 ,甚至为社会科学研究开辟一条新路。 前提供三项简单的服务。通过 浏览器 界面,用户可以 根据 浏览该 历史网页 ,并 顺着超 链接浏览和体验已经消失的过去的万维网 。 第二, 提供人工整理的历史事件专题回放 , 集中展示 媒体和社会舆论对某个重要历史 事件 的报道和剖析。 另外, 提供 数据申请服务 ,任何研究机构根据一定的协议 都 可以申请 免费 使用 史网页数据和 搜索引擎 用户 查询 日志数据 18, 然后通过硬拷贝的方式得到数据 。 但这些简单的服务还远远不够。目前整理历史事件专题需要大量的人工工作,所以 提供的专题数量有限,而且整理出来的专题受创建者个人偏好的影响,不一定是大多数 用户所关心的。 尽管我们尝试让 用户 自己定制和分享自己关心的专题 19,但利用现有的服务 ,用户只能根据已有的对某些万维网站点 了解得到网页,而很难 通过内容定位到包含特定 网页,所以制作专题过程仍然需要用户大量的时间和精力 。 我们希望把现有服务整合起来,并 通过统一的数据访问接 口, 提供更加丰富,更加自动和便利 的数据服务。 - 2 - 关工作 随着万维网的蓬勃发胀,人们越来越认识到保存万维网历史的重要性和紧迫性。 在国外, 3保存了从 1996 年以来近 400 亿篇历史网页,并提供类似 服务。 5对文档压缩方 法,索引构建算法,索引压缩方法做了全面细致的比较和研究,是文本信息处理的权威著作。 北京大学天网组的研究人员对于海量信息的存储、检索和服务做了 大量 深入细致 的研究工作。黄连恩等 设计实现 了 史网页存储系统,使得网页搜集器搜集的数据得以保存,并提供目前的服务。 赵江华在 文献 12中 对信息检索的基本问题做了介绍,对分布式检索系统设计与实现,尤其是索引数据的组织方式做了全面的阐述。 彭波在 文献 20中提出了一种混合索引 技术和 倒排文件分块组 织方法 ,并对倒排文件缓存、搜索引擎检索效果评估方法等做了 探讨 研究。朱家稷在 21中利用一种基于多 维 的 析模型对 源分布特性进行分析,得到很多有益的结论。本文的工作 很多都是基于他们的 研究 工作基础之上的。 文贡献 万维网在人们生活中扮演着越来越重要的角色,随着万维网信息量的不断膨胀,搜索引擎显现出它无可替代的应用价值和随之产生的商业契机。研究机构和商业公司都对 息检索的研究投入了大量的精力,但对于 如何保存 易失的以网页为载体的 宝贵信息 ,如何利用这些信息提供公共 信息服务 却没有给予充分的重视。 本文 试图从实际出发, 对这一课题做了一些有益的探讨和尝试。 本文 第二部分 在对 统数据和应用前景细致分析的基础上,提出 和定义了 据检索服务,定义了服务原语,设计了服务的实现。 本文的第三部分重点讨论了利用压缩技术减少全文索引的倒排文件索引的大小,为海量历史网页数据的检索服务提供现实可行的基础设施保障。 - 3 - 2 数据 检索服务 的 设计 据 模型 史网页数据不同于搜索引擎的数据。搜索引擎的索引数据是在一次集中 的网页抓取动作中收集来的,时间跨度较小,可 以认为,它是整个万维网在某个时间点的一个“快照”。 对于网页链接进行分析 以改进检索效果的技术都基于这种假设。实际上在 网页 搜集期间可能有网页的生成、湮灭和变化, 网页之间 链接的生成、湮灭和变化,只是对于一般的分析来说,这种变化相对整个万维网结构的影响可以忽略不计。但 期存储从万维网上抓取得网页, 我们必须考虑相同网页(具有相同 在时间跨度上可以有不同的版本 ,而且这一特性正是这种数据的价值所在 。 文献 21在研究万维网的资源分布 特点时 将 其从空间、时间、内容三个维度 来分析和考察 。这一模型 可以作为考察历史网页数据 时 的一种 有效的 模型,如 图 1 所示。 对于 每个 维 的属性在考察时可以进行分层,相应的 可以 有不同的考察粒度。“粒度是指数据单元的细节程度或综合程度的级别。细节程度越高,粒度级别就越低 21” 。 比如,在内容 维 ,我们可以按照向量 空间 模型 (6时间 空间 内容 (日、月、年) (地区、主机、(文档向量、特征向量、主题) 图 1 - 4 - 将 一篇 文档内容视为一个 在整个字典空间中 的 一个 向量 。也可以通过对文档内容的 分析提取文档的“特征向量”来表示一篇文档。甚至只根据文档内容归属的类别来粗略的表示文档的内容。其他两个 维 度也可以类似的方法进行不同粒度的考察。 另一方面 ,研究者 通常 将万维网 抽象为 一个有向图。 有向图中以网页文档为顶点,以网页之间的相互链接关系为有向边。 如图 2 所示 为一个具有六个网页的万维网结构图 。 当我们引入时间维之后,万维网可以抽象为一个随着时间动态变化的有向图,这些 “平面的”有向图组合成为一个“立体的”图结构(当然它实际上也可以视为 一个 普通的 有向图 来 研究 )。 图 3 为考察网页在三个不同时间点的情形 得到的万维网历史结构图 。 图 2 - 5 - 在 万维网 历史结构 图中,同一个网页过去版本和现在版本之间 有一条边连接起来。从图中我们可以看出网页的产生、湮灭、变化, 以及 链接 关系的 产生、湮灭和 变化。 这种动态的万维网结构图不仅可以用来分析万维网结构特性,研究万维网的演变特点、万维网的资源分布特性,而且可以利用这些信息研究新的历史网页文档的检索算法,从海量的网页信息中有效的检索到相关网页文档。 史网页 数据 实际上 完整 的保留了这样一个复杂的图结构,我们 面临 的问题就是如何建立和发掘这个图结构 以 提供高质量的数据检索服务 ,为进一步的数据挖掘 提供基础设施 。 务 根据以上的数据模型 和应用前景 , 结合对 请使用数据需求的分析18,我们认为, 据检索服务 要 提供以 史 网页文档为 核心数据 ,以 内容、 空间、时间为 查询 纬度的,面向高层应用的 客户服务器体系结构的 数据检索服务。 通常,一个现代信息检索系统不仅要对用户提供检索 ( 能,还要同时支持浏览 (但 务的对象是高层应用,而不是直接提供给时间 图 3 t1 t2 6 - 最终用户,所以不提供用户界面( 高层应用利用得到的数据可以进行各种研究和应用,例如提供高质量的信息检索,利用数据库技术进行数据挖掘 等等。 从 内容 维 上讲, 以网页文档为中心,指充分利用 贵的历史网页数据,提供以单篇文档为内容服务粒度,以词级布尔查询为最小查询粒度的数据服务。例如 ,用户可以查询“包含领袖、北大两个词的所有网页的网页全文”。除了网页文档以外 ,也考虑提供 对 查询日志的检索服务 ,但它的数据格式可以用传统的数据库技术提供服务 。 检索的返回结果可以有两种类型:网页原文或排序 元数据。 排序元数据 指为了使用某种特定的排序算法对检索结果进行排序而需要得到的关于检索词和检索文档集的统计信息 ,且这些信息不能通过文档集的任何一个子集来得到 。 比如,为了支持 基于 向量空间模型 的 文档 排序算法,我们需要提供索引词词频( 索引词文档频率( 为了支持 7提出的网页排序算法,我们 需要提供 ,词在文档中的位置信息( 。只通过单篇文档可以获得的特性不属于排序原数据。 从 时间 维 上讲,提供以某个时间段为查找范围的历史网页查询服务。 但是这里的最小查询粒度受网页搜集系统搜集频率和存档频率的影响。例如,天网搜索引擎 的搜集系统目前 对中国 万维网 进行一轮 全面 的搜集需要大约 20 天的时间。所以一般地,时间粒度无法小于这个时间间隔 。不过可以通过改造搜集系统,针对特定用户的需求对某个空间纬度上万维网的特定区域进行高频率的搜集,以提供更小空间粒度的查询需求。 从 空间 纬 上讲,提 供以 者物理位置为限定 的历史网页查询服务。例如,用户可以查询“ 1997 年以来北京市范围 万维网上 的所有网页”,或者“ 1997年 1 月到 1998 年 1 月 名下的所有 网页”。 务原语 检索服务的用户需要通过某种数据 查询 语句来描述 信息需求 。根据以上的数据模型和服务定义, 我们参考 言 的 查询 语言 部分 ,定义 检索服务原语 如表 1 中所示(使用 语法) 。 - 7 - 说明: 的表示采用国际标准 中定义的时间日期的表示格式。这种格式 兼顾了可读性和机器处理的方便性。例如, 2000 年 1 月 30 日 8 点 30 分 59秒可以表示为 20008:30:59。 为 0规定的统一资源定位符。 表示 处理 请求的服务器的 因为 将来 据检索服务系统可以实现为 一个分布式系统, 可以同时向 多个服务器发出请求 ,所以请求中要指明由哪个服务器处理请求。多个服务节点直接也可以用类似的原语传递数据 。 的协议部分表示数据传输所使用的协议,随着 据检索服务的发展 和改进 ,使用的数据传输协议可以 变化。 = 1* = = = RL / / = 1* = = = / = = = 1 - 8 - 布尔查询只支持“与”操作,因为 据量如此庞大,提供“或”、“非”操作是不现实的,也没有应用需求。 当然,用户可以在现有服务的基础上实现这些操作。 指明要检索的数据类型,也就是检索结果的类型。“ 示要求返回符合条件的所有网页文档的排序元数据。“ 示要求返回符合条件的所有网页文档原文。 同样因为数据量的问题, 当检索 结果 类型是网页全文时,结果的传输需要很长的 传输时间。 我们用 表示 结果 所 包含的最大条目个数。如果用户不指定,系统也要有一个默认的值。 地区编码 采用中国国家标准 1规定 的中国地区编码。这样可以借助标准化数据带来的好处为客户提供 统 一 灵活的服务。例如,150000 代表内蒙古自治区, 152700 代表内蒙古自治区伊克昭盟, 152701 代表内蒙古自治区伊克昭盟东胜市。 下面给出一个查询的例子。 向一台服务器 “ 1997 年 2 月到 2005 年 2月期间内蒙古自治区范围内所有 *名下 内容包含民主 的网页文档的全文”,查询 可以 表示为 *据传输协议 用户通过网络发送符合上述语法的 数据 需求描述 ,服务器 执行检索并通过网络传送 检索 结果给用户。可以考虑使用 议 或者 议传输数据。当然也可以定制一种专用的应用层协议来提供更简单、高效的服务。 采用的协议要在查询的 的 表现出来,以利于系统的扩展。 统 组成 模块 综上所述,提供 据检索服务的系统至少需要图 4 所示的一些基本模块和数据库支持。 - 9 - 时间索引提供“时间维”的查询服务。目前 页库 的存储 实际就是按照时间 维 度进行组织的,所以实现中实际不需要显式地按照时间对网页文档进行索引。 网页 引结合地区编码和 址对应表 用来 提供“空间维”的查询 服务。通过“地区编码和 址对应表”我们可以得到一个地区内的 址范围,再通过反向地址解析最终可以得到属于某个地区的所有 引使得我们可以通过一个 到所有时间维和内容维上的网页。目前 统已经实现了网页的 引。 全文索引提供“内容维”的查询服务,可以通过一个 使用 倒排文件 的 全文索引数据库来实现。这是 据检索服务在实现时的关键模块。 本文的其余部分主要讨论它的设计和 初步 实现。 3 全文 检索 系统 设计 和实现 统设计目标 根据前面所述的服务定义,这里所说的 页 文档检索服务 目的不同- 10 - 于 传统意义上的文本信息检索。它有如下特点: 数据量特别大。 前保存 2001 年以来 12 亿多篇 网页 ( 总计 约20,并且 以平均每月 1000 万网页的速度扩大规模 。而一般的搜索引擎需要索引的数据量较小,且规模相对稳定。如百度 14声称其 总量 为 6 亿 网页。 不以排序效果为检索性能的评测指标。即返回的文档 合或者文档集合只是一个“集合”而不是“序列”。但是检索结果可以返回足够的排序元数据信息以满足可能的进一步对文档进行 排序的需要。 所以我们在设计时关注的不是检索系统的响应速度和检索效果的优化,而重点考虑 据的异构性对索引系统的可扩展性提出的要求,以及超大数据量下如何减小保存词级全文索引 数据 和检索元数据所需的空间。 据目前 保存 以 言写成的 静态网页为主,但是随着 不断发展,目前其 数据 类型 已经远不仅仅是静态网页数据 ,人们越来越倾向于通过 布各种格式的数据和信息 。 为了让搜索引擎用户能够检索到这些信息,搜索引擎必须处理各式各样的不同类型的数据。 例如 5,百度 14等搜索引擎目前都提供对 至 检索服务。 引系统必须能够支持这种数据的异构性, 并 提供统一的服务接口。 一个信息检索系统的设计必须考虑系统运行性能( 查询 性能( 我们把前者叫做效率( 后者叫做效果 ( “效率”的评价几乎存在于所有软件系统之中 ,任何算法 和软件系统 都需要从时间 代价 和空间 代价 上考虑取舍,比如 系统 响应时间、内存 需求和磁盘空间需求。 “效果”指检索返回结果满足用户查询需求的程度。检索效果的评测是信息检索领域的一个研究重点, 一个典型的测试平台包括测试文档集(相关度评测 (各种不同的评测指标(常用的指标有 PN 等 6。 对于 一个 联机运行的信息检索系统,最重要的效率指标就是系 统 的查询响应时间和系统的查询吞吐量 。 据检索系统希望满足用户对大规模数据的检索需求,由于现有数据已经非常庞大,并且数据随着时间的不断增长,我们的设计目标不是提供 快速 的查询响应 (例如,搜索引擎的查询 响 应时间 一般 在秒以- 11 - 内) ,而是对海量 数据 的有效索引和稳定的查询 响应。 系统返回结果针对是对布尔查询的,只是一个集合,并没有 按照 相关度 进行 排序,所以不能使用常用的针对有序查询结果的“效果”评价方法。但上层应用 仍可以使用其返回的文档和排序 元数据进行相关度排序。 统结构 和 处理 流程 一个 中文全文索引和检索系 统的一般结构如下: 在 文档预处理阶段 ,系统 从文档库中提取出文档,给每个文档赋予一个全局唯一的标识( 页文档是带有时间特征的,而且其存储本身按照抓取和存档时间进行组织。文档 身要包含时间 信息 ,以利于检索时候的处理和优化。 - 12 - 数据包括搜索引擎的搜集器搜集的各种网页、纯文本、 图片等不同类型的数据,且中文文档又可能有 不同的字符编码,所以文档预处理过程需要做很多琐碎而细致的工作。对于 件,还需要对整个文档进行解析,去除 签 ,提取 标签和正文中 有效 的 文本信息。 本质上说,索引是一种用来从索引词( 到对应文档的方法。索引的实现有不同的技术:倒排文件( or 签名文件( 位图( 文献 5证明,在一般的应用中,不论在索引空间还是在查询处理速度上,倒排索引都提供比另两者更佳的性能。 目前倒排文件也是使用最为广泛的索引技术。 索引过程中一个重要的步骤是索引词的产生。 英文文本中 单 词直接用空白分隔, 词的提取比较简单。而中文文档中词之间没有分隔符号,必须借助自然语言处理( 术进行中文分词。分词的效果直接影响着中文文本检索系统的检索效果。在“天网”搜索引擎系统 上 的实践表明 ,北京大学计算语言所研制的中文切词软件具有较好的分词效果,我们决定采用它。 中文 分词之后 需要确定索引词并计算他们在文档中出现的位置 。 我们 决定 使用分词后产生的词 作为索引词 直接进行词级索引,而没有采用检索效果更佳的词索引结合二元组( 引,是出于空间优先的设计决策 ,因 为那样会使词典和倒排文件 大小 急剧的膨胀 。 文献 20中提出一种混合索引技术,是在保留混合索引提高 检索效果的优点的同时兼顾空间效率的一种较好的选择 。 索引系统实现中最大的挑战是倒排文件的建立过程。顺序处理每篇文档,我们可以记录它包含的每个词的出现位置,这样对每篇文档中出现的每个词可以产生一个三元组 ,其中 表索引词 出现的位置。由于是按照文档顺序处理的,所以 这些三元组的集合最初是按照 列的,要通过倒排过程, 把 同的所有 集到一起。 索引建立的 方法 有很多, 有基于链表 的,基于排序的,基于词典分隔的,基于文本分隔的。 文献 5通过 实验和算法复杂度比较了各种方法,证明 基于排序的多路归并 ( 结合 索引 数据 的 压缩 是 一种 较好的方法 。 - 13 - 统设计决策 文检索 系统 的类 图 如 下 。 在系统体系结构设计中,我们采用面向对象的思想设计,主要考虑了系统的灵活性和可扩展性。 接口 表文档源,提供可以用来进行分词处理的普通文本文档。 通过对 口的不同实现 , 可以方便的把整个索引系统用来为不同 类型 的文档源建立索引。 例如, 系统 除了可以为 史网页库建立全文索引,还可以索引文件系统中的文档。 类 责对文本文档进行分词,并记录索引词在文档中的出现位置。类 核心类,它实现了索引构建算法。 采用了“策略”设计模式 4, 可以方便地替换 不同的编- 14 - 码算法,来取得较好 压缩效果。 各种编码算法都是接口 一个实现。 为了支持 据的异构性,我们设计了一种灵活的文档表示结构,以支持多种类型的文档且对文档提供丰富的描述。一个文档 (类 是一个域 (类 的集合,且其域的组成可以在文档处理和索引的过程中动态变化。每个域是一个名字和值组成的二元组。这一模型可以灵活的定义结构化的或者非结构化的文档。 例如,一个典型的 页文档,可以包含 ,正文域, , 抓取时间域等。当然,有的域需要建立索引,有的域则不需要,这可以通过域的属性来指定。文本文件, 件, 式的文件,甚至数据库表格文件都可以处理为这种表示结构 ,并通过索引系统建立 索引。 要的 数据结构 和算法 典结构 词典用来记录每个索引词的 该索引词 在倒排文件中表项的位置,以及表项的长度。 在索引构建和查询时都需要 频繁 访问词典,所以它要保存在内存中。词典 采用散列表实现,每个索引词表示为如下的一个四元组: 索引词字符串, 索引词的标识 倒排文件中 应的第一个索引项的位置, 其所有索引项所占字节长度。 排文件索引项 每个索引词对于倒排文件中的一系列连续存放的索引项, 每个 索引项可以表示为: 文档的唯一标识 ; 该索引词在该文档中出现的频率 , 它的存在是因为解码时的同步问题,后面小节对此有讨论; , 引建立过程中,对一个索引词的所有表项 需要- 15 - 经过游程编码并压缩后存储起来。 排文件 索引构建 算法 倒排文件索引的建立过程使用了基于排序的多路归并方法。基本步骤包括:( 1)从文档源取得文档 。 ( 2)对文档进行分词得到 三元组 。 ( 3) 查看每个文档三元组,把新出现的索引词合并到词典中,并把 换为 到 。( 4) 当 三元组的数量恰好填满内存时,对整个三元组集合执行快速排序,使之以 同时以 增) 排列 。 ( 5) 使用“游程 编码 ” 处理递增排序的三元组, 也就是把递增整数序列变换为差分序列(原来相邻整数之间的增量序列),然后 使用一定的编码算法 对数据进行编码以 压缩排序结果,输出到 一个临时的 顺串文件( 。 ( 6)当所有文档处理完毕后,对所有顺串 文件 执行多路归并 ,结果输出为最终索引文件。 ( 7) 将最终 得到 的词典存入文件。 其中( 6)中的多路归并过程使用传统的最小值堆的方法 实现 ,但要进行精细的编码解码步骤。 算法 的 伪代码 如表 2 所示。 - 16 - 引数据压缩 缩编码 倒排文件的索引数据要经过压缩来减小空间。在基于排序的多路归并索引构建算法中,压缩又被赋予了另一层意义。由于构建索引过程中产生的中间 结果(顺串文件) 数据 量 特别大,不可能全部存放在内存中,必须把中间结果临时存放到外存 ,然后在需要时从外存读入内存进行处理,产生最终的索引。在这个过程中,中间结果是先压缩,后存入外存的。相应的,从外存读入中间结果之后,需要先() as an ) = s of ; R / if to 表 2 - 17 - 解压缩,然后才能做进一步 的处理。文献 5研究证明,压缩和解压缩步骤虽然增加了 索引构建过程 的 间,但由此 也 减小了数据的磁盘 间,后者的受益远远大于前者的性能损失。 数据压缩方法有两种基本思想

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论