【毕业学位论文】(Word原稿)基于倒排索引的xml文档全文检索技术研究-光信息科学与技术_第1页
【毕业学位论文】(Word原稿)基于倒排索引的xml文档全文检索技术研究-光信息科学与技术_第2页
【毕业学位论文】(Word原稿)基于倒排索引的xml文档全文检索技术研究-光信息科学与技术_第3页
【毕业学位论文】(Word原稿)基于倒排索引的xml文档全文检索技术研究-光信息科学与技术_第4页
【毕业学位论文】(Word原稿)基于倒排索引的xml文档全文检索技术研究-光信息科学与技术_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

毕 业 论 文 基于倒排索引的 档全文检索技术研究 李世坤 200530690314 指导教师 万华 讲师 学院名称 信息学院 专业名称 软件工程 论文提交日期 2009 年 5 月 论文答辩日期 年 月 答辩委员会主席 _ 评 阅 人 _ 摘 要 随着科学技术的发展,今天的计算机已经深入到社会和生活的各个领域。 伴 随着社会信息的迅速发展, 范已经得到普遍接受和应用。同时 存储在 档信息的大量增长, 息检索已经成为全社会注视的热点。面对大 量增长的数据,如何 在档中快速查找信息,为搜索者提供 快速定位 档中的信息 成为学术界和工业界的研究热点。目前的几种 档查询技术中,基于倒排索引的全文检索技术具有很高的技术背景和广阔的应用前景。 在对 件格式和全文检索的研究基础上,本文设计并实现了基于 汉字倒排索引的数据结构及其对应的检索算法,实验结果表明倒排索引的模型设计基本是合理的 。 论文 的主要内容如下: (1)分析 基于倒排索引的 文检索的研 究背景、 现状 以及研究全文检索引的意义 。 (2)介绍 系统 相关的主要技术,包括中文全文检索技术、 基于 析器的 两种 询语言 。 (3)介绍基于倒排索引的 文检索系统的系统结构和模块。 重点介绍了 文检索系统主要模块的 功能设计 。 其中 包括主索引文件 、汉字倒排索引文件、标记索引文件以及倒排索引文件 等模块 。 (4)介绍系统的核心模块 实现 。介绍系统所运用的开 发平台和系统核心模块的算法实现。 (5)演示了 文检索 系统的运 用情况以及实验结果分析。 关键 词 : 全文检索 倒排索 引 I 目 录 1 前言 . 1 题的提出 . 1 题的来 源 . 1 究课题的动态 . 1 文研究内容 . 1 文意义 . 2 2 相关技术介绍 . 3 文全文检索技术 . 3 术介绍 . 4 询语言介绍 . 4 3 系统设计 . 6 件结构 . 6 统结构 . 6 排索引模型设计 . 10 索引文件 . 10 志索引文件 . 11 排索引文件 . 14 排文件 . 17 立索引 . 19 据检索 . 19 4 系统实现 . 20 发平台 . 20 介 . 20 模块详解 . 20 索引文件实现 . 21 记文件实现 . 21 件操作实现 . 24 5 系统演示以及分析 . 26 统登陆 . 26 立索引 . 26 据检索 . 29 6 论文总结 . 33 论 . 33 作展望 . 33 致谢 . 34 参考文献 . 35 英文摘要 . 36 1 1 前言 题的提出 题的来源 随着社会信息的迅速发展,存储在 档信息的大量增长,信息 检索 已经成为全社会注视的热点。随着科学技术的发展,今天的计算机已经深入到社会和生活的各个领域 。面对海量式增长的数据, 如何 利用计算机 在众多文档中快速查找信息 ,为搜索者提供可靠的信息资料。 当今的 文检索,则是研究从众多 档里能够 实现快速检索查找 内容的技术研究。 由于 文检索研究在社会上也是处在起步的发展阶段,而且具有相当的难度。本 文 设计了一个 文检索系统。该系统的开发,是在考虑 构信息,根据当前社会上全文检索研究热点之一倒排索引的办法实现的。该全文检索系统对众多 过输入搜寻词目进行检索。这个系统具有用户界面友好,容易操作等优点,而且进行操作时相当方便。 究课题的动态 随着社会信息的迅速发展,存储在 档信息的大量增长,信息检索已经成为全社会注视的热点。现在 在 国外许多国家的技术人 员在积极进行研究。我国的学者 也投身在这一领域 。 在早期, 息检索产生不少可以用作查询 息的 语言 。其中 包括 。现在使用最广泛的 询语言是 目前 有不错的发展前景。但总的来说, 文检索的研究具有重要的社会意义。 文检索 具有信息量大,信息存储设计有难度和建立索引工作复杂 。如何根据 档的结构信息特点,设计良好的算法实现全文检索 的功能,需要不断的努力。 文 研究内容 研究的内容是 文检索系统 。 2 表 缩写,意为可扩展的标记语言 )。 一套定义语义标记的规则,这些标记将文档分成许多部件并对这些部件加以标识。 样, 都是处于 标准通用语言 1。 境中跨平台的 、 依赖于内容的技术,是当前处理结构化文档信息的有力工具。扩展标记语言 一种简单的数据存储语言 ,使用一系列简单的标记描述数据,而这些标记可以用方便的方式建立 。 虽然 用的 空间比二进制数据更多,但 其简单 , 易于掌握和使用 2。 该系统的主要功能是实现 文检索。但本文主要准备工作 在设计在如何根据档信息的特征 (良好的结构 )建立相关 档的索引信息。索引信息主要是包括主索引文件,标记索引文件,汉字索引文件以及汉字倒排索引文件等相关的信息。 文 意义 随 着社会的发展,大量 档数据的出现对全文检索提出功能更强,搜索更快的要求。全文检索的发展越来 越快,因此取得不错的检索 效 果 。对 文检索进行研究,有利于全文检索发展,提高 文搜索水平,减少 大众等待的时间,得到更准确的检索结果。 3 2 相关 技术介绍 文全文检索技术 随着信息化的不断发展,越来越多的信息被转化为计算机数据,存储在计算机上,其中包括大量的文本信息。这些计算机可能独立存在,也可能分布在互联网上。不论单机还 是网络上的计算机,要想高效的利用这些信息,必须使 用相关的全文 检索 技术 。 其全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词 都 建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式 3。这个过程类似于通过字典中的检索字表查字的过程。全文检索的方法主要分为按字检索和按词检索两种。按字检索是指对于文章中的每一个字都建立索引,检索时将词分解为字的组合。对于各种不同的语言而言,字有不同的含义,比如英文中字与词实际上是合一的,而中文中字与词有很大分别。按词检索指对文章中的词,即语义单位建立索引,检索时按词检索,并且可以处理同义项等。英文等西方文字由于按照空白切分词,因此实现上与按字处理类似,添加同义处理也很容易 4。中文等东方文字则需要切分字词,以达到按词索引的目的,关于这方面的问题,是当前全文 检索技术尤其是中文全文检索技术中的难点 。 全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。一般来说,全文检索需要具备建立索引和提供查询的基本功能,此外现代的全文检索系统还需要具有方便的用户接口、面向 开发接口、二次应用开发接口等等。功能上,全文检索系统核心具有建立索引、处理查询返回结果集、增加索引、优化索引结构等等功能,外围则由各种不同应用具有的功能组成。结构上,全文检索系统核心具有索引引擎、查询引擎、文本分析引擎、对外接口等等,加上各种外围应用系统等等共同构成了全文检索系统 5。 4 术介绍 档对象模型的缩写。根据 范(), 一种与浏览器,平台,语言无关的接口,使得你可以访问页面其他的标准组件。简单 地 理解, 决了 间的冲突,给予 计师和开发者一个标准的方法,让他们来访问他们站点中的数据、脚本和表现层对像 6。 以层次结构组织的节点或 信息片断的集合。这个 层次结构允许开发人员在树中导航寻找特定信息 并 分析该结构通常需要加载整个文档和构造层次结构,然后才能做任何工作。由于它是基于信息层次的,因而 认为是基于树或基于对象的。 对于特别大的文档,解析和加载整个文档可能很慢且很耗资源,因此使用其他手段来处理这样的数据会更好。这些基于事件的模型,比如 用于处理数据流 。即随着数据的流动而依次处理数据。基于事件的 除了在内存中构造树的需要,但是却不允许开发人员实际更改原始文档中的数据。 另一方面, 提供了一个 许开发人员添加、 编辑、移动或删除树中任意位置的节点,从而创建一个引用程序。这个模型就是基于树型数据结构的,他在使用之前必须加载整个文档或者至少是结构良好的文档片段 。 询语言介绍 现 在使用最广泛的 询语言是 为 径语言 ( 它是一种用来确定 档中某部分的位置的语言。 于 树状结构,提供在数据结构树中找寻节点的能力7。起初 提出的初衷是将其作为一个通用的、介于 的语法模型。 但是 快的被开发者采用来当作小型查询语言。最常见的 达式是路径表达式 (一名称的另一来源 )。路径表达式是从一个 点 (当前的上下文节 5 点 )到另一个节点、或一组节点的书面步骤顺序。这些步骤以“”字元分开,每一步有三个成分:轴描述 (用最直接的方式接近目标节点 ),节点测试 (用于筛选节点位置和名称 ) 和节点描述 (用于筛选节点的属性和子节点特征 )。而 简称 ,是制定的一套标准,用来从 档中提取信息,类 档可以理解成一切符合 据模型和接口的实体,他们可能是文件或 成为一种用于描述对 据源的查询的语言, 用来从 档里查找和提取元素及属性的语言, 具有精确、强大和易用的特点 8。 6 3 系统设计 件 结构 符合 法规则的 档具有 结构良好的 特性 。 范 中 指出:一个格式正确的 档必须明确地拥有一个唯一的顶层元素,该元素被称为文档元素或根元素,而其它所有的元素都被嵌套在这个元素之下。 因此 档可以用树的形式表示出来。树是一种由节点和分支组成的简单结构,两个节点间由分 支连接。上端的节点称为父节点,下端的节点称为子节点,一个节点没有父 节点,则称为树的根节点 (根 ),每棵 树必须有且只有一个根节点。一个节点如果没有子节点,则称为树的叶节点。 对 档 的 信息进行 检索时,可以利用 档树结构 进行精确的检索。 传统的 排 信息检索利用 记录了单词在文档中的位置信息。但是对于 档来说位置信息是不够的。我们还需要记录 素的信息,这就用到了对于 素的编码 9。 统结构 该全文检索系统有五个子模块,每一个子模块都完成相关的功能。这五个模块分别是用户登录 、 建立索引 、 全文检索 、 查看主索引文件和查看标记索引文件。 表 1 功能需求表 序号 功能名称 功能需求标识 简要描述 01 建立索引 现建立索引信息 02 检索 入查询条件查询 03 主索引文件内容处理 询主索引文件信息 04 标记索引文件处理 记索引文件 7 表 2 功能编号 1 功能名称 建立索引 功能描述 选择被添加的索引 文件, 建立主索引文件,标记索引文件 汉字倒排索引文件以及倒排索引文件 功能模块 选择被索引文件 建立索引 输入项 被索引的文件 处理描述 判断被索引文件的路径是否正确 文件处理是否异常处理 建立索引文件 输出项 被索引文件的路径不正确,提示处理建立失败 文件处理异常,提示处理建立失败 成功建立时返回提示信息 界面要求 选择被索引文件的按钮 建立索引按钮 8 表 3 检索 功能编号 2 功能名称 检索 功能描述 输入检索的内容和节点名称 显示检索的结果 功能模块 输入检索的内容和节点名称 显示检索的结果 输入项 输入检索的内容和节点名称 处理描述 文件处理是否异常处理 进行全文检索 输出项 文件处理异常,提示处理建立失败 成功检索时返回提示信息 界面要求 文本输入框 检索按钮 9 表 4 查看主索引文件 功能编号 3 功能名称 查看主索引 功能描述 显示主索引文件的结果 功能模块 选择查看主索引文件操作 显示查看的结果 输入项 无 处理描述 文件处理是否异常处理 查看主索引文件 输出项 文件处理异常,提示处理 查看失败 成功检索时返回提示信息 界面要求 查看按钮 表 5 查看标记索引 功能编号 4 功能名称 查看标记索引 功能描述 显示标记文件的结果 功能模块 选择查看标记索引文件操作 显示查看的结果 输入项 无 处理描述 文件处理是否异常处理 查看主索引文件 输出项 文件处理异常,提示处理查看失败 成功检索时返回提示信息 界面要求 查看按钮 10 排索引模型 设计 索引文件 对 档进行检索前,要对 档文件的信息进行记录下来,因此要对大量的 档库进行索引处理,要把 档的文件路径,修改日期,删除标志和文档编号进行保在主索引文件中,方便日后的对 档定位查询和更新操作。 主索引文件的结构中,文件路径表示原 档的在硬盘上存储路径,可以用定长的字符串表示,有助于主索引文件的结构存储。文档编号是存储主索引文件给原 档起的编号,可以用一个长整数表达 (长整数的表示范围已经足够大 )。有时候 档进行更新删除时要记录下来,是否删除可以用一个字符 Y/N 来表示。主索引文件中的修改日期表示最新的什么时候进行对 档进行更新操作。其中删除标志和修改日期用来对 档更新操作处理。 设计如下 : 11 表 6 主索引文件 设计 类型 名称 数据类型 功能描述 属性 除标记 属性 档编号 属性 件路径 属性 新日期 方法 置删除标记 方法 得删除标记 方法 D) 置文档编号 方法 置 文档编号 方法 置文件路径 方法 得文件路径 方法 置更新日期 方法 得更新日期 方法 文件里读取一个记录 方法 文件里读取一个记录 方法 回主索引结构大小 志索引文件 由于 档具有 结构良好的 特性,在 档进行检索时,可以利用 如果可以提供检索词所在的元素名称,那么 对 文的 检索意图和范围更加明确,检索效率也会提高。 为了优化 询处理,一般情况下, 中的每 一 个节点都被赋予唯一的编号,通过这个编号可以快速地确定任 意两个节点之间是否存在父子、祖先后裔、 12 兄弟、前驱、后继等关系。为 中的节点分配唯一编号的具体策略称为编码方案。为了有效地适应 据的查询和更新,一个的编码方案应该具备有确定性 特征 。即对 档里的元素进行 编号 标志时不存在 歧义时,每一个编号确定对应档中的具体的一个节点 11。 在早期, 编码被认为是一个颇具挑战性的研究课题,吸引了许多研究者。目前 已经 出现了一批 点编码方案。所有编码方案可以分为两类:基于区间(的和基于前缀 ( 。 早期的 编码方案研究都是基于区间的,文提出的都是基于区间的编码方案。基于区间的编码方案利用 点的有序特点,根据每一个元素节点的文档顺序位置为其赋予一个编码 12。这种编码通常是一个三元组同一个父节点的所有孩子节点的 。 编码方案为每个节点分配唯一编号,仅通过比较节点编号而不必访问原 档,就可以快速有效地确定节点间的结构关系 。 本文 设计 档 节点 编码方 案 如下: 13 表 7 标记索引文件 设计 类型 名称 数据类型 功能描述 属性 档编号 属性 点名称 属性 点标记 方法 置文档编号 方法 得文档编号 方法 置节点名称 方法 得节点名称 方法 置节点编号 方法 得节点编号 方法 取一个标记结构体 方法 记结构体写入文件 方法 记结构体的大小 标志索引文件结构中的标志编号是指本文实现的二进制小数编码。标志名称是要记录 档元素结点的标志。 对 档采用惟一元素标志,此时按层进行对每个节点编号。 14 图 1 件 例如 件 ,根节点 为第一层,用 “ 1” 表示,按 档原来的存储顺序表示,它的下一个兄弟编号加 1。也就是每一层的首节点编号为“ 1” ,该层的首节点下一个兄弟编号加 1。 按本文的编码方案, 编码为“ 1”,文本内容为元素编码为“ 文本内容 元素编码为“ 顺序进行得到 。 排索引文件 在 档里,存储的内容包括有汉字信息,英文和数字信息。对此 文检索首先要存储这些内容,为这些内容建立倒排索引表 13。在汉字倒排索引表结构中,需要为每一个汉字的倒排索引表的头结点保存在独立的索引文件中,形成汉字倒排索引文件。 汉字倒排索引表的 设计 如下 : 15 表 8 汉字倒排索引表设计 类型 名称 数据类型 功能描述 属性 字的字频 属性 档号 属性 在文档的块 数 方法 置汉字的字频 方法 得汉字的字频 方法 置文档号 方法 得文档号 方法 置所在文档的块数 方法 得所在文档的块数 方法 取一个汉字倒排索引结构体 方法 入一个汉字倒排索引结构体 方法 字倒排索引文件大小 汉字倒排索引表结构中的字频记录该汉字的在 档里出现的次数,以便后面的更新处理。倒排索引指针记录汉字的倒排索引表的头结点 。这里面包括两个方面的信息:文件名 (存储该汉字的倒排索引表的具体信息在哪一个文件 )和块数 (在该文件里哪一个块中 )。倒 在汉字倒排索引文件里, 为了能 够快速查找所要查找的汉字的索引地址, 本文 根据汉字的 ,顺序地存储汉字的 倒排索引的内容。汉字倒排索引文件存储的内容数据格式如下 : 16 1:“一” (42: “丁” (43: “亏” (44: “ 七 ” (4。 40868: “ 龣 ” (940869: “ 龤 ” (940870: “ 龥 ” (9在 准中,共收录了 20901 个汉字。第一个汉字的 为 4后一个汉字的 汉字倒排索引文件里依次存储汉字倒排索引表内容。因此可以知道:建立后的汉字倒排索引文件最多记录 20901 个汉字的索引信息。从建立后汉字倒排索引文件里的内容可以看得出:这些汉字是根据汉字的 编码次序存储的。因此查 询汉字倒排索引表的每一个汉字记录时,可以在 O(1)里查找到要查找的汉字的索引地址 14。例如:查找汉字“七”,根据它的 码 (4即处第四个位置 (4所以汉字“七”在汉字倒排索引文件里物理存储位置的第四块。 再比如要查找汉字“书”,根据它的 码 (4即处第 103 个位置 (4所以汉字“书”在汉字倒排索引文件里物理存储位置的第 103 块。 这种基于 字全集的汉字倒排索引结构具有如下特点: (1)存储规模小:即使全 部记录所以汉字的索引信息,最多要记录 20901 个记录。在在硬盘存储数据日益巨大的情况下,这一点点索引信息的记录算不了什么。 (2)查询时间少:查询汉字的倒排索引信息,首先根据汉字的 码,比较出与编码中汉字“一”中隔离 X 个汉字,那么要查询汉字的存储物理位置在汉字倒排索引文件里第 (X+1)块中。 当进行全文检索时,可以在 O(1)时间里找到要查找的汉字的索引字 频 倒排索引指针 字 频 倒排索引指针 字 频 倒排索引指针 字 频 倒排索引指针 字 频 倒排索引指针 字 频 倒排索引指针 字 频 倒排索引指针 17 地址。 (3)查询 率全:汉字倒排索引文件里存储每一个汉字的信息,而且简单。比 以 词 建立的汉字倒排索引 来作为关键字划分中文信息,这种方法明显能够查 询到所有汉字的信息。 (4)检索方便:检索词语的组合可以十分方便。只要向系统输入代表某个概念的词组,就可以获得检索结果。 (5)方便维护:以汉字单字建立的汉字倒排索引 在维护工作量相当少。对汉字倒排索引文件,只需一个文件就可以存储所有汉字倒排列表的头结点的信息。这种方法比分词划分中文信息的维护方便得多,不必要考虑以后新词语,新概念的出现的情况。 排文件 在 设计 倒排索引文件的结构后, 还要设计保存每个单字或单词所在有 件中的位置信息,也就是要设计倒排文件的结构。在设计保存每个单字或单词的位置信 息,不仅要保存该字或词所在 档名,记录它是在哪一个标志中的内容,同时还应记录该它是标志中的哪一个位置,也就是它的偏移地址。 数据结构如下: 18 表 9 倒排索引设计 类型 名称 数据类型 功能描述 属性 点的编号 属性 储汉字的文档编号 属性 素所在节点的偏移量 属性 一倒排索引文件名 属性 一个存储汉字的第几块 方法 置节点编号 方法 得节点编号 方法 D) 置文档编号 方法 得节点偏移量 方法 置节点偏移量 方法 得节点偏移量 方法 置下一倒排索 引文件 方法 得下一个存储汉字的块数 方法 置设置下一倒排索引文件 方法 得设置下一倒排索引文件 方法 取一个倒排索引结构体 方法 入一个倒排索引结构体 方法 排索引结构体的 大小 19 立索引 在确定上面的主索引文件,标志索引文件,汉字倒排索引文件和倒排文件结构之后,就可以对 档进行建立索引。整个索引信息的建立算法如下: 输入: 档 输出: 档的结果信息 打开 件 写 入 主索引文件 有 件 ) 汉字 ) 添加汉字内存倒排索引文件里 写倒排索引文件,倒排文件和标记索引文件 关闭 件 返回主操作界面 据 检索 在已经完成索引文件建立之后 ,就要可以进行全文检索。 输入:检索的内容和标记名称 输出:检索的结果 集 从标记索引文件中读取 标记编号 从汉字倒排索引文件中读取汉字的倒排索引文件入口 判断字 i+1 的位置是否等于字 i 的位置 +1 判断字是不是在提供的标记名称 符合以上条件,返回结果 关闭索引文件 20 4 系统 实现 发平台 开发工具是 开发语言是 介 一个功能十分强大的软件,是一个开源代码。 2001 年, 先发布了这个开源项目。在五年里, 速发展着。 006 年的 以 核心的 10 个 目同步发布的稳定版本。 一个稳定的、成熟的平台,并且是被独立管理的。核心层主要新特性包括独立 行时, 强对 支持, ,新增对 支持,及对 持的预览版。各子项目自身也有许多新特性。目前有着成百上千的 商用插件和产品 15。 在是业内主要的非微软软件工具平台。 供了更多的组件化版本的增值工具和厂商支持服务。随着 理一个良好的发展前景。用 计,开发,调试和部署应用程序。这些应用程序强健而且易于使用。 模块详解 本文 做的 文检索系统主要是实现设计存储 档信息和进行汉字检索的功能。 文检索系统 , 总体结构框架 包括 设计 文检索模型和实现汉字检索的操作。 文检索模型主要是实现了主索引文件,汉字索引文件,标记索引信息和倒索引文件的建立。汉字检索的操作:检索汉字,首先处理输入的汉字信息。查找所有倒排记录;根据检索的信息返回检索 的信息。 主索引文件:将新添加的 档的住处:文档名,文档路径,删除标记和更机日期。汉字倒排索引:字频,索引指针。标记索引:文档 编号 ,标记和标记编码。汉字倒排索引:汉字所在的文档名,汉字所在的节点,汉字所在节点的偏移量,下一个索引文件名和块数。 21 索引文件 实现 在主索引文件结构设计里,文档路径的长度有可能是不一样。如何存储文档的路径呢 ?本人在实现这个问题时,设计长度固定 (长度够长 )的字符串数组,如果文档的文档路径长度小于字符串数据的长度,字符串数据剩余的用空格代替空字符。 图 2 主索引文件结构 记文件 实现 实现 文检索 首先要对 档进行解析,才能进行遍历 档树。 22 图 3 解析 档 建立合适的倒排索引文件,能够实现 文检索,同时能够适合网络上大量文档的需求。 先获得要保存 档内容的文件,同时进行解析 档,生成 档树,利用深度优先算法遍历 档树,保存 档的节点名称和节点所在的文本信息,同时通过压 栈 和出 栈 的办法对 档树 的每一个节点进行标记编号。 本文在实现 档倒排索引时,到时递归 档,同时内存保存必要的 档信息。在遍历的时候分三种情况: 第一种是元素不为而且元素的属性为节点 的情况处理如下: 23 图 4 建立标记 其它两种情况为 当元素不为空,而且元素属性为属性节点或者文本节点时,要进入遍历寻到下一节点 。当找到元素为节点时,递归遍历节点的子节点所有情况。执行步骤返回上一种情况的处理过程。 24 图 5 标记建立 件操作实现 在建立倒排索引文件,要实现建立主索引文件,汉字倒排索引文件,标记索引文件和倒排索引文件。下面以建立主索引文件为例: 建立主索引文件,首先打开文件选择框,选择主索引文件 。如果主索引文件不存在的话,则提示出错信息并返回。否则的话,就向主索引文件添加新的 档信息 (文档编号,文档路径,删除标志和更新日期 )。起初新添加的 档的删除标志都为“ N”,也就是说该 档还没有删除。 (1)在选择添加被索引文件的按钮时,首先是要获得文件列表。 25 图 6 获得文件列表 (2)接着向主索引文件里增加 被索引 文件 的信息 。 图 7 增加索引内容 26 5 系统演示 以及 分析 统 登陆 首先运行本程序,出现以下用户登录界 面 。 输入用户名和密码,点击退出按钮则取消操作。 图 8 用户登录 立索引 (1)用户成功后,出现以下主界面,在其中可以选择各种功能操作 。 图 9 系统 主界面 27 (2)想要添加被索引的 件,选择“选择被索 引的文件存放路径”按钮 图 10 导入索引文件 (3)选择文件选择话框的“打开”按钮 ,这时可以看到左

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论