




已阅读5页,还剩59页未读, 继续免费阅读
(计算机软件与理论专业论文)基于google+desktop的教育资源库全文检索系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 本文从全文检索技术的产生、发展和应用入手,深入探讨了全文检索的基本原理、 方法和特点。通过对全文检索引擎l u c e n e 系统结构、索引结构及数据流程的深入研究, 详细剖析了全文检索系统的开发和应用。 g o o g l e 在2 0 0 4 年推出了自己的桌面搜索软件g o o g l e d e s k t o p ,她是基于g o o g l e 强大技术优势的基础上开发出来的,最大的优势就是不仅可以把它直接当作工具软件使 用,还可以在它的基础上进行二次开发,设计出满足自己需求的搜索软件。g o o g l e 桌面 和以往的一些搜索引擎和检索系统开发包相比较有着诸多明显的优势。本文意在基于 g o o g l ed e s k t o p ,利用其提供的s d k ( 软件开发包) 开发一种全新的全文检索系统,并 将自己开发的索引插件( i n d e xp l u g i n ) 嵌入该系统,从而进一步提高全文检索系统的 搜索能力。 本文的重点放在了全文检索在教育资源库上的应用,通过全文检索技术、g o o g l e 搜索技术和改进的索引创建策略的结合,开发一个基于w e b 的教育资源库全文检索系统。 该全文检索系统不仅可以快速检索教育资源库中己存在文件类型的资源,而且随着教育 资源库的扩充,还可以随时使系统增加新文件类型的检索能力,不断扩充系统的功能。 从实验结果来看,该系统基本达到了设计的初衷。 关键词;教育资源;全文检索;g o o g l ed e s k t o p :索弓 a b s t r a c t t h i sa r t i c l ep r o b e si n t ot h ef u n d a m e n t a l s ,m e t h o da n dc h a r a c t e r i s t i c so ff u l l - t e x tr e t r i e v a l b yi n t r o d u c i n gt h eg e n e r a t i o n , d e v e l o p m e n ta n da p p l i c a t i o no f f u l l t e x tr e t r i e v a lt e c h n o l o g y i t a l s ob r i e f so fa n a l y s e st h ed e v e l o p m e n ta n da p p l i c a t i o no ff u l l - t e x tr e t r i e v a lt e c h n o l o g yb y e l a b o r a t i n go nt h el u c e n es y s t e m ( f u l l - t e x tr e t r i e v a le n g i n e ) s t r u c t r u e ,i n d e xs t r u e t r u ea n d d a t ap r o c e s s i n2 0 0 4 ,g o o g l el a u n c h e di t so w nd e s k t o ps e a r c hs o f t w a r e - g o o g l ed e s k t o pb a s e do n t h es t r o n gt e c h n i c a la d v a n t a g e so fg o n g l e b e s i d e ss e r v i n ga st o o ls o f t w a r e ,i tc a na l s ob e u s e da st h eb a s i sf o rs e c o n dd e v e l o p m e n tf o rt h es e a r c hs o , w a r es a t i s f y i n gy o u ro w nn e e d s c o m p a r e dw i t hp r e v i o u ss e a r c he n g i n e sa n di n d e xe n g i n ed e v e l o p m e n tp a c k a g e s ,g o o g l e d e s k t o ph a sm a n ya d v a n t a g e s t h i sa r t i c l ei n t e n d st od e v e l o paw h o l en e wf u l l t e x tr e t r i e v a l s y s t e mb a s e do ng o n g l ed e s k t o pa n de m b e dt h ei n d e xp l n g i nd e v e l o p m e n tb yy o u r s e l fi n t o t h es y s t e ms oa st of u r t h e re n h a n c et h es e a r c hc a p a b i l i t yo f f u l l - t e x tr e t r i e v a ls y s t e m f o c u s i n go nt h ea p p l i c a t i o no ff u l l - t e x tr e t r i e v a li nt h ee d u c a t i o n a lr e s o u r c ep o o l ,t h i s a r t i c l ei st od e v e l o paf u l l - t e x tr e t r i e v a ls y s t e mo fe d u c a t i o n a lr e s o u r c ep o o lb a s e d0 1 3w e b b y t h ei n t e g r a t i o no ff u l l t e x tr e t r i e v a lt e c h n o l o g y , g o o g l es e a r c ht e c h n o l o g ya n dt h ee n h a n c e d i n d e xc r e a t i o ns t r a t e g y t h es a i df u l l - t e x tr e t r i e v a ls y s t e mc a nn o to n l yr e t r i e v et h er e s o u r c eo f t h ee x i s t i n gf i l et y p ei nt h ee d u c a t i o n a lr e s o u r c ep o o lq u i c k l y , b u ta l s ob ea b l et or e t r i e v et h e f i l et y p en e w l ya d d e dt ot h es y s t e ma l o n gw i mt h ee x p a n s i o no fe d u c a t i o n a lr e s o u r c ep o o ls o a st oe x p a n dt h es y s t e mf u n c t i o n a c c o r d i n gt ot h et e s tr e s u l t t h es a i ds y s t e mm e e t st h e d e s i g ni n t e n t i o nb a s i c a l l y k e y w o r d s :e d u c a t i o nr e s o u r c e ;f u l l t e x tr e t r i e v a l ;g o o g l ed e s k t o p ;i n d e x n 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究 成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经 发表或撰写过的研究成果,也不包含为获得东北师范大学或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了 明确的说明并表示谢意。 学位论文作者签名f 玺垡隰 学位论文版权使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规定,即:东 北师范大学有权保留并向国家有关部门或机构送交学位论文的复印件和磁盘,允许论 文被查阅和借阅。本人授权东北师范大学可以将学位论文的全部或部分内容编入有关 数据库进行检索,可以采用影印、缩印或其它复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 。 学位论文作者签名:_ ! 兰l 垃生 指导教师签名: 日 期:鲨12 :r 日期: 学位论文作者毕业后去向: 工作单位: 通讯地址: 电话: 邮编: 墼 1 引言 1 1 背景及研究现状 随着社会的进步、科学的发展,人类社会进入一个“信息爆炸”的知识经济时代。 知识经济是建立在知识信息的获取、加工和分配、利用基础上的经济。因此,面对这 纷繁复杂、变幻莫测的信息新时空,如何更全面、准确地获取最新、最有效的信息已经 成为我们把握机遇、迎接挑战和获取成功的首要条件。 信息检索技术是现代信息社会中非常关键的技术之一。信息检索是指将信息按一定 的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的过程和技术。所以 信息检索的全称又叫“信息存储与检索”,狭义的信息检索仅指从信息集合中找出所需 信息的过程,也就是利用信息系统检索工具或数据库查找所需信息的过程。 人们获取信息源的方式主要有:( 1 ) 遵循传统的检索方法,是在浩如烟海的图书馆 资料中,通过人工查找索引条获取信息,找到对应的文献索书号再获取文献原文。( 2 ) 2 0 世纪5 0 年代后,随着计算机技术的发展开展起来的计算机辅助检索。 这其中也存在一个发展过程,由检索结果来看,从提供目录、文摘等相关的二次信 息检索到可以直接获得电子版的全文;由检索方法来看,从对特定关键词或者如作者、 机构等辅助信息作为检索入口的常规检索到以原始文献中任意词检索的全文检索等等。 全文检索由于其包含信息的原始性、信息检索的彻底性、所用检索语言的自然性等特点 在近年来发展比较迅速,成为深受人们关注的一种非常有效的信息检索技术。全文检索 是从大容量文档库中精确定位所需信息的最有效手段。 全文检索技术是现代信息检索技术的一个非常重要的分支,它是处理非结构化数据 的强大工具,也是搜索引擎的核心技术之一。现今的全文检索技术经过了多年的发展, 已经比较成熟,但一些全文检索系统的查询速度和查全率、查准率往往还不尽如人意。 全文检索通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个 方面,其核心为文本信息的索引和检索。从历史上看,全文检索经历了手工检索、计算 机检索到目前网络化、智能化检索等多个发展阶段。 目前,全文检索已经发展到网络化和智能化的阶段。检索的对象从相对封闭、稳定 一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理 松散的w e b 内容( 包括文本和各种格式的多媒体资源) :检索的用户也由原来的情报专 业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众,他 们对信息检索从结果到方式提出了更高、更多样化的要求。适应网络化、智能化以及个 性化的需要是目前信息检索技术发展的新趋势。 随着国家中小学教育信息化进程的全面推进,从事中小学教育资源库开发和对教育 资源进行广泛利用的学校和教育机构也越来越多,教育网站、远程教育平台、教学软件 也是层出不穷,支持如此众多的远程教育平台和教学软件的最基本元素还是大量数字化 的电子教育资源。 随着教育信息化程度的加深,各种形式的电子教育资源经过收集、加工就可以通过 网络提供远程的存取,实现教育资源的管理与共享。面对越来越多的数字化教育资源, 教育网站和远程教育平台等机构必须要有一个强大的信息存储和检索系统来进行信息 资源的管理与检索。 利用该系统,教育资源的一大使用群体教师可以从不同的信息源( 主要是文本 类文件如d o c 文件、p p t 文件、h t m l 文件、p d f 文件、c a j 文件等) 提取有用的各种形 式的教育资源来进行教育素材的创作和教学模式的改进;教育资源的另一大使用群体一 一学生也可以通过教育网站或远程教育系统进行教育资源的查询检索服务,以便更高效 合理地利用教育资源来帮助自己提高学习成绩,充实自己的头脑。 目前市场上基于网络的远程教育平台和教育网站非常多,其中大部分产品也都提供 资源的搜索功能,但是大多数的搜索系统只能对站内的网页信息进行搜索,好一些的搜 索系统也只能对资源的外部特征( 如文档名、文件名、文件类型) 进行搜索,而没有对 资源的内容进行搜索的功能。有少数的网站也有其自己的网站全文检索系统,但是其检 索速度、查全率和查准率却远未达到用户的要求,其主要原因就是开发手段和检索策略 的老化。 1 2 研究目的和意义 全文检索技术不仅可以实现对数据资料的外部特征的检索,诸如标题、作者、摘要、 附录等,而且还能直接根据数据资料的内容进行检索,实现了多角度、多侧面地综台利 用信息资源。 g o o g l e 是全球搜索技术的领先者,它拥有强大的开发团队,他们的产品也在全球用 户的广泛应用中得到了极高的评价,可以说g o o g l e 掌握着世界顶尖的搜索技术。其2 0 0 4 年1 0 月率先推出的桌面搜索工具也引领了搜索引擎新的发展潮流桌面搜索。与一 般基于浏览器地址栏的搜索方式不同,桌面搜索的特点在于将搜索方位延伸到电脑硬盘 中所存储的各种文档,g o o g l e 桌面搜索的文档格式包括的e m a i l 、w o r d 、e x c e l 、 p o w e r p o i n t 、p d f 等等多达2 0 0 多种格式的文本、音乐、图片和网页。 g o o g l ed e s k t o p 不仅可以当作普通软件直接使用,而且还提供了充分的用户接口来 2 满足高级开发人员的个性化需求,能使这部分用户充分利用g o o g l e 的强大技术来开发 自己需要的全文检索系统。我们可以把网站服务器看作一台普通的计算机,如果把桌面 搜索应用到该网站的全文检索当中,使用户从远端就可以对站内的丰富资源进行检索, 这样,不但整个全文检索系统的检索速度会大大提高,查全率和查准率也会达到较高的 水平。 全文检索技术在教育资源的信息化、网络化快速发展当中起着至关重要的作用,本 文的研究目的就是想利用g o o g l e 的技术优势,寻找一种既简单、又实用的开发全文检 索系统的新途径,来开发一种性能优越的全文检索系统。本文将其实现应用于教育资源 库的全文检索,这种新的全文检索系统必然会使教育资源更好地发挥作用。 1 。3 论文创新点 1 、本文将利用g o o g l e 提供的g o o g l ed e s k t o ps d k 开发一种全新的全文检索系统, 借助g o o g l e 的强大技术支持,该系统的性能要明显优于现今其他全文检索系统。 2 、本文开发出了扩展g o o g l e 桌面索引能力的a n y t e x t l n d e x e r 索引插件,它能增强 g o o g l ed e s k t o p 建立索引的能力,让g o o g l ed e s k - t o p 能为更多类型的文件建立索引;还 开发出了扩展g o o g l e 桌面使用范围的代理程序d e k s t o p p r o x y 和w e b 应用程序,在此基 础上构建了全文检索系统。 3 、本文结合全文检索技术、g o o g l e 搜索技术和w e b 代理技术,开发了一个基于w e b 的教育资源库全文检索系统。该全文检索系统不仅可以快速检索教育资源库中已存在文 件类型的资源,而且随着教育资源库多种类型资源的扩充,还可以随时使系统增加新文 件类型的检索能力,不断扩充系统的功能。 综上所述,基于g o o g l ed e s k t o p 来开发一种教育资源全文检索系统具有很高的研 究价值和应用价值,它的研究成功必将产生巨大的社会效益和经济效益。 1 4 论文结构 全文检索技术是一个最普通的信息查询的应用,人们每天在网上使用g o o g l e 、百度 等搜索引擎查找自己所需信息,这些搜索引擎的核心技术之一就是全文检索。另外,随 着文档处理电子化、无纸化的发展,各种社会机构如图书馆、新闻出版、企业等单位甚 至个人的电子数据激增,从前主要以书本、教材为载体的教育资源也逐渐向信息化转变。 因此全文检索在信息化的教育资源库中的应用就显得非常有意义,本文的选题也主 要源于这里。本文的基本目标就是利用g o o g l ed e s k t o p 建立一个基于w e b 的教育资源 库全文检索系统,其中包括全文检索系统的整体设计、框架结构的建立;w e b 代理程序 的设计开发;索引插件的设计开发,最终对全文教育资源库实现全文检索的功能。因此, 3 本文主要围绕以上几个方面展开论述,具体结构如下: 第一章:引言。包括论文选题的背景及研究现状、研究的目的和意义以及论文的创 新点。 第二章:全文检索技术概述。包括全文检索的产生、发展,以及基本原理和方法; 结合与关系数据库的比较,阐述全文数据库的组织形式。 第三章:全文检索系统的分析研究。介绍了当前几种比较流行的全文检索系统开发 包,通过对开放源码全文检索引擎l u c e n e 的系统剖析,分析其组织架构、索引数据格 式等,对其源码分析及二次开发应用,对一般的全文检索系统架构进行具体分析。 第四章:g o o g l ed e s k t o ps d k 的分析研究。通过对g o o g l e 桌面的介绍,既而对g o o g l e d e s k t o ps d k 进行了基本分析,并针对本论文开发所应用到的g o o g l ed e s k t o ps d ki n d e x a p i 和g o o g l ed e s k t o ps d kq u e r ya p i 做了详细解释。 第五章:应用g o o g l ed e s k t o ps d k 完整设计并实现一个基于w e b 的教育资源库全 文检索系统。本章是论文的核心部分,包括系统架构设计,a n y t e x t i n d e x e r 索引插件和 代理程序的开发以及代码实现和系统设置等。 第六章:总结论文的整体完成情况,并展望该系统在未来的应用价值。 4 2 全文检索技术概述 本章主要介绍了全文检索技术的起源、发展以及基本原理和关键技术,着重介绍了 全文数据库的构建。 2 1 信息检索概述 2 1 1 信息检索的起源与发展 信息检索是指信息用户为处理解决各种问题而查找、识别、获取相关的事实、数据、 文献的活动及过程。作为人类社会活动不可分割的一部分,信息检索有着悠久的历史。 由古至今,人类就采取不同的手段对身边的信息进行各种检索行为,人类的科技革 命到来之前,信息存储和传播主要以纸质介质为载体,人类的信息检索活动也是围绕着 各种文献的获取和使用展开。因此,那时的信息检索主要关注的是如何查找、利用文献 中所记载的信息,还没有形成当今真正意义上的“信息检索”的概念。 英国科学家詹姆斯马丁认为:人类的科学知识在1 9 世纪是每5 0 年增加一倍,2 0 世纪中叶是每1 0 年增加1 倍,在2 0 世纪7 0 年代就已经缩短到每5 年增加1 倍;同时, 信息分散,交叉引用频繁,人类信息的生产能力超过了人类对信息的处理、组织和吸收 能力,从而产生了信息爆炸的危机。 人类社会进入2 0 世纪9 0 年代以来,随着信息技术的快速发展,尤其是计算机的应 用,信息的存储和传播媒介也发生了巨大变化,计算机和网络逐渐取代了以往的纸质介 质并逐渐占据了信息承载的主要介质。同时,信息检索也经历了手工检索到机械检索再 到计算机化检索的发展阶段。 2 1 1 1 手工检索 手工检索指仅用手工的方式来处理和查找文献工具,如文摘、索引、目录、参考工 具书等。 手工检索是一种传统的检索方式,科技革命到来之前的人类社会主要采取这种检索 方法。手工检索由于不需要特殊设备,查找简单、灵活,而且用户可以随时修改检索策 略,检索费用低等优点而在某些部门领域仍然使用。但是,利用手工检索往往费时、费 事,效率低下,查全率也较低。 2 1 1 - 2 脱机批处理检索 自从1 9 4 6 年世界上第一台电子计算机问世后,5 0 年代初就有人开始研究其在信息 检索领域的应用。5 0 年代中期至6 0 年代中后期是信息检索的脱机批处理阶段。当时, 计算机硬件发展很快,但还没有连接网络,也没有远程终端装置,不能提供问答服务 ( q _ a ) 的检索方式,只能进行现刊文献的定题检索( s d i ) 和过期文献的追溯检索( r s ) , 同时利用计算机编辑出版检索性刊物。所谓脱机批处理方式,是指由专职检索人员把许 多用户课题汇总,批量处理提问要求并把结果提供给用户。 脱机批处理能同时进行多项检索,对复杂的检索词也具有处理能力,因此,在生产 普通印刷索引、专题书目、回溯检索和定题检索服务等方面得到广泛使用。但是,它也 有许多不足之处,如缺乏与用户的交互过程,检索结果获得不及时以及信息需求和检索 结果之间存在一定误差等,这些缺点限制了脱机批处理的发展。 2 1 1 3 联机检索 2 0 世纪7 0 年代计算机分时系统的出现,通信技术的改进,使得多终端、远距离两 地检索信息的技术得以推广,计算机检索技术从脱机阶段进入联机信息检索时期。所谓 联机检索,就是用户使用终端设备,通过通信线路与中央计算机连接,直接与计算机对 话进行检索,结果由终端输出。 联机检索无需委托,直接面向最终用户,在检索过程中是“人机对话”方式,具有 很强的交互功能,而且能即时取得检索结果。但是检索指令复杂,需要依赖专业检索人 员。 2 1 1 4 光盘检索 利用国际联机检索系统检索到的电子文献信息具有较高的使用价值,但国际联机检 索费用昂贵,一般用户难以接受。人们开始努力寻求一种低廉的存储、检索电子信息的 方式,光盘存储技术则适应了这一要求。 c d - r o m 光盘是2 0 世纪8 0 年代在计算机技术、激光技术等现代新科技成果的基础上 发展起来的新型电子出版物。它具有信息存储密度高、容量大、读取速度快、存储的信 息类型多等优点,倍受人们的青睐。光盘技术与光盘产品的发展相当迅速,品种和数量 激增,而且更新换代快,功能日益完善。光盘塔和光盘网络的出现和广泛应用提高了单 张光盘的利用率,使光盘的多用户检索和共享成为现实。 利用光盘检索系统费用大大低于联机检索,利用c d - r o m 存储信息方便、易于携带, 除可提供追溯检索、定题服务外,还可用于“自建库”和做联机检索前预处理。 2 1 1 5 网络化联机检索 国际联机检索和光盘检索为我们提供了大量的信息资源,但各自又都有着或多或少 的缺点,例如联机检索费用昂贵,指令复杂,而光盘检索得到的信息又不十分及时等。 因此,极有必要产生一种新型的信息检索方式。2 0 世纪9 0 年代初,互联网的产生, 打造了一条信息高速公路,网络资源如潮水般涌来。在信息爆炸的当今社会,单个计算 机所能完成的工作和所存储的信息都极为有限,而把单机连起来的计算机网络则能在局 6 部或更大范围内实现通信和信息共享。 由于电话网、电传网、公共数据通信网都可能为信息检索传输数据,世界各大检索 系统纷纷进入各种通信网络,每个系统的计算机成为网络上的节点,每个节点连接多个 检索终端,各节点之间以通信线路彼此相连。网络上的任何一个终端都可联机检索所有 的数据库的数据。这就是网络化联机信息检索。 网络联机信息检索是联机信息检索的高级阶段,它的实现使人们可以在很短的时间 里查遍全球的信息资料,使人类实现信息资源共享成为可能。除了传统的文献信息,网 络信息源还包括电子论坛、各种软件资料、图象文件、声音文件等。值得提出的是,网 络信息环境的出现,使得信息检索研究的对象和范围不断扩大,研究队伍也突破了原有 的以图书情报领域的专家学者为主的框架,众多的信息公司加入到研究开发信息检索系 统的行列。可以这么说,网络使计算机信息检索技术进入一个崭新发展阶段,而网络信 息检索又使得网上信息源利用率提高,信息组织更为有序和高效“1 。 2 1 2 信息检索分类 2 1 2 1 早期分类方法 按照检索对象的不同,早期信息检索一般分为文献检索、事实检索、数据检索三种 不同类型。 。 ( 1 ) 文献检索 文献检索是指以文献( 包括文献、题录或全文) 为检索对象的一类信息查询活动。 典型的文献检索行为多见于以下情形:为了编写教材或撰写综述性论文,某作者需要对 论述相关问题的大量文献进行搜集和阅读;为了审查某项专利发明的新颖性和先进性, 审查员需要在规定的“新颖性调查范围”内查阅有关的专利说明书及其他资料;或者, 为了了解某一理论、方法的具体内容或技术细节,研究人员需要查找能提供相关知识的 文献等。 ( 2 ) 事实检索 事实检索主要针对从文献中提取出来的各种事实( 或知识项) 所进行的检索活动。 例如微软公司在全球那些地区设立了分公司,分公司的地址、员工数量、主要负责人等。 ( 3 ) 数据检索 数据检索主要以经过选择、整理、鉴定的各种数据信息,例如人口、国民生产总值、 建筑材料的各种性能参数等作为检索对象的一类检索操作。 事实上,如果把“事实”看作是非数值型“数据”的话,事实检索可归入数据检索 范畴中。文献检索与事实数据检索有许多共同之处,在信息服务过程中,它们也常常 是相互配合、相辅相成的。不过需要强调的是,文献检索与事实数据检索之间还是存 在着本质上的不同,主要表现在以下方面。 文献检索是一种“相关性检索”,“相关性”的含义是指系统不直接解答用户所提 7 出的问题本身,而知识提供与问题相关的文献供用户参考; 事实数据检索是一种“确定性检索”,“确定性”的含义是指系统直接提供用户 所需要的确切的数据或事实,检索的结果要么是有,要么是无;要么是对,要么是错。 2 1 2 2 新分类方法 作为一个学术性概念,信息检索的内涵始终处于不断的丰富和发展中。随着信息处 理技术的不断发展,尤其是计算机技术与网络技术的不断进步,上述传统的三分方法已 经无法适应信息检索发展的现状。与过去相比,现在信息检索的对象已大大丰富。当前, 除了文献、事实、数据等这些传统的文本、数值信息外,图形、图象、音频、视频等新 型媒体信息急剧增加,异军突起,并逐渐纳入到信息检索的研究视野之内,信息检索的 内涵也随之变的丰富起来。当前,信息检索类型出现了一种新的三分方法,即:全文检 索、数值检索、音频与视频检索。 ( 1 ) 全文检索 全文检索是指以各种自然语言符号系统所表示的信息作为主要检索对象的信息检 索活动。全文检索是传统( 文献) 检索方式的延续,目前在信息检索领域仍占据主要地 位并不断获得新的发展,例如:从早期的结构化书目信息检索到当前的无结构或半结构 化的自由全文检索;从关键词检索到概念检索甚至语义检索;等等。 ( 2 ) 数值检索 数值检索主要是针对数值型数据的查询而发展起来的一类较有特色的信息检索。数 值检索不仅能检索出符合特定需求的数据信息,而且还可以在此基础上提供一定的数据 运算能力和推导能力。由于数值信息的不断丰富和在某些领域( 例如财经、金融、统计 等) 的广泛应用和推导能力。由于数值信息的不断丰富和在某些领域( 例如财经、金融、 统计等) 的广泛应用,自2 0 世纪7 0 年代起,数值检索逐步获得了独立发展的空间。 ( 3 ) 音,视频检索 音视频检索是主要针对各种数字化音频与视频信息而进行查询的一类新兴的信息 检索操作。目前,有关这类信息的检索技术和检索方法正在研究和探索之中,属于信息 检索研究的前沿领域。 相对于早期对信息检索概念的细化方法,新的三分法比较全面地反映了信息检索概 念的基本内涵和最新发展嘲。 2 2 全文检索技术概述 信息检索领域中,按照新的分类方法,全文检索是最重要的一部分,因为尽管信息 时代产生了大量数字信息,其中文本信息仍是最基本和最常用的形式,文本信息的信息 化存储为其快速检索提供了必要的条件。如何高效的存储和查询文本这种非结构数据, 就是一个很值得研究的问题。这其中以全文检索技术和全文数据库技术成为国内外学者 8 研究的热点。 全文检索( f u l l t e x tr e t r i e v a l ) 是指以全文本信息为主要搜索对象,允许用户 以自然语言根据资料内容而不是外在特征来实现检索的先进查询手段。“文海捞针”是 对全文检索的形象描述,全面、准确和快速是衡量全文检索系统的关键指标。全文检索 技术的出现,导致了信息检索领域的一场革命;比起传统的标引索引来,全文检索技术 提供了全新的、强大的检索功能,是发现信息、分析和过滤信息、信息代理、信息安全 控制等应用的主要技术基础。以全文检索为核心技术的搜索引擎已经成为网络时代的主 流技术之一。 全文检索技术是一种面向全文、提供全文的新型检索技术。国外多从实际角度来理 解全文检索,认为它是基于文献内容进行数字化文档的查询处理,为全文集合建立一个 能精确定位每个字词的索引,克服了传统顺序索引在多文献集合和复杂查询条件下检索 效率低的不足。一些系统还能够将检索结果根据引文数量等因素进行相关性排序”1 。 同时,由于全文检索是一个较新的技术,近年来发展迅速,其理论基础还不够完备, 目前,从广义角度来看,全文检索领域主要包括三方面的内容:全文数据库、全文检索 技术、全文检索系统“1 。 本文第6 章所描述的全文检索系统便是采用g o o g l ed e s k t o ps d k 检索技术开发、 面向教育资源全文数据库的一种基于w e b 的全文检索系统。 2 3 全文检索基本原理 全文检索主要由两方面的核心技术结合而实现;一是建立和维护索引库,二是提供 快速有效的检索机制。因而在设计时,要针对实际应用,确定索引库的数据结构和存储 方式,以及如何从原始文档中抽取有用信息,记录到索引库中,即进行全文数据库的组 织和索引。下面以技术最成熟,应用最广泛的基于字表的倒排表法简单介绍一下全文检 索的基本流程,实现原理。 ( 1 ) 扫描源文档,建立索引库 建立一个全文检索系统,首先要将源文档转换为能够进行文本查找的全文数据库, 包括全文的分割处理以及规范格式等,这称为前处理工作,前处理完成后,即可开始建 立索引,先过滤掉源文档中的排版符号,格式控制符等,再把源文档中的每一个字的出 现位置信息记录到索引库中,索引库对每个不同的字符都保存一个字表,记录同个字 在文档中的所有出现位置。建库时只要扫描所有文档,将读到的每个字符的位置信息加 到对应的字表中即可。 9 字表是索引库中最主要的部分,在每个汉字字符对应的字表中,包含该字符出现在 所有文档中的全部位置。为了区分每个位置值属于哪个文档,每个字符的字表被分为多 个字表段,每段对应一个文档,记录该字符在此文档中的出现位置。字表采用倒排文件 结构,如图1 所示。 图1 字表及字表段结构 ( 2 ) 实现全文检索 检索功能的实现就是基于索引的位置匹配。例如对于一个检索词“全文检索”,首 先是找到这四个字相应的索引序列,然后进行匹配运算。假设“全”字在数据块中出现 的位置为第n 个文档中第k 个字节,如果要命中,则“文”字必定也在第n 个文档,而 位置则是第k + 2 个字节。同理,“检”字的位置应该与“索”字相差两个字节,为第n 个文档中的第k + 4 个字节,“索”字为第k + 6 个字节。检索的过程应该如图2 9 7 示”1 : l 文件奂( “全一)n ( k ) i 文件头( “文” n ( k 十2 ) 文件头( “检”) n + 4 ) 文件头( “索”) n ( k + 6 ) 图2 索引数据库的检索 1 0 2 4 全文数据库 全文检索所面向的数据对象是存储于全文数据库中的数据。全文数据库是一种源数 据库,主要存储文献全文或其中的主要部分。全文数据库可以将包括题名、著者、摘要、 关键词、正文、参考文献和著作日期在内的数据全部收入数据库,供用户查询利用。它 也可看作是将经典著作、学术期刊、重要的会议记录、法律法规、新闻报道以及百科全 书、手册、年鉴等的全部文字和非文字内容转换成的计算机可读形式。 由于全文数据库有着众多优点,因此它的利用也一直在不断升温,尤其如今教育的 信息化也使越来越多的纸质教育资源转化为计算机可读的电子化的教育资源,社会对教 育的重视也使更多的人开始关注教育资源的全文检索问题,本文所研究的全文检索系统 就是针对当今流行的教育资源全文数据库所开发的。 2 4 1 全文数据库的特点 与其他数据库或信息源相比,全文数据库有许多优点,主要表现在以下几方面: 1 可直接利用。用户检索全文数据库得到的结果是原始文献的全文信息,而不像 书目数据库那样得到的是文摘或书目之类的二次文献,从而省去了通过二次文献去查找 一次文献的环节。因而,全文数据库又称为自足性数据库。 2 简化数据标引和建库工作。绝大多数全文数据库采取自然语言的计算机自动标 引技术,节省了大量的人力、物力和财力。此外,全文数据库的建立还可以省去许多用 户并不关心的著录项目,比如出版介质、出版单位、印刷单位、价格等等,这些信息对 用户的检索意义不大,但是却在书目数据库的创建中占用了信息加工人员的大量精力。 3 避免了文献二次加工中人为的差错。由于全文数据库包含了二次文献和参考文 献在内的几乎所有数据,而这些数据均出自原文,从而避免了文献二次加工可能出现的 差错。 4 事后处理能力强。由于全文数据库收录的是全文信息,且数据库的容量都比较 大,容易产生检索结果中包含一些不相关信息,因此,全文检索系统一般会对实施检索 所得到的检索结果进行各种优化,诸如检索结果的聚类、图形图象的处理、信息过滤、 反馈机制的使用等。通过增强检索系统的后处理能力,可以进一步满足用户个性化检索 需求。 但由于全文数据库包含的信息量非常大,检索起来比较困难,对检索技术的要求很 高。 2 4 2 全文数据库的功能 在全文数据库中,文本数据库是存放源文档的地方,索引文件是对源文档建立索引 产生的,当用户从索引文件中检索出符合自己需要的文本时,再从文本数据库中取得该 文本返回给用户,整个文本数据库和索引库在整个全文检索系统的地位如图3 所示“1 : 图3 全文数据库系统功能简图 由图3 可知,全文数据库必须实现以下功能: ( 1 ) 存储文档。 ( 2 ) 当文档插入、更新时通知系统更新全文索引库 ( 3 ) 读取文档。 目前构造全文数据库主要有两种方式:使用关系数据库系统构造和使用文件系统构 造。以下就围绕全文数据库的功能介绍一下全文数据库的构建。 2 4 3 全文数据库的构建 2 4 3 1 使用关系数据库系统构建 关系数据库几乎是当前数据库系统的标准,结构化查询语言常规编程语言一起使用 几乎可以完成任意的数据库操作,但其简单的建模能力、有限的数据类型、程序设计中 数据结构的制约等却成了关系型数据库发挥作用的瓶颈。 使用关系型数据库存储文本数据,要把其倒排索引表也存入数据库中,通过标准的 数据库访问接1 :3 可以很容易的实现存储,修改,删除文本的功能。再通过s o l 语言在索 引表中查询也可以实现全文检索功能。目前国内外许多研究全文检索的文献,其全文检 索系统的实现多数都是基于关系型数据库开发的,或是使用通用数据库系统提供的全文 检索功能开发的。不过基于关系数据库、使用结构化查询语言( s o l ) 实现全文检索效率 不高,也有诸多缺点”1 : ( 1 ) 查询速度慢 全文数据量大,检索范围广,大多数关系数据库管理系统都是直接或间接通过s o l 来对数据进行操作,关系数据库屏蔽了底层系统,呈现给用户的是它的高层接口。据统 计,一条s o l 语句由于要进行查询优化,转化为底层语言再执行,其执行时间至少是 l o r e s ,而全文检索若从数据库中取数据的话,往往需要与数据库管理系统交换很多次, 这比起用文件系统基本语句的m s 级有着很大差别”1 。 ( 2 ) 无法处理非结构化数据 全文数据长短不一,结构各不相同,而关系数据库的结构定义是固定的,数据长度 受限制,不支持重复字段、子字段以及变长字段。因此没有办法处理全文信息等非结构 信息时,只有依靠人工的标引,既费时、又费力,而且造成了数据库空间的浪费。 ( 3 ) 维护极其困难 由于全文数据的庞大以及众多的位置关系,会产生繁多的表,这在进行插入、删除、 更新等数据操作非常繁琐。此外,关系数据库系统的维护事务以及表与表间的数据依赖, 这样造成了数据操作的效率再打折扣。 鉴于以上原因,在关系型数据库基础上实现的全文检索效率很低。全文数据的非结 构化的特征意味着不宜采取结构化的关系型数据库来存储,而目前国内的一些全文检索 系统实际上就是通过对存储于关系数据库中的一系列结构化的数据,如标题、作者、关 键词、文摘等进行模糊的检索查询,以获得全文。 由于教育资源的多样性,本文所研究的教育资源库全文检索系统所基于的全文数据 库就不适于采取关系数据库的建库方式。 2 4 3 2 使用文件系统构建全文教据库 由于教育资源这类全文数据的非结构化,本文所开发的全文检索系统便是基于文件 系统构建的全文数据库。下面简单介绍一下使用文件系统构建全文数据库的方法: ( 1 ) 文本数据库直接使用文件系统建立,文本的描述数据,根据其来源以其他形 式存放,如x m l 文件、数据文件d a t ,也可以存放在关系数据库中。 ( 2 ) 建索引时,对源文档和其描述数据关联在一起建立索引表,描述数据直接存 入索引表中,对索引表使用相应的索引文件格式存放。 ( 3 ) 使用程序语言实现检索过程,对检索到的描述数据直接从索引文件中取,源 文从其文件系统中取。 这样,所有的数据都集成在文件中,检索时,在索引文件中查找,取数据时,描述 数据直接在索引文件中取,正文数据直接链接到源文件。使用文件系统存储文档建立全 文数据库时,文本的添加、删除、更新可以直接通过文件系统来实现,这样一个全文数 据库只实现数据的增、删、改、查找、获取,而不涉及其他复杂的事务处理等。它的体 系结构如图4 所示: 图4 全文数据库体系结构简图 用这种方法建立全文数据库可以直接利用操作系统提供的文件系统实现,其建库方 便、直接,对软件环境依赖少,也不需要后台关系数据库,系统间的耦合少。并且可以 将文档存放在不同的计算机上,以满足不同应用的需要。 使用文件系统构建全文数据库有两个依据,如下: ( 1 ) 无论关系数据库还是全文数据库最终数据都是以文件的形式存在的。数据库 实现的基础是文件,对数据库的任何操作最终要转换为对文件的操作。当前占主流的关 系数据库是文件系统的发展。文件系统中每个文件存储同样实体的数据,各文件是孤立 的,没有体现实体之间的联系,关系数据库中,数据的物理组织必须体现实体之间的联 系,支持数据库的逻辑结构,因此数据库要存储四方面的数据:数据描述( 即数据外模 式、模式、内模式) 、数据本身、数据之间的联系和存储路径,这四个方面的数据都要 采取一定的文件组织方式组织存储起来。 而全文数据库可以说是介于文件系统和关系数据库之间的体系结构,它一般包含的 实体少,实体间的关联也少,结构相对简单,对事务性和并发性要求不高。所以一般情 况下,基本的检索过程应采用文件系统来实现,这样使得查询直接、快速,有效提高执 行速度。 ( 2 ) 全文数据库不需要事务支持。由于全文数据库对数据的操作主要是读,写数 据主要就是插入,插入数据都是间隔一定时期,积累一定数量的文献才进行的,在插入 数据时也不需要锁住读操作,对数据库的删除和修改操作很少。所以数据库不需要事务 支持,这样就在效率上实现很大提高”。 全文检索库和关系型数据库的对比如表格1 所示: 1 4 表格1 全文检索库与关系数据库对比 ”“一 “ 全文检索库与关系型数据库对比 。 s 对比项全文检索库关系型数据库 以文本检索为主,插入插( i n s e r t ) 、删除( d e l e t e ) 、修改 ( i n s e r t ) 、删除( d e l e t e ) 、 ( u p d a t e ) 十分方便,有专门的s q l 命令, 核心功能 修改( u p d a t e ) 比较麻烦,适但对于大文本块( 如c l o b ) 类型的检索 合于大文本块的查询。效率低下。 与o r a c l e 类似,都可以建多个可以建多个库,每个库一般都有控制文件 库 库,且各个库的存储位置可以和数据文件等,比较复杂。 不同。 没有严格的表的概念,比如有严格的表结构,有主键,有字段类型等。 表l u c e n e 的表只是由入库时的定 义字段松散组成。 由于没有严格表的概念,所以 r e c o r d ,与表结构对应。 记录体现为一个对象,在 记录 l u c e n e 里记录对应的类是 d o c u m e n t 。 字段类型只有文本和日期两字段类型丰富,功能强大。 字段种,字段一般不支持运算,更 无函数功能。 查询 在l u c e n e 里表不虿词结果集在j d b c为例, r e s u l t s e t 的类是h i t s ,如h i t s( r e c o r d l ,r e c o r d 2 ,r e c o r d 3 ) 结果集 ( d o c l ,d o c 2 ,d o c 3 ) 正是由于上述原因,当前主流的大型搜索引擎,其后台存储系统的设计也都是基于 文件系统的。本文所设计的教育资源库全文检索系统,也是针对这样一种全文数据库进 行开发的。 2 5 本章小结 全文检索技术是信息检索领域中最重要的一部分,本章由浅入深介绍了信息检索的 起源与发展和分类,进而详细阐述了全文检索技术的基本原理,然后引出全文检索所面 向的对象- 全文数据库的概念。本文所研究的全文检索技术也是基于这样的教育资源 全文数据库所进行的,本章的内容为下文能够更清晰明了地阐述问题做了很好的铺垫。 全文检索系统的分析研究 如果从零开始完全
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年汽车制造业新能源汽车技术发展与市场前景研究报告
- 2025年智能家居市场前景及发展方向研究报告
- 2025年绿色环保产业发展前景研究报告
- 2025年智能家居行业可穿戴设备应用与前景展望报告
- 2025年机器人行业机器人服务市场前景研究报告
- 2025年生物科技行业生物医学工程在康复医学中的应用前景研究报告
- 2025年智能网联汽车行业自动驾驶技术发展与市场前景研究报告
- 2025年虚拟现实产业发展前景报告
- 商场冬季用电安全培训课件
- 商场全年安全培训方案课件
- 电梯从业证考试试题及答案解析
- 第九讲 全面依法治国PPT习概论2023优化版教学课件
- 新媒体文案写作PPT完整全套教学课件
- 《细胞》PPT课件-完美版
- 托育园厨师安全工作责任书
- 《编程猫系列》第1课-Hello-编程猫(课件)
- GB 16899-2011自动扶梯和自动人行道的制造与安装安全规范
- 非典型骨折课件
- 封闭区倒塌围墙修复施工方案
- 户口本翻译样本-Word范文-Word范文
- 企业融资计划书2022
评论
0/150
提交评论