(计算机应用技术专业论文)信息检索技术在期刊资源整合中的研究及应用.pdf_第1页
(计算机应用技术专业论文)信息检索技术在期刊资源整合中的研究及应用.pdf_第2页
(计算机应用技术专业论文)信息检索技术在期刊资源整合中的研究及应用.pdf_第3页
(计算机应用技术专业论文)信息检索技术在期刊资源整合中的研究及应用.pdf_第4页
(计算机应用技术专业论文)信息检索技术在期刊资源整合中的研究及应用.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(计算机应用技术专业论文)信息检索技术在期刊资源整合中的研究及应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 在高校图书馆,期刊是被利用最多、信息价值最高、处于“龙头” 地位的一种文献。期刊具有出版周期短、内容新颖、信息量大、能系 统地反映最新科技动态等特点,是高校师生从事教学和科研活动的 必备资料。但是期刊资源种类繁多、数据量大、形式各异,不同的期 刊资源往往具有独立的数据库、检索系统和发布系统,这使得图书馆 的期刊资源比较分散杂乱,给读者的检索和利用造成了许多不便。为 此,我们需要对期刊资源进行整合,建立一个统一的检索平台,有效 地促进期刊资源的有序化,实现不同类型的期刊资源的访问,从而保 持知识体系的整体性和关联性,提高期刊资源的利用率及读者的检 索效率。 本文对元数据的类型、结构、格式以及都柏林核心元数据集进行 了深入的研究,选择目前国际通用的广泛用于资源检索的都柏林核心 元数据标准作为参考,并结合中南大学图书馆的实际,设计了期刊资 源元数据元素格式。其次,对期刊资源整合的基本原则和整合的方式 也进行了深入地研究,并对期刊资源进行了导航整合和基于元数据的 整合。接下来,论文对实用分类系统这一种新兴的概念建模工具进行 了探讨,提出了将实用分类系统融合到信息检索技术中去的思路。 论文详细阐述了基于实用分类系统的信息检索系统的总体设计 思想以及系统各个功能模块的具体实现过程,并对研究和开发工作进 行了总结,对未来的工作进行了展望。本文的研究工作,对数字图书 馆期刊资源整合的建设和发展打下了良好的基础。 关键词:信息检索,元数据,期刊资源整合,实用分类系统 a b s t r a c t i n t h eu n i v e r s i t yl i b r a r i e s ,t h ep e r i o d i c a li so n ek i n do fl i t e r a t u r et h a t h a sb e e n m o s t l yu s e da n dh a st h eh i g h e s ti n f o r m a t i o nv a l u ea n di sa tt h e m o s ti m p o r t a n tp l a c e t h ep e r i o d i c a lh a ss h o r tp u b l i cc y c l e ,f r e s hc o n t e n t a n dh u g ei n f o r m a t i o n i tc a ns y s t e m a t i c a l l yr e f l e c tt h en e w e s tt e c h n i c a l t e n d e n c ya n ds oo n ,s oi t i st h en e c e s s a r ym a t e r i a lf o rt h eu n i v e r s i t i e s t e a c h e r sa n ds t u d e n t st ob ee n g a g e di nt h et e a c h i n ga n dt h es c i e n t i f i c r e s e a r c ha c t i v i t y b u tt h ep e r i o d i c a lr e s o u r c e sh a v em a n y t y p e s ,h u g ed a t a q u a n t i t ya n dd i f f e r e n tf o r m s a n da l s od i f f e r e n tp e r i o d i c a lr e s o u r c e so f t e n h a st h ei n d e p e n d e n td a t a b a s e ,t h er e t r i e v a ls y s t e ma n dt h ei s s u es y s t e m , t h i sc a u s e st h ep e r i o d i c a lr e s o u r c e so ft h el i b r a r yd i s p e r s i b l ed i s o r d e r l y a n dc a u s e sm u c ht r o u b l et ot h er e a d e r sr e t r i e v a la n du s e t h e r e f o r e ,w e n e e dt oc a r r yo nt h ei n t e g r a t i o nt ot h ep e r i o d i c a lr e s o u r c e sa n db u i l da u n i f i e dr e t r i e v a lp l a t f o r mi no r d e rt oe f f e c t i v e l yp r o m o t et h ep e r i o d i c a l r e s o u r c e so r d e r l ya n dr e a l i z et h ea c c e s sb e t w e e np e r i o d i c a lr e s o u r c e sw i t h d i f f e r e n tt y p e s t h u si tc a nk e e pt h es y s t e mi n t e g r i t ya n dt h ec o n n e c t i o n o ft h ek n o w l e d g es y s t e ma n de n h a n c e st h eu s ef a c t o ro ft h ep e r i o d i c a l r e s o u r c e sa n dr e a d e r s r e t r i e v a le f f i c i e n c y f i r s t l y , t h i sp a g e rh a sc o n d u c t e dt h o r o u g hr e s e a r c ho nt h et y p e ,t h e s t r u c t u r ea n dt h ef o r mo ft h em e t a d a t aa sw e l la sd u b l i nc o r e a c c o r d i n g t ot h er e a l i t yo fo u rl i b r a r y , w eh a v ee s t a b l i s h e dm e t a d a t af o r mo ft h e p e r i o d i c a lr e s o u r c e sb yt h ed u b l i nc o r es t a n d a r dt h a ti sg e n e r a lw i d e l y u s e di nt h er e s o u r c e sr e t r i e v a la tp r e s e n t s e c o n d l y ,t h i sa r t i c l ea l s oh a s s t u d i e dt h o r o u g h l yo nt h eb a s i cp r i n c i p l ea n dt h ew a yo ft h ep e r i o d i c a l r e s o u r c e si n t e g r a t i o na n dh a sc a r d e do nt h ei n t e g r a t i o no ft h ep e r i o d i c a l r e s o u r c e sb a s e do nt h em e t a d a t a n e x t ,t h ep a p e rc a r d e do nt h ed i s c u s s i o n t ot h eo n t o l o g yt h a ti sak i n do fe m e r g i n gc o n c e p tc o n d u c t i o nt o o l sa n d p r o p o s e dt h em e n t a l i t yt om a k et h eo n t o l o g yf u s ei n t ot h ei n f o r m a t i o n r e t r i e v a lt e c h n o l o g y t h ep a p e re x p l a i n e dd e t a i l e da b o u tt h em a i nd e s i g nt h o u g h to f t h e i n f o r m a t i o nr e t r i e v a ls y s t e mb a s e do no n t o l o g ya n dr e a l i z a t i o np r o c e s so f e a c hf u n c t i o nm o d u l e a n di tt a x i e do i lt h es u m m a r yw i t ht h ew o r ko f t h er e s e a r c ha n dd e v e l o p m e n ta n dc a r r i e do nt h ef o r e c a s tt ot h ef u t u r e w o r k t h er e s e a r c hw o r ki nt h i sd i s s e r t a t i o nh a sl a i dag o o df o u n d a t i o n f o rt h ec o n s t r u c t i o na n dd e v e l o p m e n to f t h ep e r i o d i c a lr e s o u r c e i n t e g r a t i o nad i g i t a ll i b r a r y k e y w o r d s : i n f o r m a t i o n r e t r i e v a l ,m e t a d a t a , p e r i o d i c a l r e s o u r c e i n t e g r a t i o n ,o n t o l o g y 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其它单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。 作者签名:虚查日期:丝年月五日 关于学位论文使用授权说明 本人了解中南大学有关保留、使用学位论文的规定,即:学校有 权保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位论 文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论文; 学校可根据国家或湖南省有关部门规定送交学位论文。 日期:鱼孥年上月卫日 中南大学硕士学位论文第一章绪论 1 1 研究背景及意义 第一章绪论 本课题依托于中南大学“2 1 1 工程”、“9 8 5 工程”建设子项目“数字图 书馆建设”,是信息化校园的重要组成部分。在高校图书馆,期刊是被利用最多、 信息价值最高、处于“龙头”地位的一种文献。期刊具有出版周期短、内容新颖、 信息量大、能系统地反映最新科技动态等特点,是高校师生从事教学和科研活动 的必备资料。但是期刊资源种类繁多、数据量大、形式各异,不同的期刊资源往 往具有独立的数据库、检索系统和发布系统,这使得图书馆的期刊资源比较分散 杂乱,给读者的检索和利用造成了许多不便。为此,我们需要对期刊资源进行整 合,建立一个统一的检索平台,有效地促进期刊资源的有序化,实现不同类型的 期刊资源的访问,从而保持知识体系的整体性和关联性,提高期刊资源的利用率 及读者的检索效率。 在未来数字图书馆服务中,考虑采用信息检索系统中的自动分类、聚类技术 对海量数据进行分析,从中发现有用的关系和规则,提高数据资源的利用率,对 用户检索所需求的信息,有着重要的意义。实现了不同期刊资源之间的沟通:最 大限度地保持了知识体系的完整性:使用户获得高质量、可信赖的期刊信息资源 成为可能:拥有统一的用户交互接口,提高了检索效率及资源使用率,响应速度 快:具有信息代理和信息推送功能;具有分类元数据管理功能;便于制定期刊资 源研发的标准化,按整合的原则要求来生产数字产品;便于图书馆做各方面的期 刊资源统计( 访问量、使用率等) ,实时指导图书馆的运作;以知识交流活动为 中心的知识传递活动可以提高知识获取效率,增强研究型大学的科研能力和创新 能力。 1 2 研究现状 1 期刊资源整合研究现状 期刊“8 是指按卷和期或者按年和月顺序连续编号,用比较稳定和统一的名 称,定期或不定期的连续出版物。 所谓期刊资源整合,是指依据一定的需要和要求,通过中间技术把不同来源 中南大学硕十学位论文第一章绪论 和不同通信协议的信息完全融合,使不同类型、不同格式的期刊资源实现无缝连 接。通过整合的数字资源系统,具有集成检索功能,是一种跨平台、跨数据库、 跨内容的新型数字资源体系。国内外的研究现状与水平如下: ( 1 ) 国外研究现状与水平 最早数字资源整合的实践是由荷兰著名的学术期刊出版商e i s e v i e r s c i e n c e 公司推出的s c i e n c ed i r e c t 系统,从1 9 9 7 年开始建立基于w e b 的数字 化出版平台,e l s e v i e r s c i e n c e 的1 1 0 0 种期刊全文上载( 目前为止,已经有1 7 0 0 种) ,供图书馆及读者远程检索和获取。又如,著名科技出版商s o t i l l g e r 建立 了l i n k 系统,将自己所有的4 0 0 种期刊及部分电子版图书上网,并联接了其他 出版商的电子期刊。同时,l i n k 还提供多种新的服务,如电子论坛服务、快报 服务等。此外,s p r i n g e r 还与文摘索引商( 如i s i 、s i n 、s i l v e r p l a t t e r ) 合作, 将文摘索引数据库的检索结果与l i n k 全文数据库联接起来。国外的一些著名大 学图书馆都已经采用了“跨数据库”的技术。如哈佛大学在图书馆数字化工程 ( l d i ) 中,为了降低数据库使用环境的复杂程度,就采用了各种跨数据库技术, 一种是用一个简单的命令就可以对多个数据库进行检索的技术,另一种技术是从 多个已有的数据库中提取数据的超级数据库技术,这些技术很方便地为读者在多 个数据库之间进行导航。 ( 2 ) 国内研究现状与水平 国内成功的案例有:中国试验型数字式图书馆,它的数字图书馆应用系统是 进行数字化建设及整合各类数字资源的基础平台,实现资源的深层标引和分布式 资源库的跨库链接;清华大学、上海交通大学电子期刊的导航系统。清华同方的 t p i 、北京的t r s 等,它们均利用文献的u r l 建立关联实现资源整合。国内也出 现跨库链接成功的实践,如清华大学数字图书馆中已经开始进行异构数据库的联 合检索,该系统可以对科学文摘( i n s p e c ) 、美国工程索引( e i ) 和剑桥科学文摘 ( c s a ) 进行联合检索,其中c s a 本身就是一个可以同时检索多个数据库的检索系 统。国内清华同方的“知识资源总库”的建设,在资源整合方面又有许多值得注 意的新进展。 2 信息检索技术研究现状 信息检索( i r ,i n f o r m a t i o nr e t r i e v a l ) 是一门致力于如何对大容量信息进 行有效地存储与获取的科学。广义的i r 通常是指在一定的技术设备环境条件下, 对以某种方式组织的信息资源按其表达方式,依据特定用户的需求,制订构造策 略,构造检索表达方式以实现检索目标过程的总称。而信息检索系统( i r s , i n f o r m a t i o nr e t r i e v a ls y s t e m ) 则是借助计算机技术手段来存储信息以满足日 后信息查询需要的一种检索工具。目前,国内外研究的信息检索模型主要有以下 中南大学硕士学位论文 第一章绪论 几种: ( 1 ) 布尔模型。1 ;布尔模型是一种简单而常用的严格匹配模型。它将用户提 问表示成布尔表达式,使用逻辑运算将提问词连接起来,其中每个提问词表达了 用户的一个兴趣。其组织形式分为顺排文档和倒排文档两种。布尔模型能提供位 置检索、截断检索、自然语言检索等多种检索途径。国内出现的中文检索系统如 易宝北信的t r s 、北大方正的m i r s 及清华大学的中国学术期刊( 光盘版) 全 文检索系统都采用了布尔模型。 ( 2 ) 概率模型。1 :概率模型根据词条、文档间的内在联系。利用词条问和词 条与文档间的概率相依性来进行信息检索。概率推理网络模拟人脑的推理思维方 式,将文档内容与用户查询匹配的过程转化为一个从文档到查询的推理过程。文 本网络与用户查询网络由文本概念表示节点与提问概念表示节点之间的链连接 起来。每一节点有一个概率值,通过给定文本节点的先验概率及中间节点的条件 概率可以得到每一节点的后验概率,从而得到文本与用户提问的匹配程度。美国 马萨诸塞大学依据概率模型开发了i n q r e r y 文本检索系统。 ( 3 ) 向量空间模型。1 :向量空间模型将文档看作是由相互独立的词条组“l , t 2 ,t n ) 构成,对于每一词条t i ,都根据其在文档中的重要程度赋予一定 的权值w i ,并将t 1 ,t 2 ,t n 看成一个n 维坐标系中的坐标轴,w 1 ,w 2 , w n 为对应的坐标值。这样由( t l ,t 2 ,t n ) 分解而得的正交词条矢量组就 变成了一个文档向量空问,文档则映射成为空间中的一个点。对于所有文档和用 户查询都可映射到此文本向量空间,用词条矢量( t 1 ,w l ,t 2 ,w 2 ,t n ,w n ) 来 表示,从而将文档信息的匹配问题转化为向量空间中的矢量匹配问题处理。 s m a r t 系统就是美国康乃尔大学基于向量空问模型开发的一种文本检索系统。 3 实用分类系统研究现状 实用分类系统应用非常广泛,在图书馆学和信息学领域主要体现在两个方 面。首先是数字化文献的处理,例如把实用分类系统作为文献写作( d o c u m e n t c o m o s i t i o n ) 软件的语义支持,使语义标记在文献写作的过程中同时产生。k l e i n 等人提出把实用分类系统作为以可扩展置标语言为基础的文献的框架,也有人做 过尝试用实用分类系统把关键词、目标和关系条件、数据库结构配合在一起,从 无一定结构的文献中抽取结构信息从而使其变成有结构的文献,或者用实用分类 系统来做为元数据的框架以便从半结构的文献中直接抽取元数据。另个实用分 类系统在图书馆信息领域的应用是检索,例如文献归类( t e x tc a t e g o r i z a t i o n ) , 利用语言实用分类系统如w o r d n e t ( h t t p :w w c o g s c i p r i n c e t o n e d u w n ) 来 给文献中的用词阐明含义,以提高处理检索提问的精确性,利用领域实用分类系 统来提供概念浏览和检索。 3 中南大学硕士学位论文第一章绪论 实用分类系统的方法还被用于制作数字化教学资源“1 。美国加州大学圣巴巴 拉分校的亚历山大数字地球模型系统( a l e x a n d r i ae a r t hp r o t o t y p e p r o j e c t ,a d e p t ) 项目为了将其资源用于教学,组织计算机、图书馆信息学、以及 地理科学专家共同建立了一个用于表达科学概念的实用分类系统,该系统结合叙 词表、数据库、可扩展置标语言的技术,把地理科学中的概念、关系、特性、实 例等建造了一个知识库,使教师能够直接利用知识库中的成分来动态地编制教学 资料。 1 3 研究的主要内容 本课题研究的主要内容就是对期刊资源进行信息检索。信息检索是依据一定 的需要,对我校数字图书馆统一平台中的数据进行研究。具体如下: 1 数字图书馆期刊资源的整合实现 对期刊资源的整合有期刊导航整合、平台整合和基于元数据的期刊资源整合 三种方式,并将全部整合至自建平台上。期刊资源的整合主要包括对c n k i 中国学 术期刊网、万方数据库、维普全文期刊数据库等中文数据库的整合。对于期刊资 源的整合我们主要整合其母体文献、卷期和单篇等元数据。 2 期刊资源实用分类系统的设计与实现 利用我校图书馆现有的期刊资源元数据,对图书馆各种期刊信息资源进行分 类,从不同的视角来观察期刊资源的利用情况。分类的角度可以从学科专业( 中 图法图书分类) 、馆藏分布、文献类型、语种、年代等进行划分,来分析期刊资 源的配置、利用率、使用价值以及不同学科之间的关联,为期刊资源实用分类系 统的建立提供科学依据。用于期刊信息检索的实用分类系统由计算机科学技术领 域词汇实用分类系统和期刊实用分类系统组成。 3 期刊资源信息检索系统模型的设计与实现 本课题拟将建立一个基于实用分类系统的信息检索系统。检索系统模型将采 用j s p 的第一种模式,即j s p 与j a v a b e a n 模式进行丌发。为了满足不同用户的 需要,本文中的检索模型中运用到了不同的检索方式。对于不同的用户来说,用 户可以根据自己的实际情况来选择合适的检索方式,从而提高检索效率。 1 4 研究方法 1 基于元数据的期刊资源整合 本文中对期刊资源进行整合的主要思想是将所有期刊元数据格式进行统一 4 中南大学硕士学位论文第一章绪论 化、规范化操作,然后将所有这些元数据加入到自己建立的期刊数据库中去。这 里我们进行的统一化、规范化操作主要是指将要导入的所有期刊数据库元数据采 用统一的x m l 语言格式进行描述,这样为以后的数据交换和转储打下良好的基 础。然后再将这些以x m l 格式描述的期刊资源元数据导入到自己的期刊数据库中 去。 对期刊资源的整合中将采用以下两种软件技术6 1 :第一种是j s p 技术。它的 基本思想是允许在标准的h t m l 页面中嵌入脚本,使用这些脚本可执行诸如数据 库查询、增添、删除等功能和调用执行特定任务的a c t i v e x 控件,从而可以容易 地建立动态、交互且离效的w e b 服务器应用程序。第二种是中间件技术。它是一 些软件服务的集合,这些软件服务能够提供一个简易的方式来实现客户机服 务器应用程序,从而使用户不用亲自对所需的全部分布式服务进行编码。 2 基于实用分类系统的信息检索技术 本文的研究思路是编制出期刊资源在计算机科学技术部分领域内的实用分类 系统,以对用户提供该领域内的高精度信息检索服务。拟采用的信息检索方法是 基于关键词匹配的方法,这种方法首先让用户以关键词的形式提出检索请求,然后 将用户提交的关键词与期刊资源数据库进行匹配,最后将那些出现了用户所提交 的关键词的期刊资源作为检索结果返回给用户。具体过程如图卜l 所示: 1 5 论文的组织 图卜1 系统过程示意图 论文全文共分为六章: 第一章为绪论。主要介绍课题的研究背景及意义、研究现状、研究内容和研 究方法。 第二章简要介绍了信息检索基本理论。这一章阐述了信息检索类型、信息检 5 中南大学硕士学位论文第一章绪论 索原理、信息检索模型以及信息检索技术效果评价标准等内容。 第三章介绍了对期刊资源整合的研究。这一章探讨了国内外不同的元数据格 式,并结合本馆的实际情况,提出了合适的期刊资源元数据格式,进行基于元数 据的期刊资源整合研究。 第四章综合介绍了基于实用分类系统的信息检索技术研究。包括实用分类系 统的定义、编制以及期刊资源实用分类系统的设计与实现。 第五章介绍了基于实用分类系统的信息检索模型的设计和实现过程以及最 终结果。包括系统所用的期刊资源数据库的结构,检索各个模块的功能以及检索 的关键代码部分等。 第六章为全文总结与展望。总结了全文及研究成果,并就基于实用分类系统 的信息检索原型系统的未来发展前景进行了展望。 6 中南大学硕士学位论文第二章信息检索技术理论综述 第二章信息检索技术理论综述 信息检索( i n f o r m a t i o nr e t r i e v a l ) ,又称为情报检索,萌芽于图书馆的参 考咨询工作,2 0 世纪6 0 年代才固定成专用术语。“检索”一词源自英文 “r e t r i e v a l ”,其涵义是“查找”。将大量相关信息按一定的方式和规律组织和 存储起来,形成某种信息集合,并能根据用户特定需求快速高效地查找出所需信 息的过程称为信息检索。从广义上讲,信息检索包括存储过程和检索过程;对信 息用户来说,往往仅指查找所需信息的检索过程。信息检索实质就是把表达用户 信息需求的提问特征,同检索系统中的信息特征标识进行类比,从中找出一致的 信息嘲。 2 1 信息检索基本理论 2 1 1 信息检索类型 信息检索可以按照不同的标准划分成各种类型。 l - 按检索内容区分 按检索内容区分,信息检索可以分为数据信息检索、事实信息检索和文献信 息检索。 ( 】) 数据信息检索 数据信息检索( d a t ai n f o r m a t i o nr e t r i e v a l ) 旧”1 是将经过选择、整理、鉴 定的数值数据存入到数据库中,根据需要查出可回答某一问题的数据的检索,又 称“数值检索”。这样的数值数据各种各样,既包括物理性能常数、统计数据、 人口数据、国生产总值、外汇支收、电话号码、观测数据等数字数据,也包括图 表、图谱、市场行情、化学分子式、物质的各种特性等非数字数据。数据检索不 仅能查出数据,而且能提供一定的运算、推导能力。数据检索是一种确定性检索, 信息用户检索到的各种数据是经过专家测试、评价、筛选过的,从而为定量分析 提供依据。 ( 2 ) 事实信息检索 事实信息检索( f a c ti n f o r m a t i o nr e t r i e v a l ) 删例是将存储于数据库中的关 于某一事件发生的时间、地点、经过等情况查找出来的检索,又称“事项检索”。 中南大学硕士学位论文第二章信息检索技术理论综述 它既包含数数值数据的检索、运算、推导,也包括事实、概念等的检索、比较、 逻辑判断。事实检索是信息检索中最复杂的种,要求检索系统必须有一定的逻 辑推理能力和自然语言理解能力。目前,许多事实检索课题仍需靠人工完成,但 已有一些试验性的计算机事实检索系统。事实检索也是一种确定性检索,用户获 得的是有关某一事物的具体答案。完成事实信息检索主要借助于各种指南数据库 和全文数据库。 ( 3 ) 文献信息检索 文献信息检索( d o c u m e n ti n f o r m a t i o nr e t r i e v a l ) ”是将存储于数据库中 的关于某一主题文献的线索查找出来的检索。它通常通过目录、索引、文摘等二 次文献,以原始文献的出处为检索目的,可以向用户提供有关原文献的信息。凡 是查找某一主题、时代、地区、著者、文种的有关文献,以及回答这些文献的出 处和收藏处所等,都属于文献信息检索的范畴。文献检索是信息检索的核心部分, 它较之数据检索和事实检索内容更为丰富,方法更为多样。文献根据检索内容不 同又可分为书目检索和全文检索。 书目检索”3 是以文献线索为检索对象的文献检索,即检索系统存储的是“二 次文献”。它们是文献的外表特征与内容特征的描述。信息用户通过检索获得的 是与检索课题有关的一系列文献线索,然后再通过阅读决定取舍。 全文检索是以文献所含的全部信息作为检索内容的,即检索系统存储的是 整篇文章或整部图书的全部内容。检索时可以查到原文以及有关的句、段、节、 章等文字,并可进行各种频率统计和内容分析。全文检索主要是用自然语言表达 检索课题,是当前计算机信息检索的发展方向之一。 2 按检索方式区分 按检索方式区分,信息检索一般分为手工检索和计算机检索。 ( 1 ) 手工检索 手工检索( h a n dr e t r i e v a l ) ”是指用人工处理和查找所需信息的检索方式。 手工检索的特点是方便、灵活、判别直观,可随时修改检索策略,查准率较高。 不足的是检索速度较慢,漏检现象比较严重,不便于进行复杂概念课题的检索。 ( 2 ) 计算机检索 计算机检索( c o m p u t e rr e t r i e v a l ) ”,又称“机器检索”,是利用计算机和 一定的通信设备查找所需信息的检索方式。它需要计算机、通讯硬件设施、系统 软件和应用软件。利用这种方式能对大量的信息进行存储,并可以根据用户要求 从己存储的信息中迅速抽取特定信息,并提供插入、删除、修改等功能。计算机 检索的特点是速度快、效率高、查全率较高。不足之处是成本高、费用大,查准 率通常不尽如人意。目前广泛使用的计算机检索系统包括光盘检索系统、联机检 中南大学硕士学位论文第二章信息检索技术理论综述 索系统和网络检索系统。 2 1 2 信息检索原理 1 信息检索策略 所谓检索策略”1 就是为实现检索目标而制定的计划或方案,是对整个检索过 程的谋划和指导。换言之,它是对信息检索过程的安排。在计算机检索的条件下, 检索策略的构造通常应是在明确检索目标和信息需求的基础上进行的,包括选择 检索数据库,确定检索项,选定检索范围和检索方法,运用逻辑算符拟定检索表 达式,按照一定的检索步骤实施检索,并根据需要进行反馈调整等。 计算机检索,实质上是由计算机将输入的检索策略与系统中存储的文献信息 特征标识及其逻辑组配关系进行类比、匹配的过程。由于信息需求本身具有不确 定性,加之对数据库中的文献信息特征标识不能充分了解,以及系统功能的某些 限制,都会不同程度地影响检索效果。但只要制定良好的检索策略,遵循一定的 检索步骤,便可以尽可能的使检索提问标识与信息需求和检索系统保持良好的一 致性,从而在系统中检索出满意的信息。 计算机检索策略的制定一般经过选择检索系统,确定检索词,构造检索表达 式,实施检索策略,修改检索策略五种程序。 ( 1 ) 选择检索系统 选择检索系统的关键是数据库的选择。因为数据库的类型和学科范围不同, 决定了它适合于不同的检索对象和满足于不同的检索需求。选择数据库时必须从 以下几个方面考虑。 a 数据库收录的信息内容所涉及的学科范围。 b 数据库收录的文献类型、数量、时间范围以及更新周期。 c 数据库所提供的检索途径、检索功能和服务方式。 ( 2 ) 确定检索词 检索词是表达信息需求和检索课题内容的基本单元,也是与系统中有关数据 库进行匹配运算的基本单元。检索词选择得恰当是否,会直接影响检索效果。 检索词可分为四类”1 :第一类是表示主题的检索词,如标题词( 指经规范化 处理的先组定组式的词汇) 、单元词( 指从信息内容中抽出的最基本的词汇) 、叙 词( 指从信息内容中抽出的、能概括表达信息内容基本概念的名词或术语,它是 经规范化处理的自然语言词汇) 、关键词( 指从信息单元的题目、正文或摘要中抽 出的能表征信息主题内容的具有实质意义的词语,它是未经规范化处理的自然语 言词汇,又称自由词) 。第二类是表示作者的检索词,如作者姓名、机构名等。 第三类是表示分类的检索词,如分类号等。第四类是表示特殊意义的检索词,如 9 中南大学硕士学位论文第二章信息检索技术理论综述 i s b n 号、i s s n 号、引文标引词等。 检索词的选择与确定,主要遵循下列两个原则”1 : 第一,根据检索课题所涉及的学科专业和技术内容选诃。例如,检索“数字 图书中的信息检索技术”方面的文献。为了比较全面确切地表达课题检索的需求, 经深入分析后发现,该课题是想查找有哪些信息检索技术目前已经应用到了数字 图书馆中。因此检索词应选择“”图书情报、“信息检索”、“数字图书馆”。 第二,对检索词进行处理。因为一个概念可以用不同的词来描述,这些词从 不同的角度反映着同一概念的不同内涵。同样,同一个检索词在不同的领域和场 合具有不同的概念含义,而且在数据库记录的不同字段或位置,也会派生出不同 概念含义。 总之,要处理好检索词的切题性和匹配性的关系。选择较上位的概念词作为 检索词,有利于提高检索的匹配性,但却降低了切题性。相反,选择较下位的概 念词,会提高切题性,但却降低了匹配性。因此,需要根据信息需求的类型和检 索的具体情况,合理利用主题词的上、下位关系,正确抽取检索词。 ( 3 ) 构造检索表达式 检索表达式是计算机信息检索中用来表达用户检索提问的逻辑表达式。主要 使用布尔逻辑算符、位置算符、截词符、限制符等,将检索词进行组配,准确地 表达课题需求的内容,以保证和提高检索的查全率和查准率。 在检索表达式中用来连接各词的算符按其功能不同可分为逻辑算符、位置算 符、截词算符、限制符等。 a 逻辑算符:又称布尔逻辑算符,是利用布尔代数中的逻辑运算符来描述检 索词之间的关系。其作用是把若干个检索词或词组连接起来,构成一个检索式的 基本框架,指定文献的检索词必须出现或不出现的条件。 常用的有三种,逻辑“与”( a n d 或 ) 、逻辑“或”( 0 r 或+ ) 、逻辑“非”( n o t 或一) 。使用逻辑“与”算符可以缩小命中范围,起到缩检的作用,得到的检索结 果专指性强,查准率也就高。使用逻辑“或”算符可以扩大命中范围,褥到更多 的检索结果,起到扩检作用,查全率也就高。使用逻辑“非”算符可以缩小命中 范围,得到更切题的检索效果,也可以提高查准率,但使用时要慎重,以免把 些相关信息漏掉。 b 位置算符:是指表示词与词之间位置关系的符号。其作用是对复合检索词 进行加工修饰,限制词与词之间的位置关系,弥补了布尔逻辑算符只是定性规定 检索词的范围,可提高检索结果的查准率。常用的位置算符主要有( w ) ,( n ) ,( s ) , ( f ) ,( l ) 等。 c 截词符:是指在检索词的合适位置进行截断。截词符的作用是对检索词进 1 0 中南大学硕士学位论文第二章信息检索技术理论综述 行截词处理,解决一个检索词的单、复数问题,词干相同而词尾不同的问题以及 英美词汇拼写差异的问题等。截词检索是指在检索标识中保留相同的部分,用相 应的截词符代替可变化部分进行的检索。常用的截词符有“ ”,“? ”,“$ ”等。 截词的类型有很多,按截断的字符数量可分为有限截断和无限截断。有限截 断是指检索词串与被检索词实现只能在指定位置可以不一致的匹配,常用“? ” 表示,如“计算机? ? ”可以匹配“计算机网络”,“计算机软件”等。无限截断 是指检索词串与被检索词实现词间实现部分一致的匹配,常用“木”表示。其截 断形式有左截断( 又称前截断,后方一致) 、中截断( 又称前后一致,任意一致) 和右截断( 又称后截断,前方一致) 。 d 限制符:其作用是限制检索词或检索式在数据库记录中出现的字段位置。 由上可知,只有根据检索课题的具体情况,灵活地应用各种逻辑方式和检索 技巧,构制合理、恰当的提问表达式,才能取得满意的检索结果。 ( 4 ) 实施检索策略 构建完检索表达式后,就可以实施检索策略了。 计算机检索策略的实施,主要是将构造好的检索提问表达式,输入计算机检 索系统,使用检索系统认可的检索指令进行逻辑匹配运算,并输出( 或显示) 检索 结果。在这个过程中,对检索结果进行阅览和筛选,找出满足信息需求的检索结 果。 因此,如果检索结果内容较多,则要进行二次检索,进行缩检;如果检索结 果内容太少,则要进行扩检;如果检索失败或结果与课题的相关度很小,则需要 更改检索策略。 ( 5 ) 修改检索策略 检索时,应及时分析检索结果,根据检索结果对检索表达式做相应的修改和 调整,直至得到比较满意的结果。 a 检索结果内容较多 产生检索结果信息量过的原因可能有以下两点:一是主题词本身的多义性导 致误检;二是对所选检索词的截词截得太短了。在这种情况下,就要考虑缩小检 索范围,提高检索结果的查准率。修改检索策略的方法如下: a 减少同义词与同族相关词。 b 增加限制概念,采用逻辑“与”连接检索词。 c 使用逻辑“非”算符,排除无关概念。 d 使用字段限制,将检索词限定在某个或某些字段范围。 b 检索结果内容较少 造成检索结果信息量少的原因有以下几点:首先,选用了不规范的主题词或 中南大学硕十学位论文第二章信息检索技术理论综述 某些产品的俗称,商品名称作为检索词:其二,同义词、相关词、近义词没有运 用全;其三,上位概念或下位概念没有完整运用。针对这种情况,就要考虑扩大 检索范围,提高检索结果的查全率。修改检索策略的方法如下: a 选全同义词与相关词并用逻辑“或”将它们连接起来,增加网罗度。 b 减少逻辑“与”的运算,丢掉一些次要的或者太专指的概念。 c 去除某些字段限制。 总之,检索策略的好坏与检索表达式的建立、检索途径的选择、检索词_ 的选 用和检索词之间逻辑关系直接相关。一个好的检索策略,既可以优化检索过程, 节省检索时间和费用,又可以获得最佳的查全率和查准率。 2 信息检索步骤 信息检索步骤“1 就是根据既定课题要求,利用检索工具查找有关信息资料的 具体过程。实际上它是信息检索策略的具体化,包括明确需求、分析主题、选择 检索工具或数据库、确定检索词、构造检索表达式、提交检索表达式、显示与优 化检索结果等( 如图2 - 1 所示) 。 2 1 3 信息检索模型 1 布尔检索模型 图2 - 1 信息检索步骤流程图 中南大学硕士学位论文第二章信息检索技术理论综述 布尔模型是一种基于集合理论和布尔代数的简单而常用的严格匹配模型。它 将用户提闯表示成布尔表达式,使用逻辑运算将提闯词连接起来,其中每个提问 词表达了用户的一个兴趣。布尔模型的主要优点在于形式简洁,结构简单。 然而,布尔模型的缺点也是明显的。首先,它的检索策略基于二值判定标准, 文献要么相关,要么不相关,没有级别的变化,这就难以提高检索性能。其次, 尽管布尔表达式有确切的语义,但通常很难将用户的信息需求转换成布尔表达 式。实际上,由用户表述的布尔表达成通常是很简单的,很难用布尔表达式来表 达他们的查询要求。 布尔模型假定主题词在文献中要么出现,要么不出现,因此,文献与主题词 之间的关系非“0 ”即“1 ”,前者表示文献中不包含某主题词,后者表示包含该 主题词。在布尔检索模型中,将文献表示成一个集合,集合中的每个元素都为一 个二元变量,取值非“0 ”即“l ”,表示该元素所代表的主题词是否包含在该篇 文档之内。若包括在文档中,则元素取值为1 ,反之为0 。 在布尔检索系统中,根据用户提出的检索需求,选取适当的检索标识,与布 尔运算符“与”、“或”、“非”共同构成与查询相关的检索提问式,也即相应的布 尔表达式。如将一个用户需求表示为以下运算式: q = t u ( t 2nt 3 ) 公式( 2 - 1 ) 则根据布尔运算,系统将检索出被标引词t 。标引的所有文献,以及被标引词t : 和t 。标引的所有文献。 布尔模型能提供位置检索、截断检索、自然语言检索等多种检索途径。国内 出现的中文检索系统如易宝北信的t r s 、北大方正的m i r s 及清华大学的中国 学术期刊( 光盘版) 全文检索系统都采用了布尔模型。 2 向量空间检索模型 向量空间模型是由g s a l t o n 等人在2 0 世纪6 0 年代提出来的,是效果较好、 近些年来得到广泛应用的一种方法。在向量空间模型中,文档空间d 被看作是 由一组正交词条项( t 。t 2 ,t 。,t 。) 组成的n 维矢量空间,向量空问模型中 的文档被形式化为n 维空间中的向量,空间的一维是倒排表( i n v e r t e di n d e x ) 中的一个元素,形式为:d = ,这样,文档d j 简化为以项的权重为分量的向量表示( w 儿,w j 。,w 。,w ,。) ,权重w j ,表示词 条t ,对文档d ,分类的贡献程度,取值范围是 0 ,1 。对于所有文档和用户查询 都映射到向量空间,从而文档分类过程简化为空间向量的运算,文档信息的匹配 问题转化为向量空间中的矢量匹配问题,大大减小了问题的复杂性。 文档d ,和用户兴趣向量q 均以一个n 维向量的形式表示。文档d j 和用户兴趣 向量q 之间的相关度,或称之为相似度,可以通过余弦法来量化,两向量d ,和q 中南大学硕士学位论文 第二章信息检索技术理论综述 的夹角越小,夹角余弦值越大,则文档与用户兴趣越相似,二者的相关程度越大。 即: s i 吣护端2 公式( 2 - 2 ) 其中,d j 半q 是向量d ,和向量q 的内积,id ,i 和l q j 是文档向量和用户兴趣向量 的模。通过文档与用户兴趣的相似度,可以表示一个文档与用户需求之间的一致 程度,而且这个相似程度是在一定范围内可以连续取值。 向量空间模型中,文档的内容被形式化为多维中间的一点,把文档以向量的 形式定义到实数域中,能够使用模式识别和其它领域中各种成熟的计算方法,因 此具有较强的可计算性和可操作性。向量空间模型的主要优点在于:( 1 ) 关键词 加权提高了检索、用户模型管理的性能:( 2 ) 部分匹配的策略使得检索出的文档 集合与更加接近用户的查询需求;( 3 ) 根据文档与查询之间的相似度,通过余弦 公式对文档进行排序。 3 概率检索模型 概率检索模型试图在概率的框架下解决信息检索问题,其基本思想是:根据 用户的检索q ,可以将文档空间d 中的所有文档分为两类:一类与检索需求q 相 关,另一类与检索需求不相关。在同一类文档中,各个索引项具有相同或相近的 分布;而属于不同类的文档中,索引项应该具有不同的分布。因此,通过计算文 档中所有索引项的分布,就可以判断出该文档与检索的相关度。 概率检索模型中”,在未经检索之前,根据以往的裣索经验估计某一文档对 某一提问属于相关文献或不相关文献的概率,即“先验概率”。通常情况下,用 相关文献总数被检索文献总数,及不相关文献总数被

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论