已阅读5页,还剩68页未读, 继续免费阅读
(应用数学专业论文)基于概念匹配度模型的文献检索系统.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西南交通大学硕士研究生学位论文第1 页摘要在传统的手工文献检索中,科技文献的标引和检索都是人工完成的。随着电子文献的增多,手工处理文献已经显得力不从心,为了对大量的文献进行自动处理,从文献的标引到检索都要用计算机进行处理,从而大大增加了文献处理的数量和速度。信息检索系统经过几十年的发展,取得了长足进展,从基于简单好用的布尔模型的检索系统,到基于向量空间模型、概率模型的检索系统,使信息检索的精度不断提高,但是不同的检索系统对不同的文献会显示出不同的性能。为了提高文献信息检索系统的针对性,对现有检索系统进行改进以适应中文科技文献,是很实用和必要的。如何完善网页文档的表示方法使之更加准确的表示网页的实际内容;如何改进网页文档与用户查询的匹配方法,使得文献检索返回的网页更加符合用户的要求这些都关系到了文献检索的精确率的提高。本文采用了概念格理论从概念的角度去分析网页文档的表示问题,将查询与返回的文档都映射到本体后,我们再由它们共同构成的形式背景构造出概念格,在概念格上就可以找到用户提出的问题的相应的概念节点,用概念匹配度就可以计算出任意其它概念节点与问题概念节点之间的匹配度。最后按照与概念节点的匹配度排序,从而可以找到最满足用户查询的答案。这就是本文第3 章提出的基于概念匹配度模型的文献检索系统。同时考虑到为整个待查询数据库建立一个单一的大概念格,所花费时间及格之间移动开销非常大等问题。第4 章中给出了一种文档的新的表示形式,从而提出了一种新的网页文档与用户查询的匹配策略基于概念格匹配度模型的文献检索系统,提高了文献检索的查询质量。通过实例证明,改进后的匹配模型更符合人脑的思维方式,符合人们对概念的理解,具有可行性。关键词概念格;文献检索系统;概念匹配度;概念格匹配度西南交通大学硕士研究生学位论文第1i 页a b s t r a c ti nt h et r a d i t i o n a lm a n u a ld o c u m e n tr e t r i e v a l t h ei n d e x i n ga n dr e t r i e v a lo fs c i e n t i f i cd o c u m e n t sa r ed o n em a n u a l l y w i t hi n c r e a s ei nt h en u m b e ro fe l e c t r o n i cd o c u m e n t s ,m a n u a ld o c u m e n tr e t r i e v a lh a sm a n yl i m i t s ,w em u s tu s ec o m p u t e r st op r o c e s st h i sl a r g en u m b e ro fd o c u m e n t ss ot h a tw ec a ni n c r e a s et h en u m b e ra n dt h es p e e do fd o c u m e n t p r o c e s s i n g i n f o r m a t i o nr e t r i e v a ls y s t e mh a sb e e nm a d eal a r g ed e v e l o p m e n ta n dp r o g r e s sf o rd e c a d e s ,i n f o r m a t i o nr e t r i e v a ls y s t e mb a s i n go nf r o me a s y - t o u s eb o o l e a ns e a r c hm o d e l ,t h ev e c t o rs p a c em o d e lt ot h ep r o b a b i l i t ym o d e l ,w h i c hi n c r e a s e st h ea c c u r a c yo fi n f o r m a t i o nr e t r i e v a l b u td i f f e r e n ti n f o r m a t i o nr e t r i e v a ls y s t e m sh a v ed i f f e r e n tp e r f o r m a n c e sf o rd i f f e r e n td o c u m e n t s 。i ti sv e r yu s e f u la n dn e c e s s a r yt om a k ee x i s t i n gr e t r i e v a ls y s t e m sa d a p tt ot h ec h i n e s es c i e n t i f i cd o c u m e n t si no r d e rt oi m p r o v et h ea c c u r a c yo fi n f o r m a t i o nr e t r i e v a l h o wt oi m p r o v ep a g er e p r e s e n t a t i o nt om a k et h ea c t u a lc o n t e n to ft h ep a g em o r ea c c u r a t ea n dh o wt oi m p r o v et h em a t c h i n gm e t h o db e t w e e nd o c u m e n ta n du s e r sq u e r y ,a r er e l a t e dt ot h ep r e c i s er a t eo fd o c u m e n ts e a r c h i n g t h i sp a p e ra n a l y z et h ed o c u m e n tr e p r e s e n t a t i o nf r o mt h ec o n c e p tl a t t i c et h e o r y ,t h r o u g hm a p p i n gt h eq u e r ya n dr e t u r n i n gd o c u m e n t st ot h eo n t o l o g y ,w ec a ns t r u c t u r et h ec o n c e p tl a t t i c ef r o mt h e i rc o m m o nb a c k g r o u n d ,t h e nw eu s et h ec o n c e p t u a lm a t c h i n gd e g r e ec a l c u l a t i n gt h ed e g r e eb e t w e e nt h ec o n c e p to ft h eq u e s t i o na n da n yo t h e rt h ec o n c e p t f i n a l l y , w es o r tt h ed e g r e ei na c c o r d a n c ew i t ht h em a t c h i n gd e g r e e ,s ot h a tt h ea n s w e rc a l lm e e tt h eu s e r sq u e r y t h i si sad o c u m e n tr e t r i e v a ls y s t e mb a s e do nt h em o d e lo fc o n c e p t u a lm a t c h i n gd e g r e ei nc h a p t e r3 t a k i n gi n t oa c c o u n tad o c u m e n tu s e da sa no b j e c t ,ak e y w o r da sa na t t r i b u t eo ft h ec o n c e p t ,i fw ee s t a b l i s has i n g l el a r g e s c a l ec o n c e p tl a t t i c ef o rt h ew h o l es e to fd o c u m e n t s ,t h e r ew i l le x i s tc o m p l e xa l g o r i t h m sa n dl a r g em o v i n ge x p e n s e sa m o n gl a t t i c e s t h e r e f o r e ,t h i sp a p e ra l s om a k e sad o c u m e n tr e t r i e v a ls y s t e mb a s e do nt h em o d e lo fc o n c e p tl a t t i c em a t c h i n gd e g r e e 西南交通大学硕士研究生学位论文第l li 页e x a m p l e ss h o wt h a tt h ei m p r o v e dm o d e lm a t c h e sm o r ew i t ht h et h i n k i n go fh u m a n st h o u g h ta n dw i t hp e o p l e su n d e r s t a n d i n g t h i sm o d e li sf e a s i b l e k e y w o r d sc o n c e p tl a t t i c e ;d o c u m e n tr e t r i e v a ls y s t e m ;c o n c e p t u a lm a t c h i n gd e g r e e ;c o n c e p tl a t t i c em a t c h i n gd e g r e e西南交通大学曲南父逋大字学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权西南交通大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于1 、保密口,在年解密后适用本授权书;2 、不保密囹,适用本授权书。( 请在以上方框内打“ )学位论文作者签名:爹静指导教师虢擦酬日期:如7 年j 月z ,p 日日期:弘7 年月力e t西南交通大学学位论文创新性声明本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作所得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中作了明确的说明。本人完全意识到本声明的法律结果由本人承担。本学位论文的主要创新点如下:1 构建频繁检索集( f r e q u e n t l yr e t r i e v a ls e t ,f r s ) ,即针对用户经常检索的主题和检索出的文献,经过内容抽取与预处理后保存起来构成的集合,作为本文文献检索系统的一个组成部分;2 当用户输入一个关键词,从f r s 中搜索与用户查询相关的题目,如果能够在频繁检索集中查找到相应的题目,就可以直接将相应的文献返回给用户,而不需要经过文献检索相关的复杂的处理过程,这样不仅可以提高效率,而且也能提高精度;如果没有或者答案不满足用户的需求,再通过搜索引擎从w e b 中搜索相关的文献,然后使用搜索引擎返回的前n 个文档,构建概念格;最后利用概念匹配度模型来抽取最佳文献;3 同时考虑到用文档作为形式概念的对象,关键词作为属性,为整个待查询文档集建立一个单一的规模较大的概念格,在计算上花费很大、格的建立算法非常复杂以及格之间移动开销非常大等问题。因此,本文最后提出了基于概念格匹配度模型的文献检索系统。通过实例证明,改进后的匹配模型更符合人脑的思维方式,符合人们对概念的理解,具有可行性。学位论文作者签名:夸赣。日期:_ ,、,。西南交通大学硕士研究生学位论文第1 页第1 章绪论1 1 论文选题的背景和意义面对信息社会这浩瀚的信息海洋,人们常会陷入窘迫的两难境地:一方面是“信息过载”,即收到的或已经下载的信息难以消化,导致用户的查询访问经常存在着大量无关的信息;另一方面就是“信息迷失”,即用户不知道如何贴切表达真正想要的网上资源的需求,因为目前技术并没有提供合适的表达手段,而且用户也不知道如何去更准确有效的寻找。海量的可用信息和用户对信息的驾驭能力形成强烈的反差,最终用户盼望出现一些能够协助其理解、寻找所需信息的软件助手。可以说网上的信息收集和获取面临着严重的效率和质量问题。因此,开发可以在文献信息网空间上辅助人们智能的分析、过滤、获取所需文献信息的工具一基于概念匹配度模型的文献检索系统,是实现及时、准确、方便获取所需文献的有力手段。科学研究的基本过程是确立研究题目检索相关文献综述文献并确立研究的创新点设计科学实验,取得科学数据总结、讨论、研究数据一撰写研究论文。文献检索是科研工作中不可缺少的一个环节,一项科研课题无论是在立题之前,还是在研究过程中,甚至在研究完成后成果的评价方面,都离不开查阅有关的文献资料。据统计,科研人员每完成一项科研成果,其从命题到成果评价,他们在查阅有关的科技文献信息方面所花时间相当于整个科研工作的4 0 。如果没有掌握一定的科学检索方法,则所需文献查阅时间还会更长。更有甚者,因为没有得到相关的文献资料和准确及时的信息,使得整个科研工作都变成了“重复劳动 ,最终研究成果也失去了意义。就像二十世纪5 0 年代美国为了搞“继电器接点电路合成研究 ,曾联合几家实验室研究了5 年,耗资5 0 万美元终于成功,但当他们发表成果时才发现该研究项目早已被其他人完成。这个例子说明,如果在研究课题之前先利用科技文献检索技术,检索有关的文献资料,了解该项目当时在世界各国的研究动态及其水西南交通大学硕士研究生学位论文第2 页平如何,就可扬长避短,可拓展思路,在一个新的起点做出努力。在科研工作中,科研课题的选题立项是科学研究的重要组成部分和开始阶段,它包含选题、论证、投标或审批、签订合同等几个环节。其中选题和论证是两个关键环节,而这两个环节都离不开文献资料的检索。选题立项是确定研究与开展工作的内容和对象,要研究一个新课题或开发一个新项目,首先要收集大量的有关信息,积累、继承、借鉴、检索世界范围内前人的研究成果。这对于科研人员来说是至关重要的一步。作为研究人员在着手研究开发每一项课题之前,要懂得利用科学的文献检索方法来了解这个课题是如何提出来的,前人在这些方面做过些什么工作,是如何做的,有何成果和经验、教训,还存在什么问题,相邻学科的发展对研究这项课题提供了哪些有利条件,对目前市场的影响有多大等。这样才能正确的选好课题,制定研究方案,避免重复研究并少走弯路,使自己的研究能站在一个较高的起点上。这也正如牛顿所说;“假如我比别人看的远一点,那是因为我站在了巨人的肩膀上”。选题确立后,应进行的工作就是对选题的论证,选题的论证是立项阶段的核心部分,论证质量的优劣与选题的成败密切相关。所以,应根据检索的资料对课题进行分析、预测和评价,以提高课题的申报质量,增加课题的审批率。由此可见,撰写论文离不开科技文献的检索。同时文献检索还有如下作用:1 启迪创新思维文献检索是人们打开知识宝库的一把金钥匙,是开发智力资源的有力工具。通过科技文献检索,可以让科技工作者获得大量相关信息,最大限度地吸收他人成功经验和失败教训,既可有效地开展创新性、探索性的工作,又可获得更全面、更有价值的论证依据,应用到科技论文写作之中。2 避免重复报道信息资源的有效利用,可保证研究工作人员在尽可能高的层次上起步,并缩短研究周期,获得预期的经济效果。科学研究具有继承和创造两重性,科学研究的两重性要求科研人员在探求未知或从事研究工作之前,应该尽可能地占有与之相关的信息,即利用信息检索的方法,充分了解国内、国外、前人和他人对拟探索或研究的问题做过哪些工作,取得了什么成就,发展动向如何,等等。这样才能做到心中有数,防止重复研究,将西南交通大学硕士研究生学位论文第3 页有限的时间和精力用于创造性的研究中。因此文献检索是科学研究不可缺少的前期工作。3 提升论文质量评价科研成果和科技论文的依据,一是内容质量是否胜人一筹,二是发表时间是否先人一步,三是同类课题是否有高人之处,这些问题只有通过对大量文献信息的比较、分析才能做出客观科学的评价。因此,科技文献检索可提升科研工作者论文写作的质量。检索和利用文献是科技工作者获取文献信息、创作成果的重要手段,而撰写论文则是科技工作者总结科研成果、增添科学知识、交流学术思想、探讨学术问题、显示个人成就的重要途径。在当今信息社会中,科研工作者只有掌握科技文献检索方法,善于利用社会各种信息资源查找文献资料,才能撰写出高水平的论文。1 2 信息检索的类型与发展信息检索 4 1 ( i n f o r m a t i o nr e t r i e v a l ,i r ) ,是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程和技术,所以它的全称又叫信息的存储与检索( i n f o r m a t i o ns t o r a g ea n dr e t r i e v a l ) ,这是广义的信息检索。狭义的信息检索则仅指该过程的后半部分,即给出信息检索需求从而检索相关文档集,从中找出所需要信息的过程,相当于人们通常所说的信息查寻( i n f o r m a t i o ns e a r c h ) 。1 2 1 信息检索的类型信息检索可以按照不同的标准划分成各种类型。1 按检索内容区分信息检索可以分为文献信息检索、数据信息检索和事实信息检索。( 1 ) 文献信息检索文献信息检索( d o c u m e n ti n f o r m a t i o nr e t r i e v a l ) 是以文献( 包括题录、文献和全文) 为检索对象的信息检索。即利用相应的方式与手段,在存储文献的检索工具或文献数据库中,查询用户在特定的时间和条件下所需文献的过程。凡是查找某一主题、时代、地区、著者、文种的有关文献,以及回答这些文献的出处和收藏处所等,都属于文献型信息检索的范畴。它为用户提西南交通大学硕士研究生学位论文第4 页供的是与用户信息需求相关的文献信息。这些文献可以是涉及某一主题、学科、著者、文种、年代的文献;文献的收藏范围可以是一馆、一地、一国直至全世界。文献检索的结果提供与课题相关的数篇文献的线索或原文供用户参考,这些相关文献的相关程度随检索系统和检索技术的优劣有很大区别。文献检索是信息检索的核心部分,它较数据检索和事实检索内容更为丰富,方法更为多样。文献检索根据检索内容不同又可分为书目检索和全文检索。书目检索是以文献线索为检索对象的文献检索,即检索系统存储的是“二次文献”。它们是文献的外表特征与内容特征的描述,是文献的“浓缩体”。信息用户通过检索获得的是与检索课题有关的一系列文献线索,然后再通过阅读决定取舍。与全文检索、数据检索、事实检索比较,书目检索产生较早,发展也较完善。( 2 ) 数据信息检索数据信息检索( d a t ai n f o r m a t i o nr e t r i e v a l ) 是以数值或图表形式表示的数据为检索对象的信息检索,又称“数值检索”。即检索系统中存储的是大量的数据,它包括物质的各种参数、电话号码、银行账号、观测数据、统计数据等数字数据,也包括图表、图谱、市场行情、化学分子式、物质的各种特性等非数字数据,并提供一定的运算推导能力。数据检索是一种确定性检索,信息用户检索到的各种数据是经过专家测试、评价、筛选过的,可直接用来进行定量分析。数据检索与文献检索有许多共同之处,文献检索的许多方法也适用于数据检索。完成数据信息检索主要借助于各种数值数据库和统计数据库。( 3 ) 事实信息检索事实信息检索( f a c ti n f o r m a t i o nr e t r i e v a l ) 是以从文献中抽取的事项为检索内容的信息检索,又称“事项检索 。其检索对象既包括事实、概念、思想、知识等非数值信息,也包括一些数据信息,但要针对查询要求,由检索系统进行分析、推理后,再输出最终结果。事实检索是信息检索中最复杂的一种,要求检索系统必须有一定的逻辑推理能力和自然语言理解功能。目前许多事实检索课题仍需靠人工完成,但已有一些试验性的计算机事实检索系统。事实检索也是一种确定性检索,用户获得的是有关某一事物的具体答案。完成事实信息检索主要借助于各种指南数据库和全文数据库。西南交通大学硕士研究生学位论文第5 页2 按检索方式区分信息检索一般分为手工检索和计算机检索。( 1 ) 手工检索手工检索( h a n dr e t r i e v a l ) 是指用人工来处理和查找所需信息的检索方式。手工检索是检索者与检索工具直接“对话”,它依靠检索者手翻、眼看、脑子判断而进行,不需要借助任何辅助设备。手工检索的特点是方便、灵活、判别直观,可随时修改检索策略,查准率较高。不足的是检索速度较慢,漏检现象比较严重,不便于进行复杂概念课题的检索。( 2 ) 计算机检索计算机检索( c o m p u t e rr e t r i e v a l ) 是利用计算机和一定的通信设备查找所需信息的检索方式。它需要计算机、通信硬件设施、系统软件和应用软件。利用这种方式能对大量的信息进行存储,并可以根据用户要求从已存储的信息中迅速抽取特定信息,并提供插入、删除、修改等功能。计算机检索的特点是速度快、效率高、查全率较高。不足之处是成本高、费用大,查准率通常不尽如人意。目前广泛使用的计算机件系统包括光盘检索系统、联机检索系统和因特网上检索系统。1 2 2 信息检索的发展从信息检索的发展历史看,信息检索经历了手工检索、计算机检索到目前的网络化、智能化检索等多个发展阶段。它起源于1 9 世纪后期,当时主要用于图书馆参考文献咨询和文摘索引工作,使用信息检索的用户较少,随着计算机和网络的出现,促进了信息检索科学的发展,人们越来越依靠信息检索工具来查找自己所需信息,特别是网络信息检索。1 手工检索手工检索指以普通卡片目录和书本式文献、索引等检索工具为基础的检索方式,它是计算机检索的基础和先声。目前手工检索工具在所有的检索工具中仍占有相当大的比重,某些学科和科研课题的检索利用手工检索也较为方便。手工检索工具主要由三部分组成:( 1 ) 文摘部分对收录文献的详细介绍,包括文摘号、文献标题、作者、作者工作单位、文献来源( 如期刊、会议录、专利等) 、文摘等。西南交通大学硕士研究生学位论文第6 页( 2 ) 索引部分将所有文献按一定的文献特征( 如主题词、分类号、作者等) 以一定的次序( 如字母顺序、拼音顺序等) f l 歹, j ,每一个文献特征对应一个或几个文摘号或其它号码。从索引中获取的文摘号等可以过渡到文摘部分从而了解该文献。重要的索引包括主题索引、分类索引和作者索引等。( 3 ) 附录部分包括主题词表( 供选择主题词用) 、缩略语表、期刊来源索引等。现在计算机检索的基本理论和检索方法都是从手工检索发展而来的,而且手工检索与计算机检索相比查准率更高,所需费用相对较低,所以了解重要的手工检索工具及其检索方法仍有其必要。2 计算机检索随着计算机技术、通信技术和高密度存储技术的迅速发展,利用计算机进行信息检索已成为人们获取文献信息的重要手段。计算机信息检索能够跨越时空,在短时间内查阅各种数据库,而且大多数检索系统数据库中的信息更新速度很快,检索者随时可以检索到所需的最新信息资源。计算机信息检索是指利用计算机存储和检索信息。具体地说,就是指人们在计算机或计算机检索网络的终端机上,使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中检索出所需的信息,继而再由终端设备显示或打印的过程。计算机信息检索广义上讲包括信息的存储和检索两个方面,在使用计算机检索前先要对信息进行加工处理。抽取出主题词、分类号以及文献的其它特征进行标识或者写出文献的内容摘要,再将处理的数据存储起来。信息被存储后,用户就可根据自己所要的信息进行分析,然后输入检索主题,计算机就可根据用户输入的主题在数据库中进行查找匹配,然后将查找到的信息显示给用户。3 网络信息检索随着i n t e m e t 的飞速发展,网上资源日新月异。面对如此巨大的海量信息,人们迫切希望利用这些多媒体、跨语种、数字化的信息资源。目前对网络信息的检索主要有两种检索形式:目录式检索( 也称主题指南) 和搜索引墼2 产。目录式检索是人工建立的、结构化的网址主题类目和子类目,按照字母、西南交通大学硕士研究生学位论文第7 页时间、地点、主题等顺序进行排列,使用户通过浏览网络站点列表,检索有关信息。它是一种导航式的检索,用户根据所要查找的信息所属的类目逐级进行查找,较为典型有y a h o o 、l o o k s m a r t 、i n f o m i n e 等。目录式检索的主要优点是人工干预提高了返回结果的相关性,缺点是很难检索到较深的信息,对主题类目和子类目的维护困难。搜索引擎是目前网络信息检索应用最普遍的一种检索形式,它是继电子邮件服务之后的第二大网络服务。搜索引擎是一种能够通过i n t e r n e t 接受用户的查询指令,并向用户提供符合其查询要求的信息资源网址的系统。搜索引擎按检索功能可分为独立搜索引擎和元搜索引擎。独立搜索引擎是指搜索引擎之间没有嵌套,是单一搜索引擎。元搜索引擎综合了多个搜索引擎,它将用户的查询分别送给多个搜索引擎搜索,这样能提高检索的查全率( r e c a l l ) 。按检索的语种可分为单一语言搜索引擎和跨语言搜索引擎。随着网民使用互联网的熟练程序的不断增加,用户对网络信息的需求越来越广泛而多样化。因而搜索引擎正在向多媒体、个性化、智能化等方向发展。4 智能化信息检索传统的搜索引擎使用方法是被动搜索,将来可以利用智能代理技术进行主动信息检索。智能化信息检索就是利用智能代理技术进行主动的信息检索,并通过对用户的查询计划、意图、兴趣方向进行推理预测为用户提供有效的搜索结果的一种新的信息检索方式。它是用自动获得的知识进行信息搜集过滤,并自动地将用户感兴趣的信息通过电子邮件或其它方式,提交给用户。随着人们对现在的搜索引擎的查准率的不满,搜索引擎个性化已成为一个热点。个性化搜索引擎通过跟踪分析用户的搜索行为,充分地利用这些信息来提高用户的搜索效率。这是一种正在发展中的很有前途的搜索引擎人机界面技术,它通过搜索行为分析技术提高搜索效率。1 3 国内外研究动态1 3 1 文献检索的发展现状目前,数字化图书馆的设计方兴未艾,大多数文献情报单位还处于计算西南交通大学硕士研究生学位论文第8 页机检索初中级阶段。为提高文献检索的水平,满足当今信息社会迅速发展的要求,我们必须加快计算机检索和网络搜索的步伐,向联机文献信息服务网络化方面迈进。我国计算机文献检索系统的研发始于上世纪7 0 年代,由中国科技情报研究所和一些研究机构、情报机构及高等院校,分别对计算机检索的软件设计、数据库建设、上级检索等环节开展了广泛的研究与试验。1 9 8 3 年交通部科技情报研究所成功研制了微机单机文献检索系统、微机非文献检索系统及缩微文献检索系统,实现了利用微机检索书目、事实和数据。1 在文献检索自动化理论及时间方面达成了共识近2 0 年来,我国文献信息界对文献检索自动化的作用、地位、建设方法、发展方向等关键问题进行多层次、全方位的探讨、研究和实验,并且在此过程中,大家一致认定:中国的文献检索要走一个知识型、数字化、网络化的发展道路。同时,在实现有中国特色的文献检索自动化、网络化过程中,要走与国际共同的发展、资源共享的道路。“中国高等教育文献保障系统( c a l i s ) ”就是一个在教育部统一领导下,正在不断完善建设的文献信息保障系统。它以数十多所重点高校图书馆为主干,逐步建立起全国高校用户的文献信息服务计算机网络系统。向用户提供可查询、检索和利用的各种类型文献数据库,提供网上文献检索与源文献服务,国内出版文献的用户需求满足率可达到10 0 ,国外出版文献达8 0 - 9 0 。同时,自动化水平的提高,带动高校图书馆在管理体制水平、新技术应用、人员素质和服务质量等方面也上了一个新台阶,向全世界先进水平靠拢。2 图书馆自动化系统的开发得到很大程度的提高2 0 世纪9 0 年代以后,图书馆自动化系统的研制由开发阶段开始进入实际应用阶段,国内开发的一些管理系统软件走上了商品化发展道路。如:由文化部委托深圳图书馆研制开发的“图书馆自动化集成系统( i l a s ) ”已在全国4 0 0 多家图书馆使用,并且i l a si i 可用于w i n d o w sx p 平台操作,并可直接上网。北京图书馆的“文津图书馆综合管理系统”、广东中山图书馆的“中国图书馆电脑管理集成系统”以及由大连“博菲特”、北京息洋电子信息研究所共同开发的“息洋 系统等,它们都在不断完善升级,向网络化方向发展,以期与国际先进的文献信息系统发展相接轨。也有一些图书馆引西南交通大学硕士研究生学位论文第9 页进国外先进软件系统,经汉化、改造后使用,在实现图书馆自动化管理方面显示出了雄厚实力,如:清华大学图书馆、中国科学院文献情报中心、上海图书馆、西安交大图书馆等使用的软件。现在,在我国大中型图书馆以及一些小型图书馆和情报单位,都基本上有这个自动化管理系统。3 数据库建设成绩显著文献数据库是文献检索的基础,也是文献信息单位自动化与网络化资源共享的根本保证。所以只有建立相应的通用型、标准型的数据库,才能实现文献检索工作的自动化,才能借助于通讯网络,对计算机数据库的资源进行利用、共享。同时它可以实现一次输入、反复使用,一家输入、多家使用。自上世纪8 0 年代末期起,我国数据库建设取得了较大进步,各种参考数据库、源数据库、全文数据库不断涌现,为实现文献检索自动化、网络化提供了保证。目前,数据库的建设已由各自为政逐步走向规范化、标准化、合作化的发展道路。4 文献检索自动化、网络化得到很大程度的普及和发展计算机在文献信息单位的运用,多媒体数据库、全文数据库、c d r o m数据库、网上图书馆、电子图书馆等纷纷出现,这一切都使用户的检索更加简易、方便,获得的信息也更加丰富、全面和准确。而一些大型的联合文献数据库的建立,可以实现地区性文献机构的联合,利用联合数据库实现“一地多检”、“一建多用”,不仅方便了用户,而且给工作人员带来了诸多方便。有相当一部分文献单位已经建立起了自己的书目数据库,采用较先进的文献管理自动化系统,把公共检索、联机编目、馆际互借、多媒体应用系统、远程通讯等网络化系统的开发作为自己的发展目标,同时把自己的文献信息送向网络,向文献检索自动化迈进。目前,我国广大大专院校、科研院所、图书馆、情报机构等都已在自建和引进系统的基础上,逐步实现了信息和文献检索的自动化和网络化。1 3 2 文献检索的发展趋势1 服务内容个性化信息服务结构通过网络按照单个特定用户的偏好、习惯等开展个性化信息服务,进而满足用户的个性化需求。西南交通大学硕士研究生学位论文第1 0 页早在1 9 9 8 年美国康奈尔大学图书馆就开发了网络个性化服务平台系统口】,并于1 9 9 9 年投入使用。该系统有个性化链接,并于1 9 9 9 年投入使用。该系统由个性化链接( m yl i n k s ) 和个性化更新( m yu p d a t e s ) 两个部分组成,用户可以通过m yl i n k s 收集和组织自己常用的电子资源,建立一个真正属于自己的个性化数字空间:m y u p d a t e s 每周向用户提供其个人需要的新书、期刊和其他加入到图书馆目录中的媒介通告,用户无需耗费精力去查找资料,相关资料会主动持续的找到相应用户。我国这方面的研发比较晚,但也有一定成果,如已投入使用的在2 0 0 0年初推出的由深圳市深思朗图信息技术公司开发i l a s i i 网络版中捆绑的个性化服务子系统。另外由清华大学和清华同方主办的中国知识基础设施工程n 工程也做出决定,正式向社会各类机构和个人开始实施个性化服务,这其中对个人的服务除了提供内部整体的知识信息需求的采集、制作的专业知识库,还提供个人全面获取、处理知识信息的工具个人数字图书馆和在网上协同工作平台。此外还有不少单位对个性化服务进行研究,如中科院文献信息情报中心的个性化服务项目、中国数字图书馆的企业在线情报服务项目、中国农业大学图书馆的个性化服务系统等。显而易见,随着我国网络基础设施及社会环境的改善,用户的个性化信息需求日益强烈,个性化服务在我国也会逐渐普遍开来。2 服务模式一体化一体化服务要求“一步到位。所谓一步到位的服务是指用户可以在一个信息服务商处,利用一种网络界面,使用一个检索指令找到他所需要的全部的、确切的信息。不仅包括信息查询途径,还应包括具体的内容;不仅可查询该信息服务商自行建立的数据库,还可以查询其他信息上提供的数据库。在这种情况下网络联机服务就有更大范围的扩展,以使用户能更全面、更准确的获得有关信息,尽管目前网络联机服务在世界电子信息服务市场中已占有很大的份额。显然,要想高效的完成这种一体化的服务,不仅要有齐全的硬件设施,还应有完善的软件设施。目前我们国内的软件设施建设主要表现在数据库建设上,数据库是现在最重要的信息资源,我国的数据库研发和国外相比还比西南交通大学硕士研究生学位论文第1 1 页较落后,因此我们应加强数据库的建设。一方面我们应加强实体数据库的建设,另一方面我们要对网上丰富的信息资源进行发掘,按主题加强虚拟数据库的建设,通过虚拟数据库给用户提供涉及多数据源的统一的查询机制,让用户可以用统一的方式使用来自不同数据源的数据。3 服务手段智能化伴随着个性化服务越来越为人们所需,服务手段也就愈加的要求智能化。智能化的服务手段需要智能检索系统的应用来实现。智能检索系统可以有效的解决“信息过载”和“资源迷向”的问题,它能根据用户的需求或意愿代替用户查找所需信息,或主动推荐给用户所需要信息并能主动及时的向用户报告最新信息。另外系统还可以根据其获取的用户知识,为每个用户建立用户模型档案。它还为每个用户建立个人目录,该目录中所存储的信息能为用户以后的检索和浏览提供帮助。显然,我们能利用智能软件搜寻相关信息,并定时向用户发送,以完成用户的个人定制服务。当前其主要的应用就是在信息推送服务上,目前信息推送服务的研究与应用都有很大成果,产生了一些推送软件。1 4 本文的主要工作本文的主要工作是研究文献检索系统中文献检索部分的文档匹配方法。根据文档匹配的基本原理,使用概念格的理论来对文档进行表示,首先提出了基于概念匹配度模型的文献检索系统。同时为了更加合理的表达文档的内容,根据新的文档形式化表示,提出了与之更适合的文档与用户查询的匹配操作基于概念格匹配度模型的文献检索系统,以便提高文献检索的质且里0本文的主要结构如下:第l 章绪论。介绍了论文选题的背景和意义、信息检索的类型与发展、文献检索的发展现状、文献检索的发展趋势和本文的主要工作。第2 章文献信息检索模型。介绍了信息检索的基本概念和三种基本文献信息检索模型:布尔检索模型、向量空间检索模型和概率检索模型。西南交通大学硕士研究生学位论文第1 2 页第3 章基于概念匹配度模型的文献检索系统。首先介绍了概念格的相关概念及应用,随后提出了基于概念匹配度模型的文献检索系统,最后用实例论证了该模型的有效性。第4 章基于概念格匹配度模型的文献检索系统。考虑到前章给出模型的不足,本章采用了一种新的文档表示,建立了与之符合的概念格匹配度模型,并用实例验证了该模型的可行性。第5 章结论与展望。西南交通大学硕士研究生学位论文第1 3 页第2 章文献信息检索模型文献是信息知识传播与记录的载体,即知识信息必须通过文献载体进行存储和传递,用户往往通过信息机构查找信息知识满足其需要。构成文献的三个最基本要素:一是文献含有知识信息;二是负载知识信息的物质载体;三是记录知识信息的符号和技术。文献中信息的表示和存储方式是文献检索的基础,原始的文本文献不能直接进行检索,需要从这些原始数据中抽取逻辑视图,以支持信息检索。用户则用查询来表示信息需求,用自然语言表示的信息需求同样需要抽取逻辑视图,便于计算机的表示和计算。检索系统根据用户的查询的表示,搜索经过抽象表示后的文献集合,获取与用户查询相关的文献,并对查询的结果与查询的相关程度进行相关性排序。换言之,文献信息检索模型是指如何对查询和文档进行表示,然后对它们进行相似度计算的框架和方法,本质上是对相关度建模。信息检索模型是瓜中的核心内容之一。由此可见,文献信息检索涉及三个过程:文献的逻辑表示、查询的逻辑表示、相似度匹配计算及结果集的排序。2 1 文献信息检索模型的定义文献信息检索主要研究对整个文档信息的表示、存储、组织和访问。一个好的信息检索系统不仅要求将输出信息进行相关性排列,还应该能根据用户的意图、兴趣和特点自适应和智能化的调查匹配机制,获得用户满意的检索输出。最常用的文献信息检索性能尺度是文献信息检索的查准率和查全率。文献信息检索的查准率为检索结果中有用的相关文档数与检索到的查询结果总数之比,而文献信息检索的查全率为满足用户查询要求或相关于查询要求的信息与被检索出的结果集信息比率。一个文献信息检索模型是将文档表示、查询表示以及他们之间的关系进行建模的框架,可以把信息检索模型看作一个三元体:f p ,q ,r ( q f ,d i ) j( 2 1 )西南交通大学硕士研究生学位论文第1 4 页其中,f 表示检索系统的检索结果,刃是文献集合中一组文献的逻辑视图,称为文献的表示;p 是一组用户信息需求的逻辑视图表示,称为查询;r ( q ,d ;) 是一个排序函数,该函数的输出是查询q ;q 和d ;d 的相关程度的实数,这样就在文献表示之间根据查g ,定义了一个顺序。2 2 基本概念2 2 1 关键词关键词是从文献中抽取出来,用来表示文献的内容并标引一篇文献的词,一篇文献可以用关键词的集合来表示,其语意可以用来揭示文献的主题,又称标引词。从文献中抽取的关键词一般是有实际语意的名词,起修饰作用的形容词、副词、连词很少用作标引词u 6 j 。2 2 2 权值权值是用来表示关键词对文献内容的揭示程度的实数值。一篇文献中关键词的集合中的关键词描述文献内容的作用不尽相同,根据关键词对文献内容描述的重要程度赋予关键词的权值也有所不同,权值不但标识了关键词对文献内容的描述程度,还是区分文献在集合中所属类别的一个特征。如果一篇文献中的关键词把文献从文献集合中明显地区分开来,则应赋予此关键词高的权值。只是为了标识关键词在文献中出现与否,可以用二值( 0 和1 ) 作为关键词的权值就足够了,要体现关键词的重要程度就要为关键词的权值赋予一个连续的非离散值。2 2 3 停用词在文献集合中出现的关键词只有能深入地揭示文献的内容,并把文献从文献集合里区分开来,才可以用来标引文献,成为检索文献的依据。在文献集合中出现在大部分文献中,不能区分文献的词就是停用词。关键词成为停用词在不同的文献集合中有所不同,例如:“计算机 一词,在计算机的文西南交通大学硕士研究生学位论文第1 5 页献集合中就应该作为停用词处理,而在生物科学文献的集合中就不是停用词。2 2 4 关键词和权值的集合表示t = p 。,f :,t 。) 是关键词的集合,7 表示文献集合中关键词的数目,t 。表示关键词集合中第i 个关键词;文献d ,可以用关键词向量表示为乃= ( w l ,w j ) ,w u o 是文献d 中关键词f ;的权值,w v = o 表示关键词t ;没有出现在文献d ,中;查询也可以用关键词向量表示为:q = ( w 1 ,w 2 _ ,) 。2 3 文献检索原理文献检索 1 7 1 是依据一定的方法,从已经组织好的大量有关文献集合中,迅速、准确查找出所需文献的过程。因此,查出来的文献也只是关于文献的信息或文献线索,如果要真正获取文献中所记录的信息,那么还要依据检索取得的文献线索或关于特定文献的信息去索取和查阅文献的原文。文献检索就是从大量的科技文献中迅速、准确、没有重大遗漏的查出与特定的科学研究课题有关的资料。开展文献检索工作是一项继承前人成果,开展新的科学研究,避免重复劳动的工作。当今文献爆炸带来的后果更突出了文献检索的意义,用户可以根据自己的需要来选择文献,以掌握巨大的文献财富,推动科研、教学、医疗、生产的发展。广义地讲,文献信息检索包含文献信息储存和文献信息检索两个过程。信息储存是对大量的、分散无序的文献进行收集、标引及著录,并加以有序化编排,编制信息检索的工具的过程;信息检索是从大量的信息中查找出用户所需的特定信息的过程。我们可以建立各种各样的检索系统,通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。其实存储是为了检索,而检索又必须先进行存储。如图2 1 所示。2 3 1 文献信息储存西南交通大学硕士研究生学位论文第1 6 页信息储存的工作内容,主要是由标引人员通过对原始文献的阅读分析,对文献中的信息进行鉴别、提炼和浓缩,并采用特定的方式予以整理、保存起来。它大致有如下几个步骤:1 选择文献根据信息检索系统的主题、性质及任务等,结合原始文献本身的研究水平、角度及其信息质量,对原始文献进行适当的评价,从中筛选出符合要求的文献。2 文献的概念分析对所选文献进行仔细的主题分析,提炼出文献所论述的内容主题,归纳为代表文献内容的若干主题概念,并确定这些主题概念之间的关系。3 词汇转换把文献的主题概念转换为适当的文献标识( 或称为标引词) ,并以这些标识来表达文献的主题内容。这种转换需要严谨地建立在两个依据之上:一是必须以对文献的主题概念分析为依据,二是必须以信息检索语言为依据。前者主要决定转换的问题,即需要对文献中的哪些信息主题做出转换;后者主要决定怎样转换的问题,即把主题概念转换为哪些标识。4 信息检索工具的编制概括地讲,检索工具是信息检索系统的核心和概括,它主要包括两个有序化的序列,即文献序列和文献标识序列。文献序列是由文献描述体或文献本身按照一定的方式组织形成的有序化序列,构成文献库。文献描述体是对原始文献内容的浓缩,常见的有文摘、题录等,这是信息检索所采用的传统和主要的方式。其主要作用是使用户能够对文献内容有较为全面和准确的了解,进而做出是否需要获取原始文献的选择。随着计算机技术和通信技术的发展,现在已经越来越多的信息检索系统采用全文本的方式,直接把原始文献本身组织为有序化的序列,尤其是因特网的迅猛发展,为全文本检索拓展了更大的发展空间。文献标识的序列,是由文献标识
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 国家管网集团湖南公司2026届秋季高校毕业生招聘考试备考题库(浓缩500题)附参考答案详解(a卷)
- 2026年许昌市农村信用社联合社秋季校园招聘笔试备考题库(浓缩500题)含答案详解(满分必刷)
- 2026秋季国家管网集团福建公司高校毕业生招聘笔试备考题库(浓缩500题)及答案详解一套
- 国家管网集团湖南公司2026届秋季高校毕业生招聘考试备考试题(浓缩500题)及答案详解(夺冠)
- 2026秋季国家管网集团浙江省天然气管网有限公司高校毕业生招聘笔试参考题库(浓缩500题)附答案详解【完整版】
- 2026秋季国家管网集团建设项目管理公司高校毕业生招聘考试参考试题(浓缩500题)带答案详解(预热题)
- 2026秋季国家管网集团广西公司高校毕业生招聘考试备考题库(浓缩500题)带答案详解(新)
- 2026国网湖北省电力公司高校毕业生提前批招聘笔试参考题库浓缩500题含答案详解(综合题)
- 2026秋季国家管网集团华南公司(广东省管网公司)高校毕业生招聘考试参考题库(浓缩500题)附参考答案详解(夺分金卷)
- 2025国网安徽省高校毕业生提前批招聘(约450人)笔试模拟试题浓缩500题及答案详解(名校卷)
- 2025广东清远市纪委市监委纪律审查管理中心招聘17人考试参考题库及答案解析
- 紧固件包装培训知识总结
- DB51-T 3299-2025 数据资产登记规范
- 淤地坝知识培训课件
- 保密知识培训课件
- 2025昆明幼儿师范高等专科学校引进高层次人才(6人)考试模拟试题及答案解析
- 徐志摩的诗课件
- 五年级上册体育全册教案(2025-2026学年)(表格式)
- GB/T 46225-2025柔性多孔聚合物材料层压用聚氨酯泡沫规范
- 2025年日照盐粮集团有限公司公开招聘工作人员备考考试题库附答案解析
- 2025学年第一学期江浙皖高中(县中)发展共同体高三语文10月联考试题文言文详解:《宋史·陈兢传》、王夫之《宋论》
评论
0/150
提交评论