基于概念匹配度模型的文献检索系统.doc_第1页
基于概念匹配度模型的文献检索系统.doc_第2页
基于概念匹配度模型的文献检索系统.doc_第3页
基于概念匹配度模型的文献检索系统.doc_第4页
基于概念匹配度模型的文献检索系统.doc_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南交通大学硕士学位论文基于概念匹配度模型的文献检索系统姓名:李静申请学位级别:硕士专业:应用数学指导教师:宋振明20090101西南交通大学硕士研究生学位论文第页,。,西南交通大学硕士研究生学位论文第页;西南交通大学曲南父逋大字学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权西南交通大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于、保密口,在年解密后适用本授权书;、不保密囹,适用本授权书。(请在以上方框内打“)学位论文作者签名:爹静指导教师虢擦酬日期:如年月,日日期:弘年月力西南交通大学学位论文创新性声明本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作所得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中作了明确的说明。本人完全意识到本声明的法律结果由本人承担。本学位论文的主要创新点如下:构建频繁检索集(,),即针对用户经常检索的主题和检索出的文献,经过内容抽取与预处理后保存起来构成的集合,作为本文文献检索系统的一个组成部分;当用户输入一个关键词,从中搜索与用户查询相关的题目,如果能够在频繁检索集中查找到相应的题目,就可以直接将相应的文献返回给用户,而不需要经过文献检索相关的复杂的处理过程,这样不仅可以提高效率,而且也能提高精度;如果没有或者答案不满足用户的需求,再通过搜索引擎从中搜索相关的文献,然后使用搜索引擎返回的前个文档,构建概念格;最后利用概念匹配度模型来抽取最佳文献;同时考虑到用文档作为形式概念的对象,关键词作为属性,为整个待查询文档集建立一个单一的规模较大的概念格,在计算上花费很大、格的建立算法非常复杂以及格之间移动开销非常大等问题。因此,本文最后提出了基于概念格匹配度模型的文献检索系统。通过实例证明,改进后的匹配模型更符合人脑的思维方式,符合人们对概念的理解,具有可行性。学位论文作者签名:夸赣。日期:,、,。西南交通大学硕士研究生学位论文第页第章绪论论文选题的背景和意义面对信息社会这浩瀚的信息海洋,人们常会陷入窘迫的两难境地:一方面是“信息过载”,即收到的或已经下载的信息难以消化,导致用户的查询访问经常存在着大量无关的信息;另一方面就是“信息迷失”,即用户不知道如何贴切表达真正想要的网上资源的需求,因为目前技术并没有提供合适的表达手段,而且用户也不知道如何去更准确有效的寻找。海量的可用信息和用户对信息的驾驭能力形成强烈的反差,最终用户盼望出现一些能够协助其理解、寻找所需信息的软件助手。可以说网上的信息收集和获取面临着严重的效率和质量问题。因此,开发可以在文献信息网空间上辅助人们智能的分析、过滤、获取所需文献信息的工具一基于概念匹配度模型的文献检索系统,是实现及时、准确、方便获取所需文献的有力手段。科学研究的基本过程是确立研究题目检索相关文献综述文献并确立研究的创新点设计科学实验,取得科学数据总结、讨论、研究数据一撰写研究论文。文献检索是科研工作中不可缺少的一个环节,一项科研课题无论是在立题之前,还是在研究过程中,甚至在研究完成后成果的评价方面,都离不开查阅有关的文献资料。据统计,科研人员每完成一项科研成果,其从命题到成果评价,他们在查阅有关的科技文献信息方面所花时间相当于整个科研工作的。如果没有掌握一定的科学检索方法,则所需文献查阅时间还会更长。更有甚者,因为没有得到相关的文献资料和准确及时的信息,使得整个科研工作都变成了“重复劳动,最终研究成果也失去了意义。就像二十世纪年代美国为了搞“继电器接点电路合成研究,曾联合几家实验室研究了年,耗资万美元终于成功,但当他们发表成果时才发现该研究项目早已被其他人完成。这个例子说明,如果在研究课题之前先利用科技文献检索技术,检索有关的文献资料,了解该项目当时在世界各国的研究动态及其水西南交通大学硕士研究生学位论文第页平如何,就可扬长避短,可拓展思路,在一个新的起点做出努力。在科研工作中,科研课题的选题立项是科学研究的重要组成部分和开始阶段,它包含选题、论证、投标或审批、签订合同等几个环节。其中选题和论证是两个关键环节,而这两个环节都离不开文献资料的检索。选题立项是确定研究与开展工作的内容和对象,要研究一个新课题或开发一个新项目,首先要收集大量的有关信息,积累、继承、借鉴、检索世界范围内前人的研究成果。这对于科研人员来说是至关重要的一步。作为研究人员在着手研究开发每一项课题之前,要懂得利用科学的文献检索方法来了解这个课题是如何提出来的,前人在这些方面做过些什么工作,是如何做的,有何成果和经验、教训,还存在什么问题,相邻学科的发展对研究这项课题提供了哪些有利条件,对目前市场的影响有多大等。这样才能正确的选好课题,制定研究方案,避免重复研究并少走弯路,使自己的研究能站在一个较高的起点上。这也正如牛顿所说;“假如我比别人看的远一点,那是因为我站在了巨人的肩膀上”。选题确立后,应进行的工作就是对选题的论证,选题的论证是立项阶段的核心部分,论证质量的优劣与选题的成败密切相关。所以,应根据检索的资料对课题进行分析、预测和评价,以提高课题的申报质量,增加课题的审批率。由此可见,撰写论文离不开科技文献的检索。同时文献检索还有如下作用:启迪创新思维文献检索是人们打开知识宝库的一把金钥匙,是开发智力资源的有力工具。通过科技文献检索,可以让科技工作者获得大量相关信息,最大限度地吸收他人成功经验和失败教训,既可有效地开展创新性、探索性的工作,又可获得更全面、更有价值的论证依据,应用到科技论文写作之中。避免重复报道信息资源的有效利用,可保证研究工作人员在尽可能高的层次上起步,并缩短研究周期,获得预期的经济效果。科学研究具有继承和创造两重性,科学研究的两重性要求科研人员在探求未知或从事研究工作之前,应该尽可能地占有与之相关的信息,即利用信息检索的方法,充分了解国内、国外、前人和他人对拟探索或研究的问题做过哪些工作,取得了什么成就,发展动向如何,等等。这样才能做到心中有数,防止重复研究,将西南交通大学硕士研究生学位论文第页有限的时间和精力用于创造性的研究中。因此文献检索是科学研究不可缺少的前期工作。提升论文质量评价科研成果和科技论文的依据,一是内容质量是否胜人一筹,二是发表时间是否先人一步,三是同类课题是否有高人之处,这些问题只有通过对大量文献信息的比较、分析才能做出客观科学的评价。因此,科技文献检索可提升科研工作者论文写作的质量。检索和利用文献是科技工作者获取文献信息、创作成果的重要手段,而撰写论文则是科技工作者总结科研成果、增添科学知识、交流学术思想、探讨学术问题、显示个人成就的重要途径。在当今信息社会中,科研工作者只有掌握科技文献检索方法,善于利用社会各种信息资源查找文献资料,才能撰写出高水平的论文。信息检索的类型与发展信息检索(,),是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程和技术,所以它的全称又叫信息的存储与检索(),这是广义的信息检索。狭义的信息检索则仅指该过程的后半部分,即给出信息检索需求从而检索相关文档集,从中找出所需要信息的过程,相当于人们通常所说的信息查寻()。信息检索的类型信息检索可以按照不同的标准划分成各种类型。按检索内容区分信息检索可以分为文献信息检索、数据信息检索和事实信息检索。()文献信息检索文献信息检索()是以文献(包括题录、文献和全文)为检索对象的信息检索。即利用相应的方式与手段,在存储文献的检索工具或文献数据库中,查询用户在特定的时间和条件下所需文献的过程。凡是查找某一主题、时代、地区、著者、文种的有关文献,以及回答这些文献的出处和收藏处所等,都属于文献型信息检索的范畴。它为用户提西南交通大学硕士研究生学位论文第页供的是与用户信息需求相关的文献信息。这些文献可以是涉及某一主题、学科、著者、文种、年代的文献;文献的收藏范围可以是一馆、一地、一国直至全世界。文献检索的结果提供与课题相关的数篇文献的线索或原文供用户参考,这些相关文献的相关程度随检索系统和检索技术的优劣有很大区别。文献检索是信息检索的核心部分,它较数据检索和事实检索内容更为丰富,方法更为多样。文献检索根据检索内容不同又可分为书目检索和全文检索。书目检索是以文献线索为检索对象的文献检索,即检索系统存储的是“二次文献”。它们是文献的外表特征与内容特征的描述,是文献的“浓缩体”。信息用户通过检索获得的是与检索课题有关的一系列文献线索,然后再通过阅读决定取舍。与全文检索、数据检索、事实检索比较,书目检索产生较早,发展也较完善。()数据信息检索数据信息检索()是以数值或图表形式表示的数据为检索对象的信息检索,又称“数值检索”。即检索系统中存储的是大量的数据,它包括物质的各种参数、电话号码、银行账号、观测数据、统计数据等数字数据,也包括图表、图谱、市场行情、化学分子式、物质的各种特性等非数字数据,并提供一定的运算推导能力。数据检索是一种确定性检索,信息用户检索到的各种数据是经过专家测试、评价、筛选过的,可直接用来进行定量分析。数据检索与文献检索有许多共同之处,文献检索的许多方法也适用于数据检索。完成数据信息检索主要借助于各种数值数据库和统计数据库。()事实信息检索事实信息检索()是以从文献中抽取的事项为检索内容的信息检索,又称“事项检索。其检索对象既包括事实、概念、思想、知识等非数值信息,也包括一些数据信息,但要针对查询要求,由检索系统进行分析、推理后,再输出最终结果。事实检索是信息检索中最复杂的一种,要求检索系统必须有一定的逻辑推理能力和自然语言理解功能。目前许多事实检索课题仍需靠人工完成,但已有一些试验性的计算机事实检索系统。事实检索也是一种确定性检索,用户获得的是有关某一事物的具体答案。完成事实信息检索主要借助于各种指南数据库和全文数据库。西南交通大学硕士研究生学位论文第页按检索方式区分信息检索一般分为手工检索和计算机检索。()手工检索手工检索()是指用人工来处理和查找所需信息的检索方式。手工检索是检索者与检索工具直接“对话”,它依靠检索者手翻、眼看、脑子判断而进行,不需要借助任何辅助设备。手工检索的特点是方便、灵活、判别直观,可随时修改检索策略,查准率较高。不足的是检索速度较慢,漏检现象比较严重,不便于进行复杂概念课题的检索。()计算机检索计算机检索()是利用计算机和一定的通信设备查找所需信息的检索方式。它需要计算机、通信硬件设施、系统软件和应用软件。利用这种方式能对大量的信息进行存储,并可以根据用户要求从已存储的信息中迅速抽取特定信息,并提供插入、删除、修改等功能。计算机检索的特点是速度快、效率高、查全率较高。不足之处是成本高、费用大,查准率通常不尽如人意。目前广泛使用的计算机件系统包括光盘检索系统、联机检索系统和因特网上检索系统。信息检索的发展从信息检索的发展历史看,信息检索经历了手工检索、计算机检索到目前的网络化、智能化检索等多个发展阶段。它起源于世纪后期,当时主要用于图书馆参考文献咨询和文摘索引工作,使用信息检索的用户较少,随着计算机和网络的出现,促进了信息检索科学的发展,人们越来越依靠信息检索工具来查找自己所需信息,特别是网络信息检索。手工检索手工检索指以普通卡片目录和书本式文献、索引等检索工具为基础的检索方式,它是计算机检索的基础和先声。目前手工检索工具在所有的检索工具中仍占有相当大的比重,某些学科和科研课题的检索利用手工检索也较为方便。手工检索工具主要由三部分组成:()文摘部分对收录文献的详细介绍,包括文摘号、文献标题、作者、作者工作单位、文献来源(如期刊、会议录、专利等)、文摘等。西南交通大学硕士研究生学位论文第页()索引部分将所有文献按一定的文献特征(如主题词、分类号、作者等)以一定的次序(如字母顺序、拼音顺序等)歹,每一个文献特征对应一个或几个文摘号或其它号码。从索引中获取的文摘号等可以过渡到文摘部分从而了解该文献。重要的索引包括主题索引、分类索引和作者索引等。()附录部分包括主题词表(供选择主题词用)、缩略语表、期刊来源索引等。现在计算机检索的基本理论和检索方法都是从手工检索发展而来的,而且手工检索与计算机检索相比查准率更高,所需费用相对较低,所以了解重要的手工检索工具及其检索方法仍有其必要。计算机检索随着计算机技术、通信技术和高密度存储技术的迅速发展,利用计算机进行信息检索已成为人们获取文献信息的重要手段。计算机信息检索能够跨越时空,在短时间内查阅各种数据库,而且大多数检索系统数据库中的信息更新速度很快,检索者随时可以检索到所需的最新信息资源。计算机信息检索是指利用计算机存储和检索信息。具体地说,就是指人们在计算机或计算机检索网络的终端机上,使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中检索出所需的信息,继而再由终端设备显示或打印的过程。计算机信息检索广义上讲包括信息的存储和检索两个方面,在使用计算机检索前先要对信息进行加工处理。抽取出主题词、分类号以及文献的其它特征进行标识或者写出文献的内容摘要,再将处理的数据存储起来。信息被存储后,用户就可根据自己所要的信息进行分析,然后输入检索主题,计算机就可根据用户输入的主题在数据库中进行查找匹配,然后将查找到的信息显示给用户。网络信息检索随着的飞速发展,网上资源日新月异。面对如此巨大的海量信息,人们迫切希望利用这些多媒体、跨语种、数字化的信息资源。目前对网络信息的检索主要有两种检索形式:目录式检索(也称主题指南)和搜索引墼产。目录式检索是人工建立的、结构化的网址主题类目和子类目,按照字母、西南交通大学硕士研究生学位论文第页时间、地点、主题等顺序进行排列,使用户通过浏览网络站点列表,检索有关信息。它是一种导航式的检索,用户根据所要查找的信息所属的类目逐级进行查找,较为典型有、等。目录式检索的主要优点是人工干预提高了返回结果的相关性,缺点是很难检索到较深的信息,对主题类目和子类目的维护困难。搜索引擎是目前网络信息检索应用最普遍的一种检索形式,它是继电子邮件服务之后的第二大网络服务。搜索引擎是一种能够通过接受用户的查询指令,并向用户提供符合其查询要求的信息资源网址的系统。搜索引擎按检索功能可分为独立搜索引擎和元搜索引擎。独立搜索引擎是指搜索引擎之间没有嵌套,是单一搜索引擎。元搜索引擎综合了多个搜索引擎,它将用户的查询分别送给多个搜索引擎搜索,这样能提高检索的查全率()。按检索的语种可分为单一语言搜索引擎和跨语言搜索引擎。随着网民使用互联网的熟练程序的不断增加,用户对网络信息的需求越来越广泛而多样化。因而搜索引擎正在向多媒体、个性化、智能化等方向发展。智能化信息检索传统的搜索引擎使用方法是被动搜索,将来可以利用智能代理技术进行主动信息检索。智能化信息检索就是利用智能代理技术进行主动的信息检索,并通过对用户的查询计划、意图、兴趣方向进行推理预测为用户提供有效的搜索结果的一种新的信息检索方式。它是用自动获得的知识进行信息搜集过滤,并自动地将用户感兴趣的信息通过电子邮件或其它方式,提交给用户。随着人们对现在的搜索引擎的查准率的不满,搜索引擎个性化已成为一个热点。个性化搜索引擎通过跟踪分析用户的搜索行为,充分地利用这些信息来提高用户的搜索效率。这是一种正在发展中的很有前途的搜索引擎人机界面技术,它通过搜索行为分析技术提高搜索效率。国内外研究动态文献检索的发展现状目前,数字化图书馆的设计方兴未艾,大多数文献情报单位还处于计算西南交通大学硕士研究生学位论文第页机检索初中级阶段。为提高文献检索的水平,满足当今信息社会迅速发展的要求,我们必须加快计算机检索和网络搜索的步伐,向联机文献信息服务网络化方面迈进。我国计算机文献检索系统的研发始于上世纪年代,由中国科技情报研究所和一些研究机构、情报机构及高等院校,分别对计算机检索的软件设计、数据库建设、上级检索等环节开展了广泛的研究与试验。年交通部科技情报研究所成功研制了微机单机文献检索系统、微机非文献检索系统及缩微文献检索系统,实现了利用微机检索书目、事实和数据。在文献检索自动化理论及时间方面达成了共识近年来,我国文献信息界对文献检索自动化的作用、地位、建设方法、发展方向等关键问题进行多层次、全方位的探讨、研究和实验,并且在此过程中,大家一致认定:中国的文献检索要走一个知识型、数字化、网络化的发展道路。同时,在实现有中国特色的文献检索自动化、网络化过程中,要走与国际共同的发展、资源共享的道路。“中国高等教育文献保障系统()”就是一个在教育部统一领导下,正在不断完善建设的文献信息保障系统。它以数十多所重点高校图书馆为主干,逐步建立起全国高校用户的文献信息服务计算机网络系统。向用户提供可查询、检索和利用的各种类型文献数据库,提供网上文献检索与源文献服务,国内出版文献的用户需求满足率可达到,国外出版文献达。同时,自动化水平的提高,带动高校图书馆在管理体制水平、新技术应用、人员素质和服务质量等方面也上了一个新台阶,向全世界先进水平靠拢。图书馆自动化系统的开发得到很大程度的提高世纪年代以后,图书馆自动化系统的研制由开发阶段开始进入实际应用阶段,国内开发的一些管理系统软件走上了商品化发展道路。如:由文化部委托深圳图书馆研制开发的“图书馆自动化集成系统()”已在全国多家图书馆使用,并且可用于平台操作,并可直接上网。北京图书馆的“文津图书馆综合管理系统”、广东中山图书馆的“中国图书馆电脑管理集成系统”以及由大连“博菲特”、北京息洋电子信息研究所共同开发的“息洋系统等,它们都在不断完善升级,向网络化方向发展,以期与国际先进的文献信息系统发展相接轨。也有一些图书馆引西南交通大学硕士研究生学位论文第页进国外先进软件系统,经汉化、改造后使用,在实现图书馆自动化管理方面显示出了雄厚实力,如:清华大学图书馆、中国科学院文献情报中心、上海图书馆、西安交大图书馆等使用的软件。现在,在我国大中型图书馆以及一些小型图书馆和情报单位,都基本上有这个自动化管理系统。数据库建设成绩显著文献数据库是文献检索的基础,也是文献信息单位自动化与网络化资源共享的根本保证。所以只有建立相应的通用型、标准型的数据库,才能实现文献检索工作的自动化,才能借助于通讯网络,对计算机数据库的资源进行利用、共享。同时它可以实现一次输入、反复使用,一家输入、多家使用。自上世纪年代末期起,我国数据库建设取得了较大进步,各种参考数据库、源数据库、全文数据库不断涌现,为实现文献检索自动化、网络化提供了保证。目前,数据库的建设已由各自为政逐步走向规范化、标准化、合作化的发展道路。文献检索自动化、网络化得到很大程度的普及和发展计算机在文献信息单位的运用,多媒体数据库、全文数据库、数据库、网上图书馆、电子图书馆等纷纷出现,这一切都使用户的检索更加简易、方便,获得的信息也更加丰富、全面和准确。而一些大型的联合文献数据库的建立,可以实现地区性文献机构的联合,利用联合数据库实现“一地多检”、“一建多用”,不仅方便了用户,而且给工作人员带来了诸多方便。有相当一部分文献单位已经建立起了自己的书目数据库,采用较先进的文献管理自动化系统,把公共检索、联机编目、馆际互借、多媒体应用系统、远程通讯等网络化系统的开发作为自己的发展目标,同时把自己的文献信息送向网络,向文献检索自动化迈进。目前,我国广大大专院校、科研院所、图书馆、情报机构等都已在自建和引进系统的基础上,逐步实现了信息和文献检索的自动化和网络化。文献检索的发展趋势服务内容个性化信息服务结构通过网络按照单个特定用户的偏好、习惯等开展个性化信息服务,进而满足用户的个性化需求。西南交通大学硕士研究生学位论文第页早在年美国康奈尔大学图书馆就开发了网络个性化服务平台系统口】,并于年投入使用。该系统有个性化链接,并于年投入使用。该系统由个性化链接()和个性化更新()两个部分组成,用户可以通过收集和组织自己常用的电子资源,建立一个真正属于自己的个性化数字空间:每周向用户提供其个人需要的新书、期刊和其他加入到图书馆目录中的媒介通告,用户无需耗费精力去查找资料,相关资料会主动持续的找到相应用户。我国这方面的研发比较晚,但也有一定成果,如已投入使用的在年初推出的由深圳市深思朗图信息技术公司开发网络版中捆绑的个性化服务子系统。另外由清华大学和清华同方主办的中国知识基础设施工程工程也做出决定,正式向社会各类机构和个人开始实施个性化服务,这其中对个人的服务除了提供内部整体的知识信息需求的采集、制作的专业知识库,还提供个人全面获取、处理知识信息的工具个人数字图书馆和在网上协同工作平台。此外还有不少单位对个性化服务进行研究,如中科院文献信息情报中心的个性化服务项目、中国数字图书馆的企业在线情报服务项目、中国农业大学图书馆的个性化服务系统等。显而易见,随着我国网络基础设施及社会环境的改善,用户的个性化信息需求日益强烈,个性化服务在我国也会逐渐普遍开来。服务模式一体化一体化服务要求“一步到位。所谓一步到位的服务是指用户可以在一个信息服务商处,利用一种网络界面,使用一个检索指令找到他所需要的全部的、确切的信息。不仅包括信息查询途径,还应包括具体的内容;不仅可查询该信息服务商自行建立的数据库,还可以查询其他信息上提供的数据库。在这种情况下网络联机服务就有更大范围的扩展,以使用户能更全面、更准确的获得有关信息,尽管目前网络联机服务在世界电子信息服务市场中已占有很大的份额。显然,要想高效的完成这种一体化的服务,不仅要有齐全的硬件设施,还应有完善的软件设施。目前我们国内的软件设施建设主要表现在数据库建设上,数据库是现在最重要的信息资源,我国的数据库研发和国外相比还比西南交通大学硕士研究生学位论文第页较落后,因此我们应加强数据库的建设。一方面我们应加强实体数据库的建设,另一方面我们要对网上丰富的信息资源进行发掘,按主题加强虚拟数据库的建设,通过虚拟数据库给用户提供涉及多数据源的统一的查询机制,让用户可以用统一的方式使用来自不同数据源的数据。服务手段智能化伴随着个性化服务越来越为人们所需,服务手段也就愈加的要求智能化。智能化的服务手段需要智能检索系统的应用来实现。智能检索系统可以有效的解决“信息过载”和“资源迷向”的问题,它能根据用户的需求或意愿代替用户查找所需信息,或主动推荐给用户所需要信息并能主动及时的向用户报告最新信息。另外系统还可以根据其获取的用户知识,为每个用户建立用户模型档案。它还为每个用户建立个人目录,该目录中所存储的信息能为用户以后的检索和浏览提供帮助。显然,我们能利用智能软件搜寻相关信息,并定时向用户发送,以完成用户的个人定制服务。当前其主要的应用就是在信息推送服务上,目前信息推送服务的研究与应用都有很大成果,产生了一些推送软件。本文的主要工作本文的主要工作是研究文献检索系统中文献检索部分的文档匹配方法。根据文档匹配的基本原理,使用概念格的理论来对文档进行表示,首先提出了基于概念匹配度模型的文献检索系统。同时为了更加合理的表达文档的内容,根据新的文档形式化表示,提出了与之更适合的文档与用户查询的匹配操作基于概念格匹配度模型的文献检索系统,以便提高文献检索的质且里本文的主要结构如下:第章绪论。介绍了论文选题的背景和意义、信息检索的类型与发展、文献检索的发展现状、文献检索的发展趋势和本文的主要工作。第章文献信息检索模型。介绍了信息检索的基本概念和三种基本文献信息检索模型:布尔检索模型、向量空间检索模型和概率检索模型。西南交通大学硕士研究生学位论文第页第章基于概念匹配度模型的文献检索系统。首先介绍了概念格的相关概念及应用,随后提出了基于概念匹配度模型的文献检索系统,最后用实例论证了该模型的有效性。第章基于概念格匹配度模型的文献检索系统。考虑到前章给出模型的不足,本章采用了一种新的文档表示,建立了与之符合的概念格匹配度模型,并用实例验证了该模型的可行性。第章结论与展望。西南交通大学硕士研究生学位论文第页第章文献信息检索模型文献是信息知识传播与记录的载体,即知识信息必须通过文献载体进行存储和传递,用户往往通过信息机构查找信息知识满足其需要。构成文献的三个最基本要素:一是文献含有知识信息;二是负载知识信息的物质载体;三是记录知识信息的符号和技术。文献中信息的表示和存储方式是文献检索的基础,原始的文本文献不能直接进行检索,需要从这些原始数据中抽取逻辑视图,以支持信息检索。用户则用查询来表示信息需求,用自然语言表示的信息需求同样需要抽取逻辑视图,便于计算机的表示和计算。检索系统根据用户的查询的表示,搜索经过抽象表示后的文献集合,获取与用户查询相关的文献,并对查询的结果与查询的相关程度进行相关性排序。换言之,文献信息检索模型是指如何对查询和文档进行表示,然后对它们进行相似度计算的框架和方法,本质上是对相关度建模。信息检索模型是瓜中的核心内容之一。由此可见,文献信息检索涉及三个过程:文献的逻辑表示、查询的逻辑表示、相似度匹配计算及结果集的排序。文献信息检索模型的定义文献信息检索主要研究对整个文档信息的表示、存储、组织和访问。一个好的信息检索系统不仅要求将输出信息进行相关性排列,还应该能根据用户的意图、兴趣和特点自适应和智能化的调查匹配机制,获得用户满意的检索输出。最常用的文献信息检索性能尺度是文献信息检索的查准率和查全率。文献信息检索的查准率为检索结果中有用的相关文档数与检索到的查询结果总数之比,而文献信息检索的查全率为满足用户查询要求或相关于查询要求的信息与被检索出的结果集信息比率。一个文献信息检索模型是将文档表示、查询表示以及他们之间的关系进行建模的框架,可以把信息检索模型看作一个三元体:,(,)()西南交通大学硕士研究生学位论文第页其中,表示检索系统的检索结果,刃是文献集合中一组文献的逻辑视图,称为文献的表示;是一组用户信息需求的逻辑视图表示,称为查询;(,;)是一个排序函数,该函数的输出是查询;和;的相关程度的实数,这样就在文献表示之间根据查,定义了一个顺序。基本概念关键词关键词是从文献中抽取出来,用来表示文献的内容并标引一篇文献的词,一篇文献可以用关键词的集合来表示,其语意可以用来揭示文献的主题,又称标引词。从文献中抽取的关键词一般是有实际语意的名词,起修饰作用的形容词、副词、连词很少用作标引词。权值权值是用来表示关键词对文献内容的揭示程度的实数值。一篇文献中关键词的集合中的关键词描述文献内容的作用不尽相同,根据关键词对文献内容描述的重要程度赋予关键词的权值也有所不同,权值不但标识了关键词对文献内容的描述程度,还是区分文献在集合中所属类别的一个特征。如果一篇文献中的关键词把文献从文献集合中明显地区分开来,则应赋予此关键词高的权值。只是为了标识关键词在文献中出现与否,可以用二值(和)作为关键词的权值就足够了,要体现关键词的重要程度就要为关键词的权值赋予一个连续的非离散值。停用词在文献集合中出现的关键词只有能深入地揭示文献的内容,并把文献从文献集合里区分开来,才可以用来标引文献,成为检索文献的依据。在文献集合中出现在大部分文献中,不能区分文献的词就是停用词。关键词成为停用词在不同的文献集合中有所不同,例如:“计算机一词,在计算机的文西南交通大学硕士研究生学位论文第页献集合中就应该作为停用词处理,而在生物科学文献的集合中就不是停用词。关键词和权值的集合表示。,:,。)是关键词的集合,表示文献集合中关键词的数目,。表示关键词集合中第个关键词;文献,可以用关键词向量表示为乃(,),是文献中关键词;的权值,表示关键词;没有出现在文献,中;查询也可以用关键词向量表示为:(,)。文献检索原理文献检索是依据一定的方法,从已经组织好的大量有关文献集合中,迅速、准确查找出所需文献的过程。因此,查出来的文献也只是关于文献的信息或文献线索,如果要真正获取文献中所记录的信息,那么还要依据检索取得的文献线索或关于特定文献的信息去索取和查阅文献的原文。文献检索就是从大量的科技文献中迅速、准确、没有重大遗漏的查出与特定的科学研究课题有关的资料。开展文献检索工作是一项继承前人成果,开展新的科学研究,避免重复劳动的工作。当今文献爆炸带来的后果更突出了文献检索的意义,用户可以根据自己的需要来选择文献,以掌握巨大的文献财富,推动科研、教学、医疗、生产的发展。广义地讲,文献信息检索包含文献信息储存和文献信息检索两个过程。信息储存是对大量的、分散无序的文献进行收集、标引及著录,并加以有序化编排,编制信息检索的工具的过程;信息检索是从大量的信息中查找出用户所需的特定信息的过程。我们可以建立各种各样的检索系统,通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。其实存储是为了检索,而检索又必须先进行存储。如图所示。文献信息储存西南交通大学硕士研究生学位论文第页信息储存的工作内容,主要是由标引人员通过对原始文献的阅读分析,对文献中的信息进行鉴别、提炼和浓缩,并采用特定的方式予以整理、保存起来。它大致有如下几个步骤:选择文献根据信息检索系统的主题、性质及任务等,结合原始文献本身的研究水平、角度及其信息质量,对原始文献进行适当的评价,从中筛选出符合要求的文献。文献的概念分析对所选文献进行仔细的主题分析,提炼出文献所论述的内容主题,归纳为代表文献内容的若干主题概念,并确定这些主题概念之间的关系。词汇转换把文献的主题概念转换为适当的文献标识(或称为标引词),并以这些标识来表达文献的主题内容。这种转换需要严谨地建立在两个依据之上:一是必须以对文献的主题概念分析为依据,二是必须以信息检索语言为依据。前者主要决定转换的问题,即需要对文献中的哪些信息主题做出转换;后者主要决定怎样转换的问题,即把主题概念转换为哪些标识。信息检索工具的编制概括地讲,检索工具是信息检索系统的核心和概括,它主要包括两个有序化的序列,即文献序列和文献标识序列。文献序列是由文献描述体或文献本身按照一定的方式组织形成的有序化序列,构成文献库。文献描述体是对原始文献内容的浓缩,常见的有文摘、题录等,这是信息检索所采用的传统和主要的方式。其主要作用是使用户能够对文献内容有较为全面和准确的了解,进而做出是否需要获取原始文献的选择。随着计算机技术和通信技术的发展,现在已经越来越多的信息检索系统采用全文本的方式,直接把原始文献本身组织为有序化的序列,尤其是因特网的迅猛发展,为全文本检索拓展了更大的发展空间。文献标识的序列,是由文献标识按照特定的顺序形成的有序化序列,构成文献库的索引。最常见的排序方式为字顺,即按照字母顺序或汉语拼音,排列为文献标识的序列。其作用主要依靠字顺组织,提供对文献标识的快速查找,并与提问标识加以比较,据此做出文献是否与提问相符的判断。这个标识比较的过程,也称为检索的匹配。文献信息检索西南交通大学硕士研究生学位论文第页信息检索的工作内容,主要是由检索人员接受用户的检索提问分析,对提问进行细致的主题分析,提炼出用户检索的主题概念,并编制出相应的检索策略。其工作步骤如下:用户提问在特定的条件下,用户会把头脑中信息需求转变为具体的检索行为;提问的概念分析分析检索提问,识别检索的真正主题内容,把检索主题分解为若干概念,并明确这些概念之间的关系;词汇转换把检索提问的主题概念转换为相应的提问标识(或称为检索词),并以这些标识来表达检索提问的主题内容。其依据同样有两个方面:一是对提问的主题概念分析,二是信息检索语言;检索的实施根据所得到的提问标识,在文献标识序列中,按照其排序的规则,迅速地进行查找,并对文献标识与提问标识进行匹配比较。如果文献标识与提问标识相同,那就表明包含有该标识的文献与用户提问相符合,该文献被作为命中文献而进行检索输出;如果文献标识与提问标识不相同,则表明文献与用户提问不相符合,该文献被作为不命中的文献而予以排除。文献信息的存储和检索的全过程可用图表示:存储寸捍检震辽崔图文献检索的原理示意图综合上述文献信息存储和检索两个方面,文献检索的原理是:由标引人员以文献或文献描述体构成文献库,同时把文献压缩转换为文献标识,以此表达文献的特征和主题内容,并对这些文献库和文献标识,按一定的方式分别予以有序化组织,从而形成信息检索系统即信息储存的过程。检索时,把成斗成斗墼墼一素言臼称范一一慵豁和貅髓一,引录一佣一墅骂圆国圈圈西南交通大学硕士研究生学位论文第页用户的检索提问压缩转换为提问标识(检索词),以此表达提问的特征和主题内容,并将提问标识与信息检索系统中的文献标识进行对比,进而依据匹配与否,做出文献是否符合检索提问的判断即信息检索的过程。因此文献检索的原理就是提问标识与文献标识的对比。布尔检索模型布尔检索模型在信息检索中是一种使用最普遍也是最简单的模型,它是基于集合论与布尔代数的一种简单检索模型,为使用信息检索系统的普通用户提供了一种便于掌握,信息检索系统的设计者易于实现的模型,为许多系统所使用。标准的布尔逻辑模型使用二元逻辑,被检索的文献要么和查询相关,要么不相关。布尔模型的关键词权值都是二元的,即心,)。布尔检索模型的理论基础布尔检索模型的理论基础是布尔逻辑和集合论,是以布尔逻辑运算:与(),或(),非()作为运算基础,文献和查询中关键词的表示也是以或的形式表示,只表示词语的出现与否,检索结果也是二值的。一篇文献要么和查询相关(用表示),要么和查询不相关(用表示)。布尔检索模型中文献的表示文献集合空间用刃表示,其中包含四篇文献,分别用,:,。来表示;文献集合空间中出现的关键词全体用集合丁来表示,其中包含,个关键词,。,文献集合中的文献为:(,),其中为关键词;在文献,中的权值:,如果文献,中包含关键词”,如果文献,中不包含关键词幺。()布尔检索模型中查询的表示西南交通大学硕士研究生学位论文第页在布尔检索系统中,根据用户提出的检索要求,选取适当的检索标识,与布尔运算符共同构成与查询相符的检索提问式,查询口由连接词、连接起来的多个关键词组成。因此查询口是一个常规的布尔表达式,可以表示为多个合取向量的析取,即析取范式。例如。(八乞)可以表示为析取范式的形式为:掰(,)(,)(,),其中每一个分量都是三元组(乞,乙,)的二值加权向量。布尔检索模型的匹配函数布尔模型中应用的匹配函数就是布尔逻辑和集合运算,用幽,表示查询的析取范式,。表示掰的任意合取向量,则文献,和查询的相似度为:州砌矗嚣刊砌烈爝)“列)如果砌(嘭,),则表示文献哆和查询相关,否则不相关,回文献向量中第个词的权值。布尔检索模型的优缺点及其改进()函数用来返这种传统的布尔模型的主要优点有两点:一是实现起来比较容易,速度快,计算的代价相对较少:二是查询语言表达简单,用户可以使用任意复杂的查询表达式,易于表示同义关系(如计算机电脑)和词组(如:数据挖掘系统)。但是布尔模型的查询式的构造对不懂逻辑数学的人来说就比较困难,为克服这一不足,针对用户的自然语言查询,可以设计自动构造查询式的方法【,】。法定检索的基本原理是逐步减少布尔检索式的逻辑乘项目,从而逐步提高命中的文献量,达到或接近用户指定的数量为止。法定数检索算法是根据检索词在文献数据库中的登录数来确定检索词的权重。检索词在文献数据库中登录的文献数越小,专指度就大,对于提问的重要性就越大。反之,检索词的文献登录数越大,对于提问的重要性就越小【】。西南交通大学硕士研究生学位论文第页逐步求精算法的基本思想是先构造一个检索范围较宽的提问式。然后通过不断对提问式中的检索词加以限定而逐步减小检索范围,直到检出的文献量达到或接近用户指定的文献数为止。两种算法均存在两点不足:()检索词权重的计算只依赖于检索词在数据库中的文献登录数,而没有考虑它在用户提问的重要性。因此,不能反映用户提问的特殊性。()提问式的形成与修正以用户指定的检出文献数为基础,而对用户来说,这种事先确定检索文献数的方法是很难接受的。在此基础上提出了一种新的算法,基于样本文献提问构造布尔检索提问式算法。该算法以样本文献提问为基础计算检索词的权重,根据检索词权重值的分布规律来构造布尔检索提问式。简化用户在检索中与情报检索系统的交互过程,从而提高检索效率,并利用检索系统对算法进行了验证,结果显示该算法在相同的查全水平上的查准率普遍高于手编提问式的检索结果。针对传统布尔模型无权重计算的缺点提出了矿范式模型【】。对于检索系统,影响其性能的主要环节:特征项的选择;权重的计算方法;查询的表示形式;查询的调整(优化);查询一文献相似度的计算方法。文献中主要对:权重的计算方法;查询的表示形式;查询一文献相似度的计算方法进行了优化。向量空间检索模型向量空间检索模型,是将文献和查询表示为关键词向量的形式,向量的项是关键词在文献中或查询中的权值。这些词语的权值用于计算文献集合和用户查询之间的相似度,检索系统根据计算出的相似度来排序文献集合,排序后的结果集就是和特定查询相关的文献的集合。向量空间检索模型的文献空间在文献集合中,每一篇文献都可以用公式()来表示,所有由公式()表示的文献向量组成的向量集合:西南交通大学硕士研究生学位论文第页(。,以)就构成文献向量空间模型中的向量空间,其中可以作为一个文献向量,也可以看作在文献空间刃中的权值,这一权值反映了文献谚在文献空间刃中的重要程度。标引词空间一个文献向量可以包含多个标引词,一个标引词可以作为不同文献向量中的某个分量。既然可以通过标引词定义一个文献空间来表示文献向量,那么也可以定义标引词空间,文献中的一篇文献就是标引词空间的一维。项的权值在文献空间的构成中,为关键词赋予权值是信息检索过程中最重要的一个环节,是向量检索中首先要考虑的问题。为关键词赋予权值主要涉及到三个因素:词频、词的文献频率和向量规范化。词频是指关键词在文献中出现的频数,反映了词在文献中的重要程度,常用矿来表示。原始词频只是反映了词语在文献中出现的次数,原始词频在长文献中会比短文献大。因此在用关键词标引文献时,需要对关键词进行规范化处理,常见的规范化处理方法有:最大矿规范:老()其中是文献中出现频率最大的词的词频,可以把词的权值限制在(,)之间,著名的和系统都是使用最大规范的一种变形来表示词的权值的,如下式:,纱其中()西南交通大学硕士研究生学位论文第页这样得到的关键词的权值是一个相对量。最大矿规范一个潜在的不足是:文献的规范化因子仅仅依赖文献中出现的最为频繁的词的词频,是规范化的范围限制在一篇独立的文献中,不能和整个文献集合空间发生联系。对数矿规范对词频矿取对数,然后加上一个常数:(厂)()这一方法虽然能降低词的权值异常高的情况,但未能明确地考虑文献长度和向量表示中的最大词频,只是用对数运算在一定程度上减少原始词频受文献长度大的文献中词语出现次数偏多的负面影响。余弦规范化余弦规范化是向量空间模型中最为常用的一种规范化方法,余弦规范化的规范因子为:其中孵,是逆文献频率:磷:型()其中是文献集合空间中文献的总数,表示包含关键词的文献数。轴规范文献被检出的概率与文献的规范因子成反比,在对大量文献试验的基础上发现,在用几种传统的规范化方法规范的文献集合中,短文献被检出的概率大,长文献被检出的概率小:提出了一种轴规范方法,把规范因子调整为:轴规范因子原规范因子(一)。相似度计算集合中的每一篇文献在向量空间里形成了相应的向量表示,查询也用向量表示好了,就可以计算查询和向量的相似度来排序整个文献集合。文献向量表示为:(,),查询向量表示为:(,嵋:,)。西南交通大学硕士研究生学位论文第页相似度的计算有以下几种:内积相似度运算在文献向量空间中,内积相似度计算公式是最常使用的相似度计算公式:(,),()公式中权值的选择有多种方法,若选择的二值权值,即,)则可简单计算成:(,)()其中表示同时出现在文献和查询中的项的个数。余弦相似度余弦相似度来源于点积运算的规范化,它的规范化是基于向量一范数函余弦相似可以定义:(,)一扛()基于向量范数的相似度计算查询向量和文献向量的差由()可以反映文献向量和查询向量的相似程度,这一相似程度的计算可以用由的矿范数来表示:。一(,)(,)窆一,()文献】中指出一般通过向量空间模型建立的矩阵都比较大,主要是由于两个原因造成的:一是文献的大量增加,二是文献空间中的词汇太多造成的。并且每篇文献中出现的词和文献空间相比很少,因此文献一词频矩阵是西南交通大学硕士研究生学位论文第页一个稀疏矩阵。文中使用了潜语义模型对文献空间进行了降秩分解,通过奇异值分解不但能使矩阵简化,还可以使被检索到的有关信息与使用者的查询不一定具有共同使用的术语,解决同义词的存在使检索信息丢失的现象,通过对检索词一文献矩阵降秩,可以去掉矩阵表示的数据库中的无关信息和噪声。但是潜语义模型难于理解,很难解释计算的实际含义,很多结果是靠实验结果来证实的,理论解释困难,并且一些中间结果难于解释。文献给出了一种理解潜语义模型的理论模型,指出矩阵被分解成的形式中,丁是词词矩阵,其中的元素表示了词和词之间的相关性,通过丁得到和,的关联性则能发现丁中不相关的词的相关值明显增大,这时由于词词间的传递相关造成的,就是说词厶和,同现,和如同现,通过四嬲得到和,的关联性。文献】中用大量试验验证了一次乘积找到的相关词最多。向量空间检索模型的优势与不足向量空间检索模型的优势在于将文本和查询简化为特征项及权值集合的向量表示,从而把检索操作变成向量空间上的向量运算。向量的权重可以通过简单的统计来完成,即通过定量的分析对查询和文本进行匹配,利用计算得到的相似度可以对获取的文档按照相似度排序。许多实验表明,向量空间检索模型比布尔检索模型能够得到更加正确的结果。但在这种模型中的基本假设、关键词向量之间被假设为相互无关的,而实际是有时它们之间大多是依赖关系,如在自然语言中,词或短语之间存在着十分密切的联系。所以这一假设对计算结果的可靠性造成一定的影响。另外,在查询中,也不能像布尔模型一样使用关键词之间的逻辑运算关系。概率检索模型事件空间概率模型的事件空间为:,其中代表所有可能的查询组成的集合,西南交通大学硕士研究生学位论文第页为文献集合,各种概率模型之间的不同就在于它们使用了不同的方法来表示和描述查询和文献,从而得到不同的查询表示和文献表示。对给定的查询和集合中的文献,概率模型试图估计出用户查询和文献,的相关程度,并认为这个相关概率依赖于查询和文献的表示。此外概率模型还假定文献集合中存在一个子集尼给定一个用户查询,存在一个文献集合,集合月只包含和查询相关的文献,而不包含和不相关的文献,我们把这个文献集合斤称为理想结果集合。相似度的计算对于概率模型来说,标引词的权值都是二值的,即嘞,)。查询是标引词的子集,用月表示已知的相关文献,用一表示刀的补集,即不相关的文献。同时,条件概率尸(乃)表示文献嘭与查询相关的概率,(天阿)表示文献与查询口不相关的概率,因此文献与查询的相似度砌(嘭,)可以定义为:,(,):()(一)()根据贝叶斯定理:砌(,):()()(一)(尸(尺)尸(嘭)表示从相关文献集合月中随机选择文献嘭的概率,(尺)表示从整个文献集合中随机选择文献的相关概率,(尺)表示从相关文献集合尺西南交通大学硕士研究生学位论文第页中随机选择文献的概率,()表示从整个文献集合中随机选择文献的不相关概率。在概率模型中,为了使问题简化,讨论项在相关和不相关文献中的分布情况时,常常使用独立的二元假设,也就是说,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论