已阅读5页,还剩51页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘 要随着信息技术的发展,特别Internet的广泛应用,网络上信息已是海量,并以几何级数的速度增长,面对浩如烟海的信息资源,人们迫切需要能够快速、准确地查找有关某个主题的全部信息资料。目前,Google, Yahoo, baidu等已经提供了信息检索服务。在现实中,不同用户由于知识背景不同、兴趣爱好不同,需求的信息也不同,他们访问的往往都只是Web上某一个特定的资源子集,是关于某一特定领域的。但是,大多数的信息检索系统采用关键词输入方式进行检索,对于任何用户,只要输入的关键词相同,返回的检索结果都是千篇一律,完全相同的,没有考虑用户的差异。为了解决不同用户的不同信息需求的问题,本文针对现有信息检索模型存在的问题,考虑用户在兴趣方面的差异,将本体技术应用于信息检索,建立了一种基于本体的Web信息检索系统模型。在本文给出的信息检索系统模型中,增加了一个基于本体的用户兴趣模块用于存储和处理用户的兴趣信息,在信息检索过程中,依据用户兴趣模块中提供的用户兴趣信息,有针对性地向不同类型的用户推荐尽可能符合其意图的信息资源。此外,信息检索系统还可根据浏览器的历史记录、用户浏览网页的浏览行为等方面的信息来更新用户兴趣模块中的兴趣信息,例如删除用户兴趣模块中长期不被检索的兴趣信息等,使用户兴趣模块中的兴趣信息随着用户兴趣的变化而变化。最后通过实验验证了模型的可行性,该模型在一定程度上实现了根据不同用户的不同信息需求向用户推荐符合用户意图的信息资源。关键词 本体;本体构建;信息检索;用户兴趣;用户信息存储 AbstractAbstractWith the development of information technology, especially in the promotion of Internet , the information of the network is massive, and growing at a geometric progression.In this situation, people urgently need to fast find all the information on a topic. At present, Google, Yahoo and baidu have provided information retrieval services.In reality, because users have different knowledge, different backgrounds, different interests and hobbies, they need different information, they tend to visit only Web resources on a particular subset which is on a particular area. But most of the retrieval system uses keywords to retrieve information, if users enter the same keywords ,they will get the same results. In order to solve the problem that different users have the different information needs, based on existing information retrieval problems, taking into account differen-ces in user interest ,this paper uses the ontology technology in information retrieval, and establishes a Ontology-based Web Information Retrieval System Model, in the information retrieval system model, adds a ontology-based user profile module which stores and processes user interest information. In the information retrieval process, based on the user interest information provided by user interest module, targeted to different types of users to recommend the information resources which they really need. In addition, according to the browsing history and the browsing behavior of the users, the information retrieval system can also update the information in the user profile module ,such as deleting the information not be retrieved for the long time ,so that the information in the user profile module varies with the user interested. At last, the experiments verify the feasibility of the model, the model can recommends infor-mation resources in a certain extent for different users which they really need.Key words ontology; ontology building; information retrieval; user profile;use information storageII目录目 录摘 要IAbstractII目 录IIIContentsV第1章 绪论11.1 论文研究的背景及意义11.2 国内外研究现状11.2.1 国外基于本体信息检索的研究现状21.2.2 国内基于本体信息检索的研究现状21.3 本文的主要研究工作和内容安排31.3.1 本文的主要研究工作31.3.2 本文的结构3第2章 本体理论及其技术42.1 本体的概念42.2 本体的分类52.3 本体的建模元语62.4 本体的表示语言以及开发工具72.5 本体开发工具72.6 本章小结9第3章 信息检索概述103.1 信息检索的含义103.2 信息检索模型113.2.1 布尔模型113.2.2 向量空间模型113.2.3 概率模型123.3 信息检索方法123.3.1 数据检索123.3.2 全文检索123.3.3 知识检索123.4 检索的评价指标133.5 本体在信息检索中的应用143.6 本章小结16第4章 领域本体的构建研究164.1 领域本体构建中存在的问题164.2 领域本体构建的原则164.3 现有的领域本体构建方法184.4 本文的本体构建方法224.5 本章小结25第5章 基于本体的信息检索系统模型研究265.1 基于本体的信息检索系统模型265.2 系统模型模块设计285.2.1 本体库285.2.2 用户查询词模块285.2.3 用户兴趣模块305.2.4 信息预处理模块345.2.5 索引库355.2.6 信息检索模块355.3 本章小结35第6章 基于本体的信息检索实验系统实现366.1 系统开发平台以及工具366.2 Soccer领域本体的构建366.3 系统检索演示396.4 系统检索评价416.5 本章小结41总结与展望42参考文献44攻读硕士学位期间发表的学术论文47致 谢48IIIContentsContentsAbstract(in chinese)IAbstractIIContents(in chinese)IIIContentsVChapter 1 Introduction11.1 The background and the meaning of studying the paper11.2 Domestic research and Foreign research11.2.1 Domestic research11.2.2 Foreign research21.3 The main research work and content of the paper31.3.1 The main research work of the paper31.3.2 The structure of the paper3Chapter 2 The theory and technology of ontology42.1 The concept of ontology42.2 The classification of ontology52.3 The modeling primitives of ontology62.4 Representation languages of ontology72.5 Development tools of ontology72.6 Summary9Chapter 3 An overview of Information Retrieval103.1 The meaning of information retrieval103.2 The models of information retrieval113.2.1 Boolean Model113.2.2 Vector Space Model113.2.3 Probabilistic Model123.3 The methods of information retrieval123.3.1 Data retrieval123.3.2 Text retrieval123.3.3 Knowledge retrieval123.4 Retrieval evaluation133.5 Application of ontology in Information Retrieval143.6 Summary15Chapter 4 Construction of domain ontology164.1 Problems of constructing domain ontology164.2 Principles of constructing domain ontology164.3 Exsiting methods of constructing domain ontology184.4 The method of constructing domain ontology in paper224.5 Summary26Chapter 5 Resraech of Ontology-based Information Retrieval System Model265.1 Ontology-based Information Retrieval System Model265.2 Modules of System Model285.2.1 Ontology library 285.2.2 Query processing module285.2.3 User profile module305.2.4 Information pre-processing module345.2.5 Indexing library355.2.6 Information retrieva module355.3Summary35Chapter 6 Achieve of Ontology-based Information Retrieval System366.1 Development platform and tools 366.2 Construction of Soccer domain ontology366.3 Retrieval demo396.4 Retrieval System Evaluation416.5 Summary41Conclusion and Outlook42References44Publication47Thanks48- 43 -第1章 绪论第1章 绪论1.1 论文研究的背景及意义随着时代的进步和科技的发展,Internet获得快速的发展,渗入到我们日常生活的方方面面。网络上信息资源已是海量,并以指数级数的速度增长,Internet真正地将我们带入了信息时代。面对庞大的信息资源,我们感觉无从下手,因此,要想在短时间内迅速找到自己需要的信息资料变得越来越困难。如何快速、准确地从庞大的信息“海洋”中寻找到符合用户需要的信息资料已经成为困扰网络用户的主要难题之一。目前,大多数用户一般都是通过Google, Yahoo, baidu等已经提供的信息检索服务来从网络上获取信息资料。然而现有的信息检索服务存在一定的局限性,这主要有以下几个方面:(1) 过度追求查全率,查准率明显降低。大多数检索系统片面追求查全率,导致检索出来的信息资料过于庞大,查准率明显降低,用户根本没有耐心、没有兴趣处理检索到的所有信息资料。(2) 没有考虑用户的差异。大多数的信息检索系统采用关键词输入方式进行检索,对于任何用户,只要输入的关键词相同,返回的检索结果都是千篇一律,完全相同的,没有考虑用户的差异,然而在现实中,不同用户由于知识背景不同、兴趣爱好不同,需求的信息也不同,他们访问的往往都只是Web上某一个特定的资源子集,是关于某一特定领域的。为了解决不同用户的不同信息需求的问题,提高信息检索的查准率,本文针对现有信息检索模型存在的问题,考虑用户在兴趣方面的差异,将本体技术应用于信息检索,建立了一种基于本体的Web信息检索系统模型。在本文给出的信息检索系统模型中,增加了一个基于本体的用户兴趣模块用于存储和处理用户的兴趣信息,在信息检索过程中,依据用户兴趣模块中提供的用户兴趣信息,有针对性地向不同类型的用户推荐尽可能符合其意图的信息资源。这样,信息检索系统就可以很好的解决了不同用户的不同信息需求的问题,很好地提高了信息检索的查准率。1.2 国内外研究现状目前,基于本体的信息检索系统正在逐渐成为国内外当前研究的热点之一。本体(Ontology)1作为一种能在语义层次上、知识层次上描述事物的一种工具,已经被广泛应用于语义web、知识工程、信息处理、自然语言理解等领域之中。本体在计算机以及相关领域应用,特别是信息检索中的应用,已经在国内外引起了广泛的关注,成为普遍关注的一个研究热点,。1.2.1 国外基于本体信息检索的研究现状在国外,有关基于本体的信息检索方面的研究开始比较早,成就也比较显著,已经出现了不少著名的项目,主要有Ontobroker、SKC、(Onto)Agent、和OntoSeek等。(1) Ontobroker2 是德国卡尔斯鲁厄大学的应用信息学与形式描述方法学院(AIFB)的一个研究课题,主要作用于互联网上的网页信息资源,目标是为用户提供所需要的网页信息,提供了信息检索等服务,可以用来处理HTML、XML和RDF格式的信息资源,充分利用本体的推理机制以及描述能力。(2) SKC3是一个尚未完成的一个课题,它建立了一个基于本体的代数系统,通过这个代数系统来协调本体之间的互操作,进而实现了异构系统之间的互操作。(3) (Onto)Agent4 主要是通过参照本体,为用户提供所需要的本体。它的参照本体是以Internet上已经存在的本体为对象建立起来的,并且保留了原有本体的元数据。 (4) OntoSeek5选用SENSUS来匹配用户查询信息和信息资料,主要用在黄页和产品目录的检索。该系统的本体是在保留SENSUS本体作为框架的基础上,并且用Wordnet中的主题词和词汇来填充这一框架。1.2.2 国内基于本体信息检索的研究现状在国内,虽然有关人士在基于本体的检索系统方面进行了大量、细致的研究,但是,这些研究无论在理论、实证,还是在实现和应用等方面都远远落后于国外的研究。国内的研究主要有:(1) 基于本体论和多主体的信息检索服务器。它是中科院计算所智能信息处理开放研究实验室的一个研究成果,是一种基于本体的多主体的信息检索服务器。但是这项研究没有使用形式化的本体语言,并且没有实现本体在推理方面的优势。(2) 本体论与信息检索6 是廖明宏在2000年发表的一篇有关基于本体的智能检索的理论研究的论文。在这篇论文中,作者对本体做了形式化描述,进而提出了基于本体的信息检索方法。 (3) 基于检索相关性转移的本体论检索系统7 是韩毅在2003年发表的一篇有关基于检索相关性转移的本体论检索研究的论文。在这篇论文中,作者将本体技术应用于情报检索,建立了基于本体的情报检索系统。1.3 本文的主要研究工作和内容安排1.3.1 本文的主要研究工作本篇论文的主要研究内容:对大量文献进行分析、归纳和总结,为了解决不同用户的不同信息需求的问题,本文针对现有信息检索模型存在的问题,考虑用户在兴趣方面的差异,将本体技术应用到信息检索中的,建立了基于本体的信息检索的框架结构,详细分析了各个模块的流程,给出了相关解决办法和策略,最后通过一个检索实验系统来验证了这种检索模型的可行性,在一定程度上实现了根据不同用户的不同信息需求向用户推荐符合用户意图的信息。本文的创新点:本文在进行系统模型设计时充分考虑了用户在兴趣方面的差异,在基于本体的Web信息检索系统中,增加了一个基于本体的用户兴趣模块。在信息检索过程中,依据用户兴趣模块中提供的用户兴趣信息,有针对性地向不同类型的用户推荐尽可能符合其意图的信息资源,从而有效地提高信息检索的查全率和查准率。1.3.2 本文的结构论文各章节的组织安排如下:第一章 为绪论。第二章 详细介绍了本体的基本概念和理论。分别介绍了本体的概念,本体的分类,本体的建模元语,以及本体表示语言和开发工具。第三章 详是信息检索技术综述,阐述了信息检索的概念,介绍了信息检索的模型、信息检索的方法以及评价指标,最后分析了本体在信息检索中的应用。第四章 研究了领域本体的构建。首先介绍现有领域本体构建存在的问题,本体构建的原则,然后列出了现有本体的构建方法,最后介绍了本文的本体构建方法。第五章 主要给出了一个基于本体的信息检索系统模型。首先详细介绍信息检索框架设计思想,然后给出了基于本体的信息检索系统模型,最后详细阐述了系统的各个模块。第六章 实现了基于本体的信息检索实验系统。介绍了实验系统的开发平台以及工具,并且构建了一个小型的足球领域本体,最后演示了实验系统的检索过程。总结与展望。总结了全文,说明了下一步的研究方向。第2章 本体理论及其技术第2章 本体理论及其技术2.1 本体的概念本体8的概念最早是用于哲学领域的。在哲学界,本体是客观存在的一个系统的解释或者说明,是物质存在的一个系统解释,这个解释不依赖于任何特定的语言,关心的是客观现实的抽象本质。在计算机界,本体的定义的形成是一个逐步完善的过程:Neches等人给出了本体的最早定义,他们认为本体应该是“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”9 。即本体不但包括一个领域中的基本术语和关系,还包括结合这些基本术语和关系的外延规则。1993年,Gruber给出了引用比较广泛的本体定义,即“本体是概念模型的明确的规范说明”10 。此后,Borst对Gruber的定义稍做修改,提出:“本体是共享概念模型的形式化规范说明”11 。以后,又有许多学者给出了各自不同版本的定义。Studer等人在前人的基础上,给出了目前为止最完善的定义:共享概念模型的明确的形式化规范说明12。Fensel对Studer的定义进行深入分析,总结出本体概念的四个主要方面13:(1) 概念化。即概念系统的语义结构,是对事实结构的一组非正式的约束规则,可以描述成一组概念(如实体、属性、过程)、定义和关系;(2) 明确。即概念以及这些概念的约束都有非常明确的定义;(3) 形式化。即本体可以被计算机所识别;(4) 共享。即是说本体是反映一个领域中人们都认可的知识和概念集,也就是说本体是对应于社会范畴而不是个体之间的共识。形式地说,一个本体可以由概念、关系、函数、公理和实例等5种素组成14:(1) 概念。概念是对现实世界中事务的抽象描述,含义很广泛,如工作描述、功能、行为、策略和推理过程等。(2) 关系。关系描述n个概念 对象之间的联系,形式上定义为n维的笛卡儿积的子集。实践中,本体中的关系往往可以和性质、属性、角色等通用。(3) 函数。函数是一组特殊的关系,其前n-1个元素可以唯一确定第n个元素。形式化的定义为。如函数“正方形的面积”定义正方形的面积是由边长唯一确定的。(4) 公理。公理用于表示一些永真断言,如地球属于太阳系。(5) 实例。一个实例是现实世界中具体的和唯一的个体,它对应着本体中的一个或多个概念。从以上不同研究者的定义,可以看出本体涉及到的概念为:术语(词汇)、术语关系、规则、概念化、形式化的规格说明、领域知识、表达和共享。其实,本体就是通过对于概念、术语及其相互关系的规范化描述,勾画出某一领域的基本知识体系和描述语言。虽然不同研究者对本体定义不同,但是他们对本体的本质理解都是相同的,即本体是用于某个领域内进行交流的一种语义基础。2.2 本体的分类根据分类标准的不同,本体可以有很多种分类的方法。目前,大家所熟知的本体分类有以下几种:(1) 根据描述对象的不同,Uschold15把本体分为四种,即特殊领域本体、一般世界知识本体、问题求解本体和知识表示语言本体。(2) 根据领域依赖程度的不同16,本体可以分为顶层本体、领域本体、任务本体以及应用本体等四类。这四类本体可以反映一定的层次关系。如图2.1所示:图2.1 本体的层次关系Fig 2.1 Ontological hierarchy顶层本体主要用于描述最通用的概念以及他们之间的关系,如空间、时间、事件、行为等,由于此类本体的通用性,顶层本体的共享范围很广。领域本体主要用于描述特定领域中的概念以及他们之间的关系。任务本体主要用于描述特定任务中的概念及以及他们之间的关系。应用本体主要是描述特定的应用。(3) Perez和Benjamins分析了前人的本体分类方法,总结出十种类型17:知识表示本体、通用本体、顶级本体、元(或核心)本体、领域本体、语言本体、任务本体、领域任务本体、方法本体和应用本体。(4) 根据本体推理功能的不同,中科院的李景博士将本体分为三种19:1)轻量级本体(Lightweight ontolgoy),没有逻辑推理功能的本体,例如叙词表和WordNet;2)中级本体(Middle ontology),有简单的逻辑推理功能的本体,即本体可以识别一阶谓词逻辑的表达式;3)重量级本体(Heavyweight ontology),有复杂的逻辑推理功能的本体,即本体可以识别二阶谓词逻辑的表达式,并且可以添加更加复杂的逻辑推理功能,如Cyc本体系统就是重量级本体。2.3 本体的建模元语传统知识库系统的开发采用的是概念化建模方法,但这种普通开发KBS的建模方法不能完全适用于本体建模。因为开发知识本体的目的是用于人类、计算机对知识的共享和重用,它是相对稳定的,独立于具体应用。因此在这种情况下,Perez等研究学者归纳出了5种最基本的建模元语20:(1) 概念。概念是对现实世界中事务的抽象描述,含义很广泛,如工作描述、功能、行为、策略和推理过程等。(2) 关系。关系描述n个概念 对象之间的联系,形式上定义为n维的笛卡儿积的子集。实践中,本体中的关系往往可以和性质、属性、角色等通用。(3) 函数。函数是一组特殊的关系,其前n-1个元素可以唯一确定第n个元素。形式化的定义为。如函数“正方形的面积”定义正方形的面积是由边长唯一确定的。(4) 公理。公理用于表示一些永真断言,如地球属于太阳系。(5) 实例。一个实例是现实世界中具体的和唯一的个体,它对应着本体中的一个或多个概念。概念的基本的关系主要有以下四种:(1) Part-of表示的是概念之间整体与部分的关系。(2) Kind-of表示的是概念之间的继承关系,与面向对象中父类与子类之间的继承关系相类似。(3) Instance-of表示的事概念特例与概念之间的关系,与面向对象中对象与类之间的关系相类似。(4) Attribute-of:表示的是某个概念是另一个概念的属性之一。例如:对一个人来说,“身高”是他的一个属性。在构造本体的过程中,没必要严格遵循Perez等人提出的5个基本元素来构造本体,同时概念之间的关系也不是仅仅只有part-of、kind-of、instance-of和Attribute-of等这四种基本关系,为了应用的需要,我们在特定情况下可以自己定义特定的关系来满足需要。2.4 本体的表示语言由于历代研究者的努力,现在出现了很多种本体表示语言,大约有28种之多。虽然本体表示语言很多,但目前使用最普遍的是Ontolingua、Cycl、Loom和OWL等。本文所使用的本体描述语言是OWL,下面简要对其作一分析:OWL21 即Web本体语言,它的开发开始于2001年,是目前W3C的本体表示语言,兼容了原有DAML-ONT/OIL/RDFS,语义表达能力进一步强大,并且推理能力进一步大大提高。OWL提供了三种不同的子语言,其表达能力由弱到强依次为:OWL-Lite、OWL-DL和OWL-FULL22。(1) OWL-Lite适用于只需要分类层次和简单的属性约束的使用者。例如它支持基数,不过只规定基数值是0或者1。(2) OWL-DL适用于需要在推理系统上进行最大程度表达的使用者,它包括了OWL语言的所有约束,具有最大的表现能力,计算能力(所有的推论都是可以计算)和确定性。比如当一个类继承与多个类,那么它就已经被规定不能是别的类的实例。(3) OWL-FULL适用于想在计算保证低,没有语法自由的RDF上进行表达的使用者。它规定本体可以在词汇表上增加新的词汇,这样任何一种推理系统都不能兼容OWL-FULL的所有属性特征。例如OWL-FULL规定,一个类可以同时作为许多个体的一个集合,也可以作为这个集合中的某一个个体。开发者开发时应该具体情况具体分析,选择最适合于自己的子语言:(1)开发者要根据用户要求表达能力、约束能力的程度来选择OWL-Lite和OWL-DL。利用OWL-Lite设计出的推理器计算属性大大提高,而在有具有确定性的子语言时,利用OWL-DL设计出的推理器自动按最坏的情况处理,推理器的子语言具有更高的复杂性。(2) 开发者要根据用户要求建模工具的依赖程度来选择OWL-DL和OWL-FULL。利用OWL-FULL设计出的推理器的支持具有不可预测性OWL本体的组成与Protg提供的本体相似,基本上只是在对组成部分的称呼有一些区别。例如OWL有类(Class)、属性(Property)和个体(Individual),而Protg则分别称它们为类(Class)、槽(Slot)和实例(Instance)。(1) 类(Class)OWL中的类代表一些个体的集合,OWL使用形式化(数学的)的方法精确描述出该类中成员必须具有的条件,例如,领域中全部猫的个体都属于Cat类。类可以通过继承关系组成层次结构,子类是父类中的特殊情况,OWL-DL的一个重要特征就是父类和子类之间的(包含)关系可以被推理机自动计算出来。概念(Concept)这个词有时被用来代替类,实际上,类是概念的一个具体表现。 (2) 属性(Property)属性是个体之间的二元关系,也就是说,属性把两个个体连接在一起。属性可以有反向属性(Inverse),属性也可以被限制为只能拥有一个值,即所谓的函数属性(functional);属性还可以是具有传递性(transitive)或是对称性(symmetric)。这里所说的属性即Protg中槽(Slot)的概念,在描述逻辑中它们就是角色(Role),在UML等面向对象方法中它们就是关系(Relation)。(3) 个体(Individual)个体代表领域中我们实际感兴趣的那些对象, OWL不使用唯一命名假设(Unique Name Assumption,UNA),也就是说,两个不同的名称可以对应到同一个个体。在OWL中,你必须明确的表达个体之间是否为相同的,否则它们可能相同也可能不相同。个体(Individual)有时也被称作实例(Instance),个体相当于类的实例。这里所说的个体对应于Protg中的实例(Instance)。2.5 本体开发工具构建本体首先要选择构建本体的工具,随着研究者对本体研究的深入,以及本体在各个领域内的应用,目前已经出现了很多种构建本体的工具,例如Protg、WebODE、OntoEdit、OilEd等。本文将采用的本体编辑器是Protg3.3.1,简要对其分析如下:Protg23是在Java环境下开发的,一种源代码开放的本体编辑工具。Protg具有大家所熟识的Windows界面风格,它是具有树形的结构,使用者通过点击就可以完成具体的操作,并且可以在概念层次上设计本体,所以使用者不需要具体学习本体的表示语言。Protg构建本体的步骤:(1) 通过各个途径收集、整理领域中的术语和概念,并且确定概念之间的关系;(2) 打开Protg3.3.1本体编辑器;(3) 选择工程类型(Project Type)。主要有Protg File、Protg Database、Experimental XML File、OWL/RDF Database、OWL/RDF Files、RDF Files。这里选择OWL/RDF Files;(4) 选中OWLClasses,添加概念;(5) 选中Properties,添加属性;(6) 选中Individuals,添加个体;(7) 反复重复(4) (6),编辑完成本体,生产OWL本体文件;(8)退出Protg3.3.1本体编辑器。本体编辑器Protg3.3.1的操作界面如图2.2所示:图2.2 Protg3.3.1操作界面Fig 2.2 Protg3.3.1 Interface2.6 本章小结本章介绍了本体的基本概念和理论。分别介绍了本体的概念,本体的分类,本体的建模元语,以及本体表示语言和开发工具。第3章 信息检索概述第3章 信息检索概述人们主要通常从时间性通讯、信息处理和文献查找等三种方面来认识信息检索。时间性通讯的角度,把信息检索看作是时间性的通讯一文中首次使用了信息检索这一词汇,并且提出信息检索可以被认为是时间性的通讯形式。作者认为信息检索主要在于把存储的信息提供给用户。这种观点强调了用户需求的重要性,对于信息检索的发展具有很强的理论和指导意义。信息处理的角度,认为信息检索主要是信息的组织和存储的。这种观点强调了信息的管理,并且认为信息不仅包括文字的范围,还包括图像、声音、数据等表达的信息。从信息处理的角度来认识信息检索,强调了用什么形式来组织、存储信息的问题。在Internet的广泛应用的今天,面对浩如烟海的信息资源,这种观点队友信息检索系统的设计具有很强的指导意义。文献查找的角度,这种认识强调了查找用户所需信息的过程。在信息检索领域种,支持这种认识的人数众多,也是大家现在的公认的观点。例如,英国著名学者维克利(BCVickery)提出信息检索就是从查找出用户在特定情况、特定时间下所需要的信息资料的操作过程。美国著名情报学家兰卡斯特(FWLancaster)提出信息检索就是从某一个文献库找出有关某一各主题文献的过程。,兰卡斯特提出了最经典的表述即信息检索并不是检索信息,因为信息存在于文献这一介质中,是无形的、看不见的。信息检索的目的是满足不同用户的不同信息需要,信息检索是检索文献,只有用户阅读了文献,用户的信息需要才得以满足。3.1 信息检索的含义 从广义上来说,信息检索就是信息的存储和检索。从狭义上来说,信息检索则是从信息资料中检索出用户所需要的信息的过程,也就是人们通常说的信息的搜索。信息检索24就是把信息资料按照一定的组织结构存储起来,当用户需要的时候,在从这些存储起来的有组织、有结构的信息资料中检索出用户所需要的特定的信息资料的过程。从以上的定义中,我们可以知道,信息检索主要包括信息的存储和信息的搜索两个阶段。信息的存储就是把我们收集到得信息资料经过特征分析后,按照一定组织、一定结构存储起来的过程;信息的搜索就是从信息存储时存储起来的资料中找到用户需要的资料并且提供给用户,它是信息存储的逆过程。3.2 信息检索模型信息检索模型(Information Retrieval Model)是从数学模型的角度来区别信息检索的,主要考虑的是数学模型。根据信息检索采用的数学模型的不同,信息检索的模型主要分为布尔信息检索模型、向量空间信息检索模型以及概论信息检索模型等三种信息检索模型25,26。3.2.1 布尔模型在信息检索模型中,最典型的就是布尔模型(Boolean Model),布尔信息检索模型是在传统的信息检索过程中应用十分广泛。在布尔信息检索模型中,首先从文献中提取出索引的一系列关键词,把这些关键词组织成一系列的特征变量。然后用这些特征变量来表示文献。Fi=( Fi1, Fi2, Fin)。其中,Fi 表示文献,n是特征变量的个数,Fik可以是0或者1,如果特征变量Fik在文献Fi 中出现了,那么特征变量Fik的值为1,否则Fik就被置为0。在布尔信息模型中,检索者可以根据关键次的逻辑关系使用与“”、或“”、非“”等逻辑运算符在文献中将众多的关键词组织成表达式,然后提交给查询系统。3.2.2 向量空间模型向量空间检索模型采用多元的权值来表示特征变量,避免了布尔信息检索模型中权值的局限性。在向量空间检索模型中,文献和查询词采用空间向量的组织方式来表示。因此可以向量之间的距离来计算文献和查询词的相似度,我们通常用向量的内积来进行计算。相似度越大,就越能表示文献和查询词的相关度也就越大。3.2.3 概率模型概率信息检索模型是一种采用数学中的概率论作为数学模型的一种信息检索模型,是随着信息检索中存在的不确定性而应运而生的。在概率信息检索模型中文献和查询词的表示和布尔信息检索模型类似,用查询词的特征变量在文献中的分布概率来计算查询词和文献的概率值,然后,按照这些概率值将文献排序输出。概率信息检索模型的好处在于形式的多样性,能够找到概率公式计算相关度。因此概率信息检索模型的检索效率明显高于布尔信息检索模型的检索效率。3.3 信息检索方法在信息检索中,David Lewis和Karen Sparck Jones把信息检索的方法分为数据信息检索、全文信息检索、以及知识信息检索等三种信息检索方法。3.3.1 数据检索数据信息检索(Data Information Retrieval)要求查询词和文献都遵循某一种格式,主要对应于具有结构化的信息系统。数据信息检索允许通过字段进行检索,比如:作者姓名=“张三”。有代表性的数据信息检索一般都是商业中的数据库28。数据信息检索主要取决于编码质量的高低,因此检索的带价很大,检索出的信息准确度高,并且很容易就漏掉相关的数据。数据信息检索的性能的高低主要在于所采用的字段识别的方法,数据信息检索的语义查找的能力也不高29。数据信息检索中的数据包括文献信息、数据信息,而且还包括事实检索的对象30。3.3.2 全文检索全文信息检索(Text Information Retrieval)将查询者的查询词和整篇文献中的全部词汇进行比较,这种检索方式没有考虑查询词和文献之间语义上的匹配。全文信息检索的性能主要取决于分词技术的高低。采用全文信息检索的信息检索系统重要有Google和百度等。这种检索方式的缺点主要是检索出的信息量过大,而且夹杂着很多无用的信息,增加了用户从检索结果中得到所需要信息的难度,也就是说全文信息检索片面追求查全率,导致查准率过低。3.3.3 知识检索知识信息检索(Knowledge Information Retrieval)采用智能组织的方式,从知识库中检索出所需要的信息的过程是,一种智能化的信息检索方式。知识信息检索的特征主要有:(1) 具有一种在语义上的智能知识体系。这一体系是知识信息检索的基础,知识信息检索性能也取决于这一职能知识体系。(2) 采用了基于元数据的方式,对信息资料进行了语义层次的标注。元数据是智能知识体系的元素。信息资料只有经过元数据的语义标注,才能被知识信息检索所检索。知识信息检索主要是在知识上、语义上的检索,因而检索的查全率和查准率都明显高于其他的检索方法。目前,知识信息检索是当前信息检索研究的重点,而基于本体的Web信息检索更是信息检索中的重中之重。3.4 检索的评价指标在信息检索中,信息检索系统返回的结果是否满足用户的需求,满足的程度如何是评价信息检索系统性能的主要评价依据。由于信息检索的查询具有模糊性,检索结果是否准确只能用相关性来评价,因此信息检索系统的评价是建立在检索结果文档集与相关文档集比较的基础之上的。下面介绍常用的性能评价指标32。一般情况下,“查全”和“查准”是我们用来判定检索性能的两个常用标准。假设a为检出有关信息数;b为检出的无关信息数;c为没有检出的有关信息数,即遗漏的信息数:d为没有检出的无关信息数,即系统根据查询条件而忽略的信息数。则有:(l) 查全率(Recall Ratio)定义为:检出有关信息数/信息中相关信息总数,也可以表示为。(2) 查准率(Precision Ratio)定义为:检出有关信息数/检出的信息总数,也可以表示为。从上边的定义中,我们知道查全率考察的是系统查找全部信息的能力,而查准率考察系统找到所需要的信息的能力,两者相互影响,从两个不同角度反映了系统性能的好坏。而且查全率和查准率是两个相互矛盾的指标,我们画出recall-recision图,就可以看到随着查全率的提高,查准率是不断下降的。因此,在信息检索时需要同时考虑查全率和查准率这两个指标,采用不同的检索策略,以得到合乎我们需要的性能指标。(3) F1测度,定义为:2查全率查准率/(查全率+查准率)。是一个把查准率和查全率结合起来的指标。由Fl值的计算公式可知:当结果文档集合中不包含任何相关文档时,Fl值为0;当所有结果集合中的文档都是相关文档时,Fl值为1。只有当查全率和查准率都较高时,Fl值才能取得较大的值,因此,确定Fl值最大值的过程可以认为是在查全率与查准率间确定最佳折中方案的过程。(4) R-Precision:检索返回的结果中排名前R的文档的准确率。如果前十篇返回结果中有2篇相关文档,那么在R=10时R-Recision就是0.2。R-Preeision希望排名靠前的检索结果中有更多的相关文档,这也与用户希望在检索结果的第一页中包含更多的相关文档的主观愿望一致。(5) P10:系统对于某查询返回的前10个结果中相关结果所占的比率。(6) 用户满意度:对于查询得到的网页,如果是用户最需要的,则该网页的满意度为2;如果是用户需要的,则该网页的满意度为1;如果该网页的内容偏离了查询,则该网页的满意度为0。3.5 本体在信息检索中的应用传统意义上的信息检索系统,采用关键词作为信息检索系统的检索词,也就是说把用户输入的关键词经过逻辑运算中与“”、或“”、非“”等逻辑运算组合成的新关键词作为检索系统的检索依据,通过检索词在一片文献中的出现与否来判断这篇文献是不是用户所需要的信息资料。这种传统意义上的信息检索系统忽略了关键词内以及关键词与关键词之间的语义上的信息,仅仅把关键词作为信息检索的一个入口,这样,信息检索系统带来造成一系列的问题,例如:返回信息过多、漏检有用的信息等。因此把信息检索系统从目前基于关键词层次提高到基于本体的语义层次,使检索从原来的关键词匹配提高到语义的匹配,从而克服关键词形式上的匹配带来的种种缺陷,加强人与计算机之间的交流能力。另外,在现实中,不同用户由于知识背景不同、兴趣爱好不同,需求的信息也不同,他们访问的往往都只是Web上某一个特定的资源子集,是关于某一特定领域的。但是,大多数的信息检索系统采用关键词输入方式进行检索,对于任何用户,只要输入的关键词相同,返回的检索结果都是千篇一律,完全相同的,没有考虑用户的差异。为了解决不同用户的不同信息需求的问题,考虑到用户在兴趣方面的差异,将本体技术应用于信息检索,增加一个基于本体的用户兴趣模块用于存储和处理用户的兴趣信息,在信息检索过程中,依据用户兴趣模块中提供的用户兴趣信息,就能有针对性地向不同类型的用户推荐尽可能符合其意图的信息资源。综上所述,本体在信
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中文系毕业论文开题报告
- 经管类学生考研相关问题研究-以南昌航空大学为例
- 稀有金属矿产地质勘查规范-矿产资源储量评审中心
- 河南豫剧戏曲范文
- 工程合同书样本模板(3篇)
- 硕士开题报告评语(5模版)
- 石油企业基层思想政治工作方法浅议
- 2025届毕业生毕业论文、顶岗实习答辩工作的安排
- 2025年中考作文备考之5高分范文欣赏
- 基于价值链分析的成本控制研究-以山西汾酒为例
- GB/T 12406-1996表示货币和资金的代码
- GB/T 10125-2021人造气氛腐蚀试验盐雾试验
- 冬期混凝土施工测温记录表完整
- 初中历史试题命制例谈课件
- 宗教信仰人员基本信息排查登记表新选
- 泥浆护壁成孔灌注桩方案
- 道德与法治教研活动记录
- 完全平方公式(课件)
- 圆珠笔制造工艺31
- 混凝土拌合站拆除方案
- 对全球变暖认识的七个问题的确定与不确定性
评论
0/150
提交评论