基于本体论的知识获取_第1页
基于本体论的知识获取_第2页
基于本体论的知识获取_第3页
基于本体论的知识获取_第4页
基于本体论的知识获取_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于本体论的知识获取研究报告所在院系学科专业研究生姓名指导老师计算机与信息工程学院农业信息化宋玲2013-10-21 目录TOC o 1-5 h z目录1 HYPERLINK l bookmark6 第一章本体论概述2 HYPERLINK l bookmark8 本体论的定义2 HYPERLINK l bookmark10 本体论的类型2 HYPERLINK l bookmark12 本体论的应用3 HYPERLINK l bookmark14 本体描述语言4 HYPERLINK l bookmark16 本体论的知识表示元素4 HYPERLINK l bookmark18 第二章基于本体论的

2、知识获取6国内外研究现状6 HYPERLINK l bookmark20 知识获取定义7 HYPERLINK l bookmark22 知识获取的途径7 HYPERLINK l bookmark24 基于本体伦的知识获取工作原理7 HYPERLINK l bookmark26 基于本体的知识获取特征8 HYPERLINK l bookmark28 第三章实例描述10 HYPERLINK l bookmark30 3.1基于本体论的用户兴趣模型的结构10 HYPERLINK l bookmark32 3.2基于本体论的用户兴趣模型的构建11 HYPERLINK l bookmark34 参考文献

3、13第一章本体论概述本体论的定义本体论(Ontology)最初起源于哲学领域,是形而上学的一个分支,试图去回答“存在是什么”和“所有存在的普遍特征是什么”等问题,它在哲学中的定义为:对世界上客观存在物的系统地描述。在人工智能界,本体论被赋予了新的定义,从而受到了信息科学专家的关注。早在1991年,Neches等人就给出本体论在信息科学中的定义。给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延规则的定义。后来,随着本体在信息系统、知识工程等领域的应用,越来越多的人加入到本体的研究队伍,信息科学界对于本体的理解也逐步发展走向成熟。1993年Gruber将本体定义为

4、:概念模型的明确的规范说明。,这一定义被知识工程研究人员所普遍接受;1997年,Borst更是在该定义的基础上进行了完善,认为。本体是共享概念模型的形式化规范说明。从定义可看出,本体主要包含:概念模型(现实的抽象模型)、明确(定义明确)、形式化(机器可读的)、以及共享(一致认可的)四层含义。而从本质上讲,本体论则是一个或几个领域的概念以及反映这些概念间关系的集合。知识检索必须以知识组织为前提和基础,而知识组织体系的形式与能力也在相当程度上决定了知识检索的能力。知识本体具有良好的概念层次结构和高度的知识推理能力,能准确表达概念间的内在关联,它与知识检索的天然结合性,使得基于本体的知识检索更加高效

5、且迅速成为研究热点。本体论的类型目前关于本体论的研究非常广泛,尤其是在国外,许多研究组织和机构都研究建立了各种各具特色的本体论。Fensel根据其应用主题,将这些为数众多的本体论划分为四种类型:(1)领域知识本体论用于描述某个特定专业领域的本体论,定义该领域的概念和概念间关系,描述该领域的基本原理、主要实体和活动关系,提供领域内部知识共享和知识重用的公共理解基础。目前许多领域已经拥有了相应的本体论,例如美国国家医学图书馆建立UMLS医学领域本体论、爱丁堡大学开发的EnerpriseOntology企业本体论,另外还有GENSIM生物医学本体论,Plinius陶瓷材料本体论等。(2)通用或常识本

6、体论用于描述通用知识,如:时间、空间、事件等等。目前世界上最大的常识本体论是Cyc公司的OPenCyC本体论,最新版OpenCyc包括6000个概念和60000个关于这些概念的声明(包括概念间的关系、对概念的限制等),另外0penCyc还包括一个基于本体论的常识推理机。方法本体论也称为任务本体论,用于描述任务的求解方法,如医学诊断方法、知识检索方法等。方法本体论和一般的本体论不同,它主要描述的是动态知识,其目的在于提供求解方法的共享基础,方法本体论中经常描述的要素包括:任务目标、任务数据、执行状态等等。元数据本体论用于描述信息资源元数据的本体论,元数据用来定义联机信息资源的格式和内容,元数据本

7、体论则提供了这些定义方法的公共理解基础。不同的本体论除了具有不同的应用主题外,其表示形式也各不相同。最简单的表示形式可能只是一些简单概念词的分组,被定义的概念间关系只有一种分类关系,这种分类关系具有:组成关系、相似关系。等多种内涵,没有固定一致的意义。与简单表示形式相反,有些本体论具有严格而详细地的表示形式和公理定义。本体论的应用本体论技术在知识工程领域正获得日益广泛的应用。一般来说,应用本体论的目的有三个:有益于人与人的交流在这种情况下,需要本体论足够清晰和明确,但可以是非形式化的。有益于系统间的交互本体论被用作各种建模方法、图表、语言和软件工具之间的统一的交换格式。有益于系统工程,尤其体现

8、在下面几个方面:重用性本体论是对领域知识进行形式化编码的基础。而这些形式化代码可以用于软件系统的重用或作为共享的组件。知识获取在建立一个基于知识的系统时,使用已有的本体论作为指导知识获取的基础将能有效地提高系统的建立速度和可靠性。可靠性形式化的表示方式往往可以利用自动方法进行一致性检查,使软件具有更高的可靠性。规格说明一本体论可以协助知识系统进行需求识别和定义规格说明。目前,本体论主要应用于知识工程领域的以下几个方面:(1)知识检索本体论可以提供一个知识结构,标注事实数据的内容,通过它可以迅速准确的从事实数据中获取适当的信息,实现基于语义的检索。(2)知识整合通过本体论所提供的组织结构可以实现

9、不同信息源中知识的整合,方便数据、知识和模型的重用。(3)知识的存储和维护本体论为可交互和可重用的知识模型提供了存储手段,同时本体论可以为知识的内容提供必要的限制,保证知识的一致性和正确性。(4)知识的衍生本体论支持从己有知识中通过学习和推理派生出新的知识本体描述语言本体论一般需要通过预先定义的语言来描述,目前具有代表性的本体论语言中,有的是基于逻辑(一阶谓词逻辑)的,有的是基于框架的,有的是基于Web网络的,还有一些比较高级的本体论语言综合了逻辑、框架和网络三个方面的要素。我们把它们简单归类如下:和Web相关的有SHOE、XOL、RDF、RDF-S、OIL、DAML、OWL。其中SHOE是H

10、TML的一个扩展;RDF和RDF-S、OIL、DAML、OWL、XOL之间有着密切的联系,它们是W3C的本体语言栈中的不同层次,与SHOE不同之处在于这些语言都是基于XML的;OWL是RDF(S)的扩展,具有丰富的语义表达和推理能力,它位于W3C的本体语言栈的栈顶。和具体系统相关的有:CycL、Loom、Ontolingua。KIF是最早的一类基于一阶谓词逻辑的知识表示语言,现在已经成为了美国的国家标准,主要是作为交换格式应用于企业内。本体论的知识表示元素本体论是对领域实体存在本质的抽象,它强调实体间的关联,并通过多种知识表示元素将这些关联表达和反映出来,这些知识表示元素也被称为元本体,主要包

11、括:概念表示领域知识元,包括一般意义上的概念以及任务、功能、策略、行为、过程等等,在本体论的实现中,概念通常用类(class)来定义,而且通常具有一定的分类层次关系。属性描述概念的性质,是一个概念区别于其他概念的特征,通常用槽(Slot)或者类的属性(Properties)来定义。关系表示概念之间的关联,例如一些常用的关联:父关系、子关系、相函数一表示一类特殊的关系,即由前n1个要素来唯一决定第n个要素,如:长方形的长和宽唯一决定其面积。公理表示永真式,在本体论中,对于属性、关系和函数都具有一定的关联和约束,这些约束就是公理,公理一般用槽的侧面(facet)来定义。实例表示属于某个概念类的具体

12、实体。本体论的每一个知识表示元素也可以被看作一个知识片,每一个知识片都包含名称、定义和文档说明。第二章基于本体论的知识获取随着网络上的信息呈爆炸式增长,准确而高效的检索出所需要的信息变得越来越困难,基于关键词的检索已经显得力不从心。究其原因是,当前网络上的内容更适合让人阅读而不是计算机阅读,面对网络上的HTML语言,计算机无法理解,因而就很难实现网络智能化的处理及知识的共享,鉴于这个问题,本体(Ontology)作为一种知识表示方法被引入到了人工智能领域。目前,国外多个大学和组织在从事本体语言研发,具有代表性的有WorldWideWebConsortim(W3C),StanfordUniver

13、sity,TheUSbioinformaticscommunity,theUniversityofWashington等,他们已经研发了或还在研发本体语言和本体编辑工具。将本体应用到信息检索系统中的著名项目有(Onto)2Agent、Ontobroker和SKC,代表了3个研究方向。其中,(Onto)2Agent采用了参照本体,目的是帮助信息用户能够检索已有的本体。将网上的本体作为对象而构建的本体,称为参照本体,它包含了各种本体的元数据。Ontobroker通过检索网上的网页,为用户提供需要的网页资源,SKC的目的是实现异构系统中各个本体间的互操作,采用的在本体之上建立代数系统的技术。国内对本

14、体技术的研究起步相对较晚,比较有影响力的有:武汉大学的董慧研究员主持的。基于本体的数字图书馆检索模型。,通过研究本体构建和推理等功能,构建了国共两党第二次合作时期历史的领域本体,并将其运用到了数字图书馆降。中科院数学所陆汝铃研究员领导的。常识知识的实用性研究。,采用本体构建了一个大规模的常识知识库;中科院计算所曹存根研究员主持的。学科本体的研究。,建立了地理本体、生物本体、中西医本体等大批学科本体;中科院数学所的金芝研究员的。基于本体的软件需求获取方法。,提出了以企业本体为元模型快速准确获取用户需求的方法。综观国内外研究现状,本体理论方面的研究趋于成熟,但是将本体应用于语义检索方面,目前还未出

15、现一个完善的可以进行自然语言检索的语义检索工具。即使推理功能较佳的Cyc本体系统,也需要用户采用CycL写成断言才能进行推理。当前本体研究存在的问题有以下三点:缺乏工程化的本体构建工具和方法:领域本体的开发需要领域专家的参与才能取得良好效果,但是目前缺乏方便实用的本体构建工具供领域专家使用,无法进行工程化开发;缺乏示范性应用:本体理论方面的研究比较活跃,但缺乏实际的支撑应用项目。缺乏本体概念间关系分析的指导方法:本体中的概念与概念之间存在着各种各样的关系,如何针对具体的应用分析这些关系,现在少有指导方法。知识获取定义知识获取的基本概念:所谓“知识获取”,是指在人工智能和知识工程系统中,机器(计

16、算机或智能机)如何获取知识的问题。狭义知识获取:指人们通过系统设计、程序编制和人-机交互,使机器获取知识。例如,知识工程师利用知识表示技术,建立知识库,使专家系统获取知识。也就是通过人工移植的方法,将人们的知识存储到机器中去。狭义知识获取也可称为“人工知识获取”。广义知识获取:除了人工知识获取之外,机器还可以自动或半自动地获取知识。例如,在系统调试和运行过程中,通过机器学习进行知识积累,或者通过机器感知直接从外部环境获取知识,对知识库进行增删、修改、扩充和更新。广义知识获取包括人工知识获取、自动和半自动知识获取。知识获取的途径人工知识获取:是指作为中间指导环节的知识工程师,通过知识源和计算机系

17、统,由知识工程师经过抽取、组织和归纳后最终以某种形式存入知识库中。半自动知识获取:是指在知识工程师的干预指导下,借助知识获取工具的帮助来完成知识获取的过程。所以又被称为交互式知识获取自动知识获取:是指由领域专家直接提供知识、数据和有关资料,知识获取过程完全由知识获取工具或知识基系统(或称知识库系统)自动完成,知识工程师仅仅是协调知识获取过程,如维护系统运行、教会领域专家使用计算机系统等。基于本体伦的知识获取工作原理从信息检索的一般过程出发,并结合基于本体的知识检索特性,我们可以将基于本体的知识检索工作原理总结为:针对具体的研究对象,在领域专家帮助下,结合现有的本体资源,建立基于领域概念的领域知

18、识本体;确定知识源,借助领域本体对知识源内的信息资源进行语义分析与标注,然后按规定的格式存储在知识库中;对用户输入的检索请求进行解析,形成基于本体的扩展查询式,并根据具体的知识匹配方法从知识库中匹配出符合条件的初始结果集;(4)初始结果集经过处理后对用户进行可视化的展现。基于本体的知识获取特征较之信息检索,检索专家给知识检索勾画出两个显著特征:一是基于某种具有语义模型的知识组织体系。知识组织体系与知识检索相辅相成,前者是后者实现的前提与基础,而后者则是前者运用的结果。二是对资源对象进行基于元数据的语义标注。元数据是知识组织系统的语义基础,信息资源要想具有长期的利用价值必须经过元数据标注和描述。

19、从知识检索的两个特征不难看出,只有以知识组织体系为基础,并以此对资源进行语义标注,才能实现真正意义上的知识层面的检索。国内外学者在这方面进行了积极地探索,提出了各种各样的思想,例如概念聚类、空间向量等等。而本体所具有的良好的概念层次结构和对逻辑推理的支持,为知识检索提供了有效地知识表示方法;与此同时,“知识本体作为组织领域知识的语义基础”以及“本体概念题对资源的语义标引”恰恰满足了知识检索的两个特征需求。于是,一些国外的研究者在这方面进行了有益的尝试,建立了一些基于本体论的检索系统,如OntoSeek系统、BEE-SMART知识检索系统、IMC知识检索系统等等。本体为这些知识检索系统提供了资源

20、描述及查询所需要的全部概念词汇,并通过领域语义模型为知识资源提供语义标注信息,从而使系统内所有模块对领域内的知识形成了统一的认识,这也进一步提高了检索系统的推理能力和精确性,实现了为用户提供全面的共同视图的功能。毫无疑问,本体的引入给长期困扰检索专家的知识组织和知识表示问题带来了良好的解决方案。通过实际运用,我们发现基于本体的知识检索相比传统检索方式,不仅具有较高的查全率和查准率,而且在知识挖掘、智能性需求获取、知识定位以及检索结果处理等方面都有明显的优势:具有知识挖掘能力比如对数字的理解,新词学习等。当08年7月份,nike公司刚刚推出Flywire(飞线科技)时,一般的电子商务系统因为扩展

21、的滞后性是无法将这一技术及时更新进用户查询选择项内的。如果使用本体作为知识组织方式,就能将Flywire的描述词汇如“钢缆式细线支撑”“降低鞋内缝线”“透气性强”等,对应到本体中的具体概念名,并通过技术推理得出Flywire是一种运动鞋鞋面设计技术,甚至可以知道使用该技术的运动鞋透气性和贴脚性更好。智能化程度高在现实生活中,针对同一个知识概念,不同用户检索时使用的查询词汇往往是不相同的,比如表述“阿迪达斯”这个运动品牌时,一部分人喜欢用全称,而另一部分则倾向于“阿迪”这个简称,这是因为不同用户的知识结构、检索习惯以及兴趣爱好都是不相同的。本体包含领域内所有的概念词汇,它可通过词条间的映射关系有

22、效地解决表达差异的问题;另外,运用本体良好的层次结构关系,可以对概念进行语义扩展,实现用户检索需求的智能获取。知识定位准确一词多义多用处的现象很常见,比如“会呼吸的”,既可以是运动鞋性能也可以是生物描述。传统检索是基于关键词的,停留在语法层面,不能准确把握知识的应用范围,经常检索出一些无用的信息。以本体作为概念语义分析基础后,就可以缩小范围,准确进行知识定位,而“会呼吸的”就会因为是基于运动鞋本体而被区分为运动鞋透气性能好的一种表现。检索结果综合这里的检索结果综合有双重含义,既可以表示同一系统下的综合也可以是多系统间的协作,但考虑到不用系统数据库结构的差异,多系统下的综合具有很大的难度。如果在

23、相同领域下使用同一本体进行开发,就可以解决数据库异构的问题,也可以将不同服务商联系起来,使用户得到的知识更加全面。如查询“李宁跑步鞋”,返回的信息就可能不仅包括李宁跑步鞋的款式图片,还有这种鞋的口碑、制造工艺、相关明星故事等等。第三章实例描述本体论在的网络信息检索系统中有一个重要的作用,就是用于构建用户兴趣模型,即通过建立用户偏好本体论库以支持用户的个性化信息检索。3.1基于本体论的用户兴趣模型的结构用户兴趣模型的表示方法有很多种,如:主题表示法、关键词列表表示法,但这些方法的一个共同的特点就是结构松散,没有反映兴趣概念间的关系。如果利用本体论的思想来组织表示用户兴趣的一组关键词,那么用户在进

24、行信息查询时,系统在用户兴趣模型中的匹配就不再是单纯的关键词匹配,而是把词与词之间的各种关系也考虑进来了,这样就能有效地提高检索系统的检索质量,甚至发现用户的潜在兴趣。比如,在一个基于本体论的用户兴趣模型中,用户感兴趣的中医肠道保健方法的下位类包含有概念词“膏药”、“按摩”和“针灸”这3个概念词都和“特效穴位”相关,因此“特效穴位”肯定也是用户的潜在兴趣概念,这正是基于本体论的用户兴趣模型的一个优势。0甘商D-6ffi1茗于立怵世的用戸兴息整麺呑例注:表示相笹关尿,一峑示上下去垂F-示英槽相关关察0粧败冗位0.4扑点箴0-1硒也中医方法0-6肠殖嫁借心托怙址方法巾用典医方GL静脉注肘0.1门脛

25、知物M由图可以看出,在基于本体论的用户兴趣模型中,除了需要描述各种关系的公理、函数以外,用户兴趣模型中的概念类至少还应具有3个属性:“概念名”、“概念兴趣相关度”和“用户概念名称”。其中“概念兴趣相关度”反映了该概念与用户兴趣的相关性程度,相当于该概念的权重。图中概念后的数字即为概念兴趣相关度的值,由此我们可以看出图中用户感兴趣的领域主要是肠道保健的中医方法。“用户概念名称”描述与该概念具有映射关系的用户概念名称。由于用户的表达习惯和对专业领域的理解不同,使得每一个用户都有其特定的概念名称空间,而且绝大多数都和系统使用的概念名称空间有差异,例如系统用“静脉注射”表达的概念,用户可能用“打点滴”来表达。用户习惯按照自身的概念名称空间表达检索要求,如果只依据系统的概念名称空间对其进行解释,则可能对用户的要求产生误解,进而影响检索结果。消除这种名称差异的办法是建立用户概念名称和系统概念名称之间的映射关系。3.2基于本体论的用户兴趣模型的构建用户兴趣模型的构建不外乎有2种方法:隐式的方法和明确的方法。前一种方法只是监视用户在Web页面的浏览行为,记录用户在某一页面停留的时间、文档的长度、用户访问的URL地址等形成日志文件,系统通过分析该日志文件,获取

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论