Ontology研究综述.ppt_第1页
Ontology研究综述.ppt_第2页
Ontology研究综述.ppt_第3页
Ontology研究综述.ppt_第4页
Ontology研究综述.ppt_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Ontology研究综述 李 芸 北京大学计算语言学研 究所 2003.10.7 1 主要内容 l关于Ontology的译名和定义 l为什么需要Ontology l作为工程学人工产物的Ontology lOntology 的建模元语 lOntology 与语义网络 lOntology 的描述语言 l已有的Ontology 及其分类 2 主要内容(续) l构建Ontology lOntology 的理论研究 lOntology 在信息系统中的应用 lOntology 与语义Web 3 关于Ontology的译名和定义 l哲学界 ontology即“论述关于Being()及其作为一、善这样抽象的 、完全普遍的哲学范畴,在这种抽象的形而上学里,进一步 产生出偶性、实体、因果、现象等范畴”。 被黑格尔所引述的由沃尔夫第一次表达出来的这个定义表明 ,ontology是运用以Being为核心的各种范畴,通过逻辑的方 法去构造哲学原理的学问。它是在概念王国里的纯粹的思辨 哲学。 本体论 存在论 是论 4 关于Ontology的译名和定义 l人工智能界 1991/Neches等:给出构成相关领域词汇的基本术 语和关系,以及利用这些术语和关系构成的规定这 些词汇外延的规则的定义; 1993/Gruber:概念模型的明确的规范说明; 1997/Borst:共享概念模型的形式化规范说明; 1998/Studer:共享概念模型的明确的形式化规范 说明 5 1998/Studer:共享概念模型的明确的形式 化规范说明 l1概念模型(conceptualization) 通过抽象出客观世界中一些现象(Phenomenon)的相关概 念而得到的模型,其表示的含义独立于具体的环境状态 l2明确(explicit) 所使用的概念及使用这些概念的约束都有明确的定义 l3形式化(formal) Ontology是计算机可读的。 l4共享(share) Ontology中体现的是共同认可的知识,反映的是相关领域中 公认的概念集,它所针对的是团体而不是个体。 6 Ontology的目标 lOntology的目标是捕获相关的领域的知识,提 供对该领域知识的共同理解,确定该领域内共 同认可的词汇,并从不同层次的形式化模式上 给出这些词汇(术语)和词汇之间相互关系的 明确定义。 7 为什么需要Ontology? l由于对跨系统的知识重用和分享的兴趣的增大,导致 对Ontology的兴趣大增。 l知识分享的问题:不同的系统描述领域的时候使用不 同的概念和术语。所以很难从一个系统中提取知识运 用到另一个系统中。 l开发可重用的Ontology以推进共享和重用是Ontology 研究的一个重要目标。 l开发支持构建、合并和翻译Ontology的工具是研究的 另一个目标。 8 明确的Ontology能够支持 l在人们之间共享理解 l工具间的互操作性 l系统工程 l可重用性 l定义主题词表和概念 l扮演数学在物理中所扮演的角色(内容理论) l定义必要的充足的概念和“方法” l共同的知识理论 9 作为工程学人工产物的Ontology l现在,Ontology已经超越了哲学范畴,而是和信息技 术(例如:面向对象系统)及人工智能有着密切的关 系。 l这样,在人工智能和信息系统领域对Ontology的研究 就必须为如何构建和维护Ontology提出实际可行的有 用的建议。 l一种很实际的观点:Ontology就是一种必须要构建的 人工产物。 l很多人工产品都有很强的Ontology的味道,比如:术 语表、术语学、字典、百科全书、知识库、数据库模 式。 10 Ontology与知识库的比较 l一些基本的问题: 知识的表达形成共识了吗? 所使用的术语被明确定义了吗? 所使用的术语易于表达吗? 知识的重用方便吗? 它稳定吗? 它是新项目的起点吗? 11 Ontology与知识库的区别 lOntology为知识库的建立提供一个基本的结构 ; lOntology提供一套概念和术语来描述某一领域 ,并且获取该领域的本质的概念结构; l这些都是通过Ontology分析完成的; l然后,知识库就可以运用这些术语去表达现实 或者虚拟世界中的正确知识。 12 Ontology分析 lOntology分析就是明确知识的结构。对于给定 领域,它的Ontology构成了该领域的任何知识 表示系统的核心。如果没有支撑知识的 Ontology或者概念体系,那么就不会有表示知 识的词汇存在。因此,设计一个有效的知识表 示系统和词汇表的第一步就是对该领域进行有 效的Ontology分析,Ontology分析没做好,会 导致知识库的不一致。 13 知识表示语言和知识库都是基于Ontology 分析而创建的 : l把术语和Ontology中的概念及关联连接起来; 然后 l设计语法,使用这些概念和关系来对知识进行 编码。 14 类比 l数据库系统的设计,软件系统的设计,都需要 在实际的系统实施之前进行系统分析和设计, 同样,对于基于知识的系统也需要这些步骤。 15 Ontology与“面向对象”(OO)方法的比较 l设计Ontology的过程和创建面向对象的软件的 过程相似。对象、对象属性以及它们的处理流 程映射了应用软件相关的领域的各个方面。面 向对象系统包含了对领域的有用分析,常常被 不同的应用程序重复使用。 16 基本差异 l程序中的类(Class)和目标(Object)是关于数据结 构的,因此,面向对象编程方法(OOP)可能会破坏 Ontology的基本原则。 lOntology中的类和对象必须反映出实际世界的结构。 l对象、关系、状态、事件和过程构成了一套表示系统 ,但它本身并没有说明现实生活中存在哪些类型的上 述实体,这是领域建模人员的任务。 17 Ontology分析的好处 l我们可以与那些对该领域的知识表示有类似需 求的人分享这种知识代表语言,因此避免了重 复知识分析流程。共享的Ontology形成了领域 专门知识表示语言的基础。 18 Ontology 的建模元语 lPerez 等人认为Ontology 可以按分类法来组 织,他归纳出Ontology 包含5 个基本的建模元 语(Modeling Primitive) 。这些元语分别为:类 (classes) ,关系(relations) ,函数(functions) ,公理(axioms) 和实例(instances) 。通常也 把classes 写成concepts。 19 概念 l概念的含义很广泛,可以指任何事物,如工作 描述、功能、行为、策略和推理过程等等。 20 关系 l关系代表了在领域中概念之间的交互作用。形 式上定义为n 维笛卡儿乘积的子集: R : C1 C2Cn 。 l如:子类关系( subclass-of) 。 21 函数 l函数是一类特殊的关系。在这种关系中前n - 1 个元素可以惟一决定第n 个元素。形式化的定 义如下: F : C1 C2 Cn-1 Cn 。 l例如Mother-of 关系就是一个函数,其中 Mother-of ( x , y) 表示y 是x 的母亲,显然x 可以惟一确定他的母亲y 。 22 公理 l公理代表永真断言,比如概念乙属于概念甲的 范围。 23 实例 l实例代表元素。 24 l从语义上分析,实例表示的就是对象,而概念 表示的则是对象的集合,关系对应于对象元组 的集合。概念的定义一般采用框架(frame) 结 构,包括概念的名称,与其他概念之间关系的 集合,以及用自然语言对该概念的描述。 l基本的关系有4 种:part-of ,kind-of , instance-of 和attribute-of 。 25 l在实际的应用中,不一定要严格地按照上述5 类元语来构造Ontology。同时概念之间的关系 也不仅限于上面列出的4 种基本关系,可以根 据特定领域的具体情况定义相应的关系,以满 足应用的需要。 26 Ontology 与语义网络 l作为知识表示工具,Ontology 与语义网络非 常相似。 l它们都是表示知识的形式,并且均可以通过带 标记的有向图来表示,适合用于逻辑推理。 27 Ontology 与语义网络 l但从描述的对象或范围而言,Ontology 与语义网络有所区别。 Ontology 是对共享概念模型的规范说明,这里所说的“共享概念模 型”指该模型中的概念是公认的,至少在某个特定的领域是公认的。 一般情况下,Ontology 是面向特定领域,用于描述特定领域的概念 模型。语义网络从数学上说,是一种带有标记的有向图。它最初用 于表示命题信息,现广泛应用于专家系统表示知识。语义网络中节 点表示物理实体、概念或状态,连接节点的边用于表示关系。语义 网络中对节点和边没有其他特殊的规定,因此语义网络描述的对象 或范围比Ontology 广。 在表示的深度上,语义网络不如Ontology。语义网络对建模没有特 殊的要求,但是Ontology 却有5 个要素:类、关系、函数、公理和 实例,其中公理可以看作是Ontology 中的约束。Ontology 通过这5 个要素来严格、正确地刻画所描述的对象。 语义网络的建立可以不要求有相关领域的专业知识,因此比较容易 建立。而Ontology 的建立必须要有专家的参与,相对而言更加的严 格和困难。 28 Ontology 的描述语言 l在具体的应用中,Ontology 的表示方式可以 多种多样,主要可分为4 大类:非形式化、半 非形式化、半形式化、形式化语言。可以用自 然语言来描述Ontology ,也可以用框架、语 义网络或逻辑语言等来描述Ontology。虽然具 体描述Ontology 的方法很多,但是目前使用 最普遍的方法是Ontolingua 、CycL 和Loom 等。 29 Ontolingua lOntolingua 是一种基于KIF (knowledge interchange format) 的 ,提供统一的规范格式来构建Ontology 的语言。Ontolingua 为 构造和维护Ontology 提供了统一的、计算机可读(可处理) 的方式 。由Ontolingua 构造的Ontology 可以很方便地转换到各种知识 表示和推理系统,使得对Ontology 的维护与具体使用它的目标 表示系统分离开来。可以把Ontolingua 转换成Prolog、CORBA 的IDL 、CLIPS、LOOM、Epikit 、Algernon 和标准的KIF。 l目前,Ontolingua 主要是作为Ontology 服务器上提供的,用于 创建Ontology 的语言。另外有不少项目使用Ontolingua 作为实 现Ontology 的语言。 30 Cycl lCycl 是Cyc 系统的描述语言,它是一种体系 庞大而非常灵活的知识描述语言。 l该语言在一阶谓词演算的基础上,扩充了等价 推理、缺省推理等功能,而且具备一些二阶谓 词演算的能力。 l在该语言的环境中配有功能很强的可进行逻辑 推理的推理机。 31 Loom lLoom 是Ontosaurus 的描述语言,是一种基于一阶谓 词逻辑的高级编程语言,属于描述逻辑(Description Logic) 体系。 l它具有以下的特点: (1) 提供表达能力强、声明性的规范说明语言; (2) 提供强大的演绎推理能力; (3) 提供多种编程风格和知识库服务。该语言后来发展成为 PowerLoom语言。 lPowerLoom是KIF 的变体,它是基于逻辑的,具备很 强表达能力的描述语言,采用前后链规则(backward and forward chainer) 作为其推理机制。 32 已有的Ontology 及其分类 l目前被广泛使用的Ontology 有如下5 个: lWordnet lFramenet lGUM lENSUS lMikrokmos 33 Wordnet lWordnet 是基于心理语言规则的英文词典,它 以synsets 为单位组织信息。所谓synsets 是 在特定的上下文环境中可互换的同义词的集合 。 34 Framenet lFramenet 也是英文词典,采用称为Frame Semantics 的描述框架, 提供很强的语义分 析能力, 目前发展为FramenetII。 35 GUM l支持多语种处理,包含基本的概念及独立于各 种具体语言的概念组织方式。 36 SENSUS l为机器翻译提供概念结构,包括7 万多个概念 。 37 Mikromos lMikromos也支持多语种处理,采用一种语言 中立的中间语言TMR 来表示知识。 38 Ontology 的分类 l为了对Ontology 进行有效的分类,Guarino 在文献15 中提出以详细程度和领域依赖度两维度作为对 Ontology 划分的基础。详细程度是相对的、较模糊的 一个概念,指描述或刻画建模对象的程度。详细程度 高的称作参考(reference) Ontologies ,详细程度低的 称为共享( share) Ontologies。 l依照领域依赖程度,可以细分为顶级(top-level) 、领 域(domain) 、任务(task) 和应用(application) Ontologies 等4 类。 39 Ontology 的分类 l顶级Ontologies 描述的是最普通的概念及概念之间的 关系,如空间、时间、事件、行为等等,与具体的应 用无关,其他种类的Ontologies 都是该类Ontologies 的特例。 l领域Ontologies 描述的是特定领域(医药、汽车等) 中 的概念及概念之间的关系。 l任务Ontologies 描述的是特定任务或行为中的概念及 概念之间的关系。 l应用Ontologies 描述的是依赖于特定领域和任务的概 念及概念之间的关系。 40 Ontology 的分类 l1999 年,Perez 和Benjamins 在分析和研究了各种 Ontologies 分类法的基础上,归纳出10 种 Ontologies16 :知识表示Ontologies、普通 Ontologies、顶级Ontologies、元(核心) Ontologies、 领域Ontologies、语言Ontologies、任务Ontologies、 领域-任务Ontologies、方法Ontologies 和应用 Ontologies。这种分类法是对Guarino 提出的分类方 法的扩充和细化,但是这10 种Ontology 之间有交叉 ,层次不够清晰。 41 构建Ontology l构建Ontology是一项持续的研究。 lOntology在抽象程度上变动,从构成所有领域 知识表示基础的最普通的术语到特定领域专用 的术语。例如:空间、时间、部门以及分部门 等术语可以应用到所有领域中;而机能失灵应 用于工程和生物领域;而晶体管则只是应用到 电子电路领域。 42 Ontology的层次 l一项任务即便看起来是局限于某一领域的,知识表示一般也要求在更高 概括程度上描述知识的Ontology。例如:解决涡轮领域的问题可能需要 一些使用更加概括性术语(如流程和因果关系)表达的知识。这种更通 用的描述性术语被称为更高层次的Ontology或者最高层次的Ontology。 l层次一:定义概念和层级。例如:Yahoo的Ontology l层次二:清楚的定义概念的含义,增加对关联的定义大部分的 Ontology都在这一层次。 l层次三:任务Ontology 当我们从Ontology的顶端转到较低的分类水平时,与特定领域及现象相关的 关联就出现了。 为了对地球上的对象进行建模,我们可以确定特定关联。例如:动物、矿物 和植物是对象的子类;有生命(x)和含碳的(x)是对象的性质;而可以吃 (x,y)是两种对象之间的可能关系。这些关联是与该领域的特定对象和现象 相关的。 43 最顶层的Ontology问题 l不同的系统使用不同的表示法 l尽管存在差异,但是还是有一些共识: 世界上存在着对象 对象拥有属性,可以取值 各种对象之间可能存在着各种关联 属性和关联会随着时间改变 在不同的时间会有不同的事件发生 存在着对象参与的流程,而且不断地发生 世界和对象会有不同的状态 事件会成为其他事件和状态的起因 对象是有其组成部分的 44 领域相关性 l领域独立的Ontology和领域相关的Ontology之 间并没有明显的界线。例如:对象、物理对象 、设备、发动机和柴油发动机都是描述对象的 术语,但是其领域相关性逐渐增强。同样,表 述对象间关系的术语也在领域相关性上有所不 同,如连接、电力连接、焊接。 45 任务相关性 lOntology的任务相关性如何?直观地看,各种事物的 存在并不取决于我们的目标。从这种感觉上来说, Ontology并不依赖于任务。从另一方面来看,选择现 实的哪些方面编码至Ontology中,这确实取决于任务 。 l例如:在水果领域,如果我们要开发的Ontology是用 来挑选杀虫剂,那么我们的焦点可能会集中在某些方 面;如果我们要开发的Ontology是用来帮助厨师挑选 做菜用的水果,那么我们的注意力又会集中在其它的 方面。 46 构造Ontology 的规则 l目前已有的Ontologies 很多,出于对各自问题域和具体工程的考 虑,构造Ontologies 的过程也是各不相同的。由于没有一个标准 的Ontology 构造方法,不少研究人员出于指导人们构造 Ontologies 的目的,从实践出发,提出了不少有益于构造 Ontology 的标准,其中最有影响的是Gruber 于1995 年在文献 17 中提出的5 条规则: 明确性和客观性:即Ontology 应该用自然语言对所定义术语给出明 确的、客观的语义定义。 完全性:即所给出的定义是完整的,完全能表达所描述术语的含义 。 一致性:即由术语得出的推论与术语本身的含义是相容的,不会产 生矛盾。 最大单调可扩展性:即向Ontology 中添加通用或专用的术语时,不 需要修改其已有的内容。 最小承诺:即对待建模对象给出尽可能少的约束。 47 Ontology 的理论研究 lOntology 的理论研究包括概念及概念分类、Ontology 上的代数等,其中最有代表性的是Guarino 等人对概 念及其分类进行的研究工作。 lGuarino 等人在文献 15 ,18 对概念的分类做了深入 细致的研究,从一般的意义上来分析什么是概念、概 念的特性、概念之间的关系及概念的分类,提出了一 套用于指导概念分类的可行理论。在该理论的基础上 ,他进一步提出了Ontology 驱动的建模方法,从而在 理论上为建模提供了一个通用的模式。 48 Ontology 在信息系统中的应用 l目前,信息检索技术可分为3 类19 : l全文检索(Text retrieval) l数据检索(Data retrieval) l知识检索(Knowledge retrieval) 49 各种信息检索技术的特点 l全文检索的特点是把用户的查询请求和全文中的每一个词进行比 较,不考虑查询请求与文件语义上的匹配,这种方式虽然可以保 证查全率,但是查准率却大大地降低了。 l数据检索的特点是查询要求和信息系统中的数据都遵循一定的格 式,具有一定的结构,允许对特定的字段检索(例如:作者=“王 刚”) 。数据检索需要有标识字段的方法。数据检索的性能取决于 所使用的标识字段的方法和用户对这种方法的理解,因此具有很 大的局限性。数据检索支持语义匹配的能力也较差。 l知识检索强调的是基于知识的、语义上的匹配,因此在查准率和 查全率上有更好的保证。目前知识检索是信息检索研究的重点, 特别是面向Web 信息的知识检索。 50 lOntology 具有的良好的概念层次结构和对逻 辑推理的支持,因而在信息检索,特别是在基 于知识的检索中得到了广泛的应用19 ,20 。 51 基于Ontology 的信息检索的基本设计思想 l(1) 在领域专家的帮助下,建立相关领域的Ontology。 l(2) 收集信息源中的数据,并参照已建立的Ontology ,把收集来的数据按规定的格式存储在元数据库(关系 数据库、知识库等) 中。 l(3) 对用户检索界面获取的查询请求,查询转换器按照 Ontology 把查询请求转换成规定的格式,在Ontology 的帮助下从元数据库中匹配出符合条件的数据集合。 l(4) 检索的结果经过定制处理后,返回给用户。 52 Ontology 应用在信息检索中的著名项目 l目前Ontology 应用在信息检索中的著名项目包括(Onto) 2 Agent21 、Ontobroker22 和SKC23 。这3 个项目也分别代 表了3 个方向。 l(Onto) 2 Agent 的目的是为了帮助用户检索到所需要的WWW上 已有的Ontology ,主要采用了参照Ontology。参照Ontology 是 以WWW上已有的Ontology 为对象建立起来的Ontology ,它保 存有各类Ontology 的元数据。 lOntobroker 面向的是WWW上的网页资源,目的是为用户检索到 所需要的网页,这些网页含有用户所关心的内容。 lSKC 是一个正在进行的项目,其目标是解决信息系统语义异构 的问题,实现异构的自治系统之间的互操作。该项目希望通过在 Ontology 上建立一个代数系统,用这个代数系统来实现各 Ontology 之间的互操作,从而实现异构系统之间的互操作。 53 Ontology 与语义Web lBerners-Lee 于2000-12-18 在XML2000 的会议上正 式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论