高级数据库技术知识库技术02(本体).ppt_第1页
高级数据库技术知识库技术02(本体).ppt_第2页
高级数据库技术知识库技术02(本体).ppt_第3页
高级数据库技术知识库技术02(本体).ppt_第4页
高级数据库技术知识库技术02(本体).ppt_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、高级数据库技术及应用 第4章 知识库技术(2),目录,4.1 知识的概念 4.2 知识表示与推理 4.3 知识库与知识库系统 4.4 基于知识的数据库技术,4.2.3 知识的本体表示,(1)本体基本概念 本体(ontology): 最初是哲学概念 用于表示客观对象及其相互关系,进而建立关于存在及其本质规律的学说理论。 在计算机信息科学领域: 通常用于描述层次化的数据结构,其中包含实体和实体间关系以及相关领域的基本规则 在人工智能领域:“ 用于知识管理、自然语言处理、电子商务和语义WEB等 在网络技术领域: 语义WEB需构造不同本体用于不同表示、查询和推理,4.2.3 知识的本体表示,“本体”:

2、 “元概念” 需从多个角度进行描述。 Neches在1991年提出: 一个本体定义了组成主题领域的词汇的基本术语和关系 以及用于组合术语和关系以及定义词汇外延的规则 Gruber 在1993年指出: 本体是概念化的一个显式的规格说明 Borst在1997年说明: 本体可定义为被共享的概念化的一个形式的规格说明 按照Borst解释,本体概念释义如图所示,4.2.3 知识的本体表示,4.2.3 知识的本体表示,概念化 通过标示某个现象相关概念得到其抽象模型 显式性 指出所用概念类型,以及定义概念所使用约束 形式化 本体应是机器可读的 共享性 本体获取一致知识,不是某个个体私有而是可被 一个群体所接

3、受。 当需建立一个本体时 首先 要识别所面对领域基本术语和术语关系,然后要识别组合这些术语和关系规则,并提供这些术语和关系的规则,4.2.3 知识的本体表示,在知识表示和管理领域 “本体”意义: 促进人与组织间信息交流 本体的核心是知识共享,减少概念和术语歧义 为某一组织提供统一框架或者规范模型 在保持语义一致性前提下使得来自不同背景、持不同观点和目的人员间进行有效理解与交流 加强系统间互操作 对于实际问题,本体描述实现应用程序在异构系统之间互操作、完成不同系统或工具间数据传输。如语义WEB服务就属于此类。,4.2.3 知识的本体表示, 建立需求分析和系统设计基础 支持知识重用 显式定义对领域

4、的认识 过去处理领域相关问题时,领域知识往往被隐含地编码到程序,领域知识既难以发现又不便于改变,使用本体可显式描述这种领域相关知识。知识能够清晰的从代码中独立出来,将领域知识同使用领域知识的融合。 在实际应用中各类本体关系如下图所示,4.2.3 知识的本体表示,以计算机学院本体为例简要说明领域本体建模过程 (1)从教学、科研的角度 标识对象、发现类、标识类的分类结构与组装结构, 得到领域中的概念分类体系和概念组合结构如下图所示,4.2.3 知识的本体表示,4.2.3 知识的本体表示,以此为基础,获取概念之间的联系集合R如图所示,4.2.3 知识的本体表示,识别概念间关系过程中,领域本体构建者认

5、为需要添加学术活动组织者(OrganizerofAetivity)概念 学生(student)和教师(teaeher)共同构成学术活动组织者 领域本体构建者定义了领域本体的局部如下图所示 图中为了简明起见忽略每个概念属性定义 关系继承和聚合的名称可由领域本体的构建者定义 也可在转换时由系统生成,4.2.3 知识的本体表示,4.2.3 知识的本体表示,参与关系(researehAt): 表示每个课题组(researeherGrouP)中必须接纳5至10名研究生(graduate)参与研究; 隶属关系(affiliation): 科研人员(researeher)与系(department)的工作关

6、系 系管理200至400名科研人员 每个科研人员只能够隶属于一个系 研究生和本科生(undergraduate)与学生(student)存在 完全一不相交继承关系 研究生和本科生存在继承关系,4.2.3 知识的本体表示,课题组与教研室(staffR。m)存在聚合关系; 教研室与系存在聚合关系; 参与关系与隶属关系之间存在继承关系; 学术活动组织者与本科生存在类不相交关系; 学生和教师(teaeher)与学术活动组织者 (OrganizerofAetivity) 存在聚合关系; 学生和教师与科研人员存在继承关系 虚线圆圈标出部分为不满足一致性检查的部分 粗线表示的建模符号为据已有领域本体得出的逻

7、辑结果,4.2.3 知识的本体表示,2.本体与语义Web 本体理论主要应用于语义Web 解决Web上信息共享时的语义问题 在互联网时代,语义Web提供一个通用框架 允许跨越不同应用程序、企业和团体边界共享和重用数据 从技术角度考虑: 语义Web要提供足够而又合适的语义描述机制 从整个应用构想来看: 语义Web实现信息在知识级别上共享和语义级别上互操作这需要不同系统间有一个语义上的“共同理解” 本体自然地成为指导语义Web发展的理论基础,4.2.3 知识的本体表示,语义Web以资源描述框架(RDF)为基础 RDF以XML作为语法、URI作为命名机制, 将各种不同的应用集成在一起 对Web上的数据

8、所进行的一种抽象表示。 语义Web中“语义”是“机器可处理语义” 不是自然语言语义和人推理等计算机所不能够处理信息 语义Web基础架构如图所示,4.2.3 知识的本体表示,4.2.3 知识的本体表示, URI(Uniform Resource Identifiers): URI提供对资源的标准化名字描述 Unicode提供世界上各种语言统一字符编码标准 XML(Extensible Markup Language): 定义结构化的数据描述方式,数据互操作语法基础 Namespace: 提供将名字分类机制 使得重名但含义不同的资源能够一起使用,4.2.3 知识的本体表示,(1)RDFRDF Sc

9、hema 层 RDF(Resource Description Framework)是描述数据语义的基础,定义描述资源以及陈述事实的三类对象:资源(resource)、属性(property)和值(value)。 资源(resource):网络上数据, 属性(property):用来描述资源的一个方面、特征、属性以及关系 值(value):特定资源,包括命名的属性和对应资源值 RDF描述实际上是一个三元组: (objectresource, attributeproperty, valueresource or literal),4.2.3 知识的本体表示,(2)本体层 本体给出数据语义信息即

10、元数据 本体定义可直接基于RDF Schema。 但RDF Schema词汇集表达能力有限 W3C在参考DAMLOIL(DARPA Agent Markup Language with Ontology Inference Layer) 在RDF之上制定了OWL(Web Ontology Language) (3)逻辑层 在本体所描述的知识之上提供逻辑推理能力(基于规则),4.2.3 知识的本体表示,(4)证明层 语义Web开放环境中进行推理比较困难 任何一个推理都可能涉及大量信息处理 由此提出语义Web总线(Semantic Web Bus)设想 语义Web中有着各种信息处理器 其中一些仅提

11、供本体数据供其它处理器使用 另外一些则根据这些本体数据构建逻辑规则 启发式引擎则负责根据本体、数据和逻辑规则进行推理 得到“结论”(Proof)并把结论返回逻辑规则和本体数据中,4.2.3 知识的本体表示,(5)可信层 在前述各层基础上会形成大量对于某一事实的陈述 这些陈述合理与否依赖于它们所处上下文环境。 当人或计算机访问这些陈述时 需根据上下文和需求自行判定该陈述是否可信(Trust)。 采用加密和数字签名技术(渗透到每个层次的规范当中)是实现判定可信性的一个重要手段 并由此形成一个可信的Web。,4.2.3 知识的本体表示,3.本体描述语言 本体表示语言需具有丰富而直观的表达能力 用该语

12、言表示本体需方便地被计算机理解、处理和应用 现有本体表示语言多采用XML语法 还需解决对推理有效支持(计算复杂性和可判定性等) 和充足的语义表示机制以及标准化问题 这将依靠基于描述逻辑的本体语言的发展,4.2.3 知识的本体表示,(1)RDF/S RDF特性: 在提供简单机器可理解语义模型的同时 为领域化的本休语言提供了建模基础 并使得基于RDF应用可方便地与所生成本体进行合并 这使得基于RDF语义描述结果具备可和更多领域知识进行交互的能力 也使基于XML和RDF的Web数据描述具备良好生命力 (2)OWL:本体的标准描述语言 OWL建立在RDF基础上,以XML为书写工具 主要用来表达需计算机

13、应用程序处理文件中的知识信息,4.2.3 知识的本体表示,(3)都柏林核心元数据集(Dublin Core) 美国OCLC公司发起,国际性合作项目Dublin Core Metadata Initiative设计描述Web资源的元数据规范 主要用于出版信息描述也被用于描述其他领域信息 Dublin Core定义一组基本元素来描述资源的元数据 很多知识描述标准如RDF、DAML+OIL都有对Dublin Core直接引用,用来描述作者、主题等元数据 Dublin Core是一组“标准词汇集” (4)CycL: 一阶谓词逻辑的一种扩展 为增强知识表示的灵活性, 在一阶逻辑的基础上增加缺省知识的表示

14、、二阶谓词等 CycL中有大量的类和类之间的关系,4.2.3 知识的本体表示,3.本体构建与映射 实际应用中需要: 首先, 构建所需要的本体,从某个领域中抽取知识 形成描述该领域数据的语义概念、实例和其间关系 其次,在不同本体间进行知识共享并保持对同一领域知 识的共同理解 同时, 解决已有本体的维护和本体重用以及本体的服务 进行本体间的知识推理 这些需要进行本体间映射,4.2.3 知识的本体表示,(1)本体构建 包括本体语言和本体构建方法两种途径 目前本体构建方法多采用手工方式 即知识工程师借助于本体编辑器全手工的构建本体。 1)本体构建原理 本体构建实际上是一个知识获取的过程。 设计本体的基

15、本准则可以归纳为如下五条: 明确性和客观性(Clarity): 本体应该有效地传达所定义的术语的内涵。 一致性(Coherence): 一个本体应该是前后一致的 由它推断出来的概念定义应该与本体中的概念定义一致。,4.2.3 知识的本体表示, 可扩展性(Extensibility): 本体提供的共享词汇应在预期任务范围内提供概念的基础同时它的表示应该使得能够单调地扩展和专门化对这个词汇的说明 也就是说人们应该能够在不改变原有定义的前提下 以这组存在的词汇为基础定义新的术语。 最小编码偏差(Minimal encoding bias): 本体应该处于知识的层次 而与特定符号级编码无关,4.2.3

16、 知识的本体表示, 最小本体承诺(Minimal commitment): 本体应在提供必须共享知识条件下有最小的本体承诺 应该对所模拟的事物产生尽可能少的推断 而让共享者自由地按照需要去专门化和实例化这个本体 具体实施一个领域本体构建可分为8个步骤: 本体需求分析 本体构建规划 获取本体信息 确定本体概念及关系 本体形式化编码 本体评价 本体演化 本体表示,4.2.3 知识的本体表示,2)基于文本的本体自动构建 对文本集合应用自然语言处理实现构建本体所需要素抽取 基于字典本体构建 从机器可理解的字典中抽取相关概念以及概念间的关系 基于知识库本体构建 将现有的知识库作为知识来源实现本体抽取 基

17、于半结构模式本体构建 从预先定义结构知识来源(如 XML Schema)中抽取本体 基于关系型模式本体构建 从数据库中抽取相关概念及概念间关系形成本体,4.2.3 知识的本体表示,从基于文本本体构建来看,实现技术和手段可分以下几类 基于模式的抽取: 通过词语出现模式刻画词语之间的关系 匹配文本中连续词语出现模式以识别词语之间的关系 关联规则: 利用已有概念层次作为背景知识发现概念间非分类学关系 概念聚类: 概念间因语义距离差异而形成概念集合并产生层次结构 本体修剪: 基于不同的异构的知识来源生成领域本体。 概念学习: 从现实世界文本集合获取新概念并添加到已有的本体中,4.2.3 知识的本体表示

18、,3)基于结构化数据的本体构建 从关系数据库中学习本体是一个半自动化的本体学习过程 第一次扫描数据库的模式: 得到最初的一些粗糙的概念集合 扫描一趟得到每张表的元数据 可知这张表是否有主键 如果有主键就创建一个概念 第二趟数据库模式的扫描: 找到概念与概念之间的对象属性关系 对于关系数据库中那些有外键的表 认为至少存在一个对象属性关系 通过外键找到前面对应的概念 然后再建立概念之间的属性关系,4.2.3 知识的本体表示,(2)本体映射 通过手工方式去发现和操作本体间映射是费时费力易错 本体映射机制可看作是对大量已有本体的有效利用 进而达到真正意义上知识共享的关键问题 1)本体映射体系结构 :

19、单本体结构: 一个全局本体为具体的语义说明提供共享的词汇表 所有信息源都联系到这个全局本体上 因而它们在语义上一致,4.2.3 知识的本体表示, 多本体结构: 每一个信息源都有自己本地本体 它们并不一定使用同样的词汇表 每个本体都是独立发展,它们间有松散联系 要完成本体间互操作须建立映射规则 混合结构: 综合前两种方法特征以克服它们不足之处 每个信息源都有自己的本地本体 但本地本体是在一个全局共享的词汇表下发展起来 共享词汇表定义领域内基本术语 在本地本体中这些术语可以组合起来表达复杂的语义,4.2.3 知识的本体表示,4.2.3 知识的本体表示,2)本体映射原型系统 斯坦福大学本体代数 :本

20、体映射由本体代数来执行 包括三个操作符,即集合交、集合并和集合差。 目标: 提供用来咨询存在大量语义且互斥的知识资源 Cupid:基于元素级匹配和结构级匹配混合方法 可用于数据库、本体论等多种领域的匹配任务。 思想: 两个概念子概念相似,这两个概念就趋向于相似; 两个概念具相似祖先,它们也趋于相似 GLUE: 用机器学习方法完成不同本体间匹配任务 思想: 多策略学习。代表一种自动合并不同匹配器(learner)匹配结果的组合方法,产生原子级1: 1的映射关系,知识库中十分重要课题是研究知识库语言 从数据库领域引进AI技术的角度 对知识库语言研究主要集中在逻辑语言上 这是因为逻辑语言接近于自然语言 具有良好表达能力与推理能力 比较符合知识库系统要求 知识库逻辑语言: Prolog和Datalog 当今两个知识库试验系统NAIL和NU-Prolog所使用都由Datelog和Prolog扩充,4.2.4 知识库语言,1.Prolog 基于一阶谓词逻辑程序设计语言 由R.Kowalskv和A.Colmerauer提出 在AI和知识库的实现技术中具有重要作用 Prolog具有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论