




文档简介
中南大学 硕士学位论文 基于关系数据库的本体自动构建的研究 姓名 唐颖峰 申请学位级别 硕士 专业 计算机应用技术 指导教师 周肆清 20090524 摘要 本体作为一种能在语义和知识层次上描述信息系统的概念模型 建模工具 在知识工程领域得到了广泛的应用 有效的解决了知识工 程发展过程中的两大障碍 知识的重用和知识的共享 然而本体的手 工构建是一项复杂且容易出错的工作 导致了本体构建周期长 成本 高 论文研究旨在找出一种利用已有的关系数据库资源自动构建本体 的方法 提高本体构建的效率 在研究和分析了本体的相关概念以及现有的本体构建方法的之 后 将现有方法中数据表与概念的映射扩展为数据表与原始本体的映 射 在此基础之上 提出了一种新的基于关系数据库的本体构建方法 将本体构建过程分为原始本体抽取和原始本体整合两个主要部分 然 后分别就这两个部分进行了细致的研究 在原始本体抽取的过程中 本文运用了形式概念分析的方法对数 据表元组数据进行分析 从中发现隐含的概念及其关系 进而生成原 始本体 在原始本体整合的过程中 本文首先采用基于概念相似度聚 类的方法对原始本体的顶层概念进行集成 生成概念层次结构 然后 再对下层概念的层次结构进行调整 消除语义分歧 最终完成原始本 体的整合工作 最后 基于上述方法设计并实现了一个基于关系数据库资源的本 体自动构建系统 并详细介绍了系统的各功能模块及其运行流程 关键词知识工程 本体 本体抽取 本体整合 形式概念分析 a b s t r a c t a sam o d e l i n gt o o l w h i c hc o u l dd e s c r i b e c o n c e p t s o nb o t ho f s e m a n t i ca n dk n o w l e d g el a y e r s o n t o l o g yh a sb e e nw i d e l yu s e di n k n o w l e d g ee n g i n e e r i n gf i e l d i ts o l v e dt h et w op r o b l e mi nt h ed e v e l o p i n g o f k n o w l e d g ee n g i n e e r i n g k n o w l e d g er e u s i n g a n d k n o w l e d g e s h a r i n g u n f o r t u n a t e l y b u i l d i n g ah i g h q u a l i t yo n t o l o g yb yh a n d si sa c o m p l i c a t e da n dm i s t a k a b l ew o r k s o t h a tt h e p e r i o do fb u i l d i n ga o n t o l o g yi sl o n ga n dt h ec o s ti sh i g h t h ep a p e ri st of i n da m e t h o df o r a u t o m a t i co n t o l o g yb u i l d i n g w h i c hc a n u s et h ed a t a b a s er e s o u r c e s t o i m p r o v e t h ee f f i g e n c yo fo n t o l o g yb u i l d i n g a f t e rr e s e a r c h i n go n t o l o g ya n di t sr e l a t e dc o n c e p t sa n da n a l y s i s i n g e x i s t e do n t o l o g yb u i l dm e t h o d t h ep a p e rb r i n go u tan e wo n t o l o g yb u i l d m e t h o dw h i c hi m p r o v e dt h ed a t a t a b l e t o o n e c o n c e p tw a yi ne x i s t e d m e t h o dt ot h ed a t a t a b l e t o s e m i f i n i s h e d o n t o l o g yw a y b a s e do nt h en e w m e t h o d t h ep r o c e s so fo n t o l o g yb u i l d i n gi sd i v i d e di n t ot w om a i np a r t s s e m i f i n i s h e d o n t o l o g y e x t r a c t i o na n ds e m i f i n i s h e d o n t o l o g y m e r g i n g t h e nt h ep a p e rr e s e a r c h e dt h et w op a r t sd e t a i l e d i nt h es e m i f i n i s h e do n t o l o g ye x t r a c t i o n f o r m a lc o n c e p ta n a l y s i s i su s e dt oa n a l y s i st h et u p l e so fd a t a t a b l es ot h a tt h eh i d d e nc o n c e p t si n t h ed a t a t a b l ea n dt h e i rr e l a t i o nc a nb ef o u n d i nt h es e m i f i n i s h e do n t o l o g y m e r g i n g ah i e r a r c h i c a lc l u s t e rm e t h o db a s e do nc o n c e p ts i m i l a r i t yi su s e d f o rm e r g i n gt o p l e v e lc o n c e p t so fs e m i f i n i s h e do n t o l o g yt og e n e r a t ea h i e r a r c h i c a lc o n c e p ts t r u c t u r e t h e nt h el o w e r l e v e lc o n c e p t si sa d ju s t e d f o re l i m i n a t i n gs e m a n t i cc o n f l i c t st of i n i s ht h es e m i f i n i s h e do n t o l o g y m e r g i n g f i n a l l y b a s e do nt h ep a p e rh a da l r e a d yd o n e ao n t o l o g yg e n e r a t e r b a s e do nd a t a b a s e o g b d w a se s t a b l i s h e d t h e nt h ef u n c t i o nm o d u l e s a n dt h e i rr u n n i n gp r o c e s sw e r ei n t r o d u c e dd e t a i l e d k e yw o r d sk n o w l e d g ee n g i n e e r i n g o n t o l o g y o n t o l o g ye x t r a c t i o n o n t o l o g ym e r g i n g f o r m a lc o n c e p ta n a l y s i s 原创性声明 本人声明 所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果 尽我所知 除了论文中特别加以标注和致谢的 地方外 论文中不包含其他人已经发表或撰写过的研究成果 也不包 含为获得中南大学或其他单位的学位或证书而使用过的材料 与我共 同工作的同志对本研究所作的贡献均已在论文中作了明确的说明 作者签名 廑勉群 日期 盟年 月羔日 学位论文版权使用授权书 本人了解中南大学有关保留 使用学位论文的规定 即 学校有 权保留学位论文并根据国家或湖南省有关部门规定送交学位论文 允 许学位论文被查阅和借阅 学校可以公布学位论文的全部或部分内容 可以采用复印 缩印或其它手段保存学位论文 同时授权中国科学技 术信息研究所将本学位论文收录到 中国学位论文全文数据库 并通 过网络向社会公众提供信息服务 作者签名 蝉导师签名蛐期 珥年上月丑日 硕士学位论文 第一章绪论 第一章绪论 本体作为一种能在语义和知识层次上描述信息系统的概念模型建模工具 在 知识工程领域得到了广泛的应用 有效的解决了知识工程发展过程中的两大障 碍 知识的重用和知识的共享 然而本体的手工构建是一项复杂且容易出错的工 作 导致了本体构建周期长 成本高 如何利用已有的数据资源自动构建本体 提高本体构建的效率 是一项很有意义并具有挑战性的任务 1 1 研究背景 自1 9 7 7 年 f e i g e n b a u m 提出知识工程的概念 使得知识可操作化以来 知 识工程的研究有了很大发展 但它的历史使命不仅远未结束 而且进入了一个新 时代 知识工程的处理对象己从规范化的 相对好处理的知识进一步深入到非规 范化的 相对难处理的知识 到2 0 世纪9 0 年代初期 知识工程发展过程中遇到 了两大障碍 i l 1 如何实现知识重用 在知识工程中知识的获取被认为是一个 瓶颈问题 其代价相当昂贵 如果新的知识系统不能有效地利用现有的知识系统 不断重新设计 必然会造成时间 精力的大量浪费 2 如何实现知识共享 在 智能系统中 要实现人机交互就必须使人和机器的交流建立在对所交流领域共识 的基础上 鉴于此 人们已经注意到 知识工程要想在目前的基础上有突破性的 进展 须向本体工程发展 因此 近年来人们围绕本体工程的核心一本体展开了 广泛而深入地研究 本体作为一种能在语义和知识层次上描述信息系统的概念模型建模工具 自 被提出以来就引起了国外众多科研人员的关注 并在计算机的许多领域得到了广 泛的应用 2 矧 其中包括知识工程 由于知识工程领域的研究方向主要包含知识的 获取 表示与推理方法等 目标是挖掘和抽取人类知识 用特定的形式表示这些 知识 使之成为计算机可操作的对象 从而使计算机具有一定的智能 知识是知 识工程研究的焦点 而本体的哲学含义是研究实体的存在性和实体存在的本质 这是深层次上的知识 是本质上的知识 因此 本体把知识工程中的知识向更深 入 更本质的方向推进 知识工程中的知识包括不同领域的知识 如医学 军事 农业等不同性质的知识 如常识性知识 经验性知识 规律性知识等不同目的的 知识 如用于诊断 决策等 为了构建这些知识库系统 人们分别提出了各种各 样的知识表示和推理方法 但是 当由这些知识构建大规模的知识库系统时 由 硕士学位论文 第一章绪论 于采用了不同的知识表示和推理机制 系统之问的知识难以共享 系统之间也难 以互操作 而本体研究的实体存在本质是独立于任何语言的 所以 本体能为各 种不同知识系统及其它系统之间的知识共享和互操作提供手段 1 2 研究的意义及目的 尽管本体应用在知识工程中显示出明显的优势 但这都是建立在所应用领域 本体构建基本完成或完善基础之上的 出于对各自问题域和具体工程的考虑 构 建本体的过程各不相同 目前还没有一个标准的本体构造方法 现阶段的方法通 常是在领域专家对信息进行提取和归纳的基础上 以手工方式构建本体 然而 本 体的手工构建是一项工作量巨大并且异常繁杂的任务 其中包括很多重复性大且 繁琐的工作 手工完成这些工作不仅耗时而且极易出错 因此 构建一个优质的 本体往往需要很长的周期 这种情况成为本体工程发展的瓶颈之一 在这种背景 下 借助现有资源 从已有的数据库 网页 文档等信息源中自动或半自动的抽 取及构建领域本体 提高本体的构建效率和质量已成为近年来本体研究的热点之 一o 随着信息技术的发展 数据库在信息知识管理领域得到了广泛的应用 大量 的数据通常存储在数据库中 这些数据库为领域本体的自动构建提供了宝贵的资 源 利用数据库资源进行本体自动构建有以下优势 1 数据库通常是面向特定的 领域应用而构建的 因而有较高的领域相关度 这使得从数据库资源抽取构建的 领域本体概念集中 边界清晰 2 数据库中信息格式整齐 形式化程度较高 便 于本体信息的自动化分析抽取 同时为本体生成的准确度提供了保证 3 数据库 中的数据信息及其形式相对持久 不易变化 为自动化分析工作提供了便利条件 4 数据库中包含详细的数据描述信息 可以丰富生成本体的语义 提高生成本体 的质量 众所周知 关系数据库采用的是关系模型 它是对领域信息建模的一种经典 模型 这种模型结构简单 二维关系表形式容易被理解 关系代数理论强有力地 支持了关系模型 使得关系数据库得以广泛应用 现有的应用绝大多数采用关系 数据库来组织和存储数据 因此 基于关系数据库的本体自动构建自然成为基于 数据库本体自动构建研究的重点 现有的基于关系数据库进行本体自动构建的方法 7 存在着一定问题 首先 现有的构建方法忽略了关系数据库中数据表的特点 将每个数据表简单的映射为 单个概念 而实际应用的关系数据库中 一个数据表所能表达出的概念往往不止 一个 这样一方面对数据表本身造成了浪费 另一方面数据表中蕴含的概念也不 硕士学位论文第一章绪论 能得到准确的表达 其次 现有的构建方法对应用程序在数据库所存储的元组数 据只做了粗略的处理 元组数据在本体构建过程中并未起到其应有的作用 元组 数据中所包含的语义信息并未得到有效的利用 因而造成了元组数据的大量浪 费 针对现有的基于关系数据库进行本体自动构建方法所存在的问题 本文提出 一种新的数据表分析抽取的方法 将数据表信息抽取由概念的范畴扩展到原始本 体的范畴 并在此基础上提出了原始本体的整合方法 进而形成了一种新的基于 关系数据库的本体构建方法 1 3 国内外研究现状 在本体研究的初期 本体构建过程大多是纯手工进行 形成了一些经典的本 体构建方法 这些方法包括骨架法 企业建模法 m e t h o n t o l o g y i d e f 5 k a c t u s 法和七步法等 同时也涌现一批的本体构建及编辑工具 例如基于a i 的本体描述语言的一类工具 如o n t o l i g u a o n t o s a u r u s w e b o n m 等 及基于 w e b 的本体描述语言的一类工具 如p r o t 6 9 6 w e b o d e o n t o e d i t o i l e d 等 本体的手工构建过程 需要领域专家通过使用本体编辑工具进行手工编辑 其存在工程复杂 本体构建周期长成本高 专家依赖性强 本体术语描述不精确 等缺陷 在这种背景下 国内外的研究者们开始寻找一套通过已有信息源如数据 库 表格 网页及文本等中自动或半自动抽耿构建本体的方法 近年来出现了一 些半自动的本体抽取方法 总体上来说分为两类 一类是从网页 文本或自然语 言等非结构化或半结构化的信息源抽取本体的方法 另一类则是从数据库 表格 等结构化的信息源抽取本体的方法 基于非结构化及半结构化信息源的本体抽取方面 m a e d c h e 和s t a a b i s 较早 提出了一个本体获取的框架 包括本体导入 本体抽取 本体裁剪 本体精练和 本体评估 并对如何从文本 字典和原有本体中获取新的本体进行了研究 o m e l a y e n k o 9 则对现有的本体获取方法进行了分析 他将本体划分成自然语言本 体 领域本体和本体实例 认为本体获取的任务主要包括本体扩建 本体模式提 取 本体实例提取 本体合并和本体更新等 并结合机器学习讨论了自然语言本 体 领域本体和本体实例的获取方式 c i m i a n o t l o j 等人讨论了从文本中获取本体 的层次或者关系的方式 对比了利用相似度度量聚类和集合理论聚类两种方式进 行概念聚类的有效性 效率和可跟踪性 s c a s t a n o i i l l 提出了通过解析x m l s c h e m a 文件 如d t d d s d x m ls c h e m a 等 进而抽取x m l 文件中的概念 以此构建本体 p a t r i c kc l e r k i n u 2 l 等提出通过层次聚类 发现其中概念 进而构 硕士学位论文第一章绪论 造本体 s o p h i e l em o i g n o t l 3 等针对特定的领域 医疗领域中的医疗诊断书 根据医疗诊断书中的动名词关系 句法上下文关系 再辅以词频统计 进行概念 和关系诊断 以此来构造本体 国内方面 李守丽等人借鉴了国外的经验l i 刖 对利用奇异值概念聚类进行汉语本体获取进行了初步讨论 但是对于计算词频之 前的准备工作和本体获取之后的评估却没有作详细讨论 基于结构化信息源的本体抽取方面 虽然表格资源相比其他资源知识表示形 式更加统一 便于本体的抽取 构建 但有关基于表格的本体构建方法的文献较 少 较著名的有y u r ia t o e f i n o i j 等人的t a n g o 系统以及m a s a h i r ot a n a k a 1 6 j 等 人的基于表格的本体生成系统 两个系统均基于网页表格进行本体抽取 国内方 面 西安理工大学的马峻提出了一种先将关系表格转换成线性概念图i l 然后 再从线性概念图中自动抽取本体概念的算法 实际上 对本体自动构建的研究还只是早期阶段 国外很多科研机构的研究 者们正在探寻本体自动构造的方法和设计模型 国内对于本体研究起步比较晚 但是令人高兴的是 国内有不少研究者正在致力于本体的研究工作 而且有相当 多的一部份人有志于本体自动构建的研究 1 4 本文的研究内容及组织结构 针对本体构建自动过程中的关键内容 本文将形式概念分析方法引入对数据 表的分析抽取过程 从而将数据表信息抽取由概念的范畴扩展到原始本体的范 畴 并在此基础上提出了原始本体的整合方法 进而形成了一种新的基于关系数 据库的本体构建方法 1 4 1 研究内容 本文的主要工作体现在以下几个方面 1 本体理论及形式概念分析理论的研究 首先介绍了本体的基本概念 包括其定义 基本构成 分类 描述语言等 其次介绍了形式概念分析和概念格的基本理论 概念格的构造算法 2 本体构建方法的研究 在研究了本体构建的基本原则 几种已有的本体构建方法以及现有的基于关 系数据库的本体构建方法后 提出了一种符合关系数据库特点的新的本体构建方 法 该方法将本体构建过程分为原始本体抽取和原始本体整合两个主要部分 3 基于数据表元组的原始本体抽取方法的研究 将形式概念分析理论应用于数据表分析抽取过程 通过对数据表的元组数据 进行裁减 变换 生成概念格 进而生成原始本体 4 硕士学位论文第一章绪论 4 基于概念相似度的原始本体整合方法的研究 将原始本体的整合过程分为顶层概念集成和下层概念调整两个部分 并分别 进行了细致的研究 5 基于关系数据库的本体自动构建系统的实现 基于所提出的本体构建方法 设计并实现了一个基于关系数据库的本体构建 系统o g b d 该系统为半自动化的本体构建系统 1 4 2 组织结构 论文共分为六章 第一章 绪论 简要的介绍了本文的研究背景 研究的意义和目的 国内外 研究现状以及本文的主要研究内容 第二章 本体理论以及本体构建 介绍了本体的基本概念以及现有的本体的 构建方法 提出了基于关系数据库的本体构建方法 第三章 基于关系数据库的原始本体抽取方法 介绍了形式概念分析 概念 格的相关理论 提出了一种基于数据表元组的原始本体抽取方法 并结合实例对 该方法进行详细介绍 第四章 基于概念相似度的原始本体整合方法 介绍了概念相似度的概念以 及其计算模型 在此基础上提出了原始本体的整合方法 并以实验对该方法进行 了验证 第五章 基于关系数据库的本体构建系统 基于前述方法设计并实现了一个 基于关系数据库资源的本体自动构建系统 第六章 总结与展望 总结了本文研究工作的成果并对未来的工作做了展望 硕士学位论文 第二章本体理论以及本体构建 第二章本体理论以及本体构建 在研究基于关系数据库的本体构建方法之前 有必要对本体的概念 理论以 及经典的本体构建方法有一个较为全面的认识 本章将对本体的概念 理论以及 本体的构建方法做一个系统的介绍 然后在此基础之上 结合关系数据库的特点 提出一个基于关系数据库的本体构建方法 2 1 本体 本体起源与哲学领域 后来被引入计算机领域 得到了人们的广泛关注和研 究 随着研究的不断深入 本体在计算机科学的各个领域发挥了重要的作用 本 节将主要对本体的概念做一个系统的介绍 其中包括本体的定义 基本构成 分 类 描述语言等 2 1 1 本体的定义 本体论 o n t o l o g y 的概念最初起源于哲学领域 是哲学中元物理学形而上 学的一个分支 它在哲学中的定义为 对世界上客观存在物的系统地描述 即存 在论 是对客观存在的一个系统的解释 关心的是客观现实的抽象本质 2 卅 在人工智能界 最早给出本体定义的是n e c h e s 等人 他们将o n t o l o g y 定义 为 本体定义了组成主题领域的词汇表的基本术语和关系 以及组合这些术语和 关系来定义词汇表外延的规则 1 8 后来在信息系统 知识系统等领域 越来越多的人研究本体 并给出了许多 不同的定义 g r u b e r 最早于1 9 9 3 年指出 本体是概念化 c o n c e p t u a l i z a t i o n 的一个显 式的 e x p l i c i t 规范说明或表示 1 9 l g u a r i n o 和g i a r e t t a 为了澄清对本体的认识 针对本体七种不同的概念解释 进行了深入的分析 于1 9 9 5 年给出了如下定义 即 本体是概念化的某些方面 的一个显式的规范说明或表示 2 0 b o r s t 于1 9 9 7 年给出了一个类似的定义 本体可定义为被共享的概念化的 一个形式的规范说明 1 2 i s t u d e r 等对上述定义进行了深入的研究 进一步对本体的定义提出了修正 认为本体是 共享概念模型的明确的形式化规范说明 l 这个定义中体现了本 体的四层含义 6 硕士学位论文第二章本体理论以及本体构建 1 概念模型 c e r p t u a l i z a t i o n 通过抽象出客观世界中一些现象 p h e n o m e n o n 的相关概念而得到的模型 其表示的含义独立于具体的环境状态 2 明确 e x p l i c i t 所使用的概念及使用这些概念的约束都有明确的定义 3 形式化 f o r m a l 本体是计算机可读的 4 共享 s h a r e 本体中体现的是共同认可的知识 反映的是相关领域中公认的概念集 它所 针对的是团体而不是个体 除上述定义以外 不少文献从不同的问题域和研究角度出发 对本体又给出 了各种各样的定义 这些定义都是从不同的角度给出的相应解释 并且不断扩充 本体的应用范围 但都包含在g r u b e r 定义所指出的事实中 总而言之 本体的 目标是捕获相关领域的知识 提供对该领域知识的共同理解 确定该领域内共同 认可的词汇 并从不同层次的形式化模式上给出这些词汇 术语 和词汇间相互关 系的明确定义 2 1 2 本体的基本构成 p e r e z 等人用分类法组织了o n t o l o g y 归纳出5 个基本的建模元语 m o d e l i n g p r i m i t i v e s 1 2 2 1 类 c l a s s e s 或概念 c o n c e p t s 指任何事务 如工作描述 功能 行为 策略和推理过程 从语义上讲 它 表示的是对象的集合 其定义一般采用框架 f r a m e 结构 包括概念的名称 与其他概念之间的关系的集合 以及用自然语言对概念的描述 2 关系 r e l a t i o n s 在领域中概念之间的交互作用 形式上定义为n 维笛卡儿积的子集 r c 1 c 2 c n 如子类关系 s u b c l a s s o f 在语义上关系对应于对象元组的集 合 3 函数 f u n c t i o n s 一类特殊的关系 该关系的前n 1 个元素可以唯一决定第1 1 个元素 形式 化的定义为f c 1 c 2 c n 一1 一c n 如m o t h e r o f 就是一个函数 m o t h e r o f x 表示y 是x 的母亲 4 公理 a x i o m s 代表永真断言 如概念乙属于概念甲的范围 5 实例 i n s t a n c e s 7 硕士学位论文第二章本体理论以及本体构建 代表元素 从语义上讲实例表示的就是对象 另外 从语义上讲 基本的关系共有4 种 1 p a r t o f 表达概念之间部分与整体的关系 2 k i n d o f 表达概念之间的继承关系 类似于面向对象中的父类与子类之间 的关系 3 i n s t a n c e o f 表达概念的实例与概念之 日j 的关系 类似于面向对象中的对 象和类之间的关系 4 a t t r i b u t e o f 表达某个概念是另一个概念的属性 如 价格 是桌子的一 个属性 在实际建模过程中 概念之间的关系不限于上面列出的4 种基本关系 可以 根据领域的具体情况定义相应的关系 2 1 3 本体的分类 本体的分类明确了不同本体之间的区别与联系 虽然目自订尚没有统一的本体 分类方法 通常情况下 可以按照本体的开发目的 研究主体 形式化程度对本 体进行分类1 2 引 1 根据本体的研究主题 可以分为知识表示本体 通用或者常识本体 领 域本体 语言学本体 任务本体等 其中知识表示本体的研究重点是语言对知识 的表达能力 典型的有s t a n f o r d 大学知识系统实验室提出的一种称为知识交换格 式k i f k n o w l e d g ei n t e r c h a n g e f o r m a t 通用或者常识本体关注于常识知识的使 用 例如著名的c y c 工程等 领域本体则在一个特定的领域可以重用 他们提 供特定的概念定义和概念之间的关系 提供该领域中所发生的活动以及该领域的 主要理论和基本原理等 对特定领域的本体研究和开发目前己经涉及到许多领 域 包括企业本体 医学概念本体 酶催化生物学本体等 语言学本体是指关于 语言 词汇等的本体 典型的实例有g u m g e n e r a l i z e du p p e r m o d e l 和p r i n c e t o n 大学研制的w o r d n e t 等 任务本体主要是指可以共享的问题求解方法 这里的 推理方法与领域无关 任务本体主要涉及动态知识 而不是静态知识 任务本体 的研究以c h a n d r a s k a r a n 等人的关于任务和问题求解方法本体的研究为代表 具 体的研究主题包括 通用任务 与任务相关的体系结构 任务方法结构 推理结 构和任务结构等 2 根据本体表示的形式化程度不同 可以把本体分为高度非形式化的 h i g h l y i n f o r m a l 结构非形式化的 s t r u c t u r e d i n f o r m a l 半形式化的 s e m i f o r m a l 和严格形式化的 r i g o r o u s l y f o r m a l 四类 其中 高度非形式化 本体完全采用自然语言来描述本体 例如爱丁堡大学企业项目中的 e n t e r p r i s e o n t o l o g y 自然语言版本 结构非形式化采用受限的或结构化的自然语 8 硕士学位论文 第二章本体理论以及本体构建 言表示 以减少二义性 例如e n t e r p r i s eo n t o l o g y 的文本版本和w o r k f l o w m a n a g e m e n tc o a l i t i o n 推出的工作流术语汇编 半形式化则用人工定义的形式化 语言来表示 许多采用o n t o l i n g u a 描述的本体都属于这一类 严格形式化本体一 般具有形式化语义 并且能够在某种程度上证明 一致性 和 完整性 等属性 例如多伦多大学虚拟企业项目的企业本体 3 根据本体的研究层次 可以分为顶层本体 领域本体 任务本体和应用 本体等 如图2 1 所示 其中 顶层本体描述的是最普通的概念及概念之间的关 系 如空间 时间 事件 行为等 它独立于具体的应用领域 因而可以在很大 的范围内共享 领域本体描述的是特定领域中的概念及概念之间的关系 如医学 企业模拟等 任务本体描述的是特定任务或行为中的概念及概念之间的关系 领 域本体和任务本体通过特殊化顶层本体来描述一般领域 任务或活动中的概念 应用本体描述的是依赖于特定领域及任务的概念及概念之间的关系 这些概念对 应于领域实体执行一个活动的作用 是领域和任务本体的特殊化 图2 1 按本体研究层次划分的本体层次结构 2 1 4 本体描述语言 本体的描述语言使得用户为领域模型编写清晰的 形式化的概念描述 一般 要具有丰富而直观的表达能力 用此语言表示的本体要能方便地被计算机理解 处理和应用 因此它应该满足以下要求 2 4 1 良好定义的语法 aw e l l d e f i n e ds y n t a x 2 良好定义的语义 aw e l l d e f i n e ds e m a n t i c s 3 有效的推理支持 e f f i c i e n tr e a s o n i n gs u p p o r t 4 充分的表达能力 s u f f i c i e n te x p r e s s i v ep o w e r 5 表达的方便性 c o n v e n i e n c eo f e x p r e s s i o n 当前的本体描述语言基本可以分为三大类 基于谓词逻辑的本体表示语言 9 硕士学位论文第二章本体理论以及本体构建 基于w e b 的本体表示语言 基于图的本体表示语言 1 基于谓词逻辑的本体表示语言 丌始使用的本体表示语言多数基于框架 模型和谓词逻辑 现在的本体表示语言在此基础上多数采用了x m l 语法 比较 有代表性的基于谓词逻辑的本体表示语言如下 k i f k n o w l e d g ei n t e r c h a n g ef o r m a t 1 2 5 1 s t a n f o r d 大学人工智能实验室专 家在研究本体时 提出了一种基于谓词演算的形式化语言 它重点研究语言的表 达能力 主要功能包括对象 函数 和关系的定义 它允许元级知识和非单调推 理规则的表示 并基于一阶谓词逻辑 具有描述性语义 为采用不同知识表示方 式的计算机程序之问的通讯搭建了桥梁 o n t o l i n g u a l 6 j 以k i f 为其核心语言 定义本体框架作为知识表示的基础 该语言支持三种本体定义形式 k i f 表示 仅使用f r a m eo n t o l i n g u a 的词汇库 同时使用上述两种表示方法 无论采用哪种表示方法 o n t o l i n g u a 都包括3 个组 成部分 定义头部分 用自然语言描述的非形式化定义部分 用k i f 或者 f r a m e o n t o l i n g u a 定义的转换器 这些o n t o l i n g u a 转换器可将由o n t o l i n g u a 表示 的本体转换为l o o m 等目标语言 c y c l 2 7 j c y c 系统的描述语言 本质上讲 c y c l 是一阶逻辑语言 但是 为了增强知识表示的灵活性 c y c l 在一阶逻辑的基础上增加了缺省知识的表示 等价推理 二阶谓词等 具备二阶谓词演算的能力 其语言环境中配有功能很强 的可进行推理的推理机 l o o m l 2 8 j 一种基于一阶谓词逻辑的知识表示语言 由美国南加州大学信 息科学学院设计并实现 l o o m 提供了明确定义而且表达力强的模型描述语言 能描述定义 规则 事实和缺省规则等 提供了有效的推理机制 能利用向前推 理 语义一致化和面向对象的真值维护等技术实现推理 提供了编程范例如逻辑 范例 产生式规则范例和面向对象范例等 并能方便地把范例集成到应用中 l o o m 还提供了知识库服务功能以方便用户对知识库的操作和维护 目前南加州 大学又推出了l o o m 的第二代p o w e r l o o m f l o g i c f r a m el o g i c 2 9 1 集成了基于框架的语言和一阶谓词演算 特点在 于知识表示和推理两个方面 在知识表示方面 f l o g i c 支持简单和复杂的对象 定义 支持继承定义 多态类型 封装等 在演绎推理方面 f 1 0 9 i c 同时支持 谓词演算和结构以及行为继承 2 基于w e b 的语言系列 随着w e b 的发展 又出现了一系列基于w e b 的 本体语言 也叫做本体标记语言 如s h o e x o l r d f r d f s o i l d a m l d a m l 0 i l 0 w l s h o e 2 j s i m p l eh t m lo n t o l o g ye x t e n s i o n s 作为h t m l 的扩展 是马 1 0 硕士学位论文第二章本体理论以及本体构建 里兰大学开发的 它是基于框架和规则的 它使用不同于h t m l 的一些标记 使得可以在h t m l 文档中插入本体 当x m l 产生并成为w e b 上交换信息的标 准后 s h o e 的语法被修改为基于x m l 目前 马里兰大学已经停止研究s h o e 他们有关本体的研究项目丌始使用o w l 和d a m l o i l 作为本体的描述语言 x o l 弘j o n t o l o g ye x c h a n g el a n g u a g e 是s r ii n t e r n a t i o n a l 的人工智能中 心似i f 开发的 它是一种简单通用的定义本体的方法 其目的是在不同的数据 库 本体开发工具 或者其他应用程序之间交换本体 x o l 设计之初是为生物 信息学领域本体的交换 但是它可以应用于各种领域 r d f t 2 j 资源描述框架 r e s o u r c ed e s c r i p t i o nf r a m e w o r k r d f s r d f s c h e m a 是w 3 c 在x m l 的基础上推荐的一种标准 用于表示任何的资 源信息 r d f 提出了一个简单的模型用来表示任意类型的数据 这个数据类型 由节点和节点之间带有标记的连接弧组成 节点用来表示w e b 上的资源 弧用 来表示这些资源的属性 因此 这个数据模型可以方便的描述对象 或者资源 以及它们之间的关系 r d f 的数据模型实质上是一种二元关系的表达 由于任 何复杂的关系都可以分解为多个简单的二元关系 因此r d f 的数据模型可以作 为其他任何复杂关系模型的基础模型 r d fs c h e m a 为r d f 资源的属性和类型提 供定义良好的词汇表 w 3 c 推荐以r d f r d f s 标准来解决x m l 的语义局限 o i l l 3 0 本体推理层 本体交换语言 o n t o l o g yi n f e r e n c el a y e r o n t o l o g y i n t e r c h a n g el a n g u a g e 是在欧洲的i s t 项目o n t o k n o w l e d g e 中开发的 o i l 以 r d fs c h e m a 为起点 用更为丰富o n t o l o g y 建模原语r d fs c h e m a 进行扩充 o i l 将框架系统 描述逻辑和w e 标准 x m l 和r d f 这三个不同领域的优点结合 起来 提供了一种通用的语义w e b 的标记语言 其中 基于框架的语言在a i 中 有很长的历史 它们的中心建模元语是类 称为框架 和属性 称为槽 描述 逻辑 d l 通过概念 对应于类或者框架 和角色 对应于槽 描述知识 具 有良好的语义和有效的推理 o i l 的使用比较广泛 支持o i l 的工具也很多 最著名的有o i l e d 是一个基于o i l 的本体编辑器 其他一些工具 比如 o n t o e d i t t h ef a c t f a s tc l a s s i f i c a t i o no ft e r m i n o l o g i e s s y s t e m 等也都支持o i l d a m l t 川 d a r p aa g e n tm a r k u pl a n g u a g e 是d a r p a 计划第一阶段所 创建的一种语言 d a r p a a g e n tm a r k u pl a n g u a g e 项目始于2 0 0 0 年8 月 由 美国政府支持 目标是开发一种语言和一组工具 为语义w e b 提供支持 m a r k g r e a v e s 是该项目的领导者 d a m l 形成于d a m l o n t 一种本体语言 和 d a m l l o g i c 一种表达公理和规则的语言 d a m l 扩展了r d f 增加了更多 更复杂的类 属性等定义 它一度很流行 成为网上很多本体的描述语言 直到 d a m l 的研究者和o i l 的研究者开始合作 推出了d a m l o i l 语言 成为w 3 c 硕士学位论文第二章本体理论以及本体构建 研究语义w e b 中本体描述语言o w l 的起点 并成为标准 o w l 2 1 w 曲本体语言 w e bo n t o l o g yl a n g u a g e 是w 3 c 推荐的本体描 述语言的标准 位于w 3 c 绘制的本体语言栈的栈项 它是为了在w w w 上发布 和共享本体而提供的语义标记语言 o w l 是在d a m l o i l 的基础上发展起来 的 作为r d f s 的扩展 目的是提供更多的元语以支持更加丰富的语义表达 并更好的支持推理 针对不同的需求 o w l 有三个子语言 o w ll i t e o w ld l 和o w l f u l l o w l 能够用于清晰的表达词汇表中词条 t e r m 的含义以及这些词条之间 的关系 而这种词条和它们之间关系的表达形式就称作本体 相对于x m l r d f 和r d f s 来讲 o w l 拥有更多的机制来表达语义 因而它超越了x m l r d f 和r d f s 仅能够表达网上机器可读文档内容的能力 3 基于图的本体表示语言 基于图的表示方法是另外一种重要的本体表示 方法 它的最大特点是直观 w o r d n e t 的语义网络1 3 l j w o r d n e t 采用语义网络作为其词汇的表示形式 是典型的基于图的本体表示例子 w o r d n e t 的词汇包括名词 动词 形容词 副 词和功能词 每个词 更确切地说是词的一条意项 是一个网络节点 节点之 日j 通过 同义关系 反义关系 上位关系 下位关系 部分一整体关系 形态关系 等联系在一起 目前 w o r d n e t 已经分别建立了名词 动词 形容 词和副词的四个相互独立的语义网络 包括约9 5 6 0 0 个词项 概念图 c o n c e p t u a lg r a g h s c g 3 2 l 概念图是s o w a 提出的基于图的本 体表示方式 是c s p e i r c e 的存在图 e x i s t e n t i a lg r a p h s 的扩展 概念图是二 分有向图 包括 概念 和 关系 两类节点 分别称为 概念节点 和 概念 关联节点 二者之间通过由 概念关联节点 到 概念节点 的有向弧相连 概念图中的所有概念按照 i s k i n d o f 关系形成一个格结构 这个格的最顶层元 素是 e n t i t y t 任何事物都是它的子类型或者实例 最底层元素是 a b s u r d i t y a 是任何类型的子类型 而且任何事物都不是它的实例 2 2 本体构建 本体的构建作为其它本体应用的基础工作 所构建本体的质量直接决定后续 本体应用的成败 本体的构建过程首先应该确立一个标准 然后在构建的过程中 遵循这个标准 才能使构建的本体具有较高的质量 本节将简要的介绍一个较具 影响力的本体构建规则以及一些经典的本体构建方法 1 2 硕士学位论文第二章本体理论以及本体构建 2 2 1 本体构建规则 目前已有的本体很多 出于对各自问题域和具体工程的考虑 构造本体的过 程也是各不相同的 由于没有一个标准的本体构造方法 不少研究人员出于指导 人们构造本体的目的 从实践出发 提出了不少有益于构造本体的标准 其中最 有影响的是g r u b e r 于1 9 9 5 年提出的5 条规则 3 3 1 清晰性和客观性 c l a r i t y 本体必须有效地说明所定义术语的意思 定义应该是客观的 与背景独立的 当定义可以用逻辑公理表达时 它应该是形式化的 定义应该尽可能的完整 所 定义的术语应该用自然语言加以说明 2 一致性 c o h e r e n c e 本体应该是一致的 也就是说 它应该支持与其它定义相一致的推理 它所 定义的公理以及用自然语言进行说明的文档都应该具有一致性 3 最大单调可扩展性 e x t e n d i b i l i t y 本体应该为可预料到的任务提供概念基础 它应该可以支持在已有的概念基 础上定义新的术语 以满足特殊的需求 而无须修改已有的概念定义 4 编码偏好程度最小 m i n i m a le n c o d i n gb i a s 概念的描述不应该依赖
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 天津2025年天津市农业科学院招聘工作人员(第二轮)笔试历年参考题库附带答案详解
- 河套学院《装饰工程管理与现场实训》2023-2024学年第二学期期末试卷
- 天津商业大学宝德学院《环境研究法》2023-2024学年第二学期期末试卷
- 长白山职业技术学院《专业综合实践2(智能电子系统设计与制作)》2023-2024学年第二学期期末试卷
- 山东财经大学燕山学院《中医学基础1》2023-2024学年第二学期期末试卷
- 抚顺职业技术学院《建筑制图与AutoCAD》2023-2024学年第二学期期末试卷
- 乌兰察布医学高等专科学校《基因工程制药》2023-2024学年第二学期期末试卷
- 四川工商学院《材料成型装备及自动化》2023-2024学年第二学期期末试卷
- 廊坊职业技术学院《产品设计表达基础》2023-2024学年第二学期期末试卷
- 上海师范大学天华学院《电子电路基础实验(下)》2023-2024学年第二学期期末试卷
- 儿童行为干预效果评估的机器学习方法-洞察阐释
- 区块链考试试题及答案
- 演讲口才考试试题及答案
- 2025-2030中国氟化工行业市场发展现状及发展趋势与投资前景研究报告
- 2025年湖北省武汉市高考地理调研试卷(2月份)
- 2025年保密观知识竞赛题库附答案(黄金题型)含答案详解
- 2024年呼和浩特市玉泉区消防救援大队招聘真题
- SL631水利水电工程单元工程施工质量验收标准第3部分:地基处理与基础工程
- 新22J01 工程做法图集
- 2024年山东省济南市中考英语试题卷(含答案解析)
- 中国陶瓷欣赏智慧树知到期末考试答案章节答案2024年中国地质大学(武汉)
评论
0/150
提交评论