




已阅读5页,还剩55页未读, 继续免费阅读
(计算机应用技术专业论文)基于owl的本体进化研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于0 w l 的本体进化研究 摘要 鉴于本体在知识共享和知识重用中的核心作用,目前在大多数系统中都采用了 本体作为系统的骨架。通常在系统建立之初,根据系统的应用需求和应用环境构造出 相应的本体,然后,以该本体为中心,对系统做全面的应用设计。然而,现实世界是不 断变化的,其所包含知识的内容、结构、存在形式也是不断变化的,某些术语的含义 也是变化的;同时用户的需求也是不断变化的,而这些变化在建立本体时显然是无法 预见的。这样,固定的本体与变化的知识源之间的数据一致性就可能遭到破坏:本体 已经不能正确地反映知识源的新状态。如何让本体适应动态变化的外部世界,并根据 外部知识源的变化做出及时的调整,即实现本体的动态进化,已成本体研究中的一个 重要内容。 本体的研究工作是知识箭理和人工智能领域非常活跃的课题,但是很少有涉及 本体进化的。文献”1 认为,在本体进化中,对于特定的变化所产生的影响作出详细的 分析是至关重要的:同时作者也关心了版本的问题,但是文中并未解决本体进化中的 变化扩散问题。文献。1 模仿人类学习的过程,对领域知识的进化提出了3 类模式:设计 模式、过程模式和变化模式。但该进化方法仅仅限于知识的管理,未考虑相关本体和 变化扩散的问题。文献”1 对m e t a d a t a 的变化毹理提出了一些策略,包括公告机制、 版本和配置箭理。虽然这些符殚思想也可应用到本体进化,但由于它仅仅是在 m e t a d a t a 的层次上分析问题,因而来涉及到本体进化的核心问题。针对当前各种进 化方法的不足,本文在对本体进化的各个关键问题进行分析后,给出了一个本体进化 模型,用以支持基于本体系统中的本体动态进化。构造该模型的目标是:对于针对本 体提出的进化请求,不仙要实现本体自身的进化,还要应用变化传播的思想,对与该 本体相关的所有对象均实施进化,以达到整个系统的完整性和一致性。 关键词:本体;本体进化:o w l s t u d yo ft h eo n t o i o g ye v o iu t i o rb a s e do no w l a b s t r a c t i nv i e wo f t h ec o r ei nk n o w l e d g e - s h a r i n ga n dk n o w l e d g er e u s e ,m o s to f t h es y s t e m s h a v e u s e do n t o l o g ya st h e f tb a c k b o n e a tt h eb e g i n n i n go fb u i l d i n gas y s t e m , t h e d e s i g n e r su s u a l l yb u i l dt h ec o r r e s p o n d i n go n t o l o g ya c c o r d m gt ot h es y s t e m sa p p l i c a t i o n d e m a n da n de n v i r o n m e n t t h e n , t h e yd e s i g nt h es y s t e mc o m p r e h e n s i v e l y ,t a k i n gt h e o n t o l o g ya st h ec e n t e r h o w e v e r ,t h er e a lw o r l di sc h a n g m gc o n t i n u o u s l y ,s oa r ec o n t e n t , s t r a c m r ea n dt h ee x i s t e n c ef o r mo ft h ek n o w l e d g ei ni t s o m e t i m e s ,t h em e a n i n g so f s o m et e r m sa r ea l s oc h a n g i n g , a n dt h eu s e r s r e q u i r e m e n t sa r ec h a n g i n gc o n t i n u o u s l ya t t h es a m et i m e a n dt h e s ec h a n g e sc a l lb en o tf o r e s e e nw h e nt h eo n t o l o g yi sb u i l t t h u s , t h ed a t ac o n s i s t e n c yb e t w e e nt h es t a t i c o n t o l o g ya n dt h ed y n a m i ck n o w l e d g es o u r c e m a y b ed e s t r o y e d ,a n dt h eo n t o l o g yc a nn o tr e f l e c tt h en e ws t a t eo ft h ek n o w l e d g e h o w t om a k et h eo n t o l o g ya d a p tt h ed y n a m i cw o r l da n dm a k ep r o m p t 确u s t m e n ta c c o r d i n gt o e x t e r i o rk n o w l e d g es o u r c eh a sb e c o m ei m p o r t a n ti nt h ed o m a i no f t h es t u d yf o ro n t o l o g y s t u d yf o ro n t o l o g yh a sb e c o m ea l la c t i v et o p i ci n t h ed o m a i no fk n o w l e d g e r a a n a g e m e n ta n da r t i f i c i a li n t e l l i g e n c e ,w h i c hi n v o l v e se v o l u t i o ni sl i t t l e i nl i t e r a t u r e i 】, i tt h o u g h tt h a ti ti m p o r t a n tt oa n a l y z et h ei n f l u e n c ep r o d u c e db yt h es p e c i f i cc h a n g e sa t k 喀1 1 ,a n di t a l s oc o n s i d e r e dt h e v e r s i o i n n gp r o b l e m s ,b u ti t h a d n tr e s o l v e dt h e p r o p a g a t i o no ft h ec h a n g e si nt h ee v o l u t i o no fo n t o l o g y h ll i t e r a t u r e 2 】,i ti m i t a t e dt h e p r o c e s so fh u m a nl e a r n i n g ,a n dp m p o s mt h r e ep a t t e r n sf o rt h ee v o l u t i o no fd o m a i n k n o w l e d g e :d e s i g np a t t e r n , p r o c e s sp a t t e r na n dc h a n g ep a t t e r nb u tt h i sm e t h o dw a s l i m i t e di nt h ek n o w l e d g em a n a g e m e n t ,a n di td i d n tc o n s i d e r e dt h er e l a t e do n t o l o g a e sa n d t h ep r o p a g a t i o no fc h a n g e s i nl i t e r a t u r e 3 ,i tp r o p o s e ds o l n es t r a t e g i e sf o rt h em e m d a m m a n a g e m e n t ,i n c l u d i n g a n n o n n c e m e f l tm e c h a n i s m , v e r s i o na n d c o n f i g u r a t i o n m a n a g e m e n t a l t h o u g ht h e s em a n a g e m e n tt j a o u g h i sc o u l db eu s e di nt h eo n t o l o g y e v o l u t i o n , b e c a u s ei ta n a l y z e dp r o b l e m sa tt h em e t a d a t al e v e l ,t h u s ,i td i d o ti n v o l v et h e c o r eo f t h eo n t o l o g ye v o l u t i o n i nv i e wo f t h el i m i t a t i o no f t h e s em e t h o d s ,w ep r o d u c e da m o d e lf o rt h eo n t o l o g ye v o l u t i o nt os u p p o r tt h eo n t o l o g ye v o l u t i o n ,i nt h es y s t e m sb a s e d o no n t o l o g y ,a f t e rw ea n a l y z e dt h ek e y p r o b l e m si nt h eo n t o l o g ye v o l u t i o n t h eg o a lo f t h em o d e li sn o tm e r e l yt or e a l i z et h eo n t o l o g ye v o l u t i o n i ta l s oa p p l yt h et h o u g h to f t h c p r o p a g a t i o no fc h a n g e st oe v o l v et h er e l a t e do n t o l o g i e sw i t ht h ee v o l v e do n t o l o g yt o k e e pt h ei n t e g r a l i t ya n dc o n s i s t e n c yo f t h eh o l es y s t e m k e yw o r d s :o n t o i o g y :o n t o i o g ye v o i u t i o n :o w l i i i 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。 臣我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写 立的研究成果,也不包含未获得 ( 蕉! 塑选查墓丝盂蔓缝型童盟 塑:奎拦要窒2 或其他教育机构的学位或证书使用过的材料。与我一同工作的同志对本研 宅所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:魄己学缸 签字日期:川年占月同 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,有权保留并向国家有 关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权学校可以将学 立论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手 爱保存、汇编学位论文。( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:弛v 唧渺 整字r 期:枷年6 月z 同 学位论文作者毕业后去向; 工作单位: 通讯地址: 导师签字: 狒基锥 签字同期棚年名月1 厢 电话: 自g 编: 基于o w l 的小体进化研究 第1 章绪论 任何系统都会经过从简单到复杂,由低级到高级的进化发展过程,本体建设也 不例外。本章我们分析了本体进化的原因,要求以及要解决的问题,比较了本体进 化和数据库s c h e m a 进化的不同,并对本体进化的国内外研究现状进行了详细介绍。 1 1 本体进化概述 1 1 1 本体进化的原因 有多种原因会导致本体的进化。根据g r u b e r 的定义,本体是指某一领域共享概 念模型的明确表示和描述因此,引起本体变化的原因包括如下几个方面: ( 1 ) 领域的变化 领域的改变非常普遍,它们的影响也与数据库模式的影响摹本类似v e n t r o n e 4 3 总结了几种现实世界的变化( 领域演化) 带来数据库模式的更新。例如,当两个具有 不同管理机构的大学里的系进行合并时,描述该领域的本体需要变更以反映这种变 化。 ( 2 ) 共享概念模型的变化 概念模型的变化是由于领域视图或使用角度的改变引起的,即上下文语义 ( c o n t e x ts e m a n t i c ) 的变化。当本体应用于新的任务或新的领域时,则概念化的表 示也要相应地变化。例如,某一本体中“c l a s s ”用于表示“开设的课程”,如“c l a s s ( a l g _ f a l l _ 2 0 0 2 ) ”,当变成表示“一堂课”时如“c l a s s ( d a t a b a s e s ) ”时,就会 发生错误。 ( 3 ) 表示的变化 表示( r e p r e s e n t a t i o n ) 的变化是指一种转换,当本体由一种知识表示语言翻译 成另一种语言表示时,就会产生显式定义的改变这些语言不仅语法各异,而且更重 要的是语义和表达也各不相同因此,在转换过程中保持本体的语义一致并非易事。 基丁o w l 的小体丑化研究 1 1 2 本体进化的要求 本体进化,就是本体的适时调整和变化一致性的传播”。所以本体进化的甘的, 就是为了使得本体更好的满足用户的需求,而对本体做出适当的变化。要使本体的 进化达到这一目的,在对本体实施进化的过程中,就必须按照一定的要求。基于本 体的建设和应用过程中的经验,我们总结出了以下三个要求: ( 1 ) 能够解决本体的变化问题,同时保持本体的一致性。; ( 2 ) 能够使用户便捷的毹理本体的变化; ( 3 ) 由于相同的本体可能由不同的用户自行修改,需要经常集成本体的不同 版本,它应能将同一本体的不同版本再次集成: ( 4 ) 能够使用户不断精化本休”: 1 1 2 1 解决本体变化问题并保持本体一致性 本体进化的一致性,要求处于一致状态的本体经过一系列的变化后,也应该处 于一致状态:并且该本体的实例以及依赖于该本体的其他本体和应用程序,也应该 处于一致状态。这一要求包括了本体进化的两个重要问题:一是能够解决本体变化 后的一系列问题:二是变化问题解决后,能够保持本体处于新的一致状态。 1 1 2 2 用户的变化竹;理 在本体进化过程中,有很多情况可以导致本体进化的负面影响。如;因本体工 程师对变化影响的误解而执行了不该执行的变化;对本体的实验性的变化;合作开 发时,不同本体工程师对本体所需变化的不同想法。为了解决这些情况带来的本体 进化的负面影响,我们必须使得用户可以在本体进化过程中便捷地对本体的变化进 行饩;理。 l _ 1 2 3 本体的精化 由于本体中可能存在多余的实体,或多人开发导致本体的混乱,使得本体需要 被精化和重构。从而改善本体的结构,使本体更加容易理解,易于更新。 1 。1 ,3 本体进化面临的问题 本体进化是一个琐细的过程,由于各种各样的变化,它不能由本体构造者下 工完成,这些变化会引起很多其它相关的改变,因此需要建立一个相应的系统来维 基y - o w l 的小体j ! 化研究 护本体的一致性,然而,由于缺乏相关适当的方法论、技术以及工具的支持,建立 一个这样的系统并非易事。在本体的进化过程中我们面临以下三个问题:。 ( 1 ) 复杂性 由于本体结构的复杂性,本体的任何一个部分发牛了变化,都会导致本体的其 他部分,本体的实例,以及依赖于该本体的其他本体和应用程序的变化。即使本体 的变化非常小,也很有可能给本体带来不可预期的后果。 ( 2 ) 依赖性 一个本体可以重用并扩展另外一个本体,当被重用的本体发牛变化时,必然导 致在它基础上派牛出来的别的本体也随之发牛变化,因此,相瓦依赖的本体之间的 交化是耳相关联的,它们之间的实时同步问题是必须解决的。如果一个系统中相可i 依赖的本体越多,则系统中本体演化的复杂性就越高。 ( 3 ) 分散性 本体开发是一个分散协作的过程。所以,在对本体实施进化的过程中,必须考 虑其依赖本体的物理分布问题。本体的进化需要追踪每个本体的改变以及相关的一 系列的变化。 1 1 4 本体进化和数据库s c h e m a 进化的不同 1 1 4 1 本体也是数据 本体可以看作是知识库的s c h e m a ,因此和s c h e m a 进化一样,目的是保持数据 的完整性。1 1 【二c 是,本体也是数据,建立在本体上的查询也可以返回本体,因此,还 需要考虑进化对这种查询的影响。 1 - 1 4 2 本体中混合了语义 数据库s c h e m a 中没有显式的语义,因此需要在进化框架中包含解决进化所带 来的约束冲突的协议,而本体本身混合了语义,所以进化框架中不需要协议,用推 理机可以对变化的本体重新分类。 1 1 4 3 本体更经常被重用 数据库s c h e m a 一般不被重用,不在本系统之外使用。而本体则相反。 1 1 4 4 本体通常是分布的 数据库s c h e m a 开发是集中式的,本体是分布的合作式开发。 丛ro w l 的小体进化研究 1 1 4 5 本体的数据模型更丰富 和数据库的s c h e m a 比,本体也要丰富得多:基数、反属性、传递属性、瓦斥 类、求并、求交、枚举等。因此对本体变化的处弹将更闲难。 1 1 4 6 类和实例可以相同 在数据库中s h c e m a 和实例是明确区分的。本体和实例则很难区分,如元类( 其 实例是类) 的引入。因此不能只考虑变化对实例的影响。 1 2 课题研究背景 自w 3 c 丰席t i mb e r n e r s l e e 首先提出t 语义w e b ( s e m a n t i cw e b ) 的概念后,它正 在成为计算机信息处理领域当前研究的热点之一。语义w e b 的基本思想是对当前的 w w w 进行扩展,使得网络中所有信,自、都是具有语义的,是计算机能够理解和处理的, 便于人和计算机之间的交可与合作”。数据语义的明确表示和领域理论的应用将使 得w e b 提供一种全新质量的服务,其最终目标是将人类知识编织成一个巨大的网络, 并以机器处理的方式来实现它各种自动化服务将帮助用户以计算机可理解的格式 访问和提供信息,由此使得计算机自动化处理过程和w e b 信息集成更为方便。 本体( o n t o l o g y ) 定义了w e b 上用于描述和表示领域知识的术语“”。,是共享概念 模型的明确的形式化规范说明。由于本体是语义w e b 实现的关键,这将使得本体的数 量和规模大大增加。在万维网这样一个动态发展的环境,任何人可随时发送和更新 信息。为此,用户必须同发布其它信息一样方便地发布w e b 本休,同时也必须允许对 这些本体进行修改订正,并由此衍牛了所谓的本体进化( o n t o l o g ye v o l u t i o n ) 的问 题。 1 3 国内外研究现状 本体的研究工作是知识饩珲和人工智能领域非常活跃的课题,如信息超载的问 题、改进信息组织和使用以支持信息检索和信息抽取,使得我们能在正确的时间传 递正确的信息以及适当的信息量。本体比传统的计算和信息科学技术有更高级的适 4 基丁o w l 的木体进化研究 用性,丰要表现在定义关系、更深层次的语义、表现能力的提高上。所有这些使得 下一代的互联网语义网的实现成为可能。 在本体的构建、映射和进化三个方面都需要人工干预,说明本体研究工作的复 杂性,同时这也是待解决的问题。很多有用的工具和技术都己出现,他们辅助专家 创建本体、使用和维护己有本体。尽符如此,为了本体在未来的应用上受到更多重 视,许多研究难题必须解决。第一步我们要做的就是把目光聚焦在本体的构建上, 因为它直接关系到并应用于本体映射和进化。到目前为止,在本体构建的自动化和 半自动化上还没有重大突破的报道。 为了保证本体维护的精确度,本体进化需要清楚本体的结构最近,一些半自动 化和自动化进化的研究在开展,t u 是,大多数还停留在早期的状态,即需要予工干 预。 f o w l e r 等( 1 9 9 9 ) 提到,在i n f o s l e u t h 代理架构下维护同一本体的不同版本是因 为它在不断增大。t o v e ( g r u n i n g e r 和f o x ,1 9 9 5 a ) 和m e t h o d o l o g y ( f e r n a n d e z l o p e z , g o m e z - p e r e z j u r i s t o ,1 9 9 7 ) 两个系统丰要是做本体的维护,但是都是于工完成。丰 要的区别在于,o d o l o g y 专注于维护本体牛命周期的各个状态,而t o v e 利用一些形式 化的技术来解决更多的维护难题。o s c h o l d ( 2 0 0 0 ) 也指出维护全局和局部本体的重要 性,尤其是用统一标识符编码和命名概念和关系从而将其标准化的重要性。 j a n n i n k 和w i e d e r h o l d ( 1 9 9 9 ) 用与牛成本体一样的方法一本体代数法维护本 体。当知识库变化时,使用s 算予,它提供了一个简单的方法来评定上下文的内容以 揭示数据中缺失的结束标记。例如,s ( h w ) d i v 2 0 ( d i c t i o n a r y ) 返回字典的实体,并 按头单词的长度进行分组。一旦发现错误,将增加转换缺失结束标记的词汇的规则。 在提取词典的相关部分的过程中,用s 算子进行维护,这样直接更新规则在代数框 架下,协调性的测定将极大简化鉴别和处理本体变化的过程。w i e d e r h o l d ( 1 9 9 4 a ) 提到“我们新设计的网络系统应该具有维护功能,这一点很重要。”维持一个较小 的本体人们在使用它们时达成语义一致性的时间不至于延缓。 s t u m m e ,s t u d e r 和s u r e ( 2 0 0 0 ) 使用与他们进行本体映射一样的方法来维护本体。 他们指出当前的本体维护工作冗长和耗时。在较大的本体中,领域专家很容易失去 方向。这样,需要一些辅助工具能为专家提供合理的建议,能够基于一些预定义规 基于o w l 的小体逍化研究 则把一些工作自动化。他们考虑,在这一方向将来的研究工作中,应该集成用语言 学方法从文本生成本体的方法,并用数据挖掘技术评估对此进行评估。他们提出用 形式概念分析法来维护本体。形式概念分析法把概念作为思考单元用数学的方法计 算出理解公式,每个理解公式由两部分组成:外延和内涵。 f a a t z ,k a m p s 和s t e i n m e t z ( 2 0 0 0 ) 提出了一个算法来计算两个文档的相似度,并 在相关知识的相似性和簇的基础上,使用严格的有监督学习算法改进己存在本体。 首先,他们从在线新闻或别的w e b 文档中选一个纯文本文档,然后按照己知词汇表和 已有本体建立索引( 于工) 。他们使用空间向量模型把每一个文档规格化,加入一些 来自于于工建立的本体的背景知识来丰富整个文档。之后,使用线性回归法对文档 聚类或匹配文档的相似度,然后由领域专家或本体工程师来决定是否把这些从坦配 相似度和聚类得到的知识用于维护当前的本体。他们在论文中指出了未来进一步研 究的几个领域:1 ) 确认进行一定量新的词汇表实验后得到的思想:2 ) 在向量表示上引 入关键字的定性标记来以改善结果:3 ) 努力找出自动化方法来探测本体间的关联。 r o u x 等( 2 0 0 0 ) 提出了一种方法在已存在的基于概念的图架构的信息抽取系统中 插入新的概念。在该系统中,本体是一个二分集,它包含格子表示的被动信息和图 模式表示的丰动信息。该系统采用两级结构: 一个语言分析组件。该组件_ 丰要是基于有限状态转换机技术。它由一个词性 标注器和一个鲁棒解析器组成。文本处理分这几步:词语切分:语态分析:用 隐马尔可夫模型技术消歧:修正错误:最后,查找前后关系以识别基因名。然 后就能从输出中抽取句法依赖关系。 基于概念图的知识处理组件。用上一级抽取出的句法依赖关系建立语义表 达。 当一个新的词出现的时候,我们使用模式匹配和句法依赖方法在w e b 文档中探测 该词,并把它插入格子中。格子包含的概念是由语义路径连接起来的,这就需要我 们对新的概念加以分类以便找出格子中准确的槽。定制己定义概念的特定结点的概 念予图,根据动词词形确定其在格予中的位置。然而,该算法目前还在发展之中, 将来需要测试证实其实用性和适用性。 t o d i r a s c u 等( 2 0 0 0 ) 提出了一个系统来获取新的概念并把它们插入已存在的领 基丁o w l 的奉体进化研究 域本体。一个插入索引库,是由词性技术来处理的。这里,使用频率最高的词( 名词、 形容词等) 和它们的上下文关系被抽取出来。对于每一个上下文关系,将建立一个概 念并把它分类到已存在的层次结构中。词和语段这些有意义的标记通过描述逻辑来 表达。部分语义描述还包含依据词法知识编码的肩发式规则。在限制领域本体的大 小时,他们遇到一些难题,诸如使用频率高的词往往以常用概念结束,概念的不一 致很常见。 a g i r r e 等( 2 0 0 0 ) 使用丰题信号词和等级簇来标注每一个出现的词,以丰富根据 w e b 页面建立的本体的概念。该系统中,丰要的障碍来自于从概念和相关文档与w e b 相连接的方法中获得清晰的信号词。必须应用一些过滤技术以使我们获取的文档具 有更少的偏差、更多的有用内容。清晰丰题信号词法为我们加强本体开辟了一条大 道,因为它提供了丰富的概念的丰题信息。例如,丰题信号词间的相似性可以用来 发现丰题相关的概念,这样,聚类策略可以扩展到其它所有类。 从理论上说,本体进化是必须的,也是可行性的,但在本体的实际建设过程中 看,本体的进化是一个比较复杂、难度较大的问题,是包含了众多方面相互作用和 相互影响的复杂过程。需要对领域本体进化的模式、机理、过程、路径和技术进行 深入的研究。 1 ,4 本文的研究目的和主要内容 1 4 1 研究目的 在本体工程领域中,大部分的问题都集中在本体的构建问题上。某个领域的知 识用本体来表示,它没有考虑到本体随时间的动态变化。在一个开放的动态的环境 中,领域中的这些知识本体是在不断的变化着的,例如:应用环境的改变:用户需求 的变化:以及内部过程的改变等。本体的开发是一个动态的过程,从一个粗糙的本体 经过不断的修正和提炼的适应性变更。因此,为了实现本体的共享和重用,必须对 本体的进化过程进行研究,从而达到本体的有效性和一致性。本文针对当前各种进 化方法的不足,提出了一个基于o w l 语言的本体进化系统模型,该模型不仅能实现本 体自身的进化,而且利用变化传播的思想。能够对与进化本体相关的所有对象实施 丛丁o w l 的小体j ! 化研究 进化。 1 4 2 主要研究内容 本文首先分析了本体进化的原因、要求、要解决的问题,并比较了本体进化和 数据库s c h e m a 进化的不同;概述了本体和语义w e b 的相关知识,对本体进行了全面 的研究,包括本体的概念、分类、应用、描述语言、建模方法以及本体和语义w e b 的关系;探讨了本课题研究的关键技术;分析了本体进化的关键问题,并提出了基 于o w l 的本体进化模型。 1 5 本文的结构 本文由6 章组成: 第1 章绪论阐述了课题研究的背景,国内外现状,以及课题研究的目的和丰 要研究内容。 第2 章本体综述深入研究了本体的概念、建模元语、描述语言、构建方法、 构建工具以及在信息系统中应用,并分析了o n t o l o g y 与语义w e b 的关 系。 第3 章本体描述语言o w l 从o w l 的分类,基本元素,属性以及属性的特 性和约束方面,详细地对本体描述语言0 w l 进行了探讨。 第4 章课题研究关键技术 第5 章基于o w l 的本体进化模型分析了本体进化的关键问题,并提出了基 于o w l 的本体进化模型。 第6 章总结与展望。总结了全文,说明下一步的研究方向。 苎丁o w l 的术体进化研究 第2 章本体研究综述 本体起源于哲学,现今受到广泛的关注,其重要性也己在许多方面表现出来并 得到广泛认同,尤其是本体在传统w e b 上的应用导致了语义w e b 的诞生,在w 3 c 的丰导 下有望解决w e b 信息共享时的语义问题,从而实现世界范围内的知识共享和智能信息 集成。 本章将对本体作一个全面的综述性介绍,包括本体的起源、定义、描述语言、 建构方法论、本体论与语义w e b 的关系,以及本体论的研究与应用等。 2 1 本体概述 2 1 1 本体定义 本体最早是一个哲学上的概念,从哲学的范畴来说,本休是客观存在的一个系 统的解释或说明。后来随着计算机科学技术的发展,人工智能学者把本体这个概念应 用到了在人工智能领域。在人工智能界,最早给出本体定义的是n e c h e s 等人,他们 将本体定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关 系构成的规定这些词汇外延的规则的定义”。1 9 9 3 年g r u b e 提出“本体是概念 模型的明确的规范说明”,这是本体的最为流行的一个定义3 。后来,b o r s t 在此基 础上,给出了本体的另外一种定义“3 “本体是共享概念模型的形式化规范说明。” 后来,s t u d e r 等人在此基础上对本体概念进行了更为深入的研究,并提出本体是共 享概念模型的明确的形式化规范说明。这说明本体的概念包含4 层含义。:概念模 型( c o n e p t u a li z a t i o n ) 、明确( e x p l i c i t ) 、形式化( f o r m a l ) 和共享( s h a r e ) 。 ( 1 ) “概念模型”指通过抽象出客观世界中一些现象( p h e n o m e n o n ) 的相关概念而 得到的模型。概念模型所表现的含义独立于具体的环境状态。 ( 2 ) “明确”指所使用的概念及使用这些概念的约束都有明确的定义。 ( 3 ) “形式化”指本体是计算机可读的( 即能被计算机处理) 。 9 篁丁o w l 的小体址化研究 ( 4 ) “共享”指本体中体现的是共同认可的知识,反映的是相关领域中公认的概 念集,即本体针对的是团体而非个体的共识。 本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领 域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇( 术语) 和词汇间 相瓦关系的明确定义。 2 1 2 本体的建模元语 本体包含5 个基本建模元语( m o d e l i n gp r i m i t i v e ) ”,分别为:类( c l a s s e s ) , 关系( r e l a t i o n s ) ,函数( f u n c t i o n s ) ,公理( a x i o m s ) 和实例( i n s t a n c e s ) 。通常 也把类写成概念( c o n c e p t s ) 。 ( 1 ) 概念含义很广泛,可以指任何事物,如工作描述、功能、行为、策略和推理 过程等等。 ( 2 ) 关系代表了在领域中概念之间的交可i 作用。形式上定义为门维笛 儿乘积的予 集:宵:c 1 0 2 勖。如:予类关系( s u b c l a s s o f ) 。 ( 3 ) 函数是一类特殊的关系。在这种关系中前7 1 个元素可以惟一决定第力个 元素。形式化的定义如下:f :n c 2 砌一l 一白。 ( 4 ) 公理代表永真断言,用于说明函数之间或关联之间存在的关联或约束。 ( 5 ) 实例实例是指属于某个概念的个体。 在本体中,概念之间的基本关系有4 种:p a r t - o f ,a t t r i b u t e o f ,i n s t a n c e - o f 和k i n d o f 。p a r t o f 表达概念之间部分与整体的关系; i n s t a n c e o f 表达概念 的实例和概念之间的关系:a t t r i b u t e o f 表达某个概念是另外一个概念的属性。 例如概念“作者”可作为概念“论文”的个属性。k i n d o f 表达概念之间的继承 关系,给出两个概念f 和口,记c 7 = x fj 是f 的实例 ,口7 = x 并是口的 实例j ,如果对任意的工属于口7 ,x 都属于f7 ,则称f 为口的父概念,少为f 的了概念。一般情况下,本体的概念之间都存在着层次性关系( 或者说上下位关系) , 更高层的概念代表更抽象的意义,更低层的概念代表更具体的意义,低层概念与它 上层的概念是“k i n d - o f ”的关系。所有的层次性关系构成一个树状结构。 0 基3 - o w l 的小体j ! 化研究 2 1 3 本体的分类 目前关于本体的研究非常广泛,尤其是在国外,许多研究研究组织和机构都建 立了各具特色的本体。针对甘前出现的各种各样的本体,也出现了不同的分类,以 下三种分类方法使用最为广泛 ( 1 ) 根据本体应用丰题,可将本体划分为五种类型“: 领域本体领域本体在一个特定的领域中可重用,它们提供该领域特定的概念定 义和概念之间的关系,提供该领域中发牛的活动以及该领域的丰要理论和摹本 原理等。对特定领域的本体研究和开发目前已涉及许多领域,包括企业本体、 医学概念本体、牛物学本体等。 通用或常识本体关注于常识知识的使用。通用知识本体的研究包括著名的c y c 公司的o p e n c y c 本体,最新版的o p e n c y c 包括6 0 0 0 个概念和6 0 0 0 0 个关于这些 概念的声明( 包括概念问的关系、对概念的限制等) ,另外o p e n c y c 还包括一个 基于本体论的常识推理机。 知识本体它的研究重点是语言对知识的表达能力。典型的有斯坦福大学知识系 统实验室提供的一种称为知识交换格式k i f ( k n o w l e d g ei n t e r c h a n g ef o r m a t ) 的知识描述语言,以及可以在线将各种知识转换为k i f 的本体服务器。目前普 遍认为,所有其它的知识表示形式都可以转换为k i f 的形式。 语言学本体是指关于语言、词汇等的本体。典型的实例有g u m ( g e n e r a l i z e d u p p e rm o d e l ) 和普林斯顿大学研制的w o r d n e t 。 任务本体也称为方法本体,任务本体是本体研究的另一个分支,丰要研究可共 享的问题求解方法,这里的推理方法与领域无关,任务本体主要涉及动态知识, 而不是静态知识。任务本体的研究以c h a n d r a s e k a r a n 等人的关于任务和问题求 解方法本体的研究为代表。任务本体中经常描述的要素包括:任务目标、任务数 据、执行状态等等。具体的研究丰题包括:通用任务、与任务相关的体系结构、 任务方法结构、推理结构和任务结构等。 ( 2 ) 根据本体表示的形式化程度,可将本体分为四种类型: 完全非形式化:完全采用自然语言进行表示,结构非常松散,典型的如术语列表。 毖丁o w l 的小休进化研究 结构非形式化:采用受限的或结构化的自然语言进行表示,能有效提高本体论的 清晰度,减少二义性。 半形式化:采用一种人工定义的形式化语言进行表示,目前己有许多研究机构开 发制定了这类形式化本体论表示语言,许多采用o n t 0 1 i n g u a 描述的本体都属于 这一类。 完全形式化。所有属于都具有形式化的语义,并能在某种程度上证明包括一致 性和完整性等方面的属性。 在实际应用中,这几种表示方式各有所长。如果本体论的应用目的是为了加强 人与人之间的交流,则非形式化的本体将更为适用,如果对本体的处理需要由机器 自动完成,则其形式化程度越高越好,在有些清况下,需要将非形式化和形式化两 种方式组合起来了吏用。 ( 3 ) 根据本体的研究层次,可将本体分为四种类型: 顶层本体丰要研究非常通用的概念,如空间、时间、对象、事件、行为等,他 们完全独立于特定的问题或领域。因此可以说顶层本体可以在一个很大的范围 内共享。 领域本体研究与一个特定领域相关的术语或词汇,如医学、企业模拟等。 任务本体定义通用任务或推理活动,如诊断等。它们都可以应用顶层本体中定 义的词汇来描述自己的词汇。任务本体和领域本体处于同一个研究和开发层次。 应用本体描述特定的应用,它既可以应用特定的领域本体中的概念,又可以引 出现在任务本体中的概念。 2 1 4 本体的应用 本体作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,自被 提出以来就引起了国外众多科研人员的关注,并在计算机的许多领域得到了广泛的 应用,如知识工程、数字图书馆、软件复用、信息检索和w e b 上异构信息的处理、语 义w e b 等。 2 1 4 1 本体应用分类 虽然在人工智能领域的各个方向上都有许多应用,但是从本体的起源和概念出 基下o w l 的奉体进化研究 发,可以简单地归结为以下3 类: ( 1 ) 人与组织之间的信息交流。 本体的核心概念是知识共享,通过减少概念和术语上的歧义,本体描述为某一组 织或是工作小组提供了一个统一框架或是规范模型,使得来自不同背景,持不同观点 和目的的人员之间的理解和交流成为可能,并保持语义上的一致性。 ( 2 ) 系统之间的瓦操作。 应用程序使用本体实现异构系统之间的瓦操作,即不同系统或是工具之间的数 据传输。 ( 3 ) 软件工程。 在需求分析中,本体通过对问题和任务的理解描述,提高明确性,减小分析代价 “。同时,本体可迸一步作为软件设计的基础,以( 半) 自动方式检查需求和设计的一 致性,提高软件可靠性。本体还可以通过对系统内部各个功能模块和它们之间的联系 的详细描述提高软件的重用性 2 1 4 2 本体在信息系统中的应用 ( 1 ) 基于本体的信息检索 本体在信息检索弓l 擎中的应用的基本思路是利用本体对信息的描述来检索知识 库,从而提高检索的效率和精确度。典型的例予为s h o e “。 ( 2 ) 基于本体共享的信息访问 不同的应用程序开发人员在共享本体上达成一致,即定义了一个可以双向转换 的数据传输的格式,典型的例予丰要有e c o c y c 眙。1 等。 ( 3 ) 基于本体映射的信息访问。 与前一种应用不同的是,不同的应用程序之间拥有自己独立的本体而不存在一 个共享的本体,因此它们之间的信息共享或者数据交换只能通过不同的独立本体之 间的映射( m a p p i n g ) 。典型的应用主要有o n i o n s 啦”等。 2 1 4 3 本体在信息检索中的作用 ( 1 ) 消除自然语言理解中的歧义,明确概念涵义 检索流程的第一步就是通过人一机界面接口输入检索提问式,那么如何消除计 基丁o w l 的小体进化研究 算机对自然语言理解所产牛的歧义也就是让计算机理解人们检索的真正意图就显得 尤为重要。可是由于自然语言具有丰富多彩的表达形式,有大量的同义词、近义词、 多义词存在,计算机要自动识别检索词的准确含义就需要借助特定的工具一本体。用 本体中概念和概念约束的明确规范说明,可以帮助系统在多个可能的意义中选择最 适合的意义。 ( 2 ) 根据相关概念进行推理,挖掘隐含信息 推理是找出文本中没有明显表示出来或者有转义的意义,系统利用本体中缺省 的知识填充空缺的意义,比如在检索“合作者”的例了,在甲的辛页上合作信息上有 “乙是甲的合作者,仙是在乙的丰页上没有合作者情况的陈述,根据本体定义中“合 作者”成对出现原则,乙同样获得“甲是乙的合作者”的合作属性特征。 2 2 本体的描述语言 众所周知,机器并不能像人类一样理解蕴含7 在自然语言中的语义,计算机最后 把所有的信息都当作0 、1 串进行处理。而本体的甘的是使信息成为机器可理解的, 因此,在计算机领域讨论本体,首先就面临着本体是如何描述的问题,也就是概念 的形式化问题。对应的研究内容就是本体的描述语言。 自上个世纪9 0 年代以来,大量得研究工作者活跃在该领域,因此诞车了很多种 本体描述语言,有r d f 和r d f ( s ) 、o i l 、d a m l 、o w l ( 注:d a m l + o i l 不再单独列出, 认为它是一个过渡,直接介绍o w l ) 、k i f 、s h o e 、x o l 、o c m l 、o n t 0 1 i n g u a 、c y c l 、 l o o m 。我们简单把它们归类如下: 基于a t 的本体描述语言:丰要有k i f 、o c t l 、o n t o l i n g u a 、c y c l 、l o o m 、f l o g i c 。 r i f 已经是美国国家标准,但是它并没有被广泛应用于瓦联网,作为一种交换格式更 多的应用于企业级。 基于w e b 的本体描述语言( 本体标记语言) :丰要有r d f 和
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年有色金属资源循环利用产业链环保标准与评估体系报告
- 2025年快消品包装行业包装废弃物资源化利用案例分析报告
- 2025年大气污染防治专项资金项目实施方案优化报告
- 2025年学前教育机构师资队伍教材编写与选用研究报告
- 2025年文化旅游产业融合资金申请策略报告
- 2025年社区团购市场用户粘性增强与运营成本降低策略报告
- 人工智能通识 课 件 第三章:AI在各行业的应用与影响
- 重庆市某区2024-2025学年八年级下学期期末考试语文试题(含答案)
- 市政工程配套服务公司合同付款管理办法
- 帷幕灌浆安全培训课件
- 2025北京房山区区直部门和乡镇(街道)全日制临聘人员招聘37人考试参考题库及答案解析
- 镀膜车间安全培训课件
- 电商平台网站开发需求文档
- 国际利益至上课件
- 利用SmartRock传感技术进行含砂道砟直剪试验研究
- 2025年乡村振兴应知应会考试题及答案
- 老旧小区外立面整修工程档案建立方案
- 2025-2030中国废旧汽车拆解材料分类利用与循环经济园区建设报告
- 2025年消化内科学试题及答案
- 2025年网站运维工程师职业能力测评试题及答案解析
- 2025-2026学年教科版(2024)小学科学二年级上册(全册)每课教学反思
评论
0/150
提交评论