




已阅读5页,还剩31页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 本体能够解决特定应用中的知识共享问题,因而在实际应用中,不同用户和团体常 常根据不同的应用需求与应用领域构建或选择合适的本体,使本体所描述的内容在语义 上往往重叠或关联,在本体表示语言和表示模型上存在差别,造成本体异构。同时,由 于世界知识的无限性不能构建覆盖万物的统一本体。因此,解决本体异构、消除应用系 统间的互操作障碍成为语义网应用的研究热点。 基于本体构建具有的主观性和分布性特点,本文提出了一种基于本体映射的基本算 法本体之间概念相似度算法( o c t f ) 。该算法以t - lb a c h 算法为基础,引入形式概 念分析( f c a ) 和描述逻辑思想,针对o w l 本体描述语言,一方面对概念进行相似计 算,另一方面对概念的属性进行相似计算。考虑到r d f 三元组无法满足本体之间的语 义信息,在计算r d f 描述相似度时引入o w l 属性算子,以便从o w l 的语义中计算概 念相似度。 为了验证算法的有效性,本文设计了一个基于语义的本体之间概念相似度计算原型 o c t f 系统,它提供领域本体概念的浏览和本体概念之间相似度计算的功能,实验结果 验证o c t f 算法在计算准确性上优于t - lb a c h 算法。本文提出的基于o w l 语言的本 体之间概念相似度计算方法更能体现本体概念的语义特征,为本体映射提供技术支持。 关键词:本体映射;形式概念分析:概念相似度;r d f ;o w l 语言 a b s t r a c t o n t o l o g yc a r lb es o l v e dt h ek n o w l e d g e s h a r i n gp r o b l e m si nt h ea p p l i c a t i o n - s p e c i f i c , w h i c hi np r a c t i c a la p p l i c a t i o n s d i f f e r e n tu s e r sa n dg r o u p sa r eo f t e nb a s e do i ld i f f e r e n t a p p l i c a t i o nr e q u i r e m e n t sa n da p p l i c a t i o n st ob u i l do rc h o o s eas u i t a b l eo n t o l o g y ,s ot h a tt h e c o n t e n t sd e s c r i b e di no n t o l o g ys e m a n t i c a l l yo f t e no v e r l a po ra s s o c i a t e d ,t h e r ea r ed i f f e r e n c e s b e t w e e ni no n t o l o g yl a n g u a g ea n dm o d e l ,r e s u l t i n gi nh e t e r o g e n e o u so n t o l o g y a tt h es a m e t i m e ,f o rt h ei n f i n i t ek n o w l e d g eo ft h ew o r l dw ec a nn o tc o v e re v e r y t h i n gt ob u i l dau n i f i e d o n t o l o g y t h es o l u t i o no fo n t o l o g yh e t e r o g e n e o u sa n de l i m i n a t e o fa p p l i c a t i o n sb a r r i e r i n t e r o p e r a b i l i t yb e t w e e ns e m a n t i cw e ba p p l i c a t i o n sa sar e s e a r c hh o t s p o t c o n s t r u c t i o n 、i t l lo n t o l o g y - b a s e dh a st h ec h a r a c t e r i s t i c so fs u b j e c t i v i t ya n dd i s t r i b u t i o n o n eo ft h eb a s i ca l g o r i t h m sw i t ho n t o l o g ym a p p i n gi sp r o p o s e di nt h i sp a p e r t h ec o n c e p to f s i m i l a r i t ya l g o r i t h mb e t w e e nt h eo n t o l o g y ( o c t f ) t h ea l g o r i t h mb a s e do nt - lb a c h ,t o i m p o r tt h ef o r m a lc o n c e p ta n a l y s i s ( f c a ) a n dt h et h e o r yo fl o g i cd e s c r i p t i o n , a c c o r d i n go w l o n t o l o g yl a n g u a g e ,f o rt h eo n eh a n d , s i m i l a rt ot h ec o n c e p to fc a l c u l a t i o n ,o nt h eo t h e rh a n d , t h ec o n c e p ti ss i m i l a rt ot h ec a l c u l a t i o no ft h ea t t r i b u t e s t a k i n gi n t oa c c o u n tt h er d ft r i p l e s c a nn o ts a t i s f yt h es e m a n t i ci n f o r m a t i o nb e t w e e nt h eo n t o l o g y ,i nt h ec a l c u l a t i o no fs i m i l a r i t y , w h e nt h ei n t r o d u c t i o no fr d ft od e s c r i b et h ep r o p e r t i e so ft h eo w lo p e r a t o r , i no r d e rt o c a l c u l a t eo w l c o n c e p to fs e m a n t i cs i m i l a r i t y i no r d e rt ov e r i f yt h ee f f e c t i v e n e s so ft h ea l g o r i t h m ,t h ep a p e rd e s i g n e dt h eo c t f p r o t o t y p es y s t e mo fa no n t o l o g y - b a s e ds e m a n t i cs i m i l a r i t yb e t w e e n t h ec o n c e p to fc a l c u l a t i n g m o d e l ,w h i c hp r o v i d e st h ec o n c e p to fd o m a i no m o l o g yb r o w s i n ga n dt h ef u n c t i o no f c a l c u l a t i n gt h eo n t o l o g yc o n c e p ts i m i l a r i t yb e t w e e nt h ee x p e r i m e n t a lr e s u l t s ,t h a tv e r i f yt h e a l g o r i t h mi nt h ec a l c u l a t i o no fo c t ft h ea c c u r a c yo ft h ea l g o r i t h mi ss u p e r i o rt ot - lb a c h i nt h i sp a p e r ,b a s e do nt h eo 亿o n t o l o g yl a n g u a g e ,t h ec o n c e p to fs i m i l a r i t yb e t w e e nt h e f o r m u l a sc a nr e f l e c tt h es e m a n t i cf e a t u r e so ft h ec o n c e p to fo n t o l o g y ,o n t o l o g ym a p p i n gf o r t h ep r o v i s i o no ft e c h n i c a ls u p p o r t k e y w o r d s :o n t o l o g ym a p p i n g ;f o r m a lc o n c e p ta n a l y s i s ;c o n c e p to fs i m i l a r i t y ;r d f ; o w l l a n g u a g e 独创性声明 本人郑重声明:所提交的学位论文是本人在导师指导下独立进行研究工作 所取得的成果。据我所知,除了特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果。对本人的研究做出重要贡献的个人和集 体,均已在文中作了明确的说明。本声明的法律结果由本人承担。 学位论文作者签名: ! 垒圭! 塑 日期: 学位论文使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规定, 即:东北师范大学有权保留并向国家有关部门或机构送交学位论文的复印件和 电子版,允许论文被查阅和借阅。本人授权东北师范大学可以将学位论文的全 部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其它复制手段 保存、汇编本学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 日 期: 学位论文作者毕业后去向: 工作单位: 通讯地址: 指导教师签名: 日期: 电话: 邮编: 东北师范大学硕士学位论文 第一章绪论 1 1 选题背景及研究意义 1 9 9 0 年t 吼b e m e r s l e e 发明了万维网( w 曲) ,其目的是让人们通过因特网来获得 各种信息,数十年间信息量成指数级急剧增长,已造成信息的严重超载,1 9 9 8 年他又提 出s e m a n t i cw e b ( 语义网) 的构想,指出语义网是对当前w e b 的一种扩充,其思想就是 将信息表示为计算机能够理解和处理的形式,使得人和计算机能够更好的协同工作,并 在此基础上实现信息的智能应用1 1 1 。而本体论在w e b 上的应用导致了语义w e b 的诞生, 在w 3 c 的主导下有望解决w e b 信息共享时的语义问题,从而实现世界范围内的知识共 享和智能信息集成,因此近年来本体受到信息科学领域的广泛关注,成为人工智能、信 息检索等研究领域的研究热点。 然而,随着本体的广泛运用同时产生了一系列的异构性问题【2 1 ,由于本体创建者构 造的目的和创建方法的不同,导致很多领域本体的重复建立,很难实现本体间的资源共 享,不同本体之间的资源共享成为语义w e b 的首要任务。但是如此大规模的数量、范围 和复杂度的本体映射,由人工来完成其工作量是巨大的;而相同的概念可能以不同的方 式,不同的位置层次,使用不同的术语形式化表示,在不同或者异构本体里识别本体的 相似概念是非常困难的。为了解决上述问题,必须有相应的本体相似度计算( o n t o l o g y s i m i l a r i t ym e a s u r e ) 方法,它的基础就是研究概念相似度的计算。像本体映射、本体比较、 本体合并、本体集成和语义信息检索的广泛应用,证明了一个好的概念相似度计算方法 对于语义w e b 背景下的研究工作具有重要意义,因此基于本体映射的概念相似度算法 研究具有较高的学术意义和应用价值。 1 2 国内外研究现状 在本体相似度的研究中,产生了几类概念相似度计算方法,不过目前的部分方法还 不是很完善,需要改进,以下是现有的主要研究方法: 一、基于信息理论的方法 此类方法主要来自于传统的自然语言处理技术( n l p ) 及模式匹配技术【3 i 。 编辑距离( e d i td i s t a n c e ) t 4 】由l e n e n s h t e i n 在1 9 6 6 年提出,用来比较两个字符串 的相似度。编辑距离为字符串转化所需的元操作的最小数目,元操作包括字符 的插入、删除、替换及相邻字符的调换。 词汇相似度在e d i td i s t a n c e 算法基础上,德国k a r l s m b e 大学a l e x a n d e r 学者提 出一种词汇相似度计算方法s t r i n gm a t c h i n g ( s m ) t 5 】,比较两个词汇名l i 和k 的 相似度: 1 东北师范大学硕士学位论文 眦圳一 0 ,訾端铲 【o ,q 利用语义词典如w o r l d n e t 、h o w n e t t 6 1 中同义词或义元组成的树状体系结构,通 过计算两个概念之间的信息熵,计算概念问语义相似度。文献在利用w o r d n e t 计算概念 词相似度时,除了依赖于节点间的距离外,还考虑了弧的数量,通过整体概念树的层次 深度来为节点间距离标注刻度。 基于信息理论的相似度算法具有广泛的应用性,但是自然语言中的一词多义现象会 极大地干扰名称匹配过程,不能解决词汇的一词多义性问题。利用常识词库,因为有领 域相关的词典支持,在具体应用领域使用起来非常有效。但是当前可利用的领域词典较 少,需要更多的专业研究,才能更好的使用词典推进概念相似度研究。 二、基于结构的方法 利用对象的结构信息( 树图结构) 获取对象间的关系。 语义距离模型:在结点之间评估距离边的长度,计算一个结点到另一个结点的最短 路径,越短相似性越高f 7 1 。文献【8 】中“本体距离 ,定义为通过共有祖先的最短路径或者 连接两个对象的通过共有后代的通用最短路径。此方法高度依赖于本体的构建,适用于 同一本体内的语义相似计算。信息学模型9 1 l 1 0 1 计算对象包含共享的子孙后代的概率值来 比较两个对象之间的相似度。基于结构的相似度算法,在计算过程中,结构级匹配不仅 仅要考察单独的对象,还要考虑它们之间的关系。此类方法主要采用模式匹配技术,结 构级匹配可能是完全匹配,也可以是部分匹配,这取决于匹配所要求的完整性和准确性。 这类方法在反映概念的语义上存在局限性。 三、统计学习法 贝叶斯定理( b a y e s i a ns u b s u m p t i o n ) 文献【1 l 】以a c m 和i t t a l k s 两个本体为例子、进行映射实验,由于非叶子点需要 综合分析自身子孙节点的匹配指数来完成最终的匹配选择,所以使用了统计学中的贝叶 斯方法。 基距离( b a s i cd i s t a n c e ) 文献【1 2 】提出了一种简单的统计的方法“基距离 来匹配两个本体,该方法适合按 关系组织的本体。基距离越短则本体相似度越大。 j a c c a r d sc o c f f i c i e n t 公式 s i m i l a r i t y 耻嘲 文献【1 3 】,g l u e 系统通过机器学习对概念的实例进行分类,使用联合概率分布为 基础,根据分布估计在进行概念估计模块中利用j a c c a r d sc o e f f i c i e n t 公式计算一对概念 的相似度: 2 东北师范大学硕士学位论文 s 砌i l a r i t y ( a ,曰) :丛丝q 望: 塑丝:丝: 7 p ( a u b ) p ( a ,b ) + p ( a ,b ) + p ( 彳,b ) 统计学方法主要是采用数学公式、定理等解决概念相似度计算过程中的复杂问题, 如贝叶斯定理解决相似比较的不确定性、使用概率分布统计本体实例的相似性等等,不 足之处在于计算复杂度比较高。 四、基于规则 本体相似度计算定义了一些启发式规则,规则的抽取来自概念的定义和结构信息, 由专家手工定义。文献【1 4 】通过计算每条规则计算得到相似度,然后用集成的方法把根 据各个规则得到的相似度进行综合,最后得到相似度值。此方法依赖于人工参与或者简 单的启发式规则,但是会影响本体的集成和应用。目前,本体相似计算还需要领域专家 的干预和反馈,这在较大的本体工程应用中显然是不现实的。 五、基于特征方法 在概念或概念实体中使用通用和不同的特征来计算语义相似度,适合于不同本体间 的语义相似度计算,相似度函数以它们的特征属性为参数。 向量空间方法( v e c t o rs p a c ea p p r o a c h e s ) 1 1 5 l 常用于信息检索中的本体匹配,设 对象有k 个不同属性,则每个对象用k 维的向量表示。算法:k 维的向量x 、向量y 分别表示对象a 和b ,则可以使用如下函数计算对象a 和b 的相似度: l x v i s i r a ( a ,口) = i x i l y i 利用概念特征计算概念间相似度文献【1 6 】方法是设本体中概念由3 个部分组 成:概念的同义词集、概念的语义关系集、概念的特征集。对这3 个部分相应记性匹配 比较来自不同本体的概念,得到3 个相似度值,然后加权得到两个概念语义相似度。 基于特征的方法在相似度计算方法中经常使用。不过,是否选取了有代表性的特征 参数非常关键,这几乎成为该算法能否有效的关键,而且,特征参数往往还需要通过试 验结果进行适当调整。 六、基于逻辑关系推理的方法 m a s s i m op a o l u c c i 等在2 0 0 2 年提出一种基于d a m l s 描述的匹配算法,这种方法 才用了d a m l + o i l 上的s u b s u m p t i o n 推理算法定义了概念之间的四种基本的匹配结果, 使得语法不同的请求和供给之间的匹配结果被衡量为“相似度”。后人在此基础上加上 了相交匹配的概念,匹配的程度取决于再分类树里概念之间的最小距离。 七、基于集合理论匹配模型【 】。其中几何模型讲实体或对象表示为一个多维度量空 间,从而讲相似度看作是距离的递减函数。而特征模型是考虑实体的公共集合的数量来判 断概念之间的相似程度,相似度随着共有特征的增多而增多,随着两个属性之问的差异 的增多而减小。 以上方法为国内外研究的主要方法,但由于本体异构的复杂性,本体内部真j 下的语 义很难精确获取和比较,而上述方法大部分依赖于概念描述的语法结构,而不是本体内 3 东北师范大学硕士学位论文 部包含的潜在语义,依据语法方法被证实是不能执行标准语义推理的。因此,概念相似 度计算中如何充分利用更完全的语义信息仍然是研究重点和方向。t - lb a c h 算法【1 8 】 与同类型的研究工作【1 9 , 2 0 , 2 1 , 2 2 , 2 3 i 相比有其独特的特点,专注于构建概念相似度算法,能够 提取出隐含在o w ld l 概念描述中的语义信息,注重o w l 构造子的潜在语义,充分利 用o w ld l 语言的描述能力计算o w l 本体之间的概念相似度。本文将在t - lb a c h 算 法基础上,吸取该算法中优秀的思想,加入形式概念分析的概念相似度方法,通过概念 特征关系层次来提高相似度算法的准确性。 1 3 本文主要工作 本文建立了两个领域本体,首先通过f c a 的方法计算得到两个概念特征之间的结 构关系,计算它们之间结构关系的相似度;然后利用r d f 三元组来计算本体间概念相 似度,针对r d f 无法充分满足本体语义信息,引入了o w l 语言的属性算子进行相似度 的完善工作。主要工作包括:详细介绍了w 3 c 推荐的本题描述语言o w l ;利用p r o t 6 9 6 建立两个领域本体:通过j e n a 对本体进行解析,得到r d f 三元组集合;利用f c a 理论计 算概念间结构关系相似度;通过解析的三元组计算r d f 描述相似度;在此基础上针对 r d f 描述语言的不足,用o w l 属性构造子进行改进,最后提出o c t f 算法,并构建了 本体间概念相似度计算的原型系统。 1 4 论文结构 全文分为六章,正文内容安排如下: 第一章主要介绍本文的研究背景,简单介绍了领域本体问概念相似度研究的现状与 意义。 第二章具体介绍了和本文密切相关的理论基础知识。 第三章提出改进的领域本体间概念相似度算法- 0 c t f 算法。该算法是围绕概念特征 之间的结构关系和r d f 语言所表示的语义信息来计算概念相似度。并设计并实现了 o c t f 原型系统。 第四章实验结果与分析。 第五章对全文工作的总结及展望。 4 东北师范大学硕士学位论文 第二章本体论与形式概念分析 21 语义网 语义网( s e m a n t i cw e b ) 是一个由万维网联盟的蒂姆伯纳斯一李( t i mb e l r t e f s l e e ) 在1 9 9 8 年提出的一个概念,它的核心是:通过给网络上的文档( 如:h t m l ) 添加能够被 计算机所理解的语义,使它们能够更容易地被搜索、共享与集成,从而使整个因特网成 为一个通用的信息交换媒介。 2 0 0 0 年t i mb e m e r s l e e 在x m l 会议上提出了语义网的体系结构,如图2 1 所示。 、 、k r ul e s 【。u s 。 k r 、d a t a 裟i _ _ l 到广 p r o o f 厂育 o n t o l o g yv o c j b u l a r y 幽2 1 谙义列体系结构 在语义w e b 的分层结构中,核心层为二、三、四层,用于表示w e b 信息的语义。 第一层:足u n i c o d e 和u r l ,该层是整个语义w e b 语法表示基础,u n i e o d e 提供了 资源编码,主要用于解决资源的定位和跨地区字符编码的标准格式问题,而u r i ( u n i f o r m r e s o u r c ei d e n t i f i e r ) 称为统一资源标识符,用于唯一标识网络e 的一个概念或资源;它 和万维网中常用的统一资源定位符( u r l ) 的区别在于u r l 泛指所有以字符串标识的网 络资源,u r l 是包含在u r i 中的。u n i c o d e 是一个字符集,用于处理资源的编码问题。 采用这种统的编码方式可咀解决不同语言、不同文字的信息资源编码问题。 第二层:x m l + n s + x b a ls c h e m a 提供了表示数据内容和结构的语法,l ( e x t e n s i b l em a r k u pl a n g u a g e ,可扩展标记语占) 作为一种语言,是语义w e b 的通用语 法的载体,它允许任何人来设计他们自己的文档格式,并可用这种格式书写文档。它具 有良好的数据存储格式和可扩展性,给网络文档引入了支持语法互用性的结构,便于网 络传输。文档的结构可以通过d t d ( d o c u m e n t d a t a t y p e ) 或x m ls c h e m a 达到机器可 处理。x m ls c h e m a 比d t d 更加灵活,提供更多的数据类型,能更好地为有效的) ( m l 文档服务并提供数据校验机制。n s ( n a m es p a c e ) 即命名空间,由u r i 索引确定,目 的是为了避免不同的应用使用同样的字荷描述不同的事物。这一层从语法上表示数据的 5 东北9 币范大学硕士学位论文 内容和结构,通过使用标准的语言将网络信息的表现形式、数据结构和内容分离,但并 不能提供语义,所以在语义w e b 结构中,x m l 只是作为语法层来提供语法基础。主要 用于建模,通过自定义一系列的标签( t a g s ) ,为语义w e b 创建结构化的文档模式;x m l 层之上的r d f ,o n t o l o g y 和l o g i c 。 第三层:r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ,资源描述框架) 是提供语义交互支 持的核心,是描述w w w 上资源信息的一种语言,我们可以用它表示对象( 资源) 的状 态。它是一种标准数据结构,具有机器可处理的语义其中i m f ,r d f s 提供了描述w 曲 资源的数据模型和类型原语,这样可以表示论断、定义模式 第四层为本体层,是语义w e b 技术里最关键的部分。本体是在r d fs c h e m a 基础上 定义的概念及其关系的抽象描述,它用于描述应用领域的知识,描述各类资源及资源之 间的关系,实现对词汇表的扩展。可以帮助人和机器明确的交流,支持语义级的交换, 而不仅仅是语法级的。目前的网络本体语言标准是o w l ,它相对于r d fs c h e m a 提供 了更多的建模原语,有简洁的、形式化的语义。 第五层主要定义逻辑描述原语,为更高层的逻辑推理提供语义上的支持; 第六和第七层主要是在下面各层提供的功能基础上进行逻辑推理、证明等操作。 2 2 本体及其建模语言 2 2 1 本体 本体( o n t o l o g y ) 最早是一个哲学上的概念,从哲学的范畴来说,o n t o l o g y 是客观存 在的一个系统的解释或说明,关心的是客观现实的抽象本质。近年来本体受到知识工程 和信息科学领域的广泛关注,成为计算机科学中的一种重要方法。 在人工智能界,最早给出o n t o l o g y l 2 4 1 定义的是n e c h e s 等人,他们将o n t o l o g y 定义 为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这 些词汇外延的规则的定义”。后来在信息系统、知识系统等领域,越来越多的人研究 o n t o l o g y ,并给出了许多不同的定义。其中最著名并被引用得最为广泛的定义【2 5 1 是由 g r u b e 在1 9 9 3 年提出的,“o n t o l o g y 是概念模型的明确的规范说明,后来,b o r s t 在此 基础上,给出了o n t o l o g y 的另外一种定义【2 6 j :“o n t o l o g y 是共享概念模型的形式化规范 说明。s t u d e r 等对上述两个定义进行了深入的研究,认为o n t o l o g y 是共享概念模型的 明确的形式化规范说明【2 7 】。本体的目标是捕获相关领域的知识,提供对该领域知识的共 同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇和 词汇间关系的明确定义。 本体的定义包括4 个主要方面: 概念化( c o n c e p t u a l i z a t i o n ) :通过抽象出客观世界中一些现象( p h e n o m e n o n ) 的相 关概念而得到的模型,其表示的含义独立于具体的环境状态。 明确( e x p l i c i t ) :所实验的概念及它们之间联系和约束都被精确定义。 形式化( f o r m a l ) :精确的数学描述,从而使得本体对于计算机是可读的。 6 东北师范大学硕士学位论文 共享( s h a r e ) :本体中体现的是共同认可的知识,反映的是相关领域中公认的概 念集,即本体针对的是团体而非个体的共识。 2 2 2 建模语言 p e r e z 等人用分类法组织了o n t o l o g y ,归纳出5 个基本的建模元语 2 8 1 ( m o d e l i n g p r i m i t i v e s ) : 类( c l a s s e s ) 或概念( c o n c e p t s ) 指任何事务,如工作描述、功能、行为、策略和推理过程。从语义上讲,它表示的 是对象的集合,其定义一般采用框架( f r a m e ) 结构,包括概念的名称,与其他概念之 间的关系的集合,以及用自然语言对概念的描述。 关系( r e l a t i o n s ) 在领域中概念之间的交互作用,形式上定义为n 维笛卡儿积的子集:r :c 1x c 2 x c n 。如子类关系( s u b c l a s s o f ) 。在语义上关系对应于对象元组的集合。 函数( f u n c t i o n s ) 一类特殊的关系。该关系的前n 一1 个元素可以唯一决定第n 个元素。形式化的定 义为f :c 1x c 2 x x c n 一1 一c n 。如m o t h e r - o f 就是一个函数,m o t h e r - o f ( x ,y ) 表示y 是x 的母亲。 公理( a x i o m s ) 代表永真断言,如概念乙属于概念甲的范围。 实例( i n s t a n c e s ) 代表元素。从语义上讲实例表示的就是对象。 另外,从语义上讲,基本的关系共有4 种( 可扩展) ,如表2 1 所示: 表2 1 概念间基本关系 关系名关系描述 p a r t o f 表达概念之间部分与整体的关系。 k i n d o f 表达概念之间的继承关系,类似于面向对象中的 父类与子类之间的关系。 i n s t a n c e o f 表达概念的实例与概念之间的关系,类似于面向 对象中的对象和类之间的关系。 a t t r i b u t e o f 表达某个概念是另一个概念的属性。 2 3 本体描述语言 本体描述语言是用户为领域模型编写清晰的、形式化的概念描述,本体的描述语言 不仅仅需要具有良好定义的语法和语义,充分的表达能力,更需要有效的推理支持( 包 括计算复杂性和可判定性等) 。 目前在具体应用中o n t o l o g y 的表示方式主要有4 类: 7 东北师范大学硕士学位论文 非形式化语言 半非形式化语言 半形式化语言 形式化语言 可以用自然语言来描述o n t o l o g y ,也可以用框架、语义网络或逻辑语言来描述。目 前使用的方法有:r d f 和r d f s 、c y c l 、l o o m 、d a m l 、k i f 、s h o e 、x o l 、o c m l 、 o n t o l i n g u a 、o w l 。我们简单把它们归类如下: 1 、r d f 、r d f s r e s o u r c ed e s c r i p t i o nf r a m e w o r k ,资源描述框架,是w 3 c 在x m l 的基础上推荐的 一种标准,用于表示任何的资源信息。r d f 提出了一个简单的模型用来表示任意类型的 数据。这个数据类型由节点和节点之间带有标记的连接弧所组成。它可以标记为一个三 元组( s u b j e c t ,p r e d i c a t e ,o b j e c t ) 组成r d f 陈述,节点用来表示w e b 上的资源,弧用来表 示这些资源的属性。因此,这个数据模型可以方便的描述对象( 或者资源) 以及它们之 间关系。r d f 的数据模型实质上是一种二元关系的表达,由于任何复杂的关系都可以分 解为多个简单的二元关系,因此r d f 的数据模型可以作为其他任何复杂关系模型的基础 模型。w 3 c 推荐以r d f 标准来解决x m l 的语义局限。 2 、c y c l 【2 9 i c y c l 系统的描述语言,是一种体系庞大而非常灵活的知识描述语言。其特点是:在 一阶谓词演算的基础上扩充了等价推理、缺省推理等功能;具备一些二阶谓词演算的能 力;其语言环境中配有功能很强的可进行推理的推理机。 3 、l o o m 2 9 1 o n t o s a u r u s 的描述语言,一种基于一阶谓词逻辑的高级编程语言,属于描述逻辑体 系。其特点是:提供表达能力强、声明性的规范说明语言;提供强大的演绎推理能力; 提供多种编程风格和知识库服务。该语言后来发展成为p o w e r l o o m 语言。p o w e r l o o m 是k i f 的变体,它是基于逻辑的,具备很强表达能力的描述语言,采用前后链规则 ( b a c k w a r da n df o r w a r dc h a i n e r ) 作为推理机制。 4 、d a m l d a r p a a g e n tm a r k u pl a n g u a g e ,该项目正式开始于2 0 0 0 年8 月,由美国政府支持, 目标是开发一种语言和一组工具,为语义互联网提供支持。m a r kg r e a v e s 是该项目的领 导者。d a m l 形成于d a m l o n t ( 种本体语言) 和d a m l l o g i c ( 一种表达公理和规则 的语言) 。 d a m l 提出的原因和o i l 类似,一批支持语义互联网的研究者发现x m l 、r d f 作 为模式语言其表达能力很有限,希望开发一种有更强的表达能力的模式语言。尽管 d a m l 并不是w 3 c 的标准,但是参与的开发者中有很多来自w 3 c 的工作者,包括t u n b e m e r s l e e 。 d a m l 扩展了r d f ,增加了更多的更复杂的类、属性等定义。它一度很流行,成为 网上很多本体的描述语言,直到d b l 的研究者和o i l 的研究者开始合作,推出了 8 东北师范大学硕士学位论文 d a m l + o i l 语言,成为w 3 c 研究语言互联网的本体语言的起点。 5 、k i f 【蚓 k n o w l e d g ei n t e r c h a n g ef o r m a t ( k i f ) 是一种为了在不同的计算机系统( 这里的不同是 指由不同的程序员在不同的时间使用不同的语言开发等) 之间交换知识而设计的语言。 它的主要目的不是和人交互,也不是在一个计算机系统内部作为知识的表现方式,只有 在不同的计算机系统之间需要交换知识的时候,它们把各自的内部表现方式转换成k i f , 交互后再转换成各自的方式。它是由斯坦福大学的t h el o g i cg r o u p 提出并实现的,是 一种美国标准( a n s i ) 。 在k i f 的设计中,以下特征是其本质特性: 有公开的语义。它不再需要专门的解释器。 在逻辑上是全面的。可以对任意的逻辑语句进行表达。 提供对元知识的表现。 除了这几个本质特征以外,k i f 还尽量的最大化实现能力和可读性。 6 、s h o e t 3 1 i 全称:s i m p l eh t m lo n t o l o g ye x t e m i o m ,简单h t m l 的本体扩展。这是一种与x m l 一致的互联网知识表达语言,使得网页编辑者可以对他们的互联网文档进行标注。由马 里兰大学计算机系提出的,但是目前他们有关本体的研究项目已经使用o w l 和 d a m l + o i l 作为互联网本体的描述语言,s h o e 已经停止研究了。s h o e 是h t m l 的 一个超集,它扩展了一些标记,使得在h t m l 中可以增加任意的语义数据。它的标记 有两类,一类用于创建本体,一类用于注解文档。 7 、x o l t 3 2 1 o n t o l o g ye x c h a n g el a n g u a g e ,本体交换语言。源于s r ii n t e r n a t i o n a l sa r t i f i c i a l i n t e l l i g e n c ec e n t e r ( a i c ) 的b i o i n f o r m a t i c sr e s e a r c hg r o u p 。x o l 设计之初是为生物信息 学领域本体的交换,但是它可以应用于各种领域。它是一种简单通用的定义本体的方法。 基于x m l 和r d fs c h e m a 有两种变体。其目的是在不同的数据库、本体开发工具、或 者其他应用程序之间交换本体。 8 、o n t o l i n g u a l 2 9 1 一种基于k i f ( k n o w l e d g ei n t e r c h a n g ef o r m a t ) 的提供统一的规范格式来构建o n t o l o g y 的语言。其特点是:为构造和维护o n t o l o g y 提供了统一的、计算机可读的方式;由其构 造的o n t o l o g y 可以方便地转换到各种知识表示和推理系统( p r o l o g 、c o r b a 的i d l 、 c l i p s 、l o o m 、e p i k i t 、a l g e r n o n 和k _ i f ) ,从而将o n t o l o g y 的维护与使用它的目标系 统隔开;主要用于o n t o l o g y 服务器。 9 、o w l :( w e bo n t o l o g yl a n g u a g e ) 是w 3 c 推荐的语义互联网中本体描述语言的 标准,是在d a i d l + o i l 的基础上发展起来的,作为r d f ( s ) 的扩展,目的是提供更多的元 语以支持更加丰富的语义表达,并更好的支持推理。我们将在下一节中对o w l 语言进 行详细介绍。 9 东北师范大学硕士学位论文 2 4o w l 本体描述语言 2 4 1o w l 简介 o w l 全称w 曲o n t o l o g yl a n g u a g e ,是w 3 c 推荐的语义互联网中本体描述语言的 标准。它是从欧美一些研究机构的一种结合性的描述语言d a m l + o i l 发展起来的,o w l 语言目前已成为语义网发展和本体建立的重要工具之一,它以描述逻辑和框架逻辑为形 式基础,以描述逻辑为语义推理基础。其中的o w ld l 既提供了丰富的表达能力,也 可以使描述逻辑语义推理的判定性有一定的保证。它能清晰地表达词汇表中的词条的含 义以及这些词条之间的关系。相对x m l 、r d f 和r d fs c h e m a 拥有更多的机制来表达 语义,表达网上机器可读的文档内容的能力。 2 4 2o w l 和r d f 的关系 随着o w l 语言的提出并成为w 3 c 的推荐的本体语言标准,用o w l 语言描述的本 体已经越来越多。r d f 描述是o w l 语言是基础,所以对r d f 的推理机制对o w l 语言 依然有效,而o w l 语言本身还有着自己的算子。对o w l 语言本身的算子的研究可以 是我们更好的了解这门语言,并从其中找到更有效的推理规则和一些隐性的语义。 r d f 是w 3 c 在x m l 的基础上开发的一种标准,用于表示任何的资源信息。从r d f 的模型理论语义来看,r d f 的三元组模型实际上就是一个受限的谓词对谓词逻辑的限制 体现在它只允许用一元谓词( c l s s s ) 和二元谓词( p r o p e r t y ) 逻辑表达。提出了一个简 单的模型用来表示任意类型的数据。r d f 的数据模型实质上是一种二元关系的表达,由 于任何复杂的关系都可以分解为多个简单的二元关系,因此r d f 的数据模型可以作为 其他任何复杂模型的基础模型。 o w l 是从r d f 上发展起来的本体描述语言,它可以更好的对本体进行描述,并且 可以通过它们对本体已经描述的知识得到了解,但是却不能对它们描述的内容进行推 理,而一些我们想要得到的知识却隐性在其中。这样,我们就必须对本体进行相应的推 理,推导出本体中存在,但是被隐性的知识,以满足我们对隐性知识的需求。本文对 r d f 和o w l 语言的进行研究,针对o w l 语言的构造算子进行分析,通过计算o w l 语言构造算子提高概念间相似度值。这样可以更好的推导出本体中隐性的知识。所以, 通过对r d f 语言的研究,我们可以更好的对o w l 语言进行掌握,并通过o w l 语言本 身的算子,找到o w l 语言中蕴涵的隐性信息,以满足我们对本体概念间进行更准确的 相似度计算。 2 5 本体映射 2 5 1 本体映射含义 本体的作用在于提供计算机可以理解的语义信息,这就要求它在定义概念的同时也 清楚的定义概念之间的相互关系。本体映射是指两个本体存在语义级的概念关联,通过 l o 东北师范大学硕士学位论文 语义关联,实现将源本体的实体映射到目标本体的过程。构建本体映射是分布式环境下 解决不同本体间的知识交流、共享和重用问题等基础性任务。研究本体映射技术就是发 掘并有效的利用各种已有信息来确定实体对之间的匹配关系。 2 5 2 本体映射方法 l 、s c h e m a 映射【3 3 】 2 、基于上层本体的映射方法 3 、基于相似度计算的本体映射【划 4 、基于机器学习的映射 5 、其它本体映射研究:如基于语义推理嗍等。 2 6 形式概念分析 形式概念分析f c a ( f o r m a lc o n c e p ta n a l y s i s ) 是应用数学的一个分支,它来源于 哲学领域对概念的理解。它的首次描述是在1 9 8 1 年的关于有序集合的b a n f f 会议的专题 演讲上,之后关于格理论就成为研究的热点问题。 f c a 是一种对数据进行分析的工具或者方法,特别是可以对给定的信息进行调
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025贵州六盘水市六枝特区锦黔农旅发展(集团)有限责任公司招聘工作人员笔试历年参考题库附带答案详解
- 2025西安庆安制冷设备股份有限公司招聘(7人)笔试历年参考题库附带答案详解
- 2025内蒙古自治区农牧业科学院招聘48人模拟试卷及一套参考答案详解
- 2025福建福清市诚烨电子有限公司招聘5人笔试历年参考题库附带答案详解
- 2025福建新华发行集团招聘笔试历年参考题库附带答案详解
- 2025福建厦门市翔安保安有限公司招聘员18人笔试历年参考题库附带答案详解
- 2025福州市建筑大数据技术有限公司招聘4人笔试历年参考题库附带答案详解
- 2025广东深圳市优才人力资源有限公司招聘综合网格员(派遣至布吉街道)拟聘人员笔试历年参考题库附带答案详解
- 2025内蒙古包头中心区建设投资运营管理有限公司面向社会招聘2人笔试历年参考题库附带答案详解
- 2024-2025中国商飞公司秋季校园招聘笔试历年参考题库附带答案详解
- (2025)学法用法考试题及答案
- 巴以冲突的原因
- 占用道路施工组织方案(3篇)
- 环境反应工程导论课件
- 马场建造设计方案
- 本币交易员考试题库
- 安徒生童话题目及答案
- 胃食管反流病的健康教育指导讲课件
- 小儿腹股沟疝麻醉
- 宜宾党校考试试题及答案
- 2025年安徽省农业职业技能大赛(水生物病害防治员)备赛试题库(含答案)
评论
0/150
提交评论