(计算机软件与理论专业论文)基于本体映射的概念相似性算法研究.pdf_第1页
(计算机软件与理论专业论文)基于本体映射的概念相似性算法研究.pdf_第2页
(计算机软件与理论专业论文)基于本体映射的概念相似性算法研究.pdf_第3页
(计算机软件与理论专业论文)基于本体映射的概念相似性算法研究.pdf_第4页
(计算机软件与理论专业论文)基于本体映射的概念相似性算法研究.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机软件与理论专业论文)基于本体映射的概念相似性算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

r e s e a r c ho nc o n c e p ts i m i l a r i t yc a l c u l a t i o n m e t h o db a s e do no n t o l o g ym a p p i n g 彳砌e s i s s u b m i t t e di np a r t i a lf u l f i l l m e n to f t h er e q u i r e m e n t f o rt h em s d e g r e e 讯c o mp u t e rs o f t w a r e a n dt h e o r y b y - c a ik a im i n p o s t g r a d u a t ep r o g r a m c o m p u t e r s c i e n c ed e p a r t m e n t c e n t r a lc h i n an o r m a lu n i v e r s i t y s u p e r v i s o r :y a n gq i n g a c a d e m i ct i t l e :a s s o c i a t ep r o f e s s o rs i g n a t u r e均,仅门 a p p r o v e d m a y , 2 0 1 1 3咖6 华中师范大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作 所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标明。本声明的法律结果由本人承担。 作者签名秭劬 日期:,1 年j _ 月必日 学位论文版权使用授权书 学位论文作者完全了解华中师范大学有关保留、使用学位论文的规定,即:研 究生在校攻读学位期间论文工作的知识产权单位属华中师范大学。学校有权保留并 向国家有关部门或机构送交论文的复印件和电子版,允许学位论文被查阅和借阅; 学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手 段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密,在年解密后适用本授权书。 非保密论文注释:本学位论文不属于保密范围,适用本授权书。 作者签名:镓哥舢 日期:弦,年厂月铭日 导师签名:褊 日期:们i j 年厂月移彳日 本人已经认真阅读“c a l i s 高校学位论文全文数据库发布章程”,同意将本人的 学位论文提交“c a l i s 高校学位论文全文数据库 中全文发布,并可按“章程 中的 规定享受相关权益。圃童途塞堤銮后进厦! 旦坐生;旦= 生;旦三生筮查! 作者签名:镲孑五 日期:功年厂月沾日嚣三p j 纛- 始日 日期:为,年 月们日 摘要 由于本体的广泛应用以及万维网自身分布性特点,导致同一领域不同用户构造 标识同一知识范畴的不同本体。这种表示同一知识范畴而采用不同方式构造出的不 同本体,称为异构本体。本体异构使得标识同一资源的不同本体无法重用和共享, 进而成为系统相互理解、信息交换、实现互操作的主要障碍之一。目前,本体映射 是解决异构现象的主要方式之一。本体映射是发现两个领域本体概念之间的相关性 的过程,是本体间概念和关系达成一致性的一种规范说明。本体映射框架包括五个 模块,其中概念相似度计算是其中的一个核心步骤,概念相似度算法的好坏直接影 响映射结果的准确性。 本文设计一种综合的概念相似性算法,分别从概念的义原描述式( d e f ) 、概念 实例和概念属性三个方面考虑。算法目的是为了克服传统算法时间和空间复杂度 高、不够全面、误差大、无法量化的问题。根据知网描述,概念可以由义原描 述,义原与义原之间的关系体现在义原层次体系结构和义原分类树上,本文从概念 的两个方面:主要义原特征描述和次要义原特征描述进行相似度计算。对没有上下 位关系的次要义原特征描述式中的义原,根据义原的层次体系结构来计算相似性。 对有上下位关系的主要特征义原,本文根据其在义原特征树中的语义距离来计算相 似度。 基于义原的相似度计算消除了特定领域中概念的歧义性,但概念所属领域不 同,概念的语义也可能不一样,因而在概念相似性计算中需要有能反映出概念所属 领域的因素。在本体构建中,概念的实例和属性以一种特殊的概念被定义,这种定 义是基于概念所属领域。因此,本文从概念的实例和属性两方面计算概念的相似性。 基于实例的相似性算法,利用统计思想从大量实例中随机抽出一部分参加相似 性计算,从实例的值域、范围和单位进行相似度匹配,给出相似度计算公式,并对 实例相似性计算的中间数据采用特殊的压缩矩阵方式存储。基于属性的相似度计 算,分别从构建本体常用到的四种属性关系:逆反关系、传递关系、对称关系、功 能关系以及属性的定义域和值域考虑概念的相似性。基于这四种关系的概念是同一 本体中的两个概念,本文将两个本体概念层次树中有直接映射关系的上层结点作为 公共结点来计算概念的相似度。 在文章的最后,构建两个异构医疗本体。通过异构医疗本体,对算法进行了验 证和分析,给出了部分实验数据并与本体映射模型m o m f 数据结果进行了比较, 在附录中通过截图方式给出了实验用到的部分代码和数据文件。 关键词:本体;本体映射;概念相似度;义原;医疗本体 硕士学位论文 m a s t e r st h e s i s a b s t r a c t b e c a u s eo ft h ee x t e n s i v ea p p l i c a t i o no fo n t o l o g ya n dd i s t r i b u t i o nc h a r a c t e r i s t i co f t h ew o r l dw i d ew e b ( w w w ) ,d i f f e r e n tu s e r si nt h es a m ef i e l dc o n s t r u c td i f f e r e n t o n o t o l o g i e sw h i c hi d e n t i f yt h ec o m m o ns t o c ko fk n o w l e d g e n l eo n t o l o g yb u i l d e di n d i f f e r e n tw a y si sc a l l e dh e t e r o g e n e o u so n t o l o g y o n t o l o g yh e t e r o g e n e i t ym a k e sd i f f e r e n t o n t o l o g i e si d e n t i f i n gt h es a m er e s o u r c ec a l ln o tb er e u s e da n ds h a r e d , a n di ti so n eo ft h e m a i no b s t a c l e st om u m a l u n d e r s t a n d i n g ,i n f o r m a t i o ne x c h a n g ea n di n t e r o p e r a b i l i t y b e t w e e ns y s t e m s c u r r e n t l y ,o n t o l o g ym a p p i n gi so n eo ft h ep r i n c i p a lw a y sf o ro n t o l o g y h e t e r o g e n e i t y o n t o l o g ym a p p i n gi sap r o c e s sf o u n d i n gt h el i n k sb e t w e e nt w oc o n c e p t s ni san o r m a t i v es t a t e m e n to fc o n c e p t s c o n s i s t e n c ya n d r e l a t i o n s c o n s i s t e n c y i n o n t o l o g i e s o n t o l o g ym a p p i n gf r a m e w o r ki n c l u d e sf i v em o d u l e s ,i nw h i c hc o n c e p t s i m i l a r i t yc a l c u l a t i o ni st h ek e ys t e p ,a n dt h ec o n c e p ts i m i l a r i t ya l g o r i t h md i r e c t l ya f f e c t s t h ea c c u r a c yo ft h ew h o l em a p p i n gr e s u l t t h i sp a p e rd e s i g n sac o m p r e h e n s i v ea l g o r i t h mf o rc o n c e p ts i m i l a i r yc o m p u t a t i o n , c o n s i d e r i n gf r o mt h es e m e m ed e s c r i p t i o no ft h ec o n c e p t s ( d e f ) ,i n s t a n c e sa n dp r o p e r t i e s o fc o n c e p t s t h ea i mo ft h ea l g o r i t h mi st oo v e r c o m ed r a w b a c k so ft r a d i t i o n a la l g o r i t h m : t i m ec o m p l e x i t ya n ds p a c ec o m p l e x i t yh i g h ,n o tc o m p r e h e n s i v e ,e r r o rb i ga n dr e s u l tn o t t ob eq u a n t i f i e d a c c o r d i n gt oh o w - n e t ,c o n c e p tc a nb ee x p l a i n e db ys e m e m e ,a n dt h e h i e r a r c h i c a la r c h i t e c t u r ea n dt a x o n o m yt r e eo fs e m e m e sc a nr e f l e c tt h er e l a t i o n sb e t w e e n s e m e m e s t h ep a p e rc a l c u l a t e ss e m e m e ss i m i l a r i t yi nt w ow a y s :m a i ns i g n a l m e n ta n d s u b o r d i n a t i o ns i g n a l m e n to fs e m e m e s t h es e m e m e sw h i c hh a v en ou p p e ra n dl o w e r r e l a t i o n s h i p s a r ec a l c u l a t e d d e p e n d i n g o nt h e i ro r d e rn u m b e ri nt h eh i e r a r c h i c a l a r c h i t e c t u r e t h es e m e m e sw h i c hh a v eu p p e ra n dl o w e rr e l a t i o n s h i p sa r ec a l c u l a t e d a c c o r d i n gt ot h ed i s t a n c eb e t w e e nt h e mi nt h et a x o n o m yt r e e s i m i l a r i t yc a l c u l a t i o nb a s e do ns e m e m e se l i m i n a t e st h ea m b i g u i t yo fc o n c e p t si nt h e s p e c i f i ca r e a s b u tc o n c e p t sb e l o n g i n gt od i f f e r e n ta r e a sm a yb ea l s oh a v i n gd i f f e r e n t m e a n i n g s s oi nt h ep r o c e s so fc o n c e p tc a l c u t i o nn e e d ss o m ef a c t o r st h a tc a l lr e f l e c t c o n c e p tl o c a t i o n i nt h eo n t o l o g y , i n s t a n c ea n da t t r i b u t e a r ed e f i n e d 船ap a r t i c u l a r c o n c e p t ,a n dt h i sd e f m i t i o ni sb a s e do nt h ea r e ao ft h ec o n c e p t s b a s e do nt h ea b o v e d i s c u s s i o n ,t h ep a p e rc o m p m e sc o n c e p ts i m i l a r i t yf r o mi n s t a n c e sa n da t t r i b u t e s t h ep a p e ru s i n gs t a t i s t i c si d e ar a n d o me x t r a c t i o nap a r to fi n s t a n c e sf r o mam a s so f i n s t a n c e si nt h eo n t o l o g yd e s i g n sa l li n s t a n c e ss i m i l a r i t ya l g o r i t h m t h ea l g o r i t h m m a t c h e ss i m i l a r i t yf r o mi n s t a n c er a n g e 、i n s t a n c es c o p ea n du n i ta n du s e sc o n d e n s em a t r i x t o s t o r a g ei n t e r m e d i a t e d a t a b a s e do nt h e f r e q u e n t l y u s e d a t t r i b u t e r e l a t i o n s h i p s : f u n c t i o n a lp r o p e r t i e s 、t r a n s i t i v ep r o p e r t i e s 、s y m m e t r i cp r o p e r t i e s ,i n v e r s ep r o p e r t i e sa n d t h ed o m a i na n dr a n g eo fa t t r i b u t e st h i sp a p e rd e s i g n sa na t t r i b u t ea l g o r i t h m n o n e t h e l e s s , f o rt h ec o n c e p t sw i t ht h ef o u rr e l a t i o n si nt h es a m eo n t o l o g y , t h ep a p e ru s e st h ec o n c e p t s w h i c hh a v ead i r e c tr e l a t i o n s h i pm a p p i n ga tt h et o po ft h ec o n c e p th i e r a r c h i c a lt r e e a tt h ee n dt h i sp a p e r , t w oh e t e r o g e n e o u sm e d i c a lo n t o l o g i e sa r ec o n s t u r c t e d m a n u a l l y b yt h eh e t e r o g e n e o u sm e d i c a lo n t o l o g i e s ,t h ea l g o r i t h mi sa n a l y z e d a n d v e r i f i e d ,a n dc o m p a r e dt h ee x p e r i m e n t a ld a t aw i t ht h eo n t o l o g ym a p p i n gm o d e lm o m f r e s u l t i nt h ea p p e n d i x ,t h ep a p e rg i v e sp a r to fc o d e sa n dd a t af i l e sb ys c r e e n s h o t s k e yw o r d s :o n t o l g o y ;o n t o l o g ym a p p i n g ;c o n c e p ts i m i l a r i t y ;s e m e m e ;m e d i c a l o n t o l o g y 硕士学位论文 m a s t e r st h e s i s 目录 摘要i a b s t r a c t i i i 第一章绪论1 1 1 论文的研究背景和意义一1 1 1 1 论文研究背景1 1 1 2 论文研究意义一l 1 2 国内外研究现状2 1 3 论文研究内容4 1 4 论文章节组织5 第二章本体相关概念6 2 1 本体6 2 1 1 本体的概念6 2 1 2 本体的分类7 2 1 3 本体的描述语言一7 2 2 本体构建工具8 2 3 本体映射1 0 2 3 1 本体映射概念1 0 2 3 2 本体映射过程1 1 2 4 本章小结1 3 第三章本体映射中相似性计算1 4 3 1 概念相似度算法研究1 4 3 1 1 义原相关概念1 4 3 1 2 义原语义相似度算法1 5 3 1 3 基于概念实例的相似性算法1 9 3 1 4 基于概念属性的相似性算法2 2 3 2 概念相似度具体算法2 4 3 3 本章小结2 6 第四章实验与结果分析2 7 4 1 医疗本体构建2 7 4 2 实验环境2 8 4 3 评估方法2 8 4 4 概念相似度计算2 9 4 4 1 属性相似度计算2 9 4 4 2 实例相似度计算3 0 4 4 3 义原相似度计算31 4 5 本章小结3 5 第五章总结与展望3 6 5 1 论文内容总结一3 6 5 2 进一步的研究工作3 6 参考文献 附录1 4 1 附录2 。4 4 附录3 。4 8 在校期间发表的论文和参加的科研项目5 l 致谢。5 2 硕士学位论文 m a s t e r st he s i s 第一章绪论 本章主要介绍了论文的研究背景和研究意义,以及概念相似性算法在国内外的 研究现状,介绍了论文的研究内容,最后给出了论文的总体组织架构。 1 1 论文的研究背景和意义 1 1 1 论文研究背景 万维网( w o r l dw i d ew e b ,w w w ) 改变了人们交流的方式,使得人们可以通过网 络查找自己所需的信息资源。用户向搜索引擎( 例如:百度、y a h o o 、g o o g l e 、新浪 等等) 输入信息的关键词,搜索引擎根据用户输入的关键词找到相关页面并呈现在用 户面前。通常,被检索到的主要页面与同时搜到的成千上万的不相关或相关度低的 页面混在一起。用户必须自己从大量的页面中找到所需信息。如果用户所需要的信 息不在同一个页面中,那么用户需要给出多个查询多次搜索来收集相关信息。因此 为了提高匹配率,需要一种更容易被机器处理的表示方法来描述网络上的内容【i j 。 语义网( 语义w e b ) 运动由w w w 发起,其倡导者是发明万维网的t i m b e m e r s l e e 。语义w e b 的崛起使得网上的信息更容易被机器理解处理,机器可以更 迅速、准确地找到用户所需要的信息、定位信息。本体是实现语义w e b 目标的基础 和核心。本体提供了对给定领域的种共识,这种共识不仅使得机器可以更准确的 跟人们交流( 这种交流是基于语义上的) ,而且还提高了网络资源定位的精确度,搜 索引擎可以根据本体中的概念信息查找相关页面,而不是收集所有出现某些关键词 的页面。 基于本体带来的优势,本体应用领域越来越多。根据各个领域的需求,现已开 发出多种本体,如c y c ,w o r d n e t ,f r a m eo n t o l o g y 等等。不同的领域根据领域知 识构建出不同的本体,而同一领域由于构建者地域、观念等差异,构建出标识同一 知识范畴的不同结构或不同描述形式的本体,称为异构本体。 目前,本体映射和本体集成是解决本体异构现象的两种主要方法1 2 j 。本体映射 是确定两个不同的本体被关联的方式,是异构本体取得一致性的一种方法。 1 1 2 论文研究意义 本体的广泛使用以及w e b 自身分布性的特点,导致同一领域不同用户构造不 同的本体,不同领域构建自己的领域本体,如金融本体3 1 、医药学本体 4 1 、法律知 识本体5 1 、电子政务本体q 等等。这种表示同一知识范畴而采用不同方式构造出的 不同本体,称为本体的异构现象f 7 1 。本体异构使得标识同一信息资源的不同本体无 法共享和重用,进而成为系统相互理解、信息交换、实现互操作的主要障碍之一。 本体映射是发现两个领域本体的概念之间的相关性( 映射关系) 的过程,将两个 本体或者多个本体通过映射规则映射到一个公共本体或者彼此映射实现语义和语 法上的统一【8 】。 本体映射一般过程可分为五个阶段( 步骤) :1 ) 将本体进行规范化处理;2 ) 将本 体中的概念通过某种特征式进行提取;3 ) 利用相似性公式进行概念的相似性计算; 4 ) 根据相似性计算结果执行映射;5 ) 对映射后的结果进行处理,得到最终结果。其 中概念相似性计算是本体映射的一个核心步骤,相似性计算的结果产生一个相似矩 阵。 目前,概念相似性计算方法主要有两种:基于统计的方法和基于语义词典的方 法【9 1 。统计的方法是使用文档集中概念共同出现次数来统计数据的,这种方法的主 要依据是经常出现的概念相关度往往很大来计算概念的相似性。基于统计的方法只 是从概念的出现次数来判断概念的相似性,忽略了概念在上下文中的具体含义,从 而过于片面。基于语义词典的方法主要是依据w o r d n e t 、h o w n e t 等数据库语料来计 算概念的相似性。基于语义词典的方法相对于基于统计的方法在很大程度上相似度 值有所提高,但是基于语义词典的方法过分依赖语料文档,过滤文档质量好坏对于 领域概念获取的准确度产生很大影响,如果过滤文档区分度不大,很多低相关度或 者不相关的概念也会被选中。一些研究者提出了语义相关度的计算方法,利用知网 义原纵向与横向关系来计算不同词性的概念之间的语义相关度,但是知网中不同义 原特征分类树之间的关联算法的好坏直接影响义原语义相似度】。 1 2 国内外研究现状 目前,国内外很多著名的大学和实验室对概念语义相似度计算这一课题进行了 深入的研究,提出了多种概念计算方法并开发了一些本体映射系统。这些方法参考 了本体不同的信息特征采用了不同的技术。 ( 1 ) 基于语法的方法 基于语法的方法是指在不考虑语义只考虑语法规则,通过语法规则来计算概念 之间的相似性。比较典型的方法是基于编辑距离方法。该方法主要由l e v e n s h t e i n 在一九九六年提出的,后来又被称为l e v e n s h t e i n d i s t a n c e 方法。基于距离编辑的方 法主要是根据两个字符串转换成同一个字符串的最少次数来作为依据的。以最少次 数为依据来计算概念的相似性。目前国内外有许多研究者都采用了编辑距离方法来 2 硕士学位论文 m a s t e r st h e s i s 计算概念的相似度值,其中d i o g e n e 的本体映射方法【1 2 】是比较典型的基于编辑距离 的方法。 ( 2 ) 基于本体概念实例的方法 基于概念实例的方法是指,在进行概念相似度计算之前,先计算概念的实例集 的相似度,然后根据实例结果集得到相应概念的相似度。华盛顿大学的d o a na 等 人提出的g l u e 系统【1 4 】是典型的利用该方法实现相似度计算。g l u e 系统使用机器 学习来对概念进行分类,将分类之后的概念集通过联合分布率来计算概念的相似度 值。基于概念实例的方法过于片面化,基于实例的文档要充分为每一个概念提供实 例,实例的全面和正确性直接影响到概念相似度计算结果的正确性。 ( 3 ) 基于语义距离的相似度方法 吴雅娟,王鑫等人在文献【1 6 1 中通过将概念实例和概念子概念相结合提出一种 基于距离的概念相似度方法。该算法中,从概念结构的不同层次,首先分别计算两 个概念的父节点、子节点、兄弟结点间的语义距离,然后对结果加权求和,最后得 到两个概念语义距离。 ( 4 ) 基于义原相似度的方法 基于义原相似度的算法,指首先计算描述概念的义原集的相似度,然后通过加 权求和得到概念的相似度。比较典型的是刘群等人在文献【l7 】中提出了一种基于义 原的概念相似度算法,刘群利用知网中所有义原在义原层次体系结构中的上下 位关系得到义原间的语义距离,进而添加调整因子得到义原的语义相似度。 ( 5 ) 一种综合的相似度方法 文献【1 8 】中对3 种传统的概念语义似度计算模型:基于距离的语义相似度计算模 型、基于内容的语义相似度计模型和基于属性的语义相似度计算模型进行改进,对 语义相似度计算的决策因子进行解析,构建出一种改进的综合的概念语义相似度计 算模型。 徐茜等人在文献【1 9 】提出一种新的概念相似度计算模型一综合概念相似度计算 模型,该模型分别计算基于定义的、实例的、结构的概念相似度,对各个相似度的 权值的设定,运用s i g m o i d i 函数计算得到各个相似度的初始权值,将权值进行变换后 得到最终权值,最终得到一个综合的相似度计算结果。 冉婕等人在文献1 2 0 】中考虑了语义距离和本体库特征,加入概念的信息量、概念 的深度、概念的密度和不对称因子的辅助影响,提出了基于语义相似度和相关度的 综合概念相似度计算方法。 在文献【2 1 】中张红宇提出了一种综合语义相似度计算模型,综合了概念的实例、 定义和结构来计算相似度。 1 3 论文研究内容 通过对本体映射中已有的概念相似度算法研究,本文设计一种改进的基于特定 领域的概念相似度算法,旨在提高概念相似度精确性的同时,减少算法的时间复杂 度和空间复杂度。 从前面的讨论可知,目前的概念相似度计算主要从概念的实例、属性、义原、 关系四个方面出发考虑。基于实例的方法,例如文献 2 2 1 ,通过属性计算实例之间的 相似度:首先将实例的所有属性用集合表示,计算属性间的相似度,然后根据属性 相似度值得到实例相似度。在属性的相似度算法中,由于属性的模糊性,算法结果 有一定的误差,如果再将实例相似度建立在属性结果之上,那么最终的实例相似度 结果的误差也就可想而知了。文献【2 2 】通过附加权重和调节因子进行结果调整,使其 达到一种平衡,但是权值和因子是具有领域性的,过分依赖权值和因子会导致本体 所属领域不同就得从新更改权值和因子的值。并且在相似度计算过程中,大多数实 例算法没有对中间数据进行特殊处理,导致空间复杂度很高,例如文献【z z j ,中间结 果产生n 个矩阵( n 是实例属性集合中实例的个数) 。基于属性的方法,大多数算法都 是通过计算两个概念属性集之间的相似度,得到概念的相似度,例如文献幽儿7 2 4 j ,而 没有考虑概念属性之间的重要关系。概念属性之间的关系很大程度上能体现两个概 念之间的相关性,例如,逆反关系,如果两个概念包含逆反关系,则这两个概念在 领域中的相似度值可以忽略为0 。本体构建时,概念属性之间有七种关系,其中最 常用最重要的有四种关系。在知网中,概念( 义项) 由义原描述( d e f ) ,概念在义 原的解释下没有了在特定环境的歧义性,因此很多研究者开始利用义原计算概念的 相似性,例如文献【2 5 】。虽然义原消除了特定环境的二义性,但是在不同的环境中, 概念的含义是不一样的,因此需要将其放入一个特定的领域中,根据领域特性得到 概念的相似度。文献【1 7 】根据每个义原在义原层次体系结构中的上下位关系,加上调 节因子,得到义原语义相似度。在知网中,义原之间还存在一种关系:义原分 类树。基于同一棵义原分类树中概念是同一性质的概念,子结点是根结点的细分。 例如根节点为事件( e v e n t ) 的分类树,它的子结点就是静态( s t a t i c ) 和行动( a c t i o n ) 。因 此义原分类树更能体现两个概念的相关性。 基于上面的讨论,本文从概念的3 个方面研究相似度:概念的解释义原、概念实 例、连接概念的属性,基于概念关系的计算可以体现在基于概念属性计算中。 在进行义原语义相似度计算时,本文采用一种改进的义原相似度算法,通过义 4 硕士学位论文 m a s t e r st h e s i s 原分类树和义原描述式( d e f ) 计算义原相似度,进而得到概念间的相似度。在利用 概念的解释义原进行相似度计算过程中首先要解决的是义原间的语义距离。义原间 的位置关系有两种:位于同一棵义原分类树上和位于不同的分类树上。位于同一棵 义原分类树上的结点,为了减少算法的空间复杂度,首先将分类树转换成二叉树, 采用二叉树的链式存储后,再利用已经很成熟的二叉树结点距离计算公式。对位于 不同分类树的义原计算相似度,本文采用知网中义原层次结构中的义原距离来 计算。 论文基于本体中概念的实例( i n d i v i d u a l ) 是同类性质的这一原理,利用统计思 想从大量实例中抽取一部分来评定概念相似度,设计出一种基于实例的概念相似度 算法。该算法将概念实例映射匹配的结果作为判断两个概念相似的程度,并将得到 的中间数据矩阵采用压缩存储方式存储,这样整个实例算法的空间复杂度和时间复 杂度将会大大减少。 本体在构建过程中,概念与概念之间的重要属性关系已经在p r o p e r t i e s 标签中 描述,基于这一前提,本文设计一种新的属性相似相似度算法,该算法从属性的四 种主要关系出发:函数性( f u n c t i o n a lp r o p e r t i e s ) 、传递性( t r a n s i t i v ep r o p e r t i e s ) 、对称 性( s y m m e t r i cp r o p e r t i e s ) 、逆反| 生( i n v e r s ep r o p e r t i e s ) 考虑概念的相似性。 整个概念相似度计算过程是一个迭代的过程,多次迭代取最优值。通过两个异 构医疗本体进行试验,对数据进行验证和分析。 1 4 论文章节组织 第一章介绍了论文研究的背景、意义、国内外研究现状以及论文研究的内容。 第二章介绍了本体相关技术,包括本体的概念、本体分类、本体描述语言以及 构建本体的工具,并介绍了本体映射的有关概念、映射方法和工具。 第三章介绍了知网中义原的相关概念,根据本题映射中概念的特性,设计 了一种综合考虑属性、实例和义原的相似度算法,给出了算法流程图,同时对整个 算法思想做了描述。 第四章构建两个异构医疗本体,用本文设计的算法实现了两个异构本体之间概 念相似性计算,对实验结果进行了分析,并与现有概念相似性模型结果做了比较。 第五章总结及展望。对本文所做的工作进行简要的总结,并展望了未来的工作 方向和要解决的问题。 5 第二章本体相关概念 本章描述了本体的概念、分类和本体描述语言,介绍了本体构建工具,论述了 本体映射的概念和本体映射过程。 2 1 本体 2 1 1 本体的概念 最近几年中,计算机学科引用了其他领域的很多术语,并赋予它们与原有含义 不同的意义。本体( o n t o l o g y ) 就是其中之一。本体这个词来源于哲学,研究的是物 质存在的本质,即什么是最一般意义上真实存在,以及采用何种方式描述它们。计 算机科学领域将本体的概念从哲学领域中借用过来,并将它赋予了新的含义i l 】。 1 9 9 3 年,t r g r u b e r 给出了最著名并被最广泛引用的一种定义,“本体是概念 化的明确的规范说明 2 6 o 1 9 9 7 年,b o r s t 在t r g r u b e r 的基础上给出了本体的另外一种定义,“本体是对共 享的概念的形式化的一种规范说明”【2 7 1 。后经r s t u d e r 对t r g r u b e r 改进的定义是: “一个本体是一个概念体( c o n c e p t u a l i z a t i o n ) 的显示的形式化规范”i l j 。 f e n s e l 【2 8 1 对t r s t u d e r 的定义进行分析后得出本体包含四个方面的概念:概念化 ( c e r p t u a l i z a t i o n ) 、明确( e x p l i c i t ) 、形式化( f o r m a l ) 和共享( s h a r e ) 。 概念化,本体表示了现实世界的一种抽象模型,将现实世界的一些现象的概念 集合化。本体表示的所有概念都是抽象的,它独立于某个具体的领域。 明确,即没有二义性,概念以及概念与概念之间的关系,概念的属性都被精确 定义,不存在二义性。 形式化,本体有精确的数学式的描述,是计算机可读的。 共享,本体所反映的知识是所有的用户所认可的,它反映的不是某一个个体, 而是一个共体。 由上述本体定义可知,本体是实现相关领域知识的共享,提供一种对共享知识 的规范化说明,实现语义上的统一。因此一个本体应由有限个术语以及它们之间的 关系组成。术语指给定领域中的重要概念( c o n c e p t ) ,也就是领域中对象的类,而概 念间的关系是包括类的一种层次结构关系。 本体通常包含以下元素: 概念( c o n c e p t ) :本体的基本构成元素,是客观世界中任何事物的抽象描述,语 义上表示为事物( o b j e c t ) 、功能( f t m c t i o n ) 、行为( a c t i o n ) 、过程( p r o c e d u r e ) 、策略 6 ( s t r a t e g y ) 等对象的集合体。 概念的属性( p r o p e r t y ) 一种二元关系,通过某种属性关系将概念联系起来。 概念与概念之间的约束( r e s t r i c t i o n ) :一个约束本质上描述了一个包含概念的匿 名类( 概念集) 。 形式上,概念定义为一个四元组:c = i d ,l a n ,p r o ,i c ,其中i d 为概念的唯一标 识,用以区别于其它概念,用u r i ( u n i f o r mr e s o u r c ei d e n t i f i e r ) 表示;l a n 为概念的 表示语言;p r o 为概念属性的集合;i c 为该概念实例的集合。 2 1 2 本体的分类 根据本体的形式化方式和程度不一样,本文把本体分为以下几类1 2 9 1 : 高度非形式化的:高度非形式化的本体主要是用自然语言没有任何限制的描 述; 结构非形式化的:结构化非形式化的本体,主要是用受限定的结构化式自然 语言表述; 半形式化的:主要是用用户定义的半形式化语言来描述; 严格形式化的:将所有术语都用属性的形式化和定理进行定义。严格形式化 的本体还需要检查定义的正确性和完整性。 g u 撕n o 将详细程度和领域信赖度作为划分本体类别的基础1 3 0 ,将本体划分为 不同的四大类: 顶级本体描述的概念与具体的应用没有任何关系,描述是最一般的概念与概 念间、属性与属性间的关系。 领域本体描述的是某个特定的领域,比如生物、地理、药学等的概念与概念 间、属性与属性间的关系。 任务本体描述的是某一个特定领域中的概念与概念间、属性与属性间关系。 应用本体描述的是某个应用领域中概念与概念间的、属性与属性间关系。 2 1 3 本体的描述语言 当前社会网络中最重要和最流行的本体网络语言有【l 】:x m l 、x m ls c h e m a 、 r d f 、r d fs c h e m a 、o w l ( o w lf u l l 、o w ld l 、o w ll i t e ) 。 x m l 处于s e m a n t i cw e b 的最底层,是一种用户自己定义词汇表编写的结构化网 络语言。 x m ls c h e m a 是一种通用的典型的表示x m l 的语言。借助于x m ls c h e m a ,文 档结构可以被计算机理解。 7 硕士学位论文 m a s t e r 。st h e s i s r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ,资源描述框架) 是一种数据表示方式,为 数据表示提供一系列的数据模型。这些数据模型可以用x m l 语句表示。每个资源都 有一个唯一的标识符:资源统一定位符u r l 。属性是一类特殊的资源,属性也是用 统一资源定位符u r l 进行唯一标识。陈述描述了一个资源所要表示的内容,一个陈 述是一个表示的三元组。一个r d f 文档是由r d f :r d f 元素构成,其内容是一系列的 描述。 r d fs c h e m a 是用来刻画对象的属性以及类的词汇的,并且能表示他们的一般 特殊关系。r d fs c h e m a 是基于r d f 的。 o w l ( w e bo n t o l o g yl a n g u a g e ) 是专门为s e m a n t i cw 曲开发的一种本体语言。 o w l 是一个很庞大很复杂和丰富的语言,它刻画了概念间关系和概念的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论