




已阅读5页,还剩49页未读, 继续免费阅读
(计算机科学与技术专业论文)基于知网的中文本体映射研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于知网的中文本体映射研究 摘要 本体最初是哲学研究的一个分支,近十多年来,本体论的研究 逐渐超出哲学范畴,被引入人工智能领域,其应用深入到了语义网、 知识工程、自然语言处理、信息系统集成等方面。本体是对共享概 念的形式化的清晰的描述,可以提供一组共享的词汇和概念,通过 对概念、术语及其相互关系的规范化描述,勾画出某一领域的基本 知识体系。但现实中,由于种种原因,真正实现共享的本体并不多 见,一个领域内往往会同时存在多个异构的本体。本体映射是解决 本体异构的方式之一,它通过在异构本体间建立起语义上的映射关 系,实现本体的共享、重用和互操作。本文以语义网络为背景,研 究了语义网中本体映射的问题。 语义网是对现有万维网的扩展,它是一种智能的网络。语义网 之所以智能是因为语义网中的信息不仅能被人所理解,更重要的是 它还可以被计算机所理解。由于计算机可以理解信息的含义,从而 可以让计算机自动去搜集网上的一些信息,并对这些信息按照人们 的要求进行组合,汇总成用户需要的有效信息,从而可以利用计算 机对网络中的信息实现自动处理,减少人的工作量,将人类从繁重 的搜索劳动中解放出来。 中文资源是全球信息网络的重要组成部分,实现中文本体间以 及中文与其它本体的映射是实现本体共享重用的一个重要组成部 分。目前有很多学者在进行本体映射的研究,但对中文本体映射的 研究并不多见。本文专注于中文本体映射的研究,提供了一种适合 中文本体的映射方法。 根据文献【1 】,本体映射技术可以分为元素层映射和结构层映射, 本文既采用了元素层映射技术,也采用了结构层映射技术。由于中 文本体与其它本体的主要区别在于它们所采用的语言不同,这属于 元素层的区别,故本文主要论述了元素层映射的实现。对于元素层 技术来说,词语的相似度计算是一个关键问题,本文利用中英文双 语知识库知网实现词语相似度的计算,在词语相似度的基础上 实现本体元素层的映射。对于词语相似度的计算,本文在分析知网 结构的基础上,利用义原的相似度实现词语相似度的计算,并提出 在计算义原相似度时引入义原树深度及义原在义原树中所处的层次 的因素。对于知网中没有收录的词语,本文先将词汇进行分解然后 计算相似度。为了验证本文所述方法,本文设计了三个实验,对本 方法进行了测试,实验证明本方法可以有效地实现中文本体及中英 文本体映射。 关键字:中文本体映射知网词语相似度语义网本体 鱼! ! 塞堕皇盔兰堡! 兰堡丝塞垒! ! 里! 垒! ! r e s e a r c ho nh o 、v n e t - b a s e dm a p p i n g s y s t e mf o rc h i n e s eo n t o l o g y a b s t r a c t t h et 锄o n t o l o g yw 弱协k e n 仔d mp h i l o s o p h y o n t o l o g yi sa p a r t i c u l a rm c o r ya b o u tt h en a t i l r ca n dr c l a t i o n so fb e i n g ,n o wt h e r e s e a r c ho fo n t o l o g ) rh a se x t e l l d e dt oa n i 6 c i a l i n t e l l i g e n c cf i e l da n dh 勰 s p r e a dt os 锄a n t i cw e b ,k n o w l e d g ee n g i n e 嘶n g ,n a t u r el a n g i l a g e p r o c e s s i n g ,i n f o n n a t i o ns y s t e mi n t e g r a t i o ne t c i na r t i f i c i a li n t e l l i g e n c e f i e l d ,a c c o r d i n gt ow n b o r s t ,o n t o l o g yi s af o m a ls p e c i f i c a t i o no fa s h a r e dc o n c 印t u a l i z 撕o n ,i tc a np r o v i d cas e to fs h a r e dv o c a b u l a r i e s 锄d c o n c e p t st l l r o u g hf o 姗a ls p e c i n c a t i o no f c o n c e p t s ,t e m sa n dt h er e l a t i o n o f t h e mw ec a ng c tab 私ek n o w l e d g es y s t 锄o f s p c c i a lf i e l d b mi nf a c t , t h e r ci sh a r d l ya n yo n t o l o g ) ,h 硒b e s h a r c d ,p c o p l eu s e dt 0d e f i a n e wo n t o l o g ya c c o r d i n gt oh i s s p e c i a la i m ,t h l l st l l e r c a r es e v e r a l d i 疵r e n to n t o l o 舀e se 、,伽i no n ea p p l i c a t i o nf i e l d c 衄o l o g ym a p p i n gi s o n eo fm c t h o dt os o i v et h ep r o b l e mo fo n t 0 1 0 百c a lh e t c r o g e i 饥w h i c h 百v e sas e m a l l t i cm a p p i n go fh e t e r o g c n e o u so n t o l o 百髓,m u sw em a l 【e t 1 1 ed i f r e r e n ts h a r a b l e ,r e u s a b l ea n di n t e r o p e r a b l e w | ef o c u s eo nm e o n t o l o g ym 印p i n gb a s e ds i m a n t i cw 曲 t h es e n l 柚t i cw 曲i s 锄e x t e n s i o no fw w wt h ei n f o 姗a t i o n i ns e m a n 缸cw 曲c 觚b eu n d e r s t o o dn o to n l yb yh u m 姐l 【i n db u ta l s ob y c o m p u t e r s 0w ec a l l “粕i n t e l l i g e m 、e b 1 1 h ea b i l 时t 0l l n d 咖d i i n f o n n a t i o ng i v e sc o m p u t e rt h ea b i l i 够t oc o l l e c ti n f o r m a t i o nf o n nw e b a n do r g a n i z et h o s ei n f o m a t i o n a c c o r d i n gt os o m er e l a t e dr c q u e s t a u t o m a t i c a l l y i tr e l e a s e sp e o p l ef o mh e a v yl a b o ro fs e a r c hi n f o 姗a t i o n t h ek e yo f s e m a n t i cw e bi st h ei m p l e m e n t a t i o no f o l l t o l o g yl w h i c hi st h ef o u n hl a y e ro fs e m a n t i cw 曲a r c h i t e c 仰e o n t o l o g yi st h e f o u n d a t i o no fi n f o n n a t i o ne x c h a n g ea n ds h a n g t h eo r i g i n a lr c s e a r c h f i e l do fo n t o l o g yi sp h i l o s o p h 弘a n dn o wt h er e s e a r c ho fo n t o l o g yh a s e x t e n d e dt oa n i 丘c i a li n t e l l i g e n c ef i e l d i l l 耐i 丘c i a li m e l l i g e n c ef i e l d a c c o r d i n gt ow n b o r s t ,a no n t o l o g yi saf o 加a ls p e c i f i c a t i o no f as h a r e d c o n c 印t u a l i z a t i o n , i tc a np r o v i d eas c to fs h a r e dv o c a b u l a r i e sa u l d c o n c 印t s ,t h m u 曲f o m a ls p e c i f i c a t i o no fc o n c 印t s ,t c n :n sa i l dt h e r e l a t i o no ft h 锄w ec a ng c tab a s eh o w l e d g es y s t e mo fs p e c i a lf i e l d b u ti nf a c t ,m e r ei sh a r d l ya n y0 n t o l o g ) ,h a sb ns h a r e d ,p e o p l eu s e dt o d e f i n ean e wo n t o l o g ya c c o r d i n gt oh i ss p e c i a la i m ,t h u st h e r ea r e s e v e m ld i 疗e r e l l to n t o l o g i e se v e ni no n ea p p l i c a t i o nf i e l d o n t o l o g ) r m 印p i n gi s o n eo fm e t h o dt 0s o l v et h ep r o b l e mo fo m o l o g i c a l h e t e r o g e n e i 吼 w h i c hg i v 嚣as e m a n t i c m 印p i n go fh e t e r o g e n e o u s o n t o l o 西e s , t h u sw em a k et h ed i f r e r e n t s h a r a b l e , r e u s a b l ea n d i n t e r o p e 瑚l b l e c h i n e s er c s o u r c e sl so n eo ft h es i g n i 丘c a n tp a n so fi o 姗a t i o n n e 铆o r k s , 锄dm ei m p l 锄e n t a t i o no fo n t o l o g y m a p p i n gb 咖e c n c h i n 骼ea n do t h c rl a n g i l a g e sp l a y s 锄i m p o r t a n tr o l ei no n t o l o g ) ,s h 撕n g , r e u s ea n dc 0 0 p e r a t i o n h o w e v t h e r e 剐旧瑚l r cm 印p i n gr e s e a r c h e s0 n o m o l o g yp r e s e n t e di na h i n e s e ,m o s to fm e m a r cf o c u so no m o l o g yi n e n g l i s h t h i sp 印c rp r e s e n t sam e t h o dt od om a t c hb 咖e e no n t o l o g i 嚣 w h i c he x p r e s s e di i ld i 馈e r e n tl a n g u a g e ss u c ha sc h i n e s ea n de n 甜i s h a c c o r d i n gt o 1 】,o m o l o g ym 印p i n gm e t h o d sc a nb ec l 够s i f i e di n t o e l 伽e n 伽ym 印p i n gm c t h o da n ds 扛u c t l l m lm 印p i n gm e t h o d i nt h i s p a p e r ,w ec o m b i n eb o t ho ft l l o s et w ok i n d so fm e t h o d s t h em a i n d i 仃e r e n c eb e t w e c nc h i n e s eo n t o l o g ya n di n g l i s ho m o l o 鼢,i st h c l a l l g u a g et h e ya d o p t ,s ot 1 1 i sp a p c rp a ym o r ca t t e n t i o n0 ne l 锄e n tl e 、,e l 0 fm a p p i n g w bp r o p o s ea ns y s t e n lc a l l e do m cw h i c hc 狮删妇 鱼苎室堂皇查兰堡:! 兰焦堡塞竺! 坐坚 m 印p i n gb e 铆e e nc h i n e s eo m o l o 百e so rc h i n e s eo n t o l o g ya n de n g l i s h o n t o l o 醪o m cm a k e su s eo ft h es i m i l 撕移b e t 、) l ,e e nw o r d su s e dt o r 印r c s e n tc o n c e p t i o nt om a k em 印p i n gb 酣再雠n 铆oo n t o l o g i e s ,a n dm e s u b s y s t 锄e l o m c ( e l 锄e n tl e v e lo n t o l o g ym a t c h i n g 矗”c h i n e s e ) u s e sh o w n c t 勰t h e s 卸m sa 1 1 dc o m b i n e sm 锄y | 【i n d so ft e c l l 芏l o l o g i e st 0 c o m p u t ct h es i i i l i l a f i t yo fw o r d s i no r d e rt ov a l i d a t et h em e t h o d d e s c 曲c di nt h i s p 印e r w ed e s i g l l e dt h r e ee x p 两m e n t st ot e s to u r m a p p i n gs y s t e i l l o m cw a sp r o v e dc a nd oag o o dj o b k e yw o r d s :c h i n e s eo n t o l o g ym a p p i n gh o w n e t w o r d s s i m i l 撕够 s e m a n t i cw e b o n t o l o g ) r v 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:- 1 z l 啦日期:3 艘f 左0 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期问论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名:釜鱼日期:】2 :主:! 导师签名: 丝i :敞 日期: 业2 :罩 1 1 课题的提出 第一章绪论 随着万维网的发展,人们不停地向万维网上堆积各种各样的数据,网络中 的信息越来越多,但是这些信息并没有按规则的方式组织起来,动态性、分布 性、无结构或半结构性的信息充斥着万维网,造成多数信息无法进行复用,孤 链、死链越来越多,网络中充满了信息,但用户却很难找到自己所要的信息, 查找、访问、呈现、维护信息的难度极大增加。现有万维网远远不能满足人们 对信息共享和处理的需要,为解决万维网中出现的信息过盛引发的种种问题, 币mb 锄e 埽一l 脱于1 9 9 8 年提出了语义网,从此语义网就成为人们讨论与研究的 热点。简单地说,语义网是一种具有理解能力的智能网络,是对现有万维网的 一种扩展,在语义网中机器可以理解网络中信息的含义,并在理解的基础上更 好地利用、处理网络中的信息,可以使人与电脑之间的交流变得像人与人之间 交流一样轻松。本体层处于语义网络的第四层m j ,这个层次建立了资源的概念 和概念之间的语义关系,是从文档描述到知识推理过渡的一个层次,因此它在 语义网中扮演着重要的角色,是语义网得以实现的关键环节。 本体是共享概念模型的明确的形式化规范说明【j j 。构造本体的目的是为了 实现某种程度的知识共享和重用,避免重复建设开发。文献 4 】认为本体的作用 主要有以下两方面:本体的分析澄清了领域知识的结构,为知识表示打好基础, 本体可以重用,避免重复的领域知识分析;统一的术语和概念使知识共享成为 可能。本体为解决信息孤岛问题,为信息集成提供了路径。 本体可以提供一组共同的词汇和概念,是一个标准化模型,对领域中所用 的术语所提供的明确定义,通过本体,人们形成对于同一个事物完全一致的认 识,而且这种认识也是确定的;通过本体,可以集成不同用户的不同观点,以 形成更加全面完整的看法。尽管构造本体的目的在于重用,但真正重用的实例 却不多见。人们往往喜欢构造自己的本体,造成这种情况的原因主要有两方面, 一是本体构造的目的不同;二是本体表示的方法不统一p j 。本体的构造至今还 没有形成一个统一的规范的方式,人们为各自定义的本体很难保证一模一样, 换句话说,这些本体往往是异构的。不同的领域会有不同的本体,在同一个领 域也必然会有多个异构本体共存。本体之间的异构分为元素层的异构和结构层 的异构,本体的异构可能通过标准本体、本体集合和本体映射来解决,最常用 的方法是本体映射。 1 2 本体映射研究现状 随着本体应用的增加,提高本体的重用性和互操作性成了亟待解决的问题。 对不同的本体进行映射,找到本体间的语义关系是实现本体共享和重用的途径。 由于本体数目庞大并在不断增长中,手工对其进行映射既费时又费力,而且不 可能即时地对映射进行更新,因此手动实现映射是一个不可能完成的任务,必 须实现本体地自动或半自动映射,这j f 是目前本体映射研究的方向。 目前针对本体映射的研究有很多,研究人员提出了多种映射方法。有元素 层的方法,根据一些显式声明的算法对入口元素进行分析处理,如削尾处理, 消除前置词等方法;利用外部的领域资源或者共享知识对入口元素进行分析, 这些外部资源可以是手工输入的,也可以是描述术语间关系的辞典,如共享知 识词典w b d 【l n e t ,领域知识辞典通常存放一些领域知识,这些领域知识是无法 通过共享辞典获得的【”。结构层的方法,如文献【6 】将本体映射看成节点匹配问 题,将概念结点的关系用形式化的公式来表示,并将节点匹配化简成命题验证 问题。 目前有一些学者对中文本体进行研究,如文献 7 】 8 】,但是众多映射方法和 映射系统中对中文本体进行特殊处理的仍然非常有限,这些映射系统在运行时 并不考虑本体中的元素是采用何种语言表示的。这些不考虑语言区别的映射系 统,在进行元素层的映射时,无法得知“地址”和“a d d 麟”实际上一个概念, 从而无法得到正确的元素层的映射。而一般的本体映射系统由元素层和结构层 映射系统组成,元素层映射的结果将影响到结构层的映射,因此在元素层映射 时,将本体元素所使用语言作为映射时所考虑的因素将极大地提高本体映射的 效果。 即使考虑到中文本体特殊性的前人,对其投入的笔墨也非常有限,没有进 行深入研究。本文专门对中文本体映射进行研究,提出基于知网解决中文本体 映射的方案,并根据该方案实现了一个中文本体映射系统,该系统不仅可以实 现中文本体与中文本体的映射,还可以实现中文本体与英文本体问的映射,使 得中英文本体的互操作成为可能。另一方面,中文本体映射系统的不断完善, 也将不断地促进中文本体建设研究的发展。 2 1 3 主要研究内容 本文致力于中文本体自动映射的研究,包括中文本体之间的映射及中文本 体同英文本体间的映射研究。本体映射技术有多种分类方式,根据映射技术可 以分为元素层映射技术和结构层映射技术【”。语言特定的本体其区别只在于元 素层,也就是表示本体的词汇不相同,至于本体的结构是不会受到语言影响的, 那么结构层映射方法可以被各种语言的本体使用。但是对于元素层来说,由于 中文与英文存在着巨大的差异,导致在元素层的映射上,用针对英文本体的映 射方法,特别是元素层映射方法对中文本体进行映射是不可行的。因此本文将 主要精力集中于元素层映射的研究。 本文通过对现有本体映射方法及系统进行研究,设计并实现了o m c ( 0 1 l t o l o g ym a p p i n g 矗) rc l l i n 鹤e ) 中文本体映射系统,它采用元素层映射和结构 层映射相结合的方式实现本体映射。0 m c 的创新之处是提出以知网为外部资 源,结合词汇分解计算词汇相似度,利用概念所使用词汇的相似度实现元素层 映射的算法,并根据此算法实现了o m c 的子模块e l o m c ( e l 锄锄tl 刖e l o n t o l o g ym a t c l l i n gf o rc l l i n e s e ) 。通过该模块,o m c 可以实现中文本体与中文 本体及中文本体与英文本体间词汇相似度的计算,进一步实现本体阃的映射。 在结构层映射方面,o m c 则采用简单的元素路径算法。本文的主要工作包括: 1 分析了本体映射的现状,实现了一个元素层映射和结构层映射相结合的本 体映射系统 o m c 主要用于中文本体的映射和中英文本体之间的映射,目前语义网还处 于研究阶段,真正实用的例子并不多见,中文本体映射系统的完善将会进一步 促进中文语义网络的发展。 2 对于元素层的映射,提出根据词语的相似度计算概念、属性的相似度,然 后根据概念、属性的相似度选取候选映射对的解决方案 虽然o m c 既考虑了元素层映射也考虑了结构层映射,但由于中文本体与 其它本体的主要区别在于元素层所采用的词汇集不一样,故本文将元素层映射 作为讨论的重点。 3 对于简单汉语词汇,提出一种改进的相似度计算方法 目前有多种计算汉语词语相似度的方法,本文通过对常识知识库知网 的研究,针对知网的特点,提出一种改进的相似度计算方法,使相似度的计算 3 更加精确。 4 对于复合词,本文将词汇分解后再计算相似度 词汇分解方法是计算复合词汇相似度的方法,指将复合词分解为简单词, 例如“教育经历”可以分解成“教育”和“经历”两个词汇。通过计算分解后 的词汇组与其他词汇的相似度确定总体的相似度。 5 对结构层映射方案进行了探讨 利用元素路径比较两个元素的相似性,将结构特点纳入映射考虑的范围。 1 4 论文的章节组织 本文结构安排如下: 第一章绪论部分。对本体及本体映射的引入进行了简要的说明,介绍 了本体映射的研究现状,并对本文所做工作进行了概要说明。 第二章基础理论介绍。首先详细介绍了本体的起源、定义、本体涉及 的一些概念如类、属性、实例。接下来论述了本体映射的必要性,本体异构, 本体映射的概念。最后对现有的一些本体映射系统进行了介绍。为我们下面进 行本体映射打下基础。 第三章中文本体映射系统。介绍了基于知网的中文本体映射系统 o m c ,特别是对元素层映射e l o m c 部分和结构层映射部分的实现原理、依据 及实现进行了详细介绍。 第四章实验及分析。针对o m c 设计了实验三个实验,分别验证元素 层、结构层映射效果及中英文本体映射效果,并对实验结果进行了分析。 第五章总结及展望。对本文所做的工作进行简要的总结,展望了未来 的工作方向及本体映射的前景。 4 2 1 本体 2 1 1 本体起源 第二章基础理论 本体论( 0 咀t o l o g y ) 最早是一个哲学的范畴。“0 l l l t o l o g y ”一词来自拉丁文 伽( 存在、有、是) 和o n t o s ( 存在物) 。在古希腊罗马哲学中,本体论的研究 主要是探究世界的本原或基质。各派哲学家力图把世界的存在归结为某种物质 的、精神的实体或某个抽象原则。巴门尼德提出了唯一不变的本原“存在”,使 关于存在的研究成为这一时期的主题。亚里士多德认为哲学研究的主要对象是 实体,而实体或本体的问题是关于本质、共相和个体事物的问题,研究实体或 本体的哲学是高于其他一切科学的第一哲学。他认为本体是“对世界上客观存在 物的系统地描述,即存在论”,是客观存在的一个系统的解释或说明,关心的是 客观现实的抽象本质,它在哲学上的真正内涵是对世界上任何领域内的真实存 在做出的客观描述。德国学者郭克兰纽( 1 5 4 7 一1 6 2 8 ) 在其著作中第一次使用 了“本体论”一词,将其解释为形而上学的同义语。直到科技革命的出现,本体 论才作为形而上学的一个分支独立出来,专指世界“存在”的研究。本体论在 哲学定义上是客观存在的一个系统的解释或说明。关心的是客观现实的抽象本 质,主要特点在于本体论是关于世界某个方面的一个特定的分类体系,这个体 系不依赖任何特定的语言。 近十多年来,本体论的研究逐渐超出哲学范畴,被引入人工智能领域,本 体论被看成研究客观事物间相互联系的学科,与语义网络、知识工程、自然语 言处理、信息检索集成系统、信息交换和软件工程等等领域结下了不解之缘。 尤其是本体在语义网中的应用,人们试图通过本体解决w 曲信息共享中的语义 问题,更进一步促进了人们对本体的研究。 5 2 1 2 本体定义 本体( o n t o l o g y ) 自从被引入人工智能领域后,有很多人试图给它下定义, 随着本体的应用越来越广泛,越来越多的人研究本体,本体的定义也在不断的 发展变化中。下面给出比较有代表性的几个定义。 最早给出本体定义的是n e c h e s 等人,他们在1 9 9 1 年时指出“一个本体定 义了构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规 定这些词汇外延的规则的定义。该定义只是给出了建立一个本体的基本要 素,即:要建立一个本体,首先要识别所处理领域的基本术语和这些术语之问 的关系,而后识别组合这些术语和关系的规则,并提供这些术语和关系的定义。 1 9 9 3 年,g m b e r 给出了本体的一个最为流行的定义,即“本体是概念模型 ( c o n c e p t u a l i z a t i o n ) 的明确的规范说明”i i 。后来,b o r s t 在此基础上,给出了 本体的另外一种定义:“本体是共享概念模型的形式化的规范说明”l i “。这两个 定义被人们广泛引用,它们都强调本体是明确的规范的解释说明。 s t u d 盯等人对上述两个定义进行了深入的研究,认为本体是“共享概念模 型的明确的形式化规范说明”h 。 s w a r t o u t 将本体定义为:“本体是一个为描述某个领域而按继承关系组织起 来作为一个知识库的骨架的一系列术语”。他的定义强调了本体中术语( t e i m s ) 的重要性【1 2 1 。 w m i 锄和a l l s t i n ( 1 9 9 9 ) 指出,本体是用于描述或表达某一领域知识的一组 概念或术语,可用于组织知识库较高层次的知识抽象,也可用来描述特定领域 的知识。 c h a n d 瑚s c k a 均n 等人( 1 9 9 9 ) 认为本体是属于人工智能领域中的内容理论,它 研究特定领域知识的对象分类、对象属性和对象间的关系,为领域知识的描述 提供术语。 f e r i s d 认为本体是“对一个特定领域中重要概念的共享的形式化的描述” 【13 1 ,并认为本体概念应该包含4 层含义【1 4 1 :概念模型( c o n c 印t i m l i z a 虹o n ) 、明确 ( e x p h c i t ) 、形式化( f 0 册a 1 ) 和共享( s h a r e ) : 1 “概念模型”指通过抽象出客观世界中一些现象( p h e n o m e l l o n ) 的相关概 念而得到的模型。概念模型所表现的含义独立于具体的环境状态。 2 “明确”指所使用的概念及使用这些概念的约束都有明确的定义。 6 3 “形式化”指本体是计算机可读的( 即能被计算机处理) ,形式化程度越 高,越有助于计算机自动处理。 4 “共享”指本体中体现的是共同认可的知识,反映的是相关领域中公认 的概念集,即本体针对的是团体共识而非个体的认识。 n a t a l y af n o y 认为“本体是对某个领域中的概念的形式化的明确的表示, 每个概念的特性描述了概念的各个方面及其约束的特征和属性”。他们定义“本 体是以某一观点用详细明确的词汇表描述实体、概念、特性和相关功能的理论” 【l5 1 。 虽然对本体的定义方式各有不同,但是人们对本体的认识基本上是统一的, 都认为本体是对共享概念的形式化的清晰的描述。本体通过对概念、术语及其 相互关系的规范化描述,勾画出某一领域的基本知识体系,它包括计算机能处 理的某个领域的基础概念的定义,及这些基础概念之间的关系。它的目标是捕 获相关的领域的知识,确定该领域内共同认可的词汇,并从不同层次的形式化 模式上给出这些词汇( 术语) 和词汇之间相互关系的明确定义,提供对该领域 知识的共同理解,将一个领域甚至是跨领域的知识进行编码,从而使得它们可 以被重用。本体是领域内进行交流的语义基础,它可以提供一种明确的形式化 定义的共识,机器能理解的语义正是建立在这种共识基础上的。 2 1 3 本体的相关概念 本体相关的一些概念中,像类、实例、层次结构这些概念都类似于面象对 象中的概念,可以用面向对象的方式来理解它们。 类( d a s s 髓) 或概念( c o n p t s ) :具有相同特性的事物称之为一个类,类 实际上是一组对象、一组实例的集合,如“桔子这个类指所有可以称之为“桔子” 的事物。由于类通常是对事物进行抽象的结果,又可将类称为概念( c c e p t ) 层次结构( h i 咖c h y ) :入们在理解和分析复杂事物时,习惯于将复杂事物 按照一种层次结构将其进行分解,这样可以对事物开成更加清晰的认识。对于 “类”的组织也是一样,我们也用层次结构来对其进行分解和描述。关系l 【i n d o f 表达概念之间的继承关系,类似于面向对象中的父类与子类之间的关系,构成 一个层次结构。 属性( p m 叫y ) :仅仅有类、层次结构还不能很清晰的描述事物,对于某 个类而言,我们往往需要了解其各种特性,比如对于“桔子,这个类,我们需要 7 了解其品种、风味、产地等特性,这些术语便是类的属性。由于类的属性通常 是多方面的,有时被形象地将其称为槽( s i o t ) 。关系a 岫u t e _ o f 表达某个概念 是另一个概念的属性。如“品种”是桔子的一个属性。 个体( i n d i v i d u a l ) 或实例( i n s t 孤c c ) :事物是由许多个体( 实例) 组成的, 类也是从个体集合中抽象出来的概念,从语义上讲实例表示的就是对象。您拿 在手上的那个桔子就是一个个体。关系i n s t a i i c e o f 表达的就是概念的实例与概 念之间的关系,它们的关系类似于面向对象中的对象和类之间的关系。 2 2 本体映射概述 语义网是对当前万维网的扩展,通过将网络中的信息以计算机可理解的形 式表示,使计算机可以理解网络中的信息,并自动使用、处理和集成这些信息。 本体是共享概念模型的规范化的显示说明,是语义网的关键,它允许人们把领 域知识表示成概念的分类体系。然而由于人们认识,事物的发展,应用需要等 原因,一个领域中往往会出现多个本体,这些本体往往是异构的,为了使这些 异构的本体能够相互理解达到共享重用的目的,需要对这些本体进行映射。本 体映射的目的就是要找到异构本体之间的语义联系。 本体数目庞大并在不断增长中,要手工地对其进行映射既费时又费力,而 且不可能即时地对映射进行更新,因此手动实现映射是一个不可能完成的任务, 必须实现本体自动或半自动映射。中文资源是全球信息网络的重要组成部分, 实现中文本体问以及中文与其它本体的映射是实现本体共享重用的一个重要组 成部分。 2 3 本体异构 在语义网中,本体是语义的载体,信息的语义利用本体来描述,使信息具 有计算机能理解的语义的主要目的是为了实现资源的共享和重用,但目前真正 利用本体实现共享和重用的实例并不多p j 。本体的构造并没有统一的标准和规 范,不同的入可能会给出不同的本体;每个本体都有自己应用侧重点,别人构 造的本体可能并不符合自己的实际需要,人们往往会根据实际应用构造自己的 本体;人们对事物的认识也有一个发展的过程,不可能有一步到位的认识,对 构造出来的本体可能要不断地进行修正;事物本身也在不断发展中,不断有新 8 事物出现,本体也在不断演进,等等这些原因都导致异构本体的出现。 本体之间的异构分为元素层的异构和结构层的异构,元素层异构主要表现 在: 1 相同的概念( 属性) ,不同的术语,即命名不同。如“妈妈”和“母亲” 表示相同的概念有孩子的女性,但命名却不一样,也就是术语不一样。 2 相同的术语却表示不同的概念( 属性) 。如“小熊猫”这个术语,它在某 个本体里面可能表示动物小熊猫,但在另一个本体中可能表示的是小熊猫这 个品牌的香烟。 3 度量异构,即同类数据度量方式不同。如同样是表示距离,本体a 采用 的单位可能是“米”,本体b 则可能用的是“千米”,对于同一个数据“1 3 5 ”, 虽然它们的数值一样,但在两个本体中表示的距离却相差不止一个数量级。 4 其他异构,比如相同属性的定义域不同,值域不同等。 结构层的异构主要表现在: 1 概念( 属性) 的划分时的粒度不一样,导致结构异构。如对于同一个概 念“汽车”进行分类,一个本体可能将其划分为“国产汽车”、“韩国汽车”、 “德国汽车”、“美国汽车”等;但另一个本体可能将其划分为“国产汽车” 和“进口汽车”两个概念。这就是划分粒度不一样,很明显前者划分的粒度 要比后者更细。 2 对同一概念划分时,所采用的维度不一样,导致不同的概念分层体系, 也会导致结构层的差异。如图2 一l 所示,仅通过术语“古代史”和。中国史”, 我们会认为这两个概念是表达的是不同的内涵,但当我们将这两个概念放到 特定的结构中考虑时,如图所示,本体a 中的近代史与本体b 中的中国史, 实际上都是中国近代史,这两个概念是等价的 本体a 图2 f l 本体异构示意图 9 本体b 2 4 本体异构的解决方案 2 4 1 标准本体 标准本体指为某个应用领域建立一个标准的本体。这是一种非常直接的方 法,同一个应用领域都使用这个标准的本体,就不存在异构问题了。但是要建立 一个这样的本体是非常困难的。首先,即使是同一个应用领域,由于具体的应用 背景不同,每个应用所关心的重点不一样,对概念的认识也不尽相同,如同由于 东方人跟西方人有着不同的审美观,不可能建立一个全世界公认的一个选美标 准,要建立一个大而全的标准本体可能性不大。其次,即使有这种建立标准本体 的可能性,由于需要考虑各种可能的应用,建立本体将耗费大量的时间和费用, 而结果却未必能达到预期的效果,风险太大。所以这种方案在我们可预见的未来, 是不可能实现的。 2 4 2 本体集合 本体集合,即建立一个大的本体,也就是全局本体,它包含已有的所有本 体。这种方案实现起来相当简单,只需要简单地包含所有的本体,来自这些本 体的所有概念都在目标本体中出现。但是由于各本体间可能存在冲突,这种简 单包含的方式不能够处理这些本体问存在的冲突。因此,这种方式只适合本体 间不一致较小的情况。 2 4 3 本体映射 本体映射通过建立本体间的语义关联,实现不同本体间的映射,源本体的 概念( 属性) 可以根据这种语义关联,转换为目的本体中相对应的概念( 属性) , 从而解决本体异构的问题。本体映射可以采用多本体的结构也可以采用混合结 构。多本体结构中,当一个本体需要与某个本体互操作时,就需要与该本体建 立映射关系,当本体变化时,便需要对所有映射关系进行更新;在混合结构中, 每个本体都是在一个全局共享词汇表的基础上发展起来的,共享词汇表定义了 领域内的基本概念,本地本体将这些概念组合起来表达复杂的语义,构成复杂 的本体,那么每个本体都与全局本体问存在一定的映射关系,只需要与全局本 体建立映射关系,当本体变化时,只需要改变它与全局本体的映射即可。 1 0 2 5 本体映射概念 本体映射的目的是找到不同本体之间的语义联系。图2 2 是一个简单的本 体映射的例子,它说明来自同一个公司不同部门的雇员本体和员工本体之间的 雇员员工 名字:s 妇g姓名:s h 证g 籍贯:省籍贯:省份 薪水;美元_ 资:元 体重;k g 图2 - 2 本体映射示倒 映射。 本体映射算法以两个本体作为输入,并为这两个本体中的各个元素建立相 对应的语义关系,这些元素包括概念和属性 1 6 1 。本文采用【1 7 】中给出了本体映 射的形式化定义。本体映射是指:给定两个本体q 和仇,对于本体q 中的每 个元素,在本体中找到与其在语义上相同或相似的元素,反之亦然。【1 刀 本体间的映射中最简单的映射关系是l :1 ,也就是说当本体q 中的某个元 素a 与本体q 中某个元素b 所蕴涵的意义相同时,则认为本体眈中的元素a 与本体q 中元素b 之间存在l :l 的映射。除了简单的映射关系外,还存在l :n , n :l ,n :m 的映射,及特殊的映射l :n i l l l 及删l l :1 的映射,即给定一本体中的某 元素,在另一本体中找不到与该元素所蕴涵的意义相同的元素。 如图2 2 所示的两个本体,雇员和员工这两个本体是描述的是一个概念, 名字与姓名,籍贯与籍贯,薪水与工资形成l :1 的映射关系,体重则在员工本 体中找不到与之对应的元素,故这是一个雇员到员工的l :n u l l 的映射关系。而 且名字,姓名等的值域还形成了一定的映射关系,如美元与元之间的映射还存 在数量变换的关系。 文献【1 8 】给出了一个形式化的本体映射函数,j ,l i 甲:0 h 寸d ,:,设t 是 且到岛2 j 2 映射的门限值,若脚印眩l 丹) = e 2 j 2 f ,则认为月被映射到e n 2 ,即 m d p ( g n 且) = 岛2 ,2 本文也采用这个定义形式,认为当两个概念的相似度超过某个门限值的时 候便形成了映射关系。 2 6 本体映射系统介绍 本体映射的研究是目前语义网研究的个热点,国内外很多机构和个人对 本体映射进行研究,科研人员提出了许多本体映射实现方法,并且已经实现。 接下来简要介绍其中的几个本体映射系统。 1 c u p i d f l 9 1 c u p i d 是一种基于元素级映射和结构级映射的混合方法。其思想是,如果 两个概念的子概念是相似的,那么这两个概念就趋向于相似;如果两个概念具 有相似的祖先,那么它们也趋于相似。为了处理同义词、缩略语、首字母缩写, c u p i d 用到了外部技术,引入外部信息源,如词典。为了解决共享元素的问题, 它在概念树中加入辅助节点以反映共享节点和父节点之间的多重关系。 c u p i d 算法分成三步。第一步是语言学上的元素级映射,并通过名称、数 据类型和领域进行分类。这个过程中,复合名词被分解成单个词( 如,c o m p a n y - n 锄e 变成 c o m p 锄y ,n 锄e ) ) ,按照数据类型,语义内容归入不同的类别, 然后在每个类别内计算概念元素对之间的语言相似系数,计算中用到了子串匹 配技术( 如前缀,后缀比较) 和外部技术( 查词典) 。第二步,把原来的模式转 化成一棵概念树,计算结构相似度,做自底向上的结构匹配。两元素之问的相 似性取决于它们的语言相似性以及它们的叶子集的相似性,如果算出的相似系 数超过了阈值,那么就增加其叶子集的相似系数。之所以关注叶子集是基于叶 节点包含
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 好书如何助力健康生活
- 护理的使命与责任
- 人民医院整体搬迁建设工程可行性研究报告
- 顶岗实习个人总结化学
- 2025新冠肺炎疫情感人的瞬间高中作文800字5篇
- 传统康复室实习个人总结
- 品牌忠诚度提升路径-第2篇-洞察及研究
- 新兴技术驱动的行业阶段划分与调控对策-洞察及研究
- 护理贫血知识培训课件
- 2025至2030中国生态养猪行业产业运行态势及投资规划深度研究报告
- 工业互联网安全能力构建技术指南(2025版)
- 瑜伽红酒活动方案
- 员工培训PDCA课件下载
- 2025厦门辅警考试真题
- 广东省佛山市2024-2025学年高一下学期期末检测英语试卷
- 2025 城镇燃气设施运行、维护和抢修安全技术标准
- 甘肃机电职业技术学院招聘事业编制工作人员笔试真题2024
- 电焊工中级维修工培训
- 2025至2030中国硝酸钾肥行业发展分析及产业运行态势及投资规划深度研究报告
- 2025至2030中国棉花仓库行业市场现状分析及竞争格局与投资发展报告
- 2025-2030中国肉鸭养殖及鸭肉深加工行业运营动态与竞争格局分析报告
评论
0/150
提交评论