




已阅读5页,还剩54页未读, 继续免费阅读
(计算机软件与理论专业论文)一种基于分类结构的本体匹配方法.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
哈尔滨工程大学硕士学位论文 摘要 相同领域的不同组织使用不同本体,共同使用这些本体交得很 必要,因此各个本体间需要进行匹配。目前研究人员提出了许多解 决关于本体匹配问题的技术,这些技术主要用于本体中的一对一匹 配。同时人们也对本体匹配提出了更高的要求,如匹配的结果能够 更精确,其中一个要求就是处理复杂情况下,一个本体中的单个实 体匹配另一个本体中的一组实体简称一对多匹配。 本体一对多匹配主要存在于以分类结构为组织方式的本体中, 本文针对这个特点提出使用分类结构的定义来解决。语义匹配方法 具有使用正式语义的优点,更适合用于解决本体的一对多匹配。根 据分类结构的特点定义匹配过程中使用的定理。首先使用分类结构 的定义对本体中的实体进行语义解释得到实体的概念,将实体对间 的预设语义关系转换为命题公式,运行s a t ( p r o p o s i t i o n a l s a t i s f i a b i l i t y ) 验证该公式的有效性,得到本体中的一对一匹配结果。 然后在一对一匹配结果的基础上,利用分类结构的定理得到一对多 的匹配结果。最后实现一个原型系统,主要实现本体匹配中找出一 对多匹配的过程。 目前存在的语义匹配方法有c t x m a t e h ,它仅限制用于概念层次 结构。s - m a t c h 是c t x m a t c h 系统添加一些功能的重新实现,只允许 处理树形结构( 像分类结构或概念层次结构) 。本文中使用的方法是 建立在这种方法的基础上的,语义解释不是使用直接节点的概念或 者根据路径解释节点概念,而是使用分类结构的特点解释节点概念, 从而实现一对多的本体匹配。 关键词:本体匹配:一对多匹配:分类结构;语义匹配 哈尔滨工程大学硕士学位论文 a b s t r a c t d i f f e r e n to r g a n i z a t i o no ft h es a m ed o m a i nu s ed i f f e r e n to n t o l o g y , i tb a c o m e sv e r ye s s e n t i a lt ou s es o m eo n t o l o g yt o g e t h e r ,t h e r e f o r e o n t o l o g ys h o u l db ea l i g n e d a tp r e s e n tt h er e s e a r c h e r sp r o p o s e dm a n y t e c h n o l o g ya b o u to n t o l o g ym a t c h ,t h e s et e c h n o l o g i e sw e r em a i n l yu s e d i no n e - t o o n eo n t o l o g ym a t c h s i m u l t a n e o u s l yp e o p l ep r o p o s eah i g h e r r e q u e s ta b o u to n t o l o g ym a t c h ,s u c ha st h em a t c hr e s u l tc o u l db em o r e p r e c i s ea n ds oo n f o ro b t a i n i n gt h em o r ep r e c i s er e s u l to fo n t o l o g y m a t c h ,o n er e q u e s ti st op r o c e s ss i n g l ee n t i t yi no n eo n t o l o g ym a t c h e d o n eg r o u po fe n t i t i e si na n o t h e ro n t o l o g yu n d e rc o m p l e xs i t u a t i o n ,i ti s c a l l e do n e t o m o r em a t c h o n e - t o m o r eo n t o l o g ym a t c he x i s t sm a i n l yi nt h eo n t o l o g yw h i c h i so r g a n i z e di nt a x o n o m y ,t h i sa r t i c l et a k e st h ev i e wa n dp r o p o s e st o s o l v et h eq u e s t i o nb yu s i n gt h ed e f i n i t i o no ft a x o n o m y t h es e m a n t i c m a t c hm e t h o dh a st h em e r i to fu s i n go f f i c i a ls e m a n t i c ,i ti ss u i t e dt o s o l v eo n e t o - m o r eo n t o l o g ym a t c h a c c o r d i n gt os o m ec h a r a c t e r i s t i c so f t a x o n o m y ,w ed e f i n et h et h e o r e mw h i c hw i l lb eu s e di nt h ep r o c e s so f m a t c h f i r s t ,w ee x p l a i nt h ee n t i t yi nt h eo n t o l o g yb yu s i n gt h e d e f i n i t i o no ft a x o n o m y ,t h e no b t a i nt h ee n t i t yc o n c e p t w es u p p o s et h e s e m a n t i cr e l a t i o nb e t w e e ne n t i t i e sa n dt r a n s f o r m a t ei tt ot h ep r o p o s i t i o n f o r m u l a ,t h e nr u nt h es a t ( p r o p o s i t i o n a ls a t i s f i a b i l i t y ) t oc o n f i r m w h e t h e rt h i sf o r m u l ai sv a l i da n do b t a i nt h er e s u l to fo n e t o o n e o n t o l o g ym a t c h s e c o n d ,u s i n gt h er e s u l to ft h eo n e t o o n eo n t o l o g y m a t c h ,w eo b t a i nt h er e s u l to ft h eo n e t o - m o r em a t c hb yu s i n gt h e t a x o n o m yt h e o r e m f i n a l l y ,w er e a l i z eap r o t o t y p es y s t e m ,a n dm a i n l y a c c o m p l i s ht h i sp a r to fd i s c o v e r y i n go n e t o m o r em a t c h a tp r e s e n t ,t h es e m a n t i cm a t c hm e t h o dh a sc t x m a t e h ,i to n l y l i m i t st oi nt h ec o n c e p ts t r u c t u r e s - m a t c hi sa nu p g r a d i n gs y s t e mo f t h ec t x m a t c h ,o n l y a l l o w st h ep r o c e s s i n gs h a p eo ft r e es t r u c t u r e ( 1 i k et a x o n o m yo rc o n c e p ts t r u c t u r e ) t h i s a r t i c l ei so nb a s i so ft h e s y s t e m ,a n dt h es e m a n t i ce x p l a n a t i o nd o e s n t u s et h ed i r e c tc o n c e p to r p a t h ,b u tu s e st h ec h a r a c t e r i s t i c e so ft a x o n o m y ,t h u si t c a nr e a l i z et h e o n e t o m o r em a t c h k e yw o r d s :o n t o l o g ya l i g n ;o n e t o - m o r em a t c h ;s e m a n t i cm a t c h ; t a x o n o m y 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导 师的指导下,由作者本人独立完成的。有关观点、 方法、数据和文献的引用已在文中指出,并与参 考文献相对应。除文中已注明引用的内容外,本 论文不包含任何其他个人或集体已经公开发表的 作品成果。对本文的研究做出重要贡献的个人和 集体,均己在文中以明确方式标明。本人完全意 识到本声明的法律结果由本人承担。 作者( 签字) :煎翘翌 日期:却。6 年复月 哈尔滨i 样人学硕十学位论文 第l 章绪论 1 1 关于一对多本体匹配 文献 15 中提到:“期望所有的发展信息和知识应用系统,人和 组织使用一个共享本体是不现实的”。如果需要共同使用这些本体, 不得不进行本体协调。本体协调是以人为中介的过程,该过程主要 分为三个阶段:匹配、合并和集成。匹配是在资源必须是一致和相 关的本体且它们是分离的情况下使用。合并是通过几个本体并为单 个本体的c 即建立另外一个新本体) 操作。集成是指通过组合其它 本体的可用部分建立一个新的本体。 目前研究人员提出了许多解决关于本体匹配问题的技术。这些 技术通过使用本体所具有的一些特点分类( 标签,结构,实例或语 义) 和它们使用的不同科目分类( 统计,机器学习或数据分析) ” 。提出了这么多的技术以后,人们丌始希望本体匹配的结果更加精 确、本体匹配的过程能够自动完成、能够对这些方法进行比较,针 对4 j 同本体选择最适合的方法、本体匹配的结果表示能够通用等等。 文献 : :j 中认为本体的复杂度、大小和数量超出一定限度后, 使用人l :匹配的方法是不可能的,需要提出使用自动或者半自动的 方法进行本体匹配。为了激励关于本体匹配的研究,有必要允许各 种各样的本体匹配方法合作和能够比较这些匹配方法。提出以格式 为基础表达用于建立它们的独立匹配方法和首例本体匹配方法的 基准框架“。已经设计了很多本体匹配的方法,这些方法使用不同 的技术,不可能从理论上比较它们几乎是不可能的。因此有必要通 过共同的测试比较它们,提出了本体匹配评估的定义和执行”。 文献 1 ,2 中对两种解剖学表示的两种不同匹配方法进行比较, 分析了得到的匹配结果,两种方法都使用词汇和结构技术的联合。 另外,第一种方法使用了领域知以的优势,第二种方法把匹配看作 呤尔滨 样人字硕十i :付论文 图表匹配的种特殊事例。将每种方法匹配f m a ( t h ef o u n d a t i o n a l m o d e lo fa n a t o m y ) 和g a l e n2 ( t h eg e n e r a l i z e da r c h i t e c t u r ef o r l a n g u a g e s ,e n c y c i o p e d i a sa n dn o m e n c l a t u r e si nm e d i c i n e ) 的十日同版 本,通过两种方法都能取得2 1 9 9 个概念匹配。只能被一种方法定义 的匹配分别为3 3 7 和3 3 6 ,分析了另一种方法失败的原因。第一种方 法通过说明偏序词汇匹配和单独以结构相似为基础定义的匹配能高 一些。第二种方法考虑f m a 中的同义词和定义语义不匹配可能提高。 然而,被两种方法定义的匹目b 概念只有所有可能一对一匹配的3 3 。 为了处理更复杂的匹配,如解决本体匹配中个本体中的单个实体 匹配另一个本体中的一+ 组实体,需要探索新的匹配方法。 本文对本体匹配中一个本体中的单个实体匹配另一个本体中的 一组实体的复杂匹配提出解决方案。本体匹配中的一对多匹配情况 主要出现在以分类结构为基础的本体中,出于使用分类依据的顺序 不同导致一个本体中的单个实体匹配另一个本体中的一组实体。针 对分类结构的特点,本文根据分类依据对本体中的节点进行语义解 释,然后使用语义匹配方法进行匹配。 1 2 研究的目的与意义 本体被看作是w e b 上数据多样性的一种解决方法。然而,可用 的本体本身是多样性资源,通过本体匹配或找到它们组件对应的部 分,这个问题将得到解决”1 。通过匹配各种各样的本体,关于语义 w e b 的一些问题能得到较好的解决“。解决本体匹配问题可以解决 a g e n t 通信、电子商务中的目录匹配、w e b 服务集成、p 2 p 数据库集 成及个人信息共享等中存在的一些问题。 目前的本体匹配方法得到的匹配结果与实际存在的结果相差甚 远,其中一个原因是无法实现本体匹配中的对多的匹配问题,本 文针对这个问题提出了解决方案。实现一对多的本体匹配,使匹配 结果更加准确,同时提高了匹配结果的数量,使匹配结果能够得到 :h t t p :l f n a b i o s trw a s m n g t o n e d u t h i t p :l l w w wo p e n g a l e nor g l 哈“:滨i 栏人学硕十¥,1 市论文 更好的使用。 本义提出使用分类结构的特点对节点进行语义解释,使语义匹 配中使用的节点概念更加准确,打破了原有语义匹配方法中简单确 定节点概念的方法。 13 本体研究及相关领域研究 本体技术是一个涉及信息技术应用域的知识、自然语言处理、 信息提取、人工智能、知识表示和获取多学科领域等复杂的多学科 领域。本体变得流行,被誉为在提高信息组织,管理和理解方面有 巨大潜力的新兴技术。尤其是本体作为在人和应用系统交互的领域 的共享和共同理解,在处理大量分布和各种各样的计算机为基础信 息有重要的作用,象全球信息网( w o r l dw i d ew e b ) 和企业网信息 系统,复杂的工业软件应用,知以管理,电子商务等。本体本身是 用于提高应用领域中信息和知识的一致和重用、系统互操作和知识 共享而建立的清晰定义的参考模型。它使用人可以理解和计算机可 处理的两种方法描述领域的语义”。 按照本体的主题”,当前本体研究可以分为如下5 种类型: ( 1 ) 知识表示本体。在关于知识表示系统的研究工作中,最典 型的是s t a n f o r d 大学知识系统实验室开展的关于知识本体的研究, 包括研究知识的本质特征和基本属性。 ( 2 ) 通用或常识本体。通用知识本体的研究包括著名的c y c 工 程;中国科学院数学研究所陆汝钤院士主持的国家自然科学基金重 点项目“常识性知识的实用研究”中丌发的结合a g e n t 和本体的知 识库,也属于通用知识本体的研究范畴。其他工作主要还包括 、i s o w a 的通用本体研究等。 ( 3 ) 领域本体。领域本体在一个特定的领域中可重用,它们提 供陔特定领域的概念定义和概念之问的关系,提供该领域中发生的 活动以及浚领域的主要理论和基本原理等。对特定领域的本体研究 和丌发目前已经涉及许多领域,包括企业本体、医学概念本体、陶 瓷材料机械属性本体等等。 哈尔滨l :栏人学硕十学位论文 ( 4 ) 语言学本体。语言学本体,顾名思义是指关于语苦、词汇 等的本体。典型的实例有g u m ( g e n e r a l i z e du p p e rm o d e l ) dw o r d n e t 。 w o r d n e t 是一个联机英语词汇检索系统,由p r i n c e t o n 大学研制,其 核心是它的词汇源文件,每个源文件包括一组称为“s y n s e t s ”的单 元,每个s y n s e t s 单元由一组同义词、一组关系指针以及其他信息 组成,其中关系指针所表示的关系包含反义、继承等。 ( 5 ) 任务本体。任务本体是本体研究中的另个分支,与上述 本体所不同的是,任务本体主要涉及动态知识,而不是静态知识。 除了上述分类标准外,还可按照丌发本体的目的进行分类。目 的指的是所构造的本体的主要用途。从现有的本体研究工作看,构 造本体的目的可分为以下三个方面: ( 1 ) 通信:这里主要指人与人之问的通信,强调无二义性的本 体,但由于是用于人与人之间的通信,对本体表示的形式化程度要 求不高,可以是完全非形式化的。 ( 2 ) 互操作:是指系统之间的互操作,即不同模型方法、不同 范例、不同语音和不同软件工具的相互转换。为此而建立的本体用 作系统之问的变换格式。 ( 3 ) 对软件工程的帮助:特别表现在以下几个方面: ( a ) 可重用性:本体可作为相关领域中重要实体、属性、进 程及其相互关系的一种形式化的编码。这个形式化的表示可以成为 软件系统中一种可重用的和可共享的构件。 ( b ) 知识获取:在建立基于知识的系统时,用一个相关的本 体作为出发点去引导知 : 的获取,将加快知识获取的进程。提高所 获取知识的可靠性。 ( c ) 可靠性:形式化的表示有利于软件一致性的自动检查, 从而产生更可靠的软件。 ( d ) 软件需求规格说明:本体可以用来辅助需求的确定,并 为信息系统定义规格随明。 从总体上看”“1 ,当附对本体的研究包含3 个层次上的内容,它 们是: 4 哈尔滨r 拌人学硕十学位论文 ( j ) 本体j :程。研究和丌发本体的内容,包括两个方面,是 研究和创建特定领域的本体库,二是研究和建立通用知议的( 或常 识知识的) 本体库。 ( 2 ) 本体的表示、转换和集成。研究用于表示各种本体的知识 表示系统,提供形式化方法和工具,使所建立的本体能够方便地被 共享和重用,提供不问的本体评价和比较框架,研究不同本体之恻 的转换方法和不同本体的集成方法,提供不同本体之间互操作的手 段。 ( 3 ) 本体的应用。主要研究以特定领域本体或通用知识本体为 基础的应用。 1 4 本文的主要工作 本文的主要工作是精确定义本体中的一对多匹配。第一步,分 析一对多匹配存在的特点。使用分类结构特点对本体中的节点进行 语义解释,并说明该理论的合理性。定义在语义匹配中使用语义解 释的定理,并利用分类结构的定义对定理进行证明。第二步,比较 语义匹配方法和语法匹配方法,语义匹配方法使用正式的语义,更 适合完成一对多匹配。第三步,实现一个原型系统,模拟本体匹配 中找出一对多匹配的实现过程。首先使用元素缴语义匹配技术分析 节点中的词 7 l _ ,然后使用词汇分析的结果匹配个体标签或概念,得 到元素匹配结果。接着使用结构缴语义匹配技术根据节点在本体中 所处的位置对节点进行语义解释,将语义解释和元素匹配结果结合 得到的语义关系转换为命题公式,使用s a t ( p r o p o s i t i o n a l s a t i s f i a b i l i t y ) 验证该公式的有效性。最后使用文献 1 中的实例进 行验汪。 哈尔滨 。科人学碗十学位论文 第2 章本体及本体匹配 2 1 本体 奉体是指对一些领域的共享理解的术语,经常被认为是一系列 类( 概念) ,关系,函数,公理和实例。”1 。 21 1 本体定义 gr u b e r 给出了一个流行的定义:“本体是领域概念模型的显式 表示”j ,b o r s t ”“对这个定义进行了进一步的修f ,认为:“本体 可定义为被共享的概念化的一个形式的规格晓明”。s t u d e l 等在上述 两个定义的基础上,进一步将本体定义为:“本体是共享概念模型 的明晰的形式化规格说明”,并阐述了陔定义包含的4 层含义。= 1 : ( 1 ) 概念模型( c o n c e p t u a l i z a t i o n ) ,指通过抽象出客观世界中一 些现象( p h e n o m e n o n ) 的相关概念而得到的模型。概念模型所表现的 含义独立于具体的环境状态。 ( 2 ) 明晰( e x p l i c i t ) ,指所使用的概念及使用这些概念的约束都 有明确的定义。 ( 3 ) 形式化( f or m a l ) ,指本体是计算机可读的( 即能被计算机处 理) 。 ( 4 ) 共享( s h a r e d ) ,指本体中体现的是共同认可的知识,反映的 是相关领域中公认的概念集,即本体针对的是团体而非个体的共 识。 这j 个定义成为了后来研究者频繁引用的经典。 2 12 本体表示语言 本体描述语言可以使得用户为领域模型编写清晰的、形式化的 概念描述,因此它应该满足以下要求j “: ( 1 ) 良好定义的语法( aw e l l - d e f i n e ds y n t a x ) ( 2 ) 良好定义的语义( aw e l l d e f i n e ds e m a n t i c s ) ( 3 ) 有效的推理支持( e f f i c i e n tr e a s o n i n gs u p p o r t ) 6 哈尔滨一l 程人学硕十学位论文 ( 4 ) 充分的表达能力( s u f f i c i e n te x p r e s s i v ep o w e r ) ( 5 ) 表达的方便性( c o n v e n i e n c eo fe x p r e s s i o n ) 大量的研究工作者活跃在浚领域,因此诞生了许多种本体描述 语言,- hr d f 和r d f s 、o i l 、d a m l 、o w l 、k i f 、s h o e 、x o l 、 o c m l 、o n , o i l n g u a 、c y c l 、l o o m 等。简单把它们归类如下: ( 1 ) 和w e b 相关的有:r d f 和r d f - s 、o i l 、d a m l 、o w l 、 s h o e 、x o l 。其中r d f 和r d f s 、o i l 、d a m l 、o w l 、x o l 之 问有着密切的联系,是w 3 c 的本体语言栈中的不同层次,也都是 基于x m l 的。而s h o e 是基于h t m l 的,是在h t m l 的一个扩展。 ( 2 ) 和具体系统相关的( 基本只在相关项目中使用的) 有: o n t o l i n g u a 、c y c l 、l o o m 。 ( 3 ) k i f 已经是美国圜家标准,但是它并没有被广泛应用于互 联网,作为一种交换格式更多的应用于企业缴。 o w l ( w e bo n t o l o g yl a n g u a g e ) “是w 3 c 推荐的语义互联网 中本体描述语占的标准。它是从欧美”些研究机构的一种结合性的 描述语言d a m l + o i l 发展起束的,其中d a m l 来自美国的提案 d a m l o n t ,o i l 来自欧洲的一种本体描述语言。在w 3 c 提出的 本体语言。栈中,o w l 处于最上层,见图2 1 。 t h eo n t o l o g yl a n g u a g es t a c k 图2 1 本体语言栈 喻尔滨1 榉人学硕十学位论文 置i i i 一 一i l l 薯i i i i i ;亩罱薯誓;j i i ;茹蔷 2 2 本体匹配 像w e b ,语义w e b 是分如式的和各种各样的。在语义w e b 中发 现的资源的集成是它的主要问题、= “。为了解决这个问题,数据将在 本体的框架中描述。然而,本体本身是各种各样的,为了赋予互操 作能力,不得不完成一些工作比如本体匹配。 在演化领域,不期望本体总是静态,因此必须追踪本体的各种 吾样的版本。交叉学科的本体可能需要从存在的特定领域本体建 立,特定领域本体可能需要和更通用的本体合并,单个领域的不同 版本可能需要合并,新信息可能需要和存在的本体合并。而且,新 本体可能通过合并各种各样的数据库和其它知识源来建立。因此, 这些本体不得不协调。 语义互操作”是以本体协调为基础的:找到属于不同本体实体 矧的关系。称这个过程为“本体匹配”。匹配结果可以用于各种各 样的目的,像通信、从一个源转换到另一个源、建立一系列本体间 的桥规则、或者产生查找封装。 2 2 1 本体匹配的定义 本体匹配可以定义”“为:描述系列分离实体( 类、属性、规 则、谓词等) 的两个本体,找到这些实体川存在的关系( 例如,等 于或者包含) 。匹配过程“73 简单地包含从一对本体( o 和o ) 产 生匹配( a ) 。匹配过程可以看作是函数f ,从一对本体o 和o , 匹酉b ,输入匹配a ,一系列参数p ,一系列外部信息和资源r ,返回 这些本体i 日j 新的匹配a : a f ( o ,o ,a ,p ,r ) 这个过程描讣为: ( _ 图2 3 匹配过程 8 哈尔滨i :样人学硕十学何论文 许多系统利用一些外部资源的优点像w o r d n e t ,通用目的的预 先匹配和词法规则集合。另外,训练些例子被匹目d 本体和映射模 式方法经常使用。 匹配是从两个表示o 和o 开始,产尘属于o 和o 的实体对 ( e ,e ) 问映射的过程,通常映射可以用四元组表示”: ( e ,e ,n ,r ) 其中:e 和e 是被映射断定有关系的实体( 例如,公式、术语、 类和个体) ; n 是映射的信任程度: r 是关联映射的关系,它定义e 利e 间存在的关系。是指必 须应用到实体对的关系,这个关系可以是简单的集合理论关系,概 论分仃,相似度测量。 22 ,2 本体匹配与模式匹配 模式匹配和本体匹配”1 有一些不同,但是它们的技术发展是互 相有益的,因此有时可以把模式匹配和本体匹配方法看作一个问 题。模式匹配和本体匹配的本质区别在于: ( 1 ) 不仅是数据库模式,还有较广范意义的模式经常不提供 数据的清晰语义,语义通常是设计阶段指定的,不能变成数据库的 部分,在匹配时不能使用。本体是嵌入浯义的逻辑系统。 ( 2 ) 本体数掘模型比模式数据模型更丰富。像o w l 允许定义 反属性、传递属性;不相交的类、新类为其它类的并或者交。 然而本体可以看作知识库的模式( 相反,模式能看作简单的本 体) 。在定义了类和槽的本体中,相当于有实例数据的知识库。因 此剥每个分离问题的技术发展对它们是相互有益的。另一方面,模 式匹配通常通过猜测隐含在模式中的语义的技术帮助下执行。本体 匹配系统尽量发现嵌入在本体中的清晰知识。在现实应用中,模式 本体匹配通常都有定义好的和隐减的标签( 术语) ,及它们产生的 上下文,因此两个问题的解决方法是相互有益的。在本文中,将模 式匹配和本体匹配看作一个问题。 一 ;皇兰至堡垒三;。一 2 2 3 本体匹配与本体集成、本体合并 1 本体集成“。 本体集成是重用其它可用的本体建立一个新的本体。当建立一 个新本体时,存在一些已经建立的本体,使可用的本体成为新本体 的一部分,这样的本体需要符合适当的标准。本体是公共可用的, 它将被重剧。在一些事例中一个完整的本体将组装其它本体建立。 有些时候,重用的本体必须被扩展,专业化或修改。 2 本体合并“” 通过合并关于相同主题的不同本体为一个“合并”它们所有的 单个本体。建立一个合并相同主题的其它存在本体的观点、概念、 区别、公理等等的本体。例如,在医学本体的相当数量的本体u m l s ( u n i f l e dm e d i c a ll a n g u a g es y s t e m ) 和c o r e ( g a l e nc o d i n g r e f er e 】1 c e l 。它们间存在区别,不仅在基本区别而且在那些术语定 义的方法,在用于实现本体的表示等等。当所有这些本体被“集成”t 在合并统一的意义上,一个关于医学领域的新本体被建立。这个本 体尽量统一它们所有的概念、术语、定义、限制等等,使用一个特 定表示的本体实现。 本体合并和集成都是在本体匹配结果的基础上避行的。 2 2 4 本体匹配的应用领域 1 a g e n t 通信 a g e n t 是具有自治和交互能力的计算实体。认知a g e n t s 通过决 定信息“信封”的语苦触发的讲话一行动进行通信,使a g e n t s 在特 定的交互境中找到它们。信息的实际内容是使用知识表达语言描 述,经常使用一些本体。结果,当两个自治和独立设计的a g e n t 相 遇,它们可能交换信息,但是几乎不可能相互理解。因此,为了既 能转换它们的信息又能集成桥公理到它们自己的模型,有必要让这 些a g e n t s 能够匹配它们本体。这个问题的一种解决方法是有一个本 体匹配协议能和其它a g e n t 交互协议交错,当收到外来本体描述的 信息就触发它。 哈尔滨l :科人学硕十学位论文 2 w e b 服务集成 为了用户能调用它们,w e b 服务是在w e b 上公,l :它们接口的一 些过程。语义w e b 服务提供丰富精确的方法描述服务,通过使用知 识表示语言和本体。w e b 服务发现和集成是指找到能完成特定服务 的w e b 服务和为了取得特定的目的,组合几个服务。然而,语义w e b 服务描述不可能通过参考确切的本体进行描述。因此,为了找到适 当的服务和连接服务,有必要建立描述术语间的对应。这需要既可 在线也可离线提供匹配相应的本体。 3 目录匹配 在b 2 b 应用中,生意伙伴在电子目录中存储它们的商品。目录 是树状结构,顾名恩义是有属性的概念层次。目录的典型例子是 w w wa m a z o n c o m ;w w we b a y t o m 等等。为了私人公司参与到市场, 通常斋要确定它目录的全部和市场单个目录的全部对应。在目录洲 映劓全部的过程是指目录匹配问题。有了已经匹配的目录,市场的 用户可以统一访问销售的商品。 4 。p 2 p 数据库 p 2 p 网络具有绝对灵活和动态的特点。p e e r s 叮能在网络上出现 和消失,在语言、内容、怎样改变它们的模式等等上它们的数据库 是自治的。既然p e e r 模式是自治的,即使它们指相同的领域,它们 也可能使用不同的术语。因此,为了建立p e e r 间信息交换,其中的 一步是定义和描绘它们的模式间的关系。这个过程是模式匹配。然 而p 2 p 应用在匹配算法上提出额外的需求。在p 2 p 坏境,像在数据 库集成中,假设所有的p e e r 依靠一个全局的模式是不成立的,因为 随着系统演化全局模式将更新。因此,在数据集成中如果模式匹配 操作能够在设计阶段执行,则在p 2 p 应用中p e e r s 需要在忙碌中协 调它们的数扼库,因此需要一个运行的模式匹配操作。 其它应用还包括紧急语义、本体驱动的数掘集成、从各种各样 多媒体数据库信启、查询、p 2 p 信息共享、个人信息分享等等“1 。 i 喻尔滨i 样人。j :硕十学侮论文 2 3 本章小结 本章对本体的概念、表示语言进行了简单介绍。介绍了本体匹 配和模式匹配的关系,在本文中将它们看作同一个问题。另外还介 绍了本体匹配的定义及本体映射的表达式,本体匹配与本体合并和 本体集成问的关系。并讲述了本体匹配的各个应有领域。 哈尔滨i 程入学硕十学位论文 第3 章本体匹配的原理和方法 3 ,l 本体匹配的技术 3 1 1 本体匹配的局部技术 文献 3 中,局部匹配就是只比较一个元素和另一个元素,而 不在本体的全局范围比较。 m a t c h i n ga p p r o a c h e s n d i 、j , d u a im a t c h e r sc o m b i n e dm a l c h e r s 么兰 a m e t h o d s 图3 1 局部方法的分类 3 ,l1 ,1 相似性和其它测量 有一些方法评估两个实体问的相似性。最普遍的方法是定义这 个相似性的量值。通常包括相似度、不相似度、距离和u t r a m e t r i c s 、 归一化( 不) 相似度。 哈尔滨小挫人学硕士学位论文 3 112 术语方法 术语方法比较字符串。它们能被应用到名称,标签或关于实体 注释找到那些相似的。这个方法能用于比较类名称或u r i 。 ( 1 ) 字符串为基础的方法采用字符串结构的优点( 字母的序 列) 。典型的例子,如寻找相似的类m a t c h 和m a t c h ,而不是 a l i g n m e n t 。 ( 2 ) 语言为基础的方法使用自然语言技术找到概念或类的实 例阳j 关联。这些方法可能既有内部的( 使用实例的内部语言属性, 象形念和句法属性) 或外在的( 需要外部资源的使用,象l e x i c o n 为基础和多语言方法) 。 3 1 1 3 结构的( 内部和外在) 方法 在本体中能找到的实体结构能被比较,而不是比较它们的名称 或标识符。这个比较能细分为实体的内部结构的比较( 如它的属性, 对o w l ,在数据类型中它们值的属性) 或实体与关联的其它实体的 比较。 31 14 扩展( 实例为基础) 扩展为基础的方法比较类的扩展,例如它们的实例集合而不是 它们的解释。这样的技术中有两个非常不同的条件能被使用:当类 共享相同的实例和当它们不共享相同的实例。 31 15 语义方法( 模型为基础) 语义方法的一个关键特点是它们拥有模型理论语义,被用于验 汪它们的结果。因此它们是演绎方法。例子有命题可满足性( s a t ) 和模念s a t 技术或描述逻辑为基础的技术。 文献 4 ,7 中应用s a t 匹配的方法是转化匹配问题,即两个树 形结构( 如概念层次) ,和映射查询到命题公式,然后检验它的有 效性。映射查询就是找到节点对和它们问可能的关系。注意s a t 决 定者是币确的和命题可满足性的完全判定过程,因此将用尽一切地 检查所有可能的映射。 在文献 3 4 中提出的,模态s a t 可以用于扩展命题s a t 的方 法到二元谓词。它的基础是通过接受二元谓词( 如s l o t s ) 从只允许 1 4 哈尔滨i 牲人学硕十学位论文 = 篁;高i ;蒜萱叠薯昌;宣;崔昌;i 嵩暑宣;i 高荨车回薯i i i i 处理元谓词( 如c l a s s e s ) 树的事例定界命题s a t 。关键方法是使 用模态逻辑( 或拙述逻辑) 操作符扩充命题逻辑。因此,匹配问题 被转化为模念逻辑公式,使用充分和完整可满足性查找过程进步 检验它的有效性。 描述逻辑技术罩像包含测试能以纯粹的语义方式用于建立类 之问的关系。实际上,两个本体首次合并( 重命名后) 然后测试每 对概念和关系,因为包含测试足以匹配有相同解释的术语( 或其它 的解释的子集) 。 当然,纯的语义方法不能很好单独执行,它们经常需要一个过 程提供“a n c h o r s ”,例如被宣称相等的实体( 例如以它们的名称或 人类输入为基础) 。 这些方法是语义确切,只提供为1 的幅似度给认为相等的对象。 然而,它们允许实体对问对应更多的表达方式,如一个实体满足另 一个的所有模型或两个实体不能共享一些实例。 3 1 2 本体匹配的全局技术 局部方法确定了相似度和不相似度,下面需要计算匹配。全局 处理包括: ( 1 ) 为了计算复合实体阃的相似度,集成这些基本方法的结 巢。 ( 2 ) 提出种策略计算在循环和非线性中限制管理相似度的 情况下的相似度。 ( 3 ) 将各种各样的相似度匹配算法联合。 ( 4 ) 在循环中涉及的用户 ( j ) 从结果相似度中提取匹配结果:有不同特点的不同匹配 方法可能提取相同的相似度。 3 1 ,2 1 复合相似度 复合相似度是考虑局部相似度的集成。事实上,一些对象被看 成是组合,它们的相似度依靠它们的组成部分问存在的相似度( 例 如,两个类问的相似可能依靠它们的名称,它们的超类和它们的属 哈自i 浜i ? 科人学硕十学位论文 性的相似度) 。主要方法有: ( 1 ) 典型的距离和求加权和; ( 2 ) 二角的正常标准; ( 3 ) 加权平均和模糊集成。 31 2 2 全局相似度计算 复合相似度的计算仍然是局部的,因为它只提供考虑节点邻居 的相似度。然而,相似度可能涉及到整个本体,最后的相似度值可 能依靠整个本体。而且被局部方法定义的距离可能使用了循环的方 法定义( 例如如果两个类问的距离依靠它们实例问的距离,而实例 间的距离依靠它们的类恻的距离) 。在循环依赖的事例中,相似度 的计算不可能再使用局部的方式。为了计算这个全局相似度,必须 制定策略。第一个是定义一个在图中传播相似度的过程,第二个是 被姐型技术解决的一系列等式中转换相似度定义。典型的例子有: ( 1 ) s i m i l a r i t yf l o o d i n g 是一个使用固定点计算决定图中相应 节点的通用图形匹配算法。 ( 2 ) 相似度等式固定点,在许多情况下,例如对称和反属性, 为了使用逐步方式计算相似度,建立实体的顺序是不可能的。文献 3 1 提出方法处理将来定义的相似度俐的循环和依赖。 3 1 2 3 学习方法 象在许多其它领域一样,机器学习方法在本体匹配中是非常有 用的。它主要用在下面两个领域: ( 1 ) 峪督学习,本体匹配算法学习怎样在许多好的匹配( 肯 定) 和差的匹配( 否定) 的表示中工作。因为很难知道哪种技术对 哪种特点的本体工作有效,所以这个方面没有实际应用。 ( 2 从数据中学习,关于它们的关系和它们属于的类,实例 的总体和算法进行通信。算法学习类和属性的匹配问的关系。 使用机器学习有名的方法有:正式概念分析,贝叶斯学习或神 经元网络。 3 12 4 方法复合 局部方法提供的相似度值不得不集成。然而为了组合成一个特 】6 哈尔滨上利人学硕士学位论文 定的算法,匹配和相似评度估方法也要集成。例如,首先计算类名 称削的相似度,然后计算属性问的相似度,它们依赖连接它们的名 称和类的相似情况,然后运行一个固定点算法计算相互俄赖的相似 度。可以分为三种方式: ( l ) 嵌入式组合:方法的链接是算法的一部分,被应用到给 定系统的任何数据集; ( 2 ) 随机组合: ( 3 ) 用户驱动组合。 用户输入 用户和系统组件的有效交互的支持是本体匹配关心的一个问 题。用户匹配通常放在匹配的下列一些地方: ( 1 ) 评估一些术语的初始相似: ( 2 ) 调用和组合匹配方法; ( 3 ) 接受或拒绝一些方法提供的相似或匹配。 3 12 5 提取匹配 匹配的最终目标是一个本体削对应的满意集合。两个本体的实 体削相似度测量提供对应的第一个集合。这些是结果匹配的一部 分,在计算的相似度的帮助下被提取。匹配结果的提取通常分为下 面两步进行: ( 1 ) 阀值:如果本体不需要匹配结果完全覆盖,阀值为基础 的过滤允许保茸那些最相似的实体对。 ( 2 ) 优化结果:如果需要传递映射,为了最大化匹配的“质 量”,需要做出一些选择。匹配算法必须优化全局标准,而不是最 大化每个实体对的局部相似度。 3 1 3 基本的本体匹配方法分类 文献 10 对匹配方法进行分类,首先分为三层,最高层、中f b j 层和底层。 最高层是以匹配的粒度和解释输入信息的技术为基础的。中间 层表示基本匹配技术的分类和它们的具体例子。底层是以基本匹配 哈尔滨r 科人学硕士学位论文 技术使用得输入的类型为基础的。基本匹配程序根据下列分类标准 将最高层区分: ( 1 ) 元素缴和结构级。元素级匹配技术通过分析孤立的实体 计算映射兀紊,忽略与其它实体的关系。结构缴匹配技术通过分析 实体怎样关联在一起计算映射元素。 ( 2 ) 语法与外部与语义。语法技术的关键特点是使有一些清 晰的陈述算法的独立结构的函数解释输入。外部是在匹配过程中利 用领域和公共知识的外部资源解释输入。这些资源可能是人输入的 或者一些词典描述术语或概念问的关系。语义技术的关键特点是它 们使用一些f 式语义c 例如模型理论语义) 解释语义,证明它们的 结果f 确。在语义为基础的匹配系统中,严格的算法是完备的,而 启发算法是趋于不完备的。 中间层基本匹配技术问的分类区别是根据每个具体事例中解 释输入信息的方法。尤其,标签能使用一些自然语言被解释为一个 字符串( 从字母表得到得字符序列) 或者单词或词组,一个层次结 构被看作图形( 通过边关联的一系列节点) 或分类结构( 通过存在 的包含关系组织的集合理论解释的一系列概念) 。因此,介绍基本 的模式本体匹配技术在元素缴有下列分类:字符串为基础语言 为基础,语言资源为基础,限制为基础,和匹配重用。在结构级有 图形为基础,分类结构为基础和模型为基础。 底层的分类只考虑特定技术考虑的输入类型。它的第一级依靠 算法工作的数据类型来分类的:字符串( 术语) ,结构c 结构的) 或模型( 语义的) 。第二个区别语言方法和以内部和外部结构为基 础的方法。 哈尔滨群人学硕十学位论文 。;衫j :蕊懑一嚣l 霉。燮 器1蒜嘉:耍-leii e v l i l 1 纛
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年康复医疗器械市场前景展望:需求升级创新产品驱动行业变革报告
- 2025年特色乡村旅游民宿集群项目投资风险评估报告
- 2025年生态旅游项目可持续发展规划与管理最佳实践报告
- 2025年广播媒体融合发展中的新媒体内容监管与合规报告
- 2025年智能建筑系统集成节能降耗技术路线图深度解析报告
- 2025年工业互联网平台可信执行环境(TEE)在智能制造中的应用研究报告
- 2025年机械制造企业服务化转型对市场策略的影响报告
- 江苏扬州市宝应县公车公司招聘笔试题库带答案详解
- 数据中心合作协议的主要内容
- 解析卷四川绵阳南山中学双语学校7年级数学下册第四章三角形章节练习试题(解析版)
- MATLAB 应用全套课件
- 双侧壁导坑施工工法
- 单片机原理及应用课件
- 低压出线柜安装施工方案
- 持续质量改进在中长导管护理中的应用及并发症的预防
- 新建砖砌台阶施工方案
- 拆除围墙砖石结构施工方案
- 2023山东济南市长清区教体系统所属事业单位招聘22人(共500题含答案解析)笔试历年难、易错考点试题含答案附详解
- 故宫宫廷文化公司介绍
- 地理学科核心素养与地理学经典思想精简版
- 北京大学情报学考研真题汇总
评论
0/150
提交评论