




已阅读5页,还剩36页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
山东大学硕士学位论文 摘要 随着信息技术的不断发展,尤其是数据库和网络技术的高速发展,2 0 世 纪9 0 年代以来,经济和社会生活越来越受到信息的驱动。在国家社会保障 制度日益完善的过程中,各地各级政府都建立的自己的信息系统。早期在 这些系统的建立时,一般都是随机使用自己所理解的描述来存储信息,而 没有一个全国甚至全省统一的描述。因此,这些数据源不仅在地理上是分 布的,更是异构,这对整个社会保障的实施带来了不小的困难。本体技术 的引入,可能在一定程度上解决信息转存时的手动输入问题,实现信息化。 本文就主要是引入本体映射技术,利用一个新型的基于高精确度的本体映 射方法,来实现映射关系,从而实现信息集成的目的。 本体已经成为解决信息集成问题的一个新的突破口,在目前存在的应用 软件中,最主要的还是通过手动来实现的。现在有人已经提出了通过统计学和机 器学习方法来改进本体映射方法,但是没有形成一个成功的应用软件。本文针对 已有映射方法中存在的问题,提出了一种基于概念名称、概念实例、概念定义、 概念上下文关系和概念结构的综合的语义相似度计算模型,详细分析了五个相似 度分量的计算,给出了五个分量的权值的确定策略。同时为了提高映射准确度, 提出了基于高精确度的本体映射方法加以改进,并做了相应的可行性分析。 关键词:本体,本体映射,信息集成,语义相似度 山东大学硕士学位论文 a d s t r a c t 灿o n g 、i 也也ec o n s t 舭td e v e l o p m e n to fi n f o m 砸0 nt i e c t l n o l o 影,e s p e c i a l l y l e d 乱a b 嬲ea n dn e t 、) l ,o r kt e c l l i l 0 1 0 9 yi nm eh i g l l - s p e e dd e v e l o p m 肌ti i lt l l e2 0 t i lc 即t u s i n c et l l el9 9 0 s ,e c o n o l i l i c 锄ds o c i a ll i f em o r e 肌di i l o r ei n f 0 姗撕o n 嘶v e n a tt 1 1 e n 撕o n a ls o c i a ls e c u r i 锣$ s t e mh 嬲i m p r o v e ds t e a d i l yi i lm ep r o c 鼯so fg o v e m m e n ta t a l l l e v e l sh a v eb e 饥e s t a b l i s h e dt l l r o u 曲o u tt l l e i ro 姗i n f 0 加撕0 n 黟s t 朗:1 s e a d yi i l t 量l ee s t a b l i s h m 朗to f 1 e s e 妙s t e m s ,t h em d o mu s et l l e i ro w na r eg e i l e r a l l y 岫d e r s t o o d b yn l ed e s c r i p d o nt 0s t o r ei n f 0 锄“o n ,r 劬e rt t l 觚an a t i o n a lo re v 锄au 1 1 i f i e d d e s c r i p d o no ft 量1 ep r 0 v i n c e t h e r e f o r e ,m e s ed a t as o u r c 豁i sn o t 砌yi i l t l l e g e 0 孕a p l l i c a ld i s t r i b 埘o n ,a i l da l lm em o r eh e t e i d g 肌e 0 惦,w m c ht 1 1 ei n l p l e m e n 枷0 n o fm ee n t i r es o c i a ls e c 嘶够h 觞b r o u 曲tal o to fd i 伍c u l t i e s o n t o l o g y ,血ei r 衄o d u c t i o n o ft e c i u l o l o g y ,m 秽t 0ac e r t a i ne ) 【t e n ta d d r e s si n f 0 咖a t i o nt ot l l em a n u a li n p u to fm e p r o b l e r i l ,丽t 量1i n f o 肌撕o n t h i s 枷d ei s t 0i n 仃o d l l c em em a i nb o d ym a p p i i l g t e c h n o l o 科,b 鹊e do nm eu s eo fan e w 锣p eo 仆i 曲p r e c i s i o ni nt l l eo i 哟l o 舒m 印p i n g m e l o dt oa c h i e v et l l em a p p i n gr e l a t i o n s ,s o 嬲t 0a c h i e v et l l ep u r p o s eo fi i l 】f 0 m 嘶0 n i n t e 伊a t i o n m 协l o g yh 弱b e c 0 m ean e wi s s u eo fab r e 舳r o u g ho fs o l v i i l gi l l f o n 】:i a t i o n 疏e 舒a t i o n i i l 廿1 ee ) 【i s t i n ga p p l i c 撕o ns o f h a r e ,o r 血r o u 曲吐l em a i nm 孤u a lt o a c h i e v e n o w ,s o m ep e o p l eh a v er a i s e dt h r o u 曲m es 删s t i c s 觚dm c h i i l el e 础g m e m o d st 0i m p r o v eo n t o l o 斟m a p p i n gm e t :h o d s ,b u th a v en o tf o m 硷das u c c e s s f m 印p l i c a t i o ns o f 呐a r e t h i sp a p e r h a sb e e ni nm em a p p i n gm e 吐1 0 d ,训1 1 i c hi sb 踮e d0 n m ec o n c 印to fn 锄e s ,c o n c 印t se x 锄p l e ,t l l ec o n c 印td e f i i l i t i o no ft 量l ec o n c e p to f c o n t e ) 【ta i l dt l l es 机l c t u r eo ft h ec o n c 印to fi n t e g 阳t e ds e m 锄石cs i i l l i l 撕锣c a l c u l a t i o n n l o d e l ,d e t a i l e da 1 1 a l y s i so fm ef i v ec o m p o n e n t so fm es i l i l i l 撕锣c a l c u l 撕0 np r e s 肌t e d f i v ew e i 曲tv a l u eo fm ed e f i n e ds t r a t e g y m e a l l w h i l e ,i no r d e r 幻i m p r 0 v em e a c c u r a c yo ft 量l em 印sw a sp r o p o s e db 弱e do nm el l i 曲p r e c i s i o no n t o l o g ym 印p i n g m e t l l o dt 0b ei m p r o v e da n dm a d et l l ec o r f e s p o n d i n gf e 邪i b i l i 锣a i l a l y s i s k e y w o r d s :o n t o i o g y o n t o l o g ym a p p i n g ,i n f o 珊a t i o ni n t e g r a t i o n ,s e i m m t i c s i m i l a n 锣 i i 原创性声明和关于论文使用授权的说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行 研究所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他 个人或集体已经发表或撰写过的科研成果。对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式标明。本声明的法律责任由本人承担。 论文作者签名:2 随日论文作者签名:彳终瘟鬓 日期: 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学校保留 或向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅;本人授权山东大学可以将本学位论文的全部或部分内容编入有关数据库 进行检索,可以采用影印、缩印或其他复制手段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:犋导师 山东大学硕士学位论文 第一章绪论 随着人类社会由工业社会发展到信息社会,数字化信息正在迅速增长, 看似已经超过了人们可以对其的进行掌控和利用的能力。根据加利福尼亚 大学伯克利分校信息管理和系统学院的研究人员发现,全球每年产生的不 重复信息量在l 一2 0 p b ,也就是说地球上每个人均要产生2 5 0 的信息量。 在信息膨胀和信息源多样化的共同作用下,对信息的检索更趋于复杂。 随着信息技术的不断发展,尤其是数据库和网络技术的高速发展,信 息技术在企事业中获得了越来越广泛的应用,企事业信息化程度不断提高, 企事业所积累的信息资源在飞速增长。这些信息资源包括文本、表格、源 代码、服务、视频、音频等多种形式。这些信息形式多样,缺乏统一的描 述,给各企事业信息资源的集成和管理带来诸多挑战,主要表现在以下几 个方面: ( 1 ) 如何使被管理的信息资源具有应用程序能够理解的含义,实现信息 资源处理过程自动化、智能化 ( 2 ) 如何对特定领域中积累的大量信息资源进行有效管理,使用户可以 找到与需求相关的信息资源 ( 3 ) 如何根据信息资源所具有的领域知识含义,将分散在各种异构系统 中的相关信息方便、快速地融合后呈现给用户 1 1 论文的研究背景以及问题的提出 在国家社会保障制度日益完善的过程中,各地各级政府都建立的自己的 信息系统。早期在这些系统的建立时,一般都是随机使用自己所理解的描 述来存储信息( 例如,文本、表格、源代码等等) ,而没有一个全国甚至 全省统一的描述。因此,这些数据源不仅在地理上是分布的,更是异构, 这给信息集成带来了很大的困难,也就对整个社会保障的实施带来了不便 的因素。 各地信息数据在结构和语义上的不一致性,已经成为了信息化进程中的 一个主要障碍。由于计算机技术的迅猛发展,导致了现在最初的手工,后 山东大学硕士学位论文 来的简单数据库,现在的复杂数据库等多种不同的格式共存的格局,这些 数据异构问题就成了信息集成中最难以解决的问题。例如,个人信息中, 由于各地最初没有统一的字段标准,可能使用了“地址一,也可能使用了 “住址,当这个人的个人信息因某种原因需要变动时,由于两地的数据 表达形式和结构的不一致,将很可能需要人工手动输入对应信息,而无法 实现自动转入。当这种情况规模扩大到企业,数量也增多的时候,人工手 动操作可能变成一个不可能。而当前各个机构间的数据交互,还是在数据 库层上实现的。 数据异构问题也表现在,不同的数据源中,数据一般都是独立表示的, 少有考虑他们之间的关系和外延。无论哪种集成形式,在给源数据赋予一 些含义的时候( 即涉及到语义) ,都会产生一系列的问题。更糟糕的是, 有时候即使语义相同,也可能表现形式有所不同。在信息集成中所要解决 的问题有: 1 ) 数据类型不同,例如,姓名,住址等字段可能在一个数据源中是可 变字符串表示,而另外的数据源中则是定长,而身份证号则还可能是整数 型来表示。 2 ) 值不同,例如,性别在不同的数据源中可能用不同的表示形式( “男, “m a l e ,“m ”:甚至可能用“o ”表示男,而“1 表示女) 。 3 ) 数据缺省,在不同的数据源中,必然会存在不同的字段。有的数据 源觉得这个属性是没有必要的就没有记录,但是另外的数据源中,则认为 是必要的。 目前已经有不少的集成技术来解决上述为问题,但是现有的集成技术 绝大多数仅仅是形式上的集成,没有考虑数据的语义,并不能真正意义上 达到信息集成的标准。为了解决信息集成中的问题,解决信息转存时的手 动输入问题,加快国家社会保障制度完善步伐,本文在信息集成的基础上 提出了基于高精确度的本体映射技术,以解决信息集成过程中的手动匹配 各个异构数据源的问题。 2 山东大学硕士学位论文 1 2 研究目的和内容 本论文研究的总体目标是在信息资源重用、共享、协同应用等方面实现 半自动化甚至自动化的程度,解决目前社会保障制度实施过程中遇到的数 据异构问题。在解决问题的过程中,主要运用了信息集成中的本体映射技 术;在本体映射中,主要就本体概念的名称、定义、实例、上下文关系和 结构分量分别进行计算,然后综合考虑各个分量,计算出概念的语义相似 度,然后根据概念的语义相似度,结合领域专家的判断,得出最后的映射 关系。 1 3 主要工作 本文就目前社会保障制度实施过程中遇到的数据异构问题,综合分析了 现在已有的信息集成方法,总结其优缺点,合理利用其优点,改善其缺点, 提出了一个利用基于高精确度的本体映射方法来解决社保方面的信息集成 问题。在本文中,重点介绍了基于高精确度的本体映射方法,在该方法中, 利用了语义相似度来发现本体间的映射关系。而语义相似度则分别从本体 概念的名称、定义、实例、上下文关系和结构五个方面分量考虑,分别计 算其语义相似度,然后利用不同的权值来综合五个分量的值,计算一个综 合语义相似度。最后,根据综合语义相似度来完成本体映射关系,实现信 息集成的最终目的。 1 4 论文组织结构 本文的组织结构如下: 第一章绪论: 阐述课题背景、研究现状、研究水平、研究内容、研究意义及本文的工作和 论文组织结构。 第二章相关研究: 本章介绍了相关技术知识背景,包括本体的基本知识、基于本体的数据集成 及已有本体映射方法并分析了信息集成中已有本体映射方法存在的问题,简单的 山东大学硕士学位论文 介绍一下系统框架。 第三章基于高精确度的本体映射: 本章针对已有映射方法中存在的问题,提出了一种基于概念名称、概念实例、 概念定义、概念上下文关系和概念结构的综合的语义相似度计算模型,详细分析 了五个相似度分量的计算,给出了五个分量的权值的确定策略。同时对基于高精 确度的本体映射方法做了相应的可行性分析。 第四章试验结果和分析: 本章首先构建了两个实验本体,然后运用第三章提出的综合语义相似度计算 模型进行了模拟实验,对实验结果进行了详细的分析,从而得出实验结论。 第五章总结和未来工作: 总结本文工作,并指出进一步的研究方向。 4 山东大学硕士学位论文 第二章相关研究 信息集成的主要内容是:集成不同硬件、不同操作系统、不同数据库管理系 统和不同应用软件组成的异构数据处理环境下的数据,例如:对数据模型、数据 库模式、查询语言以及事务处理的不同协议、并发控制、数据库状态一致性维护 等的集成。信息集成的目的是屏蔽底层数据源的异构性,提供给用户一个可以理 解的、简明的视图。而本体则在信息集成中扮演着一个重要的角色,本章重点来 讨论基于本体映射信息集成的问题。 2 1 信息集成中已有的本体方法 信息集成的根本任务是提供用户对多种异构信息源的透明的、一致的和实时 的访问。在信息共享中不仅要提供对异构数据的完全访问,同时需要远程系统对 被访问的数据能够进行处理和解释。但是,目前实现这一目标仍然有一个难题, 即语义冲突的问题。 利用本体解决信息集成问题,其原因:其一,本体提供了一个丰富的、预先 定义好的词汇表,作为数据库和数据模式之间的一个稳定的概念接口。其二,用 本体表达的知识有足够的理解力以支持相关信息源之间的转换。其三,本体能够 很好地支持数据一致性的管理 1 。因此希望用本体来描述信息源的语义从而解 决语义异构的问题,通过本体对信息的表达从而实现语义级的共享和重用,因而 本体为智能代理提供了交流工具,同时它使得推理规则的出现成为可能。 2 本体可以为概念提供明确规范的表达,因此可以用本体描述信息源的语义。 本体表达的对象不仅可以是w e b 上的数据也可以是任何遗留数据库。用本体描述 数据源可以通过三种途径来进行数据集成:单一本体方法、多本体方法和混合方 法: 1 单一本体方法( s i n 9 1 eo n t 0 1 0 9 y 印p r o a c h ) 该方法用全局本体为所要表达的语义提供一个共享词汇表,如图2 1 所示。 在这个全局本体中,所有的信息源都与之相关。该方法适用于信息源集成后提供 相近视图的领域中,它对信息源的变化敏感,信息源的改变引起本体所表达的领 域概念的改变。这一缺点导致多本体方法的出现 山东大学硕士学位论文 图2 1 单一本体方法 2 多本体方法( 舢1 t i p l eo n t 0 1 0 9 i e sa p p r o a c h ) 该方法中每个信息源都有各自的局部本体,如图2 2 所示。该方法中,由于 缺少公共词汇表很难在不同数据源的本体间进行比较。为了解决这一问题,需要 定义本体间的映射关系。 图2 2 多本体方法 3 混合方法( h y b r i da p p r o a c h e s ) 与多本体方法类似,混合方法中每个信息源都有各自的局部本体,如图2 3 所示。但是为了局部本体间的比较,每个局部本体的构建参照一个全局的共享词 汇表,该词汇表中包括本领域的基本术语。该方法的优点是,很容易添加新的信 息源,而无须修改什么,同时它也支持本体的构建和进化。再者,共享词汇表的 使用使得来自于信息源的局部本体间可以进行比较从而避免了多本体方法的缺 点,但是,该方法中已存在的本体很难被重用,必须重新构建。 图2 3 混合方法 表2 1 概括了各种不同方法的优缺点: 6 山东大学硕士学位论文 单奉体方浚多零髂方法混合方法 执行妓鬻童缕代侨糟研接受 语义髯构 视图鞫耋更 支持髯构搅瞪 支掩髯构橇翻 僖蠹源增加,籀耍调整全局撬供新豹与箕链誊提供新的潭奉体 励豫 奉悔 体榈荚的零体 与多奉体方法缺乏毵攀零体r 露使用戴辜词鬏 的吃较赡袭,确革 表2 1 三种不同方法的优缺点 2 2 信息集成中的本体映射 2 2 1 本体映射的概念 本体的发展和应用导致大量不同的本体的出现,它们可能覆盖相同的领域或 者在覆盖的领域有重叠部分。为了不同团体能够彼此理解,需要使用共同的形式 化表达,但是不可能让所有的人都对一个共同本体达成共识。所以,当同一领域 中出现不同本体时映射( m a p p i n g ) 的问题就出现了。本体间的映射是代理间或使 用本体的应用服务间实现互操作性的前提不同的应用程序之间拥有自己独立的 本体,它们之间的信息共享或者数据交换只能通过不同的独立本体之间的映射 3 来实现。 本体映射是指有两个本体a ,b ,对于a 中的每个概念我们试图在概念b 中为它 找到一个语义相同或相近的对应概念,对于概念b 中的每个概念或结点亦是如此 4 。正如同有的本体定义考虑实例而有的不把实例作为本体的一部分一样,有 的文献把实例的转换作为映射过程的一部分,如:两个本体存在概念级的语义关 联,按照这些语义关系把源本体实例转换为目标本体实例的过程就是本体映射 5 6 。本体映射并不是要统一本体和数据的表达,而是根据概念级的语义关系 实现实例的转换。 完整的映射过程分为映射的发现、表达和执行。“发现”即用手工、半自动 化或自动化的方法找出来自两个不同本体的相关的、相似的概念、属性及它们之 间的关系。“表达,即用一种语言表达前面发现的映射关系。“执行 即根据映 7 山东大学硕士学位论文 射关系完成实例从源本体到目标本体的转换。 本体的映射类型有概念一概念、属性一属性、属性一概念之间的映射等 7 。 概念一概念( c o n c e p t c o n c e p t ) 的映射关系,是指不同本体中的两个概念表达相 同类型的信息,它们是一致的。属性一属性( a t t r i b u t e a t t r i b u t e ) 间的映射关 系,是指不同概念中的两个属性所指信息一致。属性一概念( a t t r i b u t e c o n c e p t ) 间的映射关系,是指本体中一个概念的属性跟另本体的某概念所表达的信息一 致。 2 2 2 已有的本体映射方法 本体映射已经成为现在解决信息集成问题的一个重要的途径,目前已经有不 少已经开发出来的本体映射方法,例如:斯坦福大学的本体代数方法;基于概念 实例的g l u e 方法;基于概念定义的相似度计算方法;本体比较方法;d i o g e n e 的 本体映射方法;一种集成的映射方法;a c m 和i t t a l k s 映射的方法;基于统计学的 w o r d n e t 和e d r 映射方法。下面简单介绍一下各个方法: 1 斯坦福大学的本体代数方法 8 该方法使用本体代数通过关联本体实现本体间的互操作它的输入是本体的 图。本体的映射由本体代数来执行。它包括三个操作符,即本体交、本体并和本 体差。本体代数的目标是提供一种能力用来查询大量语义无关知识资源。这里将 建立关联( 跨领域链接的规则) 以实现知识的互操作。相似的工作也可以在 m c c a r t h y 和c y c 9 ( c y c o r p sc y ck n o w l e d g eb a s e ) 中看到。o n i o n 中的本体是 用概念图来表示的,因此,本体的映射就是基于图的映射。同时,领域专家可以 定义各种各样的模糊匹配。利用图形学方法进行本体映射的还有b i o a g e n t 1 0 中比较不同代理的概念的方法。 他们还做了一个被称为0 n i o n ( o n t o l o g y c om p o s i t l 0 n ) 的系统,这是一种基 于合理形式的框架,用于支持本体集成的可伸缩框架。其前景是,逻辑推论引擎 尽可能从本体表现模型中分离。o n i o n 中的本体是使用概念图来表示的,因此, 本体的映射就是基于图的映射。同时,领域专家可以定义各种各样的模糊匹配。 o n l 0 n 的主要创新就是,用本体的关联关系来进行本体间的互操作,而且它图形 化表示本体,这样有助于把数据层和推论引擎分离。 山东大学硕士学位论文 这一方法进行本体映射的思想是,本体用图结构来表示,从而把本体映射转 换为基于图的映射。该方法中,图结构的形成有赖于概念结点间的层次结构。当 本体中的概念间的关系不充分时,得到的是一个个相互之间没有很多联系甚至是 孤立的点,这时无法形成“图,更不能再图的理论进行映射,该方法就失效了。 2 基于概念实例的g l u e 方法 1 1 华盛顿大学的a n h a i d o a n 等提出了一种在语义w e b 环境下进行本体映射的方 法。他们的g l u e 系统通过机器学习方法对概念的实例进行分类,然后利用实例在 概念中出现的联合分布概率来计算概念间的相似度,并结合领域约束和启发知识 确定映射关系。 但是我们注意到,在计算相似度时仅仅参考了实例信息。如果两个概念是相 似的,但是实例集却没有重叠实例,则计算得到两个概念间的相似度值为零。这 显然是不合适的,实例集交集为空并不能说明概念间一定不相似。因而,这种方 法过份依赖于较大而完备的实例集的选取,但是现实中很难找到充分多的实例。 同时,有些情况下可能根本没有概念实例。 3 基于概念定义的相似度计算方法 1 2 m a n d r e a r o d r i g u e z 和m a x j e g e i l l l o f e r 提出了一种利用概念定义计算概念间 相似度的方法。其基本思想是,本体中概念由三个部分组成:表示概念的同义词 集、概念间的语义关系集、刻画概念的特征集。分这三个部分相应进行匹配比较 来自不同本体的概念,得到三个相似度的值,然后三个分量加权综合得到两个概 念的语义相似度,进而确定他们间的映射关系。作者用w o r d n e t 和s d t s 两个本体 进行了实验。 该方法中,作者的思路是根据概念间的语义相似度确定它们的映射关系,在 计算相似度时主要是利用了概念的定义信息( 同义词集和特征集) 和概念间的层 次结构信息( 即这里的语义关系集) ,但是该方法中完全没有考虑实例信息。当概 念的定义不完备时,概念实例信息是概念定义信息的重要补充。 4 本体比较方法 德国卡尔斯鲁厄大学( u n i v e r s i t y of i 【a r l s r u h e ) 的a i f b 学院提出了一种计 算相似度的方法 1 3 1 4 作者提出,在进行本体比较时,从句法级和语义级两 个层次计算相似度。在句法级比较中,同前面的d i o g e n e 方法一样,用“编辑距 9 山东大学硕士学位论文 离”( e d i t d is t a n c e ) 算法比较两个实体s ,c 的字符串( s t r i n gm a t c h i n g ) 。在语 义级比较阶段主要比较分类h 和模板槽s ( 作者认为本体由7 个部分组成,其中包括 h 和s ,详见文献 1 3 1 4 ) ,计算其分类重叠( t 0 ,t a x o n o m i co v e r l a p ) 的平均相 似度。 该方法主要是从句法级和语义级两个层次上计算概念的相似度,然后对它们 进行比较。其实同样的思路可以用于本体映射中。同时,该方法在计算句法级相 似度时利用概念名信息( 从概念名的拼写上计算编辑距离) ,这一层次并没有考虑 语义信息。在语义级相似度计算时,利用分类体系和模板槽信息,这些正是概念 定义和结构信息。 5 d i o g e n e 的本体映射方法 1 5 通过对己有映射方法的研究,可以得到这样的共识:i ) 语义相似度计算是本 体映射中的重要步骤:2 ) 计算相似度时可参照概念的名称、实例、定义、上下文 关系和结构信息:3 ) 概念的名称、实例、定义、上下文关系和结构信息都在一定 程度上体现了概念间的关系。 在进行两个本体映射时,基本方法是计算来自不同本体的概念间的语义相似 度,然后根据相似度确定它们之间的映射关系,因而相似度直接影响到映射的准 确率,相似度的计算是本体映射中的一个重要问题。在计算概念间的语义相似度 时,不同学者针对应用本体特点提出了不同的方法。有的是把本体表示为一个有 向图,然后本体映射转换为图中结点的映射,用图形学的方法计算语义相似度, 采用这一方法的是n i o n 和b i o a g e n t 。有的是利用统计学的方法,用非图结构表 示本体,然后统计概念实例的重叠个数计算概念间的语义相似度,或者计算概念 名的编辑距离、基距离等。 2 2 3 存在的问题 通过上节对映射方法的分析,可以看出,概念的名称信息、实例信息、定义 信息、上下文关系和结构信息都对计算概念间的相似度有贡献,它们都是概念的 组成部分,都在一定程度上体现了概念间的关系。 与此同时,我们也能发现这些问题: 1 已有的相似度计算方法只考虑了部分信息,其他信息根本没有考虑或者只 l o 山东大学硕士学位论文 是作为一个辅助信息。 本文认为,相似度的计算应尽可能准确,应综合概念的名称信息、实例信息、 定义信息、上下文关系和结构所有信息。这样才能从根本上提高映射的准确率, 而不能根据不完全信息得到的语义相似度来发现映射关系,然后从计算语义相似 度时未用到的其他信息中找出一些规则来辅助映射关系的发现。 2 已有的映射方法都是针对具体的应用本体的,而由于不同应用本体的特 点,采用的方法也不尽相同,这些方法都是根据各自的特点得到的,不能适应环 境的变化。 2 3 信息集成的基本框架 本节主要介绍基于本体映射信息集成的基本框架,该框架主要分为3 个部分: 信息源层、本体映射层、应用层。 ( 1 ) 信息源层 信息源层包括各地不同的数据源,大量不同的数据源分布于各个不同地区数 据库之中。各地的应用不同,因此对信息源的表述以及存储采取了不同的格式, 如:文档、幻灯片、报告、数据库、知识库等:这些信息源在语义上以及语法上 均可能存在异构。不同信息源中,对相同的知识项可能采用不同的术语表示。即 使同一个信息源中相同的知识项,不同的人也可能采用不同的术语表示。这给不 同信息源之间的通信和互操作造成了极大的困难。因此,必须解决这些信息源的 语法异构和语义异构问题。 ( 2 ) 本体映射层 本体映射层是整个系统的核心部分。主要利用本体映射的方法实现半自动化 甚至自动化的信息集成,利用了多策略的本体映射技术,并在技术上提出了基于 高精确度的方法来改进,以提高映射准确度。该层的详细描述将在下章详细讲述。 ( 3 ) 应用层 该层主要包括业务系统、过程系统、o r 哟l o 留系统、用户系统等一些应用软 件系统。 山东大学硕士学位论文 2 4 本章小结 本章主要介绍了目前信息集成中的一些研究方法,并且就现有的研究方法总 结一下他们各自的优缺点,分析了目前信息集成中本体映射仍然存在的不足之 处。简单介绍了一个基于本体映射的信息集成框架。 山东大学硕士学位论文 第三章基于高精确度的本体映射 信息集成中最重要就是找出两个信息源的映射关系,本体映射技术能够较好 的发现异构数据源间的映射关系,所以说本体映射是解决信息集成异构数据源的 一个重要的方法。下面我们就来探讨一下本体映射的一些问题。 本体映射中通常通过概念间的语义相似度发现映射关系,语义相似度的计算 是本体映射中的重要步骤。己有的映射方法中,计算相似度时,有的参照概念名 称语法信息,有的参照概念定义信息,有的参照概念的实例信息,有的参照概念 层次结构信息,有的参照概念上下文关系信息,大多数是综合了其中的几种方式。 通过研究发现,这五个对象都在一定程度上体现了概念间的关系。同时,目前映 射方法中也存在一个问题,即已有映射方法都是针对具体的应用本体的,因而不 能适应环境的变化。针对己有映射方法中存在的问题,本文提出了一种基于概念 名称语法、概念实例、概念定义、概念结构和概念上下文关系的综合的语义相似 度计算模型,然后利用基于高精确度的本体映射来找出信息集成中的不同数据源 间的映射关系,最后达到信息集成的目的。 3 1 多策略本体映射 信息集成中最重要问题就是找出两个信息源的映射关系,本体映射方法在映 射关系发现过程中扮演着一个重要的角色,一个好的映射方法可以快速的发现两 个数据源之间的映射关系,较好地实现异构数据源之间的信息集成。而语义相似 度是本体映射的一个重要的判断依据,语义相似度高那么他们之间有映射关系的 可能性就大。所以语义相似度关系到映射关系的发现,关系到最后信息集成的好 坏。语义相似度的计算在信息集成中占有一个非常重要的位置。 为了加快社会保障制度的实施,解决实施过程中个人信息源异构带来的一系 列问题,本体提出了一个基于高精确度的本体映射方法,以便于解决这一问题, 而在该方法中,语义相似度的计算起了一个非常重要的作用。 综上所述,信息集成的关系是本体映射,而本体映射的基本方法就是计算本 体概念间的语义相似度,然后根据相似度确定映射关系。语义相似度的计算是本 体映射的核心部分。 1 3 山东大学硕士学位论文 在语言学研究中,词汇之间的距离是词汇之间的一种重要关系。一般而言, 词语距离是一个( 0 ,+ ) 之间的实数,一个词语与其本身的距离为0 。词语 距离与词语相似度之间有着密切的关系。两个词语的距离越大,其相似度越低: 反之,两个词语的距离越小,其相似度越大。两个词语距离和相似度之间可以建 立一种简单的对应关系。这种对应关系需要满足以下几个条件:两个词语距离为o 时,其相似度为1 :两个词语距离为无穷大时,其相似度为o ;两个词语的距离越 大,其相似度越小( 单调下降) 。 定义对象x 和y 之间的相似度函数s i m ( x ,y ) ,则有: 1 s i m ( x ,y ) o ,1 ; 2 s i m ( x ,y ) = o ,则有x = y ,即两个对象相同; 3 s i m ( x ,y ) = 1 ,则说明两个对象x ,y 毫无关系; 4 s i m ( x ,y ) = s i m ( y ,x ) ,相似函数s i m ( x ,y ) 具有对称性。 但是,概念的相关性和相似性是两个容易混淆的概念。刘群等人辨析了词汇 语义的相关性和相似性之间的关系 ,认为概念相似性反映的是概念之间的聚合 特点,而概念相关性反映的是概念之间的组合特点。相似度是对相似性程度的度 量。相关性和相似性之间存在着密切的联系。如果两个概念非常相似,那么这两 个概念之间的相关性程度会比较高也就是说相似概念之间一般都是相关的,但 是相关却不一定相似。例如“地址和“经十路两个概念,其相关性非常高, 但是这两个概念之间的相似性却非常低。可以通过概念之间的相似性来解决部分 的相关问题 。 在本体概念映射时,可以依据它们之间的相似度来做判断。本文用s i m ( c l , c 2 ) 表示两个概念c l 和c 2 之间的相似度函数,设定一个阐值t h ,当s i m ( c 1 ,c 2 ) t h 时,我们认为概念c 1 和c 2 是相似的,或者说,概念c 1 和c 2 之间存在映射关系。 因此,我们就把本体映射的问题转化为概念语义相似度计算的问题。 为了能够获得较为准确的本体映射关系,本文采用了多策略的本体映射方 法。该方法在计算本体间相关性( 相似度函数s i m ( x ,y ) ) ,分别考虑了本体概 念的名称信息、实例信息、定义信息、上下文关系信息和结构信息,然后根据各 个不同的方面分量通过元公式综合计算出其相似度,最后通过领域专家根据经验 等对元公式中的参数进行修改,达到一个较为准确的程度。 1 4 山东大学硕士学位论文 在多策略的本体映射方法中,其重点就在于各个分量的相似度计算和元公式 的构建,下面就分别介绍各自的含义和计算方法: 3 2 本体映射中的相似度计算 我们从上节可以看出,在本体映射过程中,其最为关键的就是发现本体间的 映射关系。为了能够较为精确的发现映射关系,我们采用了多策略的本体映射方 法,在该方法中需要从名称、定义、实例、上下文和结构方面综合分析,最终得 出一个较为准确的映射关系。在分析各个方面的过程中,我们主要是计算本体概 念间的相似度,通过相似度的计算来确定本体间的映射关系。因此,在本体映射 过程中,本体间概念相似度的计算就成了关键部分,下面我们逐一介绍一下各个 方面的概念相似度的计算过程。 3 2 1 本体概念名称的相似度计算 概念名称相似度最( q ,c 2 ) ,主要分析的方法就是名称相似分析法,就是对概 念名称的相似度进行计算,其中并没有考虑概念含义的一种较为简单的相似度计 算方法。主要方法有两种:1 ) 尽量识别比较常用的词根;2 ) 利用编辑距离算法 比较两个个概念名称字符串的相似度。 采用编辑距离表示字符串之间的匹配程度,由l e v e n s h t e i n 提出的编辑距离 是一种测量字符串差异的常用方法,它测量从一个字符串转换到另一个字符串 所需的插入、删除、替代等的最小操作数目。基于l e v e n s h t e i n 的编辑距离,定 义两个概念q ,乞的字符相似性如下: 咖一( 0 ,型捌搦产) 【0 ,l 】 公式3 1 其中最( q ,乞) 表示概念名称相似度,1 1 1 i n ( i q i ,i c :i ) 表示两个概念之间的距离, 耐( q ,c 2 ) 为编辑距离,表示一个字符转换到另外一个字符的最小操作数,例如, “a b c 一和“d 之间的最小操作数为2 ,即先删除“b ”后加上“d 一。 山东大学硕士学位论文 3 2 2 本体概念定义的相似度计算 概念定义相似度s ,h ,c 2 ) 的计算,这里概念定义相似度s ,“,乞) 的计算方 法参考了m a n d r e a r o d i r g u e z ,m a x j e g e l l l o f e r 提出的计算方法 。在 m a n d r e a r o d i r g u e z 和m a x j e g e n h o f e r 提出的利用概念定义计算概念间相似度的 方法中,概念定义信息包括两个方面:表示概念的同义词集和刻画概念的特征集, 而特征集又可以分为:功用( f u n c t i o n ) 、组成( p a r t ) 和属性( a t t r i b u t e ) 三个部 分。同义词集是表示一个概念的名字的词集,因为存在一词多义,同义词集在表 达词义时比一个词更为准确。如“呼吸道 可以是人体的器官、医院的部门、病 人的病症位置等多个意思,但当它和“医院”、“医生等共同表达一 个实概念时,一定是“医院的部门之意。概念的特征是指来自同一父结点的概 念之间彼此区分的属性,分功用( f u n c t i o n ) 、组成( p a r t ) ,属性( a t t r i b u t e ) 三个 部分。功用指它的用途,如“地址”用来标识一个单位或者个人的具体地理位置。 组成是指它的组成部分,如“地址 最起码要有省份,地市,县市,乡镇,哪个 村( 路) 等信息。属性( a t t r i b u t e ) 指除了前面二者之外的其它特征等等。 上面描述的是本体表达为英文时,如果用中文表示概念信息,则无需前面所 述的同义词集来表达一个概念,几个汉字组成的词语足以表达它的意思。这时, 需要匹配的概念名,即中文表示概念信息时,同义词集由表达这个概念名的各个 汉字组成。 概念间定义相似度s ,( q ,c 2 ) 可以如公式3 2 表示: 已心,乞) 2 瓦i 瓦f i 瓦i 乏再易三号旨= 面丽公式3 2 ) 其中q 和乞分别表示概念g 和c 2 的描述集合( 同义词集,特征集等) ,l qn 乞i 集合q 和乞的交集的元素个数,i q 巳l 表示属于集合q 但是不属于集合c :的元素 个数,而比例因子口( c 1 ,c 2 ) 满足公式3 3 : 口( g ,巴) = 1 6 鸭 郴 历 弘 螂 嘶 球 m 洳 丽 丽一业 眯而泐一一 撕一m 皇峋 d 丽 丽 丽 面 山东大学硕士学位论文 其中却历( c 1 ) 表示从概念g 到根( r o o t ) 的最短路径距离。这样我们可以计算出 来自不同本体的概念类之间的语义相似度。 3 2 3 本体概念实例相似度计算 概念实例相似度墨( q ,乞) ,主要是利用本体概念的实例作为计算本体概念间 相似度依据。相似本体概念的实例通常情况下也是相似的。对于每个本体概念的 实例,我们从它们的描述,注释信息提取出重要信息,然后通过基于定义的方法 来确定每个概念实例的相似度。最后我们通过每个概念实例的相似度综合起来实 现本体的映射。 在概念实例相似度s 心,乞) 中,利用机器学习方法,计算实例的联合分布概率, 从而得到实例相似度墨( q ,乞) 的矩阵。这一点源于g l u e 系统口的思想。用机器学 习方法计算一对概念( q ,c :) 的联合分布从而求得p ( q ,乞) ,p ( 石,乞) ,p ( c 1 ,乏) , 然后用公式3 4 求得两个概念间的相似度: 骗廿( q n 圳盹u 咖雨万篙舞面丽公式3 - 4 ) 其中p ( q ,c 2 ) 表示一个随即的实例即属于概念c l 又属于概念乞的概率, 尸瓴,c 2 ) 表示一个随即的实例不属于概念q 但属于概念c :的概率,尸( q ,乏) 表示一 个随即的实例属于概念q 但不属于概念乞的概率。他们也满足公式3 5 : 尸( c 1 ,c 2 ) = ( u q ,吒) + ( q 吃) 【( u ) + ( ) 】 ( 公式3 5 ) 其中表示分类q 的实例集,( 阢) 表示实例集的大小,即实例个数, ( u q 以) 表示q 中同时属于q ,c 2 的实例个数。 根据g i 厄系统【】,p ( a ,b ) 的计算步骤如图3 - 1 : 1 7 山东大学硕士学位论文 1 把本体q 的实例集阢分成w 和吲,即属于_ 和不属于彳的实例集相 互独立: 2 把w 和砰作为硼练样本的正反集合训练生成学习器工, 3 把本体呸的实例集分威叼和w ,即属予曰和不晨予占的实例集 相互独立; 4 应用学习器工于嵋,于是把四分成c ,r 和够y 同样地,把砑分 为u p 秘u ? i 5 重复第l 至第4 步,互换d l 和呸,得到四”,印。印。酽; 6 应用公式3 5 计算舷功 图3 1p ( a ,b ) 的计算步骤 利用上述方法可以计算出p ( q ,乞) ,p ( 巧,乞) ,p ( q ,乏) 的值,然后带入公式3 4 得出概念实例相似度最( q ,c 2 ) 。 3 2 4 本体概念结构的相似度计算 概念结构相似度墨 ,c 2 ) :概念结构蕴涵着概念间的语义关系,本实验中考 虑最常见的两种语义关系有:概念之间部分与整体的关系( p a r t - o f 或 p a r t - w h 0 1 e ) :概念之间的某种继承关系、从属关系( i s a 或h a s a ) ,如概念f a t h e r 和s o n 之间。从m a n d r e a r o d r i g u e z ,m a x j e g e n h o f e r 的实验结果来看,这两种关 系就己经足够,在时间并不充裕的情况下,没有条件考虑更多更全面的语义关系。 在未来还可以考虑更丰富的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 校园防疫知识培训会报道课件
- 技工安全知识培训资料课件
- 2025年财务分析与预算岗位招聘面试预测题详解
- 2025年公安民警岗位招考笔试专业题集锦
- 扶贫知识培训会新闻稿课件
- 扶贫政策知识大培训班课件
- 期中考试作文读圆明园的毁灭有感550字14篇
- 做一条自由游泳的鱼(13篇)
- 《呼啸山庄》课件
- 2025年航空装备行业需求分析及创新策略研究报告
- 2024-2025学年苏教版四年级下学期期末测试数学试卷(含答案)
- 动脉导管未闭封堵术的医疗护理
- 农村供水管网延伸工程可行性研究报告
- 快递公司快递员管理制度
- T/CECS 10207-2022榫卯式钢管脚手架构件
- 师德师风警示教育课件
- 物业服务安全生产培训
- 精神运动发育迟缓护理要点
- 华为员工合同协议书
- 车位包销合同协议书范本
- 教师名师笔试试题及答案
评论
0/150
提交评论