已阅读5页,还剩57页未读, 继续免费阅读
(计算机软件与理论专业论文)信息集成中多策略本体映射方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
山东大学硕士学位论文 摘要 信息集成可以屏蔽数据的半结构性、异构性和分布性,为用户提供统一的模 式,实现异构数据源之间的信息交换及从异构数据源中有效地获取信息。 在异构数据源的集成中,解决语义异构一直是个难题。本体是共享概念模型 的明确的形式化规范说明,能够有效地表达特定领域内的通用知识,可作为信息 集成中的通用语义模型,利用这一特点,基于本体的信息集成能够解决这个问题。 在基于本体的信息集成中,多个应用本体间不可避免地出现语义冲突,如何 解决这些冲突正是本体映射的研究内容。研究表明,可以通过计算概念间的语义 相似度来发现映射关系。同时,概念的名字、概念的实例、概念的定义和概念的 结构层次关系和约束等在不同程度上体现了概念间的关系,因此本文采用多策略 一综合考虑本体多方面的特征,包括概念的实例、概念的定义和概念的结构层次 关系等,可以提高本体映射的准确性,更好的完成映射任务。 目前已有映射方法大部分都没有利用已有的映射历史。本文提出一种充分利 用映射经验来发现潜在的映射关系的方法,该模型利用已有的映射经验推导出隐 含的映射关系,以提高本体的映射效率。然而在多策略映射系统中,多策略并不 总是优于单策略的,对于一个映射任务,应该怎样选择最优的策略组合? 本文提 出了子策略探测的方法,利用基于子策略的探测方法选择最适合当前映射任务的 子策略组合,本文所做的工作和创新点主要体现在以下几个方面: 提出了种多策略的本体映射系统、简要介绍了映射系统的组成,该系统综 合利用本体多方面的信息,有效的提高了映射的准确性;并介绍了一种基于本体 的校园信息集成系统模型,该模型作为映射系统的试验平台;提出了多策略的本 体映射系统中的映射经验存储,并提出映射重用算法,通过映射重用提高映射效 率;为了探测最优的子策略组合我们改进了个探测算法,有效地提高了的探测 效率;介绍了多策略的本体映射系统的综合语义度计算过程和整个映射过程的算 法。 关键词;信息集成;本体映射;映射重用:多策略;策略探测 山东大学硕士学位论文 a b s t r a c t i n f o r m a t i o n i n t e g r a t i o n c a l ls h i e l dt h ec h a r a c t e r i s t i c so fd a t as u c h 弱 s e m i - s t r u c t u r e d , h e t e r o g e n e i t ya n dd i s t r i b u t i o n ,a n dc o n s e q u e n t l yp r o v i d e sau n i f i e d p a t t e mf o ru s e r st oe x c h a n g ei n f o r m a t i o nf o rh e t e r o g e n e o u sd a t ar e p o s i t o r ya n dt o o b t a i nv a l u a b l ei n f o r m a t i o nf r o mh e t e r o g e n e o u sd a t ar e p o s i t o r y i ni n f o r m a t i o ni n t e g r a t i o no fh e t e r o g e n e o u ss o u r c e si ti sap r o b l e mt os o l v e s e m a n t i ch e t e r o g e n e i t y o n t o l o g yi sac l e a ra n df o r m a ls p e c i f i c a t i o no fs h a r i n g c o n c e p t u a lm o d e l ,a n di tc a l le f f e c t i v e l ye x p r e s st h eu n i v e r s a lk n o w l e d g ei ns p e c i f i c a r e a sa n dc a nb eu s e da sm ec o m m o ns e m a n t i cm o d e lo fi n f o r m a t i o ni n t e g r a t i o n s y s t e m t h e r e f o r e ,o n t o l o g y - b a s e dd a t ai n t e g r a t i o nm i g h tb e u s e dt os o l v et h e p r o b l e mo fs e m a n t i ch e t e r o g e n e i t y i no n t o l o g y b a s e di n f o r m a t i o ni n t e g r a t i o n ,s e m a n t i cc o n f l i c t sc o u l da p p e a ri nm u c h o n t o l o g y ,a n di ti st h ep r o b l e mf o ro n t o l o g ym a p p i n gt os o l v e a tp r e s e n t ,i ti ss t u d i e d t h a to n t o l o g ym a p p i n gc o u l db ed i s c o v e r e db yc a l c u l a t i n gt h es e m a n t i cs i m i l a r i t yo f d i f f e r e n tc o n c e p t s t h es i m i l a r i t yc a l c u l a t i n ga f f e c t st h ep r e c i s i o no fm a p p i n g s o c a l c u l a t i o no fs e m a n t i cs i m i l a r i t yi sa ni m p o r t a n ti s s u e m e a n w h i l e ,i ne x i s t i n g a p p r o a c h e s ,s i m i l a r i t yo f t e nd e r i v e sf r o mt h ei n s t a n c e ,d e f i n i t i o na n ds t r u c t u r eo f c o n c e p ta n de t c a f t e rr e s e a r c hw ef i n dt h a tt h ea b o v et h r e er e f e r e n c e do b je c t sr e f l e c t t h er e l a t i o n sb e t w e e nc o n c e p t si ns o m ed e g r e e t h e r e f o r e ,t h i s p a p e ru s e s a m u l t i s t r a t e g yo n t o l o g ym a p p i n gs y s t e m , c o n s i d e r i n gt h ev a r i o u sc h a r a c t e r i s t i c so f o n t o l o g y ,i n c l u d i n gt h ei n s t a n c e s ,d e f i n i t i o na n ds t r u c t u r eo fc o n c e p ta n ds oo n t h i s s y s t e mc a ni m p r o v et h ea c c u r a c yo fo n t o l o g ym a p p i n g ,a n dc o m p l e t em a p p i n g m i s s i o nb e t t e r m o s to ft h ec u r r e n tm a p p i n gm e t h o d sh a v en o tm a d et h em o s to ft h em a p p i n g h i s t o r y t h i sp a p e rp r o p o s e sam a p p i n gr e u s em e t h o do ft a k i n gf u l la d v a n t a g eo f m a p p i n ge x p e r i e n c et od i s c o v e rt h ep o t e n t i a lm a p p i n g ,a n di m p r o v e st h em a p p i n g e f f i c i e n c y h o w e v e r ,e x p e r i m e n t ss h o wt h a tt h em u l t i - s t r a t e g yd o e sn o ta l w a y s o u t p e r f o r ms i n g l e - s t r a t e g y w ep r o p o s ead e t e c t i n ga p p r o a c ho fm u l t i p l es t r a t e g i e s i i 山东大学硕士学位论文 s of a rt h er e s u l t so b t a i n e ds h o wt h a tm u l t i s t r a t e g yd e t e c t i o ni m p r o v e sp r e c i s i o na n d r e c a l ls i g n i f i c a n t l y i nb r i e f , w em a k et h ef o l l o w i n gc o n t r i b u t i o n si nt h i sp a p e r : w ep r o p o s em u l t i s t r a t e g yo n t o l o g ym a p p i n g ,i n t r o d u c et h ec o m p o s i t i o no ft h e m a p p i n gs y s t e mb r i e f l y t h i sm a p p i n gs y s t e mu t i l i z e so fv a r i o u so n t o l o g y i n f o r m a t i o n ,s oi te f f e c t i v e l yi m p r o v et h ea c c u r a c yo ft h em a p p i n g ;w ep r o p o s et h e m o d e lo ft h eo n t o l o g y b a s e di n f o r m a t i o ni n t e g r a t i o na sat e s tp l a t f o r mf o rm a p p i n g s y s t e m ;w ed e s c r i b et h em a p p i n gr e u s ea l g o r i t h mi nd e t a i la n dt a l ka b o u th o wt o s t o r a g et h em a p p i n gh i s t o r y m a p p i n gr e u s ei m p r o v e st h ee f f i c i e n c yo fo n t o l o g y m a p p i n g ;i no r d e rt od e t e c tt h eo p t i m a ls e to fs t r a t e g i e sw eh a v ei m p r o v e dad e t e c t i o n a l g o r i t h m , a n di ti m p r o v e st h ee f f i c i e n c yo ft h ed e t e c t i o n w ei n t r o d u c eh o wt o c a l c u l a t et h es e m a n t i cs i m i l a r i t yo ft h eo n t o l o g yu s i n gm u l t i - s t r a t e g yo n t o l o g y m a p p i n gs y s t e m i n f o r m a t i o ni n t e g r a t i o n ;o n t o l o g ym a p p i n g ;m a p p i n gr e u s e ; m u l t i s t r a t e g y ;d e t e c t i o n i i i 原创性声明和关于论文使用授权的说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本 论文不包含任何其他个人或集体已经发表或撰写过的科研成果。 对本文的研究做出重要贡献的个人和集体,均已在文中以明确方 式标明。本声明的法律责任由本人承担。 论文作者签名:垒耋多 日期:竺墨:竺y 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同 意学校保留或向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅;本人授权山东大学可以将本学位论 文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或其他复制手段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:雀查苎导师签 山东大学硕士学位论文 第一章绪论 随着计算机应用越来越广泛,各行业各部门之间要求能够实现信息的交流和 共享。但各部门、各地区之间,由于相同的数据由不同用户以不同方式建模,导 致了不同程度的异构,使得相互联系的部门之间不能交换信息。信息集成技术就 是为实现各数据源间信息的交流和共享而发展起来的。近年来,对信息集成的研 究一直是数据库研究领域及其它相关领域一个非常热门的课题。 信息集成【1 】,也称为数据集成,就是要实现不同应用系统中异质信息资源跨 时间、空间的透明、无缝整合,以便以集成和统一的方式为用户提供更高层的信 息服务。信息集成问题解决后,才能为其它诸如信息查询、信息共享等服务提供 基础。 实现各异构信息源彼此间“真正的理解 1 2 1 ,是信息集成目前面临的难题。 这就要求信息集成不仅仅解决信息语法、信息结构层面的异构,更重要的是消除 信息语义层面的异构,解决异构信息的一体化表示和描述问题,在此基础上才能 有效地依据不同的信息体系和应用目的对信息进行合理有效的组织、管理和利 用。信息集成需要解决以下几个方面信息的异构问题:系统异构、结构异构、语 法异构、语义异构【3 】。其中系统异构包括硬件和操作系统,例如,硬件、系统软 件( 如操作系统) 和通信系统之间的差异;语法异构包括不同的语言和数据表示: 结构异构包括不同的数据模型;语义异构包括用户信息请求的语义和数据源的语 义。现在已开发出很多技术来解决这些类型的异构,前三种类型的异构可以利用 诸女i :i c o r b a ,d c o m ;乖1 3 各种中间件等产品来解决,但语义异构仍是信息集成领域中的 一个研究重点。 为了解决语义异构问题,在信息集成中必须提供本体及本体映射,来屏蔽信 息之间的语义异构。本体间的映射是本体理论和技术中的一个重要部分。 本章先提出本文的研究背景,分析信息集成中本体映射的研究现状,最后介 绍了本文研究的主要内容和本文的组织结构。 1 1 课题研究背景 随着高校信息化的发展,校园中出现了越来越多的应用系统和数字资源,在 山东大学硕士学位论文 各种应用系统下又积累了丰富的教学管理数据资源。这样就形成了成千上万个异 构的数据源,有传统的数据库、文件系统,以及h t m l ,x m l 等半结构化的数据,还 有图片、声音和其它多媒体信息等非结构化的数据。这些数据资源由于软硬件平 台各异、数据模型各异而形成了异构数据,使各数据源间的互操作变得复杂、困 难,使它们成为信息孤岛。用户必须面对着风格各异的应用系统界面,从中寻找 自己感兴趣的信息和服务。 校园信息化的普及推动着人们对于个性化信息服务的需求,人们希望能够通 过统一的用户界面获取自己感兴趣的信息与服务,而不用关心究竟有哪些数据源 为自己提供服务。由于传统部门结构的特点,各个部门分别担负各自的职能, 分别使用不同的应用信息系统,从而导致众多关键的信息被封闭在相互独立 的系统中,无法实现信息共享。例如招生部门的招生系统、教务科的学生成绩管 理系统、学生科的学生管理系统,都是一个个“信息孤岛 ,没有实现信息互通。 在校园信息应用系统中各部门的应用系统都是独立运作自行开发,这些系统往往 都是异构的,它们有着不同的开发环境,采用不同的实现平台,不同的数据结构 和实现方式,彼此之间没有任何的信息交互。然而随着校园应用系统的不断增加, 数据信息量也在不断增长,数据无法共享、数据冗余及劳动重复等一系列问题不 断暴露出来,各系统之间的不协作、信息无法沟通,严重制约了校园信息化建设 的进一步发展。 因此,为了更好地利用网络上浩繁的信息,以及不造成校园管理应用系统的 重复建设和数据资源的浪费,人们迫切需要集成这些地理上分布、管理上自治、 模式上异构的各部门的数据源。如何提供一个有效的机制,消除信息系统之间信 息孤岛、实现信息之间的互操作,已经成为校园信息化进程中急需解决的问题。 如何在异构数据环境中集成、访问这些校园管理信息呢? 首要关键的问题是 研究异构数据之间的信息集成问题,只有将这些孤立的数据都集成起来,并且提 供给用户一个统一的视图,才有可能从巨大的数据资源中获取所需的东西,这就 是校园管理的信息集成技术。 为了解决校园信息集成中的语义异构,引入了本体。校园信息集成中的多个 数据源根据自身的分散特性,不同的数据源可以构造不同的本体,导致了在校园 领域产生了许多不同的本体。这些本体间是异构的,它们之间不能进行互操作, 用户之间也不能相互理解。这时迫切需要知道这些不一致概念之间的映射关系, 2 山东大学硕士学位论文 于是在信息集成的过程中就出现本体映射的问题。本体映射成为本体应用中的一 个重要问题。其实,只要出现多个本体的集成和应用,就不可避免地会出现本体 映射的问题。 在进行两个本体映射时,基本方法是计算来自不同本体的概念间的语义相似 度,然后根据相似度确定它们之间的映射关系,因而相似度直接影响到映射的准 确率,相似度的计算是本体映射中的一个重要问题。单纯只考虑本体的概念的实 例或概念结构等本体单方面的信息来进行本体映射时,映射结果不够精确。于是 出现了多策略的映射方法,但是已有的多策略的本体映射方法不够灵活,不能随 本体特征的不同进行变化。 1 2 国内外研究现状 1 2 1 基于本体的信息集成的研究现状 信息集成的根本任务是提供用户对多种异构数据源的透明的、一致的和实时 的访问。在信息共享中不仅要提供对异构数据的完全访问,同时需要远程系统对 被访问的数据能够进行处理和解释。但是,目前实现这一目标仍然有一个难题, 即语义冲突的问题。数据源的语义异构分为两种类型:一种类型指相同的数据在 不同数据源中的表现形式存在差异( 属性名、数据格式和类型) ;另一种类型指由 于数据维护错误导致同一数据项在不同数据源中有不同值。从另一个角度来说, 语义异构可以分为三种,一个是语义上相等的概念( 同义词) ;一个是语义不相关 的概念( 同一个词在不同的系统中可能被用来表述同一个概念) ;一个是相关的概 念( 由不同的分类方式导致) 。 传统的信息集成技术仅仅考虑从逻辑级或者物理级来实现,而基于本体的信 息集成技术引入了概念级,可以提高系统在知识表示方面的抽象程度。用本体进 行信息模型的语义建模,进行知识推理,增强系统的灵活性、扩展性和重用性。 本体在信息集成中的作用有三个,通常是用本体表达信息源内容,还可以用 来表示查询模型( q u e r ym o d e l ) 和进行检验( v e r i f i c a t i o n ) 。本文所讨论的是本 体在信息集成中表达信息源内容的情形。 基于本体的信息集成的方法中,用本体描述数据源可以通过三种途径来进行 信息集成【3 刀:单一本体方法、多本体法和混合方法。 山东大学硕士学位论文 1 单一本体方法( s i n g l eo n t o l o g ya p p r o a c h ) 该方法用全局本体为所要表达的语义提供一个共享词汇表,如图所示。在这 个全局本体中,所有的信息源都与之相关。该方法适用于信息源集成后提供相近 视图的领域中,它对信息源的变化敏感,信息源的改变引起本体所表达的领域概 念的改变。这一缺点导致多本体方法的出现。 2 多本体法( m u l t i p l eo n t o l o g ya p p r o a c h ) 该方法中每个信息源都有各自的局部本体,如图所示。该方法中,由于缺少 公共词汇表很难在不同数据源的本体间进行比较。为了解决这一问题,需要定义 局部本体间的映射关系。 3 混合本体法( h y b r i da p p r o a c h e s ) 与多本体方法类似,混合方法中每个信息源都有各自的局部本体。但是为了 局部本体间的比较,每个局部本体的构建参照一个全局的共享词汇表,该词汇表 中包括本领域的基本术语。该方法的优点是,很容易添加新的信息源,而无须修 改什么,同时它也支持本体的构建和进化。再者,共享词汇表的使用使得来自于 信息源的局部本体间可以进行比较从而避免了多本体方法的缺点,但是该方法中 已存在的本体很难被重用,必须重新构建。 4 山东大学硕士学位论文 本文中的基于本体的校园信息集成模型使用第三种方法混合本体法来 设计。 1 2 2 信息集成中本体映射的研究现状 信息集成中的本体映射可以看作是本体从不同角度或者不同应用领域到不 同任务和应用的视图,构建本体映射是分布式环境下实现不同本体之间共享和交 流的基础性任务。早期的本体映射依赖于领域专家以手动的方式建立,而目前正 向本体映射的半自动化、自动化研究发展。 在本体映射方面的研究已有很多。已经提出的映射方法有斯坦福大学的本体 代数方法【5 1 ,华盛顿大学g l u e 系统的基于概念实例的方法吲,m a n d r e ar o d r i g u e z 和m a xj e g e n h o f e r 提出的利用概念定义的方法【7 1 ,德国卡尔斯鲁厄大学( u n i v e r s i t yo fk a r l s r u h e ) 的a i f b 学院提出了的本体比较方法【8 】【9 】,d i o g e n e 本体 映射原型系统中的映射方法【1 0 】,卡尔斯鲁厄大学的s w a p ( s e m a n t i cw e ba n d p e e r t o p e e r ) 工程研究组提出的集成映射方法【1 1 】等等。其实,在本体映射方面 的研究还处于早期阶段,不过,己经有越来越多的研究者加入到这个团体中,并 取得了一些研究成果【1 2 1 13 1 ,除了一些具体本体映射时的方法,还陆续有些支持 映射的工具出现。卡尔斯鲁厄大学的k a o n ( t h ek a r l s r u h eo n t o l o g ya n ds e m a n t i cw e bi n f r a s t r u c t u r e ) 工程中提出了一个本体映射框架m a f r a 【1 4 1 ( m a p p i n g f r a m e w o r k ) 。m a f r a 是k a o n 中的一个开源模块,目前已经发布了一个t o o l k i t 包和 一个h m a f r a 包【1 5 】。 根据研究重点的不同,可以将信息集成中本体映射相关的研究分为s c h e m a 映射、基于上层本体的映射、基于相似度的映射、基于机器学习的映射、基于组 合方法的映射及其它映射研究,表i - i 给出了对已有本体映射系统的分析。 5 山东大学硕士学位论文 系统语言学结构约束实例附加 c i i o标记父子兄弟节点 m a f l t a 名称 父子、兄弟节点 o n t o m 印 名称父,子节点文档 c o m a名称路径 c u p i d 名称父,子节点父、子关系 g l u d名称邻域实例 c - i i m 翻u a名称 父,子节点 f c a - m v r g c 名称领域内特殊文档 i f - m a p 实例参考本体 f c 啊l m 名称,标记 父、子节点相等 p r o m p t 名称有向豳 s - v k m ;b标记路径标记上的路径w o l t h l 矗 ( ( :i ,l 嘶l c l l ) 编码 o m e nb n 图 i m a p 无) 叶子、孩定义域,值域实例 w o r d r 蜮 子,相关节点 f b i 旧标记相关节点定义域,值域 r i m o m名称父,子节点定义域,值域 实例 w o r d n e t h c o n e名称父,予节点 w o r d n c t a r t g e n名称父,子节点颁域内特殊文档w o r d n e t a s c o 名称,标记父子,兄弟节点 啊r o “l n 酋 路径 c r o s l名称父,予节点定义域、值域 w o r d n d a u t o m s名称,标记父,子节点父、子关系实例w o r d n 爿 d s s i m名称叶子节点名称 w o r d n e t h _ 翻曲名称父子节点,相关w o r d 腻 节点 o l a 名称,标记父子节点、相关父子关系,名 w b r d n 矗 节点称 1 s c h e m a 映射1 6 l :通过定义全局模式来描述所有的分布数据,这样信息集成 问题就变成了分布数据库模式到全局数据库模式的映射问题。然而基于本体的信 息互操作和语义集成问题是一个更加动态的知识共享过程,这种全局模式的方法 有些不太适合。但许多面向s c h e m a 映射的基本方法和技术还是可以被借鉴到本体 映射的研究中。实际上,目前很多s c h e m a 映射系统都在进行扩展以支持本体映 射。 2 基于上层本体的映射方法:通过定义上层本体( 目的是提供一个通用的词 汇集作为领域本体定义的基础) ,然后不同的领域本体分布基于这些上层本体的 建立,这样不同领域本体之间的映射问题就可以利用它们和上层本体之间的关系 实现。这种方法的前提是所有领域本体必须基于上层本体建立,严重地限制了该 方法的通用性。 6 山东大学硕士学位论文 3 基于相似度计算的本体映射【1 刀:通过计算两个实体元素之间的相似度,映 射的发现问题可以看作搜索相似度最大的两个实体元素的问题。但在大多数的情 况下都只能发现局部最优的映射结果,对其进行扩展以发现全局最优映射需要面 向特定应用建立映射规则,这在一定程度上限制了该方法的普遍应用。 4 基于机器学习的映射:将映射问题转换为分类问题。分类学习的方法通常 利用一个本体中的信息学习分类模型,然后利用另一个本体中的信息预测其每个 元素可能的映射对象。通常利用己有的机器学习方法,如使用支持向量机、贝叶 斯学习以及神经网络( n e u r a l n e t w o r k s ,n n ) 等,但没有充分利用本体中的所有可 能信息,如元素名称、本体约束及本体结构上下文等信息。 5 组合映射:集成综合利用了上面的方法以提高精度,少数系统还提供了用 户交互的功能,女f f a n c h o r p r o m p t 1 8 1 和c h i m a e r a 1 9 】。 6 其它本体映射研究:如基于语义推理的映射方法【2 0 】:关于复杂映射的研究, 如m u l t i - m a t c h e rs y s t e m 2 1 1 和i m a p 2 2 1 等;关于映射效率的研究包括q o m 2 3 1 等。 1 3 课题研究的主要内容 为了解决校园中各个应用系统中的信息集成问题,本文提出了一个基于本体 的校园信息集成框架。该框架集成各数据源的信息,给用户提供统一的用户查询 使用接口。 本体间的映射是代理间或使用本体的应用服务间实现互操作性的前提。在基 于本体的校园信息集成应用中,建立起多个本体间的映射关系,是进行查询处理 的基础,在解决校园内不同部门、不同业务系统之间的数据共享、互连互通的问 题中具有典型意义。在基于本体的校园信息集成应用中,为了利用多信息源的信 息来进行检索,我们须用本体映射来解决本体之间的对应关系。为了得到更好的 本体映射结果,应当充分利用待映射本体一切可能的信息类型。因此,在一个系 统中结合多个本体映射策略是一个很好的方法。 我们在已有的多种单一映射方法的基础上,综合本体的多方面特征提出了 一种多策略的本体映射方法,提高本体的映射精确度。并充分利用已有的映射经 验,提高本体映射的效率。由于不同的待映射本体的特征不同,本文使用探测方 法根据映射任务选择最优的子策略组合来进行本体相似度计算,以提高本体映射 7 山东大学硕士学位论文 系统的灵活性。 1 4 本文所做的工作 本文重点主要针对多策略的本体映射系统和其中的主要技术进行分析和介 绍。本文的创新点主要有: 1 提出了一种多策略的本体映射的架构,综合考虑本体多方面的信息,有效 的提高了映射的准确性。并给出了架构的初步实现和映射算法。并提出了 一个基于本体的校园信息集成模型,作为实验平台。 2 提出了映射经验重用,及映射经验的存储和映射重用的算法,通过映射重 用提高映射效率。 3 提出了一个策略探测方法,提高了探测的效率 1 5 本文结构 本文第二章系统阐述了本体和本体映射的一些基本概念、基础知识,介绍了 基于本体的校园信息集成模型并对其进行了概括的描述。然后介绍了多策略的本 体映射的架构,并描述了该架构中各模块的功能。 第三章分别详细的多策略的本体映射的架构中用到的各子策略,及各子策略 的具体计算过程和策略组合。 第四章着重论述了映射重用的概念,及映射经验的存储,提出了一个映射重 用的算法;第二节提出了一个多策略的探测方法,改进了探测的效率。 第五章介绍了我们的多策略本体映射系统的部分实现、综合语义相似度计算 过程及算法,并分析了实验结果及该映射系统的优越性。 第六章对全文进行总结,并对今后的工作提出一些设想。 8 山东大学硕士学位论文 第二章信息集成和多策略本体映射系统 2 1 基于本体的校园信息集成系统 根据前面提到的混合本体的部署结构,本课题建立一个基于本体的异构数据 源集成系统模型,采用本体解决校园数据源信息的语义异构,是信息集成中的优 势。本原型系统实现一个基于语义的校园信息集成框架。该集成框架中最重要的 组成元素是共享词汇库( 全局本体) 、局部本体和各种数据源( 学生信息库,教学 资源等) ,以及它们之间的数据通讯。该模型采用w e bs e r v i c e s 的框架,使用一 组w e bs e r v i c e s 协议来构建。对每个数据源都为其创建一个w e bs e r v i c e ,然后 使用w s d l 向服务中心注册。当要构建一个新的集成应用时,集成端首先向注册中 心发送查找请求、收集并选择合适的数据源,然后通过s o a p 协议从这些数据源获 取数据。该原型提供了一个端到端的解决方案,用来管理和协调庞杂的数据。 统一用户接口 存储管理器 i 二3 l 缓存库 全局代理 本体管理器 全局本体 语义冲突检 测 推理组件 映射表 查询处理器 鬲荔万t 磊 局部本体 一局部代理ll 局部本体l j 局部代理 语义包装器 r d b 语义包装器 舭数据源 图2 - 1 基于本体的信息集成模型 应用 层 全局 代理 局部 代理 r 数据 源 9 豢 山东大学硕士学位论文 该原型系统为以下几章的本体映射提供了一个映射实验平台1 3 7 ,下面简要介 绍一下信息集成原型系统及其组成。如图2 1 所示。 数据源层 由于校园中有多个应用系统和数字资源,就形成了成千上万的异构的数据 源,有传统的数据库、文件系统,以及h t m l ,x m l 等半结构化的数据,还有图片、 声音和其它多媒体信息等非结构化的教学数据。这些数据资源由于软硬件平台各 异、数据模型各异而形成了异构数据。数据源层是整个系统架构的基础,也是系 统数据的提供者,它在集成环境中是预先存在的、异构的、自治的数据源。本文 中所涉及到的异构信息源,我们只考虑目前作为数据存储和管理主要手段的两种 格式的数据,关系数据和x m l 数据。语义包装器在数据源和局部本体之间进行转 换,抽取数据源的元数据形成数据模式,交给代理层处理:另一方面,接收代理 层的请求到具体数据源中抽取数据,进行查询请求响应。 局部代理层 局部代理是局部数据源的访问接口,它负责维护局部数据源经过封装后的数 据模式,同时还负责将全局代理传送过来的x q u e r y 查询请求翻译成具体数据源的 本地查询,并将本地查询的查询结果封装后送到全局代理层的缓存库中。局部代 理层的重要组成部分是与各个异构数据源相对应的局部本体,局部本体与数据源 之间的映射关系也被局部代理进行管理。通过这种映射规则信息,局部代理层才 能实现查询重写的功能。局部本体,是在数据源的元数据基础上建立起来的,用 一致的本体建模语言从语义层上对各个数据源进行描述。它维持着抽象概念与各 局部数据源之间的映射关系,并记录数据源的物理位置、访问权限等,以保证对 各分布数据源的正确访问。 全局代理层 全局代理层主要有全局代理、本体管理器、查询处理器和缓存管理器四部分 组成。全局代理通过与本体管理器的协作,处理与用户接口有关的问题,并通过 查询处理器分解有关全局查询语句到子查询语句的过程。当用户的查询应答得到 满足后,全局代理会组合来自局部代理的中间结果,从而获得全局查询的最终结 果。把每个可供查询的数据源看作是一个所谓的“w e bs e r v i c e ”,数据源注册 模块就是负责把这些数据源在平台中的u d d i 注册中心进行注册发布,从而实现这 些数据源和所谓“w e bs e r v i c e 的绑定。每个数据源提供对于自身的语义描述, 1 0 山东大学硕士学位论文 包括接口、该数据源对应的局部本体和网络的标识如u r l 等信息,由局部代理提 交给数据源注册模块。 应用层 应用层解决了用户对着风格各异的校园各部门的应用系统界面查找所需信 息的苦恼,该层主要完成界面展示功能。用户通过此层根据全局本体驱动的图形 界面向下一层提交查询。查询结果也通过该接口按照某种形式呈现给用户。 2 2 应用本体表示校园信息集成系统中的语义信息 2 2 1 本体o n t o io g y 语义信息的表示最早起源于人工智能领域,比较传统的方法有一阶谓词逻辑 表示法、产生式表示法、框架表示法、脚本表示法、语义网络表示法、面向对象 表示法等。但是传统的方法不能表示w e b 信息的语义,要使w e b 上的信息具有计算 机可以理解的语义,满足智能软件代理( a g e n t ) 对w w w 上异构分布信息的有效访问 和搜索,人们开始使用人工智能中本体的概念来表示语义信息。 在我们的校园管理信息集成系统中,引入本体来表示系统中概念的层次结 构。 本体( o n t o l o g y ) 是某个领域内不同主体之间进行交流( 对话、互操作和共享等) 的一种语义基础,即由本体提供明确定义的词汇表,描述概念和概念之间的关系, 作为使用者之间达成的共识,从而知识搜索、知识积累、知识共享的效率将大大 提高,使真正意义上的知识重用和知识共享也成为可能。 本体( o n t o l o g y ) 是共享概念模型的明确的形式化规范说明。这个定义体现了 o n t o l o g y 的四层含义【3 0 】:概念模型,明确,形式化,共享。 1 概念模型( c o n c e p t u a l i z a t i o n ) 通过抽象出客观世界中一些现象( p h e n o m e n o n ) 的相关概念而得到的模型,其 表示的含义独立于具体的环境状态。 2 明确( e x p l i c i t ) 所使用的概念及使用这些概念的约束都有明确的定义。 3 形式化( f o r m a l ) o n t o l o g y 是计算机可读的。 山东大学硕士学位论文 4 共享( s h a r e ) o n t o l o g y 中体现的是共同认可的知识,反映的是相关领域中公认的概念集, 它所针对的是团体而不是个体。 本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该 领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇( 术语) 和词 汇之间相互关系的明确定义。 在基于本体的校园信息集成系统中,我们使用本体表示语义信息。使用本体 概念之间的交互关系表示系统中概念的层次结构。基本的关系有4 种:p a r t o f , k i n d o f ,i n s t a n c e o f 和a t t r i b u t e - o f 。 p a r t o f :表达概念之间部分与整体的关系; k i n d o f :表达概念之间的继承关系,类似于而向对象中的父类和子类之间的 关系; i n s t a n c e o f 表达概念的实例和概念之间的关系,类似于而向对象中的对象和 类之间的关系; a t t r i b u t e o f :表达某个概念是另外一个概念的属性; 采用本体解决校园异构信息集成中的语义异构。由语义异构分类可知,需要 解决的语义异构包括命名异构、格式异构、属性异构、外延异构和混淆异构。其 中一些类型的异构可以在定义本体时就予以解决,有些需要在本体与本体、本体 与数据源映射中予以解决。 外延异构中的包含元素类型异构就可以通过本体定义语法中的r d f s : s u b c l a s s o f 以及r d f s :s u b p r o p e r t y o f j 注行解决。 命名异构中的相同实体使用不同名字的异构、外延异构中的等价元素类型异 构可通过o w l :e q u i v a l e n t c l a s s 矛 i o w l :e q u i v a l e n t p r o p e r t y 语法解决。 命名异构中的不同实体使用相同名字的异构通过不同数据源对应于不同局 部本体己可以得到解决。对于同一数据源里的不同实体使用相同的名字,将在本 体定义中对概念的i d 采用附加上层概念i d 的方式解决,如p r o f e s s o r i d 和 a s s o c i a t ep r o f e s s o r i d 。 属性异构通过使用本体中的r d f s :s u b p r o p e r t y o f 语法来解决。 外延异构中的交叉元素类型异构可以通过本体定义语法中的o w l : i n t e r s e c t i o n o f i 吾法进行解决。 1 2 山东大学硕士学位论文 外延异构中的不相交元素类型异构可通过在全局本体中使用o w l :u n i o n o f 语 法进行解决。 格式异构通过类公理或函数、查找转换表来解决。其中有属性类型的不同, 复i l i d 属性有i n t s e l s t r i n g 两种;有度量单位不同,如工资使用美元$ 和人民币¥两种; 有数据精度不同。这些格式异构可通过一个映射表来解决这个问题。 混淆异构可通过为产生混淆的术语指定一个标准来解决,如“最近的 就可 以在数据源集成的领域内被规定为某一定值。 数值异构不在本文的考虑范围内。 o n t o l o g y 可以用自然语言来描述,也可以用框架、语义网络或逻辑语言等来 描述。具体描述o n t o l o g y 的方法很多,目前使用最普遍的方法是o i l 、o i l + d m a l 、 r d f s 、o w l 、o n t o l i n g u a 、c y c l $ 口l o o m 等。 2 2 2 本体描述语言 本体描述语言o w l ( w e bo n t o l o g yl a n g u a g e ) 是w 3 c 推荐的语义,j e a n 规范的 一部分。o w l 适用于这样的应用,在这些应用中,不仅仅需要提供给用户可读 的文档内容,而且希望处理文档内容信息。o w l 能够被用于清晰地表达词汇表 中的词条( t e r m ) 的含义以及这些词条之间的关系。而这种对词条和它们之间的关 系的表达就称作o n t o l o g y 。o w l 相对x m l ,r d f 和r d f s c h e m a 拥有更多的机制 来表达语义,从而o w l 超越了x m 【。r d f 和r d f s c h e m a 仅仅能够表达网上机器 可读的文档内容的能力。o w l 由3 个表达能力递增的子语言成:o w l “t e ,o w l d l ,o w l f u l l f 3 1 1 ,分别描述如下:o w ll i t e :用于提供给那些只需要一个分类层 次和简单的属性约束的用户。例如,支持基数( c a r d i n a l i t y ) ,只允许基数为0 或1 。 o w ld l :支持那些需要在推理系统上进行最大程度表达的用户,这里的推理 系统能够保证计算完全性( c o m p u t a t i o n a lc o m p l e t e n e s s ,即所有的结论都能
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 水环境治理设施合同
- 2025年事业单位招聘考试教师招聘体育学科专业知识试卷模拟题库及答案
- 8 插花艺术(教学设计)苏教版六年级下册综合实践活动
- 2025年P气瓶充装证模拟考试题及答案
- 2025年气瓶充装特种设备作业P证理论全国考试题库含答案
- 2025年新员工厂级安全培训教育考试试题及答案
- 2025年心肺复苏填空试题及答案
- 生产经营单位生产安全事故应急预案备案登记表
- 2025年结构工程师试题预测试卷模拟题附答案详解
- 2025教师课标考试真题及答案
- 建筑施工企业安全生产事故隐患报告和举报奖励制度
- 真空测试工常识强化考核试卷含答案
- 康复科的简单介绍
- 无人机科普大讲堂
- 医院培训课件:《临床医师的临床思维》
- 老年人能力评估量表的使用
- 2026年中国化工工程承包行业市场深度调研研究报告
- 2025年西藏自治区中考英语试题【含答案解析】
- 2025年《治安管理处罚法》多项选择题题库及答案
- 全国大学生职业规划大赛《网络直播与运营》专业生涯发展展示【高职(专科)】
- 试验员安全综合能力考核试卷含答案
评论
0/150
提交评论