(计算机应用技术专业论文)异构本体映射关键技术研究.pdf_第1页
(计算机应用技术专业论文)异构本体映射关键技术研究.pdf_第2页
(计算机应用技术专业论文)异构本体映射关键技术研究.pdf_第3页
(计算机应用技术专业论文)异构本体映射关键技术研究.pdf_第4页
(计算机应用技术专业论文)异构本体映射关键技术研究.pdf_第5页
已阅读5页,还剩132页未读 继续免费阅读

(计算机应用技术专业论文)异构本体映射关键技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 ; + “ 1 1 , i l 、f t h es t u d yo nk e yt e c h n o i o g i e so f h e t e r o g e n e o u so n t o l o g ym a p p i n g d i s s e r t a t i o ns u b m i t t e dt o s h a n g h a ij i a ot o n gu n i v e r s i t y i np a r t i a lf u l f i l l m e n to ft h er e q u i r e m e n tf o rt h ed e g r e eo f d o c t o ro fp h i l o s o p h yi nc o m p u t e rs c i e n c e b y w a n gz o n g ji a n g d i s s e r t a t i o ns u p e r v i s o r :z h a n gs h e n s h e n g j u n e ,2 0 0 9 l,i”y一。 , ;喾,净谆文 上海交通大学 学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究工作所取得的成果。除文中已经注明引用的内容外, 本论文不包含任何其他个人或集体已经发表或撰写过的作品成 果。对本文的研究做出重要贡献的个人和集体,均已在文中以明 确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 王军2 己 日期:2 d 。7 年,月,2 日 上海交通大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规 定,同意学校保留并向国家有关部门或机构送交论文的复印件和 电子版,允许论文被查阅和借阅。本人授权上海交通大学可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密口,在一年解密后适用本授权书。 本学位论文属于 不保密团。 ( 请在以上方框内打“4 ) 学位论文作者签名: 五晖1 ,扛 日期:z 。年f 月f 1 一日 指导教师签名: 班 醐产咖2 日 , 、。 ! l 参3 r e;葺譬零,i ; l 氇 一、 上海交通大学学位论文答辩决议书 所在 姓名王宗江 学号 0 0 2 0 3 0 9 0 6 8 计算机应用技术 学科 答辩答辩 指导教师张申生 2 0 0 9 一1 1 9 徐汇校区新建楼2 0 2 7 房间 日期地点 论文题目 异构本体映射关键技术研究 投票表决结果:e 乡夕( 同意票数实到委员数应到委员数) 答辩结论:豸缸过 口未通过 评语和决议: 王宗江同学的博士学位论文异构本体映射关键技术研究较深入地研究了,如何综合利用本体映射中 可以获得的各种信息来提高本体映射的准确度的方法;如何处理大规模本体映射的问题。论文选题具有重要 的理论意义和实用价值。论文完成的主要创新工作如下s 1 提出了一个基于解析图的本体映射算法o p m ,该算法分别构造了两个待处理本体的本体解析图,将两 个异构本体的映射问题转化成为两个本体解析图的最优匹配问题:通过动态更新本体解析图中顶点元素的迭 代相似度,迭代计算两个图的最优匹配。 2 提出了一种基于公理的本体映射校正方法a r e v i s i o n ,并通过对这些公理的模式校验来识别和消除错误 的映射。 :3 提出了一种面向大规模本体的模块化映射算法m o m 和一种基于聚类的c b p a r t i t i o n 方法。将一个大规 模本体映射转化为多个较小的本体模块映射问题,降低了映射复杂度,减少了映射时间。 论文表明作者具备了宽广的理论基础和深入的专业知识及独立的科研工作和创新研究能力。 答辩过程中讲述清楚,回答问题正确。经答辩委员会无记名投票,一致通过王宗江同学的博士学位论文 答辩,建议授予工学博士学位 、 - 宇年i t 月9 日 答 职务姓名职称 单位 签名 辩 主席乐嘉锦 教授东华大学 委 员 委员李德敏教授 东华大学多撇 厶 石 诫铭 成 委员戚飞虎教授上海交通大学 员 ,嫡蕊一 签 委员 何援军 教授上海交通大学 名 委员曹健教授上海交通大学 圳 _、奢矗雷肼一¥上 菇 , 寸:j a 毒j 、 j 鬟 7、 、 j 。 , :7 ,一 海 ; :、 y , 上海交通大学博士学位论文 异构本体映射关键技术研究 摘要 本体是概念、关系及其相关要素的规范化描述。本体被广泛用来表达领域知 识并成为不同应用系统间信息集成和互操作的基础。然而,由于本体设计者对领域 概念、关系及相关要素理解和抽象的差异,导致了领域本体之间的异构特性,这种 异构阻碍了信息系统之间的互操作。 为促进不同应用之间的互操作,需要建立异构本体之间的映射模型,即找到 对应元素之间的映射关系。近年来,研究者提出了许多映射方法,主要包括c u p i d 、 c o m a 、g l u e 、r o n d o 、s - m a t c h 等。这些方法可大致分为三类:术语的方法、结构的 方法和逻辑的方法。术语的方法简单易行,但当概念术语之间缺乏先验知识时,该 方法往往难以取得好的效果。结构的映射方法很难处理结构异构和语义约束较多的 情况。逻辑的方法,则由于推理条件太严格,往往会丢弃许多可能正确的映射。现 有映射方法的另一个共性问题是效率较低,远远不能满足大规模本体映射的要求。 本文重点研究两个问题: 1 综合利用有助于本体映射的各种信息,提高本体映射的准确度; 2 提高本体映射效率并探索更具普遍性的新方法,解决大规模本体映射的问 题。 本文的主要工作和创新如下: 1 提出了一个基于解析图的本体映射算法o p m ,该算法分别构造了两个待处理 本体的本体解析图,将两个异构本体的映射问题转化成为两个本体解析图的最优匹 配问题;再通过动态更新本体解析图中顶点元素的迭代相似度,迭代计算两个图的 最优匹配。实验结果表明,o p m 算法能够适用于各种类型的本体数据,其平均查准 率和查全率( 0 9 5 ,0 9 0 ) 比现有方法中最好的结果f u j i t s u ( 0 8 9 ,0 8 4 ) 均有约6 的提高。 2 为进一步提高查准率,本文提出了一种基于公理的本体映射校正方法 a r c v i s i o n 。本体中某些恒真的约束关系可以用一些公理来描述,并通过对这些公理 的模式校验来识别和消除错误的映射。实验结果表明,通过这样的校正,o p m 方法 的查准率又有2 - 3 的提高。 3 提出了一种面向大规模本体的模块化映射算法m o m ,并对大规模本体的模 块分割技术进行了深入研究。通过h o p e r o f l - k a r p 的模块分割算法,将一个大规模本 体映射转化为多个较小的本体模块映射问题,降低了映射复杂度,减少了映射时间。 为实现一般性大规模本体的合理分割,本文提出了一种基于聚类的c b p a r t i t i o n 方法。 )簟一- 上海交通大学博士学位论文 该方法具有以下特点: ( a ) 不依赖于本体本身的结构特点,适用性强; 嘞由于映射模块仅包括两个本体中的相似部分,分割效率高。 关键词:异构本体,本体映射,大规模本体,o w l 公理,映射模板 噜 上海交通大学博士学位论文 t h es t u d yo nk e yt e c h n o l o g i e so f h e t e r o g e n e o u so n t o l o g ym a p p i n g a b s t r a c t o n t o l o g yi sa ne x p l i c i ts p e c i f i c a t i o no f c o n c e p t s , r e l a t i o n sa n d o t h e rr e l a t e de l e m e n t s o n t o l o g i e sa r eo f t e nu s e dt or e p r e s e n td i f f e r e n td o m a i nk n o w l e d g e ,a n db e c o m et h e f o u n d a t i o nf o ri n f o r m a t i o ni n t e g r a t i o na n ds y s t e m i n t e r o p e r a t i o na m o n gd i f f e r e n t a p p l i c a t i o n s h o w e v e r , t h ed i f f e r e n c e sa m o n g i n d i v i d u a lo n t o l o g yd e s i g n e r sw i l lr e s u l ti n h e t e r o g e n e i t y o i l p r o p o s e d d o m a i n o n o t o l o g i e s a n d i t m a yi n e v i t a b l y a f f e c t i n t e r - o p e r a t i o nb e t w e e nr e s u l t i n gs y s t e m s i no r d e rt of a c i l i t a t ei n t e r - o p e r a t i o nb e t w e e nd i f f e r e n ta p p l i c a t i o n s ,i ti sn e c e s s a r yt o b u i l dam a p p i n gm o d e lf o rt h o s eh e t e r o g e n e o u so n t o l o g i e s , w h i c hr e q u i r e st of i n d m a p p i n gr e l a t i o n s h i p sb e t w e e nc o r r e s p o n d e n te l e m e n t s i nr e c e n ty e a r s ,s o m er e s e a r c h e r s h a v ep r o p o s e dan u m b e ro fm a p p i n ga p p r o a c h e s ,m a i n l yi n c l u d i n gc u p i d , c o m a , g l u e , r o n d o ,s - m a t c h , a n ds oo i lt h e s ea p p r o a c h e sc a nb ec l a s s i f i e di n t ot h r e ec a t e g o r i e s : t e r m i n o l o g ya p p r o a c h , s t r u c t u r a la p p r o a c ha n dl o g i ca p p r o a c h t h et e r m i n o l o g ya p p r o a c h i se a s i e ra n dc o n v e n i e n t 烘b u tw h e nt h e r ei sl a c k i n go ft h ea p r i o r i t yk n o w l e d g eo n c o n c e p ta n dt e r m s ,i ti sd i f f i c u l tt oa c h i e v eag o o dp e r f o r m a n c e s t r u c t t l r a la p p r o a c h e sw i l l n o tb ea b l et oh a n d i n go n t o l o g i e sw h i c ha r eh e t e r o g e n e o u si nn a t u r eo rh a v em a n yl o g i c a l c o n s t r a i n t s t h el o g i ca p p r o a c h e sb a s e do nl o g i c a lr e a s o n i n ga l eo f t e nt o os t r i c tt oc a p t u r e a l lv a l i dm a p p i n g s a n o t h e rc o m m o n p r o b l e mo f t h o s em e t h o d sa r ee f f i c i e n c yp r o b l e m , t h e yc a n n o ts u p p o r tt h ee f f i c i e n c yd e m a n d so fl a r g es c a l eo n t o l o g ym a p p i n g t h i sp a p e rf o c u s e so nt w op r o b l e m s : 1 h o wt of u r t h e ri m p r o v et h ea c c u r a c yo f o n t o l o g ym a p p i n g s ? ; 2 h o wt oh a n d l el a r g es c a l eo n t o l o g ym a p p i n gm o r ee f f e c t i v e l y ? f o l l o w i n ga r em a i nc o n t r i b u t i o n sa n da c h i e v e m e n t s : 1 a no n t o l o g yp a r s i n gg r a p h - b a s e dm a p p i n g ( o p m ) a l g o r i t h mi sp r o p o s e d i t c o n s t r u c t e st w op a r s 崦g r a p h sf o rs p e c i f i e do n t o l o g i e sf i r s ta n dt h e nt r a n s f e rt h eo n t o l o g y m a p p i n gt oap r o b l e mo ff i n d i n gt h em a x i m a lm a t c hb e t w e e nt h et w oo p g r a p h s t h r o u g h c o n t i n u o u s l yu p d a t i n gt h ei t e r a t i v e l ys i m i l a r i t yo ft h o s eo p g r a p hv e r t i c e s ,t h em a x i m a l m a t c ho ft h et w oo p g r a p h sc a l lb ec a l c u l a t e d e x p e r i m e n t ss h o wt h a to p m a l g o r i t h mi s i i i 上海交通大学博士学位论文 a p p l i c a b l et od i f f e r e n tk i n d so fo n t o l o g i e s ,a n dh a v eb o t ha v e r a g ep r e c i s i o na n dr e c a l lr a t i o ( 0 9 5 ,0 9 0 ) 6p e r c e n th i g h e rt h a nt h ef u j i t s ua l g o r i t h m ( 0 8 9 ,o 8 4 ) w h i c hi st h eb e s t a m o n go t h e rm e t h o d s 2 i no r d e rt of u 曲e ri m p r o v et h ea v e r a g ep r e c i s i o no fo p m ,a na x i o mb a s e d o n t o l o g yr e v i s i n gm e t h o d ( a r e v i s i o n ) i sp r e s e n t e d a x i o m sa g eo f t e nu s e dt od e s c r i b et h e i n t r i n s i cc o n s t r a i n tr e l a t i o n s h i p sa m o n go n t o l o g i e sc o n c e p t s ,e l e m e n t sa n do t h e rr e l a t e d i t e m s b yc h e c k i n gv i o l a t i o n so ft h e s ei n t r i n s i cr e l a t i o n s h i p s ,p o s s i b l ef a l s em a p p i n g s c o u l db ei d e n t i f i e da n de l i m i n a t e d e x t m j m e n t ss h o wt h a tb yu s i n ga r e v i s i o n , t h e a v e r a g ep r e c i s i o no f o p m c a nb ef u r t h e ri m p r o v e db ya n o t h e r2 - 3p e r c e n t s 3 p r o p o s e dam o d u l a ro n t o l o g ym a p p i n g ( m o m ) m e t h o d f o rl a r g es c a l eo n t o l o g y m a p p i n g sa n d c o n d u c t e ds t u d yo l lh o wt oe f f e c t i v e l yp a r t i t i o na l a r g es c a l eo n t o l o g yi n t oa n u m b e ro fs m a l lm o d u l e s b yu s i n gh o p c r o f t - k a r pa l g o r i t h m , w et r a n s f o r mal a r g es c a l e o n t o l o g ym a t c h i n gp r o b l e mi n t oan u m b e ro fs m a l l e rs c a l em o d u l em a t c h i n gp r o b l e m s , w h i c hg r e a t l yr e d u c e dt h ec o m p l e x i t yo f t h ep r o b l e mn a t u r ea n ds p e e du pt h ep r o c e s s t h e h o p c r o f t - k a r pa l g o r i t h m , h o w e v e r , o n l ya p p l i c a b l et os o m eo n t o l o g i e sw h i c hh a v eg o o d m o d u l a r i t yi nn a t u r e t od e a l 啦w i t hm o r eg e n e r a ll a r g es c a l ec a s e s ,ac l u s t e rb a s e d p a r t i t i o nm e t h o dc b p a r t i t i o ni sp r e s e n t e d t h i sm e t h o dh a sf o l l o w i n gc h a r a c t e r i s t i c s : ( 1 ) i ti ss u i t a b l ef o ra l lc o m p l e xa n dl a r g es c a l eo n t o l o g i e s ; ( 2 ) s i n c et h em o d u l em a p p i n gl a t e ri n v o l v e so n l yt h es i m i l a rp a r t so ft h eo r i g i n a l o n t o l o g i e s ,i te f f e c t i v e l yi m p r o v e st h ee f f i c i e n c yo f b o t hp a r t i t i o na n dm a p p i n gp r o c e s s k e y w o r d s :h e t e r o g e n e o u so n t o l o g y ,o n t o l o g ym a p p i n g ,l a r g es c a l eo n t o l o g y ,o w la x i o m , m a p p i n gt e m p l a t e i v 簟 上海交通大学博士学位论文 目录 第一章绪论1 1 1 引言1 1 2 本体映射的应用2 1 2 1 信息集成2 1 2 2 p 2 p 信息共享6 1 2 3 w e b 服务组合。:7 1 2 4 智能体通信8 1 2 5 w e b 上的查询回答9 1 3 本体映射研究现状l0 1 3 1 本体映射的方法1 0 1 3 2 工具与原型系统1 4 1 4 研究意义和研究内容l6 1 5 论文结构一18 第二章基本理论与相关定义2 0 2 1 引言厶2 0 2 2 基本理论2 0 2 2 1 本体的定义:。j :j :j 。j :o :2 0 2 2 2 本体的建模元语2 l 2 2 3 w e bo n t o l o g yl a n g u a g e ( o w l ) 概述2 2 2 2 4 描述逻辑2 3 2 3 相关定义2 6 2 3 1 本1 本2 6 2 3 2 本体映射。2 7 2 3 3 本体映射结果2 8 2 4 本章小节2 9 第三章基于案例的本体映射预处理3 0 3 1 引言一3 0 3 2 相关工作3 0 3 2 1 设计模式3 0 3 2 2 基于案例的推理31 3 3 映射案例与案例相似度3 2 v 上海交通大学博士学位论文 3 3 1 对象与对象环境。3 2 3 3 2 对象相似度3 5 3 3 3 映射案例3 6 3 3 4 案例相似度3 7 3 4 构建映射案例库3 8 3 4 1 本体映射案例的组织方式3 8 3 4 2 本体映射案例库3 8 3 5 基于案例的本体映射= = _ o 一o i _ 3 9 3 6 实验结果与分析4 l 3 6 1 实验建立。4 l 3 6 2 实验结果4 2 3 7 本章小节4 3 第四章基于解析图的本体映射算法4 4 4 1 引言4 4 4 2 相关工作4 5 4 3 本体映射算法o p m 4 6 4 4 实验结果与分析5 2 4 5 本章小节。:。5 5 第五章基于公理的本体映射校正算法。5 6 5 1 引言5 6 5 2 相关工作:- :j :5 6 5 2 1 本体公理5 6 5 2 2 错误探测。5 7 5 3 问题描述。5 9 5 4 映射判断模式6 l 5 4 1 基本的假设与标记6 l 5 4 2 错误映射的类型6 1 5 4 3 映射判断模式。6 l 5 5 算法与实施6 7 5 6 实验结果与分析6 9 5 6 1 实验建立6 9 5 6 2 实验结果6 9 5 7 本章小节7 0 第六章模块化的大规模本体映射。7 1 6 1 引言7 1 v i i 上海交通大学博士学位论文 6 2 基于模块化的本体映射方法7 l 6 2 1 本体分割7 2 6 2 2 寻找相似模块。7 5 6 2 3 模块映射7 7 6 2 4 结果合并7 7 6 2 5 复杂度分析7 8 6 3 实验结果与分析7 9 6 4 本章小节_ _ _ 。81 第七章一种基于聚类的大规模本体分割方法。8 2 7 1 引言8 2 7 2 相关工作8 3 7 2 1 基于结构的分割8 3 7 2 2 使用e - c o n n e c i t o n 的自动分割8 3 7 2 3 基于一阶逻辑的分割8 3 7 3 一个分割的案例:大规模本体映射应用场景8 4 7 4 c b p a r t i t i o n 方法8 5 7 4 1 分割特点。8 5 7 4 2 分割方法8 5 7 5 实验结果与分析9 0 7 6 本章小节9 l 第八章结论与展望o j :。9 2 8 1 论文的工作总结9 2 8 2 研究展望9 3 参考文献一9 5 攻读博士学位期间发表的论文1 0 5 攻读博士学位期间所参加的科研项目。1 0 6 致谢1 0 7 v 上海交通大学博士学位论文 图1 1 图1 - 2 图1 3 图l - 4 图1 5 图l 石 图1 7 图1 8 图1 - 9 图2 1 图2 2 图3 1 图3 2 图3 - 3 图3 _ 4 图3 5 图3 - 6 图3 7 图3 8 图4 _ 1 图睨 图4 3 图5 1 图5 2 图5 3 图5 - 4 图5 5 图每l 图6 - 2 图每3 图6 4 图每5 图片目录 一个通用的信息集成场景 模式集成基本原理 数据集成基本原理 g a v 和l a v 映射的元组空间示意图模式集成基本原理 p 2 p 查询问答 w r e b 服务组合 智能体通信 基于模式的映射技术分类 论文的总体结构 一个本体例子 本体映射 一个参考文献本体 类的环境 属性的环境 实例的环境 稳定婚姻算法 映射案例的组织 基于映射案例的本体映射方法 o p m 和e o p m 实验结果比较 o p m 的体系结构 “参考文献本体解析图 “大学职员”本体解析图 真实映射结果与系统映射结果的比较 映射判断模式1 映射判断模式9 映射判断模式1 6 基于公理的本体映射校验 m o m 中的映射过程 本体分割 找到相似的模块 o p m 体系结构 m o m 和o p m 时间消耗比较 v 1 1 1 3 4 5 5 7 8 9 2 9 7 8 3 4 4 5 7 8 9 3 6 7 9 o;5 7 2 2 6 7 o 3 4 5 5 7 8 9屹侈勰始弭舛弘竹勰剪钉铂钉钞酪酌卯记记丌踮 上海交通大学博士学位论文 图7 1 大规模本体映射 图7 - 2m o u s e 本体片段 图7 3n c i 本体片段 图7 - 4 自下而上和自上而下横越 图7 5 深度为两层的边界节点 i x 8 4 8 6 8 7 8 9 8 9 上海交通大学博士学位论文 表格目录 表2 1 本体的几种定义 表2 - 2 本体中的几种关系 表2 3a l c 的语法和语义 表3 1 一个用模板表示的映射案例 表3 2o p m 和e o p m 测试结果 表4 1 测试结果比较 表5 1q 墟i 数据集测试结果 表每l实验中本体的主要特征 表6 - 2o p m 和m o m 的实验结果比较 表7 - l 初始映射的部分数据 表7 2 实验中两个本体的主要特征 x 0 2 i 6 2 3 o 9 0 8 l 2 2 誓3 4 5 7 7 8 8 9 上海交通大学博士学位论文 第一章绪论 在本章中,首先讨论了本体映射的应用背景,给出了本体映射的国内外研究现 状,最后简要叙述了本文的研究意义、研究内容以及组织结构。 1 1 引言 信息集成与自动化正在改变着全球制造业、服务业的运行模式,极大地促进着 生产效率的提高和资源的优化运行。信息技术使得在地理上全球分布的不同企业畅 通的进行信息交流成为一种可能。这里所说的“畅通 是指在没有人干预或较少人 工干预情况下,系统之间按照事先约定或其他可能途径达成的一致理解,对信息( 如 产品目录) 进行自动地交换和理解。本f l 【( o n t o l o g y ) 就是指不同系统相互理解的基础, 本体是关于某一领域的概念及概念间关系的清晰表达【l 】。 新一代信息系统将多构建在本体基础上,本体则在复杂的工业软件、知识管理、 电子商务、语义w e b 等分布异构的信息系统中扮演极端重要的角色【2 】。由于语义 w e b 、电子商务等系统的分布式特点,这些系统所依从的本体间难免存在差异( 或 异构) 。这种存在于不同信息源本体之间的异构现象,成为系统相互理解、交换、实 现互操作的主要障碍之一。 因此,在分布异构的多个系统之间实现协同工作,必须解决异构本体之间的映 射问题。在b 2 b ,b 2 c ,以及c 2 c 等应用集成中,为多个信息源( 如产品目录,订 单对象,工作流程等) 的异构本体之间建立映射,是一项现实和迫切的任务【3 】。在 动态联盟情况下,每一次结成新的联盟关系,都需要对供应商和客户的产品及服务 的本体之间产生新的映射;对于没有明确联盟关系的b 2 c ,c 2 c 客户,它们之间的 本体映射虽然不需要完全精确,但却要求更加自动化,以便能够通过智能代理为客 户提供及时的信息服务。 完全由人工来建立本体映射异常繁琐和容易出错,因此提供高效、准确、自动 化的辅助映射手段,成为一项重要的研究内容。异构本体( 半) 自动映射问题的解 决,将改变目前主要依靠人工进行本体问映射的现状,将会改变不同系统之间互操 作的方式( 如基于内容的自动信息服务、信息过滤等) ,从而必将对制造业、服务业 和信息业的运行模式,产生巨大的影响。 随着本体应用的快速发展,领域本体的规模变得越来越庞大,越来越复杂。在 一些应用领域,如医学中的本体可能包括成千上万个概念。而目前的映射算法都无 法处理大规模本体映射问题。这使得复杂的大规模本体的映射变得更加迫切。 上海交通大学博士学位论文 1 2 本体映射的应用 下面简要讨论本体映射在一些实际巾的应用,说明本体映射的研究动机和意 义。 1 2 1 。信息集成 信息集成( i n f o r m a t i o ni n t e g r a t i o n ) 是一个将映射看做可行方案的最古老的应用之 一。它包括:模式集成降7 】,数据仓库【8 】,数据集成【9 1 2 】和目录集成【1 3 - 1 6 】。 一个通用的信息集成场景如图1 1 表示:假定本地信息源的集合( 本地本体l , 本地本体2 ) 使用了不同的格式存储它们的数据,如s q l 、d d l 、x m l 或者r d f , 通过公共本体c o m m o no n t o l o g y 为用户提供了一个统一的查询接 j 到所有本地信 息源。这样用户不用一个接一个的查询本地信息源,而是通过查询一个公共的本体 来得到结果。 例如,如果一个用户提出了一个查询“查找关于本体映射的书”给公共本体, 公共本体将这个查询传递给一个信息集成系统和本地信息源通信,如 w w w a m a z o n c o m w w w b n c o r n ,最后基于这些信息源返回一个一致的结果给用户。 一般来说,在信息集成系统巾,上述任务需要以下操作步骤。包括: 用公共本体术语来解释( 重写) 查询。 识别本地的信息源和公共本体的相关实体的对应。 将本地信息源的相关数据( 用户请求涉及到的) 实例翻译成信息集成系 统的知识表示形式。 协调从多个本地信息源得到的结果,在返回最后答案前,检测和消除冗 余、重复。 通常,识别本地的信息源和公共本体的相关实体的对应元素的步骤被称为映 射。 在一些具体的信息集成场景,公共本体可以是物理存在或是虚拟存在的。下面 具体讨论这些场景。 上海交通大学博士学位论文 图1 - 1 一个通用的信息集成场景 f 嘻l iag e n e r a li n f o r m a t i o ni n t e g r a t i o ns c e n a r i o ( 1 ) 模式集成 模式集j j 3 a ( s c h e m ai n t e g r a t i o n ) 是一种最古老的场景【4 ,5 ,7 ,1 7 ,1 8 】。例如,如果两个 或者多个企业合并成一个企业。最终,这些企业必须把它们的数据库集成起来。通 常人们很可能对现实世界中的相同的实体和关系,采用了不同的建模原理和模式。 由于各个企业的数据库模式是独立设计和开发的,因此这些模式之间很可能存在异 构性。所以,集成的第一步是识别出这些模式之间相对应的语义相关实体,即映射。 然后,通过识别出的对应关系,将多个数据库进行合并。图1 - 2 所示为模式集成的 基本原理。 再看一个其它场景。例如,( 紧耦合) 联合数据库【4 】包括一个为成员数据库联 盟提供统一存取的全局模式。这些成员数据库各自是自治的。在一个应用中,如果 联合数据库的一个成员的模式被改变了,联合( 全局的) 模式就应该被重新审议。 映射技术可以帮助识别这些变化。 3 上海交通大学博士学位论文 q u e r y 诊 图l - 2 模式集成基拳原理 f i g 1 - 2t h eb a s i cp r i n c i p l eo f s c h e m ai n t e g r a t i o n ( 2 ) 目录集成 在b 2 b 应用中,销售商使用电子甘录存储它们的产品信息。典型的目录例予是 电子销售门户,如a m a z o n 或者e b a y 的产品目录。对于在市场参与的商业客户, 如e b a y ,它必须决定它的目录入口和销售商的目录入口之间相对应。在目录入口之 间找到对应的过程被称为目录映射问题【1 4 】。如果从商业客户的角度看这个问题, 它参加的每个市场都需要映射操作。从目录的入口识别出相对应的入口,然后通过 分析分析,产生能够自动转化目录间的数据实例的查询表达式。最后,通过目录映 射,市场的用户有了销售产品的统一存取入口。上面描述的销售商和商业客户之间 的的交互场景,可以看做一个将本地数据源集成到数据仓库的典型例子( 可参见文 献【8 】) 。 另外一个目录集成( c a t a l o g u ei n t e g r a t i o n ) 的场景处理产品分类,如u n s p s c ( t h e u n i t e dn a t i o n ss t a n d a r dp r o d u c t sa n ds c r v i c , e sc o d e ) 1 9 和e c l s s 4 ( s t a n d a r d i z e d m a t e r i a la n ds e r v i c ec o d e ) 【2 0 】。在某种意义上,可以将这个场景看做能满足多b 2 b 市场的互操作,目的是使得订阅不同产品分类的企业的模式之间更方便交换【2 l 】。 这是通过建立标准产品分类的语义相关实体的相对应关系来获得的,即映射操作。 ( 3 ) 数据集成 数据集成( d a t ai n t e g r a t i o n ) 是这样一个方法,它从多个本地源将信息集成,而不 是把数据调入到一个中央仓库 1 l 】。这允许多个本地源的互操作,使得可以存取最 新的数据。注意上面所举例的目录集成的场景,商人对市场的中心仓库进行更新。 4 上海交通大学博士学位论文 在这个场景,数据集成

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论