




已阅读5页,还剩73页未读, 继续免费阅读
(计算机应用技术专业论文)基于语义的信息集成方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 信息集成的主要目的是最大限度地屏蔽数据的半结构性、异构性和分布性, 为用户提供统一的访问模式,实现异构数据源之间信息的实时共享。 在信息集成过程中必须提供语义模型解决语义异构问题,这个通用的语义模 型必须是个与平台无关、能够屏蔽信息之间语义异构的模型。本体是共享概念模 型的明确的形式化规范说明,能够有效地表达特定领域内的通用知识,可作为信 息集成中的通用语义模型。 因此,本文引入本体概念,在借鉴已有的信息集成方法和信息集成系统架构 的基础上,设计了一种解决语义异构信息集成的体系架构。在本论文中作者所做 的工作主要体现在以下几个方面: 首先,阅读了目前国内外大量信息集成的有关文献,对信息集成的方法和技 术做了比较全面的分析和比较,总结出目前信息集成中存在的问题。 其次,提出基于语义的异构信息集成( s h i i ) 体系架构,给出了框架中各个 模块的具体功能和任务。在该体系架构的支持下,用户可以只依据领域本体就能 查询到感兴趣的信息,而无需关心查询结果的处理过程及查询数据的来源。 再次,描述了框架的关键技术,包括w e bs e r v i c e s ,领域本体的构建,局部 数据模式的本体构建、本体映射等。在本体构建过程中,给出了本体构建的规则、 方法和作用。而且通过映射规则和方法的描述,用具体实例解释了本体映射实现 的逻辑结构图及其概念、关系的描述。 然后,阐述了框架原型系统的实现步骤。通过具体任务描述了框架中的本体 构建、本体映射、全局任务、任务解析、数据访问和数据集成等技术的具体实现 步骤和相关算法。 最后,将基于语义的信息集成方法与语义服务结合,给出了s h i i 框架语义 包装的过程和基于语义服务的s h i i 框架。它实现了多领域的信息共享和机器的 智能理解。并提出了未来的发展方向信息网格。 关键词:信息异构,本体,语义集成,映射,语义服务 a b s t r a c t a b s t r a c t p r i m a r yi n t e n t i o no fi n f o r m a t i o ni n t e g r a t i o ni st ot h eu t m o s te x t e n ts h i e l dt h e c h a r a c t e r i s t i c so fd a t as u c ha s s e m i - s t r u c t u r e d ,h e t e r o g e n e i t y a n dd i s t r i b u t e d , c o n s e q u e n t l yp r o v i d e sau n i f i e dp a a e mf o ru s e r st or e a l i z ei n f o r m a t i o nt i m e l ys h a r i n g i nh e t e r o g e n e o u sd a t a s o u r c e i ni n f o r m a t i o ni n t e g r a t i o n ,w em u s tc o n s t r u c tau n i v e r s a ls e m a n t i cm o d e lt o r e s o l v et h ep r o b l e mo fs e m a n t i ch e t e r o g e n e i t y t h i sm o d e lm u s tb ep l a t f o r m f r e e ,a n d c a ns h i e l dt h es e m a n t i ch e t e r o g e n e i t yo fd i f f e r e n ti n f o r m a t i o n o n t o l o g yi sa ne x p l i c i t s p e c i f i c a t i o no f ac o n c e p t u a l i z a t i o n ;i tc a na v a i l a b l ye x p r e s st h eg e n e r a lk n o w l e d g ei n c e r t a i nf i e l d s ,a n db eu n i v e r s a ls e m a n t i cm o d e lo fi n f o r m a t i o ni n t e g r a t i o n i nt h i sp a p e r , b a s e do ni m p o r t i n gt h ec o n c e p to fo n t o l o g y , a n db o r r o w i n gi d e a s f r o mt h ee x i s t i n ga p p r o a c h e sa n ds y s t e mc o n f i g u r a t i o no fi n f o r m a t i o ni n t e g r a t i o n , d e s i g n sab a s e d o ns e m a n t i cs y s t e mc o n f i g u r a t i o no fi n f o r m a t i o ni n t e g r a t i o n t h e m a i nw o r k sa n di n n o v a t i v er e s u l t so f t 虹sp a p e ri n c l u d et h e f o l l o w i n g s : f i r s t l y , b a s e dh a v i n gr e a dm a n y p a p e r sa b o u tc h i n e s ea n de n g l i s ho f i n f o r m a t i o n i n t e g r a t i o n , a n a l y z e sa n dc o m p a r e sw a y sa n dt e c h n o l o g i e so fi n f o r m a t i o ni n t e g r a t i o n , s u m m a r i z e se x i s t i n gp r o b l e m sa tp r e s e n ti ni n f o r m a t i o ni n t e g r a t i o n s e c o n d l y , p r o v i d e st h es y s t e mc o n f i g u r a t i o no fs e m a n t i c b a s e dh e t e r o g e n e o u s i n f o r m a t i o ni n t e g r a t i o n ( s h i i ) ,a n dd e s c r i b e st h ei d i o g r a p h i cf u n c t i o n so f m o d u l e s , i nt h es u p p o r to fc o n f i g u r a t i o n ,u s e r sc a nf u r t h e s tq u e r yi n t e r e s t e di n f o r m a t i o n o n l y t h r o u g hd o m a i no n t o l o g y , b u tn 0n e e dt oc o n c e n lt h ep r o c e s s i n ga n dd a t as o u r c e t h i r d l y , d e s c r i b e sk e yt e c h n o l o g i e so fa r c h i t e c t u r e ,i n c l u d ew e bs e r v i c e s ,d o m a i n o n t o l o g y , l o c a lo n t o l o g y , o n t o l o g ym a p p i n gi nt h ep r o c e s so fb u i l d i n go n t o l o g y , s h o w sr u l e s ,w a y s ,a n da c t i o n sm o r e ,b a s e do nd e s c r i p t i o no f m a p p i n gr u l e sa n d w a y s ,p r o v i d e st h el o g i cc o n f i g u r a t i o n s ,c o n c e p t sa n dr e l a t i o n so fo n t o l o g ym a p p i n g i nt h ep a p e rb y e x a m p l e s f o u r t h l y , b ye x a m p l e s ,d e s c r i b e sa p p l i c a t i o np r o c e s sa n di n t e r r e l a t e da r i t h m e t i c a b s t r a c t i nt h eo n t o l o g yb u i l d i n g ,o n t o l o g ym a p p i n g ,g l o b a lt a s k ,t a s ka n a l y s i s ,d a t aa c c e s sa n d d a t ai n t e g r a t i o n ,a n de x p a t i a t e so nt h er e a l i z i n gp r o c e s so f m o d u l es y s t e m l a s t l y , c o m b i n i n gt h eb a s e d o ns e m a n t i ci n f o r m a t i o ni n t e g r a t i o na n ds e m a n t i c w e bs e r v i c e s ,p r o v i d e sp a c h i n gp r o c e s so fs e m a n t i cs e r v i c e sa n ds h i ic o n f i g u r a t i o n b a s e d ,o ns e m a n t i cw e bs e r v i c e s ,w h i c hr ea l i z e si n f o r m a t i o ns h a n go nm u t i l d o m a i n a n di n t e l l i g e n tm a n i p u l a t i o no nc o m p u t e r s p r o v i d e sc o m i n gd e v e l o p m e n td i r e c t i o n - - 一h f o r m a t i o ng r i d k e yw o r d s :i n f o r m a t i o nh e t e r o g e n e i t y , o n t o l o g y , s e m a n t i ci n t e g r a t i o n ,o n t o l o g y m a p p i n g ,s e m a n t i cw e b s e r v i c e s 西北大学学位论文知识产权声明书 本人完全了解学校有关保护知识产权的规定,即:研究生在校攻 读学位期间论文工作的知识产权单位属于西北大学。学校有权保留并 向国家有关部门或机构送交论文的复印件和电子版。本人允许论文被 查阅和借阅。学校可以将本学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学 位论文。同时,本人保证,毕业后结合学位论文研究课题再撰写的文 章一律注明作者单位为西北大学。 保密论文待解密后适用本声明。 学位论文作者签名;套盈铂,指导教师签名:兵届 ;年月夕日 吖年f 月f o 日 西北大学学位论文独创性声明 本人声明:所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,本论文不包含其他人已经发表或撰写过的研究成果,也不包含 为获得西北大学或其它教育机构的学位或证书而使用过的材料。与我 一一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的 说明并表示谢意。 学位论文作者签名:爹五勿 矽彤年多月罗丑 第一章绪论 1 1 研究背景及意义 第一章绪论 信息集成的需求由来已久,对信息集成的研究一直是数据库研究领域及其它 领域一个非常热门的课题,比如对多数据库和数据仓库的研究。近年来随着w e b 平台逐渐成为信息服务的主导平台,对w e b 环境下信息集成的研究也越来越呈 现出蓬勃发展的趋势。全球化信息通信和数据库技术的发展已经大大提高了用户 处理数据的能力,如今越来越多的应用需要从分散于不同物理位置各种自治、异 构的数据库中存取数据、操作数据,这些异构的数据库之间可能存在不同的数据 模式、不同的数据定义与操纵语言以及语法、语义等方面的转换问题。 同时随着信息产业和通讯技术的发展,企业信息集成的呼声也越来越高,解 决企业信息集成尤显得十分必要。它面临的问题主要有 1 】:第一,当一个业务子 系统需要另一个业务子系统的数据时,如何实时地获取这些业务数据,即数据的 实时共享问题;第二,企业当前各个子系统的数据库很有可能是各种不同的数据 模型来表示和存储数据,数据的格式混乱,访问接口独立,如何整合现有的异构 数据库;第三,企业信息孤岛豹存在,导致信息的重复输入和不能很好遗提高信 息的共享性和互操作性。故“如何在高速的网络环境和高使用效率的硬件设备下, 最大限度地解决信息共享”这个问题,依然是目前各研究机构的核心研究课题。 信息集成就是要实现不同应用系统中异质信息资源跨时间、空间的透明、无 缝整合,以便以集成和统一的方式为用户提供更高层的信息服务。信息集成解决 后,才能为其它诸如信息查询、信息共享等服务提供基础。 下面这个例子形象地说明信息集成的概念和信息集成研究的意义。设有用户 想通过w e b 提供的信息作参考来购买住房,他可能提出这样的一个查询请求: f i n da l lh o u s e sw i t h3b e d r o o m s ,2 b a t h s ,i n t e r i o ra r e aa tl e a s t1 6 0 0s q f t ,p r i c e d b e t w e e n $ 2 5 0 ka n d $ 3 5 0 k ,i nr e g i o n sw h e r et h es c h o o lr a t i n gi sa tl e a s t7 0 ( o u to f l0 0 ) a n dt h ec r i m er a t ei sn om o r et h a n15i n c i d e n t sp e ry e a r f o re a c hh o m ea l s o s h o wt h en e a r b ys c h o o l s 对单个信息源的访问很难回答上面这个复杂的查询。在没有信息集成系统存 第一章绪论 在的情况下,回答这样的查询请求可能不得不首先访问提供售房信息的w e b 信 息源,得到符合自己要求的住房所在的区。然后带着结果再去访问提供学校信息 的信息源,将在同一个区的住房和学校排列出来,再到同级犯罪率信息的网站过 滤出犯罪率小于1 5 宗的地区。正如上面所表示的,这是一个复杂和费时的过程。 信息集成系统按照某个主题将所需要的多个信息源集成到一个系统中,并提供用 户友好的界面来表达查询请求。系统自动匹配相关的信息源,然后把最终结果合 并呈现给用户。信息集成系统把用户从必须考虑“怎样( h o w ) 从众多信息源中 找到所需信息”羁绊中解放出来,而只需要关注于“所要查找的信息是什么 ( w h a t ) ”t 2 1 。 而且,计算机网络和信息技术的发展使存储在多种系统中的信息资源通过网 络互连,形成了巨大的网络信息空间,是人们研究信息集成的出发点。网络信息 空间中的信息具有信息量大、异构性强、信息内容动态变化和信息源分布自治等 特点。所谓信息源异构是指信息源可以是结构化很强的关系型数据库系统和面向 对象数据库系统,也可以是半结构化的x m l 文件,或者是彼此间查询结构各不 相同的w e b 信息源。所谓信息源分布自治是指信息源在物理上是分布的,并且 集成系统对信息源的组成和提供的服务没有任何发言权,信息源是事先存在的。 在网络信息空间中研究异构信息的集成,首先需要解决异构信息的一体化表 示和描述问题,在此基础上才能有效依据不同的信息体系和应用目的对信息进行 合理有效的组织、管理和利用。网络信息空间中存在大量的信息资源,如何对来 自各种信息源的信息及其语义内容进行一体化描述,如何对存在于各个信息源间 的系统异构、结构异构和语义异构问题的解决,是信息集成中一个亟待解决的关 键问题。它们是进行信息集成,提供高质量信息共享服务的基础。近年来,信息 集成研究的焦点从解决信息语法、信息结构层面的异构逐渐发展到致力于消除信 息语义层面的异构。信息环境的变化和信息集成技术的发展要求人们探讨更有 效、更适用的信息描述方法。描述采用的模型必须具有完备性和合理性,采用的 技术须建立在公认的、可供遵循的标准支持基础之上,描述的结果要易于发布和 交换【2 j 。而另一方面,新的技术新的标准不断涌现,如x m l 与r d f 、本体技术、 人工智能技术、a g e n t 技术等等,这些为信息集成和信息描述提供了新的方法和 思路,促使人们在该领域进行更深入的研究。 第一章绪论 1 2 信息集成研究现状 按照研究所采用的信息模型和研究出发点来分,异构信息集成方法目前主 要有两类 3 1 :结构化方法和语义方法。结构化方法是从同一信息的结构入手来进 行信息集成,解决所要集成信息的结构异构,对于所要集成信息的语义关联不做 考虑;语义方法是从所要集成信息的语义关联入手( 直接体现为从各信息源的局 部语义模式入手) ,通过对信息的语义和语义关联进行致的描述,进而协调生 成全局信息视图,基于全局信息视图实现信息查询和信息共享等服务。 结构化方法实现比较简单,适合信息源相对比较固定的环境,其缺点是可扩 展性差,不提供语义级的信息检索等服务。语义方法的主要特点是可扩展性好, 适合动态信息源,支持语义级信息查询等服务,使用领域本体作为语义层集成手 段,其缺点是实现比较复杂,牵涉到领域本体的构建( 因为领域本体的创建牵涉 至领域专家建模、概念提取和概念分类等相关的处理工作,相对来讲较为复杂) 。 国外研究现状 国外采用结构化方法的典型代表有美国s t a n f o r d 大学和ma l m a d e n 研究 中心联合开发的t s i m m i s ( t h es t a n f o r d m mm a n a g e ro fm u l t i p l ei n f o r m a t i o n s o u r c e s ) 4 1 系统。该项目主要从解决异构信息的结构异构入手,提出了一种具有 自描述性( s e l f - d e s c r i b i n g ) 、面向对象( o b j e c t o r i e n t e d ) 的信息描述模型o e m ( o b j e c te x c h a n g em o d e l ) 【5 。6 j ,同时给出了应用于该模型的信息查询语言l o r e l ( l i g h t w e i 曲to b j e c tr e p o s i t o r yl a n g u a g e ) 。o e m 模型是早期比较有代表性的半 结构化数据模型。此后,很多集成系统均使用o e m 的变体。s t a n f o r d 大学的l o r e 工作组在o e m 模型的基础上开发了半结构化数据库管理系统l o r e 。在x m l 逐 渐兴起后,他们就将l o r e 系统移植到完全基于x m l 的数据模型上,并相应地 扩展了其查询语言。 采用语义方法的典型代表有意大利m o d e n a 大学和m i l a n o 大学联合开发的 m o m i s ( m e d i a t o re n v i r o n m e n tf o rm u l t i p l ei n f o r m a t i o ns o u r c e s ) 7 1 系统。他们提 出了一种基于语义的异构信息描述模型o d m ,以及相应的建模语言o d l ( o b j e c t d e f i n i t i o nl a n g u a g e ) 。o d l 语言是为了适应异构信息集成的需要从o d m g ( o b j e c td a t a b a s em a n a g e m e n tg r o u p ) 的o d l 语言扩展而来。o d m 是一种面 向对象的信息模型,它独立于信息源的语义,可被用来描述结构化和半结构化信 第一章绪论 息源的异构模式。 此外,南加州大学信息科学研究所研制的i m 8 】系统、a t & t 贝尔实验室实 现的s i m s 9 1 系统等早期集成系统中也蕴含着基于概念模型和语义元数据来描述 信息源的思想,已经具备了语义集成方法的雏形。i m ( i n f o r m a t i o n m a n i f o l d ) 系 统的基础是一个知识库,该知识库包含一个内容丰富的领域模型,用该领域模型 可以描述各个信息源的结构和内容。具体一点说,i m 的领域模型包括了对各信 息源的主题表达以及信息源各个物理特性有关的各类属性的表达,利用这些表达 就可以完成对各个信息源的描述。给定查询,系统会根据源描述创建查询计划, 判断有用的信息源并执行查询计划。i m 系统要求设计者人工定义集成模式。 s i m s 信息集成系统则使用描述逻辑创建全局模式以描述信息源,各个信息源被 定义为全局模式上的视图。使用全局模式使s i m s 能够支持所有可能的用户查询, 而不是预定义的查询子集,但是全局模式的创建是一项复杂的工作。 国内研究现状 与国外所开展的研究工作相比较,国内关于信息集成技术的研究起步较晚, 但是发展很快。目前该领域关键技术的研究倍受国内各大学和科研院所人员的关 注,正逐渐成为信息管理和应用领域研究的热点和焦点。相对而言,东南大学计 算机科学与工程系的研究人员所做的工作比较早,他们在紧密跟踪t s i m m i s 项 目研究的基础上,开发了一个基于c o r b a 的半结构化信息集成系统原型一 v e r s a t i l e 1 0 1 ,该原型底层信息模型采用类似于o e m 的o i m ( m o d e lf o ro b j e c t i n t e g r a t i o n ) 模型。该模型基于带根连通有向图理论建立,其o i m 对象代数提供 并、差、选择、投影、粘贴及切削6 种操作。v e r s a t i l e 采用的集成方法为结构化 方法。 中国人民大学信息学院的孟,j 、峰教授等就w e b 数据管理的若干问题进行了 研究,重点是w e b 查询问题、半结构化数据模式和w e b 信息集成方法。他们提 出了一种基于x m l 的w e b 数据管理系统框架,首先将各异构信息源转换载入到 x m l 数据中心,然后对数据中心的x m l 数据进行管理和查询。目前研究工作 仍处于进一步探索阶段。 国内与异构信息集成研究相关的主要项目有国家重点基础研究发展规划 ( 9 7 3 规划) 的“网络环境下海量信息组织与处理的理论与方法项目”和“万维 4 第一章绪论 网上的数据集成、数据仓库及知识发现的有效算法与软件系统”,国家数据库重 大专项课题( 8 6 3 项目) 的“基于x m l 的数据集成、共享与交换”等。通过这 些专项课题的研究,培养了大量的科研、开发、应用人员,并提出了异构信息集 成中的许多重大关键技术。国内关于语义集成还只是处于研究状态,所开发的项 目也只是处于试验阶段。 总之,当t i mb e m e r s l e e 提出语义网( s e m a n t i cw e b ) 后,各研究机构根据 异构数据集成过程中存在的问题,如概念冲突、语义冲突、结构冲突等,引入本 体的概念,先后提出了基于语义的数据集成,即“语义集成( s e m a n t i c i n t e g r a t i o n ) ”,同时也随之提出了“语义互操作( s e m a n t i ci n t e r o p e r a b i l i t y ) ”。语 义集成是指在引入本体概念的基础上,定义某领域中公共的概念、关系等数据, 并通过带有语义信息的标注,使得机器能达到一定程度的智能,解决信息集成过 程中存在的语义异构。 1 3 论文研究的主要内容 结合课题背景,本文深入研究了基于语义的信息集成方法,提出了基于语 义的信息集成框架,其目的是为了更好地支持领域信息共享与互操作,为用户提 供更高效的信息服务。具体来讲,主要包含以下几个方面的内容: 1 ) 针对信息集成研究的现状,对信息集成的方法和技术进行了深入的研究。 要想解决信息集成中存在的异构问题,不仅需要解决信息之间存在结构异 构、系统异构,还需要解决系统之间的语义异构。本文对结构化集成方法和语义 集成方法进行了全面的研究,提出语义集成方法更适合于网络信息集成空间的信 息分布环境。同时,对目前存在的技术做了全面的比较,并确定了本文采用的集 成技术:w e bs e r v i c e s 。 2 ) 通过引入本体概念,给出了领域信息一体化( 领域本体) 构建的方法。 在信息集成过程中,信息一体化描述是信息集成的前提条件。这就需要选择 一种通用的语义描述语言,方便数据的操作和管理,而且还可以作为用户统一访 问的模式接口。本文通过引入元数据和本体的概念,采用o w l 作为信息描述的 语言,给出了构建领域本体的方法,实现了数据描述一体性,用户访问方便性等。 3 ) 提出了基于语义的异构信息集成rs h i i ) 的框架。 第一章绪论 对网络信息空间中存在的语义异构问题进行了分析,提出了用户驱动和数据 源驱动两种策略相结合的集成思想,设计了s h i i 的总体框架。 s h i i 方法以面向对象的思想为指导建立信息描述模型,以o w l 作为描述载 体存储描述结果,借鉴u m l 分析方法可视化地展现集成系统的功能,三者的有 机结合实现了基于语义的异构信息的集成。s h i i 信息描述基于语义元数据构建, 通过映射解决异构信息的语义异构,利用w e bs e r v i c e s 作为通讯技术,解决存在 的系统异构等问题。 同时对s h i i 框架中存在的关键技术进行了详细描述,并对其功能模块的实 现给出了具体的实现方法或算法,展示了s h i i 在信息集成中的具体应用。 4 ) s h i i 框架原型系统的实现。 本文通过简单介绍框架的应用项目。给出了框架原型系统的实现过程,展示 了如何应用s h i i 框架进行数据描述、构建及集成。该实现过程也进一步说明了 s h i i 方法的可行性和实用性。 5 ) 对基于语义服务的s h i i 进行了探讨研究。 通过对目前语义服务的产生、任务等的描述,提出了s h i i 与语义服务结合 的思想,给出了s h i i 语义服务的包装过程和基于语义服务的s h i i 的框架。此研 究从一定程度上实现了机器的智能理解与处理,也为下一步的研究工作信息 网格奠定了一定的基础。 1 4 论文的组织结构 论文按照“研究一设计一实现一应用”的思路来组织安排,共分七章进行论述。 文章结构如图1 1 所示。 图1 1 论文结构图 第一章绪论 第一章:简单介绍了本文的课题背景及意义、信息集成的研究现状、本文的 主要内容和组织结构。 第二章:介绍了信息集成目前存在的方法和技术,并对这些方法技术进行比 较,提出基于语义的集成方法和w e bs e r v i c e s 技术更适合于集成网络信息空间的 分布环境。 第三章:概述了目前信息集成中存在的问题,提出了基于语义的异构信息集 成框架,并详细说明了框架功能的基本操作、本体库的作用,最后总结说明了此 框架的特点。 第四章:对基于语义的异构信息集成框架中的关键技术w e bs e r v i c e s 、全局 本体构建、局部数据模式的本体构建、本体映射等做了详细的说明。 第五章:介绍了基于异构系统的电信级客户关系管理系统,以及语义异构信 息集成框架在该系统中的实现过程。同时给出框架在本体构建、全局查询处理、 查询分解等方面的具体实现步骤及相关算法等。 第六章:提出了基于语义服务的s h i i 研究。给出了s h i i 语义包装的方法和 基于语义服务的s h i i 框架。并对其部分模块的实现作了简单的介绍。 第七章:是本文的总结部分。总结本文所做的工作,指出进一步研究的方向。 第二章信息集成综述 第二章信息集成综述 信息集成是对各种异构的信息资源进行统一的表示、组织和管理,屏蔽各种 异构信息资源之间的差异,并在此基础之上为用户提供统一的和无差异的信息服 务。根据第一章介绍,采用好的信息集成方法和对信息资源的一体化描述,是实 现高效信息资源集成和共享的前提。 本章介绍了三种典型的信息集成方法和目前存在的信息集成技术,并对其 进行了深入的探讨和比较,得出w e bs e r v i c e s 技术和基于语义的信息集成最适合 于目前数据源动态变化的w e b 环境。而且在基于语义的集成方法中,还介绍了 信息资源中的一体化描述方法本体、基于语义集成方法的分类和信息集成的 数据描述。 2 1 信息集成方法 分析现有异构数据源集成的体系结构,经典的体系结构有三种:联邦数据库、 m e d i a t i o n 和数据仓库,根据数据集成系统是对原数据源的查询,还是对预处理 过的数据的查询,把这三种体系结构分成两组。如果是对预处理的数据进行查询, 这种方法就是虚拟视图( v i r t u a lv i e w ) 方法,另外一种就是物化的( m a t e r i a l i z e d ) 方法,即数据仓库法。随着网络的发展,尤其是随着本体技术研究的深入,基于 语义的异构数据集成体系结构也成为了一种新的有代表性的体系结构。 2 1 1 数据仓库法 数据仓库( d a t aw a r e h o u s e ) 是当今十分活跃的研究领域。数据仓库 6 】就是 把企业的原始操作数据和来自外部的数据汇集和整理成一个数据库,为企业提供 完整、及时、准确和明了的商业决策信息,并使终端用户可以直接从数据仓库提 取数据,用于各种分析。即在客户端与数据源( 服务器) 之间增加层,用于存 储来自各数据源的待集成数据,系统提供对这个数据仓库的查询机铺。这种体系 结构的优点是既可用于数据集成,又可用于决策支持查询。该方法存在的问题是, 当w e b 信息源的数据发生变化时,数据仓库中的数据也要作相应的修改。因此, 这种间接访问方式的缺点是数据更新不及时,数据重复存储。这种体系结构通常 第_ - = 章信息集成综述 需要一些新的技术,如有效的数据加载和增量更新维护等,对传统的数据库设计 而言,数据仓库的设计具有如下的特性: 汇总和多维范式 汇总指用高层细节聚集计算低层细节聚集值的可能性。汇总在d w 概念设 计中是一种特性或品质因素。在查询多维数据中汇总非常重要。因此,任何多维 模式都应以如下方式建立:汇总应从尽可能高层获得。汇总应该在一般的多维范 式中扩展,这些范式确保出现在任意的维度。反过来,它在多维范式( m n f ) : 1m n f ,2 m n f ,和3 m n f 中扩展。 为了确保汇总,2m n f 在1m n f 的基础上考虑了任意的维度。而3m n f 在 2m n f 基础上对图表作了进一步的约束。3 m n f 是d w 概念设计的一个特性。 自我维护和独立查询 数据仓库是一个存储了集成信息的关系数据库。这些信息来自操作型数据库 的数据源并用物化视图的方式存储。一个大家熟知的视图维护问题是怎样维护物 化视图使之能够与操作型数据库更新同步。为了避免维护查询和更新的不规则, 随着视图的维护,可以使用自我维护这一特性。现在许多对物化视图的研究已经 实现。在一些文章中已经给出了自我维护在使用空间和存储列数方面增加的维护 性能以及自动更新的概念扩张到查询功能中。 在数据仓库集成结构中,来自几个数据源的数据被抽取出来,合成一个全局 模式。然后,数据存储在数据仓库中,这在用户看来与普通数据库无异。组织方 式如图2 一l 所示: 一,t 询上j s * r ,1 l 墅尝到 厂石墨 之咚 l 。兰罢竺ji 兰凳竺j 固固 、一 图2 - 1 数据仓库存储独立数据库中的信息集成 一旦数据存储在数据仓库中,用户就可以提出查询,正如他们向任何数据库 提出查询一样。另一方面,通常不允许用户对数据仓库进行更新,因为这些更新 不能反映在基本的数据源中,并且可能导致数据仓库与数据源不一致。 9 第二章信息集成综述 2 1 2 虚拟法 图2 2 虚拟法信息集成系统的典型架构示意图 图2 2 给出了虚拟法信息集成系统的典型架构口】,从图中可知,该方法使用 了与数据仓库法完全不同的结构。数据仍保存在各w e b 数据源上,集成系统仅 提供一个虚拟的集成视图和对该集成视图查询的处理机制,系统应能自动地将用 户对集成模式的查询请求转换成对各异构数据源的查询。在这种体系结构中,中 间层根本不实际存储数据,当客户端发出查询请求时,仅是简单地将查询发送到 适当的数据源上。由于该方法不需要重复存储大量数据,并能保证查询到最新的 数据,因此比较适合于高度自治、集成数量多且更新变化快的异构数据源集成。 目前有关数据集成系统的研究主要集中在这种虚拟方法上。它具体应用于联邦数 据库系统和m e d i a t e d 系统。 联邦数据库系统 联邦数据库系统( f e d e r a t e dd a t a b a s es y s t e m ,f d b s ) 是虚拟视图法的一种, 是由联邦的半自治的数据库组成,目的是实现数据库系统间部分数据的共享。联 邦中每个数据库的操作是独立于其它数据库和联邦的。之所以称为“半自治”是 因为联邦中的所有数据库都添加了彼此访问的接口。 联邦数据库系统分紧耦合f d b s 和松耦合f d b s 两种。 紧耦合f d b s 有一个或几个统一的模式,这些模式可通过模式集成技术半自 动生成,也可以通过用户手工构造。松祸合f d b s 没有统一的模式,但它提供了 一些查询数据库的统一语言。这样f d b s 中的数据库更具有自治性,但必须用户 解决语义上的异构。由于松耦合f d b s 没有全局模式,所以,每个数据库都要创 建自己的“联邦模式”。 o 第二章信息集成综述 f d b s 中实现互操作最常用的方法是将每个数据库模式分别和其它所有数 据库模式进行映射。这样联邦中需要建立”( 1 2 1 ) 个模式映射规则,但当参与联邦 的数据库很多时,建立映射规则的任务不可行。同时,希望各个数据源能够保持 数据的相对独立性。因此,f d b s 显然不是一个很好的解决方案。 m e d i a t e d 系统 m e d i a t e d 系统也是虚拟视图法的一种,它可集成的数据源可以是数据库,遗 产系统,w e b 数据源等。该系统提供给用户一个全局模式,用户提交的查询是针 对该模式的,所以用户不必知道数据源的位置、模式及访问方法。 m e d i a t i o n 体系结构与紧耦合联邦体系结构相比较有如下不同之处: 夺m e d i a t e d 系统可以集成非数据库数据源; 夺基于中介器( m e d i a t o r ) 的系统中数据源的查询能力更为广泛,支持除s q l 之外的其他查询语言; 夺m e d i a t e d 系统中的数据源是完全自治的,这就意味着很容易向从系统中 添加删除数据源; 夺由于m e d i a t e d 系统中的数据源是自治的,所以对系统中数据源的访问通 常是只读的,而f d b s 支持读写访问。 图2 3m e d i a t e d 系统体系结构 图2 - 3 是典型的m e d i a t e d 系统体系结构。该系统的主要部分是中介器和针 对每个数据源的包装器。中介器的功能是接收针对全局模式生成的查询,根据数 据源描述信息及映射规则将接收的查询分解成每个数据源的子查询,再根据数据 源描述信息优化查询计划。最后将子查询发送到每个数据源的包装器。包装器将 这些子查询翻译成符合每个数据源模型和模式的查询,并把查询结果返回给中介 器。中介器将接收的所有数据源的结果合并成一个结果返回给用户。 第二章信息集成综述 2 1 3 基于语义的集成方法 在数据集成方法中,基于语义的数据集成方法是近年来数据集成中最新的解 决思路,它引入本体的概念,提供对外访问的统一词汇集。 本体 本体( o n t o l o g y ) 最早是一个哲学上的概念,从哲学的范畴来说,o n t o l o g y 是客观存在的一个系统的解释和说明,关心的是客观现实的抽象本质。在人工智 能界,最早给出o n t o l o g y 定义的是n e c h e s 等人,他们将o n t o l o g y 定义为“给出 构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些 词汇外延的规则”u 2 1 。 1 9 9 3 年,g r u b e r 给出了o n t o l o g y 一个最为流行的定义,即“o n t o l o g y 是概 念模型的明确的规范说明”。后来,b o r s t 在此基础上,给出了o n t o l o g y 的另外 一种定义【1 3 】:“o n t o l o g y 是共享概念模型的形式化规范说明”。s t u d e r 等对上述两 个定义进行了深入的研究,认为o n t o l o g y 是共享概念模型的明确的形式化规范 说明,这包含4 层含义 1 4 1 :概念模型( c o n c e p t u a l i z a t i o n ) 、明确( e x p l i c i t ) 、形 式化( f o r m a l ) 和共享( s h a r e ) 。“概念模型”指通过抽象出客观世界中一些现象 ( p h e n o m e n o n ) 的相关概念而得到的模型。概念模型所表现的含义独立于具体 的环境状态。“明确”指所使用的概念及使用这些概念的约束都有明确的定义。 “形式化”指o n t o l o g y 是计算机可读的( 即能被计算机处理) o - 共享”指o n t o l o g y 中体现的是共同认可的知识,反映的是相关领域中公认的概念集,即o n t o l o g y 针对的是团体而非个体的共识。o n t o l o g y 的目标是捕获相关领域的知识,提供对 该领域知识的共同理解,确定该领域内麸同认可的词汇,并从不同层次的形式化 模式上给出这些词汇( 术语) 和词汇间相互关系的明确定义。 p e r e z 等人归纳出了o n t o l o g y 的五个基本的建模元语1 1 5 。这些元语分别为: 类( c l a s s e s ) ,关系( r e l a t i o n s ) ,函数( f u n c t i o n s ) ,公理( a x i o m s ) 和实例( i n s t a n c e s ) 。 通常也把c l a s s e s 写成c o n c e p t s 。概念的含义很广泛,可以指任何事物,如工作描 述、功能、行为、策略和推理过程等等。关系代表了在领域中概念之间的交互作 用。形式上定义为维笛卡儿乘积的子集:r :c 1x c 2 ,x c n 。如:子类关系 ( s u b c l a s s o f ) 。函数是一类特殊的关系。在这种关系中前”1 个元素可以惟一 决定第个元素。形式化的定义如下:f :c 1 c 2 ,c n 1 一凸。例如m o t h e r 第二章信息集成综述 o f 关系就是一个函数,其中m o t h e ro f ( ,表示y 是x 的母亲,显然x 可以唯一 确定他的母亲y 。公理代表永真断言,比如概念乙属于概念甲的范围。实例代表 元素,从语义上分析,实例表示的就是对象,而概念表示的则是对象的集合,关系 对应于对象元组的集合。概念的定义一般采用框架( f r a m e ) 结构,包括概念的名 称,与其它概念之问关系的集合,以及用自然语言对该概念的描述。基本的关系有 4 种:p a r to f , k i n do f ,i n s t a n c eo f 和a t t r i b u t eo f 。p a r to f 表达概念之间部分与整 体的关系;k i n do f 表达概念之间的继承关系,类似于面向对象中的父类和子类 之间的关系,给出两个概念c 和d ,记c 生 x x 是c 的实例 ,d 。 z 1x 是d 的实例 ,如果对任意属于d 韵x 都属于c :则称c 为d 的父概念,d 为c 的 子概念,i n s t a n c e o f 表达概念的实例和概念之间的关系,类似于面向对象中的对 象和类之间的关系;a t t r i b u t eo f 表达某个概念是另外一个概念的属性。例如概念 “价格”可作为概念“桌予”的一个属性。在实际的应用中,不一定要严格地按 照上述5 类元语来构造o n t o l o g y
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 本单元复习与测试教学设计-2025-2026学年高中思想政治必修2 经济与社会统编版(部编版)
- 第21课《古代诗歌五首》教学设计 统编版语文七年级下册
- 第九课 法律在我们身边说课稿-2023-2024学年初中道德与法治七年级(全一册)统编版(五四学制)
- 第二单元图像处理的基本方法第10课一、《绘制路径》说课稿 2024-2025学年人教版初中信息技术七年级下册
- 2025年低空经济政策调整对航空俱乐部行业创新能力的提升报告
- 2025年低空经济太空垃圾处理技术展望与市场分析报告
- 2025年无人机在智慧农业中的病虫害防治与预警报告
- 2025年低空经济「人工智能」无人机智能飞行控制系统报告
- 2025年低空经济生态补偿下的航空维修与维护技术创新报告
- 2025年新能源汽车充电APP用户充电成本分析与市场策略报告
- 2025-2026学年第一勾股定理、第二章实数检测试卷北师大版八年级数学上册
- 2025内初班语文试卷及答案
- 2025年甘肃省酒泉市瓜州县招聘村副职干部30人考试参考试题及答案解析
- 农村厨房翻建申请书
- 文库发布:《青鸟》课件
- (2025)时事政治试题库附答案详解
- 支行日常巡检方案
- 网络安全威胁建模规范
- 2025年西藏自治区事业单位招聘《公共基础》考试题库及答案解析
- 安全生产检查考核办法
- 2025年遗传病诊断技术应用考核考试答案及解析
评论
0/150
提交评论