（计算机软件与理论专业论文）基于本体的异构数据集成研究(1).pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-14 格式：PDF 页数：107 大小：3.07MB 积分：0 举报 版权申诉

已阅读5页，还剩102页未读，继续免费阅读

（计算机软件与理论专业论文）基于本体的异构数据集成研究(1).pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

东北大学硕士学位论文摘要基于本体的异构数据集成研究摘要随着网络和分布式应用的发展和普及，大量的异构数据源应运而生。为了更好的利用这些资源，人们迫切需要解决这些异构数据源的集成问题。本文主要引入本体概念来实现异构数据集成，本体的使用有利于解决数据集成中的语义异构问题，这是其它数据集成技术很难实现的。本文讨论了当前的数据集成方法及其存在的一些问题，介绍本体的相关概念并指出将本体应用于异构数据集成的优势，描述了几种在数据集成中使用本体的方式，重点提出基于本体的数据集成的架构模型，为所有的数据源建立一个全局本体，再为每个数据源建立一个局部本体，同时定义本体与本体、本体与数据源之间的映射，然后基于对本体的推理结果进行全局查询语句的分解，生成针对不同数据源的查询语句以实现统一访问。关键词: 本体异构数据源语义异构数据集成本体映射东北大学硕士学位论文 a b s t r a c t o n t o lo g y - b a s e d h e t e r o g e n e o u s d a t a i n t e g r a t io n r e s e a r c h ab s t r a c t a l o n g w i t h t h e d e v e l o p m e n t a n d p o p u l a r i z a t i o n o f n e t w o r k a n d d i s t r i b u t i o n a p p l i c a t i o n , m o re a n d m o r e h e t e r o g e n e o u s d a t as o u r c e s h a d b e e n p r o d u c e d ,p r o b l e m o f t h e s e h e t e r o g e n e o u s c o n c e p t o f o n t o l o g y t o d a t aso u r c e s w as b e c o mi n g m o r e t h e n e e d o f s o l v i n g t h e i n t e g r a t i o n i m p o r t a n t . t h i s p a p e r m a i n l y i m p o r t e d t h e re a l i z e t h e i n t e g r a t i o n o f h e t e r o g e n e o u s d a t a . i n s o l v i n g t h e p r o b l e m o f s e m a n t i c h e t e r o g e n e it y o f d a t a i n t e g r a t i o n , o f d a t a i n t e g r a t i o n c o u l d h a r d l y a c h i e v e it . u t i l i z a t i o n o f o n t o l o g y d i d w e l l h o w e v e r t h e o t h e r t e c h n o l o g i e s t h e p a p e r d i c u s s e d t h e c u r r e n t t e c h n o l o g i e s o f d a t a i n t e g r a t i o n , t h e n i n t r o d u c e d t h e c o n c e p t o f o n t o l o g y , a n d i n d i c a t e d t h e a d v a n t a g e o f a p p l y i n g o n t o l o g y t o t h e i n t e g r a t i o n o f h e t e r o g e n e o u s d a t a , f o l l o w i n g t h e d e s c r i p t i o n o f s e v e r a l w a y s o f u s i n g o n t o l o g y i n d a t a i n t e g r a t i o n , t h e n e m p h asi z e d o n p r e s e n t i n g t h e f r a m e w o r k o f o n t o l o g y b as e d d a t a i n t e g r a t i o n , b u i l t a g l o b a l o n t o l o g y f o r a l l d a t a s o u r c e s a n d a l o c a l o n t o l o g y f o r e v e ry d a t as o u r c e , a t t h e s a m e t i m e s e t u p t h e m a p p i n g b e t w e e n o n t o l o g i e s a n d d a t as o t u c e s , t h e n d e c o m p o s e d t h e g l o b a l q u e ry s t a t e m e n t b a s e d o n t h e r e s u lt o f r e a s o n i n g o n t o l o g y , p r o d u c i n g t h e q u e ry s t a t e m e n t s o f d i ff e r e n t d a t as o u r c e s t o r e a l i z e t h e g o a l o f u n i f i e d v i s i t . k e y w o r d s : o n t o l o g y , h e t e r o g e n e o u s d a t a s o u r c e , s e m a n t i c h e t e r o g e n e i t y , d a t a i n t e g r a t i o n , o n t o l o g y m a p p i n g 独创性声明本人声明所呈交的学位论文是在导师的指导一 f 完成的。论文中取得的研究成果除加以标注和致谢的地方外，不包含其他人己经发表或撰写过的研究成果，也不包括本人为获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢意。学位论文作者签名 : 雷访、期: ，刃夕， 2 8 学位论文版权使用授权书本学位论文作者和指导教师完全了解东北人学有关保留、使用学位论文的规定: 即学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许论文被查阅和借阅。本人授权东北大学可以将学位论文的全部或部分内容编入有关数据库进行检索、交流。 ( 如作者和导师同意网上交流，请在下方签名;否则视为不同意。 ) 学位论文作者签名 y w , -)a r s . ! ， a g 导师签名 :l 签字日期 :签字日期:沙洲了、卜李含东北大学硕士学位论文第1 章绪论第1 章绪论 1 . 1 研究目的及意义随着计算机及网络技术的快速发展，网上的信息迅猛增加，成为了一个巨大的信息库，同时齐企业单位开发了大量的软硬件平台各异的应用系统，在各种应用系统卜又积累了丰富的数据资源。这样就形成了成千上万个异构的数据源，有传统的数据库、文件系统，以及h t m l , x m l 等半结构化的数据，还有图片、声音和其它多媒体信息等非结构化的数据。这些数据资源由于软硬件平台各异、数据模型各异而形成了异构数据，使各数据源间的互操作变得复杂、困难，使它们成为信息孤岛。为了更好地利用网络上浩如烟海的信息，以及不造成企业应用系统的重复建设和数据资源的浪费，人们迫切需要集成这些地理上分布、管理上自治、模式上异构的异构数据源，因此集成问题吸引了众多关注。如何在异构数据环境中集成、访问这些数据呢? 首要关键的问题是研究异构数据之间的集成问题，只有将这些孤立的数据都集成起来，并且提供给用户一个统一的视图，才有可能从巨大的数据资源中获取所需的东西，这样就引出了数据集成技术。数据集成的目的是在数据源逻辑层上建立统一的访问界面，实现异构数据的分布式共享，使用户不必考虑数据模型的异构性、数据抽取、数据合成等问题，用户只需指定他们想耍的数据，而不必描述怎样得到数据。这样就减轻了用户寻找相关数据源、和每个数据源交互然后返回结果的负担。 1 .2 数据集成及研究现状 t 异构数据简介异构数据是一个含义丰富的概念，不仅指不同的数据库系统之间的数据是异构的，如o r a c l e 数据库和s q l s e rv e r 数据库分别存放的数据; 而且还包括不同结构的数据之间的异构，如结构化的s q l s e rv e r 数据库数据和半结构化的x m l 数据 1 . 异构性对于系统设计者来说既是一个受欢迎的特征也是一个不受欢迎的特征。一方面受欢迎是因为它与系统效率紧密相连，程序与需要解决的问题的匹配度越高，该程序就会工作得越好，在这个过程中会选择一个合适的编程语言并给出一些需要的假设条件。另一方面异构性也被考虑为是不受欢迎的特征，因为它为系统的互操作性带来了障碍，使得异构系统间的数据不易交换 2 , 使用着异构数据的系统形成了异构数据系统，系统包括数据源和数据接收者，其中数据源指数据库、x m l 文件、文本文件等，接收者是指提出查询请求的用户和应用程序。异构数据系统的特点是具有分布性、自治性和异构性 3 a ( 1 ) 分布性:当前有很多的计算机都连接在某种类型的网络上 ( 特别是i n t e m e t ) , 通过组合这些分布在不同地点的应用程序和数据源。它们就能通过网络进行通信。 ( 2 )自治性: 每个数据源都可以独立地被用户或应用程序访问，而不受其它系统的限制。 s c h e u e r m a n n e t a . 4 提出了不同类型( 等级) 的自治: 设计自治:包括所管理的数据或信息、数据元素的表示 ( 数据模型、查询语言) 和命名、数据的概念化或语义解释、管理数据的限制、系统功能、与其它系统的关联; 通信自治:指系统自己决定与其他什么系统通信，以及它们之间交互的内容; 执行自治:指系统自己决定如何及何时执行来自其它系统的请求，外部系统不能强制命令的执行，则系统本身可以忽略所有不满足本地限制的操作。东北大学硕士学位论文第1 章绪论第1 章绪论 1 . 1 研究目的及意义随着计算机及网络技术的快速发展，网上的信息迅猛增加，成为了一个巨大的信息库，同时齐企业单位开发了大量的软硬件平台各异的应用系统，在各种应用系统卜又积累了丰富的数据资源。这样就形成了成千上万个异构的数据源，有传统的数据库、文件系统，以及h t m l , x m l 等半结构化的数据，还有图片、声音和其它多媒体信息等非结构化的数据。这些数据资源由于软硬件平台各异、数据模型各异而形成了异构数据，使各数据源间的互操作变得复杂、困难，使它们成为信息孤岛。为了更好地利用网络上浩如烟海的信息，以及不造成企业应用系统的重复建设和数据资源的浪费，人们迫切需要集成这些地理上分布、管理上自治、模式上异构的异构数据源，因此集成问题吸引了众多关注。如何在异构数据环境中集成、访问这些数据呢? 首要关键的问题是研究异构数据之间的集成问题，只有将这些孤立的数据都集成起来，并且提供给用户一个统一的视图，才有可能从巨大的数据资源中获取所需的东西，这样就引出了数据集成技术。数据集成的目的是在数据源逻辑层上建立统一的访问界面，实现异构数据的分布式共享，使用户不必考虑数据模型的异构性、数据抽取、数据合成等问题，用户只需指定他们想耍的数据，而不必描述怎样得到数据。这样就减轻了用户寻找相关数据源、和每个数据源交互然后返回结果的负担。 1 .2 数据集成及研究现状 t 异构数据简介异构数据是一个含义丰富的概念，不仅指不同的数据库系统之间的数据是异构的，如o r a c l e 数据库和s q l s e rv e r 数据库分别存放的数据; 而且还包括不同结构的数据之间的异构，如结构化的s q l s e rv e r 数据库数据和半结构化的x m l 数据 1 . 异构性对于系统设计者来说既是一个受欢迎的特征也是一个不受欢迎的特征。一方面受欢迎是因为它与系统效率紧密相连，程序与需要解决的问题的匹配度越高，该程序就会工作得越好，在这个过程中会选择一个合适的编程语言并给出一些需要的假设条件。另一方面异构性也被考虑为是不受欢迎的特征，因为它为系统的互操作性带来了障碍，使得异构系统间的数据不易交换 2 , 使用着异构数据的系统形成了异构数据系统，系统包括数据源和数据接收者，其中数据源指数据库、x m l 文件、文本文件等，接收者是指提出查询请求的用户和应用程序。异构数据系统的特点是具有分布性、自治性和异构性 3 a ( 1 ) 分布性:当前有很多的计算机都连接在某种类型的网络上 ( 特别是i n t e m e t ) , 通过组合这些分布在不同地点的应用程序和数据源。它们就能通过网络进行通信。 ( 2 )自治性: 每个数据源都可以独立地被用户或应用程序访问，而不受其它系统的限制。 s c h e u e r m a n n e t a . 4 提出了不同类型( 等级) 的自治: 设计自治:包括所管理的数据或信息、数据元素的表示 ( 数据模型、查询语言) 和命名、数据的概念化或语义解释、管理数据的限制、系统功能、与其它系统的关联; 通信自治:指系统自己决定与其他什么系统通信，以及它们之间交互的内容; 执行自治:指系统自己决定如何及何时执行来自其它系统的请求，外部系统不能强制命令的执行，则系统本身可以忽略所有不满足本地限制的操作。东北大学硕士学位论文第i 章绪论设计自治将导致不同类型的异构，土要有数据异构和系统异构。其中数据异构是指不同系统中以不同形式组织和解释数据，系统异构是指数据模型的差异。同时设计自治使得语义互操作 ( 不同系统间的信息进行有意义的交互) 变得团难。通信白治和执行自治为查询处理和优化提出了挑战。 ( 3 ) 异构性:由于技术的原因，存在着很多类型的异构。不同源的集成需要解决的问题包括不一致的命名习惯、不一致的变量度量( 米v s 码) 、不一致的编码结构 d d m m y y v s d a y m o n t h y e a r ) 、不一致的数据物理属性( i n t v s c h a r ) 等。多年来研究人员和开发人员一直在努力解决这些异构问题。异构大致可分为四类:系统、语法、结构和语义 5 l 。其中系统异构包括硬件和操作系统，例如，硬件、系统软件 ( 如操作系统) 和通信系统之间的差异。语法异构包括不同的语言和数据表示;结构异构包括不同的数据模型;语义异构包括用户信息请求的语义和数据源的语义本文的重点将放在解决语义异构上。不同源的设计者对于现实世界的事物的看待角度不会完全一样，这样就会产生语义异构。研究者们对语义异构的分类情况各有不同，本文在参考各种分类6 l 的基础上，将语义异构分为五类: 命名异构: 异构常常表现为相同的数据模式实体采用不同的名字;不同的数据模式实体采用相同的名字。这两种情况也可以看作是我们熟悉的同义字和同形异义字。例如，在不同系统中公司名可能表示不同 ( i n t e rn a t i o n a l b u s i n e s s ma c h i n e s ” 可能表示为 “ i b m 或 l b .m ) , 还有标准单词和简写的冲突 ( 如“ k i l o m e t e r ” 和 “ k m ) 。由于处在不同地理位置的数据模式可能存在着表示相同概念但名字不同的实体，导致在集成后发生冲突，所以需要寻求一种方式将这些描述同一实体的名字同一化。格式异构: 表现为采用了不同的计量单位、精度层次和属性的值域，如工资使用人民币或美元作为计量单位，日期的数据类型可以用d a t e 或s t r i n g表示。在度量学术级别上使用不同的粒度 ( 例如用字母“ a 、 . b ; 、 . c , - d , e ” 分别表示优、良、好、及格、不及格) 。属性异构: 不同的数据源对相同实体的属性采取不同的定义方法，如某类的地址属性在另一类中被定义为省、城市、街道三个属性。外延异构 7 l : 这种类型的语义异构主要有关类的范围，一个类的范围就是该类所包含的对象集。根据这一点，类之间的关系可以划分为四种，第一种是等价元素，表示相同的对象集合 ( 如一个数据库中的， i n s t r u c t o r s ” 和另一个数据库中的 “ l e c t u re r s ) , 这些相同的对象集合在全局模式中表示为一个类 ( 如 g - i n s t u r c t o r s ) 。如果在合并的类上进行全局查询，需要执行连接或外连接操作来获得最终结果。例如，当在“ g - i n s tr u c t o r s ” 类上执行查询时，为获取最终答案，从“ i n s t r u c t o r s 类返回的结果和从“ l e c t u re r s ” 类返回的结果应进行连接 ( 或外连接) ; 第二种是交叉元素，表示有交叉的实体的集合。例如，两个数据库中的“ s t u d e n t ” 和“ e m p lo y e e 类都可能有表示“ re s e a r c h - a s s i s t a n t s ” 的公共对象。这样的类在全局模式中集成时应该具有一个公共的子类，该公共子类包含着公共的对象集。如果对公共子类 ( r e s e a r c h - a s s i s t a n t s ) 进行全局查询，需要进行全局连接操作来获得结果。如果交义的元素在语义上是等价的，例如两个不同 d b m s 中的“ e m p lo y e e ” 类，则在全局模式中这两个类可表示为单一类，如“ g - e m p lo y e e , 需要对这两个局部“ e m p lo y e e 类进行外连接才可以获得最后的结果: 第三种是包含元素，一个类的范围是另一个类范围的子集如e m p lo y e e 8 0 年代中期 - 9 0 年代中期: 随着网络的出现、 i n t e rn e t 的发展以及多种类型的数据的形成 ( 包括结构化数据库、半结构化数据、数字多媒体等) ，出现了一些支持多种类型的异构数据集成的技术，如m e t a d a t a , m e d i a t o r 、中间件等，主要的系统有t s i m m i s , g a r l i c , s i ms , h e r me s , i n f o s l e u t h 等; - 9 0年代中期现在这个阶段比较关注数据集成过程中的语义异构的解决问题，更多的运用知识领域的有关技术如本体等。主要有信息的智能集成、数字化图书馆等: 综合这几个阶段的发展，期间出现的技术大约有以下两类: ( 1 ) 虚拟视图法:其中包括联邦数据库系统和中介系统。联邦数据库系统: 是数据库集成的最简单结构。它的构成方式是将所有组件数据库进行一对一的连接，这种方式的数据集成是一个n维问题。如果存在n个数据库，则每个数据库都需要与其它n - 1 个数据库实现互操作，即如果你有n个不同的系统或数据源需要集成，你就需要建立n ( n - i ) 个不同的数据交互接口接近n的二次方) ，开发者就必须编写n 协- 1 ) 段代码来支持两两之间的查询访问。对于大的公司， n可能上百位，则n的二次方则会超过1 0 0 ,0 0 0 , 这看起来是个不可能的问题，所以联邦数据库集成系统适合于自治数据库的数量比较小的情况。联邦数据库系统的体系结构如图 1 . 1 所示: 根据对联邦数据库的控制及操作方式，可以将联邦数据库分为松祸合联邦数据库和紧祸合联邦数据库。松祸合联邦数据库没有全局数据模式存在，用户必须通过特定的多数据库操作语言及自己对联邦的定义、维护来实现数据运营，这样联邦数据库中的各数据库就更具有自治性。紧祸合联邦数据库拥有全局数据模式和全局数据库管理员，由管理员负责创建和维护全局数据模式，并向用户提供统一的数据操纵接口，由于全局模式要解决逻辑上的异构，就需要领东北大学硕士学位论文第 t 章绪论混淆冲突:由一些容易混淆的概念产生的冲突。例如 “ 最近的交易价格”中的“ 最近” 可能被解释为 “ 5 分钟前”或 1 0 分钟前，。另外，还有数据值的冲突，例如两个不同数据库的同一实体取值不同，假设有 s t u d e n t 1 ( 1 1 l , f e m a le ,2 3 ) 和s t u d e n t 2 ( l l l ,f e m a le ,2 4 ) ，即为同一学生在不同数据库里的年龄属性的取值不同。 1 .2 . 2 数据集成方法概述数据集成是对各种异构数据提供统一的表示、存储和管理，这些功能在异构数据集成系统中实现。数据集成屏蔽了各种异构数据间的差异，通过异构数据集成系统进行统一操作。因此集成后的异构数据对用户来说是统一的和无差异的。数据集成技术的研究始于七十年代中期，至今已有二十多年了。从一开始的多数据库集成发展到现在的异构数据源集成，数据集成的范围和作用都在不断扩大。 a m it p s h e t h 3 提出数据集成的发展可大约分为三个阶段来看: 7 0年代一8 0年代中期:出现的主要技术有多数据库系统和联邦数据库系统，重点在于使有着不同软硬件设备的计算机系统进行互连和通信，解决了一定程度上的语法和结构异构，实现了地理分布、数据模式等的透明性，主要的产品有 u n is q l /m ( u n is q l ) , m e r m a in , d a t a l o i n e r ( i b m) , o m n i c o n n e c t ( s y b a s e ) ; 8 0 年代中期 - 9 0 年代中期: 随着网络的出现、 i n t e rn e t 的发展以及多种类型的数据的形成 ( 包括结构化数据库、半结构化数据、数字多媒体等) ，出现了一些支持多种类型的异构数据集成的技术，如m e t a d a t a , m e d i a t o r 、中间件等，主要的系统有t s i m m i s , g a r l i c , s i ms , h e r me s , i n f o s l e u t h 等; - 9 0年代中期现在这个阶段比较关注数据集成过程中的语义异构的解决问题，更多的运用知识领域的有关技术如本体等。主要有信息的智能集成、数字化图书馆等: 综合这几个阶段的发展，期间出现的技术大约有以下两类: ( 1 ) 虚拟视图法:其中包括联邦数据库系统和中介系统。联邦数据库系统: 是数据库集成的最简单结构。它的构成方式是将所有组件数据库进行一对一的连接，这种方式的数据集成是一个n维问题。如果存在n个数据库，则每个数据库都需要与其它n - 1 个数据库实现互操作，即如果你有n个不同的系统或数据源需要集成，你就需要建立n ( n - i ) 个不同的数据交互接口接近n的二次方) ，开发者就必须编写n 协- 1 ) 段代码来支持两两之间的查询访问。对于大的公司， n可能上百位，则n的二次方则会超过1 0 0 ,0 0 0 , 这看起来是个不可能的问题，所以联邦数据库集成系统适合于自治数据库的数量比较小的情况。联邦数据库系统的体系结构如图 1 . 1 所示: 根据对联邦数据库的控制及操作方式，可以将联邦数据库分为松祸合联邦数据库和紧祸合联邦数据库。松祸合联邦数据库没有全局数据模式存在，用户必须通过特定的多数据库操作语言及自己对联邦的定义、维护来实现数据运营，这样联邦数据库中的各数据库就更具有自治性。紧祸合联邦数据库拥有全局数据模式和全局数据库管理员，由管理员负责创建和维护全局数据模式，并向用户提供统一的数据操纵接口，由于全局模式要解决逻辑上的异构，就需要领东北大学硕士学位论文第 1 章绪论图 1 . 1 联邦数据库体系结构 f i g . 1 . 1 t h e a r c h i t e c t u r e o f f e d e r a t e d d a t a b a s e s 域专家决定数据库模式间的对应关系，所以不易增加删除系统中的数据库。根据全局模式的数量可以将紧祸合联邦数据库分为单联邦数据库和多联邦数据库。单联邦数据库只有一个全局模式存在，而多联邦数据库则可以为不同用户群建立多个全局模式。中介系统:一种软件构件，通过提供所有异构数据源的虚拟视图进行集成。数据源可以是数据库、遗留系统 ( le g a c y s y s t e m ) , w e b 数据源等。这种集成方式与数据仓库中使用物化方法集成数据源的方式相似，但它不存储任何实际数据。系统提供给用户一个全局模式 ( 也称为 m e d i a t e d 模式) ，用户针对全局模式提交查询而不必知道数据源的位置、模式和访问方法，系统将用户查询翻译成一个或多个对数据源的查询。然后将数据源的查询结构进行综合处理，并将它返回给用户。中介系统中的数据源是完全自治的，可以容易地增加珊除数据源。图 1 . 2中介系统体系结构 f ig . 1 .2 t h e a r c h i t e c t u r e o f m e d i a t e d s y s t e m 东北大学硕士学位论文第1 章绪论中介系统一般由一个中介器和多个包装器( w r a p p e r ) 组成。包装器用于将数据源的数据转换为集成系统可以处理的某种结构化的数据。中介器的功能是分析针对全局模式的查询，分解为子查询，并将它们转换为针对相应数据源的查询，最后合并所有数据源的结果返回给用户中介系统的体系结构如图 1 . 2 所示: ( 2 ) 物化方法:主要指数据仓库，该方法需要建立一个存储数据的仓库，将来白多个数据源的数据副本都存储在单一的数据库中，由e t l ( e x t r a c t , t r a n s f o r m , l o a d ) 工具定期从数据源过滤数据，然后装载到数据仓库，供用户查询。不足之处在于数据仓库中的数据在存储之前要经过一定的筛选处理，而且数据仓库还需要定期更新，所以用户查询到的数据可能不是最新的。 1 .2 .3 数据集成模式分类数据集成的模式集成形式化框架 s 一个数据集成系统i 是一个三元组 ( g ,s ,m ) ，其中 9 是全局模式 s 是源模式 m是g 和s 之间的映射 9 和s 之间的映射存着不同的方法: ( i ) 一种是以全局模式为中心的方法，也称为g l o b a l - a s - v i e w ( g a v ) : 假设有二个数据源s 1 , s 2 和s 3 ，每个数据源都存着有关学生的数据: s 1 : s t u d e n t n o :s t r i n g , s t u d e n t n a m e :s t r i n g , c i a s s n o : s t r i n g , d e p a r tn o : s t r i n g s 2 : c i a s s n o :s t r i n g , c l a s s n a m e :s t r i n g s 3 : d e p a r t m e n t n o : s t r i n g , d e p a r t m e n t n a m e : s t r i n g ) 数据源s 1 存放着学生的基本信息， s 2 存放着有关的班级信息， s 3 存放着有关系所的信息其中s 1 的d e p a rt n o 和s 3 的d e p a rt m e n t n 。有着相同的值。所以，我们可以把中介模式定义为: c a t a l o g : s t u d e n t n o :s t r i n g , s t u d e n t n a m e : s t r i n g , c l a s s n o : s t r i n g , d e p a r tn o : s t r i n g , c l a s s n a m e :s t r i n g , d e p a r t m e n tn a m e :s t r i n g 在g a v中，使用下列映射规则来集成各数据源的数据。 c r e a t e v i e w c a t a l o g a s s e l e c t s t u d e n t n o , s t u d e n t n a m e , c l a s s n o , d e p a r tn o f rom sl un i o n s e l e c t c l a s s n o , c i a s s n a me f rom s 2 un i o n s e l e c t d e p a r t m n e t n o a s d e p a rt n o , d e p a r tm e n t n a m e f r o m s 3 g a v 的缺点是缺乏扩展性，如果有新的数据源需要集成，则需要修改视图定义。如 t s i m m s , i n t e r v i s o 和g a r l i c 都是使用g a v方法的系统。系统c a r r o t , s i m s , t s im m is , i b i s , p ic s e l 等都是采用g a v 方法，采用这种方法的质量依赖于我们将数据源映射到全局模式的好坏程度，当数据源改变或有新的数据源增加时，全局模式就需要进行改动。 ( 2 )一种是以数据源为中心的方法，也称为l o c a l- a s - v ie w ( l a v ) : 在l a v中，对于每个数据源s ,都有一个视图来描述该数据源对应于中介视图的关系。 c r e a t e v i e w c a t a l o g l a s s e l e c t s t u d e n t n o , s t u d e n t n a m e , c i a s s n o , d e p a rt n o 东北大学硕士学位论文第1 章绪论中介系统一般由一个中介器和多个包装器( w r a p p e r ) 组成。包装器用于将数据源的数据转换为集成系统可以处理的某种结构化的数据。中介器的功能是分析针对全局模式的查询，分解为子查询，并将它们转换为针对相应数据源的查询，最后合并所有数据源的结果返回给用户中介系统的体系结构如图 1 . 2 所示: ( 2 ) 物化方法:主要指数据仓库，该方法需要建立一个存储数据的仓库，将来白多个数据源的数据副本都存储在单一的数据库中，由e t l ( e x t r a c t , t r a n s f o r m , l o a d ) 工具定期从数据源过滤数据，然后装载到数据仓库，供用户查询。不足之处在于数据仓库中的数据在存储之前要经过一定的筛选处理，而且数据仓库还需要定期更新，所以用户查询到的数据可能不是最新的。 1 .2 .3 数据集成模式分类数据集成的模式集成形式化框架 s 一个数据集成系统i 是一个三元组 ( g ,s ,m ) ，其中 9 是全局模式 s 是源模式 m是g 和s 之间的映射 9 和s 之间的映射存着不同的方法: ( i ) 一种是以全局模式为中心的方法，也称为g l o b a l - a s - v i e w ( g a v ) : 假设有二个数据源s 1 , s 2 和s 3 ，每个数据源都存着有关学生的数据: s 1 : s t u d e n t n o :s t r i n g , s t u d e n t n a m e :s t r i n g , c i a s s n o : s t r i n g , d e p a r tn o : s t r i n g s 2 : c i a s s n o :s t r i n g , c l a s s n a m e :s t r i n g s 3 : d e p a r t m e n t n o : s t r i n g , d e p a r t m e n t n a m e : s t r i n g ) 数据源s 1 存放着学生的基本信息， s 2 存放着有关的班级信息， s 3 存放着有关系所的信息其中s 1 的d e p a rt n o 和s 3 的d e p a rt m e n t n 。有着相同的值。所以，我们可以把中介模式定义为: c a t a l o g : s t u d e n t n o :s t r i n g , s t u d e n t n a m e : s t r i n g , c l a s s n o : s t r i n g , d e p a r tn o : s t r i n g , c l a s s n a m e :s t r i n g , d e p a r t m e n tn a m e :s t r i n g 在g a v中，使用下列映射规则来集成各数据源的数据。 c r e a t e v i e w c a t a l o g a s s e l e c t s t u d e n t n o , s t u d e n t n a m e , c l a s s n o , d e p a r tn o f rom sl un i o n s e l e c t c l a s s n o , c i a s s n a me f rom s 2 un i o n s e l e c t d e p a r t m n e t n o a s d e p a rt n o , d e p a r tm e n t n a m e f r o m s 3 g a v 的缺点是缺乏扩展性，如果有新的数据源需要集成，则需要修改视图定义。如 t s i m m s , i n t e r v i s o 和g a r l i c 都是使用g a v方法的系统。系统c a r r o t , s i m s , t s im m is , i b i s , p ic s e l 等都是采用g a v 方法，采用这种方法的质量依赖于我们将数据源映射到全局模式的好坏程度，当数据源改变或有新的数据源增加时，全局模式就需要进行改动。 ( 2 )一种是以数据源为中心的方法，也称为l o c a l- a s - v ie w ( l a v ) : 在l a v中，对于每个数据源s ,都有一个视图来描述该数据源对应于中介视图的关系。 c r e a t e v i e w c a t a l o g l a s s e l e c t s t u d e n t n o , s t u d e n t n a m e , c i a s s n o , d e p a rt n o 东北大学硕士学位论文第1 章绪论 f rom s l c r e a t e v i e w c a t a l o g 2 a s s e l e c t c i a s s n o , c i a s s n a m e f r o m s 2 c r e a t e v i e w c a t a l o g 3 a s s e l e c t d e p a rt m n e t n o a s d e p a r tn o , d e p a r t m e n t n a m e f rom s 3 定义这些规则比较容易，而且当有新的数据源加入时，可以比较容易地扩展整个 l a v数据集成而不用影响其它的映射规则。 l a v主要的缺点是可能产生不完全的查询结果。系统i n f o r m a t i o n m an i f o ld , d w q , p ic s e l 等都是采用l a v方法，采用这种方法的质量依赖于我们特征化数据源的好坏程度， l a v方法还具有高度的模块化程度和良好的可扩展性 ( 如果设计的全局模式比较好，那么当数据源改变时，只会影响到它的定义，而对整个集成系统没有影响) 。但查询过程需要进行推理，即查询重组比较复杂。 ( 3 ) 还有一种结合以上两种方法的混合方法，称为g l a v ; ( 4 ) 另外还有一种没有全局模式的方法，映射存在于数据源与数据源之间，称为p 2 p ; 1 .3 本文主要工作本文的主要研究内容是: 首先分析了异构数据集成过程需要解决的问题，重点了解了使用 x m l 技术的异构数据集成，得知其中存在的问题是对语义异构的解决尚有欠缺; 然后分析了将本体技术应用于数据集成的优势，并讨论了各类语义异构及解决方法;然后提出了基于本体的异构数据集成的系统架构，并在描述集成过程的基础上分别给出本体构建、本体映射的过程，其中涉及到全局本体、局部本体和数据源; 最后给出查询处理的过程，包括全局查询处理和局部查询处理以及最后的结果合并。 1 .4 本文的组织本文的章节安排如下: 第一章为绪论。主要介绍了异构数据集成的研究意义、研究现状和本文主要的研究内容。第二章主要讨论应用了本体的数据集成。首先简要介绍基于x m l的数据集成方法，然后说明本体的概念并讨论了在数据集成中使用本体的优势，最后给出了基于本体的数据集成的几种架构。第三章提出了本文将使用的系统架构模型，并简要描述了基子本体的数据集成的过程。第四章重点描述了本体构建过程，首先介绍了本体分类和本体构建方法，然后提出本文需要构建的全局本体和局部本体应该如何构建，从提取数据模式开始，分别展开了对数据库局部本体和x m l 文件局部本体的描述，最后给出了全局本体的详细构建过程。第五章主要描述了有关本体映射的内容，首先给出了本体映射的方法，然后分别描述了局部本体与数据源的映射、全局本体与局部本体的映射。第六章给出了查询处理的过程，首先需要构建全局查询语句，并在此基础上进行本体推理，然后应用推理结果分解查询语句，由此得到的是针对各局部本体的子查询语句，再转化为对具体数据源的实际查询语句，其中分别有关系数据源的查询处理和x m l数据源的查询处理，最后将各个数据源的查询结果合并返回。第七章总结了本文的研究工作，并给出了进一步的展望。

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机软件与理论专业论文）基于本体的异构数据集成研究(1).pdf

文档简介

温馨提示

最新文档

评论

（计算机软件与理论专业论文）基于本体的异构数据集成研究(1).pdf

文档简介

温馨提示

最新文档

评论

相关文档