已阅读5页,还剩102页未读, 继续免费阅读
(计算机软件与理论专业论文)基于本体的异构数据集成研究(1).pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
东 北大学硕士学 位论文摘要 基于本体的异构数据集成研究 摘要 随着网络和分布式应用的发展和普及,大量的异构数据源应运而生。为了更好的利用这 些资源, 人们迫切需要解决这些异构数据源的 集成问题。 本文主要引入本体概念来实现异构数 据集成, 本体的 使用有利于解决数据集成中的语义异构问 题, 这是其它数据集成技术很难实现 的。 本文讨论了当 前的数据集成方法及其存在的一些问题,介绍本体的 相关概念并指出将本 体应用于异构数据集成的优势, 描述了几种在数据集成中 使用本体的方式, 重点提出基于本体 的数据集成的架构模型, 为所有的数据源建立一个全局本体, 再为每个数据源建立一个局部本 体, 同时定义本体与本体、 本体与数据源之间的映射, 然后基于对本体的推理结果进行全局查 询语句的分解,生成针对不同数据源的查询语句以实现统一访问。 关键词: 本体 异构数据源 语义异构 数据集成 本体映射 东北大学硕士学位论文 a b s t r a c t o n t o lo g y - b a s e d h e t e r o g e n e o u s d a t a i n t e g r a t io n r e s e a r c h ab s t r a c t a l o n g w i t h t h e d e v e l o p m e n t a n d p o p u l a r i z a t i o n o f n e t w o r k a n d d i s t r i b u t i o n a p p l i c a t i o n , m o re a n d m o r e h e t e r o g e n e o u s d a t as o u r c e s h a d b e e n p r o d u c e d ,p r o b l e m o f t h e s e h e t e r o g e n e o u s c o n c e p t o f o n t o l o g y t o d a t aso u r c e s w as b e c o mi n g m o r e t h e n e e d o f s o l v i n g t h e i n t e g r a t i o n i m p o r t a n t . t h i s p a p e r m a i n l y i m p o r t e d t h e re a l i z e t h e i n t e g r a t i o n o f h e t e r o g e n e o u s d a t a . i n s o l v i n g t h e p r o b l e m o f s e m a n t i c h e t e r o g e n e it y o f d a t a i n t e g r a t i o n , o f d a t a i n t e g r a t i o n c o u l d h a r d l y a c h i e v e it . u t i l i z a t i o n o f o n t o l o g y d i d w e l l h o w e v e r t h e o t h e r t e c h n o l o g i e s t h e p a p e r d i c u s s e d t h e c u r r e n t t e c h n o l o g i e s o f d a t a i n t e g r a t i o n , t h e n i n t r o d u c e d t h e c o n c e p t o f o n t o l o g y , a n d i n d i c a t e d t h e a d v a n t a g e o f a p p l y i n g o n t o l o g y t o t h e i n t e g r a t i o n o f h e t e r o g e n e o u s d a t a , f o l l o w i n g t h e d e s c r i p t i o n o f s e v e r a l w a y s o f u s i n g o n t o l o g y i n d a t a i n t e g r a t i o n , t h e n e m p h asi z e d o n p r e s e n t i n g t h e f r a m e w o r k o f o n t o l o g y b as e d d a t a i n t e g r a t i o n , b u i l t a g l o b a l o n t o l o g y f o r a l l d a t a s o u r c e s a n d a l o c a l o n t o l o g y f o r e v e ry d a t as o u r c e , a t t h e s a m e t i m e s e t u p t h e m a p p i n g b e t w e e n o n t o l o g i e s a n d d a t as o t u c e s , t h e n d e c o m p o s e d t h e g l o b a l q u e ry s t a t e m e n t b a s e d o n t h e r e s u lt o f r e a s o n i n g o n t o l o g y , p r o d u c i n g t h e q u e ry s t a t e m e n t s o f d i ff e r e n t d a t as o u r c e s t o r e a l i z e t h e g o a l o f u n i f i e d v i s i t . k e y w o r d s : o n t o l o g y , h e t e r o g e n e o u s d a t a s o u r c e , s e m a n t i c h e t e r o g e n e i t y , d a t a i n t e g r a t i o n , o n t o l o g y m a p p i n g 独创性声明 本人声明所呈交的学位论文是在导师的指导一 f 完成的。论文中取得的研究成 果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过的研究成果,也 不包括本人为获得其他学位而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均己在论文中作了明确的说明并表示谢意。 学 位 论 文 作 者 签 名 : 雷访 、 期: , 刃 夕 , 2 8 学位论文版权使用授权书 本学位论文作者和指导教师完全了 解东北人学有关保留、 使用学位论文的规定: 即学校有 权保留 并向国家有关部门 或机构送交论文的 复印 件和磁盘, 允许论文被查阅 和借阅。 本人授权 东北大学可以 将学位论文的 全部或部分内 容编入有关数据库进行检索、交流。 ( 如作者和导师同意网上交流,请在下方签名;否则视为不同意。 ) 学位论文作者签名 y w , -)a r s . ! , a g 导 师 签 名 :l 签 字日 期 :签字日 期:沙洲 了、 卜李 含 东北大学 硕士学位论文第1 章 绪论 第1 章 绪 论 1 . 1 研究目 的及意义 随 着计算机及网 络技术的 快速发展,网上的信息迅猛增加, 成为了 一个巨大的 信息库,同 时齐企业单位开发了大量的软硬件平台各异的应用系统, 在各种应用系统 卜 又积累了丰富的 数 据资 源。 这样就形成了 成千上万个异构的 数据源, 有传统的 数据库、 文件系统,以 及h t m l , x m l 等半结构化的 数据, 还有图 片、 声音和其它多媒体信息等非结构化的数据。 这些数据资源 由 于 软硬件平台 各异、 数据模型各异而形成了异构数据, 使各数据源间的互操作变得复杂、困 难,使它们成为信息孤岛。为了更好地利用网络上浩如烟海的信息,以及不造成企业应用系统 的 重复建设和数据资 源的 浪费, 人们迫切需要集成这些地理上分 布、管理上自 治、 模式上异构 的 异构数据源,因 此集成问 题吸引了 众多关注。 如何在异构数据环境中集成、 访问 这些数据呢? 首要关键的问 题是研究异构数据之间的 集 成问 题, 只有 将这些孤立的数据都集成起来,并且提供给用户一个统一的视图, 才有可能从巨 大的数据资源中获取所需的东西,这样就引出了数据集成技术。 数据集成的目 的是在数据源逻辑层上建立统一的访问 界面, 实现异构数据的 分布式共享, 使用户不必考虑数据模型的异构性、数据抽取、数据合成等问 题, 用户只需指定他们想耍的 数 据,而不必描述怎样得到数据。这样就减轻了用户寻找相关数据源、和每个数据源交互然后返 回结果的负担。 1 .2 数据集成及研究现状 t 异构数据简介 异构数据是一个含义丰富的 概念, 不仅指不同的 数据库系统之间的数据是异构的, 如o r a c l e 数 据库 和s q l s e rv e r 数据库分别 存放的 数据; 而 且还包 括不同 结 构的 数据之间的 异构, 如结构 化的s q l s e rv e r 数 据库数据 和半 结 构化的x m l 数 据 1 . 异构性对于系统设计者来说既是一个受欢迎的 特征也是一个不受欢迎的 特征。 一方面受欢 迎是因为它与系统效率紧密相连,程序与需要解决的问 题的匹配度越高,该程序就会工作得越 好, 在这个过程中会选择一个合适的编程语言并给出 一些需要的 假设条件。 另一方面异构性也 被考虑为是不受欢迎的特征,因为它为系统的互操作性带来了障碍,使得异构系统间的数据不 易交 换 2 , 使用着异构数据的系统形成了异构数据系统,系统包括数据源和数据接收者,其中数据源 指数据库、x m l 文件、文本文件等, 接收者是指提出查询请求的用户和应用程序。 异构 数据系统的 特点 是具 有 分布性、自 治 性和 异构 性 3 a ( 1 ) 分布性:当前有很多的 计算机都连接在某种类型的网 络上 ( 特别是i n t e m e t ) , 通过组 合这些分布在不同地点的应用程序和数据源。它们就能通过网 络进行通信。 ( 2 )自 治 性: 每个数据源都可以 独立 地被用户或应用程序访问, 而不受其它系统的限制。 s c h e u e r m a n n e t a . 4 提出了 不同 类型( 等 级) 的自 治: 设计自 治:包括所管理的数据或信息、数据元素的表示 ( 数据模型、查询语言) 和命名、 数据的 概念化或语义解释、管理数据的限 制、系统功能、 与其它系统的关联; 通信自 治:指系统自己决定与其他什么系统通信,以 及它们之间交互的内容; 执行自 治:指系统自己决定如何及何时执行来自 其它系统的请求,外部系统不能强制命 令的执行,则系统本身可以忽略所有不满足本地限制的操作。 东北大学 硕士学位论文第1 章 绪论 第1 章 绪 论 1 . 1 研究目 的及意义 随 着计算机及网 络技术的 快速发展,网上的信息迅猛增加, 成为了 一个巨大的 信息库,同 时齐企业单位开发了大量的软硬件平台各异的应用系统, 在各种应用系统 卜 又积累了丰富的 数 据资 源。 这样就形成了 成千上万个异构的 数据源, 有传统的 数据库、 文件系统,以 及h t m l , x m l 等半结构化的 数据, 还有图 片、 声音和其它多媒体信息等非结构化的数据。 这些数据资源 由 于 软硬件平台 各异、 数据模型各异而形成了异构数据, 使各数据源间的互操作变得复杂、困 难,使它们成为信息孤岛。为了更好地利用网络上浩如烟海的信息,以及不造成企业应用系统 的 重复建设和数据资 源的 浪费, 人们迫切需要集成这些地理上分 布、管理上自 治、 模式上异构 的 异构数据源,因 此集成问 题吸引了 众多关注。 如何在异构数据环境中集成、 访问 这些数据呢? 首要关键的问 题是研究异构数据之间的 集 成问 题, 只有 将这些孤立的数据都集成起来,并且提供给用户一个统一的视图, 才有可能从巨 大的数据资源中获取所需的东西,这样就引出了数据集成技术。 数据集成的目 的是在数据源逻辑层上建立统一的访问 界面, 实现异构数据的 分布式共享, 使用户不必考虑数据模型的异构性、数据抽取、数据合成等问 题, 用户只需指定他们想耍的 数 据,而不必描述怎样得到数据。这样就减轻了用户寻找相关数据源、和每个数据源交互然后返 回结果的负担。 1 .2 数据集成及研究现状 t 异构数据简介 异构数据是一个含义丰富的 概念, 不仅指不同的 数据库系统之间的数据是异构的, 如o r a c l e 数 据库 和s q l s e rv e r 数据库分别 存放的 数据; 而 且还包 括不同 结 构的 数据之间的 异构, 如结构 化的s q l s e rv e r 数 据库数据 和半 结 构化的x m l 数 据 1 . 异构性对于系统设计者来说既是一个受欢迎的 特征也是一个不受欢迎的 特征。 一方面受欢 迎是因为它与系统效率紧密相连,程序与需要解决的问 题的匹配度越高,该程序就会工作得越 好, 在这个过程中会选择一个合适的编程语言并给出 一些需要的 假设条件。 另一方面异构性也 被考虑为是不受欢迎的特征,因为它为系统的互操作性带来了障碍,使得异构系统间的数据不 易交 换 2 , 使用着异构数据的系统形成了异构数据系统,系统包括数据源和数据接收者,其中数据源 指数据库、x m l 文件、文本文件等, 接收者是指提出查询请求的用户和应用程序。 异构 数据系统的 特点 是具 有 分布性、自 治 性和 异构 性 3 a ( 1 ) 分布性:当前有很多的 计算机都连接在某种类型的网 络上 ( 特别是i n t e m e t ) , 通过组 合这些分布在不同地点的应用程序和数据源。它们就能通过网 络进行通信。 ( 2 )自 治 性: 每个数据源都可以 独立 地被用户或应用程序访问, 而不受其它系统的限制。 s c h e u e r m a n n e t a . 4 提出了 不同 类型( 等 级) 的自 治: 设计自 治:包括所管理的数据或信息、数据元素的表示 ( 数据模型、查询语言) 和命名、 数据的 概念化或语义解释、管理数据的限 制、系统功能、 与其它系统的关联; 通信自 治:指系统自己决定与其他什么系统通信,以 及它们之间交互的内容; 执行自 治:指系统自己决定如何及何时执行来自 其它系统的请求,外部系统不能强制命 令的执行,则系统本身可以忽略所有不满足本地限制的操作。 东北大学硕士学位论文第i 章 绪论 设计自 治将导 致不同 类型的 异构, 土要有数据异构和系统异构。 其中数据异构是指不同系 统中以 不同 形式组织和解释数据,系统异构是指数据模型的差异。 同时设计自 治使得语义互操作 ( 不同系统间的信息进行有意义的交互) 变得团难。通信白 治和执行自 治为查询处理和优化提出了挑战。 ( 3 ) 异构性:由于 技术的原因, 存在着很多类型的 异构。 不同 源的集成需要解决的问 题包 括 不 一 致的 命 名习 惯、 不 一 致的 变 量 度量( 米v s 码) 、 不 一 致的 编 码结 构 d d m m y y v s d a y m o n t h y e a r ) 、 不 一 致 的 数 据物 理 属 性( i n t v s c h a r ) 等。 多 年 来 研 究 人员 和开 发 人 员 一 直 在 努 力 解 决 这 些异构问题。 异构大致可分为四 类:系统、 语法、 结构和语义 5 l 。 其中系统异构包括硬件和操作系统, 例如, 硬件、 系统软件 ( 如操作系统) 和通信系统之间的 差异。 语法异构包括不同的 语言和数 据表示;结构异构包括不同的数据模型;语义异构包括用户信息请求的 语义和数据源的语义 本文的 重点将放在解决语义异构上。 不同 源的设计者对于现实世界的事物的看待角度不会 完全一样,这样就会产生语义异构。 研究者们对语义异构的 分类情况各有不同, 本文在参考各 种分 类6 l 的 基 础上, 将语 义异构分为 五 类: 命名异构: 异构常常表现为相同的数据模式实体采用不同的名字;不同的数据模式实体 采用相同的名字。这两种情况也可以看作是我们熟悉的同 义字和同形异义字。 例如,在不同系 统中公司名可能表示不同 ( i n t e rn a t i o n a l b u s i n e s s ma c h i n e s ” 可能表示为 “ i b m 或 l b .m ) , 还有标准单词和简写的 冲突 ( 如“ k i l o m e t e r ” 和 “ k m ) 。由 于处在不同地理位置的数据模式可 能存在着表示相同概念但名字不同的实体,导致在集成后发生冲突, 所以需要寻求一种方式将 这些描述同一实体的名字同一 化。 格式异构: 表现为采用了 不同的计量单位、精度层次和属性的值域, 如工资使用人民币 或美元作为 计量单位,日 期的数据类型可以 用d a t e 或s t r i n g表示。 在度量学术级别上使用 不同的 粒度 ( 例如用字母“ a 、 . b ; 、 . c , - d , e ” 分别表示优、良 、 好、 及格、 不及格) 。 属性异构: 不同的数据源对相同实体的属性采取不同的定义方法, 如某类的 地址属性在 另一类中被定义为省、城市、街道三个属性。 外延异构 7 l : 这种类型的 语义异构主要有关类的范围, 一个类的范围 就是该类所包含的 对象集。 根据这一点, 类之间的关系可以 划分为四种,第一种是等价元素, 表示相同的对象集 合 ( 如一个数据库中的, i n s t r u c t o r s ” 和另一个数据库中的 “ l e c t u re r s ) , 这些相同的 对象集合 在全局 模式中 表示为 一个类 ( 如 g - i n s t u r c t o r s ) 。如果在合并的 类上 进行全局查询,需要执行连 接或 外 连 接操作来获 得 最终结 果。 例 如, 当 在“ g - i n s tr u c t o r s ” 类上 执行查 询时, 为 获 取最终 答 案, 从“ i n s t r u c t o r s 类返回的结果 和从“ l e c t u re r s ” 类返回的 结果应进行连接 ( 或外连接) ; 第 二 种是 交 叉 元 素, 表 示 有 交 叉的 实 体的 集 合。 例 如, 两 个 数 据 库中 的“ s t u d e n t ” 和“ e m p lo y e e 类都可能有表示“ re s e a r c h - a s s i s t a n t s ” 的公共对象。 这样的类在全局模式中集成时应该具有一个 公共的子类, 该公共子 类包含着公共的 对象集。 如果对公共子类 ( r e s e a r c h - a s s i s t a n t s ) 进行全局 查询, 需要进行全局连接操作来获得结果。 如果交义的元素在语义上是等价的, 例如两个不同 d b m s 中 的“ e m p lo y e e ” 类, 则 在全 局模式中 这两 个 类可 表示为 单一 类, 如“ g - e m p lo y e e , 需 要对这两 个局部“ e m p lo y e e 类进行外 连接 才可以 获得 最后的 结 果: 第三 种是 包 含元素, 一个 类的 范围 是另 一 个 类范围 的子 集 如e m p lo y e e 8 0 年代中期 - 9 0 年代中 期: 随着网 络的出 现、 i n t e rn e t 的发展以 及多种类型的 数据的 形成 ( 包括结构化数据库、 半结构化数据、 数字多媒体等) , 出现了一些支持多种类型的异构数 据集成的 技术, 如m e t a d a t a , m e d i a t o r 、 中间 件等, 主要的系统有t s i m m i s , g a r l i c , s i ms , h e r me s , i n f o s l e u t h 等; - 9 0年代中期现在 这个阶段比较关注数据集成过程中的语义异构的解决问题,更多的 运用知识领域的有关技术如本体等。主要有信息的智能集成、数字化图书馆等: 综合这几个阶段的发展,期间出现的技术大约有以 下两类: ( 1 ) 虚拟视图法:其中包括联邦数据库系统和中介系统。 联邦数据库系统: 是数据库集成的最简单结构。 它的构成方式是将所有组件数据库进行 一对一的连接, 这种方式的数据集成是一个n维问题。 如果存在n个数据库, 则每个数据库都 需要与其它n - 1 个数据库实现互操作, 即如果你有n个不同的系统或数据源需要集成, 你就需 要建立n ( n - i ) 个不同的数据交互接口 接近n的 二次方) , 开发者就必须编写n 协- 1 ) 段代码来 支持两两之间的查 询访问。 对于 大的公司, n可能上百 位, 则n的 二次方则会超过1 0 0 ,0 0 0 , 这看 起来是个不可能的问 题, 所以 联邦数据库集成系统适合于自 治数据库的 数量比 较小的 情况。 联邦数据库系统的 体系结构如图 1 . 1 所示: 根据对联邦数据库的控制及操作方式, 可以将联邦数据库分为松祸合联邦数据库和紧祸合 联邦数据库。 松祸合联邦数据库没有全局数据模式存在, 用户必须通过特定的多数据库操作语言及自己 对联邦的定义、维护来实现数据运营,这样联邦数据库中的各数据库就更具有自 治性。 紧祸合联邦数据库拥有全局数据模式和全局数据库管理员, 由管理员负责创建和维护全局 数据模式,并向用户提供统一的数据操纵接口,由 于全局模式要解决逻辑上的异构, 就需要领 东 北大学硕士学位论文 第 t 章 绪论 混淆冲突:由一些容易混淆的概念产生的冲突。例如 “ 最近的交易价格”中的“ 最近” 可能被解释为 “ 5 分钟前”或 1 0 分钟前 , 。 另外,还有数据值的冲突,例如两个不同数据库的同一实体取值不同,假设有 s t u d e n t 1 ( 1 1 l , f e m a le ,2 3 ) 和s t u d e n t 2 ( l l l ,f e m a le ,2 4 ) , 即 为 同 一 学生 在 不同 数 据 库 里的 年龄 属 性的 取值不同。 1 .2 . 2 数据集成方法概述 数据集成是对各种异构数据提供统一 的表示、存储和管理,这些功能在异构数据集成系统 中实现。 数据集成屏蔽了 各种异构数据间的差异, 通过异构数据集成系统进行统一 操作。因此 集成后的 异构数据对用户来说是统一的和无差异的。 数据集成技术的研究始于七十年代中期,至今已有二十多年了。从一开始的多数据库集成 发展到现在的异构数据源集成,数据集成的范围和作用都在不断扩大。 a m it p s h e t h 3 提出 数据集 成的 发展 可大约 分为三 个阶 段来 看: 7 0年代一8 0年代中期:出现的主要技术有多数据库系统和联邦数据库系统,重点在于 使有着不同软硬件设备的计算机系统进行互连和通信, 解决了一定程度上的语法和结构异构, 实现了 地理分布、 数据模式 等的透明 性, 主要的 产品有 u n is q l /m ( u n is q l ) , m e r m a in , d a t a l o i n e r ( i b m) , o m n i c o n n e c t ( s y b a s e ) ; 8 0 年代中期 - 9 0 年代中 期: 随着网 络的出 现、 i n t e rn e t 的发展以 及多种类型的 数据的 形成 ( 包括结构化数据库、 半结构化数据、 数字多媒体等) , 出现了一些支持多种类型的异构数 据集成的 技术, 如m e t a d a t a , m e d i a t o r 、 中间 件等, 主要的系统有t s i m m i s , g a r l i c , s i ms , h e r me s , i n f o s l e u t h 等; - 9 0年代中期现在 这个阶段比较关注数据集成过程中的语义异构的解决问题,更多的 运用知识领域的有关技术如本体等。主要有信息的智能集成、数字化图书馆等: 综合这几个阶段的发展,期间出现的技术大约有以 下两类: ( 1 ) 虚拟视图法:其中包括联邦数据库系统和中介系统。 联邦数据库系统: 是数据库集成的最简单结构。 它的构成方式是将所有组件数据库进行 一对一的连接, 这种方式的数据集成是一个n维问题。 如果存在n个数据库, 则每个数据库都 需要与其它n - 1 个数据库实现互操作, 即如果你有n个不同的系统或数据源需要集成, 你就需 要建立n ( n - i ) 个不同的数据交互接口 接近n的 二次方) , 开发者就必须编写n 协- 1 ) 段代码来 支持两两之间的查 询访问。 对于 大的公司, n可能上百 位, 则n的 二次方则会超过1 0 0 ,0 0 0 , 这看 起来是个不可能的问 题, 所以 联邦数据库集成系统适合于自 治数据库的 数量比 较小的 情况。 联邦数据库系统的 体系结构如图 1 . 1 所示: 根据对联邦数据库的控制及操作方式, 可以将联邦数据库分为松祸合联邦数据库和紧祸合 联邦数据库。 松祸合联邦数据库没有全局数据模式存在, 用户必须通过特定的多数据库操作语言及自己 对联邦的定义、维护来实现数据运营,这样联邦数据库中的各数据库就更具有自 治性。 紧祸合联邦数据库拥有全局数据模式和全局数据库管理员, 由管理员负责创建和维护全局 数据模式,并向用户提供统一的数据操纵接口,由 于全局模式要解决逻辑上的异构, 就需要领 东北大学硕士学位论文第 1 章 绪论 图 1 . 1 联邦数据库体系结构 f i g . 1 . 1 t h e a r c h i t e c t u r e o f f e d e r a t e d d a t a b a s e s 域专家决定数据库模式间的对应关系, 所以不易增加删 除系统中的 数据库。 根据全局模式的数 量可以 将紧祸合联邦数据库分为单联邦数据库和多联邦数据库。 单联邦数据库只有一个全局模 式存在,而多联邦数据库则可以 为不同 用户群建立多个全局模式。 中介系统:一种软件构件, 通过提供所有异构数据源的虚拟视图进行集成。数据源可以 是数 据库、 遗留 系 统 ( le g a c y s y s t e m ) , w e b 数据 源等。 这 种集成方 式与 数 据仓库中 使 用 物化方 法集成数据源的方式相似, 但它不存储任何实际数据。 系统提供给用户一个全局模式 ( 也称为 m e d i a t e d 模式) , 用户针对全局模式提交查询而不必知道数据源的 位置、 模式和访问 方法, 系统 将用户查询翻译成一个或多个对数据源的查询。 然后将数据源的 查询结构进行综合处理, 并将 它返回给用户。中介系统中的数据源是完全自治的, 可以容易地增加珊 除数据源。 图 1 . 2中介系统体系结构 f ig . 1 .2 t h e a r c h i t e c t u r e o f m e d i a t e d s y s t e m 东北大学 硕士学位论文第1 章 绪论 中 介 系统一 般由 一个中 介器 和多 个包 装器( w r a p p e r ) 组成。 包装 器用于 将数 据源的 数 据转 换为 集成系统可以 处理的某种结构化的数据。中 介器的功能是分析针对全局模式的查 询, 分解 为子查询,并将它们转换为针对相应数据源的查询,最后合并所有数据源的结果返回给用户 中介系统的体系结构如图 1 . 2 所示: ( 2 ) 物化方法:主要指数据仓库, 该方法需要建立一 个存储数据的 仓库, 将来白 多个数据 源的数据副本都存储在单一的数据库中,由e t l ( e x t r a c t , t r a n s f o r m , l o a d ) 工具定期从数据源 过滤数据,然后装载到数据仓库,供用户查询。不足之处在于数据仓库中的数据在存储之前要 经过一定的筛选处理, 而且数据仓库还需要定期更新, 所以 用户查询到的数据可能不是最新的。 1 .2 .3 数据集成模式分类 数据集成的模式集成形式化框架 s 一 个数 据集成系 统i 是 一个三 元组 ( g ,s ,m ) , 其中 9 是全局模式 s 是源模式 m是g 和s 之间的 映 射 9 和s 之间的 映 射 存着不同的 方法: ( i ) 一种是以 全局模式为中 心的方法, 也称为g l o b a l - a s - v i e w ( g a v ) : 假设有二个数据源s 1 , s 2 和s 3 ,每个数据源都存着有关学生的 数据: s 1 : s t u d e n t n o :s t r i n g , s t u d e n t n a m e :s t r i n g , c i a s s n o : s t r i n g , d e p a r tn o : s t r i n g s 2 : c i a s s n o :s t r i n g , c l a s s n a m e :s t r i n g s 3 : d e p a r t m e n t n o : s t r i n g , d e p a r t m e n t n a m e : s t r i n g ) 数据源s 1 存放着学生的基本信息, s 2 存放着有关的班级信息, s 3 存放着有关系所的 信息 其中s 1 的d e p a rt n o 和s 3 的d e p a rt m e n t n 。 有 着相同 的 值。 所以 , 我 们可以 把中 介模式定 义为: c a t a l o g : s t u d e n t n o :s t r i n g , s t u d e n t n a m e : s t r i n g , c l a s s n o : s t r i n g , d e p a r tn o : s t r i n g , c l a s s n a m e :s t r i n g , d e p a r t m e n tn a m e :s t r i n g 在g a v中, 使用下列映射规则来集成各数据源的 数据。 c r e a t e v i e w c a t a l o g a s s e l e c t s t u d e n t n o , s t u d e n t n a m e , c l a s s n o , d e p a r tn o f rom sl un i o n s e l e c t c l a s s n o , c i a s s n a me f rom s 2 un i o n s e l e c t d e p a r t m n e t n o a s d e p a rt n o , d e p a r tm e n t n a m e f r o m s 3 g a v 的缺点是缺乏扩展性,如果有新的数据源需要集成,则需要修改视图定义。如 t s i m m s , i n t e r v i s o 和g a r l i c 都是使用g a v方法的系统。 系 统c a r r o t , s i m s , t s im m is , i b i s , p ic s e l 等都是 采用g a v 方 法, 采用这种 方法的质 量 依赖于我们将数据源映射到全局模式的好坏程度,当数据源改变或有新的数据源增加时,全局 模式就需要进行改动。 ( 2 )一 种是以 数 据源为中 心的 方 法, 也 称为l o c a l- a s - v ie w ( l a v ) : 在l a v中, 对于 每个数据源s ,都有一个视图来描述该数据源对应于中介视图的关系。 c r e a t e v i e w c a t a l o g l a s s e l e c t s t u d e n t n o , s t u d e n t n a m e , c i a s s n o , d e p a rt n o 东北大学 硕士学位论文第1 章 绪论 中 介 系统一 般由 一个中 介器 和多 个包 装器( w r a p p e r ) 组成。 包装 器用于 将数 据源的 数 据转 换为 集成系统可以 处理的某种结构化的数据。中 介器的功能是分析针对全局模式的查 询, 分解 为子查询,并将它们转换为针对相应数据源的查询,最后合并所有数据源的结果返回给用户 中介系统的体系结构如图 1 . 2 所示: ( 2 ) 物化方法:主要指数据仓库, 该方法需要建立一 个存储数据的 仓库, 将来白 多个数据 源的数据副本都存储在单一的数据库中,由e t l ( e x t r a c t , t r a n s f o r m , l o a d ) 工具定期从数据源 过滤数据,然后装载到数据仓库,供用户查询。不足之处在于数据仓库中的数据在存储之前要 经过一定的筛选处理, 而且数据仓库还需要定期更新, 所以 用户查询到的数据可能不是最新的。 1 .2 .3 数据集成模式分类 数据集成的模式集成形式化框架 s 一 个数 据集成系 统i 是 一个三 元组 ( g ,s ,m ) , 其中 9 是全局模式 s 是源模式 m是g 和s 之间的 映 射 9 和s 之间的 映 射 存着不同的 方法: ( i ) 一种是以 全局模式为中 心的方法, 也称为g l o b a l - a s - v i e w ( g a v ) : 假设有二个数据源s 1 , s 2 和s 3 ,每个数据源都存着有关学生的 数据: s 1 : s t u d e n t n o :s t r i n g , s t u d e n t n a m e :s t r i n g , c i a s s n o : s t r i n g , d e p a r tn o : s t r i n g s 2 : c i a s s n o :s t r i n g , c l a s s n a m e :s t r i n g s 3 : d e p a r t m e n t n o : s t r i n g , d e p a r t m e n t n a m e : s t r i n g ) 数据源s 1 存放着学生的基本信息, s 2 存放着有关的班级信息, s 3 存放着有关系所的 信息 其中s 1 的d e p a rt n o 和s 3 的d e p a rt m e n t n 。 有 着相同 的 值。 所以 , 我 们可以 把中 介模式定 义为: c a t a l o g : s t u d e n t n o :s t r i n g , s t u d e n t n a m e : s t r i n g , c l a s s n o : s t r i n g , d e p a r tn o : s t r i n g , c l a s s n a m e :s t r i n g , d e p a r t m e n tn a m e :s t r i n g 在g a v中, 使用下列映射规则来集成各数据源的 数据。 c r e a t e v i e w c a t a l o g a s s e l e c t s t u d e n t n o , s t u d e n t n a m e , c l a s s n o , d e p a r tn o f rom sl un i o n s e l e c t c l a s s n o , c i a s s n a me f rom s 2 un i o n s e l e c t d e p a r t m n e t n o a s d e p a rt n o , d e p a r tm e n t n a m e f r o m s 3 g a v 的缺点是缺乏扩展性,如果有新的数据源需要集成,则需要修改视图定义。如 t s i m m s , i n t e r v i s o 和g a r l i c 都是使用g a v方法的系统。 系 统c a r r o t , s i m s , t s im m is , i b i s , p ic s e l 等都是 采用g a v 方 法, 采用这种 方法的质 量 依赖于我们将数据源映射到全局模式的好坏程度,当数据源改变或有新的数据源增加时,全局 模式就需要进行改动。 ( 2 )一 种是以 数 据源为中 心的 方 法, 也 称为l o c a l- a s - v ie w ( l a v ) : 在l a v中, 对于 每个数据源s ,都有一个视图来描述该数据源对应于中介视图的关系。 c r e a t e v i e w c a t a l o g l a s s e l e c t s t u d e n t n o , s t u d e n t n a m e , c i a s s n o , d e p a rt n o 东 北大学硕士学位论文第1 章 绪 论 f rom s l c r e a t e v i e w c a t a l o g 2 a s s e l e c t c i a s s n o , c i a s s n a m e f r o m s 2 c r e a t e v i e w c a t a l o g 3 a s s e l e c t d e p a rt m n e t n o a s d e p a r tn o , d e p a r t m e n t n a m e f rom s 3 定义这些规则比较容易, 而且当有新的 数据源加入时,可以比较容易地扩展整个 l a v数 据集成而不用影响其它的映射规则。 l a v主要的 缺点是 可能产生不完 全的查询结果。 系 统i n f o r m a t i o n m an i f o ld , d w q , p ic s e l 等都是 采用l a v方法, 采用 这种方 法的 质量 依 赖于我 们特征化数据源的 好坏程度, l a v方法还具有高度的 模块化程度和良 好的 可扩展性 ( 如 果设计的全局 模式比 较好, 那么当数据源改变时,只会影响 到它的 定义, 而对整个 集成系统没 有影响) 。 但查询过程需要 进行推理,即查询重组比 较复杂。 ( 3 ) 还有一种结合以上两种方法的混合方法,称为g l a v ; ( 4 ) 另外还有一种没有全局模式的 方法,映 射存在于数据源与数据源之间, 称为p 2 p ; 1 .3 本文主要工作 本文的主要研究内 容是: 首先分析了 异构数据集成过程需 要解决的问 题,重点了 解了 使用 x m l 技术的 异构数据集成, 得知其中 存在的问 题是对语义异构的解决尚 有欠缺; 然后分析了 将 本体技术应用于数据集成的优势,并讨论了各类语义异构及解决方法;然后提出了基于本体的 异构数据集成的系统架构,并在描述集成过程的基础上分别给出 本体构建、本体映射的过程, 其中涉及到全局本体、 局部本体和数据源; 最后给出查询处理的 过程, 包括全局查 询处理和局 部查询处理以及最后的结果合并。 1 .4 本文的组织 本文的章节安排如下: 第一章为绪论。主要介绍了异构数据集成的研究意义、研究现状和本文主要的研究内容。 第二章主要讨论应用了 本体的 数据集成。 首先简要介绍基于x m l的数据集成方法, 然后 说明 本体的概念并讨论了 在数据集成中使用本体的 优势, 最后给出了 基于本体的 数据集成的 几 种架构。 第三章提出了 本文将使用的系统架构模型,并简要描述了 基子本体的 数据集成的过程。 第四章重点描述了本体构建过程,首先介绍了 本体分类和本体构建方法, 然后提出 本文需 要构建的全局本体和局部本体应该如何构建,从提取数据模式开始,分别展开了 对数据库局部 本体和x m l 文件局部本体的描述, 最后给出了全局本体的详细构建过程。 第五章主要描述了有关本体映射的内 容,首先给出了 本体映射的方法,然后分别描述了 局 部本体与数据源的映射、全局本体与局部本体的映射。 第六章给出了查询处理的 过程, 首先需要构建全局查询语句, 并在此基础上进行本体推理, 然后应用推理结果分解查询 语句,由 此得到的是针对各局部本体的子查询语句, 再转化为 对具 体数据源的实际查询语句,其中分别有关系数据源的查询处理和x m l数据源的查询 处理, 最 后将各个数据源的查询结果合并返回。 第七章总结了本文的研究工作,并给出了进一步的展望。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 钢琴课程优惠活动方案
- 酒泉徒步活动方案
- 重阳创意活动方案
- 金融同业活动方案
- 舟山市人民医院血管介入并发症处理考核
- 重装开业家电活动方案
- 阅读工程活动方案
- 门窗公司优惠活动方案
- 镇文明乡村活动方案
- 芜湖市人民医院化学换肤操作资格认证
- 2025-2030中国工业物联网行业市场深度调研及发展前景与趋势预测研究报告
- 电子技能实训 教案全套-教学设计
- 口腔医师首诊负责制度
- 泌尿系CTU检查流程
- 市政道路机械化保洁工作建议
- 老人应急突发状况
- 新闻记者职业资格《新闻采编实务》考试题库(含答案)
- 自动售货机服务协议书 3篇
- 七年级语文上册写作 学会记事课件
- 全国初中数学教师赛课一等奖人教版数学七年级上册(人教2024年新编)《代数式复习课》教学设计
- 临电转正式电施工方案
评论
0/150
提交评论