




已阅读5页,还剩74页未读, 继续免费阅读
(计算机应用技术专业论文)基于元模型的农业数据集成技术研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
佃| f f i f f f f f f f 伽川佃 y 18 218 81 上海海洋大学学位论文原创性声明 本人郑重声明:我恪守学术道德,崇尚严谨学风。所呈交的 学位论文,是本人在导师的指导下,独立进行研究j 【作所取得的 成果。除文中已经明确注明和引用的内容外,本论文不包含任何 其他个人或集体已经发表或撰写过的作品及成果的内容。论文为 本人亲自撰写,我对所写的内容负责,并完全意识到本声明的法 律结果由本人承担。 学位论文作者签名:蘑翻氟璃 同期:勿f 1 年f月i 同 上海海洋大学学位论文版权使用授权书 学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅或借阅。本人授权上海海洋人学可以将奉学 位论文的全部或部分内容编入有关数据库进行检索,可以采用影 印、缩印或扫描等复制手段保存和汇编本学位论文。 保密口,在年解密后适用本版权书。 本学位论文属于 不保密彤 学位论文作者签名:鹰锄毛鸭 日期:7 , olf 年f 月f 同 指导教师签名: r 期:o 、年f 月f2 同 上渔渔滢太堂博硕士学位论文 答辩委员会成员名单 姓名工作单位职称备注 刘广钟上海海事大学教授主席 袁红春上海海洋大学教授委员 冯国富上海海洋大学讲师委员 委员 委员 委员 委员 葛艳上海海洋大学副教授秘书 答辩地点信息学院3 0 6 会议室答辩日期 2 0 1 1 1 1 1 4 基于元模型的上海农业数据集成技术的研究与实现 摘要 i n t e r n e t 技术的飞速发展促使信息迅速膨胀,对信息资源管理和共享的需求 亦变得越发迫切,使得已经在传统领域内趋于成熟的数据库技术,面临着许多新 的问题和挑战。 在加入世界贸易组织以后,我国农业在国际竞争中一直处于不利的地位。随 着农业信息化建设的逐步深入,农业各领域业务支撑系统的不断建设和完善,迫 切需要将这些分散独立的业务系统数据进行统一整合,为领导层规划发展方向、 制定相关政策等提供可靠的数据保障。 元数据在数据仓库系统中地位是十分重要的,元数据库中存放着许多重要的 信息,尤其是对于数据仓库的e t l 过程,元数据是e t l 的指挥中心,是将分散的 数据源集成在一起的“粘合剂”。 不同厂商生产的大多数产品拥有不同的元数据模型( 即元模型,m e t a m o d e l ) , - 并使用其专用的接1 :3 发布元数据,集成这些软件产品、工具和应用程序,需要一 种单一的、业界范围的元数据交换标准。c w m ( c o m m o nw a r e h o u s em e t a m o d e l ,公 共仓库元模型) 正是一个被o m g 采纳的在数据仓库和业务分析环境中进行元数据交 换的标准,并且被业界普遍认可。 本文针对农业数据多源异构,特别是多业务的特点,提出了基于数据仓库法 的数据集成体系架构,给出了基于元模型的数据集成方法,并以c w m 模型为基础, 根据具体的农业数据集成需求,对c w m 模型进行了必要的选择和适当的扩展,构 建了数据交换、数据集成、业务逻辑三个元模型,实现了系统快速建模。通过构 建的元数据模型,控制数据仓库数据集成的e t l 全过程。本文针对异构数据集成 中语义集成的难点,定义的数据集成元模型构建了统一全局模式,最终将异构、 多业务数据整合到统一平台中。接下来,本文分别对三个元模型的构建作了详细 描述与介绍,重点研究了三个元模型控制e t l 流程的方法,最后实现了基于元模 型的关键指标分析系统。 本论文课题来源于上海市重点攻关项目信息技术在农业生产、管理和经营 中的应用中的子课题上海农业综合数据库的开发和应用。 j 关键词:数据集成,数据仓库,元模型,c w m ,语义异构 a b s t r a c t w i t ht h ed e v e l o p m e n to fi n t e m e tt e c h n o l o g y , i n f o r m a t i o nb e c o m e sl a r g e ra n d l a r g e r t h e r e f o r e ,t h em a t u r ed a t a b a s et e c h n o l o g yi nt r a d i t i o n a lf i e l dh a sf a c e dal o to f n e wp r o b l e m sa n dc h a l l e n g e s ,a n dc a nn o tm e e tt h ep r e s s i n gd e m a n df o rm o r ea n d b e t t e rm a n a g e m e n ta n ds h a r i n go fi n f o r m a t i o n r e s o u r c e w i t l li t sa c c e s s i o nt ot h ew 6 r l dt r a d eo r g a n i z a t i o n ( w t o ) c h i n e s ea g r i c u l t u r e h a se n t e r e dan e ws t a g ei ni t s o p e n i n gu p i te x p o s e st h ew e a k n e s so ft h ec h i n e s e a g r i c u l t u r ea sw e l l t h ec o n s t r u c t i o no fa g r i c u l t u r a li n f o r m a t i o na n do t h e rf i e l d s ,w h i c h u s e dt o s u p p o r t ,a r ei m p r o v i n gd a yb yd a y i no r d e rt op r o v i d er e l i a b l ed a t af o r l e a d e r s h i pt od e f i n et h eo r i e n t a t i o no fd e v e l o p m e n ta n dm a k er e l a t e dp o l i c y , i ti s n e c e s s a r yt oi n t e g r a t et h e s ei n d e p e n d e n tb u s i n e s s e s m e t a d a t ap l a y sav e r yi m p o r t a n tr o l ei nt h ed a t aw a r e h o u s es y s t e m i ts t o r e sm u c h i m p o r t a n ti n f o r m a t i o na b o u tt h ed a t a w a r e h o u s e ,e s p e c i a l l y a b o u tt h ee t l ( e t r a c t t r a n s f o r m l o a d ) p r o c e s s t h e r e f o r ei t sa p p r o p r i a t et ot a k et h em e t a d a t aa st h e c o n t r o lc e n t e ro ft h ee t l p r o c e s s ,a n dt h ea d h e s i v et oc o m b i n et h ed e c e n t r a ld a t a s 0 t i r e e s t h eg r e a tm a j o r i t yp r o d u c t sm a d eb yd i f f e r e n ts u p p l i e rh a v ed i f f e r e n tm e t a d a t a m o d e l s ( n a m e dm e t a m o d e l ) 帆e ne v e r ym e t a m o d e lr e l e a s em e t a d a t a , as p e c i a l i n t e r f a c es h o u l db eu s e d i ti se s s e n t i a lt om a k ea u n i q u ea n du n i v e r s a ls t a n d a r do fd a t a e x c h a n g e b a s e do nt h i ss t a n d a r d ,t h ed i s t i n c ts o t h v a r ep r o j e c t s ,t o o l sa n da p p l i c a t i o n s c a nb em e r g e d 。t h ec w m ( c o m m o nw a r e h o u s em e t a m o d e l ) i sas t a n d a r d w h i c hh a s b e e na d o p t e db yo m g ;f o re x c h a n g i n gm e t a d a t ai nd a t aw a r e h o u s ea n db u s i n e s s a n a l y s i s t h ec w m b e c o m e sm o r ea n dm o r ep o p u l a ri ni t sf i e l d t h i st h e s i sa i m sa tm u l t i s o u r c e sa n dh e t e r o g e n e o u so f a g r i c u l t u r a ld a t a , e s p e c i a l l y t h em u l t i - b u s i n e s s ,i tp u t sf o r w a r dad a t ai n t e g r a t i o ns y s t e mw h i c hi sb a s e do nt h e m e t a d a t ao fd a t aw a r e h o u s ea n d g i v e st h em e t a d a t am e t h o dw h i c hi sb a s e do n m e t a m o d e l a l s oo nt h eb a s i so fc w ma n dt h es p e c i f i cr e q u i r eo fa g r i c u l t u r a ld a t a ,t h i s k e y w o r d s :d a t ai n t e g r a t i o n ,d a t aw a r e h o u s e ,m e t a m o d e l ,c w m ,s e m a n t i c h e t e r o g e n e i t y 2 1 数据集成技术5 2 1 1 数据集成系统应具备的特性5 2 1 2 异构数据集成方法比较6 2 1 3 数据集成面临的问题1 0 2 1 4 集成方法的选择1 1 2 2 元模型理论1 1 2 2 1 元数据简介1 1 2 2 2 元数据在数据集成中的作用1 2 2 2 3c w m 规范1 2 2 3 本章小结15 第三章农业数据集成体系构架1 6 3 1 农业数据源多样性分析1 6 3 1 1 农业数据来源一1 6 3 1 2 上海农业数据多源异构的特征1 6 3 2 农业数据集成的要求。1 6 3 3 农业数据集成系统体系架构1 7 3 3 1 基于元模型的数据集成体系架构1 7 3 3 2 架构特点及优势。18 3 4 本章小结1 9 第四章基于元模型的农业数据集成方法研究。2 0 4 1 元模型的构建2 0 第五章基于元模型的关键指标分析系统实现4 2 5 1 系统设计的原则4 2 5 2 数据交换元模型的实现。4 3 5 3 数据集成元模型的实现4 7 5 3 1 指标描述表的设计4 7 5 3 2 指标填报表的设计4 8 5 3 3 指标属性表的设计4 8 5 3 4 部分代码实现。4 9 5 4 业务逻辑元模型的实现5 0 5 5 集成后的数据展示5 1 5 5 1 集成数据分析5 2 5 5 2 跨业务数据展示。5 8 5 5 2 指标篮子5 8 5 6 系统设计特点分析5 9 5 7 本章小结5 9 第六章总结与展望j 6 0 6 1 全文总结6 0 6 2 研究展望6 0 参考文献6 1 附录攻读硕士学位期间的科研成果6 3 一、攻读硕士学位期间已发表的论文:6 3 二、攻读硕士期间申请的发明专利:6 3 致谢6 4 上海海洋大学硕士学位论文 1 1 研究目的和意义 1 1 1 课题背景 第一章绪论 国家一直以来十分重视农业信息化的建设,中央六年来连续下发的一号文件 都有关于农业信息化的建设要求。2 0 0 8 年中央l 号文件指出,“健全农业信息收 集和发布制度,整合涉农信息资源,推动农业信息数据收集整理规范化、标准化”, “加快建设一批标准统一、实用性强的公用农业数据库 。 随着市场经济和信息化产业的飞速发展,上海市信息化发展速度非常迅速, 但农业信息化却处于相对落后的地位。上海的农业信息化要追赶发达国家水平, 有必要建立农业数据中心,加快建设农业基础数据库,系统收集、整理上海乃至 全国农业相关基础数据、资料和信息。进一步把握农业农村经济发展规律,及时 掌握农业各行业整体情况和发展趋势,逐个产品分析,逐个产业梳理,做到情况 明、底数清、数据准,为科学决策和高效管理提供可靠依据。随着信息化的不断 推进,网络和分布式应用的飞速发展,由于开发时间或开发部门的不同,数据的 存放日益分散且形式多样,往往有多个异质的、在不同软硬件平台上的信息系统 同时运行,这些系统的数据源彼此独立且相互封闭,使得数据难以在系统之间交 流、共享和融合,严重阻碍了信息化建设的整体进程。为加快信息化建设步伐, 实现最大程度的数据共享,迫切需要加大对异构数据集成的研究力度。 数据集成作为农业相关领导部门获取信息的重要方法,负责完成数据从数据 源向目标数据库流动,可以把原来孤立于多个异构数据源中的数据整合起来,为 部门的应用提供一个完整统一的数据视图,从而充分利用现有数据资源。数据集 成是实现数据共享的重要基础,是构建数据仓库的核心,是决策分析支持系统的 前提。分析当前上海农业领域的异构数据集成可以发现,如何更好地解决语义冲 突至关重要。 1 1 2 课题的研究意义 随着农业信息化的进一步发展、网络技术的广泛应用以及农业数据的量级、 复杂性、多样性的增加,多源异构农业数据的共享和集成已成为必然趋势。 上海海洋大学硕士学位论文 ( 1 ) 政府掌握农业农村全局数据,增强统筹决策。目前,上海农业生产数 据资料信息缺乏集聚。有些重要数据还是以传统的纸质方法保存,没有实现电子 化;有些重要数据只是用e x c e l 、w o r d 表的方式存储在个人电脑里。行政领导很 难及时、集中、全面的掌握农业各行业数据。往往正确的决策建立在全面、准确、 动态数据的基础上,因此农业数据集成有利于应急事件决策、农业发展规划决策、 农村社会事务管理决策。 ( 2 ) 打破数据条块分割,完成数据交换共享。目前上海农业生产数据多数 由各产业部门内部掌握,条线分割比较严重,缺少行业间的共享和沟通。不同部 门之间信息系统彼此独立运行,硬件重复投入、平台软件重复开发、基本数据重 复录入,形成信息孤岛,造成数据不一致、数据不完整等诸多弊端。建立数据中 心,通过统一编码标准,业务部门之间数据建立关联,数据库之间相融相通,可 以交换共享。 ( 3 ) 规范数据管理,完成基础数据的积累。支持领导决策的数据分析离不 开准确、有效、长期、规范的数据积累。建立数据中心,通过将纸质数据数字化 入库,将历史数据补充入库,将实时数据及时收集入库,完成数据的清洗挖掘、 妥善保存。制定数据管理制度,根据数据不同类别,以周、月、季、年为周期进 行收集积累,确保数据时效性、准确性。制定数据发布、应用权限制度,确保数 据安全性。 ( 4 ) 广泛收集信息,更好地服务农民和农业。广泛收集农田设施、土地墒 情、气象气候、市场与贸易、培训与就业、农业科技、支农惠农政策、法律法规 等信息,整合在一个数据平台,面向农户、合作社、龙头涉农企业提供便捷查询、 检索、报表、图表和分析报告,更好地服务农民和农业。 综上所述,有必要集中上海农业全局数据,开发“上海农业数据中心”系统 并加以应用,从而在数据、系统和服务三个层面实现全方位的有机整合,为用户 访问多个有效的、异构的数据源提供统一的应用界面,实现农业数据的整合集成、 统一维护和社会共享服务,有力地推动上海农业信息技术的应用,有利于应急事 件决策、农业发展规划决策、农村社会事务管理决策。 1 2 国内外发展现状综述 i n t e r n e t 技术的飞速发展促使信息迅速膨胀,对信息资源管理和共享的需求 亦变得越发迫切,使得已经在传统领域内趋于成熟的数据库技术,面临着许多新 的问题和挑战。 2 上海海洋大学硕士学位论文 在加入世界贸易组织以后,我国农业在国际竞争中一直处于不利的地位。 目前,虽然上海市农委已经建立了一些农业信息系统,但数据收集的广度和 深度上还存在一些缺陷。上海农业大量数据信息处于分散的、部门所有的和各自 为政的状态,多数由各产业部门内部掌握,条线分割比较严重,很难在广域和一 个集成环境下使用和实现数据共享。此外,有些网络之间相互封锁,不同部门之 间信息系统彼此独立运行,从而造成硬件重复投入、平台软件重复开发、基本数 据重复录入等情况出现,形成信息孤岛,导致产生数据不一致、数据不完整等诸 多弊端。 由于农业的特殊性,目前农业行业标准中与信息化相关的标准较少,在农业 信息描述、定义、获取、表示形式和信息应用环境和农业信息服务方式等大多还 未形成统一的标准。由于对标准制定缺乏统一规划,现有应用往往只注重垂直方 向上的联系,而不注重水平方向上的联系,从而导致标准与标准之间的融合度太 低。 国外由于数据集成技术起步较早,在集成系统公共数据模型的研究及其相关 查询的分解和优化方面取得了一定的突破,农业信息化水平相对进步,如早期美 国s t a n f o r d 大学设计的专门用于管理半结构化信息的数据库管理系统 l o r e ( l i g h t w e i g h to b j e c tr e p o s i t o r y ) ,为各种异构数据源提供了一种统一的集 成存取机制。 1 3 论文的研究内容 本文首先介绍了数据集成及元模型的相关理论,其中重点介绍c w m 规范,指 出其在i s c ( 信息供应链) 中的作用。然后针对农业数据多源异构,特别是多业务 的特点,提出了基于数据仓库法的数据集成体系架构,给出了基于元模型的数据 集成方法,根据o m g 组织制定的c w m 标准规范,通过构建的元数据模型,控制数 据仓库数据集成的e t l 全过程,针对异构数据集成中语义集成的难点,数据集成 元模型构建了统一全局模式,最终将异构、多业务数据整合到统一平台中。接下 来,分别对三个元模型的构建作了详细描述与介绍,重点研究了三个元模型控制 e t l 流程的方法,最后实现了基于元模型的关键指标分析系统。 1 4 论文的组织结构 本文共分为六章: 第一章绪论。主要介绍了论文的研究背景、选题依据、研究意义以及国内外 上海海洋大学硕士学位论文 农业信息化的发展现状。 第二章数据集成和元模型相关理论概述。首先介绍了数据集成相关理论,分 析比较了三种数据集成方法的优缺点,提出当前数据集成面临的问题;然后介绍 了元模型的相关理论,其中包括o m g 组织制定的c w m 规范。 第三章农业数据集成体系构架。介绍了农业数据源多源异构特征,给出基于 元模型的农业数据集成体系架构,并详细解释各部分功能以及架构特点。 第四章基于元模型的农业数据集成方法研究。重点研究了三种元模型的定 义、构建,以及元模型控制e t l 流程的数据集成方法。 第五章基于元模型的关键指标分析系统实现。本章介绍了在三种元模型控制 下,农业数据集成系统的实现;展示了系统在数据分析中的功能。 第六章本文总结,归纳了本文所做的工作,并提出了展望。 1 5 本章小结 本章主要介绍了课题的背景、来源、研究意义,以及农业信息化的国内外发 展现状,介绍了论文研究的主要内容。 4 , 上海海洋大学硕士学位论文 第二章数据集成和元模型相关理论概述 2 1 数据集成技术 数据集成是对各种异构数据提供统一的表示,存储和管理,这些功能在异构 数据集成系统中实现,数据集成屏蔽了各种异构数据间的差异。通过异构数据集成 系统进行统一操作,因此集成后的异构数据对用户来说是统一的和无差异的。 随着信息技术的不断发展、各业务系统的陆续建立,目前数据集成系统的数据源 都较多,并且大部分数据源的数据都是异构数据,因此通常所说的数据集成指的 就是多源异构数据的集成。 异构数据是一个含义丰富的概念,不仅是指数据库系统之间的异构,如s q l s e r v e r 和o r a c l e 数据库中的数据,还包括不同结构的数据之间的异构,如结构化 数据和半结构化数据( 如x 地) 。随着信息化建设的不断推进,在选择数据处理方 式时存在着时间和空间上的差异,使得对数据的描述千差万别,数据环境的差异 也越来越大脚。 通常数据集成系统都必须构建全局模式,全局模式h 1 在用户层体现一个全局数 据库的概念,真实数据仍然位于不同的异构数据源中,用户根据全局模式提交自 己的查询请求,不同的数据集成系统采用特定方法处理这些查询请求,最终将结 果反馈给用户。 数据集成的三个必备基础条件是数据、集成软件及集成规则。本文的数据对 象是指三农( 既农业、农村、农民) 相关的数据。集成软件是为数据集成专门设 计的上海农业数据中心软件系统。集成规则是根据建立元数据模型的思想构建全 局模式,将源数据拆分成关键指标统一存入数据中心目标数据库中。 2 1 1 数据集成系统应具备的特性 数据集成系统需要在多数据库全局层屏蔽诸如命名冲突、格式冲突、结构冲 突、数据冲突和语义冲突这些异构问题,实现用户对多数据库系统的透明统一访 问。主要表现在以下方面嫡3 : ( 1 ) 透明性 透明性决定系统的功能和使用的方便程度,包括平台透明性、系统透明性、 数据源透明性等等。平台透明性是指隐藏了硬件平台、操作系统和通讯协议等各 上海海洋大学硕士学位论文 种数据源所基于的平台间的差异,对于用户来讲,每个数据源像运行在同一个硬 件软件平台上一样;系统透明性是指当数据源的数据模型、数据管理系统和语 言间的差异被隐藏时,对用户来讲,每个数据源像是用同一个数据模型来描述的、 由同一个数据管理系统和数据语言来管理和维护的;数据源透明性是指隐藏了数 据源的描述信息,由系统解决诸如:数据的存储位置、数据如何被查询等一系列 问题,用户所见到的只是一个逻辑数据源。 ( 2 ) 自治性 自治性是指各数据源有自己的数据管理系统,采用本地策略对数据实施操作, 每个局部数据管理系统具有对局部数据和局部处理的完全控制能力,成员系统能 够决定其是否能够提供和提供多少它的功能和资源于其它成员系统共享,用户和 应用能够通过一个联合的系统访问数据,也可以通过他们本地的系统访问数据。 主要有三类自治:设计自治,即数据源在数据模型、数据元素的命名、数据的语 义介绍及约束等方面是独立的;通信自治,即数据源独立决定给集成系统中的其 它组件提供什么信息和给组件发什么请求;执行自治,即数据源独立执行和调度 输入请求。 ( 3 ) 完整性 异构数据集成的目的是为用户和应用系统提供统一的访问支持。为了满足各 种应用处理数据的条件,集成后的数据必须保证一定的完整性,包括数据完整性 和约束完整性两方面:数据完整性,即数据的正确性、一致性和相关性;约束完 整性中的约束是指数据与数据之间的关联关系,是唯一表征数据间逻辑的特征, 保证约束完整性是良好的数据发布和交换的前提,可以方便数据处理过程,提高 效率。 2 1 2 异构数据集成方法比较 数据集成一般发生在数据库和数据源级别。针对异构数据的特点,对异构数 据源的集成通过转换和标准化来实现。集成的方法主要是通过从多个数据源将数 据移植到一个数据源,或直接进行局部数据源的全局访问来实现数据集成。从集 成体系结构上可分为三类,即:联邦数据库法、数据仓库法和虚拟视图法。 ( 1 ) 联邦数据库法m 1 联邦数据库法是异构数据集成中最简单的一种方式。它将所有数据源通过数 据交互接口一一的连接,目的是实现数据库系统间部分数据的共享。各个数据源 之间使用数据交互接口互相访问,通过这种方法,一个数据源就能够访问任何其 它数据源的数据了。同时,联邦数据库系统可以是集中式数据库系统或分布式数 6 上海海洋大学硕士学位论文 据库系统及其他联邦式系统。根据各成员系统耦合的紧密程度可以分成两类:松 耦合联邦数据库和紧耦合联邦数据库系统。 松耦合联邦数据库系统作为一组松耦合部件( 如对象、记录、类型) 的联合, 没有统一的模式,只提供了一些查询数据库的统一语言,这样使各数据库有更高 的自治性。联邦数据库系统中的成员数据库利用一些联邦信息在本站点访问另一 个站点的数据,这些联邦信息中包含一些类似全局模式的信息,各站点只能看到 与其有直接关联的数据库信息,而并非所有的全局信息,系统具有一定的分布性、 异构性和自治性的特点。但是,当数据库的数目很多时,数据库之间的互操作以 及解决数据库之间的语义异构问题就变得很困难。 紧耦合联邦数据库系统具有一个或几个统一的模式,用户通过全局模式访问 多个数据库中的数据,系统提供一种全局查询语言,用户使用全局查询语言对系 统提出查询请求,并向用户返回查询结果。数据提取由系统负责,用户并不关心 数据从哪个局部数据库获得,但是,要解决逻辑上的异构,需要领域专家决定模 式间的对应关系,不容易完成对数据库的添加、删除等操作,所以紧耦合联邦数 据库通常是静态的,系统扩展和维护起来比较困难。 联邦数据库中实现互操作是将每个数据库模式分别和其它所有数据库模式进 行映射,结构体系如图2 - 1 所示。因此,数据交互接口太多是联邦数据库法的弱 点,假设有n 个异构数据源,就需要n ( n 1 ) 个数据交互接口和模式规则,从而映 射规则的任务变得异常庞大。联邦数据库只支持结构化数据库数据源的集成,对 于现在各种半结构化和非结构化数据的大量出现以及集成的需求,联邦数据库的 方式已不再适用。因而,联邦数据库只适用于数据库数量不多的小范围内的数据 集成。 ( 2 ) 数据仓库法 数据仓库法也称为物化视图法,需要建立一个全局模式的数据模型,将来自 多个异构数据源的数据抽取出来,按照统一、集中的视图要求进行预处理,转换 成符合数据仓库的模式,并存储在数据仓库中。在统一数据模型的支持下,用户 可以得到关于组织情况的完整、正确的视图卿。在这个基础上再进一步开发出一 系列智能应用,如产品分析以及更全面准确的业务报表等。用户访问数据仓库就 像在使用一个本地数据库,数据仓库中的数据由e t l ( e x t r a c tt r a n s f o r ma n dl o a d ) 工具将决策支持型数据从事务型数据中分离出来,定期从各个数据源中将数据进 行过滤、提取、转换和装载。数据仓库法的优点是不仅能用于数据集成,还能支 持面向主题的数据挖掘和决策支持,最值得提出的是,由于查询只对数据仓库进 行,查询的性能相比其他方法更快速高效,提高了信息获取的效率,管理层可以 7 上海海洋大学硕士学位论文 图2 - 1 联邦数据库结构图 f i 9 2 - 1s t r u c t u r eo ff e d e r a t e dd a t a b a s es y s t e m 迅速了解整个组织或业务部门的运作情况;同时,还节省重复开发数据接口 和报表应用开支,为组织内所有层次的员工提供服务,提高日常决策的智能化和 数据的利用深度。但是,数据仓库的数据在进入仓库之前,需要经过一定的筛选 转换处理,数据不能得到实时地更新是数据仓库法的弱点,因此数据缺乏时效性。 由此可见,数据仓库法适用于规模不是特别大但对查询效率要求较高,并且数据 源更新不频繁的情况。数据仓库法结构图如图2 - 2 所示: ( 3 ) 虚拟视图法肺1 虚拟视图法也称为中间件法( m e d i a t o r ) ,也是一种重要的数据集成方式。 该方法的核心是给用户提供一个全局模式将各数据源集合起来,数据实际仍保存 在其独立的数据源中,一般由中介器( m e d i a t o r ) 和多个包装器( w r a p p e r ) 组成。包 装器用于将各异构数据源的数据按照全局模式转换成集成系统可以处理的某种结 构化数据,用户的查询在全局模式上进行,隐藏了各数据源的数据模式和实现的 具体技术细节,数据源的数据经过包装后对中介器呈现公共数据模型所表达的对 象,以便与其它数据源进行交互。中介器( 又称作集成器) 的功能是接收用户在全 局模式上的查询请求并将其分解为一系列子查询,将它们转换为针对相应数据源 g 图2 - 2 数据仓库法结构图 f i g2 - 2 咖c l c u r eo fd a t a w a r e h o u s e 的查询,以及返回查询结果,最后对查询结果进行封装返回给用户。 虚拟视图法的数据存储位置不发生改变,集成系统只需提供一个虚拟的集成 视图以及对这个集成视图的查询处理机制,对数据源的访问通常是只读的。它相 比数据仓库法的优势是,不需要重复存储大量数据,减少数据冗余,所有查询结 果以虚拟视图的方式呈现给用户,系统无须抽取数据源的数据,并能保证查询的 数据是实时的,大大降低了实施的成本。但是,这种集成方法需要解决的关键问 题是如何构建全局视图与局部视图之间的映射关系,在用户端屏蔽多源异构数据。 同时,查询处理技术中的查询重写、查询优化等是虚拟视图法需要攻坚的技术难 点之一。由于每次查询都要连接数据源,有时可能出现响应延时,因而性能上比 数据仓库法差一些。这种集成方法比较适合于高度自治、集成数量多、更新频繁 并且不可预知用户的查询需求的数据集成系统,体系结构如图2 3 所示: 9 上海海洋大学硕士学位论文 用户 查询 上l 结果 厂蔫、 二二二;歹乏:-三: 包装器 包装器 j l jl 莹询 结果结果 查询 ,一 一 、 ,一 一 、r 、 、 1一, 数据源l 数据源2 一一 2 1 3 数据集成面临的问题 图2 - 3 虚拟视图法结构 f i 9 2 - 3s 仃u 曲l 陀o fv i r t u a lv i e w 目前,数据集成技术的研究领域已初具规模,传统的数据集成方法相对成熟, 能够在一定程度上解决结构异构、系统异构、语法异构的问题,但是不同的编程 语言和数据模型以及对不同概念的不同理解和描述,使得每个数据源中对相似语 义的描述可能不同,从而引起各种语义冲突。因此,人们越来越把注意力放在业 务逻辑上集成模型的研究,就是要研究如何合理有效地构建语义模型,利用模型内 的知识来指导解决数据语义异构问题,以达到语义层面的数据集成。大多数异构 数据集成系统采用x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 作为全局数据模型,如 x y l e m e 、m i x 和a g o r a 等,但是这种做法不能构造共享概念表示模型,不能在模型 上定义业务逻辑。很多行业试图通过标准化x m ld t d 或x m ls c h e m a 也不能很好的 解决这一问题,因为这些方法不能对业务逻辑复杂的、语义丰富的层次数据建模。 随着电子经济中应用程序、数据源、服务、交换协议和部署平台的数目和复杂性 的不断增加,这个问题变得越来越严峻。 l o 上海海洋大学硕士学位论文 2 1 4 集成方法的选择 由于上海农业数据中心集成的数据有结构化的、半结构化的和非结构化的, 而联邦数据库的方式只支持结构化数据库数据源的集成,显然不试用于本课题。 再者,上海农业数据中心要求为决策者提供较快的数据查询分析功能,统一展示 汇总的、历史的面向主题数据,同时课题的研究具备良好的硬件条件,大量的磁 盘存储设备用来存储海量数据。因此,根据对以上三种集成方法的分析比较,结 合目前状况和需求,本文的数据集成系统采用的方法是数据仓库法。 2 2 元模型理论 2 2 1 元数据简介 元数据可以定义为关于数据的信息,或者就是关于数据的数据。对业务数据 本身及其运行环境的描述与定义的数据,都是元数据( m e t a d a t a ) 。实际上,元数 据就是各种工具、数据库、应用程序和其他信息服务用来定义其对象、服务和其 他计算工件( a r t i f a c t ) 的结构和含义的东西隅1 。它不仅表示数据的类型、名称、 值等信息,还提供了数据的上下文描述信息,比如数据的所属区域、取值范围、 数据间的关系、业务规则,甚至是数据的来源。 从某种意义上来说,业务数据主要用于支持业务系统应用,而元数据则是企 业信息门户、客户关系管理、数据仓库、决策支持和b 2 b 等新型应用所不可或缺 的内容唧。 元数据分为技术元数据和业务元数据( 也叫过程元数据) 。技术元数据如: 各类数据库的逻辑模型、关系间的映射关系以及物理数据库的部署、连接参数等。 业务元数据则用于捕捉关于诸如业务规则、业务名称和业务术语等的语义。词汇 表就是业务元数据的一个例子。 元数据的典型表现为对象的描述,也就是对数据库、表、列、列属性( 类型、 格式、约束等) 以及主外键关联关系等的描述。特别是在异构性与分布性越来越普 遍的情况下,统一的元数据就愈显得重要。 在数据仓库领域,元数据记录着源数据库与目标数据仓库的数据模型、物理 数据结构及其相关匹配模式等重要信息。大量的数据源定义、映像规则、转换规 则、装载策略等均属于元数据范畴。 上海海洋大学硕士学位论文 2 2 2 元数据在数据集成中的作用 元数据对异构系统的集成起着不可或缺的作用。可以说,没有元数据,就没 有语义,我们就无法知道数据对象所代表的意义n 引。例如,程序中出现的一个整 型值“8 6 ”可以代表几乎任何意思。我们需要找到一种通用的方法来表示和共享 元数据,通过分析业务模型,把杂乱无序的数据结构统一成为合理的、关联的、 分析型的新结构,使得能够在复杂的应用程序、组件和系统的集成中共享这些数 据。而模型的重要之处在于对数据做标准化定义,实现统一的编码、统一的分类 和组织。标准化定义的内容包括:标准代码统一、业务术语统一。在大多数数据 集成系统中,数据源的业务系统各自对应不同的业务,拥有各自的数据以及数据 库管理系统,给数据集成工作造成障碍。我们可以通过对元数据的管理,在集成 端( 目标端) 建立统一的全局模式,产生元数据模型,然后通过元模型控制整个 数据集成系统。 元数据在数据仓库集成系统中也至关重要,它贯穿整个项目始终,数据仓库 中的关键技术e t l 的所有过程必须最大化地参照元数据才能快速实现。元数据在 e t l 过程中的表现为:定义数据源的位置及数据源的属性、确定从源数据到目标数 据的对应规则、确定相关的业务逻辑、在数据实际加载前的其他必要的准备工作, 等等。 2 2 3c w m 规范 集成系统要想集成异构数据源的数据,必须对数据源的信息结构充分理解, 因此也就需要一种通用的语言来描述和交流元数据,也就是说要按照标准的元模 型( m e t a m o d e l ) 来描述元数据n 阳。c w m ( c o r m o nw a r e h o u s em e t a m o d e l ,公共仓库元 模型) n 1 是被o m g 采纳的在数据仓库和业务分析环境中进行元数据交换的标准。c w m 提供了一种经过长期研究的通用语言来描述元数据,并提供了基于x m l 的元数据 交换工具。 c w m 是一个完整的描述数据仓库和业务分析领域的元模型。它提供构建元数据 ( 模型、元模型实例) 需要的语法和语义,使得可以在异构环境下的各种数据仓 库工具、数据仓库平台以及数据仓库元数据存储间便捷地交换数据仓库和商务智 能的元数据。c w m 标准用于数据仓库工具、平台、元数据库之间的元数据交换,其 中t r a n s f o r m a t i o n 就是e t l 过程描述的元模型瞳3 喇1 。 由于c w m 作为单一的、业界范围的元数据交换的标准,不仅可以使软件厂商 最终拥有建立真正可互操作的数据库、工具及应用程序所需要的公共的元模型和 1 2 上海海洋大学硕士学位论文 交换机制,也可以使用户受益,使得他们能够在选择最佳产品的同时,保证了不 会因为工具之间的不可互操作性而导致投资的浪费。从实际应用的角度上来讲, 由于c w m 为数据仓库和业务分析领域中的各类软件组件的元数据定义了通用的语 言,使得它们可以在不需要知道彼此的专有信息结构和接口的前提下,实现在元 数据级别上的有效集成3 。 c w m 实际上是由若干互不相同但又紧密相关的元模型构成的,图3 2 描述了 c w m 的总体结构。我们可以看到,其中每一个包代表c w m 的一个元模型,可以分为 五个层次,从下到上依次为:对象模型层( o b j e c tm o d e l ) 、基础层( f o u n d a t i o n ) 、 资源层( r e s o u r c e ) 、分析层( a n a l y s i s ) 和管理层( m a n a g e m e n t ) ,每一层又 由若干块组成,每一块代表c w m 的一个元模型( 或包) 。c w m 模型结构如下n 们: 管理层 分析层 资源层 基础层 对象模 型层 数据仓库处理包数据仓库操作包 联机分析、信息可视业务命名规 转换包数据挖掘包 处理包化包则包 对象包关系型包记录包多维包) 眦包 业务信软件部署 息包 数据类型包表达式包键和索引包类型映射包 包 核心包行为包关系包实例包 图2 - 4c i i m 模型结构 f i 薛- 4c w m m e m m o d e l 对象模型层( o b j e c tm o d e l ) ,它包括四个元模型:核心( c o r e ) 元模型、 行为( b e h a v i o r a l ) 元模型、关系( r e l a t i o n s h i p ) 元模型和实例( i n s t a n c e ) 元模型。核心元模型定义u m l 语言核心中最基本的、静态的模型元素,其余三个 元模型都依赖且只依赖于它。行为元模型对这些静态结构进行扩充,以便定义如 操作和过程这样的行为。关系元模型定义模型元素之间的基本关系,比如表和列 的关系。实例元模型定义建模元素,以表示其他特定的缄默元素的实际实例( 例如, 一个类和作为其实例的一个特定对象之间的关系可以使用实例元模型的结构来建 模) 。c w m 用继承( i n h e r i t a n c e ) 这一面向对象的概念对u m l 子集中的模型元素进行 扩充,从而定义出表示数据仓库和业务分析概念的新的模型,因此,最大程度地重 用了o b j e c tm o d e l 。从图3 2 中也可以看出,c w m 元模型中所有包的类与关联都 是直接或间接地从o b j e c tm o d e l 中的类与关联继承而来的,并且这些包又相对独 立,使得在描述元数据时只需取其中涉及到的即可。 基础层( f o u n d a t i o n ) 由对象模型层元素进行扩展后所得到的元模型构成。 上海海洋大学硕士学位论文 数据类型元模型定义了元数据中必须使用的基本数据类型。类型映射
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 物业酬金制服务合同范本
- 高档消费品买卖合同范本
- 高龄员工家属免责协议书
- 煤矿托管合同协议书范本
- 自动生鲜车购买合同范本
- 烘焙店加盟合同协议范本
- 深圳市拆迁协议合同模板
- 银行解除合同协议书范本
- 网店服装合伙人合同协议
- 煤矿股权出让协议书范本
- 任务3课件1填记车站技术作业图表(二-)
- 保险公司分享高客市场开拓与经营课件
- 2021年睢宁县教师进城考试笔试试题及答案解析
- 植保生物制品的工厂化天敌昆虫产业化生产基地可行性研究报告
- 青蓝工程指导教师(师傅)个人工作总结
- 超级玛丽像素风教学班会PPT模板
- 《兽药经营许可证》培训记录
- 住宿酒店商务宾馆品质服务体验管理 酒店工程验收标准-模版PPT
- 离散数学英文讲义:1-3 Predicates and Quantifiers
- 一个国王地爱情故事英文版
- 管道支架重量计算表(计算支架)
评论
0/150
提交评论