已阅读5页,还剩44页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
面向企业数据重构和管理平台的研究与应用 张孝天( 计算机应用技术) 指导教师:段友祥教授张国平副教授 摘要 在企业信息化过程中,企业数据重构和管理是重要的环节。由于认识 或技术上的原因,企业在建立数据库之初,其舰划缺乏整体性、前瞻性, 很多数据是在不同阶段为不同目的建立的,存在着同名异义、异名同义等 命名冲突问题,而这些问题制约了应用之间的数据共享;同时,企业数据 量迅速膨胀,数据管理的难度也随之加大。 论文设计了“数据库虚拟机”模型,该模型主要解决了以下问题:消 除各应用数据的命名冲突,得到统一数据标准的应用数据结构描述,实现 各个应用之间的数据共享;通过建立应用数据结构描述和数据库数据结构 描述的“映射机制”,保证应用程序和数据库数据的逻辑独立性:针对企 业需求,结合“数据类”解决方案对原有数据管理技术进行改进,增强数 据管理的实用性。论文将该模型应用在采油厂的数据库重构和管理中,取 得了较好的效果。 关键字:数据重构,数据管理,数据库虚拟机,应用无关性 n r e s e a r c ha n d a p p l i c a t i o n o f e n t e r p r i s ed a t a r e c o n s t r u c t i o na n dm a n a g e m e n t z h a n g x i a o - t i a n ( c o m p u t e r a p p l i c a t i o nt e c h n o l o g y ) d i r e c t e db yp r o f e s s o rd u a n y o u x i a n g ,a s s o c i a t e - p r o f e s s o rz h a n gg u o p i n g a b s t r a c t e n t e r p r i s ed a t ar e c o n s t r u c t i o na n dd a t am a n a g e m e n ti st h ei m p o r tl i n k d u r i n g t h ep r o c e s so fe n t e r p r i s e i n f o r m a t i z a t i o n e n t e r p r i s e i s l a c k i n go f i n t e g r a t i o na n df a r - s i g h tb e c a u s eo fu n d e r s t a n d i n go rt e c h n o l o g yi nt h e b e g i n n i n gp h r a s e ,s o m ed a t a b a s e sw e r eb u i l tf o rs o m ed i f f e r e n tp u r p o s e si nt h e d i f f e r e n ts t a g e s , e x i s t ss o m ep r o b l e m ss u c ha st h es a m en a m ew i md i f f e r e n t m e a n i n ga n dd i f f e r e n tn a m ew i t i lt h es a m em e a n i n g b u tt h i si s s u e sr e s t r i c t d a t as h a r i n ga m o n ga p p l i c a t i o n s ;a tt h es a m et i m e ,t h ed i f f i c u l t yo fd a t a m a n a g e m e n ti si n c r e a s i n g 、i t ht h ed a t ae x p l o r a t i o n t h i sp a p e rd e s i g n sam o d e lo fd a t a b a s ev i r t u a lm a c h i n e t h i sm o ( 1 e l m a i n l yr e s o l v e st h ep r o b l e m s 嬲f o l l o w s :e l i m i n a t e st h en a m i n gc o n f l i c t s o b t a i n su n i f o r md e s c r i p t i o no fd a t as t r u c t u r ew h i c ha c c o r d i n gt ot h eu n i f o r m d a t a s t a n d a r d ,i m p l e m e n t s d a t as h a r i n go fs o m e a p p l i c a t i o n s ;t h r o u g h c o n s t r u c t i n gd e s c r i p t i o no fa p p l i c a t i o nd a t as t r u c t u r ea n d c o n c r e t ed e s c r i p t i o n o f m a p p i n gm e c h a n i s m ”,g u a r a n t e e st h el o g i ci n d e p e n d e n to fa p p l i c a t i o n p r o g r 鼬sa n dd a t a ;c o m b i n e s 、v i mt h ei m p r o v e dr e s o l u t i o n so f d a t ac l a s s ”b y t h ei n i t i a ld a t am a n a g e m e n tt e c h n o l o g i e s ,t a r g e t sa te n t e r p r i s er e q u i r e m e n t , b u i l d s u pt h ep r a e t i c a b i l i t y o fd a t am a n a g e m e n t t h i sp a p e rp u t sd a t a r e c o n s t r u c t i o na n dd a t am a n a g e m e n tt e c h n o l o g i e si n t ou s i n gt h ec o n c r e t e a p p l i c a t i o n si nt h eo i lp r o d u c t i o np l a n t ,r e c e i v e st h eg o o df e e d b a c k sf r o m u s e r s k e y w o r d s :d a t ar e c o n s t r u c t i o n , d a t am a n a g e m e n t ,d a t a b a s ev i r t u a lm a c h i n e , a p p l i c a t i o ni r r e l e v a n c e 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及 取得的研究成果尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 石油大学或其它教育机构的学位或证书而使用过的材料。与我一同工 作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表 示了谢意。 签名;2 稚白月z 3 日 关于论文使用授权的说明 本人完全了解中国石油大学有关保留、使用学位论文的规定,即: 学校有权保留送交论文的复印件及电子版,允许论文被查阅和借阅; 学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复 制手段保存论文 ( 保密论文在解密后应遵守此规定) 学生签名: 导师签名: 础年年月2 詹f i “年月留日 释 中国石油大学( 华东) 硕士论文第1 章前言 第l 章前言 1 1 课题背景 企业信息化是指企业利用网络、计算机、通信等现代信息技术,通 过对信息资源的深度开发和广泛利用,不断提高生产、经营、管理、决策 效率和水平,从而提高企业经济效益和企业核心竞争力的过程。具体到一 个企业,企业信息化就是要实现企业生产过程的自动化、管理方式的网络 化、决策支持的智能化和商务运营的电子化。 企业信息化有以下四项重要任务【2 】:建立企业信息基础设施、建立信 息资源管理标准,搞好信息组织工作、按信息资源管理标准开发在e i i 之 上运行的企业集成信息系统( e i i s ) 和信息化教育。 企业信息化四项任务中,企业信息基础设施基本上是可以花钱就能买 来的,丽信息资源的开发利用却是无法靠花钱就能买到的。不少企业“重 硬轻软”、“重软件轻数据”,不能够真正推进企业的信息化。 数据管理( d a t a m a n a g e m e n t ) 是指对数据的组织、存储、检索、更新、 和维护等工作,它是数据处理的核心高效的组织方式、存储结构、检索 手段和安全措施是数据管理研究的主要内容。 在企业数据库建设过程中,由于认识和技术上的原因,数据库规划 缺乏整体性、前瞻性,很多数据是在不同阶段为不同的目的建立的,这些 数据存在着同名异义、异名同义等问题,不利于应用之间的信息交流。同 时杂乱无章的数据也增加了数据管理的难度;随着信息化程度的不断深 入,应用程序的数量也随之不断增加。而当企业的数据库结构发生改变时, 所有相关的应用程序都必须进行修改或重新开发【3 1 ,工作量会随着应用程 序的增加而增大。而这些因素使企业的信息化管理效率大打折扣。因此怎 样消除数据的冲突,实现数据的共享,怎样才能够方便快捷的进行数据管 理,是企业目前最紧迫的难题之一。 中国石油大学( 华东) 硕七论文第l 章前言 关系数据库管理系统作为主流的数据库管理系统,已经具有很成熟 的管理技术,但随着r d b m s 复杂性增强以及新功能的增加,对数据库管理 人员的技术有更高的要求,同时数据库管理系统一些管理功能,已经不能 能够满足企业的需求。基于上述原因,对数掘库自调优和自管理的研究也 逐渐成为热点。同时,一直以来,一个普遍的悲哀是数据库学术界在用户 界面方面做的工作太少了【4 l ,对于一个d b m s 给定的信息类型,如何使它 在可视化上达到最优还不清楚。论文针对这个缺点,力求为管理员提供一 个人性化的方便快捷的数据管理平台。 1 2 主要研究和工作内容 本文以多应用单源数据库为背景进行研究,通过建立一个“数据库 虚拟机”模型,对数据进行重构和管理,实现人性化的管理方式,用户对 底层数据库不必深入了解,就可以通过“数据库虚拟机”的功能来实现复 杂的管理。 主要工作内容包括: ( 1 ) 分析了企业信息化建设中数据存在的问题,针对问题,提出了“数 据库虚拟机”模型。 ( 2 ) 通过对企业数据特点分析,定义了数据组织模型,通过“数据类” 的形式对数据库数据进行整理。 ( 3 ) 在“数据库虚拟机”模型中建立“映射机制”完成应用程序所需 数据结构和数据库数据结构的映射,实现应用程序和数据库数据的逻辑独 立性。 ( 4 ) 根据企业实际需求,将“数据库虚拟机”模型应用在实际项目中。 1 3 本文的组织结构 论文将按照以下结构进行组织: 第1 章前言。阐述课题的背景以及本文的工作内容,最后说明论文 2 中国石油大学( 华东) 硕士论文第l 章前言 的组织结构。 第2 章x m l 及相关技术进行介绍。 第3 章数据重构和管理平台的框架。对数据和管理平台进行介绍, 并给出了系统的目标分析,提出了数据重构和管理平台的框架的核心“数 据库虚拟机”模型,并对模型中各个部分进行阐述。 第4 章阐述“数据库虚拟机”的核心技术及解决方案,主要对冲突 的消除、数据结构的映射和数据的组织技术等核心技术进行阐述。 第5 章将“数据库虚拟机”运用到“源点数据库精细管理系统”中, 并应用各种现有技术进行设计实现,对其中部分功能进行介绍。 第6 章对所做工作进行总结,并对未来工作进行展望。 3 中国石油大学( 华东) 硕十论文第2 章x m l 及相关技术介绍 第2 章x m _ l 及相关技术介绍 2 1x m l 概念 为了满足业界对表示w e b 信息模型的更强大语言的需求,w 3 c 组织 于1 9 9 7 年提出了x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 5 1 ,即可扩展标记语 言。x m l 是s g m l 的子集,它结合了s g m l 的灵活强大以及h t m l 的 简单。 简单地说,x m l 是标记语言的一个丌放家族,利用它,你可以设计 描述数据的方法,通常如存储、传送或程序如何处理等。x m l 是一个描 述性标记语言的元语言,它使人们可以方便地为数据定义或扩展他们自己 的描述术语以及这些术语间的结构化关系,这就是“可扩展”的含义,也 是龇的基础。 2 2 d t d 和x m e s c h e m a d t d ( d o c u m e n tt y p ed e f i n i t i o n ) 【6 1 是用于定义x m l 文档内容结构 的一个语言规范。它用于定义x m l 文件的结构、元素、属性、实体和约 束等,还用于判定一个x m l 文档的有效性,帮助x m l 的分析程序校验 其合法性;另外,很多x m l 数据与其它数据模型的转换也是基于d t d 进行的d t d 曾经是x m l 最主要的一种模式定义语言。但是d t d 也有 缺点,例如它不能完全满足x m l 自动化处理的要求,d t d 的缺点是不支 持强类型,d t d 把几乎所有的数据当作简单字符串m ,缺乏对文档结构、 属性、数据类型等的足够描述,所以人们期待能够制定一种更好的模式描 述语言。 x m ls c h e m a l 8 1 是w 3 c 于2 0 0 1 年5 月正式推荐的一个x m l 模式语 言标准,希望它成为主流的x m l 模式语言,逐渐取代d t d 。与d t d 相 比,v i ls c h e m a 具有许多优点: ( 1 ) 与x m l 文档的一致性:x m l s c h e m a 采用与x m l 文档一致的 5 中国石油大学( 华东) 硕七论文第2 章x m l 及相关技术介绍 格式,没有专门的语法,它本质上也是一种x m l 应用。利用x m l 的语 法规则来定义x m l 的文档结构,从而使x m l 达到了从内到外的完美统 一,也使x m ls c h e m a 文档可以像x m l 文档一样被解析和处理。 ( 2 ) 高度可扩展性:x m ls c h e m a 提供了丰富的数据类型,且允许 用户自定义新的s i m p l e t y p e 和c o m p l e x t y p e 类型;x m ls c h e m a 引入了 n a m e s p a c e 机制,将文档中的结点与s c h e m a 相关联,使一个x m l 文件 可以同时对应多个s c h e m a 文档:另外,x m ls c h e m a 具有开放的内容模 型,允许扩充新的内容。 ( 3 ) 可转换性:x m ls c h e m a 可以根据特定的映射机制,转换为其 它s c h e m a ,用于更高层次的数据定义和交换。 ( 4 ) 规范性:x m ls c h e m a 提供了一套更加简单规范的机制用以约 束x m l 文档。与d t d 不同,x m ls c h e m a 基于x m l ,内容更加规范。 x m ls c h e m a 比d t d 具有更强的模式定义能力,能够更好的满足不 同领域的需求,它已经成为x m l 的主要模式定义语言。但因为d t d 已 经具有了广泛的应用基础,所以它还将会在一段时间内发挥作用。 2 3 x s i t x s l t f 9 1 ( e x t e n s i b l es t y l e s h e e tl a n g u a g et r a n s f o r m a t i o n ) 是x m l 样式 语言转换技术,能把x m l 文档转换为其他格式。x s l t 通过定义转换模 版,可以有效地实现一种x m l 格式到另一种格式的转换,这极大地增强 了系统之间的互操作性。例如,某个应用系统a 收到应用b 发来的一篇 x m l 文档,由于a 不能识别b 的x m l 词汇表而无法解读文档内容,通 过x s l t 转换可以把该x m l 文档变成应用a 熟知的格式,从而使a 能够 读取文档,完成互操作的过程。x s l t 文件中包含定义转换规则的声明模 板,该摸板明确定义了怎样将源文档中的指定节点转换为输出文档中节点 的方法,也可以使用x s l t 模式来决定一个模板应用于一篇文档中的那些 6 中国石油大学( 华东) 硕士论文第2 章x m l 及相关技术介绍 部分。 2 4d o m 和s a x d o m ( d o c u m e n to b j e c tm o d e l ) i o l 是w 3 c 制定的用于x m l 文档 操作的模型规范。通过使用d o m 我们就可以获取和设置x m l 文档中的 元素、属性、数据等内容。d o m 采用了文档树结构,提供了用来表达x m l 文档的一组标准对象,组合这些对象的标准模型,以及存取和访问它们的 标准编程接口。 d o m 模型在很多语言中得到了实现,应用非常广泛。但是它也有一 个严重的缺点,那就是在操作文档时需要把整个x m l 文件读入内存,这 会引起很大的系统开销,特别是当被读取的x m l 文件非常大时,d o m 就无能为力了。s a x ( s i m p l ea p i sf o rx m l ) t i l l 相对d o m 来说是一种 简单的x m l 操作工具,它采用基于事件的操作模型,s a x 事件在进入或 离开文档、元素,属性时产生。 2 5 x m l 的特点及其应用 x m l 拥有如下几项重要特点f 1 2 l : 第一,可扩展性:咀。是一个元语言,允许用户创建自己的f 匝 应用语言。 第二,灵活性:x m l 提供了一种结构化的数据表达方式,使得内容 和显示相分离,而且文档间的链接由专用的x l i n k 机制支持,使用非常灵 活。 第三,自描述性:x m l 文档使用的是有意义的标签,既便于人工阅 读,也可以通过与d t d 或x m ls c h e m a 的关联,让程序能够理解文档内 容并进行自动的处理。 第四,强大的表达能力:m 。采用了自定义的文档树结构模型,从 而使x m l 文档可以保存数据实体以及它们之间的逻辑关系,x m l 因此 7 中国石油大学( 华东) 硕士论文第2 章x m l 及相关技术介绍 也成为了一种新的数据处理工具。 因为x m l 拥有那么多重要的优点,所以x m l 得到了广泛的应用, 成为w e b 应用不可或缺的技术。x m l 的应用涉及了数据集成、本地计算、 数据的多种显示、数据交换、应用系统集成和数据库等众多领域。 8 中国石油大学( 华东) 硕十论文第3 章数据重陶和管理平台框架设计 第3 章数据重构和管理平台框架设计 3 1 数据重构和管理平台概述 目前数据库中数据表的建立一般是以业务为出发点,不同表之间存在 同名异义、异名同义等问题,这是影响数据应用的原因之一。企业的需求 是不断变化的,需要对数据库结构进行局部调整,而应用程序依赖于数据 库表结构【1 3 1 ,就需要对应用程序进行修改。当应用程序非常多的情况下, 这种修改的工作量是巨大的。因此,怎样减少对应用程序的维护,保证应 用程序的正常运行,怎样方便快捷的对数据进行组织和管理,为企业决策 层提供高质量的数据是企业需要解决的问题。 数据重构和管理平台是以“数掘库虚拟机”模型为核心,目的在于在 数据库和用户之间构建一层平台,使管理员不必考虑底层数据库的数据查 询、数据存储等相关操作,只需要进行相关的参数设定或简单的操作,就 可以完成数据重构、数据分类、数据安全等数据管理功能。管理员提出相 关的管理请求,由“数据库虚拟机”来完成所有的后台操作并进行响应, 这种方式将极大地方便管理人员对数据的管理。在本文中是以油田采油厂 的o r a c l e 数据库为例进行讨论的。 3 2 系统目标分析 企业信息系统一般都是以数据为基础,所有的业务过程基本上都涉及 到数据的处理。随着企业信息系统越来越复杂,设计、生成、维护高水平 的数据库难度越来越高。企业的需求是灵活多变,需要对数据库结构的进 行更改,而这种更改是触一发而动全身的,影响到应用程序的正常运行。 企业中的数据混乱,标准不统一、命名冲突等问题不能满足企业的需求, 企业面临的问题是怎样使数据的管理、维护和共享更加容易和灵活。 基于以上分析,平台设计目标有以下几方面: ( 1 ) 不影响已有应用程序的使用,可随时按照需要对数据进行维护, 9 中国石油大学( 华东) 硕士论文第3 章数据重均塑笪里平台框架设计 保持现有应用的正常运行,实现应用程序和数据库数据的逻辑独立性。 ( 2 ) 企业的数据管理更加人性化,能够通过对数据的组织,来满足用 户不同浏览和操作的需求,在功能上更突出实用性,操作上趋于简易性, 加强数据的安全保密性。 ( 3 ) 消除冲突,实现数据共享,为数据集成,奠定基础。 3 3 模块概要设计 根据设计的目标和目的的要求,设计了数据重构和管理平台的框架, 见图3 一l 。 圆圈国图圈_ 应用层 数据库 虚拟机 数据库 数据库 图3 - 1 数据重构和管理平台框架 框架的核心部分就是“数据库虚拟机”,用户不必对数据库底层过多 了解,就可以通过“数据库虚拟机”来完成管理数据的作用。在“数据库 虚拟机”中,主要完成数据重构、数据组织,动态浏览、数据安全、数据 备份和用户授权管理等功能,下面对虚拟机中的功能模块进行说明。 3 3 1 数据重构模块 数据重构模块是“数据库虚拟机”中重要核心模块之一。企业各应 用数据之间存在着数据冲突和数据冗余等问题,制约着数据共享和数据的 l o 中国石油大学f 华东) 硕士论文第3 章数据重构和管理平台框架设计 使用效率,需要对数据库实行统一的数据标准管理。而对于企业来讲,数 据是企业重要的资源财富,每天都进行着大量的查询、应用分析等操作。 完全推翻现有的数据库而重新建立一个统一规划的数据库,是一个十分复 杂和耗时的工作。因此通过数据重构的方式来逐渐解决这些问题是一种比 较好的办法。图3 2 是数掘重构的框架。 图3 - 2 数据重构框架 数据重构模块包括数据管理单元( m a n a g e m e n tu n i t ,m u ) 和注册中 心两部分。m u 在注册中心进行注册,记录着该m u 管理的数据表的相关 信息。m u 是数据重构模块的核心,它的核心思想是抽象与实际相分离。 即先提取给定数据在数据库中的数据结构( d a m b a s ed a t as t r u c t u r e ,d d s ) 描述,通过统一命名标准,抽象成m u 全局的数据结构描述,这里称为应 用数据结构( a p p l i c a t i o nd a t as t r u c t u r e ,a d s ) 描述,映射文件记录数据 结构消除冲突前后的对应映射情况。应用程序访问全局的数据结构描述, 然后通过相应的映射文件访问底层数据库。也就是在应用程序所定义的数 据结构描述和数据库中存储的表的结构描述之间加入一个转换层,当数据 库结构发生变更时,通过转换层来映射变更前后的数据库结构转换,这样 应用程序通过数据管理单元能够得到所需数据,不会发生异常,从而实现 应用程序和数据库数据的逻辑独立性。 ( 1 ) 注册中心 中国石油大学( 华东) 硕十论文第3 章数据重构和管理平台框架设计 由于企业数掘库数掘量非常大,对整个数据库的重构比较复杂。因 此通过对数据库数据进行科学的划分,划分出来的每一部分数据称为单元 数据( u n i td a t a ) ,这样对整个数据库数据的重构就分解成为各个u d 的 重构,这样降低数据重构的难度。 其中u d 的划分是按照数掘之间的联系柬划分的,是相对稳定的。数 据划分必须坚持的原则是【1 4 1 ; 第一、每一u d 中的数据是表的集合。 第二、划分出来的u d 的总和应当等于数据库的所有数据。即存在公 式( 3 一1 ) : u d = l r m ,u d 2 ,u d m ( 3 一1 ) 其中u d i c _ _ a ,u d i o ( i = 1 ,2 ,m ) 且a = u d lu u d 2 u u d 3 u u u d m ,这里a 是对应着数据库的所有数据,u d 是对数据库所有数 据集合a 的一个划分。 第三、数据划分中每个u d 是互不相容,即任何一个l i d 的对象不得 同时归于其它的u d ,则必有: u d i n u d j = a ( i j ) ( 3 2 ) 其中a 为空集。 这里的刀指的是两个u d 没有关联。所谓的关联是指一个u d 中表的 主键或外键( 如果有的话) 是另外的l i d 中的某表的外键或主键。 数据库中数据表除了主外键相关联情况之外,我们还考虑以下几种情 况: 第一种是不和任何其它表相关联的孤立表,这种情况需要根据应用的 实际情况,按照数据产生的方式,将数据归类到相关的并且将来可能与之 联系的u d 中。如果没有任何语义或应用范畴上的相关性,可单独划分一 个u d 。 中国石油大学( 华东) 硕十论文第3 章数据重构和管理平台框架设计 第二种是在各个应用中存在着数掘冗余,我们把与冗余数据相关联的 数据归到一个u d 中。 通过对数据库数据的划分产生多个u d ,每个u d 由一个m u 来管理。 将每一个m u 在注册中心进行注册。注册中心记录着应用程序和m u 的 对应关系,以及m u 所管理数掘的描述。应用程序访问数掘库时候,在注 册中心找到相应的m u ,通过m u 访问数据库的数据。这里注册中心和 m u 共同完成数据重构功能。 例如:在一个数掘库中包含采油厂开发数据、采油厂采油工艺数据以 及采油厂职工数据等,其中采油厂丌发数据和采油厂采油工艺数据存在着 外键关联,因此这两个系统数据属于一个l i d 中,而采油厂职工数据与前 两个系统数据不存在交叉,属于另一个l i d ,这样数据划分为两个u d , 由两个m u 进行管理。 ( 2 ) 数据管理单元( m u ) 数据管理单元( m u ) 是数据库虚拟机的核心部分,抽取u d 的d d s , 通过消解除数据冲突,形成m u 全局的统一数据标准a d s ,解决应用数 据之间不能交换的问题,应用程序访问a d s ,通过映射文件来访问d d s , 并且实现应用程序和底层数据库的逻辑独立性。另外对新加入的数据进行 验证,对数据库结构的变更,要及时对映射文件进行维护,保证程序的正 常运行。 ( 3 ) 数据重构工作流程 对于数据重构模块管理,首先,在原数据库基础上,将数据按照u d 的分类原则,将数据库数据分成若干u d ,并将对应的m u 在注册中心进 行注册。 当应用程序向注册中心申请数据访问,注册中心审核请求,并返回相 应的m u ,如果对应的m u 不存在,应用程序可以直接访问数据库,访问 1 3 中国石油大学( 华东) 硕十论文第3 章数据重构和管理平台框架设计 的数据就不能进行通过m u 进行管理。如果存在则与应用程序进行绑定, 此应用程序对数据库的访问都会经过这个m u 。根据u d 的数据表信息的 描述,从数据库中得到u d 未经处理的d d s 描述,通过定义全局数据库 统一的数据表和数据属性的命名规则,对u d 的数据命名、属性、数值单 位、数据格式不同等冲突,进行冲突的消解,形成统一数据标准的a d s , 并生成消除冲突前后数据描述的映射文件。这样应用程序就可以通过访问 a d s 和映射文件,实现对d d s 的访问,同时在d d s 变化时候保证应用 程序的正常运行。 对于冲突的有两种处理方式,一种形成映射文件,不更改数据库中的 数据。另一种是对底层数据库进行更改,记录数据结构更改前后的映射文 件和更改前后的转换函数库。最后,需要对映射文件和转换函数进行维护, 保证应用数据结构和数据库数据结构的映射的正确性,确保应用程序的正 常使用。 数据重构模块的核心技术是消除冲突和a d s 和d d s 的映射规则,是 本文的关键技术( 参见4 1 节) 。 3 3 2 数据组织模块 对于油田企业信息系统一般数据量大,涉及面广,予系统数目多,数 据组织、知识挖掘的需求越来越多,随着时间的推移,系统中的数据变得 混淆不清。企业决策层要从整体上了解企业数据的情况,管理员要从数据 管理来考虑,而用户是从数据的方便查询考虑的。而对于油田企业中的 o r a c l e 数据库管理系统只提供按照用户和对象两种数据的浏览、查询方 式,不能满足企业的需求。 针对这种情况,提出了按照“数据类”进行数据组织的分类办法,将 整个企业的数据以数据组织树的形式组织起来,提供了一种新的操作对象 。数据类”,具有清晰的层次关系,满足了用户方便查询数据的需要,方 1 4 中国石油大学( 华东) 硕十论文第3 章数据重构和管理平台框架设计 便了数据的管理。同时,通过数据类的建立,为数据的操作、数据的授权、 数据的备份等操作提供了新的操作对象,使数据的管理更加灵活。数据组 织技术是本文研究的一个关键技术( 参见节4 2 ) 。 3 3 3 数据动态浏览模块 用户的需求是经常变化的,分类浏览是为了满足用户能够浏览到自己 所关心的数据而设定的,用户可根掘自己的需求随时设定需要浏览的内 容,并对浏览内容进行归类设定。与数据组织技术不同的是:数据类的操 作是直接对数据进行操作,更改数据库的数据,而动态浏览功能是在逻辑 上对数据进行组织的,可以任意修改,而对底层数据没有任何影响。每个 人都可以按照自己的需求进行设定,提高了用户检索数据的效率。 3 3 4 数据安全管理模块 对于石油企业来说,企业积累的大量数据是企业最重要的财富,数据 的安全尤其重要,数据库的安全一般采用登录验证和操作跟踪的方式。对 于登录验证的方式,如果出现密码泄漏或用户恶意破坏等情况时候,给数 据库的安全带来很大隐患,除了加强对用户的权限和密码进行管理外,还 对运行访问企业数据库的m 进行范围设定,与此同时,跟踪用户对数据 库操作的记录。在数据库原有的安全管理基础上,通过口登录限制和用 户操作记录跟踪等措施,增加数据的安全。 3 3 5 数据备份模块 数据库备份是为防止数据遭到破坏而可以从备份文件中进行数据恢 复。在数据库进行备份时,第一种方式是可以通过数据库管理系统本身提 供了数据备份的功能;另一种方式是通过第三方工具提供了数据备份工 具,调用数据库已有的备份功能;这种方式只是通过界面形式进行操作, 简化数据库备份的操作难度。但数据备份功能提供方式较少,不够灵活, 不能满足用户的需要。因此在原有备份的功能基础上,增加了新的“数据 1 5 中国石油大学( 华东) 硕十论文第3 章数据重构和管理平台框架设计 类”的备份模式,为用户进行备份时多了一种选择。 3 3 6 用户授权管理模块 用户权限管理是数掘库系统安全的保证,数掘库管理系统提供了一套 权限管理机制,由于油阳数据库的数据量和用户数量非常庞大,o r a c l e 数 据库提供的常规的基于角色的授权管理较难满足企业的需求,因此通过引 入“数据类”和“工作组”大大简化了数据的授权管理。 3 4 小结 本章主要介绍了数据重构和管理平台的框架的核心部分“数据库虚 拟机”的相关模块进行分析,这些数据管理模块的设计都是企业数据管理 中比较重要的部分,是针对企业实际需要设定的,具有很强的针对性和实 用性。这些管理功能是对常规数据管理软件功能的改进和补充,并提供了” 新的管理功能。管理员可通过“数据库虚拟机”来完成数据管理和重构。 1 6 中国石油大学( 华东) 硕十论文第4 章“数据库虚拟机”解决方案研究 第4 章“数据库虚拟机”解决方案研究 4 1 数据重构核心技术 数据重构涉及到三方面技术:第一,关系模式到x m l 模式的映射技 术。第二、解决数据冲突技术;第三、完成应用数据结构与数据库数据结 构的映射技术。这三项技术确保应用程序和数据库数据逻辑独立性。下恧 对各种技术分别阐述。 考虑到x m l 文档是层次结构的,它可以很好的表述具有层次性的数 据。在数据库结构的抽取中,都是具有层次性的。其次,用x m l 文档记 录避免了用数据库记录造成数据库的性能消耗;同时考虑到扩展性,所以 选择x m l 作为数据结构的表示方式【”j 。 4 1 1 关系模式到x m l 模式的映射 在相关研究f 幡9 1 的基础上,给出了关系模式到x m ls c h e m a 转换的基 本方法。见图4 1 。 ( 翌口一_ 皇,! l 关系模式信息卜- -邛蕊弹 获得关系模 1 圭:! ! 里卜 - x m ls c h e m a 文档 式的元数据映射处理 生成 t 匣习_ _ 图4 - 1 关系模式到x m ls c h e m a 的转化流程 首先需要确定转换的关系数据库内数据对象的范围,并对相关的对象 进行整理。一个关系数据库往往包含许多内容,很多时候并不需要把所有 的对象都进行转换,所以要划定确切的转换范围,甚至需要根据情况把不 同的内容分类转换到多个s c h e m a 文档,这里一个u d 对应一个x m l s c h e m a 文档; ( 1 ) 获取关系表的所有信息 1 7 中国石油大学( 华东) 硕十论文第4 章“数据库虚拟机”解决方案研究 在进行映射前,得到每个表的相关信息,包括表名、字段名、字段的 类型、字段长度、字段值是否可为空、字段的缺省值、表的主键外键构成、 索引构成、与该表有联系的表的名称以及表之间一对一或一对多的关系。 这些信息可以通过关系数据库中的系统表获得。 ( 2 ) 确定文档的头信息和根元素 首先确定x m ls c h e m a 文档的头信息描述,该头信息确定了该文档使 用的命名空i 日j ,以及目标模式空间等信息如: ,然后确定根元素,我们 可以自己命名,也可以使用u d - 名称来命名如: 。 ( 3 ) 关系表的转换 将关系表映射成一个元素,元素名可以直接使用表名,这些元素都作 为根元素的子元素,元素类型为c o m p l e x t y p e 。我们将关系表分为两类: 一类是基本表,一类是辅助表,可以建立一个表t a b l e _ e l e m e n t ( t a b l e n a m e ,e l e m e n t n a m e ,e l e m e n t t y p e ,o l d ) 作为辅助手段,存储待转换关系表 的相关信息,其中t a b l e n a m e 是表名称,e l e m e n t n a r n e 是元素名,e l e m e n t t y p e 是元素类型,o i d 是元素的唯一标识。填写这个映射表时,把内容表的元 素类型设置为c o m p l e x t y p e ,辅助表的元素类型设置为s i m p l e t y p e 以示 区别。 ( 4 ) 字段映射 每个表的字段都既可以映射为它的予元索,也可以映射为它的属性, 主要原则是将主键和索引字段映射成表元素的属性,因为这些字段一般反 映的是基本性质且变化较小,其它字段映射成l o w 元素的子元素 ( 5 ) 数据类型映射 1 8 中国石油大学f 华东) 硕七论文第4 章“数据库虚拟机”解决方案研究 对简单且无限制数据类型,如d a t e t i m e 类型,则对应到元素的t y p e 属 性值;对简单有限制的数掘类型和其它数掘库支持类型,则由s i m p l e t y p e 元素描述,原数据类型作为r e s t i r c t i o n 元素的基类型,即b a s e 属性值。如 对类型长度的限制,用x s d :l e n g t h 元素的v a l u e 属性描述;x m ls c h e m a 有四十多种数据类型,足以满足数掘类型的转换需要。 ( 6 ) 主、外键描述 x m l s c h e m a 中引入了k e y 和k e y r e f 元素,这使得对主、外键的描述 变得更加容易。k e y 和k e y r e f 与i d 和i d r e f 相比的优点是可以将属性或 元素定义为k e y 和k e y r e f ,而i d 和i d r e f 只能针对属性而言,而且k e y 支持元素和属性的组合。将关键字的字段或字段组合所对应的元素的u s e 属性定义为“r e q u i r e d ”。由k e y 元素描述主键,k e y r e f 元素描述外键。 ( 7 ) 辅助表的处理。把辅助表映射为主表对应元素的子元素,要求 该元素为枚举类型,把辅助表中的数据列在枚举值的集合中。 ( 8 ) 空值处理 字段的值是否可为空,由元素的n i l l a b l e 属性描述,为t r u e 时可为空, 否则不可为空,默认情况为不可为空。 以开发数据库的d b a 0 1 单井基础信息表为例,展示上述过程。 该表的结构定义如下: c r e a t et a b l e d a a 0 1 ( j i - in o tn u l lv a r c h a r 2 ( 1 6 ) y tv a r c h a r 20 4 ) s k i d d s i n u m b e r ( 7 ,2 ) c o n s t r a i n t p 肌舱r y k e y j h 具体的x m ls c h e m a 如下: 命名空间 x s d :e l e m e n tn a l l l f ”k f u d 元素 - x s d :f r a n c t i o n d i g i t sv a l u e = ”2 ”序 一 i i j h 不为空 x s d :e l e m e n 伊 f 啊可为空值 x s d :f i e l dx p a t h = ”回j h ”肛删h 为主键 x s d :e l e m e n 伊 中国石油大学( 华东) 硕十论文第4 章“数据庠虚拟机”解决方案研究 通过获得的u d 数据表的信息,重复上述步骤,完成u d 从关系数据 库模式到x m l 模式的转换,这样就得到了x m l 模式描述的d d s 。图4 1 所示是u d 对应的数据库模式解析后数据结构的示意图。其中虚线部分是 数据表d a a 0 1 的结构图。 图4 - 2 关系数据库开发u d 的数据描述结构图 4 1 2 解决冲突的技术 ( 1 ) 冲突的种类 在多应用数据库系统中,各应用对应的数据相对独立的,建立时候没 有考虑到全库的表或属性命名的唯一性和数据的一致性,因此导致了各应 用数据彼此之间的语义和数掘值不一致,从而出现对象描述的二义性,冲 突的直接后果是当进行应用数据共享或跨应用查询时,出现异常或结果不 正确的情况,下面介绍一下冲突的种类【2 m 。 冲突主要包括命名、格式、单位等冲突。 命名冲突是指各局部数据库的设计者均按自己的习惯和方式命名数 据库中的对象,不可避免地会出现同名异义或异名同义现象。 2 l 中国石油大学 华东) 硕十论文第4 章“数据序虚拟机”解决方案研究 数据格式冲突是指同一属性的值在不同表中被不同数据类型和数据 格式所表示引起的。 数据单位冲突是指由不同测量单位的仪器的使用引起的,这种冲突一 般由不同实践或不同文化背景引起的。 ( 2 ) 冲突的消解 消解冲突过程是解决冲突问题的过程,通过比较阶段指定冲突类型, 针对不同冲突采取不同的解决方法。在对数掘库结构进行抽取过程中主要 消除命名冲突,对于数值冲突在生成映射的过程中由人员指定。下面是主 要冲突的消解方法,是解决冲突的思想,在实际应用中可利用x m l 的可 扩展、易维护等特性对方法进行扩充和修改。 一a 命名冲突的解决方法【2 1 1 对于命名冲突不管是用名异义还是异名同义,因为需要有人员的参 与,从表名冲突和字段名冲突两个方面来解决即可。在m 1 5 管理的数据 l i d 中对应着多个应用数据,假设各个应用对应的数据分别为a l , a 2 ,a n ,其中a l 包括表元素t l l ,t l p l ,t l l 包括属性和 叶子元素f l l l ,f l l q l ;a 2 包括表元素t 2 1 ,t 2 p 2 ,t 2 1 包括 属性和叶子元素f 2 1 1 ,f 2 1 q 2 ;a n 包括表元素t n l ,t n p n , t n ! 包括属性和叶子元素f n l l ,f n l q n ,依此类推。 表名冲突:根据比较阶段得到的表元素关系信息,对每一组相关的 表元素确定一个统一的命名,并设为这组表元素的父亲元素,如图4 3 所 示。 中国石油大学( 华东) 硕十论文第4 章“数据库虚拟机”解决方案研究 n 8 鹏;”a l k n a m e = ”a 2 ”k n a v e = ”a u k n a m e = ”s n 。 图4 - 3 表名冲突解决办法示意图 图中的t i ,t m 是一组统一后的表元素,即m u 全局表元素, 其中1 m n 。c o u n t 属性描述和每个m u 全局表元素相关的应用中对应表 元素的数量。这里的k ,w 值满足l k ,w n 。t l i 。t 2 j ,t
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030中国液体化工物流行业数据资产价值挖掘与应用报告
- 2025-2030中国沿海港口液体化工码头运营与布局规划报告
- 大学三方共建协议书
- 大学生合伙合同范本
- 林地确权协议书范本
- 正式安置协议书范本
- 民事法律服务协议书
- 水泥棚搭建合同范本
- 汽修厂购油合同范本
- 法院拍卖商铺合同范本
- 消防安全生命至上培训课件
- 储罐施工应急预案
- 国家事业单位招聘2025中国农业科学院农业经济与发展研究所招聘笔试笔试历年参考题库附带答案详解
- 2025年宜昌市市直机关公开遴选公务员40人备考考试题库附答案解析
- 2025年国元农业保险股份有限公司安徽分公司校园招聘40人笔试参考题库附带答案详解
- 肺性脑病呼吸支持护理查房
- 韩语教学课件
- 专升本英语必背核心词汇
- 小学朗读教学课件
- 三似药品管理制度
- 汽车维修店经营资质申请全流程指南
评论
0/150
提交评论