已阅读5页,还剩7页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 f 由于工程试验活动的复杂多变性,对工程试验数据的管理和分析处理的有效 支持一直是数据处耻领域的研究热点之一。数据仓库作为一种决策支持的技术在 信息领域已被广泛运用。本文以工程试验领域和数据仓库技术为研究背景,对工 程 状及其分析处理的要求,提出了一个工程试验数据仓库系统,详细阐述了该系统 的功能和特点,并将其与传统的商业数据仓库进行了对比,提出了工程试验数据 仓库系统的体系结构,详细描述了体系结构中各个组成部件,总结了该体系结构 的特点。其次,针对复杂多交的工程试验数据,本文应用描述驱动技术,设计了 和实现了一个工程试验数据管理系统;针对工程试验数据分析具有专业性的特 点,设计和实现了一个支持工程试验数据分析处理的框架,描述了框架中的主要 功能构件及其相互关系。然后,本文探讨了分布的工程试验数据的集成技术及其 特点,并分别运用仓库技术和m e d i a t i o n 技术实现了本地( 试验基地内) 的和异 地( 试验基地之间) 的工程试验数据的集成。最后,在附录中介绍了该系统在试 飞试验领域的应用一飞行试验工程数据仓库系统( f f e d w s ) 。 掌键词:茎塑坌堑塞燮罗境王堡这堕夔盘盒库系统趁i ! 鬯动 重窭i i j ? ,一、一、一 f ,叁旷一一一一一一 a b s t r a c t ni soneo fr e s e a r c hh oc s p o t st os u p p o rce f f i c i e nc 1 yt h em a n a g e m e n t a n da n a l y s i so fe n g i n e e r i n gt e s td a t ad u et ot h ec o m p l i c a c ya n dv a t i e t y o fe n g i n e e r i n gt e s ta c t i v i t y a sad e c i s i o n s u p p o r tf a c i l i t y ,d a t a w a r e h o u s e ( d w ) i sw i d e l yu s e di ni n f o r m a t i o nd o m a i n b a s e do ne n g i n e e r i n g t e s td o m a i na n dd a t aw a r e h o u s et e c h n o l o g y ,t h i sp a p e rm a i n l yr e s e a r c h e s t h ea n a l y s i sf a c i l i t yo fe n g i n e e r i n gt e s t d a t a f i r s t l y ,t h ec h a r a c t e r i s t i co fe n g i n e e r i n gt e s td a t ai sa n a l y z e d 。t h e m a n a g e m e n ts t a t u sq u oa n dr e q u i r e m e n to fe n g i n e e r i n gt e s t d a t ai s s u m m a r i z e d ,a ne n g i n e e r i n gt e s td a t aw a r e h o u s es y s t e mi sp r o p o s e da n di t s a r c h i t e c t u r ea n dc h a r a c t e r i z ei si n t r o d u c e d s e c o n d l y ,ad a t am a n a g e m e n t s y s t e mf o rc o m p l i c a t e da n dv a r i a b l ee n g i n e e r i n gt e s td a t ai sc o n s t r u c t e d d e p e n d i n go nd e s c r i p t i o n - d r i v e nt e c h n i q u e ,af r a m e w o r ko fe n g i n e e r i n g t e s td a t aa n a l y s i s ,w h i c ha s s i s t st h ei m p l e m e n t a t i o no fp r o f e s s i o n a ld a t a a n a l y s i s ,i ss u g g e s t e da n d t h ef r a m e w o r ki si n t e r p r e t e di nd e t a i l t h i r d l y t h ei n t e g r a t i o nt e c h n i q u eo fd i s t r i b u t e de n g i n e e r i n gt e s td a t aa n dt h e i r c h a r a c t e r i s t i ca r ed i s c u s s e d :t h ei n t e g r a t i o no fd i s t r i b u t e dd a t ai na l o c a lt e s tb a s eo rb e t w e e n s e p a r a t et e s tb a s e si si m p l e m e n t e dr e s p e c t i v e l y b yw a r e h o u s i n go rm e d i a t i o n f i n a l l y ,a ne x a m p l eo fe n g i n e e r i n gt e s td a t a w a r e h o u s es y s t e mi nf l yt e s td o m a i n ,f t e d w s ,i sd e p i c t e di na p p e n d i x k e yw o r d s :d a t aa n a l y s i sf a c i l i t y , s y s t e m ,d e s c r i p t i o n - d r i v e n ,f r a m e w o r k , e n g i n e e r i n gt e s td a t aw a r e h o u s e i n f o r m a t i o ni n t e g r a t i o n i l 图表目录 幽1 - l 致梅:仓库系统结构幽2 幽1 2 论文内容组纵幽4 幽2 - l 处理构件的生命周期1 5 图3 - l 三种软件开发方法的比较1 6 图3 - 2 工程试验数据g - g l 体系结构1 8 图3 3 工程试验数据的分类一1 8 图4 - l 描述驱动的体系结构2 3 图4 - 2 工程试验数据管理系统的体系结构2 5 图4 3 简化的工程试验数据管理系统的元模型一2 6 图4 _ 4 工程试验数据模型2 6 圈4 5 数据对象管理示意图2 7 图4 - 6 工程试验数据管理子系统的结构2 7 图4 7 数据对象存储的类图2 9 图4 - 8 数据对象管理关键类圈3 0 幽4 9 试飞试验的主题组织图3 0 图4 一l o 主题内数据组织关系3 l 图4 1 1 工程试验数据的模式和实例的示意图3 l 图4 1 2 选择操作示意图3 2 图4 1 3 投影操作示意图3 2 图4 1 4 合并操作示意图3 3 图4 1 5 连接操作示意图一3 3 图5 - 1 分析主题和试验主题之间的关系3 6 圈5 2 工程试验数据分析框架3 8 图5 3 构件的标准执行流程3 9 图5 _ 4 数据准备构件流程图4 0 图5 - 5 分析执行构件流程4 2 图5 - 6 结果发布构件4 3 图5 7 数据分析处理的关键类图4 5 图5 - 8 构件库管理系统体系结构4 5 图5 - 9 试飞试验中的构件组织4 6 图6 1 四个数据库的联邦4 9 图6 - 2 仓库集成技术的体系结构5 0 匿6 3m e d i a t i o n 集成技术的体系结构5z 图6 - 4 本地数据的集成体系结构5 2 图6 - 5 数据转换模型5 3 图6 - 6 异地的t 程试验数据集成体系结构5 5 v 嵌5 i 数据分析处耻j 天键类1 4 炭6 - l 源,目标数据的字段描述信息农5 3 _ 炭6 2 构什的描述信息表5 3 v 沁寐航t j 航尺人1 :钡i + # 似论殳 第一章绪论 1 1 工程试验概述 工程试验是工程领域的一项重要的活动,人们通过组织工程试验活动,获得 试验部件或试验系统的功能、性能、适应性等信息,从而完成对部件或系统的评 价和判定。 工程试验的进行是一项严密组织的系统工程,对试验环境、试验设备、试验 人员都有一定的要求,有时它还是一项具有相当风险的活动。例如:飞机飞行试 验就是一个典型的高投资、高风险的工程试验活动。一般来说,工程试验具有如 下的特点: ( 1 ) 匾向主题的。工程试验的进行都是围绕一个试验对象的特定的试验目 标展开的,并且这些目标之间具有层次性。 ( 2 ) 数据复杂多变。工程试验中的数据一般都是采用特定的仪器进行采集 的,这些仪器产生的数据都有各自特定的模式。另一方面,随着技术的发展,试 验设备的更新,收集到的数据的模式会不断地变化。 ( 3 ) 分布性。较大规模的工程试验往往不能在一个地方进行,可能分散在 地理上相距很远的地方进行。 工程试验的数据处理和分析是工程试验过程中的一个必备的环节,其结果是 评价和判定工程试验对象是否满足设计要求,进而指导进一步的工程试验组织和 实旌的主要依据。因此工程试验数据的处理和分析支持软件系统是工程试验的重 要基础设施,它对工程试验的正确有效性提供直接的支持和保障。 1 2 数据仓库技术 数据仓库技术是上世纪九十年代兴起的用于信息领域决策支持的数据管理 技术。随着数据管理技术的不断成熟,数据仓库已经成为信息构造的新交点,它 提供集成化和历史化的数据;它集成种类不同的应用系统;它是面向主题的、集 成的、稳定的、随时间变化的数据集合,用户可以通过对信息的综合加工、分 析和处理,来支持经营管理中的决策过程。 数据仓库系统主要是由数据源、数据获取部件、数据管理部件、数据分析部 件以及用户这五部分组成的,其体系结构如图卜l 所示: l :j :lf i 试! 蛤敖“:( oj j j 门z 2 “l :分h i 乏j 学叫、境川, 一7 c 数据流 用 户 数据源层数据获取层数据管理层数据分析层用户层 图卜1 数据仓厍系统结构图 数据仓库系统通过一致的命名规则、度量规则、语义实现异构的数据源中的 数据的集成,并按照主题组织数据( 数据仓库中按照业务主题组织、数据集市中 按照分析主题组织) 。当数据被加载到数据仓库和数据集市中以后,系统提供了 很多工具来支持进行数据分析,这些工具包括联机分析处理( o l a p ) 工具和数据 挖掘( d a t am i n i n g ) t 具。系统还提供了各种报表工具、图形工具来展示数据 分析的结果。信息分析人员利用这些工具可以轻松地从收集的海量数据中发现潜 在的商业规律,从而辅助人们在经营管理中进行决策。 1 3 研究现状及选题依据 在面向科学计算的工程试验和测试数据处理的领域,由于工程数据类型复杂 多变,因此管理不便,而用户一般是专业领域的工程技术人员,可以独立编程完 成专业性的数据处理和分析,这样就逐渐形成了一种数据分散管理,数据处理“各 自为政”的局面。 由于信息系统领域的数据规范,其加工处理的逻辑简单规范,因此在该领域 数据仓库技术已经获得了长足的发展,各大数据库管理系统的厂商也纷纷推出基 于各自的数据库管理系统的数据仓库产品,这些产品已经在许多公司、机构中使 用了。但是这些数据仓库产品一般都是采用关系模型来表达现实世界的数据及其 数据之间的关系,用他们来表达工程数据,实现工程数据的管理和对工程数据的 分析就存在许多的缺点o ,。 在工程数据管理领域,面向对象的数据库管理系统( o o d b m s ) 可以很好的支 持工程数据的管理,可以成为一个通用的工程数据管理系统但是现在它还很不 成熟,仍缺乏共同的数据模型和形式化基础,没有一套成熟的理论“。目前出现 的许多商品化和正在商品化的面向对象数据库管理系统大多与一定的应用领域 相关,例如:机械c a d 领域的o s c a ri i 工程数据库管理系统。实现工程数据管理 的另一条途舱址x 、r 关系模型进行扩展,添j j 【1 特定的数据引犟,实现某一j 士体领域 的数据管理干分析支持。例如:e s r i 公司的s d e 和m a p n f o 公司的s p a t i a l w a r e 空洲数据仓库系统。但是这些产品只能支持简单的工程数据分析,缺乏对各专业 数据处理的支持能力。可以酿,在工程试验领域目油还缺乏熊有效支持工程试 验数据的集成管理和分析处理的系统。我们的研究就是在这样的背景下展丌的, 并得到了2 0 0 2 年航空科学基金( 课题名:基于工程试验数据仓库的分析支撑环境 研究,编号:0 t 1 5 2 0 5 8 ) 的支持。 我们将数据仓库技术引入工程试验数据管理领域,以构建工程试验数据仓库 ( e t d w :e n g i n e e r i n gt e s td a t aw a r e h o u s e ) 。它是数据仓库技术在工程试验领 域的应用,是针对工程试验数据特点对数据仓库存储管理和分析处理技术进行特 化的应用技术,基于工程试验数据仓库,提供集成数据管理和数据处理的平台, 采用面向工程实验和测试分析专业主题的数据存储技术,集成管理工程数据,同 时为各专业主题数据分析处理提供标准的方法构件管理功能,扩展管理各类数据 处理和分析的软件构件,形成数据收集、管理、处理和分析的综合支撑环境。这 有助于为工程试验和测试工程提供规范标准的环境,确保数据处理和分析的正确 有效性,提高数据处理效率,避免低层次的重复建设,支持行业内工程数据以及 分析和处理技术共享,避免宝贵的试验数据和处理技术的流失。大量历史数据的 综合、对比、加工和处理,有助于专业人员进行预先研究、改进设计和发现新的 问题和规律。基于工程试验数据仓库的数据分析支撑环境需要提供的主要功能如 下:( 1 ) 实现各种工程试验数据的统一管理,( 2 ) 支持专业的工程试验数据分析, ( 3 ) 能集成分布的工程试验数据。 1 4 课题的研究范围 本文是在分析了工程试验数据的特点和数据仓库技术的基础上,提出了工程 试验数据仓库系统,以支持对工程试验数据的集成管理,从而提供工程试验数据 处理和分析的支撑环境。在这篇论文中,我们给出了一个工程试验数据仓库系统 的系统结构,抽象出了工程试验数据的模型,实现了工程试验数据的管理系统, 并提供一个试验数据分析的框架,最后研究了分布的工程试验数据的集成技术。 本文的主要研究内容共分七章,如下所示: 第一章是绪论,介绍了工程试验和数据仓库技术的概况,阐述了本文的选题 依据是将数据仓库技术引入工程试验数据管理中,以构建基于工程试验数据仓库 的分析支撑环境。 第二章分析了工程试验数据的特点,总结了当前工程试验数据管理的现状, 提出了工程试验数据仓库系统,描述了工程试验数据仓库系统的功能和特点,并 将其与传统的商业数据仓库系统进行了比较,最后介绍了工程试验数据仓库系统 涉及的主要技术。 ;卜i :试验数川仓j 硼0 数 l l :分 i 足j 带州、境i i j 宄 第二i ? l 的篮介绍了体系结构及其研究脱:状,摊 i i 了上程试验数枷;仓库系统的 体系结构,m 述了浚体系结构中的主要部件及其棚应的功能,并捌i 述了浚体系结 构的特点。 第四章介绍了多层的描述驱动技术及其特点,利用该技术设计实现了工程试 验数掘仓库的数据管理子系统,并提出了工程试验数据的模式模型,给出了年u 应 的操作原语,最后介绍了仓库系统的数据查询实现方案。 第五章分析了工程试验数据处理分析的特点,总结了数据处理分析的一般流 程,设计和实现了工程试验数据分析的框架。 第六章分析了工程试验数据的信息集成的需求,介绍了基本的信息集成技 术,描述了本地和异地两种环境下工程试验数据的不同的信息集成方案。 第七章对全文进行了总结,归纳了本文的主要论点和研究工作,并对以后的 研究工作进行了进一步的展望。 图卜2 显示了本文的组织结构: 圈卜2 论文内容组织图 4 第二章工程试验数据仓库的提出 现有的成熟的数据库技术一般都适合商k 领域,并且能够很好的满足商业领 域内的数据管理的需求。随着数据库技术的发展,数据库应用的范围同益扩大, 逐渐地向工程领域扩展。由于在数据特点、数据管理的需求等方面,工程领域与 传统的商业领域的差异很大,层次型、网状型、关系型这三种在商业领域内常用 的数据模型均不能完全适合需要。同时,工程领域内部的差异也很多,一个全局 通用的数据库很难满足所有领域的各种不同的需求,而且,还会造成在将数据库 应用于某领域时需要做大量改造和转换工作的现象。于是,人们转向了面向应用 的数据库研究,以领域为背景讨论数据库的设计和实现。这种方法使数据库的研 究更加具有针对性,能综合适用于本领域的各项数据库技术,更好地为应用领域 服务。工程试验领域是工程领域的一个重要分支,工程试验数据的管理也有许多 独特的要求。在这样的背景下,我们展开了对工程试验数据仓库系统的研究,以 更好的支持对工程试验数据的管理和分析。 2 1 工程试验数据管理的分析 以应用领域为背景进行研究,必然要求首先对应用领域的数据及数据管理的 特点进行深入地分析,因而在本节中,我们将分析工程试验数据的特点、管理 的现状及管理的要求。 2 1 - l 工程试验数据的特点 工程试验数据有如下的特点: ( 1 ) 数据量大 一次工程试验过程中产生的数据量可能不是很大,但是,随着时间的推移, 工程试验的不断进行,每次产生的试验数据都要不能丢失,因此要管理的试验数 据量很快上升,可达t b 、p b 级。例如:欧洲粒子物理研究所( c e r n ) 的c r i s t a l 系统中,管理的数据就已达t b 级。 ( 2 ) 数据是稳定的 工程试验中正确记录的数据对于工程研究的有效期是很长的,可以达到几十 年。因而,即使是几十年前的试验数据,也可能有很高的利用价值,需要直保 存,不能被随意的删除。 ( 3 ) 数据类型不一 工程试验中要处理的数据包括单值数据、曲线数据和数组数据等非历程数 据,还有重复采集的历程数据。非历程数据是指与时间无关的数据,一般为常量 或数据处理的结果。例如:试验时的气压、温度等。历程数据是指与时间相关的 i 。;j1 牲试验数掷:仓烊的彀删分 l i 戈拌环境i j 【, 数掘。例如:在桀段飞行时m 内,飞机机翼一i - 的斤力的变化情况。 ( 4 ) 模式不确定 许多工程试验数据都是通过试验设备采集的,随着试验设备的更新换代和试 验手段的不断进步,人们会用不同的设备来采集相同主题的数据,而不同的试验 设备电录的数据模式一般是不一样的。 ( 5 ) 数据组织具有层次性 在工程领域中,试验对象之间往往会有各种复杂的组织关系,而工程试验数 据往往按照某一种层次的关系进行组织。以方便工程试验的组织管理。例如:在 试飞试验中,试验数据按型号一架次一科目动作段的方式来组织。 ( 6 ) 数据与数据处理程序紧密耦合 在工程试验领域,试验数据总是针对特定的试验对象、特定的试验目的而进 行的,获得的数据模式也不同,这样对数据的分析处理不可能有一种通用的模式, 只能是针对一种数据采用一种处理,即数据与处理程序是紧密耦合的。例如:对 汽车轮胎的试验数据的处理和对发动机的试验数据的处理程序肯定是不一样的。 ( 7 ) 数据存在多个版本 由于工程试验具有重复性的特点,针对每一个试验项目,试验人员一般都需 要重复做多次试验,每一次试验的结果都必须完整的保存下来,这样就产生了多 个版本的试验数据。另一方面,由于试验手段、试验设备的变化,对同一试验对 象进行试验,产生的数据也会有模式上的差异,这也产生了多个版本的试验数据。 ( 8 ) 数据的分布既有相对集中性,又有相对分散性 由于受到试验环境、试验设备等的限制,工程试验往往集中在某些特定的试 验基地内进行,这使工程试验数据都会集中地保存在这些特定的试验基地中,这 就是数据的相对集中性。而从全局的角度看,这些相互关联的试验基地之间在地 理上可能相距很远,因而获得的试验数据也是地理上广泛分布的。同时,在这些 特定韵试验基地内,工程试验数据往往在不同的试验室中进行,这些数据相应的 也分布在各个实验室之间。这就是工程试验数据的相对分教性。 ( 9 ) 数据是面向主题的 工程试验本身是为了数据的分析研究而进行的,所以往往按照特定的研究主 题进行组织并实旋。这样,工程试验数据就是天然地面向试验主题的。 ( 1 0 ) 数据往往是基于时间段的 工程试验中采集的大多数试验数据都是和时间相关的,时间项在很多数据模 式中都是必不可少的。例如:试飞试验中,经常要分析某个特定飞行动作的时间 段内,飞机的升力、速度等随时间变化的情况。 2 1 2 工程试验数据管理的现状 由于工程试验数据本身的复杂性,工程试验数据的管理存在许多的问题。 6 ( 1 ) 数士1 1 ;管理分敞 现在工程试验数据的管理手段不一,部分数掘使用计算机来管理,部分靠人 工管理。工程试验中也会有一些数据容易使用现有的数据模型来表达,这样人们 就把这 j 分数据存放到数据库中,使用数据库技术来管理数据。例如:在试飞试 验中重复采集的历程数据,其数据模式在形式上和关系模型一致,每一个采集参 数都对应关系模型表中的一个字段,而一个时间点上所采集的若干参数的码值恰 好是关系表中的一个元组。因此,可以采用关系数据库中的表来实现该类工程试 验数据的管理。当然,对于该类数据的模式不确定性所带来的动态访问的问题, 还需要在应用程序中解决。还有很多其他的数据,如:数组、曲线簇等类型的数 据,现在所有成熟的商用数据库系统都无法有效的管理他们。因而,这些数据只 能通过保存在数据文件或印刷文档中,依靠数据管理员来实现数据的正常管理。 ( 2 ) 数据的存储介质多种多样 工程试验数据的存储介质是多种多样的,根据数据特点的不同、采集仪器的 不同、数据存储的方便性、是否为分析结果等因素,数据分别保存在数据库、磁 带、数据文件和印刷文档中。 ( 3 ) 数据组织混乱 由于工程试验数据是分散管理的,并且存储介质也是多样化的,这对数据的 有效组织带来了困难。这不仅导致了用户无法看到所有数据的统一视图,也给数 据的日常管理维护工作带来了巨大的压力。在非数据库的存储环境下,数据的共 享、并发访问变得很困难,数据的完整性、一致性、安全性等都需要由数据管理 员来保证,数据的快速查找也无法实现,数据的冗余也会增加。 ( 4 ) 缺乏可扩展性 经过多年的数据库技术的发展,现在市场上主要有三类成熟的数据库产品: 关系数据库、层次数据库、网状数据库。这些数据库管理系统都缺乏可扩展性, 不能适应试验数据模式的逐渐演变。试验数据模式一旦变化,原有的数据库管理 系统将无法统一管理新旧模式的数据,于是只能为新模式的数据再开发一个数据 库应用系统,这不仅造成数据库系统的重复建设,还导致新旧模式的数据之间很 难集成,无法进行统一的分析处理,限制了宝贵的工程试验数据的有效利用 ( 5 ) 缺乏数据分析的支撑设施 工程试验进行的首要目的是对试验数据的进行分析,从中找出数据变化的规 律,以便于指导进一步的工程设计、制造和试验。但是一方面,因为各个工程试 验的差异很大,所以每个工程试验产生的试验数据都有自身独特的分析处理方 式、流程,不可能有一种通用的处理模式和处理程序。另一方面,在现有的环境 下,对数据分析程序的管理和对数据的管理一样,往往是各自为政,没有统一管 理的环境,造成各种试验数据分析技术随时间不断流失。 l :l 雅试峻投u t :仓j 乍的数据分 i 史 掌环境 i j f 冗 2 1 3i :程试验数据仓库的提出 从i m 两节的叙述中,我们可以总结出工程试验数据管耻在实现了一般的数掘 管理功能( 统一管耻、数据共享、并发访问、一致性和完整性检查等) 的丛础上, 还有自身独特的需求: ( 1 ) 能有效地组织和管理大批量的、异构的、多版本的历史试验数据。 ( 2 ) 能贯穿于长期的工程试验中,支持试验数据模式的演变,并保持新旧 模式之间的数据操作的兼容性。 ( 3 ) 能有效地集成分布的试验数据,包括基地内实验室之间和基地之间。 ( 4 ) 能为试验数据的有效分析提供方便的处理支撑环境 从上述的数据管理要求中,我们容易看出,当前没有任何一种商用的数据库 管理系统能满足上述的功能需求。另一方面,面向对象的工程数据库似乎更适合 处理工程试验数据,但面向对象的工程数据库的还不成熟n 1 ,具体表现在: ( 1 ) 缺少一个统一的标准,许多定义与领域背景有关,未能将其上升为一 套理论,离开了相应的领域背景就容易引起混乱。 ( 2 ) 数据库语言缺少一个形式化的基础,虽然有在一阶逻辑基础上加入语 义信息形成语义模型的能力,但离形式化的基础还很远。 ( 3 ) 面向对象工程数据库语言还不成熟,有许多失败的例子。如:o n t o l o g i c 早期使用的co b j e c tp r o c e s s o r ( c o p ) 。 ( 4 ) 数据模型和语言的复杂性提高了,使实现和使用都有许多问题,尤其 是对用户素质有更高的要求。 对于特定工程领域的数据管理实现方案,现在有两种基本的途径:一种途径 是对关系模型进行扩展,利用数据库的b l o b 字段( 这种数据库被称为关系对象 数据库) 存放工程数据,通过追加特定的数据引擎,实现工程数据的管理“1 ,这 适用于数据模型不太复杂、与关系模型较类似的工程领域。例如:在空间数据管 理领域,e s r i 公司的s d e 和m a p l n f o 公司的s p a t i a l w a r e 都是通过在现有的成 熟的数据库的基础上增加一个空间数据引擎来实现的“1 。另一种途径是基于具体 的领域背景,在面向对象数据库的理论的指导下,设计针对具体领域的数据管理 系统。这也是被许多工程领域采用方法,很多商品化和正在商品化的o o e d b m s 都 和一定的应用领域相关0 1 。例如,机械c a d 领域的o s c a ri i 工程数据库管理系统 8 1 和图形处理领域的面向对象的图形系统“1 等。 考虑到工程试验数据管理领域的实际特点,我们采用了第二种方案来实现工 程试验数据的管理。结合从上世纪9 0 年代兴起的数据仓库技术,我们创建了一 个工程试验数据仓库系统,采用描述驱动的技术来管理和集成模式逐渐变化的数 据,以实现各种异构的分布的试验錾据的集成管理,并为试验数据的分析提供支 一 撑环境。 2 2 工程试验数据仓库 工程试验数据仓库是数据仓库技术和工程试验数据管理领域相结合的产物, 它是一个面向主题的、集成的、稳定的、基于时问段的动念信息集合,用来更好 地支持工程试验数据的统一管理和数据分折。工程试验数据仓库除了具有传统数 据仓库的一般功能和特点之外,还有其自身的领域功能和特征。 2 2 1 功能 工程试验数据仓库系统的功能如下: ( 1 )能有效的存储、管理不断积累的工程试验数据 在传统的商业数据仓库领域,由于商业数据的类型一般都很简单,只要用几 种基本的固定的数据类型就可以表达各种数据,通过关系数据库就可以实现数据 的有效管理。然而,工程试验领域豹数据类型复杂,数据量大,为了支持对数据 的分析,首要的任务就是提供一个适合工程试验数据管理的系统,把模式各异、 类型复杂的数据统一管理起来,并向用户提供统一的数据组织视图。 ( 2 ) 能方便的管理多版本试验数据 由于工程试验具有重复性,因此系统中会存在大量的不同版本的试验数据, 他们的数据模式可能是相同的,也可能是不同的。对不同版本的试验数据进行对 比分析是工程数据处理分析的一个很重要的手段和途径,因而系统必须提供对不 同版本数据的统一管理功能,以使用户能够方便的管理、分析这些数据。版本管 理的要求主要有三个:( a ) 能创建新版本的数据对象。( b ) 要保证每个版本内 容的相对独立性和一致性,( c ) 当前版本的切换 ( 3 ) 能集成分布的数据 正如前所述,工程试验的数据存放位置既有分布性,又有相对集中性。人们 在进行数据分析时,可能需要采用的多个试验室、多个试验基地采集的数据,这 就要求把分散在各个试验室、各个试验基地的异构数据进行集成,实现分布透明 性。这样,用户访问数据时,就不必考虑数据来自哪里,如何传输,就像操作本 地的数据一样。 ( 4 ) 能提供数据加载的框架设施 在传统的数据仓库系统中,源数据般是日常的信息管理系统所产生的数 据,这些数据般都保存在关系数据库中,且他们的数据模式是静止不变的,这 样数据源和仓库系统之间的数据模式的映射关系也是固定不变的。因此,可以为 每一个数据源提供一个特定的数据抽取转换模块,从而实现源数据向数据仓库的 加载。而在工程试验数据领域,数据源的数据模式复杂多变,存储的介质也各种 各样,很难提供一种统一的数据加载工具实现该数据源的各种数据的加载。但是, 我们可以提供个数据加载的框架设施,方便用户自定义的数据加载工具的实现 ! j 帷试验圾扒_ 仓的城 惭卫 掌h :崦蚶丸 和与仓乍系统的集成。 ( 5 ) 能提供数据分析的框架设施 在商业数据仓库系统中,由于使用的数据模式都很简单和很稳定,o l a p 使 用的数据源的模式也很稳定,主要目的是进行商业走势的分析,主要手段是数据 的切片、切块、上卷、下钻,因而o l a p 可以用一个通用的构件来实现。在工程 试验数据的分析中,数据源本身的模式差异很大,而且对每一类数据的分析处理 程序都是往往不同的,这样对工程试验数据的分析就没有了一个通用的处理模 式。与数据加载的情况类似,我们也可以提供一个数据分析的框架设施,方便用 户定义特定的数据分析构件和实现该构件与系统的集成。 ( 6 ) 能提供各种形式的分析结果的保存、组织、管理设施 在商业数据仓库中,对历史数据的分析结果是用来辅助决策分析和指导下一 步的行动计划的,因此,这些分析结果有很强的时效性,且不必进行保存。例如: 在2 0 0 2 年度某个地区的手机的销量增长很快,这一分析结果在1 0 年后肯定不会 再有价值。而工程试验数据的数据分析和这不同,工程试验数据的分析结果具有 很长的有效期,一般只会随着技术的应用价值的消失才会失效。例如:几十年前 的试验中总结出的关于气动的结论对现在的飞机的设计制造仍然有指导意义。因 此,我们必须将工程试验的各种分析结果进行保存、组织和管理,并提供相应的 导航和查询设施,方便用户使用这些数据。 ( 7 ) 能支持方便高效的查询检索 查询检索的功能是数据库管理系统的重要功能之一,特别是在工程试验数据 管理领域,对于复杂的工程数据进行查询时,系统在保证响应速度的同时,还须 保持查询操作的简单易用性。 ( 8 ) 能保持数据的一致性 工程试验数据仓库系统中的数据虽然都是只读的,不允许修改,但是在加载 新的试验数据或进行了数据的版本切换等操作之后,数据仓库和分析主题库( 数 据集市) 之间仍然需要维护数据的一致性。 ( 9 ) 能支持并发的数据访问机制 工程试验数据的使用者一般是专业领域的工程技术人员,这些人的数据往往 很多,因此需要提供并发的数据访问机制,以实现数据的共享。数据仓库的只读 性质使得并发控制要求降低。 ( 1 0 ) 能提供可靠的安全管理设施 工程试验数据的获取往往代价不菲,并且可能涉及企业的商业机密或国家机 密,因而不能让人随意的访问数据,必须有可靠和方便的安全管理与控制机能。 ( 1 1 ) 能提供数据的备份恢复功能 为了保证工程试验数据在任何情况下部能恢复到一致的状态,系统必须提供 数据备份和数据恢复的功能,同时还要对备份数据进行加密,防止被他人窃取。 知i ! 航。肌人人1 孙目h o 阿沦文 ( 1 2 ) 能埘数据分析过程提供事务支持 工程试验数据的分析过程具有长久性、试探性的特点,以原子性和可串行性 为特征的常规事务处理概念和技术不适用于工程数据库”1 。工程试验数据仓库系 统除了要支持常规的事务之外,还要提供对分析事务的支持。分析事务是一种工 程应用领域的特殊事务,它是跨应用、跨进程的。数据分析员开始进行分析时, 从仓库中读取数据对象,从而开始一个长事务。仓库系统为每个读取的对象上持 久锁。持久锁是保存在外存中的锁,它的生命周期可以跨越多个进程。对数据分 析员来说,它的分析事务就是分析状态的切换。 2 2 2 特点 ( 1 ) 可扩展性 工程试验数据仓库系统不是基于当前市场上的数据库管理系统而设计和开 发的,采用了描述驱动的技术,使数据的内容与对数据的描述相分离,实现工程 试验数据的管理。采用描述驱动的技术,使所管理的数据具有了自描述的能力, 这样就不必担心数据模式的变化,使系统具有很高的扩展性和重用性。 ( 2 ) 开放性 系统为工程试验数据的加载和处理分析提供了标准的方法构件管理功能,使 系统能够扩展管理用户特定的数据加载和数据处理分析的构件,支持特化的数据 加载功能和数据处理分析功能,保证了系统的开放性。 2 3 工程试验数据仓库与传统商业数据仓库的不同点 工程试验数据仓库和商业数据仓库都有一般数据仓库的共同特征,但是,由 于他们各自的应用领域背景的不同,他们之间还存在相当多的不同点。 2 3 1 数据仓库所处环境的不同 ( 1 ) 数据来源的不同 工程试验数据仓库的数据来源于工程试验的设备仪器记录下来的数据:而商 业数据仓库的数据一般来源于m i s 系统或o l t p 系统所产生的操作型数据“1 。 ( 2 ) 数据的特点不同 工程试验数据模式复杂多变,具体表现在数据的类型多种多样,数据的模式 也不稳定。而商业数据的数据类型简单,仅需要几种基本的类型就足够了,同时 他们的模式同具体的业务相关,描述业务使用的字段是不变的。 2 3 2 数据仓库创建上的不同 ( 1 ) 数据管理技术的不同 l j1 雅试验数仓阼的投捌舒 j z 撑1 1 、境岍,0 商业数据仓库中的数据类型简单、模式稳定,所以一般都采用关系数抛库米 管理数据。而工程试验数据仓库中的工程试验数据类型复杂、模式不稳定,只能 通过有自描述能力的元对象来定义各种不同的试验数据,系统通过对元对象的管 理实现对各种不同的试验数据的管理。 ( 2 ) 数据加载方式的不同 商业数据仓库的数据源的数据模式稳定,因而数据源和仓库模式的映射关系 是固定的,因此数据抽取工具可以根据不同的数据源进行定制,实现简单。而工 程试验数据源的数据的模式复杂,不稳定,存储方式也各异,工程试验数据仓库 系统事先无法为复杂多变的数据源提供统一的数据加载构件,只能提供了一个数 据加载的框架。用户可以根据不同的数据源自定义不同的数据访问程序和数据转 换规则,然后在数据加载框架系统的辅助下实现特定的数据加载任务。 ( 3 ) 数据的粒度不同 数据的粒度包括两类:管理的粒度和存储的粒度。在商业数据仓库中,对数 据的管理细化到每一个元组,而在工程试验数据仓库中,数据的管理是一般以某 个试验主题在一次试验中记录的数据( 在本文中我们将其称为一个试验数据体) 为单位的,这是因为工程试验中的单个值,一旦离开了试验数据体这个整体就失 去了分析的价值。例如:在试飞试验中,某个动作段的飞行状态信息作为一个整 体被管理,是一个试验数据体。在商业数据仓库中,历史数据存储的详细程度是 不一样的。例如:一个月前的商品交易数据被概括成周概要数据( s u m m a r yd a t a ) , 两年前的数据只要存储为月度概要数据即可。这不仅可以提高数据仓库的响应速 度,还符合商业规律,因为数据离交易时刻越远,交易的细节信息对当前的商业 趋势分析就越没有价值啪。而在工程试验数据仓库中,数据的存储粒度都是一致 的,因为试验进行的早晚和试验数据的价值没有必然的联系。 2 3 3 数据仓库使用上的不同 ( 1 ) 目的的不同 工程试验数据仓库的创建的目的是为了改善工程试验数据的管理,以及提供 工程试验数据的分析支持环境,方便人们进行试验数据的分析,从而辅助人们从 试验数据中发现规律和指导人们进行进一步的工程试验。而商业数据仓库的创建 目的是为了在现有的数据中进行趋势分析,为下一步的决策提供支持。 ( 2 ) 使用对象的不同 工程试验数据仓库的主要使用者为专业领域的工程技术人员,可以独立编程 完成试验数据的分析和处理。而商业数据仓库的使用者一般为企业的决策人员。 ( 3 ) 数据访问方式的不同 商业数据仓库由于受到关系模型的限制,仅有数据的相联查询能力,不能实 现数掘的导航。而工程试验数据仓库既需要导航功能,也需要相联查询能力。 “j j i 航空肮人人一顺卜 f 节i 仑文 ( 4 ) 数据的分析方式不同 工程试验数撕:仓库中,由于数据模式简单,分析的方法比较固定,主要有几 种基本的操作”1 :叨片、切块、上卷、下钻等。而对于工程试验数据,由于他们 有较强的领域特征,数据分析的方法各不相同,因此对不同的数据对织,必须调 用不同的分析构件。工程试验数据仓库提供了一个支持分析的框架,用户只需加 载自己的分析构件,就可以完成对数据的分析。 2 4 相关的主要技术 工程试验数据仓库系统的实现依赖于众多技术的支持。在这一章,我们只介 绍在系统的多个地方都被使用的技术:x m l 和构件技术。其余的技术将在被使用 的相应章节介绍。 2 4 1 可扩展标记语言) ( m l x m l ( e x t e n s i h l em a r k u dl a n g u a g e ) 州是由w 3 c 组织于1 9 9 8 年2 月发布的 一种标准,是一套定义语义标记的规则,这些标记将文档分成许多部件并对这些 部件加以标识。它是一种元标记语言,能够定义用于定义其他与特定领域有关的、 语义的、结构化的标记语言的句法语言。 一般来说,一篇x m l 文档包括三个要素:数据、结构以及显示方式“”。对于 h t 肌来说,显示方式内嵌在数据中,这样在创建文本时,要时时考虑输出格式, 如果因为需求不同而需要对同样的内容进行不同风格的显示时,要从头创建一个 全新的文档,重复工作量很大。此外h t m l 缺乏对数据结构的描述,对于应用程 序理解文档内容、抽取语义信息都有诸多不便“”。 x m l 把文档的三要素独立开来,分别处理。首先把显示格式从数据内容中独 立出来,保存在样式单文件( s t y l es h e e t ) 中,这样如果需要改变文档的显示 方式,只要修改样式单文件就行了。x m l 的自我描述性质能够很好地表现许多复 杂的数据关系,使得基于捌l 的应用程序可以在x m l 文件中准确高效地搜索相关 的数据内容,忽略其他不相关部分“”。 可扩展标记语言x m l 有如下的特点“: ( 1 ) x m l 是元标记语言 x m l 并不能简单认为是h t m l 的扩展,它是标准通用标记语言( s t a n d a r d g e n e r a l i z e dm a r k u pl a n g u a g e ,s g m l ) 的一个子集,而h t m l 是s g m l 的一个实 例。元标记语言意味着用户可以根据需要灵活定义自己的标记如用户要实现学 生信息管理,描述学生的个人信息如姓名、性别、年龄、班级、学习成绩等等。 新创建的每一项标记可在文档类型定义( d o c u m e n tt y p ed e f i n i t i o n ,d t d ) 中 加以描述。 ( 2 ) x m l 描述的是结构和语义,而非格式 i s 卜1 睢诚蠊放h c 仓j
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中东秘密协议书
- 动物委托协议书
- 无条件股权转让协议书
- 摄影技术创新应用创新创业项目商业计划书
- 收藏品数字化展示技术创新创业项目商业计划书
- 射频子宫肌瘤消融仪创新创业项目商业计划书
- (2025年)保密知识竞赛参考试题库(答案)
- 2024年德钦县综治中心网格化服务管理招聘真题
- 人教版(2024)七年级上册英语全册课时教案
- 部编人教版六年级上册语文第9课《竹节人》教案
- 动力电池产业链全景图:动力电池强势依旧电池材料大有可为
- LNG气化站工艺迁移及安装工程施工组织设计
- 中国心力衰竭诊断和治疗指南2024解读(完整版)
- 智能硬件产品设计与开发流程
- 水循环(精彩动画演示有解说)
- 情人节恋爱攻略-单身青年的完美恋爱指南
- 山东省第五届财会知识大赛试题及答案
- 8.第八章 解读爱情密码-大学生恋爱心理培养
- 油库设计与管理智慧树知到答案2024年中国石油大学(华东)
- 榆神矿区郭家滩煤矿(700 万吨-年)项目环评
- 体育舞蹈之拉丁舞智慧树知到期末考试答案章节答案2024年浙江大学
评论
0/150
提交评论