




已阅读5页,还剩53页未读, 继续免费阅读
(计算机软件与理论专业论文)气象数据仓库设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
翼! 堕一一 一皇叁塾堡垒堕墼盐兰壅堡 兰丝查兰璺圭兰竺丝奎 摘要 本文是一个数据仓库工程项目,文中集中讨论了一个气象数据仓库的设 计和实现过程。本文的数据仓库设计和实现都基于o r a c l el o g 的数据库服务 器和o w b ( 0 r a c l ew a r e h o u s eb u i l d e r ) 。文中首先讨论了气象雷达扫描数据 和地面自动站测量数据的数据结构。然后给出了气象数据仓库的设计和实现 过程项目的主要工作集中在数据的抽取、转换、加载的过程( e t l ) 上 在数据清洗阶段采用了空问插值的方法,并给出了距离权重反比法进行空问 插值的一个改进方法,使这种方法可以处理具有空间特征的空间数据,实践 证明该方法对雷达数据的处理具有较好的适应性和精确度。在雷达数据的异 常数据检测中给出了一种基于规则引擎的方法,改进了已有方法的每次处理 二条记录而不能处理位置相关性很强的空间数据的缺点。在数据转换阶段采 用p l s q l 存储过程和j a v a 语言结合编程的方式,立足于工程的需要,着重处 理数据的时空一致性,完成了数据的转换和加载。最后,对建成的数据仓库 进行了存储优化和查询优化,使新建成的数据仓库成为一个实用、高效的系 统为项目后续进行数据的o l a p 分析和数据挖掘提供了一个基础数据平台。 关键字:气象数据仓库e t l 空间插值规则引擎o l a p 数据挖掘 麓辨幺亭 气象数据仓库设计与实现兰州大学硬二l 学位论文 a b s t r a c t h lt h i st h e s i s , o u rr e s e a r c hb a s e do nt h ec o n s t r u c t i o no fd a t aw a r e h o u s e w c d t u m s s e dt h ew h o l ep r o c e s so fd e s i g na n di m p l e t e m e n to fam e t e o r o l o g i cd a t a w a r e h o u s e i no u tp a p e r ,t h ed e s i g na n di m p l e t e m e n to fd a t aw a r e h o u s eb a s e do n d a t a b a s es c l c ra n do w b f 0 r a c l ew a r e h o u s eb u i l d e r ) o fo r a c l el o b a rf i r s t , w e d i s c u s s e dt h es t r u c t u r eo fr a d a rs e a n 啦d a t aa n dw e a t h e rs t a t i o no b s e r v i n g d a t a t h e n , w e d i s c u s s e dt h ed e s i g na n di m p l e t e m e n t p r o c e s s o fm e t e o r o l o g i c d a t a w a r e h o u s e t h ea i mo ft h ep r o j e c ti st om i n et h ep o t e n t i a lr u l e sb e t w e e nr a d a r s c a n i n gd a t aa n dw e a t h e ro b s e r v i n gd a t aa n dp r o v i d eam o d u l et oa p p l yi nw e a t h e r f o r c a s t o u rm o s tj o bl i e si nd a t ae x t r a c t i o na n dt r a n s f o r ma n dl o a d ,a l s oc a l l e de i t , i n t h e p r o c e s so fd a t ac l e a n i n g , as p a t i a li n t e r p o l a t i o nm e t h o di su s e dt op r o c e s sd i r t y d a t a w ed i s c u s st h i sm e t h o di nd e t a i la n di m p r o v e dt h i sm e t h o dt oa d a p tt os p a t i a l d a t aw h i c hi ss t r o n gc o r r e h t i v et ot h ep o s i t i o no f s p a t i a ld a t ao b j e c t w eh a v ep r o v e d t h a tt h er e f o r m a t i v em e t h o d 啪b r i n gg o o dp e r f o r m a n c e i nt h ep r o c e s so fd e t e c t i n g o fa b n o r m a ld a t a , w ed i s c u s s e dam e t h o db a s e do t lr u l ee n g i n e w ei m p r o v e dt h ea b i l i t y o fo l dm e t h o dt o p r o c e s sm u t l i _ m w ,p o s i t o n _ c o r r e l a t i v ed a t a a n do v e r c o m et h e d e f i c i e n c yo fo l dm e t h o d i nt h ed a t at r a n s f o r mp r o c e s s , w eu s e dp l s q lp r o c e d u r ea n d c 聋p r o g r a mt ot r a n s f o r md a t af o r m a ta n dl o a dd a t ai n t oo u rn e w l ye s t a b l i s h e dd a t a w a r e h o u s e i nt h el a s t , w eo p t i m i z e do u rn e w l ye s t a b f i s h e dd a t aw a r e h o u s et i 廿o u g h t w ow a y :s t o r g ea n dq u e r y , a n dp u tf o r w a r ds o m em e a s u r e st o i m p r o v e t h e e f f i c i e n c y i n8 a m l n a r i 船, w eh a w s e tu pad a t ap l a t f o r mf o rt h en e x ts t e po fo u rp r o j e c t t op e r f o r md a t am i n i n ga n do l a p a n a l y s i s k e yw o l d s :m e t e o r o l o g i cd a t a w a r e h o u s e ,s p a t i a li n t e r p o l a t i o n , 阻r u l ee n g i n e , 0 l a ed a t am i n i n g - m - 原创性声明 本人郑重声明:本人所呈交的学位论文,是在导师的指导下独立 进行研究所取得的成果。学位论文中凡引用他人已经发表或未发 表的成果、数据、观点等,均已明确注明出处。除文中已经注明 引用的内容外,不包含任何其他个人或集体已经发表或撰写过的科研 成果。对本文的研究成果做出重要贡献的个人和集体,均已在文中以 明确方式标明。 本声明的法律责任由本人承担。 r 论文作者签名名辛丝 日期: 关于学位论文使用授权的声明 本人在导师指导下所完成的论文及相关的职务作品,知识产权归 属兰州大学。本人完全了解兰州大学有关保存、使用学位论文的规定, 同意学校保存或向国家有关部门或机构送交论文的纸质版和电子版, 允许论文被查阅和借阅;本人授权兰州大学可以将本学位论文的全部 或部分内容编入有关数据库进行检索,可以采用任何复制手段保存和 汇编本学位论文。本人离校后发表、使用学位论文或与该论文直接相 关的学术论文或成果时,第一署名单位仍然为兰卅f 大学。 保密论文在解密后应遵守此规定。 一:杠翩躲p 一 堕料幺害气象数据仓库设计与实现 兰州大学硕士学位论文 1 项目背景 第一章源数据分析 本项目为兰州大学信息科学与工程学院与甘肃省气象局联合共建数据实验 室开放式创新基金项目,项目主要针对气象数据的海量性、复杂性的特点,在对 气象数据仔细分析的基础上,建立空间数据库、气象数据仓库作为数据存储的基 础平台,分析、挖掘隐藏在大量气象数据中的规则,为气象预报提供服务。 本论文是该项目的一部分,着重研究数据仓库的设计和建设。数据仓库数据 来源有两个,一个是地面自动站测量的气象资料,包括常见的气象要素,数据的 提供方式是广泛用于气象领域的a 文件,另一个数据来源是先期建成的气象雷 达空间数据库 2 源数据结构分析 2 1 地面自动站数据资料- a 文件 2 1 1 文件格式 “地面气象观测数据文件”( 简称a 文件) 为文本文件,文件名由1 7 位字 母、数字、符号组成,其结构为“a i i i f i - y y y y m m t x t ” 其中“a ”为文件类别标识符( 保留字) ;“l l i i i ”为区站号;“y y w ”为 资料年份;“m m ”为资料月份,位数不足,高位补“0 ”;“1 “为文件扩 展名。 本项目中用到的文件基本结构如下所示: j 莺埘幺乎 气象数据仓库设计与实现兰州大学硕士学位迨塞 z x l ( 2 4 组i x z z c l b - 一= c r y - c 避翠面气压 q 1 x c r : x z x 一2 8 j 赶,一x x x c p 【, - c p q z x 一- c bf 湿球温度 x z ( z 4 组一x x x 一= c 立蠢点温度i o r x - x x x c z 4 组,一x x x 一- o t t c k : x z z + 2 6 组 一t x z c p 一- c 舡。 一 ,1 删m c p “z 一( 2 4 组 一x x x 一- c b 急丢墓 “ 。 x x z ( 2 4 组,x z x c p l 。l c 如低云量 o i 群c 曩i x ,1 2 4 伏一x l l c 玲一# c 且 q c x - x z z 一z 4 氓一z x x c p # c p 一 一v o t i x c 舡x x z ( 2 4 组,一x x z c p p _ = c r + ”女 “ 。27 o 曩取c 舡x x xxxxx x x c p 。- c 肛定时埠水量i z x t z 缀一i t x c b c 如1 小时埠水量 。, 。 。 + x x llxxx x x - c p 茸水上下连搬值 0 取c p z x z c 如一c b o i 潞c 骼z x i c 秘= c 如,卜基蕉笈量 。 ;o ? ”叫5 。 z l z 。2 4 组,一x z x c r 一- c r ( 1 6 0 1 b j 奠 t 。4 、 o = x c r z lz z x c p 一# c po - 毫一- 47 j 一 t 二:;。 d 仍( c 叠 x t tizxxxxlxittxl l it x xizii ,i 曩 - c p。, , , ( i r x c z h x x z 。( z 4 组,一x x x c pc 2 分钟贝i 。 r , ,x _ 。( 2 4 组i t x x c p - ,t c 如( 1 0 分钟风, 。”一t :f 、 矿 zxllxxz x x x z c 曩 i c 和“最大稿l 大风。 t? x c p x x x 。( z 8 坦,一z z x 。“c 叠c o c t )_ ;口j,磊t 声 j h “一 x x l 。( z 4 组,一z x l c 舡一- c r c 5 矗 。 z x l 。2 4 组一x z ,t c i 一# c 叠t 工o 口i t l l l 一z 4 组,一x z z c i i 。,c p 工5 c , x x l 。( 2 4 组一x x c 一- c r i z o o m ) x x x 1 2 譬 ,一z x i c p 一- c r e 0 c - o i q x c i 玲x z x ,c 2 4 组i x x x c p ,c 象 0 8 i i z z z 一( z 4 a ,一x x x c p 一- c 舡i 工6 l i i z ( z 4 ;巨一x x i t c p 一- c 叠 0 粗i o a x c l t :, x x xtxxxlxx l l c 奠一i c a 、 0 9 x c 曩z i l 。( z 4 组i n x 。- c 叠 、 凇c 鱼 x x x ( 2 8 组i x x z c 肛一 1 1 0 0 0 o m m ,取整数( 小数四舍五入) ,四位数中第一位用一 特定符号表示,即。:”表示1 0 0 0 4 - ,“:”表示2 0 0 0 + ,后3 位为降水量。如某 日降水量1 6 7 2 4 ,录入“;6 7 2 ” ( 5 ) 自记降水连续缺测一个以上时段,缺测时段的降水量为累计量时,在缺 测的起始时段录入“ r 一”,中间时段录入“”,终止时段录入累计降水量。 例如,缺测时段从0 2 0 3 到0 5 0 6 ,气表1 上记录为“一6 1 ”,录入后为 。a 一0 0 6 1 ” ( 6 ) 降水上下连接值每月3 组。第一组由4 位数组成,录入当月最后一天2 0 时至下月1 日吣时降水量。无降水量录入“0 0 0 0 ”,缺测录入相应位数的斜杠 “尸;第二组由1 0 位数字、符号组成,录入上月末段连续降水( 或无降水) 开 始日期、月份和年份,日期、月份为2 位,年份为4 位,位数不足,高位补“o ”, 中间间隔符为。尸,连续降水( 或无降水) 开始日期可上跨月、跨年挑取;第 三组由5 位数组成,录入上月末段连续降水量,若无连续降水量须录入 “0 0 0 0 0 ”每组录满规定位数,位数不足,高位补“0 ” 蠲研幺害 气象数据仓库设计与实现兰州大学硕士学位论文 2 1 4 地面自动站数据资料入库 本阶段的工作主要是为后续建立数据仓库准备数据。考虑到2 2 1 节的源数 据的格式,编写程序实现从a 文件中读取所需数据并存入o r a c l e 数据库中。 建成数据库的纪录格式为: 塞善茎燃i 髫i 嚣l 承汽压愿障陬激 编号1 名称i 度i 度l 时问i 水量l 温度l l 气压l “l 一一“ 本步骤建成的数据库表的时间粒度为次,j 、时。 2 2 雷达扫描数据资料 2 2 1 雷达扫描效据格式 雷达扫描数据每六份钟一次,本数据仓库从先期建立的空间数据库中抽取数 本步骤得到的数据粒度为次6 分钟。 2 2 2 雷达扫描数据分析处理 雷达回波强度是度量降雨很重要的指标,但由于二者之间的关系至今尚无确 切公式。本项目对雷达数据的处理具体处理步骤如下, 1 、由于雷达扫描点的经度、纬度并不能恰好和地面气象站的经度、纬度 重合。所以空间数据库的建立过程中选取雷达扫描点时采用了近视处 理,当雷达站的经度、纬度和地面自动站的经度、纬度相差分别在0 0 1 和0 0 1 时,该经度、纬度组成点上所有仰角的数据都保存了下来。所 以,对应一个地面自动站,某一时刻所有扫描得到的雷达回波强度的 值有1 4 n ,其中n 为正整数典型的n = 7 0 。 具体见下图( 一个柱体内虚线和仰角形成的曲面的交点即为这1 4 n 个数据) : 蔫_ r 幺争 气象数据仓库设计与实现兰州大学硕士学位论文 动坫 x 辛i q 圈l 雷达扫描数据示意醒 对一个仰角形成的曲面和柱体内虚线形成的n 个交点我们采取取平均 值的处理方法,得到一个雷达回波强度值,这个值就表征了某一个地 面自动站所在位置处某一仰角下雷达回波强度值。 每一个仰角都如同步骤2 进行处理,那末对应一次6 分钟的雷达扫描, 某个自动站所在位置就对应着1 4 个雷达回波数据。 处理的结果作为一个中间结果留待以后步骤继续处理。 2 2 3 雷达扫描数据和地面站数据的时间同步 从2 1 和2 2 节的描述中我们可以看出,地面自动气象站的观测资料的观测 频度是次小时,而雷达扫描数据侧扫描频度是次,6 分钟,二者之间在时间上并 不同步,所以我们的处理方案中应该包括时间同步的问题。 本项目雷达数据和地面自动气象站数据的同步采用了如下策略: 在2 2 4 步处理的结果的基础上,对雷达数据进行时间粒度上的聚合,使之也具 有l 小时的对闽粒度。具体豹处理过程参见数据仓库的物理实现一节。 2 2 3 雷达回波强度值得换算 根据甘肃省气象局预报人员使用雷达资料进行天气预报的经验,我们这 里不是直接使用雷达回波来作为度量,而是要经过系列的换算,将雷达回 波强度值换算成一个更具有物理意义的量,然后再存入数据仓库。具体换算 过程如下: :啕翻f 幺乎 气象数据仓库设计与实现兰州大学硕士学位论文 假设用d b z 表示雷达回波强度,那么我们需要定义一个中间量z , d b z = i o l o g ( z ) 据此公式可以计算出z 的值,再根据z 的值我们定义另外一个量v i l ,它代表每 平方米的高空水汽含量,v i l 的具体计算公式如下: h - - 1 一 陋;3 4 4 x h ( z i + z i + 1 ) 2 】7a h _ , 其中,z i 代表上一公式计算得到的某一个空间点上的z 值, n 代表仰角的个数。 曲代表某一个经、纬度上相邻两个仰角上的高度差。 第二章气象数据仓库逻辑设计 1 为什么需要气象数据仓库 _ 气象数据来自异构数据源,具有极不相同的数据结构 地面自动站数据和空f 司雷达数据在时间上粒度不一致 蔺靠r 矢害 气象数据仓库设计与实现兰州大学硕士学位论文 - 气象雷达数据覆盖了一个比较大的范围,而雷达数据处于这个范围之中 以上三个方面的原因决定了仅有空间数据库和平面文件格式的数据并不 能很好地对数据进行分析处理,我们需要将这些数据源中的数据进行规范化 处理,彻底解决以上三方面的问题带来的影响。这也是我们建立空间数据库 的原因所在。 2 逆规范化理论 2 1 问题的提出 当我们设计一个o l t p 系统时,我们要回答的是这样一些问题: _ 多快才能在数据库中插入、删除、更新一条记录? 但当我们设计一个数据仓库系统时,情况出现了很大的不同,我们面临的最大 问题就变成了: 一我如何在一个在一个用户可以接受的时间内执行一个需要一千万条记录的 查询? _ 我如何分发查询获得的结果? - 我如何保证明天可能执行的查询也会有一个比较快的查询速度? 而我 萄贲r 幺窖!气象数据仓库设计与实现 兰州大学颈士学位论文 现在并不知道这些查询是什么? 建立一个o l t p 系统通常采用e - r 模型来建模,因为e - r 模型基于e f c o d d 提出的关系模型。它遵循规范化设计理论,极大地减少了数据冗余,提高了o l t p 系统的响应速度。在这样的系统中,事务的概念显得格外重要,在一个事务中, 我们可能需要对一些表进行连接查询,获得表中的一些记录。但当我们要获得几 百万条记录时,这种表的连接查询就显得力不从心了,这也就是我们在数据仓库 设计中要考虑的问题:我们能否把多个表中的数据汇集到一个表中,这样就避免 了表的连接。这就是说,我们需要一种不同于关系型数据库设计的理论来指导我 们的设计这就使逆规范化理论。 2 2 逆规范化理论的主要内容 逆规范化理论的核心是根据我们期望得到的数据结构设计我们的表结构。这 就表明我们的设计过程不是按照一定的设计理论来进行的,如范式的约束等。我 们的设计工作和我们要进行的工作密切相关,我们有不同的设计主题,就意味着 我们的设计工程可能是不同的 一般来说,我们可以把一个数据仓库系统看成及相互独立又相互影响的两个部 分: 一数据加载系统 最终用户访问系统 第一个部分是我们的c t l 过程中使用的,我们使用它来从异构数据源中加载 数据,并进行完整的e y l 过程。而最终用户访问系统使我们的设计目标,我们 要使之更加接近我们的设计目标,实现我们的设计意图。但为了更加贴近我们的 设计意图或者说是用户对我们系统具体需求,在我们进行逆规范化设计的时候, 事实上我们在作如下两件事: 预测用户将会发出的请求 一预处理这个查询,当用户提出查询时,系统不必临时去处理这个查询 以上两条只是形象描述了我们的数据仓库设计工作,并没有给出形式化的描 述。但这两条原则的重要性确实是毋庸置疑的,因为我们在设计过程中权衡的所 有的事情都是围绕着这两点来做的。关于逆规范化理论的更多描述,可参照文献 :犍_ i ,幺拿 气象数据仓库设计与_ 实现兰州大学硕士学位论文 【2 】。 3 星型模式设计 3 1 设计主题 3 1 1 概述 本项目通过建立空间数据库和数据仓库,建立气象资料中地面自动站测量量 温度、水气压、本站气压、云量、干球温度、露点温度和雷达扫描数据雷达回波 强度、速度谱宽、径向速度之间( 可以任意组合) 建立定量度量关系。 在2 2 节的描述中我们可以假定我们的两个主要数据源;雷达扫描数据和地面自 动气象站观测数据都是规整的、经过处理的,而且具有我们接下来的设计所需要 的方式,究竟如何具体做到这一点,将在项目解决方案物理实现一节描述。 3 1 2 设计原则 气象数据仓库应该是为数据分析而设计的。 终端用户不用了解数据仓库内部细节,他们向仓库提出问题,通过训练数据 测试并验证规则,对将来做出推断。气象数据仓库是集成的异构数据源的集合, 而非单个数据库。气象数据仓库的数据源有两个,一个是雷达扫描数据,另一个 是地面自动站观测数据。它们属于不同的数据源,我们应该将它们构造为单个信 息源。气象数据仓库应以气象历史数据为数据源。气象预报的基础数据应该是历 史数据,而不是日常操作数据。而且我们要把来自不同数据源历史数据转化成一 个统一的信息集,这个信息集的结构应该满足我们进行数据分析、挖掘的需要。 3 1 3 对后续工作的考虑 因为数据仓库的设计是直接和分析应用的目标相关的。本项目中我们设计气 象数据仓库的目的就是我们设计主题一节中所阐述的。我们需要对我们存档到数 据仓库中的数据进行一系列的处理,使之可以用于我们的项目后续的数据挖掘工 作。主要考虑以下一些问题: 两奔r 虫害 气象数据仓库设计与实现 兰州大学硕士学位论文 本项目是一个持续研究的长期性研究项目,项目的的整体规划决定了我们的 许多设计工作要遵循一定的设计要求项目总体设计思想如下图所示: 从上图可以看出,我们项目的最终目标是在这个数据仓库的基础上应用分类 预测类的数据挖掘算法。具体的数据挖掘过程描述如下: 我们首先把我们的历史数据进行分类,分类得到的数据作为我们的训练数 据,使用这些训练数据应用决策树算法寻求蕴含在数据中的分类规则,再将这些 规则用到我们对事实上的雷达数据对地面降水的预测过程中,这就为雷达数据在 气象预报领域的应用提供了一种解决思路。所以,我们所有的气象数据仓库设计 工作都要围绕这一设计思路展开,任何偏离设计主题的设计方法都要在设计过程 中得到修正。 3 2 气象数据仓库的体系结构 下图给出了我们拟设计的气象数据仓库的体系结构: 萄_ 坤幺霉 气象致据仓库设计与实现兰州大学硕士学位论文 从图中可以看出,我们数据源主要有两个部分,分别是雷达数据和地面自动 站测量数据。而设计过程中的临时数据存储和元数据存储都放在设计时资料档案 库中,然后我们通过数据的装载过程把规整、标准化的数据加载到我们的气象数 据仓库中。对数据仓库中的数据存放形式,我们将在接下来几节中给出详细的说 明。在我们建立起了气象数据仓库之后,我们可以在其上进行一系列的应用处理, 如数据分析、数据挖掘、报表制作等。 3 2 1 事实表设计 3 2 1 1 概述 事实表含有事实信息,通常是数据仓库中最大的表,而且也是增长晟快的表。 事实表含有所有你希望存贮在数据仓库中的所有细节信息。这就导致事实表体积 庞大、增长迅速。事实表中的数据通常是一个值或者一个计算得到的值,事实表 中的数据并不需要很细的粒度,也可以是汇总数据,数据的粒度是数据仓库设计 者首要解决的问题。当设计一个数据仓库时,你可能需要建立不同类型的事实表, 事务级的、事务项级的或者事件级的。 在事实表的设计过程中,我们需要澄清这样一个问题: 事实表的结构是否是逆规范化的? 但准确的回答是事实表是一个高度规范化的结构。每条记录有多个属性( 度 量) ,所有属性都取决于事实表的主键,而且有一系列的外键和各个维表关联。 而且,我们可以证明我们的气象数据仓库的事实表符合3 n f ,是一个规范的数据 库表。 :啕钟幺亨气象数据仓库设计与实现兰州大学顾士学位论文 3 2 1 2 具体设计 首先列出事实表的字段和各字段的说明: 字段名说磅 i d 事实表的主键 s t a t i o ni d 指向台站维的外键 l o n g t t u d e j d指向经度维的外键 l a t t t u d e _ t d 指向纬度纬的外键 t 城l _ i d指向时问纬的外键 7 土1 v i l 值 r d 径向速度 v t 速度谱宽 p r e c i p i t a t i o n 定时降雨量 a l o u d m o u n t 云量 d r yt e m p千球温度 d e - - t e a p露点温度 v a p o u r 埘s s 水汽压 s t a t i o n _ p r e s s本站气压 v a rp t e s s 1 小时变压 设计完成后的事实表如下图所示: 3 2 2 i 概述 当使用维模型进行设计时,可能只有一个或数量很少的事实表,但是可能有 很多的维表。维表可以看成事实表的参照表,主要存放一些静态信息。例如,产 熏舟r 虫害 气象数据仓库设计与实现兰州大学硕士学位论文 品可能设计为一个维,含有产品名称、供应商、包装大小。而在事实表表中,就 有一个产品的主键( p r o d u c t _ k e y ) ,这个主键用来从产品维表中提取产品的相关 信息。当你不确定数据应该是事实表还是维表时可以这样考虑:数据是否相对静 态的? 这些数据是否描述了什么事情。通常来说,维表不常变动,而事实表有细 节数据,二者在数据行数上有很大不同,维表含有更多的描述性信息,丽事实表。 当不能确定数据应该建成事实表还是维表时,我们遵循以下的原则: 这些数据是否相对静态的? 数据是否是描述性的? 对着两个问题的回答帮助我们决定了我们的设计结果。通常来说,维表不常 变化,而事实表的变化是很明显的而且事实表和维表中记录的个数有很大的不 同,事实表的纪录庞大,丽维表相对来说较小同时,维表中经常包含些描述 性的文字,而事实表中有很多是数字度量。 在上一节中我们指出事实表一般是规范化的,而且我们的设计中事实表符合 3 n f 。但维表到底有些什么特性昵? 通过我们的设计过程,我们得到以下一些结 论:一 维表是逆规范化的:我们在上一节曾经提出,事实表符合3 n f 。在维表中, 每个维元素的所有信息在维表中占一行。这就相当于你把所有按规范化设计的表 连接起来形成一个单个的逆规范化的表,事实上,维表的这种逆规范化设计能够 提高查询的恶效率,因为当用户执行查询时,我们实现已经把需要的表连接了起 来。从本质上来说,我们是牺牲加载时阃来提高查询时间,而我们的加载时间往 往在一个空闲的时间,如晚上 。 宽度很大:维表比传统的数据库应用程序中的表都要宽,这个上述的逆规范 化理论有很大的关系 长度短:事实上,星形模式是一个更加有效的平面文件的变体。短的维表是 相当重要的,o r a c l e 可以很容易地把短的表连接成一个巨大的表,特别是当当 两个短表之间的关系建立在一个简单的外键基础上时。因此,尽管星形模式确实 需要连接,但这种连接需要较少的资源。 使用代理键;在我们的站点维设计时,虽然有站点号,但它并不能唯一标示 一个站点,至少在将来的某种情况下这是有可能的。所以,我们要设计一个代理 兰生! 二! 兰二二塑壁幽兰壅墨 兰型查兰堕圭兰丝堡塞 键,通过在维表中加入代理键,我们能够获取历史纪录:不如说,如果你的站点 编号改变了,我们只需要在维表中加入新的纪录,其他的表都不需要改变,这样, 我们的历史数据也保留了下来。 具体设计 本项目中我们设计了5 个维表,具体设计结果如下: 台站维: 字段名称字段说明 s t a t i o nl d 台站维主键 s t a t i o nn a _ m 台站名称 s t a t i o np r o v i n c e 台站所在省份 s t a t i o n _ c i t y 台站所在城市 设计完成后如下图: 时间维: 字段名称字段说明 t i m e l - i d台站维主键 t i i 婚l ,e r 年 t i - _ m o n t h 月 t “e 】a a ,日 t i - e 】h o l 埠 时 设计完成后如下图: _ :啕州史害 气象数据仓库设计与实现兰州大学硕:i :学位论文 经度维: 字段名称字段说明 l o n g i t u d e _ i d经度维的主键 l o n g i t u d e _ l e v e l经度级别 ( 这里的经度级别字段主要是为了处理地面 自动气象蛄的经度和雷达站的经度不重合, 我们据此可以认为经度在某一个范围内就是 同一经度) l o n g i t u d ed e s o详细级别 设计完成后如下图: 纬度维: 字段名称字段说明 l a t i t u d e j d经度维的主键 l a t i t u d el e v e l 纬度级别 ( 这里的纬度级别字段主要是为了处理地面 自动气象站的纬度和雷达站的纬度不重合, 我们据此可以认为纬度在某一个范围内就是 同一纬度) l a t l t u d e _ d e s o 详细说明 1 8 - 萄州矢害 气象数据仓库设计与实现 兰州大学预士学位论文 设计完成后如下图: 一小时变压维: 字段名称字段说明 v a r l a t _ o r e s a i d 1 小时变压维的主键 v m :i a t _ p r e s sr a n g et 小时变压级别 ( 这里设计1 小时变压级别的思想就是将一 个连续的物理量离散化。并变成一个一个不 相重合的区间) v m :i a t _ _ o r e s sr a n g e _ d e s o 详细说明了各个级别的具体范围 设计完成后如下图: 云量维: 字段名称字段说明 c l o u da m o t m t j d 云量维的主键 c l o u da m o u n t _ r a n g e 云量维级别 ( 这里设计云量维级别的思想就是将一个连 续的物理量离散化,并变成一个一个不相重 合的区问) c l o u 4 _ m s o u n tr a n g e _ d e s o 详细说明了各个级另| 1 的具体范围 设计完成后如下图: 1 9 堕奔,幺害气象数据仓库设计与实现兰州大学颅士学位论文 水汽压维: 字段名称字段说明 v a p o u rp r e s s i d 水汽压维的主键 v a p o u rp r e s s _ r a n g e水汽压维级别 ( 这里设计水汽压维级别的思想就是将一个 连续的物理量离散化,并变成一个一个不相 重合的区间) v a p o u r _ p r e s s _ r a n g e _ d e s o 详细说明了各个级别的具体范围 设计完成后如下图: 定时降雨量维 字段名称字段说明 p r e o i p a t l o n _ i d定时降雨量维的主键 p r e o l p a t l o n _ r a n g e定时降雨量维级别 ( 这里设计定时降雨量维级别的思想就是将 一个连续的物理量离散化,并变成一个一个 不相重合的区间) p r e o i p a t t o n _ a n g e _ d e s o 详细说明了各个级剐的具体范围 设计完成后如下图: 露点温度维: - 2 0 两- 玎幺害 气象数据仓库设计与实现兰州大学硕士学位论文 字段名称 字段说明 d e w _ t e m p _ i d 露点温度维的主键 d e w t e m p _ = a n g e露点温度维级别 ( 这里设计露点温度维级别的思想筑是将一 个连续的物理量离散化,并变成一个一个不 相重合的区间) d e wt :e m p r a n g e _ d e s o详细说明了各个级别的具体范围 设计完成后如下图; 干球温度维: 字段名称 字段说明 缸1x h 吨j a 干球温度维的主键 d _ - 7 _ t e m p _ c a n g o 干球温度维级别 ( 这里设计干球温度维级别的思想就是将一 个连续的物理量离散化,并变成一个一个不 相重合的区问) d 疆t 唧r a n g ed e 8 0 详细说明了各个级别的具体范围 设计完成后
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护理核心制度解读及案例
- 代运营合同范本 鉴于
- 劳务派遣合同范本2003
- 托管装修服务合同范本
- 清酒代理合同范本
- 工程设施购买合同范本
- 德邦加盟合同范本
- 拆迁分户合同范本
- 主力摄影合同范本
- 广告制作合同范本2017
- 2024年度软件即服务(SaaS)平台租赁合同3篇
- 网络攻防原理与技术 第3版 教案 -第12讲 网络防火墙
- 2024年新课标培训2022年小学英语新课标学习培训课件
- 2024小学语文教学及说课课件:二年级上册《田家四季歌》
- 2024至2030年中国聚脲涂料行业市场发展调研及投资前景分析报告
- 1.1 鸦片战争 课件 2024-2025学年统编版八年级历史上册
- 2024至2030年中国演播室行业市场调查研究及发展战略规划报告
- DB11∕T 420-2019 电梯安装、改造、重大修理和维护保养自检规则
- 国旗台施工合同
- 总代理授权书
- 医疗器械售后服务能力证明资料模板
评论
0/150
提交评论