已阅读5页,还剩51页未读, 继续免费阅读
(计算机软件与理论专业论文)基于数据仓库和olap技术的电子交警管理系统的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
哈尔滨工程大学硕士学位论文 摘要 本文围绕着“基于数据仓库和o l a p 技术的电子交警管理系统的研究与 实现”这个课题,着重对实现数据仓库的各个步骤的进行了分析,同时对数 据仓库的建模、数据的提取一转换一加载,以及o l a p 的数据展示进行了深 入的研究。 本文首先回顾了数据仓库的国内外研究现状,分析了可能存在的问题, 阐述了数据仓库与o l a p 的含义,对比了数据仓库与传统数据库,以及数据 集市的区别与联系,并针对如今主流两种建模方式进行了详细的对比分析, 系统的阐述了它们的优缺点,以及本文所要采用方法的理由;针对本文的 o l a p 部分,研究了本文所涉及的理论基础在结合了以上的分析研究以及 本系统的实际需求,设计出了系统的基本框架。接着,就本文所涉及到的管 理系统作为研究模型,结合相关的理论基础给出了数据仓库建模的具体过程, 并有针对性的对物化视图的选取进行了分析将其算法加以改进,从而使系统 的响应速度得以提高当数据仓库构建完成后,数据如何合理利用有限的存 储空间以及如何展示对已有数据进行决策分析作为阐述的关键。本文利用数 据压缩算法使存储空间得以优化,并以友好的操作界面将分析结果展示给用 户。最后,对本文所做的工作进行总结,并给出了将来可能进一步研究的方 向 关键字:数据仓库;o l a p ;物化视图;数据立方体 哈尔滨工程大学硕士学位论文 a b s t r a c t t h i sp a p 廿i sa b o u th o wt od e s i g na n d ”a l i z ct h ee l c c t r o n i c 缸a f 6 cp o l i c e m a n a g e m e n ts y s t e mb a s e do nt h ed a t aw a r e h o u s e i ts t u d i e dh o wt or e a l i z et h e e a c hs t e pi nt h ed a t aw a r e h o u s er e a l i z a t i o n , a n dh o wt om o d e li nt h ed a t a w a r e h o u s e ,a n da b o u th o w t oe x t r a c t - t r a n s l a t e - l o a di nt h ed a t a w i t hn e x t , a b o u t t h eo l a pj sa l s or e s e a r c h e da n dd i s c u s s 础s p e c i f i c a l l yc o m p l e t e st h ew o r k 瑟 f o l l o w s f i r s t , r e v i e w e dt h ed o m e s t i ca n df o r e i g n “怂c a r c ho ft h ed a t aw a r e h o u s ea t p r e s e n ts i t u a t i o n , a n da n a l y z e dt h eq u e s t i o n sw h a tp o s s i b l ye x i s t s a f t e rt h a t , t h e m e a n i n go ft h ed a t aw a r e h o u s ew a se l a b o r a t e d , a n dc o n t r a s t e dd i f f e r e n c ea n d r e l a t i o no fi tw i t ht h et r a t i t i o n a ld a t a b a s ea n dd a t am a r t t h e nt h e p r e s e n tp o p u l a r t w o m o d e l s w a s o o n t r a s t a n a l y t 咀a a d d e t a i l e d e x p l a i n e d t h e i r v i m t e a n d v i c i o u s , a n d g i v e 雠砧黼- y 骥r i t e _ 酬缸t h i sp a t m 【h t h e v i e w o f t h e o l a p 芦l t r e s e a m h e da n d 柚们p 酣t h e 硝蜘k - 砒h 帅l 憾i nv i e wo ft h i sp a p m i dd e i g n e dt h es y s t e mf l a m e a b o u t 龙罨c 砌t a d 破- 矗dd 锄柚tw i t hi n v o l v i n gt h em a n a g e m e n tm o d e li nt h i s p i i p c r ,i tw a sg i v er e s e a r c hm o d e la b o u tt h ed a t aw a r e h o u s ea n dw h a ti tn e e d r a t i o n a l et h e o r y t h e ng i v et h ep r o c e s sa b o u th o wt oc o n c i e t cm o d e l i n g a n da l s o p o i n t e dh o w 幻a n a l y s mc o r r c a t i v ct h ev i e ws c l e :c t i o n t h e nm a k et h ea r i t h m e t i c i m p r o v e di no r d e r t of l l h a n o ct h ev e l o c i t yi nt h i s 蹄咖a f t c rt h ed a t aw a r e h o u s e w a sc o n s t r u c t e dc o m p l e t e s , a s 缸i m p o r t a n tp a r t , i n t r o d u c e dh o wt os a v ct h ed a t a i nt h el i m i t e ds p a c e , a n dh o wt oa n a l y s i st h em a g n a n i m o u sd a t a a n dt h e n , g i v ea f r i e n d l yi n t e r f a c ei no r d e rt of a c et h eo p e r a t o r s a tj 触l lt h ew o r ka b o u tt h i sp a p e f w a s 懿如叫n 扣 z e d 。a n dp o i n to a tt h es t u d i e dd i r e c t i o ni nt h ef e t u r c k e y w o r d s :d a t aw a r e h o a s e ;0 l a p ;m a t e r i a l i z e dv i e w ;d a t ac u b e 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的 指导下,由作者本人独立完成的。有关观点、方法、 数据和文献的引用已在文中指出,并与参考文献相对 应。除文中已注明引用的内容外,本论文不包含任何 其他个人或集体已经公开发表的作品成果。对本文的 研究做出重要贡献的个人和集体,均已在文中以明确 方式标明。本人完全意识到本声明的法律结果由本人 承担。 作者( 签字) :薹蠢 日+ 晶:村年j 月 哈尔滨工程大学硕士学位论文 1 1 课题背景 第1 章绪论 进入2 0 世纪9 0 年代,随着一门新兴的数据库技术数据仓库( d a t a w a r e h o u s e , d w ) 技术的兴起,形成了一种新的信息平台数据处理解决模式: 数据仓库+ 联机分析处理( o n - l i n ea n a l y s i sp r o c e s s i n g ,o l a p ) + 数据挖 掘( d a t a m i n i n g od m ) ,该方案成为新一代处理海量数据的潮流。 d w 和0 l ”是2 0 世纪9 0 年代初提出的概念,到2 0 世纪9 0 年代中期 已经形成潮流m 随着d w 的发展,0 l a p 也得到了迅猛的发展,前者侧重 于存储和管理数据,后者则是侧重于分析d w 中的数据,并将其转换为需要 辅助决策数据,这与d w 中的多维数据组织正好形成相互结合、相互补充的 关系 本课题源于l 瞳着城市交通极为迅速的发展,交通设施状况也得到不断改 善,许多发达国家普遗采用了智能交通系统,使交通运输的效率得到了根本 的提高,在这其中电子交警起到了主导作用m 在我国各地也开发了各种现代 化的交通事务管理、交通信息采集和交通信号控制等交通信息系统,信息化 程度不断提高,交通环境不断改善m 智能交通是当今世界交通管理的前沿阵 地,许多发达国家普遍采用了智能交通系统,使交通运输的效率得到了根本 的提高 1 1 1 问题的提出 随着国民经济的快速发展,人民生活水平的提高,城市的机动车辆越来 越多,交通违法现象也时有发生,这些违法行为轻则造成交通阻塞,重则危 害生命安全,所以加强对城市违法车辆的自动监测和管理势在必行。 1 哈尔滨工程大学硕士学位论文 为了适应交通管理部门对于交通违法管理系统的需求,并对原有的单一 的仅对闯红灯交通违法的管理不能对监测逆行、超速、压黄线、走禁行区等 多种违法行为的进行综合管理的实际情况,对原有的系统进行重新设计,从 而使其能够更好的协助管理者进行管理决策的制定 1 1 2 系统的需求分析 交通违法车辆管理系统是与电子交警智能交通管理系统捆绑在一起的, 对电子交警智能交通管理系统抓拍的图片进行后台管理的系统,在原闯红灯 抓拍系统的基础上,扩展了对于监测不按导向车道行驶、停车压线、超速等 各种违法行为的综合管理。本系统与交通综合信息库有接口,可提取车辆信 息综合库中的车辆信息,如车辆联系入、车型号等信息,并且可以把违法车 辆的处罚情况预留接口,以便其他系统读取数据其具体的管理系统模块结 构如图1 1 所示: 图1 1 电子交警管理系统模块结构 基于本系统需要有良好的管理分析功能,因此本系统采用的是能够很好 结合理论数据并可以加以详细分析的数据仓库和o a l p 技术,具体的理论分 析及系统展示将在下面的章节进行详细的阐述。 2 哈尔滨t 程大学硕士学位论文 1 2 数据仓库与o l a p 技术的研究现状 自9 0 年代初w h i n n l o n 给出数据仓库的定义,数据仓库技术就成为研究 的热点许多专家开始研究数据仓库及其关键技术很多大型企业利用已有 数据跟踪市场需求、预测企业发展趋势,也利用数据仓库的先进技术,研究 和实现数据仓库的方案 1 2 1 国外数据仓库与o l a p 技术的研究现状 在国外,世界著名的数据库专家和斯坦福大学的教师等发表了一份权威 性报告,讨论了数据仓库的问题,引起广泛的反响m 世界上的大公司都投入 了巨资和重要力量去研究和开发,并取得了一些相产品的关解决方案如 s y b a s e 、l u f o t m i x 、i b m 和o r a c l e 等公司都推出了自己的数据仓库产品和方 案m 斯坦福大学也正在进行一个名为“w h p s ”的科研项目,提出了一个 数据仓库模型和些的算法m m 和微软公司也正在研究多维数据库。威斯 康辛大学和a t & t 也在研究实视图、o l a f 数据组织等方面的问题。据调查, 财富5 0 0 强企业中已经有8 5 的企业建成或正在建立数据仓库。这就使得数 据仓库与i n t e r n e t 一样,正在成为最快的r r 增长点国际数据公司在1 9 9 6 年对2 0 世纪9 0 年代前期进行的6 2 个数据仓库项目的调查结果表明:进行数 据仓库项目开发的公司平均在2 - 3 年的时间内获得了平均为3 2 1 的投资回报 率m 1 2 2 国内数据仓库与o l a p 技术的研究现状 在国内,中国银行省、市两级金融管理信息系统示范系统,率先引进和 应用了数据仓库、联机分析处理、多维数据库等先进理论与技术,在统一的 基础系统网络上,建立起实用的数据仓库原型m 。上海庄臣有限公司受国外成 3 哈尔滨工程大学硕士学位论文 功案例的启发也建立了数据仓库系统。中国国际航空公司计划也建立了一个 完全实际运行的数据仓库系统,并在该数据仓库的基础上建立了面向最终用 户的决策支持的统计分析应用系统中国移动通信集团公司也已经开始了经 营决策分析系统的建设工作,进行了数据分析方面的应用和经营分析系统的 建设,这将极大地增强中国电信企业的市场竞争力m 虽然国内的数据仓库市 场经过了多年的发展,但是,比起国外大企业所建的巨型企业级数据仓库来 讲,还是只能算是刚起步,其中还存在着很多的不足之处,这些问题亟待将 来的研究人员进行更加深入的研究和探索 。 数据仓库和传统数据库系统有着本质的不同。必须采用不同的研究方法。 数据仓库的应用发展很快,而且已经取得了一些成绩。但由于数据仓库是一 个新兴的领域,其建设及技术具有很大的复杂性,仍有许多领域需要深入研 究 1 3 本文的研究内容和所做的工作 本文主要研究了基于数据仓库和o l a p 技术的电子交警管理系统,采用 了基于星型建模的方式对数据仓库进行设计目前,对数据仓库的设计主要 有两种方案:实体一关系建模和维度建模。它们都有各自的弊靖,例如:实 体一关系建模不能使得数据的检索具有直观和高性能,而维度建模所形成得 星型连接虽然在数据检索和性能上占有优势,但是它所牺牲的是所有其他的 群体利益的代价中对一个群体实现了最优 本文所作的工作分析了实体一关系建模和维度建模的优缺点,并在此基 础上建立起的数据仓库的结构可以得到较好的应用。本文的主要工作在于: 1 介绍了国内外发展的现状 2 分析了数据仓库以及o l a p 技术,并对其涉及的理论部分进行了深 入的探讨,对其进行了对比分析,并结合本系统进行了详细的论述, 哈尔滨工程大学硕士学位论文 而后概要的给出了相应的系统模型 3 深入的分析了本系统所涉及到的理论概念以及在此基础上给出的具 体建模过程,并在已有的物化视图选择的典型算法进行了改进,从而 提高系统的相应速度,最后对抽取一转换一加载的功能加以实现 4 对于数据的展示部分,应用了o l a p 技术,给出了数据立方体的建 模过程,并针对数据立方体对系统空间浪费严重的问题,结合了数据 压缩算法,使系统空间得以充分的利用,而后展示了o l a p 的基本操 作,它可以更好的应答操作者的具体要求,并且有很好的操作性 最后对本系统的进行了展望,以及将来的发展方向 1 4 论文的结构安排 本文的组织如下: 第1 章阐述了课题的背景、相关的意义和数据仓库的研究现状,归纳出 基于数据仓库和o i a p 技术的电子交警管理系统的设计与实现中存在的问题 和本文所要傲的工作 , 第2 章首先介绍了当前世界上比较公认的两种数据仓库的建模方法,并 对比分析了这两种方法的优缺点,说明了本文所要采用方法的理论依据。在 此理论基础上依据需求分析介绍了本系统采用的数据仓库框架,以及基本的 设计思想。从而能更好的从整体上理解本系统的设计理念。而后介绍了o l a p 的含义,及其系统的分类,并对比了o l a p 和o l t p 的优缺点,并介绍了本 系统之所以采用此类技术的缘由 第3 章首先详细介绍了维度建模的基本概念以及设计步骤,并对本系统 星型结构的维表和事实表进行了设计,为了使查询时系统能得到较快的响应, 对物化视图的选择算法加以详细的设计分析并将其进行了改进,从而使系统 达的响应速度得以提高:最后对系统进行数据部分的抽取一转换一加载,使 5 哈尔滨工程大学硕士学位论文 数据得以展示。 第4 章介绍了如何对数据仓库中的数据进行展示首先给出了o l a p 的 核心数据立方体的设计;由于在使用数据立方体对数据进行存储时,可 能使数据在存储时发生存储空间的浪费,所以本文介绍了本系统所采用的数 据压缩算法,从而使得存储空问得到最大化的利用;而后利用报表的形式加 以输出得以验证 最后对整个系统进行了总结与展望,归纳出系统的不足以及将来的发展 方向 6 哈尔滨工程大学硕士学位论文 第2 章基本理论及系统框架设计 一个好的设计方案是建立在扎实的理论基础之上的,而设计方案又是灵 魂所在在本章中,重点研究了本系统所需的相关理论部分,并在此基础上 对目前主流的两种建模方法进行了对比分析,结合本系统所要实现的目标选 择了适合的建模方法,根据此建模给出了系统框架。 2 1 数据仓库技术 数据仓库技术起源于对大量数据进行处理的需要,是随着业务应用的需 要而产生的w 与传统数据库技术相比,数据仓库为决策分析提供了更好的支 持,跳出了传统联机事务处理的范畴它的快速发展,使其在各个行业都得 到了广泛的应用 2 1 1 数据仓库的概念 1 9 9 2 年,业界公认的数据仓库之父wi l 岫l 1 1 ) o d 在其所著 建立数据仓 库一书中提出了数据仓库的概念:数据仓库是面向主题的,集成的、稳定 的和随时间变化的数据的集合m 定义中指出了建立数据仓库系统的目的在 于为制定决策管理提供信息依据,并指出了数据仓库四个重要的特点。 首先,数据仓库是面向主题的主题是在逻辑上对应某个宏观分析领域 所涉及的分析对象n “,例如本文所涉及到的罚款金额就是主题,是针对某一 个决策问题而设置的就像是企业为了发展要进行业务重组一样,为了支持 管理决策需要也要按决策业务科目的要求重组o u 呼系统中的数据,并要按 不同主题、分析内容分别组织使之方便使用t 哪这种基于主题的模式从用户 角度来看重的就是数据的重组结构。这种面向主题的数据组织方式,就是在 较高层次上对分析对象数据的统一和一致的描述,同时能完整地刻画各个分 7 哈尔滨工程大学硕士学位论文 析对象所涉及的相关的各项数据,以及数据之问的关联。目前,数据仓库的 实现主要是基于每个主题由一组关系表或逻辑视图实现w 这些表和视图的 内容与原有系统的数据源的数据本质上是一致的,但为了方便支持数据的分 析处理,对数据结构进行了重组 其次,数据仓库是集成的。由于数据仓库中的数据可能来源于多个不同 操作环境和历史数据源,所以不能对原有数据的进行简单的拷贝,而是经过 统一和综合w 一方面,原有数据库系统记录的是每一项业务处理,这些数 据不适合用于分析处理,所以在进入数据仓库之前必须经过整合、计算,抛 弃分析处理不需要的数据项,增加一些可能涉及到的外部数据;另一方面不 同的数据源可能对相同事物的表达有许多重复或者不相同之处m 所以将数 据载入数据仓库时要将数据进行转换,并且清洗,除去不适合的数据,确保 数据完整统一,最后将数据加载到数据仓库中 再次,数据仓库是非易失的m 从数据的使用方式上看,数据仓库的数 据不可更新印数据保存到数据仓库中后,最终用户只能通过分析工具进行 查询和分析,丽不能修改从数据的内容上看,数据仓库存储的是企业当前 和历史的数据,在一定时间问隔以后,当前数据需要按一定的方法转换成历 史数据m 数据被载入到数据仓库之后,一般很少进行变动,除了加载新的 数据,或者为了减少数据量,将部分历史数据进行备份,转移所以,针对 数据仓库进行相同的分析查询,应该得到相同的结果 最后,数据仓库是随时间变化的数据进入数据仓库以后随时间变化而 定期更新m 每隔一段固定的时间间隔后,抽取运营数据库系统中产生的数 据,转换后集成到数据仓库中,而数据的过去版本仍被保留在数据仓库中 随着时间的变化,数据将以更高的综合层次被不断的综合,以适应趋势分析 的要求。 8 哈尔滨工程大学硕士学位论文 2 1 2 数据仓库和传统数据库 数据仓库是在传统数据库的基础之上发展起来的,但是它并不是对传统 数据库的彻底抛弃,而是在弥补传统数据库在数据分析能力方面的不足,以 提供良好的大规模数据分析能力,力图为决策提供有效的技术支持m 和传 统数据库相比,数据仓库在总体特征、存储内容、面向用户等方面,都有着 重大的差异,如表2 1 所示正是由于这些差异的存在,实现了数据仓库技 术在分析能力的突破 表2 1 传统数据库与数据仓库的区别 比较项目传统数据库数据仓库 总体特征围绕高效的事务处理展开以提供决策支持为目标 存储内容以当前数据为主主要是历史的、存档的、归纳的 数据 面向用户普通的业务处理人员高级的决策管理人员 功能目标面向业务操作,注重实时性面向主题,注意分析功能 汇总情况原始数据,不做汇总多层次汇总,数据细节有损失 数据结构数据结构化程度高,适合运算数据结构化程度适中 操作 视图情况视图简单,内容详细多维视图,概括性强 使用频率很高较低 操作方式数据库上的散列索引大量的扫描 访问特征读取写入并重以读取为主,较少写入 数据规模较小较大 数据访问量每次事务处理访问数据较少每次分析处理访问大量数据 2 1 3 数据仓库和数据集市 数据集市和数据仓库在许多特性方面类似,只是规模上较小它也是面 向主题的、集成的、稳定的和不同时间的。数据集市在有些方面与数据仓库 有差别。数据仓库专注于满足整个公司的需求,而数据集市专注于特定的主 题域或特定的业务功能需要。它们的关键区别是:用户只从数据集市中查询 哈尔滨工程大学硕士学位论文 数据,而从不在数据仓库中查询原因是:最终用户从一个数据集市中查询 数据要比从数据仓库中查询数据客货的性能高。尽管数据仓库是一个大型的 数据结构,同时能为报表提供可信的综合的源数据,数据集市是一个较小的 数据库,但它却能提供快速访问数据的能力 2 1 4 数据仓库的两种主流建模方法 由于数据仓库是一门新兴的技术,所以对数据仓库应该是怎样的,以及 在数据仓库和数据集市的创建上仍有争议。两种不同的观点主要集中在,以 代表人物为“数据仓库之父”b i l l n m o l l 和数据仓库界最知名的讲演者、咨 询师和授课人之一的r a l p hk i m b a l l 。b i l lh u n o n 认为“多个独立数据集市的 总和并不等于一个统一的数据仓库”而r a l p hk i m b a l l 则认为“数据仓库不 过是构成它的全部数据集市的一种联合。 l u m o a 和k i m l m l l 在对数据仓库和数据集市之间的关系发生分歧的同时也 对数据仓库的建模方法提出了不同的理论1 n l n o n 认为数据仓库的建模应该 基于传统的实体一关系建模( e n t i t y - - r e l a t i o n s h i pm o d e l i n g 即e - - r 模型) 方法,而k i m b a l l 则认为数据仓库应该应用维度建模( d i m e n s i o n a lm o d e l i n g ) 方法下面将具体介绍一下两种建模方法 1 实体一关系建模 实体一关系建模是用来阐明数据源之间所存在的细微关系的一种规范 它的最高技术形式是删除数据中的所有冗余,它可以使事务变得十分简单, 并且具有极大的确定性它的成功主要取决于实体一关系建模的规范。 实体一关系建模也称为第三范式建模,即为大多数传统的数据库系统的 建模方法范式是数据库逻辑模型设计的基本理论,一个关系模型可以从第 一范式到第五范式进行无损分解,通常在数据库的模型设计中一般采用第三 范式 哈尔滨工程大学硕士学位论文 i n m o n 认为,数据仓库设计绝对是一个适合于适用规范方法的领域因 为规范化建模有如下四个优点:规范化方法可以带来灵活性;规范化方法很 好的适用于粒度化的数据;规范化的方法不是对任何给定的处理需求集合都 是最优的并且规范化方法很好地与数据模型相匹配。同时他也指出如果整个 机构都用同一种方式观察数据,对规范化模型进行一些小的调整也是可以的 i n m o n 对数据仓库技术中经常提到的一种不同于数据库设计方法即多维 建模方法并不赞同。他认为多维建模方法只适用于数据集市,而不适合数据 仓库。数据集市很大程度上是根据需求来制定的,这与数据仓库不同为了 建立一个数据集市,首先要在数据集市上进行处理的需求有很多了解。若这 些需求已知,就可将数据集市建成一个星形连接结构但数据仓库与此有着 本质的不同,这是因为数据仓库是为一个非常大的群体服务的,所以数据仓 库对于任何一个需求集合而言,性能和便捷性都不是最优的数据仓库是根 据企业信息需求建立的因此对于数据仓库建立星形连接是错误的 1 a m o a 认为,创建和使用星形连接的好处是可以为决策系统的处理优化 数据通过预连接数据和建立有选择的数据冗余,设计者大大简化和调整被 访问和分析的数据,这正是数据集市所需要的m 星形结构由于聚集数据等 优化性能的方法使数据的粒度得以提升,无法满足一些未知需求或者其他部 门的更细粒度的查询而且由于数据在对某个部门进行优化时,将导致其他 部门提取数据变得复杂,所以多维建模不适用于数据仓库他还旗帜鲜明的 指出:你可以打到几万吨的小鱼小虾,但是这些小鱼小虾加起来不是大鲸鱼。 也就是说多个独立的数据集市的总和并不是一个完整的数据仓库 2 维度建模 维度建模是r a l p hk i m b a l l 极力推荐的一种数据仓库建模方式。维度建模 拥有实体关系建模所没有的优点维度建模是可预测的标准框架,星型连接 模式的可用来预测框架能够承受不可预知的用户行为变化它具有非常好的 可扩展性并且它有许多标准方法可以用来处理业务环境中常见的建模情况 1 1 哈尔滨工程大学硕士学位论文 - ,他认为在数据仓库中适合进行维度建模是因为与实体一关系建模方法相 比较,维度建模方法能产生可预知、可理解的数据仓库设计,后者能被用户 使用和消化,并且能够执行高性能的查询。易理解性和性能是数据仓库中两 个必不可少的需求当新数据被载入到数据仓库不需要重新构造数据库或者 重写查询在k i m b a l l 的观点中,数据的易理解性和性能对数据仓库来说是 至关重要的,而且维度建模还有易于扩展的优点 k i m b a l l 认为,数据仓库是指企业中可查询的数据资源。数据仓库不过是 构成它的全部数据集市的一种联合数据集市是指完整数据仓库的一个逻辑 子集。数据集市是整个数据仓库饼形图中的一块完全的。楔形饼”。数据集市 代表的是一个能够完成的项目,而不是代表不可能实现的庞大项目。数据仓 库是有其所有数据集市在增加了一些特殊设计的基础上联合构成的,这些特 殊的设计就是每个数据集市必然表现为某个数据仓库中的一个维度模型,并 且通过一致性维度和一致性事实理论解决了数据集市的不兼容的问题m 同 时他认为数据集市也是建立在粒度数据基础之上 2 1 5 两种建模方法的对比分析 两种建模的方法各自有不通的组织形式,自然也就适应的范围也就不同 如表2 2 对此进行了对比 表2 2 两种建模方法的对比 e r 模型维度模型 数据组织一张表代表一个实体数据组织以事实表为核心 最求目标最少的数据冗余最大的可理解性 优化策略面向u p d a t e 操作进行优化面向检索进行优化 面向系统面向事务处理的模型面向数据仓库的模型 两种建模方法各有所长,但是值得指出的本文利用的建模方法是在 1 2 哈尔滨工程大学硕士学位论文 k i m b a l l 所倡导的维度建模方法的基础上稍微做出了调整,并不是 n i n o n 批 驳的那种星形结构k i m b a l l 的维度建模方法同样以最低粒度数据来建模, 能够应付各种未知需求的查询因此本文依然采用了k i m b a l l 的建模方法即 维度建模。同时在设计数据仓库时满足了一致性维度和一致性事实,并在最 低粒度的数据上建模,这样设计出来模型可以满足各种将来未知需求的查询 本文在对比了主流的两种建模方法后,根据本系统的实际需要实现的功能以 及将来所需的维护的复杂程度,采用的了星型连接。对于本系统而言,它的 好处是可以为决策系统的处理优化数据,通过已有数据以及有选择性的建立 数据冗余,将有效的被访问的和分析的数据 联机分析处理( o a - a l l a l y t i c dp r o c e s s i n g , o l a f ) 概念的产生稍稍晚 于数据仓库,正是因为数据仓库要求系统能够较快速地响应用户的各种查询、 分析要求,用于辅助决繁支持管理,并且要能够从多个视角观察结果数据, 从而孕育了o l a p 的思想w 传统的联机事务处理( o l t p ) 可以较好地完成日 常的业务处理,但要对数据进行深层探索,特别是对主题进行多角度、多层 次分析则显得力不从心,o l a p 的产生正好能够实现这些目标 联机分析处理( 0 l 心) 的概念最早是由关系数据库之父e e c o d d 于1 9 9 3 年提出的w 。o l a p 的提出引起了很大的反响,o i a p 作为一类产品同联机事 务处理( o l l 甲) 明显区分开来 o l a p 是使分析人员、管理人员或执行人员能够从多角度对信息进行快 速、一致、交互地存取,从而获得对数据的更深入了解的软件技术它的目 标是满足决策支持或满足在多维环境下特定的查询以及报表的需求,它的技 1 3 哈尔滨工程大学硕士学位论文 术核心是“维”这个概念。 2 2 2o l a p 的系统分类 o l a p 有多种实现方法,根据存储数据的方式不同可以分为r o l a p 、 m o t a p 、h o l a p r o l a p ( r e l a t i o n a lo u 冲) 表示基于关系数据库的o l a p 实现。以关系 数据库为核心,以关系型结构进行多维数据的表示和存储。r o l a p 将多维数 据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字; 另一类是维表,对于每个维,至少使用一个表来存放维的层次、成员类别等 描述信息维表和事实表通过主键和外键联系在一起,从而形成了。星型模 式” m o i 一心( m u l f i d h n e n s i o n mo l a f ) 表示基于多维数据组织的o l a p 实 现以多维数据组织方式为核心,也就是说,m o l a p 使用多维数组存储数 据多维数据在存储中将形成“立方体( c u b e ) ”的结构,在m o l a p 中对 。立方块”的“旋转”、。切块”、。切片”是产生多维数据报表的关键技术 h o l a p ( h y b x i do l a f ) 表示基于混合数据组织的o l a p 实现如低层 是关系型的,高层是多维矩阵型的这种方式具有更好的灵活性。还有其他 的一些实现o l a p 的方法,如提供一个专用的s q ls e r v 口,对某些存储模式 s q l 查询的特殊支持 2 2 3o i a p 的特点和评价准则 o l a p 的特点可以用五个关键字来代表:f a s ta n a l y s i so fs h a r e d m u l t i d i m e n s i o n a li n f o r m a f i o n ( f a s m l ,共享多维信息的快速分析) 这也是设 计人员或管理人员用来判断一个o l a p 设计是否成功的准则。 f a s t :系统响应用户的时间要快捷,要达到这个目标,数据仓库的模式 1 4 哈尔滨工程大学硕士学位论文 应该朝着更广泛的技术发展,包括特殊的数据存储格式,预先计算和硬件配 置等。 a n a l y s i s :系统应能处理与应用有关的任何逻辑分析和统计分析,用户 无需编程就可以定义新的专门计算,将其作为分析的一部分,并以用户理想 的方式给出报告。用户可以在o l a p 平台上进行数据分析,也可以连接到其 他外部分析工具上,同时应提供灵活开放的报表处理功能,以保存分析结果 s h a r e d :这意味着系统要能够符合数据保密的安全要求,即使多个用户 同时使用,也能够根据用户所属的安全级别,让他们只能看到他们应该看到 的信息 m u l t i d i m e n s i o n a l :o l a p 的显著特征就是它能提供数据的多维视图系统, 并且必须提供对数据分析的多维视图和分析,包括对层次维和多重层次维的 完全支持 h h 删出嘶:不论数据量有多大,也不管数据存储在何处,o l a p 系统 应能及时获得信息,并且管理大容量信息。这里有许多因素需要考虑,如数 据的可复制性、可利用的磁盘空间、o l a p 产品的性能及与数据仓库的结合 度等m 。 在o l a p 技术的五个特点中一个重要特点就是多维数据分析,其比较典 型的应用是对多维数据的切片、切块、钻取和旋转等操作,使用户从不同角 度和不同层次提取和分析数据,还能利用分析过程对数据进行深入分析和加 工” 2 2 4o l a p 与o l t p 的对比分析 o l t p ( o n - l i n et r a n s a c t i o np r o c e s s i n g ) 联机事务处理,它是面向客户的, 主要提供给操作人员和底层管理人员使用,并且仅仅管理当前数据。它采用 实体一关系模型数据库设计比如在银行存取一笔款,就是一个简单的事务 哈尔滨工程大学硕士学位论文 交易。 o l a p ( o n l m ea m l ”i c a lf r o c k i n g ) 联机分析处理,是数据仓库系统 的主要应用,支持复杂的分析操作,侧重于决策支持,并且提供直观易懂的 查询结果。它包含大量的历史数据,提供汇总和聚集机制,并且在系统访问 时大部分是只读操作,接下来给出了o l a p 与o l t p 之问的区别如表2 3 所 示 表2 3o l a p 与o l t p 之间的区别 0 i 二i 甲o l a p 用户操作人员,底层管理人员决策人员,高层管理人员 功能日常操作处理分析决策 d b 设计面向应用面向主题 数据当前的、最新的、细节的、二维历史的、聚集的、多维的、 的、分力的集成的、统一的 存取读,写数十条记录读上百万条记录 工作单位简单的事务复杂的查询 用户数上千个上百个 2 3 理论系统框架的研究 本系统依据需求分析的要求设计的系统框架,从用户的实际出发,这样 能更好的回应用户的需求,以便工作的进一步开展。 2 3 1 设计思想及需求分析 设计思想是数据仓库设计的中心,本文的总体设计思想是根据企业的需 求制定的,如下图2 , 1 所示它体现了简单的数据仓库模型。具体的设计过程 本文将在后面的章节给出。 哈尔滨工程大学硕士学位论文 ;曰苫圈 2 8 2 数据仓库框架 数据仓库的总体思想设计思想是整个设计的灵魂支柱以系统化的思想 来考虑数据仓库的构建,首先需要考虑的是数据的输入,企业的需求,o i a p 分析和数据挖掘如图2 2 所示: 图2 2 数据仓库框架 根据图2 2 很容易的理解整个系统的架构,以及所能实现的功能和所需的 1 7 哈尔滨t 程大学硕士学位论文 技术支持。图2 2 中的数据源是根据需要进行输入的,可以根据系统的需求 对此进行灵活的设计这些数据可以包括一些原来使用过的数据,这些数据 可能是对系统来说是最重要的,也可以包括一些正在增加的数据,以及一些 有用的外部数据。这些数据可能是对数据分析大有用处的数据 根据系统的需求进行数据的清洗工作也就是数据的抽取一转换一加载工 作,使其加载到所需的数据仓库中,从而把有用的数据提取出来进行分析, 形成易于观察的报表、直观图和其他有用的分析形式在本系统中主要是对 路口的交通情况进行分析,从而协助交警部门对易发生交通事故的交通路口 进行有效的警力分配以及对违章行为进行有效的处罚并加以制定有效的法律 进行约束 数据展示在图2 2 的最上端数据保存到数据仓库中的目的是为了满足用 户的各种可预见和不可预见的需求数据保存到数据仓库之后,数据的展示 工作就开始了数据仓库中的数据一般有三种使用方法,分别是做定制需求 分析、o l a p 分析和数据挖掘分析一其中,使用定制需求的用户不需要了 解数据仓库的数据。而o l a p 分析和数据挖掘分析通常要求最终用户了解数 据仓库的数据,以便可以直接访问数据仓库中的数据,从而可以满足一些不 可预见的需求定制需求是根据已知的用户需求,对数据进行集成、计算处 理等数据处理操作来满足用户对企业信息的固定需求 数据仓库中的报表和传统的数据库中的报表相比,有如下几个优点:数 据仓库增加了数据的历史深度,它可以在一个报表中包含几年的综合数据; 数据仓库增加了时间的维度。在数据仓库中,基本上每个表都有时间的维度, 这使得各种信息的变化趋势就很容易得到;同时数据仓库也提供了易于访问 的数据。数据仓库把企业的所有信息集成到了一起,使用户能方便的访问 哈尔滨工程大学硕士学位论文 2 4 本章小结 本章首先介绍了数据仓库基本概念,并对目前比较流行的两种数据仓库 的建模方法进行了对比分析,给出了各自的优缺点,并设计出本系统所应用 的具体模型。而后介绍了0 雌p 的基本概念、基本特性以及对比分析了o l a p 和o l t p 的区别。最后设计出了本文所涉及的系统总体的设计框架,指出了 所要达到的目标 哈尔滨工程大学硕士学位论文 第3 章电子交警管理系统的数据仓库设计研究 本章在给出了本系统的详细流程分析示意图后,根据实际的需求分析, 首先研究了数据仓库的维度建模的基本方法,并在已有的理论基础上针对本 文的研究内容,设计了全新的维度模型;而后,为了使系统能达到良好的响 应速度,对物化视图的选择进行了研究,从而对本系统进行了优化,使响应 速度得到了提高;最后,对抽取一转换一加载技术进行了分析研究,并加以 设计实现 3 1 系统框架的流程分析 基于本文在第一章已经给出了各个功能模块划分以及各个模块之间的关 系,现结合本系统实际开发要求,给出系统的详细流程分析示意图,如图3 1 所示; 图3 1 系统流程分析图 根据上述的流程分析示意图,本文将在下面的各章节展开详细的建模设 啥尔滨工程大学硕士学位论文 计分析,并根据实际设计需求,对视图选择算法进行分析,并提出适合本文 的优化算法,进行实例的优化设计分析 3 2 维度建模 维度建模是经常应用于数据仓库的一种逻辑设计技术的名称。维度建模 不同于实体一关系建模,它是将数据仓库中的数据传送给最终用户的一种可 行的技术m 维度建模是一种设计技术,该技术采用某种直观的标准框架结 构来表现数据,并且可以进行高性能存取就本文来讲是采用的星型建模的 方式进行构建的 3 2 1 维度建模的基本概念 维表是进入数据仓库的入口点它的术语“维度”和“事实”最初是2 0 世纪年代在一个由g t 撒r a lm i l l s 与d a x t m o u t b 大学主持的联合研究计划 中提出的一 1 事实表 事实表是维度模型的基本表,其中存放着大量的业务性能度量值。用术 语“事实”代表一个度量值在各维度值的交点处就可以得到一个度量值1 维度值的列表给出了事实表的定义,并确定度量值的取值范围可加性是至 关重要的,因为数据仓库应用不仅仅只是检索事实表的单行数据而是可能一 次性带回数百、数千乃至数百万的事实,处理这么多行的最有用的事就是将 其相加 2 维表 维表是事实表不可分割的在一个设计合理的维度模型中,维表有许多 列或属性,这些属性给了维表所进的行描述应该尽可能多的包含一些有意 义的文字性描述。维表倾向于将行数做少,而将列数做大每个维度用单一 2 1 哈尔滨工程大学硕士学位论文 的主键进行定义,主键是确保与之相连的任何事实表之间存在完整引用的基 础。 3 立方体 维度建模的基本思想就是几乎所有业务数据都可以表示成某种数据立方 体,该立方体的每一个单元包含的是各种测量值,立方体的边所定义的是数 据的维度。在设计中允许有3 个以上的维度。在技术上可以将该立方体称作 “超立方体”,但人们习惯使用“立方体”和“数据立方体”本文将在第四 章给出详细的介绍 3 2 2 维度建模的设计步骤 首先要确立数据仓库的设计目的构建一个可以集成不同形式和不同种 类的分散数据交警管理服务系统,以处罚和预测高发交通事故的街道为主体 的管理信息数据仓库并在此基础之上,通过多维分析对已有数据进行抽取、 综合、分析,最终为决策提供支持数据仓库可达到的目标是:通过建立一 个针对处罚管理为主题对象,实现对违法数据的灵活的、具体的、可视化的 统计与分析通过表、图、曲线等表现形式,实现直观的数据操作、灵活的 分析功能、可视化的结果表达 其次,要从需求到数据设计。需求的定义完全驱动着数据仓库的数据设计 数据设计就是集中所有的数据结构一个数据结构就是由一组数据元素结合 而成的,整个过程是从需求收集开始的需求收集阶段的结果被详细制成需 求定义文档,如下页图3 2 所示 最后,根据已经搜集到的信息加以分析总结,根据已经制定好的文档设 计出具体的维度模型,以便后期的开发使用在这里需要特别指出的是在一 般情况下日期表和时间表是要分开设计的 哈尔滨工程大学硕士学位论文 图3 2 需求分析的制定 3 2 3 基本事实表和维表的模型设计 针对交通管理系统的具体业务,可将其划分为以下几个主题:机动车违 法信息采集,违法照片采集,违法地点采集,违法行为采集等为了给决策 者提供更好的分析角度,在这里将每个主题的数据都采用多维数据的形式进 行存储由于篇幅的限嗣,下面就将其中的一个主题进行详细的分析 将机动车违法信息采集作为事实表,将查询的维度定义为时间维,车辆 信息维,地点维,违法行为维,采集部门维,缴费信息维等将事实表与维 表之间的连接采用星型模型架构,如下页图3 3 所示因为数据仓库是用来 进行数据分析的重要手段时间维度在每个数据仓库中占
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 园艺生产技术员保密意识竞赛考核试卷含答案
- 烟叶回潮设备操作工安全培训模拟考核试卷含答案
- 掩膜版制造工岗前岗位适应能力考核试卷含答案
- 油画外框制作工保密意识评优考核试卷含答案
- 全球生物降解包装行业竞争格局与投资价值评估研究报告
- 水利工程施工安全监控系统设计
- 小学一年级数学易错题分析
- 农业病虫害综合防治技术讲解
- 中国儿童教育科技产品需求趋势及营销策略报告
- 企业内部审计流程及执行要点
- 陶渊明生平讲解
- 《用“魔法”打败“魔法”》班主任经验分享【课件】
- 小学学校三年发展规划(2025-2028年)
- 社交货币研究-洞察及研究
- 村干部公章管理办法
- 中国股权融资与债权融资效率的比较研究:理论、实证与策略
- 近三年安全生产业绩证明
- 桡骨骨折骨折护理查房讲课件
- DBJ33-T 1349-2025 《既有多层住宅加装电梯技术标准》
- 2025-2030年中国动脉瘤栓塞和栓塞装置行业市场现状供需分析及投资评估规划分析研究报告
- 金融机构委托调解协议书
评论
0/150
提交评论