(计算机科学与技术专业论文)公安人口数据仓库系统的设计与实现.pdf_第1页
(计算机科学与技术专业论文)公安人口数据仓库系统的设计与实现.pdf_第2页
(计算机科学与技术专业论文)公安人口数据仓库系统的设计与实现.pdf_第3页
(计算机科学与技术专业论文)公安人口数据仓库系统的设计与实现.pdf_第4页
(计算机科学与技术专业论文)公安人口数据仓库系统的设计与实现.pdf_第5页
已阅读5页,还剩88页未读 继续免费阅读

(计算机科学与技术专业论文)公安人口数据仓库系统的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,jiiii-i_-_-_1il-111j1,11 本学位论 授权北京交通 提供阅览服务 意学校向国家 ( 保密的 学位论文 签字日期 北京交通大学 2 0 1 0 年6 月 致谢 本论文的工作是在我的导师王志海教授的悉心指导下完成的,王老师严谨的 治学态度和科学的工作方法给了我极大的帮助和影响两年来,王老师在学习和 生活巾都给予我极大的帮助,不仅教会了我很多学术上的知识,而且也让我明白 了许多做人的道理特别是在我遇到挫折的时候,王老师给予我极大的支持和鼓 励,使我重拾信心,继续努力在未来的日子里,王老师的教诲将一直伴随着我, 令我受益终身在此向王老师致以我最诚挚的感谢 衷心感谢黄厚宽和田盛丰教授,两位教授宽广豁达的长者风范以及严谨的治 学态度始终让我深深地敬仰 衷心感谢于剑老师、瞿有利老师、林友芳老师,他们一丝不苟的治学精神永 远是我学习的榜样 感谢王中锋师兄、山丹师姐以及实验室的同学们在本论文的完成过程中, 他们给了我很多宝贵的意见 感谢我的家人和朋友,他们一直以来对我生活上的关怀和精神上的鼓励,给 了我克服困难的信心和不断进取的动力 、 t 0 摘要 摘要 随着信息化的发展,公安部门积累了大量的历史数据,但对这些数据的分析 利用程度较低数据仓库的目的是建立一种体系化的数据存储环境,应用联机分 析处理技术( o l a p ) 提取用户感兴趣的信息,方便用户应用这些信息进行决策因 而建立公安数据仓库可以极大地改善现状,提高公安系统的信息化水平 数据仓库的主要研究方向包括主题的选择,e t l ( 抽取、转换、加载) ,联机 分析处理,实视图的选择与维护,w e b 和分布式数据仓库以及基于数据仓库的数 据挖掘技术等其中实视图是将查询分析所需要的总结数据有选择地存储在数据 仓库中,以此来提高查询和统计的效率本文重点研究实视图的选取和维护方法, 即在系统资源有限的条件下如何选择一部分总结数据作为实视图而存储,并在源 数据更新时保持实视图中数据的一致性 本文首先介绍了数据仓库和联机分析处理的基本概念,接着描述了实视图的 概念、优缺点,并深入研究了实视图的选择和维护技术其中选择技术包括静态 实视图和动态实视图的选择,本文以贪心算法和动态选择算法为基础,以减少视 图置换频率和i o 代价为目的,采用时间戳和有效期的机制,提出了改进的动态视 图调整算法;与此同时,比较了当前常见的视图维护技术,提出了基于时间戳和 缓冲表的双版本控制技术,它可以保证用户查询、视图维护的同步进行,并且避 免视图的频繁更新实验结果表明以上两种算法均取得了良好的效果最后本文 介绍了公安人口数据仓库的设计和实现方法 关键词:数据仓库;联机分析处理;实化视图;视图选择;视图维护 分类号:t p 3 1 1 1 3 j abstr act a bs t r a c t w i t ht h ed e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y , p u b l i cs e c u r i t yd e p a r t m e n t sh a v e a c c u m u l a t e dal o to fh i s t o r i c a ld a t aw i t hl e s su s a g e t h ep u r p o s eo ft h ed a t aw a r e h o u s e i st oe s t a b l i s has y s t e mo fd a t as t o r a g ee n v i r o n m e n t i tu s e st e c h n o l o g i e so ft h eo n l i n e a n a l y t i c a lp r o c e s s i n g ( o l a p ) t oh e l pu s e r se x t r a c t i n gu s e f u li n f o r m a t i o nf r o ml a r g e a m o u n t so fd a t aa n df a c i l i t a t e sd e c i s i o n - m a k e r sm a k ed e c i s i o n so nt h ea p p l i c a t i o no f t h i si n f o r m a t i o n t h u st h ee s t a b l i s h m e n to fp u b l i c s e c u r i t y d a t aw a r e h o u s ec a n d r a m a t i c a l l yi m p r o v et h ea b o v es i t u a t i o na n dr a i s et h el e v e lo fi n f o r m a t i o n t h em a i nr e s e a r c hd i r e c t i o n so ft h ed a t aw a r e h o u s eh a st h ef o l l o w i n ga s p e c t s :t h e c h o i c eo fs u b j e c t s ,e t l ( e x t r a c lt r a n s f o r ma n dl o a d ) o p e r a t i o n s ,o n l i n ea n a l y t i c a l p r o c e s s i n g ,m a t e r i a l i z e dv i e w s s e l e c t i o na n dm a i n t e n a n c e ,d i s t r i b u t e dd a t aw a r e h o u s e a n dd a t am i n i n gt e c h n o l o g i e sb a s e do nd a t aw a r e h o u s e m a t e r i a l i z e dv i e w sa r ev i e w s t h a ts t o r e s u m m a r yd a t ai nd a t aw a r e h o u s ef o rt h ep u r p o s eo fi m p r o v i n gq u e r y e f f i c i e n c y t h i sp a p e rf o c u s e so nv i e ws e l e c t i o na n dm a i n t a i n s ,t h a ti sh o wt os e l e c tp a r t o fs u m m a r yr e s u l t s ,s t o r et h e ma sm a t e r i a l i z e dv i e w s ,a n dm a i n t a i nt h e mt ok e e pd a t a c o n s i s t e n c yo nc o n d i t i o n so fl i m i t e ds y s t e mr e s o u r c e t h i sp a p e ri n t r o d u c e st h ed a t aw a r e h o u s ea n do l a po fc o n c e p t s ,t h e nd e s c r i b e s t h em a t e r i a l i z e dv i e wo ft h ec o n c e p t ,a d v a n t a g e sa n dd i s a d v a n t a g e s a f t e rt h a tt h i s p a p e rr e s e a r c h e s t h em a t e r i a l i z e dv i e w s s e l e c t i o na n dm a i n t e n a n c et e c h n o l o g y s e l e c t i o nt e c h n o l o g i e si n c l u d es t a t i ca n dd y n a m i cv i e ws e l e c t i o n f o rt h ep u r p o s eo f r e d u c i n gr e p l a c e m e n tf r e q u e n c ya n dt h ec o s to fi o ,i tp r o p o s e sa ni m p r o v e dd y n a m i c v i e wa d j u s t m e n ta l g o r i t h mw h i c hb a s e st h eg r e e d ya l g o r i t h ma n dd y n a m i cs e l e c t i o n a l g o r i t h mu s i n gt h em e c h a n i s mo ft i m es t a m pa n dv a l i d i t y a tt h es a m et i m e ,t h i sp a p e r c o m p a r e st h ec u r r e n tc o m m o nv i e wm a i n t e n a n c et e c h n o l o g i e sa n dp r o p o s e san e w m e t h o dc a l l e dt s - b t - d vw h i c hu s e st h et i m e s t a m p ,t h eb u f f e rt a b l ea n dt h ed o u b l e v e r s i o no ft h ec o n t r o lt e c h n o l o g y , a sar e s u l t ,i tc a ng u a r a n t e eu s e r s q u e r y i n ga n dv i e w m a i n t e n a n c ei np a r a l l e l ,a n da v o i df r e q u e n tu p d a t e so fv i e w s e x p e r i m e n t ss h o wt h a t b o t ht h ea b o v et w oa l g o r i t h m sa c h i e v e dg o o dr e s u l t s f i n a l l y , t h i sp a p e ri n t r o d u c e sh o w t od e s i g np o l i c ep o p u l a t i o nd a t aw a r e h o u s e k e y w o r d s :d a t aw a r e h o u s e ;o l a p ;m a t e r i a l i z e dv i e w s ;v i e ws e l e c t i o n ; v i e wm a i n t e n a n c e c i a s s n 0 :t p 3 1 1 13 l 摘要 a b s 1 2 2 3实视图的相关理论1 6 2 3 1 视图的概念1 6 2 3 2 基于实视图的视图组织结构1 7 2 3 3 实视图的选择1 7 2 3 4 实视图的维护1 8 3数据仓库实视图选择方法的研究1 9 3 1静态实视图选取算法1 9 3 1 1 静态实视图代价模型1 9 3 1 2 贪心算法2 0 3 1 3 遗传算法2 1 3 2动态实视图选取算法2 2 3 2 1 动态实视图代价模型2 3 3 2 2 视图预处理算法2 4 北京交通大学硕士学位论文 3 2 3 单次动态调整算法。2 5 3 2 4 多次动态调整算法2 6 3 3改进的动态调整算法2 7 3 3 1 问题定义2 8 3 3 2 算法描述2 8 3 3 3 算法实现3 0 3 3 4 实验结果及分析3 l 3 3 5 性能分析3 2 4 数据仓库实视图维护方法的研究3 3 4 1 视图维护机制3 3 4 2视图维护策略3 4 4 3几种视图维护方法3 4 4 3 1 增量视图维护技术3 4 4 3 2 双版本控制法3 5 4 3 3 版本链控制法3 5 4 3 4 基于维护库的技术3 6 4 4 基于时间戳和缓冲表的视图维护方法3 8 4 4 1 问题定义3 8 4 4 2 方法描述4 0 4 4 3 算法实现一4 2 4 4 4 实验结果和分析4 4 4 4 5 性能分析4 5 5公安人口数据仓库的设计与实现4 7 5 1 系统概述4 7 5 2性能需求4 7 5 3数据仓库总体结构4 8 5 4数据仓库主题的设计4 9 5 4 1 主题分析5 0 5 4 2 建立星型模型5 0 5 4 3 事实表和维表5 2 5 5 实视图的设计一5 4 5 5 1 设计流程5 4 5 5 2 实化视图的选择。5 6 5 5 3 实化视图的维护。5 9 参考文献6 9 作者简历7 3 独创性声明7 5 学位论文数据集7 7 , 引言 1 引言 1 1 论文背景 近年来,公安信息化建设加速发展,数字城市工程、金盾工程以及城市管理 职能部门各类业务信息系统资源愈来愈丰厚,公安局已建成了交通、消防、情报 研析、刑侦、八大资源库等业务系统,同时还拥有众多社会信息系统资源包括气 象、城管、交委等 然而,这些信息系统存在着运行环境分散,信息结构不统一,综合利用困难, 共享程度不高等问题因此,按照主题组建数据仓库,整合已有的数据势在必行 公安人u 数据仓库是信息系统资源整合项目的一部分,它通过将和人员相关 的数据整合到人口数据仓库中,并在此基础上进行高效的查询、统计,可以为决 策者提供人员流动方面的信息,加大进出城市的人l 监控力度 1 2 目的和意义 公安数据仓库的建设充分利用已有的数据资源,包括公安八大库、社会资源 库等,整合的内容包括常住人口、暂住人口、旅客以及境外人员等信息资源通 过对进出城市人口的统计,可以为监管部门、安保部门提供强有力的信息化支持, 为信息管理、指挥决策提供全面多层次的数据服务 具体表现为: ( 1 ) 通过信息资源整合,形成集中的信息资源,最大限度地发挥现有信息系 统的规模效益; ( 2 ) 通过对各系统数据的抽取和整理融合,可以建立标准数据共享平台,实 现对异地、异型、异构数据的访问; ( 3 ) 确保全局数据的高质量和一致性,为领导决策提供科学依据; ( 4 ) 集中统一管理和使用全局信息,有效支持安保业务发展需要; ( 5 ) 为全局质量分析和决策建立可持续的应用历史数据群; ( 6 ) 提供对全局数据的标准化维护管理,提高对数据的维护管理水平; ( 7 ) 提供对全局数据的安全管理,提高抵御各类安全隐患的能力 本项目以满足为公安指挥人员提供数据决策支持为目标,同时针对现行各个 信息系统资源,通过建立统一的数据标准,构建一个综合信息共享平台( 综合数 北京交通大学硕士学位论文 据库) ,实现对公安内部信息资源、社会资源的汇集整合,从而促进各业务系统信 息的共享和综合利用,提高公安机关的整体应用水平,为安保科技系统的建设提 供技术保障 1 3 国内外现状 数据仓库技术早在上世纪9 0 年代就己经在国外应用于实际的企业及政府的信 息系统之中了,随着围家信息化进程的发展,有许多新兴行业已经具备了建立数 据仓库的基础条件,也有了进行综合分析、决策支持的需求,如银行、保险、证 券等行业我国有的单位也开始构建自己的数据仓库例如,中国银行广州分行 “八五 期间就开始建设数据仓库,他们的数据仓库包括了从数据采集、数据处 理到数据存储的全过程,但是数据量相对来说比较小现在上海宝钢、深圳招商 银行也在创建自己的数据仓库开展数据分析工作,为提高服务质量、增加财政收 入、提高产品质量发挥了切实有效的作用随着公安部“金盾工程”的实施,公 安业务工作信息化建设得到了飞速的发展,由此而产生了大量的公安业务数 据1 9 5 4 年开始建设公安应用系统以来,目前己建有多种应用数据库,数据量己 经达到上千g b 的水平,并且运行情况良好,故而公安行业己经具备了建立数据仓 库的基本条件 联机分析处理是数据仓库采用的最主要的分析处理方法,它采用多维分析提 供对数据的快速访问,其中加快访问速度的一个好办法是建立实化视图它是将 常用的查询按照各自的分组属性提前计算出结果并保存起来,即采用空间换时间 的方法,当查询执行时,直接从保存的结果中响应查询,一般来说,这会大大缩 短响应的时间但是,实化视图需要被保存,会占用一定的硬件空间,当生成实 化视图的源表发生更新时,实化视图也需要作相应的更新 当前实化视图的研究方向主要是视图的选择和维护问题常见的实视图选择 算法包括静态实视图选择算法和动态实视图选择算法其中静态实视图选择算法 包括贪心法和遗传算法,动态实时图选择算法包括p m v s 预处理算法、单次实视 图选取算法f p u s 和动态调整算法等 常见的实化视图的维护技术包括增量视图维护、双版本控制法、版本链控制 法和基于维护库的方法等它们采用不同的机制,实现起来各有利弊 1 4 论文的组织结构 本文由以下六章组成: 引言 第1 章:引言介绍了课题提出的缘由,相关的研究背景,以及本文研究的 主要内容和意义,并简要给出本文的组织结构 第2 章:数据仓库综述主要介绍数据仓库的基本概念,联机分析处理的理 论,包括概念、分析方法、存储结构以及维度建模的数据结构,并引入了实视图 的概念和研究方向 第3 章:数据仓库实视图选择方法的研究阐述常见的视图选择算法,包括 静态选择算法和动态选择算法,并设计了基于时间戳和有效期机制的动态选择算 法,并给出了项目环境下的运行结果 第4 章:数据仓库实视图维护方法的研究主要介绍了数据仓库常见的维护 算法,并在双版本控制方法的基础上设计了基于时间戳和缓冲表的维护方法,同 时给出了项目环境下的实验效果 第5 章:应用与实现分节介绍了公安数据仓库各部分的设计方法,包括主 题的设计,星型模型的设计,视图的设计等,最后给出了项目运行结果的截图 第6 章:结论对本文的主要研究工作进行简要的总结,并对需要进一步研 究的问题进行了探讨和展望 数据仓库理论综述 2 数据仓库理论综述 近年来,数据库技术在各行各业中得到了广泛的应用和发展关系数据库系 统的成功应用,使我们有了强有力的事务处理工具,人们可专心将传统的事务处 理做得更好但是传统的数据库技术是面向事务处理的,缺乏对数据的分析和决 策支持【l 】于是人们尝试对数据库中的数据进行再加工,形成一个综合的、面向分 析的环境,以更好地支持决策,从而形成了数据仓库( d a t aw a r e h o u s e ,简称d w ) 以及与其相关的一系列技术,即数据仓库技术f 2 】 2 1 数据仓库概述 数据仓库是以关系数据库、并行处理与分布式处理技术,以及联机分析处理 等技术的发展为基础,为解决当前企业和组织中虽然拥有大量数据但信息贫乏的 现状而提出的,是一种对不同系统数据实现集成和共享的综合性解决方案【3 1 2 1 1数据仓库的基本概念 本节从数据仓库产生的原因、数据仓库的特点和目标来介绍数据仓库的基本 概念 传统数据库系统能够完成企业的日常事务处理工作,但很难达到实现数据共 享和分析处理的要求【4 j ,主要有以下两点原因: ( 1 ) 数据囚笼许多企业和组织机构在管理运作中,已经积累了大量的历史 数据,但这些数据却被埋藏在计算机系统中未加以利用或者难以利用,尤其是那 些对于管理决策者有着重要意义的数据分析,如果技术上难以达到,则企业或组 织就难以在多变的环境中具有竞争力也就是说,存在着所谓的数据丰富、而信 息贫乏的数据囚笼现象 ( 2 ) 信息孤岛旧系统往往是在过去不同的时期被不同的开发者开发的,这 些系统通常是根据某些特定的要求制作的,并且分布于不同的系统平台上,同时 信息有可能被各个有不同体制的部门分别维护管理,如某企业制造、销售、供销 和财务的数据,常常分布在不同的互不兼容的数据库系统中,各系统之间的数据 很难进行交换从总体管理需求的角度来讲,数据应该在整个企业或机构范围内 共享数据应该在整个企业或组织机构范围内用协调一致的方式来收集、整理、 分析,但是传统的管理信息系统往往被所属部门隔绝,这就成为全面共享企业信 北京交通大学硕士学位论文 息资源的障碍 数据仓库区别于普通的事务处理数据库对数据仓库而言,主要特点是“面 向主题 、“集成 、“随时间不断变化 和“非易失 f 5 】 ( 1 ) 面向主题“面向主题是数据仓库中数据组织的最基本原则数据仓 库中的所谓“主题 ,是一个逻辑概念在信息管理的层次上,主题就是从管理的 角度出发,对数据进行综合分析而抽取出的,需要作进一步分析的对象数据仓 库的构造过程,首先就是确定主题的过程 ( 2 ) 数据的集成性数据仓库中数据的集成性,是指在构建数据仓库的过程 中,多个外部数据源内格式不同、定义各异的数据,按既定的策略经过抽取、清 洗、转换等一系列处理,最终构成一个有机的整体 ( 3 ) 数据的非易失性数据仓库中数据的非易失性,又称数据的稳定性,它 包括两个方面的含义:其一是指数据仓库内容的更新、追加等操作是不频繁的, 一般按既定的周期或条件进行;其二是指数据在导入数据仓库后,虽然也有删除、 更新等操作,但决定这种操作的条件是比较难满足的,可以近似地认为,数据一 旦导入数据仓库后,就不再发生变化 ( 4 ) 数据的时变性数据仓库的内容随时间的变化而不断得到增补、更新尽 管数据仓库和业务数据库之间有很大的区别,数据仓库不会随业务的发生而频繁 地更新数据,但为了保证决策分析的正确性,对数据仓库的内容定期加以增补和 更新是十分必要的 表2 1 是数据仓库和传统数据库的比较 表2 1 数据仓库与传统数据库的比较 1 a b l e2 1c o m p a r i s o no fd a t aw a r e h o u s ea n dt r a d i t i o n a ld a t a b a s e 6 数据仓库理论综述 数据仓库为管理的各个阶层提供支持,是技术和商务业务的汇集点它可以 完成以下基本目标: ( 1 ) 解决旧系统的遗留问题; ( 2 ) 达到高度的信息集成; ( 3 ) 利用新的平台和技术; ( 4 ) 从数据管理过渡到信息管理; ( 5 ) 提供一个平台和结构用以掌握历史数据和当前数据; ( 6 ) 为商务智能和联机分析系统提供平台; ( 7 ) 在运用信息方面更具有竞争性 2 1 2数据仓库的结构 数据仓库作为数据存储的一种组成方式,从不同的数据源中获取原始数据, 再按主题要求重新组织,形成不同的数据层,对其构成的数据进行操作、管理、 使用和更新,以支持数据仓库应用及决策管理 数据仓库是建立在事务处理数据源系统之上的集成和分析处理系统,是管理 信息系统的“上层建筑 而数据仓库本身的结构也是由多层叠加的系统构成的, 如图2 1 所示 数据仓库主要分为五层【6 】: ( 1 ) 操作型数据库层,它是整个数据仓库的基础,负责支撑整个数据仓库; ( 2 ) e t l 层,即提取转换功u 载层它负责从操作型事务处理系统中提取需 要的数据,进行相应的转换,并将其传送到数据仓库的基础层中; ( 3 ) 数据仓库基础层,包括事实表和维表; ( 4 ) 总计视图层,它是在大量的事实表和维表基础上经过总计运算生成的新 的层面,它为联机分析提供数据支持; ( 5 ) 联机分析层,是数据仓库的高层,主要为管理决策提供服务 7 北京交通大学硕士学位论文 图2 1 数据仓库层次结构图 f i g u r e2 1h i e r a r c h yc h a r to fd a t aw a r e h o u s e 2 1 3数据仓库中的数据处理过程 数据仓库的建立开始于从不同的数据库系统中按主题抽取出所需的数据,这 其中所要解决的问题涉及到多方面,如从哪里抽取,怎样抽取,抽取的规则,抽 取的目的等等,然后按数据仓库中所需的目标数据模式进行转换,这一步涉及到 的问题繁琐而复杂,然而也是保证数据仓库巾数据拥有高质量的关键一步,最后 将经过转换处理后所得到的完整的、正确的、一致的数据加载到数据仓库中另 图2 2 数据仓库体系结构图 f i g u r e2 2s t r u c t u r eo fd a t aw a r e h o u s e ( 1 ) 数据源:是数据仓库系统的基础,是整个系统的数据源泉,通常包括企 业内部信息和外部信息内部信息包括存放于r d b m s ( r e l a t i o n a ld a t a b a s e m a n a g e m e n ts y s t e m ) r p 的各种业务处理数据和各类文档数据外部信息包括各类法 律法规、市场信息和竞争对手的信息等等 ( 2 ) e t l 过程:是建立数据仓库的核心,它是针对现有各业务系统的数据进 行抽取、转换,并按照主题进行组织加载到数据仓库的过程 ( 3 ) 数据仓库:按不同主题不同层次存储数据的地方,包括细节数据,当前 数据,轻度综合数据及高度综合数据等 ( 4 ) o l a p :对分析需要的数据进行有效集成,按多维模型予以组织,以便 进行多角度、多层次的分析并发现趋势其具体实现可以分和r o l a p 、m o l a p 和h o l a p r o l a p 基本数据和聚合数据均存放在r d b m 之中;m o l a p 基本数 据和聚合数据均存放于多维数据库巾;h o l a p 基本数据存放于r d b m 之巾,聚 合数据存放于多维数据库中 9 北京交通大学硕士学位论文 2 2 联机分析处理 联机分析处理( o n l i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 是数据仓库采用的最主要 的分析处理方法,它采用多维分析提供对数据的快速访问2 0 世纪6 0 年代末,关 系数据库之父e ec o d d 提出了关系模型,促进了关系数据库与联机事务处理 ( o l t p ) 的发展,数据以关系表的形式而非文件方式存储为用户提供资源共享而 如今,关系数据库及联机事务处理已不能满足终端用户( 决策者及管理人员) 对数据 复杂的查询分析需求1 9 9 3 年,e f c o d d 提出了多维数据库和多维分析的概念, 即o l a p 7 1 它侧重于分析型应用,区别于o l t p 的操作型应用【3 1 在日常实际决 策过程中,决策者需要的信息数据往往不只是单一的某个指标数值,而是要能够 从多个角度观察某个指标或多个指标的数值,并能发现各指标之间的关系 联机分析处理系统的目的在于发现企业趋势和影响企业发展的关键因素,并 为企业提供数据组织和查询的工具一般来说,o l a p 系统具有四大特性: 快速性 用户对o l a p 的快速反应能力有很高的要求系统应能在5 秒内对用户的大 部分分析要求做出反应对于大量的数据分析要达到这个速度并不容易,因此就 更需要一些技术上的支持,如专门的数据存储格式、大量的事先运算和特别的硬 件设计等 可分析性 , o l a p 系统应能处理与应用有关的任何逻辑分析和统计分析用户可以定义新 的应用,将其作为分析的一部分,并以用户理想的方式给出报告用户可以在o l a p 平台上进行数据分析,也可以连接到其他外部分析工具上,如时间序列分析工具、 成本分配工具、意外报警、数据开采等 共享性 共享性是指数据可以支持多用户的访问,同时又能对机密数据提供安全保障 多维性 多维性是o l a p 的关键属性系统必须提供对数据分析的多维视图和分析, 包括对多重层次维的完全支持多维分析是分析企业数据最有效的方法,是o l a p 的灵魂 信息性 不论数据量有多大,也不管数据存储在何处,o l a p 系统应能及时获得信息, 并且管理大容量信息这里有许多因素需要考虑,如数据的可复制性、可利用的 磁盘空间、o l a p 产品的性能及与数据仓库的结合度等 1 0 数据仓库理论综述 2 2 1联机分析处理的基本概念 联机分析处理涉及到的概念包括事实表、维表、数据单元、数据立方体等下 面详细介绍这些基本概念: ( 1 ) 事实数据表 每个数据仓库都包括一个或者多个事实数据表事实数据表通常包含大量的 行当事实数据表包含大型机构一年或者几年的历史数据的时候,可能有数亿条 记录 事实数据表的主要特点是包含数字数据( 事实) ,而这些数字数据可以汇总,以 提供有关单位运作历史的信息每个事实数据表还包括一个由多个部分组成的索 引,该索引包含作为外键的相关维度表的主键,而维度表包含事实记录的特性事 实数据表不应包含描述性信息,也不应包含除数字度量字段以及使事实与维度表 中对应相关的索引字段之外的任何数据【9 】 ( 2 ) 维度表 维度表是用户用来分析数据的窗口维度表包含描述事实数据表中事实记录 的特性有些特性提供描述性信息;有些特性则用于指定如何汇总事实数据表数 据,以便为分析者提供有用的信息维度表包含帮助汇总数据的特性的层次结构 一般来说,一个事实数据表都需要和一个或多个维度表相关联 用户在使 用事实数据表创建多维数据集的时候,可以使用一个或者多个维度表 ( 3 ) 度量值 它是数据度量的指标,是数据的实际意义,即描述数据“是什么”包含在事 实数据表中的度量值有两种:一种是可累计的度量值,另一种是非累计的度量 值最有用的度量值是可累计度量值,用户可以通过累计度量值获得汇总信息非 累计度量值也可用于事实数据表,但其汇总结果一般没有意义 ( 4 ) 维度 它是人们观察数据的特定角度维实际上是考虑问题时的一类属性,单个属 性或属性集合可以构成一个维在实际应用设计中又将维分成共享维、私有维、 常规维、虚拟维、父子维等类型,从而为用户更好地展现维的特性 ( 5 ) 维的层次 人们观察数据的某个特定角度( 即某个维) 还可以从细节不同的各个方面进行 描述,将不同的各个描述方面称为维的层次 ( 6 ) 维的成员 它是指维的一个取值若维是多层次的,不同层次的取值构成一个维成员这 里需要指出的是维成员不一定每个维层次都必须取值,且维成员是次序无关的有 北京交通大学硕士学位论文 些成员由输入的数据组成后称为输入成员,由输入成员和操作符组成表达式可以 构成导出成员导出成员既可以作为维成员,也可以作为度量成员导出成员作 为度量成员在实际应用中较为普遍 ( 7 ) 多维数组 它是维和度量值的组合表示一个多维数组可以表示为:( 维1 、维2 、 维n 、度量) 在多维数组中,一定要有度量值存在,且度量值通常是数值型的 ( 8 ) 数据单元 多维数组的取值称为数据单元当多维数组的各个维确定一个维成员,就惟 一确定一个变量的值,可以表示为:( 维1 成员、维2 成员、维n 成员、度 量值) ( 9 ) 数据立方体 它是为输入数据的聚合定义的框架结构,是多维数据库数据在维模型巾的一 种表述,允许以多维对数据建模和观察,由维和事实组成【】 2 2 2联机分析处理的基本操作 o l a p 分析操作包括以下几种【1 2 】: ( 1 ) 切片和切块 在多维数据结构中,选定二维子集的操作理解为切片,选定三维了集的操作 理解为切块 ( 2 ) 钻取 钻取包含向下钻取和向上钻取操作,分别称为下钻( d r i l l d o w n ) 和上卷 ( r o l l u p ) 钻取的深度与维所划分的层次相对应层次可以根据用户需求,通过给 定维或属性分组来定义,也可以由数据库中的隐含模式定义全序或偏序的模式分 层上钻操作通过一个维的概念分层向上攀升,或者通过维归约,在数据立方体 上进行聚集下钻是上钻的逆操作,它由不太详细的数据到更详细的数据下钻 可以通过沿维的概念分层向下或引入新的维来实现由于下钻操作对给定数据添 加更多细节,它也可以通过添加新的维到数据立方体来实现 ( 3 ) 旋转 旋转是一种视图操作,通过旋转可以得到不同视角的数据 ( 4 ) 其它操作 有些o l a p 操作提供其它钻取操作,包括钻过( d r i l l a c r o s s ) 和钻透( d r i l l t h r o u g h ) 操作等分析操作,o l a p 提供可视化的直方图、饼图等可视化效果呈现给用户 1 2 2 2 3 众多p c 机上,而是集中存放在o l a p 服务器上,由服务器提供高效的数据存取, 安排后台处理以及报表预处理 ,j 数据分析工具 一、 o i a p 服务器 三工具 、 关系型 ,7 、 一元数据清 数据库 多维数据集 求处理 1 v 、 数据分析工具 图2 3o l a p 体系结构图 f i g u r e2 3s t r u c t u r eo fo l a p 2 2 4联机分析处理的存储结构 根据o l a p 服务器端的数据组织方法将o l a p 分成以下几种结构:关系型 o l a p ( r o l a p ) 、多维型o l a p ( m o l a p ) 以及混合型o l a p ( h o l a p ) 1 3 】【1 4 】 关系型o l a p 关系o l a p 表示基于关系数据库的o l a p 实现以关系数据库为核心,以关 系型结构进行多维数据的表示和存储r o l a p 的基本数据和聚合均存放在关系数 据库中【1 5 】r o l a p 将多维数据库的多维结构划分为两类表【1 6 】:一类是事实表,用 来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的 层次、成员类别等维的描述信息维表和事实表通过主关键字和外关键字联系在 一起,形成了“星型模式 对于层次复杂的维,为了避免冗余数据占用过大的存 储空间,可以使用多个表来描述,这种模式被称为“雪花模式” 在r o l a p 存储模式下,查询响应一般比其它两种存储模式下要慢r o l a p 通常用于不经常查询的大数据集,如年份较早的历史数据 多维型o l a p 多维o l a p 表示基于多维数据组织的o l a p 实现以多维数据组织方式为 1 3 北京交通大学硕士学位论文 核心,也就是说,m o l a p 基本数据和聚合数据均存放在多维数据库巾多维数据 在存储中将形成“立方块”的结构,在m o l a p 中对“立方块”的“切片 、“切 块 、“上钻”、“下钻”和“旋转”等是产生多维数据表的主要技术 m o l a p 更适合于频繁使用的多维数据集中的分区和对快速查询响应的需 要但m o l a p 会比r o l a p 额外占用一些存储空间 混合型o l a p 由于r o l a p 和m o l a p 各有利弊,这给分析人员在决策上带来了难题,于是 混合型o l a p 被提出,它能充分结合以上两种结构的优点,满足用户各种复杂的 查询请求h o l a p 实现方法有以下几种: ( 1 ) 同时提供多维数据库( m d d b ) 和关系数据库管理系统( r d b m s ) ,让 开发人员选择开发人员可以选择把信息存在m d d b 或r d b m s 中,但不能同时 存于m d d b 和r d b m s 中 ( 2 ) 在运行时把对关系型数据库的查询结果存入多维数据库在这利- 方法中 h o l a p 系统按一定的先后顺序使用m d d b 和r d b m s h o l a p 系统利用开发人 员定义一个静态结构的多维模型来暂存运行时检索出的数据当客户端提交一个 分析请求时,系统先检查这个多维结构缓存中是否有分析所需的数据,如果没有 则产生s q l 语句从r d b m s 中把相应的数据载入多维结构的缓存中 ( 3 ) 利用一个多维数据库存储高级别的综合数据,同时用r d b m s 存储细节 数据这利,方法是如今被认为实现h o l a p 结构较理想的方法,它结合了m o l a p 和r o l a p 的优点在这种方法中,客户端用户提交一个分析请求,由系统透明地 从m d d b 中提取经过综合的数据或从r d b m s 提取细节数据 三利一存储模式的比较 这三种存储模式各有优缺点,它们的特点比较列于下表中在实际的数据仓 库设计过程巾,具体选择何种存储模式,要根据查询速度要求、查询频度等条件 来确定 表2 2 三种存储模式的比较 t a b l e2 2c o m p a r i n gt h r e ek i n d so fs t o r a g em o d e l s 1 4 数据仓库理论综述 总之,m o l a p 适合于服务器存储窄问比较大,使用频率较高且对查询响应速 度要求高的多维数据集【1 2 】;r o l a p 通常用于服务器存储空间比较小,不经常查询 的大数据集,如年份较早的历史数据:如果磁盘存储空间的物理限制是一个需要 考虑的问题,而对于源数据查询性能的要求不是很高的话,h o l a p 是- * h 比较好 的存储模式 2 2 5维度建模的基本数据结构 常规事务处理数据库的主要任务是如何更好地输入数据和维护修改数据,而 数据仓库的主要任务特点是如何更好地输出数据和信息,以满足大量快速的计算、 分析、汇总、输出的需要因此,数据仓库在数据模型上采用与通常的三级范式 不同的模型,如星形结构、雪花型结构等【1 8 】 星形结构 星型结构是一种数据结构,它以事实表为中心,一组维表在星型结构的项端, 事实表和每个维表通过键连接在一起组成一个星型结构 星形结构是非范式的、以查询为中心的模型,这利一模型的最大优点是能提供 所谓的星连接,即通过一步连接就可以获取大部分所需要的信息,并很快得到输 出结果这种模型中信息可以分为两大类:事实表和维表 ( 1 ) 事实表事实表包括一些可以进行计算的数字字段,成为度量作为用 户的主要用途的事实表,反映了业务的主要指标,如销售量、来往人数、用户在 网上的点击数等统计量,同时也包括各种与维表链接的键 ( 2 ) 维表维表用于描述事实表,大多是文字描述、时间、地域、产品等类 型的数据在数据仓库中,维表有自己的主键,并通过主键实现与事实表的链接维 表一般呈层次型,并据此层次结构进行总计和聚合运算 雪花型结构 在实际建模过程中,单纯的星型模型往往不能满足实际应用的需要,特别是 在有效地描述维表的复杂程度和层次时会出现困难,而建立在星型模型基础上的 雪花型模型可以很好的解决这个问题【l s 】 具体方法是,在星型结构的基础上对某些维进行扩展,即用一组或多组数据 表与某些维相链接,这样即由星型模型扩展为雪花型模型例如,产品货单维表 由于较为复杂,通常由产品说明、品牌、规格、材料、供货供货商,以及供货制 造商地域描述数据项组成,这样用一个表描述过于臃肿冗余,而将它拆成一组表 则较为合适 雪花型模型既可以使维表结构清晰,消除关系型数据库中的“多对多 问题, 1 5 北京交通大学硕士学位论文 又可以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论