(计算机应用技术专业论文)数据仓库与olap技术在社区领域的应用.pdf_第1页
(计算机应用技术专业论文)数据仓库与olap技术在社区领域的应用.pdf_第2页
(计算机应用技术专业论文)数据仓库与olap技术在社区领域的应用.pdf_第3页
(计算机应用技术专业论文)数据仓库与olap技术在社区领域的应用.pdf_第4页
(计算机应用技术专业论文)数据仓库与olap技术在社区领域的应用.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(计算机应用技术专业论文)数据仓库与olap技术在社区领域的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 数据仓库是一个面向主题的、集成的、反映历史变化的、相对稳定的数据 集合,用于支持管理决策。它可以用来帮助客户对数据库中纷繁的数据进行有效 地统计、分析,从而帮助客户进行更有效地管理数据,并为数据挖掘提供基础。 o l a p ,即联机分析处理,是在建立好的数据仓库的基础之上,利用多维数据模 型使原来隐藏在这些纷繁复杂的数据后面的信息具体化、可视化。在众多的决策 支持技术中,0 l a p 技术以其直观的数据操作、灵活的分析功能、可视化的结果 表达等特点,在数据仓库技术的支持下得以脱颖而出。它将企业对数据的处理从 前台业务管理转向后台的决策分析,为企业各层次的管理人员提供了多角度、便 捷的探察企业数据的手段。 目前北京市社区服务中心积累了大量的数据,形成了强大的数据资源,如 何大力开发这些数据资源,从这些数据中获取有益的信息和知识,为北京市的各 层领导的辅助决策提供可靠的依据,是目前社区信息化建设中面临的最为重要的 问题,这就促成了利用数据仓库技术来建设北京市管理统计分析系统项目。 利用数据仓库和o l a p 技术,对北京市社区服务中心的数据进行了分析和处 理,建立了数据仓库模型,并在此基础上利用o l a p 技术对数据进行前端展现、 分析。以满足社区工作人员日常业务活动的需要,也可以更好的了解北京市人口 与结构的基本特征,将会产生一定的经济效益和社会效益。 关键词数据仓库;o l a p ;维度建模;多维立方体 a b s t r a c t 曼毫! ! 喜鲁詈皇曼! ! ! 曼皇量鲁i , 曼i 詈鼍寰曼皇皇曼鼍量皇鼍! 曼皇! 量曼! 曼皇量曼皇詈皇曼 a b s t r a c t d a t aw 打e h o u s ei sas u b j e c t - o r i e n t e d ,i n t e g r a t e d ,t i m e - v a r i a n t , a n dn o n - v o l a t i l e d a t ac o l l e c t i o ni ns u p p o r to fm a n a g e m e n td e c i s i o nm a k i n g i tc a l lb eu s e dt oh e l p c u s t o m e r sm o r ee f f e c t i v e l yt oa n a l y s en u m e r o u sd a t ai nt h ed a t a b a s e ,a n dt om a n a g e d a t aa n dp r o v i d et h eb a s i sf o rd a t am i n i n g 0 l 仳t h a ti s ,o n - l i n ea n a l y t i c a l p r o c e s s i n g ,t h a ti s t ou s em u l t i - d i m e n s i o n a ld a t am o d e lt os p e c i f ya n dv i s u a l i z et h e i n f o r m a t i o nw h i c hu n k n o w n e dy e ti nt h ed a t a b a s ea f t e rt h ee s t a b l i s h m e n to ft h ed a t a w a r e h o u s e a m o n gt h em a n yd e c i s i o ns u p p o r tt e c h n o l o g i e s ,0 l a pt e c h n o l o g yc o m e s t ot h ef o r ew i t ht h es u p p o r to fd a t aw a r e h o u s et e c h n o l o g yb yv i r t u eo fi t si n t u i t i v e d a t am a n i p u l a t i o n ,f l e x i b l ea n a l y s i sf u n c t i o na n dt h ev i s u a l i z a t i o no ft h er e s u l t e x p r e s s i o n i tc h a n g e sd a t am a n i p u l a t i o ns t y l eo ft h ee n t e r p r i s e sf r o mt h eb u s i n e s s m a n a g e n t m e n tt ot h ed e c i s i o na n a l y s i s ,a n dp r o v i d eac o n v e n i e n ta n dm u l t i a n g l e m e a n so fe x p l o r i n gd a t af o rt h ed i f f e r e n tl e v e l so fm a n a g e n r n e n ts t a f f s b e i j i n gc o m m u n i t ys e r v i c ec e n t r eh a sa c c u m u l a t e dm a s s i v ed a t a ,a n dh a sf o r m e d p o w e r f u ls o u r c eo fd a t a , h o wt od e v e l o pt h em a s s i v ed a t aa n da c h i e v eu s e f u l i n f o r m a t i o na n dk n o w l e d g ef r o mt h ed a t a a n dp r o v i d er e l i a b l eb a s i sf o rt h el e a d e r s h i p i nb e i j i n gi st h em o s ti m p o r t a n tt h i n gi nt h ec o m m u n i t yi n f o r m a t i o nc o n s t r u c t i o n ,a l l t h ec o n d i t i o n sa b o v ew o u l dc o n t r i b u t et h ec o n s t r u c t i o no ft h ea n a l y z i n gs y s t e mo f c o m m u n i t ym a n a g i n gs y s t e mw i t hd a t aw a r e h o u s et e c h n o l o g y t h ed a t ao ft h eb e i j i n gc o m m u n i t ys e r v i c ec e n t r ei sa n a l y z e dt h r o u g hd a t a w a r e h o u s i n ga n do l a pt e c h n i q u e ,a n dt h em o d e lo fd a t aw a r e h o u s ei ss e t t e du p o nt h i sf o u n d a t i o n ,w ea p p l i e dt h eo l a pt e c h n o l o g yt oa n a l y z et h ed a t a 。t h e b u i l d i n go fa n a l y z i n gs y s t e mo fc o m m u n i t ym a n a g i n gs y s t e mc a nk n o wt h ef e a t u r e s a b o u tp o p u l a t i o na n ds t r u c t u r ei nb e i j i n gm o r eb e t t e r ,a n dg r e a te c o n o m yb e n e f i ta n d s o c i e t yb e n e f i tw i l lc o m ei n t ob e i n g k e y w o r d sd a t aw a r e h o u s e ;o l a p ;d i m e n s i o n a lm o d e l i n g ;m u l t i - d i m e n s i o n a lc u b e 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名:鲎塾整日期:墅缍生目f 弓日 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:堂塑霞 导师签名: 第1 章绪论 第1 章绪论 1 1 课题的来源、研究背景以及项目建设的必要性 1 1 1 课题的来源 本课题来源于首都信息发展有限公司承接的北京市社区管理统计分析系统项目。 1 1 2 课题研究的背景 信息技术的迅猛发展,对社区建设产生了全方位的影响,它不仅带来了技术 手段的革命,同时也深刻地影响着社区的生活方式和管理方式。社区信息化作为 社会信息化的重要组成部分,不论是从城市现代化建设的必要条件考虑,还是从 完善提高城市居民生活质量的需求出发,加快城市社区信息化进程已成为社会关 注的热点。据民政部预测,今后三年内我国7 0 0 多个城市地区中将有8 0 建成 社区网络,5 0 0 0 个街道办事处将有3 0 拥有网络服务,居委会也将达到1 0 的 上网率。 北京市信息化建设的基础与全国其他地方相比,具有极大的优势。北京市社 区信息化是“数字北京 工程的重要组成部分,社区信息化的建设,对于建设城 市信息基础设施,提高首都的信息化总体水平,有积极的推动作用。目前社区信 息化的建设现状主要体现在: ( 1 ) 网络建设在北京市社区服务中心的领导下,目前已经在市、城八区 及其所属街道办事处建立了社区服务信息网络中心并实现网络互联。较为完善的 网络平台建设,为实现网上办公和有效的数据传输提供了有力的基础保障。 ( 2 ) 社区信息化服务体系建设从社会生活层面上来看,社区可以被视为 某个居住群体所共享的共同生活区域。为了满足人们日益增长的物质生活和文化 娱乐的需求,北京市目前已经建立了全市统一的社区服务中心网站,为充分利用 首都各方面信息资源提供站点导航和智能化搜索引擎提供服务。同时依托街道级 热线服务站,组建社区服务信息网络的服务支撑体系,建设了一批接入方式多样 的信息化示范小区。完善的各级社区服务网站,为满足人们日益增长的物质生活 和文化娱乐的需求提供了良好的平台,为提高人们的生活质量起到了积极的作 用。 北京工业大学工学硕士学位论文 ( 3 ) 社区管理系统建设北京市社区服务中心根据社区管理业务的需要, 为全市2 0 0 0 多个社区配备了“社区管理信息系统”。在该软件的支持下,对各社 区下属的人口和户籍等信息进行了有效的管理,对于实现社区管理人员日常业务 办公的自动化,提高工作效率和管理水平,加强社区的治安工作,构建社区的教 育体系,繁荣社区文化,加强社区环境治理,提高居民的生活质量都起到了积极 的作用。 随着网络建设的逐步完善,社区网站的建立和社区管理系统的运行,北京 市社区服务中心将积累大量的数据,形成强大的数据资源。如何在新形势下建立 新型的社区组织和管理体制,满足社区工作人员日常业务活动的需要;以及如何 大力开发宝贵的数据资源,从这些宝贵的数据中获取有益的信息和知识,为北京 市的各层领导的辅助决策提供可靠的依据,是目前社区信息化建设中面临的最为 重要的问题。 数据仓库则是管理信息和分析数据的非常有效的方式。它是一个面向主题 的、集成的、稳定的和反映历史变化的数据集合,它用于支持管理过程中的决 策制定过程和提高管理决策的质量。数据仓库从多个信息源中获取数据,经过抽 取转换后,建立数据仓库。与传统数据库相比,数据仓库为决策分析提供了更好 的支持,这正是社区信息化所需要的。建立一个北京市统一的、数据集中的、一 致的北京市社区管理统计分析的数据仓库系统对于满足社区工作人员日常业务 活动的需要,为北京市的各层领导提供决策支持具有重大的意义。 1 1 3 建立社区管理统计分析系统的必要性 ( 1 ) 基于有助于领导部门进行正确决策,促进社会的稳定社区是整个社 会的基本组成单位。社区管理的好坏、社区服务的全面与否、社区工作的扎实细 致程度将决定着国家的发展和整个社会的稳定。社区管理统计分析系统的建立, 有助于领导部门掌握人口结构、人口素质、社会团体等社区基本情况,发现社区 居民的需求、社区存在的安全隐患以及社区文化发展的新趋势,并及时采取正确 的决策。通过这种管理方式,一方面以低廉的成本和高效的速度满足了管理人员 和有关部门的需求,另一方面使政府部门的决策更贴近人民生活,从而提高了政 府形象,有利于社会的稳定。 ( 2 ) 有助于提高居民的生活质量社区管理统计分析系统建设的直接受益 者是社区管理部门,但最终受益者是社区居民。通过该系统,不仅社区居民的衣、 食、住、行、乐等基本生活信息可以及时、正确、全面地反映到有关部门,而且 医疗、文化、教育、体育等高级生活信息也能及时得到体现。信息的及时体现有 助于政府部门和社区服务部门以最快的速度满足社区居民的需求,改善服务方 第1 章绪论 式,增加服务内容,从而使社区居民获得生活上更大的便利。 1 2 数据仓库国内外发展现状 对于数据仓库,许多人提出了不同的看法。被人尊称为“数据仓库之父”的 w i l l i a ma i n m o n 先生的建立数据仓库一书中,首次出现了“数据仓库这 个名词。自从数据仓库乜1 的概念被提出以来,使各界对其展开了广泛的研究。国 际上许多重要的学术会议都出现了关于专门研究数据仓库方面的优秀的论文。 现在的数据仓库,已经不只是实验室的一个概念了,许多著名的企业也对 数据仓库有了一定的研究,并且推出了自己公司的数据仓库解决方案的产品。数 据仓库技术已经开始成为一种主流。世界上很多公司都在使用数据仓库,并且取 得了明显的经济效益,在市场竞争中显示出强劲的活力。在美国,使用数据仓库 的公司已经超过5 0 。 我国在数据仓库方面还处于起步阶段。在“九五期间已经将数据仓库体系 结构作为重点科技攻关项目,并且取得了一定研究成果。在9 0 年代期间,由于 我国很多企业都缺乏自己的丰富的数据资源,而且在企业实现数据仓库技术成本 相对来说还是比较高的,能够把数据仓库技术进行广泛应用的往往是银行和电信 等比较高端的行业。但是随着越来越多的企事业单位意识到单单建立传统意义上 的数据库,是远远不能适应发展需求的,必须建立数据仓库,对存储的数据进行 分析研究,才能使自己存储的数据进一步发挥作用,才能更好的支持企业的决策 和分析。所以在近几年中,数据仓库技术发展很快,在各个行业都得到了一定程 度上的应用。 1 3 课题的主要研究内容 本课题主要研究的是数据仓库与o l a p 技术在社区领域的应用,建立了社区 管理统计分析系统,完成了对数据的多维分析。论文作者参与了进行需求分析、 总体方案设计、数据仓库模型设计、e t l ( e x t r a c t 、t r a n s f o r m 、l o a d i n g ) 、 o l a p ( o n l i n ea n a l y t i c a lp r o c e s s i n g ) 系统的设计实现等整个数据仓库的建立的设 计和实现过程。但最主要负责数据仓库模型的设计和o l a p 系统的设计实现。论 文作者具体的工作内容和成果有: ( 1 ) 对大量社区数据特点进行分析,考虑到具体的社区业务要求,并结合 数据仓库的基本原理,设计实现了社区管理统计分析系统的数据仓库模型( 包括 概念模型、逻辑模型、物理模型) 。数据仓库的设计就是在三个模型的依次转换 过程中实现的。 ( 2 ) 制定了o l a p 系统的设计方案。结合用户需求,设计、实现了多维分析 北京工业大学工学硕士学位论文 立方体,完成了0 l a p 系统的在线多维分析的功能。数据仓库建立完成后,需要 对数据仓库的信息进行分析决策。在线分析处理( o l a p ) 技术就可以对数据进 行复杂的查询处理,决策人员可以得到很直观、容易理解的形式的结果,使他们 可以快速准确的了解社区的情况和特征。论文作者设计并实现了0 l a p 系统,利 用设计好的立方体,进行发布,然后在门户网站上对多维立方体进行多维分析, 此系统也已经正式投入使用。 1 4 论文的安排 本文的内容结构安排如下: 第一章为绪论,主要介绍了北京市社区管理统计分析系统的研究背景和建设 的必要性,数据仓库的国内外发展现状以及课题的研究内容和论文的安排。 第二章为数据仓库与o l a p 技术的基本原理,主要介绍了数据仓库与o l a p 技术的基本概念、发展特点、实现方法等等。 第三章为社区管理统计分析系统的设计与实现,主要研究了社区管理统计分 析系统数据仓库模型的设计和实现过程。 第四章为o l a p 系统的设计实现,主要是进行o l a p 在线分析系统的设计 实现,进行多维立方体设计和发布,通过的w e b 的方式对社区数据进行多维分析。 最后为结束语,总结本文的工作,探讨下一步的研究工作。 第2 章数据仓库基本原理与o l a p 技术 第2 章数据仓库基本原理与0 l a p 技术 在了解课题研究的背景和意义,以及数据仓库的发展现状的基础上,本章将 深入讨论数据仓库和0 l a p 相关理论和关键技术。 2 1 数据仓库 2 1 1 概述 数据仓库是从数据库系统发展而来的。传统数据库系统是基于企业的日常事 务处理工作的,企业的信息系统运行很长时间,积累了大量的数据,但没有充分 发挥作用,它很难实现对数据分析的高效处理,已经不足以获得市场竞争的优势, 企业需要对其自身业务的运作以及整个市场相关行业的态势进行分析,而做出有 利的决策,这种决策需要对大量的业务数据包括历史业务数据进行分析才能得 到。管理决策层对数据分析基础平台的需求日益强烈,这种事务性数据库体系已 经无法满足数据处理多样化的要求b 1 。人们尝试对数据库中的数据进行再加工, 形成一个综合的、面向分析的环境,以更好支持决策分析,从而形成了数据仓库 技术。数据仓库弥补了原有的数据库h 1 的缺点,将原来的以单一数据库为中心的 数据环境发展为一种新的体系化环境。数据仓库更像一种过程,即对分布在企业 内部各处的业务数据进行整合、加工和分析的过程,而不是一种可以购买的产品。 对于数据仓库,w i l lj a mh i n m o n 先生给出了的比较精确的定义:数据仓库( d a t a w a r e h o u s e ) 是一个面向主题的( s u b j e c to r i e m e d ) 、集成的( i n t e g r a t e d ) 、反映历史 变化的( t i m ev a r i a n t ) 、相对稳定的( n o n v o l a t i l e ) 的数据集合,用于支持管理决 策。业务数据库数据与数据仓库数据的区别,如表卜1 所示: 表1 = 1业务数据库数据与数据仓库数据的区别 t a b l e1 1t h ed i f f e r e n c e sb e t w e e nd a t a b a s ed a t aa n dd a t a w a r eh o u s ed a t a 业务数据库数据数据仓库数据 原始数据操作型数据导出数据分析型数据 面向应用面向主题 详细的综合的 日常业务工作为管理者提供决策 需求预先可知需求事先不可知 非冗余存在冗余 北京下业大学工学硕上学位论文 一次访问一个单元一次访问一个集合 2 1 2 数据仓库特点 ( 1 ) 面向主题业务数据库的数据组织面向事务处理任务,各个业务系统 之间是分离的,而数据仓库中的数据按照一定的主题域睛1 进行组织。主题是一个 抽象的概念,是在较高层次上将企业信息系统的数据进行综合、归类并进行分析 的对象。在逻辑意义上,它对应着企业某宏观分析领域所涉及的分析对象。面向 主题的数据组织方式,就是在较高层次上对分析对象数据的一个完整、一致的描 述,全面的刻画各个分析对象所涉及的企业的各项数据,以及数据之间的联系。 ( 2 ) 集成面向事务处理的操作型数据库通常与某些特定的应用有关,数 据库之问相互独立,并且是异构的。而数据仓库中的数据是在对原有分散的数据 库数据抽取、清理的基础上汇总、集成1 得到的,消除数据的不一致性,以保证 数据仓库内的信息是关于整个企业的一致的全局信息。 ( 3 ) 相对稳定操作型数据库中的数据通常实时更新,数据根据需要及时 发生变化。数据仓库口1 的数据主要供企业决策分析之用,一旦某个数据进入数据 仓库以后,一般情况下将被长期保留,所涉及的数据操作陋1 主要是查询操作,加 载后的数据极少更新,但并不意味着数据仓库中数据不更新归1 ,也需要定期加载、 刷新。 ( 4 ) 反映历史变化操作型数据库的数据只是关心当前数据,也就是某一 段时间内的数据,而数据仓库中的数据通常包含历史信息,通过信息,对企业的 发展和未来趋势给与分析和决策n0 1 。这也是数据仓库要完成的最根本的任务。 2 1 3 数据仓库的设计原理 数据仓库设计的原则是要坚持以当前数据基础和质量环境等情况进行数据 源分析,结合业务方向性需求确定系统范围和以需求框架为原则进行数据仓库设 计并进行数据仓库建模。模型是对现实事物的反映和抽象,它可以帮助我们更加 清晰的了解客观世界。数据仓库建模在业务需求分析中开始的,是数据仓库构造 工作正式开始的第一步,正确而完备的数据模型是用户业务需求的体现,是数据 仓库项目成功与否最重要的技术因素。数据仓库建模技术主要有: ( 1 ) 三范式数据仓库建模它和操作型数据库系统的三范式建模在侧重点 上有些不同。数据仓库三范式建模方法分为三层,第一层是实体关系层,也即企 业的业务数据模型层,在这一层上和企业的操作型数据库系统建模方法是相同 的;第二层是数据项集层,在这一层的建模方法根据数据的产生频率及访问频率 等因素与企业的操作型数据库系统的建模方法产生了不同;第三层物理层是第二 第2 章数据仓库基本原理与o l a p 技术 层的具体实现。它最大优点就是从关系型数据库的角度出发,结合了业务系统的 数据模型,能够比较方便的实现数据仓库的建模。缺点是由于建模方法限定在关 系型数据库之上,可能反而限制了整个数据仓库模型的灵活性和性能。 ( 2 ) 数据仓库的维度建模维度建模n 订是一种面向用户需求的、容易理 解的、访问效率高的建模方法。维度模型这种模式由一组属性构成的表所组成, 表跟表之间的关系通过关键字和外键来定义,是一种非规范化的关系模型。它 以良好的可理解性和方便的产生报表来进行数据组织,很少考虑修改的性能, 通过s q l 或者相关的工具实现数据的查询和维护。在维度建模设计n 2 1 的数据仓 库中,实现展现的速度虽然很快,但由于存在大量的预处理,其建模过程相对 来说就比较慢。当业务问题发生变化,原来的维不能满足要求时,需要增加新 的维,但由于事实表的主键由所有维表u 3 1 的主键组成,这个过程中维的变动将 是非常复杂、非常耗时的。这种建模方式比较适合于预先定义好的问题,如需 要产生大量报表的场合;而不适合用于动态查询较多、系统可扩展能力要求高 或者数据量n 町很大的场合。维度建模分为星型结构建模和雪花结构建模。 星型模式:是一种多维的数据关系,它由一个事实表( f a c tt a b l e ) 和一组维 表( d i m e n s i o nt a b l e ) 组成。每个维表都有一个维作为主键n 5 1 ,所有这些维组合 成事实表的主键,也就是,事实表主键的每个元素都是维表的外键n 引。事实表 的非主属性称为事实( f a c t ) ,它们一般都是数值或其他可以进行计算的数据, 而维大都是文字、时间等类型的数据。 雪花模式:是星型结构的一个扩展,由多个表定义一个或者多个维度。在 雪花结构中,只将主维度表与事实表连接。其它维度表连接到主维度表。 2 1 4 数据仓库设计的基本步骤 2 1 4 1 概念模型的设计在原有的业务数据库的基础上建立一个较为稳固的概 念模型,因为数据仓库n 力是对原有数据库系统中的数据进行集成和重组而形成的 数据集合,所以数据仓库的概念模型设计,首先要对原有数据库系统加以分析理 解,看在原有的数据库系统中“有什么力、“怎样组织的 和“如何分布的 等, 然后结合用户的需求来考虑应当如何建立数据仓库系统的概念模型。概念模型的 设计是在较高的抽象层次上的设计,因此建立概念模型时不用考虑具体技术条件 的限制。主要完成以下工作: ( 1 ) 界定系统的边界数据仓库是面向决策分析的数据库,我们无法在数 据仓库设计的最初就得到详细而明确的需求,但是一些基本的方向性的需求还是 摆在了设计人员的面前:要做的决策类型有哪些? 决策者感兴趣的是什么问题? 北京工业大学工学硕 = 学位论文 这些问题的需要什么样的信息? 要得到这些信息需要包含原有数据库系统的哪 些部分的数据? 根据这个思路,我们可以划定一个大致的系统边界,集中精力对 最需要的部分的进行开发。因而,从某种意义上讲,界定系统边界的工作也可以 看作是数据仓库系统设计的需求分析,因为它将决策者的数据分析需求用系统边 界的定义形式反映出来。 ( 2 ) 确定主要的主题域在这一步中,需要确定所包含的主题域,然后对 每个主题域的内容进行比较和明确,主要任务是确定系统要分析的主题域及其包 含的内容。 确定系统边界主要是要深入了解目前的业务数据库中的操作型数据,了解需 求信息,确定数据的覆盖范围。确定主题域是确定系统所包含的主题域及其包含 的内容和主题域之间的联系。 2 1 4 2 逻辑模型的设计逻辑建模是数据仓库实施中的很重要一环,因为它能 直接反映出业务部门的需求,同时对系统的物理实施有着重要的指导作用。包括 以下几个任务: ( 1 ) 需要分析主题域,完成对主题域所包含的内容的进一步细化,每一个 主题域包含若干个数据表,确定要装载的主题。 ( 2 ) 确定分析的角度和选定维度,构建维度表。每一张维表n 羽对应现实世 界中的一个对象或者概念。维表中所存放的一般是对事实表中度量的描述,每 个维表都包含一个单一的主键,该主键和事实表中的外键构成主外键的关系。 维表的特征是它包含了众多描述性的列;维表的范围很宽( 具有多个属性) ;通 常情况下,行数相对较小,通常小于1 0 万条;内容相对固定;几乎就是一类查 找表 ( 3 ) 确定事实,构建事实表。事实表n 叼是多维数据模型中最主要的表,用 于存放要分析的对象和相关维表的键值。每一个事实表的行包括具有可加性的数 值型的度量值和与维表相连接的外键。它的特点是数据量非常的大,包含几万、 几十万甚至几千万条的记录;内容相对的窄,列数较少;经常发生变化,典型情 况下,仅仅是数据的追加。 2 1 4 3 物理模型的设计这一步所做的工作主要是根据信息系统的容量和复杂 度以及数据仓库项目自身的软件生命周期来确定数据仓库系统的数据表( 维表和 事实表) 的存储结构,确定索引策略,确定数据存放位置,确定存储分配等等。 ( 1 ) 确定数据表的存储结构要考虑到存取时间的快慢、空间利用率和维 护代价的大小等因素。 ( 2 ) 确定索引策略因为数据仓库中的数据比较稳定,可以设计多种索引, 第2 章数据仓库基本原理与o l a p 技术 以获得很高的存取效率。 ( 3 ) 确定存放位置可以根据重要程度、使用频率和响应时间对数据进行 分类,不同类的数据可以存放在不同的存储设备中。 ( 4 ) 确定存储分配选择存储分配的参数,划分存储块和缓存区。 2 144 数据的e t l 过程数据的e t l ( e x t r a c t 、t r a n s f o r m 、l o a d i n g ) 过程是 建立数据仓库的非常重要的工作。数据仓库中的数据大多是来源于不同环境的数 据,会产生不同格式的数据、错误的数据等等,这些被称为“脏数据 。要保证 数据仓库数据的质量,必须对数据进行检查,去掉不符合要求和不需要的这些“脏 数据”,转换成自己需要的数据格式呦1 ,然后把需要的数据加载到数据仓库中, 这就是e t l 工作的内容。 2 1 4 5 数据仓库的生成设计好数据仓库的各种模型,从关系数据库、外部数 据文件等数据源中抽取数据,并进行清洗、转换、加载和刷新等步骤将数据集成 到数据仓库中并按照设计好的主题组织起来,数据仓库就建立起来了。 2 20 l a p 技术 2 2 1 概述 数据仓库是管理决策分析的基础,若要有效地利用数据仓库中的信息资源, 必须有强大的工具对信息进行分析和决策瞳,联机分析就是一个得到广泛应用的 数据仓库应用分析技术。o l a p 是独立于数据仓库的一种技术概念,其基本思想 是:企业的决策者,应能灵活地操纵企业的数据,以多维的形式从多方面和多角 度来观察企业的状态、了解企业的变化。o l a p 的目的在于共享多维信息的快速 分析。o l a p ( o n l i n ea n a l y t i c a lp r o c e s s i n g ) 专门用于支持复杂的决策分析,它可 以根据分析人员的要求,迅速、灵活地对大量数据进行复杂的查询处理晗羽,并且 以直观的、容易理解的形式将查询结果提供给各种决策人员,使他们迅速、准确 地掌握企业的运营情况,了解市场的需求。o l a p 在技术上有两个特点瞳副:一是 在线( o n l i n e ) ,表现为用户请求的快速响应和交互操作,它的实现是由客户机 朋艮务器结构完成的;二是多维分析( m u l t i - a n a l y s i s ) ,这是o l a p 的核心所在。 2 2 20 l a p 定义 o l a p ( o n l i n ea n a l y t i c a lp r o c e s s i n g ,联机分析处理) 是关系数据库之父 e f c o d d 提出的。o l a p 理事会的定义:o l a p 瞰1 是一种软件技术,它使分析人 北京t 业大学工学硕:l :学位论文 员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。 这些数据是从原始数据直接转换过来的,并以用户容易理解的方式反映企业的真 实情况。 2 2 30 l a p 的特征 o l a p 具有如下优点: ( 1 ) 快速性用户对o l a p 的快速反应能力有很高的要求。系统应能在5 秒内对用户的大部分分析要求做出反应。如果终端用户在3 0 秒内没有得到系统 响应就会变得不耐烦,因而可能失去分析的主线索,影响分析质量。对于大量的 数据分析要达到这个速度并不容易,因此就需要一些技术上的支持,如专门的数 据存储格式、大量的事先运算、特别的硬件设计等。 ( 2 ) 可分析性o l a p 系统应能处理与应用有关的任何逻辑分析和统计分 析。尽管系统需要事先编程,但并不意味着系统已定义好了所有的应用。用户无 需编程就可以定义新的专门计算,将其作为分析的一部分,并以用户理想的方式 给出报告。用户可以在o l a p 平台上进行数据分析,也可以连接到其他外部分析 工具上,如时间序列分析工具、成本分配工具、意外报警、数据开采等。 ( 3 ) 多维性多维性是o l a p 的关键属性。系统必须提供对数据分析的多 维视图和分析,包括对层次维和多重层次维的完全支持。事实上,多维分析是分 析企业数据最有效的方法,是o l a p 的灵魂。 ( 4 ) 信息性不论数据量有多大,也不管数据存储在何处,o l a p 系统应 能及时获得信息,并且管理大容量信息。这里有许多因素需要考虑,如数据的可 复制性、可利用的磁盘空间、o l a p 产品的性能及与数据仓库的结合度等。 2 2 40 l a p 的几个重要概念 ( 1 ) 维:是对数据进行分类的一种结构,用于从特定的角度来观察数据。维 有两个主要用途:选择期望详细程度的层次的数据;分别对细节数据聚集到相应 的详细程度的数据层次。 ( 2 ) 维的层次:特定角度的不同细节程度构成维的层次,而代表不同详细程 度的维层次又组成维层次路径,维层次路径就是维的组织方式。 ( 3 ) 维的成员:维的一个取值称为该维的一个维成员。 ( 4 ) 事实( 度量) :数据的实际意义,一般是一个数值度量指标。可以是数 字型指标或者是聚集函数。 ( 5 ) c u b e s ( 立方体) :按照一定维层次结构和度量组织起来的,逻辑上相当 第2 章数据仓库基本原理与o l a p 技术 于一个多维数据集。 2 2 5o l a p 的多维分析 o l a p 的多维分析是决策支持的支柱,也是o l a p 的核心。是指对多维数据 进行切片、切块、旋转、钻取等操作来分析数据,方便用户从多个角度和侧面去 了解自己所需的数据。 ( 1 ) 切片:在多维数组的某一维上选定一个维成员乜副,即从1 1 _ 维数组中选取 n 1 个子集,设多维数组( 维l ,维2 ,维1 1 ,变量) ,在维i 上,选定维成员 v i ,则多维数组的n 1 维子集( 维l ,维i 1 ,维成员v i ,维i + l ,维1 1 , 变量) 为在维i 上的一个切片;或者选定多维数据的一个二维子集,多维数组( 维 l ,维2 ,维1 1 ,变量) 除维i ,维j 外,每个维都取定一个维成员v k ( 1 k n 且k i ,k j ) 则:多维数组的二维子集( v l ,v i - i , 维i ,v i + i ,v j - 1 , 维j , v i + l ,v n ,变量) 简单表示为:( 维i ,维j ,变量) 为维i 和维j 上的一个切片,是 一个二维“平面”。 ( 2 ) 切块:在一个多维数据集上的某一维上选定某一区间的维成员,即限制 某一维的取值空间。可以把切块汹3 看作是多个邻接的切片迭合而成。 ( 3 ) 钻取和卷取:钻取是对数据进行更为细节性的观察。卷取与钻取的动作 正好相反,是对数据进行更为宏观的观察。 ( 4 ) 旋转:改变一个者页面所显示的维度,把维的行列互换,显示出不同的 报表或内容。 2 2 6o l a p 的实现结构 数据在物理上分为三种存储结构:m o l a p 、r o l a p 、h o l a p 。 ( 1 ) r o l a p ( r e l a t i o n a lo l a p ) 表示基于关系数据库的o l a p 实现。利用关 系数据库来存储和管理基本数据和聚合数据,并利用一些中间件来支持缺失数据 的处理。它并不生成多维立方体嘲,只是存储数据模型与数据仓库之间的映射关 系,真正的物理存放在数据仓库中。在进行多维分析时,用户通过客户端工具向 o l a p 服务器提交多维分析请求,o l a p 服务器动态的将这些请求转换成s q l 语句执行,分析的结果经多维处理转化为多维视图返回给用户。 r o l a p 一般采用星型或者雪花模型来表达多维数据视图。星型模式由一个事 实表和多个维表组成,并且维表和事实表都用二维关系表的方式存放在数据仓库 中。维表存放相关属性,事实表以外关键字与各维表相连接,并存储各维表的度 量。但星型模式不支持层次关系,雪花模型对维表进行了扩展,提供了层次的现 北京工业大学1 = 学硕士学位论文 实表达,即维表有多于一个的层次,则添加子维来表示。因而简化了维表的维护 【1 9 】,使层次更加清晰,优点是可扩展性强。r o l a p 的结构的主要特点是灵活性 强,用户可以动态定义统计和计算方式,但是实现起来比较复杂,对用户的分析 请求处理时间会比较慢。 ( 2 ) m o l a p ( m u l t i d i m e n s i o n a lo l a p ) 基于多维数据组织的o l a p 实现。 以多维数据组织方式为核心,m o l a p 利用一个专门的多维数据库来存储o l a f 分析所需要的数据,多维数据则多存储在多维立方体( c u b e ) 中,对“立方体” 的“旋转”、“切块”、“切片”,来产生多维数据视图。m o l a p 结构中,o l a p 服 务器主要是通过已预处理的数据完成分析操作,而这些预处理是预先定义好的, 这就使得这种结构能迅速地响应决策人员的分析请求并快速地将分析结果返回 给用户。如表2 1 所示,给出了m o l a p 和r o l a p 的特点的对比乜引。 表2 - 1m o l a f 和r o l a p 特点对比表 t a b l e2 1 田舱d i f f e r e n c e sb e t w e e nm o l a pa n dr o l a p r o l a pm o l a p 没有大小限制,现有关系数据库技性能好、相应速度快,专为o l a p 优点 术可以使用;可以通过s q l 语句实 设计;可以进行预处理,可以实现 现各种数据的存储;灵活性好。维之间的计算 响应速度比较慢;不支持有关预计 灵活性差,转载速度慢:维护起来 缺点不方便;预处理使得无法实现维德 算,无法完成维之间的计算 动态变化 ( 3 ) h o l a p ( h y b r i do l a p ) 利用关系数据库来存储和管理基本数据,利用多 维数据库来存储和管理聚合数据。h o l a p 结构不是m o l a p 和r o l a p 结构的 简单组合,而是这两种结构技术优点的有机结合,能满足用户各种复杂的分析请 求。 2 3 本章小结 本章深入讨论了数据仓库与o l a p 相关理论及其关键技术。首先探讨了数据 仓库的概念,然后介绍了数据仓库的特点、设计原理、设计的基本步骤等。接着 介绍了o l a p 技术,着重介绍了o l a p 的特征、基本概念、多维分析和实现结构等。 在熟悉相应的关于数据仓库和0 l a p 的相关理论后,在以后的章节将分析社 区领域的数据仓库的建设和0 l a p 的实现设计和展现,将理论应用于实际,设计 实现社区管理统计分析系统。 第3 章社区管理统计分析系统的设计与实现 第3 章社区管理统计分析系统的设计与实现 上一章讲述了数据仓库与o l a p 的基本理论和实现的技术,本章研究数据仓 库在社区中的应用,根据社区数据的特点,设计社区管理统计分析系统的各种模 型,并且生成数据仓库。 3 1 系统的建设目标 基于北京市社区信息化建设的现状和实际需求,社区管理统计分析系统建设 的主要目标是为了建立全市社区管理的统一视图,全面、及时、准确地掌握北京 市社区建设和社区人口情况,了解北京市人口与结构的基本特征,加快社区各项 制度的改革,有效调控城市的规模,加快社区建设和管理,为建设现代化的城市 管理服务。根据系统建设目标,社区管理统计分析系统在总体上需要解决以下几 个问题: ( 1 ) 建立社区数据仓库中心为了加强对社区人口与其他社区组织等进行 有效管理,对社区工作进行有效监控,从大量数据中发现对管理、服务和城市发 展的有益信息,为各级领导提供可靠的决策依据,必须在现有的“社区管理信 息系统”的基础上建设社区数据仓库中心。数据中心集中了社区人口、户籍情况, 社区文化体育、社区服务以及社区环境等基本信息,为社区管理和社区信息分析 提供良好的基础。 ( 2 ) 社区数据的抽取和加载“社区管理信息系统”的社区数据,很多是冗 余的、带有噪音的数据,要想转化为可供分析的基础信息,必须经过抽取、刷新 处理。经过处理后,加载入社区管理数据中心,作为数据分析的基础。 ( 3 ) 基于社区数据仓库中心的在线分析系统 经过有效处理的数据加入社 区数据中心后,就可以利用在线分析系统对数据进行深入分析。在线分析系统提 供了钻取、旋转、切片、切块等基本分析功能,并可用各种图形展现分析结果。 在线分析系统是整个系统的前端工具,是发现信息、决策分析的核心。 3 2 系统的建设原则 北京市社区服务管理分析系统在建设过程中充分利用现有的业务系统资源, 采用先进的数据仓库和联机分析处理技术,结合业务的实际需要,具体情况具体 分析,建立高性能、低成本的系统。系统设计的基本原则如下: ( 1 ) 技术先进性与成熟性在设计系统时,从北京市社区服务中心的实际情 北京工业大学t 学硕士学位论文 况出发,结合相关行业的先进经验,充分利用当前先进、成熟、稳定的技术,力 求最优化的设计。使得系统不仅能够满足现有业务活动的需求,也能满足各级管 理人员的在线统计分析的需求,适应未来发展方向。 ( 2 ) 安全性和保密性社区上报的数据涉及大量的个人隐私和地区安全的 数据,因此市数据中心的数据必须具有高度的安全性和保密性,保证数据不被非 法入侵者破坏和盗用,并保证数据的一致性。 ( 3 ) 准确性提供多种数据核查或检测手段,保证系统的准确性。 ( 4 ) 灵活的即时数据分析系统可以根据分析人员的要求,快速、灵活地把 查询和复杂分析操作的结果以直观、易懂的方式展现出来,便于决策人员发现隐 藏在多维数据内部的有用信息,从而准确地掌握业务状况并制定正确决策啪1 。 3 3 系统的整体架构设计 3 3 1 系统总体架构 整个系统由四个部分组成:如图3 - 1 所示: 数据源 数据仓库 报表分析 前端展示 凰 分析人员 旦 决策人员 图3 - 1 系统结构图 f i g u r e3 - 1t h es n u c t i o nd i a g r a mo f t h es y s t e m ( 1 ) 数据源数据源是整个社区

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论