(计算机软件与理论专业论文)普通中小学督导评价汇集系统olap分析数据源的构建.pdf_第1页
(计算机软件与理论专业论文)普通中小学督导评价汇集系统olap分析数据源的构建.pdf_第2页
(计算机软件与理论专业论文)普通中小学督导评价汇集系统olap分析数据源的构建.pdf_第3页
(计算机软件与理论专业论文)普通中小学督导评价汇集系统olap分析数据源的构建.pdf_第4页
(计算机软件与理论专业论文)普通中小学督导评价汇集系统olap分析数据源的构建.pdf_第5页
已阅读5页,还剩84页未读 继续免费阅读

(计算机软件与理论专业论文)普通中小学督导评价汇集系统olap分析数据源的构建.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

f 一 独创性声明 本人郑重声明:所提交的学位论文是本人在导师指导下独立进行研究 工作所取得的成果。据我所知,除了特另, j d l :l 以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写过的研究成果。对本人的研究做出重要贡 献的个人和集体,均已在文中作了明确的说明。本声明的法律结果由本人 承担。 学位论文作者签名: 丕远拯 日期: 学位论文使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规 定,即:东北师范大学有权保留并向国家有关部门或机构送交学位论文的 复印件和电子版,允许论文被查阅和借阅。本人授权东北师范大学可以将 学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或其它复制手段保存、汇编本学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:丕亟後 e l期:勤纽:么 学位论文作者毕业后去向: 工作单位: 通讯地址: 指导教师签名: 日期: 电话: 邮编: 摘要 第三次全国基础教育工作会议提出“要探索建立现代中小学管理制度,建立 政府为主,社会各界共同参与的学校发展、管理与监督机制,鼓励社区、家长参 与学校管理,形成社区积极支持基础教育改革和发展、积极参与学校管理与监督 的模式”。由此可见,政府有关职能部门、各级政府在推进现代学校制度建设 中扮演者相当重要的角色并承担着相关责任。 评价是现代教育的一个重要的管理工具,开展教育评价的过程就是科学有序 的管理过程,中小学督导评价“规范、发展”型模式的运作过程同时也是强化学 校管理的过程。 然而,现有用户的督导评价过程,是根据各地制定的评价方案所做的手工业 务处理过程,它具有很多的业务局限性及分析局限性。 针对这些局限性,本文主要完成了以下几个工作:设计并实现了普通中小学 督导评价汇集系统数据仓库系统的多维数据模型;利用微软的商务智能工具设计 并实现了该数据仓库系统中各维表、事实表的数据抽取一转换一加载( e t l ) 过程; 最后,利用o l a p 服务器m o n d r i a n 对数据仓库系统中的数据进行了多维分析建模 并最终实现了综合分析展现。在利用该多维数据模型对督导评价结果进行综合分 析的过程中,将从评价方案角度、学校所在地区角度、学校级别角度、参评者角 度、评价时间角度、学校历史评价结果等角度进行,最终综合分析结果将为教育 部门督促、指导各中小学发展提供数据依据。 关键词:数据仓库;多维模型;e t l ;维表;事实表 a b s t r a c t t h et h i r ds e s s i o no ft h en a t i o n a lb a s i ce d u c a t i o np r o p o s e d t oe x p l o r et h e e s t a b l i s h m e n to fam o d e ms c h o o lm a n a g e m e n ts y s t e m ,t oe s t a b l i s had e v e l o p m e n t , m a n a g e m e n ta n dm o n i t o r i n gm e c h a n i s m so fs c h o o lc e n t e r e db yt h eg o v e m m e n ta n d c o v e r e de v e r yc o m m u n i t yt op a r t i c i p a t ei n ,e n c o u r a g i n gt h ec o m m u n i t ya n dp a r e n t st o p a r t i c i p a t ei nt h es c h o o lm a n a g e m e n t ,a c t i v e l ys u p p o r tt h er e f o r ma n dd e v e l o p m e n to f t h eb a s i ce d u c a t i o n ”a c c o r d i n gt ot h e s e ,r e l e v a n tg o v e r n m e n tf u n c t i o n a ld e p a r t m e n t s a n de a c hl e v e lo fg o v e r n m e n ta c t o rv e r yi m p o r t a n tr o l e sa n db e a rr e l e v a n t r e s p o n s i b i l i t i e si np r o m o t i n gt h eb u i l d i n go f t h em o d e ms c h o o ls y s t e m e v a l u a t i o ni sa l li m p o r t a n tm a n a g e m e n tt o o lf o rm o d e me d u c a t i o n , e d u c a t i o n e v a l u a t i o np r o c e s si sas c i e n t i f i ca n do r d e r l ym a n a g e m e n tp r o c e s s ,t h e ”n o r m a t i v ea n d d e v e l o p i n g ”一t y p em o d eo fo p e r a t i o np r o c e s si nt h es u p e r v i s i o ne v a l u a t i o no fp r i m a r y a n ds e c o n d a r ys c h o o li sa l s oap r o c e s st os t r e n g t h e nt h es c h o o lm a n a g e m e n t h o w e v e r ,t h ee x i s t i n gs u p e r v i s i o ne v a l u a t i o np r o c e s si sb a s e do nt h ee v a l u a t i o n o ft h ep r o g r a mt h r o u g h o u tt h ed e v e l o p m e n to fb u s i n e s sp r o c e s sd o n eb yh a n d i th a sa l o to fo p e r a t i o n a ll i m i t a t i o n sa n da n a l y s i sl i m i t a t i o n s a g a i n s to ft h e s el i m i t a t i o n s ,t h i ss u b j e c td e s i g n e dam u l t i - d i m e n s i o n a ld a t a m o d e lo ft h ed a t aw a r e h o u s es y s t e m ,i ta l s ou s e di m p l e m e n t e dt h ed a t aw a r e h o u s e s y s t e mp h y s i c a l l yb yt h em i c r o s o f t sb u s i n e s si n t e l l i g e n tt o o l s ,b yt h et o o l s ,i tr e a l i z e d t h ed a t ae x t r a c t i o n t r a n s f o r m - l o a d ( e t l ) p r o c e s so ft h ed i m e n s i o nt a b l e sa n dt h e f a c t t a b l e s ,f i n a l l y , i t u s e da no l a ps e r v e r - m o n d r i a n i m p l e m e n t e d t h e m u l t i - d i m e n s i o n a la n a l y s i sm o d e la n dt h ec o m p r e h e n s i v ed i s p l a yo ft h ed a t ai nt h e d a t aw a r e h o u s e i nt h eu s eo ft h em u l t i d i m e n s i o n a la n a l y s i sm o d e lt oo v e r s e et h e e v a l u a t i o nr e s u l t s ,i tw i l ld ot h ea n a l y s i sf r o mt h ee v a l u a t i o np r o g r a mp e r s p e c t i v e , s c h o o ld i s t r i c tp e r s p e c t i v e ,t h es c h o o l l e v e lp e r s p e c t i v e ,e v a l u a t o rp e r s p e c t i v e ,t h e h i s t o r i c a le v a l u a t i o nr e s u l t so ft h es c h o o lp e r s p e c t i v ea n ds oo n ,t h e f i n a l c o m p r e h e n s i v ea n a l y s i sr e s u l t sw i l lb eu s e df o rt h ee d u c a t i o ns e c t o rs u p e r v i s i n ga n d g u i d a n c et h ed e v e l o p m e n to ft h es c h o o l s k e yw o r d s :d a t aw a r e h o u s e ;m u l t i d i m e n s i o n a lm o d e l ;e t l ;d i m e n s i o nt a b l e ;f a c t t a b l e 目录 摘要i a b s t r a c t l i 目勇之i 第一章引言1 1 1 本文研究背景和意义1 1 2数据仓库研究现状2 1 3 本文所要解决的问题及内容安排3 第二章数据仓库相关理论及基础5 2 1 从数据库到数据仓库5 2 2 数据仓库及其相关概念i j 8 2 2 1 数据仓库定义8 2 2 2 数据仓库的几个重要相关概念。9 2 3 数据仓库体系结构12 2 4 数据仓库的构建过程( 生命周期) 13 2 4 1 项目规划瀚 2 4 2 业务需求定义15 2 4 3 数据轨迹:维度建模15 2 4 4 数据轨迹:物理设计15 2 4 5 数据轨迹:数据登台设计与开发15 2 4 6 技术轨迹:技术结构设计16 2 4 7 技术轨迹:产品选择与安装16 2 4 8 应用轨迹:最终用户应用规范16 2 4 9 应用轨迹:最终用户应用开发16 2 4 1o 部署16 2 4 1 1 维护与增长17 2 4 1 2 项目管理17 2 5 数据仓库的模型设计17 i i i 2 5 1 概念模型设计19 2 5 2 逻辑模型设计2 0 2 5 3 物理模型设计2 1 2 6 数据仓库维度建模2 2 2 6 1 维度建模相关概念2 2 2 6 2 维度建模的过程2 3 2 6 3 维度建模的深入讨论一2 4 2 6 4 维度建模过程中要避免的常见错误2 8 2 7 数据e t l 技术2 9 2 7 1 数据e t l 概述2 9 2 7 2 数据抽取策略3 1 第三章普通中小学督导评价汇集系统数据仓库的设计及构建3 2 3 1 普通中小学督导评价汇集系统项目分析3 2 3 1 1 系统需求分析3 2 3 1 2 数据源分析3 3 3 1 3 数据仓库系统构建原因3 5 3 2 数据仓库系统概念模型的建立3 7 3 2 1 系统边界的设定3 7 3 2 2 业务主题的确定3 8 3 2 3 概念模型的设计3 9 3 3 数据仓库系统逻辑模型的设计4 0 3 3 1 粒度层次的确定4 0 3 3 2 维表设计4 0 3 3 3 事实表设计4 4 3 4 基于s s m s 的数据仓库系统物理模型的实现4 5 3 4 1 数据仓库实施阶段任务及环境4 5 3 4 2 维表的创建4 5 3 4 3 事实表的创建4 7 3 4 4 数据仓库多维模型的实现4 7 一 第四章基于s q ls e r v e r2 0 0 5 集成服务的普通中小学督导评价数据仓库e t l 子系统的 设计及开发4 9 4 1s s i s 服务概述4 9 4 2e t l 子系统设计概述5 0 4 2 1e t l 设计思想及步骤5 0 4 2 2 特殊维度表的e t l 设计方法5 1 4 3 督导评价数据仓库中各维度模型的e t l 设计5 3 4 3 1 数据仓库维度模型的e t l 设计全局流程图5 3 4 3 2 维度表的e t l 设计流程图5 4 4 3 3 事实表的e t l 设计流程图5 6 4 4 督导评价数据仓库e t l 子系统的开发5 8 4 4 1 起始5 8 4 4 2e t l 子系统控制流的开发5 9 矗, 4 4 3 维度表的数据流开发6 0 4 4 4 事实表的数据流开发6 4 4 4 5 部署、调度及管理s s i s 程序包6 6 第五章基于m o n d r i a n 的数据展现和数据仓库维护6 8 5 1 基于m o n d r i a n 的数据展现6 8 5 2 数据仓库的维护。7 1 第六章总结和展望7 2 参考文献7 5 致谢7 9 v v 1 东北师范大学硕士学位论文 第一章引言 1 1 本文研究背景和意义 目前,国内众多省市级教育部门利用信息技术监督、指导各学校的教学管理 工作,其部门内部运行着各种信息管理系统及数据库。各个事务管理系统在长时 间的运行过程中积累了大量的历史数据,但由于各部门缺乏信息意识和相关的技 术支持,教育部门管理者们只能通过简单的统计、排序等方法得到这些数据所包 含的表面信息,并据此对各学校的教学、管理等各方面的工作进行监督、指导已 较为普遍。 现有业务局限性: ( 1 ) 原有督导评价流程手工处理时间赶不上需要,响应不及时。 ( 2 ) 各学校不能及时上报自评结果,手工汇总结果时间长,步骤繁琐。 ( 3 ) 督导员无法及时上报实际评价结果,导致教育机构不能及时掌握各学 校督导评价等级情况。 ( 4 ) 学校不能及时掌握教育机构的评价方案及评价结果,学校不能及时改 进学校各方面工作。 同时,对于产生这些评价结果的某些内在因素,如:学校类型、学校所属机 构、评价者与被评学校之间的关系、评价标准的变更、学校领导的变换等,仅仅 通过简单的统计运算难以发现。运用这种简单的统计计算,这些数据中所蕴含的 真正有价值的信息则很难得到深层次的分析和利用。采用何种方法来达到对这些 蕴含高价值信息的数据进行深层次的分析和利用的目的,并最终将这些数据转化 为可供参考的知识,到达更好的指导各基础教育体系的办学、管理工作的目的, 是很多省市级教育部门正在考虑的问题。 因此,如何通过这些内在因素来更加客观的分析展示历史评价结果,对省市 级教育部门对症下药地指导各学校的教学管理工作提供决策依据,是本文研究的 重点。 东北师范大学硕士学位论文 黑龙江省各级教育部门也积累了大量有关学校信息的数据,依据传统数据库 技术我们无法对这些数据进行有效的综合性分析,要想找出蕴藏在这些数据中的 规律则更加不可能。通过数据仓库( d w ) 技术和联机分析处理( o l a p ) 技术,可对 各级教育部门多年来在其各种联机事务处理系统中所累积的操作型事务数据进 行全方位的综合性分析。首先,利用数据仓库技术我们可以把分布的甚至是异构 的操作型数据库系统中的数据提取出来,并对这些数据进行各种诸如转换等的预 处理操作,最终为决策分析人员提供可供参考的数据;其次,联机分析处理技术 可利用事先建立的数据仓库系统中存储的数据作为数据基础构建分主题的多维 分析模型,最终从业务用户的角度将分析结果展现给决策分析人员,给他们提供 客观依据以供决策参考。 当然,该数据仓库模型的目标是支持全面、大量的数据存储,并依靠o l a p 技术实现高层次的决策支持,它的实施并非要替代我们现有的、已成熟的关系型 数据库系统,相反,它是在现有的成熟的关系数据库系统的基础上构建出包含更 为全面而且完善的信息且最终主要用于支持高层决策分析的系统。 1 2 数据仓库研究现状 目前,国外在数据仓库方面的研究工作主要包括以下三个方面:一,提出 o l a p 概念,对支持o l a p 应用的多维数据库开展了一些初步的探讨,提出了几个 多维数据模型。二,对复杂的数据分析和决策所需要的基本操作进行了考察分析, 提出了c u b e 操作和多维聚集操作,设计并实现了c u b e 操作和多维聚集操作。三, 研究了数据仓库的体系结构、物理化视图的选择、物理化视图的维护、逆向从数 据仓库中的综合数据恢复出原始数据、快速收集并有效存取数据等问题。瞳儿3 1 作为一个新兴的研究领域,数据仓库发展得很快,很多大学和公司都在这个 领域内进行着广泛深入的研究,其中尤其以斯坦福大学、i b m a l m a d e n 研究中心、 维斯康幸大学、微软和a t & t 的研究最具代表性。瞳3 1 斯坦福大学的一名为 “w h i p s ”的项目,研究目标是生成一些高效的、自动集成异构数据的算法和工 具。这个课题组提出了一个基本的数据仓库模型和一些相应的算法。工 b m a l m a d e n 研究中心和微软的一个称为“q u e s t 的项目,研究重点是多维数据 2 东北师范大学硕士学位论文 库的建模和组织。维斯康幸大学和a t & t 的研究则侧重于实视图l o a p 数据组织、 数据立方体计算等方面。 在我国,数据仓库市场启动相对较晚,这主要是由当时我国的应用基础尚不 完善和企业意识不足等因素共同决定的。但随着我国信息化建设的不断完善和应 用意识的逐渐提高,幢儿3 1 我国的数据库工作者也在数据仓库方面开展了一些研究 工作,但这些工作仍然较为零散、且都还处于初步阶段,它们并没有把数据仓库 系统的实施当作一个独立的系统实施过程来进行研究,同时对数据仓库技术也没 有一个较为全面的、系统的认识。现有的很多相关研究都仍然是建立在利用操作 型数据库管理系统来实施分析型数据仓库系统的基础之上进行的。在我国一些行 业特别是银行、证券、保险、电信、税务等,数据仓库得到了越来越广泛的应用, 但是比起国外大企业所建立的巨型企业级数据仓库来讲,其实只能算是刚刚起 步,还存在很多不足的地方。特别是在我国教育行业中,数据仓库应用的深度和 普及性还远远不够,除数据积累不够充分、数据规模不够大等因素外,真正能够 完整实施数据仓库方案的人才严重匮乏也是一个非常严重的制约因素。瞳3 3 1 3 本文所要解决的问题及内容安排 本课题以黑龙江省各级教育部门多年来积累的学校基本信息数据、评价方案 基本数据、评价者基本信息数据、评价结果数据等作为数据源,通过建立多维数 据模型,以期从多维度对各被评学校的成绩进行分析,拟得出被评价学校的突出 优缺点,对被评价学校在评价方案中进行完整和全面的管理,科学的统计和分析, 可获取有益的数据和信息。具体的分析方案包括如下几种: 学校分布情况分析:从地理位置、学校等级、教学语言等几个方面来分析展 现学校的分布情况。 评价结果分布情况分析:横纵向从地理位置、学校等级、今往领导等各方面 比较各参评学校的评价结果优劣分布情况。 系统使用情况分布:从不同时段、时间、用户等角度分析展现系统各功能的 使用分布情况( 该分析有助于系统设计者、维护人员后期对系统进行维护、改进) 。 为了解决这些问题,本课题的研究采用以下步骤来完成: 爨 东北师范大学硕士学位论文 第一章:引言。简要描述了本课题的研究背景和意义,并对数据仓库技术的 研究现状和未来可能的发展方向、本课题的内容安排及要解决的问题、其可能产 生的现实意义等方面进行简要的阐述。 第二章:数据仓库相关理论及基础。本章阐述了数据仓库技术的基本概念及 其相关的关键技术的理论知识,为本课题的数据仓库系统实施提供理论参考。 第三章:数据仓库维度建模。介绍数据仓库维度建模相关理论知识,为本课 题的数据建模研究提供理论基础及依据。 第四章:普通中小学督导评价汇集系统数据仓库的设计及构建。本章首先对 督导评价汇集系统进行了项目分析,依据项目分析,在参考第三章中的模型设计 理论基础上,依次设计并实施了该普通中小学督导评价汇集系统数据仓库系统的 概念模型设计、逻辑模型设计和物理模型设计;最后,利用微软的s o ls e r v e r 2 0 0 5 数据库管理平台实现了普通中小学督导评价汇集系统数据仓库系统的多维 数据模型。 第五章:基于s o ls e r v e r2 0 0 5 集成服务的普通中小学督导评价数据仓库e i l 子系统的设计及开发。本章重点介绍在利用微软的s o ls e r v e r2 0 0 5 集成服务的 基础上设计并实施了普通中小学督导评价汇集系统数据仓库系统实施过程中的 e t l ( 抽取一转换一装载) 子系统的过程。 第六章:基于m o n d r i a n 的数据展现和数据仓库维护。本章主要是运用o l a p 服务器m o n d r i a n 对数据仓库中的数据进行了多维模版展示。 第七章:总结和展望。本章主要是对本课题研究的普通中小学督导评价汇集 系统数据仓库系统进行一个整体性的评价,分析该系统的优劣,最终指出其不足 之处及需要改进的地方,并预测了该系统可能的发展方向。 - _ _ _ _ _ _ _ i o _ - _ _ _ _ - _ _ _ - 。_ _ _ _ _ _ _ _ _ _ _ _ _ o _ o _ _ _ _ _ _ _ _ _ _ _ _ - _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ 。_ _ _ _ _ _ _ - _ _ _ _ _ _ _ _ _ _ _ _ _ - _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ - _ _ _ _ _ - _ _ _ _ _ _ _ - _ _ _ _ _ _ _ _ _ 。_ _ _ _ 。_ _ _ 。_ _ _ _ 。_ _ - 4 东北师范大学硕士学位论文 第二章数据仓库相关理论及基础 2 1 从数据库到数据仓库 计算机系统的功能由最初的数值计算发展到今天的数据管理经历了三十几 年的光影。计算机系统最初实现的数据管理形式主要是文件管理系统,对于文件 管理系统而言,用户如若想要访问相关的数据,则必须依赖特定的程序,同时, 用户对数据可进行的存取方式也是较为固定的。直到1 9 6 9 年,e f c o d d 博士发 表了他著名的关于关系数据模型的论文。此后,一个新的数据管理时代诞生了一 一关系数据库管理。 从2 0 世纪8 0 年代至今,联机事务处理( o l t p ) 数据库系统在操作型应用的诸 多方面都有着至关重要的作用。曾有人这样感慨说:2 0 年前查不到想要的数据 是因为数据实在太少,而今天查不到想要的数据则是因为数据实在太多。随着时 间的流逝,操作性数据库系统中累积的历史数据在不断增多,诸多企业的高层领 导都意识到这些积累的数据中蕴藏着价值连城信息,通过对这些价值连城的历史 数据的分析可以为他们制定下一步决策计划提供依据h 3 。设计并实施数据仓库系 统的最终目的就是为了通过一种特定的方式来组织这些联机事务处理数据库中 累积的大量历史数据,希望通过对这些海量的历史数据的综合分析能够最终用于 支持业务决策者的业务决策过程。数据仓库系统中存储的数据一般情况下都是通 过将各种分布的甚至是异构的数据源中的数据按照各种定义规则进行集成而得 到的。数据仓库系统通过整合这些异构的、分布的、不一致的、甚至是错误的数 据,按照一定的业务规则将其进行清理和转换,使他们最终能够准确一致,最后 按照已设计的数据模型对其进行组织加载使这些数据可实现轻松高效的查询和 分析。 数据仓库技术是伴随着应用需求的不断演化、数据管理技术的不断发展而诞 生的,它是数据库技术的延伸和发展。乜朝数据仓库技术虽然是从数据库技术延 伸发展而来的,但是两者在很多方面都存在着很大的差异,最大的区别是他们所 东北师范大学硕士学位论文 存储的数据。晗5 3 传统的用于操作型事务处理的数据库系统中存储的数据称作操 作型数据,这些数据值会伴随着事务的发生而不断的发生变化。而主要用于支持 决策分析的数据仓库系统中存储的则是决策分析数据,在数据仓库系统中,除了 定时的导入新数据外,其原有数据几乎不发生任何改变,因此,我们说数据仓库 系统中的数据在一定程度上具有相对的稳定性。 数据仓库技术和传统数据库技术之间的不同包含以下7 个方面硷3 m 阳3 : 一、数据管理方式不同 在企业日常的事务型操作中,数据操作不仅有查询,而且有大量的插入、删 除、更新等操作,这些操作都可能改变数据库的状态。因此,在数据库技术中, 数据的完整性、一致性和并发性控制是数据库管理的首要问题。然而在数据仓库 应用系统中,除了向数据仓库系统中定期或不定期地加载新的数据之外,一般情 况下不会对数据仓库系统中存储的数据的状态进行更改,因此在数据仓库系统 中,数据的管理重点同数据库系统不同。乜5 1 二、数据面向对象不同 操作型数据库管理系统中存储的数据是主要是面向业务用户,用于日常的事 务处理;而数据仓库系统中存储的数据则主要是面向中高层管理人员和分析人 员,用于决策分析等。5 1 三、数据包含内容不同 数据库系统中存储的数据是关于业务发展状态的当前细节数据,是面向操作 的原始数据;而数据仓库系统中存储的数据则是历史数据,是将原始数据经过一 系列加工操作后得到的聚集数据。叫畸1 四、数据特性不同 数据库系统中存储的数据是随着业务状态的不断变化而动态发生变化的,只 要业务状态发生变化,数据就会发生变化。它表示的是当前业务情况的一个快照, 通常是一个时间点;而数据仓库系统中存储的数据则是相对静态的历史数据,系 统只会定期的加载新的成为历史的数据,并且新添加的历史数据不会覆盖原数 据,原数据和新添加的数据都会以基于时间的不同版本形式而被保存下来。乜习 五、数据用途不同 数据库系统中存储的数据常常是用于事务处理,事务处理的特征是事务发生 6 东北师范大学硕士学位论文 频繁,但每个事务所涉及的数据量较少。因此,数据库系统对于用户操作的响应 较快,通常数秒;而数据仓库系统则相反,它主要是用于分析型应用操作,一般 情况下,分析请求的数量不多,但每个分析请求都会涉及大量的相关数据,有时 甚至需要遍历整个企业的数据,这对于计算机的硬件资源和数据仓库系统自身的 设计都有很高的要求。因此,数据仓库系统对于用户的分析查询其响应时间一般 都很长,有时会长达数小时。嘲嘲 六、数据作用范围不同。 数据库系统中存储的数据是面向事务操作的( o l t p ) ,因此数据库系统中的 数据仅与一个或一些应用相关;而决策分析所需的数据通常都与本企业范围内所 有分布的、异构的甚至是非本企业内部的数据资源都相关。乜儿5 3 七、数据逻辑模型不同 数据库系统通常采用关系型二维表的形式来组织存储数据。业务人员对系统 中的数据所进行的操作一般都是针对单张表进行简单的查询、插入及删除等,有 时也会对少量的表进行连接操作;而进行数据仓库系统的设计过程中,设计者需 要依据业务需求,将数据以多维数据模型的模式进行组织,数据仓库技术主要是 采用多维数据模型的模式进行数据建模。最常用的多维数据模型是星型连接模 式,简称星型模式。乜司 由于决策分析处理提出了与以往的事务处理不同的业务需求,而传统的主要 用于事务处理的操作型数据库系统的数据分析效率又极其低下,运用原有的数据 库技术,很难将系统中存储的数据转化为有价值的信息,这就催化了数据仓库技 术的诞生。数据仓库技术,作为决策支持系统的辅助工具,是在现有的数据库技 术已经无法满足人们的决策分析需求的基础上,促使人们必须对传统的数据库技 术进行深入的研究和开发使其不断的发展而最终诞生的。数据仓库技术是数据库 技术不断发展的一个必然产物。当然,数据仓库技术的诞生并不是要取代或否定 我们现有的已相对成熟的操作型数据库系统,相反,它是在现有的成熟的数据库 系统的基础上构建出拥有更为全面和完善的信息应用系统,其最终目的是为了用 于协助决策分析者进行决策分析。 7 东北师范大学硕士学位论文 2 2 数据仓库及其相关概念 2 2 1 数据仓库定义 数据仓库的概念是w i l l i a mh i n m o n 在2 0 世纪8 0 年代中期在其著作 b u i l d i n gt h ed a t aw a r e h o u s e 中首先提出的,在该著作中,i n m o n 给“数 据仓库”如下的定义:“数据仓库是面向主题的、集成的、随时间不断变化的并 具有相对稳定性的数据集,它主要用于支持管理决策分析等过程。乜5 1 根据该定义,数据仓库技术主要具有如下四个特性2 3 3 喳3 : 一、面向主题性 数据仓库中的数据都是分主题进行组织的,它并不是按照传统的操作型数 据库系统中组织数据的那种组织方式即依据正在进行的事务信息进行组织。 主题是一个抽象的概念,它是相关数据的集合,这些数据集合对分析对象做了比 较完整的、一致的描述,这种描述不仅涉及到数据自身,而且还涉及到数据之间 的联系。在主题的划分中,每一个主题都具有独立性。在主题的数据组织中,不 同的主题之间可能会出现相互重叠的信息。陋儿朝例如,“短信”主题与“无线与 交换”主题在网元信息方面有相互重叠的信息。 二、集成性 数据仓库的集成性是指根据决策分析的要求,将分布的、异构的数据源中 的数据进行抽取、筛选、转换、清理等工作,经过系统加工、整理汇总到数据仓 库中,集成为一个整体,使数据仓库系统中存储的数据具有集成性。数据仓库系 统的数据源多种多样,不仅包含o l t p 系统中的数据,还包含历史数据,有时还 包括包含第三方数据,这些数据可能是异构的,因此,我们无法将这些数据直接 导入到数据仓库系统中,而必须对他们采取必要的处理之后才能装载。乜5 1 三、时变性 数据仓库系统中的所有数据都有特定的时间标识。数据仓库系统中的关键 结构都显式或隐式地包含有时间标识,数据仓库系统中存储的数据代表了在过去 某一时刻的一个数据快照。随着时间的推移,主题的相关信息不断地发生变化, 为了满足决策分析的需求,数据仓库系统需要不断的将那些新生成的信息重新按 照业务规则追加到数据仓库数据库系统中,也就是说数据仓库系统中会不断地生 东北师范大学硕士学位论文 成新的反映主题当前状况的信息快照。瞳5 1 四、稳定性 数据仓库系统中存储的数据通常是历史数据,我们很少对这些数据进行更 新操作,数据一旦进入到数据仓库系统中,就会保留一段相当长的时间。操作型 数据库系统中的数据通常都会伴随着事务的发生而不断更新的,而数据仓库系统 中的数据主要用来满足决策分析用户的查询、分析决策,因此,很少进行删除修 改操作,除非系统中存储的数据是错误的。由于数据仓库中的数据是经过加工处 理最后加载的,因此,当决策分析用户进行查询分析操作时,数据仓库系统的查 询效率较高,同时数据仓库系统可以保证不同的用户对同一主题即便是在不同的 时间进行查询其获得的结果是相同的,这也是数据仓库系统稳定性的一个体现。 【2 】i s 综上所述,我们可以从两个层次来理解数据仓库技术的概念:1 ) 数据仓库 系统主要是用于支持决策分析,主要是面向分析型数据处理,在数据的用途上, 它不同于事务数据库系统;2 ) 数据仓库系统中存储的数据是通过对多个异构的 数据源中的数据按照一定的业务过则进行有效集成,集成后按照之前确定的业务 过程进行组织,并包含操作性数据库系统中累积的历史数据一起而最终得到的, 存入数据仓库数据库系统中的数据在导入后一般不再进行修改。 由此我们可以看出,数据仓库系统中存储的数据不仅仅是一个简单的数据 大融合,它还是一个决策支持系统,它将来自多个异构的数据库系统中的或其它 类别数据源中的数据按照定义的业务规则和业务主题进行重新组织、集成,同时, 它也为上层的业务分析查询应用提供统一的用户接口,决策分析用户通过此接口 可直接完成对数据的查询以达到分析决策的目的。数据仓库系统除具有传统的操 作型数据库系统能够完成的功能( 查询、报表、统计等) 外,它还能够实现o l a p ( 联机分析处理) 、数据挖掘、知识发现、决策支持等应用。2 m m 3 。 2 2 2 数据仓库的几个重要相关概念 ( 1 ) 元数据( e le m e n t d a t a ) 数据是对事物的描述,“元数据”就是描述数据的数据,它提供了有关数据 的环境,包含数据库系统的所有存储信息、各个数据库和数据表中的字段信息、 9 东北师范大学硕士学位论文 数据表之间的关联信息、数据索引约束等 元数据对于一个数据仓库来说是很重要的元素。首先,它连接了数据仓库的 所有部分:其次,它为开发者提供了数据仓库的内容和结构的所有信息:最后,它 向最终用户打开数据仓库的大门,使得他们能够用自己的话语来辨识其中的内 容。数据仓库中的元数据主要分为三类:操作型数据、抽取和转换元数据、最终 用户元数据。 ( 2 ) 数据集市( d a t a m a r k e t ) 数据集市是指将数据仓库中的数据按照面向不同主题而在物理上或逻辑上 划分得到的数据子集。数据集市与数据仓库的主要区别在于应用的范围。数据集 市通常用于为单位的职能部门提供数据,还可用于将数据仓库中的数据分段以反 映面向不同的主题数据集市可以分为两种类型:独立数据集市和从属数据集市。 ( 3 ) 数据抽取( d a t a e x t r a c t i o n ) 从数据仓库的角度来看,并不是业务数据库中的所有数据都是决策支持所 必需的通常数据仓库按照分析的主题来组织数据,我们只需要抽取出系统分析 所必需的那部分数据。现有的数据仓库产品几乎都提供各种关系型数据接口,提 供数据抽取引擎,从关系型数据中抽取数据。 典型的数据抽取接口包括数据库接口和文件接口,对于不同数据平台、不同源数 据形式、不同性能要求和业务量的业务系统以及不同数据量的源数据,采取不同 的数据抽取接口。 ( 4 ) 数据清洗( d a t a c l e a n i n g ) 所谓“清洗”就是将错误的、不一致的数据在进入数据仓库之前给予更正 或删除,以免影响决策支持系统决策的正确性。对于决策系统来说,最重要的是 决策的准确性,因此确保数据仓库中的数据的准确性是极其重要的。一般,为不 同的应用对象建立不同的业务数据库,这样的业务系统中的各个业务数据库不可 避免地存在着重复或不一致的数据,因此,从多个业务系统中获取数据时,必须 对数据进行必要的清洗,从而得到正确的数据。 ( 5 ) 数据转化( d a t a t r a n s f o r m a t io n ) 数据转化是指依据数据仓库系统数据模型中的要求将业务数据库系统中的 源数据进行e t l 处理,使得最终加载到数据仓库系统中的数据是一致的、完整的。 1 0 东北师范大学硕士学位论文 一般情况下,以下几个过程中会涉及到数据转换处理: 1 ) 数据抽取过程; 2 ) 数据加载过程; 4 ) 数据进入仓库系统后。 ( 6 ) 数据加载( d a t a l o a d ) 数据加载就是指依据数据仓库系统中数据模型的定义将从源数据库系统中 抽取出的并已经处理好的数据装载入仓库系统。主要的数据加载技术有两种: 1 ) 使用数据仓库引擎厂商提供的数据加载工具进行。 2 ) 通过数据仓库引擎厂商提供的a p i 编程进行。 ( 7 ) 粒度( g r a n u l a r i t y ) 数据仓库中的数据存在着不同的综合级别,称为“粒度”。粒度可以分为 两种形式,第一种粒度是对数据仓库系统中存储的数据的聚合程度的一个度量, 粒度的选择会影响到数据仓库系统中最终存储的数据量,同时也会影响数据仓库 系统对于分析用户的分析查询的响应速度及利用该数据仓库系统所能完成的分 析查询类型。粒度越小,表示数据越细致,对应的聚合程度越低,数据仓库系统 中最终存储的数据量也就越大。在数据仓库中,多维粒度是必不可少的。另一种 粒度形式是样本数据库。它主要是依据给定的采样率从细节数据库系统中抽取一 个数据子集。 ( 8 ) 分割( d i s p e r s e ) 数据分割是指将数据分散到各自的物理单元中以便能够分别独立处理,提 高数据处理的效率。数据分割后的数据单元称为分片。数据分割没有固定的标准, 分割的方法及策略要根据实际情况及业务需求来确定。一般会选择时间、地点、 业务领域等因素作为分割的标准如果问题设计的数据量很大,还可以从多个角 度,综合多个分割标准来进行分割。 ( 9 ) 数据仓库总线结构 由于数据仓库的构建采用的增量方法,因此我们必须保证每次构建的数据 集市之间能够进行信息的交互探查,否则就会形成信息孤岛。为了保证能够构建 各数据集市之间能够相互通信的统一数据仓库,我们必须构建基于一致性维度和 事实之上的用于数据仓库展示环节的体系结构。而一致性维度和事实即是构成我 雾 东北师范大学硕士学位论文 们数据仓库总线结构的筋骨。 东北师范大学硕士学位论文 部数据的表现形式。要想决定到底采用什么产品和技术来建立数据仓库系统的核 心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行 抽取、清理,并有效集成,按照主题进行组织。 ( 3 ) o l a p 服务器 对分析需要

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论