(信号与信息处理专业论文)数据仓库在高校教学成绩数据分析中的应用研究.pdf_第1页
(信号与信息处理专业论文)数据仓库在高校教学成绩数据分析中的应用研究.pdf_第2页
(信号与信息处理专业论文)数据仓库在高校教学成绩数据分析中的应用研究.pdf_第3页
(信号与信息处理专业论文)数据仓库在高校教学成绩数据分析中的应用研究.pdf_第4页
(信号与信息处理专业论文)数据仓库在高校教学成绩数据分析中的应用研究.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

l 一一u l l l _ - - _ _ _ _ _ _ _ - _ _ _ _ _ _ - i - _ _ l _ _ - _ _ _ - _ _ - l l _ _ _ _ _ _ _ _ _ _ _ l _ _ l - l - _ _ _ 。l l - _ _ _ _ _ _ _ _ 。- _ _ _ _ - _ - l l _ _ _ _ _ - _ - _ _ _ l _ _ - _ _ - _ - _ 一i li i l l l - i i “= 二- 论文题目:数据仓库在高校教学成绩数据分析中的应用研究 学科专业:信号与信息处理 研究生:田维波 指导教师:吴学毅副教授 签名: 签名: 摘要 随着传统关系数据库技术的迅速发展和规模的不断扩大,使得各高校可以通过教务管 理系统实现网上注册、网上选课和网上录入成绩等操作功能,也具备了一定的统计分析和 报表功能,大量教务成绩数据被存储下来,形成了宝贵的数据资源。但对数据的多角度分 析和挖掘隐藏在历史数据背后的信息还比较薄弱,因此决策管理层希望通过对历史数据的 多维分析和数据挖掘,从中得出规律,并将其运用到日常的教学管理当中,为学校的教学 管理提供决策支持。 本文对数据仓库和o l a p 技术进行了研究,结合高校教学成绩数据的分析要求,设 计了两大的主题:一个是学风主题,通过校级、学院级和专业级三个层面数据的分析反映 学生的学风情况;另一个是教学效果主题,通过教师所带课程成绩和全校成绩的对比分析、 教师所带课程成绩各专业对比分析、教师所带课程成绩5 年对比分析和教师职称与教学效 果分析四方面数据的分析,反映教师的教学效果情况。以这两大主题的分析为需求出发, 遵循数据仓库分析设计原则,结合数据源的数据结构,提炼出教学成绩分析数据仓库所需 的度量、属性、维度和层次结构,并设计相应的维表和事实表。系统采用雪花型结构设计 实现了教务成绩数据分析数据仓库。使用s q ls e r v e r2 0 0 8 的i n t e g r a t i o ns e r v i c e s 功能, 从学生成绩数据库中抽取数据并通过e t l 过程实现了数据到数据仓库中的抽取、转换和 加载。为了较好的将统计分析结果形象的展现给用户,本文采用了固定格式报表结果分析 和o l a p 多维分析两种方式。其中固定格式报表提供用户常见数据分析所需的图形和表 格,并得出简单结论;o l a p 多维分析通过建立多维数据立方体的过程,将分析结果结合 多维数据立方体浏览器和e x c e l 透视表功能,以多维数据分析的方式进行展示,实现了多 维观察方式的灵活设置,数据的上探、下钻、旋转、切片和切块等功能,达到了从不同角 度分析问题的效果。并通过n e t 技术实现了分析结果的w e b 浏览方式。 关键词:教学成绩;数据仓库;o l a p :e t l 西安理工大学硕士学位论文 a b st r a c t t i t l e :r e s e a r c ho na p p l i c a t i o no fd a t aw a r e h o u s ei na n a l y s i so f u n i v e r s i t ys t u d e n t sa c h i e v e m e n t m a j o r s i g n a la n di n f o r m a t i o np r o c e s s i n g n a m e :w e i b ot i a n s u p e r v i s o r - a s s o c i a t ep r o f x u e y iw u a b s t r a c t s i g n a t u r e :2 丝兰里丕舅 s i g n a t u r e :遄选蚴i a st h et r a d i t i o n a lr e l a t i o n s h i pd a t a b a s et e c h n o l o g yr a p i d d e v e l o p m e n ta n dc o n t i n u o u s e x p a n s i o no ft h es c a l e ,t h eu n i v e r s i t yc a nb ea c h i e v e do n l i n ee n r o l l m e n t ,o n l i n ee n t r ys c o r e s a n do t h e ro p e r a t i n gf u n c t i o n st h r o u g ht h ee d u c a t i o n a la d m i n i s t r a t i o ns y s t e m ,a l s ow i t ha c e r t a i n a m o u n to fs t a t i s t i c a l a n a l y s i sa n dr e p o r t i n gc a p a b i l i t i e s ,al a r g en u m b e ro fs t u d e n t s a c h i e v e m e n td a t ai s s t o r e d ,f o r m e d av a l u a b l ei n f o r m a t i o n r e s o u r c e h o w e v e r , t h e m u l t i d i m e n s i o nd a t aa n a l y s i sa n dm i n i n gi n f o r m a t i o no fh i d d e nb e h i n dt h eh i s t o r i c a ld a t ai s s t i l lr e l a t i v e l yw e a k ,t h u st h ed e c i s i o n - m a k i n gm a n a g e m e n th o p e st od r a wr u l ef r o mh i s t o r i c a l d a t aa n a l y s i sa n dd a t am i n i n g ,a n d a p p l yi t t od a i l yt e a c h i n gm a n a g e m e n tf o r s u p p o r to f s c h o o l st e a c h i n gd e c i s i o n i nt h i sp a p e r , t h ed a t aw a r e h o u s ea n do l a pt e c h n o l o g yw e r es t u d i e d t or e a l i z et h e s t u d e n t s a c h i e v e m e n td a t aa n a l y s i sw ed e s i g nt w ot h e m e s :at h e m ef o rt h es t y l eo fs t u d y , t h r o u g ht h eu n i v e r s i t yl e v e l ,c o l l e g el e v e la n dp r o f e s s i o nl e v e la n a l y s i so ft h et h r e ea s p e c t sd a t a , r e f l e c tt h es t u d e n t ss t u d ys t y l es i t u a t i o n ;t h eo t h e ri st h et h e m eo ft e a c h i n ge f f e c t i v e n e s s , t h r o u g ht h ec o m p a r a t i v ea n a l y s i so fc o u r s eg r a d e so f 羽is c h o o la n dc o u r s eg r a d e st e a c h e r s t e a c h i n g ,t h ec o m p a r a t i v ea n a l y s i so fe v e r yp r o f e s s i o n a lc o u r s eg r a d et h et e a c h e rt e a c h i n g ,t h e c o m p a r a t i v ea n a l y s i so f5 - y e a rc o u r s eg r a d e st h et e a c h e rt e a c h i n ga n dc o m p a r a t i v ea n a l y s i so f t e a c h e r s p r o f e s s i o n a lt i t l e sa n dt e a c h i n ge f f e c t i v e n e s sa n a l y s i s ,t h i sf o u ra s p e c t so ft e a c h i n g e f f e c t i v e n e s sa n a l y s i so ft h ed a t ar e f l e c t st h et e a c h i n ge f f e c t i v e n e s s t i l i sa r t i c l ef o c u s e so nt h i s t w ot h e m e sf o rn e e d s ,f o l l o w st h ea n a l y s i sa n dd e s i g np r i n c i p l e so ft h ed a t aw a r e h o u s e , c o m b i n e st h ed a t as o u r c et oe x t r a c tm e a s u r e s ,a t t r i b u t e s ,d i m e n s i o n sa n dh i e r a r c h i e s ,a n dt o d e s i g nt h ea p p r o p r i a t ed i m e n s i o n st a b l e sa n df a c tt a b l e s t h es y s t e mu s e st h es n o w f l a k es c h e m a d e s i g nt oa c h i e v et h ew a r e h o u s eo fs t u d e n t s a c h i e v e m e n t sd a t aa n a l y s i s u s i n gi n t e g r a t i o n s e r v i c e sf u n c t i o no fs q ls e r v e r2 0 0 8 ,t oe x t r a c td a t a ( e t lp r o c e s s ) f r o mt h e s t u d e n t a c h i e v e m e n td a t a b a s e ,t oe x t r a c t 。t ot r a n s f e ra n dt of i l lt h ed a t ai n t ow a r e h o u s e i no r d e rt o i i i 西安理工大学硕士学位论文 b e t t e rv i s u a l i z et h er e s u l t so ft h es t a t i s t i c a la n a l y s i sp r e s e n t e dt ot h eu s e r , t h es y s t e mu s e sa f i x e df o r m a tr e p o r t sa n dt h eo l a pm u l t i d i m e n s i o n a la n a l y s i s f i x e df o r m a tr e p o r t sw h i c h p r o v i d et h eu s e rc o m m o nd a t aa n a l y s i st h a tr e q u i r e df o rg r a p h i c sa n dt a b l e s ,a n dd r a ws i m p l e c o n c l u s i o n s ;o l a pa n a l y s i st h r o u g ht h ee s t a b l i s h m e n to ft h ep r o c e s so fm u l t i - d i m e n s i o n a lc u b e , a n dt od i s p l a yt h er e s u l t so ft h ec u b eb yc u b eb r o w s e ra n de x c e lp i v o tt a b l ef u n c t i o n s ,h a v e a c h i e v e dt h ed r i l ld o w n ,r o l lu p ,r o t a t e ,d i c ea n ds l i c ee t c ,h a v er e a c h e dt h ep u r p o s eo fd i f f e r e n t p o i n to fv i e wo ft h ep r o b l e m a n dt h r o u g h n e tt e c h n o l o g yt oa c h i e v et h er e s u l t so fw e b b r o w s i n g k e yw o r d s :s t u d e n t sa c h i e v e m e n td a t a ;d a t aw a r e h o u s e ;o l a p ;e t l i v 绪论 1 绪论 1 1 课题研究背景 随着我国高等教育体制的不断改革,在校大学生人数骤然攀升,多数高校的教学体制 逐渐由学年制向弹性学分制过度,之前的教务管理分析系统中保存了大量的教学历史数 据,这些数据真实的反映了高校的日常教学情况。但是这些数据只是简单的保存在数据库 中,并没有从中找到有用的信息,为高校的管理决策提供科学的依据。 在当前经济社会快速发展的大形势之下,作为学校的管理层逐渐形成了学生就是教育 的本质的意识,只有不断的提高高校自身的教学质量,才能培养出在社会上有竞争力的毕 业生,也才能赢得学生和家长的信赖,在社会上创出品牌,最终实现自己的发展壮大。 因此,各高校需对教学成绩数据进行分析,找出自己的不足,发扬自己的长处,以质 量求生存。目前这些工作,一般运用电子表格及某些联机事务处理软件( o n l i n e t r a n s a c t i o np r o c e s s i n g 简称o l t p ) ,对某门课程的某次成绩进行及格率和成绩分布的统 计,其处理方式几乎都是对特定的简单数据进行处理,而不能从各个科目、不同班级和不 同层次进行比较分析,即就是不能很好的进行横向和纵向的分析。这些软件主要侧重于教 学日常管理,教学成绩数据的分析统计只是其中的一小部分内容。同时,这些软件不能利 用大量的历史数据提供决策支持。 由于存在这些问题,一项新的数据库技术数据仓库,已经逐渐开始应用于高校的日 常管理当中。基于数据仓库( d a t aw a r e h o u s e 简称d w ) 的联机分析处理技术( o n l i n e a n a l y t i c a lp r o c e s s i n g 简称o l a p ) ,可以多层次、多角度的对科目难易程度和学生成绩高 低进行分析,对专业基础课成绩和专业课成绩进行相关性分析等,能直观的反应出各个层 次( 校级、学院级和专业级) 学生成绩的优劣、学风的差异和老师的教学效果,从而更好 的发现问题,解决问题,进而改进教学手段,提高教学质量,帮助教学管理人员做出及时 正确的判断1 。 1 2 研究现状 1 2 1d w 数据仓库在国外的应用已较为普遍,首先被应用于金融、电信、保险等主要传统数据 处理密集型行业,并呈现出应用较早、在电子化数据积累方面比较领先、业务应用较为丰 富、业务人员i t 背景较强、有比较完善的管理和实施等特点。从目前看,处于世界5 0 0 强的企业多数都在建设或已经建设完成数据仓库系统,处于世界前列的电信运营企业均建 设有数据仓库系统。国外电信运营商数据仓库的建设起始于2 0 世纪9 0 年代中后期,如 a t & t ,从1 9 9 7 年夏天开始建设数据仓库,一直到2 0 0 1 年8 月才完成,用了近4 年时 间,经过了多次改造,新增了1 8 个数据源,并进行了大规模的节点和系统的扩展。西南 贝尔的数据仓库建设开始于1 9 9 4 年,是当时最大的数据仓库,到2 0 0 0 年9 月份时已达到 西安理工大学硕士学位论文 1 7 8 个节点,7 1 2 0 个1 8 2 g 的磁盘,数据库容量达1 2 8 t b ,2 0 0 4 年9 月时达到3 1 4 个节 点,数据库容量达2 4 2 t b “1 。 近几年来,随着中国经济的发展、市场竞争的加剧和企业信息化的需要,国内的数据 仓库市场得到了迅猛发展,如金融行业引入数据仓库进行信用分析、风险分析、欺诈检测, 如邮政行业引入数据仓库进行基本业务分析,铁道部门引入数据仓库进行客流分析,零售 业通过数据仓库进行产品管理分析等。但总的来讲,国内数据仓库的建设和应用起步较晚, 与国外相比还有相当的差距,并呈现出投入大、产出大,应用处于起步阶段,人才匮乏等 特点。 有公司调查结果显示,投资数据仓库的公司,2 3 年内的平均回报率为3 2 1 n 1 。虽 然数据仓库技术不够完善,但是它所带来的经济效益,必将刺激国内外数据仓库市场的快 速发展。 1 2 20 l a p o l a p 是数据仓库的前端展示方式之一。o l a p 专门设计用于支持复杂的分析操作, 侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活的进行 大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以 便他们准确掌握企业的经营状况,从而制定正确的方案。近些年来,有很多公司推出了自 己的o l a p 产品,如h y p e r i o n 的h y p e r i o ne s s b a s eo l a ps e r v e r 、o r a c l e 的e x p r e s ss e r v e r 、 i bm 的i b mo l a pf o rd b 2 、m i c r o s o f t 的m i c r o s o f to l a ps e r v i c e ,s y b a s e 的w a r e h o u s e a n a l y z e r 等。 在国外,o l a p 发展到今天已经相当的成熟。它的关键技术支持复杂的分析操作,支 持侧重决策支持,提供直观易懂的查询结果,得到了用户的一致好评,并且朝着和其他数 据库技术和网络技术融合的方向发展。如w e b 技术和o l a p 的融合。 虽然我国的o l a p 技术起步较晚,但随着数据仓库技术在国内的快速发展和应用,以 及使用数据仓库技术的企业数量的激增,使得o l a p 技术已经从单纯的研究走向了应用, 并且发展迅速。随着时间的推移必将有大量的国产o l a p 软件的诞生。 1 2 3 报表工具 报表作为数据仓库的前端展示,是用来帮助用户展现自己输入的数据,是将数据库中 的数据,以客户想要的方式展现出来。对于目前主流的报表设计工具,按照报表的设计方 式区分,大体可以分为三类,即表格式布局、区段式布局和智能式布局。每一种方式对应 典型的产品,表格式布局类报表有安讯公司的e s p r e a d s h e e t 、f a r p o i n t 公司的f a r p o i n t s p r e a d 、润乾公司的润乾报表、帆软公司的f i n e r e p o r t ;区段式布局报表有b u s i n e s so b j e c t s 公司的水晶报表、杰创公司的杰表、f a s tr e p o r t s 公司的f a s t r e p o r t ;智能式布局报表有安 讯公司的百灵报表( b i r t ) 和微软的s q ls e r v e rr e p o r t i n gs e r v i c e s ( s s r s ) 。 4 绪论 目前,国际品牌的报表工具,基本上都能把数据库的数据取出来,运算排列后制作出 动态的变化统计报表,功能相当的完善,也就是“报”的能力不错。但是,由于东西方在文 化上的差异,导致国内的很多用户不习惯使用国外的报表,既就是“表的功能在国内水 土不服。所以国产报表还是作为报表工具市场的主角。在国内打破“洋报表 一统天下的 有润乾公司和帆软公司,他们和“洋报表 形成三足鼎立之势。 每一种典型的产品在具备其特有优点的同时也带有一些缺点。因此,在选择报表工具 时,要根据具体的使用要求作出合理选择。由于b u s i n e s so b j e c t s 是全球领先的商务智能 ( b i ) 软件公司,并且操作简单、支持o l a p ,本文采用了b u s i n e s so b j e c t s 的水晶报表。 1 2 4d w 和0 l a p 在教学成绩分析中的应用 随着教育体制改革的推进和在校学生人数的迅速增多,现今的教育教学管理也发生了 巨大的变换,与之相适应的现代化教学手段也在逐渐完善,也涌现了不少优秀而实用的软 件和系统5 1 。高考恢复之后,计算技术较早的应用在高校的招生领域,代替了原始的计 算方法“1 。高校上世纪九十年代教育部推出了d o s 版的高等学校教学管理系统,后来又 和其他院校合作开发了w i n d o w s 版和网络版,西北大学等分别推出了适合自己的排课系 统,到了上个世纪末,清华大学、青苹果公司和南京苏亚星公司等推出了比较综合的教学 管理信息系统,现在各种教学管理和分析系统层出不穷,使我国在高校教学管理和分析上 有了长足的进步1 。 就现有的此类系统,几乎都是学籍管理、课程管理、成绩管理、数据管理、数据安全 和数据的简单分析,而在数据的分析上更侧重于界面设计和单科成绩的效果评价,几乎没 有对数据资源的整合和综合利用的实例n 1 。现在的高校教学管理系统主要为了规范业务 流程和提高工作效率,是面向事务的。但是没有从管理的角度来考虑管理数据信息,不能 得到有效的分析统计信息,无法从历年的各种数据中,提炼出对新政策的制定有效的决策 支持。为了解决面对的新问题,很多个人和机构已经尝试将数据仓库、o l a p 技术和数据 挖掘技术引入到教学管理当中: 沈阳工业大学的杨蒇通过对单科成绩分析、多科目问和跨年度成绩分析,结合学校的 学籍管理等数据分析的结果,对学生学习态度、认知能力、教师的教学水平及教学效果等 方面进行了评价和总结,并通过s q ls e r v e r2 0 0 0 完成多维数据库的构建,利用d e l p h i 的 d e c i s i o nc u b e 组件实现了数据的钻取、切片等,实现了成绩数据的多维分析,最终将分 析结果通过d e c i s i o n g r a p h 组件显示出来5 1 。 河海大学的陈林在招生数据分析处理上,创建了招生录取数据的数据仓库,构建了相 关的多维建模,然后以宿迁学院近3 年来的招生数据为依托,利用s q ls e r v e r2 0 0 0 的 各种服务实现了数据的提取、转换和加载,构建录取基本情况和专业志愿分析两大主题多 维数据立方体1 。 西安理工大学硕士学位论文 重庆大学的王海使用m i c r o s o l rs q ls e r v e r 最为开发工具,利用m i c r o s o t 良a n a l y s i s s e r v i c e s 创建多维数据集,结合j s p 、m i c r o s o f to f f i c ew e b 组件等技术创建前端展示工具, 构建基于w e b 的o l a p 决策支持系统9 1 。 数据仓库技术和联机分析处理技术在国外各个行业的管理层,系统的组织、理解和使 用它们的数据进行战略决策提供了体系结构和工具n 们,并且已经日臻完善。在国内已经 不是单纯的研究,已经向产品的开发及技术的应用迈进。但是其在教务决策支持中的成熟 应用还很少见。 1 3 课题研究目的和意义 通过对教务处工作的实际调研,以及数据仓库技术和联机分析处理技术等相关知识的 学习,以西安理工大学教务管理系统中五年的学生成绩数据为基础,结合学生成绩数据的 分析需求,设计两大分析主题:学风主题和教学效果主题,以这两大主题为出发点设计教 学成绩数据仓库,通过数据的e t l 过程完成数据从数据源到数据仓库的抽取、转换和加 载,从而完成教学成绩数据仓库的构建,通过o l a p 技术对数据仓库中的数据进行分析。 围绕分析主题,通过固定报表格式和多维报表格式最终实现灵活多角度的观察问题的方 式,通过n e t 技术完成分析结果的w e b 浏览方式。实现d w 技术和o l a p 技术学生成绩 评价等方面中的应用,主要是从决策层关心的各个角度观察相关数据,并根据结果分析影 响教学效果的因素,从而提高学校的教学质量。 数据仓库作为新型的数据库管理技术,成功的应用在许多企业公司中,并已取得不错 的经济效益。相对而言,数据仓库在教育领域的应用还较少,因此将数据仓库引入高校教 学管理之中,对现有教务管理系统中的教学成绩数据进行快速、灵活、多角度、多层次的 分析,以期发现对学校教学管理、学生管理有用的知识,为学校各级领导部门的决策,提 供切实可行依据,将具有重大的现实意义。 1 4 课题的主要工作 通过对教学成绩数据及相关文献的学习分析,及历年教学成绩的分析,结合数据仓库 技术和联机分析处理技术,针对公共课成绩( 大学物理、大学英语和高等数学等) 设计了 两大主题,以两大主题为需求建立教务成绩数据仓库,完成数据的e t l 过程,构建了教 学成绩多维数据立方体,选用m i c r o s o f ts q ls e r v e r2 0 0 8 分析服务器在服务器端实现多 维分析,在客户端利用e x c e l 透视表功能实现多维分析。并通过n e t 技术实现了分析结果的 w e b 浏览方式。 本课题主要完成了以下工作,概括为: ( 1 ) 通过和教务处工作人员的交流,整理总结所获得的需求信息,设计实现了两大主 题:学风主题和教学效果主题。其中学风主题,通过校级、学院级和专业级三个层面数据 的分析反映学生的学风情况:教学效果主题,通过教师所带课程成绩和全校成绩的对比分 6 绪论 析、教师所带课程成绩各专业对比分析、教师所带课程成绩5 年对比分析和教师职称与教 学效果分析四方面数据的分析,反映教师的教学效果情况。 ( 2 ) 阅读了大量的国内外文献,对数据仓库技术、o l a p 技术和前端展示工具进行了 深入的研究。 ( 3 ) 根据数据仓库技术和o l a p 技术的设计原则,结合数据源的数据结构,从需求分 析中提炼出教学成绩分析数据仓库所需的度量、属性、维度和层次结构,并设计相应的维 表和事实表。系统采用雪花型结构设计实现了教务成绩数据分析数据仓库。 ( 4 ) 使用s q ls e r v e r2 0 0 8 的i n t e g r a t i o ns e r v i c e s 功能,首先完成维表的e t l 过程, 再完成事实表的e t l 过程,手动解决空值和数据格式不一致等问题,从而完成学生成绩 数据仓库的e t l 过程。 ( 5 ) 通过固定报表格式和多维分析方式给出分析结果。报表工具选择b u s i n e s so b j e c t s 公司的水晶报表,通过编程调用报表的a p i 来实现操作报表,实现报表和底层数据库、 数据仓库数据链接等功能。其中多维分析方式是通过多维数据立方体浏览器和e x c e l 透 视表功能实现的,从而实现了多维观察方式的灵活设置,数据的上钻、下探、旋转、切片 和切块等功能。 ( 6 ) 通过n e t 技术设计实现b s 模式下的教学成绩数据的分析平台,实现了分析结果 的w e b 浏览方式。 西安理工大学硕士学位论文 8 基础理论 2 基础理论 。 数据仓库,是在数据库已经大量存在的情况下,为了填补现有数据存储形式已经不能 满足信息分析的需要,为了进一步挖掘数据资源,为了支持决策需要而产生的。它并不是 所谓的“大型数据库”,而是一个提供信息的平台,它以现有企业业务系统和大量业务数 据的积累为基础,为用户提供各种从数据中获取信息和知识的手段。数据仓库建设的目的 是为了更好的为前端应用服务,并作为前端查询和分析基础。数据仓库理论核心理念就是 决策支持。 2 1 数据仓库技术 什么是数据仓库? 数据仓库有多种定义方式,没有一种特别严格的定义。数据仓库是 一种技术,不很严格的讲,是一种数据库技术,是一种解决方案,而不是一种产品“1 j 。 它将各种应用系统组织集成在一起,为不同的历史数据提供统一坚实的平台。我们引用数 据仓库设计师w i l l i a nh i n m o n 的说法:“数据仓库是一个面向主题的、集成的、随时间变 化的和稳定的数据集合,对管理部门提供决策支持”n 幻。由这个简单的定义引出了数据 仓库的主要特点:面向主题的、集成的、时变的、稳定的,将数据仓库与其他数据库系统 ( 主要是指的是关系数据库) 相区别。 ( 1 ) 面向主题的( s u b j e c t o r i e n t e d ) 数据仓库总是围绕某些主题展开,如:学生成绩情况、教师所带课程的好坏、课程设 置的是否合理等。数据仓库关注决策管理者的数据建模与分析,并不关注日常的操作以及 事务处理。数据仓库只关心对决策过程有用的数据,而排除无用的数据。 ( 2 ) 集成的( i n t e g r a t e d ) 通常,数据仓库的数据源是异构的,是来自不同的o l t p 系统的数据。不同的o l t p 系统有不同的数据表示形式,同样的数据可能是不同的数据类型,同样的意义其表示方式 可能不同。这些问题,必须在源数据进入到数据仓库之前,使用数据清理来净化有问题的 数据,确保命名相同,结构和度量属性等的一致。 ( 3 ) 时变的( t i m e v a r i a n t ) 数据仓库中的数据基本上不是实时数据。o l t p 系统存储当天发生的数据,而数据仓 库只会在特定的时间更新,将数据从o l t p 系统中载入到数据仓库中。数据仓库存储的是 历史数据,记录了某单位一段时间内的信息,从历史的角度分析这些信息。因此,数据仓 库的结构当中一般都隐式或显示的包括时间元素。 ( 4 ) 稳定的( s t e a d y ) 从使用方式上,数据仓库的数据在物理上和o l t p 数据分别存放,通常只进行大量的 载入数据操作和数据访问操作,之后将被长期保存,不进行恢复、修改和删除等事物处理; 从数据内容上,数据仓库中的数据是历史数据。当前数据,一定时间后也会自动转化成历 史数据,所以数据仓库中的数据是稳定的,而不是实时更新的。 9 西安理工大学硕士学位论文 2 1 1 数据仓库与事务型数据库系统的联系与区别 数据仓库的出现,并不是要代替数据库,而是一种相辅相成的关系。绝大部分数据仓 库的底层部分还是使用关系数据库设计的。从应用层次方面来讲,数据库是面向事务的( 指 的是日常操作) ,而数据仓库是面向高层决策分析的( 指的是面向主题设计) ;从存储的数 据方面来讲,数据库存储的是当前最新的数据,数据仓库存储的是历史的跨时间维度数据: 从数据库结构方面来讲,数据库采用三级范式设计,避免数据的冗余,数据仓库为了主题 分析的方便,适当引入冗余。 数据仓库和数据库的根本区别是,数据仓库是面向主题分析的,它的存储方式是多维 存储,而数据库是面向事务处理的,它的存储方式是关系一实体( e r 图) 。数据仓库和数 据库比较概括在表2 1 中瑚1 。 表2 1 数据仓库和数据库的比较 t a b l e2 1d a t aw a r e h o u s ea n dd a t a b a s ec o m p a r i s o n 比较的内容 数据库数据仓库 特性操作处理信息处理 面向事务处理( 应用) 主题分析 用户d b a 、办事人员、数据库专业人员管理层 功能日常操作 决策支持 数据库设计 基于e r 图星型、雪花型 数据 当前的、最新的历史的、跨时间维度 汇总原始的、细目数据聚合数据 视图关系多维 访问读、写读 重点数据读入 信息输出 操作主码索引散列 大量扫描 数据库规模 10 0 m b g b lo o g b t b 数据的存储时间较短,一般3 _ 6 个月 历史数据,几年到几十年 2 1 2 数据仓库的体系结构 数据仓库系统大致可分为4 大部分:数据源、数据仓库、服务器和前端应用1 钉,如 图2 1 所示。 ( 1 ) 数据源( d a t as o u r c e ) 数据源存储了连接到数据库的必要信息n 钉:数据库名称、服务器名称和身份登陆认 证。数据源主要包括以下几种:遗留数据库、非数据源的数据、无物理连接的数据、脏数 据( 指的是包含错误数据、不一致数据及冗余信息等) 。 ( 2 ) 数据仓库及数据集市( d a t am a r t ) 1 0 基础理论 数据仓库指倾向于一种大型的、一站式( o n e s t o p s h o p p i n g ) ,将某单位( o r g a n i z a t i o n ) 都存储在其中的数据库n 屯1 1 。而数据集市( d a t am a r t ) 通常面向某个特定的部门,或者 面向某特定的业务主题,主要关注某单位的特殊方面的小数据库项目。从规模上来讲,数 据仓库可分为企业级的数据仓库和部门级的数据仓库,而部门级的数据仓库通常称为数据 集市。 日国r 日 数据源 数据仓库 服务器前端工具 图2 - l 数据仓厍的体系结构 f i g u r e2 - 1s t r u c t u r eo ft h ed ws y s t e m , ( 3 ) 服务器( s e r v e r ) 主要包括数据仓库服务器、联机分析处理o l a p 服务器、报表服务器( r e p o r t i n g s e r v i c e s ) 及数据挖掘( d a t am i n i n g ) 服务器。其中,在微软的s q ls e r v e rb u s i n e s s i n t e l l i g e n c e 中,联机分析处理和数据挖掘都在分析服务器( a n a l y s i ss e r v i c e s ) 上进行。 ( 4 ) 前端工具 前端工具可以简单的认为是人机界面,主要包括查询工具( q u e r yt o o l s ) 、报表工具 ( r e p o r t i n gt o o l s ) 、数据分析工具( a n a l y s i st o o l s ) 以及数据挖掘工具( d a t am i n i n gt o o l s ) n 。e x c e l 的透视表功能也是不错的前端展示工具。其中,报表工具中既有标准的客户 机h a 务器工具,又有功能全面、方法灵活的第三方工具( 如c r y s t a lr e p o r t ) :分析工具主 要是指联机分析处理;数据挖掘工具有两大任务:一是描述功能反映数据的内在联系 及规律,二是预测功能从训练数据集中发现潜在的模式,预测检测数据集的趋势、值 和行为1 。 2 1 3 数据仓库的粒度 数据仓库中的数据组织方式与数据库不同,通常分为四个级别:早期细节数据、当前 细节数据、轻度综合数据、高度综合数据1 。结构如表2 2 所示。 西安理工大学硕士学位论文 早期细节级数据是指数据仓库中的历史数据。随着时间的推移,这类数据量会越来越 大,使用的频度也会降低。当前细节级数据是指最近时间段的数据。是前线人员、管理人 员( 底层管理) 和小组领导最感兴趣的部分。轻度综合级数据是指从当前细节级数据中聚 合概括出来的数据,是中层决策者最关心的数据,要有下钻功能。高度综合级数据是指高 度概括的关键性能指标( k e yp e r f o r m a n c ei n d i c a t o r , 简称k p i ) ,是上层决策者着眼于长期 目标的基础数据。 表2 - 2 粒度对比 f i g u r e2 - 2g r a n u l a r i t yc o n t r a s t 数据仓库的数据组织综合级别不同级不同级别不同级不过同缓 结构 别的目的度量别的目别时间要 标标人群 求 长期目高度概括上层决较长延迟 - eeei 。夕 高度练合 标的职i箢者 | | | 一罔或一 一 妇缘合 短期目带有下钻中层决月的延迟 l 标 功能的概策者要求 l 括性度量 母黔一? 霭 海悯节 日常目前线人一小时或 _ 标 细节信急员一天的延 “心 迟要求 “占占b 龇 肭节 2 2 联机分析处理技术( 0 l a p ) o l a p 的概念最早是由关系数据库和o l t p 理论的创始人e e c o d d 于1 9 9 3 年,具有 创造性的提出的另外一种系统。它可以使管理层快捷、灵活和多角度的访问数据。联机分 析处理系统提供快速查看和多角度分析数据仓库数据信息的机制。在联机分析处理系统 中,数据采用度量、维度、层次等形式表示。o l a p 的设计目标是满足决策支持、多维角 度的查询和报表需求,它的核心是“维 ,因此,o l a p 也可以说是多维数据分析工具的 集合m 1 。 ( 1 ) 度量( m e a s u r e ) :是一些数值。这些数值表示了用户关心的信息,而这些信息用 于支持和评估某种事物的好坏、能力、业绩等。度量也称为事实( f a c t ) ,因此,保存度量 值的表称为事实表。例如:2 0 0 6 2 0 0 7 年度吴老师的计算机图形学的最高分是多少? “最 高分 就是度量。 ( 2 ) 维度( d i m e n s i o n ) :是一种决策者看问题的角度,用于展开聚合的度量值。它可 以对多维数据集的度量进行分块切割,直到找到用户需要的信息。例如:2 0 0 6 - 2 0 0 7 年度 吴老师的计算机图形学的最高分是多少? 对度量“最高分一限制的词语“年度”、“老师”、 “课程”( 这里指计算机图形学) 都是观察最高成绩的不同角度,因此包含了三个维度: 教师维、时间维和课程维。 1 2 基础理论 ( 3 ) 维度成员( d i m e n s i o nm e m b e r s ) :就是维度的一个取值,例如教师维度中有很多 的老师:赵老师、张老师、吴老师。吴老师就是维度的一个维度成员。 ( 4 ) 层次结构( h i e r a r c h y ) :是由两层以及两层以上的相关维度属性组成的结构。层次 结构将维度划分为不同的层次,可以让用户访问数据仓库中不同层次的度量,然后通过选 定某层的度量下钻查看更低层次的度量值。例如:用户可在查看2 0 0 6 2 0 0 7 年度吴老师的 计算机图形学的最高分,可以下钻查看2 0 0 6 2 0 0 7 年度第一学期吴老师的计算机图形学的 最高分。反之,亦然。通过层次结构的上探、下钻用户可以找到有助于决策的度量。 ( 5 ) 星型结构和雪花型结构( s t a rs c h e m aa n ds n o w f l a k es c h e m a ) :数据仓库的度量和 维度只能存储为两种模式。一种是星型结构,另一种是雪花型结构。星型结构是一种数据 库构架( s c h e m a ) ,用来数据仓库中存储度量和维度。事实表存储度量,一般使用“f a c t 作为事实表表名的结尾。雪花结构是一种特殊的星型结构。在雪花结构中,层次结构中每 一层都有单独的维度表。 ( 6 ) 属性( a t t r i b u t e ) :是某个维度成员的额外属性,它既不是唯一标识符( 主外键约 束) ,也不是成员的描述。 ( 7 ) 多维立方体( c u b e ) :又称为多维数据集,包含维度和度量值,是o l a p 的核心。 一个多维立方体可表示为:( 【维度l 】,【维度2 】,【维度3 】,【维度n 】,【度量】) 1 钆1 , 图2 2 就是一个典型的多维立方体,可表示为:( 【2 0 0 6 2 0 0 7 ,【吴老师】,【计算机图形学】, 【最高分】) 。 ( 8 ) 切片( s l i c e ) :在多维立方体中,给某一维度选定维度成员称为多维立方体的切片 伽1 。如图2 2 所示的多维立方体中,有三个维度( 教师维,课程维,时间维) ,给教师维 选定一维度成员后( 吴老师、课程维、时间维) ,称为多维立方体在教师维上的切片。 计 教师维 图2 - 2 多维数据集的切片 f i g u r e2 - 2s l i c eo f m u l t i - d i m e n s i o nd a t a 问维 西安理工大学硕士学位论文 ( 9 ) 切块( d i c e ) :在多维数据立方体中,给两个及两个以上维度选定维度成员的过程 叫切块。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论