(计算机应用技术专业论文)数据仓库和数据挖掘在高校成绩分析中的应用.pdf_第1页
(计算机应用技术专业论文)数据仓库和数据挖掘在高校成绩分析中的应用.pdf_第2页
(计算机应用技术专业论文)数据仓库和数据挖掘在高校成绩分析中的应用.pdf_第3页
(计算机应用技术专业论文)数据仓库和数据挖掘在高校成绩分析中的应用.pdf_第4页
(计算机应用技术专业论文)数据仓库和数据挖掘在高校成绩分析中的应用.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理t 人学硕 :学位论义 摘要 数据仓库和数掘挖掘技术是信息技术研究的热点问题之。数据仓库是一个支持管 理决策过程的、面向主题的、随时间而变的数据集合,它是集成的,也是稳定的。数据 挖掘是采用人工智能的方法对数据库或数据仓库中的数据进行分析、获取知识的过程。 目前数据挖掘技术在商业、余融业以及企业的生产、市场营销等方面都得到了广泛的应 用,而在教育领域的应用相对较少,随着高校招生规模的扩展,在校生人数越来越多, 学生成绩分布越来越复杂,除了传统的学生成绩借机报复是到的一些结论外,还有一些 不易被察觉的信息隐含其中,因而把基于数据仓库的数据挖掘技术引入到学生成绩分析 中,可以找到影响学生成绩的真实原因,有地有针对性地提高教学质量。 本文在对数据仓库理论和数据挖掘技术的理解上,首先,介绍了数据仓库和数据挖 掘的相关理论知识;其次,利用m i c r o s o f t 的s q ls e r v e r2 0 0 0a n a l y s i ss e r v i c e 进行多维 数据的建模过程,结合大连软件职业学院的相关专业的相关课程成绩,建立了基于学生 成绩的数据仓库,包括对学生成绩数据仓库的结构设计、模型设计及数据的抽取、转化 和加载;最后通过将数据挖掘中的决策树算法应用于所建立的学生成绩数据仓库中,使 用决策树算法生成决策树分析学生成绩优良与哪些因素有关,完成成绩分析决策树模型 的建立。通过对高校成绩分析,可以挖掘出大量的、有价值的数据信息,必将对教学工 作的开展与改进有着重要的指导意义。 关键词:数据仓库:数据挖掘:决策树;高校成绩分析 数据仓库和数据挖掘在高校成绩分析中的麻删 a p p l i c a t i o no f d a t aw a r e h o u s ea n dd a t am i n i n gi nt h ea n a l y s i so f c o l l e g e s a c h i e v e m e n t a b s t r a c t d a t aw a r e h o u s ea n dd a t am i n i n gt e c h n o l o g yi st h es t u d yo fi n f o r m a t i o nt e c h n o l o g y ,o n eo f t h eh o ti s s u e s d a t aw a r e h o u s ei sas u p p o r tm a n a g e m e n t d e c i s i o n m a k i n gp r o c e s s , s u b j e c t - o r i e n t e d ,w i t ht h et i m ec h a n g ed a t as e t ,i ti si n t e g r a t e d ,i ss t a b l e d a t am i n i n gm e t h o d s a r eu s e di na r t i f i c i a li n t e l l i g e n c ed a t a b a s eo rd a t aw a r e h o u s ef o rd a t aa n a l y s i s ,t h ep r o c e s so f a c q u i r i n gk n o w l e d g e a tp r e s e n t ,d a t am i n i n gt e c h n o l o g yi nt h ec o m m e r c i a l ,f i n a n c i a ls e r v i c e s , a sw e l la sp r o d u c t i o n m a r k e t i n ga n ds oo nh a v eb e e nw i d e l yu s e di nt h ef i e l do fe d u c a t i o na n d t h ea p p l i c a t i o no fr e l a t i v e l ys m a l ls c a l ew i t ht h ee x p a n s i o no fc o l l e g ee n r o l l m e n t ,e n r o l l m e n ta t m a n ym o r e a n dm o r e ,t h ed i s t r i b u t i o no fs t u d e n t ss c o r em o r e a n d m o r ec o m p l e x ,i na d d i t i o nt o t h et r a d i t i o n a lg r a d es t u d e n t st o o kt h eo p p o r t u n i t yt or e t a l i a t et os o m eo ft h ec o n c l u s i o n sa r e , t h e r ea r ean u m b e ro fd i f f i c u l tt ob ea w a r eo fo n eo ft h eh i d d e ni n f o r m a t i o n ,a n dd a t a w a r e h o u s e b a s e dd a t am i n i n gt e c h n o l o g yi n t os t u d e n t ss c o r ea n a l y s i sc a nb ef o u n di nt h e i m p a c to ft h er e a lr e a s o n sf o rg r a d es t u d e n t s ,t h e r ei st a r g e t e dt oi m p r o v et h eq u a l i t yo f t e a c h i n g i nt h i sp a p e r ,t h et h e o r yo ft h ed a t aw a r e h o u s ea n dd a t am i n i n gt e c h n o l o g yu n d e r s t a n d i n g , f i r s to fa l l ,i n t r o d u c e dad a t aw a r e h o u s ea n dd a t am i n i n go ft h er e l e v a n tt h e o r e t i c a lk n o w l e d g e ; s e c o n d l y ,t h eu s e o fm i c r o s o f t ss q ls e r v e r2 0 0 0a n a l y s i ss e r v i c ef o rm u l t i d i m e n s i o n a ld a t a m o d e l i n gp r o c e s s ,c o m b i n e dw i t hd a l i a ns o f t w a r ec o l l e g eo ft h er e l a t e dt op r o f e s s i o n a l p e r f o r m a n c e r e l a t e dc o u r s e s ,s t u d e n ta c h i e v e m e n tb a s e do nt h ed a t aw a r e h o u s e ,i n c l u d i n g s t u d e n ta c h i e v e m e n to nt h es t r u c t u r a ld e s i g no fd a t aw a r e h o u s e s ,m o d e l i n ga n dd a t ae x t r a c t i o n , t r a n s f o r m a t i o na n dl o a d i n g ;f i n a lb yt h ed e c i s i o nt r e ei nd a t am i n i n ga l g o r i t h mi sa p p l i e dt o s t u d e n ta c h i e v e m e n te s t a b l i s h e db yt h ed a t aw a r e h o u s e ,d e c i s i o nt r e ea l g o r i t h mu s i n gt h e d e c i s i o nt r e ea n a l y s i so fs t u d e n tp e r f o r m a n c ef a c t o rw i t hw h i c ht h ef i n e a n dc o m p l e t e p e r f o r m a n c ea n a l y s i s o ft h ed e c i s i o nt r e em o d e l p e r f o r m a n c ea n a l y s i so fc o l l e g e sa n d u n i v e r s i t i e s ,y o uc a nd i go u tal o to fv a l u a b l ei n f o r m a t i o n ,w i l lw o r ko nt e a c h i n ga n d i m p r o v e m e n t o fi m p o r t a n tg u i d i n gs i g n i f i c a n c e k e yw o r d s :d a t aw a r e h o u s e ;d a t am i n i n g ;d e c i s i o nt r e e :a n a l y s i s0 f c o l l e g e s a c h i e v e m e n t 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文题目: 作者签名: 人连理1 :人学硕+ 学位论文 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间 论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有 权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印、或扫描等复制手段保存和汇编本学位论文。 学位论文题目: 作者签名: 导师签名: 日期:丑年上月丑日 日期:茸年上月聋日 人连理i :人学硕十学位论文 1绪论 1 1 数据仓库和数据挖掘的研究背景及研究意义 人类现在币处在一个信息爆炸的时代,随着数据库技术的成熟和数据应用的普及, 人类积累的数据量证在以指数速度迅速增长。进入九十年代,伴随着因特网( i n t e m e t ) 的出现和发展,将整个世界联成一个小小的地球村,人们可以跨越时空地在网上交换数 据信息和协同工作。这样展现在人们面前的己不是局限于本部门,本单位和本行业的庞 大数据库,而是浩瀚无垠的信息海洋,数据洪水讵向人们滚滚涌来。表面上看,这些数 据杂乱无章,实际上这些激增的数据背后隐藏着许多重要的信息,直到2 0 世纪8 0 年代 中期,大多数数据库应用仍只能对数据库进行录入、查询、统计等简单操作。如果数据 不能转化成有用的知识,如果没有有效的方法,由计算机及信息技术来提取有用信息和 知识,人们也会感到面对信息海洋像大海捞针一样束手无策。据估计,一个大型企业数 据库中的数据,只有百分之七得到很好利用。这样,相对于“数据过剩”和“信息爆炸”, 人们又感到“信息贫乏”和“数据关在牢笼中。正是由于以往这种以单一数据库为中 心的日常业务处理与决策分析并存,以及在对操作型数据库为中心的决策分析提取数据 的程序不断增加,带来了自然演化体系结构中的“蜘蛛网”的形成,因此产生许多问题。 慢慢的人们逐渐认识到体系结构设计环境存在着两种基本数据:原始数据和导出数 据。表1 1 显示了原始数据与导出数据之间的主要区别i l 】。 数据仓库的诞生带来了信息系统领域体系结构的革命,也带来了对企业管理决策智 能化的新时代。面对“人们被数据淹没,人们却饥饿于知识”的挑战,人们呼唤从数据 汪洋中来一个去粗存精、去伪存真的技术。这样,从数据库中发现知识( k d d - - k n o w l e d g e d i s c o v e r yi nd a t a b a s e ) 及其核心技术数据挖掘( d a t am i n i n g ) 便应运而生,并得以蓬 勃发展,越来越显示出其强大的生命力。 随着近几年我校( 大连软件职业学院) 招生的逐年递增,一方面给人们提供了更多 的接受教育的机会,另一方面,也由于生源质量的下降,教育资源的相对减少也影响到 高等教育质量的保证和提高,因此,必须峰持科学发展观,实现高等教育工作重心的转 移,在规模持续发展的同时,把提高质量放在更加突出的位置,实施高等学校教学质量 与教学改革工程,为提高学生的综合素质,特准备详细分析学生成绩的相关影响因素, 以期不断提高教学质量,为社会培养合格人才。 数据仓库和数据挖掘存:离校成绩分析中的应用 表1 i原始数据! 导出数据之间的区别 t a b 1 1 o r i g i n a ld a t aa n dt h ed i s t i n c t i o nb e t w e e ne x p o r td a t a 原始数据操作型数据 导出数据d s s 数据 面向应用 详细的 在存取瞬间是准确的 为日常i :作服务 可更新 重复运行 处理需求事先可知道 生命周期符合s d l c 对性能要求高 一个时刻存取一个单元 事务处理驱动 更新控制主要取决丁所有权 高可靠性 整体管理 非冗余性 静态结构:可变的内容 一次处理数据苗小 支持日常操作 访问的高可靠性 面向主题 综合的或提炼的 代表过去的数据 为管理服务 不更新 启发式运行 处理需求事先不知道 完全不同的生命周期 对性能要求宽松 一个时刻存取一个集合 分析止理驱动 无更新控制问题 松散的可川性 以子集管理 时常有冗余 结构灵活 一次处理数据量人 支持管理需求 访问的低可靠性或适度可靠性 1 2 数据仓库和数据挖掘的发展历史及国内外现状 数据仓库技术最早源于d e v l i n 和m u r p h y 在1 9 9 8 年发表的一篇关于数据仓库论述 的文章,著名的数据仓库专家w h i n m o n 在其著作b u i l d i n gt h ed a t aw a r e h o u s e ) ) 一书 中给予如下描述:数据仓库( d a t aw a r e h o u s e ) 是一个面向主题的、集成的、相对稳定 的、反映历史变化的数据集合。数据仓库( d a t aw a r e h o u s e ) 是近年来兴起的一种新的 数据库应用,它是从数据库技术发展过程中出现的一种为决策服务的数据组织和存储技 术,为决策支持系统_ 丌辟了新途径,极大地提高了决策支持系统能够存储的信息量和信 息分析能力。它提供集成化和历史化的数据和集成不同种类的应用系统,并从历史和发 展的角度来组织和存储数据,以提供信息化和分析处理之用【2 l 。 数据挖掘( d a t am i n i n g ) 又称数据库中的知识发现,是指从大型数据库或数据仓库 中提取隐含的、未知的、非平凡的极有潜在应用价值的信息或模式,是数据库中一个很 人选理i :人。节硕十学何论文 有应用价值的新领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论 和技术。数据挖掘要经过数据采集、预处理、数据分析、结果表示等一系列过程。数据 挖掘发现的知识通常是以概念、规则、模式、约束、可视化等形式表现。这项知识可以 直接提供给决策者,可以辅助决策过程,或者提供给领域专家,修正专家已有的知识体 系,也可以作为新知识转存到相应系统的知识存储机构中【3 】。 从数据库中发现知识( k d d - - k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 一词首次出现在 1 9 8 9 年举行的第十一届国际联合人工智能学术会议上,到目前为止,由美国人工智能协 会主办的k d d 国际研讨会已经召刀:了多次,规模由原来的专题讨论会发展到国际学术 大会,研究重点也逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以 及多种学科之间的想到渗透。i e e e ( i n s t i t u t ef o re l e c t r i c a la n de l e c t r o n i ce n g i n e e r s ) 、 a c m ( a s s o c i a t i o nf o rc o m p u t i n gm a c h i n e r y ) 等其它学会、学刊也纷纷把数据挖掘与知识 发现( d a t am i n i n ga n dk n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 列为会议议题或出版专刊,成 为当前国际上的一个研究热点。 在国外,数据仓库和数据挖掘技术已经成为仅次于i n t e r n e t 之后的又一技术热点。 大型企业几乎都在建立自己的数据仓库和挖掘系统,数据库厂商也纷纷推出自己的数据 仓库和挖掘解决方案。i b m 所推崇的商业智能( b i ) 数据仓库解决方案,其核心即数据 仓库;微软的s q ls e r v e r 7 0 已经绑定了o l a p 服务器,将数据仓库的功能集成到数 据库中,并建立了数据仓库联盟,s q ls e r v e r2 0 0 0 进一步完善了这个方案;o r a c l e 公司推出的o r a c l e 8 也提供了数据仓库和决策支持的解决方案;s a s 公司较早致力于数 据仓库产品的开发研制,其s a s 系统逐渐发展成为大型集成应用软件系统,具备完善 的数据访问、管理和分析等功能。i n f o r m i x 推出了一个集成、可伸缩的f a s ts t a r t 数据仓 库解决方案,同时集成了具有关系型联机分析处理技术的i n f o r m i xm e t ac u b e 软件。 目前,国外企业已建立和使用的数掘仓库和数据挖掘应用系统都取得了明显的经济 效益,在市场竞争中显示出强劲的活力,在国内,一些大型企业也相继实施了数据仓库 和数据挖掘计划,涌现出一些成功的数据仓库和数据挖掘应用范例,数据仓库的概念虽 然已经被国内用户接受多年,但在应用方面的收效仍很有限。因为其尚不存在可靠的、 完善的、被广泛接受的数据仓库标准;现有的数据库系统不健全,数据积累还不够,无 法提出决策支持需求;缺乏能够担负规划、设计、构建和维护数据仓库的重任的复合型 人彳;缺乏数据仓库前端工具( 如o l a p 工具、数据挖掘工具等) ;由于国内外文化的 差异,一些用于构建数据仓库的知名产品无法处理一些难以预料的问题,使得建立数据 仓库的困难加大。 随着计算机技术的发展,尤其是分布式技术的发展,数据仓库在我国有着广阔的发 展空间和良好的发展自仃景。例如:由于银行商业化的步伐正在加大,各大中型银行在入 世的机遇和挑战下,开始重新考虑自身的业务,特别是信贷风险管理方面特别注意,因 数据仓库和数据挖掘在高校成绩分析中的应用 而有关信贷风险管n _ , hj j r 险规章的基于数据仓库的决策支持系统的需求逐渐增多;由于 电子商务的迅速发展,越来越多的电子商务网站,丌始考虑如何将数据仓库应用于商品 销售分析、顾客的诚信度分析等,为客户提供更进步的个性化服务;如移动通信等各 大型企业也丌始考虑着手进行决策支持以及数据仓库规划【引。 1 3 本文的研究背景及意义 数据仓库和数据挖掘在商业、金融业以及企业的生产、市场营销等方面都得到了广 泛的应用,而在教育领域应用相对较少。为了响应教育部提出的高等教育由精英化教育 向大众化教育转变的思想,从1 9 9 9 年来,学校招生规模逐年扩大,另外,校与校之间 的合并也使学校的在校生人数增加。以我校( 大连软件职业学院) 为例:2 0 0 5 年以前的 在校生人数是1 0 0 0 多人,而2 0 0 5 年以后在校生激增到3 0 0 0 多人,人数净增为2 0 0 0 人。 学生人数大幅度增加,教学管理模式的变化( 如学分制的实行) 等都给学校的教务管理 工作带来了诸多问题,使得教务管理变得越来越复杂,同时也对学校教学管理的科学性、 规范性、服务性提出了更高的要求。而学生成绩作为考核的结果,不仅是对学生学习效 果和教师教学效果的检验和评定,而且也是一种信息,具有反馈于教学活动、服务于教 育决策、为教育科研提供资料等作用。然而传统的学生学习成绩分析无非是得到均值、 方差、区别显著性检验、信度、效度等,往往还是基于教学本身来考虑,比如在后续专 业课学完时,是公共课或专业基础课前导课程对其影响最大等,其实即使在教学中还有 一些不易察觉的因素隐含在其中,何况还有教学以外的因素影响学生的学习成绩,这些 都需要进一步分析,从而得出结论,供教育管理人员做出相应的决策,但这些信息无法 从目前的教务管理系统的学生成绩分析方法获得。例如,我校教务管理系统中的成绩管 理模块提供了“报表统计功能,该功能主要输出各种成绩报表。它包含以下功能:“按 学号统计课程学习明细表”、“按班级统计课程明细情况表”、 “按班级统计各门课 程成绩”、“按班级统计学生学习情况表”、“期末成绩统计分析表”、“全校学 分情况统计表”、“全校不及格统计表( 按年级) ”、“学生课程成绩一览表 等。 因此本文认为利用数据仓库和数据挖掘技术将教务管理系统中学生的学习成绩和 课程信息、授课教师信息、学生信息结合起来分析,充分利用学生成绩数据为教、学和 管理服务,是非常有必要的。我们身为一名高校教育工作人员,深刻体会数据仓库和数 据挖掘技术在高校教学管理和学生管理方面应是大有用途的,但目的在我国大多数高校 中特别是民办院校中对于数据仓库和数据挖掘技术的应用还是个空白,所以本文尝试在 教学管理工作中应用该技术,并试图以此为先导,为数据仓库和数据挖掘技术在我校教 学管理中的全面应用开一个好头。本文将数据仓库、联机分析和数据挖掘技术引入一个 实际的管理工作中,利用s q ls e r v e r2 0 0 0 中的数据挖掘工具a n a l y s i ss e r v i c e s 对教 务管理系统中的学生成绩数据进行多角度分析和深层次的挖掘,以期对目前的教务管理 人连理f j 人学硕十学位论文 的完善提供一些有益的参考,为学校的相关人员提供辅助决策信息,为学校的教学和管 理服务。 本文主要研究如何利用丰富的信息资源,采用数据仓库和数据挖掘技术,获得辅助 决策知识,指导教学,从而进一步提高教学质量。 论文结构: 第一章绪论。主要介绍了本论文的课题背景和选题意义,综述了数据仓库和数据 挖掘的理论渊源、发展现状及国内外相关领域的发展情况。 第二章数据仓库技术。 第三章数据挖掘的相关技术。 第四章学生成绩数据仓库的建立。 第血章数据挖掘技术在学生成绩分析系统中的应用。 总结。阐述了本人在论文研究阶段的工作,并对数据仓库和数据挖掘技术在高校学 生成绩管理中的进一步研究进行分析和展望。 数据仓库和数据挖掘住高校成绩分析中的应用 2 数据仓库技术 本章主要介绍数据仓库的相关知识,包括数据仓库的概念、数据仓库的过程与任务, 最后介绍了数据仓库的相关技术。 2 1数据仓库的概念 传统数据库在联机事务处理( o l t p ) 中获得了较大的成功,但是对管理人员的决 策分析要求却无法满足。为满足决策分析的需要,在数据库基础上产生了能够满足决策 分析所需要的数据环境数据仓库( d w ,d a t aw a r e h o u s e ) 。 2 0 世纪8 0 年代中期,“数据仓库之父”w i l l i a mhi n m a n 在其建立数据仓库一 书中定义了数据仓库的概念,随后又给出了更精确的定义;数据仓库是在企业管理和决 策中面向主题的( s u b j e c t o r i e n t e d ) 、集成的( i n t e g r a t e d ) 、与时间相关的( t i m ev a r i a n t ) 、 不可修改的( n o n v o l a t i l e ) 数据集合,用于支持管理决策1 5 j 。 2 2 数据仓库的基本特征 数据仓库中的数据有以下基本特征【6 】: 面向主题的( s u b j e c t o r i e n t e d ) 数据仓库中的数据是面向主题的。主题是一个抽象的概念,是在较高层次上将企业 信息系统中的数据综合、归类并进行分析利用的抽象。主题是企业决策者进行决策所关 心的业务的重点方。面向主题的数据组织方式是在较高层次上对分析对象的一个完整 的、一致的描述,能够完整统一的描述各个分析对象所涉及的各项数据及数据之间的关 系。面向主题是指数据仓库内数据是按主题进行组织,以支持用户在主题范围内的有效 决策。 集成的( i n t e g r a t e d ) 数据仓库的数据是从原有分散的数据库数据中提取出来的。这些数据是对操作型数 据进行清理和归整的结果,而不是简单的归并和拷贝。数据在进入数据仓库之前,必然 先经过加工和集成将原数掘结构作一个从面向应用到面向主题的转变。 与时间相关的( t i m ev a r i a n t ) 数据仓库中的数据不仅是关于企业某一时点的信息,而是记录了企业有效的历史数 据,以用于决策。数据仓库以时间为基准来管理数据,允许用户回顾并了解公司的过去 和现在。这一特征表现在以下几方面: 数据仓库是随时f 日j 变化要不断地生成个又一个新的o l t p 数据库的快照,经 统一集成后增加到数据仓库中,而不会覆盖原来的快照。 人连理l :人 - 7 - 硕十学位论文 数据仓库内的数据也有存储期限,一旦超过了这一期限,过期数据就要被删除, 只不过数掘仓库内的数据的存储期限要远远长于单纯用于事务处理数据的存储期限罢 了。 数据仓库中包含的大量综合数据多与时间有关,就应随着时日j 的变化不断地进 行重新综合。 不可修改的( n o n v o l a t i l e ) 数据仓库的数据主要是为企业决策分析提供依据。一般情况下并不对数据进行修 改。数据仓库的数据是不同时i 日j 数据库数掘快照的集合,而不是联机处理的数据。数据 仓库数据不可更新是相对于o l t p 的操作型数据的频繁变化而言,并非是在数据仓库生 命周期过程中一直保持不变。当数据仓库中的数据已经超过数据存储期限时将会把这些 数据从数据仓库中清除出去。 动态数据( d y n a m i c ) 数据仓库的数据必须不断捕捉o l t p 数据库中的数据变化,经统一集成后增加到数 据仓库中形成历史数据;另外数据仓库中的数据超过储存期限后需要删除。数据仓库内 大量的综合数据都与时间无关,这些数据需要随时问变化不断进行重新综合。 与其它数据库不同的是数据仓库更像一种过程,即对分布在企业内部各处的业务数 据的整合、加工和分析的过程,而不是一种可以购买的产品【1 4 】。对此可从两个层次来理 解。首先,数据仓库用于支持决策、面向分析型数据处理,它不同于企业现有的操作型 数据库;其次,数据仓库是对多个异构数据源有效的集成,集成后按主题进行重组,并 包含历史数据,且存放在数据仓库中的数据一般不再修改。 数据仓库的目标是达到有效的决策支持。数据仓库的作用在于:从这些应用系统中 获取信息并转换到一个新的数据库,通过对新库中的历史信息和面向主题的信息进行分 析,为决策提供支持。 2 3 数据仓库系统及数据组织 数据仓库的最终目标是尽可能让决策者能够方便、有效和准确地使用数据仓库。因 此,为用户服务的前端工具必须能被有效地集成到新的数据分析环境中去。 2 3 1 数据仓库系统的体系结构 数据仓库系统( d w s d a t aw a r e h o u s es y s t e m ) 就是对进入数据仓库的原始数据完 成抽取、转换、过滤、清洗等处理,最终进入数据仓库,以及对数据仓库中存储的数据 进行更新、使用、表现等的相关软件工具进行集合,用以支持数据仓库应用或管理决策。 数据仓库系统是以数据仓库为基础,通过查询工具和分析工具完成对信息的提取,满足 用户的各种需求【7 1 。 数据仓库和数据挖掘在高校成绩分析中的应_ h 数据仓库系统通常由数据仓库、管理部分和分析工具三个部分组成,这三个部分之 间的关系如图2 1 表示【引。 l l l 习l 。l 数擀l 厂、 用户查 l 元数摆 饱缺l j i 7l 镩瞰l k 嬲瞬 i i l 综合嬲ll c c s _ t _ g l :。| 臀l l。 、 | 一l i , l 数骰件| | 当撇 | | 一l f厂、 煳 燃l y 模j 夹 历史数据 、_ - 二、,掘工具l 其燃 一管璐盼一一存黼一一应用部分 灏数据 1 ( 赉a g - 剑g g ) 一( 分极) 一 r 图2 1 数据仓库系统结构 f i g 2 1s y s t ems t r u c t u r eo fd a t aw a r e h o u s e ( 1 ) 数据仓库管理部分 数据仓库的数据来自多个数据源,包括企业内部数据和市场调查与分析的外部数 据。 在确定数据仓库信息去求之后,需要进行数据建模,确定从数据源到数据仓库的数 据抽取、清理和转换过程,分析、划分维度以及确定数据仓库的物理存储结构。元数据 是数据仓库的核心,用于存储数据模型、定义数据结构、转换规划、数据仓库结构和控 制信息等。管理部分包括对数据的安全、归档、备份、维护、恢复等工作。 数据仓库管理部分的组成包括:定义部件。这一部件用于定义和建立数据仓库系统, 它包括设计和定义数据仓库的数据库;定义数据来源;确定数据源,制定数据仓库复制 数据的转换、清理规则。数据获取部件。依据数据定义部件定义的规则从数据源中将数 据抽取到数据仓库中,完成清洗、变换和集成工作,将数据装载到数据仓库中,定期清 理数据仓库,消除数据仓库与源数据库的不一致,清除失效数据等。管理部件。主要包 括对数据仓库中数据的维护、安全、备份、恢复、同志等工作。元数据管理,也可称为 信息目录管理。完成元数据的管理、存储以及对整个数据仓库的检测和管理,包括技术 人连理i :人学硕十学侮论文 元数据和业务目录。数据仓库是随时| 日j 变化要不断地生成一个又一个新的0 l t p 数据库 的快照,经统一集成后增加到数据仓库中,而不会覆盖原来的快照【9 】。 数据源 数据源是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和 外部信息。内部信息包括存放于关系型数据库管理系统( r d b m s ) 中的各种业务处理 数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等。 数据的抽取、清理、装载、刷新 数据的抽取是数据进入数据仓库的入口,由于数据仓库是一个独立的数据环境,需 要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质导入到 数据仓库。数据抽取在技术上主要涉及到互连、复制、增量、转换、调度和监控等几个 方面。 数据的存储与管理 数据仓库的关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传 统数据库,同时也决定了其对外部数据的表现形式。数据仓库按照数据覆盖范围可以分 为企业级数据仓库和部门级数据仓库( 通常称为数据集市) 。 前端开发工具 主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数 据仓库或数据集市的应用开发工具。这些前端分析工具运行于客户端,主要功能是提供 多维数据查询和分析操作以达到决策支持的目的。 ( 2 ) 数据仓库工具集 数据仓库工具集主要由一些分析工具组成,主要包括检索查询工具、多维数据的 o l a p 分析工具、统计分析以及数据挖掘工具等。 数据仓库应用是一个典型的客户机n 务器结构形式,其客户端的工作主要包括客户 交互、格式化查询、可视化及报表生成等内容,服务器端完成各种辅助的查询、复杂的 计算和各类综合功能等。这种方式在提高性能和可靠性、降低数据传输量、研究保证数 据的安全性等方面带来很大的好处。服务器端有o l a p 服务器和数据挖掘服务器两种, 其中o l a p 服务器能加强和规范决策支持的服务工作,集中和简化客户端和数据仓库服 务器的部分工作。 2 3 2 数据仓库工具层及其分类 数据仓库中的工具以分析型为主,但仍然包括查询工具。这罩说的查询并不指对记 录级数据的查询,而是对分析结果的查询,这就要求有更加友好一致的界面。例如各种 图表和报表工具,便于用户更方便、更清晰地了解复杂的查询结果。 数据仓库和数据挖掘在高校成绩分析中的麻川 数据仓库最主要的工具是分析型工具。根据数据仓库的定义和用途,它面向的用户 是中层领导,主要执行决策和趋势分析应用。但是目前的存储和检索系统无能为力,此 时町借助于数据仓库的分析工具。 用户从数据仓库采掘信息时可能有多种不同的方式,但大体上可以分为两种模式, 即验证型( v e r i f i c a t i o n ) 与挖掘型( d i s c o v e r y ) i t 0 j 。 ( 1 ) 验证型工具 验证就是用户首先提出自己的假设,然后利用各种工具通过反复的、递归的检索查 询以证实或否定自己的假设。从用户来看,他们是从数据仓库中发现事实,这方面的工 具是多维分析工具。联机分析处理( o l a p ) 是一种常用的多维分析工具,它通过从信 息的多种观察角度进行快速、一致的存取,使决策分析人员能够对数据进行深入分析和 观察。 o l a p 的目标是满足决策支持或在多维环境下特定的查询和报表需求,它的技术核 心是“维”这个概念。“维”是人们观察客观世界的角度,是一种高层次的类型划分。 通过把一个实体多项重要的属性定义为多个维( d i m e n s i o n ) ,使用户能对不同维度上 的数据进行比较。因此,o l a p 也可以说是多维数据分析工具的集合。多维分析是指对 多维形式组织起来的数据采取钻取( r o l lu p 和d r i l ld o w n ) 、切片( s l i c e ) 、切块( d i c e ) 及旋转( p i v o t ) 等分析动作,从而剖析数据,使最终用户能从多角度、多侧面观察数据 中的灵气,深入了解包含在数据中的信息、内涵。 常见的o l a p 有基于多维数据库的m o l a p 及基于关系数据库的r o l a p 。 m o l a p 表示基于多维数据组织的o l a p 实现( m u l t i d i m e n s i o n a lo l a p ) 。以多维 数据库为核心。多维数据库概括地说就是以多维方式来组织数据,以多维方式来显示数 据。多维数据在存储中将形成“立方块( c u b e ) 的结构,在m o l a p 中对“立方块 的旋转、切片、切块等操作是产生多维数据报表的主要技术。多维数据库可以直观地表 示现实世界的“一对多和“多对多”关系。 r o l a p 表示基于关系数据库的o l a p 实现( r e l a t i o n a lo l a p ) 。它以关系数据库 为核心,以关系型结构进行多维数据的表示和存储。r o l a p 将多维数据库的多维结构 划分为两类表:一类是事实表( f a c tt a b l e ) ,用来存储事实的值及各个维的码值:另一 类是维表( d i m e n s i o nt a b l e ) ,即对每个维至少使用一个表来存放维的层次、成员类别 等维的描述信息。维表和事实表通过主关键字联系在一起,形成“星型模式( s t a r s c h e m a ) 。建立星型模式后,就可以在关系数据库中模拟数据的多维查询,通过维表的 主码,对事实表和每一维表做连接( j o i n ) 操作,一次查询就可以得到数据的值及对数 据的多维描述( 即对应的各维上的维成员) 。在实际应用中,可以使用多个表来描述一 个复杂维,这种星型模式的扩展称为“雪花模式”( s n o wf l a k es c h e m a ) 。“雪花模式” 人迮理i :人学硕十学侮论文 是对“星型模式”的维表进一步层次化,原有的各维表可能被扩展成小的事实表,形成 一个局部的“层次”区域。 验证型工具的共同特点就是它们需要用户指导数据分析的全过程。 ( 2 ) 挖掘型工具 挖掘型的应用主要是负责从大量数据中发现数据模式、预测趋势和行为。它与验证 型工具最大的不同在于,用户在整个信息的挖掘过程中不需要或者只需要很少的指导。 挖掘型工具主要指的是数据挖掘( d a t am i n i n g ) 。数据挖掘是一种从大型数据库中提取 隐藏的预测性信息的新技术。与验证型工具不同,数据挖掘是一咱展望和预测的工具, 它能挖掘数据间潜在的模式,发现决策者可能忽略的信息,为企业做出基于知识的决策。 查询工具、验证工具、挖掘型工具结合在一起构成了数据仓库系统的工具层,由于 它们各自的侧重点不同,因此选用的范围和针对的用户也各不相同。从不同工具对数据 分析的深度来看,验证型工具处于较浅的层次,而挖掘型工具则是处于较深层次的工具。 但在实际操作中,各种工具是相互补充的,只有很好结合起来使用,才能达到最好的效 果。 2 3 3 数据仓库的数据组织 数据仓库中的数据的组织方式与数据库不同,通常采用分级的方式进行组织。一般 包括早期细节数据、当前细节数据、轻度综合数据、高度综合数据、以及元数据五部分。 典型的数据组织方式如图2 2 所示】。 图2 2 数据仓库数据组织示意幽 f i g 2 2 d a t ao r g a n i z a t i o ni nd a t aw a r e h o u s e 1 l - 高度综 合数据 轻魔综 合数据 当前细 节数据 早期细 节数据 数据仓库和数据挖掘在高校成绩分析中的应j j ( 1 ) 早期细节数据。存储过去的详细数据,反映真实的历史情况,这类数据随着 时白j 增加,数据量很大,使用频度低,一般存储在转换介质中。 ( 2 ) 当前细节数据。最近时期的业务数据,反映当前业务的情况,数据量大,是 数据仓库用户最感兴趣的部分。随着时间的推移,当前细节数据由数据仓库的时间控制 机制转为早期细节数据。 ( 3 )轻度综合数据。从当前基本数据中提取出来,通常以较小的时间段( 粒度) 统计而形成的数据。这类数据较细节数据的数据量小得多。 ( 4 )高度综合数据。这一层的数据十分精练,是一种准决策数据。 显然,由于数据仓库需要管理得数据量极为庞大,并且服务的目的不同,传统的数 据建模方法已经显得力不从心。事实上,传统的方法主要面向事务型的分析处理工作, 因此,需要有新的数据建模方法来完成数据仓库中数据的建模和组织,这种数据模型就 是多维数据模型( m u l t i d i m e n s i o nd a t am o d e l ) 。 数据仓库中数据的组织形式概括起来一般有三种,即第三范式模式( 3 n f ,t h i r d n o r m a lf o r ms c h e m a ) 、星型模式( s t a rs c h e m a ) 和雪花式模式( s n o w f l a k es c h e m a ) 。 关系数据模型中,数据是以二维表的形式反映。在多维数据模型中,数据是以多维 逻辑方式组织,数据在各个维之间相互交叉,形成立体的数掘视图。所谓维就是相同类 数据的集合,例如图2 3 所示的同用品销售数据是按时间、地区和销售渠道组织起来的 三维立方体,加上变量“销售额”,就形成了多维数据结构。地区维的数据可以是平坦 结构,即每个商店( a ,b ) ,也可以是层次结构,即地区一省一城市一商店,如 图2 4 所示1 1 2 j 。 北蔫 商店 零售 批发 销告渠遭 地区 销售顿( 万) l r23 4 时间一( 月 图2 3 多维结构示例( 按销售渠道、时间和地区组织日用品销售数据) f i g 2 3 ane x a m p l eo fm u l t i - d i m e n s i o n a ls t r u c t u r e ( c o m m o d i t ys a l e sd a t ao r g a n i z i n gb ys a l em o d e , t i m ea n dd i s t r i c t ) 人连理j :人学硕十孥何论文 图2 4 地区维度层次不例 f i g 2 4 d i s t r i c td i m e n s i o n a ll a y e r , 多维数据模型在数据仓库中的概念组织方式采用星型和雪花型结构模型,雪花型结 构是星型结构的扩充。 在模型中,有三种实体: 、 ( 1 ) 指标实体。表示一系列相关的事实,通常与现实时间的一个事务或事件有关, 它是许多查询活动的焦点。 ( 2 ) 维度实体。即多维数据模型的个维所表示的实体。 ( 3 ) 详细类别实体。它与现实世界的实体对应,如商店、顾客等,般包含实体 的详细数据,通常是从事务数据库中转换得到。 数据仓库的物理存储方式可以多种多样,如关系数据库、多维数据库以及面向对象 的数据库等。物理模型是在逻辑模型的基础上实现的。在进行网络模型设计实现时,所 考虑的主要因素有:i o 存取时间

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论