(计算机应用技术专业论文)基于数据仓库和数据挖掘的高校学生成绩分析.pdf_第1页
(计算机应用技术专业论文)基于数据仓库和数据挖掘的高校学生成绩分析.pdf_第2页
(计算机应用技术专业论文)基于数据仓库和数据挖掘的高校学生成绩分析.pdf_第3页
(计算机应用技术专业论文)基于数据仓库和数据挖掘的高校学生成绩分析.pdf_第4页
(计算机应用技术专业论文)基于数据仓库和数据挖掘的高校学生成绩分析.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(计算机应用技术专业论文)基于数据仓库和数据挖掘的高校学生成绩分析.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 学生成绩是评估教学质量的重要依据,也是学生是否掌握好所学知识的重要标志。 随着高校的扩招,学生规模越来越大,学生成绩分析就愈加重要和迫切。但传统的基于 统计的分析方法已不适应深入分析的需要,故本文引进了近年来兴起的数据仓库技术和 数据挖掘技术用于高校学生成绩分析,以找到影响学生成绩的根本原因,从而可以制定 相应的措施,提高教学质量。 本文首先在学生成绩数据库的基础上,建立起了学生成绩多维数据集( 即数据仓 库) ,并作了些初步的分析。然后分别以学生成绩数据库和学生成绩多维数据集为数 据源,进行了决策树分类和聚类的数据挖掘研究,得到了大量的有关学生成绩的规则。 关键词 数据仓库;数据挖掘;学生成绩分析 a b s t r a c t s t u d e n t s m a r k sa r et h ei m p o r t a n tb a s i so fe v a l u a t i n gt e a c h i n gq u a l i t ya n di m p o r t a n t c r i t e r i o no ft e s t i n gs t u d e n t s d e g r e eo fg r a s p i n gk n o w l e d g e t h ea n a l y s i so fs t u d e n t s m a r k si s b e c o m i n gi n c r e a s i n g l yi m p o r t a n ta n du r g e n ta l o n gw i t ht h ee n l a r g i n go fr e c r u i t i n gs t u d e n t s a n dt h ea u g m e n t i n go fs c a l eo fs t u d e n t s h o w e v e r , t r a d i t i o n a la n a l y s i sm e t h o dt h a ti sb a s e d o ns t a t i s t i c sh a sn o tb e e nf i r e df o rt h en e e d so fd e e pa n a l y s i s i no r d e rt of i n dt h ee s s e n t i a l r e a s o n sf o ri n f l u e n c i n gs t u d e n t s m a r k s ,t h i st h e s i si n t r o d u c e st e c h n i q u e sf o rd a t aw a r e h o u s e a n dd a t am i n i n gt ot h ea n ,a l y s i so fs t u d e n t s m a r k s ,s ot h a tw ec a na d o p ta p p r o p r i a t em e t h o d a n di m p r o v et e a c h i n gq u a l i t y f i r s t l y ,b a s e do nt h ed a t a b a s eo fs t u d e n t s m a r k s ,t h i st h e s i se s t a b l i s h e st h ec u b eo f s t u d e n t s m a r k s ( d a t aw a r e h o u s e ) a n dd o e ss o m ei n i t i a la n a l y s i s t h e nr e s p e c t i v e l yu s i n g d a t a b a s eo fs t u d e n t s m a r k sa n dc u b eo fs t u d e n t s m a r k sa sd a t as o u r c e ,t h i st h e s i sd o e s r e s e a r c h e so nd a t am i n i n go fd e c i s i o nt r e ec l a s s i f i c a t i o na n dc l u s t e r i n g ,a n df i n d sag r e a td e a l o f r u l e sc o n c e r n e dw i t hs t u d e n t s m a r k s k e yw o r d s d a t aw a r e h o u s e ;d a t am i n i n g ;a n a l y s i so fs t u d e n t s m a r k s 1 1 河北大学 学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写的研究成果,也不包含为获得河北大学或其他教育机构的学位或证书 所使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的沈明并表示了致谢。 作者签名:j 堑斌日期:兰竺l 年l 月生同 学位论文使用授权声明 本人完全了解河北大学有关保留、使用学位论文的规定,即:学校有权保留并向国 家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。学校可以公布 论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。 本学位论文属于 l 、保密口,在年月同解密后适用本授权声明。 2 、不保密留。 ( 请在以上相应方格内打“4 ”) 作者签名:3 鳖斌 导师签名:趔 日期:墨! ! 羔年二月上r 日期:理砗上月j 二同 第1 章引言 第1 章引言 1 1 国内外在该方向的研究现状 决策分析迫切需要一个能够不受传统事务处理的约束、高效率处理决策分析数据的 支持环境,而数据仓库( d a t aw a r e h o u s e ,d w ) 就是可满足这一要求的数据存储和组 织技术。数据仓库是一个面向主题的、集成的、非易失的、随时间变化的用来支持管理 人员决策的数据集合【”。这个概念是在上个世纪九十年代由美国的i n m o n ,w h 提出来 的,以后数据仓库技术的研究和实现发展很快,很多公司推出了数据仓库产品,有微软 的m i c r o s o f ts q ls e r v e r2 0 0 0 中提供的a n a l y s i ss e r v i c e s 组件可以建立数据 仓库,还有s y b a s e 公司的s y b a s ei q 等组件、s a s 公司的w a r e h o u s e a d m i n i s t r a t o r 、 i n f o r m i x 公司的f a s ts t a r t 等都可以建立数据仓库并进行分析口】。 数据挖掘( d a t am i n i n g ,d m ) 就是从大量的、不完全的、有噪声的、模糊的、随 机的实际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的 过程【3 】,而d m 这一术语是在1 9 9 5 年举行的美国计算机年会首次提出的。数据挖掘又称 为数据库中知识发现( k n o w l e d g ed i s c o v e r yf r o md a t a b a s e ,k d d ) ,而k d d 这一术 语是在1 9 8 9 年举行的第1 l 届国际联合人工智能会议上首次出现。在上个世纪九十年代 以至现在,k d d 或者说d m 都是一个集合计算机技术和人工智能技术以及其它一些技术 的研究和开发热点。现在,数据挖掘产品也很多,有微软的m i c r o s o f ts q l s e r v e r 2 0 0 0 中提供的a n a l y s i ss e r v i c e s 组件可以进行决策树分类和聚类数据挖掘,还有 加拿大s i m o nf r a s e r 大学研制的d b m i n e r 可用于在大型关系数据库和数据仓库中 交互地挖掘多层次的知识【4 ,其它还有美国i b m 公司研制的i n t e l l i g e n t m i n e r 、s a s 公司研制的e n t e r p r i s em i n e r 等等,都有相应的适用范围和功能特色。 基于数据仓库和数据挖掘的学生成绩分析是数据仓库和数据挖掘的一个新的应用 领域,在国外未见报道,在国内有这样一些成果,华北电力大学的魏萍萍等针对教学信 息库进行了关联规则的数据挖掘研究【5 1 ,北方工业大学的张选东等利用自己丌发的 p r o o ! ,a p 针对学生成绩进行了联机分析处理 6 1 ,郧阳师范高等专科学校的张德新等利用 k 一中心挖掘算法对人爿“素质进行了分类【7 】,暨南大学的任承业等在校园信息系统的c r m 1 问北大学i 学硕十学扭论文 中;! 入了数据挖掘技术【8 j ,但这些研究或者是只将某个具体数据挖掘技术( 例如关联规 则、应月在学生成绩分析1 ,禾见有系统的研究,更没有同时结合数据仓库技术。所以, 首先建立学生成绩数据仓库,并作一些初步的分析,然后分别以学生成绩数据库和学生 成绩数据仓库为数据源,进行数据挖掘研究,是学生成绩分析的一个新发展。 1 2 课题研究的目的和意义 本课题得到了河北省教育厅科研计划项目( 编号:2 0 0 1 2 0 6 ) 的资助。 学生成绩是评估教学质量的重要依据,也是学生是否掌握好所学知识的重要标志。 特刖是随着高校的扩招,学生规模越_ 柬越大,学生成绩分析就愈加熏要和迫切。但传统 的基于统计的学生成绩分析无非是得均值、方差、信度、效度、进行区别显著性检验 等,其实另外还有一些不易察觉的信息( 知识) 隐含其中。比如几个或者更多学牛的分 数分布是不是有相似性? 如累具有相似性,是不是他们集体作弊造成的这种结果? 再比 如任意两i 、 课讲授的相对顺序( 前后或颠倒或同学期) 对它们整体教学效果的影响如 何? 还比如,在后续一门课程学好了( 成绩高) 剐,是哪一门或啡几门先修课程对其影 响最大? 等等,这些都需要进一步分析,得出结论,从而供教育管理人员做出相应的决 策,受到商业上购买模式分析、促销模式分析等的启发,在相应数据其备的情况下,在 高校学生成绩分析中还可以进行选修模式分析、强化学习模式分析等研究工作。但这些 信息( 知识) 无法从传统的基于统计的学生成绩分析方法获得,传统的基于统计的分析 方法已不适应深入分析的需要,故本文引进r 近年来兴起的数据仓库搔术和数据挖掘技 术用于高校学生成绩分析,以找到影啊学牛成绩的根本原因,从而可以制定相应的措施, 提高教学质量,所以这些工作有着比较重要的现实意义。 本课题首先在学生成绩数据库的基础上,建立起了学生成绩多维数据集( 即数据仓 库、并作了一些初步的分析,然后分别以学生成绩数据库和学生成绩多维数据集为数据 源,进行了决策树分类和聚类的数据挖掘研究,得到了大量的有关学生成绩的规则。 通过本文的研究将可以看到,在高校学生成绩分析中引入了数据仓库技术和数据挖 掘鼓术后所发现的一些规律或规则,有些是原来就有所意识但没有具体证明的,现在证 明了;有些是原来难以意识和发现的,现在发现了,所以基于数据仓库和数据挖掘的高 校学生成绩分析是可以帮助我们找到学生成绩的规律和影响学习成绩的原因的,是一种 校学_ :成绩分析是可以帮助我们找到学生成绩的规律和影响学习成绩的原因的,是一种 第1 章引言 切实可行的研究思路,有着一定的学术意义和实用价值。 1 3 主要的研究内容 本课题的主要研究内容是引入了数据仓库技术和数据挖掘技术进行高校学生成绩 分析,并得到了大量的有关学生成绩的规则。 第一章主要讲述了本课题研究的现状以及研究的目的和意义。在分析了本课题的研 究现状后可以发现,在学生成绩分析领域,还较少有人引入数据仓库和数据挖掘技术。 本课题的研究意义是找到学生成绩的规律和影响学生成绩的根本原因,以制定相应的措 施,改善教学质量。 第二章主要介绍了数据仓库和数据挖掘的概要内容,特别是基于数据库或数据仓库 的数据挖掘技术,并给出了一个基于数据挖掘技术的高校学生成绩分析设计方案。 第三章主要阐述了基于数据仓库的高校学生成绩分析。首先介绍了实验数据的准备 情况及相应的数据仓库模型,然后介绍了建立多维数据集( 即数据仓库) 的过程,最后 做了六个相应的成绩分析。 第四章主要阐述了基于数据挖掘的高校学生成绩分析。首先举出了一个实例,然后 引入了基于数据库的决策树分类和聚集数据挖掘技术,接着引入了基于数据仓库的决策 树分类和聚集数据挖掘技术,共建立了十一个挖掘模型,针对有的模型还进行了相关性 分析,并得到了大量的有关学生成绩的规则。 第五章主要总结了利用数据仓库技术和数据挖掘技术对高校学生成绩进行分析所 得到的结论,说明了尚存在的不足之处,并提出了今后继续研究的方向。 河北大学j 二学硕士学位论文 第2 章数据仓库技术和数据挖掘技术 2 1 数据仓库技术 计算机网络与数据库技术的迅速发展和广泛应用,使得信息管理进入个崭新的时 代。许多行业建立了各种联机事务处理( o n 一1 i n et r a n s a c t i o np r o c e s s i n g ,o l t p ) 信 息系统,对各种只常业务处理提供了有效的支持,使广大基层管理人员摆脱了繁重的制 表业务和数据处理工作,管理工作进一步规范化和更加高效。然而,面对当今竞争r 趋 激烈和瞬息万变的市场,各级管理人员( 尤其是中高级管理人员) 迫切希望根据本单位 的现状和经营的历史数据获取有效的、一致的决策支持信息,及时准确地把握市场变化 的脉搏,从而做出正确有效的判断、抉择、决策。也就是说,数据处理的重点应该从传 统的事务处理扩展到联机分析处理( o n l i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) ,并从中 得到面向各种主题的统计信息和决策支持信息。因此,决策分析迫切需要一个能够不受 传统事务处理的约束、高效率处理决策分析数据的支持环境,而数据仓库( d a t a w a r e h o u s e ,d w ) 就是可满足这要求的数据存储和组织技术。 数据库( d a t ab a s e ,d b ) 是按一定组织方式存储在计算机存储器中的相互关联的 数据集合,而数据仓库来源于数据库,但又不同于一般的数据库,是个面向主题的、 集成的、不可更新的且随时间不断变化的数据集合,实际上是一个特殊的数据库。它们 之间的对比见表2 一l 。 表2 - 1 数据库与数据仓库的比较 第2 章数据仓库技术和数据挖掘技术 总的来说,数据仓库有这样四个基本特征: 1 数据仓库的数据是面向主题的。 所谓一个主题,在逻辑意义上,对应单位中宏观分析领域所涉及的某一个分析对象。 “主题”在数据仓库中是由一系列表( t a b l e ) 实现的,这些表通过公共码键联系起来, 但它们应该根据用户对主题中不同表的关心程度不同分别存储在不同的存储设备中。主 题的划分必须保证每个主题的独立性,而且需要保证对主题进行分析时所需要的数据都 可以在此主题内找到。此外,面向主题的数据组织可以独立于数据的处理逻辑。 2 数据仓库的数据是集成的。 数据仓库的集成性是指根据决策分析的要求,将分散于各处的源数据进行抽取、筛 选、清理、综合等集成工作,使数据仓库中的数据具有集成性。 3 数据仓库是不可更新的。 数据仓库不可更新是指数据仓库的用户进行分析处理时是不进行数据更新( 修改) 操作的,但并不是说在数据仓库的整个生命周期中数据集是不变的,是可以添加和删除 的。 4 数据仓库是随时间变化的。 这一特征表现在以下几方面: 数据仓库系统随时间变化要不断地生成一个又一个的新的o l t p 数据库的快照,经 统一集成后增加到数据仓库中,而不会覆盖原来的快照。 数据仓库内的数据也有存储期限,一旦超过了这一期限,过期数据就要被删除,只 不过数据仓库内的数据的存储期限要远远长于纯用于事务处理型数据的存储期限罢了。 数据仓库中包含的大量综合数据多与时间有关,就应随着时间的变化不断地进行重 新综合。 数据仓库的主要意义是给决策支持系统( d e c i s i o ns u p p o r ts y s t e m ,d s s ) 和企业 信息系统( e n t e r p r i s ei n f o r m a t i o ns y s t e m ,e i s ) 等提供数据源。 2 2 数据挖掘技术 数据挖掘( d a t am i n i n g ,d m ) 就是从大量的、不完全的、有噪声的、模糊的、随 机的实际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的 - 5 河北大学工学硕士学位论文 过程。 数据挖掘技术可以帮助人们从数据库、特别是数据仓库的相关数据集中提取出所感 兴趣的知识、规则或更高层次的信息,主要是分类规则、聚类规则、关联规则、预测( 趋 势) 规则等,并可以帮助人们从不同程度上去分析它们,从而可以更加有效地利用数据 库或数据仓库中的数据。完整的数据挖掘过程分为确定业务对象、数据准备、数据挖掘、 结果分析四步。 数据挖掘技术主要有集合论法、决策树法、遗传算法、神经网络方法等。集合论法 又分为粗( 糙) 集理论方法、概念树方法、覆盖正例排斥反例方法等。决策村法又分为 i d 3 算法、c l s 算法、i b l e 算法等。遗传算法又分为分布并行遗传算法、进化算法等。 2 3 基于数据库和数据仓库的数据挖掘技术 数据挖掘技术可以帮助人们从数据库、特别是数据仓库的相关数据集中提取出所感 兴趣的知识、规则或更高层次的信息,并可以帮助人们从不同程度上去分析它们,从而 可以更加有效地利用数据库或数据仓库中的数据。数据挖掘技术不仅可以用于描述过去 数据的发展过程,还可以进一步预测未来趋势。 实现数据挖掘有多种途径,有通过机器学习的,有通过归纳学习的,也有通过统计 分析的等等,特别是机器学习和数据挖掘的关系最密切。 仅仅建立了数据仓库还没有多少意义,还需要分析工具对其分析,从而利用分析结 果来实现决策支持系统,而数据挖掘就是数据仓库分析工具之一,其它分析工具还有多 维分析工具、可视化工具等。当然,数据挖掘的对象( 数据源) 不仅可以是数据仓库, 也可以是传统数据库、文件系统或其它任何组织在一起的数据集合,一句话,数据仓库 i 生l 仅是数据挖掘的数据源之一。 数据仓库和数据挖掘都是数据仓库系统的重要组成部分,它们既有联系,又有区别。 联系是: 1 数据仓库为数据挖掘提供了更好的、更广泛的数据源。 2 数据仓库为数据挖掘提供了新的支持平台。 3 数据仓库为更好地使用数据挖掘这个工具提供了方便。 4 数据挖掘为数据仓库提供了更好的决策支持。 第2 章数据仓库技术和数据挖掘技术 5 数据挖掘对数据仓库的数据组织提出了更高的要求。 6 数据挖掘还为数据仓库提供了广泛的技术支持。 区别是: 1 数据仓库是一种数据存储和数据组织技术,提供数据源。 2 数据挖掘是- - g e 数据分析技术,可针对数据仓库中的数据进行分析。 那么,d w 、o l a p 、d m 以及d s s 有什么关系呢? 就是下式: d w + o l a p + d m d s s 这一构架的特点主要体现在: 1 在底层的数据库中保存了大量的事务级细节数据,这些数据是整个d s s 的数据来 源。 2 数据仓库对底层数据库中的事务级数据进行集成、转换、综合,重组成面向全局 的数据视图,为d s s 提供数据存储和组织的基础。 3 o l a p 从数据仓库中的集成数据出发,构建面向分析的多维数据模型,再使用多维 分析方法从多个不同的视角对多维数据进行分析、比较,分析活动从以前的方法驱动转 向了数据驱动,分析方法和数据结构实现了分离。 4 数据挖掘以数据仓库和多维数据库中的大量数据为基础,自动地发现数据中的潜 在模式,并以这些模式为基础自动地做出预测。 基于数据仓库的数据挖掘技术在金融、保险、电信、大型超市等积累有大量数据的 行业有着广泛的应用,如信用分析、风险分析、欺诈检验、用户聚类分析、消费者习惯 分析等。现在随着招生规模的扩大,一所高等学校的学生人数就达到上万人,甚至几万 人,考试成绩达到几十万个数据,传统的成绩分析方法已不能完全满足分析的需要,所 以对此引入基于数据仓库的数据挖掘技术以找到影响学生成绩的根本原因,来制定相应 的措施,提高教学质量。 2 4 基于数据挖掘技术的高校学生成绩分析设计方案 1 数据仓库的技术平台 数据仓库的技术平台有单层结构、客户服务器两层结构、客户服务器三层结构、 河北大学工学硕士学位论文 多层式结构几种。针对高校的数据仓库,因为它具有相当大的规模,只有将数据仓库的 数据存储管理、数据仓库的应用处理、客户端的应用分开才能满足客户的要求,所以应 采用客户服务器三层结构,可采用m i c r o s o f ts q ls e r v e r2 0 0 0 系统。这种结构 包括基于工作站的客户层、基于服务器的中间层和基于主机的第三层。主机( 宿主) 层 负责管理数据源和可选的数据源转换;服务层运行数据仓库和数据集市软件,并存储数 据仓库的数据;客户工作站运行查询和报表生成应用程序,且还可以存储从数据集市或 数据仓库卸载的局部数据。 2 数据仓库的体系结构 数据仓库的体系结构决定了数据加载、访问和传递的方式,确定这样的数据仓库的 体系结构时需要考虑最终用户和数据使用部门的数目、数据的多样性和数量、更新周期、 存储访问的难度等因素,从而最终设计三个独立的数据层次:信息获取层、信息存储层 和信息传递层。 针对高校的数据仓库,最终用户和数据使用部门主要是教务处和各教学单位,大约 共有二、三十个之多;数据的多样性是比较少的,而数量是比较多的;更新周期一般为 一学期;存储访问因局限在校园内,难度不大,故而应设计如此的三个独立的数据层次: 信息获取层负责数据的收集、提纯、净化和聚合,应特别注意这些数据均应有通用的意 义;信息存储层负责存储包含时点信息的单一逻辑信息,应分散存储在教务处和各个教 学单位,从而灵活满足各种设计要求;信息传递层负责在工作站上进行报表生成和查询 以提供数据需求,这些终端也应分散在教务处和各个教学单位。 3 构成数据仓库的数据库 数据仓库的数据库主要包含存储用户分析数据的数据库和描绘数据的元数据库。存 储用户分析数据的数据库可以采用关系数据库、多维数据库和对象数据库实现。针对高 校的数据仓库而言,由于其数据量不是很大且限于目前的数据库技术条件,应采用关系 数据库实现存储用户分析数据的数据库。元数据库是数据仓库的灵魂,组织和使用元数 据是企业数据仓库战略的关键性成功因素。元数据库对于重要业务过程的自动化和信息 化具有基础性的作用,它还是存放各种有关模型的地方,是各种数据资源的协调点。在 高校的数据仓库中,当然也应特别重视元数据库的设计与建设 1 i 1 2 【13 1 。 4 数据仓库的数据源 第2 章数据仓库技术和数据挖掘技术 首先,要确定数据仓库主题所需各数据源的详细情况,包括数据源所在计算机平台、 拥有者、数据结构、使用该数据源的处理过程、数据仓库更新计划等;其次,还要确定 数据源抽取原则,包括从哪些数据源中抽取所需数据、数据如何转换、装载到主题的哪 个数据表中等等【l 。 针对高校的数据仓库,就是在已有学生成绩数据库的基础上,建立相应的数据仓库, 来满足教育管理和决策人员的一些分析要求。一方面,将高校中很多已有的数据库导入 到数据仓库;另一方面,按照教育管理和决策人员的要求,针对不同主题的特定应用, 规划建设更多的数据仓库。必须把注意力放在重点的管理和决策需求上,还必须获取和 利用来自所有部门的信息以及与管理层和决策层有密切联系的应用。要用控制和整合的 办法将应用系统整合,把聚焦点正确地转移到“集中化方法”上,从而将多个数据仓库 结合起来,形成一个决策支持环境。在使用决策支持和数据仓库时还要不断地改进,使 数据仓库逐渐成熟。 5 数据仓库与教务处理系统的接口 数据仓库与教务处理系统的接口应该具有这样一些功能: 从面向应用和操作环境生成完整的数据;数据基于时间进行的转换;数据的聚集; 对现有数据系统的有效扫描,以便今后数据仓库的数据追加。 6 数据仓库的中间件 数据仓库的中间件能将数据仓库的各个组成部分,以人们不易察觉的方式无缝地整 合在一起。它主要包括进行数据抽取、转换、复制的拷贝中间件、用于数据库访问的网 关中间件、对数据库进行监控的中间件。拷贝中间件应该能进行数据清洁工作,还应该 能对准备加入数据仓库的源数据按照数据仓库的结构进行变换和合并。网关中间件主要 用于解决数据仓库与数据源和客户之间网络协议不同所造成的数据传输困难问题。监控 中间件主要用于对数据仓库的应用选择适当的资源i ” 。 7 ,数据仓库的逻辑模型 对数据仓库逻辑模型的确定主要涉及数据仓库粒度划分、数据分割策略、关系模型 定义、实体定义等。针对高校的数据仓库的粒度划分可采用多重粒度,比如半学期( 若 有期中考试的话) 、一学期、一学年、一个学习周期等。数据分割策略虽也应考虑数据 量、数据分析处理的对象等因素,但主要还是应与粒度划分策略统一起来,所以在这旱 河北大学j :学硕士学位论文 数据分割策略与粒度划分策略一致就可以了。由于高校数据仓库中采取了标准化和关于 维的较低的粒度,其关系模型应选用雪花模型。在逻辑模型中不仅要确定实体、实体之 间的关系和实体所具有的列,还要进一步确定实体列中的主键列、实体之间关系的外部 键列、实体物理存储的一些特性【1 6 】。 8 数据仓库的物理模型 数据仓库的物理模型就是逻辑模型在数据仓库中的实现模式,主要包括表的数据结 构类型、索引策略、数据存放位胃、数据存储分配等等,考虑的因素有i o 存取时间、 空间利用率以及维护的代价。在数据仓库的数据结构中,可能包含这样一些数据类型的 任意组合:细节数据、概括数据、外部数据、多维数据、数据子集、专门数据缓存、复 制数据和存档数据。虽然数据仓库的基础是规范化的数据模型,但还需要对数据仓库中 存储的数据进行非规范化处理,按业务处理和查询的要求添加衍生数据和概括数据,以 取得较高的性能。由于数据仓库的数据一般很少更新,因而可以对多个数据存储建立专 用的、复杂的索引而提高数据存取效率。建立索引的具体策略是:在建立索引时,可以 按照索引使用的频率,由高到低逐步添加;直到某个索引加入后,使数据加载或重组表 的时间过长时,就结束索引的添加。数据存放位置的策略是:重要的、经常存取的、对 响应时间要求高的数据存放在高速存储设备;存取频率低或对存取响应时间要求低的数 据则可以存放在低速存储设备上。数据存储的策略是按部门或主题区将数据分散在多个 服务器上f 1 7 】【1 8 。 9 数据仓库的测试 数据仓库的测试工作包括单元测试和系统集成测试。单元测试的目的是寻找存于单 个程序、存储过程和其它位于一些独立环境中的模块的错误。在单元测试过程中不仅要 求单元能对各种正常情况进行正确处理,也要求单元对各种错误情况具有防御能力。集 成测试是验证每个单元与数据仓库系统和子系统之间接口完好、能够正常传递数据以及 执行系统的整体功能。集成测试又包括功能测试和回归测试,然后在数据仓库交付用户 之前,还需要对数据仓库进行交付测试。 1 0 基于数据仓库的数据挖掘的策略 数据挖掘中的决策树技术和聚集( 聚类) 已是比较完善的技术,而且在h i c r o s o f t s q ls e r v e r2 0 0 0 中的a n a l y s i ss e r v i c e s 中就提供这两种挖掘技术,故而就采用之。 第3 章基于数据仓库的高校学生成绩分析 第3 章基于数据仓库的高校学生成绩分析 3 1 数据准备及数据仓库的模型 3 11 数据准备 本文原始数据为河北大学数学与计算机学院计算机科学与技术专业2 0 0 0 级全体学 生、全部课程、全部学期的成绩表,共有2 5 3 名学生、9 4 门课程、8 个学期,是e x c e l 文件( 扩展名为x l s ) ,计有1 3 9 3 2 条成绩记录。针对这些原始数据,依次做了以下整 理工作。 1 在2 5 3 名学生中,有2 名学生是原为1 9 9 9 级、现退班到2 0 0 0 级的学生,因他们 在2 0 0 0 年2 0 0 4 年期间仅学习了部分课程,为简单考虑计,删去他们的所有成绩记录 共3 4 条,剩为2 5 1 名学生、9 4 门课程、8 个学期,计有1 3 8 9 8 条成绩记录。 2 在9 4 门课程中,有一些课程只有极少数学生选修,例如国际金融仅有1 3 名 学生选修、大学生心理学仅有5 名学生选修、合同与生活仅有1 名学生选修,类 似的课程有3 4 门,为把注意力放在主要的课程( 也就是所有学生都选修的课程) 上, 将这3 4 门课程相关的成绩记录删去,剩为2 5 1 名学生、6 0 门课程、8 个学期,计有1 3 6 8 5 条成绩记录。 3 ,若某名学生某门课程不及格,还需补考或重修之后,又会获得一及格成绩,这 样这名学生的同一门课程会有两个成绩记录( 不是重复记录,而是成绩不同的记录) , 为分析简单计,仅保留及格成绩记录,将所有不及格成绩记录4 1 2 条删去,仍为2 5 1 名 学生、6 0 门课程、8 个学期,但成绩记录剩为1 3 2 7 3 条。 4 现有2 5 1 名学生,则对应每门课程应有2 5 1 条成绩记录,但是有一些课程的成绩 记录条数均在2 3 9 条以下,说明这些课程不是被2 5 1 名学生全部学习并有成绩,将这些 课程( 共1 5 门) 相应的成绩记录删去,剩为2 5 1 名学生、4 5 门课程、8 个学期,计有 1 1 2 2 l 条成绩记录。 5 在2 5 1 名学生中,有4 人休学或退学,他们也只有部分课程有成绩,将他们相应 的成绩记录删去,剩为2 4 7 名学生、4 5 门课程、8 个学期,计有1 1 0 9 1 条成绩记录。 河北大学j 二学硕士学位论文 6 在剩下的4 5 门课程中,有5 门课程的成绩记录条数少于2 4 7 条,说明这些课程 不是被2 4 7 名学生全部学习并有成绩,将这些课程( 共5 门) 相应的成绩记录删去,这 时,剩下的课程全是在前7 个学期开设的,已没有在第8 学期( 2 0 0 3 2 0 0 4 2 ) 开设的 课程了,剩为2 4 7 名学生、4 0 门课程、7 个学期,计有9 8 6 9 条成绩记录。 7 在9 8 6 9 条成绩记录中,有完全重复记录5 条,删去;并且有1 名学生仅有3 7 条记录,小于4 0 条,将其相应的成绩记录也删去,剩为2 4 6 名学生、4 0 门课程、7 个学期,计有9 8 2 7 条成绩记录。 8 在2 4 6 名学生中,有4 名学生只有3 8 条成绩记录、7 名学生只有3 9 条成绩记录, 均低于4 0 条,将他们相应的成绩记录删去,剩为2 3 5 名学生、4 0 门课程、7 个学期, 计有9 4 0 2 条成绩汜录。 9 在2 3 5 名学生中,有2 名学生虽有4 0 条成绩记录,但均有重复记录,实际记录 条数也少于4 0 条,将他们相应的成绩记录删去;另有1 名学生还有重复记录,将其重 复的成绩记录也删去,剩为2 3 3 名学生、4 0 门课程、7 个学期,计有9 3 2 0 条成绩记录。 整理后的数据的部分统计见表3 一l 至表3 3 。 表3 1 2 0 0 0 2 0 0 1 - 1 2 0 0 0 2 0 0 1 2 2 0 0 1 - 2 0 0 22 0 0 l - 2 0 0 2 一l 2 0 0l 一2 0 0 2 2 2 0 0 2 2 0 0 3 2 0 0 2 2 0 0 3 1 2 0 0 2 2 0 0 3 2 2 0 0 3 2 0 0 4 第3 章基于数据仓库的高校学生成绩分析 表3 - 3 课程类别课程名称 公共课大学体育( 1 ) 大学体育( 2 ) 大学体育( 3 ) 大学体育( 4 ) 大学语文 邓小平理论概论 法律基础 马克思主义哲学原理 马克恩主义政治经济学原理 毛泽东思想概论 思想道德修养 专业理论课c 语言程序设计 操作系统 电路分析基础 概率统计 高等数学( 1 ) 高等数学( 2 ) 汇编语言 计算机导论 计算机系统结构 计算机组成原理 离散数学 模拟电路 软件工程 数据结构 数据库原理 数学模型 数字电路 物理学( 1 ) 物理学( 2 ) 线性代数 专业英语 编译原理实验 操作系统实验 计算机系统结构实验 计算机组成原理实验 模拟电路实验 数据库原理实验 数字电路实验 物理学实验 专业实验课 河北大学工学硕士学位论文 312 数据仓库的模型 现在,数据仓库技术在商业领域中的应用是比较广泛的,例如在超市经营分析中。 在超市中,供货商( 销售商) 销售( 提供) 商品给客户,客户回报供货商c 销售商) 以 货币,以销售额为度量值,那么客户、商品、供货商( 销售商) 就是超市中的三大主题。 可以类比地,学生、课程、教师是高校中的三大主题,教师传授( 提供) 课程给学生, 学生回报教师以学到的知识,以成绩( 分数) 为度量值,所以可有如图31 、图3 2 所 示的类比关系: 客户商品供货商( 销售商) 是一照一点币 图3 - 1 主题类比关系 此外,在高校中,还有时间、性别等主题。 销售额 n 成绩t 分数) 图3 - 2 度量值类比关系 综合考虑以上内容,可建立如图3 3 所示的雪花型数据仓库模型 筹3 章基于数据仓库的高校学生成绩分析 学生维 河北大学工学硕士学位论文 在图3 3 中,学生成绩表为事实数据表,其余的为维度表。事实数据表与维度表、 维度表与维度表之间均用码键相关联。 但囿于现有数据,可建立如图3 4 所示能实际实现的星型数据仓库模型: 学生维 图3 4 在图3 4 中,学生成绩表为事实数据表,其余的为维度表。学生成绩表有4 个字段, 通过“学号”与学生维度表相关联,即“学号”既是学生成绩表的外键,又是学生维度 表的主键;通过“学期”与时间维度表相关联,即“学期”既是学生成绩表的外键,又 是时间维度表的主键,这里没有再设置“学期编号”,而直接使用了“学期”字段作键; 通过“课程编号”与课程维度表相关联,即“课程编号”既是学生成绩表的外键,又是 课程维度表的主键。 在学生维度表中有3 个字段,其中“学号”是作为与事实数据表相关联的主键,而 “班级”、“姓名”是标准维度名,“班级”是父级别,“姓名”是子级别;在时间维度表 中有2 个字段,“学年度”、“学期”是标准维度名,“学年度”是父级别,而“学期”既 是作为与事实数据表相关联的主键,又是子级别;在课程维度表中有3 个字段,其中“课 程编号”是作为与事实数据表相关联的主键,而“课程类别”、“课程名称”是标准维度 名,“课程类别”是父级别,“课程名称”是子级别。 第3 章基于数据仓库的高校学生成绩分析 3 2 建立数据仓库( 多维数据集) 的过程 本文实验环境如下: 操作系统平台: m ic r o s o f tw in d o w s2 0 0 0a d v a n c e ds e r v e r 简体中文版 数据库管理系统: m i c r o s o f ts q ls e r v e r2 0 0 0 简体中文企业版 在m i c r o s o f ts q ls e r v e r2 0 0 0 简体中文企业版中提供了一个名叫a n a l y s is s e r v i c e s 组件,它可以建立多维数据集( 即数据仓库) ,并可以进行o l a p 的切片、切 块、旋转、钻过、钻透、上钻、下钻等分析;它还包含了基于决策树分类的数据挖掘功 能、基于聚类分析的数据挖掘功能,可进行相应的挖掘分析。 要建立数据仓库( 在m i c r o s o f ts q l s e r v e r2 0 0 0 中,称为多维数据集) ,首先 利用m i c r o s o f tb q l s e r v e r2 0 0 0 中提供的b t s ( 数据转换服务) 功能将学生成 绩x l s 文件导入到s q ls e r v e r2 0 0 0 中建立相应的学生成绩数据库文件,结果见图3 - 5 。 类似地,建立学生数据库、时间数据库、课程数据库。刷新后,可见到如图3 - 6 所 示,4 个数据库均已存在。 河北大学i ,学硕士学位论文 图3 - 6 因为在s q ls e r v e r2 0 0 0 建立多维数据集要求事实数据表和维度表必须在同一 个数据库中,所以还需将学生表、时间表、课程表导入到学生成绩数据库中,完成后如 图3 7 所示,在学生成绩数据库已有学生数据表、课程表、时间表、学生表。 图3 7 学生成绩数据库已经建立,由它就可以建立学生成绩多维数据集。首先,建立“课 程类型课程”二层共享维度,结果见图3 8 。 第3 章基于数据仓库的高校学生成绩分析 图3 - 8 类似地,建立“学年度学期”、“班级姓名”共享维度,见图3 - 9 和图3 1 0 。 图3 - 9 图3 1 0 1 9 河北大学工学硕士学位论文 选择这三个共享维度为学生成绩分析多维数据集的维度,建立的多维数据集的架构 见圈3 1 1 。 图3 1 l 建立的多维数据集的数据查询界面见图31 2 图3 一1 2 至此,学生成绩分析多维数据集( 数据仓库) 已完全建立。在此多维数据集中,共 可以有( 7 + 4 + 1 ) x ( 4 0 + 3 + 1 ) x ( 2 3 3 + 6 + 1 ) = 1 1 6 1 6 0 个查询。 第3 章基于数据仓库的高校学生成绩分析 3 3 基于数据仓库的高校学生成绩分析 3 3 1 分析一 图3 一1 3 由图3 1 3 可知,第一学年( 2 0 0 0 2 0 0 1 ) 各班成绩是相近的,0 0 计科4 班的平 均成绩最低,但与最高的也仅差0 4 5 分。 图3 1 4 由图3 1 4 可知,第二学年( 2 0 0 1 2 0 0 2 ) 各班成绩相差比较大了 的平均成绩仍然最低,与最高的已差2 7 7 分。 河北大学工学硕士学位论文 图3 1 5 由图3 1 5 可知,第三学年( 2 0 0 2 2 0 0 3 ) 各班成绩相差仍然比较大 班的平均成绩仍然最低,与最高的差2 6 7 分。 图3 1 6 由图3 1 6 可知,第四学年( 2 0 0 3 2 0 0 4 ) 各班成绩相差仍然比较大,0 0 计科4 班的平均成绩虽然不是最低,但与最高的差5 8 1 分。 由图3 1 3 至图3 1 6 可得出各学年各班名次表 表3 4 第3 章基于数据仓库的高校学生成绩分析 综合以上分析,可得出如下结论: 1 由于各班入学成绩差不多、学习程度相近,所以第一学年的成绩是相近的:但以 后各学年由于各班努力程度不同,成绩差距越来越大。 2 0 0 计科4 班前三个学年成绩都最差,第四学年虽比0 0 计科5 班稍高,但第四学 年仅有2 门课程,有偶然性,总体上0 0 计科4 班在所有班级中一直成绩最差,且与最 高的班级成绩相比差距越来越大。 3 0 0 计科1 班名次直保持在第二名至第四名,成绩相对稳定;o o 计科2 班名次 直保持在第三名至第五名,成绩总体靠后;o o 计科3 班名次一直保持在第一名至第 三名,成绩总体位居前列;0 0 计科5 班名次变化很大,但第四学年仅有2 门课程,有 偶然性,成绩总体位居前列;0 0 计科6 班名次从第学年的第五名上升到第三、四学 年的第一、二名,成绩越来越好,学习进步很大。 33 2 分析二 图3 - 1 7 由图3 1 7 可知,所有学生的专业理论课成绩较低,而公共课、专业实验课成绩较 高,这是可以理解的,因为专业理论课得分难度较大,而公共课、专业实验课得分较易。 河北大学工学硕士学位论文 ! ! ! ! ! ! ! ! g ! ! ! ! ! ! ! ! ! j ! ! 自! ! s s 自! ! e ! ! ! ! e ! ! i ! ! ! ! ! 图3 一1 8 由图3 一1 8 可知,所有学生的公共课成绩起伏较大,第三学年的公共课平均成 绩仅为6 2 o o 分,比前两年低很多,这是因为第三学年唯一的一门公共课马 克思主义政治经济学原理是2 个学生重修后得到的成绩,而成绩仍然较差。专业 理论课、专业实验课起伏不大,但都在第三学年( 2 0 0 2 2 0 0 3 ) 达到最高,这是因 为在第三学年学生学习渐入佳境,而在第四学年受考研、就业等的影响成绩又有所 卜 滑。 在图3 一1 9 中,针对所有班级( 即全部学生) 而言,这个趋势更明显。 图3 一1 9 从单个学生看这个趋势也很明显,见图3 2 0 。 第3 章基于数据仓库的高校学生成绩分析 33 3 分析三 图3 2 0 图3 2 1 由图3 2 1 可见到各个班级公共课、专业理论课、专业实验课的平均成绩,进而可 得到如表3 - 5 所示的名次表。 表3 5 河北太学工学硕士学位论文 分析表3 - 5 后,可得到如下结论: 1 显然,0 0 计科4 班不仅公共课最差,专业理论课、专业实验课也都最差,样样 都最差。 2 o o 计科1 班、0 0 计科2 班各种课程类型的成绩均居后列;。o 计科3 班、o 。计科 5 班、o o 计科6 班各种课程类型的成绩均居前列。 3 其中三个班的专业理论课名次与专业实验课名次相同,二个班的专业理论课名次 与专业实验课名次非常接近,只有一个班的专业理论课名次与专业实验课名次相差比较 大,但实际成绩相差很小,可以说专业理论课与专业实验课学得要好都好、要差都差。 33 4 分析四 图3 2 2 体育课的成绩越来越好,说明入学以后逐渐加强了锻炼,并且由于继续发育的 原因身体素质越来越强。 第3 章基于

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论