数据仓库技术在学生成绩管理中的应用毕业论文_第1页
数据仓库技术在学生成绩管理中的应用毕业论文_第2页
数据仓库技术在学生成绩管理中的应用毕业论文_第3页
数据仓库技术在学生成绩管理中的应用毕业论文_第4页
数据仓库技术在学生成绩管理中的应用毕业论文_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据仓库技术在学生成绩管理中的应用 摘要:本文主要介绍了数据仓库、数据挖掘等基本概念性知识。在设计中通过将搜集来的学生成绩原始数据进行清理、集成、变换等方法进行数据预处理后,建立学生成绩管理数据仓库,应用SQL Server 2008中的联机分析处理技术从不同的维度观察是否对成绩有影响因素,建立决策树挖掘模型对学生成绩进行定性分析,并对实验结果进行了分析和解释,用于指导学校决策者制定修改人才培养方案和指导学生更加有效地学习。关键词:数据仓库,数据挖掘,维度,决策树The Application of Data Warehouse Technology in the Management of

2、StudentsAbstract: This paper mainly introduce the data warehouse and data mining, and other basic conceptual knowledge. In the design of collected by the student achievement original data cleaning, integration, transform method for data pretreatment, set up students' performance management data

3、warehouse application SQL Server 2008 of on-line analytical processing technology from different dimensions to observe whether grades have influence factors, establish decision-making tree mining model student achievement of qualitative analysis, and the experimental results are analyzed and explain

4、ed, used to guide the school the decision makers to make change the talent training scheme and guide students to learn more effectively.Key words: data warehouse,data mining, dimension, decision-tree目 录1 绪论11.1 数据仓库的研究现状及发展趋势11.2 数据挖掘技术在教育领域中的研究现状及意义21.3 研究内容31.4 论文结构32 数据仓库及数据挖掘相关知识42.1 数据仓库42.1.1

5、数据仓库概念42.1.2 数据仓库的特点42.1.3 数据仓库系统的体系结构52.2 数据挖掘62.2.1 数据挖掘的概念62.2.2 数据挖掘的对象62.2.3 数据挖掘的任务62.2.4 数据挖掘的过程72.2.5 数据挖掘的基本算法82.3 联机分析处理(OLAP)102.3.1 OLAP的概念102.3.2 OLAP的特性102.3.3 OLAP的基本活动112.3.4 OLAP的实现方式112.4 SQL Server 2008软件简介123 学生成绩数据仓库的建立133.1 学生成绩数据仓库的概念模型设计133.2 学生成绩数据仓库的逻辑模型设计133.3 学生成绩数据仓库的物理模

6、型设计164 学生成绩数据库的实施194.1 建立“学生成绩”数据库194.2 数据预处理194.3 创建多维数据集204.4 进行多维分析20学生成绩的多维分析204.4.2 决策树算法在学生成绩分析中的应用245总结与展望295.1总结295.2 展望29致谢30参考文献311 绪论如今人们利用信息技术生产和收集大量的数据,给我的生活提供了很大的方便。然而要想高效地管理、组织这些数据并对其进行分析并不是一件易事。数据仓库和数据挖掘技术在这方面得到了广泛的应用,数据挖掘能从存放在数据仓库中的大量数据中挖掘出隐藏的有用知识。高校中存在着学籍管理、成绩管理、人事管理等各种数据系统。在这些数据库中

7、存储了大量的数据,然而隐藏在这些数据背后的信息一直未得到开发应用。学生是学校的核心,他们的学习成绩作为一种总结性评价,能反映出他们的知识掌握情况和相应知识技能的获得情况。学生成绩不仅对学生的学习效果和教师的教学效果具有检测作用,而且还能反馈教学活动,反作用于教师的教和学生的学。在诸多高校的教务数据仓库中的学生成绩记录非常庞大, 他们对学生成绩的评定分两种:一种是定量评价,一种是定性评价。定量评价也就是我们平时所说的某门课程考了多少分,而定性评价一般分优、良、中、差等四个级别。他们仅仅从单独一门课进行分析,很少关注到学生取得这些成绩背后的影响因素和原因。数据库是从定性的角度分析学生成绩,缺点就是

8、得到的结果不是很精确;而数据仓库是从定量的角度对学生成绩进行分析,能精确的得到各个方面的数据。因此使用数据仓库和数据挖掘技术对学生成绩进行深层的分析,挖掘出隐藏在数据背后的规律或模式,根据挖掘结构提出一些指导性建议从而更好的指导教师教学,提高教学效率,提高学生的成绩。本文利用联机分析处理和数据挖掘技术,以我校教务管理系统为研究背景,从教务处网站导出近几年的学生成绩和教师、课程等各方面的信息数据,然后建立学生成绩数据仓库,并创建多维数据集和维度结构,从不同的维度观察学生的成绩,得出一些对比性数据。最后应用数据挖掘技术对学生成绩进行挖掘,得出定性评价,根据这些挖掘结果有针对性的提出一些改进教学质量

9、和提高学生成绩的措施。1.1 数据仓库的研究现状及发展趋势 数据仓库技术是 20世纪90 年代的一门新兴技术,它能有效地管理好数据,并对其进行存储和组织。目前,数据仓库还没有一个统一的定义,著名的数据仓库专家对数据仓库概念有比较系统和全面的解释,他在其著作Building the Data Warehouse一书中指出:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,它广泛应用于支持管理决策。显而易见数据仓库不仅仅是一个数据集合

10、,还是一个决策支持系统。目前,国外企业所建立的数据仓库应用系统给他们都带来了明显的经济效益,但是金融业使用数据仓库只是完成简单的报表生成和日常业务分析,并没有对数据进行深入的挖掘分析,显然这样没有发挥出数据仓库的应用价值,所以并不能给银行等金融业带来真正的经济效益。现阶段我国的数据仓库分析技术还没有多少经验。使用数据仓库的关键是建立仓库模型 ,这就对设计者提出了要求,他们必须对相关的业务非常熟悉而且还应具备相应的管理分析能力 。数据仓库是一个很有发展前景的技术。数据仓库技术包括对数据的抽取、存储与管理、数据表现和方法论等方面。首先,要采用统一的数据结构即要统一信息系统的平台。数据仓库技术未来的

11、发展趋势:在数据抽取方面,将会在系统集成化方面得到飞速的发展;在数据管理方面,数据库厂商将产生出数据仓库引擎,与数据库服务器同步发展;在数据表现方面,数理统计的算法和功能将应用到联机分析产品中。当数据模型建好以后,就要在其上建立应用系统,进而在数据仓库上进行数据挖掘,构建决策支持系统 ,让所建的数据仓库发挥其有用的作用。1.2 数据挖掘技术在教育领域中的研究现状及意义随着国家对教育的重视,学校也开始寻找各种可以提高学生成绩的途径。根据不同考试的要求,找出学生的考试成绩中潜在的联系已成为各级高校和教育部门的需求。把数据挖掘技术应用到教育领域,通过对数据库中的大量数据(特别是学生的成绩数据)进行抽

12、取、转换,从中提取出对教学质量的改进有作用的数据。当前,数据挖掘技术在教育领域中的应用主要有以下几个方面:(1)教学管理系统方面。把数据挖掘技术应用到教学管理中,建立教学管理挖掘系统,对其中的数据进行分析能得到传统的分析方法无法得到的潜在信息,因此学校可以利用这些信息知道教学的进程从而提高教学质量。(2)高校教学质量评估方面。通过对某一个院系学生的评价数据和授课教师的信息进行数据挖掘,采用分类、聚类、决策树、关联规则等数据挖掘方法对学生成绩进行挖掘,对挖掘结果进行分析,得出定性评价,找出影响教学质量的关键因素,为教学提供决策支持。(3)网络教学方面。把数据挖掘技术应用到网络教学方面,对教学信息

13、数据进行挖掘,产生有利于提高网络教学质量的信息点,使得网络教学工作得到顺利开展。数据挖掘技术中的关联规则可以发现两门或多门课程中存在的先行后续的关系,学生成绩与课程设置顺序之间存在的联系,从中可以找到影响学生成绩的原因。1.3 研究内容在明确了我校教学管理系统的不足之后,试图将数据仓库和数据挖掘技术应用到教学管理中,首先对教学系统中大量的学生成绩数据进行分析和处理,利用SQL Server 2008软件中的挖掘算法以学生成绩为核心挖掘潜在的规律及模式,得到影响学生成绩可能原因,有针对性地提出教学建议和课程安排次序,以帮助教育者制定教学计划,提高教学质量。本文主要介绍了数据仓库、数据挖掘等基本理

14、论知识和关联规则、聚类分析等基本算法;运用联机分析处理技术和决策树算法应用于所建立的学生成绩数据仓库中,对学生成绩进行深入挖掘,从教师、学生、课程等三个维度分析出学生成绩的规律性变化。1.4 论文结构第一章 绪论。介绍选题背景及选题意义,数据仓库技术在国内外的研究现状和发展趋势以及本论文的研究内容和结构安排。第二章 数据仓库和数据挖掘的相关知识。主要介绍数据仓库和数据挖掘的基本知识,包括数据挖掘的过程、任务、分类以及常用技术和方法。另外还重点介绍了联机分析处理技术。第三章 学生成绩数据仓库的建立。主要通过概念模型、逻辑模型、结构模型设计建立学生成绩数据仓库和数据仓库实施的前期准备。第四章 学生

15、成绩数据挖掘。利用联机分析处理技术和决策树算法对学生成绩数据仓库进行分析和数据挖掘。第五章 总结与展望。 阐述了本人在论文研究阶段的工作、论文的创新点、并对数据挖掘技术在高校教学管理中的进一步研究进行分析和展望。2 数据仓库及数据挖掘相关知识2.1 数据仓库 如今数据库中存有大量的数据信息,必须对其进行存储、管理和维护,由于数据库管理系统(database management system,DBMS)的局限性使得它很难满足人们的需求。DBMS的缺陷主要表现为:数据量成几何级数增长;数据来源不同的数据难以集成;访问这些数据时的响应性能不断降低。而应用决策支持系统(decision suppor

16、t system,DSS),它所需的数据必须经过提取、转换、过滤等预处理操作并与其他数据源整合,按主题存放在数据库中。客户查询时访问的是中央数据库(database,DB),因此要想使数据能更好地为用户服务,必须经过清洗、转换和加载。这些工作通常都在数据仓库(data warehouse,DW)中完成。 数据仓库概念 20世纪50年代中期,“数据仓库之父”WiiliamHhimon出版的建立数据仓库中对数据仓库进行了定义,他指出:数据仓库是一个面向主题的、集成的、不可更新的、随时间变化的数据集合,用于支持管理决策。数据仓库与其他数据库不同,它更像是一种过程,它是对各种业务数据的整合、加工和分析

17、。数据仓库用于支持决策,面向的是分析型数据处理,所以它并不等同于操作型数据库;数据仓库是通过数据清理、变换、集成和定期刷新来构造的,这些数据一般是历史的积累数据,一般不做修改。 数据仓库的特点 数据仓库主要有四个特征:面向主题性、集成性、不可更新性、随时间变化性。(1) 数据仓库是面向主题的以前的操作型数据库中侧重的是联机事务,各项数据的应用逻辑是相互组合的,分离度不高。数据仓库中的数据由于是面向主题进行组织的,所以能完整地刻画各项数据以及数据之间的关系。(2) 数据仓库中的数据是集成的 数据仓库中的数据大多数都是来自不同的外部应用系统或者是本系统中不同的使用部门。我们一般把数据仓库中的数据分

18、为外部数据和内部数据,外部应用系统的信息就叫外部数据,本系统中的信息就叫内部数据。这些内外数据的组织结构会有所不同,这就需要对不同的数据源数据进行集成,目的是为了保持数据的一致性。我们所说的数据集成并不是对数据的简单归类于合并,而是要经过数据组织结构的统一与综合。 (3))数据仓库中的数据是不可更新的 数据仓库中的数据记录的是日积月累的历史数据的内容,反映的是不同时间点的数据库快照集合通过数据的统计、整合和重组而得出的数据。数据仓库数据的不可更新性并不意味着不可以对数据进行更新操作。当我们要进行新的分析决策时,这时候就需要对数据进行更新操作,把数据仓库中那些过时的数据删掉,并将近期的数据进行集

19、成整合然后添加到数据库中进而生成新的记录。这些修改和重组的任务是由数据仓库管理员定期后台实现的,最终用户不允许参与。 数据仓库系统的体系结构数据仓库系统是在数据仓库的基础上建立的,它通过查询工具和分析工具提取出满足用户的各种需求的数据信息。数据仓库的基本体系结构,如图2.1所示。图2.1 数据仓库体系结构(1)数据源数据源是数据仓库系统的数据源泉,为整个系统的分析和使用提供可能。(2)数据的抽取、转换、装载、预处理数据的抽取是将数据转换成数据仓库统一的数据结构和内部格式,数据的净化是确保数据的有效性并能为决策服务。数据的装载是将净化的数据加载到数据仓库数据库。数据的提取、净化、转化到加载这四个

20、过程被称为数据分级。(3)元数据元数据是关于数据的数据,是用于描述数的要素、数据集的内容、数据的覆盖范围、数据的所有者、数据的提供方式、数据的质量和管理方式等有关的信息。2.2 数据挖掘 数据挖掘的概念 数据挖掘(Data Mining,DM)是从大量的、随机的、 不完全的、 模糊的、有噪声的数据中,提取出隐含在数据中的、隐藏的、但又有潜在使用价值的信息和知识的过程。因此它是一种深层次的信息分析方法。数据挖掘出来的内容必须是需求者感兴趣的信息,因此数据挖掘过程就是使用各种挖掘技术从大型数据库中提取出人们感兴趣的信息的过程,提取出来的这些信息和知识用概念、规则、规律、模式等形式来表示。在高校中,

21、我们可以使用数据挖掘技术对学生的成绩进行全面地分析,找出学生成绩与其它各种因素之间隐藏的内在联系,定性的从不同的角度精确地展现学生成绩,从而找出影响学生成绩变化的可能因素,进而提出一些教学建议和改进措施,提高学生学习的积极性,让学习效果更好。 数据挖掘的对象数据挖掘的对象主要包括关系数据库、事务数据库、多媒体数据库、面向对象数据库、数据仓库、文本数据源、遗产数据库以及 Web 页等八个方面。 数据挖掘的任务 数据挖掘的主要任务是发掘数据仓库还没有被发现的知识。决策者明确需要了解的信息,我们可以直接使用查询、OLAP 技术或其它工具来得到;而有些隐藏的信息我们就不能直接得到,因而就需要用到数据挖

22、掘技术。在数据仓库中应用数据挖掘技术可从中找出有价值的信息和知识,然后再利用这些信息和知识指导实际操作。数据挖掘的任务包括关联模式、聚类模式、分类和预测、偏差检测与时序模式。(1)关联模式。关联模式是指数据项之间存在的关联规则,如果两个或两个以上数据项重复出现的概率比较高,它们之间就可能存在某种关系,我们把这种可能的关系称之为关联规则。(2)聚类模式。按照相似度把数据归并成若干类,要求同一类别中的数据相似、数据间的距离较小,不同类别中的数据相异、数据间的距离较大,我们把它称之为聚类。(3)分类和预测。描述和区分数据的类或概念的技术成为分类技术,分好的类或概念模型能够预测未知的对象类。(4)偏差

23、检测。分类中的反常实例和不满足规则的特例不能直接用于数据分析,需要经过检查偏差,预测数据库中数据的某些异常问题,为后一步的改正做好铺垫。(5)时序模式。时间序列模式是根据数据的发展趋势来预测将来可能出现的值,它是根据时间序列查询出事件较高的发生概率来实现的。 数据挖掘的过程 数据挖掘的过程主要包括三个部分:数据预处理(Data preproeessing)、数据挖掘 (Data Mining)、结果的解释和评估(Interpretation and Evaluation)。下面来介绍一下数据挖掘的基本流程:(1)定义问题:首先要明确要研究的问题以此来确定数据挖掘的目的。 (2)数据预处理:包括

24、数据的收集和准备;数据清理(消去冗余的、过时的、失效的数据);数据集成(将数据由多个数据源合并成一致的数据存储,如数据仓库、数据集市);数据变换(将数据进行规范化和聚集);数据归约(采用聚集、删除冗余特性或聚类等方法来压缩数据)。(3)数据挖掘:从数据的特点和功能类型方面考虑选择相应的算法,对上一步预处理过的数据进行数据挖掘。 (4)结果分析:对数据挖掘出来的结果进行解释和深入的分析评价,然后转换成能够被用户理解的知识。 (5)知识的运用:将分析出来的能被用户理解的知识运用到实际问题上来,有针对性的提出建议和意见。 数据挖掘的基本算法(1) 分类算法数据分类是指把数据库结构中多个对象的相同属性

25、找出来,并为每个属性组做出比较准确的描述,在这个基础上建立相应的分类模型,并据此把它们分为不同的类别。分类技术里最典型且应用最广泛的是决策树策略。决策树是一种树结构,它类似于流程图,它的每个树节点代表一个类或一种类分布。决策树策略中最典型的算法是ID3算法有时也被称为贪心算法。贪心算法是采用自顶向下的递归方式,经过决策树的每一个内部节点属性值的比较,如果得出了不同的属性值就从该节点向下分支,直到这个类结束,所得的最后一个节点称为叶节点。也就是说从根节点到叶节点的某一条路径就是一条分类规则,整个决策树就被表示成一组析取表达式规则。构造决策树一般分成两个阶段:生成树和修剪树枝。树的生成阶段也就是构

26、造决策树的初始阶段,初始把所有数据都放在根节点,再递归地把数据进行划分,直至叶节点的生成。对数进行修剪是为了防止决策树太过庞大,不利于数据分析,修剪树枝就是去掉那些可能是噪音或者异常的数据。剪树枝的方法大概有以下五种:先剪枝提前停止树的构造,即先对树剪枝,一旦决策树停止构造,末端结点就成为树叶,它拥有子集样本中最频繁的类。如果这些样本概率分布在构造树上时,可用信息增益等度量来评估决策树分裂的优良性。可见要想选取一个适当的值是非常困难的。后剪枝后剪枝是先让决策树充分地生长,然后再删除没多大研究价值的分支的枝叶。一个分支是否保留是通过衡量这个分支的存在对分类性能有没有提高价值和它对整棵树复杂程度增

27、加的多少。代价复杂性剪枝算法决策树中的每一个非叶子结点,通过算法计算出该结点的分支子树被剪枝后有可能发生的期望错误率,再根据预测的每个分支的错误率,计算出该结点剪枝后的期望错误率。如果得到的期望错误率较高,就保留该子树分支,否则就剪去这个分支。对于被剪枝剪下来的树枝,我们使用一组独立的测试集用来评估每一棵决策树的准确率,这样得到的决策树就具有最小期望错误率。编码长度最小剪枝算法这一种剪树枝的方法是根据编码的二进位位数对决策树进行剪枝。最佳的剪枝树必然使得编码所需的二进位最少,编码的二进制位数是通过最小扫描数来确定的。组合式方法组合式方法是同时使用先剪枝和后剪枝技术,后剪枝方法需要进行的计算比先

28、剪枝的多,后剪枝得到的决策树当然比先剪枝得到的树更可靠。当决策树节点上每一个的数据都属于同一个归类或没有其它属性来分割数据时,决策树就停止生长。(2)聚类算法 聚类分析算法是根据不同的属性值把一组对象划分成若干个有意义的子集,也就是把某些物理对象或者未分类的记录按照它们之间的相似性归为若干个类别。聚类划分必须保证组内同质和组间异质,换句话说就是使得同一聚类中的数据尽可能地相似,不同聚类中的数据尽可能地不同。需要分析的数据如果缺乏描述信息或者没办法进行分类时就适合选用聚类分析方法。(3) 关联规则 关联规则挖掘算法是从大量有噪声且模糊的数据中,抽取出隐含在其中但又存在潜在使用价值的关联信息和知识

29、的过程。数据关联指的是某一事件的发生可能导致其它事件发生的一种关联规则。进行关联分析是为了发现隐藏在研究数据背后的关系网。2.3 联机分析处理(OLAP) OLAP的概念联机分析处理是从信息数据的多种可能的角度进行观察分析以得到这些角度对度量值的影响情况,我们把这些角度称之为“维”。联机分析处理技术支持动态多维分析,所谓动态多维分析是指跨维,在不同的层次选取成员进行计算和建模,在不同的时间段进行趋势分析和预测分析;对数据进行切片和切块等多个方面对数据进行深入地分析;它还可以用于查询底层的细节数据,通过旋转对不同维进行比较。OLAP中的变量是指从现实系统中抽取出来的用来描述数据的实际含义;人们从

30、不同的角度来观察数据,这些角度就是维度;数据的某一个维度有可能存在更细节化的描述,我们把它称作维的层次;维成员是维度中的一个取值。 OLAP的特性(1) 快速性OLAP能快速的对数据进行分析,基本上在5秒钟之内就能分析出用户的需求信息。之所以反应这么敏捷是因为数据存储格式、高效的硬件设计等给它的快速运行提供了可能。(2) 可分析性OLAP系统可处理与应用有关的逻辑分析和统计分析。用户分析数据可以直接在OLAP平台进行,也可以与其他外部分析工具连接后进行,这里的外部分析工具包括时间序列分析工具、成本分配工具、意外报警、数据开采等。(3) 多维性进行多维分析的基础必须要多个维度,用户应在SQL S

31、erver里创建多维数据集和多维视图,然后才能进行多维分析。在OLAP系统中,信息被描述成多维立方体 (Cube),用户根据所得的立方体进行切片、上钻、下钻、旋转等操作就能得到期望的分析结果。(4) 信息性OLAP能管理好大容量的信息,并且能够从这些庞大的数据里迅速及时的提取出用户需求的信息。它是一个大的数据集市,因此管理和存储这么多的数据需要考虑数据的复制性、可利用的磁盘空间和数据仓库的结合度等方面。(5) 可视性OLAP系统支持可视化的用户界面,可以把数据以多种方式显示出来,比如电子表格、图表等。这样用户就可以直观简洁明了看到分析数据。 OLAP的基本活动(1) 钻取和卷起 钻取是指对应于

32、某一维逐步向更细节层方向观察数据;卷起与钻取相反。这两个基本操作给用户提供了足够灵活、多角度的数据观察。(2) 切片和切块有时只用显示出用户感兴趣的数据,这时候就需要用到切片和切块,帮助用户从众多混杂的数据中进行选择。(3) 旋转有时候想要改变一个报告或页面显示的维方向以从不同的视角来观察数据,这时候就需要用到旋转的方法。 OLAP的实现方式按照数据的存储方式,通常把OLAP分为基于多维数据库的OLAP(MOLAP)、基于关系数据库的OLAP(ROLAP)和混合型的OLAP(HOLAP)三类。(1) MOLAPMOLAP是基于多维数据库的联机分析处理,这种联机分析处理的核心是多维数据库技术,它

33、里面的数据以多维的方式来存储,使用多维数据库来组织数据。MOALP工具以多维数据库的形式将源数据、基础事实数据和导出数据存储在以多维数组为基本存储结构的多维数据库中。多维数据库以多维的方式存储数据和显示数据。多维数据在多维数据库中是以“超立方体”的结构显示,再对“超立方体”进行切片、切块、旋转等操作产生多维数据报表。多维数据库相比关系数据库而言,多维数据库占用的存储空间小而且数据的综合运算速度高。但它也存在一些不可忽视的缺点:一是多维数据库系统缺乏标准;二是多维数据库需要管理大规模数据,但它这方面的能力不够强大,因此它不适合用来处理大量的细节数据。MOLAP的优点是能够非常快速地反应用户的查询

34、需求,MOLAP独特的多维数据库结构为它的敏捷性提供了基础前提。(2) ROLAPROLAP是基于关系数据库的联机分析处理。用户从客户端提交分析请求给OLAP服务器,这些请求经过OLAP服务器被转换成SQL语句进行执行,OLAP服务器再把执行结果以多维视图的形式展现给用户。ROLAP将多维数据库中的结构设计表分为:一种是事实表,主要是用来存储数据和外码维关键字的;另一种是维表,每一个维度至少要使用一个表来存放层次、成员类别等信息。维表和事实表通过主键和外键联系起来,形成星型结构或雪花型结构。ROLAP与MOLAP相比,ROLAP更加灵活,技术成熟,而且有现成的产品可以借鉴,开发过程快,风险也小

35、。缺点在于处理用户的分析请求时所需的时间比较长,这是由于ROLAP要进行表连接和索引,这样就降低了系统的性能。(3) HOLAPHOLAP是以上两者的有机结合,被称为混合型的联机分析处理。这在联机分析技术能够满足用户的各种请求,还附带MDDB和RDBMS供开发人员使用,在运行时把数据的查询结果存入多维数据库中。操作型细节数据只能使用关系型数据库进行管理,而综合性的数据则使用多维数据库来管理操作。HOLAP结合了MOALP和ROLAP的优点,可以看成是对MOLAP的一种改进,但是它的结构是相当复杂的。2.4 SQL Server 2008软件简介(1) SQL Server Management

36、 Studio可用来实现数据库的建立并设计各种表结构,导入源数据。(2) SQL Server Business Intelligence Development Studio由Analysis Service(SSAS) 、Integration Service(SSIS)和报表服务器组成。其中SSAS不仅能建立数据源、数据视图、多维数据集并对多维数据集进行分析,还能运用挖掘结构中的挖掘技术进行数据挖掘。SQL Server 2008 Integration Service(SSIS)包括控制流、数据流、事务处理程序和包资源管理器。SSIS通过包来管理数据整合任务,由控制流、数据流和事务处理

37、程序等组件来处理这些任务。 3 学生成绩数据仓库的建立3.1 学生成绩数据仓库的概念模型设计概念模型设计阶段首先要界定系统边界和主要的研究内容。经过了解现今许多高校在学生成绩数据库中对学生成绩仅仅是存储、查询等简单的操作,因此教师要想了解某一门课程的信息并不是一件简单的事。教师希望从学生的考试成绩中知道用哪种教学方法或手段会对学生的学习积极性得到提高,收到比较好的教学效果。还有学生学习这门课程会不会影响对另一门课程的学习,应该怎样安排课程的先后顺序才能让学生学的更好。在学生成绩管理中有各种类型的的数据,先要对这些数据进行预处理,使它们符合教学决策所需的数据。然后把学生成绩分析作为本论文研究的主

38、题创建学生成绩数据仓库。并从同一个班的不同门课程和同门课程在不同的专业与不同的教师教授下的效果比较进行分析研究。3.2 学生成绩数据仓库的逻辑模型设计数据仓库的逻辑模型设计阶段包括实体关系建模和维度建模。实体关系建模是用E-R 图来表示用户需求。E-R 图是用来描述实体和实体之间的联系。实体关系建模常常是用来为单位创建一个复杂的模型,它在创建高效的联机事务处理的系统方面很有作用。维度建模是指建立星型模型或雪花模型。(1)星型结构星型结构模式由一个事实表和一组维表组成。每一个维表都有一个维度作为主码,所有这些维度与事实表里的某一个维度相对应,成为事实表的外码。星型模型中的事实表里的每一个属性都是

39、维度表的外键。在这种模型中事实表是数据仓库的中央表,它包含有联系事实表与维度表的数字度量值和键,还包含描述业务内部某一特定事件的数据。维表是用来描述事实表中的数据,它包含创建维度所基于的数据。星型模型如图 3.1 所示:事实表维度表维度表维度表维度表维度表图3.1 星型模型(2) 雪花型结构雪花型结构是星型结构的扩展,它用多个表定义一个或一组维度。在雪花型架构中,事实表只与主维度表连接,其它维度表全都相应的连接到主维度表上。雪花型结构可以节省不少的存储空间,还能把复杂维度的层次结构变清晰。因为有些维度表不是与事实表直接相连的,有时在查询的时候就很有可能涉及更多的连接操作。 雪花型模型如图3.2

40、所示:事实表维度表维度表维度表维度表维度表维度表图3.2 雪花型模型使用星型结构和雪花型结构建模有很多好处:这些模型能直观的反映出用户的需求信息,这样就使得数据库的设计面向主题,能满足用户的查询。以图的形式展现出这些信息,既直观又形象,因此很容易被用户理解。根据设计出来的这些模型,用户可以明确的知道对多维数据的访问路径。本课题选用了雪花型结构图,以学生成绩分析为主的数据仓库主要包括学生信息、任课教师信息、课程信息、院系信息、专业信息和班级信息等。我所设计的学生成绩数据仓库的雪花型结构如图3.3所示:图3.3 学生成绩数据仓库的雪花型模型设计3.3 学生成绩数据仓库的物理模型设计物理模型设计指的

41、是数据在数据仓库中的存放形式和组织方式。这个部分主要是考虑构建物理数据库,包括存储结构、索引策略、存放位置和存储分配。在本课题中我所设计的表结构如下:表3.1 学生成绩事实表(XsCj)列名数据类型列名说明xnxqhvarchar(11)学年学期号zcjmoney总成绩xfmoney学分xsmoney学时kcbmvarchar(10)课程编码xhvarchar(20)学号kcxzcodeint课程性质编码kcflcodevarchar(2)课程分类编码khfscodeint考核方式编码jsbhvarchar(10)教师编号表3.2 学生维表(Student)列名数据类型列名说明xhvarcha

42、r(20)学号xmvarchar(24)姓名xbvarchar(2)性别bjbhvarchar(10)班级编号表3.3 教师维表(JiaoShi)列名数据类型列名说明jsbhvarchar(10)教师编号jsxmvarchar(20)教师姓名jsxbvarchar(2)教师性别zccodevarchar(10)职称编号表3.4 教师职称维表(Tea_Zc)列名数据类型列名说明zccodevarchar(10)职称编号zcmcvarchar(50)职称名称表3.5 院系维表(YuanXi)列名数据类型列名说明yxbhvarchar(10)院系编号yxmcvarchar(30)院系名称表3.6 专

43、业维表(ZhuanYe)列名数据类型列名说明zybhvarchar(10)专业编号zymcvarchar(50)专业名称yxbhvarchar(10)院系编号表3.7 班级维表(BanJi)列名数据类型列名说明bjbhvarchar(30)班级编号bjmcvarchar(30)班级名称zybhvarchar(10)专业编号表3.8 课程维表(KeCheng)列名数据类型列名说明kcbmvarchar(10)课程编号kcmcvarchar(50)课程名称表3.9 课程分类维表(KcFl)列名数据类型列名说明kcflcodevarchar(2)课程分类编号kcflmcvarchar(20)课程分类

44、名称表3.10课程性质维表(KcXz)列名数据类型列名说明kcxzcodeint课程性质编号kcxzmcvarchar(20)课程性质名称表3.11考核方式维表(KhFs)列名数据类型列名说明khfscodeint考核方式编号khfsmcvarchar(20)考核方式名称4 学生成绩数据库的实施4.1 建立“学生成绩”数据库新建一个数据库,命名为“学生成绩”,然后根据前面的数据结构设计部分所设计的11个表结构建立各表,如图4.1所示:图4.1 数据库模型4.2 数据预处理 把教务处的数据抽取出来后,通过还原数据库还原到SQL Server 2008中,从里面挑选出有关学生、教师、课程信息等关联

45、的表(共计11个),把这些表导入到学生成绩数据库中。本次研究课题必须保证所有的学生有课程平均学分绩,如该生办理了退学或者休学手续,则删除该生的所有信息。如该教师没有担任教学任务,则删除该教师的相关信息。例如我使用了如下SQL语句来删除无成绩的学生记录:Delete from Cj_BjxsCJB where zcj is null对数据进行筛选和连接,例如:(1)在学生成绩(XsCj) 事实表里我使用如下SQL语句:Insert into XsCj Select xnxqh, zcj ,kcbm,xf,xs,kcbm,xh,kcxzcode,kcflcode,khfscode,jsbh fro

46、m Cj_XsCj where kcbm in (select kcbm from Curriculum)and xh in (select xh from Xj_YxjJbxx )(3) 在专业(ZhuanYe)维表里我使用的SQL语句如下: Insert into ZhuanYeSelect zybh,zymc,yxbh from Major(3)在学生(Student)维表里的SQL语句是:Update Student set bjbh=BanJi.bjbhfrom BanJi where zybh in ( select zybh from BanJi, Xj_YxjJbxx wher

47、e BanJi.bjmc= Xj_YxjJbxx.bjmc ) 4.3 创建多维数据集在SQL Server Business Intelligence Development Studio开发环境中新建一个名为“学生成绩”的SSAS项目。以数据仓库“学生成绩”为数据源新建数据源学生成绩.ds、数据源视图学生成绩.dsv和多维数据集学生成绩.cube。4.4 进行多维分析学生成绩的多维分析(1)从学期维度对不同专业的学生成绩进行分析,从图4.2可以看出汉语言文学和汉语言文学(师范类)专业在2006-2008学年各学期的成绩比计算机科学与技术与建筑学专业的平均分成绩都高,这或许说明汉语言文学和汉

48、语言文学(师范类)的学生学习积极性比计算机科学与技术和建筑学的学生积极性高,可以对这两个理工类专业的学生开展一些主题班会,提高他们对学习的重视和积极性。图4.2 从学期维度看不同专业的学生成绩(2)从专业维度看不同学期的学生成绩,从图4.3可以看出汉语言文学和汉语言文学(师范类)专业的学生在前三个学期的成绩都没后两个学期的高,这与他们刚进入大学,没有高中阶段教师的严格要求,一时不太适应,学习自觉性不高有很大一部分关系。图4.3从专业维度看不同学期的学生成绩(3)从教师维度看学生的成绩,从图4.4可以看到职称为“副教授”的教师所带课程的学生成绩平均分为76.6,“讲师” 的为75.6,“教授”的

49、为77.9,“助教”的为77.4,这些分数都差不多,由此可见教师的职称对学生的成绩影响不大。图4.4 从教师职称维度看学生成绩(4)从课程考核方式、课程性质、课程分类等维度来看,从图4.5可以看到当khfsmc=“考试”、Kcxzmc=“必修”、kcflmc=“专业课”时,学生的Pjf的平均值为71.47,当khfsmc=“考查”、Kcxzmc=“必修”、kcflmc=“通识课”时,学生的Pjf的平均值为79.05,由此可见学生在考查通识课上的考试成绩最好,而专业课成绩最低,学校可以适当增加专业课的授课课时,来提高学生的成绩。图4.5 从课程维度看学生成绩(5)从不同维度进行浏览,从图4.6的

50、维度图表可以清晰的看到学生的Pjf(平均分)成绩集中在72.6,学分(Xf)通常为2个学分,每门课的(Xs)学时基本上为48学时,学校的课程大多数为专业基础必修课,考试和考查课占差不多的比例。这对校本课程的开设具有一定的指导意义。图4.6 维度图表4.4.2 决策树算法在学生成绩分析中的应用新建挖掘模型,选用里面的“决策树算法”,对学生的平均成绩进行预测。研究课程分类、考核方式和教师职称对学生成绩是否有影响。为了使决策树分支不至于过大,也为了便于分析,对多维数据集进行切片,如图4.7所示:图4.7 对多维数据集进行切片(1)从课程分类(Kcflmc)和考核方式(Khfsmc)的角度分析学生的平

51、均分,如图4.8所示:图4.8 从Kcflmc、Khfsmc角度得到的决策树为了更精确的显示数据,从以下四个图例中可以看到(图4.9):当Kcflmc=通识课时,Khfsmc不等于考试的Pjf=80.060, Khfsmc=考试的Pjf=79.005,考试课与非考试课对学生成绩的影响不大。当Kcflmc=专业基础时,Pjf=78.605;当Kcflmc=专业课时, Pjf=77.829,专业课的成绩比专业基础课的稍微偏低,因此学生要加强对专业课的学习。 图4.9从Kcflmc、Khfsmc角度得到的决策树对应图例我们可以从如下图4.10 所示的依赖网络来看各种依赖关系:图4.10 从Kcflmc、Khfsmc角度得到的决策树依赖网络(2)从教师职称的角度来分析学生的平均分,如图4.11所示:图4.11 从教师职称角度得到的决策树为了更精确的显示数据,从以下三个图例中可以看到(图4.12):在2007-2008-1学期,当Zcmc=讲师时Pjf=77.281, 当Zcmc=

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论