版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、收稿日期:2004-05-12作者简介:陈善柳(1975-,男,湖南衡阳人,南华大学计算机科学与技术学院讲师,中南大学信息科学与工程学院硕士研究生.主要研究方向:数据库.第18卷第3期南华大学学报(自然科学版V ol.18N o.32004年9月Journal of Nanhua University (Science and T echnology Sep.2004文章编号:1673-0062(200403-0083-05基于数据挖掘技术的高校管理决策支持系统陈善柳1,2,费洪晓1(1.中南大学信息科学与工程学院,湖南长沙410075;2.南华大学计算机科学与技术学院,湖南衡阳421001摘
2、要:分析了高校MIS 的特点及DM 与O LAP 的作用与功能.提出了高校建立基于数据挖掘技术的管理决策支持系统的途径与方法,即在建立DW 基础上进行DM ,并与O LAP 相结合以提高系统辅助决策能力.关键词:数据仓库;数据挖掘;联机分析处理;联机分析挖掘;决策支持系统中图分类号:TP315文献标识码:BH igher Education s Decision Support Systems B asedon Data Mining in Colleges and U niversityesCHEN Shan 2liu 1,2,FEI H ong 2xiao 1(1.C ollege of
3、In formation Science and Engineering ,Central S outh University ,Changsha ,Hunan 410075,China ;2.School of C om puter Science and T echnolog ,Nanhua University ,Hengyang ,Hunan 421001,China Abstract :In this paper the featwres of higher educarion s MIS ,and described the function of DM and O LAP and
4、 introduced the method of building highereducarion s DSS.The method is to build DW first and then DM based on it s o as to im prove the ability of the DSS by the way of combining with O LAP.K ey w ords :Data Warehouse ;Data Mining ;O LAP ;O LAM ;DSS0引言近年来,随着教育事业的飞速发展,特别是高等教育的快速发展.教育管理信息化、现代化水平有了长足的进
5、步.各高校在管理信息系统(Man 2agement In formation System ,MIS 方面已取得了可喜的成绩.如大部分高校都在使用学生成绩管理系统、学籍管理系统、学生奖惩考评管理系统、高校人事管理系统、高校学生就业管理系统、学生宿舍这些数据,为管理决策者提供事实依据,成为一个亟待解决的问题.同时,随着高校招生规模的逐年扩大以及再教育方式的更加灵活多样,几乎每所高等院校都面临着学生人数的急剧增加与教学资源日趋紧张的矛盾.在这样的形势下如何以最小的代价获得高校自身最大的发展,则已成为一个迫切需要研究的新课题.简单的来看,它要求高校领导层从整体的、宏观的角度去认清形势,解决问题,优化
6、教育资源配置,提高教育资源的利用率.因此,建立一个企业级的高校管理决策支持系统(Decision Support System,DSS则显得十分必要.这个管理决策支持系统应能满足日常简单的查询和维护,同时能够向高校决策者提供有关教育形势的瞬时变化、发展趋势以及历史数据的深层次信息,以利于决策.因此,如何建立数据仓库,更好的利用现有数据,并在此基础上进行更高层次的处理数据挖掘(Data Mining,DM显得尤为重要.1系统基本结构根据目前高校MIS的特点,首先需要在较高层次上将不同信息系统中的数据综合、归类,并进行分析利用的抽象,即建立数据仓库(Data Ware2 house,DW,在DW的
7、基础上进行联机分析处理(On Line Analysis Processing,O LAP和数据挖掘(Data Mining,DM,为科学决策提供依据支持.DW、O LAP和DM是三种相互独立又相互关联的技术.DW是从数据库技术发展中出现的一种为决策服务的数据组织、存储技术.DW由基本数据、历史数据、综合数据和元数据组成,能提供综合分析、时间趋势分析等决策信息.O LAP是对多维数据进行分析的技术.由于大量数据集中于多维空间中,O LAP技术提供从多视角分析途径获取用户所需要的辅助决策的分析数据.DM对数据库或DW中的数据使用一系列方法进行挖掘、分析,从中识别和抽取隐含的、潜在的有用信息,并利
8、用这些技术进行辅助决策1.联机分析挖掘(On Line Analytical Mining,O LAM是通过DM和O2 LAP有效结合而形成的技术.2数据仓库DW作为决策支持系统的基础,它是面向主题的、集成的、稳定的、随时间变化的数据集合2. DW不是业务数据的简单堆积,而是从大量的事务型数据库中抽取数据,并将其清理、转换为新的存储格式,即为决策目标把数据聚合在一种特殊的格式中.随着此过程的发展和完善,这种支持决策的、特殊的数据存储即被称为DW.DW具有如下特征:1DW是面向主题的.面向主题的组织数据是DW的基本特征,主题从逻辑意义上讲对应企业某一分析领域所分析的对象.2DW是集成数据的统一体
9、.DW的数据来源于事务数据库,这些数据是构成DW的基础 .这些事务数据库的数据通过清洗处理后,形成整合的、结构化的、易于导航的数据,能够对决策分析快速正确地反应.3DW是随时间而变的、持久的数据集合. DW包含大量的数据,是对事务数据库不同历史时期的数据的综合、重组、统计导出的数据集合.事务数据库需要频繁地进行增、删、改等事务操作,而在DW中更多的是增,很少有删、改,DW在一定的周期保持稳定.图1基于DM的决策支持系统结构Fig.1The structure of Decision SupportSystems b ased on DM48南华大学学报(自然科学版2004年9月DW 把高校分散
10、的、难以访问的日常营运数载到DW 的目标数据库中,并且可以周期性地刷新DW 以反映源的变化以及将DW 中的数据作转储. 数据仓库管理主要是通过元数据来实现的,元数据仓储用于存储数据模型和元数据,其中,元数据描述了DW 中源数据和目标数据本身的信息,定义了从源数据到目标数据的转换过程,这些可以通过数据建模工具管理以适应高校事务的发展,来满足高校决策和综合分析的需要;DW 监控和管理工具对DW 的运行提供监控和管理手段,包括系统资源的使用情况、用户操作的合法性、安全管理、存储管理等多方面的内容.DW 存储经检验、整理、加工和重新组织后的数据,它可以是关系数据库(RO LAP 或多维数据库(M O
11、LAP .前端工具主要是DM 工具和联机分析处理(O LAP 分析工具,这些工具从数据仓库获取数据通过O LAP 服务器,O LAP 服务器存储数据立方体,它是功能强大的多用户的数据操纵引擎,特别用来支持和操作多维数据结构.图2DW 数据来源图Fig.2The source of DW d ata3联机分析处理利用关系数据库中的数据进行联机分析处理,往往会因查询的数据信息不是缺乏分析能力,就是因各信息系统之间相互隔离、结构各异,使信息分析及决策人员不能据此对某一主题的相关数据进行多角度的比较、分析,因而得出科学的分析结果.而基于DW 的O LAP 则很好的避免了该类问题的发生.它根据用户对企业
12、业务理解的各种维度,或者说从用户分析企业时的各种宏观领域出发,从企业具有的各种原始数据转换出各类信息,提供给分析、管理和领导人员快速、方便、交互地访问,从不同领域、不同角度查看企业情况,获得企业信息,了解企业发展动态,从而为快速响应市场、抢占市场先机、完善企业管理、提高企业竞争力和做出有效决策提供坚实的基础.O LAP 主要有两个特点,一是在线性(On -Line ,体现为对用户请求的快速响应和交互式操作,它的实现是由C/S 这种体系结构来完成的;二是多维分析(Multi Analysis ,这也是O LAP 技术的核心所在3.目前,针对O LAP 技术的研究领域相当活跃,对O LAP 的理解
13、也不断深入.有人提出了O LAP 的更为简洁的定义,如Nigel Pendse 提出的FAS MI (Fast Analysis O f Shared Multidimensional In forma 2tion .他将O LAP 所满足的特点用五个词来描述:Fast (对用户请求的快速响应,Analysis (可以应用多种统计分析工具、算法对数据进行分析,Shared (多个用户同时存取数据时,能保证系统的安全性,Multidimensional (体现了O LAP 应用多维的实质,In formation (指应用所需的数据及其导出信息.4数据挖掘DM 是从大型数据库的数据中提取人们感兴
14、趣的知识,这些知识是隐含的、事先未知的潜在有用信息,提取的知识可表示为概念、规律、模式、规则、约束、可视化等形式4.DM 意味着在一些事实或观察数据的集合中寻找模式的决策支持过程,DM 的对象不仅是数据库,也可以是文件系统、数据集合或DW.基于DW 的DM 技术,其任务是发现DW 中尚未被发现的知识.对于那些决策者明确了解的信息,可以用查询、O LAP 或其它工具直接获取,而另外一些隐藏在大量数据中的关系、趋势等信息就需要DM 技术.DM 技术可从58第18卷第3期陈善柳等:基于数据挖掘技术的高校管理决策支持系统DW中找出大量真正有价值的信息和知识,可以更好地对高校的发展历程和未来趋势做出定量
15、分析和预测.为各高校的管理决策者提供更科学的决策依据,从而有效的提高教学质量,有针对性的加强教学管理.DM的过程也就是从数据库或数据仓库中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的高级处理过程.所谓模式,可以看作是我们所说的知识.它给出了数据的特性或数据之间的关系,是对数据包含的信息更抽象的描述.所谓处理过程是指DM是一个多步骤的对大量数据进行分析的过程,包括数据预处理、模式提取、知识评估及过程优化.DM主要提供了以下几种模式:1分类模式:分类模式是一个分类函数(分类器,能够把数据集中的数据项映射到某个给定的类上.分类模式往往表现为一棵分类树,根据数据的值从树根开始搜索,沿着数据
16、满足的分支往上走,走到树叶就能确定类别.2回归模式:回归模式的函数定义与分类模式相似,它们的差别在于分类模式的预测值是离散的,回归模式的预测值是连续的.3时间序列模式:时间序列模式根据数据随时间变化的趋势预测将来的值.这里要考虑到时间的特殊性质,像一些周期性的时间定义如星期、月、季节、年等,不同的日子如节假日可能造成的影响,日期本身的计算方法,还有一些需要特殊考虑的地方如时间前后的相关性(过去的事情对将来有多大的影响力等.只有充分考虑时间因素,利用现有数据随时间变化的一系列的值,才能更好地预测将来的值.4聚类模式:聚类模式把数据划分到不同的组中,组之间的差别尽可能大,组内的差别尽可能小.与分类
17、模式不同,进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据哪一(几个数据项来定义组.一般来说,业务知识丰富的人应该可以理解这些组的含义,如果产生的模式无法理解或不可用,则该模式可能是无意义的,需要回到上阶段重新组织数据.5关联模式:关联模式是数据项之间的关联规则.关联规则是如下形式的一种规则AB,但实际应用中,很少能够百分之百的出现这种规则,我们通过一个阀值来控制它,例如“在大学英语四级未通过的学生中,60%的学生的各科平均分在70分以下.”6概念描述和比较:概念描述即在数据中,把具有共同性的数据做汇总操作,从而得到一个具有一般性的规则描述.如我们可以对学生就餐情况数据汇总,而得到
18、每天的每个时段学生就餐人数的高峰期,从而可以考虑增派人手,提高服务质量.比较即将数据分成若干组,找出组与组之间的差别,同时可将同一组数据中的相似性找出来.根据高校目前MIS的特点,大都分为:学籍管理,成绩管理,师资管理等几大子系统,本身具有分类的特性.因此高校管理DSS的数据挖掘方法主要采用分类模式分析的方法,以分类模式分析为主线,关联模式分析为辅线结合其他的分析方法进行.5联机分析挖掘6挖掘实例根据南华大学2000级学生的资料建立数据68南华大学学报(自然科学版2004年9月库,主要数据内容为学号,姓名,学生所在学院,高考成绩,高考外语成绩,成绩平均分,英语四级,英语四级通过的学期等.将相应
19、字段的字符型数据经规范后,转换成数值型数据进行编码.如将学生所在学院规范成以下编码信息:字段值对应编码值护理学院1计算机科学与技术学院2核科学与技术学院3医学院4机械工程学院5建筑工程与资源环境学院8在此基础上采用遗传算法进行关联模式的挖掘.在本例中遗传算法采用以下运行参数:初始种群M选为1000,交叉概率P c设为85%,变异概率P m设为5%,编码串长度L设为6,终止条件是经过两代运算后,没有小于用户给定阈值的规则.经运算后在学生的资料库中发现部分关联规则如下.1(4%support,98%con2 fidence该规则表明护理学院的学生在第四学期通过英语四级的可信度为98%,支持度为4%也就是说护理学院的学生第四学期基本上都能通过大学英语四级考试.2(2% support,99%con fidence该规则表明平均分低于70分的学生到第8学期仍未通过大学英语四级的可信度为99%,支持度为2%也就是说平均分低于70分的学生基本
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 胃肠外科住院患者营养
- 自我介绍加试讲
- 脑动脉瘤健康宣教
- 人工流产术后关爱宣教
- 完全肠外营养支持
- 2025年湿法稀磷酸项目规划申请报告范文
- 肠胃炎症状辨析及护理指南
- 心律失常常见症状及护理守则
- 寄生虫感染宣教
- 农村农田分割协议书
- 马工程《商法》商法总论课本期末复习笔记材料整理
- 医疗设备采购 投标技术方案 (技术方案)
- 第2单元 黄河两岸的歌-歌舞曲《挂红灯》 课件 2022-2023学年粤教版初中音乐八年级下册
- (完整版)理论力学选择题集锦(含答案)
- 北京教学科研楼安全文明施工方案
- 农村基层社会治理标准体系构成和要求
- 精选江苏科技大学2023C++期末试卷(附答案)
- 幼儿园体育活动的组织与实施
- 甲流的症状及预防知识PPT课件-2
- ECMO IABP完整版可编辑
- 本院常用妇科技术操作规范简易版
评论
0/150
提交评论