已阅读5页,还剩61页未读, 继续免费阅读
(计算机应用技术专业论文)数据挖掘技术在课程成绩分析管理中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘技术在课程成绩分析管理中的应用研究 摘要 数据挖掘技术在商业、金融业、保险业、市场营销等领域己获得 了较为广泛的应用,但对教育信息的挖掘与知识发现方面的研究和应 用相对来说很少。高校对学生信息、成绩等数据的处理还一般停留在 简单的数据备份和查询阶段。因而,本文把基于决策树挖掘算法和粗 糙集的数据挖掘技术引入到学生课程成绩分析中,可以找到影响学生 成绩的真实原因,有利于有针对性地提高教学质量。 应用改进的i d 3 算法和c 4 5 算法对不同课程类型的学生成绩进行 分析,找出影响学生成绩的潜在因素,使学生能够较好地保持良好的 学习状态,从而为教学部门提供决策支持信息,促使更好地开展教学 工作,提高教学质量;应用粗糙集理论对某教学班级的英语成绩进行 分析,找出对学生总体成绩影响最重要的因素,以便为外语教师改变 教学方式和方法、提高整体教学质量方面提供依据,该方法还可以推 广到对其他教学班不同考试科目的成绩进行分析,从而为进一步完善 成绩管理系统提供技术支持。 关键词:数据挖掘,决策树,成绩分析,分类 t h ea p p l i c a t i o nr e a s e a r c ho f d a t am i n i n g t e c h n o l o g yi nt h ec o u r s ep e r f o r m a n c e a n a i j y s i sa n dm 噙n a g e m e n t a b s t r a c t d a t am i n i n gt e c h n i q u ei nb u s i n e s s ,f i n a n c e ,i n s u r a n c e ,m a r k e t i n ga n do t h e rf i e l d s h a sb e e nm o r ew i d e l yu s e d ,b u ti ti sr e l a t i v e l yf e wi nt h el 哈s e a r c ha n dt h ea p p l i c a t i o n f i e l d so ft h ee d u c a t i o n a li n f o r m a t i o nm i n i n ga n dk n o w l e d g ed i s c o v e r y c u r r e n t l yt h e d a t ap r o c e s s i n ga tc o l l e g es u c ha ss t u d e n t si n f o r m a t i o na n dr e c o r ds t i l ls t a yi np r i m a r y d a t ab a c k u pa n dq u e r ys t a g e t h u s ,t h i sp a p e r , t h ew r i t e rt r yt ou s et h ed a t am i n i n g t e c h n o l o g yb a s e do nt h ed e c i s i o nt r e ea l g o r i t h ma n dr o u g hs e t si n t os t u d e n tc u r r i e d u m a n a l y s i sa n df i n dr e a lr e a s o nt h a ti n f l u e n c et h es t u d e n t s a c h i e v e m e n t ,w h i c hw i l l i m p r o v et h eq u a l i t yo ft e a c h i n g a p p l i c a t i o ni m p r o v e di d 3a l g o r i t h ma n dc 4 5a l g o r i t h mf o rd i f f e r e n tt y p e so f c o u r s e st oa n a l y z es t u d e n tp e r f o r m a n c et oi d e n t i f yt h ep o t e n t i a li m p a c to ns t u d e n t p e r f o r m a n c ef a c t o r , s ot h a ts t u d e n t sc a nm a i n t a i ng o o ds t a t u s ,s oa st op r o v i d es u p p o r t d e c i s i o nf o rt h et e a c h i n gd e p a r t m e n t ,t op r o m o t eb e t t e rt e a c h i n g ,a n dt oi m p r o v et h e q u a l i t yo ft e a c h i n g ;a p p l i c a t i o no fr o u g hs e tt h e o r yc a i la n a l y s eac l a s se n g l i s h p e r f o r m a n c ea n df i n do u tt h em o s ti m p o r t a n tf a c t o rf o rt h et h eo v e r a l lp e r f o r m a n c eo f s t u d e n t s ,s oa st oi m p r o v et h eo v e r a l lq u a l i t yo ft e a c h i n gb yc h a n g i n gt e a c h i n gm e t h o d s a n dw a y s m e a n w h i l et h i sm e t h o dc a na l s ob ee x t e n d e dt od i f f e r e n tc l a s s e so fo t h e rt e s t s u b j e c t sf o ra n a l y s i sa n dp r o v i d et e c h n i c a ls u p p o r tt of l l r t h e ri m p r o v e m e n t so ft h eg r a d e m a n a g e m e n ts y s t e m k e y w o r d s :d a t am i n i n g ,d e c i s i o nt r e e ,g r a d e sa n a l y s i s ,c l a s s i f i c a t i o n i i 浙江工业大学学位论文原创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研究工作所 取得的研究成果。除文中已经加以标注引用的内容外,本论文不包含其他个人或 集体己经发表或撰写过的研究成果,也不含为获得浙江工业大学或其它教育机 构的学位证书而使用过的材料。对本文的研究作出重要贡献的个人和集体,均已 在文中以明确方式标明。本人承担本声明的法律责任。 作者签名:彰l 苦笏 日期:。7 年月) 汨 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并 向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本 人授权浙江工业大学可以将本学位论文的全部或部分内容编入有关数据库进行 检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 本学位论文属于 1 、保密口,在年解密后适用本授权书。 2 、不保密口。 ( 请在以上相应方框内打“4 ) 作者签名:彩l 者糁 刷隧轹却辛 ,1 月r 日期:驴7 年r 月1 汨 隰7 年厂月彤 第一章绪论 1 1 论文背景 第一章绪论 众所周知,教育教学管理是学校系统中的一个重要环节。随着信息技术的发 展,现代信息技术如何应用于学校教育教学管理变得日益重要,势必是现在及今 后的一个研究课题。数据挖掘是一种重要的信息处理技术,在国外已广泛地应用 于各个行业领域,并带来了巨大的经济利益和社会价值,在国内也呈广泛普及和 快速发展的势头。作为学校教育教学管理重要内容的课程成绩分析,目前大都采 用传统的统计报表形式,有很大的局限性。而现实中把数据挖掘技术应用于成绩 分析所见不多。因此本文针对某门课程的成绩分析特点,并密切地结合工作实际, 提出了一个基于数据挖掘的算法,以便找出真正影响学生的关键所在,大大的提 高学生的学习效率和通过率。 现阶段高校中对学生信息、成绩等数据的处理一般还停留在简单的数据库管 理和查询阶段,不能发挥其应有的作用。以学生成绩为例,教师对学生成绩的分 析处理一般仅仅是统计成绩为优、良、一般、差等级别的人数,对于学生取得这 些成绩的原因往往无法了解。如何开发利用这些数据,理性地分析教学中的各方 面的成效得失是广大教师共同关心的问题。如果能够找到影响学生学习成绩的因 素,必然有利于教学质量的提高。 近年来,我国高等教育迅猛发展,教育投入增加,招生规模扩大,办学渠道 增多。为了不断适应人才培养的变化,教育改革,如教育思想和观念、课程体系 与教学内容、教学方法、教学管理等的改革,势在必行,其中考试方法的改革对 学生的培养具有重要意义。 在学校教育中,考试与教学是不可分割的,考试本身也是一种教学活动。学 生对待学习,既有一定的自觉性,也存在一定的惰性。没有考试的教学很难保证 稳定、正常的教学秩序和水平的提高,是不完整的教学。各级各类学校重视使用 考试手段来检测和监控教育质量、规范和引导教师的教学行为,对督促学生积极 努力地学习、培养他们分析问题和解决问题的能力有着非常重要的作用。 第一章绪论 考试是教育活动中评价教学质量,衡量教学效果,鉴别人才素质的重要手段 之一。对于考试的准确定位和恰当使用就成为实施素质教育的重要问题,在此, 让我们共同回顾一下爱因斯坦对考试的痛斥:“人们为了考试,不论愿意与否都得 把有用无用的废物统统塞进自己的脑袋。这种考试使我如此畏缩不前,以致在通 过最后的考试以后有整整的一年,对科学问题的任何思考都感到扫兴 。高校学生 正值智力发展的黄金时期也是生命的旺盛年华,对个人发展潜力之大,对社会进 步影响深远,可见学生成绩评定办法是教育改革的重要内容,考试方法急待解决。 给学生创设思想自由驰骋的卷面世界,激发学生主动探索求知欲望,把学生从机 械、教条、揣摩课本内对学生接受知识情况进行检查评定,可采用授课与讨论相 结合方式,目的是检查难点的掌握情况和发现共性的问题,通过提问和讨论检查 学生的听课效果、理解程度和思维方法,并启发学生对问题提出质疑、讨论,形 成师生双边心智对流养成良好的学风,激发创新思维,对有独到见解的学生给予 表扬和鼓励。 高校学生成绩评定是高校教学活动的主要环节之一。虽然学生成绩评定不像 高考那样一锤定终身式地备受人们的关注,尤其是随着学分制的建立和推广,但 是,由于学生的成绩评定具有潜在的引导作用,如何对学生的学习成绩进行科学 合理的评定,直接关系到学校培养怎样的人才,也在一定程度上关系到学生本人 的前途命运,因此高校各级领导和教学管理人员一直都十分重视。随着我国教育 深化改革与发展,教育界已明确提出我国高等教育要从知识教育向素质教育转变。 学生在校学习,应掌握扎实的专业知识和技能培养良好的综合素质,为社会经济 建设服务。那么,从学生成绩评定的角度来看,应如何体现这个要求? 这是摆在我 们面前的一个现实而具体的问题。 高等教育的根本任务就是培养适应社会主义现代化建设需要的高素质、高层 次人才。根据多年的教育实践,在人才培养中,变被动教育为主动教育即变接受 教育为需要教育至关重要。以知识教育为基础,丰富学生的业余文化修养,加强 能力的培养,力争达到学生素质的全面提高:除加强专业知识、英语、计算机教 育外,还应重视自学及自我更新知识能力、社交表达写作能力、处事应变与组织 协调能力、独立生活、工作与动手能力等诸多方面的培养;激发学生的爱国与贡 献意识、工程与专业意识、适应与竞争意识、求知与创造意识、经济与环保意识、 安全与健康意识。 2 第一章绪论 高校学生的成绩评定,从狭义上指课程学习成绩考核,从广义上指德智体综 合测评,体现出知识教育与素质教育的内在有机联系。显然,成绩评定具有评价、 定位和引导等作用。所谓的评价作用,就是通过对学生进行各种各样的量化考核, 获得成绩,从而得知学生在校学习的好坏程度。当然,在一定程度上也是对有关 教职员工的教学和管理水平的评价。成绩评定的定位作用,是指借助对学生的成 绩评定,反映出学校的办学条件、办学状态、办学效果、人才培养质量与模式等。 成绩评定的引导作用,是指通过对学生进行考核,引导学生掌握怎样的知识结构 和向什么方向发展。因此,从表面上来着,学生的成绩考核是针对学生而言的, 实质上它具有双重性,应引起全体师生的重视。成绩评定是手段,好好学习是目 的。 对学生成绩进行考核是高校教学环节中重要一环,成绩考核固然重要,应用 数据挖掘技术对影响学生成绩的因素进行分析,以找到影响学生学习成绩的真实 原因,来制定相应措施,提高教学质量和效果。 我的论文研究过程就是利用数据挖掘中的决策树和粗糙集算法提取考试信息 系统的数据的特征属性,并根据系统特征属性生成预测模型和分类模型。研究的 目的是:将数据挖掘看作是一种数据分析过程,着眼于对海量数据应用数据挖掘, 以一种自动和系统的手段建立一套自适应的,具备良好扩展性的考试信息系统的 分析系统,服务于教学管理部门和学生。 1 2 研究现状和发展趋势 1 2 1 数据挖掘研究现状分析和效果分析 从数据库中发现知识( 1 d ) 一词首次出现在1 9 8 9 年举行的第十一届国际联 合人工智能学术会议上。到目前为止,由美国人工智能协会主办的k d d 国际研讨 会已经召开了8 次,规模由原来的专题讨论会发展到国际学术大会,研究重点也 逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多种学科 之间的相互渗透。1 9 9 9 年,亚太地区在北京召开的第三届p a k d d 会议收到1 5 8 篇论文,空前热烈。i e e e 的k n o w l e d g ea n dd a t ae n g i n e e r i n g 会刊率先在1 9 9 3 年 出版了k d d 技术专刊。并行计算、计算机网络和信息工程等其他领域的国际学会、 第一章绪论 学刊也把数据挖掘和知识发现列为专题和专刊讨论,甚至到了脍炙人口的程度。 国内学者自20 世纪9 0 年代以来对数据挖掘的理论和应用进行了许多研究。 进入21 世纪以来,我国科技工作者对数据挖掘的相关研究发展迅猛。从2 0 0 1 年 开始,每年数据挖掘论文数量持续增长,2 0 0 6 年达到2 6 8 6 篇。中国学术期刊全文 数据库在2 0 0 1 年到2 0 0 7 年期间,收录了有关主题为“数据挖掘 的论文一共1 3 1 9 9 篇,论文数量随时间呈现明显的递增趋势。大多数论文限于一般理论的介绍、综 述或者是算法的应用和改进,有突破性的高质量的论文占少数【l 】。 目前,国外数据挖掘的发展趋势其研究方面主要有:对数据背后隐藏的信息 发现方法的研究进一步发展,如近年来注重对b a v e s ( 贝叶斯) 方法以及b o o s t i n g 方 法的研究和提高;传统的统计学回归法在k d d 中的应用;k d d 与数据库的紧密 结合。在应用方面包括:k d d 商业软件工具不断产生和完善,注重建立解决问题 的整体系统,而不是孤立的过程。用户主要集中在大型银行、保险公司、电信公 司和销售业。国外很多计算机公司非常重视数据挖掘的开发应用,i b m 和微软都 成立了相应的研究中心进行这方面的工作,此外,一些公司的相关软件也开始在 国内销售,如p l a t i n u m ,b o 以及i b m 。 国内从事数据挖掘研究的人员主要在大学,也有部分在研究所或公司。所涉 及的研究领域很多,一般集中于学习算法的研究、数据挖掘的实际应用以及有关 数据挖掘理论方面的研究。目前进行的大多数研究项目是由政府资助进行的,如 国家自然科学基金、8 6 3 计划、“九五 计划等,但还没有关于国内数据挖掘产品 的报道。 举几个现实中的例了: 大型超市都会建立一个数据库用来记录商品的相关信息,如进货时间、价 格、库存数量、销售数量、摆放位置等等相关有用的信息。这是将是一个 庞大的数据库,通过这个数据库超市的管理和销售人员可以方便了解到商 品实时的库存和销售记录等直接的信息。但是通过数据挖掘把原有的数据 进行分类( c l a s s i f i c a t i o n ) 估值( e s t i m a t i o n ) 预言( p r e d i c t i o n ) 相关性分组或 关联规则( a f f i n i t yg r o u p i n go ra s s o c i a t i o nr u l e s ) 聚集( c l u s t e r i n g ) 描述和可视 化( d e s c r i p t i o na n dv i s u a l i z a t i o n ) 等几种分析方法,可以把隐藏在数据库后 面的信息挖掘出来。这样决策者可以得到隐藏起来的信息,如什么季节合 适进哪类商品进行销售、某种商品放在哪类货架上更方便顾客选购等能提 4 第一章绪论 高销售量的信息。 税务局分析不同团体的交所得税的记录,发现异常模型和趋势。 调查局分析罪犯记录,推断哪些人可能会犯恐怖罪和大的谋杀罪。 保险公司分析以前的客户记录,决定哪些客户是潜在花费昂贵的。 信用卡公司分析信用卡历史数据,判断哪些人有风险,哪些没有。 网上购物通过分析购物者的历史记录,把不同的商品推荐给不同的客户, 以提高网上购物的成交率。 通过以上几个例子我们可以的发现,数据挖掘己经在数据库应用中开始发挥 其作用。数据挖掘技术源于商业的直接需求,因此它在各种商业领域都存在广泛 的使用价值。日前越来越多的管理人员正在利用数据挖掘工具,解决所遇到的至 关重要的商业问题和决策问题,如企业经营方向的定位、管理模式的确立、营销 的决策、内部生产力的促进、成本的控制和企业核心竞争力的获取等问题。 数据挖掘技术在商业上实际应用十分丰富,业务应用中常见的具体例子有: 客户细分、客户保留、日标营销、客户拓展、欺诈检测、购物篮分析、信用打分、 信用风险评估、投资组合管理、行情分析、安全管理、客户盈利能力分析、资源 管理、利润分析、交叉销售、增量销售、客户服务【2 】。 在数据挖掘技术日益发展的同时,许多数据挖掘的商业软件工具也逐渐问世。 数据挖掘工具主要有两类:特定领域的数据挖掘工具和通用的数据挖掘工具。 特定领域的数据挖掘工具针对某个特定领域的问题提供解决方案。在设计算 法的时候,充分考虑到数据、需求的特殊性,并作了优化。对任何领域,都可以 开发特定的数据挖掘工具。例如,i b m 公司的a d v a n c e d s c o u t 系统针对n b a 的数 据,帮助教练优化战术组合;加州理工学院喷气推进实验室与天文科学家合作开 发的s k i c a t 系统,帮助天文学家发现遥远的类星体;芬兰赫尔辛基大学计算机 科学系开发的t a s a ,帮助预测网络通信中的警报。 特定领域的数据挖掘工具针对性比较强,只能用于一种应用;也正因为针对 性强,往往采用特殊的算法,可以处理特殊的数据,实现特殊的目的,发现的知 识可靠度也比较高。 通用的数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常 见的数据类型,一般提供六种模式。例如,i b m 公司a l m a d e n 研究中心开发的 q u e s t 系统,s g i 公司开发的m i n e s e t 系统,加拿大s i m o n f r a s e r 大学开发的 s 第一章绪论 d b m i n e r 系统。通用的数据挖掘工具可以做多种模式的挖掘,挖掘什么、用什么 来挖掘都由用户根据自己的应用来选择。 下面简单介绍几种数据挖掘工具: 1 、q u e s t q u e s t 是m m 公司a l m a d e n 研究中心开发的一个多任务数据挖掘系统,目 的是为新一代决策支持系统的应用开发提供高效的数据开采基本构件。系统具有 如下特点: 提供了专门在大型数据库上进行各种开采的功能:关联规则发现、序列模 式发现、时间序列聚类、决策树分类、递增式主动开采等。 各种开采算法具有近似线性( o ( n ) ) 计算复杂度,可适用于任意大小的数 据库。 算法具有找全性,即能将所有满足指定类型的模式全部寻找出来。 为各种发现功能设计了相应的并行算法。 2 、m i n e s e t m i n e s e t 是由s g i 公司和美国s t a n d f o r d 大学联合开发的多任务数据挖掘系统。 m i n e s e t 集成多种数据挖掘算法和可视化工具,帮助用户直观地、实时地发掘、理 解大量数据背后的知识。m i n e s e t 有如下特点: m i n e s e t 以先进的可视化显示方法闻名于世。 支持多种关系数据库。可以直接从o r a c l e 、i n f o r m i x 、s y b a s e 的表读取数 据,也可以通过s q l 命令执行查询。 多种数据转换功能。在进行挖掘前,m i n e s e t 可以去除不必要的数据项, 统计、集合、分组数据,转换数据类型,构造表达式由已有数据项生成新 的数据项,对数据采样等。 操作简单、支持国际字符、可以直接发布到w e b 。 3 、d b m i n e r d b m i n e r 是加拿大s i m o n f r a s e r 大学开发的一个多任务数据挖掘系统,它的前 身是d b l e a m 。该系统设计的目的是把关系数据库和数据开采集成在一起,以面 向属性的多级概念为基础发现各种知识。d b m i n e r 系统具有如下特色: 能完成多种知识的发现:泛化规则、特性规则、关联规则、分类规则、演 化知识、偏离知识等。 6 第一章绪论 综合了多种数据开采技术:面向属性的归纳、统计分析、逐级深化发现多 级规则、元规则引导发现等方法。 提出了一种交互式的类s q l 语言数据开采查询语言d m q l 。 能与关系数据库平滑集成。 实现了基于客户服务器体系结构的u n i x 和p c ( w i n d o w s n t ) 版本的系 统。 1 2 2 学生成绩管理的研究现状 考试作为教学管理过程中的重要环节之一,实现着教与学的双重功能,既是 对学生掌握的知识和应有的能力的测试,也是对教师教学质量和效果的同步检验, 因此,考试必须具有严格性、真实性和公正性。如果在具体的考试过程中,这些 特性得不到很好的落实或遵守,那么考试也就失去了它的价值和意义。 目前,我国高校对学生总成绩评定大都是采用德智体综合测评的方法,即将 学生总成绩按德育成绩、智育成绩和体育成绩分别进行打分,然后按一定的比例 综合起来( 加权平均) 。为了能够进行量化考核,各高校都已制定了详细的评定方 案和评定系数( 指标) 。现在,问题是如何对此来进行科学而合理的量化考核? 我 认为这主要取决于对知识教育向素质教育转变的理解程度。当然,不同的院校, 也必定有自己的侧重点。应该承认,这是一件较难而又繁琐的工作,是否可由高 教研究部门组织有关人员进行进一步的探讨研究,集思广益,制定出简单而可操 作的方案并试点实施。 高校课程设置根据课程的内容、重要性及面向对象,一般可分为公共课、基 础课、专业基础课和专业课,也可分为理论课与实践课,或必修课、限选课与任 选课,或考试课与考查课,等等。从某一门课程的性质( 类别) 可大概地看出其 在该专业中的地位,并就此来确定应采用何种合适的考核方式。目前,学生课程 成绩考核的常用形式有笔试、面试和实际现场操作等多种形式,也可以一种形式 为主,兼用其它形式。随着计算机的推广应用,机试作为一种先进、高效、科学、 公平的手段,必将成为今后主要的考核方式之一,也是办公无纸化的一个标志。 所谓的机试,就是利用计算机的人机对话功能,针对所学的课程内容,在计算机 ( 终端) :各自单独应答操作,以实现课程考核。 7 第一章绪论 至于学生课程考核的内容及题型,由于受到课程内容等诸多因素的影响,应 主要由任课老师来决定。一份好的考卷应能够考察出基本概念和基本知识的掌握 程度,判断推理和解题运算能力及运用所学知识解决实际问题的( 工程) 能力, 还要拉开学生的层次。随着计算机的推广应用,借助计算机出题己是相当普遍, 因此考卷的保密工作应引起足够的重视。例如在公用计算机上出题,即使随后即 删掉,也有可能被恢复而泄题。目前,各高校对学生考试作弊都制定出相当严厉 的处理措施,对于端正学风是大有好处的。但是,笔者认为光这样做还不够,我 们应标本兼治,即应站在从应试教育向素质教育转变的角度上来解决这个问题。 现在,各高校对学生成绩档案大都实现计算机管理。但从目前的情况来看,由于 受到管理软件的限制,计算机主要仅起存储作用,其运算统计功能远未受利用。 这方面的工作迫在眉睫且难度并不大,希望有关部门能够投入必要的财力、人力 来尽快地解决。 评定学生成绩的传统做法就是一卷定锤,即仅凭一次考试成绩就认定学生发 展的程度,这种评定方法掩盖了教师的教与学生的学的发展过程,不仅体现不出 学生素质水平提高的经过与提高的层次,而且难以检测教师是否施行了素质教育。 近代的学分制和选课制始于1 9 世纪下半叶美国的大学。经过长期演变,已形 成了多种选课制:自由选修制、分组选修制、选修课和必修课各占一定比例、主 辅修制。在我国,蔡元培先生于1 9 1 7 年任北京大学校长后,首先在北京大学倡导 学分制,我国一些院校也先后实行。然而,1 9 5 2 年学习苏联教学方式,改学分制 为学年制。近年来,随着高等教育改革深化,全国许多高等学校相继推行学分制, 以此作为人才培养的重要措施。学分制作为一种新的教学制度,具有机动性、灵 活性和有效性的特点,这对于促进高等教育的改革,提高教育质量具有重要的作 用。 1 2 4 数据挖掘发展趋势,展望将来 一份最近的g a r t n e r 报告中列举了在今后3 5 年内对工业将产生重要影响的五 项关键技术,其中k d d 和人工智能排名第一。同时,这份报告将并行计算机体系 结构研究和k d d 列入今后5 年内公司应该投资的1 0 个新技术领域。 可以看出,数据挖掘的研究和应用受到了学术界和实业界越来越多的重视。 8 第一章绪论 进行数据挖掘的开发并不需要太多的积累,国内软件厂家如果进入该领域,将处 于和国外公司实力相差不很多的起跑线上,并且,现在关于数据挖掘的一些研究 成果可以在i n t e m e t 上免费获取,这更是一个可以利用的条件。我们希望数据挖掘 能够引起国内实业界更多的重视,同时也希望能够有更多的国内软件厂商进入该 领域。 当前数据挖掘研究焦点可能会集中到以下儿个方面:研究专门用于知识发现 的数据挖掘语言,也许会像s q l 语言一样走向形式化和标准化;寻求数据挖掘过程 中的可视化方法,使得知识发现的过程能够被用户理解,也便于在知识发现过程 中的人机交互;研究在网络环境下的数据挖掘技术,特别是在i n t e m e t 上建立数据 挖掘服务器,与数据库服务器配合,实现数据挖掘;加强对各种非结构化数据的挖 掘,如文本数据、图形图像数据、多媒体数据。但是,无论怎样,需求牵引,市 场驱动是永恒的,数据挖掘将首先满足信息时代用户的急需,大量基于数据挖掘 的决策支持软件工具产品将会问世。 1 3 研究意义 数据挖掘技术在商业、金融业、保险业、市场营销等领域已获得了较为广泛 的应用,但对教育信息的挖掘与知识发现方面的研究和应用相对来说很少。高校 对学生信息、成绩等数据的处理还一般停留在简单的数据备份和查询阶段。 近年来,随着高校的不断扩招,学生人数大幅度增加,给高校学生管理、教 学工作带来了严峻的考验,传统的教学管理手段已经逐渐不能适应社会的发展。 随着数据挖掘技术的成熟及应用领域的不断扩展,不少高校研究人员已开始研究 将数据挖掘技术应用于高校的教学、管理中。例如:将数据挖掘技术应用于学生 信息管理、高校的教学管理、教学质量评估、合理安排课程、招生就业及考试系 统中,对提高学校教学管理水平起到了很好的指导作用。 作为一个高等院校,它的根本任务都是通过教学和教育工作来培养高层次人 才,所以教学工作始终是学校的中心工作。高等教育的重点和关键是提高整个教 育质量,而学生成绩恰是评估教学质量的重要依据,也是评价学生对所学知识掌 握程度的重要标志。所以通过对学生的成绩进行分析评估,为引导各校领导重视 教学工作,注意改善教学条件,加强教学管理,深化教学改革,努力提高教学质 9 第一章绪论 量提供了重要的依据。 影响学生的学习成绩的因素很多,但传统的学生学习成绩分析无非是得到均 值、方差、区别显著性检验、信度、效度等,往往还是基于教学本身来考虑,比 如,在后续- - f - j 课程学完时,是哪- - i - j 或哪几门前导课程对其影响最大等,其实 即使在教学中还有一些不易察觉的因素隐含其中,何况还有教学以外的因素影响 学生学习成绩,这些都是需要进一步分析,从而得出结论,供教学管理人员做出 相应的决策。但这些信息无法从传统的学生成绩分析方法获得,而可以通过从2 0 世纪9 0 年代中期兴起的数据挖掘技术获得,以找到影响学生学习成绩的真实原因, 来制定相应措施,提高教学质量和效果。 数据挖掘是一种决策支持过程,是深层次的数据信息分析方法,将数据挖掘 技术应用于成绩评估方面是非常有益的,它可以全面地分析考试成绩与各种因素 之间隐藏的内在联系,比如,经过对学生相关数据进行分析,数据挖掘工具可以 回答诸如“哪些因素对学生成绩可能有影响 等类似的问题,这是传统评价方法 无法具备的。 利用数据挖掘工具,对学生的学习成绩进行分析处理,可以及时得到学生的 评价结果,对学生出现的不良学习行为进行及时指正。另外,还能够克服教师主 观评价的不公正、不客观的弱点。减轻教师的工作量。成绩作为考试的结果,不 仅是对学生学业和教师教学效果的检查和评定,进而激励学生学习及教师工作; 它更是一种信息,具有反馈于教学活动、服务于教育决策、为教育科研提供资料 等作用。为充分发挥考试的效能,综合评价命题质量,及时反馈教学效果,沟通 教学信息,教学部门对考试成绩进行统计分析和总结是非常必要的。 1 4 主要内容 随着高校招生规模的扩展,在校生人数越来越多,学生成绩分布越来越复杂, 除了传统的学生成绩分析得到的一些结论外,还有一些不易察觉的信息隐含于其 中,故此把数据挖掘技术引入到学生成绩分析中,以找到影响学生成绩的真实原 因,有利于有针对性地提高教学质量和教学效果。 本论文在浙江工业职业技术学院教务管理系统基础上,利用数据挖掘技术对 学生成绩数据库进行分析和研究,应用数据挖掘中的i d 3 算法和粗糙集算法对学 1 0 第一章绪论 生成绩数据进行分类,并对得到的结果进行了分析,得出了影响学生成绩相关因 素以及其它的一些结论。 1 5 论文结构 第一章绪论部分主要介绍了本论文的研究背景和研究意义。 第二章数据挖掘技术部分主要介绍数据挖掘的基本知识,包括数据挖掘的过 程、数据挖掘的任务、数据挖掘的分类以及数据挖掘的常用技术和方法。 第三章学生成绩管理系统分析部分主要介绍对学生成绩管理的必要性,学生 成绩管理的作用,以及学生成绩管理的研究现状和现有学生成绩管理方法的不足。 第四章数据挖掘技术在学生成绩管理中应用部分主要介绍和探讨数据挖掘分 类技术在学生成绩管理中的应用。应用决策树算法和粗糙集理论对学生成绩库中 的数据进行分析,找出影响学生发展的各种因素,使学生能够较好地保持良好的 学习状态,从而为教学部门提供了决策支持信息,更好地开展教学工作,提高教 学质量。 第五章总结部分主要总结了在论文研究阶段的工作和论文的创新点,并对数 据挖掘技术在高校学生成绩管理中的进一步研究进行了分析和展望。 第二章数据挖掘相关知识 第二章数据挖掘相关知识 随着信息技术的发展,各个行业在过去的若干年里都积累了大量的数据。数 据库系统只提供数据管理和简单处理功能。虽然人们可以在这些数据之上进行分 析和研究工作,但是进行更高层次的处理时,例如从中发现规律和模式,对如此 庞大的数据进行人工处理是非常困难的。同时,随着数据在日常决策中的重要性 越来越显著,人们对数据处理技术的要求也不断提高,例如得到数据的总体特征 以及预测发展趋势等,而这些功能对传统的管理系统来说是无法做到的。于是, 人们希望有一种方法可以帮助处理这些十分繁杂的数据,从中发现有价值的信息 或知识为决策服务,同时减轻工作负担。正是基于上述原因,本文将数据挖掘技 术引入学生成绩管理领域,进行一次有益的尝试。 本研究将数据挖掘技术与学生成绩管理相结合。希望通过数据挖掘技术,得 到隐藏在海量数据背后的有用信息,在一定程度上为教学部门提供决策支持信息, 促使更好地开展教学工作,提高教学质量,使信息系统的功能得到最大程度的利 用,亦使之能在功能上更加清晰地认识其服务对象及内容。 2 1 数据挖掘技术 我们先来看一个数据挖掘的故事,”尿布与啤酒”的故事是关于数据挖掘最经 典和流传最广的故事。 总部位于美国阿肯色州的世界著名商业零售连锁企业沃尔玛( w a lm a r t ) 拥有 世界上最大的数据仓库系统。为了能够准确了解顾客在其门店的购买习惯,沃尔 玛利对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪 些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数 据的基础上,沃尔玛利用n c r 数据挖掘工具对这些数据进行分析和挖掘。一个意 外的发现是:”跟尿布一起购买最多的商品竟是啤酒! ” 这是数据挖掘技术对历史数据进行分析的结果,反映数据内在的规律。那么 这个结果符合现实情况吗? 是否是一个有用的知识? 是否有利用价值? 1 2 第二章数据挖掘相关知识 于是,沃尔玛派出市场调查人员和分析师对这一数据挖掘结果进行调查分析。 经过大量实际调查和分析,揭示了一个隐藏在”尿布与啤酒”背后的美国人的一种行 为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中 有3 0 - 4 0 的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太 们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他 们喜欢的啤酒。 既然尿布与啤酒一起被购买的机会很多,于是沃尔玛就在其一个个门店将尿 布与啤酒并排摆放在一起,结果是尿布与啤酒的销售量双双增长。 按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交 易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的【3 】。 简单的说,数据挖掘是从大量的数据中提取或“挖掘”知识。数据挖掘应该 更正确地命名为“从数据中挖掘知识”。挖掘是一个很生动的术语,它抓住了从大 量的未加工的材料中发现少量金块这一过程的特点。数据挖掘就是应用一系列技 术从大型数据库或数据仓库中提取人们感兴趣的信息和知识,这些知识或信息是 隐含的,事先未知而潜在有用的,提取的知识表示为概念、规则、规律、模式等 形式。也可以说,数据挖掘是一类深层次的数据分析。 可以认为,数据挖掘方法主要有三部分组成:模型表示、模型评价和搜索。 模型表示是一种用于描述能够被发现的模式的语言。如果这种表示太受限制,再 多的时间和例子也不能够为数据产生一个精确的模型。对一个数据分析家来说, 充分掌握可能隐含在特定方法中的有代表性的假设是很重要的。同样,对一个算 法设计者来说,能够清楚地表达一个特定算法能做出什么样的有代表性的假设也 非常重要。注意,随着模型表示能力的增强,模型对于训练数据的过适应性( o v e r f i t t i n g ) 的危险性也与之增加,从而导致它对未知数据的预测准确性降低。 模型评价标准是对一个特定模式( 模型及其参数) 满足k d d 过程目标的程度 的定量描述( 或适应性函数) 。例如,我们常常用模型对于测试数据的预测正确性 来判断其性能。描述模型可以通过其预测准确度、新颖性、可用性和可理解性的 度量尺度来评估。 搜索方法由两部分组成:参数搜索和模型搜索。模型表示和模型评价标准一 旦确定,数据挖掘问题就简化为纯粹的优化任务:从已选择的模型家族中寻找能 够优化评价标准的参数和模型。参数搜索时,算法必须在给定观察数据和固定的 1 3 第二章数据挖掘相关知识 模型表示的情况下,搜索能够优化模型评价标准的参数。模型搜索以循环的形式 发生在参数搜索方法之上,改变模型表示以便考虑整个模型家族。 2 1 1 数据挖掘技术产生 任何一项新技术都是基于实际需要而产生的。数据挖掘也不例外。 自2 0 世纪6 0 年代以来,数据库技术开始系统地从原始的文件处理发展为复 杂的功能强大的数据库系统,发展阶段可粗分为数据搜集、数据访问和数据仓库 三个阶段,如表2 1 所示。数据库系统也从早期的层状和网状数据库系统发展为关 系数据库系统,结构化查询语言、联机事务处理、多维数据库等技术使大量数据 的有效存储、检索和管理成为可能。自2 0 世纪8 0 年代以来,人们研究开发了各 种新的功能强大的数据库系统。包括空间的、时间的、多媒体的事务数据库和科 学数据库、知识库、办公信息库在内的数据库系统大量出现,普遍应用。随着网 络技术的发展,基于i n t e m e t 的w e b 数据库也被广泛研究和应用。 表2 - 1 数据库的发展历史 发展阶段时期技术支持生产厂家、特点 数据搜集2 0 世纪6 0 年代计算机、磁带等i b m 、c d c 提供静态历史数据 数据访问2 0 世纪8 0 年代关系数据库、结构化查询语言等o r a c l e ,s y b a s e , i b m ,m i c r o s o f t 在纪录中动态查询历史数据 数据仓库2 0 世纪9 0 年代联机事务处理、多维数据库等p i l o t 、c o m s h a r e 、 a r b o r 、c o g n o s 在各层次提供回溯的动态的历史数 据 在药学领域,数据库技术广泛应用。文献检索、联机查询、在i n t e m e t 上检索 信息、办公信息系统、医院药房信息管理系统,这一切应用技术背后都有数据库 技术的支持。现在已经很少有数据不以数据库的形式来存储。数据库技术的应用 给人们对大量甚至海量数据的存储、管理和查询带来了极大方便。 与此同时,出现了一个新的问题:“数据丰富,但信息( 知识) 贫乏。快速 增长的海量数据收集、存放在大量的大型数据库中,如果没有强有力的分析工具, 人们无法有效地理解和利用它们。这些海量数据的利用率很低,有的甚至成为了 1 4 第二章数据挖掘相关知识 “数据坟墓”一难得再访问的数据。此外,2 0 世纪下半叶发展起来的专家系统,也 遇到“知识获取 这一瓶颈问题。在此背景下,对强有力的数据分析工具的需求 推动了数据挖掘技术的产生。 数据挖掘技术是人们长期对数据库技术进行研究开发的结果,它使数据库技 术进入了一个更高级的阶段,不仅能对历史数据进行查询和遍历,而且能够找出 历史数据之间的潜在联系,促进信息的传递,进而“自动”或者帮助人们发现新 的知识。 研究数据挖掘的历史,可以发现它的产生和快速发展是与商业数据库的飞速 增长应用分不开的。特别是九十年代较为成熟的数据仓库广泛应用于各种领域, 人们把存放在这些数据仓库中的原始数据看作是形成知识的源泉,是蕴含知识黄 金的金矿,数据挖掘作为一个强有力的采矿机应运而生。原始数据可以是结构化 的,如关系数据库中的数据;也可以是半结构化的,如文本、图形、图像数据, 甚至还可以是分布在网络上的异构型数据。数据挖掘的方法可以是数学的,也可 以是非数学的,可以是演绎的,也可以是归纳的。发现的知识可以用于信息管理、 查询优化、决策支持、过程控制等,还可以用于数据自身的维护。 特别要指出的是,数据挖掘技术从一开始就是面向应用的。它不仅是面向特 定数据库的简单查询,而且要对这些数据进行微观、中观乃至宏观的统计、分析、 综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已 有的数据对未来的活动进行预测。如此就把人们对数据的应用,从低层次的末端 查询操作,提高到为各级决策者提供决策支持。这种需求驱动比数据库查询更为 强大。同时还要指出的是数据挖掘的目的,不是要求发现放之四海皆准的真理, 不是去发现崭新的自然科学定理和纯数学公式,更不是机器定理证明。数据挖掘 得到的知识是相对的,有特定前提和约束条件,是面向特定领域的。由此也要求 数据挖掘的结果必须是易于理解的,最好能用自然语言来表达【3 j 。 2 1 2 数据挖掘的定义 随着信息技术的发展,各个行业在过去的若干年里都积累了大量的数据。数 据库系统只提供数据管理和简单处理功能,虽然人们可以在这些数据上进行分析 和研究工作,但是进行更高层次的处理时,例如从中发现规律和模式,对如此庞 1 5 第二章数据挖掘相关知识 大的数据进行人工处理是非常困难的。同时,数据在日常决策中的重要性越来越 显著,人们对数据处理技术的要求也不断提高,例如得到数据的总体特征以及预 测发展趋势等,而这些功能对传统的管理系统来说是无法做到的。于是,人们希 望有一种方法可以帮助处理这些十分繁杂的数据,从中发现有价值的信息或知识 为决策服务,同时减轻工作负担。 数据挖掘( d a t am i n i n g ) ,中文译作数据采掘、数据开采。所谓数据挖掘,就是 从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在 其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。也有人称为 知识发现( k n o w l e d g ed i s c o v e r y i nd a t a b a s e ,k d d ) ,长期以来,在知识发现领域, “知识发现”与“数据挖掘 这两个术语的范畴和使用界限一直不很清晰,直到 1 9 9 6 年的k d d 国际会议上,f a y y d 等对这两个术语进行了定义:k d d 是从数据 中辨别有效的、新颖的、潜在有用的、最终可理解的模式的过程,指的是数据库 中知识
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 成本效益分析工具操作手册
- 2025有条件买卖合同样本
- 2025车间级安全教育试题及答案
- 2025年工程管理年终工作总结(2篇)
- 2025新款电器电子产品购销合同
- 2025标准版家庭护工劳动合同样本
- 《2025重型货车租赁协议》
- 2025企业间租赁合同范本
- 2025版私人委托合同书
- 2025劳动合同书范例模板
- 政治经济学5章习题(有答案)
- 机器人工程大一职业规划书(8篇)
- 能量均分定理理想气体的内能
- 功能高分子04-电功能高分子材料
- 建筑企业管理制度大全-精品完整版
- GB/T 1185-2006光学零件表面疵病
- 锚杆工程隐蔽验收记录
- 2020年汽车物流企业组织结构及部门职责
- 混凝土原理与设计10压弯承载力课件
- 幼教培训课件:《家园共育体系建构与实施策略》
- 突发公共卫生事件健康教育与健康促进课件
评论
0/150
提交评论