(计算机应用技术专业论文)数据挖掘在计算机教学评价中的应用研究.pdf_第1页
(计算机应用技术专业论文)数据挖掘在计算机教学评价中的应用研究.pdf_第2页
(计算机应用技术专业论文)数据挖掘在计算机教学评价中的应用研究.pdf_第3页
(计算机应用技术专业论文)数据挖掘在计算机教学评价中的应用研究.pdf_第4页
(计算机应用技术专业论文)数据挖掘在计算机教学评价中的应用研究.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提 耿隐含在其中的、事先不知道的,但又是潜在有用的信息与知识的过程。数据挖掘的应 用研究己经在众多领域中蓬勃开展起来了。 以学生评估教师为主的教学评价,对教学改革和教学质量的提高起到了很大的促进 作用。但是,如何表达、分析、解释、公布和使用教学评价结果,以调动广大教师的积 极性,从而使教学评价发挥更大的作用是一个值得研究的新课题。而数据挖掘技术j 下是 解决这类问题的行之有效的方法。 本文首先探讨了数据挖掘技术的摹本理论和常用的数据挖掘工具。其次,在研究关 联规则挖掘算法的基础上,详细分析了教师因素对学生考试成绩和学生评教成绩的影 响,结果表明具有丰富的教学经验和良好责任心的教师可以帮助学生取得良好的学习成 绩,以及年轻女教师在评教中更受学生的欢迎,这为教学管理部门分配任课教师和人事 部门引进人才提供决策支持。再次,应用决策树i d 3 算法,建立了学生“考试成绩”是 否优秀的决策树,并利用后修剪技术实现分类决策树的剪枝,产生分类规则,完成了考 试成绩优秀分类决策树模型的构建。最后,应用s p s sc l e m e n t i n e 数据挖掘工具进一步 对评教数据建模分析,验证了数据挖掘结果。 关键词:数据挖掘,计算机教学评价,关联规则,决策树,s p s sc l e m e n t i n e r e s e a r c ho na p p l i c a t i o no fd a t am i n i n g i nc o m p u t e r - t e a c h i n ge v a l u a t i o n l i uf a l u n ( c o m p u t e ra p p l i c a t i o nt e c h n o l o g y ) d i r e c t e db yp r o f z h ul i a n z h a n g a b s t r a c t d a t am i n i n gi sap r o c e s st h a ti st oe x t r a c ti m p l i c i t ,p r e v i o u s l yu n k n o w na n dp o t e n t i a l l y u s e f u li n f o r m a t i o na n d k n o w l e d g e f r o m p r a c t i c a la p p l i e d d a t a ,w h i c h i s m u l t i t u d i n o u s ,i n c o m p l e t e ,n o i s g f u z z ya n ds t o c h a s t i c t h er e s e a r c ho na p p l i c a t i o no fd a t a m i n i n gh a sd e v e l o p e de n e r g e t i c a l l yi nn u m e r o u sd o m a i n s t e a c h i n ge v a l u a t i o nm a i n l yb a s e do ns t u d e n t se v a l u a t i n gt e a c h e r sh a sg r e a te f f e c to i l i m p r o v i n gt e a c h i n gr e f o r ma n dq u a l i t y h o w e v e r , h o wt oe x p r e s s ,a n a l y z e ,e x p l a i n ,p r o m u l g a t e a n dm a k eu s eo ft h er e s u l to fe v a l u a t i o nt os t i m u l a t em o s tt e a c h e r s e n t h u s i a s m w h i c hi st o m a x i m i z et h ee v a l u a t i o n ,i san e ws u b j e c tt h a td e s e r v e st os t u d y t h i sp a p e rd i s c u s s e st h eb a s i ct h e o r yo fd a t am i n i n gt e c h n o l o g ya n dc o m m o n l yu s e d t o o l so fd a t am i n i n gi nt h ef k s tp l a c e s e c o n d l y , b ys d u d y i n ga s s o c i a t i o nr u l em i n i n g a l g o r i t h m ,a n a l y s i s e st h ee f f e c tt o s t u d e n t s t e s ta c h i e v e m e n ta n dt e a c h i n ge v a l u a t i o ns c o r e s t h a ti sp r o d u c e db yt e a c h e r s f a c t o r si nd e t a i l t h er e s u l t ss h o wt h a tt e a c h e r sw i t hw e a l t ho f t e a c h i n ge x p e r i e n c ea n dg o o ds e n s eo fr e s p o n s i b i l i t yc a l le n a b l es t u d e n t st oa c h i e v eg o o d g r a d e s ,y o u n gf e m a l et e a c h e r sa r em o r ep o p u l a ra m o n gs t u d e n t s ,w h i c hp r o v i d ed e c i s i o n s u p p o r t sf o re d u c a t i o nm a n a g e m e n td e p a r t m e n tt o a l l o c a t et e a c h e rf o rc l a s s e sa n df o r p e r s o n n e ld e p a r t m e n t st or e c o m m e n dt a l e n t f u r t h e rm o r e ,u s i n gi d 3 d e c i s i o nt r e ea l g o r i t h mt o e s t a b l i s ht h ed e c i s i o nt r e eo fw h e t h e r ”t e s ts c o r e ”i se x c e l l e n t ,p r u n i n gt h ec l a s s i f i c a t i o n d e c i s i o nt r e eu s i n gp o s t p r u n i n gm e t h o d ,g e n e r a t ec l a s s i f i c a t i o nr u l e s ,a n dc o m p l e t eb u i l d i n g a n a l y s i sd e c i s i o nt r e em o d e lo fw h e t h e re x a m i n a t i o nr e s u l ti se x c e l l e n t f i n a l l y , u s i n gs p s s c l e m e n t i n et om o d e la n da n a l y s i st e a c h i n ge v a l u a t i o nd a t af u r t h e r , w h i c hv a l i d a t e st h er e s u l t s o fd a t am i n i n ga b o v e k e yw o r d s :d a t am i n i n g ,c o m p u t e r - t e a c h i n ge v a l u a t i o n ,a s s o c i a t i o nr u l e s ,d e c i s i o n t r e e ,s p s sc l e m e n t i n e 关于学位论文的独创性声明 本人郑重声明:所呈交的论文是本人在指导教师指导下独立进行研究工作所取得的 成果,论文中有关资料和数据是实事求是的。尽我所知,除文中已经加以标注和致谢外, 本论文不包含其他人已经发表或撰写的研究成果,也不包含本人或他人为获得中国石油 大学( 华东) 或其它教育机构的学位或学历证书而使用过的材料。与我一同工作的同志 对研究所做的任何贡献均已在论文中作出了明确的说明。 若有不实之处,本人愿意承担相关法律责任。 学位论文作者签名:型l 堕! l同期:刈。年矽孑寸同 学位论文使用授权书 本人完全同意中国石油大学( 华东) 有权使用本学位论文( 包括但不限于其印 刷版和电子版) ,使用方式包括但不限于:保留学位论文,按规定向围家有关部f - i ( 机 构) 送交学位论文,以学术交流为目的赠送和交换学位论文,允许学位论文被杏阅、 借阅和复印,将学位论文的全部或部分内容编入有关数据库进行检索,采用影印、 缩印或其他复制手段保存学位论文。 保密学位论文在解密后的使用授权同上。 学位论文作者签名: 川1 1 乏 指导教师签名:兰赵3 缸仁 同期:加l 年卜月弓口同 同期:矽,口年r 月歹口r 中冈钉油人学( 华东) 硕j :学位论义 1 1 课题背景和意义 1 1 1 课题的背景 第1 章引言 教学评价是指以教学目标为依据,制定科学的标准,运用一切有效的技术手段,对 教学活动的过程及其结果进行测定、衡量,并给出价值判断的过程。不仅对教与学活动 起着指导、调节、控制和推动作用,而且有很强的导向性,是教与学活动中不可缺少的 环节,是学校教学与管理工作的重要组成部分,是评价教师的教学效果的主要手段。 学生对教师课常教学效果进行评价是获取教学反馈信息的主要方法,是评价教师教 学质量和检查教学效果的重要途径。目前,滨州学院采用学生网上评教的方法积累了大 量的评教数据,对这些数据的处理主要是简单的查询、统计和备份,还没有对其进行深 入地分析,加以提取有利于教学实践的知识,这是对教学数据资源的浪费。而数据挖掘 技术提供了可行、有效的解决此类问题的方法。 数据挖掘就是从大量的、模糊的、有噪声的、不完全的、随机的数据中,提取隐含 在其中的、事先未知的、但又是潜在的且有用的信息和知识的过程。目前,滨州学院所 有大学一年级学生的“计算机文化基础”课程考试使用“山东省非计算机专业计算机教 学考试”系统,该系统采用计算机网络无纸化考试,实现了教考分离、机器阅卷,学生 成绩不存在人为因素的干扰,客观公f ,因此,数据挖掘技术更适合该课程的教学评价 数据的挖掘分析。 本课题希望借助数据挖掘技术,寻找“计算机文化基础”课程教学评价数据背后隐 含的有价值的信息,提高教学评价的效率,更好的为教师和教学管理部门提供决策支持, 全面提升我校“计算机文化基础”公共课的教学质量。 1 1 2 课题的研究意义 数据挖掘技术经过数十年的研究与发展,吸收其它学科最新研究成果并逐步形成了 其独特的研究分支,取得了长足发展。它汇集了数据库、人工智能、统计学等学科的内 容,是一新兴的交叉学科。而大部分学者则认为数据挖掘技术仍然处于探索阶段。目前 所推出的一些数据挖掘系统大都是一些通用的辅助丌发工具,只能给那些熟悉数据挖掘 第1 章j f 高 技术的高级技术人员或专家使用,而实际上数据挖掘技术应该与特定应用相结合。 数据挖掘旨在帮助人们从海量数据中发现有价值的信息。本课题希望借助数据挖掘 技术,分析学生特征因素对学生“计算机文化基础”考试成绩的影响,帮助教师选择合 适的教学策略,利用管理者进行有效地管理,可为我校计算机公共课实施分级教学提供 依据;分析教师的性别、工作年限、职称、学历等特征因素对学生学习成绩的影响,为 合理配备任课教师和人事部门引进人才提供决策支持;对照我校教师教学评价指标体 系,通过对学生评教数据的挖掘,分析哪些评价指标与评教结果有直接因果关系,为加 强教学督导和教师继续教育与培训提供决策支持。传统的评价方法很难做到如此精细的 分析,而将数据挖掘这一新的数据分析技术应用于教学评价之中,不仅可以提高教学评 价技术水平,还可以提高教学评价的科学性、客观性和公j 下性,使之更好地服务于教学 和管理。 目前,数据挖掘在保险、金融、商业等领域己获得了广泛的应用,在教育教学层面 上的应用虽然己经丌始,但并不广泛。而在教学评价数据的挖掘分析方面的研究和应用 则更少,属于i i i i i 起步阶段。本课题希望能够结合滨州学院实际,为加强与提高数据挖 掘技术在我校计算机教学评价中的应用起到推动作用,从而更好地为教师实施教学和管 理部门进行教学管理提供决策支持,全面提升我校教育教学质量。 数据挖掘无论在理论方面还是在技术方面都还不成熟,本课题是在汲取前人经验的 基础上,对数据挖掘理论和方法进行研究并应用于我校计算机公共课教学评价实践中, 具有非常重要的实践意义,同时也为将数据挖掘技术应用于其他学科的教学评价做尝试 性探索。 1 2 国内外研究现状 国内高校在建立、健全和完善教育教学质量评价指标体系方面做了大量的研究与探 索工作,形成了多种评价方式。主要有:调食问卷方式( 手工填写加人工统计的形式) 、 计算机读卡式( 手工填写加光标机统计的形式) 和基于网络的评价模式。由于自订两种模 式有效率低、缺乏时效性的缺点,正逐步被基于网络的教学评价模式所取代。目d 订国内 部分高校虽然已经建立网上评教系统,但是功能还不尽完善,主要表现在两方面:一是 评价指标体系单一、科学性不高。多数学校多 建立了理论课的教学评价指标体系,且几 2 中国,f i 油人学( 仁东) 顾i j 学位论文 乎所有课程使用同一评价指标体系,致使计算机课程和一般理论课程使用相同的评价指 标体系,未能体现计算机课程的特点。二是网上评教系统的功能不够完善。大部分只实 现了学生评教,而未能实现教师问评价、同行评价、领导评价等,有的数据保密性还很 差,导致学生不敢如实对任课教师迸行教学评价等问题。 数据挖掘技术在保险业、商业、金融业以及企业的生产、市场营销等方面都得到了 广泛的应用,而在教育层面的应用相对较少,处于发展的初级阶段。当前,国内高校丌 展数据挖掘的研究已经丌始,但并不广泛。浙江大学曾使用关联规则挖掘技术对高校的 人事档案信息数据库进行挖掘,试图找到影响学科发展的人员因素,评价一个学科的科 学方法,以及影响学科发展的各个要素之问的关系。另外,曲阜师范大学体育系与上海 市体委就体育人才的选拔问题,进行了数据挖掘的可行性探索【lj 。 近年来随着高校的不断扩招,学生人数大幅度增加,这无疑给高校学生管理、教学 工作带来了严峻考验,传统的教学管理手段已渐渐不能适应社会发展的需求。随着数据 挖掘技术的成熟及应用领域的不断扩展,很多高校研究人员已丌始研究将数据挖掘技术 应用于高校教学、管理及教学评价2 矧。文献l 】将数据挖掘技术应用于高校的教学评价、 学生信息管理、学生成绩分析及考试系统中,对提高学校教学与管理水平起到了很好的 指导和促进作用。 在教学过程中,影响教学质量的因素通常是发展的、动态的,不是恒定不变的。因 此,在教学质量评估过程中,要用动态的观点来看待这些关键因素。现行的教学质量评 价系统大多采用由学生考评的方法,通常由教务管理部门在期中或期术将教师教学质量 评价表发给学生,由学生根掘评价表中的评价项目对教师进行逐项打分,经教务管理部 门统计后根据评分结果确定教师教学质量的考核等级。这种高校内部的教学质量评价活 动对于教学改革和教学质量的提高的确起到了一定的促进作用,但是,由于学生在评教 的过程中,带有一定的主观性和随意性,不同专业的学生对于不同的课程带有不同的倾 向性,再加上一些人为因素的干扰,因此,学生的评教成绩并不能完全真实的反映教师 的实际教学效果。在这种评价方式下,只能取得较为片面的评价结果,却不能对评教数 据进行分析,使教学评价充分发挥对教学的指导和促进作用。那么如何表达、分析、解 释、公布和使用教学评价结果,才能调动广大教师和学,七的积极性,关注和参与教学评 价,使教学评价工作发挥出更大的作用,币是目自订面临的一个非常值得研究的新课题。 3 第1 章t j i 高 1 3 论文的研究内容、创新点和结构 1 3 1 论文的研究内容 依据“计算机文化基础 课程的教学评价相关数据( 见图1 1 ) ,确立本文主要研究 内容。 图1 - 1“计算机文化基础”教学评价数据关系图 f i g l - i t h ed i a g r a mo f ”c o m p u t e rc u l t u r a lf o u n d a t i o n ”t e a c h i n ge v a l u a t i o nd a t a ( 1 ) 应用关联规则,分析评教结果与各评价指标间的关系,剔除无效评教数据, 从而尽可能地提高评价的准确性、公币性和客观性。 ( 2 ) 考察教师特征因素( 性别、工作年限、学历、职称等) 与学生评教结果的关 系,分析具备哪些特征的教师更受学生的好评,为人事部门引进人才、教师继续教育和 培训提供决策支持。 ( 3 ) 考察教师特征因素( 性别、工作年限、学历、职称等) 对“计算机文化基础” 考试成绩的影响,分析哪些教师会引导学生取得优秀的学习成绩,为教学管理部门合理 配备任课教师提供决策支持。 ( 4 ) 考察学生特征因素对“计算机文化基础”考试成绩的影响,为教师因材施教, 有针对性的实施教学,实现个别化教学,提供有益指导和参考。 ( 5 ) 通过分析评教结果与学生考试成绩问的关系,对学生评教环节进行评估,探 索学生评教成绩在对教师整个教学评价中所占的合理比重。 ( 6 ) 应用s p s sc l e m e n t i n e 对计算机教学评价数据进行挖掘分析,评估以上挖掘结 果的可靠性和叮信性。 1 3 2 论文的创新点 4 中国石油人学( 华东) 硕i ! 学位论文 ( 1 ) 对数据挖掘算法进行研究,选择适合我校计算机教学评价应用实践的算法。 ( 2 ) 根据实际收集的数据特点,利用关联规则对学生评教数据进行有效性和可用 性预处理。 ( 3 ) 利用s p s sc l e m e n t i n e 对教学评价数据进行分析,验证数据挖掘结果,进而指 导教学实践与管理。 ( 4 ) 以应用数据挖掘技术对滨州学院“计算机文化基础”课程的教学评价数据分 析为突破口,带动全校性多学科教学评价数据的挖掘分析,充分发挥评教数据的作用, 使教学评价真j 下发挥它应有的功能,为教学与管理提供决策支持。 1 3 3 论文的结构 第一章引言。主要介绍了课题的背景和意义,以及教学评价数据分析的现状和存 在的问题。 第二章数据挖掘概述。主要阐述了数据挖掘的基本原理,明确了数据挖掘的定义、 分类、功能及过程等,并列举了目前最常用的数据挖掘工具,为计算机教学评价数据的 挖掘分析奠定基础。 第三章关联规则与计算机教学评教数据挖掘。主要应用关联规则分析了教师因素 对学生考试成绩的影响,以及教师因素和学生评教结果之| 日j 的关系,得出指导教学与管 理的关联规则。 第四章决策树与计算机教学评教数据挖掘。通过i d 3 算法建立了学生考试成绩是 否优秀的决策树,并利用后修剪法实现剪枝。最后产生分类规则,完成了考试成绩优秀 分析决策树模型的建立。 第五章s p s sc l e m e n t i n e 与计算机教学评价数据挖掘。应用s p s sc l e m e n t i n e 对“计 算机文化基础”教学评价数掘进行挖掘分析,评估了关联规则挖掘和决策树挖掘结果的 可靠性和可信性。 第六章总结。总结了本文完成的主要工作、存在的问题和今后的努力方向。 5 第2 章数据挖掘技术 第2 章数据挖掘技术 2 1 数据挖掘的定义和分类 2 1 1 数据挖掘的定义 数据挖掘是一门交叉性很强的学科,其融合了数据库、数理统计、机器学习、人工 智能、可视化技术、并行计算等多个领域的理论和技术。其中数据库、数理统计和人工 智能是数据挖掘研究的主要技术支柱。 数据挖掘( d a t am i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、随机的实 际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识 的过程【1 2 , 1 3 】。数据挖掘更准确的称谓应该是“从数据中挖掘知识”,它是数据库中知识 发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e s ,简称k d d ) 的核心。 该定义的涵义主要包括一下4 个方面: ( 1 ) 源数据必须是大量的、真实的、含噪声的;( 2 ) 其发现的应是用户感兴趣的 知识;( 3 ) 所发现的知识应可被接受、理解和应用:( 4 ) 数据挖掘所发现的不是“放之 四海而皆准”的规律,而是面向某一特定应用的,有具体的指导意义【1 4 1 。 数据挖掘的同义词,还有数据分析、数据融合、知识发现和决策支持等。人工智能 领域习惯称为“知识发现”,而在数据库领域习惯称为“数据挖掘”。 2 1 2 数据挖掘的分类 数据挖掘属于数据分析的范畴,从广义角度看,数据分析可分成验证型分析和挖掘 型分析。其中多维查询可以方便地观察系统的实际情况,以便确定某种假设是否成立, 属于验证型分析的范畴。而数据挖掘是在大量数据中由未知去发现知识,属于挖掘型分 析的范畴。通常把挖掘型分析直接称为数据挖掘。 挖掘型分析即数据挖掘,又分为描述型挖掘和预测型挖掘【1 5 j 。 ( 1 ) 描述型挖掘用于了解系统实际数据存在的特性,其目的是为预测做准备。描 述型挖掘主要有关联分析、序列分析和聚类分析等方法。 ( 2 ) 预测型挖掘是在描述型分析得到的结论的基础上对系统的发展进行估计,通 过预测型分析,能够得到最终需要的结果,为决策者提供甑接的依据。 6 中国石油人学( 华东) 帧l :学位论文 预测型挖掘还可分为分类预测和统计回归预测。分类预测是对某个事物可能归属于 某个类别的概率进行度量,回归预测是指预测一个变量值的变化,比如单位某项业务利 润的变化情况。如果变量随时间而变化,则称为时间序列预测。预测模型的这种分类方 法是从预测的目的上来划分的,而不是从实现的数学模型上来划分。 2 2 数据挖掘的任务 数据挖掘通过预测未来的趋势和行为,并做出基于知识的、前瞻的决策。数据挖掘 的目标是从数据中发现隐含的、有意义的知识。其任务主要包括如下6 个方面【1 6 j 。 1 概念描述( c o n c e p td e s c r i p t i o n ) 概念描述是对某类对象的内涵进行描述,并概括该类对象的某些特征。可分为特征 性描述( 用于描述某类对象的共同特征。生成某个类的特征性描述仅涉及该类中所有对 象的共性) 和区别性描述( 用来描述不同类对象之间的区别) 。 2 关联分析( a s s o c i a t i o na n a l y s i s ) 数据关联是数据库中存在的可被发现的、重要的知识。如果两个或多个数据项之间 存在某种规律性,则称有关联。其目的是确定某些事件或行为同时发生或出现的规则。 关联分析发现的是关联规则,这些规则展示属性值频繁地在给定数据集中一起出现 的条件。如“啤酒和尿布”就是从大型超市的购物篮当中分析出的关联规则。在大型数 据库的关联规则挖掘中,一般用“支持度”和“置信度”两个阀值实现规则的筛选。 3 分类和预测( c l a s s i f i c a t i o na n dp r e d i c t i o n ) 分类:类标签属性的确定。基于训练集形成一个模型,训练集中的类标签是已知的。 使用该模型对新的数据( 测试集) 进行分类。 预测:对连续性字段进行建模和预测。 典型应用包括:信用评分、目标市场定位、医疗诊断、治疗结果分析等。 4 聚类分析( c l u s t e r i n ga n a l y s i s ) 聚类分析又称无指导的学习,其目的在于客观地按被处理对象的特征进行分类,将 同特征的对象归为一类,即聚类。 5 偏差分析( d e v i a t i o na n a l y s i s ) 主要是从数据库中检测出某些异常记录。其基本思路是寻找观测与参照之问的有意 7 第2 章数据挖掘技术 义的差别。 6 演变分析( e v o l u t i o na n a l y s i s ) 数据演变分析描述行为随时问变化的对象的规律或趋势,并对其建模。尽管它可能 包括时间相关数据的特征化、区分、关联、分类或者聚类,这类分析的不同特点包括时 间序列数据分析、序列或周期模式匹配和基于类似性的数据分析等。 2 3 数据挖掘的过程 数据挖掘是一个完整的过程,能从大量数据中挖掘先前未知的、有效的、可使用的 知识,并作出决策或进一步丰富知识。 数据挖掘的一般过程【1 7 1 ,如图2 1 所示。 原始 教错 选择 被选择 的教槲 顶处理后 的教据 转换 转换后 的教槲 被抽取 的数据 分析 分析的 结鬃 图2 - 1 数据挖掘的基本过程 f i 9 2 - 1 t h eb a s i cp r o c e s so fd a t am i n i n g ( 1 ) 确定业务对象 最基础工作的就是理解数据和实际的业务问题,并提出问题,明确目标。确定目的 是数据挖掘的前提,因此必须清晰地定义业务问题。虽然挖掘的最终结果是不可预测的, 但对要探索的问题应有预见性,否则,仅为数据挖掘而数据挖掘会有盲目性,是不会成 功的。 ( 2 ) 数据准备 数据准备是保证数据挖掘得以成功的先决条件。其在整个数据挖掘过程中占用整个 数据挖掘工作量的6 0 ,主要包括数据的选择、预处理和转换。 数据选择。搜索所有与业务对象有关的内部和外部数据,获得最原始的数据资源, 并从中选择出适合数据挖掘应用的数据,建立数据挖掘数据库。 数据预处理。整理数据库中的记录,清除一些不完全的记录和无关的属性。 数据转换。根据数掘挖掘的目标和数据的特征,将数据转换成一个分析模犁,是 8 中因由油人学( 华东) 顾i j 学位论义 决定数据挖掘成败的关键。 ( 3 ) 数据挖掘 数据挖掘就是对得到的、经过转换的数掘进行挖掘,除需要选择合适的算法外,其 余工作应该是自动完成。 该阶段进行实质的挖掘工作。首先是算法规划,然后针对该挖掘方法选择算法,算 法的选择会直接影响挖掘模型的质量。完成以上工作后,就可以执行数据挖掘算法。该 阶段是数据挖掘分析者和相关领域专家最关心的。 ( 4 ) 结果分析 对数据挖掘的结果进行解释并评估。其使用的分析方法一般要视特定数据挖掘操作 而定,一般会用到可视化技术。 ( 5 ) 知识同化 知识同化就是将分析所得到的知识集成到业务信息系统中去。 2 4 数据挖掘的工具 2 4 1 常用数据挖掘工具 随着数据挖掘应用的发展,商业软件挖掘工具逐渐被丌发出来。主要有两类:专用 数据挖掘工具和通用数据挖掘工具。 专用数据挖掘工具主要有s k i c a t 系统,其帮助天文学家发现了遥远的类星体,i b m 公司的a d v a n c e ds c o u t 系统帮助n b a 教练优化战术组合;芬兰赫尔辛基大学开发的 t a s a ,帮助预测网络通信中的警报等【1 8 2 0 1 。 通用数据挖掘工具不区分数据的具体含义,采用通用挖掘算法,能处理常见数据类 型。下面介绍几种常用数据挖掘工具: ( 1 ) d b m i n e r d b m i n e r t 2 u 是加拿大s i m o n f r a s e r 大学丌发的一个多任务数据挖掘系统,其前身是 d b l e a m 。设计该系统的目的是把关系数据库和数掘挖掘集成在一起,以面向属性的多 级概念为基础来发现知识。 ( 2 ) e n t e r p r i s em i n e r e n t e r p r i s em i n e r 是由s a s 公司丌发的一种通用的数据挖掘工具,其按照抽样、探 9 第2 章数据挖掘技术 索、转换、建模和评估的方法进行数据挖掘。是目前市场上占有率最高的数据挖掘产品 之一,在我困的企业中已得到广泛采用,比较典型是上海宝钢配矿系统应用。 ( 3 ) m i n e s e t m i n e s e t 是由s g i 公司和美国s t a n d f o r d 大学联合开发的多任务数据挖掘系统。它集 成了多种数据挖掘算法和可视化工具,能帮助用户直观地、实时地发掘、理解大量数据 背后隐含的知识。 ( 4 ) q u e s t q u e s t 是i b m 公司a l m a d e n 研究中心开发的一个多任务数据挖掘系统,其设计目 的是为新一代决策支持系统的应用和设计提供一种高效的数据采矿基本构件。该算法具 有找全性,即能找出所有满足指定类型的全部模式,还为各种发现功能开发了相应的并 行算法。 ( 5 ) s p s sc l e m e n t i n e s p s sc l e m e n t i n e 是一个丌放式数据挖掘工具,曾两度获得英国政府s m a r t 创新 奖。它不仅支持整个数据挖掘流程,从数据获取、转化、建模、评估到最终部署的全部 过程,还支持数据挖掘的跨行业标准- - - - - - - c r i s p d m 。 本文中将应用s p s sc l e m e n t i n e 对收集的“计算机文化基础”课程的学生评教数据 进行挖掘分析。 2 4 2s p s sc l e m e n t i n e 介绍 i s p s sc l e m e n t i n e 概述 s p s s 是应用最广泛的统计软件之一,从1 9 7 2 年以来,s p s s 公司不断推出s p s s 软 件的新版本。现在的s p s s 软件可以实现各种统计功能,能用多种清晰简练的表格和数 十种二维和三维图形显示统计结果。s p s s 支持数据挖掘功能,但是s p s s 的数据挖掘功 能模块却没有包含在s p s s 软件中,而是单独推出了s p s sc l e m e n t i n e 软件【2 6 j 。 s p s sc l e m e n t i n e 是一个数据挖掘工具平台,通过此平台可以采用商业技术快速建 立预测性模型,并将其应用于商业活动,从而改进决策过程。以公布的用户测试来看, 它在可伸缩性、预测准确率和处理时i h j 方面都表现得很好。s p s sc l e m e m i n e 参照行业 标准c r i s p d m 模型设计而成,可支持从数据到更优商业成果的整个数据挖掘过程。 1 0 中固,c i 油人学( 乍东) 顾f j 学位论义 2 c r i s p d m :跨行业数据挖掘过程标准 c r i s p - d m ( c r o s s i n d u s t r ys t a n d a r dp r o c e s sf o rd a t am i n i n g ) ,即为“跨行业数据挖 掘过程标准”。此k d d 过程模型于1 9 9 9 年欧盟机构联合起草。通过近几年的发展, c r i s p d m 模型在各种k d d 过程模型中占据领先位置,采用量达到近6 0 。1 2 7 1 c r i s p d m 参考模型为数据挖掘项目的生命周期提供了一个综合的描绘。它包括了 一个数据挖掘项目所要经历的各个阶段,各阶段的任务以及这些任务之间的相互关系。 从描绘的层面来看,是不可能鉴别出所有这些任务之i 日j 的关系的。但本质上看,这些任 务之间是否存在关系,取决于用户的目的,背景及其利益所在,与此同时,更重的还在 于数据。 一个数据挖掘项目的生命周期包含六个阶段。图2 2 展示了这一数据挖掘过程的各 个阶段,它们的顺序是不固定的,在不同阶段之间来回流动往往是非常有必要的。究竟 下一步要执行哪个阶段或者哪一个特定的任务,都取决于每一个阶段的结果。图2 2 中 的箭头表明了阶段之间最重要和最频繁的依赖关系,最外层的循环表明了数据挖掘本身 的循环特性。 图2 - 2c r i s p d m 过程模型 f i 9 2 - 2c r i s p d mp r o c e s sm o d e l ( 1 ) 商业理解( b u s i n e s su n d e r s t a n d i n g ) 最初的阶段集中在理解项目目标和从业务的角度理解需求,同时将这个知识转化为 数据挖掘问题的定义和完成目标的初步计划。 1 l 第2 章数捌挖掘投术 ( 2 ) 数据理解( d a t au n d e r s t a n d i n g ) 数据理解阶段从初始的数据收集丌始,通过一些活动的处理,目的是熟悉数据,识 别数据的质量问题,发现数据的内部属性,或是探测数据中比较有趣的数据子集,进而 形成对潜在信息的假设。 ( 3 ) 数据准备( d a t ap r e p a r a t i o n ) 数据准备阶段包括从未处理数据中构建最终数据集( 将作为建模工具的分析对象) 的全部工作。这些数据将是模型工具的输入值。这个阶段的任务有可能执行多次,而且 其实施顺序并不是预先规定好的。 ( 4 ) 建模( m o d e l i n g ) 在这个阶段,可以选择和应用不同的模型技术,模型参数被调整到最佳的数值。一 般,对于同一个数据挖掘的问题,可以有多种方法选择使用。一些建模方法对数据的形 式有特殊要求,因此,需要重新回到数据准备阶段执行某些任务有时是非常必要的。 ( 5 ) 模型评估( e v a l u a t i o n ) 至此阶段,我们已经建立了一个高质量的显示模型。在最后部署模型之前,重要的 事情是模型评估,检查模型构造的步骤,确保模型可以完成确定的业务目标。其关键目 的是确定是否有重要业务问题没有被充分的考虑。在该阶段结束的时候,有关数据挖掘 结果的使用应达成一致。 ( 6 ) 结果部署( d e p l o y m e n t ) 模型的创建并不意味着项目的结束。模型的作用是从数据中获得知识,且要方便用 户使用。可以根据需求产生简单的报告,通常由客户而不是数据分析员承担部署工作。 表2 1 给出了各个阶段的一般性任务。 表2 - 1c r i s p d m 参考模型的一般性任务 t a b l e 2 1t h eg e n e r a lt a s ko fc r i s p d mr e f e r e n c em o d e l 商业理解 数据准备 数据理解 建模模型评估结果部署 确定业务日标收集原始数据选择数据选择建模技术评估结果 制定部署方案 确定数据挖掘目标描述数据清理数据制作检验设计i 口i 顾过程 制定舱控和维护方案 制定项e j 计划探索数据构造数据建造模型确定下一步方案书q 最终报告 榆验数据质量=整合数据评估模型i 口l 颐项日 格化数据 1 2 中目石油 学f 毕末) l t 学位论文 3 s p s sc l e m e n t i n e 基本操作 ( i ) 操作界面 s p s sc l e m e n t i n e 主界面包括四个部分,见图2 - 3 圈2 - 3s p s s c l e m e n f i n e 主界面 f i 9 2 - 3 t h e m a i n i n t e r f a c e o f s p s s c l e m e n t i n e ( 1 ) 数据流程区 s p s sc l e m e n t i n e 在进行数据挖掘时是基于数据流程形式,从读入数据到最后的结 果显示都是由流程图的形式显示在数据流程区内。数据的流向通过箭头表示,每一个节 点都定义了对数据的不同操作,将各种操作组合在一起便形成了一条通向目标的路径。 数据流程区是整个操作界面中最大的部分,整个建模过程以及对模型的操作都将在 这个区域内实现。可以通过“文件”_ “新建流”新建一个空白的数据流,也可以打开 已有的数据流。所有在个运行期内打,的数据流都将保存在管理器的“流”选项卡下。 ( 2 ) 节点选项板 横跨于c l c m c n t i n e 操作界面的下部,被分为收藏央、数据源、记录选项、字段选项、 图形、建模、输出和导出共八个栏,其中每个栏目包含了一组不同流操作阶段中使用的 相关节点。节点是数据流的基本组成部分,每一个节点拥有不同的数据处理功能。设置 不同的栏是为了将不同功能的节点分组,下面介绍备个栏的作用m 1 , - 数据源( u ) :该栏包台了能读入数据到c l c m c n t i n e 的节点。例如“可变文件” 节点读取自由格式的文本文件到c l e m e n t i n e ,“s p s s 文件”节点读取s p s s 文件到 c i c m e n t i n e 。 第2 章数据挖掘技术 一记录选项( r ) :该栏包含的节点能对数据记录进行操作。例如筛选出满足条件 的记录( s e l e c t ) 、将来自不同数据源的数据合并在一起( m e r g e ) 、向数据文件中添加记 录( a p p e n d ) 等。 字段选项( d ) :该栏包含了能对字段进行操作的节点。例如过滤、生成新字段、 确定字段的数据类型等。 _ 图形( g ) :该栏包含了许多图形节点,它们用来实现建模自玎或建模后数据的可 视化。主要包括散点图、直方图、网络节点和评估图表等。 一建模( m ) :该栏包含了各种已封装好的c l e m e n t i n e 算法模型,例如神经网络、 决策树( c 5 0 ) 等。这些模型能完成预测( 神经网络、回归、l o g i s t i c ) 、分类( c 5 0 、 c & r t 、k o h o n e n 、k - m e a n s 、t w os t e p ) 、关联分析( a p r i o r i 、g r i 、序列) 等功能。 输出( o ) :该栏包含用于进行分析和报告的工具,可以生成c l e m e n t i n e 数据、 图表和模型等多种输出结果。 _ 导出( e ) :该栏包含用于导出数据的工具,用户不仅可以直接在c l e m e n t i n e 中 查看输出结果,也可以输出到其他应用程序中查看,例如s p s s 和e x c e l 。 - 收藏央( f ) :该栏放置了用户经常使用的节点,方便用户操作。用户可以自定 义其f a v o r i t e s 栏。 ( 3 ) 管理器 管理器中共包含了“流”、“输出”和“模型”三个栏。其中“流”中放置了运行期 内打开的所有数据流,可以通过右键单击数据流名对数据流进行保存、设置属性等操作。 “输出”中包含了运行数据流时所有的输出结果,可以通过双击结果名查看输出的结果。 “模型”中包含了模型的运行结果,可以右键单击该模型从弹出的b r o w s e 中查看模型 结果,也可以将模型结果加入到数据流中。 ( 4 ) 项目窗口 项目窗口含有两个选项栏:c r i s p d m 和类( c l a s s e s ) 。 设置c r i s p d m 是基于c r i s p d mm o d e l 的思想,它方便用户存放在挖掘各个阶 段形成的文件。右击阶段名,可以选择生成某阶段要拥有的文件,也可以打丌已存在的 文件将其放入该阶段。这样做的好处是使用户对数据挖掘过程一目了然,也有利于对它 进行修改。 1 4 中固。油人学( o # 东) 硕f j 学位论文 类窗口具有同c r i s p d m 窗口相似的作用,它的分类不是基于挖掘的各个阶段,而 是基于存储的文件类型。例如数据流文件、节点文件、图表文件等。 ( i i ) 模型类型 c l e m e n t i n e 提供了各种借助机械学习、人工智能和统计学的建模方法。通过“建模” 选项板中的方法,可以根据数据生成新的信息以及开发预测模型。每种方法各有所长, 同时适用于解决特定类型的问题。 c l e m e n t i n e 模型类型主要有【3 0 l : ( 1 ) 二元分类模型:采用大量方法建模y e s o r - n o 结果。 ( 2 ) 屏弊模型:可用于找到最有可能用以建模或可用于识别不属于未知类型的字 段和记录。 ( 3 ) 决策列表模型:由一组规则构成,其中每个规则具备一个条件和一个结果。 规则依顺序应用,相匹配的第一个规则将决定结果。 ( 4 ) 决策树模型:允许我们丌发分类系统,此分类系统可以基于一组决策规则来 预测或分类未来的观测值。 ( 5 ) 神经网络模型:采用人脑处理信息的简化模式。 ( 6 ) 统计模型:采用数学方程式对从数据中抽取的信息进行编码。 ( 7 ) 聚类模型:专门用于识别具有类似记录的分组。 ( 8 ) 关联模型:将一组条件与一个特定结论相关联。 ( 9 ) 时间序列模型:从现有时i 日j 序列数据生成未来性能的预测值。 ( 1 0 ) 自学模型:使用最新数据( 无论多小) 重新评估现有模型。 本文将选用“关联模型”和“决策树模型”,对滨州学院2 0 0 7 2 0 0 8 学年所有“计 算机文化基础”教学评价数据进行挖掘分析。 ( ) 构建数据流 在s p s sc l e m e n t i n e 中工作就是处理数据。使用c l e m e n t i n e 进行数据挖掘藿点在于 通过一系列节点运行数据的过程,这一过程称为流。这一系列节点代表要对数据执行的 操作,而节点之l l 帕勺连接指示数据流的方向。通常,可以使用数据源将数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论