




已阅读5页,还剩64页未读, 继续免费阅读
(计算机应用技术专业论文)数据挖掘技术在高职教学评估中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
c l a s s i f i e di n d e x : u d c : ad is s e r t a t i o nf o rt h ed e g r e eo fd e n g r e s e a r c ho n a p p l i c a t i o no f d a t a m i n i n g t e c h n o l o g yi n 1 一-a c h i n g a s s e s s m e n to f v o c a t i o n a lc o l l e g e c a n d i d a t e :d o n gx i n s u p e r v i s o r :p r o f z h a n gr u b o a c a d e m i cd e g r e ea p p l i e df o r :m a s t e ro fe n g i n e e r i n g d a t eo fs u b m is s i o n :m a r c h 。2 0 0 9 d a t eo fo r a le x a m i n a t i o n :m a r c h ,2 0 0 9 u n i v e r s i t y :h a r b i ne n g i n e e r i n gu n i v e r s i t y l 弗 哈尔滨工程大学 学位论文原创性声明 i i i ii iiii iii i ii iii iiii y 1817 5 10 , 本人郑重声明:本论文的所有工作,是在导师的指导下,由作 者本人独立完成的。有关观点、方法、数据和文献的引用已在文 中指出,并与参考文献相对应。除文中已注明引用的内容外,本 论文不包含任何其他个人或集体已经公开发表的作品戊果。对本 文的研究做出重要贡献的个人和集体,均已在文中以明确方式标 明。本人完全意识到本声明的法律结果由本人承担。b 作者( 签字) :1 彩坯 日期:矽哆年乡月 哈尔滨工程大学 学位论文授权使用声明 本人完全了解学校保护知识产权的有关规定,即研究生在校 攻读学位期间论文1 :作的知识产权属于哈尔滨工程人学。哈尔滨 工程人学有权保留并向国家有关部门或机构送交论义的复印件。 本人允许哈尔滨丁程人学将论文的部分或全部内容编入有关数据 库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本 学位论文,可以公布论文的全部内容。同时本人保证毕业后结合 学位论义研究课题再撰写的论文一律注明作者第一署名单位为哈 尔滨工程大学。涉密学位论文待解密后适用本声明。 本沦文( 口在授予学位后即可目在授f 学位1 2 个月后 口 解密后) 由哈尔滨工程大学送交有关部门进行保存、汇编等。 作者( 签字) :嘲定 日期:砷年弓月舢 导师( 签字) :弘傻绷受 钞7 钙月l 堋 哈尔演f - 1 蹿人学硕十伊论文 摘要 近几年高职高专院校发展迅速,为了提高其教学管理水平,教育部 制定了相应的教学评估方案。高职高专教学评估的直接目的是对任课教 师及教学组织工作效果做出评价,但是更重要的目的是总结优秀的教学 经验,找出影响教师教学质量的关键因素,为教学质量的嵇定提高制定 科学的规范。我困高职高专院校现行教学质量评估多属于定性的指标, 难以掌握和操作,而数据挖掘技术的产生与发展,无疑为高职院校的教 师教学质量评估提供了方法,并应用到具体的教学评估体系当中。 以学生评估教师为差的教学评估,对教学改革和教学质量的提高超 到了很大作用。但是,如何表达、分析、解释、公布和使用评估结果, 调动广大教师的积极性,使评估发挥更大的作用,这是一个值得研究的 新课题。 本文介绍了数据挖掘技术的相关概念,对比分析了国内外的研究现 状,提出该论文研究的主要内容。依据高职院校教学评估的任务和目的, 以及高职高专评估的主要内容,将数据挖掘技术引入到教学评估领域 中,决定选取决策树方法来实现教学评估数据挖掘系统。 文章详细介绍了决策树算法中的i d 3 算法的基本原理,针对i d 3 算法 的小足,引入i d 3 改进算法的介绍。并对比使用这两种方法对教学评估 数据进行挖掘,对影响教师教学质量得分的学生评价、教学加分、驾驭 课章能力等因素进行分析,找到教学得分与教师各属性之间的关系,并 使用一组数掘进行测试。通过对测试结果进行分析,得出最后结论,从 而为教学部门提供决策支持信息,促使其更好地丌展教学管理工作,提 高教学质量。 关键词:数据挖掘;教学评估;决策树算法 a b s t r a c t i nr e c e n ty e a r s ,c o l l e g e sa n du n i v e r s i t i e sd e v e l o pr a p i d l y i no r d e rt o i m p r o v et h el e v e lo ft e a c h i n ga n dm a n a g e m e n t ,t h em i n i s t r yo f e d u c a t i o n f o r m u l a t e dac o r r e s p o n d i n gt e a c h i n g - a s s e s s m e n tp r o g r a m v o c a t i o n a l c o l i e g e sa r eo b j e c t i v ed i r e c t l yt oa s s e s sp r o f e s s o r sa n dt h ee f f e c to ft e a c h i n g o r g a n i z a t i o n s h o w e v e r ,t h e m o r ei m p o r t a n tp u r p o s ei st os u mu pt h e e x c e l l e n tt e a c h i n ge x p e r i e n c et oi d e n t i f yt h ek e yf a c t o r st h a tc a ni n f l u e n c e t h et e a c h i n gq u a l i t ya n df o r m u l a t es c i e n t i f i c n o r m sf o r t h es t a b i l i t yo f t e a c h i n gq u a l i t y c u r r e n t l y ,t h e t e a c h i n ga s s e s s m e n t i no u rv o c a t i o n a l c o l l e g e si s t o oq u a l i t a t i v et og r a s pa n do p e r a t e b u tt h ee m e r g e n c ea n d d e v e l o p m e n to fd a t am i n i n gt e c h n o l o g yp r o v i d e san e wm e t h o d o fq u a l i t y a s s e s s m e n ta n da p p l i e st os p e c i f i ct e a c h i n g a s s e s s m e n ts y s t e m t h et e a c h i n ga s s e s s m e n tb a s e do nt h ee v a l u a t i o nf r o ms t u d e n t sp l a y sa s i g n i f i c a n tr o l ei nt h ei m p r o v e m e n to ft e a c h i n gr e f o r ma n dt e a c h i n gq u a l i t y h o w e v e r ,h o wt oe x p r e s s ,a n a l y z e ,e x p l a i n ,p u b l i s ha n du s et h er e s u l t so f t h ea s s e s s m e n t ,a n dh o wt om o t i v a t et h ee n t h u s i a s mo ft h ev a s tn u m b e ro f p r o f e s s o r s ,a n dw h a tc a nw ed ot om a k et h ea s s e s s m e n tp l a yag r e a t e rr o l e , a 1 1o ft h e s et h e s e sa r ew o r t hs t u d y i n g t h i sp a p e ri n t r o d u c e st h er e l a t i v ec o n c e p t so f d a t am i n i n gt e c h n o l o g y , t h r o u g ht h ec o m p a r a t i v ea n a l y s i so fr e s e a r c ha th o m ea n da b r o a d ,t h em a i n c o n t e n t so ft h et h e s i sa r ep u tf o r w a r d a c c o r d i n gt ot h ea s s e s s m e n tm i s s i o n a n dp u r p o s eo fh i g h e re d u c a t i o ni n s t i t u t i o n s ,a sw e l la s t h ea s s e s s m e n t c o n t e n t so fv o c a t i o n a lc o l l e g e s ,d a t am i n i n gt e c h n o l o g yi sa p p l i e dt ot h e f i e l do ft e a c h i n ga s s e s s m e n ta n dd e c i d et oc h o o s ed e c i s i o nt r e ea l g o r i t h m t oa c h i e v ed a t am i n i n gs y s t e mo ft e a c h i n ga s s e s s m e n t t h i st h e s i sw i l li n t r o d u c et h eb a s i cp r i n c i p l e s o fi d 3a l g o r i t h mo f d e c i s i o nt r e ea l g o r i t h mi nd e t a i l b e c a u s eo ft h ei n s u f f i c i e n c yo fi d 3 il 0 广1 0 y a n dc o m p a r et h eu s eo ft h e t w om e t h o d st oc o n d u c td a t am i n i n go n t e a c h i n ga s s e s s m e n t sd a t aa n da n a l y z et h e f a c t o r ss u c ha st h es t u d e n t s t e a c h i n 譬e v a l u a t i o n ,t e a c h i n gp o i n t sa n d t h ea b i l i t yt om a s t e rt h ec l a s s r o o m ; a 1 1t h e s ef a c t o r sc a ni m p a c to nt h e s c o r e so fp r o f e s s o r s t e a c h i n gq u a l i t y g r e a te f 约r t sa r et a k e nt of i n do u tt h er e l a t i o n s h i pb e t w e e nt e a c h i n g s c o r e s a n dt h ep r o p e r t i e so fp r o f e s s o r sa n dt ot e s tw i t has e to fd a t a t h r o u g h t h e a n a l y s i so ft e s tr e s u l t s af i n a lc o n c l u s i o n w i l lb eg o t ,s oa st op r o v l d ea s u p p o n i v ep o l i c y d e c i s i o nf o re d u c a t i o nd e p a r t m e n t s ,t h i si s h e l p f u i t o d e v e l o dt e a c h i n gm a n a g e m e n ta n di m p r o v et h eq u a l i t y o ft e a c h i n gma b e t t e rw a y k e yw 。r d s :d a t am i n i n g ;t e a c h i n g a s s e s s m e n t ;d e c i s i o nt r e ea l g o r i t h m 哈尔滨1 w 人学硕f 。学伊沦文 目录 第1 章绪论一l 1 1 论文研究的意义1 1 2 数据挖掘技术概述3 1 2 1 数掘挖掘技术的基本概念3 1 2 2 数据挖掘技术的处理过程5 1 2 3 数据挖掘技术的常用方法7 1 2 4 数据挖掘技术存在的不足9 1 3 数据挖扣i 技术研究现状1 0 1 3 1 困内研究现状1 0 1 3 2 国外研究现状一1 0 1 4 论文研究的主要内容11 第2 章高职教学评估体系概述1 3 2 1 我国高职评估丌展情况1 3 2 2 高职评估的目的与任务1 4 2 2 1 高职评估的目的和意义一1 4 2 2 。2 评估的指导思想与基本任务一1 5 2 2 3 教学评估的作用1 5 2 3 高职教学评估的内容一1 6 2 4 基于数据挖掘技术的教学评估1 7 2 4 1 现行高职院校教学评估体系1 7 2 4 2 教学评价系统过程分析1 8 2 4 3 引入数据挖掘技术的原因18 2 5 本章小结19 第3 章决策树算法分析2 0 3 1 决策树技术2 0 3 1 1 决策树描述2 0 哈尔演f 。w 人学硕十伊论文 3 1 2 决策树的牛成2 1 3 1 3 建立决策树的技术难点一2 2 3 2 基于决策树的经典算法一2 2 3 2 1 选择决策树算法的优势分析2 2 3 2 2 几种经典的决策树算法2 3 3 3 决策树i d 3 算法的基本原理2 5 3 3 1 建立i d 3 算法一2 5 3 3 2 决策树的剪枝2 7 3 3 3 生成分类规则3 0 3 4 决策树算法的改进算法3 1 3 4 1 改进算法的基本思路3 1 3 4 2i d 3 改进算法描述3 2 3 4 3 改进算法的分析3 3 3 5 决策树算法的性能分析3 3 3 6 决策树算法面临的问题一3 5 3 7 本章小结3 5 第4 章数据挖掘技术在教学评估中的应用研究3 7 4 1 问题研究的可行性3 7 4 2 总体设计方案3 8 4 3 决策树算法在教学评估中的具体应用3 9 4 3 1 数据的准备3 9 4 3 2 决策树算法的具体实现4 3 4 4 评估实验结果与分析5 3 4 5 本章小结5 4 结 论5 5 参考文献5 7 攻读硕士学位期间发表的论文和取得的科研成果6 0 致 射6 1 个人简历6 2 o p 哈尔演l 称人学硕 伊论丈 第1 章绪论 随着数据库技术和信息技术的不断发展和广泛应用,在网络技术支 持f ,人们拥有和需要处理的数据量不断的加大,随之带来一系列问 题。如何从大量的、模糊的、不完全的数据中,提取潜在的、隐藏在数 掂背后的有用信息,来指导我们工作中的决策是十分重要的。数据挖掘 技术的出现,使我们能够及时发现有用的知识,提高信息利用率。数据 挖掘技术已经成为当今的热门课题。 1 1 论文研究的意义 新1 廿= 纪的到来,越来越多的信息的出现,给人们带来很多方便,与 此同时,过多的信息本身也存在着相应的隐患。第一是信息过量难以消 化;第二是信息真假难以辨识;第三足信息安全难以保证;第四是信息 形式不一致难以统一处理。另一方面,随着数据库技术的r t 速发展以及 数掘库管理系统的广泛应用,人们积累的数据越来越多,增加的数据背 后隐藏着许多重要的信息。有资料也载:n a n a 轨道卫星上的地球观测 系统e o s 每小时会向地面发凹5 0 g b 的图像信息;世界上最大的数据仓 库之一,美国的零售商系统w a l m a r t 每天会产生约2 亿次的交易数据; 人类基因组数据库项目已经收集了数以g b 计的人类基因编码数据等。 据统计,全球的信息量每2 0 个月翻一番【1 1 。面对如此大量的信息,传统 的数据分析方法是无法处理的,这样会造成大量数据资源的浪费,为此, 人们希望能够找到合适的方法,对其进行更深入的分析,以便更好地利 用这些数据。 要想使数据真f 成为一个单位的资源,只有充分利用它为单位自身 的业务决策和战略发展服务才行,否则大量的数据可能成力包袱,甚至 成为垃圾。为了满足这种要求,从大量数据中提取出隐藏在其中的有用 信息,将机器学习应用于大型数据库的数据挖掘d m ( d a t a m i n i n g ) 技术 应运而生,并得以蓬勃发展,越来越显示出其强大的生命力1 2 1 。数据挖 哈尔滨i 科人硕f 。严f 一论文 掘技术被认为是数据厍和人工智能领域中研究、,i :发和j 迹j 玎最活跃的分 支之一,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、 数理统计、町视化技术、并行计算等方面的学者和工程技术人员,投身 剑数据挖掘这一新兴的研究领域,形成了新的技术热剧3 1 。 随着高新技术发展和全球经济化的加速,我困的产业结构和就业结 构i 卜在发生重大变化,对人才的需求更加多样化,对人d 培养的质鼍要 求更高。 我幽教育工作既面临管千载难逢的发展机遇,也面临着前所未有的 严峻挑战。在精英教育向大众化教育转变的过程中,数量j 质最的关系 问题始终足一对矛盾,在规模快速扩张的情况下,常常会 i | 现局部教育 质黾下降的现象。我们必须清醒地认识到,质量是教育的生命线,在加 快发展的同时,要把提高教育质量作为头等大事来抓。中困教育历来有 重视质量的传统,要深入研究并加以发扬光大。同时,要积极探索提高 教育质量的新思路、新途径。首先,树立新的质量观,形成科学的教育 质量新标准。其次,构建提高教育质量的新机制,建立更加科学化、透 明化的教育质量评估体系,促进教育教学质最的进一步提高。 高职院校f i 同于高等本科院校,它的办学宗旨是培养技能型人才, 锻炼学生的动手能力,使学生能够适应不断变化的巾场需求。在我困, 高等职业技术教育概念的提出和应用可以追溯到2 3 年前。19 8 5 年,中 共中央关于教育体制改革的决定就已经指出,“高中毕业生一部分升 入普通大学,一部分接受高等职业技术教育”。深化教育以革全面推进 素质教育的关键在于,要大力发展高等职业教育,培养一大批具有必要 的理论知谚 和较强的实践能力,生产、建设、管理、服务第一线和农村 急需的专门人才。近几年,高职教育迅速发展,为了提高高职教育管理 与教学水平,教育部提出相应的高职人j 培养水平评估方案,其中教学 质量评估是人才培养水平评估的一个重点。教学质量的好坏,直接影响 学生的成绩和操作能力。冈此,将数据挖掘技术引入到高职院校教学质 每评估当中,旨在通过对任课教师教学得分情况的分析,对其教学工作 效果做出评价,挖掘潜在的信息资源,找出影响教师得分情况的关键凶 素,指导教学领导总结优秀的教学经验,弥补不足,提高教师的教学质 2 0 哈尔演1 群人硕f j 学f p 论文 最和教学水平。 2 0 0 7 年我院迎来了高职人j 培养水平评估工作,我有幸参与了教学 预评估和评估的全过程。本文将结合这次教学评估的实际过程,从教学 相关数据库中进行数据挖掘,挖掘出隐藏在大量数据背后的有用信息, 指导教学决策,提高教师整体教学水平,并为学院人事部i ? 在录用教师 时提供参考依据。 1 2 数据挖掘技术概述 一切新事物的产生都足由需求驱动的。随着社会的发展,各行业的 市场竞争越来越激烈。企事业单位光靠自身的技术与质黾在市场上不一 定占优势,要想使自身能够在市场上立于不败之地,还要掌握 i 场行情, 了解发展趋势,而这行情、趋势只有靠市场中的大量的商业信息来获取。 随着计算机硬件、网络技术、数扼库技术及通信业的发展,各行业产生 了大量的、不完全的、有噪声的、模糊的、随机的数据,怎样从这些数 据中提取隐含的、人们事先不知道的、但又足潜在有用的信息和知识就 显得更为迫切。 由于数据库和信息产业的迅猛发展,使得大量数据库和信息存储用 于事物管理、信息检索和数据分析。然而,对数据库中数据的丌发应用 主要是检索查洵,信息利用率很低;此外,相当数量的数据具有很强的 时效性,随着时l 、日j 的推移,数据的价值因得不到利用迅速降低。数据的 丰富带来了对强有力的数据分析工具的需求,大量的数据被描述为“数 据卡富,但知识贫乏”。早在19 8 2 年,趋势大师约翰奈斯l l ( j o h nn a i s b i t t ) 在他的首部著作大趋势( m e g a t r e n d s ) 中就提到:“人类j 下被信息淹没, 却饥渴于知识。”t 9j j t n 果大量的数据不能很好地利用,这些数据就变成了 “数据坟墓”难得再访问的数据文件。这种从海量数据中提取有价值 知i j 的工具,对各行业的业绩成败显得尤为关键。数据挖捐技术正是为 满足上述要求而产生的。 1 2 1 数据挖掘技术的基本概念 数据挖掘( d a t am i n i n g ) 就是从大最的、不完全的、有噪声的、模 哈尔滨f :科人学硕l j 学化论文 糊的、随机的实际应用数捌中,提取隐含在其中的、人们事先1 i 知道的、 但又是潜在有用的信息和知识的过程。与数据挖掘相近的同义词有数据 融合、数据分析和决策支持等。这个定义包括好儿层含义:数据源必须 是真实的、大量的、含噪卢的;发现的是用户感兴趣的知识;发现的知 识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅 支持特定的发现问题。 从广义上理解,数据、信息也是知识的表现形式,但是人们更把概 念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识 的源泉,好像从矿石中采矿或淘会一样。原始数据可以是结构化的,如 关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据; 其至是分伟在网络上的异构型数据。发现知识的方法可以是数学的,也 可以是非数学的;可以是演绎的,也可以是! j 1 纳的。发现的知识町以被 用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自 身的维护。凶此,数据挖掘是一门交义学科,它把人们对数据的j 澎用从 低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。 数据挖掘技术是数掘库中知识发现( k n o w l e d g ed i s c o v e r y i n d a t a b a s e s ,简称k d d ) 的核心。数据挖掘算法的好坏将直接影响到k d d 所发现知识的准确性,而且目前k d d 研究大部分集中在数据挖掘算法 和应用的技术上,凶此人们往往不严格区分数据挖掘和数据库中的知识 发现,两者互为使用。 k d d 至今有多种定义,其中得到公认的足: 数据库中的知识发现足从数据中识别出有效的、新颖的、潜在有用 的、以及最终可理解的模式的高级过程。其中: 数据:足指一个有关事实f 的集合( 如学生档案数据库中有关学生 基本情况的各条记录) ,它是用来描述事物有关方面的信息,是我们进 一步发现知识的原材料。 新颖:经过数掘挖掘提取出的模式必须是新颖的,至少对系统来说 应该如此。 潜在有用:提取出的模式应该是有意义的,如用于决策支持系统罩 可提高经济效益。 4 哈尔演l 利人。7 17 t 页十。7 1 1 一论文 口j 被人理解:数抛挖掘的一个目标就是将数据库中隐含的模式以容 易被人理解的形式表现出来,从而帮助人们更好地了解数据库中所包含 的信息。 模式:对于集合f 中的数据,可以用语言三来描述其中数据的特性。 表达式e l ,e 所描述的数据是集合f 的一个子集n 。只i i 当表达式e 比列举所有n 中元素的描述方法更为简单时,我们爿。可称之为模式。 如“如果成绩在8 1 9 0 之f b j ,则成绩优良”可称为一个模式,而“如果成绩 为8 1 、8 2 、8 3 、8 4 、8 5 、8 6 、8 7 、8 8 、8 9 或9 0 ,则成绩优良”就不能称 之为一个模式。 高级过程:数据挖掘是对数据进行更深层处理的过程,该过程要有 一定程度的智能性和自动性,而不是仅仅对数据进行加减求和等简单运 算或查询,冈此况它足一个高级的过程【1 0 , 1 1 】。 数据挖掘技术及其相关的决策支持系统的发展很快。目的已经直接 给商业界、公共服务行业等众多行业带来令人吃惊的利润。并且,很多 院校和科研机构也正投入大量的资会进行数据挖掘技术的进一步丌发 和更深入的研究。数掘挖掘工具的出现,己经让人们意识至u 数据挖掘技 术带来的有利的应用前景。 数据挖掘技术的神奇之处在于:可以准确地预测未来。从小的方面 看,可以从商业信息中,预测未来几年客户的需求与流向、潜在的商机 和风险。从大的方面看,可以维护以信用为基础的市场经济秩序,可以 发现潜在的逃税漏税黑户、潜在的恶意透支黑户,帮助银行规避贷款风 险,可以事先提出黑名单、防范会融犯罪。数据挖掘技术可以在各领域 大硅神通。对知识型仓业建设、决策科学化、国家创新体系建设,都将 产生深远影响 3 5 1 。 1 2 2 数据挖掘技术的处理过程 对于数据挖掘,大致可以分为三个主要的阶段:数据准备、数据挖 掘、结果表达和解释。其中结果的表达和解释还可以细分为:评估、解 释模式模型、巩固、运用知识。数据库中的知识发现是一个多步骤的过 程,也是这三个阶段的反复执行过程,如图1 1 所示【1 2 1 : 哈尔滨i 种人。硕十伊沦艾 势据 挖掘薯繁蕃一和解释l 图1 1 数据挖掘过程 1 、数据准备阶段:数据准备阶段在整个数据挖掘过程中占的比例 最大,该过程又可以分为数据的选择( d a t as e l e c t i o n ) 、数据的预处理 ( d a t a p r o c e s s i n g ) 以及数据变换( d a t a t r a n s f o r m a t i o n ) 。数据选择主要指 从己存在的数据库或数据仓库中提取相关数据,形成目标数据 ( t a r g e t d a t a ) ;数据预处理指对数据进行清沈,解决数据缺值、冗余、不 一致以及过时等问题;数据变换的主要日的足精减数据维数,即从初始 特征中找出真正有用的特征以减少数据挖掘时要考虑的粕征或变量个 数。 2 、数据挖掘阶段:数据挖掘是k d d 最关键的步骤,也足技术难点 所在,这一阶段是真讵意义上的数据挖掘。首先足确定挖掘方法,通过 比较,选择一种适合的挖掘方法( 如决策树、人工神经网络、遗传算法 等) 。然后,针对该挖掘方法选择一种算法。算法的选择直接影响着所 挖掘模式的质鼍。完成上述的准备工作后,就可以运行数据挖掘算法模 块。 3 、结果表达和解释阶段:根据最终用户的决策目的对提取的信息 进行分析,把最有价值的信息提取出来。对于数据挖掘阶段发现的模式 6 哈尔演i w 人。丫? 硕f j 7 :伊论文 还要经过用户或机器的评估,对于存在= ,l 余或无关的模式要将其删除; 对r 彳i 能满足用户要求的模式,则需要退| u 1 到上一阶段,重新选择方法, 重新进行数据挖掘。 1 2 3 数据挖掘技术的常用方法 数据挖掘方法是由人工智能、机器学习的方法发展而来,结合传统 的统计分析方法、模糊数学方法及可视化技术,以数据库为研究对象, 形成了数据挖掘的方法和技术i ”,1 4 ,1 5 1 。 数据挖掘的方法和技术可分为以下六大类: 1 、归纳学习法 归纳学习法是目自订重点研究的方向。从采用的技术上看,分为信息 论方法和集合论方法。 1 ) 信息论方法( 决策树方法) 信息论方法足利用信息论的原理建立决策树。在知识工程领域,决 策树是一种简单的知识表示方法,它将事例逐步分类成代表不同的类 别。由于分类规则是比较直观的,凶而比较易于理解。该类方法的实用 效果好,影响较大。出于该方法最后获得的知识表示形式是决策树,故 一般称它为决策树方法。这种方法一般用于分类任务中。信息论方法中 较有特色的方法有:i d 3 、i b l e 方法。 2 ) 集合论方法 集合论方法是丌展较早的方法。近年来,由于粗集理论的发展使集 合论方法得到了迅速的发展。这类方法中包括:覆盖j f 例排斥反例方法 ( 典型的方法有a q 系列方法) 、概念树方法和 4 l 糙集方法。 2 、关联规则方法 关联规则是数据库中的一种重要的知识模式。关联规则的概念最早 于1 9 9 3 年由a g r a w a l 等人提出1 17 1 ,用来处理事务型数据库,后来又推 广到关系型数据库,主要目的是从数据库中挖掘出项集之问的关联规 则,其经典的a p r i o r i 算法【1 8 1 ,以后渚多的研究人员又提出了很多的改 进算法,以提高挖掘的效率,并对天联规则的应用进行了推广。 3 、统计分析方法 哈尔滨i 稗人硕卜2 f p 论文 这种方法主要用十完成总结知识和关联知识采掘,1 i 足从其中发现 模式和规则,所以它在数据挖掘中主要作为其它方法的基础而存在。用 统计分析方法对关系表中各属性进行统计分析,找到它们之间存在的关 系。在关系表的属性之间一般存在两种关系:函数关系( 能j j 函数公式表 示的确定性关系) ;相关关系( 不能用函数公式表示的关系,但仍足相关 确定关系) 。统计分析方法主要有:回归分析、相关分析、主成分分析等。 4 、仿生物技术 仿生物技术典型的方法是神经网络方法和遗传算法【1 6 i 。这两类方法 己经形成了独立的研究体系,它们在数据挖掘中也发挥了巨大的作用。 1 ) 神经网络方法 它足模拟了人脑神经元结构,以m p 模型和h b e b 学习舰则为基础 的,建立了三大类多种神经网络模型( 前馈式网络、反馈式网络、自组织 网络) 。神经网络的知识体现在网络连结的权值上,是一个分布式矩阵结 构。神经网络的学习体现在神经网络权值的逐步计算上( 包括反复迭代或 者是累加计算) 。当需要从复杂或f 精确数据中获得概念比较困难的时 候,利用神经网络技术特别有效。经过训练后的神经网络就像是具有某 种专门知识的“专家”,因此可以像人一样从经验中学习。 2 ) 遗传算法 这是模拟生物进化过程的算法。它由繁殖( 选择) 、交叉( 重组) 、变异 ( 突变) 三个基本算子组成。这种遗传算法起到产生优良后代的作用。这 些后代需要满足适应值,经过若干代的遗传,将得到满足要求的后代( 问 题的解) 。遗传算法已在优化计算和分类机器学习方面发挥了显著的效 果。 5 、可视化技术 可视化数据分析技术拓宽了传统的图表功能,使用户对数据的剖析 更清楚。例如把数据库中多维的数据变成多种图形,这对于揭示数据中 的状况,内在本质以及规律性起到很强的作用。 可视化数据挖掘的目的是使用户能够交互地浏览数据及挖掘过程, 提高数据挖捌效果。可视化技术在数据挖掘的各个阶段都扮演着重要角 色。如在数据准备阶段,使用散点图、直方图等统计可视化技术显示源 8 哈尔滨l w 人纠顶卜。纠p 论文 数抛,町以对数抛有个初步的了解,为史好的选取数据打卜基础。在挖 掘阶段,用可视化形式描述各种挖掘过程,从中用户可以看出数据从哪 个数据仓库或数据库中抽取出来,怎样抽取以及怎样预处理,怎样挖掘 等。在表示结果阶段,用可视化技术使发现的知识更易于理解。 6 、模糊数学方法 由于模糊性足客观的存在,而且系统的复杂性愈高,使精确化能力 便愈低,这就意味着模糊性愈强。这是z a d e h 总结出的互克性原理。 利用模糊集合理论可对实际问题进行模糊评判、模糊决策、模糊模 式识别、模糊关联规则和模糊聚类分析。还有许多其它的方法如逻辑回 归方法、聚类分析法、最近邻方法、文本采掘、w e b 采掘、序列分析 等,也常被一些特定领域广泛采用。 1 2 4 数据挖掘技术存在的不足 尽管数据挖掘有如此多的优点,但数扼挖掘也面临着许多的问题, 这为数据挖掘技术未来的发展提出了巨大挑战。 1 、数据挖掘的基本问题就在于数据的数量和维数,数据结构也凶 此湿得非常复杂,如何进行探索,选择分析变量,成为首先要解决的问 题。 2 、面对海量数据,现有的统计分析方法等遇到了困难,如何对数 掘进行抽样,怎么抽样,抽耿多大的样本,又怎样评价抽样的效果,都 是值得研究的难题。 3 、既然数据是海最的,那么数据中就会隐含定的变化趋势,在 数据挖掘中也要对这个趋势做应有的考虑和评价。 4 、各种不同的模型如何应用,其效果如何评价;不同的人对同样 的数据进行挖掘,可能产生不同的结果,甚至差异很大,这就涉及到可 靠性的问题。 5 、当前互联网的发展迅速,如何进行互联网的数据挖掘,还有文 本等非标准数据的挖掘,足今后该领域的研究重点。 6 、数据挖掘涉及到数据也就碰到了数据的私有性和安全性。 7 、数据挖掘的结果是不确定的,要和专业知识相结合j 能对其做 9 ol 哈尔演f 利人孚硕f ? 7 :伊沦丈 出判断。 总之,数据挖掘只是一个工具,不足万能的。数据挖掘的成功要求 对期单解决问题的领域有深刻的了解,理解数据,了解其过程,才能对 数据挖掘的结果找出合理的解释。 1 3 数据挖掘技术研究现状 1 - 3 1 国内研究现状 国内对数据挖掘技术的研究稍晚,1 9 9 3 年国家自然科学基金首次 对该领域的研究项目进行资助。目前,困内的许多科研译位和高等院校 竞相开展知识发现的基础理论及其应用研究。 在我国,数据挖掘技术的研究引起了学术界的高度重视,成为信息 科学界的热点课题。国内许多科研单位和高等院校竞相丌展数据挖掘算 法及其应用,以及有关数据挖掘理论方面的研究,这些单位包括清华大 学、中科院计算技术研究所和数学研究所、复旦大学、华中理工大学、 东南大学、中国科技大学等| 6 1 。例如:浙江大学使用关联规则1 7 1 发现技 术对高校的人事信息库进行挖掘,试图找到影响学科发展的因素,发现 如何评价个学科,以及影响学科发展的各个要素之间的关系。另外, 曲阜师范大学体育系与上海闵行体委就体育人j 的选拔探讨了数据挖 掘的可行性。在每年对中小学生的体质调查中,积累了大量的数据,利 用数据挖掘技术,他们试图从数据中深入寻找各种因素的相互联系,发 现一些随诸因素动态变化而产生的新的指导学校体育科研和教学训练 的规律,进而发现运动人j 。 1 3 2 国外研究现状 从19 8 9 年8 月在美国底特律召开的第1 1 届圈际人工智能会议上首 次出现k d d 这个术语,到1 9 9 5 年在加拿大蒙特利尔召丌的首届k d d & d a t am i n i n g 国际学术会议,再到以后每年都要召开一次的k d d & d a t a m i n i n g 国际学术会议,经过十多年的努力,数据挖掘技术的研究已经取 得了丰硕的成果,不少软件公司已研制出数据挖掘软件产品,并在北美、 欧洲等国家得到应用。例如,i b m 公司a g r a w a l 等人最早取得了关联规 l o 哈尔演i 烈人? 硕r 列寺论文 则挖捌有关的两项专利i s l 。将数据挖掘技术中的关联姚! 1 1 0 应用在实际工 程中,获得了很好的效果。 数据挖掘技术还可以帮助科学家大幅度地提高发现知识的效率。例 如,美国加州理工学院喷气推进实验室与天文学家合作开发的s k i c a t 系统通过对几百万个天体进行分类,帮助天文学家发现了1 6 个新的类 星体;专家系统d e n d r a l 根据质谱仪给出的数据,能够发现已知或未 知的高分子化合物分子结构;机器学习系统b a c o n 根据己有实验和观 测数据,能够蕈新发现欧姆定律、凯普勒定律等,当然也可以从新的实 验和观测数据中发现新的物理或大文定律。 数据挖掘是目前固际上数据库和信息决策领域的前沿研究方向之 一,也是当前计算机领域的一大热点,其研究的重点也逐渐从发现方法 转移到系统应用,并且注重多种发现策略和技术的集成,以及多学科之 问的相。吒渗透。 1 4 论文研究的主要内容 本论文主要研究将数据挖掘技术应用到具体的高职教学评估当中, 采用数掘挖掘技术的相关方法,通过分析教学质量评估的结果,获得辅 助决策知识,指导教学,从而进一步提高教学质量。本论文研究的主要 内容如下: l 、研究数据挖掘技术的相关概念、掌握数据挖掘常用方法以及数 据挖掘处理的一般过程。 2 、介绍高职院校的评价体系,指出高职院校教学质量评估的作用及 意义。将数据挖掘技术引入到高职教学评估中的原因。探讨现行高职院 校教学质量评价的不足,再根据该论文要实现的目标,提出数据挖抛技 术的使用。 3 、探讨数据挖掘技术中决策树方法的实现原理。以信总增益率为判 断标准构建决策树,并进行剪枝,重点介绍i d 3 算法和i d 3 改进算法。 4 、将决策树算法具体应用到实际的教学评估当中,研究挖掘结果在 教学管理当中的实际应用,探讨挖掘出来的结沦对人事部门招聘时起到 的辅助决策作用,以及对教学管理人员如何提高教师的教学水平、采取 哈尔演f 烈人。j :! 硕f j 7 :伊论文 i i i i i i i i i i i i i i i i i i i i i i i i n n n li i i i 措施起全0 的决策支持作用。 学校对教师教学质量的评估一般采用学生不记名问卷调查的方式, 学生根据学院制定的各项标准对教师教学质量进行打分。彳日是,问卷调 查只能反映学生对教师教学能力的评价,存在片面性,并且参杂感情色 彩。该论文的创新点在于,不但从整体卜把握教师的教学能力,并且在 细符上进行评价,通过学院领导对教师听课记录表的数据进行研究分 析,将这些内容综合为教师的驾驭课常的能力,也一并成为判断教师期 木教学得分的一个重要属性,找到影响教师得分的内在因素。最后通过 实际的测试记录对得出的结论进行验证和分析。 这样,不但町以有利于学院以及各系领导对如何提高数师教学水平 进行决策,而且有利十教师自己发现自身的不足,取长补短,从影响自 身教学水平的各个方面提高自己。 哈尔滨l 。利人硕 j 。忙论丈 第2 章高职教学评估体系概述 高职教育是社会系统工程中重要的子工程,高职教育教学质量问题 是在社会发展环境中形成的,并随着高职学院和招生数量的膨胀而成为 社会的关注点。积极进行高职教学质量管理的创新研究与探索,是提升 高职教学质最水平和人才培养质量的一项重要的保障措施。为保证教育 教学质量,我幽从2 0 世纪9 0 年代丌始实施教学工作水平评估。 数据挖掘的应用研究在我国己经蓬勃丌展起来了,不少高校和科研 院所的科研人员在研究利用数据挖掘技术
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建筑工程门窗安装施工方案
- 思维的发生与发展04课件
- 低空经济飞行器维修保养方案
- 养鸭场饲料配方优化方案
- 正常人体解剖学感觉器49课件
- 二零二五年风力发电兼职电工合作协议
- 二零二五年度新能源设备采购合同(货物类)
- 二零二五年度区块链技术竞业禁止与知识产权保护协议
- 2025版环境监测行业联盟合作协议
- 二零二五年度花岗石石材行业企业并购合同规范
- 测振仪使用方法
- GB/T 9871-2008硫化橡胶或热塑性橡胶老化性能的测定拉伸应力松弛试验
- GB/T 26480-2011阀门的检验和试验
- GB/T 19861-2005丙烯酸系阴离子交换树脂强碱基团、弱碱基团和弱酸基团交换容量测定方法
- GB/T 11085-1989散装液态石油产品损耗
- GB 30000.3-2013化学品分类和标签规范第3部分:易燃气体
- (完整版)沪教牛津版小学一至六年级英语单词汇总(最新)
- JJF 1587-2016 数字多用表校准规范-(高清现行)
- 完整课件-西方经济学下册(第二版)
- 机械制图教学通用课件(全套)
- 球阀自动泄压计算
评论
0/150
提交评论