(教育技术学专业论文)面向高校教学管理的数据挖掘应用研究.pdf_第1页
(教育技术学专业论文)面向高校教学管理的数据挖掘应用研究.pdf_第2页
(教育技术学专业论文)面向高校教学管理的数据挖掘应用研究.pdf_第3页
(教育技术学专业论文)面向高校教学管理的数据挖掘应用研究.pdf_第4页
(教育技术学专业论文)面向高校教学管理的数据挖掘应用研究.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(教育技术学专业论文)面向高校教学管理的数据挖掘应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 数据挖掘是2 0 世纪末兴起的数据智能分析技术,它可以从数据库、数据仓库以及 其它数据源中,自动抽取或发现出有用的模式知识。目前,数据挖掘领域研究的重点逐 渐从知识发现方法转移到系统应用,如其在金融系统和商业领域的成功应用,但在教育 层面上的应用研究目前尚处于初级阶段。 本文以数据挖掘技术和高校现有师生数据库为基础,研究探索如何将数据挖掘技术 与高校现有的、已经投入使用的有关师生数据库资源相结合,以便从其大量的数据中挖 掘隐藏在数据之中的有用信息,为高校的教学管理和决策提供指导和支持。通过对数据 挖掘基本原理、基本算法的研究,设计了基于决策树算法的学生评估工具模块和基于关 联规则的师生各相关数据分析工具模块。前者以改进的决策树i d 3 算法为基础,根据学 生成绩库中的信息以及其他库中的有关学生评价的信息,建立一个决策树成绩评估模 型,对学生进行相应的综合分析评估。后者则主要以改进的a p r i o r i 算法为基础,从学 生成绩库、师生个人基本信息和教师的评价信息数据中进行数据挖掘,发现各个因素之 间的关联关系,找到隐藏的规律,为教学管理决策提供支持。 实验结果表明:将数据挖掘技术应用于高校教学管理决策的挖掘,可以很好的保证 高校教学管理决策策略制定的科学性和针对性,具有一定的理论意义和实践指导意义。 关键词:数据挖掘,关联规则,决策树,教学,决策支持 a b s t r a c t b yt h ee n do fl a s tc e n t u r y , d a t am i n i n g ( d m ) h a sb e c o m eak i n do fs i g n i f i c a n t i n t e l l i g e n td a t a a n a l y s i st e c h n o l o g y , 诵1w h i c ht h eh e l p f u lk n o w l e d g eo fp a r e r nw i l lb ed r a w no u t0 1 d i s c o v e r e d a u t o m a t i c a l l yf r o mv a s tv a r i o u st y p e so fd a t aw h i c hs a v e di nd a t a b a s e so rd a t aw a r e h o u s e s i nt h i sa r e a ,t h e p i v o to fd m sr e s e a r c h e sg r a d u a l l yc h a n g e df r o ma l g o r i t h m sd i s c o v e r yt oa p p l i c a t i o n i s n o wd mi su s e di n t h ef i n a n c ea n db u s i n e s sa r e aa sam a t u r et e c h n o l o g y , b u ti nt h ee d u c a t i o na r e a ,a sa l le l e m e n t a r y a p p l i c a t i o n i nt h i sd i s s e r t a t i o n ,b a s e d0 1 1t h ec o n s t r u c t i o no fd i g i t a lc a m p u so fn u d t , t h er e s e a r c ho nh o wt o a p p l yt h ed mt e c h n o l o g yt oe m p l o y e de d cs y s t e mt od i s t i l lt h eh e l p f u li n f o r m a t i o nw h i c hi sh i d d e ni n s i d e t h en l a 鹞d a t ai no r d e rt oo f f e rat o o lo fs y n t h e t i ca n a l y s i s d e c i s i o n - m a k i n ga s s i s t a n ta n ds u p p o r tf o r a d m i n i s t r a t o ra n dd c c i s i o n - m a k o ri sd i s c u s s e d a c c o r d i n gt ot h er e s e a r c hr e s u l to ft h ef u n d a m e n t a lp r i n c i p l e a n dt h eb a s i ca l g o r i t h mo fto fd a t am i n i n g ,w ed e v e l o pm o d u l e so ft h ed e c i s i o n - m a k i n gt r c em o d u l eb a s e d o ns t u d e n ta c h i e v e m e n te v a l u a t i o nt o o l ,t h ea s s o c i a t i o nr u l em o d u l eb a s e do ns t u d e n ta n a l y s i st o o l ,t h e a s s o c i a t i o nr u l em o d u l eb a s e d0 nt e a c h e r sa n a l y s i st 0 0 1 t h ef o r m e ri sd e r i v e df r o mi m p r o v e di d 3 a l g o r i t h m , w h i c he s t a b l i s h sam o d u l e so ft h ed e c i s i o n - m a k i n gt r e em o d u l eb a s e do nt h ed a t ao fs t u d e n t m a r k sa n de v a l u a t i o ni n f o r m a t i o n t h eo t h e r si sb a s e d0 1 1t h ei m p r o v i n ga p d o da l g o r i t h m ,w h i c hd i g so u t t h er e l a t i o n s h i p ,f i n d so u tt h er u l e sa n ds u p p o r t st h et e a c h i n gd e c i s i o n - m a k i n g ,f r o mt h ed a t ao fs t u d e n t m a r k s , p e r s o n a li n f o r m a t i o na n de v a l u a t i o ni n f o r m a t i o n o u rr e s e a r c ha n de x p e r i m e n ts h o w st h ep o s s i b i l i t ya n dt h et r e m e n d o u sp o t e n t i a l i t yo fa p p l y i n gd a t a m i n i n gt e c h n o l o g yt oe d u c a t i o nf i e l d , b o mi nt h e o r ya n dp r a c t i c e i tp r o v i d e sas t r o n gs u p p o r tt ot h et h e d e c i s i o n - m a k i n go fh i g h e re d u c a t i o n ,e n s u r e st h es c i e n t i f i ca n dt a r g e t e do ft h es t r a t e g y , p r o v i d e sn e ww a y s a n dm o a n sf o rt h et h ed e c i s i o n - m a k i n go fh i g h e re d u c a t i o n ,a n dh a sa ni m p o r t a n tg u i d i n gs i g n i f i c a n c ef o r t h et h e o r ya n dp r a c t i c e k e yw o r d s :d a t am i n i n g ,a s s o c i a t i o nr u l e ,d e c i s i o n m a k i n gt r c e ,e d u c a t i o n ,d e c i s i o ns u p p o r t i i i 独创性声明和关于论文使用授权的说明 独创性声明 本人郑重声明:所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的 研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已 经发表或撰写的研究成果,也不包含为获得河南师范大学或其他教育机构的学位或证书 所使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示了谢意。 签名:喜鞋奉血一日期:兰! ! 艺:三窒 关于论文使用授权的说明 本人完全了解河南师范大学有关保留、使用学位论文的规定,即:有权保留并向国 家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权河南师 范大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或扫描等复制手段保存、汇编学位论文。( 保密的学位论文在解密后适用本授权书) 签名:瓣导师签名:坐绻一日期:邋:盟一 6 7 第一章绪论 1 1 研究背景、目的和意义 第一章绪论 教学管理决策是高等学校中的一项重要工作。从九十年代开始,为适应培养跨世纪 人才的目标,我国高等教育体制进行了大规模的改革,校校合并使学校规模不断扩大, 专业设置日趋多样化,招生人数逐年增加,多数高校的在校生人数都己达上万甚至十几 万的规模,与此同步,高校内部运行着的各种管理系统和各类数据库,如学籍管理系统、 成绩管理系统、学生综合测评系统等,己经积累了海量的数据。然而学校管理者只能通 过传统数据库技术提供的简单数据统计和排序等功能获得表面的信息,隐藏在这些海量 数据中的深层次的、有趣的模式一直没能得到发掘和应用。如何对如此庞大的海量数据 进行高层次的处理,从中找出管理者关心的规律和模式,以帮助管理者更好地将现有的 数据转化为可供使用的知识进行决策和研究,提高学校管理决策的科学性,提高管理水 平和办学质量,是目前高等学校教学管理决策面临的主要问题。 目前,国内高等学校中运行的各级、各类数据库,只是被用来对学校原有的历史数 据以及新产生的教学数据进行搜集和简单的分析处理工作,不能够充分利用以往积累的 大量基础数据,对教学以及学生的管理进行综合评价和决策支持。利用传统的数据库技 术对教学进行管理既耗费人力物力又耗费时间金钱,而且不便于操作。随着教育改革的 深入和深化,教学管理决策模式也在发生着根本性的变化,基于对教学质量的重视,以 充分利用教学资源、了解学生情况、发现教育与人才培养的规律、合理评估教学质量、 制定合理教学改革措施为出发点,利用现有的教学管理资源将其与数据挖掘技术相结 合,建立一个完善的网络化、信息化程度较高、具备综合分析和决策支持能力的评估系 统就显得尤为重要和必要。 本研究课题通过分析当前教学管理数据库系统的具体情况,比较了数据挖掘技术的 相关内容,为教学管理者和决策者提供数据库中的隐含模式,挖掘潜在的规律,科学评 估教学质量,为提高学校的工作效率以及增强教学、科研能力,拟定招生计划、制定培 养方案提供强有力的综合分析、辅助决策和决策支持服务,具有一定的理论意义和应用 价值。 面向高校教学管理的数据挖掘应用研究 1 2 相关研究现状 一方面,随着计算机技术与数据库技术的飞速发展,数据库管理系统得到了广泛应 用,因而积累的数据也越来越多,另一方面,随着因特网( i n t e r n e t ) 的出现和发展,人 们可以在网上交换数据信息和协同工作。这样,展现在人们面前的是浩瀚无垠的信息海 洋。人们身边的信息越来越多,它们给人们带来方便的同时,也带来了诸多新的问题。 比如信息的形式问题、信息的消化问题等。对于这些激增的数据和因此带来的诸多问题, 如能对其进行更深入的分析,那么便可以更好地利用它们。当前数据库系统可以快速有 效地实现数据的统计查询,但无法发现数据背后的隐含模式,对未来的发展趋势无法预 测,缺乏挖掘数据中隐含模式的手段,这就出现了“数据爆炸但知识贫乏糟的现象。为 消除这一现象,人们开始考虑如何从信息中发现隐含的、有用的知识和模式面对这一 挑战,数据挖掘( d a t am i n i n g ,简称d m ) 技术应运而生。 数据挖掘( d m ) 的解释型定义是:从大量随机有噪声的、模糊的、不完全的实际数据 中,提取隐含在其中的、人们不知道的、潜在有用的模式的过程n 2 1 。数据挖掘技术的应 用领域十分广阔,它可以从关系数据库、数据仓库、文本和多媒体数据库、事务数据库 和互联网等各种数据源上设法获取诸如分类模型、聚类模型、回归模型、关联模型和时 间序列模型等多种知识模型口j 1 。目前,数据挖掘技术在货篮数据分析、金融风险预测、 产品质量分析、电信、分子生物学、基因工程研究、i n t e r n e t 站点访问模式发现以及信 息搜索等领域得到了广泛的应用晦1 。 到目前为止,对关系数据库和事务数据库进行数据挖掘和知识发现的研究已经取得 了不小的进展,最有影响的发现算法有:加拿大s i m o nf r a s e 大学j h a n 教授的概念树 提升算法、i b m 的r a g r a w a l 的关联算法、澳大利亚的j r q u i n l a n 教授的分类算法、 密西根州立大学e r i c kg o o d m a n 的遗传算法等。i b m ,g t e ,s a s ,m i c r o s o f t ,s ili c o n g r a p h i c s ,i n t e g r a ls o l u t i o n s ,t h i n k i n gm a c h i n e s ,d a t a m i n d ,u r b a ns c i e n c e ,a b t e c h ,u n i c at e c h n o l o g i e s 等公司,相继开发出一些实用的k d d 商业系统和原型系统, 如市场分析用的b e h a v i o r s c a n ,e x p l o r e r ,m d t ( m a n a g e m e n td i s c o v e r yt 0 0 1 ) ,金 融投资领域的s t o c ks e l e c t o r ,a i ( a u t o m a t e di n v e s t o r ) ,欺诈预警用的f a l c o n , f a i s ,c l o n e d e t e c t o r 等。 与国外相比,国内对蹦的研究稍晚,没有形成整体力量。目前,在国内从事数据 挖掘研究的人员主要来自大学和科研院所:研究领域多集中在数据挖掘算法、数据挖掘 2 第一章绪论 在某方面的实际应用以及有关挖掘理论;多数研究项目由政府资助,比如8 6 3 计划、国 家自然科学基金等,但至今还没有形成相关的数据挖掘产品。国内企业运用数据挖掘技 术来协助业务活动的应用还处于起步阶段,成功应用的案例还比较少,对数据挖掘技术 和工具的研究人员以及开发商来说,我国是一个有巨大潜力的市场。 数据挖掘在金融业以及企业的生产、营销等方面都得到了比较广泛的应用,而在教 育中的应用少之又少,在高校中对教学信息的处理还停留在数据备份和查询阶段,根本 看不到数据挖掘的影子。 作为一种教学信息处理技术,数据挖掘的主要作用是对教学数据进行抽取、转换、 分析和模型化处理,目的是找出辅助教学决策的关键性数据,进而获得更好的教学效益。 现在的问题是:积累的海量数据中真正有价值的信息不多,这就需要我们从这些大量的 教学数据中进行深层次分析,以便获得有利于教学决策、促进教学发展的有价值的信息。 近来,高校的扩招给学校的教学管理带来了严峻考验,传统的教学管理手段己不能 适应;另一方面,数据挖掘技术的成熟及其应用得扩展为其进入教育领域提供了基础 呻1 。例如,将其应用于学生成绩分析、高校的教学评估等方面,对提高学校教学管理水 平起到了很好的支持作用n 2 1 。 1 3 主要研究内容和章节安排 本文主要工作是研究如何将数据挖掘技术与现有的、已经投入使用的各级、各类教 学管理数据库系统相结合,从具有海量特征的数据中提取出隐藏在这些数据背后的有用 模式,为教学管理决策提供技术支持。主要研究内容是:根据实际情况对数据挖掘中关 联规则算法进行改造,已将其运用到实际问题之中,从教学管理数据库所包含的数据中 进行数据挖掘,使用决策树方法和关联分析的方法对数据库中的数据进行分析,找出影 响教学效果、人才培养等的相关因素以及各因素间的关系,从而为教学管理部门提供决 策支持信息,促使更好的开展教学工作,提高教学质量。 本文共分五章,第一章绪论,分别介绍了研究背景、目的和意义以及本文研究的主 要内容和本文的章节安排;第二章研究基础,详细介绍了数据挖掘的一般知识和两类挖 掘方法一关联挖掘和决策树挖掘;第三章面向学生管理决策的数据挖掘,主要介绍了 如何将关联挖掘和决策树挖掘应用于学生数据库,并详细分析了实验结果及其对管理决 策的作用;第四章面向教师管理决策的数据挖掘,主要介绍了如何将关联挖掘应用于教 3 面向高校教学管理的数据挖掘应用研究 师数据库,并详细分析了实验结果及其对管理决策的作用;第五章结论与展望,明确给 出了实验结论并指出了以后的努力方向和尚需完善的地方,对本文的不足提出了改进意 见,并对以后的研究方向进行了展望。 4 第二章研究基础 2 1 数据挖掘概述 第二章研究基础 世纪之交,人类面临着新的问题:随着的计算机技术、数据库技术和网络技术的迅 速发展,我们已置身于一个数据爆炸的时代。我们迫切需要新的、强有力的数据分析方 法和技术以解决“数据丰富,但信息贫乏 的尴尬局面。无怪乎j o h nn a i s b e r t 惊呼: “w ea r ed r o w n i n gi ni n f o r m a t i o n ,b u t s t a r v i n gf o rk n o w l e d g e 。面对浩瀚无际 的数据,人们呼唤从数据汪洋中去粗取精、去伪存真的技术,因此从数据库中发现知识 ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,i ( d d ) 及其核心技术数据挖掘( d a t am i n i n g ,d m ) 便应运而生了。 人们对数据的占有欲是无止境的,特别是计算机存储技术和网络技术的发展大大拓 宽了人们收集数据的范围和容量。数据库是目前组织和存储数据最有效方法之一,它是 数据挖掘的准备和基础,让我们简单回顾一下数据库的发展历程。 6 0 年代,为了适应信息的电子化要求,信息技术从简单的文件处理系统向有效的数 据库系统发展。7 0 年代,数据库系统的三个主要模式? 层次、网络和关系型数据库的 研究和开发取得了重要进展。8 0 年代,关系型数据库及其相关的数据模型工具、数据索 引及数据组织技术被广泛采用,并且成为整个数据库市场的主导。8 0 年代中期开始,关 系数据库技术和新兴技术的结合成为数据库研究和开发的重要标志。进入9 0 年代,分 布式数据库在理论上趋于成熟,分布式数据库技术得到了广泛应用。目前,由于各种新 兴技术与数据库技术的有机结合,使数据库领域中的新内容、新应用、新技术层出不穷, 形成了庞大的数据库家族,为数据挖掘技术的产生准备了条件。 我们可以为数据挖掘下这样一个解释性定义:它是识别存在于数据库中具有潜在价 值的、新颖的、有效的模式的非平凡过程且这一过程是最终可理解的。也可以说,数据 挖掘是从数据库的大量数据中揭示先前未知的、有潜在价值的、隐含的信息的非平凡过 程。这一说法把数据库作为了数据挖掘的对象。 数据挖掘更广义的说法是:数据挖掘意味着在一些事实或观察数据的集合中寻找模 式的决策支持过程n 3 1 。实际上不仅仅是数据库,象w w w 信息资源,这样的任何组织在一 面向高校教学管理的数据挖掘应用研究 起的数据集合或其他文件系统,也都可以是数据挖掘的对象。数据挖掘最新的对象是数 据仓库。 数据挖掘的任务是从大量数据中发现知识。数据挖掘是知识发现的核心技术。数据 挖掘研究的主要目标是发展有关的方法论、理论和工具,以支持从大量数据中提取有用 的和让人感兴趣的知识和模式n 3 1 。 在传统的决策支持系统中,知识库中的知识和规则是由专家或程序人员建立的,是 由外部输入的。而数据挖掘的任务是发现大量数据中尚未被发现的知识,是从系统内部 自动获取知识的过程。对于那些决策者明确了的信息,可以用查询、联机分析处理( o l a p ) 或其他工具直接获取;而另外一些隐蔽在大量数据中的关系、趋势,即使是管理这些数 据的专家也是没有能力发现的,这些信息对于决策可能又是至关重要的,这类问题就可 以用数据挖掘来解决。 数据挖掘发现的知识可以直接提供给决策者,用以辅助决策过程;或者提供给领域 专家,修正专家已有的知识体系;也可以作为新的知识转存到应用系统的知识存储机构 中,如专家系统规则库等。 从图2 - i ( 数据挖掘过程图) 可以清晰地看到,数据挖掘有数据采集的选择、数据 的预处理、数据挖掘和对挖掘结果的解释评价,这样四个必不可少的过程组成。在有的 文章或书籍中有时还会看到知识发现这个词语,它同数据挖掘是什么关系,在此我们对 它们做一个简单的解释:知识发现则是的一个或多个阶段的反复过程,数据挖掘是知识 发现的一个特定的关键阶段,在本文中不对它们作严格的区分。 在实际应用中,并非所有的数据都对挖掘有用,为此需要对数据进行采集选择,其 主要任务是辨别出需要处理的数据集合以缩小处理范围。数据经采集选择之后的仍然存 在着不完整的、重复的、杂乱的数据,即我们通常所说的“脏 的数据;数据预处理可 以完成对上述脏数据的处理,以提高数据挖掘的质量,数据预处理应该包括数据集成 ( d a t ai n t e g r a t i o n ) 、数据清理( d a t ac l e a n i n g ) 、数据变换( d a t at r a n s f o r m a t i o n ) 和 数据简化( d a t ar e d u c t i o n ) 等几个方面的的功能;数据挖掘阶段进行实际的挖掘操作, 它要决定进行什么样的数据挖掘,是发现型( d i s c o v e r yd r i v e n ) 的、验证型 ( v e r i f i c a t i o nd r i v e n ) 的或是别的什么类型,从而选择合适的工具进行挖掘的操作及 验证发现的模式;接下来的解释评价这一步骤至关重要,它不是把结果简单的表达出来 就可以了,还要对结果进行过滤处理,其目的是得到令决策者满意的模式,如果不能令 6 第二章研究基础 决策者满意需要重复以上数据挖掘的过程直到满意。 图2 1 数据挖掘过程图 从不同的视角看,数据挖掘有以下几种分类方法: ( 1 ) 按挖掘的数据库分类 数据挖掘基于的数据库类型有:关系型、事务型、主动型、面向对象型、空间型、 文本型、多媒体、时间型、异质数据库等。 ( 2 ) 按挖掘的知识分类 这种分类方法有总结( s u m m a r i z a t i o n ) 规则挖掘、特征规则挖掘、关联规则挖掘、 分类规则挖掘、聚类规则挖掘、趋势分析、偏差分析、模式分析等。如果以挖掘知识的 抽象层次划分,又有原始层次的数据挖掘、高层次的数据挖掘和多层次的数据挖掘等。 ( 3 ) 按采用的技术分类 人工神经网络:为完成分类、聚类、特征挖掘等多种数据挖掘任务,在结构上模仿 生物神经网络,通过训练来学习的非线性预测模型 模糊和粗集方法:数据挖掘的重要方法之一是应用模糊和粗集理论进行数据查询排 序和分类 遗传算法是基于生物进化的概念设计的一种新的优化技术。它有基因组合、交叉、 变异和自然选择。要想使用遗传算法进行数据挖掘,需要把挖掘任务表达为一种搜索问 题以发挥其优化搜索能力 决策树是采用树形结构来表示决策集合的一种分类产生规则。分类回归树( c a r t ) 是典型的决策树方法 规则归纳是通过统计方法来提取、归纳有价值的条件规则。象关联规则的挖掘就是 典型的规则归纳方法 最临近技术也叫k 一最近邻方法,它是通过k 个最与之相近的历史记录的组合来辨别 新的记录。它可用作聚类、偏差分析等数据挖掘任务 7 面向高校教学管理的数据挖掘应用研究 将数据间的关联关系或趋势以及信息的模式,采用直观的图形方式呈现给用户的方 法叫可视化技术,用户可以通过它交互地分析数据间的关系。 下面列举出部分数据挖掘系统或系统原型: q u s e t 由i b ma l m a d e n 研究中心的r a g r a w a l 等人研究开发,可以从数据库中发现 多种知识,包括关联规则、分类规则、时序模式与分析等; d b m i n e r 由加拿大s i m o nf r a s e r 大学的j h a n 等人研究开发,是一个交互式、多层 次挖掘系统,主要挖掘特征规则、分类规则、关联规则和预测等; i m a c s 由a t & t 的b r a c h m a n 等人研究开发,用于知识库的建构; s k i c a t 由日本的k a y y a d 等人研究开发,主要用于天体数据的分类; e x p l o r a 由g m d 的k l o s g e n 等人研究开发,这是一个多模式、多策略发现的辅助发 现系统。 就近年来数据挖掘的研究和发展进行总结,不难发现对其所进行的研究主要集中在 以下几个方面: ( 1 ) 其处理的数据和数据源的类型 目前的数据库系统模型大都是关系型,这类数据库模型是数据挖掘的主要对象。但 随着数据库技术的成熟和应用范围的日益扩大,不仅在数据库的规模和功能上日益完善 了起来,而且还出现了新的数据库模型;在这些新型数据库中包含着大量复杂的数据类 型,因而,数据挖掘系统对这样类型的数据库是否能方便操控是至关重要的。更进一步, 包含不同语义的格式化和非格式化数据的国际互联网上已成为一个大型分布、异构的数 据库系统,如何从它的身上挖掘知识无疑是当前数据挖掘应当着重考虑的内容。 ( 2 ) 算法效率和可伸缩性 对实际应用而言,数据挖掘的效率和系统的伸缩性不得不考虑,因为它是直接面向 拥有上百个属性和数百万个记录的海量数据库系统的,同时这类数据库的数据表之间关 系复杂,不可避免的会出现挖掘过程中搜索维数和搜索空间的激增问题,错误的、不确 定性和病态模式出现的可能性大大的增加了。如何提高挖掘算法的效率以及其有规模的 伸缩性是在实际应用中必须考虑的。 ( 3 ) 数据挖掘系统的交互性 交互性是数据挖掘研究的另一个重要课题。挖掘过程中必不可少的是操作者的适当 参与。挖掘系统的交互界面,一方面要接受用户的挖掘策略和检索、查询要求,为其提 第二章研究基础 供表达挖掘要求和策略的可行手段:另一方面由于挖掘生成的结果多种多样因而它需要 把生成的挖掘结果以适当的方式传递给用户。为此,友好而高效的用户界面和准确而直 观地表达挖掘结果一直是这方面研究的重点。 ( 4 ) 网络与分布式环境下的数据挖掘 由于互联网络的飞速发展,日益丰富的网络资源被越来越多的人们所关注。网络资 源分布式的特点和网络工作的协作性,就决定了对网上数据库的挖掘处理工作应是可协 作的,适应网络这些特点的数据挖掘技术、工具及系统是必然要求。 ( 5 ) 私有性和安全性 数据挖掘功能的强大表现在,它可以从不同的抽象层次、不同的角度上处理数据, 这就可能导致非法的数据入侵,势必对数据的私有性和安全性产生影响,因而是实际应 用过程中不得不解决的问题。 对数据挖掘的研究虽然取得了一些进展,但总体上还很不成熟,其应用也还存在着 很大的局限性。 2 2 关联规则挖掘 2 2 1 关联规则挖掘研究概况 1 9 9 3 年,作为数据挖掘中的一个重要内容的关联规则挖掘,首先由a g r a w a l 等人提 出了,以后的研究人员对其进行了大量的研究,他们的工作包括:为提高挖掘的效率, 对a g r a w a l 等人提出的原有算法进行优化和对关联规则的应用进行推广。 最近也有独立于a g r a w a l 的频集方法的工作以避免频集方法的一些缺陷,探索挖掘 关联规则的新方法。同时随着o l a p 技术的成熟和应用,将o l a p 和关联规则结合也成了 一个重要的方向。也有一些工作注重于对挖掘到的模式的价值进行评估,他们提出的模 型建议了一些值得考虑的研究方向。 2 2 2 基本概念和分类 设c = c 1 ,c 2 c m ) 是二进制项的集合,交易t c ,交易集d 为t 的集合,设x 是 c 中项的集合,如果x 互t ,那么称交易t 包含x n 3 1 。 蕴涵式x y 被称为关联规则,这里x c c ,y c c ,并且x n y = 。交易集中包含x 和y 的交易数与所有交易数之比被叫做规则x y 在交易集中的支持度( s u p p o r t ) ,记 9 面向高校教学管理的数据挖掘应用研究 作s u p p o r t ( x j y ) ,也就是:s u p p o r t ( x j y ) = i t :x u y t ,t e d i i d i 。包含x 和y 的交易数与包含x 的交易数之比被叫作规则x y 在交易集中的可信度 ( c o n f i d e n c e ) ,记为c o n f i d e n c e ( x j y ) ,即:c o n f i d e n c e ( x j y ) = i t :x u y s t ,t d ) i l t - x t ,t d l 。在给定交易集的前提下,如何产生支持度和可信度大于已 知最小支持度( s u p p o r t ) 和最小可信度( c o n f i d e n c e ) 的规则,是我们的重点关注的 内容。 2 2 3 关联规则挖掘的经典算法一a p d o n 算法 a p r i o r i 算法是关联规则挖掘的经典算法,它将算法的设计分解为两个子问题: 1 ) 求出所有支持度大于给定最小支持度的项集,这些项集称为频集; 2 ) 使用第一步找到的频集产生期望的关联规则。 这里,第一步相对于第二步较复杂,是整个关联规则挖掘的瓶颈问题。 1 、核心算法概述 挖掘布尔关联规则频繁项集的经典算法是a p r i o r i 算法,它使用逐层搜索的迭代方 法,以( k - 1 ) 一项集来探索发现k 一项集。也就是说,首先要找出频繁卜项集的集合l , l 用于找l :,而l :用于找l 。,直到无法找到频繁k 一项集k 。找每个k ( k = l ,2 ,3 ,) 都 需要重新扫描数据库。频繁项集的所有非空子集都必须是频繁的这一特性被称作 a p r i o r i 性质,它被用于提高频繁项集逐层产生的效率。也就是说,如果项集c 小于最 小支持度阈值m i n _ s u p ,即p ( c ) m i n _ s u p ,则c 不是频繁的;如果将项a 添加到c ,则 结果项集c u a 不可能比c 更频繁,即p ( c u a ) m i n s u p ,因此,c w a 也不是频繁的。 运用a p r i o r i 性质,根据l h 可通过连接和剪枝找出l k n 轧。 1 ) 连接步:为找l k ,可以通过l h 与自己连接产生候选k 一项集c 。如果l k 一的前 ( k 一2 ) 个项相同则称l 的元素是可连接的,可执行连接l h c o l h 。即是,如果( 1 。 1 - l : 1 ) 八( 1 。 2 = 1 2 2 ) 入八( 1 。 k 一2 = l : k - 2 ) 八( 1 k - 1 l : k - 1 ) ,则 l 卜。的元素l 。和1 :是可连接的,条件( 1 k 一1 6 i t 2 7 1 3 ) 6 1 4 ) 2 1 5 ) 2 比较候选支持度计数 量量尘塞鲎鏖盐塑- 项集支持度计数 1 1 ) 6 1 2 7 1 3 6 1 4 ) 2 1 5 2 图2 - 3 ( a ) 候选项集和频繁项集的产生,最小支持计数为2 项集 1 1 ,1 2 ) 1 1 ,1 3 ) 1 1 ,1 4 1 1 ,1 5 1 2 ,1 3 1 2 ,1 4 i 2 ,1 5 1 3 ,1 4 1 3 ,1 4 i 4 ,1 5 项集支持度计数 1 1 ,1 2 4 i l ,i 3 4 1 1 ,1 4 l 1 1 ,1 5 ) 2 l 2 ,1 3 4 1 2 ,1 4 2 1 2 , i 5 2 1 3 ,1 4 0 1 3 ,1 4 l 1 4 ,1 5 0 比较候选支 持度计数 与最小支持 度计数 1 1 ,1 2 1 1 ,1 3 1 1 ,1 5 l 2 ,1 3 1 2 ,1 4 1 2 ,1 5 图2 - 3 ( b ) 候选项集和频繁项集的产生,最小支持计数为2 项集圭i 描d 对顷集艾持度计数 1 1 ,1 2 ,1 3 啦:堡掣 i l ,1 2 ,1 3 ) 2 i l ,1 2 ,1 5 数 i l ,1 2 ,1 5 2 1 2 项集吏持度计数 1 1 ,1 2 ,1 3 2 i l ,1 2 ,1 5 2 图2 3 ( c ) 候选项集和频繁项集的产生,最小支持计数为2 第二章研究基础 a p r i o r i 算法的伪代码如下: 算法:使用a p r i o r i 算法找出所有的频繁项集。 输入:某一数据库k 及最小支持度m i n _ s u p 。 输出:数据库中的频繁项集l 。 1 ) l l = f i n d _ f i e q u e n t l _ i t e m s e t s ( k ) : 2 ) f o r ( k = 2 ;l k f 2 j ;k + + ) 3 ) c k = a p r i o r i g e n ( l k - i ,r a i n _ s u p ) ; 4 ) f o re a c ht r a n s a c t i o nt k 5 ) c t = s u b s c t ( c k ,t ) ; 6 1 f o re a c hc a n d i d a t ec c t 7 )c e o u n t - h - ; 8 ) 9 ) l k = e e c k ic e o u n t m i n _ s u p ) l o ) ) 1 1 ) r e t u r nl 芦u k - 4 , ; p r o e u d u r ea p r i o r i - g e n ( l l , i :f r e q u e n t ( k - 1 ) 一i t e m s e t s ;m i n _ s u p :m i n i m u ms u p p o r tt h r e s h o l d ) 1 ) f o re a c hi t e m s e t1 1 l k - i 2 ) f o re a c hi t e m s e t1 2 l k - m 3 )i f ( 1 i 【1 】- 1 2 1 】) 八( 1 1 【2 】- 1 2 2 】) 入a ( 1 l k - 2 】= 1 2 【l ( 一2 9 八( 1 l 陬一1 】 a 。如何选择a 呢? 可以先对数 据集s 按字段a 递增排序,设a 的属性值排序后的结果为a 。,a :,a l | ,从小到大 依次取不同的分裂点,取信息增益最大( 基尼指数最小) 的一个就是a 的最佳划分。若a 。 为最佳分裂点,通常取a = ( a 。十a h ) 2 。建树时,在每个节点上都需要对数值型字段排 序以便计算信息增益( 或基尼指数) 。 2 3 3 剪枝 在建树过程中,由于训练集中的噪声,孤立点以及某个节点的数据量太小,决策 树的许多分枝反映出训练集中的异常。这就是决策树的过分适应( o v e r f i t t i n g ) 问题。 它表现为用某些分类规则对训练集预测十分准确,而对测试集预测却误差极大。过分适 1 9 面向高校教学管理的数据挖掘应用研究 应问题是影响决策树准确率的关键问题,剪去决策树的冗余分枝是解决过分适应问题的 重要方法。剪枝常利用统计学方法,去掉最不可靠,可能是噪音的一些分枝;剪枝方法 可以分为两大类: 1 、事前修剪( p r e p r u n i n g ) 该方法通过提前停止分枝生成过程,即通过在当前节点上就判断是否需要继续划分 该节点所含训练样本集来实现。一旦停止分枝,当前节点就成为一个叶节点。该叶节点 中可能包含多个不同类别的训练样本。 在建造一棵决策树时,可以利用统计上的重要检测x 2 或信息增益等来对分枝生成情 况( 优劣) 进行评估。如果在一个节点上划分样本集时,会导致( 所产生的) 节点中样本数 少于指定的阀值,那么就要停止继续分解样本集合。当确定这样一个合理的阀值常常比 较困难。阀值过大会导致决策树过于简单化,而阀值过小时又会导致多余树枝无法修剪。 2 、事后修剪( p o s t p r u n i n g ) 先建树,后修剪。让树“完全生长 ,然后采用一定的标准评估每个内部节点下的 分枝是否冗余分枝。剪掉冗余分枝使内部节点成为一个最有可能的叶节点。 事前修剪这种方法可能看起来更直接,需要的计算时间上也比事后修剪少得多,但是对 过度拟合的树进行事后修剪方法被证明在实践中更成功。当然,事前修剪和事后修剪也 可以相互结合起来,从而构成一个混合的修剪方法。 无论是通过事前剪枝还是事后剪枝来得到正确规模的树,一个关键的问题是使用什 么样的标准来确定最终正确的树的规模。剪枝的标准有如下两种: ( 1 ) 期望错误率最小原则:选择期望错误率最小的子树进行剪枝,对树中的内部 节点计算其剪枝和不剪枝可能出现的期望错误率,比较后加以取舍; ( 2 ) 最小描述长度原则( m d l ) :最简单的解释是最期望的,对决策树进行二进位 编码,编码所需二进位最少的树即为最佳剪枝树。 第三章面向学生管理决策的数据挖掘 第三章面向学生管理决策的数据挖掘 3 1 基于决策树的学生成绩评估分析 使用决策树学习的方法对成绩属性的特征进行分类是一种不错的选择。该方法采用 自顶向下的递归方式进行,在其内部结点对属性值进行比较,并根据比较的不同结果从 给定结点选择某一下行分支向下进行,在其叶子结点得到相应的结论。在基于决策树的 成绩分类模型中,每个内部结点代表一个成绩属性,每个节点的下行分支代表该成绩属 性的某一取值的判定条件,叶子节点代表相应的分类结果。根据决策树的分类结果,能 够得出影响学生成绩的因素是什么及它们的相关性。 成绩分类模型可通过下面两个步骤获得: 第一、根据教学系统中学生成绩录入信息的样本数据记录( 条件属性) ,采用某种决 策树算法构造一棵决策树,建立一个能描述成绩特征的成绩分类模型,如图3 - 1 所示。 关键字参数1 。 参数1 1结论 关键字1 值1 l。 值l n结论1 关键字2值2 1。值2 n结论2 关键字3值3 1 。值3 n 结论3 00o 00 000 00 0 关键字k 值k l。值l m 结论k 0 o 0 oo 0 o0oo oo o 元数据集 圈 图3 1 建树 第二、利用第一步所形成的分类模型,产生条件规则,利用该条件规则对测试学生 的成绩进行预测,如图3 2 所示。 具体的说学生成绩评估分析的工作流程可由以下几个环节组成:一、学生成绩特征 属性归纳:二、学生成绩特征属性处理;三、构造成绩分析评估分类模型;四、成绩分 类预测。 2 l 面向高校教学管理的数据挖掘应用研究 关键字参数1 。 参数n结论 关键字i值1 1 关键字2值2 l 关键字3值3 1 00 00 0 0 关键字k值k 1 。值l n结论1 值2 n结论2 。 值3 n结论3 0 0 值l m结论k 00 0o 测试数据集 3 i 1 学生成绩特征属性归纳 卢1 广- (1) 卜叫 图3 _ 2 预测 h 在学生成绩数据库中,成绩属性有很多方面( 如:学号、班级、系别、专业、课程 代码、课程名称、学分、总成绩、主讲编号、修读时间、考核方式、记录方式、重修标 志、考核成绩、备注、锁定标志、审核标志、课程类别、补缓考成绩、第二专业标志、 操作者、志愿、选课时间、选课阶段、等级成绩、补缓考等级成绩、补缓考审核标志、 等级计算方式等大量属性) ,在对它运用某种生成算法产生一棵决策树之前,要对其进 行归纳分析,目的是为了去除那些和目标无关的或者是弱相关的内容,从中选取与目标 相关的内容作为建造决策树的结点。 ( 1 ) 属性归纳方法的基本思想 属性归纳方法的基本思想是:利用关系数据库的查询功能来收集与任务相关的数 据,并通过对任务相关数据集中各属性不同值个数的检查完成数据泛化操作,数据泛化 操作

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论