(计算机软件与理论专业论文)基于数据挖掘技术的教学评价系统研究.pdf_第1页
(计算机软件与理论专业论文)基于数据挖掘技术的教学评价系统研究.pdf_第2页
(计算机软件与理论专业论文)基于数据挖掘技术的教学评价系统研究.pdf_第3页
(计算机软件与理论专业论文)基于数据挖掘技术的教学评价系统研究.pdf_第4页
(计算机软件与理论专业论文)基于数据挖掘技术的教学评价系统研究.pdf_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于教据挖掘技术的教学评价系统研究 摘要 教学评价是一个复杂的过程,它依据一定的教学目标和规范,对学校教学情 况进行系统检测和考核,评定教学效果和教学目标的实现程度,并做出相应的价 值判断。教学评价过程具有复杂性、多因素性和模糊性等特点,属于半结构化或 非结构化问题,许多不确定因素难以科学地计算和评估,是一项主观性很强的工 作评价结果可能偏离被评估对象的实际情况因此,提高教学评价的科学性、 客观性和准确性,是现代教学评价研究中一个十分重要的课题 本文首先根据课堂教学质量评价系统及其数据特点,设计数据挖掘模式,选 择基于约束的关联规则挖掘算法,对教学评价体系的科学性、学生差异和课程差 异对评价结果的影响等进行验证性研究,以此来评估评价结果的客观准确性;再 将验证后的数据作为训练样本,应用决策树算法,生成根据教师基本信息预测教 学效果的分类模型 元规则设计基于。教学评价结果受到与教学无关的因素影响”的假设,挖 掘过程经过数值离散化方式、置信度和支持度阀值调整等对比优化,排除或肯定 各属性与评价结果之间的关联关系,从而验证假想的影响是否存在和存在的程 度,为数据及结论的可信度、可用性提供依据。 决策树挖掘的样本集来自验证后的数据,经过优化预处理,生成一个以“教 师+ 课程+ 班级”为关键字、包括教师和课程基本信息的二维表采用1 1 ) 3 算法 构造决策树,并应用相对支持度剪技技术和简化的悲观错误剪枝算法进行剪技, 获得若干符合错分率要求的决策规划,即预测模型。将教师基本信息输入预测模 型,可得到该教师的教学质量分类,这将有助于提高教学管理的科学性,为学校 在师资队伍建设方面提供决策支持 关键词:数据挖掘约束关联挖掘决策树教学评价 基f 数据挖掘技术的教学评价系统研究 ar e s e a r c ho nt e a c h i n ge v a l u a t i o ns y s t e mb a s e do n d a t am i n i n gt e c h n o l o g y a b s t r a c t t e a c h i n ge v a l u a t i o ni sac o m p l e xp r o c e s s a c c o r d i n gt oc e r t a i nt e a c h i n gg o a l s a n ds t a n d a r d s i tc a r r i e so u ts y s t e m a t i cd e t e c t i o na n da c c e t ot h et e a c h i n g t a k e a s s e s s m e l v t ot h ei m p l e m e n t a t i o nd e g r e eo ft e a c h i n ge f f e c ta n dg o a l s , a n dm a k e c o r r e s p o n d i n 8 v a l u ej u d g e m e n lt h e t e a c h i n g e v a l u a t i o n p r o c e s s h a st h e c h a r a c t e r i s t i c ss u c ha sc o m p l e x i t y , m u l t i - f a c t o ra n df u z z i n e s s , a n di ti sak i n do ft h e s e m i - s t r u c t u r e do rn o rs t r u c t u r e dp r o b l e m , i nw h i c hp l e n t yo fn o n d e t e r m i n i g k f a c t o r s b e 吣h a r dt o b ec a l c u l a t e da n de v a l u a t e d s c i c m i f i c a l l y s o i tj sa s t r o n g - s u b j e c t i v ej o b ,a n di t sr e s u km a ya l s od e v i m et h ea c t u a lc i r c u m s t a n c eo ft h e e v a l u a t e do b j e c t t h e r e f o r e ,t oi m p r o v et h es c i e n t i f i c i t y , a c c u r a c ya n do b j e c t i v i t yo f t h ea s s e s s m c n li sav e r yi m p o r t a mp r o g r a mi nm o d e r nt e a c h i n ge v a l u a t i o nr e s e a r c h f i r s t ,a c c o r d i n gt ot h es y s t e mo fc l a s s r o o mt e a c h i l l gq u a l i t ya s s e s s m e n ta n di t s d a t ac h a r a c t e r i s t i c s ,t h i sp a p e rh a sd e s i g n e daa d a p t i v ed a t am i l l i n gp a t t e r na n du s e d t h ea l g o r i t h mf o rm i n i n ga s s o c i a t i o nr u l e sb a s e do i lr e s t r a i n tt o c a r r i e so u ta e o n f i r m a t i o nr e s e a r c h , w h i c hs t u d yt h ei n f l u e n c et 0e v a l u a t i o nr e s u l t b yc o u r s e d i s c r e p a n c y , s t u d e n td i s c r e p a n c ya n dt h es e i e n t i f i c i t yo f t e a c h i n ga s s e s s m a u ts y s t e m , a n dt oe v a l u a t et h eo b j e c t i v ea c c u r a c yo f e v a l u a t i o nr e s u l t ;t h e n , w eu s et h ev a l i d a t e d d a t aa st r a i n i n gs a m p l e st 0c r e a t eac l a s s i f i c a t i o nm o d e lt h a ta c c o r d i n gt ot e a c h e r b a s i ci n f o r m a t i o nf o r e c a s tt e a c h i n ge f f e c tb ya p p l y i n gt h ed e c i s i o nt r e ea l g o r i t h m m e t ar e g u l a rd e s i g n i n gi sb a s e do nh y p o t h e s i st h a tt e a c h i n ge v a l u a t i o nr e s u l ti s i n f l u e n c e d b yf a c t o r , w h i c hi si r r e l e v a n t i ot e a c h i n g m 证访gp r o c e s si sv a l u eo f d i s c r e t e ,o p t i m i z a t i o no f c o n t r a s tt oe o n f i d e a c ea n ds u p p o r tt h r e s h o l da d j u s t m e n t , a n d r e m o v eo ra m r mt h a tt h ea s s o c i a t i o nr e h t i o nb e t w e e ne a c hp r o p e r t ya n dr e s u l t a n t a p p r a i s e m e n t t h e r l nw i l lv e r i 毋w h e t h e rh y p o t h e s i si n f l u e a c ee x i s t e n c eo rn o ta n d t t 基于教据挖掘技术的教学评价系统研究 t h ed e g r e eo fi n f l u e n c e ,o f f e r i n gt h e 砌i c n c e sf o rd a t aa n dc o n c l u s i o no fa v a i l a b i l i t y u s ea n dt h ec o n f i d e n c e t h r o u g ho p t i m i z i n gp r e t r e a t n t n t ,t h es a m p l e s e to fd e c i s i o nt r e e sm i n i n g g e n e r a t e df r o mt h ev e r i f i e dd a t a , i sat w o - d i a g n s i o nt a b l ew h o k e y w o r di s “t e a c h e r + c o t l r + c l a s s 。,i n c l u d i n gt e 目a n d u r g e li n f o r m a t i o n t h ea u t h o r a d o p ti d 3a l g o r i t h mt oc r e a t ed e c i s i o nt r e ea n du s et h er e l a t i v es u p p o r tp r u n j l l g t e c h n i q u eo fi m p r o v e m e n ta n ds i m p n e dp c 蚓址i s c i cn l i 血a k ep n m 咄a l g o r i t h mt o 珥咖恤gh a n d l e 1 h m w cg e ts o l n ed e c i s i o nr u l e s t or a t eo fw r o n gr e q u i r e m e n t , n a n l yp r e d i c t i o nm o d e l - i n p u t t i n g “目c h 。rb a s i ci n f o r m a t i o nt op r e d i c t i o nm o d e lw e m a yg e tt h et c i i i l 1 9 删时f o r e c a s tc l a s s i f i c a t i o no f t h et e a c h e r i tw i l lb et t t p f u tf o r b a h m i n st e a c h e r s “:5 0 u mi na r r a n g e m e n tt e a c h i n gt a s kf t a t h ai m p r o v i n gt e a c h i n g q u a l i t y k 何w o r t h :d a t am i n i n g ,t e m a i n ta s s o c i a t i o nr u l e ,d e c i s i o nt r e e t e a c h i n ge l c a l u a t i o n t l i 华南师范大学学位论文原创性声明 立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论 文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文 的研究做出重要贡献的个人和集体,均已在文中以明确的方式标明。 本人完全意识到本声明的法律结果由本人承担。 j 论文作者躲鼎斩 e t 期:沩降6b 日 学位论文使用授权声明 本人完全了解华南师范大学有关收集、保留和使用学位论文的规 定,即:研究生在校攻读学位期间论文工作的知识产权单位属华南师 范大学。学校有权保留并向国家主管部门或其指定机构送交论文的电 子版和纸质版,允许学位论文被检索、查阅和借阅。学校可以公布学 位论文的全部或部分内容,可以允许采用影印、缩印、数字化或其他 复制手段保存、汇编学位论文。( 保密的论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密范围,在后解密适用 本授权书。非保密论文注释:本学位论文不属于保密范围,适用本授权 机:嬲轮豁论文作者签名:j 甲6 。fe 日期:唧年爿f 日 导师签名:骺旌 日期:0 7 年勿月 基f 数据挖掘技术的教学评价系统研究 第1 章概述 1 1 论文背景 随着高校信息化的逐步深入,传统的高校教学、科研与管理模式已经不能满 足新时期下高等学校深层次建设与发展的需要,高校运行与管理体制需要变革 推动这种变革的动因,一是高校信息化建设产生的教学、科研模式的变革;二是 以信息技术为手段的校务管理机制与手段的变革正基于此,一场以。数字化校 园( d i g i t a l c a m p u s ) ”建设为突破口的高校教学及管理改革,正如火如荼地在全国 范围各高校迅猛发展。 在国内高校中。计算机技术应用于教学管理始于上世纪如年代,已有2 0 多年历史很长一段时问以来,由于各个部门的管理系统处于分布、独立运行状 态,发展较慢。数字化校园的建设,使得备高校进入了网上办公、网上教学管理 的新时代,原来孤立存储在部门管理系统中、格式不一的大量数据得以统一,同 时,管理方式的变革使得信息系统中的数据置快速增长面对巨大的数据资源, 如何利用它为教学管理服务,成为各高校关注的问题。 过去,由于缺乏发现隐藏在数据背后的知识的手段,无法发现数据中存在的 规律和内在联系,导致“数据爆炸但知识贫乏”,大量数据无法商效地为未来工 作服务上世纪9 0 年代,数据挖掘技术突飞猛进的发展,为克服传统的数据库 管理和决策支持存在的问题提供了技术上的支持 数据挖掘嘲( d a t am i n m g , d m ) ,又称为数据库中的知识发现( i w l c d g c d i 嗍i n d 砒a b b s e k d d ) ,是一个从大量数据中抽取、挖掘出来知的、有价值 的模式或规律等知识的复杂过程作为一个新兴的多学科交叉应用领域( 包括数 据库系统、人工智能、统计学、机器学习、信息科学等) ,数据挖掘在各行各业 的决策支持活动中扮演着越来越重要的角色,如金融、零售等行业,但在教育领 域的应用还没有引起人们广泛的关注。 利用数据挖掘技术为高校的教学管理与决策服务,是当今高校教学及管理改 革的重要基础。本论文以高校的课堂教学质量评价系统为突破,利用数据挖掘技 术中的关联规则算法,试图揭示数据中存在的相互关系,并用决策树算法生成教 基于数据挖掘i 童术的教学评价系统研究 学质量预测模型,为学校的教学管理和决策提供参考。 1 2 研究意义 课堂教学质量评价是学校让师生参与教学管理监督的一种手段,旨在提高师 生对学校的责任感、保障教学质量。教学评价的实施过程是:由教学研究专家设 计评价体系,管理部门在课程结束后,组织学生按照评价体系的要求,从教学态 度,教学内容、教学方法、教学效果等方面给予任课教师评分。对学生评价最好 和最差的教师,学校将派督导专家进一步确认,并按制度给与奖励和处罚。 教学质量评价1 4 1 i 具有复杂性、多因素性和模糊性等特点,是一类带有大量 不确定因素的半结构化问题或非结构化问题,许多因素难以科学地计算和评估, 因此是一项主观性很强的工作,其结果可能偏离被评估对象的实际情况。因此, 如何客观、科学、全面地对教学质量进行评价,以提高教学评价的科学性、客观 性和准确性,是现代教学评价研究中一个非常重要的课题,它对于提高教师的业 务水平和教学效果,提高人才培养质量,促进教育事业的发展具有理论意义和实 际应用价值。 正确、合理地利用教学评价结果,使其能够实现原始设计目标,达到督促教 师端t f 教学态度、改进教学方法、提高课鼋教学质量的目的,首先要保障教学评 价体系设计的科学性,评价过程公平合理,否则,教学评价也可能冈打击教师的 积极性而产生适得其反的效果。所以验证并完善评价体系是一个重要的过程 本文透过基于约束的关联规则挖掘,考察评价结果是否受到与教学质量无关 的因素影响,对教学评价体系的科学性、学生差异的影响和课程差异的影响进行 验证性研究,以此来评估评价结果的客观和公正性,并为评价数据的可用度提供 依据。 验证后的教学质量评价数据应用决策树挖掘,可从数据中发现教师的基本信 息( 如学历、职称) 对课堂教学质量的影响,并生成预测模型。根据教师基本信 息预测教师的教学效果,有助于在安排教学任务时均衡师资力量,进一步掌握、 提高教学质量。 摹r 数据挖掘技术的教学评价系统研究 1 3 研究的基本内容和重点 1 3 1 基本内容 本文研究的内容分为两部分。基于约束的关联规则挖掘和决策树挖掘。 1 基于约束的关联规则挖掘 构建一个多维数据空间,包含教师缛分细节( 1 1 项考核指标的具体得分) 、 课程基本情况、学生成绩、教师基本信息和学生学籍瓷料等数据字典根据各种 假设设计若干元模式,在该数据空间进行元规则指导下的关联挖掘,通过置信度 和支持度筛选,获取属性之间存在的强规则集规则表示如:( 关联规则的序号。 关联规则前件,关联规则后件,可信度) 通过对结果分析得出类似下面的结论: 学生在给教师的评价中哪些指标是客观的、与学生自身情况无关的;哪些指标是 与学生本身的因素关系较大的( 不客观的) 元模式的设计基于“教学评价结果受到各种与教学质量无关的因素的影响” 的假设。在将这种模糊假设模式化时,具体归结为对“评价体系的科学性、管理 过程的科学性,学生差异对评价的影响、课程差异对评价的影响”等四个方面的 验证。应用关联挖掘,排除或肯定各属性与评价结果之间的关联关系,从而验证 假设的影响是否存在或存在的程度为数据及结论的可信度、可用性提供依据 教学管理部门可据此对评价体系进行调整,以便更客观地评价教师的课堂教学效 果。 2 预测模型 决策树挖掘的样本集来自验证后的数据,经过预处理生成一个以“教师+ 课 程+ 班级”为关键字、包括性别、学历、年龄、职称、课程、班级名、学生人数、 得分等字段的二维表。应用q u i n l a n 设计的i d 3 算法从训练样本集构造决镱树, 然后进行前、后剪枝处理,获得若干个符合错分率要求的决策规则,即预测模型 将教师的基本信息输入预铡模型,可得到该教师的教学质量预测结果 1 3 2 研究重点 本文研究重点主要有如下三个方面: 1 数据挖掘模式设计 摹1 :数据挖掘技术的教学评价系统研究 ( 1 ) 根据教学评价系统及其数据的特点,针对不同挖掘算法设计数据处理 方法。 ( 2 ) 算法选择。 ( 3 ) 关联挖掘中元规则设计 ( 4 ) 挖掘过程优化。通过对比不同离散化方式,在不同支持度和胃信度阀 值下,对关联挖掘结果进行优化。 2 算法改进 根据样本集的特点,对常用的决策树剪技算法进行改进,提出以“相对支持 度”作为剪支参数,并应用该方法获得了生长比较理想的决策树和预测模型。 3 结果分析 通过对数据挖掘结果的分析研究,总结现行课堂教学质量评价系统存在的问 题,提出改进的建议。 基r 数据挖掘技术的教学评价系统研究 第2 章数据挖掘相关技术 2 1 数据挖掘的定义 数据挖掘嗍( 叫d a t am i n i n g ) 就是从大量的、不完全的、有噪声的、模糊 的、随机的数据中,提取隐含在其中的人们事先不知道的、但又是潜在有用的 信息和知识的过程。还有很多和这一术语相近似的术语,如从数据库中发现知识 ( k d d ) 、数据分析,知识抽取、模式分析、数据考古,数据采集、信息收割、商 业智能、数据融合以及决策支持等人们把原始数据看作是彤成知识的源泉。就 像从矿石中采矿一样原始数据可以是结构化的,如关系型数据库中的数据,也可 以是半结构化的。如文本、图形、图像数据,甚至是分布在网络上的异构型数据 发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳 的发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还 可以用于数据自身的维护。因此,数据挖掘是一门广义的交叉学科,它汇聚了不同 领域的研究者,尤其是数据库、人工智能,数理统计,可视化、并行计算等方面 的学者和工程技术人员 数据挖掘技术从一开始就是面向应用的,它不仅是面向特定数据库的简单检 索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和 推理,以指导实际问题的求解,企图发现事件问的相互关联,甚至利用已有的数据 对未来的活动进行预测。例如加拿大b c 省电话公司要求加拿大s i m o n f r a s e r 大 学k d d 研究组,根据其拥有十多年的客户数据,总结、分析并提出新的电话收费和 管理办法,制定既有利于公司又有利于客户的优惠政策美国著名国家篮球队 n b a 的教练,利用某公司提供的数据挖掘技术临场决定替换队员,一度在数据库 界被传为佳话这样一来。就把人们对数据的应用,从低层次的末端查询操作,提 高到为各级经营决策者提供决策支持这种需求驱动力,比数据库查询更为强大 同时需要指出的是,这里所说的知识发现,不是要求发现放之四海而皆准的真理, 也不是受去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。 所有发现的知识都是相对的,是有特定前提和约束条件、面向特定领域的,同时还 要能够易于被用户理解最好能用自然语言表达发现结果最近,有就不少数据挖 5 琏丁:赦据挖掘技术的教学评价系统研究 掘产品用来筛选i n t e r n e t 上的新闻,保护用户不受无聊电子邮件的干扰和商业 推销。 2 2 数据挖掘分类 数据挖掘系统利用的技术越多,褥出的结果精确性就越高。这主要取决于问 题的类型以及数据的类型和规模。 数据挖掘涉及许多学科领域,有多种分类方法i ”n 。根据挖掘任务,可分为 分类或预测模型发现、数据总结、聚类,关联规则发现,序列模式发现、依赖关 系或依赖模型发现、异常和趋势发现等根据挖掘对象分,有关系数据库、面向 对象数据库、空间数据库、时态数据库、文本数据库、多媒体数据库、异构数据 库、遗产数据库以及w e b 根据挖掘方法,可分为机器学习方法、统计方法、神 经网络方法和数据库方法。机器学习又包台归纳学习方法,基于案例学习、遗传 算法等统计方法包含回归分析、判别分析、聚类分析、探索性分析等。神经网 络方法包含前向神经网络、自组织神经网络等。数据库方法主要是多维数据分析 方法,另外还有面向届性的归纳方法。 数据挖掘所能发现的知识有如下几种i z l :广义型知识,反映同类事物其同性 质的知识;特征型知识,反映事物各方面的特祉知识;差异型知识,反映不同事 物之间属性差别的知识;关联型知识,反映事物之间依赖或关联关系的知识;预 测型知识,根据历史的和当前的数据推测未来数据;偏离型知识,揭示事物偏离 常规的异常现象。所有这些知识都可以在不同的概念层次上被发现,随着概念树 的提升,从微观到宏观,以满足不同用户、不同层次决策的需要。 1 分类和预测分析 分类( c l a s s i f i c a t i o n ) 的过程是:找出描述并区分数据类或概念模型( 或 函数) ,以便能够使用模型预测类标记未知的对象类。导出模型是基于对训练数 据集( 即其类标记己知的数据对象) 的分析。 导出模型可以用多种形式表示,如分类( i f - t h e n ) 规则、判定钟、教学公 式或神经网络。 分类町以用来预测数据对象的类标记。然而,在某然应用中,人们可能希望 预测某些空缺的或不知道的数据值,而不是类标记。当被预测的值是数值数据时, 通常称之为预测( p r e d i c t i o n ) 尽管预测可以涉及数据值预测和类标记预测,通 6 墓f 教据挖掘技术的教学评价系统研究 常预测限于值预测,并因此不同于分类。预测也包含基于可用数据的分布趋势识 别 2 聚类分析 与分类和预测不同,聚类( c l u s t e r i n g ) 分析数据对象,而不考虑已知的类 标记一般情况下,训练数据中不提供类标记,因为不知道从何开始聚类可以 用于产生这种标记。对象根据最大化类内的相似性、最小化类间的相似性的原则 进行聚类或分组即对象的簇( 聚类) 是这样形成的:使得在一个簇中的对象具 有很高的相似性。而与其他簇中对象的相似性尽量低所形成的每个簇可以看作 一个类,由它可以导出规则聚类也便于分类编制( t a x o n o m yf o r m a t i o n ) ,将 观察到的内容组织成类分层结构将类似的事件组织在一起 3 关联分析 关联分析( a s s o c i a t i o na n a l y s i s ) 发现关联规则,这些规则展示属性一值 频繁地在给定数据集中一起出现的条件。关联分析广泛用于购物篮或事务数据分 析。更形式地。关联规则( a s s o c i a t i o nr u l e ) 是形如xjy 的规则,即: 4 t j 马 最 a 岛, 其中4 ( t 1 , a ,肼) ) 口,( j e 1 ,月 ) 是属性一值对关联规则x j y 解释为 “满足x 中条件的数据库元组多半也满足y 中的条件” 4 序列分析及时问序列 序列分析和时间序列说明数据中的序列信息和与时间相关的序列分析时间 数据库和时间序列数据库中都存放了与时间有关的数据,数据挖掘技术可以用来 发现这种数据库中对象演变的特征或对象的变化趋势,这些信息对于决策支特是 有用的 5 孤立点分析 数据库中可能包含一些数据对象,它们与数据的一般行为或模型不一致这 些数据对象就是孤立点( o u t l i e r ) 大部分数据挖掘方法将孤立点视为噪声或异 常数据而丢弃然而,在一些应用中( 如欺骗检测) ,罕见的事件可能比i f 常出 现的那些更有趣孤立点数据分析称为孤立点挖掘( o u t l i e rm i n i n g ) 6 其他分析 ( 1 ) 依赖关系分析:数据依赖关系代表一类重要的可发现的知识。一个依 基于教据挖掘技术的教学评价系统研究 赖关系存在于两个元素之间。如果一个元素a 的值可以推出另一个元素b 的值 ( a b ) ,则称b 依赖于a 这个元素可以是字段,也可以是字段间的关系。 ( 2 ) 概念描述:用户常常还需要抽像的、有意义的描述。经过归纳的抽像 描述能概括大量的关于类的信息。有两种典型的描述:特性描述和判别描述。特 性用于描述类的所有记录之问的共同处,而判别则描述两个或更多个类之间有何 差异。 ( 3 ) 偏差检测:通过发现异常,可以引起人们对特殊情况的加倍注意。异 常包括如下几种可能引起人们兴趣的模式:不满足常规类的异常例子;出现在模 式边缘的特异点;与父类或兄弟类有显著不同的类;在不同时刻发生了显著变化 的某个元素或集合;观察值与模型推算出的期望值之间有显著差异的事例偏差 分析的个重要特征就是它可以有效地过滤大量的不感兴趣的模式 2 3 数据挖掘步骤 数据挖掘过程可粗略地分为五个阶段鲫:问题定义( t a s kd e f i n i t i o n ) 、数 据收集和预处理( d a t ap r e p a r a t i o na n dp r e p r o c e s s i n g ) 、数据挖掘( d a t a m i n i n g ) 算法执行、结果解释和评估( i n t e r p r e t a t i o na n de v a l u a t i o n ) ,如图2 - l 所示。 图2 - i 数据挖掘过程示意图口1 1 问题定义 数据挖掘是为了在大量数据中发现有用的信息。发现何种知识便成为整个过 程的第一个也是最重要的一个阶段。在问题定义过程中,数据挖掘人员必须和领 域专家以及最终用户紧密协作,一方面明确实际工作对数据挖掘的要求;另一方 面通过各种学习算法的对比进而确定可用的学习方法。后续的学习算法和数据集 8 基r 数据挖掘技术的教学评价系统研究 准备都是在此基础上进行的 课堂教学质量评价系统数据挖掘的问题定义是在管理部门提出的要求指导 下,经过与教学研究专家进行探讨,并根据现有数据的具体情况,提出了如下两 个问题: ( 1 ) 课堂教学质量评价体系是否合理? ( 2 ) 从现有数据中可根据哪些属性预测教师未来的教学质量 2 数据收集和数据预处理 数据准备又可分为三个子步骤i 数据选取( d a t as e l e c t i o n ) 数据预处理 ( d a t af r e p r o c e s s i n g ) 和数据变换( d a t at r a n s f o r m a t i o n ) 数据选取的目的是确定发现任务的操作对象,即目标数据( t a r g e to a t a ) , 是根据用户的需要从原始数据库中抽取的一组数据数据预处理可能包括消除噪 声、推导计算缺值数据、消除重复记录、完成数据类型转换( 如把连续值数据转 换为离散型数据,便于符号归纳,或是把离散型数据转换成连续型,以便于神经 网络) 等当数据挖掘的对象是数据仓库时,一般来说,数据预处理已经在生成 数据仓库时完成数据变换的主要目的是消减数据维数或降维( d i m e n s i o n r e d u c t i o n ) ,即从初始特征中找出真正有用的特征,以减少数据挖掘时要考虑的 特征或变量个数 3 数据挖掘 数据挖掘算法执行阶段首先根据对问题的定义明确挖掘的任务和目的,如分 类、聚类、关联规则发现和序列模式发现等。确定了挖掘任务后,就要决定使用 哪种算法。选择实现算法有两个考虑因素:一是不同的数据有不同的特点,因此 需要用与数据相关的算法束挖掘:二是用户或实际运行系统的要求,有的用户可 能希望获取描述型( d e s c r i p t i v e ) 的、容易理解的知识( 采用规则表示的挖掘方 法此时就比神经网络之类的方法更合适) ,而有的用户只是希望获取预测准确度 尽可能高的预测型( p r e d i c t i v e ) 知识,并不在意获取的知识是否易于理解。 根据课堂教学质量评价系统数据挖掘的问题定义,选择关联规则和决策树分 剐作为两个任务的实现算法。 4 结果解释和评估 数据挖掘阶段发现出来的模式,经过评估可能存在冗余或无关的模式,这 9 摹f 数据挖掘技术的教学评价系统研究 时需要将其剔除;也有可能模式不满足用户要求,这时则需要整个发现过程回退 到前一阶段,如重新选取数据、采用新的数据变换方法、设定新的参数值,甚至 换一种算法等。另外k d d 由于最终是面向人类用户的,因此可能要对发现的模 式进行可视化,或者把结果转换为用户易懂的另一种表示,如把分类决策树转换 为“i f t h e n ”规则。 数据挖掘算法执行,仅仅是整个过程中的一个步骤。数据挖掘质量的好坏有 两个影响要素:一是所采用的数据挖掘技术的有效性:二是用于挖掘的数据的质 量和数量( 数据量的大小) 如果选择了错误或不适当的属性,或对数据进行了 不适当的转换,必将损失挖掘结果的质量。 数据挖掘过程是一个不断反馈的过程。如果用户在挖掘过程中发现了数据或 挖掘技术方面的问题,产生不了期望的结果时,常需要重复某些过程。甚至从头 开始。 2 4 关联规则 关联规则是数据挖掘技术中一种常用算法,属无指导学习过程,适应于验证 性研究。本文选择了关联规则作为验证课堂教学质量评价体系合理性研究挖掘工 具,下面详细介绍该算法的基本原理。 2 4 1 基本概念胡 定义2 - 1 :关联规则挖掘的数据集记为口( 一般为事务数据库) ,肛 t , 如“,甜,如= ,厶厶,硝,“( k - l ,2 ,n ) 称为事务( t r a n s a c t i o n s ) , l ( 1 l f l ,2 ,p ) 称为项目( i t e m ) 定义2 - 2 :设,- ( ,。西l 是口中全体项目组成的集合,的任何子集 x 称为口中的项目集( i t e m s e t ) ,l x i = k 称为集合x 的k 项集。设“和x 分别为口 中的事务和项集,如果x c t ”称事务“包含项目集x 。每一个事务都有一个唯一 的标识符,成为t i d 。 定义2 - 3 :数据集口中包含项目集x 的事务数称为项目集x 的支持度,记为 0l 项目集x 的支持度记为s u p p o r t ( x ) : s u p p o r t ( x ) = 尚1 0 0 ( 2 - 1 ) 基于敦据挖捆技术的教学评价系统研究 其中i d l 是数据集口的事务数,若s u p p o r t ( x ) 不小于用户指定的最小支持度 ( m i n s u p p o r t ) ,则成x 为频繁项目集。简称频集( 或大项目集) ,否则成x 为非 频繁项目集。简称非频集( 或小项目集) 定理2 - 1 :设x 、y 是数据集d 中的项目集: ( 1 ) 若x y ,则s u p p o r t ( x ) s u p p o r t ( y ) ( 2 - 2 ) ( 2 ) 若j c 】,。如果x 是非频集,则y 也是非频集 ( 3 ) 若z c y ,若y 是频集,则x 也是频集 定义2 - 4 l 若x 、y 为项目集。且x n y - = - 。蕴含式x j y 称为关联规则,x 、y 分别称为关联规则x j y 的前提和结论。项目集x u y 的支持度称为关联规则x 寺y 的支持度。记作;s u p p o r t ( x = 蚪) s u p p o r t ( x 辛y ) = s u p p o r t ( x u y )( 2 3 ) 关联规则x j y 的置信度i 己作:c o n f i d e n c e ( x j y ) c o n f i d e n c e ( xjy ) :婴咝坠尘1 0 0 ( 2 4 ) s u p d 0 r t x i 通常,用户根据挖掘情况需要指定最小置信度,记为m i n c o n f i d e n c e 支持度和置信度是描述关联规则的两个重要概念,前者用于衡量关联规则在 整个数据集中的统计重要信,后者用于衡量关联规则的可信程度一般来说只有 支持度和置信度均较高的规则才可能是用户感兴趣、对用户有价值的关联规则。 定义2 - 5 :若s u p p o r t ( x = “) m i n s u p p o r t ,且c o n f i d e n c e ( x - j y ) m i n c o n f i d e n c e ,称关联规则x j y 为强规则,否则称关联规则x j y 为弱规 则 。 2 4 2 关联规则挖掘算法 关联规则挖掘的任务鼢卅就是要挖掘出0 中所有的强规则强规则x ,y 对 应的项目集( x u y ) 必定是频集( 由定义2 - 5 和式( 2 - 3 ) 可知) ,由式( 2 - 2 ) 和式( 2 4 ) 可知,频集( x u y ) 导出的关联规则x j y 的置信度可由频集x 和( x u y ) 的支持度 计算因此,可以把关联规则挖掘划分为以下两个子问题”: ( 1 ) 根据最小支持度找出数据集d 中的所有频集。 ( 2 ) 根据频繁项目集和最小置信度产生关联规则 蘑于数据挖掘技术的教学评价秉统研究 第一个子问题的任务是迅速高效地找出d 中全部频集,是关联规q 挖掘的中 心问题,是衡量戈联规则挖掘算法的标准;第二个子问题求解是比较容易、直接 的,日前所有的关联规则挖掘算法都是针对第一个子问题而提出的,a p r i o r i 算 法是解决这个问题的虽初方法。 一a p r i o r i 算法的基本思想 a p r i o r i 算法州( 找频繁项集算法) 是一种最有影响的挖掘布尔关联规则频 繁项集的算法。算法的名称基于这样的事实:算法使用频繁项集性质的先验知识, a p r i o r i 使用一种称作逐层搜索的迭代方法,k 一项集用于探索( k + 1 ) 一项集首 先,找出频繁卜项集。该集合记作l l ,l ,用于找频繁2 一项集的集合l ,而l :用 于找1 4 ,如此下去,直到不能找到频繁k 一项集。找每个l k 需要一次数据库扫描 为了提高频繁项集逐层产生的效率,一种称作h p r i o r i 性质的重要性质用于 压缩搜索空问。 a p r i o r i 性质:频繁项集的所有非空子集都必须也是频繁的。h p r i o r i 性质 可以解释为:如果项集x 不满足最小支持度阀值m i n s u p p o r t ,则x 不是频繁的, 即s u p p o r t ( x ) m i n s u p p o r t 。如果项y 添加到x ,则结果项集( 即x u y ) 不可 能比x 更频繁出现。因此,x u y 也不是频繁的,即s u p p o r t ( x u y ) ( m i n s u p p o r t 。 该性质属于一种特殊的分类,称作反单调,意指如果一个集合不能通过测试,则 它的所有超集也都不能通过相同的测试。 h p r i o r i 算法在第k 次循环中,先产生候选k - 项集的集合c k ,c k 的项集是用 来产生频繁项集的候选集。c - 中的每个元素需在事物数据库中进行验证。决定是 否加入l l 。 根据h p r i o r i 的性质,我们分析如何由l 一推出k 。算法分两步完成: 1 连接步。 为了找k ,通过k 一与自己连接产生候选k 一项集,该候选项集记为c 。 设和,2 是b 一中的项集,记号t j 表示的第j 项。如果( ,e t = ,: 1 】) a ( 2 = ,2 2 ) a ( k 一2 i ,2e k 一2 ) a ( k 1 ,2 k 一1 ) ,则做连接l t , c o l 。,连接条件是两个项的前k - 2 项相同,连接结果为: ,。 1 “2 l k l 】f 2 k 1 基于数掂挖掘技术的教学评价系统研宄 2 剪枝步 联结之后的结果6 是l i 的超集,它的成员可能是不频繁的,但所有的频繁 k _ 项集都包古在b 中,这时要从扫描数据库确定& 中每个候选的计数从而确 定l i 确定l 可用h p r i o r i 性质对也进行删减,把子集不在l 一中的候选k 项从 q 中删除。 2 5 决策树和决策规则 2 5 1 决策树的定义 决策树( d e c i s i o nt r e e ) 是一个类似于流程图的树结构渊,其中每个内部节 点表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树叶节点代表 类或类分布树的最顶层节点是根节点一棵典型的决策树如图2 - 2 所示 图2 - 2 决策树示例 这是一棵用于判断贷款风险的决策树。银行负责贷款的职员可i = 卫用贷款申请 表来运行这棵决策树,以便判断风险的大小。年收入大t ¥4 0 0 0 0 ”并且“高负 债”的用户被认为是“高风险”,应该拒绝贷款;而“年收入小于y 4 0 0 0 0 ”但“工 作时间大于5 年”的申请,被认为是“低风险”,可以给予贷款 决策树是数据挖掘中的一种重要技术,可以用于分析数据,也可以用来预测 2 5 2 决策树算法 常用的决策树算法有i d 3 ,c a r t ,o u s t ,c 4 5 等,其中以q u i n l a n 的1 0 3 算法 应用最广 1 算法的基本思想 基于数据挖掘技术的教学评价鬟统研究 d 3 算法删从树的根节点处的所有训练样本开始,首先检测训练样本集的所 有特征,选择信息增益最大的特征a 建立决策树根节点,由该特征的不同取值建 立分枝,对各分枝的实例子集递归,用该方法建立树的节点和分技,直到某一子 集中的数据都属于同一类别,或者没有特征可用于对数据进行分割。 在建立决策讨的过程中,i d 3 算法具有如下性质: ( 1 ) 决策树中每一个非叶节点对应着一个非类别属性,树枝代表这个属性 的值一个叶节点代表从树根到叶节点之间的路径所对应的记录所属的类别属性 值。 ( 2 ) 在决簸树中,每一个非叶节点都将与属性中具有最大信息量的非类别 属性相关联 ( 3 ) 熵通常是用于测量一个非叶节点的信息量大小的具体参数。 ( 4 ) 算法使用同样的过程,递归地形成每个划分上的子树,一旦一个属性 出现在一个节点上,就不必考虑该节点的任何后代; ( 5 ) 递归划分的停止条件: 给定结点的所有样本属于同一类; 没有剩余属性可以用来进一步划分样本,则将给定的节点转换成树叶, 并按大多数原则用大多数样本所在的类标记它 分技中样本为空,这时样本也按大多数原则创建一个树叶。 2 算法描述1 算法:g e n e r a t e _ d e c i s i o n _ t r e e ,根据给定数据集产生一棵决策树。 输入:训练样本s a m

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论