




已阅读5页,还剩62页未读, 继续免费阅读
(计算机应用技术专业论文)基于数据挖掘的教学评价系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华中科技大争硕士学位论文 摘要 经过十几年的发展,数据挖掘产生了许多新的概念和方法,并成功地应用到许 多领域,但在教育领域中的应用却并不广泛。现有的教学评价系统通过统计报表, 部分地反映了教学效果等有关情况,但难于发现隐藏在数据库中的有用知识,不能 有效地对决策支持起辅助作用。 , 教学评价依据一定的教学目标与教学规范,对教学活动以及教学成果给予价值 判断。教学评价首先应该根据教学效果,确立教学优秀的质量标准体系,进而建立 一套分类判定标准,其次应该能够发现评价标准和结果之间的规律,便于改进现有 教学环节或过程中的不足之处。 为了解决教学评价分类判定标准问题,引用了属性信息嫡和决策树分析方法, 用于确定影响教学效果的首选质量指标,据此建立了教学效果分类评价决策树;为 了发现评价标准和结果之间的规律,引入了能够自动发现教学规律的关联知识分析 方法。 根据所提出的实施方案,以课堂教学评价信息和学生成绩分析为例,完整地实 现了数据挖掘的全过程。采用数据集成、数据清理、数据转换、数据消减等技术预 处理数据;使用i d3 决策树算法生成教学效果决策树,并利用事后修剪法对决策树 进行修剪;最后由决策树产生分类规则,完成了课堂教学评价分析决策树模型的建 立;对学生成绩评价采用关联规则算法,使用a p r i o r i 算法挖掘关联规则,最后对规 则进行描述,建立了学生成绩分析模型。 新教学评价系统采用s q ls e r v e r 数据库,以v i s u a lb a s i c 开发环境为开发工具, 以课堂教学评价数据和学生成绩为数据源,实现了具有决策树和关联分析功能的教 学评价系统。 关键词:决策树,关联规则,教学评价 华中科技大学硕士学位论文 a b s t r a c t a1 mo fn e wc o n c e p t sa n di d e a sh a v eb e e nd e r i v e df r o mr e c e n td e c a d e sd e v e l o p m e n t o fd a t am i n i n 舀a n dh a v eb e e ns u c c e s s f u l l ya p p l i e dt om a n yf i e l d s h o w e v e r , t h e i r a p p l i c a t i o ni ne d u c a t i o ni sr a t h e rl i m i t e d a l t h o u g l lt h ec u r r e n tt e a c h i n ga p p r a i s a ls y s t e m c a np a r t l yr e f l e c tt e a c h i n ge f f e c ta n ds oo nt h r o u g hs t a t i s t i c s ,b u ti ti sh a r dt od i s c o v e r v a l u a b l ei n f o r m a t i o ni nd a t a b a s eo rp r o v i d ee f f i c i e n tf a c i l i t a t i o nt od e c i s i o n , i na c c o r d a n c et ot h er e l a t e dt e a c h i n go b j e c t i v e sa n ds t a n d a r d s , t e a c h i n ga p p r a l s a l 羽o r d sv a l u ee v a l u a t i o nt ot e a c h i n ga c t i v i t i e sa n da c h i e v e m e n l s i ti n c l u d e st w os t e p s n 坞 f i r s ti st od e f i n es t a n d a r ds y s t e mo f e x c e l l e n tt e a c h i n gq u a i l t y 弛es e c o n di st oe s t a b l i s ha s e to fc l a s s i f i c a t i o ne v a l u a t i o ns t a n d a r d s n 圮t h i r di st of i n do u tt h er u l e sg o v e r n i n g a p p r a i s a ls t a n d a r da n dr e s e ts oa st oi m p r o v et h et e a c h i n gc o u l 船 i no r d e rt os o l v et h ep r o b l e m so ft h ec l a s s i f i c a t i o ne v a l u a t i o ns t a n d a r di nt e a c h i n g a p p r a i s a l ,a n di n f o r m a t i o ne n t r o p ya n dd e c i s i o nt r e ew a si n t r o d u c e ds ot h a tp r i o rq u a l i t y p r i n c i p l e se f f e c t i n gt e a c h i n gr e s e tw e r ed e f i n e da n dt h e d e c i s i o nt r e ec o n c e r n i n g c l a s s i f i c a t i o ne v a l u a t i o no ft e a c h i n gr e s u l tw a se s t a b l i s h e d a n da s s o c i a t i o na n a l y s i s w h i c hc a na u t o m a t i c a l l ys e a r c ho u tt e a c h i n gr u l e sw a se m p l o y e dt od i s c o v e rt h er u l e s g o v e r n i n gt e a c h i n gs t a n d a r d sa n dr e s u l t s - a c c o r d i n gt ot h ep r o j e c t , w ea c c o m p l i s ht h ed a t am i n i n gp r o c e s st oa n a l y z et e a c h e r s i n 1 a s sq u a l i t ye v a l u a t i o nr e s e ta n dt h es t u d e n t sr e s u l t s n 垃p r o c e s si n c l u d e sc o l l e c t i n g t h ed a t a , p r e p r o c e s s i n gd a t a , c l a s s i f y i n ga n dg e n e r a t i n gt h e c l a s s i f i c a t i o nr u l e 1 1 ) 3 d e c i s i o nt r e ew e f ee m p l o y e dt oc o n s t r u c tt h ed e c i s i o nt r e eo ft e a c h i n gr e s u l ta n di tw a s t r i m m e db yt h ep o s t - p r u n i n g f i n a l l y ,c l a s s i f i c a t i o nr u l e sw a sg e n e r a t e dt h r o u g ht h et r e e a n dd e c i s i o nt r e ec o n c e r n i n gt e a c h e r si n - c l a s sq i l a l i t ye v a l u a t i o nw a sc o m p l e t e d i n s t u d e n t s s c o r ee v a l u a t i o n , a s s o c i a t i o nr u l e sw a si n t r o d u c e da n da p r i o r iw a su s e dt om i n e a s s o c i a t i o nr u l e s ,t h e nt h er u l e sw e r ed e s c r i b e da n ds t u d e n t s 5 c o f ea n a l y s i sm o d e lw a s b u i h b yu s m gs q ls e r v e rd a t a b a s ea n dw i t hv i s u a lb a s i cd e v e l o p i n ge n v i r o n m e n ta s i i 华中科技大学硕士学位论文 d e v e l o p i n gt o o la n dt h et e a c h e r si n - c l a s sq u a l i t ye v a l u a t i o nr e s u l ta n ds t u d e n t s s c o r ea s t h e9 m l r c eo fd a t a , t h en 删t e a c h i n ga p p r a i s a ls y s t e mi so n eo fi t sk i n dw h i c hi n t r o d u c e s b o t hd e c i s i o nt r e ea n da s s o c i a t i o na n a l y s i s k e y w o r d s :d e c i s i o nt r e e ,a s s o c i a t i o nr u l e s ,t e a c h t n ga p p r a i s a l i t l 独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他 个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体, 均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 日期:刎年月多日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校 有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅 和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数 据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文 保密口,在年解密后适用本授权书 本论文属于 不保密嘭 ( 请在以上方框内打“4 ”) 学位论文作者签名:指导教师签名:马之冬r 日期:五彩年l y j 2 - 日 日期:砒年月2 - e l 华中科技大学硕士学位论文 1 绪论 1 。1 本课题的研究背景、目的和意义 随着数据库技术的不断发展及数据库管理系统的推广应用,存储在数据库中的 数据量急剧增大特别是九十年代后因特网( i n t e r a c t ) 的出现,打破了地域的限制,人 们可以跨越时空地交换数据信息。因此,展现在人们面前的数据己不仅局限于本部 门,本单位和本行业,而是浩瀚无垠的信息海洋。激增的数据背后隐藏着许多重要 的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据虽然 目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但是无法自动 地和智能地将待处理数据背后隐藏的重要信息和知识挖掘出来加以利用,无法根据 现有的数据预测未来的发展趋势,并达到为决策服务的目的,因此导致了“数据爆 炸但知识贫乏”的现象。如何有效地利用和处理大量的数据成为当今世界共同关心 的问题。随着数据库技术、人工智能、数理统计和并行计算等技术的发展与融合, 数据挖掘( d a t a m i n i n g ,d m ) 技术应运而生数据挖掘从大量数据中提取出隐藏在 数据之中的有用的信息,它被越来越多的领域所采用,并取得了较好的效果,为人 们的正确决策提供了很大的帮助。 数据挖掘( d m ) 就是从大量的,不完全的、有噪声的、模糊的、随机的实际应用 数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的 过程【n 。它是数据库研究中的一个很有应用价值的新领域。经过十几年的发展,数据 挖掘产生了许多新的概念和方法,并在科学研究、市场营销、金融市场分析与预测、 欺诈甄别、医疗保健、通信网络管理等许多领域得到了广泛的应用。但是在教育领 域应用却并不广泛。 近几年来,髓着高校招生规模地不断扩大,学生人数大幅度增加,给高校的教 学工作和学生的管理工作带来了严竣考验,传统的教学管理手段已逐渐不能适应社 会发展的需求。随着数据挖掘技术的成熟及应用领域的不断扩展,将数据挖掘技术 应用于高校的教学、管理中,例如:将数据挖掘技术应用于学生信息管理、高校的 教学评估、学生成绩分析及考试系统中,对提高学校教学管理水平将起到很好的指 华中科技大学硕士学位论文 导作用。 教学评价是指依据一定的教学目标与教学规范标准,通过对学校教与学等教学情 况的系统检测与考核,对教学过程中的教学活动以及教学成果给予价值判断的过程 【2 】。其内容主要包括对教师。教”的评价和对学生“学”的评价。通过对教师“教” 评价的反馈,教师可以及时了解教学效果,发现问题,总结经验,促进教学水平提高;通 过对学生。学”评价,可以帮助教学人员合理安排教学工作,提高教学成绩。学校 的教学管理部门可以通过教学评价来准确掌握教学情况,实现对整个教学过程的质 量监控 。 现有的教学评价系统通过统计报表,部分地反映了教学效果等有关情况,但难 于发现隐藏在数据库中的有用知识,不能有效地对决策支持起辅助作用如学生对 老师的课堂评价,是现在评价教学工作的主要手段,学校每学期都要搞课堂教学评 价调查,积累了大量的数据。而目前对教师的课堂评价主要基于数值计算,把学生 的评价做一总结,将结果通报给老师,作为晋升职称、评优等的依据就完了,并不 曾对此数据做深层的思考又如,成绩作为考试的结果,是对学生学业和教师教学 效果的检查和评定。教学部门对考试成绩进行统计分析和总结是非常必要的。然而, 不少学校在阅卷评分、成绩公布、上报、分类登记保管后,其工作便告结束,也没 有对大量的成绩数据进行深入分析,加以捕捉有利于教学工作的信息。这些都是对 教学信息资源的浪费。将数据挖掘技术应用于高校的教学评价中,为教育决策提供 更加准确的参考信息,从而改进现有教学环节或过程中的不足之处,促进教育的迸 一步发展。 1 2 数据挖掘的发展历史及国内外研究现状 数据挖掘的出现是一个逐渐演变的过程。在数据处理的早期,人们希望通过某 些方法来实现自动决策,机器学习成为关心的焦点。所谓的机器学习就是通过将一 些已知的、已被成功解决的问题作为范例输入计算机,通过计算机学习这些范例, 总结并生成相应规则的过程。随后神经网络技术的形成和发展,使人们的注意力转 向了知识工程。知识工程不同于机器学习,它直接给计算机输入己被代码化的规则, 计算机通过直接使用这些规则来解决某些问题。专家系统就是这种方法所得到的成 果,但它投资大、效果不甚理想。8 0 年代,人们在新的神经网络理论的指导下,重 2 华中科技大学硕士学位论文 新回到机器学习的方法上,并将其成果应用于大型商业数据库的处理,从而导致了 一个新的术语数据库中的知识发现o d d ) 一出现,并用k d d 来描述整个数据 发掘的过程。其中的术语数据挖掘( d m ) 则用来描述使用挖掘算法进行数据挖掘 的子过程。 国际上第一次关于数据挖掘与知识发现的研讨会于1 9 8 9 年8 月在美国底特律召 开,知识发现一词在此学术会议上正式形成。1 9 9 5 年提升为国际学术大会 o n t e m a t i o n a lc o n f e r e n c eo i ld a t am i n i n g & k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) ,即在加 拿大召开了第一届知识发现和数据挖掘国际学术会议。这次会议上明确定义了知识 发现的概念,并确定了知识发现过程和数据挖掘的关系【3 】。1 9 9 8 年第四届知识发现 与数据挖掘国际学术会议上不仅进行了学术讨论,并且有3 0 多家软件公司展示了他 们的数据挖掘产品,不少软件己在北美、欧洲等国得到应用【4 1 。到目前为止,k d d 国际研讨会己经召开了多次,规模由原来的专题讨论会发展到国际学术大会,研究 重点也逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多种 学科之间的相互渗透。目前,数据库中的知识发现和数据挖掘技术己成为研究的热 点和焦点,i e e e ( i n s t i t u t ef o re l e c t r i c a la n de l e c t r o n i ce n g i n e e r s ) ,a c m ( a s s o c i a t i o nf o r c o m p u t i n gm a c h i n e 啪等学会、学刊也纷纷把数据挖掘与知识发现( d a t am i n i n ga n d k n o w l e d g ed i s c o v e r y ,d m k u ) 列为会议议题或出版专刊。 当今,对数据挖掘和知识发现的研究已经有了不少可喜成果。最有影响的发现 算法有:加拿大s i m o nf r a s r 大学j h a n 教授的概念树提升算法、m m 的1 l a g r a w a l 的关联算法、澳大利亚的j r q u i n l a n 教授的分类算法、密西根州立大学e r i c k g o o d m a n 的遗传算法等【5 1 。同时,也出现了大量数据挖掘的优秀的工具。数据挖掘 的工具分为两类:一类是基于统计分析的软件,如:s a s 、s p s s 等;另一类是应用 新技术如模糊逻辑、人工神经网络、决策树理论的工具如:c b re x p r e s s 、e s t e e n 、 k a t e - c b r 、f u z z yt e c hf o rb u s i n e s s 、a r i a 、n e u r a ln e t w o r kb r o w s e r 等软件。 与国外相比,国内对数据挖掘的研究稍晚,没有形成整体力量。目前,国内从 事数据挖掘研究的人员主要集中在大学,也有部分在研究所或公司。清华大学、中 科院计算技术研究所、空军第三研究所、海军装备论证中心等科研单位和高等院校 竞相开展了知识发现的基础理论及其应用研究。其中,北京大学在开展对数据立方 体代数的研究;华中理工大学、复旦大学、中国科技大学、浙江大学、中科院数学 研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南京大学、四 华中科技大学硕士学位论文 川联合大学和上海交通大学等单位探讨,研究了非结构化数据的知识发现以及w e b 数据挖掘等1 4 j 。 麻省理工学院的科技评论杂志提出未来5 年对人类产生重大影响的1 0 大新兴技 术,“数据挖掘”位居第- z t 6 1 。我们知道,数据挖掘技术从开始就是面向应用的, 在国外数据挖掘已广泛应用于科学研究、商业应用、以及w e b 挖掘等很多领域。如: 数据挖掘在天文学上有一个著名的应用系统:s k i c a t i n ,它是加州理工学院喷气推 进实验室与天文学家合作开发的用于帮助天文学家发现遥远的类星体的一个工具。 s k i c a t 的任务是构造星体分类器对星体进行分类,结果使得能分辨的星体较以前的 方法在亮度上要低一个数量级之多,而且新的方法比以往的方法要在效率上要高4 0 倍以上d n a 序列分析被认为是人类征服顽疾的最有前途的攻关课题。但是,d n a 序列的构成是干变万化的,数据挖掘技术的应用可能为发现特殊疾病蕴藏的基因排 列信息等提供新的解决途径 近年来,数据挖掘已经被应用c r m 的实践中,成为解决商业分析问题的典范。 客户关系管理c r m ( c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ) 是指对企业和客户之间的交 互活动或行为进行管理的过程 7 1 。c r m 的核心是通过客户和他们行为的有效数据收 集,发现潜在的市场和客户,从两获得更高的商业利润。数据挖掘能够帮助企业确 定客户的特点,使企业能够为客户提供有针对性的服务。因此,把数据挖掘和c r m 结合起来进行研究和实践,是一个有很大应用前景的工作。 随着网络的迅速发展,因特网的规模在急剧扩大,网上的信息也爆炸般地增长。 如何在浩瀚的信息海洋中快速而准确地获取想要的信息,成为亟待解决的问题数 据挖掘在因特网上的应用,成为解决问题的有效途径。这些应用主要包括:在搜索 引擎上( s e a r c he n g i n e ) 对文档进行自动分类、帮助用户寻找感兴趣的新闻以及利用数 据挖掘设计一个电子新闻过滤系统。它利用文本学习建立起该用户的趣向模型,当 用户进入一份电子报纸的网页时,该系统就会根据学习所得的模型对其中的每一篇 文章按与用户的兴趣的接近程度进行打分排序,以便使用户看到他最感兴趣的新闻 瑚。最近,还有一些数据挖掘产品可以用来筛选i n t e m e t 上的新闻,保护用户不受无 聊电子邮件的干扰和商业推销,受到极大的欢迎唧。 可以说,有数据积累的地方。就有数据挖掘技术的用武之地。在教育领域数据 挖掘也开始发挥积极的作用。在国外,欧美等国家利用数据挖掘技术已经开发出许 多相当成熟教学系统,如英属哥伦比亚大学计算机科学系开发的w e b c t ( w e bc o u r s e 4 华中科技大学硕士学位论文 t o o l s ) 、加拿大s i m o nf r a s e r 大学开发的v m u a l - u ,l o t u s 公司的l e a r n i n gs p a c e 以及 s m a r t f o r c e ,d i g i t a lt h i n k ,b l a c k b o a r d ,s y b a , p a t h w a r e 等,在这些系统中有 的己经开发出了针对教学的基本评价功能,如p a t h w a r e 提供了课程学习的评价功能, v m u a l - u 教学平台则包含了作业、考试的定性定量评价与管理,是一个比较全面的 教学评价软件另外,国外还有些公司如:c i s c o 开发出了一种先进的评价系统,对 其学员在学习、培训过程中的成绩进行评价,公司利用这些评价数据对计划和课程 作不断的改进。 如前所述,数据挖掘已经在国外的许多领域得到了应用,但在国内运用数据挖 掘技术来协助业务活动的应用还处于起步阶段,成功应用的案例还比较少。虽然, 我们可以使用国外的数据挖掘产品,但存在一定问题。如在教学应用中开发的数据 挖掘产品大多数是针对国外的教育体制和教学模式来设计的,它们并不能完全适应 国内的教育实际,因此直接将它们搬到国内来使用是不行的虽然这类产品中有少 部分产品采用了与国内联合开发的策略,可是除了增加汉化的功能外,却极少在其 原有基础上做进一步开发,而且价格往往也较昂贵。因此,开发适合我国特点的数 据挖掘产品显得尤为重要,对数据挖掘技术和工具的研究人员以及开发商来说,我 国将是一个有巨大潜力的市场。 1 3 课题的主要研究内容和结构 本课题主要工作是研究如何将数据挖掘技术与教学评价相结合,从海量数据中 提取出隐藏在数据之中的有用信息,从而提出一种以提高教学质量为根本目标的应 用数据挖掘技术进行高校教学评价的实施方案。 为了解决教学评价分类判定标准问题,引用了属性信息熵和决策树分析方法, 用于建立教学效果分类评价决策树;为了发现评价标准和结果之间的规律,引入了 能够自动发现教学规律的关联知识分析方法。 本课题以课堂教学评价信息和学生成绩分析为例,完整地实现了数据挖掘的全 过程。在建立教学效果分类评价决策树中:采用了数据集成、数据清理、数据转换、 数据消减等技术预处理数据;使用i d 3 决策树算法生成教学效果决策树,并利用事 后修剪法对决策树进行修剪;最后由决策树产生分类规则;对学生成绩评价采用关 联规则算法,使用a p r i o r i 算法挖掘关联规则,最后对规则进行描述,建立了学生成 华中科技大学硕士学位论文 绩分析模型 最后,系统采用s q ls e r v e r 数据库,以v i s u a lb a s i c 开发环境为开发工具,以课 堂教学评价数据和学生成绩为数据源,实现了具有决策树和关联分析功能的教学评 价系统。 论文的结构: 第一章绪论。主要介绍了本论文约研究背景和研究意义,综述了数据挖掘的理 论渊源、发展现状,以及国内外数据挖掘的发展情况 第二章数据挖掘技术主要介绍数据挖掘的基本知识,包括数据挖掘的定义、 数据挖掘的过程、数据挖掘的分类、数据挖掘的任务、以及数据挖掘的对象等。 第三章数据分类中的决策树算法概述。介绍了决策树分类方法的主要概念,对 几种具有代表性的决策树算法进行了较详细地阐述。 第四章数据挖掘中的关联规则,主要介绍数据挖掘中关联规则的基本概念、经 典算法及研究现状着重介绍了a p r i o r i 算法。 第五章教学评价数据挖掘系统的分析与设计。利用数据挖掘中的关联规则、决 策树算法提取教学信息系统数据的特征属性,并根据系统特征属性生成预测模型和 分类模型 第六章教学评价系统中数据挖掘技术的具体实现及应用。介绍利用数据挖掘中 决策树算法和关联规则算法开发的教学评价软件。 结束语主要总结了笔者在论文研究阶段的工作,论文的创新点。并对数据挖掘 技术在高校教学管理中的进一步研究进行了分析和展望 6 华中科技大学硕士学位论文 2 数据挖掘技术 2 1 数据挖掘的基本概念 数据挖掘是从数据中发现隐含着的有用的信息或知识的技术,它是随着人类进 入信息社会对信息价值认识不断提高而不断发展的,是为满足和解决当前“数据太 多。信息不足”的技术。简单的说,数据挖掘【1 3 ( d a t am i n i n g ) 就是从大量的、不 完全的、有嗓声的、模糊的、随视的实际应用数据中,提取隐含在其中的、入们事 先不知道的、但又是潜在有用的信息和知识的过程。还有很多和这一术语相近似的 术语,如从数据库中发现知识o d ) 、数据分析、数据采集以及数据开采等。这个定 义包括几层含义:首先,数据源必须是真实的、大量的、含噪声的;其次,发现的 是用户感兴趣的知识,发现的知识要求可接受、可理懈、可运用;同时,并不要求 发现放之四海皆准的知识,仅支持特定的发现问题。 在数据挖掘中的知识不仅仅包括从广义角度所讲的数据、信息,而更多的是把 知识看作概念、规则、模式、规律和约束等原始数据可以是结构化的,如关系型 数据库中的数据,也可以是半结构化的,如文本、图形、图像数据、甚至是分布在 网络上的异构型数据。发现知识的方法可以是数学的或非数学的、演绎的或归纳的 发现的知识可以被用于信息管理、查询优化、决策支持、过程控制等总之,数据 挖掘是一l - j 广义的交叉学科,它的发展和应用涉及到不同的领域尤其是数据库、人 工智能,数理统计、可视化、并行计算等i s ) 。 2 2 数据挖掘过程 数据挖掘是一个反复的过程,通常包含多个相互联系的步骤;数据收集与预处 理啦p 唧a r 锄蛔如dh 印蚶:的i i n g ) 、数据挖掘回啦m i n i 嘞算法执行以及绪果的解 释和评估( i n - - o n a n d e v a l u a t i o n ) 。数据挖掘过程如图2 1 所示【1 4 1 f 瑚。 1 数据收集与预处理 大量全面丰富的数据是数裾挖掘的前提:没有数据,数据挖掘也就无从谈起。 因此,数据收集是数据挖掘的首要步骤。数据可以来自于现有事务处理系统,也可 7 华中科技一大学硕士学位论文 以从数据仓库中得到。 图2 一i 数据挖掘过程图 对数据收集得到数据进行数据预处理,是数据挖掘过程中的一个重要步骤,尤 其是在对包含有噪声、不完整,甚至是不一致数据进行数据挖掘时,更需要进行数 据的预处理,以提高数据挖掘对象的质量【1 6 1 m 。 数据预处理又可分为四个步骤:数据清洗( d a t ac l e a n i n g ) 、数据集成( d a t a i n t e g r a t i o n ) 、数据变换( d a t at r a n s f o r m a t i o n ) 和数据消减( d a t ar e d u c t i o n ) 。 数据清洗通常包括:填补遗漏的数据值、平滑有噪声数据、识别或除去异常值, 以及解决不一致问题。数据集成就是将来自多个数据源( 如:数据库、文件等) 数据合 并到一起。由于描述同一个概念的属性在不同数据库取不同的名字,在进行数据集 成时就常常会引起数据的不一致或冗余。大量的数据冗余不仅会降低挖掘速度,而 且也会误导挖掘进程。因此在数据集成中还需要注意消除数据的冗余。数据转换主 要是对数据进行规格化( n o r m a l i z a t i o n ) 操作。如把连续值数据转换为离散型数据,以 便于符号归纳,或是把离散型数据转换为连续型数据,以便于神经网络计算。数据 消减的目的就是缩小所挖掘数据的规模,但却不会影响( 或基本不影响) 最终的挖掘结 果。 2 数据挖掘 数据挖掘就是利用各种数据挖掘方法和工具对数据进行分析。在数据挖掘阶段 8 华中科技大学硕士学位论文 首先要确定挖掘的任务或目的,如数据分类、聚类、关联规则发现或序列模式发现 等。然后,根据不同数据的不同特点以及用户或实际运行系统的要求,决定使用什 么样的挖掘算法。选择了挖掘算法后,就可以实施数据挖掘操作,获取有用的模式。 3 结果的解释和评估 数据挖掘阶段挖掘出来的模式中可能存在冗余或无关的模式,这时需要通过评 估将其剔除;也有可能模式不满足用户要求,就需要回退到发现过程的前面阶段, 进行重新的挖掘。另外,数据挖掘由于最终是面向人类用户的,因此可能要对发现 的模式进行可视化,或者把结果转换为用户易懂的另一种表示,如把分类决策树转 换为“i f t h e n ”规则i 瑚。 总之,整个挖掘过程是一个不断反馈的过程,需要多次的循环反复,才有可能 达到预期的效果。比如,用户在挖掘途中发现选择的数据不太好或是使用的挖掘技 术产生不了期望的结果。这时,用户需要重复先前的过程,甚至从头重新开始。 2 3 数据挖掘的分类 数据挖掘按数据库类型、挖掘对象、挖掘任务、挖掘方法与技术等几个方面进 行分类【1 9 】: 1 按数据库类型分类 数据挖掘主要是在关系数据库中挖掘知识。随着数据库类型的不断增加,逐步 出现了不同数据库的数据挖掘。现在,除关系数据库挖掘外,还有模糊数据挖掘、 历史数据挖掘、空间数据挖掘等多种不同数据库的数据挖掘类型。 2 按数据挖掘对象分类 数据挖掘除了对数据库这个主要对象进行挖掘外,还有文本数据挖掘、多媒体 数据挖掘、w e b 数据挖掘等。由于对象不同,挖掘方法的差异很大。 3 按数据挖掘任务分类 数据挖掘的任务有:关联分析、时序模式、聚类、分类、偏差监测、预测等。 按任务分类可将数据挖掘分为:关联规则挖掘、序列模式挖掘、聚类数据挖掘、分 类数据挖掘、偏差分析挖掘和预测挖掘等类型。 4 按数据挖掘的方法和技术分类 数据挖掘的技术和方法较多。包括归纳学习类、聚类方法类、统计分析类、 9 华中科技大学硕士学位论文 仿生物技术类,模糊数学类、可视化技术类等。 2 4 数据挖掘的任务 在实际应用中,数据挖掘多按照任务进行分类,教学评估数据挖掘系统也是从 该角度对数据挖掘方法进行分析、比较,从中选择一种适合教学评估的方法。下面, 先来介绍几种主要的数据挖掘任务。 2 4 1 关联分析 关联分析,即利用关联规则进行数据挖掘,是数据挖掘中的一类重要方法。若 两个或多个数据项的取值之间重复出现且概率很高时,它们就存在某种关联,可以 建立起这些数据项的关联规则。数据关联是数据库中存在的一类重要的,可被发现 的知识,它反映一个事件和其他事件之间依赖或关联。如果两项或多项属性之间存 在关联,那么其中一项的属性值就可以依据其他属性值进行预测。例如,买面包的 顾客中9 0 0 a 还买牛奶,这就是一条关联规则。在商场中将这两样物品摆放在一起销 售,将会提高销售量。 在大型数据库中,这种关联规则是很多的,需要进行筛选,一般用“支持度” 和“可信度”两个阙值来淘汰那些无用的关联规则。“支持度”表示该规则所代表的 事例( 元组) 占全部事例( 元组) 的百分比。“可信度”表示该规则所代表事例占满足前提 条件事例的百分比刚。 在数据挖掘研究领域,最著名、最重要的关联规则发现算法是r a g r a w a l 等人提 出的a p r i o r i 算法。随着对于关联分析的研究深入,人们提出了多种关联规则的挖掘 算法,使得关联规则发现的研究趋势从单一概念层次关联规则的发现发展到多概念 层次的关联规则发现。另外,关联规则知识的进一步处理、模糊关联规则的发现、 高效率的关联规则挖掘算法、网络数据中关联规则发现也是未来关联规则挖掘要深 入研究和解决的问题。 2 4 2 分类分析 分类是数据挖掘中应用得最多的任务,是在已有数据的基础上学会一个分类函 数或构造出一个分类模型( 即通常所说的分类器( c l a s s i f i e r ) ) 。该函数或模型能够把 i o 华中科技大学硕士学位论文 数据库中的数据记录映射到某一个给定类别中,从而进行数据预测。例如:信用卡 公司的数据库中保存着各持卡人的记录,公司根据信誉程度将持卡人记录分成三类: 良好、一般、较差,并且类别标记己赋给了各个记录。分类分析就是分析该数据库 的记录数据,对每个信誉等级做出准确描述,如“信誉良好的客户是指那些年收入 在5 万元以上,年龄在4 0 到5 0 岁之间的人士”,然后根据这些描述对其它具有相同 属性的数据库记录进行分类。 在分类分析中,分类模型的构造方法有决策树法、贝叶斯法,神经网络方法、 近邻学习或基于事例的学习等方法。另外,近年来又出现了一种称为粗糙集的( r o u g h s e t ) 新理论方法,它将知识表示为产生式规则。不同的分类器有不同的特点,分类的 效果一般与应用背景及数据的特点有关,不存在某种方法能适用任何应用问题,适 合于各种特点的数据。目前,研究的方向是将多种算法集成,常用的方法有组合方 法和选择方法两类。 2 4 3 聚类分析 聚类是一种常见的描述工作,它主要是把一组个体按照相似性归纳成若干类别, 即“物以类聚”。与分类分析不同,聚类分析输入的是一组未分类记录,并且这些记 录应分成几类事先也不知道聚类分析就是通过分析数据库中的记录数据,根据一 定的分类规则,合理地划分记录集合,确定每个记录所在类别。因此在聚类之后要 有一个对业务很熟悉的人来解释这样分群的意义。很多情况下一次聚集得到的分群 对业务来说可能并不好,这时需要删除或增加变量以影响分群的方式,经过几次反 复之后才能最终得到一个理想的结果。 聚类方法包括统计分析方法、机器学习方法和神经网络方法等。在统计分析方 法中,聚类分析是基于距离的聚类。这种聚类分析方法是一种基于全局比较的聚类, 它需要考察所有的个体才能决定类的划分。在机器学习方法中,聚类是无导师的学 习。此时距离是根据概念的描述来确定的,又称为概念聚类,当聚类对象动态增加 时,概念聚类则称为概念形成。在神经网络中,自组织神经网络方法用于聚类。如 a r t 模型、k o h o n v n 模型等,这是一种无监督学习方法。当给定距离阈值后,各样 本按阈值进行聚类p 】。 华中科技大学硕士学位论文 2 4 4 时序模式 时序模式是指通过时问序列搜索出的重复发生概率较高的模式【2 ”。主要是强调 时问序列的影响。例如,在所有购买激光扫印机的人中,半年后8 0 的人再购买新 硒鼓,2 0 的人用旧硒鼓装碳粉。在时序模式中,需要找出在某个最小时间内出现比 率一直高于某一最小百分比( 最小支持度阈值) 的规则。这些规则会随着形势的变化作 适当的调整。一个有重要影响的方法是“相似时序”的方法,要按时间顺序查看时 间事件数据库,从中找出另一个或多个相似的时序事件。 2 4 5 预测 预测是预测新事物的特征,它利用现有的数据找出变化规律,即建立模型,并 用此模型来预测未来数据的种类、特征等 典型的方法是回归分析,即利用大量的历史数据,以时间为变量建立线性或非 线性回归方程。预测时,只要输入任意的时问值,通过回归方程就可求出该时间的 状态。近年来,新发展起来豹神经网络方法,如b p 模型,它实现了非线性样本的学 习,能进行非线性函数的判别。 分类也能进行预测,但分类一般用于离散数值;回归预测用于连续数值;神经 网络方法预测既可以用于连续数值,也可以用于离散数值 2 4 6 偏差分析 数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常 重要的。例如:在银行的1 0 0 万笔交易中有5 0 0 例的欺诈行为,银行为了稳健经营, 就要发现这5 0 0 例的内在因素,减小以后经营的风险。偏差分析就是对分析对象的 少数的、极端的特例的描述,揭示内在的原因。 2 5 数据挖掘的对象 数据挖掘的对象主要是关系数据库。随着数据挖掘技术的发展,事务数据库、 文本数据库、多媒体数据库、空间数据库、时态数据库、环球网w e b 等也成为数据 挖掘的对象,但数据挖掘主要取决于用户的目的及所处的领域。目前,数据挖掘的 华中科技大学硕士学位论文 数据主要取自关系数据库及数据仓库 1 关系型数据库 目前建立的数据库大多都是关系数据库。如保险公司的客户记录、交通运管部 门的车辆数据库。数据挖掘方法也主要是研究数据库中属性之间的关系,挖掘出多 个属性取值之间的规则。该数据库有如下特点,因此要求数据挖掘算法有相应的改 善1 3 1 。 ( 1 ) 数据动态性 由于数据的存取和修改,使数据的内容经常发生变化,这就要求数据挖掘方法 能适应这种变化。针对数据变化采用渐增式数据挖掘方法,使挖掘的规则知识能满 足变化后的数据库内容。 ( 2 ) 数据不完整性 数据不完整性主要反映在数据库中记录的域值丢失或不存在。为此,必须对数 据进行预处理,填补该数据域的可能值。 ( 3 ) 数据噪声 由于数据的录入等原因,造成数据的错误或不一致,即数据噪声。含噪声的数 据挖掘会影响挖掘模式的准确性在数据挖掘中重点考虑噪声的影响,可以和用概 率方法排除这些噪声。 ( 4 ) 数据冗余 数据冗余表现在同一信息在多处重复出现。冗余信息可能造成错误的数据挖掘, 至少有些挖掘的知识是用户不感兴趣的。为避免这种情况的发生,数据挖掘时,必 须对冗余进行处理 ( 5 ) 数据稀疏性 数据稀疏性表现在实例空间中数据稀疏,数据稀疏会使数据挖掘丢失有用的模 式。 ( 6 ) 海量数据 , 数据库中的数据在不断增长,有些数据库已发展成为海量数据库。数据挖掘方 法需要逐步适应海量数据挖掘,如建立有效的索引机制和快速查询方法等。 2 数据仓库 数据仓库是从多个数据源收集的信息存储,存放在一个一致的模式下,通常驻 留在单个站点。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期刷 华中科技大学硕士学位论文 新来构造【1 4 l 。因此,在从数据仓库中实现数据挖掘有许多好处。如从数据仓库中可 以直接得到数据挖掘的数据,可以省去数据清理的步骤,因为数据在导入数据仓库 时已经清理过了。同时,数据的不一致问题也得到了很好的解决了。 3 事务数据库 数据仓库不是必须的,建立一个巨大的数据仓库,把各个不同源的数据统一在 一起解决现有的数据冲突问题,把所有的数据导入一个数据仓库内,是一项巨大的 工程,可能需要几年的时间和花费数百万的资金才能完成。若只是为了数据挖掘, 可以把一个或几个事务数据库集中到一个只读的数据挖掘库,就把它当作数据集市, 然后在它上面进行数据挖掘。 2 6 本章小节 本章主要介绍了数据挖掘的定义、过程、分类、任务、对象等,为之后章节中 的数据挖掘的实际应用奠定了坚实的理论基础。后面章节中将介绍如何利用数据挖 掘中的关联规则、决策树算法建立高校教学评价模型。 1 4 华中科技大学硕士学位论文 3 数据分类中的决策树算法概述 3 1 数据分类中的决策树算法 3 1 1 分类的基本概念 数据分类( d a t ac l a s s i f i c a t i o n ) 在数据挖掘中是一项非常重要的任务,是在已有数 据的基础上学会一个分类函数或构造出一个分类模型( 即通常所说的分类器 ( c l a s s i f i e r ) ) 。该函数或模型能够把数据库中的数据记录映射到某一个给定类别中, 从而进行数据预测。 要构造分类器,需要有一个训练样本数据集作为输入。训练样本集( t r a i n i n gs e t ) 由一条条数据记录或元组组成。每条记录包含若干个属性( a t t r i b u t e ) ,组成一个特 征向量,同时每条记录把用于分类的属性叫做标签属性( c l a s sl a b e la t t r i b u t e ) ,标签属 性也就是训练样本集的类别标记,该类标签是系统输入的,通常是以往的一些经验 数据。一个具体样本的形式可以为样本向量:( v 1 ,v 2 ,, v n :c ) 。这里v i 表示字段值, c 表
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 保密制度培训班课件
- 2025-2026学年江西省赣州市五校协作体物理高三上期末达标检测试题
- 不良贷款处置管理办法
- 湖南娱乐垂钓管理办法
- 海上实验奖励管理办法
- 庆阳辅警考试题库(含答案)
- 2025年高级导游等级考试(导游综合知识)考前冲刺试题及答案(云南省)
- 企业安全教育培训人要求课件
- 物联网可信计算模型-洞察及研究
- 区块链审计追踪技术-洞察及研究
- 灾害现场检伤分类
- 献唐学校及桂林路小学窗帘采购需求方案
- 装饰材料与构造
- GB/T 29781-2013电动汽车充电站通用要求
- 七年级上册劳技教案
- 培养科研素养提高科研能力课件
- 公司企业接收证明
- 苏州大学医学部操作技能直接观察评估(DOPS)评分表
- 暂时进出口协议范本样本
- (烹饪)基本功教学教案
- 第11章-网络故障诊断及排除ppt课件(全)
评论
0/150
提交评论