(通信与信息系统专业论文)教育信息挖掘模型的设计与实现.pdf_第1页
(通信与信息系统专业论文)教育信息挖掘模型的设计与实现.pdf_第2页
(通信与信息系统专业论文)教育信息挖掘模型的设计与实现.pdf_第3页
(通信与信息系统专业论文)教育信息挖掘模型的设计与实现.pdf_第4页
(通信与信息系统专业论文)教育信息挖掘模型的设计与实现.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

(通信与信息系统专业论文)教育信息挖掘模型的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 摘要 在高等学校的信息化建设中积累了大量的数据,挖掘隐藏在这些数据背后的 知识,为人们的决策提供帮助,对于促进高等学校的建设,具有一定的现实意义。 本文对数据挖掘中的决策树算法i d 3 算法进行了研究,并结合教育管理信息中数 据的特点,对i d 3 算法进行了改进;并设计了教育信息挖掘模型d t - i d m 。 决策树学习算法在数据挖掘技术中具有很重要的作用。但决策树的i d 3 算法 有以下三方面不足:( 1 ) 在决策树的每个节点上只选择单个属性,属性间的相关性 强调不够,导致决策树中子树的重复( 2 ) 在生成决策树过程中,由于递归地划分, 些数据子集可能变得太小,进一步划分就失去了统计意义。( 3 ) 倾向于有许多值 的属性。 针对i d 3 算法存在的不足,结合教育管理信息中数据的特点,对i d 3 算法进 行了改进,提出了i d t d m 算法,主要做了以下改进:( 1 ) 引入相关度概念,将与 分类属性相关度小于事先规定的阈值的属性剔除,降低了决策树的复杂度,使生 成的知识、规则更容易理解。( 2 ) 在生成决策树过程中,算法根据设定的分类阙值 进行判断,决定是否进一步划分,如果划分停止则创建一个叶节点。( 3 ) 引进了复 合度量基准取代信息增益作为决策属性选择的标准。在一定程度上解决了决策树 采用信息增益基准所造成的偏向有许多值的属性的缺陷。 根据改进的i d t - d m 算法,设计了面向教育管理决策的数据挖掘模型:在挖 掘模型d t - i d m 的实现过程中,运用v i s u a lc + + 开发语言,采用s q ls e r v e r 2 0 0 0 数据库创建了教育信息挖掘库。根据教育信息库中的数据,对学生课程成绩信息, 学生基本信息等信息进行挖掘。在知识的表达和解释方面,使用易理解的表格、 图形等,并迸行了解释和评估。 关键词:数据挖掘,决策树,分类技术,数据库,教育信息 荚文摘要 t h e d e s i g na n dr e a l i z a t i o no f e d u c a t i o ni n f o r m a t i o nm i n i n gm o d e l a b s t r a c t t h e r ea r el o t so fd a t aa c c u m u l a t e db yu n i v e r s i t i e sa n dc o l l e g e sd u r i n gp e d a g o g i c m a n a g e m e n t d a t am i n i n gt e c h n o l o g yc o u l db eu s e dt om i n ev a s td a t aa n dg e tv a l u a b l e i n f o r m a t i o nb e h i n dt h ed a t a i th a sb e e nw i d e l ya p p l i e dt om o r ea n dm o r ef i e l d s ,w h i c h c o u l dp r o v i d ev a l u a b l ei n f o r m a t i o nf o ra c c u r a t ed e c i s i o nm a k i n g t ou t i l i z et h ed a t a a c c u m u l a t e db yu n i v e r s i t i e sa b o u tp e d a g o g i cm a n a g e m e n te f f e c t i v e l y , c l a s s i f i c a t i o n r u l e sw a sr e s e a r c h e da n d i d 3a l g o r i t h mw a si m p r o v e da c c o r d i n gt ot h ec h a r a c t e r i s t i c s o fe d u c a t i o ni n f o r m a t i o n e d u c a t i o ni n f o r m a t i o nd a t am i n i n gm o d e l ( d t o d t - i d m ) i s d e s i g n e da n dr e a l i z e da c c o r d i n gt op r a c t i c a lr e q u i r e m e n tb a s e do ni m p r o v e d1 1 ) 3 a l g o r i t h m d e c i s i o nt r e ei e a m i n ga l g o r i t h mh a sp l a y e da ni m p o r t a n tr o l ei nd a t am i n i n g t e c l m o l o g y i d 3a l g o r i t h mh a st h r e es h o r t a g e s :( 1 ) o n l ys i n g l ea t t r i b u t ec o u l db ec h o s e n i ne a c hn o d eo fad e c i s i o nt r e e c o r r e l a t i o nb e t w e e na t t r i b u t e sh a sn o tb e e ne m p h a s i z e d s u f f i c i e n t l yw h i c hl e a d st o 幻m ea t t r i b u t e sb e i n gc h o s e nd u p l i c a t e d l y ;( 2 ) d u n g c r e a t i n gad e c i s i o nt r e e ,s o m ed a t a s e tw o u l db et o os m a l lt ob ep a r t i t i o n e dr e c u r s i v e l y t h u sm a k i n gf _ i | r t h f f rp a r t i t i o nw o u l db em e a n i n g l e s s ( 3 ) i d 3a l g o r i t h mt e n d st oc h o o s e a t t n b e t ew i t hm a n yv a l u e s c o m b i n e dw i t ht h ec h a r a c t e r i s t i c so fp e d a g o g i cm a n a g e m e n ti n f o r m a t i o n , i d 3 a l g o r i t h mh a sb e e ni m p r o v e dt om a k eu pt h et h r e es h o r t a g e sm e n t i o n e da b o v ea n da d e wa l g o r i t h mc a l l e di d t - d ma l g o r i t h mi sd e s i g n e db a s e do nt h ei m p r o v e di d 3 a l g o r i t h m i d t - d ma l g o r i t i u nh a st h ef o l l o w i n gi m p r o v e m e n t s :( 1 ) c o r r e l a t i o nd e g r e e c o n c e p ti si n t r o d u c e di ni d t o d ma l g o r i t h mt oh a v ea l ln o c l a s s i f i e da t t r i b u t e sb e i n g a n a l y z e da c c o r d i n gt oc o r r e l a t i o nd e g r e e a n dc o r r e l a t i o nd e g r e et h r e s h o l di s s e tt 0 d e l e t et h ea t t r i b u t e sw h i c hh a v et h ec o r r e l a t i o nd e g r e ev a l u e sb e l o wt h ed e f a u l t t h r e s h o l d ( 2 ) c l a s s i f i c a t i o nt h r e s h o l di s s e tt oa v o i dp o r t i o n i n gt h em i n e dd a t a s e t r e p e a t e d l y a n yd a t a s e tw i t hi t e m sn u m b e rl e s st h a nt h ec l a s s i f i c a t i o nt h r e s h o l dw o u l d n o tb ep a r t i t i o n e da n ym o r e ,i n s t e a d , al e a f - n o d ei sc r e a t e d ( 3 ) c o m p l e xm e a s l l r e 英文摘要 s t a n d a t di st a k e nt or e p l a c eo f i n f o r m a t i o ng a i nt ob e1 1 e ws t a n d a r do f c h o o s i n ga t t r i b u t e i nm 1 - d ma l g o r i t h m b a s e do no p t i m i z e dt h ei d t - d ma l g o r i t h m , e d u c a t i o ni n f o r m a t i o nd a t am i n i n g m o d e l ( d t 4 d 岣h a sb e e nd e s i g n e da n di m p l e m e n t e d i nt h ec o i e 3 eo fi m p l e m e n t i n g d l e d m 。s u a lc + + h a sb e e nc h o s e na st h ed e v e l o p m e n tl a n g u a g ea n ds q l s e r v e r 2 0 0 0h a sb e e nu s e dt oc r e a t ee d u c a t i o ni n f o r m a t i o nm i n i n gd a t a b a s et os t o r et h e m i n e dd a t a c l a s s i f i c a t i o nr u l e ss u c ha sc o r r e l a t i o nb e t w e e nc u r r i c u l aa n dt h ei n f l u e n c e o fs t u d e n t s b a s i ci n f o m m t i o no l lc a r e e rc h o i c ea f t e rg r a d u a t i o nc o u l d , b eg o t t e nb y m i n i n gd a t a me d u c a t i o ni n f o r m a t i o nm i n i n gd a t a b a s e m i n e dr u l e sc a n b ee x p l a i n e d a n de v a l u a t e dc l e a r l yb yu s i n gf o r ma n dg r a p h k e yw o r d s :d a t am i n i n g ;d e c i s i o nt r e e ;c l a s s i f i c a t i o nt e c h n i q u e ;i d 3a l g o r i t h m ; d a t a b a s e ;e d u c a t i o ni n f o r m a t i a _ , 大连海事大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果, 撰写成硕士学位论文 :熬宣篮显控翅毯型的遮让生塞丑:。除论文中已经注 明引用的内容外,对论文的研究做出重要贡献的个人和集体,均已在文中以明确 方式标明。本论文中不包含任何未加明确注明的其他个人或集体已经公开发表或 未公开发表的成果。 本声明的法律责任由本人承担。 、 论文作者签名:l 七:留o c 力年t 一月7eli 1 ) 学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连海事大学研究生学位论文提交、 版权使用管理办法”,同意大连海事大学保留并向国家有关部门或机构送交学位论 文的复印件和电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将本 学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫 描等复制手段保存和汇编学位论文。 保密口,在年解密后适用本授权书。 本学位论文属于:保密口 不保密西( 请在以上方框内打“”) 论文作者签名i 善:寺。电导师签名:刁,。竺羁 日期:枷f ) 年,。月憎日 教育信息挖掘模型的设计与实现 第1 章绪论 计算机科学与技术的发展,为信息产业的崛起提供了必要的技术支持。而计 算机软件产业迅猛发展,使我们处理海量数据成为可能。在目前情况下,大部分 数据库系统仍应用于事务处理,积累的大量数据斡内在价值没有得到很好的挖掘。 而隐藏在这些数据之后最能反映数据的本质的知识、内在规律,在决策过程中具 有重要的参考价值。决策者在进行决策的时主要依赖于对历史数据的分析结果、 直觉、经验和有关的专业知识,而无法利用隐藏在海量数据背后的知识和规律, 其根本原因在于决策者缺乏从海量数据中提取有价值知识的工具。因此,如何开 采在海量数据中蕴藏的“矿藏”并加以提炼,使之成为有用的知识,以充分发挥 其社会价值和经济价值是一项有着重大意义的工作。数据挖掘就是从大量的、不 完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中人们事先 不知道的,但又潜在有用的信息和知识的过程。数据挖掘可根据其功能分为:特 征化和区分、关联分析、分类和预测,聚类分析、孤立点分析和演变分析等。 本文旨在运用经典的挖掘算法,挖掘隐藏在教育信息中的关联规则。 1 1教育信息挖掘技术的应用状况 数据挖掘较多地应用于商业,在营销领域中,用于发现交易数据中不同商品( 项) 之间的联系,这些规则找出顾客的购买行为模式,如购买了某一商品对其它商品 的影响。发现这样的规则可以应用于商品货架设计、货存安排以及根据购买模式 对用户进行分类。在已有的数据挖掘应用中,较少发现用于教育信息的挖掘,更 少看到直接对反映学生学业情况的数据进行关联规则的挖掘,而事实上数据挖掘 技术同样可以应用于教育领域,只不过应用的主要目的不仅仅是为了商业利益。 在教育领域中,随着信息化的普及,信息管理系统在学校教学管理和事务管 理中发挥了重要的作用,成为学校管理系统中的重要组成部分。作为信息管理系 统的数据库通常存贮着大量的数据,其中相当一部分是直接与教学相关的数据, 另一部分数据中包含了学生的基本数据。随着教育信息化的推进,各种全新的教 育理念和教学模式不断地被推出,使支持这种模式的学校数据库的内容大为丰富, 第1 章绪论 学校实现了从无纸化管理到利用网络的自主学习,网上测试等,几乎所有的信息 都可以通过电脑找到。但是这些数据目前仍然主要被用于教学管理和教学支持, 而其中隐藏着大量教育和教学信息的历史数据并没有得到很好的利用,这些数据 的内在价值没有得到充分的认识。当然也就谈不上如何挖掘隐藏在这些数据中的 教育规律、学生的培养模式、学生学课之间的差异性和相关性规律了。 另一方面,在实际教学工作中却长期存在着一些缺少依据的看法:如数学成 绩优秀的同学,他们的其他理科成绩一般会比较出色;普通物理掌握的好的同学, 接受能力和分析问题的能力比较强;父母受教育程度较高的学生,他们的学习成 绩一般不会差等等。而这些看法在一定的条件因其与事实的基本一致而得到了广 泛认同。但无法为这些看法提供必要的理论和实验依据。而通过对历史数据进行 数据挖掘获得的规则,可以为某些命题的成立提供依据。 数据挖掘技术的出现为发挥这些数据的潜在价值提供了必要的技术基础。通 过对大量的教育信息中挖掘得到的规则,可以作为教育和教学管理决策的重要依 据,对教育、教学改革和对学生进行针对性的培养具有现实的指导意义。学校的 决策层可以运用这些规则所揭示的学生在学习中不同学科之间的相关性,组合学 习课程,使相关学科互相促进共同提高;利用课程的相关性、知识的相关性、学 生学习兴趣的可迁移性,在活动课中组织跨学科的活动,扩大学生在学习中学科 之间的相关性和相关程度,引导学生从强势学科入手,提高相对较弱的学科,发 挥学生的学习潜能,提高学生的学习效率,最终使学生在学业上均衡发展 1 2教育信息及其结构 教育信息主要由多年来在高等职业院校的信息化建设过程中积累的各种与教 育、教学相关的信息组成。从结构上表现为由结构化的信息和非结构化信息。结 构化信息是存在逻辑关系的数据和信息,它包括由基于以下各类关系型数据库管 理系统,例如v i s u a lf o x p r o 、a c c e s s 、s q ls e r v e r 、m y s q l 、s y b a s e 等的数据库以 及电子表格e x c e l 等,而非结构化信息可以由文本文件、数据文件、网页文件等构 成,教育信息的构成如图1 1 所示。 教育信息挖掘模型的设计与实现 图1 1 教育信息库结构 f i g1 1t h es t r u c t u r e o fe d u c a t i o n a li n f o r m a t i o nb a s e v i 文l a lf o x p r o 基于单机的关系型数据库管理系统,曾经在国内得到广泛的 应用而这些系统有些至今还在使用。这些系统中存储着大量的历史数据, 对于时序数据挖掘技术而言是很有价值的。 s q ls e r v e r :是基于网络的主流数据库管理系统,目前有很多学校的管理 信息系统采用此数据库,是管理信息系统的采用的主体数据库管理系统。 a c c e s s 、s y b a s e :部分学校管理信息系统采用的数据库。 e x c e l :存储一些特殊需要数据的电子表格。 这些结构化的信息由于采用了不同的系统,因此在数据挖掘前必需通过数 据集成的方式将它们转换成同一结构的数据库中。 对于大量存在的以非结构化的形式存在信息,如果需要对这类数据进行数 据挖掘,应先将这些数据转化为结构化数据或采用专门的数据挖掘方法如w e b 数据挖掘、t e x t 文本数据挖掘来实现 第1 章绪论 1 3 论文研究内容及章节安排 本文通过对现有的教育教学历史数据的挖掘,希望达到以下目的: ( 1 ) 通过对数据挖掘,从中寻找教育规律、学生课程成绩的变化规律,从而揭 示教育、教学中客观存在的但未被发现的规律、或以前虽有认识,但并不全面了 解的规律,以制订正确的教育策略。 ( 2 ) 通过数据挖掘得到的规则来验证教育科学研究的结论,使其更科学、更有 说服力。教育科研中常用的取样的方法可能会因样本数据太小而不准确,而对历 史数据的挖掘可以克服上述存在的缺陷。 ( 3 ) 通过对数据挖掘算法应用的分析,对完善算法提出补充方法。 ( 4 ) 根据课程间的内在规律,可以根据以往课程的成绩来预测学生后续课程的 成绩,并能够采取针对性的措施,改善学生的学习状况。 本文首先研究了决策树学习算法中的i d 3 算法。针对i d 3 算法的不足,本文 结合教育管理信息中数据的特点对i d 3 算法进行了改进,设计、实现了i d t - d m 算法,算法主要做了以下改进: ( 1 ) 引入相关度概念,在建立决策树之前先对挖掘对象的非分类属性进行相关 往分析,剔除与分类属性相关度小于事先规定的阈值的属性,从而减少了子 树的重复程度,有效的降低了决策树的复杂度。 ( 2 ) 对于在生成决策树过程中,某些数据子集可能变得太小的情况,算法可根 据设定的分类阈值进行判断,如果给定子集中的样本数少于该阈值,该子集 的进一步划分停止作为替换,创建一个叶节点。 ( 3 ) 在决策树剪枝时,提出剪枝和实现算法。 ( 4 ) 引进了复合度量基准取代信息增益作为决策属性选择的标准。在一定程度 上解决了决策树采用信息增益基准所造成的偏向有许多值的属性的缺陷,并 可改善决策树结构和分类正确率。 然后,根据改进的i d t - d m 算法,设计了面向教育管理决策的数据挖掘模型。 本文的内容安排如下: ( 1 ) 绪论部分:讨论教育信息挖掘技术的发展现状、教育信息库的构成和论文 教育信息挖掘模型的设计与实现 研究内容。 ( 2 ) 介绍数据挖掘的基本原理、基本概念,决策树和决策树的学习算法。 ( 3 ) 就基于i d 3 算法的决策树分类挖掘进行分析讨论,提出改进方法。 ( 4 ) 教育信息挖掘模型的设计 ( 5 ) 教育信息分类规则的挖掘 ( 6 ) 挖掘结果的比较与分析 ( 7 ) 结论 第2 章数据挖掘的基本原理 第2 章数据挖掘原理 2 。1 数据挖掘的基本概念 1 9 8 9 年8 月,在第1 1 届国际人工智能联合会议的专题讨论会上,首次提出 基于数据库的知识发现 d d ,k n o w l e d g ed i s c o v e r yi nd a t a b a s c ) 技术。该技术涉及 机器学习、模式识别、统计学、智能数据库、知识获取、专家系统、数据可视化 和高性能计算领域。1 9 9 5 年,在美国计算机年会( a c m ) 上,提出了数据挖掘( d m , d a t am i n i n g ) 的概念,即通过从数据库中抽取隐含的、未知的、具有潜在使用价值 信息的过程。数据挖掘是k d d 过程中最为关键的步骤,在实际应用中对数据挖掘 和k d d 这二个术语往往不加区别。数据挖掘诞生后,诸多因素促进了数据挖掘技 术的发展和应用,大规模数据库,尤其是数据仓库的出现,促使数据挖掘技术得 到迅速发展和应用;计算机技术,尤其是网络技术和并行处理体系的发展,速度 快、运算能力强的计算机系统为数据挖掘的实现提供了良好的环境;全球经济一 体化的进程日益加快,企业所面临的市场竞争压力日趋严重,企业经营管理者希 望能够从企业积累的大量历史数据中找到经营管理中存在的问题及其原因;相关 科学的发展促进了数据挖掘技术的应用。 1 数据挖掘的定义: 数据挖掘( d a t am i n i n g ) 就是扶大量的、不完全的、有噪声的、模糊的、随机的 数据中,提取隐含在其中的,人们事先不知道的、但又是潜在有用的信息和知识 的过程。 通常把这些有用的信息归纳成知识规则、约束,便于人们在更抽象、概括的 层次上使用这些数据。 这个定义包括的含义:数据挖掘的对象数据源必须是真实的、大量的、含 嗓声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用; 并不要求发现放之四海皆准的知识,只需要支持特定的发现问题。 数据挖掘与传统的数据分析( 如查询、报表、联机应用分析) 的本质区别是数据 挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息 教育信息挖掘模型的设计与实现 应具有未知,有效和可实用三个特征 所谓未知的信息是制预先未曾预料到的信息,即数据挖掘要发现的是那些不是 依赖直觉发现的信息或知识,这些知识甚至违背直觉的。一般来说,挖掘出的信 息越是出乎意料,就可能越有价值。 信息的有效性要求数据挖掘前要对被挖掘的数据进行仔细检查,只有保证信 息( 或数据) 的有效性,才能保证挖掘出来的信息的有效性。 最为重要的是要求是挖掘所得的信息是可实用,即这些信息或知识对于所讨论 的业务或研究领域是有效的、是有实用价值和可实现的。常识性的、已被人们掌 握的或无法实现的事实都是没有意义的。 挖掘所得的信息的实用性是数据挖掘的价值体现,在销售领域,通过对顾客 群体购物数据的挖掘,可以发现对于某些产品的潜在需求群体,向这些群体详细 地介绍产品可以取得较好的广告效应,有效地减少销售成本。 数据挖掘所能发现的知识有以下几种:广义型知识,反映同类事物共同性质 的知识;特征型知识,反映事物各方面的特征知识;差异型知识,反映不同事物 之闻属性差别的知识:关联型知识,反映事物之间依赖或关联的知识;预测型知 识,根据历史的和当前的数据推测未来数据;偏离型知识,揭示事物偏离常规的 异常现象所有这些知识都可以在不同的概念层次上被发现,以满足不同层次决 策的需要。 2 数据挖掘流程: ( 1 ) 定义问题;明确定义业务问题,确定数据挖掘的目的。 ( 2 ) 数据准备:数据准备包括:选择数据一在大型数据库和数据仓库目标中提取 数据挖掘的目标数据集;数据预处理一进行数据再加工,包括检查数据的完整性及 数据的一致性、消除噪声,填补丢失的域,删除无效数据等。 ( 3 ) 数据挖掘:根据数据功能的类型和和数据的特点选择相应的算法,在净化 和转换过的数据集上进行数据挖掘。 ( 4 ) 结果分析:对数据挖掘的结果进行解释和评价,转换成为能够最终被用户 理解的知识。 第2 章数据挖掘的基本原理 ( 5 ) 知识的运用:将分析所得到的知识集成到业务信息系统的组织结构中去 3 数据挖掘的任务: ( 1 ) 关联规则挖掘 关联规则挖掘是数据挖掘中的一个重要研究内容,用来发现大量数据中项集 之间有趣的关联或相关联系。关联规则展示了“属性值”频繁地在给定数据集中 一起出现的条件,形如:a _ b ,解释为“满足a 中条件的数据元组多半也满足b 中的条件”。一个典型的例子是购物篮分析,通过发现顾客放入其购物篮中不同商 品之间的联系,分析顾客的购买习惯。 ( 2 ) 特征化分析 数据特征化,又称为数据总结,是对数据的一般特征或特性的汇总。传统的 也是最简单的数据总结方法是计算出数据库的各个字段上的求和值、平均值、方 差值等统计值,或者用直方图、饼状图等图形方式表示。数据挖掘主要关心从数 据泛化的角度来讨论数据总结,即把数据库中的有关数据从低层次抽象到高层次 上由于数据库上的数据或对象所包含的信息总是最原始、基本的信息,人们有 时希望能从较高层次的视图上处理或浏览数据,因此需要对数据进行不同层次上 的泛化以适应各种查询要求。数据泛化目前主要有两种技术:多维数据分析方法和 面向属性的归纳方法。 ( 3 ) 分类 分类用于提取描述数据类或概念的模型,以便能使用模型预测类标记未知的 对象类数据分类是一个两步过程。第一步,通过分析由属性描述的数据库元组 来构造一个模型,描述预定的数据类集或概念集;第二步,使用模型进行分类。 导出的模型可以用多种形式表示,常用的有分类规则、决策树、神经网络、 贝叶斯分类等。决策树是一个类似于流程图的树结构,每个节点代表在一个属性 上的测试,每个分支代表测试的一个输出,树叶代表类或类分布。神经网络是一 组类似于神经元的处理单元,单元之间加权连接。 除此之外,其他的分类方法包括基于关联挖掘技术的a r c s ( 关联规则聚类系 统) 、关联分类和c a e p ( 聚集显露模式分类) ,基于类比学习的k 一最临近分类,基 教育信息挖掘模型的设计与实现 于案例推理分类法,遗传算法和粗糙集算法等。 ( 4 ) 聚类分析 聚类是将一个群体按其相似性和差异性分为若干组的过程。由聚类所生成的 簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中 的对象相异。通过聚类,人们能够识别密集的和稀疏的区域,因而发现全局的分 布模式,以及数据属性之间的有趣的相互联系。与分类不同的是,聚类是无指导 的学习,不依赖于预先定义的类。 聚类分析的应用很广泛,包括模式识别、数据分析、图象处理以及市场研究 等。在商务上,聚类能够帮助市场分析人员从客户基本库中发现不同的客户群, 并且用购买模式来刻画不同的客户群的特征。在生物学上,聚类能用于推导植物 和动物的分类,对基因进行分类,获得对群中固有结构的认识。 主要的聚类的方法有划分方法、层次方法、基于密度的方法、基于网格的方 法和基于模型的方法。 ( 5 ) 预测分析 预测与分类不同的是,分类用来预测离散型数据,而预测则建立连续值或有 序值函数模型典型方法是回归分析,即根据历史数据,找出变量与时间之间的 依存关系,建立线性模型或非线性模型,从而对将来一时闯点的数量进行预测。 最简单且应用最广泛的的回归模式是线性回归,回归系数可以用最小二乘法 求解。将线性回归的预测变量由一个扩展到多个,就是多元回归。多项式回归是 在基本线性模型上添加多项式项,通过对变量进行变换,可以将非线性模型转换 为线性模型。 ( 6 ) 时间序列模式分析 又称趋势分析,根据数据随时问变化的趋势预测将来的值。它与关联模式挖 掘的区别在于,关联模式挖掘是发现同一笔交易或同条记录中数据项之间的关 联,而序列模式挖掘则是发现同一顾客中数据项集按时间先后秩序出现的规律。 ( 7 ) 偏差分析 是指在与时间相关数据库中某客体的偏离模式的发现与评估。客体的期望行 第2 章数据挖掘的基本原理 为通常由用户给定或根据假设( 如平均、线性增长) 计算得知。例如发现某些股票在 某段时间内其行为不同予大多数股票的发展趋势。 数据库中的数据存在很多异常情况,从数据分析中发现这些异常情况也是很 重要的,它可以引起人们对它更多的注意。 偏差检测的基本方法是寻找观察结果与参照之间的差别。观察常常是某一个 阈值或多个闺值的汇总,而参照是给定模型的预测、外界提供的标准或另一个观 察。 4 数据挖掘过程 数据挖掘过程见图2 1 图2 1 数据挖掘过程 f i 萨1p r o d u s s i n go f d a t am i n i n g ( 1 ) 数据预处理: 数据预处理的任务是从不同的数据源中收集数据,并将这些数据以合适的形 式存放到统一的数据库中,其基本构成包括数据清理、数据选择和数据集成。 数据清理的任务;消除数据源( 包括关系数据库、数据仓库、事务数据库、超 文本和多媒体数据等多种形式的数据集合) 中的噪声,识别和处理孤立点数据,纠 正数据中的不一致表示( 文献【3 刀) 和处理空缺值。对于数据中存在随机错误( 噪声) 和孤立点,对于噪声应采取措施,使其平滑:对孤立点,应先识别这些数据是错 误数据还是尚未认识的有用数据,然后决定数据的取舍。作为被挖掘对象的数据 集合,中存在的对同一对象的不一致的描述,应根据一定原则,实现同一数据对 教育信息挖掘模型的设计与实现 象逻辑描述的一致。对数据中存在的空缺值,可根据其数据量的大小和对数据挖 掘结果可能的影响,采用忽略该记录或填入适当值( 如中值、均值、含权均值、默 认值等) 的方法予以解决。对于可能存在的对对象描述的两义性,以明确无误、无 歧义的方式加以定义。 数据选择的任务:从数据集中选择与业务对象有关的数据以满足数据挖掘应 用的需要。 数据集成的任务:将多个不同的数据源中的数据根据数据挖掘的要求,重新 组织结合,在消除数据对象中的属性冗余和数据冗余后存放在一个数据存储( 如数 据表) 中。 ( 2 ) 数据变换:将数据转换成适合于挖掘的形式。主要内容包括: 聚集:对某些数据进行汇总以适合挖掘算法的要求。例如将当月各天的详 细销售情况汇总成日销售量。 数据归纳;使用概念分层,用高层次概念替换低层次的原始数据。例如将 类别数据替换具体数据。 属性规范化:将属性数据按要求和比例缩放,使之落在一个特定的分布区 间,如0 1 0 0 。 属性构造:由已有的属性构造和添加新的属性,如根据属性h e i g h t 和w i d t h , 构造和添加a r e a 属性。 数据量化:对量化属性,使用预定义的概念分层对连续数据进行离散化, 以区间值来表示属性原来的数值。如0 5 9 和6 0 1 0 0 ,分别量化为o 、l 。 ( 3 ) 数据挖掘:根据所采用的挖掘算法,建立相应的挖掘软件和程序,运行这 些软件和程序,产生候选数据模式。 ( 4 ) 模式评估和表示:根据给定的兴趣度来评估所发现的候选数据模式,过滤 掉不感兴趣的模式,表示真正有意义的模式。 2 2分类和分类方法 分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类 的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是 第2 章数据挖掘的基本原理 利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。 分类的目的是:分析输入数据,通过在训练集中的数据表现出来的特性,为 每一个类找到一种准确的描述或者模型。由此生成的类描述用来对未来的测试数 据进行分类。尽管这些未来的测试数据的类标签是未知的,我们仍可以由此预测 这些新数据所属的类。我们也可以由此对数据中的每一个类有更好的理解。也就 是说:我们获得了对这个类的知识 数据挖掘中的分类方法,是将数据集按某个指定的属性划分,并给出分类规 则。分类问题用数据库术语表示如下: 对于一个给定的数据集,该数据集具有m + 1 个属性c 1 ,c 2 ,c m ,c 。 且均为种类字段。c 作为分类属性。将此数据集按c 的属性值分类,形成个分 类模型。利用该模型对新的数据集进行分类预测,即在己知新数据集c i ,c 2 , c m 的值的情况下预测分类属性c 的值。一般的分类问题需要经历三个阶段: ( 1 ) 分类模型训练阶段 这是一个机器学习过程,用分类算法和训练集创建分类模型训练集用其分 类属性的属性值表示类别。分类模型中的预测模式可以用分类规则,决策树和其 他形式来表达。 ( 2 ) 分类模型评估阶段 该阶段的任务是评判分类模型的质量,可以使用五个指标进行比较和评估, 这五个指标是:模型的准确性、计算复杂度、强壮性、可伸缩性和模型描述的简 洁度。方法:使用创建的模型对一个类别已知的数据集测试集上进行预测, 并将预测结果和实际值进行比较。测试集和训练集必须相互独立。 ( 3 ) 模型预测 使用分类模型对未知其类别属性值的数据进行分类处理。 归纳学习是从大量的经验数据中归纳抽取出一般的规则和模式的一种重要的 数据挖掘方法,是符号学习中研究得最为广泛的一种方法。它通过对一组无次序、 无规则的事例归纳学习,从中找出蕴涵的规律。事例一般是基于属性理论的,可 以由特定的属性值得到问题的某个结论。对于给定关于某个概念的一系列已知的 教育信息挖掘模型的设计与实现 正例和反例,归纳学习的任务是从中归纳出一个通用的概念描述,它能够获得新 的概念,创立新的规则,发现新的理论它的一般的操作是泛化( g e n e r a l i z a t i o n ) 和 特化( s 删i z 砒i ) 泛化用来扩展假设的语义信息,以使其能够包含更多的正例, 应用于更多的情况特化是泛化的相反的操作,用于限制概念描述的应用范围。 单个概念的归纳学习可定义为: ( 1 ) 给定由全体实例组成的一个实例空间,每个实例具有某些属性。 ( 2 ) 给定一个描述语言。该语言的描述能力包括描述每一个实例( 通过描述该实 例的属性来实现) 及描述某些实例集,称为概念。 ( 3 ) 每次学习时,由实例空间抽出某些实例,称这些实例构成的集合为正例集, 再由实例空间抽出另外一些实例,称这些实例为反例集。 ( 4 ) 如果能够在有限步内找到一个概念a ,它完全包含正例集,并且与反例集 的交集为空,则a 就是所要学习的单个概念,学习成功;否则,学习失败。 ( 5 ) 如果存在一个确定的算法,使得对于任意给定的正例集和反例集,学习都 是成功的,则称该实例空间在该语言表示下是可学习的。 在学习中,可能在有限步内并不能找到一个单一概念符合于所有的正例和反 例,找到的可能是一个概念的集合,那么就必须从这个概念的集合当中选取一个 概念作为学习概念。怎样在概念集合中选取单个概念,就需要一定的先验知识。 这个先验知识就是所谓的偏置倾鹳) 。所谓偏置是指明学习中除去正例和反例之外 所有影响假设组成与选择的因素。每个学习算法中都包含偏置。比如用什么语言 来表示假设、用什么语言来表达实例,用什么方法在不同的表达方法之间转换, 在假设形成过程当中,用什么方法形成假设,假设形成之后如何对它进行修改、 如何对噪音与失掉的数据进行处理等等方面都可以叫作偏置。并且因为假设空间 过大,偏置能够减小搜索的空间,没有偏置的学习算法是不可行的。有两种偏置, 一种是绝对偏置,它将假设限定在假设空间一个小的子集;另外一种是选择偏置, 它是在一组假设中选择其中的一个 分类学习的方法包括:决策树,贝时斯分类和贝叶斯网络,神经网络,k 最 临近分类,基于案例的推理,遗传算法,粗糙集和模糊逻辑技术。 第2 章数据挖掘的基本原理 2 3决策树的基本概念 决策树( d e c i s i o nt r e e ) 是一种结构。通过应用简单的决策规则,利用这种结构 可以将大型记录集分割为相互连接的小记录集。通过每一次分割,结果集中的数 据彼此越来越相似( 文献p 5 1 ) 。 决策树分类模型是一棵有向无环树,其中每个节点有且仅有一个父节点,有 不多于两个子节点,一个没有子节点的节点被称为叶节点每个叶节点对应一个 类标号,它的值就是使用决策树对未知样本分类的类标号的值。每个内部节点都 对应一个分支方案,它包括用于节点分类的属性和分支的判断规则。 决策树包括一系列规则,按照某个相关的特定目标变量,将大量包含不同种 类的总体分割为小的、内部相似的子类。 决策树模型可用于计算给定记录归属于某一个类别的概率,也可以通过将记 录分配到最可能的类别来给记录分类。 决策树学习是以实例为基础的归纳学习算法,其基本算法是贪心算法。它实 行自上而下分而治之的方法,开始时,所有的数据都在根节点;属性都是种类字 段( 如果是连续的,将其离散化儿所有记录用所选属性递归的进行分割;属性的 选择是基于一个启发式规则或者一个统计的度量。停止分割的条件:一个节点上 的数据都是属于同一个类别;没有属性可以再用于对数据进行分割,在决策树的 叶节点得到结论。所以从根到叶节点的一条路径就对应着一条规则,整棵决策树 就对应着一组析取表达式规则。基于决策树的学习算法的一个最大的优点就是它 在学习过程中不需要使用者了解很多背景知识( 这也同时是它最大的缺点) ,只要训 练例子能够用属性一结论式的方式表达出来,就能使用该算法来学习( 文献4 2 1 ) 。 一棵决策树的内部节点是属性或是属性的组合,叶节点是所要学习划分的分 类( 以下将内部节点的属性称为测试属性) 。当经过一批训练实例集的训练产生一棵 决策树,决策树就可以根据属性的取值对一个未知实例集进行分类。使用决策树 对实例进行分类的时候,由树根开始对该对象的属性逐渐测试其值,并且顺着分 支向下走,直至到达某个叶节点,此时叶节点代表的类即为该对象所处的类。 教育信息挖掘模型的设计与实现 图2 2 一个决策树的例子 f i g2 2e x a m p l eo f d e c i s i o nt r e e 图2 2 的这棵决策树对“贷款风险”进行分类。指出在何种情况下适合发放贷 款。每个内部节点( 方形框) 代表对某个属性的一次检测。每片叶子( 椭圆框) 代表一 个类。可以预测该记录隶属于哪个类。在沿着决策树从上到下遍历的过程中,在 每个节点都会遇到一个问题,对每个节点上问题的不同回答导致不同的分支,最 后会到达一个叶子节点。这个过程就是利用决策树进行分类的过程。根据决策树 的内节点的属性及其属性值的构成,可以分为以下几种决策树: ( 1 ) 决策树内节点的测试属性是组合属性。 ( 2 ) 内节点的测试属性拥有两个或两个以上的属性值,使每个内节点具有两个或 两个以上个分支。当每个内节点只有两个分支时被称为二又决策树。 ( 3 ) 每个属性可能是值类型,也可能是枚举类型。 ( 4 ) 分类结果既可能是两类,也可能是多类,如果二叉决策树的结果只有两类则 称之为布尔决策树。 2 3 1 决策树的学习算法 决策树学习算法是以实例( 以属性- 值) 为基础的归纳学习算法,目的是形成分 类和建立预测模型,可实现对未知数据进行分类或预测、数据预处理、数据挖掘 第2 章数据挖掘的基本原理 等。 2 3 2 决策树的构造 决策树一般都是根据分类属性与非分类属性关联能力( 即分类标识能力) 的大 小自上而下生成的。选择分割的方法有多种,但是目的是一致的,即对目标类尝 试进行最佳的分割。 决策树生成算法分成两个步骤; 决策树的创建: 初始状况数据都位于根节点,然后递归的进行数据分片。 步骤: ( 1 ) 根据需要及所处理数据的特性,对训练样本进行处理,选择最能反映样本 特性的决策属性,并确定每个样本的决策属性取值; ( 2 ) 在决策属性集中选择最有分类标识能力的属性作为决策树的当前决策点。 ( 3 ) 根据当前决策点属性取值的不同,将训练样本数据集划分为若干子集,每 个取值形成一个子集。 ( 4 ) 重复( 2 ) 到( 3 ) 直到满足下列三个条件中的一个结束。 条件一:子集中所有元组属于同一类; 条件二:子集是遍历了所有决策属性得到的; 条件三:子集中的所有剩余测定属性取值完全相同,但分类属性并不相同, 且不能根据这些决策属性进一步进行子集划分。 决策树的修剪: 由于树的构建阶段生成的决策树过于依赖于训练样本,因此构建的决策树可 能存在对训练样本的过度适应问题( 如产生不必要的分支等) ,因此需要对决策

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论