(计算机软件与理论专业论文)基于决策树的教育信息挖掘模型(dteidm)的设计与实现.pdf_第1页
(计算机软件与理论专业论文)基于决策树的教育信息挖掘模型(dteidm)的设计与实现.pdf_第2页
(计算机软件与理论专业论文)基于决策树的教育信息挖掘模型(dteidm)的设计与实现.pdf_第3页
(计算机软件与理论专业论文)基于决策树的教育信息挖掘模型(dteidm)的设计与实现.pdf_第4页
(计算机软件与理论专业论文)基于决策树的教育信息挖掘模型(dteidm)的设计与实现.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于决策树的教育信息挖掘模型( d t - e i d m ) 的设计与实现 摘要 注 高等学校多年来的教学和管理中积累了大量的数据,目前这些数据还没有得到有 效地利用,只是一个待开发的“宝藏”。数据挖掘可以从大量的数据中提取隐藏在数 据背后的有价值信息,在越来越多的领域得到应用,取得了较好的效果,为人们作出 正确的决策提供了很大的帮助。为了有效利用高校教学管理工作多年来积累的大量数 据,本文对数据挖掘中的决策树算法一i d 3 算法进行了研究,并结合教育管理信息中 数据的特点,对i d 3 算法进行了改进;根据改进算法设计了教育信息挖掘模d t - e i d m 。 决策树学习算法在数据挖掘技术中具有很重要的作用,本文首先研究了决策树学 习算法中的i d 3 算法。此算法有以下三方面不足:( 1 ) 在决策树的每个节点上只选择 单个属性,属性间的相关性强调不够,这一缺点导致决策树中子树的重复和有些属性 在同一决策树上被多次选择。( 2 ) 在生成决策树过程中,由于递归地划分,一些数据 子集可能变得太小,进一步划分它们就失去了统计意义。( 3 ) 倾向于有许多值的属性。 本文针对i d 3 算法的不足,结合教育管理信息中数据的特点对i d 3 算法进行了 改进,设计、实现了e i d t - d m 算法,新算法主要做了以下改进:( 1 ) 大学四年要进 行许多门课程的考试,对课程成绩挖掘结果所做的贡献也是不同的,如果考虑所有 课程,挖掘涉及的属性就会很多,时问上就会浪费本文在e i d t - d m 算法中引入相 关度概念,先对进行挖掘的非分类属性进行相关性分析,将与分类属性相关度小于 事先规定的阈值的属性剔除这减少了子树的重复,有效的降低了决策树的复杂度, 从而使生成的知识更容易理解( 2 ) 在生成决策树过程中,由于反复划分,一些数 据子集可能变得太小,使得进一步划分失去了统计意义,为了避免这一问题,算法 根据预先设定的分类阈值进行判断,如果给定子集中的样本数少于该阈值,该子集 的进一步划分停止作为替换,创建一个叶节点在树剪枝时,对作为替换创建的 叶节点,找出子集中分类属性具有最大样本数的类别,做为该叶节点的分类属性的 值例如子集中,分类属性- - y e s 的样本个数大于分类属性= n o 的样本个数,则该叶 节点代表:分类属性爿e s ( 3 ) 引进了复合度量基准取代信息增益作为决策属性选 【注】奉文得到了上海海事火学教育管理决簧中的关联规则挖掘,重点研究课题的资助 n q o “ 基于决策树的教育信息挖掘模型( d t - e i d m ) 的设计与亮现 2 4 决策树学习算法 决策树学习算法是以实例为基础的归纳学习算法,通常用来形成分类器和预测模 型,可以对未知数据进行分类或预测、数据预处理、数据挖掘等。它通常包括两部分: 树的生成和树的剪枝。 2 4 1决策树的生成过程 决策树生成算法分成两个步骤:一是树的生成,开始时所有数据都在根节点,然 后递归的进行数据分片。二是树的修剪,就是去掉一些可能是嗓音或者异常的数据。 决策树停止分割的条件有:一个节点上的数据都是属于同一个类别;没有属性可以再 用于对数据迸行分割。图2 3 简单描述了决策树生成的过程。 2 4 2 决策树构造算法描述 图2 - 3 决策树生成过程 决策树的构造算法可通过训练集t 完成,其中t = ( x ,c j ) ,而x = ( a l ,a 2 ,a n ) 即为一个训练实例,它有n 个属性,分别列于属性表( a i ,a 2 ,a 。) 中,其中 a i 表示属性a i 的取值。c j e = c i ,c 2 ,c 。) 为x 的分类结果算法分以下几步; ( 1 ) 从属性表中选择属性a 。作为分类属性; ( 2 )若属性a l 的取值有k 。个,则将t 划分为k 1 个子集t nt 2 ,t m 其 中t ,= t l ) t 且x 的属性取值a 为第k ;个值; ( 3 ) 从属性表中删除属性a o 余 基于决策树的教育信息挖掘模型( d t - e i d m ) 的计与实现 ( 4 )对于每一个t u ( 1 墨j - - k 。) ,令t = t u 。 ( 5 )如果属性表非空,返回( i ) ,否则输出。 目前比较成熟的决策树算法有i d 3 、c n 4 5 ,c a r t 、s l i q 等。 2 4 3决策树讨论 基于决策树的学习算法具有建立速度快,精度高、可以生成可理解的规则、计算 量相对来说不是很大、可以处理连续值和离散值属性、可以清晰的显示哪些属性比较 重要等优点,另外在学习过程中不需要使用者了解很多背景知识,只要训练例子能够 用属性一结论式的方式表达出来,就能使用该算法来学习 决策树算法的缺点:对连续性的字段比较难预测;对有时间顺序的数据,需要很 多预处理的工作;当类别太多时,错误可能就会增加的比较快;算法分类时只是根摆 一个字段来分类。 决策树技术是种“贪心”搜索,使用了贪心算法( g r e e d y a l g o r i t h m ) ,它把每 个属性值依次试探加入左子树,如果能够找到更大的信息增益( i n f o m m t i o ng a i n ) 那 么就把这个属性值加入左子树,否则把它退回右子树。这样试探下去,直到左子树不 能再变大为止,就能求到最大的属性值。贪心算法总是做出在当前看来最好的选择, 并不从整体最优考虑,它所做出的选择只是在某种意义上的局部最优选择。 实际中使用决策树时,还会遇到一些数据准备和数据表示方面的问题,如:不了 解数据细节,数据翻译不准确、不考虑字段间关系、数据表示需要加额外的数据、数 据噪音消除、欺骗性数据等,这些均会影响到最终生成的决策树和规贝h 提取准确性和 实用性,也就是说其应用范围是有一定的局限性的,总之决策树算法理论和实际应用 中还有很多课题有待于更迸一步的研究。 基于决策树的教育信息挖掘模型( d t - e i d m ) 的设计与实现 第3 章基于i d 3 算法的决策榭分类挖掘 3 1 经典i d 3 算法 i d 3 是基于信息熵的决策树分类算法,根据属性集的取值选择实例的类别。i d 3 的算法核心是在决策树中各级节点上选择属性,用信息增益作为属性选择的标准,使 得在每一非叶节点进行测试时,能获得被测试例子最大的类别信息,使用该属性将例 子集分成子集后,系统的熵值最小期望该非叶节点到达各后代叶节点的平均路径最 短,使生成的决策树平均深度较小,提高分类速度和准确率 i d 3 方法利用互信息最大的特征建立决策树,使决策树节点数最小,识别例子准 确率高。 i d 3 的基本原理( 5 c 献 3 3 , 3 4 , 3 5 ) :设h = f 1x f :x x f b 是1 3 维有穷向 量空间,其中f j 是有穷离散符号集,h 中的元素e = 叫做例子, 其中v j f j ,j = l ,2 ,n 设p e 和n e 是e 的两个例子集,分别叫做正例集和反例 集。 假设向量空间h 中的正例集p e 和反例集n e 的大小分别为p 和n ,i d 3 基于下 列两个假设:( 1 ) 在向量空间h 上的一棵正确决策树对任意例子的分类概率同h 中 正反例的概率一致;( 2 ) 一棵决策树能对一例子作出正确类别判断所需的信息量为 地加一南l 0 9 2 寿一南1 0 9 2 东( 3 - 1 ) 如果以属性a 作为决策树的根,a 具有v 个值 v ,v z ,v v ) ,它将h 分为v 个子 集( h 。h :,h v ) ,假设h i 中含有p i 个正例和n i 个反例,子集h 1 的信息熵为 e ( h i ) : 她卜熹l o g - 2 ,一熹l 0 9 2 | 0 9 2 l l 0 9 2p i m + n i ( 3 - 2 ) e ( ) 一赢丽一赫 以属性a 为根分类后的信息熵为e ( a ) : e ( a ) - i 耋蒜e ( h i - ( 3 - 3 ) 摹干决策树的教育信息挖掘模型( d t - e i d m ) i 均设计与实现 因此,以a 为根的信息增益是g a i n ( a ) : g a i n ( a ) = i ( p ,n ) 一e ( a ) ( 3 - 4 ) i d 3 选择使g a i n ( a ) 最大( 即e ( a ) 最小) 的属性作为根节点,对a 的不同取值对 应的h 的v 个子集h l 递归调用上述过程,生成a 的子节点。 i d 3 方法检验所有的特征,选择信息增益( 互信息) 最大的特征a 产生决策树节 点,由该特征的不同取值建立分枝,对各分枝的实例子集递归,用该方法建立决策树 节点和分枝,直到某一子集中的例子属于同一类。 可以看出训练例集在目标分类方面越模糊越杂乱无序,它的熵就越高;训练例集 在目标分类方面越清晰则越有序,它的熵越低,1 1 9 3 算法就是根据“信息赢取( 增益) 越大的属性对训练例的分类越有利”的原则在算法的每一步选取“属性表中可对训练 例集进行最佳分类的属性”。一个属性的信息增益就是由于使用这个属性分割样例而 导致系统熵的降低,计算各个属性的信息赢取并加以比较是i d 3 算法的关键操作 3 2l d 3 算法优缺点 优点: ( d i d 3 分类算法不使用领域知识,学习和分类的步骤通常很快。 ( 2 ) 全盘使用训练数据,而不是象候选剪除算法一个一个地考虑训练例,这 样做可以利用全部训练例的统计性质进行决策,从而抵抗噪音。 缺点: ( 1 ) ( 2 ) ( 3 ) ( 4 ) 在决策树的每个结点上只选择单个属性,属性间的相关性强调不够。这 一缺点导致决策树中子树的重复和有些属性在同一决策树上被多次选 择。 倾向于有许多值的属性。 对于非常大的现实数据库,有效性和效率不足。 不能增量地接受训练例,这就使得每增加一次实例都必须抛弃原有决策 树,重新构造新的决策树,造成了极大的开销。 基于决策树的教育信息挖掘模型( d t - e i d m ) 的设计与实现 3 3i d 3 算法的发展 i d 3 算法在实际应用中解决了许多问题,对于非增量式学习任务,i d 3 算法常常 是建立决策树的很好的选择,但对于增量式学习任务来说,由于i d 3 不能增量地接受 训练例,这就使得每增加一次实例都必须抛弃原有决策树,重新构造新的决策树,造 成了极太的开销于是i d 3 算法被q u i n l a n 自己扩充为c 4 5 算法( 文献 5 , 6 ) , c 4 5 算法每接受一个新的训练例就更新一次决策树。在c 4 5 的决策树中,每个节 点都保存了可用子计算e 值的属性的信息,这些信息由属性的每个取值所对应的正 例、反例计数组成。根据放在节点的信息,就可以判断出哪个属性的训练例集e 值最 小,从而确定当前用哪一个属性来进行划分。 c 4 5 算法使用了一个适合小数据量的方法:基于训练例自身的性能估计。当然 训练例进行估计很可能产生偏向于规则的结果,为了克服这点,c 4 5 算法采用了 保守估计,它采用的具体方法是:计算规则对其使用的各个训练例分类的精度a ,然 后计算这个精度的二项分布的标准差s ,最后对给定信任度( 9 5 ) ,取下界( a 一1 9 6 ) 为该规则的性能度量p a :在有大量数据的情况下,s 接近于0 ,p a 接近于a ;随着数 据量的减少,p a 与a 的差别将会增大。c 4 5 算法使用更复杂的方法是为属性 的各 种取值赋以概率,具有未知属性a 值的实例x 按概率值分为大小不等的碎片,沿相应 属性 值的分枝向树的下方分布,实例的碎片将用于计算信息赢取。这个实例碎片在 学习后,还可以用来对属性值不全的新实例进行分类。 理想的决策树分为3 种:( 1 ) 叶节点数最少:( 2 ) 叶子节点深度最小:( 3 ) 叶节 点数最少且叶子节点深度最小。决策树的好坏,不仅影响了分类的效率,而且影响了 分类的准确率。因此,许多学者致力于寻找更优的启发式函数和评价函数。p e i l e it u 等人分别证明了要找到这种最优的决策树是非常困难的,它是一个n p 难题。因此, 人们为寻找较优的解,不得不寻求各种启发式方法。 1 9 9 1 年w o nc h a nj u n g 等人采用的优化算法很简单,其基本思想是:首先用i d 3 算法选择属性f 。,建立树t 。,左右子树的属性分别为f 2 ,f 3 。再以f 2 ,f 3 为根t 重 建树t z ,t 3 比较t ,t :,t 3 的节点个数,逸择节点最少的树。对于选定树的儿子 节点采用同样的方法,递归建树。尽管作者用一个实验证明能够建立理想的决策树, 基于决策树的教育信息挖掘模型( d t - e i d m ) 的设计与实现 但算法有较大的弱点:时间开销太太,因为每选择一个新的属性,算法需要建立三棵 决策树,从中选优。 3 4 对i d 3 算法的改进 ( 1 )在对教育信息数据,特别是学生课程信息进行分类挖掘时,由于大学四 年要进行许多门课程的考试,它们对挖掘结果所作的贡献也是不同的。改进算法在构 造决策树前,首先用面向属性归约的方法对数据按属性进行归约。归约方法是采用相 关度的阈值控制。即先对各属性进行相关性分析,将与分类属性相关度小于事先规定 的阈值的属性剔除,这样就减少了子树的重复,简化了决策树。在生成决策树过程中, 由于反复地划分,一些数据子集可能变得太小,使得进一步划分它们就失去了统计意 义,为了避免这一问题,可以在用户界面中设定分类阈值,算法根据设定的分类阈值 进行判断,当某一节点上待分类的子集的样本数大于等于一给定的分类阈值r1 时, 停止对该节点的继续分类,将该节点处理成单类的叶节点。这种处理简化了决策树的 建立过程,省去了决策树建立后的剪枝和优化过程。 属性相关性度量相关概念: 对于两个属性a 、b ,分别有值a i ( i = 1 ,2 ,i n ) ,br j = 1 ,2 ,桫, 其频数的列表如表3 1 所示。其中,f 为样本的容量。为了检验行列变量的相关性, 统计上使用x 统计量( 文献【4 1 】) : 表3 - 1 两个属性a ,b 的频度 x2 = 与等乒 ( 3 5 ) , 岛如 s u 虢 a lj2五na l = f l j 如厶j如厶。a 2 = 岛 a m,舢靠l n= f m j s u 槌 & = 龟恳= 危晶= 岛 a 4x 2 统计量出发,可以得到衡量m n 翔表数据中行列变量属性相关性的度 基于决策树的教育信息挖掘模型( d t - e i d m ) 的设计与实现 4 丝:垒盟,。;。:2 1 l r = 乓些日观( 3 - 6 ) x 2 f ,其它 其中a 1 ,a 2 ,b 1 ,b 2 分别表示属性a ,b ,取值为a i , b i ( i = 1 力的个数。缈的 绝对值越大属性相关性越强,其绝对值接近于0 时属性相关性较弱。嗍值可参考 表3 - 2 表3 - 2 v 取值参考表 i i 相关性强度 0 8 以上非常高( 强) 相关 o 6 o 3 高度( 强) 相关 0 4 0 6中等相关 0 2 0 4 低( 弱) 相关 0 2 以下非常低( 弱) 相关 下面以一组训练数据为例来解释对属性进行相关性分析的过程,该训练数据包括 作为非分类属性的第四学期部分考试成绩,以及作为分类属性的第五学期编译原理课 程成绩信息。通过改进算法对非分类属性进行筛选,将与分类属往相关度小于事先规 定的阈值的属性剔除,这样就减少了子树的重复。对于训练数据集t ,如表3 3 所示, 对课程成绩进行了布尔量化( 1 代表成绩好,0 代表成绩不好,分类属性用y 表示成 绩好,用n 表示成绩不好。如何进行布尔量化将在下一章详细介绍) 相关度阎值 为t = 0 2 5 。 基于决策树的教育信息挖掘模型( d t - e i d m ) 的设计与实现 表3 3 改进算法训练数据集例子 i d操作模拟电子数据库微机与接口微型计算系统分信号处 编译 系统数字逻辑原理课程设计机技术析控制理原理 原理 1o1 oo11on 21011 oo ln 3101o1o0y 4 1o1o100y 51o1ol 01y 610ll olo ,n 7 l 01o1ooy 8o0o0ooon 9001 o1o0y l o101ol0ly 1 100o01 10y 1 2lo1o 000y 1 311 l o10oy 1 4l0o1000n 1 50 10o 101n 1 61o1101on 1 7o011lo0n 1 8101o11 0 n 1 9o 01o 1ooy 2 0l1 l o10 0 y 2 10 o011 11n - i 参 基于决策树的教育信息挖掘模型( d t - e i d m ) 的设计与实现 表3 3 ( 续) 改进算法训练数据集例子 i d操作模拟电子 数据库微机与接口微型计算系统分信号处 编译 系统数字逻辑 原理课程设计机技术析控制理原理原理 2 2111 o11on 2 3o00l0 00n 2 4 10101 o0y 2 5100 0110y 2 6o 01o10 0y 2 71001 000n 2 8 o 01o11l n 2 9lo1 01 ooy 3 0l01 010oy 3 1000111 oy 3 21o10 1oly 3 3lol old0y 3 4o ,1lo10 0 y 3 5lo11 o1on 3 6 lo1 o1ooy 3 7lo10l ooy 3 9 0 lo 0ooon 3 91o11l 0oy 4 01o0oo 01n 4 10 011 010n 4 21o101o oy 首先,计算各条件属性与分类属性的v 系数,如表3 - 4 所示。 七0 基于决策树的教育信息挖掘模型( d t - e i d m ) 的设计与实现 表3 - 4各条件属性与分类属性的l l ,系数 l 操作模拟电子数数据库微机与接口微型计算系统分信号处 系统字逻辑原理课程设计机技术析控制理原理 掣 o 3 10 1 3 o 3o 5 20 6 3 0 4 1o 2 表3 - 4 中条件属性模拟电子数字逻辑和信号处理原理两门课程的掣系数的绝对 值小于相关度阈值t ,删去这两个属性。则条件属性集只包含操作系统、数据库原理、 微机与接口课程设计、微型计算机技术和系统分析控制等属性基于筛选后的属性进 行挖掘得到分类规则。 ( 2 )在生成决策树过程中,由于反复划分,一些数据子集可能变得太小,使得进 一步划分失去了统计意义,为了避免这一问题,算法根据预先设定的分类阈值进行判 断,如果给定子集中的样本数少于该阈值,该子集的进一步划分停止。作为替换,创 建一个叶节点。在树剪枝时,对作为替换创建的叶节点,找出子集中分类属性具有最 大样本数的类别,做为该叶节点的分类属性的值。例如子集中,分类属性= y e s 的样 本个数大于分类属性= n o 的样本个数,则该叶节点代表:分类属性= y e s ( 3 )属性选择采用复合式度量基准以克服信息熵使决策属性偏向取值较多问 题。复合式基准采用信息熵和相关度的复合值来度量。按公式肛e e 。+ v 。计 算复合式度量基准h 。 ( 4 )将广度优先的处理方法应用到本算法中:扫描某个属性时,该属性的所有 分枝节点同时被处理这样做可以在当前层的节点将上一层每个分枝结果保留下来。 例如,当处理非分类属性a g e = 3 0 的训练数据予集,选出具有最大复合式度量基准 的新非分类属性时,可以将a g e = 3 0 保存在代表节点的记录中,这样对于最后得到 的叶子节点,可以直接从保存在记录中的分枝信息直接得到分类规则,不再需要重新 遍历整个决策树,从而提高了算法的效率。 3 5 e ! d t - d m 挖掘算法描述 根据对i d 3 算法提出的改进方法,本系统在i d 3 算法的基础上设计了e i d t - d m 算法。核心算法的描述如下: 基于决簧树的教育信息挖掘模型( d t e i d m ) 的设计与实现 j ,”算法:”一g e n e r a t e _ d e c i s i 。孟二t 孟2 自给定的训练数据产生二棵判定树:”4 誓蠢 输入:训练样本s a m p l e s ,由离散值属性表示:非分类属性的集合a t t r i b u t e _ l i s t e - p a l ( i = 1 ,2 ,n ) r 分类属性c a 。 - ,j w , ;输出:一棵判定树。 。 方法:、 9 诗算各非分类属性r i 0 = i ,2 , 值t 的属性从a t t r i b u t e _ 1 i s t 中剔除, a t t r i b u t e _ l i s t 的个数为m ( m n ) 。 t i 。 q ,n ) 与分类属性c 的v 系数,将系数,j 、予阎4 属性集a t t r i b u t e _ l i s t 归约为a t t r i b u t e _ l i s t , c r e a t e r o o t t oq u e u e l ;q u e u e l 是当前叶子节点队列 一, ;p u s h r o o t t oq u e u e l ; ti f ( r o o t 为纯结点l r 返匮n 作为叶节点,以类c 标记; 。” ” +。 i 一 e x i t ( 0 ) ; ,。 t ; w h i l eg l o te m p t yq u e u e l ) , :、 ;。 、 i 1 ,从q u e u e l 中取出队首元素q u e u e _ v m u e 。 : 。i f q u e u ev a l u e 是非分类属性之 二。,取出该属性的所有不同值放入集合v e ea t t r i b u t ev a l u e 1。 4 :,、2 e l s ei iq u e u e _ v a l u e 为a t t r i b u t e = a f l r i b u t e v m u e 格式 7 4 : 7 。 对s a m p l e s 中满足融的值= a t 硅i b u t ev a l u e 的样本集合进行处理,计算属陇 i 集a t t r i b u t e _ l i s t 中各个属性r - ( i ,色,m ) 的熵值e i ,按公式h = e e m a x + t 。 ?单w 。计算复合式度量基准 k ,选择h i 直最大的属性r k ( l k m j : , ? 为当前分类属性; 、 , 笋;,。取出该属性的所有不同值放入集合v e ca t t r i b u t ev a l u e ; j 一、 ; f o re a c ha t t r i b u t e = , c a l u ei nt h ev e c a t t r i b u t e v a l u e i ;。v e t a t 仃i b u t 屯v a l u e 中存放的是a t t 曲u t e = v 雒u e 格式的元素。 !q u e u e 2 a d d ( a t t r i b u t e - - v a l u e ) ; l w h i l e ( n o t e m p t y q u e u e 2 ) 。 。 ” 。 一 。 。 , 。 ;”“4取出队首元素创建一个新节点: , ” : 登- 。 ” 将新创建的节点加入剐v e c t o rn o d e 集合c o n e c t o rn o d e 是存放节点7 韵集合 ,。 ” “ 。 “ :, 1。th 不是叶子节点 p , 。“ 。 。! ,;。,将q u e u e 2 的队首元素添加到q u e u e l 中; ,i “一”参“;。,。,j 、 4 一 ,。:。一,二自,。g 。;, 基于决策树的教育信息挖掘模型( d t - e t d m ) 的设计与实现 器42 9 强制;诚v i ”军o 掣一”世,伊峨扩“氐璐4 罐晦乳榔带4 “:聱脚释2 掣r 掣劲,”鼍、蝴壤 麟靴一二m 眦。一# * 一蠕一。4 榔岫# 佻;口獬:盘k 。妊舢缱4 刍0 未川龆。崩酰# + 。蠡。k :毪d 辅鑫 在e i d t - d m 算法的正确性上,x 。提供了有无关联性的证据,而v 指出了关联 性的强弱。因此,采用关联性度量的方式选择优先划分的条件属性,不会影响决策树 分类的正确性。由于改进算法综合了信息熵准则和关联度准则,选择在这两种准则下 综合性能最好的属性来划分当前节点,充分利用这两种准则之间的- o - _ 幸b 性,克服了采 用信息熵准则所造成的偏向有许多值的属性的缺陷,并可改善决策树结构和分类正确 率。 改进的e i d t - d m 算法利用相关度对数据进行预处理,减少了决策树的节点,有 效的降低了决策树的复杂度,从而使生成的知识更容易理解。 2 3 基于决策树的教育信息挖掘模型( d 乍e l d m ) 的设计与实璺 第4 章教育信息挖掘模型( d t e i d m ) 的设计 4 1 设计原则 面向教育领域 由于教育信息的特殊性,教育信息数据挖掘系统应含有对应的处理。如各种 量化模式。 挖掘算法的有效挫和可预测性 利用教育数据的特点,采用新设计的e i d t - d m 算法,甩户可通过选择适当 的参数,得到希望的结果。 交互式个性化的用户界面 以j a v a 开发交互式用户界面,用j d b c 访问o r a c l e 数据库的数据 高层次的交互式挖掘 在较高的层次交互、交换挖掘参数,不用进行挖掘细节的询问,低层次的问 题对用户透明。 数据源的可选择性 教育信息来自各个方面,以各自不同的形式存在。通过在后台数据库中编写 存储过程来将分散在不同数据库中的数据抽取到数据挖掘库中。 易操作性 高层次的交互式挖掘保证操作的简易。 4 2d 卜e l d m 的系统结构 教育信息挖掘模型( d t - e i d m ) 的系统结构如图4 - - i 所示。可分为五个部分:数 据采集、数据预处理、挖掘和规则展现、模式评估、用户接口。 基于决策树的教育詹息挖掘横型( d r - e t d m ) 豹设计与实现 规则和知识 结构佬数据;结构仡数据远程数据 图4 1d t - e i d m 系统结构 2 孓 基f 决策树的教育信息挖掘模型( d t e j d m ) 的歧计0 实现 4 2 1数据采集 数据采集是数据挖掘系统必不可少的组成部分,是数掘挖掘的第一环节。一般的 数掘挖掘系统的数据采集应覆盖结构化数据、半结构化数据。本文主要关注结构化数 掘和部分半结构化数掘。结构化数据的采集主要由o r a c l e 提供的数据导入功能来完 成( 也可用o d b c ) ,主要是学生的成绩数据,这些数据多保存在学校的数据库中, 可以直接导入。半结构化数据主要是涉及学生基本信息的数据,这些半结构化数据根 掘其特点用选择操作提取其公共部分、舍去不定部分而结构化。另外,为了包含尽可 能全面的学生基本信息,我们设计了学生信息调查表格,由学生填写,最后手工将这 些信息输入到教育信息挖掘库中,用于随后的数据挖掘。 4 2 2数据清理 数据清理主要处理数据的空缺和错误、数据的不一致等问题。在本课题中数据的 清理过程如下:对于空缺值多的记录,直接过滤掉。例如,个别学生中途退学,只有 很少几个学期的成绩,则不使用该学生所有相关数据。对于考试成绩中的少量的空缺, 根据具体情况采用了以下3 种方法来处理:( 1 ) 取成绩平均值,( 2 ) ( m a x c i + m i n c i ) 2 , ( 3 x ( m a x c i - m 1 n c i ) * t h r e s h o l d 1 0 0 ) + m i n c i ,其中m a x c i ,m n c i 分别表示某一门课 程的最高分和最低分;t h r e s h o l d 为用户自定义的阈值。通过在o r a c l e 中编写的存储 过程来实现这一过程。 4 2 3数据变换 本文中数据变换的任务主要有二个:一是将有关学生基本信息的数据进行离散化 ( 如学生兴趣倾向可以分为文学,音乐,体育,美术,其它五类,相应用l ,2 ,3 , 4 ,5 表示不同的兴趣倾向) ;二是将0 1 0 0 区问的考试成绩数据变换成白尔量,用 于分类规则的数掘挖掘。 4 2 3 1 数据规范化 待挖掘的数掘因产生的途径和过程不同,其数掘范围可能不同。如学生基本信息 中,父母学历划分为以下类别:l ,小学及以下:2 ,初中:3 ,高中或中专;4 大专 以及大专以上这样划分是因为挖掘数掘中父母学历在本科以上的比较少,所以没 有划分本科和研究生这两个类别。 基于决雏树的教育信息挖掘模型( d t - e i d 啪的设计与实现 4 2 3 2 变换成布尔量 数据处理到目前为止,已经可以进行量化分类靓则的挖掘。挖掘出的结果可能形 如下面的分类规财; i f c i ( x ,“8 0 8 5 ”) a n dc j ( x ,“9 0 9 5 ”) t h e nc k ( x ,“8 5 9 0 ”) 如此结论对学课相关性描述来说,可能太“精细”而意义不大,相对“模糊”的 分类规则如: i f c i ( x ,1 ) a n dc j ( x ,1 ) t h e nc k ( x ,1 ) 下面对0 1 0 0 分的分数,采用几种不同方法将其变换成0 或l ,即布尔量。“1 ” 表示此课成绩好,“0 ”表示此课成绩不好。 ,( 1 ) 根据成绩的额定范围( 布尔量化方法1 ) “ 学课成绩有规定的数据范围。数据规范化后的额定范围为0 1 0 0 ,给定一个阂 值t h r e s h o l d ( 如t h r e s h o l d = 8 0 意味着考分在8 0 分以上的认为是“好”) ,数据表中 各课成绩的记录值大于t h r e s h o l d 变换为1 、小于t h r e s h o l d 变换为0 。此方法是根据 成绩的数据值范围取一个t h r e s h o l d 。以第三学期要进行挖掘的部分课程为例, o r a c l e 9 i 数据库中的存储过程代码如下:( e l ,i = i , 2 ,6 ,表示第三学期要进行挖掘的课 程) , “ 黔。皆哪”蜘爷蟛黼秽冀带廿# ”瓣删:t 獬姆嚣。8 ”警缈删譬嘞啜”。牡嘲矿8 归4 西砖8 糯哼跫4 呷虢“2 鸭豫 ;( t h r e s h o l d n u m b e r ) 盼 + 。 ? 妻 , 4 一 ! b e g i n 鞔 ;d e l e t ef r o m t e m p _ 3 t h t e r m ; 。, 移 i n s e r ti n t ot e m p _ 3 z h t e r m ( s e l e c t 母f r o mg r a d e _ 3 t h t e r m ) : 一 、 ” u p d a t et e m p _ 3 t h t e r m s e tc l = ow h e r ec l g ; : u p d 8 t e t e m p _ 3 t h t e r m s e tc 2 = 0w h e r ec 2 t h r e s h o l d ; , 、 u p d a t e。t e m p _ 3 t h t e r m s e tc 2 = lw h e r ec 2 ) 0 ; ?! ,“ f , u p d a t e 。t e m p _ 3 t h t e r m ,s e te 3 = ow h e r ee 3 o ; : 、 h p d a t et e m p3 t h t e r m s e tc 4 = 0w h e r ec 4 t h r e s h o l d : v - _ u p d a t e t e m p _ 3 t h t e r m s e tc 4 = 1 w h e r ec 4 ) 0 ; , 寰 鲁 u p d a t et e m p _ 3 t h t e r m s e t ,c 5 = 0 w h e r ec 5 t h r e s h o l d :_ , u p d a t et e m p _ 3 t h t e r m s e tc 5 = 1w h e r ec 5 ) 0 : s , 。 : u p d a t e 。t e m p _ 3 t h t e r m s e tc 6 = 0w h e r ec 6 o ; : :“e n d l ff f t 。 一i * 1 ,“e # ,h f # i 若在此例中,成绩均较低( 大多数记录值小于阈值) ,会出现许多o 。下一方法 是对此类问题的改进。 ( 2 ) 根据成绩的最大值和最小值( 布尔量化方法2 ) 方法( 1 ) 中取定一个t h r e s h o l d 后,各课均用此值而不考虑各科成绩的差异,造 成有些学课数据呈很多l ,有些学课数据呈很多o ,在“好”和“差”的定义上影响 了数据挖掘的结果。方法( 2 ) 也是取定一个t h r e s h o l d ,只是在各课中作为闽值的分 别是t h r e s h o l d i ,t h r e s h o l d i 根据t h r e s h o l d 、c i 的最大值和c i 的最小值决定: t h r e s h o l d i = 压a x c i 删c 扩t h r e s h o l d 1 0 0 ) + m i n c i 方法( 2 ) 是根据考试结果取榴对的t h r e s h o l d i 。程序代码如下: 拳e 缸议di f ln 晶i e r ) 。;“i7 “”4 。? “。“。 。, : a s ;, 。, m a r kn u m b e r ; 。 , v 珏l a xn u m b e r :, 。 :。,v _ m i nf l u m b e r ; 一 。4 ,“ 一。 。b e g i n ji_一。 ?” , 薹,d e l e t e f r o r at e m p _ 3 t b t e m “,i ,一,。, ,i n s e r ti n t ot e m p3 t h t e r m ( s e l e c t4f r o mg r a d e3 t h t e r m ) ; ,+ 。s e l e c tm a x ( e 1 ) i n t ov n a 鬻f i o m t e m p 3 t h t e r m ;,一 、 。 基于决策书呼的教育信息挖掘模型( d t - e r o m ) 的设计与实现 b , ”。 。 ” 。一o ;? 一“十t一、自嘲o ,+ 嚣。铲 s e l e c t m i n ( c di n t ovm i n f r o mt e m p3 t h t e r m ; ” !m 8 r k = ( ( vm a x - v _ m i n ) * t h r e s h o l d 1 0 0 ) + vm i n ;一一 一, u p d a t et e m p3 t h t e r m s e tc l = o w h e r ec t o ; “ 。, ; :7、 一 :+毫 ;。 s e l e c tm a x ( e 6 ) i n t ov m a x f r o mt e m p3 t h t e r m ; , s e l e c t m i n ( e 6 ) i n t ovr a i n f r o mt e m p _ 3 t h t e r m ; ; jm a r k = ( ( v _ l l l a x vm i n ) * t h r e s h o l d 1 0 0 ) + v _ m i n ; 4 “u p d a t e ”t e m p _ 3 t h t e r m s e tc 6 2 0w h e r ec 6 o ; “ i g 。e n d ,。:? 、,一。,。:,:。i ,二。,。一。= 。女。- 。k l 3 ) 根据成绩排序人数等分原则确定t h r e s h o l d 。( 布尔量化方法3 ) 将c i 排序,由c o u n t ( c i ) 统计c i 的记录总数并把e o u n t ( c i ) 等分,再由阈值 。 t h r e s h o l d 计算t h r e s h o l d i : c o u n t i = c o u n t ( c i ) 拳t h r e s h o l d l o o 读取c o u n 3 i 指定记录的c i ,将此c i 值作为t h r e s h o l d i 进行量化。 还以第三学期要进行挖掘的部分课程为例,o r a c l e 9 i 数据库中的存储过程代码如 下:( c i ,i = l 2 6 ,表示第三学期要进行挖掘的课程) : 堂“( t h r e s h ;:l di 盖”n u “m b 裔9 。”。j ”一。蟹”? “”“峨鬈2 ”9 “4 审”4 2 峨以麓 a s, + 。 vc o u n t n u m b e r ; ” , 。 一 1 : ,t e m p n u m b e r ; 4 ” 。 “ ,vt h r e s h o l d n u m b e r ; 一 “ ; :,c u r s o rc l _ c u ri s , 。 。 , , ; 。 , s e l e c tc 1f r o mt e m p c l :- 43thterm0rder b y 4 e 瑚咚o rc 2c u ri s 。 。 。, , 。 , 5 ,t t # ;一。,。s e l e c tc 2f r o mt e m pb y :。 m ,3thterm o r d e r c 2 7 o j r s o gc 3c u ri s 4| 。)“。 : j , 。s e l e c tc 3f r o mt e m p3 t h t e r m o r d e rb yc 3 : ,| 。,? “ :c u r s o rc a _ c v xi s :,;,:“。j 。? ,:。:一,:。_ ,1 - o0 2 9 茎至堡丝盟箜塾蔓笪皇量塑型翌三墅堂塑堡笪墨壅里 _ 4 一s e l e c t c 4f r o m 赢0 蔬孟o r d 腿b yc 4 :。_ 。一一一“舻。i j ,c u r s o rc 5c u ri s ! s e l e c tc 5f r o mt e m p3 t h t e r m o r d e r 阱c 5 : 。 j c u r s o rc 6e u ri s | 器 s e l e c tc 6f r o mt e m p _ 3 t h t e r mo r d e rb yc 6 ; l b e g i n , 一t ,t e m p := l ; ;d e l e t e f r o mt e m p3 t h t e r m ; 。 , 7 i n s e r t i n t ot e m p 3 t h t e r m ( s e l e c t + f r o mg r a d e 3 t h t e r m ) ; js e l e c t c o t m t ( e 1 ) i n t ov c o t m t f r o mt e m p3 t h t e r m ; ;,vc o u n t = v e o u n t * t h r e s h o l d d l 0 0 ; c ; ;io p e n c l _ c u r ;o 。, : 。: “ jf e t c hc l _ c u ri n t ov _ t h r e s h o l d ;, 。: 4, , , ;w h i l e t e m p - - - v _ e o u n t :; ? b e g i n ,s ,: ;t e m p + + ;。 t。 , , , : ? ,、f e t c h a u r i n t o vt h r e s h o l d ; *一1 , 缸e n d ;, “ : 。:。,c l o s e c l _ c u r ;, ”j 。 , : ; u p d a t et e m p _ 3 t h t e r m s e te l = 0w h e r ee l 0 ; ; ,。 多, 一 “ : = t f 、j t e m p :。1 : 。j ; s e l e c tc o u n t ( c 6 ) i n t ovc o u n t f r o mt e m p

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论