基于决策树规则分类算法的研究.ppt_第1页
基于决策树规则分类算法的研究.ppt_第2页
基于决策树规则分类算法的研究.ppt_第3页
基于决策树规则分类算法的研究.ppt_第4页
基于决策树规则分类算法的研究.ppt_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、决策树规则分类算法研究,报告者:手动房2010年十二月15日介绍内容,研究的主要内容数据挖掘和分类方法概述基于C4.5算法规则的决策树分类算法CABRR研究,1,研究的主要内容,研究的主要内容:开始决策树,决策树规则提取,决策树规则应用,2,数据挖掘及其对应2.1数据挖掘理论,数据挖掘概念:数据挖掘(也称为数据库过程中的知识发现)是指批量、不完整、有噪音、模糊、随机批量数据或大型数据库或数据仓库的数据挖掘过程:挖掘目的、数据准备、数据挖掘、模式评估和知识表示决策、数据源、清理/合并后的数据分类概念下图显示了分类流程图表:培训集、分类模型、可接受的模型、预测结果、通过分类算法构建模型、评估模型、

2、预测、未知数据元组、典型分类算法3360中常用的分类方法包括决策树分类、关联分类、神经网络、贝叶斯分类方法等。基于决策树分类的典型算法类型为:2.3分类算法测量方法和规模,每种分类方法应使用特定指标进行评估。常用分类算法比较和评估标准有以下几个方面:了解预测的准确性可行性可扩展性速度强度,3,C4.5算法,决策树算法基本理论决策树C4.5算法,3.1决策树算法基本理论,决策树:在生成的决策树中,每个内部节点表示数据集的属性,每个分支表示该属性的测试输出,每个叶节点表示分割类别,顶层节点是根节点。决策树创建过程:主要分为两个阶段。一个是生成树,另一个是修剪树。树木修剪:树木修剪茄子,最常用的茄子

3、修剪技术包括字典茄子修剪和茄子修剪。决策树的工作原理流程图如下:数据源、培训集、预处理、决策树分类算法柔道、决策树创建、分类规则、茄子剪切、3.2决策树的基本算法、generate _ decision流程流:(1)创建节点(2)如果该节点的所有示例均为同一类C,(3)将N返回到叶节点,并将其标记为类C。(4)如果attribute_list为空(5),则返回n作为叶节点,该节点包含的示例将显示为类数最多的类别。(6) attribute_list中信息增益最大的属性test _ attribute选取。(7)将节点n作为test _ attribute用表示;用表示。(8)准备为test_a

4、ttribute的每个已知值ai划分节点N中包含的示例集。(9)根据test_attribute=ai条件,在节点n上创建相应的分支以表示测试条件。(10)将si设置为在test_attribute=ai条件下获取的示例集合。(11)如果si为空,则将相应的叶节点显示为该节点包含的示例中类别数最多的类别。(12)否则,将相应的叶节点标记为generate _ decision _ tree (si,attribute _ list-test _ attribute)返回值。3.3 C4.5算法,C4.5算法:ID3的改进算法。牙齿算法选择信息增益率,选择分支属性的分支标准,计算每个属性的信息增

5、益率,然后选择信息增益牙齿最大的属性作为节点,从上到下生成决策树。对构成C4.5决策树的相关理论的说明如下: 1.首先计算给定抽样所需的预计信息,并将S设置为包含S个数据抽样的集合。对于类别属性,有M个不同的类别Ci (I 1,2、M)的M个不同值。假定类别Ci的样本数为si,信息为:其中pi是任何示例属于Ci的概率,使用si/s估计。2.然后,计算当前样本集合所需的信息,从而使属性a具有v个不同的值a1、a2、设置av。使用属性a将集合s设置为v个子集S1、S2、Sv。其中Sj包含s集合中属性a获取aj值的数据示例。熵值越小,子集划分的纯度越高。对于子集SJ:其中是子集SJ的示例属于类Ci的

6、概率。然后,使用属性A除以与当前分支节点对应的样本集,计算信息增益:3。最后,求出信息增益比。其中,牙齿Gainratio(A)值越大,分支包含的有用信息就越多。C4.5算法工作流图表:开始、读取、存储类信息、读取属性信息、读取数据库、连续属性、分区、保存属性哈希表、读取培训样本、缺失数据、忽略或替换为最多属性值、保存样本表、提取迭代交叉验证规则、结束、和基于规则的排序可以弥补这一缺点,因此基于规则的决策树分类规则算法CABRR牙齿出现。基于类的排序:根据类的规则中所述的长度,从小到大进行排序。基于规则的排序:通过组合三个茄子测量值(规则的长度、精度和coverage)进行排序。4.2 CAB

7、RR算法基本概念,规则之前,规则之后:每个分类规则可以表示为:规则左边在规则前面,右边在规则后面。准确度:是节点的准确预测实例与分配给节点的实例总数的比率。服务范围:是节点内实例数与配置数据集的实例总数的比率。测量配置资料集中配置给节点的执行处理数目。其中,|A|是满足规则前置任务的唱片数、|、规则匹配:规则匹配在规则集中为新对象查找匹配规则,如果只有一个规则完全匹配(即每个属性值相同),则将新对象分组到与匹配规则决策值相对应的类别中。如果有多个规则匹配,则必须对所有匹配规则进行排序,并将新对象分类到优先级最高的规则定义的类别中。4.3 CABRR算法的基本思想和规则排序算法,CABRR分类算

8、法的基本思想可用程序图右侧:数据源,培训集,C4.5算法归纳,未修剪决策树的创建,分类规则,规则排序,配置分类器,分类结果,分类, 按服务范围对规则进行排序,按已排序的规则集Rules、结束、)、N、N、基于规则的排序算法意识形态流程图:在对规则集进行排序后对测试数据集进行分类的流程图:开始、 扫描Rules,直到从头开始出现匹配的规则,将新对象分类为由匹配规则定义的类别,将Flag=1设置为查找由最大复盖范围的规则定义的类别,将新对象分类为牙齿类别,将分类的数据集分类,分析,4.5 CABRR算法实例,然后通过实验确定规则导入脊椎动物数据集进行实验。具体数据见表(A)。表(A)脊椎动物数据集,上表中的未切割茄子决策树是、哺乳动物(5.0)、鸟(2.0)和爬行动物。=半,截断规则后,结果规则为:特定规则信息如下:然后按基于规则的排序算法和基于类的排序算法对规则进行排序。排序的规则按优先级从高到低排序,然后在表(b)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论