分类与决策树_第1页
分类与决策树_第2页
分类与决策树_第3页
分类与决策树_第4页
分类与决策树_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、决策树决策树分类与预测分类与预测主要内容v分类与决策树概述分类与决策树概述vID3、C4.5与与C5.0vCART分类 VS. 预测v分类和预测是两种数据分析形式,用于提取描述重要数据类或预测未来分类和预测是两种数据分析形式,用于提取描述重要数据类或预测未来的数据趋势的数据趋势 的模型的模型分类:分类:v预测类对象的分类标号(或离散值)预测类对象的分类标号(或离散值)v根据训练数据集和类标号属性,构建模型来分类现有数据,并用根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据来分类新数据预测:预测:v建立连续函数值模型建立连续函数值模型v比如预测空缺值,或者预测顾客在计算机设备

2、上的花费比如预测空缺值,或者预测顾客在计算机设备上的花费v典型应用典型应用欺诈检测、市场定位、性能预测、医疗诊断欺诈检测、市场定位、性能预测、医疗诊断v分类是一种应用非常广泛的数据挖掘技术分类是一种应用非常广泛的数据挖掘技术 v分类与预测的区别:分类与预测的区别:当估计的属性值是离散值时,这就是当估计的属性值是离散值时,这就是分类分类;当估计的属性值是连续值时,这就是当估计的属性值是连续值时,这就是预测预测。分类和预测分类和预测-示例示例v分类分类银行贷款员需要分析数据,来弄清哪些贷款申请银行贷款员需要分析数据,来弄清哪些贷款申请者是安全的,哪些是有风险的(将贷款申请者分者是安全的,哪些是有风

3、险的(将贷款申请者分为为“安全安全”和和“有风险有风险”两类)两类)v我们需要构造一个分类器来预测类属编号,比如预测我们需要构造一个分类器来预测类属编号,比如预测顾客属类顾客属类v预测预测银行贷款员需要预测贷给某个顾客多少钱是安全银行贷款员需要预测贷给某个顾客多少钱是安全的的v构造一个预测器,预测一个连续值函数或有序值,常构造一个预测器,预测一个连续值函数或有序值,常用方法是回归分析用方法是回归分析数据分类数据分类一个两步过程一个两步过程 (1)v第一步,也成为学习步,目标是建立描述预先定义的数第一步,也成为学习步,目标是建立描述预先定义的数据类或概念集的分类器据类或概念集的分类器分类算法通过

4、分析或从训练集分类算法通过分析或从训练集“学习学习”来构造分类器。来构造分类器。训练集由数据库元组(用训练集由数据库元组(用n维属性向量表示)和他们相对维属性向量表示)和他们相对应的类编号组成;假定每个元组属于一个预定义的类应的类编号组成;假定每个元组属于一个预定义的类v训练元组:训练数据集中的单个元组训练元组:训练数据集中的单个元组学习模型可以用分类规则、决策树或数学公式的形式提学习模型可以用分类规则、决策树或数学公式的形式提供供数据分类数据分类一个两步过程一个两步过程 (2)v第二步,使用模型,对将来的或未知的对象进行分类第二步,使用模型,对将来的或未知的对象进行分类首先评估模型的预测准确

5、率首先评估模型的预测准确率v对每个测试样本,将已知的类标号和该样本的学习模型类预测比对每个测试样本,将已知的类标号和该样本的学习模型类预测比较较v模型在给定测试集上的准确率是正确被模型分类的测试样本的百模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比分比v测试集要独立于训练样本集,否则会出现测试集要独立于训练样本集,否则会出现“过分拟合过分拟合”的情况的情况第一步建立模型训练数据集NAME RANKYEARS TENUREDMikeAssistant Prof3noMaryAssistant Prof7yesBill Professor2yesJimAssociate Prof7y

6、esDaveAssistant Prof6noAnneAssociate Prof3no分类算法IF rank = professorOR years 6THEN tenured = yes 分类规则第二步用模型进行分类分类规则测试集NAMERANKYEARS TENUREDTomAssistant Prof2noMerlisa Associate Prof7noGeorge Professor5yesJoseph Assistant Prof7yes未知数据(Jeff, Professor, 4)Tenured?监督学习监督学习 VS. 无监督学习无监督学习v监督学习(用于分类)监督学习(用

7、于分类)模型的学习在被告知每个训练样本属于哪个类的模型的学习在被告知每个训练样本属于哪个类的“指导指导”下进行下进行新数据使用训练数据集中得到的规则进行分类新数据使用训练数据集中得到的规则进行分类v无监督学习(用于聚类)无监督学习(用于聚类)每个训练样本的类编号是未知的,要学习的类集每个训练样本的类编号是未知的,要学习的类集合或数量也可能是事先未知的合或数量也可能是事先未知的通过一系列的度量、观察来建立数据中的类编号通过一系列的度量、观察来建立数据中的类编号或进行聚类或进行聚类数据预测的两步过程数据预测的两步过程v数据预测也是一个两步的过程,类似于前面描述的数据分类数据预测也是一个两步的过程,

8、类似于前面描述的数据分类对于预测,没有对于预测,没有“类标号属性类标号属性”要预测的属性是连续值,而不是离散值,该属性可简称要预测的属性是连续值,而不是离散值,该属性可简称“预测属性预测属性”vE.g. 银行贷款员需要预测贷给某个顾客多少钱是安全银行贷款员需要预测贷给某个顾客多少钱是安全的的v预测器可以看作一个映射或函数预测器可以看作一个映射或函数y=f(X)其中其中X是输入;是输入;y是输出,是一个连续或有序的值是输出,是一个连续或有序的值与分类类似,准确率的预测,也要使用单独的测试集与分类类似,准确率的预测,也要使用单独的测试集3.1 决策树概述决策树概述v决策树决策树(Decision

9、Tree) 一种描述概念空间的有效的归纳推理办法。一种描述概念空间的有效的归纳推理办法。基于决策树的学习方法可以进行不相关的基于决策树的学习方法可以进行不相关的多概念学习,具有简单快捷的优势,已经多概念学习,具有简单快捷的优势,已经在各个领域取得广泛应用。在各个领域取得广泛应用。v决策树是一种树型结构,其中每个内部结决策树是一种树型结构,其中每个内部结点表示在一个属性上的测试,每个分支代点表示在一个属性上的测试,每个分支代表一个测试输出,每个叶结点代表一种类表一个测试输出,每个叶结点代表一种类别。别。v决策树学习是以实例为基础的归纳学习。决策树学习是以实例为基础的归纳学习。v从一类无序、无规则

10、的事物(概念)中推理出决策树表示的分类规从一类无序、无规则的事物(概念)中推理出决策树表示的分类规则。则。v概念分类学习算法:来源于概念分类学习算法:来源于Hunt,Marin和和Stone 于于1966年研制的年研制的CLS学习系统,用于学习学习系统,用于学习单个概念。单个概念。1979年年, J.R. Quinlan 给出给出ID3算法,并在算法,并在1983年和年和1986年对年对ID3 进行了总结和简化,使其成为决策树学习算法的典型。进行了总结和简化,使其成为决策树学习算法的典型。Schlimmer 和和Fisher 于于1986年对年对ID3进行改造,在每个可能的进行改造,在每个可能

11、的决策树节点创建缓冲区,使决策树可以递增式生成,得到决策树节点创建缓冲区,使决策树可以递增式生成,得到ID4算算法。法。1988年,年,Utgoff 在在ID4基础上提出了基础上提出了ID5学习算法,进一步提高学习算法,进一步提高了效率。了效率。1993年,年,Quinlan 进一步发展了进一步发展了ID3算法,改进成算法,改进成C4.5算法。算法。另一类决策树算法为另一类决策树算法为CART,与,与C4.5不同的是,不同的是,CART的决策树的决策树由二元逻辑问题生成,每个树节点只有两个分枝,分别包括学习由二元逻辑问题生成,每个树节点只有两个分枝,分别包括学习实例的正例与反例。实例的正例与反

12、例。v其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为零,此时每个叶节点中的实例都属于同一类。节点处的熵值为零,此时每个叶节点中的实例都属于同一类。v决策树学习采用的是自顶向下的递归方法。决策树学习采用的是自顶向下的递归方法。v决策树的每一层节点依照某一属性值向下分为子节点,待决策树的每一层节点依照某一属性值向下分为子节点,待分类的实例在每一节点处与该节点相关的属性值进行比较,分类的实例在每一节点处与该节点相关的属性值进行比较,根据不同的比较结果向相应的子节点扩展,这一过程在到根据不同的比较结果向相应的子节点扩展

13、,这一过程在到达决策树的叶节点时结束,此时得到结论。达决策树的叶节点时结束,此时得到结论。v从根节点到叶节点的每一条路经都对应着一条合理的规则,从根节点到叶节点的每一条路经都对应着一条合理的规则,规则间各个部分(各个层的条件)的关系是合取关系。整规则间各个部分(各个层的条件)的关系是合取关系。整个决策树就对应着一组析取的规则。个决策树就对应着一组析取的规则。v决策树学习算法的最大优点是,它可以自学习。在学习的决策树学习算法的最大优点是,它可以自学习。在学习的过程中,不需要使用者了解过多背景知识,只需要对训练过程中,不需要使用者了解过多背景知识,只需要对训练例子进行较好的标注,就能够进行学习。如

14、果在应用中发例子进行较好的标注,就能够进行学习。如果在应用中发现不符合规则的实例,程序会询问用户该实例的正确分类,现不符合规则的实例,程序会询问用户该实例的正确分类,从而生成新的分枝和叶子,并添加到树中。从而生成新的分枝和叶子,并添加到树中。 v树是由节点和分枝组成的层树是由节点和分枝组成的层次数据结构。节点用于存贮次数据结构。节点用于存贮信息或知识,分枝用于连接信息或知识,分枝用于连接各个节点。树是图的一个特各个节点。树是图的一个特例,图是更一般的数学结构,例,图是更一般的数学结构,如贝叶斯网络。如贝叶斯网络。v决策树是描述分类过程的一决策树是描述分类过程的一种数据结构,从上端的根节种数据结

15、构,从上端的根节点开始,各种分类原则被引点开始,各种分类原则被引用进来,并依这些分类原则用进来,并依这些分类原则将根节点的数据集划分为子将根节点的数据集划分为子集,这一划分过程直到某种集,这一划分过程直到某种约束条件满足而结束。约束条件满足而结束。 根结点根结点个子大个子大可能是松鼠可能是松鼠可能是老鼠可能是老鼠可能是大象可能是大象在水里在水里会吱吱叫会吱吱叫鼻子长鼻子长脖子长脖子长个子小个子小不会吱吱叫不会吱吱叫鼻子短鼻子短脖子短脖子短可能是长颈鹿可能是长颈鹿在陆地上在陆地上可能是犀牛可能是犀牛可能是河马可能是河马v可以看到,一个决策树的内部结点包含学习的实例,每层分枝可以看到,一个决策树的

16、内部结点包含学习的实例,每层分枝代表了实例的一个属性的可能取值,叶节点是最终划分成的类。代表了实例的一个属性的可能取值,叶节点是最终划分成的类。如果判定是二元的,那么构造的将是一棵二叉树,在树中每回如果判定是二元的,那么构造的将是一棵二叉树,在树中每回答一个问题就降到树的下一层,这类树一般称为答一个问题就降到树的下一层,这类树一般称为CART(Classification And Regression Tree)。)。v判定结构可以机械的转变成产生式规则。可以通过对结构进行判定结构可以机械的转变成产生式规则。可以通过对结构进行广度优先搜索,并在每个节点生成广度优先搜索,并在每个节点生成“IFT

17、HEN”规则来实现。规则来实现。如图如图6-13的决策树可以转换成下规则:的决策树可以转换成下规则: IF “个子大个子大” THEN IF “脖子短脖子短” THEN IF “鼻子长鼻子长” THEN 可能是大象可能是大象形式化表示成形式化表示成可能是大象鼻子长脖子短个子大 根结点根结点个 子个 子大大可 能 是 松可 能 是 松鼠鼠可 能 是 老可 能 是 老鼠鼠可 能 是 大可 能 是 大象象在 水在 水里里会 吱 吱会 吱 吱叫叫鼻 子鼻 子长长脖 子脖 子长长个子小个子小不会吱吱不会吱吱叫叫鼻子鼻子短短脖子脖子短短可能是长颈可能是长颈鹿鹿在 陆 地在 陆 地上上可 能 是 犀可 能

18、是 犀牛牛可 能 是 河可 能 是 河马马v构造一棵决策树要解决四个问题:构造一棵决策树要解决四个问题:收集待分类的数据,这些数据的所有属性应该是完全标注的。收集待分类的数据,这些数据的所有属性应该是完全标注的。设计分类原则,即数据的哪些属性可以被用来分类,以及如何将该属性量设计分类原则,即数据的哪些属性可以被用来分类,以及如何将该属性量化。化。分类原则的选择,即在众多分类准则中,每一步选择哪一准则使最终的树分类原则的选择,即在众多分类准则中,每一步选择哪一准则使最终的树更令人满意。更令人满意。设计分类停止条件,实际应用中数据的属性很多,真正有分类意义的属性设计分类停止条件,实际应用中数据的属

19、性很多,真正有分类意义的属性往往是有限几个,因此在必要的时候应该停止数据集分裂:往往是有限几个,因此在必要的时候应该停止数据集分裂:v该节点包含的数据太少不足以分裂,该节点包含的数据太少不足以分裂,v继续分裂数据集对树生成的目标继续分裂数据集对树生成的目标(例如例如ID3中的熵下降准则中的熵下降准则)没有贡献,没有贡献,v树的深度过大不宜再分。树的深度过大不宜再分。v通用的决策树分裂目标是整棵树的熵总量最小,每一步分裂时,选择使熵减小通用的决策树分裂目标是整棵树的熵总量最小,每一步分裂时,选择使熵减小最大的准则,这种方案使最具有分类潜力的准则最先被提取出来最大的准则,这种方案使最具有分类潜力的

20、准则最先被提取出来 预测变量目标变量记录样本类标号属性类别集合:类别集合:Class=“优优”,“良良”,“差差” 决策树的基本原理 根节点根节点叶子节点叶子节点分裂属性分裂属性分裂谓词分裂谓词 每一个叶子节点都被确定一个类标号每一个叶子节点都被确定一个类标号 v每一个节点都代表了一个数据集。每一个节点都代表了一个数据集。根节点根节点1代表了初始数据集代表了初始数据集D其它节点都是数据集其它节点都是数据集D的子集。的子集。v例如,节点例如,节点2代表数据集代表数据集D中年龄小于中年龄小于40岁的那部分样本组成岁的那部分样本组成的数据集。的数据集。v子节点是父节点的子集。子节点是父节点的子集。

21、vIf (年龄年龄40) and (职业职业=“学生学生” or职业职业=“教师教师”) Then 信用等级信用等级=“优优”vIf (年龄年龄40) and (职业职业!=“学生学生”and职业职业!=“教师教师”) Then 信用等信用等级级=“良良”vIf (年龄年龄40) and (月薪月薪3000) Then 信用等级信用等级=“优优”v决策树是指具有下列三个性质的树:决策树是指具有下列三个性质的树:每个非叶子节点都被标记一个分裂属性每个非叶子节点都被标记一个分裂属性Ai;每个分支都被标记一个分裂谓词,这个分裂谓每个分支都被标记一个分裂谓词,这个分裂谓词是分裂父节点的具体依据;词是分

22、裂父节点的具体依据;每个叶子节点都被标记一个类标号每个叶子节点都被标记一个类标号CjC。v任何一个决策树算法,其核心步骤都是为任何一个决策树算法,其核心步骤都是为每一次分裂确定一个每一次分裂确定一个分裂属性分裂属性,即究竟按,即究竟按照哪一个属性来把当前数据集划分为若干照哪一个属性来把当前数据集划分为若干个子集,从而形成若干个个子集,从而形成若干个“树枝树枝”。v熵,是数据集中的不确定性、突发性或随机性的熵,是数据集中的不确定性、突发性或随机性的程度的度量。程度的度量。v当一个数据集中的记录全部都属于同一类的时候,当一个数据集中的记录全部都属于同一类的时候,则没有不确定性,这种情况下的熵就为则

23、没有不确定性,这种情况下的熵就为0。v决策树分裂的基本原则是,数据集被分裂为若干决策树分裂的基本原则是,数据集被分裂为若干个子集后,要使每个子集中的数据尽可能的个子集后,要使每个子集中的数据尽可能的“纯纯”,也就是说子集中的记录要尽可能属于同,也就是说子集中的记录要尽可能属于同一个类别。如果套用熵的概念,即要使分裂后各一个类别。如果套用熵的概念,即要使分裂后各子集的熵尽可能的小。子集的熵尽可能的小。3.2 ID3、C4.5与与C5.0v数据集数据集D被按照分裂属性被按照分裂属性“年龄年龄”分裂为两分裂为两个子集个子集D1 和和D2 信息增益信息增益:Gain(D,年龄年龄)= H(D)P(D1

24、)H(D1)+ P(D2)H(D2) v显然,如果显然,如果D1和和D2中的数据越中的数据越“纯纯”,H(D1)和和H(D2)就越小,信就越小,信息增益就越大,或者说熵下降得越息增益就越大,或者说熵下降得越多。多。v按照这个方法,测试每一个属性的信按照这个方法,测试每一个属性的信息增益,选择增益值最大的属性作为息增益,选择增益值最大的属性作为分裂属性。分裂属性。信息熵计算举例信息熵计算举例v令令C1对应对应“是是”,C2对应对应“否否”。那么。那么C1有有9个样个样本,本,C2有有5个样本,所以数据集个样本,所以数据集D的熵为:的熵为:9406. 0)145(log145)149(log149

25、)5 , 9(),(2221 IssI决策树归纳策略 (1)v输入输入数据划分数据划分D是训练元组和对应类标号的集合是训练元组和对应类标号的集合attribute_list,候选属性的集合候选属性的集合Attribute_selection_method,指定选择属性的启发性过程,指定选择属性的启发性过程算法步骤算法步骤1.树以代表训练样本的单个节点(树以代表训练样本的单个节点(N)开始)开始2.如果样本都在同一个类,则该节点成为树叶,并用该类标记如果样本都在同一个类,则该节点成为树叶,并用该类标记3.否则,算法调用否则,算法调用Attribute_selection_method,选择能够最

26、,选择能够最好的将样本分类的属性;确定好的将样本分类的属性;确定“分裂准则分裂准则”,指出,指出“分裂点分裂点”或或“分裂子集分裂子集”。决策树归纳策略 (2)4.对测试属性每个已知的值,创建一个分支,对测试属性每个已知的值,创建一个分支,并以此划分元组并以此划分元组5.算法使用同样的过程,递归的形成每个划分算法使用同样的过程,递归的形成每个划分上的元组决策树。一旦一个属性出现在一个上的元组决策树。一旦一个属性出现在一个节点上,就不在该节点的任何子节点上出现节点上,就不在该节点的任何子节点上出现6.递归划分步骤停止的条件递归划分步骤停止的条件划分划分D(在(在N节点提供)的所有元组属于同一类节

27、点提供)的所有元组属于同一类没有剩余属性可以用来进一步划分元组没有剩余属性可以用来进一步划分元组使用多数表决使用多数表决没有剩余的样本没有剩余的样本给定分支没有元组,则以给定分支没有元组,则以D中多数类创建一个树叶中多数类创建一个树叶属性选择度量v属性选择度量是一种选择分裂准则,将给定属性选择度量是一种选择分裂准则,将给定类标号的训练元组最好的进行划分的方法类标号的训练元组最好的进行划分的方法理想情况,每个划分都是理想情况,每个划分都是“纯纯”的,即落在给定的,即落在给定划分内的元组都属于相同的类划分内的元组都属于相同的类属性选择度量又称为分裂准则属性选择度量又称为分裂准则v常用的属性选择度量

28、常用的属性选择度量信息增益信息增益增益率增益率Gini指标指标信息增益信息增益 (1)vS是一个是一个训练样本训练样本的集合,该样本中每个集的集合,该样本中每个集合的合的类编号类编号已知。每个样本为一个已知。每个样本为一个元组元组。有个属性用来判定某个训练样本的类编号有个属性用来判定某个训练样本的类编号v假设假设S中有中有m个类,总共个类,总共s个训练样本,每个训练样本,每个类个类Ci有有si个样本个样本(i1,2,3.m),那么任意,那么任意一个样本属于类一个样本属于类Ci的概率是的概率是si / s,那么用,那么用来分类一个给定样本的来分类一个给定样本的期望信息期望信息是:是:ssssss

29、sInfoimiim2121log),.,(信息增益信息增益 (2)v一个有一个有v个值的属性个值的属性Aa1,a2,.,av可以将可以将S分成分成v个子集个子集S1,S2,.,Sv,其中,其中Sj包含包含S中属性中属性A上的值为上的值为aj的样本的样本。假设。假设Sj包含类包含类Ci的的sij个样本。根据个样本。根据A的这种划分的期的这种划分的期望信息称为望信息称为A的的熵熵vA上该划分的获得的信息增益定义为:上该划分的获得的信息增益定义为:v具有高信息增益的属性,是给定集合中具有高区分度的具有高信息增益的属性,是给定集合中具有高区分度的属性。所以可以通过计算属性。所以可以通过计算S中样本的

30、每个属性的信息增中样本的每个属性的信息增益,来得到一个属性的相关性的排序。益,来得到一个属性的相关性的排序。),.,(.)(111mjjvjmjjssIsssAE)(),.,()(21AEsssIAGainmv若以若以“年龄年龄”作为分裂属性,作为分裂属性,则产生三个子集(因为该属则产生三个子集(因为该属性有三个不同的取值),所性有三个不同的取值),所以以D按照属性按照属性“年龄年龄”划分划分出的三个子集的熵的加权和出的三个子集的熵的加权和为:为:6936. 03468. 003468. 0)52log5253log53(145)44log44(144)52log5253log53(145),

31、(22222年龄DE其中有一个子集的熵为其中有一个子集的熵为0247. 06936. 09406. 0),(),(),(21年龄年龄DEssIDGain9406. 0)145(log145)149(log149)5 , 9(),(2221 IssIv同理,若以“收入水平”为分裂属性:9111. 02318. 03936. 08572 . 0)41log4143log43(144)62log6264log64(146)42log4242log42(144),(222222收入水平DE2950 . 09111. 09406. 0),(),(),(21收入水平收入水平DEssIDGainv若以“有固

32、定收入”为分裂属性:v若以“VIP”为分裂属性:7886. 02959. 04927. 0)71log7176log76(147)73log7374log74(147),(2222固定收入DE152. 07886. 09406. 0),(),(),(21固定收入固定收入DEssIDGain9228 . 02864 . 04636. 0)63log6363log63(146)82log8286log86(148)VIP,(2222DE0484. 08922. 09406. 0),(),(),(21VIPDEssIVIPDGain以以“年龄年龄”作为分裂属性,所得信息增益最大。作为分裂属性,所得信

33、息增益最大。 叶子节点叶子节点ID3的主要缺点的主要缺点vID3算法只能处理分类属性(离散属性),而不能算法只能处理分类属性(离散属性),而不能处理连续属性(数值属性)。在处理连续属性时,处理连续属性(数值属性)。在处理连续属性时,一般要先将连续属性划分为多个区间,转化为分一般要先将连续属性划分为多个区间,转化为分类属性。例如类属性。例如“年龄年龄”,要把数值事先转换为诸,要把数值事先转换为诸如如“小于小于30岁岁”、“30至至50岁岁”、“大于大于50岁岁”这样的区间,再根据年龄值落入了某一个区间取这样的区间,再根据年龄值落入了某一个区间取相应的类别值。通常,区间端点的选取包含着一相应的类别

34、值。通常,区间端点的选取包含着一定的主观因素。定的主观因素。vID3生成的决策树是一棵多叉树,分支的数量取决生成的决策树是一棵多叉树,分支的数量取决于分裂属性有多少个不同的取值。这不利于处理于分裂属性有多少个不同的取值。这不利于处理分裂属性取值数目较多的情况。因此目前流行的分裂属性取值数目较多的情况。因此目前流行的决策树算法大多采用二叉树模型。决策树算法大多采用二叉树模型。vID3是采用是采用“信息增益信息增益”来选择分裂属性的。虽然来选择分裂属性的。虽然这是一种有效的方法,但其具有明显的倾向性,这是一种有效的方法,但其具有明显的倾向性,即它倾向于选择具有大量不同取值的属性,从而即它倾向于选择

35、具有大量不同取值的属性,从而产生许多小而纯的子集。产生许多小而纯的子集。v尤其是关系数据库中作为主键的属性,每一个样尤其是关系数据库中作为主键的属性,每一个样本都有一个不同的取值。如果以这样的属性作为本都有一个不同的取值。如果以这样的属性作为分裂属性,那么将产生非常多的分支,而且每一分裂属性,那么将产生非常多的分支,而且每一个分支产生的子集的熵均为个分支产生的子集的熵均为0(因为子集中只有(因为子集中只有一个样本!)。显然,这样的决策树是没有实际一个样本!)。显然,这样的决策树是没有实际意义的。因此,意义的。因此,Quinlan提出使用增益比例来代提出使用增益比例来代替信息增益。替信息增益。

36、3.2.2 C4.5v设设S代表训练数据集,由代表训练数据集,由s个样本组成。个样本组成。A是是S的某个属性,有的某个属性,有m个不同的取值,根据这个不同的取值,根据这些取值可以把些取值可以把S划分为划分为m个子集,个子集,Si表示第表示第i个子集(个子集(i=1,2,m),),|Si|表示子集表示子集Si中的中的样本数量。那么:样本数量。那么:)|log|(),(_21sSsSASInfoSplitimii称为“数据集数据集S关于属性关于属性A的熵的熵”。 v用来衡量属性A分裂数据集的广度和均匀性。样本在属性A上的取值分布越均匀,Split_Info(S,A)的值就越大。v增益比例的定义为:

37、v增益比例消除了选择那些值较多且均匀分布的属性作为分裂属性的倾向性。),(_ASInfoSplit),(_),(),(ASInfoSplitASGainASGainRatio连续属性的处理连续属性的处理 v设属性设属性Y有有m个不同的取值,按大小顺序升序排列个不同的取值,按大小顺序升序排列为为v1v2, vi”将数据集划分为两个部分,将数据集划分为两个部分,形成两个分支。显然,形成两个分支。显然, v1,v2, vm-1就是可能的就是可能的阈值的集合,共阈值的集合,共(m-1)个元素。个元素。v把这些阈值一一取出来,并根据把这些阈值一一取出来,并根据“Yvi”和和“Y vi”把训练数据集划分为

38、两个子集,并计算每一种划把训练数据集划分为两个子集,并计算每一种划分方案下的信息增益或增益比例,选择最大增益分方案下的信息增益或增益比例,选择最大增益或增益比例所对应的那个阈值,作为最优的阈值。或增益比例所对应的那个阈值,作为最优的阈值。v可以看出,如果选择连续属性作为分裂属性,则可以看出,如果选择连续属性作为分裂属性,则分裂后只有两个分支,而不象离散属性那样可能分裂后只有两个分支,而不象离散属性那样可能会有多个分支(由离散属性的取值个数决定)。会有多个分支(由离散属性的取值个数决定)。 v如果要计算如果要计算“年龄年龄”属性的信息增益,属性的信息增益,则首先将不同的属性值排序则首先将不同的属

39、性值排序20,25,28,40,46,55,56,58,60,65,70v那么可能的阈值集合为那么可能的阈值集合为20,25,28,40,46,55,56,58,60,65,70,从中一一取出,并形成分裂谓词,例从中一一取出,并形成分裂谓词,例如取出如取出“20”,形成谓词,形成谓词“20”和和“20”,用它们划分训练数据集,然,用它们划分训练数据集,然后计算信息增益或增益比例。后计算信息增益或增益比例。 处理有缺失值的样本处理有缺失值的样本 vC4.5并不会武断地将一个有缺失值的样本并不会武断地将一个有缺失值的样本抛弃抛弃,也不会随意地将它分配到某个类别中也不会随意地将它分配到某个类别中去。

40、去。 v“收入水平收入水平”的值,取为的值,取为“高高”的概率为的概率为3/12,取为,取为“中中”的概率为的概率为5/12,取为,取为“低低”的概率为的概率为4/12。vS1(收入水平(收入水平=“高高”)的样本数量为:)的样本数量为:3+2(3/12); 3.2.4 C5.0算法算法vC5.0C5.0是经典的决策树模型的算法之一,可生成多分支的决是经典的决策树模型的算法之一,可生成多分支的决策树,目标变量为分类变量策树,目标变量为分类变量v使用使用c5.0c5.0算法算法可以可以生成决策树(生成决策树(decision treedecision tree)或者规则)或者规则集(集(rule

41、rule setssets)。)。C5.0C5.0模型根据能够带来最大信息增益模型根据能够带来最大信息增益(information gaininformation gain)的字段拆分样本。)的字段拆分样本。第一次拆分确定第一次拆分确定的样本子集随后再次拆分,通常是根据另一个字段进行拆的样本子集随后再次拆分,通常是根据另一个字段进行拆分,这一过程重复进行直到样本子集不能再被拆分为止。分,这一过程重复进行直到样本子集不能再被拆分为止。最后,重新检验最低层次的拆分,那些对模型值没有显著最后,重新检验最低层次的拆分,那些对模型值没有显著贡献的样本子集被剔除或者修剪。贡献的样本子集被剔除或者修剪。 C

42、5.0的优点的优点v优点:优点:C5.0C5.0模型在面对数据遗漏和输入字段很多的问题时非常模型在面对数据遗漏和输入字段很多的问题时非常稳健。稳健。C5.0C5.0模型通常不需要很长的训练次数进行估计。模型通常不需要很长的训练次数进行估计。C5.0C5.0模型比一些其他类型的模型易于理解,模型推出的模型比一些其他类型的模型易于理解,模型推出的规则有非常直观的解释。规则有非常直观的解释。C5.0C5.0也提供强大的增强技术以提高分类的精度。也提供强大的增强技术以提高分类的精度。vC5.0C5.0算法选择分支变量的依据算法选择分支变量的依据以信息熵的下降速度作为确定最佳分支变量和分割阀值以信息熵的

43、下降速度作为确定最佳分支变量和分割阀值的依据。信息熵的下降意味着信息的不确定性下降的依据。信息熵的下降意味着信息的不确定性下降举例:在举例:在Clementine中应用中应用C5.0v这里,以学生参加某次社会公益活动的数据(文这里,以学生参加某次社会公益活动的数据(文件名为件名为Students.xls)为例,讲解)为例,讲解C5.0算法的具算法的具体实现操作。体实现操作。v分析目标是,研究那些因素将显著影响到学生参分析目标是,研究那些因素将显著影响到学生参与社会公益活动。与社会公益活动。 其中,是否参加为输出变量,除编号以外的其中,是否参加为输出变量,除编号以外的变量均为输入变量。变量均为输

44、入变量。数据流如下:数据流如下:一、建立模型 第一步建立数据源,第二步选择第一步建立数据源,第二步选择Modeling卡中的卡中的C5.0节点节点并将其连接到恰当位置,鼠标右击该节点,弹出下面窗口。并将其连接到恰当位置,鼠标右击该节点,弹出下面窗口。模型名称(模型名称(Model nameModel name)输出类型(输出类型(Output typeOutput type):此处):此处指定希望最终生成的模型是决策树指定希望最终生成的模型是决策树还是规则集。还是规则集。群体字符(群体字符(Group symbolicsGroup symbolics)。)。如果选择该选项,如果选择该选项,C5

45、.0C5.0会尝试将所会尝试将所有与输出字段格式相似的字符值合有与输出字段格式相似的字符值合并。如果没有选择该选项,并。如果没有选择该选项,C5.0C5.0会会为用于拆分母节点的字符字段的每为用于拆分母节点的字符字段的每个值创建一个子节点。个值创建一个子节点。使用自举法(使用自举法(Use boostingUse boosting):):提高其精确率。这种方法按序列建提高其精确率。这种方法按序列建立多重模型。第一个模型以通常的立多重模型。第一个模型以通常的方式建立。随后,建立第二个模型,方式建立。随后,建立第二个模型,聚焦于被第一个模型错误分类的记聚焦于被第一个模型错误分类的记录。以此类推,最

46、后应用整个模型录。以此类推,最后应用整个模型集对样本进行分类,使用加权投票集对样本进行分类,使用加权投票过程把分散的预测合并成综合预测。过程把分散的预测合并成综合预测。The Number of trialsThe Number of trials选项允许控选项允许控制用于助推的模型数量。制用于助推的模型数量。v交叉验证(交叉验证(Crossvalidate):如果选择了该):如果选择了该选项,选项,C5.0将使用一组基于将使用一组基于训练数据子集建立的模型,训练数据子集建立的模型,来估计基于全部数据建立的来估计基于全部数据建立的模型的精确度。如果数据集模型的精确度。如果数据集过小,不能拆分成

47、传统意义过小,不能拆分成传统意义上的训练集和测试集,这将上的训练集和测试集,这将非常有用。或用于交叉验证非常有用。或用于交叉验证的模型数目。的模型数目。v模式(模式(Mode):对于简单的):对于简单的训练,绝大多数训练,绝大多数C5.0参数是参数是自动设置。高级训练模式选自动设置。高级训练模式选项允许对训练参数更多的直项允许对训练参数更多的直接控制。接控制。v简单模式选项(简单模式选项(simplesimple)v偏好(偏好(FavorFavor):):在在accuracyaccuracy下,下,C5.0C5.0会生会生成尽可能精确的决策树。成尽可能精确的决策树。在某些情况下,这会导致在某些

48、情况下,这会导致过度拟和。选择过度拟和。选择GeneralityGenerality(一般化)项(一般化)项以使用不易受该问题影响以使用不易受该问题影响的算法设置。的算法设置。v期望噪声百分数期望噪声百分数(Expected noise Expected noise (% %):):指定训练集中的噪声或错指定训练集中的噪声或错误数据期望比率。误数据期望比率。v高级模式选项高级模式选项v修剪纯度(修剪纯度(pruning severity):决定生):决定生成决策树或规则集被修剪的程度。提高成决策树或规则集被修剪的程度。提高纯度值将获得更小,更简洁的决策树。纯度值将获得更小,更简洁的决策树。降低

49、纯度值将获得更加精确的决策树。降低纯度值将获得更加精确的决策树。v子分支最少记录数(子分支最少记录数(Minimum records per child branch):子群大小可以用于):子群大小可以用于限制决策树任一分支的拆分数。只有当限制决策树任一分支的拆分数。只有当两个或以上的后序子分支包括来自训练两个或以上的后序子分支包括来自训练集的记录不少于最小记录数,决策树才集的记录不少于最小记录数,决策树才会继续拆分。默认值为会继续拆分。默认值为2,提高该值将有,提高该值将有助于避免噪声数据的过度训练。助于避免噪声数据的过度训练。v全局修剪(全局修剪(Use global pruning):)

50、: 第一阶段:局部修建第一阶段:局部修建 第二阶段:全局修剪第二阶段:全局修剪v排除属性(排除属性(Winnow attributes):如果):如果选择了该选项,选择了该选项,C5.0会在建立模型前检会在建立模型前检验预测字段的有用性。被发现与分析无验预测字段的有用性。被发现与分析无关的预测字段将不参与建模过程。这一关的预测字段将不参与建模过程。这一选项对有许多预测字段元的模型非常有选项对有许多预测字段元的模型非常有用,并且有助于避免过度拟和。用,并且有助于避免过度拟和。 图图1 指定错误归类损失指定错误归类损失错误归类损失允许指定不同类错误归类损失允许指定不同类型预测错误之间的相对重要性。

51、型预测错误之间的相对重要性。错误归类损失矩阵显示预测类错误归类损失矩阵显示预测类和实际类每一可能组合的损失。和实际类每一可能组合的损失。所有的错误归类损失都预设设所有的错误归类损失都预设设置为置为1.01.0。要输入自定义损失值,。要输入自定义损失值,选择选择Use misclassification Use misclassification costscosts,然后把自定义值输入到,然后把自定义值输入到损失矩阵中。损失矩阵中。具体设置具体设置执行结果执行结果二、预测结果二、预测结果 为观测为观测C5.0对每个样本的预测结果,可在流管理器的对每个样本的预测结果,可在流管理器的Models卡

52、中,鼠标右击卡中,鼠标右击C5.0模型结果,选择弹出菜单中的模型结果,选择弹出菜单中的Add To Stream,并将模型结果连接到数据流中,然后连接,并将模型结果连接到数据流中,然后连接Table节点查看预测结果,如下图所示:节点查看预测结果,如下图所示:三、三、C5.0模型评价模型评价3.3 CARTv分类和回归树(分类和回归树(Classification and Regression Trees,CART,在在Clementine中简写为中简写为C&RT)vCART算法中的每一次分裂把数据分为算法中的每一次分裂把数据分为两个两个子集,每个子集中的样本比被划分之前具有子集,每个子集中的样

53、本比被划分之前具有更好的一致性。它是一个递归的过程,也就更好的一致性。它是一个递归的过程,也就是说,这些子集还会被继续划分,这个过程是说,这些子集还会被继续划分,这个过程不断重复,直到满足终止准则,然后通过修不断重复,直到满足终止准则,然后通过修剪和评估,得到一棵最优的决策树。剪和评估,得到一棵最优的决策树。三个步骤三个步骤v生成最大树生成最大树生成一棵充分生长的最大树生成一棵充分生长的最大树v树的修剪树的修剪根据修剪算法对最大树进行修剪,生成由许多子根据修剪算法对最大树进行修剪,生成由许多子树组成的子树序列树组成的子树序列v子树评估子树评估从子树序列中选择一棵最优的子树作为最后的结从子树序列中选择一棵最优的子树作为最后的结果。果。 3.3.1 生成最大树生成最大树v标准问题集标准问题集 就某个给

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论