《数据挖掘原理与应用第2版》课件 6.2分类预测-决策树分类

上传人：q*** IP属地：山东上传时间：2025-12-01 格式：PPTX 页数：95 大小：2.93MB 积分：12 举报 版权申诉

已阅读5页，还剩90页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第6章分类预测决策树分类原理什么是决策树？【例】工厂准备扩大电视机生产。市场预测表明：产品销路好的概率为0.7；销路差的概率为0.3。三个方案：建大厂，需要投资600万元，可使用10年；如销路好，每年可赢利200万元；如销路不好，每年会亏损40万元。建小厂，需投资280万元；如销路好，每年可赢利80万元；如销路不好，每年只赢利60万元。先建小厂，但是如销路好，3年后扩建，扩建需投资400万元，可使用7年，扩建后每年会赢利190万元。供选方案投资额(万元)使用年限(年)盈利(万元)销路好P1=0.7销路不好P2=0.3A1:建设大工厂60010200-40A2:建设小工厂280108060A3:先建小工厂，盈利好则3年后扩建4007190601719万元2680万元200万元-40万元34930万元5930万元6560万元190万元80万元60万元建大厂建小厂销路好(0.7)销路差(0.3)销路好(0.7)扩建不扩建销路好(0.7)销路好(0.7)销路差(0.3)XX719万元X决策树分类决策树分类算法，是利用决策树的原理和结构，构造和生成形如决策树的分类模型，发现和定义数据中蕴涵的分类规则的过程。决策树中每个内部结点(非树叶结点)表示在一个属性上的测试，每个分枝代表一个测试输出，而每个树叶结点存放一个类标号。建立了决策树，对于一个未给定类标号的元组，跟踪一条有根结点到叶结点的路径，该叶结点就存放着该元组的预测。决策树分类的步骤：1)建立决策树分类模型由训练样本数据集生成决策树分类模型。训练样本数据集通常选用有一定积累的、有一定综合程度的、用于数据分析处理的数据集。2)

测试并评估模型使用测试数据集，对决策树模型进行测试，根据测试误差对分类模型进行评估，并根据情况对模型通过剪枝等手段进行进行修正，以提高模型的预测准确性。是对所生成的决策树模型进行检验、校正和修正的过程。3)使用决策树模型对未知分类的样本数据，利用决策树进行分类判别。1.建立决策树分类模型准备数据(b)测试数据集TidRefundMaritalStatusIncomeCheat11yesMarried95Kno12noMarried100Kno13noSingle95Kno14yesSingle70Kno15noDivorced5Kyes16noSingle60Kno(c)未分类数据TidRefundMaritalStatusIncomeCheat1yesSingle125K?2noMarried100K?3noSingle70K?(a)训练数据集TidRefundMaritalStatusIncomeCheat1yesSingle125Kno2noMarried100Kno3noSingle70Kno4yesMarried120Kno5noDivorced95Kyes6noMarried60Kno7yesDivorced220Kno8noSingle85Kyes9noMarried75Kno10noSingle90Kyes1.建立决策树分类模型根据训练数据建立决策树yesRefundno/3……no(a)训练数据集TidRefundMaritalStatusIncomeCheat1yesSingle125Kno2noMarried100Kno3noSingle70Kno4yesMarried120Kno5noDivorced95Kyes6noMarried60Kno7yesDivorced220Kno8noSingle85Kyes9noMarried75Kno10noSingle90KyesTidRefundMaritalStatusIncomeCheat1yesSingle125Kno4yesMarried120Kno7yesDivorced220Kno2noMarried100no3noSingle70Kno5noDivorced95Kyes6noMarried60Kno8noSingle85Kyes9noMarried75Kno10noSingle90Kyes1.建立决策树分类模型根据训练数据建立决策树yesRefundno/3no(a)训练数据集TidRefundMaritalStatusIncomeCheat1yesSingle125Kno2noMarried100Kno3noSingle70Kno4yesMarried120Kno5noDivorced95Kyes6noMarried60Kno7yesDivorced220Kno8noSingle85Kyes9noMarried75Kno10noSingle90KyesTidRefundMaritalStatusIncomeCheat1yesSingle125Kno4yesMarried120Kno7yesDivorced220Kno2noMarried100no3noSingle70Kno5noDivorced95Kyes6noMarried60Kno8noSingle85Kyes9noMarried75Kno10noSingle90KyesTidRefundMaritalStatusIncomeCheat1yesSingle125Kno4yesMarried120Kno7yesDivorced220Kno2noMarried100no6noMarried60Kno9noMarried75Kno3noSingle70Kno5noDivorced95Kyes8noSingle85Kyes10noSingle90KyesMarStno/3Single,Divorced………Married1.建立决策树分类模型根据训练数据建立决策树yesRefundno/3no(a)训练数据集TidRefundMaritalStatusIncomeCheat1yesSingle125Kno2noMarried100Kno3noSingle70Kno4yesMarried120Kno5noDivorced95Kyes6noMarried60Kno7yesDivorced220Kno8noSingle85Kyes9noMarried75Kno10noSingle90KyesTidRefundMaritalStatusIncomeCheat1yesSingle125Kno4yesMarried120Kno7yesDivorced220Kno2noMarried100no3noSingle70Kno5noDivorced95Kyes6noMarried60Kno8noSingle85Kyes9noMarried75Kno10noSingle90KyesTidRefundMaritalStatusIncomeCheat1yesSingle125Kno4yesMarried120Kno7yesDivorced220Kno2noMarried100no6noMarried60Kno9noMarried75Kno3noSingle70Kno5noDivorced95Kyes8noSingle85Kyes10noSingle90KyesMarStno/3Incomeyes/3no/1<85k≥85kSingle,DivorcedMarried1.建立决策树分类模型按此原理，从不同属性开始，建立不同的分类决策树(a)训练数据集TidRefundMaritalStatusIncomeCheat2noMarried100Kno6noMarried60Kno9noMarried75Kno4yesMarried120Kno1yesSingle125Kno7yesDivorced220Kno3noSingle70Kno8noSingle85Kyes10noSingle90Kyes5noDivorced95KyesyesMarStno/4RefundIncomeno/2no/1yes/3noSingle,DivorcedMarried<85K≥85K1.建立决策树分类模型类似于流程图的树结构每个内部节点表示在一个属性上的测试每个分枝代表一个测试输出每个树叶节点代表类或类分布yesMarStno/4RefundIncomeno/2no/1yes/3noSingle,DivorcedMarried<85K≥85K2.测试并评估模型测试(b)测试数据集TidRefundMaritalStatusIncomeCheat11yesMarried95Kno12noMarried100Kno13noSingle95Kno14yesSingle70Kno15noDivorced95Kyes16noSingle60Kno

误差率=1/6可以接受，模型确定yesRefundno/3MarStIncomeno/3no/1yes/3noSingle,divorcedMarried<85K≥85K3.使用决策树模型(c)未分类数据TidRefundMaritalStatusIncomeCheat1yesSingle125K?2noMarried100K?3noSingle70K?yesRefundno/3MarStIncomeno/3no/1yes/3noSingle,divorcedMarried<85K≥85Knonono思考？yesRefundno/3MarStIncomeno/3no/1yes/3noSingle,divorcedMarried<85K≥85KyesMarStno/4RefundIncomeno/2no/1yes/3noSingle,DivorcedMarried<85K≥85K以哪个属性开始？(a)训练数据集TidRefundMaritalStatusIncomeCheat1yesSingle125Kno2noMarried100Kno3noSingle70Kno4yesMarried120Kno5noDivorced95Kyes6noMarried60Kno7yesDivorced220Kno8noSingle85Kyes9noMarried75Kno10noSingle90Kyes思考？(a)训练数据集TidRefundMaritalStatusIncomeCheat1yesSingle125Kno2noMarried100Kno3noSingle70Kno4yesMarried120Kno5noDivorced95Kyes6noMarried60Kno7yesDivorced220Kno8noSingle85Kyes9noMarried75Kno10noSingle90Kyescategoricalcategoricalcontinuousclass不同类型的属性，是否处理的方法不同？yesRefundno/3MarStIncomeno/3no/1yes/3noSingle,divorcedMarried<85K≥85K(a)训练数据集TidRefundMaritalStatusIncomeCheat1yesSingle125Kno2noMarried100Kno3noSingle70Kno4yesMarried120Kno5noDivorced95Kyes6noMarried60Kno7yesDivorced220Kno8noSingle85Kyes9noMarried75Kno10noSingle90Kyes思考？MarStSingle,divorcedMarriedIncome<60K70~75K60~70K75~85K≥220K125~200K……MarStSingleMarrieddivorced如何划分多值属性？Income<85K≥85K思考？yesRefundno/3MarStIncomeno/3no/1yes/3noSingle,divorcedMarried<85K≥85K(b)测试数据集TidRefundMaritalStatusIncomeCheat11yesMarried95Kno12noMarried100Kno13noSingle95Kno14yesSingle70Kno15noDivorced95Kyes16noSingle60Kno

错误率太大，如何解决？小结决策树分类的基本概念决策树分类应用的基本过程建模（训练数据）检验评估（测试数据）使用（未分类数据）几个问题开始划分的属性不同类型的属性的划分方法第6章分类预测决策树分类模型不同属性的划分方法划分方法CarTypeFamilySportsLuxuryCarType{Family,Luxury}{Sports}CarType{Sports,Luxury}{Family}CarType{Family,Sports}{Luxury}划分数（输出数）取决于该属性不同属性值的个数。

划分数为2，这种划分要考虑创建k个属性值的二元划分的所有2k-1-1种方法.多路划分:二元划分:划分方法编号色泽根蒂敲声纹理脐部触感密度含糖率好瓜1青绿蜷缩浊响清晰凹陷硬滑0.4970.46是2乌黑蜷缩沉闷清晰凹陷硬滑0.5740.376是3乌黑蜷缩浊响清晰凹陷硬滑0.4340.264是4青绿蜷缩沉闷清晰凹陷硬滑0.6080.318是5青绿蜷缩浊响清晰凹陷硬滑0.3560.215是6青绿稍蜷浊响清晰稍凹软粘0.4030.337是7乌黑稍蜷浊响稍糊稍凹软粘0.4810.49是8乌黑蜷缩浊响清晰稍凹硬滑0.4370.511是9乌黑稍蜷沉闷稍糊平坦硬滑0.6660.091否10青绿硬挺清脆清晰平坦软粘0.2430.067否11浅白硬挺清脆模糊平坦硬滑0.2450.057否12浅白蜷缩浊响模糊平坦软粘0.3430.099否13青绿稍蜷浊响稍糊平坦硬滑0.6390.161否14浅白稍蜷沉闷稍糊凹陷硬滑0.6570.198否15乌黑稍蜷浊响清晰稍凹软粘0.6360.37否16浅白硬挺浊响模糊平坦硬滑0.5930.042否17青绿蜷缩沉闷稍糊稍凹硬滑0.7190.103否划分方法注意：二元划分:Size{Medium,Large}{Small}Size{Small,Medium}{Large}ORSize{Small,Large}{Medium}划分方法连续属性多路划分:vi≤A＜vi+1（i=1,…,k)二元划分:(A<vi)or(A

vi)Income<50K>=50KIncome<10K>=80K{10K,25K}{25K,50K}{50K,80K}二元划分多路划分考虑所有的划分点，选择一个最佳划分点v从哪个属性开始：不纯性20个记录，未划分时:10个记录class0(C0),

10个记录class1(C1)性别C0：6C1：4C0：4C1：6男女车型C0：1C1：3C0：8C1：0家用运动C0：1C1：7豪华客户号C0：1C1：0C0：1C1：0v1v2C0：0C1：1v20C0：0C1：1…客户号性别车型…Class1男豪华…C02女家用…C03男豪华…C04女运动…C05男运动…C1……………19男运动…C120女家用…C1从哪个属性开始：不纯性不纯性不纯性大不纯性小思考：划分后，应不纯性大些较好，还是较小比较好？C0：5C1：5C0：9C1：1从哪个属性开始：以划分结果来衡量属性BNodeN3NodeN4属性Aa0a1NodeN1NodeN2划分前:M0M1M2M3M4M12M34Gain=M0–M12

Gain=M0

–M34C0N00C1N01C0N10C1N11C0N20C1N21C0N30C1N31C0N40C1N41b0b1衡量不纯度熵Gini系数分类误差

熵熵的概念最早起源于物理学，在物理学中是用来度量一个热力学系统的无序程度在信息学里面，熵是对不确定性的度量。在1948年，香农引入了信息熵将其定义为离散随机事件出现的概率，信息熵是表示一个事件的不确定性的大小，不确定性越大那么该事件包含的信息熵就越大如果一个事件完全确定了，那么它所包含的信息熵就是0。-信息增益熵分类划分n为数据类别的数目C为类别变量，取值为Ci，i=1,2,…,nCi类别出现的概率为

p(Ci)，i=1,2,…,n熵P(C0)=0/6=0P(C1)=6/6=1Entropy=–0

log20

–1

log21=–0–0=0P(C0)=1/6P(C1)=5/6Entropy=–(1/6)log2(1/6)

–(5/6)log2(1/6)=0.65P(C0)=2/6P(C1)=4/6Entropy=–(2/6)log2(2/6)

–(4/6)log2(4/6)=0.92C00C16C01C15C02C14P(C0)=3/6P(C1)=3/6Entropy=–(3/6)log2

(3/6)

–(3/6)log2

(3/6)=1C03C13信息增益根据熵来定义信息增益对于特征

t，系统具有或没有该特征时的信息量的差值，就是这个特征给系统带来的信息量，即信息增益。对于某一属性

T，进行属性划分的信息增益定义为：划分前，数据的信息熵按属性T

划分后的信息熵信息增益具体可写成：

其中

v是属性

T的某个属性值S为全部样本集合Sv是

S中属性

T的值为

v的样例集合|Sv|为

Sv中所含样例数信息增益【例】NO.OutlookTemperatureWindyHumidityPlay1sunnyhotfalseHighno2sunnyhottrueHighno3overcasthotfalseHighyes4rainmildfalseHighyes5raincoolfalseNormalyes6raincooltrueNormalno7overcastcooltrueNormalyes8sunnymildfalseHighno9sunnycoolfalseNormalyes10rainmildfalseNormalyes11sunnymildtrueNormalyes12overcastmildtrueHighyes13overcasthotfalseNormalyes14rainmildtrueHighno属性“Outlook”sunnyrainyovercastOutlook分裂后的信息熵：信息增益：从哪个属性开始：信息增益【例】计算所有属性的信息增益从哪个属性开始划分决策树的分支？

信息增益率信息增益率GainRatio计算信息增益时，不同分类的样本的数量，会影响信息熵或信息增益的计算，即存在归纳偏置的问题。采用信息增益率可减弱不同类别的样本数量对不纯性度量的影响。信息增益率GainRatio计算公式前面所定义的信息增益

信息增益率【例】NO.OutlookTemperatureWindyHumidityPlay1sunnyhotfalseHighno2sunnyhottrueHighno3overcasthotfalseHighyes4rainmildfalseHighyes5raincoolfalseNormalyes6raincooltrueNormalno7overcastcooltrueNormalyes8sunnymildfalseHighno9sunnycoolfalseNormalyes10rainmildfalseNormalyes11sunnymildtrueNormalyes12overcastmildtrueHighyes13overcasthotfalseNormalyes14rainmildtrueHighno从哪个属性开始：信息增益率【例】

GINI系数指标GINI系数是20世纪初意大利经济学家基尼，根据劳伦斯曲线所定义的判断收入分配公平程度的指标。GINI系数是一个比例数值，在0到1之间，是国际上用来综合考察居民收入分配差异状况的一个重要分析指标，GINI系数越接近1就表示收入分配差距越大。GINI系数指标GINI系数也是反映一组数据离散程度的指标，其功能类似于标准差。GINI系数越大，则平均指标（如平均数、中位数和众数）对一组数据的代表性越差；反之则越好。在决策树分类中，使用GINI系数来反映一组数据的类别(class)的杂乱程度，即度量不纯度。GINI系数指标给定结点

t的Gini值计算：当类分布均衡时，Gini值达到最大值(1-1/Nc)相反当只有一个类时，Gini值达到最小值0类别的数量在结点t中，类ci发生的概率结点t中出现的各个类别GINI系数指标P(C0)=0/6=0P(C1)=6/6=1Gini=1–(P(C0)2+P(C1)2)=1–(0+1)=0

P(C0)=1/6P(C1)=5/6Gini=1–((1/6)2+(5/6)2)=0.278P(C0)=2/6P(C1)=4/6Gini=1–((2/6)2+(4/6)2)=0.444P(C0)=3/6P(C1)=3/6Gini=1–((3/6)2+(3/6)2)=0.5GINI系数指标不同的划分结果，可以利用GiniSplit参数来衡量。当一个结点p

分割成k

个部分(子结点)，

划分的质量公式：ni=孩子结点i的记录数,n=父结点p的记录数.分类误差ClassificationError

P(C0)=0/6=0P(C1)=6/6=1Error=1–max(0,1)=1–1=0P(C0)=1/6P(C1)=5/6Error=1–max(1/6,5/6)=1–5/6=1/6P(C0)=2/6P(C1)=4/6Error=1–max(2/6,4/6)=1–4/6=1/3C00C16C01C15C02C14分类误差P(C0)=3/6P(C1)=3/6Error=1–max(3/6,3/6)=1–3/6=1/2C02C14连续属性的划分方法如何划分？NoOutlookTemperatureHumidityWindyplay1sunny8585falseno2sunny8090trueno3overcast8386falseyes4rainy7096falseyes5rainy6880falseyes6rainy6570trueno7overcast6465trueyes8sunny7295falseno9sunny6970falseyes10rainy7580falseyes11sunny7570trueyes12overcast7290trueyes13overcast8175falseyes14rainy7191trueNo连续属性的划分方法多元划分Humidityplay85no90no86yes96yes80yes70no65yes95no70yes80yes70yes90yes75yes91No连续属性的划分方法多元划分

Humidity

……96≤65(6570](7075](…](9195]Humidity8590869680706595708070907591Humidity6570707075808085869090919596连续属性的划分方法二元划分划分点v选择N个记录中所有属性值作为划分点，取N-1个划分点按照每个划分点（A<vi

andA

vi）进行类计数，计算每个候选点vi的GiniSplit指标选择最优划分点Humidity

≤A>A连续属性的划分方法481.数据排序，N=102.N-1=9个划分点≤65>70≤70>75≤75>80≤80>85……≤91>95≤95>963.比较GiniSplit(≤65,>70)GiniSplit(≤70,>75)GiniSplit(≤75,>80)GiniSplit(≤80,>85)……GiniSplit(≤91,>95)GiniSplit(≤95,96)GiniSplit(≤80,>85)【例】Humidity8590869680706595708070907591Humidity6570707075808085869090919596连续属性的划分方法49【例】Humidity

>85≤80Humidity8590869680706595708070907591从两个相邻的排过序的属性值之间选择中间值作为划分点

Humidity

>82.5≤82.5连续属性的划分方法50如果连续数值取值较为分散，则运算量较大。可采取一些处理方法来降低计算量。对排序后的连续数值属性所对应的决策属性值进行分类的方法。连续属性的划分方法511.对属性值由低到高进行排序；2.对分类属性在属性值排序的基础上进行排序；3.将属性值或分类值不发生变化的数值视为同一组；4.找出属性值和分类值均发生变化的边界点；5.按边界点为划分点进行划分增益计算比较连续属性的划分方法52只要对较少的划分点进行计算比较，有效地降低了计算复杂度。Humidity则从10次减少为只需6次。小结决策树分类的过程建立模型评估（测试数据集，精确度）应用模型讨论不纯度-信息增益-从哪个属性开始多差划分、二叉划分连续属性划分第6章分类预测决策树剪枝模型评价一个好的分类模型不仅要能够很好的拟合训练数据，而且对未知样本也要能准确分类。对模型的评估可以通过多项准确率指标来综合评价：一个好的分类模型必须具有较低的训练误差和较低的泛化误差。训练误差在训练数据集上误分类样本比例检验误差在测试数据集上误分类样本比例泛化误差分类模型在未知样本上的期望误差交叉验证【例】训练误差较低检验误差？泛化误差？xValueyValue【例】如果不那么“细致”？【例】哺乳动物的分类问题10个训练记录中有2个被错误标记：蝙蝠和鲸完全拟合训练数据，训练误差为0【例】哺乳动物的分类问题但它在检验数据上的误差达30%。人和海豚，鼹鼠误分为非哺乳动物【例】哺乳动物的分类问题更简单的决策树，检验误差较低10%，尽管它的训练误差较高20%前决策树过度拟合了训练数据。因为属性测试条件4条腿具有欺骗性，它拟合了误标记的训练纪录，导致了对检验集中记录的误分类过度拟合原因噪声噪声导致决策边界的改变过度拟合原因噪声缺乏代表性样本根据少量训练记录做出分类决策的模型也容易受过度拟合的影响。由于训练数据缺乏具有代表性的样本，在没有多少训练记录的情况下，学习算法仍然细化模型就会产生过度拟合。过度拟合原因噪声缺乏代表性样本【例】五个训练记录，所有的记录都是正确标记的，对应的决策树尽管训练误差为0，但检验误差高达30%。人、大象和海豚被误分类，因为决策树把恒温但不冬眠的动物分为非哺乳动物。决策树做出这样的分类决策是因为只有一个训练记录（鹰）具有这些特征。当决策树的叶结点没有足够的代表性样本时，很可能做出错误的预测。剪枝剪枝奥卡姆剃刀（Occam'sRazor）：“如无必要，勿增实体”，即“简单有效原理”。在能够保证泛化误差的前提下，对决策树模型进行剪枝给定两个具有相同泛化误差的模型，较简单的模型比复杂的模型更可取剪枝先剪枝后剪枝先剪枝使树增长算法在产生完全拟合整个训练数据集的之前就停止决策树的生长。当决策树的构建过程中，达到某一预先设定的条件，则停止树的生长，用该结点子集元组中最频繁的类，即主导类，作为其类别标号，该结点也设置为叶节点。先剪枝剪枝的条件主要有以下几种限制性结束条件：

定义一个决策树树高上限，当决策树达到这个上限时，就停止生长；定义一定的实例个数阈值，当结点的记录数少于该阈值，则停止生长；当不纯性度量的增益(例如信息增益informationgain)低于某个确定的阈值时，则停止生长；实例具有相同的特征向量的时候，停止决策树的生长，即使这些属性不属于同一类。这种方法能够较为有效地处理数据中的冲突问题。先剪枝方法相对简单，具有较高的效率，而且不需要生成整个决策树，适合于解决数据规模较大所带来的问题。要精确地估计决策树生长的停止时间并不容易，选取一个恰当的阈值更是非常困难。阈值太低，无法充分解决过度拟合的问题；阈值太高，则会导致拟合不足。后剪枝减少错误剪枝REP(Reduced-ErrorPruning)悲观错误剪枝法PEP(Pesimistic-ErrorPruning)代价-复杂度剪枝CCP(Cost-ComplexityPruning)最小错误剪枝MEP(MinimumErrorPruning)减少错误剪枝REP一种较为简单的基于测试检验结果的后剪枝的方法使用测试数据集来对过度拟合训练集中的虚假特征进行检验将决策树上的每个结点都列为剪枝的候选结点，再根据算法确定是否对结点进行剪枝：【算法6‑2】REP算法（给定由训练集数据生成的决策树T）1:repeat2:

找到最靠近叶结点的子树Ts，使Ts变成为叶结点N，得到一棵新树T’；3:

利用测试集测试T’，计算分类误差；4:ifT’的分类误差较T的分类误差有所下降then5:T=T’//即删除子树Ts，用叶结点N代替6:until任意一棵子树被叶结点替代而不增加其在测试集上的分类错误减少错误剪枝REP【例】减少错误剪枝REP【例】WEKA未剪枝进行了REP剪枝减少错误剪枝REP用测试数据集，来对剪枝前后的错误率进行测试和比对，以确定是否进行剪枝。悲观错误剪枝法PEPPEP仅使用训练数据，根据剪枝前后数据集错误率的变化来判定是否对子树进行修剪。引入了统计学上连续性修正的概念弥补REP中的缺陷，在评价子树的训练错误公式中添加了一个常数，来假定每个叶结点都一定程度上对实例的某个部分进行错误的分类。悲观错误剪枝法PEPPEP的基本原理也是试着用叶结点代替一颗子树，如果这样可使数据集分类误差减低，则确定这个替换，否则则不替换。但是，这样的替换必定会导致其训练集分类误差上升（测试数据集分类误差不一定会上升），所以需要进行一定的修正，以保证这个方法有效。修正的方法就是在分类误差上加上一个经验性的惩罚因子。

悲观错误剪枝法PEP对于子树，假定其有

NLeaf

个叶结点，则其经过修正后的子树的错误率为：ELeafi

为子树中各叶结点的误判个数NLeaf

为子树中叶结点数Ni为子树中各叶结点的样本数加入惩罚因子，在一定程度上消除了因子树换为叶结点时固有的分类误差增长。如果剪枝，内部结点下的子树变成了叶节点J，其误判个数EJ也要加上这个惩罚因子，变为EJ+0.5。A1A2c163c132c202c197正确分类的样本数量误判的样本数量悲观错误剪枝法PEP是否剪枝（替换）？？对于训练数据，子树总是比替换后的叶结点误差小，但校正后并非如此。如果剪枝后的误判个数在剪枝前的误判个数的标准误差之内，则可剪枝A1A2c163c132c202c197悲观错误剪枝法PEP错误率eTree

的分布，可根据经验估计为多种分布模型（二项式、正态分布）。

A1A2c163c132c202c197悲观错误剪枝法PEP【例】图示决策树子树，确定这个子树是否应被剪枝（用一个叶结点代替）。子树误差率子树误判次数的标准差：子树替换为叶结点后，误判次数：因有：所以可以

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《数据挖掘原理与应用第2版》课件 6.2分类预测-决策树分类

文档简介

温馨提示

最新文档

评论

《数据挖掘原理与应用 第2版 》课件 6.2分类预测-决策树分类

文档简介

温馨提示

最新文档

评论

相关文档

《数据挖掘原理与应用第2版》课件 6.2分类预测-决策树分类