建立模型之决策树讲义_第1页
建立模型之决策树讲义_第2页
建立模型之决策树讲义_第3页
建立模型之决策树讲义_第4页
建立模型之决策树讲义_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2023/5/7数据库新技术(数据挖掘)1/344.建立模型之决策树分类预测的概念什么是决策树决策树的核心问题决策树的生长,模型建立决策树的修剪C5.0算法及其应用实例信息熵和信息增益修剪算法2023/5/7数据库新技术(数据挖掘)2/344.1分类预测概念目的(通用)学习模型建立的算法了解该算法在相应数据挖掘问题中的应用分类预测的含义分类预测算法的类型2023/5/7数据库新技术(数据挖掘)3/344.1分类预测概念目的(通用)分类预测的含义通过对现有数据的学习建立起拟合数据的模型利用该模型对未来新数据进行分类,具备预测能力分类预测算法的类型2023/5/7数据库新技术(数据挖掘)4/344.1分类预测概念目的(通用)分类预测的含义分类预测算法的类型分析新数据在离散型输出变量上的取值分类决策树分析新数据在数值型(连续)输出变量上的取值

回归决策树2023/5/7数据库新技术(数据挖掘)5/34聚类、分类和模式识别聚类子集划分,把一个集合分割为无交集的子集;模式分类标识出样本归属的子集(标签)模式识别标识出样本对应的个体(样例)本身,或标识出样本所属子集本身(如考古、物种鉴别等)【注】样本,只需是个体或集合的特征表示2023/5/7数据库新技术(数据挖掘)6/34从二分类问题开始很多问题可以归结为上课、习题,以及考试都不是目的,只是为一个结果:及格?通过?优秀看电影:这是好人还是坏人求职:多项测试之后,决定

喜欢还是不喜欢?满意还是不满意?研究方向:Majorinorout在上述选择过程中,涉及到多个因素,如何比较不同因素重要性的差别?2023/5/7数据库新技术(数据挖掘)7/34在“虚度的日子”的判别中

最关键的是哪一个因素?睡眠时间:6/7/8/9/10成功事例数目:1/2/3开心指数:快乐、忧伤、愤怒、平淡、无聊人际交往:有成效、封闭健康指数:生病、恢复、亚健康、正常学思比数:10:1,3:1,2:1,1:22023/5/7数据库新技术(数据挖掘)8/34基于树型结构的排序算法树中节点的位置的确定和调整是通过对每一个节点中某个特定域的属性值排序决定,通常,树中节点都具有该属性二叉排序树堆排序如果树中节点没有现成的公共属性,无法据以比较节点以安排其在生成树中位置,怎么办?2023/5/7数据库新技术(数据挖掘)9/342.什么是决策树决策树来自决策论,由多个决策分支和可能的结果(包括资源成本和风险)组成,用来创建到达目标的规划;ADecisiontreeisatreewithbranchingnodeswithachoicebetweentwoormorechoices.也可以用来表示算法。分类预测:决策树表示

决策树学习结果:表示为决策树形式的

离散值(布尔)函数;Node,testattributesBranches,valuesRootNode,firstattributeLeafNodes,discretevalues决策树的表示?2023/5/7数据库新技术(数据挖掘)10/34两类问题,右图IF(Outlook=Sunny)^(Humidity=High)THEN

PlayTennis=?IF(Outlook=Sunny)^(Humidity=Normal)THENPlayTennis=?两步骤求解过程:Trainingexamples:DayOutlookTemp.HumidityWindPlayTennisD1SunnyHotHighWeakNoD2OvercastHotHighStrongYes1.归纳推理求得一般性结论(决策树生成学习)2.由决策树演绎推理得到新样例对应的结果;OutlookSunnyOvercastRainHumidityYesWindHighNormalYesNoStrongWeakYesNo2.1决策树学习和分类预测2023/5/7数据库新技术(数据挖掘)11/34决策树生成算法——有指导学习样本数据中既包含输入字段、也包含输出字段学习阶段,生成决策树模型基于特定属性值比较,放置样本在生成树上修剪生成树的特定算法分类预测阶段,判断分类结果基于逻辑,即通过对输入字段取值的布尔逻辑比较实现对输出变量的(分类)值的预测2023/5/7数据库新技术(数据挖掘)12/34决策树分类算法——基于逻辑样本数据中既包含输入字段、也包含输出字段学习阶段,生成决策树模型分类预测阶段,判断分类结果基于逻辑,即通过对输入字段取值的布尔逻辑比较实现对输出变量的(分类)值的预测每个叶子节点对应一条推理规则,作为对新的数据对象进行分类预测的依据。2023/5/7数据库新技术(数据挖掘)13/343.决策树的核心问题决策树的生成对训练样本进行分组关键,确定树根节点和分支准则停止生长时机决策树的修剪解决过度拟合问题预先修剪,限值决策树的充分生长,如:限制树的高度滞后修剪,待决策树充分生长完毕后再进行修剪当节点和分支数较多时,显然不合适2023/5/7数据库新技术(数据挖掘)14/343.1决策树表示法决策树通过把样本从根节点排列到某个叶子节点来分类样本叶子节点即为样本所属的分类树上每个节点说明了对样本的某个属性的测试,如:湿度节点的每个后继分支对应于该属性的一个可能值,High决策树代表样本的属性值约束的合取的析取式OutlookSunnyOvercastRainHumidityYesWindHighNormalYesNoStrongWeakYesNo2023/5/7数据库新技术(数据挖掘)15/34OutlookSunnyOvercastRainHumidityYesWindHighNormalYesNoStrongWeakYesNo决策树例图的逻辑表达式决策树代表实例属性值约束的合取的析取式。从树根到树叶的每一条路径对应一组属性测试的合取树本身对应这些合取的析取。

(Outlook=Sunny∧Humidity=High)

∨(Outlook=Sunny∧Humidity=Normal)

∨(Outlook=Overcast)

∨(Outlook=Rain∧Wind=Weak)

∨(Outlook=Rain∧Wind=Strong)注意:右面的决策树中没有Temperature(温度)属性;而Outlook的属性值有三个。2023/5/7数据库新技术(数据挖掘)16/343.2决策树学习的适用问题适用问题的特征实例由“属性-值”对表示(传统的数据库记录属性)目标函数具有离散的输出值可能需要析取的描述训练数据可以包含错误/训练数据可以包含缺少属性值的实例问题举例分类问题核心任务是把新(旧)样例分派到各可能的离散值对应的类别2023/5/7数据库新技术(数据挖掘)17/343.2决策树方法的适用问题适用问题的特征问题举例根据疾病分类患者/根据起因分类设备故障根据拖欠支付的可能性分类贷款申请(是否拒绝)根据人员分类情形更新数据库记录数据创新点?大型稀疏库分类问题核心任务是把新(旧)样例分派到各可能的离散值对应的类别2023/5/7数据库新技术(数据挖掘)18/344.C5.0算法大多数决策树学习算法是一种核心算法的变体采用自顶向下的贪婪搜索遍历

可能的决策树空间ID3IterativeDichotomiser3是这种算法的代表,ID3C4.5C5.0如何安排节点在树中的顺序树(堆)结构排序,需要树中节点具有相同属性,比较其属性值大小;而后移动节点如何定义这个可以在决策树中进行比较的属性?

换言之,该属性测度如何计算以便于比较?2023/5/7数据库新技术(数据挖掘)19/344.1ID3算法算法思想:如何安排节点在树中的顺序自顶向下构造决策树从“哪一个属性将在树的根节点被测试”开始?使用统计测试来确定每一个实例属性单独分类

训练样例的能力ID3的算法执行过程对样例集合S分类能力最好的属性被选作树的根节点根节点的每个可能值产生一个分支训练样例排列到适当的分支重复上面的过程,直到训练样例被安排到适当的叶子上确定对应的分类2023/5/7数据库新技术(数据挖掘)20/344.1.1最佳分类属性信息增益用来衡量给定的属性区分训练样例的能力,中间(间接)表示属性ID3算法在生成树的每一步使用信息增益从候选属性中选择属性用熵度量样例的均一性

2023元/4/2凳8数据库出新技术(数据挖掘)21/3叮44.1.柜1最佳分类听属性信息增益用熵度立量样例糕的均一斯性熵刻画了仪任意样例斜集合S的纯度给定包含刘关于某个销目标概念咸的正反样律例的样例披集S,那么S相对这暗个布尔拘型分类柔(函数朱)的熵金为信息论中亦对熵的一流种解释:熵确定了要编码集语合S中任意集成员的让分类所挤需要的朋最少二如进制位瓜数;熵傍值越大禽,需要歇的位数渡越多。更一般稻地,如波果目标畅属性具怒有c个不同的姥值,那么S相对于c个状态论的分类读的熵定止义为2023页/4/2衰8数据库借新技术(数据挖掘)22/344.1.芬1最佳分类眠属性(2)用信息增益度量熵的降低器程度属性A的信息增益,使用属待性A分割样邀例集合S而导致的兴熵的降低之程度Gai可n(S,A)是在知道属欢性A的值后可速以节省的早二进制位慕数例子,注盏意是对当壮前样例集电合计算上增式2023撇/4/2楼8数据库新士技术(数据挖掘)23/34Pla愁yTe系nni翁s的14个训练样胶例DayOutlookTemperatureHumidityWindPlayTennisD1SunnyHotHighWeakNoD2SunnyHotHighStrongNoD3OvercastHotHighWeakYesD4RainMildHighWeakYesD5RainCoolNormalWeakYesD6RainCoolNormalStrongNoD7OvercastCoolNormalStrongYesD8SunnyMildHighWeakNoD9SunnyCoolNormalWeakYesD10RainMildNormalWeakYesD11SunnyMildNormalStrongYesD12OvercastMildHighStrongYesD13OvercastHotNormalWeakYesD14RainMildHighStrongNo202悬3/4乔/28数据库新桶技术(数据挖巷掘)24/3辅4当前样居例集合父中的最谷佳分类酬属性Gai镰n(紧S,喜Out掘loo授k)=脂0.2冶46Gain穴(S,巧Tem论pera猜ture掘)=0.桃0292023纯/4/2恒8数据库新鸣技术(数据挖掘)25/3酿4然后呢?类别值较阳多的输入近变量更容笛易成为当抽前最佳Gai爆nsR责(U,甩V)=Gai当ns(钞U,V险)/Ent苗rop肆y(V缘瑞)是不是励再比较变剩余的娘几个信辜息增益新值?应该怎龟么办?注意决扒策树每检个分支渔上属性积间的关辞系202亭3/4朋/28数据库方新技术(数据挖掘)26/34根节点妈的左右数孩子顺鹅序全正例、旨全负例2023舱/4/2页8数据库新烈技术(数据挖掘)27/3由4用于学去习布尔河函数的ID3算法概钓要ID3叛(Ex魄amp铁les召,T促arg搅et_冤att防rib铃ute齿,A胞ttr攻ibu僵tes观)创建树的root节点,整姜棵树的指有针如果Exam滥ples都为正,返回labe柴l=+的单节点争树root鲜;%原因在例疯子中说明如果Exam况ples都为反,返回labe姐l=-的单节滑点树roo页t如果Attr卷ibut兄es为空,库那么返锻回单节相点roo胞t,labe型l=Ex毫ampl抹es中最普遍录的Tar漫get封_at佳tri泻but还e值否则开校始AAttr兄ibut胜es中分类exa赏mpl何es能力最抛好的属赢性roo息t的决策绪属性A对于A的每个可警能值vi(当前望子树,鄙根节点轮的每一尝个孩子胳节点)在root下加一雅个新的蔬分支对袜应测试A=vi令Exa信mpl脸esvi为Exam害ples中满足A属性值为vi的子集如果Exam犁plesvi为空在这个新续分支下加扣一个叶子吩节点,节急点的labe故l=Ex暑ampl莫es中最普盖遍的Tar属get袍_at缠tri协but建e值否则在饮新分支庭下加一件个子树ID3(Exa域mpl皮esvi,Ta你rge榨t_a衔ttr穿ibu漠te,椅Att脖rib占ute俊s-{姥A})结束返回roo让t2023管/4/2台8数据库新今技术(数据挖掘)28/3懒4ID3算法举例…继续这个堪过程,万直到满足野以下两个徐条件中的抛任一个所有的克属性已漏经被这理条路经拥包括与这个攀节点关平联的所寨有训练躬样例都荒具有相耳同的目暂标属性轮值2023掌/4/2矩8数据库宰新技术(数据挖伏掘)29/3裹4Ent爹rop拆ya者nd兽Inf堆orm霸ati砌on暖Gai瓜n这个信截息增益倡到底怎康么来的谷?在信息论晶中信息增怕益是什么遭含义?二者存在获确定的关格系吗?譬滥如:等价湖;提示:盏不是从Y到X的信息甘增益妖而是从p(x长)p虾(y)到p(x,银y)的信息晶增益Patt稠ern小reco妈gnit饥ion火and也mach裂ine奥lear拆ningpp:隔48~踪蝶582023侦/4/2方8数据库辞新技术(数据挖掘)30/34决策树秧学习中哲的假设恨空间搜脾索观察ID3的搜索空态间和搜索帆策略,认爽识到这个励算法的优者势和不足在假设空婶间中搜索隆一个拟合过训练样例快的最优假储设假设空间久包含所有靠的决策树烧,它是关脆于现有属绝性的有限储离散值函烂数的一个孩完整空间衔,避免(射有偏的)态不完备假丘设空间不殿含目标假会设的问题维护单窑一的当件前假设奖,不顾甜其它假数设,宣前向策僻略不进行挑回溯,瘦可能收馆敛到局开部最优每一步采使用所合有的训垂练样例,不同绩于基于映单独的惯训练样领例递增枪作出决滩定,容舍错性增爷强2023卫/4/2击8数据库阁新技术(数据挖掘)31/34决策树学痒习的深入胆话题决策树蛮学习的葛实际问门题确定决短策树增涂长的深械(高)度处理连毯续值的师属性选择一属个适当慌的属性衣筛选度衬量标准处理属莲性值不颠完整的丝式训练数咐据处理不同阔代价的属索性提高计算葛效率htt侵p:/味/ru走leq运ues帖t.c纺om/含dow棚nlo寄ad.外htm鞠l为解决这坡些问题,ID3被扩展成C4.5202否3/4信/28数据库叮新技术(数据挖蕉掘)32/3蛋44.2方C垂4.5的修剪办算法滞后修剪将生成树电转换成规哥则再修剪耽,自己阅响读从叶子节坑点向上逐助层修剪误差估予计,在其训练样款本集上窝估计误尽差通常,杜估计生裙成的决最策树在圣测试集闭上的预问测误差修剪标准修剪示做例2023乞/4/2偿8数据库新弯技术(数据挖掘)33/3震44.2床.1避免过度多拟合数据过度拟合对于一受个假设h,如果存陡在其他的确假设对训稿练样例的堆拟合比它疮差,但在激实例的整挑个分布上牌却表现得饰更好时,女我们说这速个假设h过度拟获合训练罪样例定义:给拾定一个假蹲设空间H,一个要假设hH,如果库存在其怀他的假刷设h’H,使得在伪训练样例烂上h的错误率时比h’小,但孔在整个唐实例分留布上h’的错误克率比h小,那么溜就说假设h过度拟颜合训练同数据。图3-6的例子问,说明树及的尺寸(节点数)对测试精眼度和训练抄精度的影西响——避免过度孤拟合必须丈控制树尺谜寸!202雪3/4累/28数据库新默技术(数据挖掘)34/34Over脆fitt扛ing2023甲/4/2知8数据库桌新技术(数据挖运掘)35/34避免过阿度拟合烘必须控签制树尺报寸Hig装ha哑ccu逼rac早y,楼sma鄙ll辽err顺orLow繁accu忘racy雁,bi姻ger堡ror202疮3/4梦/28数据库新拌技术(数据挖惹掘)36/3亲4避免过度间拟合数据易(2)导致过梨度拟合呢的原因一种可能损原因是训遥练样例含恼有随机噪狂声当训练数树据没有噪资声时,过钱度拟合也灵有可能发漏生,特别竹是当少量偏的样例被郊关联到叶浊子节点时造,很可能析出现巧合洞的规律性殊,使得一验些属性恰射巧可以很尸好地分割包样例,但沙却与实际它的目标函别数并无关钞系。202砍3/4贴/28数据库新遮技术(数据挖掘)37/3椅4避免过度皆拟合数据赔(3)避免过纷度拟合厘的方法及早停止炎树增长后修剪蔽法两种方应法的特炼点第一种方老法更直观航,但是体精确地估竟计何时停党止树增长躲很困难第二种方扎法被证明廊在实践中能更成功2023悄/4/2歼8数据库繁新技术(数据挖掘)38/3久4避免过度姐拟合数据泳(4)避免过度政拟合的关觉键使用什斯么样的菠准则来盆计算最著终决策陵树的尺华寸解决方法使用与训练诱样例不砖同的一勇套分离洞的样例来评估通过后会修剪方民法从树规上修剪节点的耽效用。使用所罢有可用季数据进扰行训练茄,但进手行统计阁测试来旅估计扩高展(或龟修剪)遵一个特你定的节痰点是否减有可能版改善在颈训练集害合外的冠实例上产的性能石。使用一料个显式朗的标准鸦来测度滋训练样轧例和决街策树的竹编码复何杂度,桥当这个栽测度最龄小时停础止树增宵长。2023盖/4/2掉8数据库新谣技术(数据挖欣掘)39/3粒4避免过再度拟合朱数据(5)方法评述第一种方撑法是最普侄通的,常找被称为训碎练和验证满集法可用的数呀据分成两茂个样例集环合:训练集合顽,形成学闸习到的假杰设验证集合乳,评估这伶个假设在罚后续数据指上的精度方法的钻动机:榜即使学猴习器可登能会被置训练集掌合误导乘,但验吧证集合峡不大可疾能表现蛋出同样翼的随机茂波动验证集锅合应该注足够大巾,以便芹它本身倾可提供巾具有统耽计意义竖的实例溪样本。常见的做晚法是,样命例的三分尿之二作训焦练集合,龟三分之沸一作验证腿集合。202供3/4沾/28数据库新幕技术(数据挖掘)40/344.2律.1丈C5蹦.0决策树的贯误差估计针对决策劈燕树的每个赴节点,以掀输出变量书的众数类勒别为预测碰类别;设第i个节点躺包含Ni个观测样冈本值,有Ei个预测错泽误的观测喷,错误率晋,即误差在误差近身似正态分邀布的假设艘下,对第i个节点的沟真实误差柱进行区间才估计,置渠信度定位1-,有悲串观估计虾:2023莲/4/2转8数据库俭新技术(数据挖狼掘)41/3券44.2岩.2均C5浅.0决策树的被修剪标准在误差放估计的专基础上袄,依据柄“减少速误差”犬法判断蒜是否修炉剪节点壮;计算待驻剪子树江中叶子券节点的碑加权误导差与父节点霉的误差进俭行比较父节点的滩误差较小盼,则剪掉捷该子树父节点的铃误差较大饿,保留该炼子树2023楚/4/2催8数据库新岛技术(数据挖掘)42/3勒4修剪节点渡、降低错路误率将树上钢的每一绑个节点吊作为修筐剪的候匠选对象修剪步路骤删除以此舍节点为根遵的子树,肥使它成为鞋叶结点把和该节穷点关联的筛训练样例冲的最常见俯分类赋给烟它反复修汇剪节点创,每次滋总是选滋取那些删削除后可倡以

最副大程度左提高决费策树在耐验证集渠合上的赤精度的节点继续修测剪,直诱到进一晒步的修劈燕剪是有营害的为挥止数据分成3个子集训练样锦例,形主成决策朽树验证样庙例,修誉剪决策叫树测试样例司,精度的泄无偏估计如果有大凉量的数据葛可供使

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论