决策树(详细易懂,很多例子).ppt

上传人：努*** IP属地：江西上传时间：2019-12-27 格式：PPT 页数：49 大小：2.18MB 积分：15 举报 版权申诉

已阅读5页，还剩44页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

决策树DecisionTree 决策树算法是一种归纳分类算法它通过对训练集的学习挖掘出有用的规则用于对新集进行预测有监督的学习非参数学习算法对每个输入使用由该区域的训练数据计算得到的对应的局部模型决策树归纳的基本算法是贪心算法自顶向下递归方式构造决策树贪心算法在每一步选择中都采取在当前状态下最好优的选择在其生成过程中分割方法即属性选择度量是关键通过属性选择度量选择出最好的将样本分类的属性简介决策树的结构决策树算法以树状结构表示数据分类的结果每个决策点实现一个具有离散输出的测试函数记为分支根节点非叶子节点决策点叶子节点分支决策树的结构 4 根部节点 rootnode 非叶子节点 non leafnode 代表测试的条件对数据属性的测试分支 branches 代表测试的结果叶节点 leafnode 代表分类后所获得的分类标记 2019 12 27 单变量树每个内部节点中的测试只使用一个输入维如果使用的输入维是离散的取n个可能的值之一则该节点检测的值并取相应的分支实现一个n路划分决策点具有离散分支而数值输入应当离散化如果是数值的有序的则测试函数是比较其中是适当选择阈值该决策节点将输入空间一份为二和称为一个二元划分决策树根据所选取的属性是数值型还是离散型每次将数据划分成两个或n个子集然后使用对应的子集递归地进行划分直到不需要划分此时创建一个树叶节点标记它决策树分类训练阶段从给定的训练数据集DB 构造出一棵决策树class DecisionTree DB 分类阶段从根开始按照决策树的分类属性逐层往下划分直到叶节点获得概念决策分类结果 y DecisionTree x ExampleofaDecisionTree AnotherExampleofDecisionTree ApplyModeltoTestData TestData Startfromtherootoftree ApplyModeltoTestData TestData ApplyModeltoTestData Refund MarSt TaxInc YES NO NO NO Yes No Married Single Divorced 80K 80K TestData ApplyModeltoTestData Refund MarSt TaxInc YES NO NO NO Yes No Married Single Divorced 80K 80K TestData ApplyModeltoTestData Refund MarSt TaxInc YES NO NO NO Yes No Married Single Divorced 80K 80K TestData ApplyModeltoTestData Refund MarSt TaxInc YES NO NO NO Yes No Married Single Divorced 80K 80K TestData AssignCheatto No 决策树原理基本算法贪心算法自上而下分而治之的方法开始时所有的数据都在根节点属性都是离散值字段如果是连续的将其离散化所有记录用所选属性递归的进行分割属性的选择是基于一个启发式规则或者一个统计的度量如 informationgain 停止分割的条件一个节点上的数据都是属于同一个类别没有属性可以再用于对数据进行分割算法 Generate decision tree由给定的训练数据产生一棵决策树输入训练数据集samples 用离散值属性表示候选属性的集合attribute list 输出一棵决策树方法 1 创建结点N 2 ifsamples都在同一个类Cthen 3 返回N作为叶结点用类C标记 4 ifattribute list为空then 5 返回N作为叶结点标记samples中最普通的类多数表决 6 选择attribute list中的最优分类属性test attribute 用信息增益作为属性选择度量 7 标记结点N为test attribute 8 foreachtest attribute中的已知值ai 划分samples 9 由结点N生长出一个条件为test attribute ai的分枝 10 设si为samples中test attribute ai的样本集合一个划分 11 ifsi为空then 12 加上一个叶结点标记为标记samples中最普通的类多数表决 13 else加上一个由Generate decision tree si attribute list test attribute 返回的结点例子算法过程 Refund Yes No 1 samples 1 2 3 4 5 6 7 8 9 10 attribute list Refund MarSt TaxInc 假设选择Refund为最优分割属性 2 samples 1 4 7 attribute list MarSt TaxInc 3 samples 2 3 5 6 8 9 10 attribute list MarSt TaxInc 例子算法过程 Refund Yes No samples中所有样本属于同一个类Cheat No 2 samples 1 4 7 attribute list MarSt TaxInc NO 例子算法过程 Refund Yes No 假设选择MarSt为最优分割属性 3 samples 2 3 5 6 8 9 10 attribute list MarSt TaxInc NO MarSt Single Married Divorced 4 samples 3 8 10 attribute list TaxInc 5 samples 5 7 attribute list TaxInc 6 samples 2 9 attribute list TaxInc 例子算法过程 Refund Yes No 选择TaxInc为最优分割属性 4 samples 3 8 10 attribute list TaxInc NO MarSt Single Married Divorced TaxInc 80K 80K YES NO 问题1 分类从哪个属性开始选择分裂变量的标准问题2 为什么工资以80为界限找到被选择的变量的分裂点的标准连续变量情况分类划分的优劣用不纯性度量来分析如果对于所有分支划分后选择相同分支的所有实例都属于相同的类则这个划分是纯的对于节点m 令为到达节点m的训练实例数个实例中个属于类而如果一个实例到节点m 则它属于类的概率估计为节点m是纯的如果对于所有i 为0或1 当到达节点m的所有实例都不属于类时为0 当到达节点m的所有实例都属于类时为1 一种度量不纯性的可能函数是熵函数 entropy Fatherofinformationtheory证明熵与信息内容的不确定程度有等价关系系统科学领域三大论之一 C Shannon的信息论信息熵熵 entropy 描述物质系统状态该状态可能出现的程度平均信息量若一个系统中存在多个事件E1 E2 En每个事件出现的概率是p1 p2 pn则这个系统的平均信息量是指的是系统的混乱的程度 bits 系统越无序越混乱熵就越大构造决策树熵定义为无序性度量选择一个属性划分数据使得子女节点上数据的类值例中 yes 或 no 大部分都相同低无序性如果一个节点上的数据类值在可能的类值上均匀分布则称节点的熵无序性最大如果一个节点上的数据的类值对于所有数据都相同则熵最小通过分裂得到尽可能纯的节点这相当于降低系统的熵例子气象数据集都是标称属性什么因素影响是否去打网球 1 基于天气的划分 2 基于温度的划分 3 基于湿度的划分 4 基于有风的划分构造树训练样本的信息值第一棵树属性各叶节点的信息值第一棵树属性导致的信息增益依次计算每棵树导致的信息增益选择获得最大信息增益的属性进行划分以此类推递归继续划分当所有叶节点都是纯的划分过程终止 1 训练样本的信息值基于类的比例训练样本用来创建树的数据集在包含9个yes和5个no的根节点上对应于信息值info 9 5 0 940位总的信息 2 第一棵树属性各叶节点的信息值基于天气 outlook 的划分在叶节点的yes和no类的个数分别是 2 3 4 0 和 3 2 而这些节点的信息值分别是 info 2 3 0 971位 sunny info 4 0 0 0位 overcast info 3 2 0 971位 rain 3 第一棵树属性导致的信息增益计算平均信息值根据天气的树导致的信息增益为基于类比例原来信息需求基于天气属性划分之后得到的信息需求 gain outlook info 9 5 info 2 3 4 0 3 2 0 940 0 693 0 247位 4 依次计算每棵树导致的信息增益为每个属性计算信息增益 gain outlook 0 247位 gain temperature 0 029位 gain humidity 0 152位 gain windy 0 048位 5 选择获得最大信息增益的属性进行划分最大信息增益 gain outlook 0 247位选择天气作为树的根节点的划分属性其中一个子女节点是最纯的并且这使它明显优于其他属性湿度是次佳选择它产生了一个几乎完全纯的较大的子女节点 6 以此类推递归继续划分递归继续选择当天气为晴时所达到的节点上的可能的深一层的分支除天气外其他属性产生的信息增益分别为 gain temperature 0 571位gain humidity 0 971位gain windy 0 020位继续再选择湿度 humidity 作为划分属性天气晴分支纯子节点 6 以此类推递归继续划分天气晴分支气温 gain temperature 0 571位天气晴分支湿度 gain humidity 0 971位纯的子女节点天气晴分支有风 gain windy 0 020位天气雨分支气温 gain temperature 0 020位天气雨分支湿度 gain humidity 0 020位天气雨分支有风 gain windy 0 971位纯的子女节点天气雨分支有风纯的子节点 7 当所有叶节点都是纯的划分过程终止理想情况下当所有叶节点都是纯的而使过程终止时即当它们包含的实例都具有相同类时该过程终止可能无法达到这种结果因为无法避免训练集包含两个具有相同属性集但具有不同类的实例当数据不能进一步划分时停止划分过程最终的决策树 Weather数据 ID3如何选择具有最高信息增益的属性 pi是D中任意元组属于类Ci的概率用 Ci D D 估计D中的元组分类所需的期望信息Expectedinformation entropy Informationneeded afterusingAtosplitDintovpartitions toclassifyD InformationgainedbybranchingonattributeA 使用属性A得到准确分类所需信息思考如果考虑充当唯一识别的属性如product ID 对product ID的分裂结果 Infoproduct ID D 0Gain product ID 最大有无实际意义标识属性被选为分裂属性但标识属性的分支对预测未知实例的类别并无任何帮助 C4 5 C4 5如何选择具有最高信息增益的属性使用分裂信息 splitinformation 值将gain规范化表示属性A第j个划分的权重信息率 C4 5算法概述 C4 5算法是ID3算法的扩展能够处理连续型的属性首先将连续型属性离散化把连续型属性的值分成不同的区间依据是比较各个分裂点Gian值的大小缺失数据的考虑在构建决策树时可以简单地忽略缺失数据即在计算增益时仅考虑具有属性值的记录连续值的处理选取连续值的哪个分界点贪婪算法 1 排序607075859095100120125220 若进行二分则可能有9个分界点例子 607075859095100120125220 607075859095100120125220 分割成TaxIn80 分割成TaxIn97 5 实际上这就是离散化过程连续值的处理 2 对每个候选的分界点分别计算熵例子测试以80分界的情形 1 TaxIn 80 2 TaxIn 80 3 加权平均同理测试以95分界的情形 Info TaxIn 95 0 600bits 3 比较取每个分界点的信息增益选择最大的一个 C4 5算法中有未知值的样本是按照已知值的相对频率随机分布的用系数F修正增益参数F 数据库中一个给出的属性值具有已知值的样本数量数据集中样本数量总和未知属性值问题新的增益标准 Gain X F info T infox T 同时通过把具有未知值的样本看作分区的一个附加组来修改Split Info X 如果检验x有n个输出 Split Info X 按照检验把数据集分区成n 1个子集计算属性1的增益计算考虑13个数据丢失的样本仅用来作修正属性1中有8个属于类1 5个属于类2 因此分区前的熵为 Info T 8 13log2 8 13 5 13log2 5 13 0 961比特用属性1把T分区成3个子集 A B C 后得到的信息是 Infox1 T 5 13 2 5log2 2 5 3 5log2

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

决策树(详细易懂,很多例子).ppt

文档简介

温馨提示

最新文档

评论

决策树(详细易懂,很多例子).ppt

文档简介

温馨提示

最新文档

评论

相关文档