机器学习决策树学习.ppt

上传人：努*** IP属地：江西上传时间：2019-12-27 格式：PPT 页数：30 大小：237KB 积分：9.6 举报 版权申诉

已阅读5页，还剩25页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

决策树学习编写张磊来源 www cs utexas edu users mooney cs391L 2001年6月2日决策树决策树是实例表示为特征向量的分类器结点测试特征边表示特征的每个值叶结点对应分类可表示任意析取和合取范式从而表示任意离散函数和离散特征可将实例分到多个分类 2 可以重写为规则用析取范式 DNF 形式red circle positivered circle Ablue B red square Bgreen C red triangle C 2001年6月2日决策树学习实例用属性值对表示离散值处理简单连续值可以划分区间输出可以是离散的分类也可以是实数回归树能有效处理大量数据可处理噪声数据分类噪声属性噪声属性值缺失亦可处理 2001年6月2日基本决策树算法训练数据批处理自顶向下递归构造决策树DTree examples attributes If所有样本属于同一分类返回标号为该分类的叶结点Elseif属性值为空返回标号为最普遍分类的叶结点Else选取一个属性 A 作为根结点ForA的每一个可能的值vi令examplesi为具有A vi的样本子集从根结点出发增加分支 A vi 如果examplesi为空则创建标号为最普遍分类的叶结点否则递归创建子树调用DTree examplesi attributes A 2001年6月2日根属性的选取决策树要尽可能小寻找一组数据对应的最小决策树是NP hard的简单递归算法是贪婪启发式搜索无法保证最优子集应尽可能纯从而易于成为叶结点最常用的启发规则是基于信息增益 InformationGain 2001年6月2日熵 Entropy 一组样本S对于二元分类的熵混淆度为其中p 和p 为S中的正例反例所占比例若所有样本属于同一分类则熵为0 定义0log0 0 若样本平均分布 p p 0 5 则熵最大 1 可把熵视为对样本集分类进行编码所需的平均二进制位数采用哈夫曼编码压缩越普遍的分类编码越短对于多分类问题假设有c个分类则熵的推广定义其中pi为属于分类i的样本在S中所占比例 2001年6月2日信息增益属性的信息增益是按该属性分割后熵的消减期望值其中Sv是S中属性A值为v的子集例子 big red circle small red circle small red square big blue circle 2001年6月2日决策树归纳中的假设空间决策树可以表示任何离散函数归纳就是在此空间内的搜索创建与数据一致的单一离散假设所以无法提供置信度或构造有用的查询爬山式搜索存在局部最优问题它可以保证找到符合任何无噪声数据集的树但未必是最小的批量学习每项决策需要一次数据集扫描可提前结束学习以减少噪声影响 2001年6月2日决策树学习中的误区树的深度应尽量小但贪婪搜索可能无法找到最小树顶层结点可能不是高区分度的 2001年6月2日计算复杂度最坏情况是构造出一棵完全树每条路径都测试了所有特征各层i要对剩下的 A i个属性计算最佳分割一般来说性能与属性个数成线性关系 2001年6月2日决策树研究的历史 1960 s Hunt的完全搜索决策树方法 CLS 对概念学习建模1970后期 Quinlan发明用信息增益作为启发策略的ID3方法从样本中学习构造专家系统同时 Breiman和Friedman开发的CART 分类与回归树方法类似于ID31980 s 对噪声连续属性数据缺失改善分割条件等进行研究1993 Quinlan的改进决策树归纳包 C4 5 目前被普遍采用 2001年6月2日过度拟合和修剪通过学习训练数据来构造分类树可能无法达到最好的泛化性能因为噪声数据的影响某些决策仅基于少量数据与客观事实不符合一个假设H被称为对于训练数据是过度拟合的指的是如果存在另一个假设H 在训练集上H的误差比H 小但在测试集上H 的误差比H小 2001年6月2日过度拟合与噪声分类或属性噪声都会导致过度拟合增加噪声实例实际为噪声也会直接导致样本的冲突相同描述不同分类应将叶结点标号为主要的分类实际上为若属性不完备且不足以判别分类时也可能导致样本的冲突 2001年6月2日避免过度拟合的方法需要修剪时的两个基本方法预修剪支持度不够则停止树的增长后修剪置信度不够则修剪掉该分支子树是否需要修剪的判别方法交叉检验保留部分训练数据用于验证统计测试通过训练集的统计来判别最小描述长度 MDL 判别该假设的复杂度是否比记忆例外情况的复杂度更高 2001年6月2日减小误差的修剪一种后修剪交叉验证的方法将训练数据分割为两个集合生长和验证用生长数据构建一棵完全树Until验证数据集合上的精度降低do Foreach树中非叶结点n临时修剪掉n下子树用标号为主要分类的叶子代替在验证集上计算该树的精度修剪掉那些对精度影响最大的分支当训练集很小时可能会严重损害分类精度最好能给定合适的结点数达到最佳折衷 2001年6月2日连续属性用分区方法将连续值映射为离散值结点分裂以获得最大信息增益达到最大信息增益的单阈值分裂算法Foreach连续特征Ai根据Ai的值对样本排序Foreach序列中的每对Xi Xi 1IfXi和Xi 1的分类不同将Xi和Xi 1的中点作为可能的阈值进行检验即例如长度 L 10152128324050 已排序分类检查阈值 L 12 5 L 24 5 L 30 L 45 2001年6月2日替代属性选取启发策略增益比率信息增益缺点偏爱那些有大量值的属性产生很多小而纯的子集如病人ID 姓名日期等要降低这些情况下的增益首先计算与分类无关属性的信息量即该属性的熵其中Si为S中具有属性A第i个值的子集某属性按值分割样本越平均则SplitInfo越大增益比率利用SplitInfo来避免选择这些属性 2001年6月2日增益比率细述然而当 Si S 时SplitInfo可能很小甚至为0 从而导致信息比率过大甚至溢出C4 5对此进行了改进它计算每个特征的信息增益对于超过平均增益的特征再进一步根据增益比率来选取特征 2001年6月2日缺失的属性值属性值可能未完全给出一种解决方法是根据已有样本属性值的先验概率来对样本计算属性值分布百分比在训练时缺失的属性会按照其分布百分比逐个计算例如给定一个缺失了颜色属性值的正例它将被视为0 6个red正例 0 2个blue正例和0 2个green正例 2001年6月2日测试时的值缺失若属性值未给出则设定为通配符然后多路径到达叶结点最后计算分类结果的各分类权重例如将得到0 6个正例 0 2 0 2 0 4个反例将得到0 2个正例 0 5 0 3 0 8个反例将得到0 6x0 2 0 12个正例 0 2 0 2 0 3 0 18 0 88个反例 2001年6月2日属性开销有些领域中某些属性比其它属性更容易获取其值例如病人的体温比其胆固醇水平更容易得到尽可能采用那些低开销的属性来分类在信息增益中增加属性开销是有效的在不降低精度的同时降低了平均开销 2001年6月2日递增式的决策树归纳 ID4和ID5可以递增更新已有的树ID4有时会丢弃某些实例不保证和历史训练样本一致ID5则保证和ID3的决策相同ID4速度快但精度降低ID5速度较快且精度不变 2001年6月2日决策树中的重复部分决策树比DNF更复杂因为它常常存在重复部分范式必须分解为析取范式导致了重复子树的出现解决使用复杂特征或决策图构造性归纳原子特征的逻辑组合或算术组合 2001年6月2日边缘算法决策树构造性归纳的叠代算法边缘算法总是沿着树的边缘走 Until没有新的特征被创建或到达限定值do使用当前的所有特征从训练集构造决策树从边缘末端正例两个特征的联合来创建新特征将这些新特征加入现有特征集中同时扩展每个样本的描述以包含所有新特征 2001年6月2日边缘示例 2001年6月2日多重模型学习概念的多重候选定义最终决策是基于多个学习模型的加权投票 2001年6月2日装袋 Bagging 用训练集的不同样本来训练同一个学习者来创建多重模型 Breiman 1996 给定训练集大小为n 通过从原始数据取样用替换方法创建m个不同的训练集大小为n 用简单的投票方法来合并这m个模型可用于任何学习方法减少了不稳定学习算法的一般化错误即当训练数据轻微改动时会导致决策结果剧烈变动的那些学习方法 2001年6月2日引导 Boosting 另一个生成多重模型的方法重复更改同一个学习算法的数据对弱学习算法假设的精度只要超过1 2即可能保证性能的改进对样本加权每次叠代产生一个新的假设对那些导致最终假设精度变差的样本重新加权基本算法给所有样本赋予一个初始权重Forifrom1toTdo从加权的样本中学习一个假设hi减小那些与hi一致的样本的权重在测试时每个假设会得到一个加权的投票与训练数据上的精度成比例 2001年6月2日引导算法 ForD中的每个样本令其权重wi 1 D Fortfrom1t

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

机器学习决策树学习.ppt

文档简介

温馨提示

最新文档

评论

机器学习决策树学习.ppt

文档简介

温馨提示

最新文档

评论

相关文档