分类预测-决策树方法.ppt

上传人：努*** IP属地：江西上传时间：2019-12-27 格式：PPT 页数：46 大小：1MB 积分：15 举报 版权申诉

已阅读5页，还剩41页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2019 12 27 数据库新技术数据挖掘 1 34 4 建立模型之决策树分类预测的概念什么是决策树决策树的核心问题决策树的生长模型建立决策树的修剪C5 0算法及其应用实例信息熵和信息增益修剪算法 2019 12 27 数据库新技术数据挖掘 2 34 4 1分类预测概念目的通用学习模型建立的算法了解该算法在相应数据挖掘问题中的应用分类预测的含义分类预测算法的类型 2019 12 27 数据库新技术数据挖掘 3 34 4 1分类预测概念目的通用分类预测的含义通过对现有数据的学习建立起拟合数据的模型利用该模型对未来新数据进行分类具备预测能力分类预测算法的类型 2019 12 27 数据库新技术数据挖掘 4 34 4 1分类预测概念目的通用分类预测的含义分类预测算法的类型分析新数据在离散型输出变量上的取值分类决策树分析新数据在数值型连续输出变量上的取值回归决策树 2019 12 27 数据库新技术数据挖掘 5 34 聚类分类和模式识别聚类子集划分把一个集合分割为无交集的子集模式分类标识出样本归属的子集标签模式识别标识出样本对应的个体样例本身或标识出样本所属子集本身如考古物种鉴别等注样本只需是个体或集合的特征表示 2019 12 27 数据库新技术数据挖掘 6 34 从二分类问题开始很多问题可以归结为上课习题以及考试都不是目的只是为一个结果及格通过优秀看电影这是好人还是坏人求职多项测试之后决定喜欢还是不喜欢满意还是不满意研究方向 Majorinorout在上述选择过程中涉及到多个因素如何比较不同因素重要性的差别 2019 12 27 数据库新技术数据挖掘 7 34 在虚度的日子的判别中最关键的是哪一个因素睡眠时间 6 7 8 9 10成功事例数目 1 2 3开心指数快乐忧伤愤怒平淡无聊人际交往有成效封闭健康指数生病恢复亚健康正常学思比数 10 1 3 1 2 1 1 2 2019 12 27 数据库新技术数据挖掘 8 34 基于树型结构的排序算法树中节点的位置的确定和调整是通过对每一个节点中某个特定域的属性值排序决定通常树中节点都具有该属性二叉排序树堆排序如果树中节点没有现成的公共属性无法据以比较节点以安排其在生成树中位置怎么办 2019 12 27 数据库新技术数据挖掘 9 34 2 什么是决策树决策树来自决策论由多个决策分支和可能的结果包括资源成本和风险组成用来创建到达目标的规划 ADecisiontreeisatreewithbranchingnodeswithachoicebetweentwoormorechoices 也可以用来表示算法分类预测决策树表示决策树学习结果表示为决策树形式的离散值布尔函数 Node testattributesBranches valuesRootNode firstattributeLeafNodes discretevalues决策树的表示 2019 12 27 数据库新技术数据挖掘 10 34 两类问题右图IF Outlook Sunny Humidity High THENPlayTennis IF Outlook Sunny Humidity Normal THENPlayTennis 两步骤求解过程 Trainingexamples DayOutlookTemp HumidityWindPlayTennisD1SunnyHotHighWeakNoD2OvercastHotHighStrongYes1 归纳推理求得一般性结论决策树生成学习 2 由决策树演绎推理得到新样例对应的结果 2 1决策树学习和分类预测 2019 12 27 数据库新技术数据挖掘 11 34 决策树生成算法有指导学习样本数据中既包含输入字段也包含输出字段学习阶段生成决策树模型基于特定属性值比较放置样本在生成树上修剪生成树的特定算法分类预测阶段判断分类结果基于逻辑即通过对输入字段取值的布尔逻辑比较实现对输出变量的分类值的预测 2019 12 27 数据库新技术数据挖掘 12 34 决策树分类算法基于逻辑样本数据中既包含输入字段也包含输出字段学习阶段生成决策树模型分类预测阶段判断分类结果基于逻辑即通过对输入字段取值的布尔逻辑比较实现对输出变量的分类值的预测每个叶子节点对应一条推理规则作为对新的数据对象进行分类预测的依据 2019 12 27 数据库新技术数据挖掘 13 34 3 决策树的核心问题决策树的生成对训练样本进行分组关键确定树根节点和分支准则停止生长时机决策树的修剪解决过度拟合问题预先修剪限值决策树的充分生长如限制树的高度滞后修剪待决策树充分生长完毕后再进行修剪当节点和分支数较多时显然不合适 2019 12 27 数据库新技术数据挖掘 14 34 3 1决策树表示法决策树通过把样本从根节点排列到某个叶子节点来分类样本叶子节点即为样本所属的分类树上每个节点说明了对样本的某个属性的测试如湿度节点的每个后继分支对应于该属性的一个可能值 High决策树代表样本的属性值约束的合取的析取式 2019 12 27 数据库新技术数据挖掘 15 34 决策树例图的逻辑表达式决策树代表实例属性值约束的合取的析取式从树根到树叶的每一条路径对应一组属性测试的合取树本身对应这些合取的析取 Outlook Sunny Humidity High Outlook Sunny Humidity Normal Outlook Overcast Outlook Rain Wind Weak Outlook Rain Wind Strong 注意右面的决策树中没有Temperature 温度属性而Outlook的属性值有三个 2019 12 27 数据库新技术数据挖掘 16 34 3 2决策树学习的适用问题适用问题的特征实例由属性值对表示传统的数据库记录属性目标函数具有离散的输出值可能需要析取的描述训练数据可以包含错误训练数据可以包含缺少属性值的实例问题举例分类问题核心任务是把新旧样例分派到各可能的离散值对应的类别 2019 12 27 数据库新技术数据挖掘 17 34 3 2决策树方法的适用问题适用问题的特征问题举例根据疾病分类患者根据起因分类设备故障根据拖欠支付的可能性分类贷款申请是否拒绝根据人员分类情形更新数据库记录数据创新点大型稀疏库分类问题核心任务是把新旧样例分派到各可能的离散值对应的类别 2019 12 27 数据库新技术数据挖掘 18 34 4 C5 0算法大多数决策树学习算法是一种核心算法的变体采用自顶向下的贪婪搜索遍历可能的决策树空间ID3IterativeDichotomiser3是这种算法的代表 ID3 C4 5 C5 0如何安排节点在树中的顺序树堆结构排序需要树中节点具有相同属性比较其属性值大小而后移动节点如何定义这个可以在决策树中进行比较的属性换言之该属性测度如何计算以便于比较 2019 12 27 数据库新技术数据挖掘 19 34 4 1ID3算法算法思想如何安排节点在树中的顺序自顶向下构造决策树从哪一个属性将在树的根节点被测试开始使用统计测试来确定每一个实例属性单独分类训练样例的能力ID3的算法执行过程对样例集合S分类能力最好的属性被选作树的根节点根节点的每个可能值产生一个分支训练样例排列到适当的分支重复上面的过程直到训练样例被安排到适当的叶子上确定对应的分类 2019 12 27 数据库新技术数据挖掘 20 34 4 1 1最佳分类属性信息增益用来衡量给定的属性区分训练样例的能力中间间接表示属性ID3算法在生成树的每一步使用信息增益从候选属性中选择属性用熵度量样例的均一性 2019 12 27 数据库新技术数据挖掘 21 34 4 1 1最佳分类属性信息增益用熵度量样例的均一性熵刻画了任意样例集合S的纯度给定包含关于某个目标概念的正反样例的样例集S 那么S相对这个布尔型分类函数的熵为信息论中对熵的一种解释熵确定了要编码集合S中任意成员的分类所需要的最少二进制位数熵值越大需要的位数越多更一般地如果目标属性具有c个不同的值那么S相对于c个状态的分类的熵定义为 2019 12 27 数据库新技术数据挖掘 22 34 4 1 1最佳分类属性 2 用信息增益度量熵的降低程度属性A的信息增益使用属性A分割样例集合S而导致的熵的降低程度Gain S A 是在知道属性A的值后可以节省的二进制位数例子注意是对当前样例集合计算上式 2019 12 27 数据库新技术数据挖掘 23 34 PlayTennis的14个训练样例 2019 12 27 数据库新技术数据挖掘 24 34 当前样例集合中的最佳分类属性 Gain S Outlook 0 246 Gain S Temperature 0 029 2019 12 27 数据库新技术数据挖掘 25 34 然后呢类别值较多的输入变量更容易成为当前最佳GainsR U V Gains U V Entropy V 是不是再比较剩余的几个信息增益值应该怎么办注意决策树每个分支上属性间的关系 2019 12 27 数据库新技术数据挖掘 26 34 根节点的左右孩子顺序全正例全负例 2019 12 27 数据库新技术数据挖掘 27 34 用于学习布尔函数的ID3算法概要 ID3 Examples Target attribute Attributes 创建树的root节点整棵树的指针如果Examples都为正返回label 的单节点树root 原因在例子中说明如果Examples都为反返回label 的单节点树root如果Attributes为空那么返回单节点root label Examples中最普遍的Target attribute值否则开始A Attributes中分类examples能力最好的属性root的决策属性 A对于A的每个可能值vi 当前子树根节点的每一个孩子节点在root下加一个新的分支对应测试A vi令Examplesvi为Examples中满足A属性值为vi的子集如果Examplesvi为空在这个新分支下加一个叶子节点节点的label Examples中最普遍的Target attribute值否则在新分支下加一个子树ID3 Examplesvi Target attribute Attributes A 结束返回root 2019 12 27 数据库新技术数据挖掘 28 34 ID3算法举例继续这个过程直到满足以下两个条件中的任一个所有的属性已经被这条路经包括与这个节点关联的所有训练样例都具有相同的目标属性值 2019 12 27 数据库新技术数据挖掘 29 34 EntropyandInformationGain 这个信息增益到底怎么来的在信息论中信息增益是什么含义二者存在确定的关系吗譬如等价提示不是从Y到X的信息增益而是从p x p y 到p x y 的信息增益Patternrecognitionandmachinelearningpp 48 58 2019 12 27 数据库新技术数据挖掘 30 34 决策树学习中的假设空间搜索观察ID3的搜索空间和搜索策略认识到这个算法的优势和不足在假设空间中搜索一个拟合训练样例的最优假设假设空间包含所有的决策树它是关于现有属性的有限离散值函数的一个完整空间避免有偏的不完备假设空间不含目标假设的问题维护单一的当前假设不顾其它假设前向策略不进行回溯可能收敛到局部最优每一步使用所有的训练样例不同于基于单独的训练样例递增作出决定容错性增强 2019 12 27 数据库新技术数据挖掘 31 34 决策树学习的深入话题决策树学习的实际问题确定决策树增长的深高度处理连续值的属性选择一个适当的属性筛选度量标准处理属性值不完整的训练数据处理不同代价的属性提高计算效率 2019 12 27 数据库新技术数据挖掘 32 34 4 2C4 5的修剪算法滞后修剪将生成树转换成规则再修剪自己阅读从叶子节点向上逐层修剪误差估计在训练样本集上估计误差通常估计生成的决策树在测试集上的预测误差修剪标准修剪示例 2019 12 27 数据库新技术数据挖掘 33 34 4 2 1避免过度拟合数据过度拟合对于一个假设h 如果存在其他的假设对训练样例的拟合比它差但在实例的整个分布上却表现得更好时我们说这个假设h过度拟合训练样例定义给定一个假设空间H 一个假设h H 如果存在其他的假设h H 使得在训练样例上h的错误率比h 小但在整个实例分布上h 的错误率比h小那么就说假设h过度拟合训练数据图3 6的例子说明树的尺寸节点数对测试精度和训练精度的影响避免过度拟合必须控制树尺寸 2019 12 27 数据库新技术数据挖掘 34 34 Overfitting 2019 12 27 数据库新技术数据挖掘 35 34 避免过度拟合必须控制树尺寸 Highaccuracy smallerrorLowaccuracy bigerror 2019 12 27 数据库新技术数据挖掘 36 34 避免过度拟合数据 2 导致过度拟合的原因一种可能原因是训练样例含有随机噪声当训练数据没有噪声时过度拟合也有可能发生特别是当少量的样例被关联到叶子节点时很可能出现巧合的规律性使得一些属性恰巧可以很好地分割样例但却与实际的目标函数并无关系 2019 12 27 数据库新技术数据挖掘 37 34 避免过度拟合数据 3 避免过度拟合的方法及早停止树增长后修剪法两种方法的特点第一种方法更直观但是精确地估计何时停止树增长很困难第二种方法被证明在实践中更成功 2019 12 27 数据库新技术数据挖掘 38 34 避免过度拟合数据 4 避免过度拟合的关键使用什么样的准则来计算最终决策树的尺寸解决方法使用与训练样例不同的一套分离的样例来评估通过后修剪方法从树上修剪节点的效用使用所有可用数据进行训练但进行统计测试来估计扩展或修剪一个特定的节点是否有可能改善在训练集合外的实例上的性能使用一个显式的标准来测度训练样例和决策树的编码复杂度当这个测度最小时停止树增长 2019 12 27 数据库新技术数据挖掘 39 34 避免过度拟合数据 5 方法评述第一种方法是最普通的常被称为训练和验证集法可用的数据分成两个样例集合训练集合形成学习到的假设验证集合评估这个假设在后续数据上的精度方法的动机即使学习器可能会被训练集合误导但验证集合不大可能表现出同样的随机波动验证集合应该足够大以便它本身可提供具有统计意义的实例样本常见的做法是样例的三分之二作训练集合三分之一作验证集合 2019 12 27 数据库新技术数据挖掘 40 34 4 2 1C5 0决策树的误差估计针对决策树的每个节点以输出变量的众数类别为预测类别设第i个节点包含Ni个观测样本值有Ei个预测错误的观测错误率即误差在误差近似正态分布的假设下对第i个节点的真实误差进行区间估计置信度定位1 有悲观估计 2019 12 27 数据库新技术数据挖掘 41 34 4 2 2C5 0决策树的修剪标准在误差估计的基础上依据减少误差法判断是否修剪节点计算待剪子树中叶子节点的加权误差与父节点的误差进行比较父节点的误差较小则剪掉该子树父节点的误差较大保留该子树 2019 12 27 数据库新技术数据挖掘 42 34 修剪节点降低错误率将树上的每一个节点作为修剪的候选对象修剪步骤删除以此节点为根的子树使它成为叶结点把和该节点关联的训练样例的最常见分类赋给它反复修剪节点每次总是选取那些删除后可以最大程度提高决策树在验证集合上的精度的节点继续修剪直到进一步的修剪是有害

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

分类预测-决策树方法.ppt

文档简介

温馨提示

最新文档

评论

分类预测-决策树方法.ppt

文档简介

温馨提示

最新文档

评论

相关文档