




已阅读5页,还剩35页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
机器学习周志华,第4章决策树第5章神经网络和深度学习第6章支持向量机第8章集成学习第9章聚类关联规则学习,第4章决策树,根据训练数据是否拥有标记信息学习任务,决策树(decisiontree)模型常常用来解决分类和回归问题。常见的算法包括CART(ClassificationAndRegressionTree)、ID3、C4.5等。,二分类学习任务属性属性值,根结点:包含全部样本叶结点:对应决策结果“好瓜”“坏瓜”内部结点:对应属性测试,决策树学习的目的:为了产生一颗泛化能力强的决策树,即处理未见示例能力强。,决策树学习的关键是算法的第8行:选择最优划分属性什么样的划分属性是最优的?我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”越来越高,可以高效地从根结点到达叶结点,得到决策结果。,三种度量结点“纯度”的指标:信息增益增益率基尼指数,1.信息增益,香农提出了“信息熵”的概念,解决了对信息的量化度量问题。香农用“信息熵”的概念来描述信源的不确定性。,信息熵,对于二分类任务,信息增益,一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升”越大。决策树算法第8行选择属性,著名的ID3决策树算法,举例:求解划分根结点的最优划分属性,根结点的信息熵:,用“色泽”将根结点划分后获得3个分支结点的信息熵分别为:,属性“色泽”的信息增益为:,若把“编号”也作为一个候选划分属性,则属性“编号”的信息增益为:,根结点的信息熵仍为:,用“编号”将根结点划分后获得17个分支结点的信息熵均为:,则“编号”的信息增益为:,远大于其他候选属性信息增益准则对可取值数目较多的属性有所偏好,2.增益率,增益率准则对可取值数目较少的属性有所偏好著名的C4.5决策树算法综合了信息增益准则和信息率准则的特点:先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。,3.基尼指数,基尼值,基尼指数,著名的CART决策树算法,过拟合:学习器学习能力过于强大,把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,导致泛化性能下降。欠拟合:学习器学习能力低下,对训练样本的一般性质尚未学好。,过拟合无法彻底避免,只能做到“缓解”。,不足:基于“贪心”本质禁止某些分支展开,带来了欠拟合的风险,预剪枝使得决策树的很多分支都没有“展开”优点:降低过拟合的风险减少了训练时间开销和测试时间开销,训练集:好瓜坏瓜1,2,3,6,7,10,14,15,16,17,后剪枝决策树,预剪枝决策树,保留了更多的分支欠拟合风险很小泛化能力优于预剪枝决策树训练时间开销比未减枝和预剪枝决策树大得多生产完全决策树所有非叶节点逐一考察,知识回顾:四类学习任务Hunt算法3种递归返回情形、第8行3种度量结点“纯度”的指标:信息增益ID3增益率C4.5基尼指数CART过拟合、欠拟合决策树剪枝预剪枝后剪枝,现实任务中,尤其在属性数目较多时,存在大量样本出现缺失值。出于成本和隐私的考虑,属性值缺失时,如何进行划分属性选择?(如何计算信息增益)给定划分属性,若样本在该属性上的值缺失,如何对样本进行划分?(对于缺失属性值的样本如何将它从父结点划分到子结点中),训练集,训练集中在属性a上没有缺失值的样本子集,被属性a划分后的样本子集,中属于第k类的样本子集,无缺失值样本中在属性上取值的样本所占比例,无缺失值的样本子集上的信息增益,对于问题2:对于有缺失值的样本如何将它从父结点划分到子结点中若样本在划分属性a上的取值已知,则将划入与其取值对应的子结点,且样本权值在子结点中保持为若样本在划分属性a上的取值未知,则将同时划入所有子结点,且样本权值在子结点中调整为,就是让同一个样本以不同的概率划入不同的子结点中。,其中,是为每个样本赋予的一个权重,运用:问题1属性值缺失时,如何进行划分属性选择?=属性值缺失时,如何计算缺失属性的信息增益?,无缺失值样本中在属性上取值的样本所占比例,无缺失值样本中第k类所占比例,样本划分原则:属性值已知,划入与其取值对应的子结点,样本权值不变,仍为属性值未知,划入所有子结点,样本权值调整为,让同一个样本以不同的概率划入不同的子结点中,无
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 城市绿地空间优化-洞察与解读
- 超声波辅助烘焙材料均匀化技术-洞察与解读
- 2025年乡村手工艺合作社运营数据分析与统计员招聘模拟题解析
- 2025年中国烟草总公司信息技术招聘面试指南及模拟题解析
- 2025年军供站医护人员招聘模拟题及解析
- 2025年福建省中国民主促进会福州市委员会招聘1人模拟试卷及答案详解1套
- 2025年中小学体育教师招聘考试专业基础知识考试题库及答案
- 2025年宿州高新医院招聘若干人模拟试卷附答案详解
- 2025年安庆市人力资源服务有限公司招聘20人模拟试卷及答案详解(易错题)
- 2025年延安通和电业有限责任公司招聘(5人)考前自测高频考点模拟试题附答案详解(完整版)
- 2025年Adobe中国认证设计师考试设计规范试题及答案
- 管理咨询项目考核方案
- 保洁日常清洁标准课件
- 1.2细胞的多样性和统一性(1)课件-高一上学期生物人教版必修1
- 2024春期国开电大本科《中国现代文学专题》在线形考(阶段作业1至4+专题讨论1至2)试题及答案
- 大型连锁医药零售企业发展模式
- 安全生产教育培训教材
- 王崧舟“诗意语文”教学艺术剖析
- 师德师风负面清单及整改台账
- 私募基金资金募集服务协议模板
- 小学六年级科学《太阳能》
评论
0/150
提交评论