




已阅读5页,还剩25页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
决策树学习,创建:Chang ray,来源:www . cs . utxas . edu/users/mooney/cs 391 l,决策树,决策树是实例(以唯一向量显示)的分类器。节点测试特征,边表示特征的每个值,叶节点对应于分类。可以表示任意提取和合并范例。也就是说,任意离散函数和离散特征可以将实例分为多个分类(2),以提取范式(DNF)形式的red circle-positive circle-ablue-b;red square-b green-c;Red triangle-c、决策树学习、实例以(属性-值)对的形式显示。离散值处理简单,连续值可以划分地块。输出可以是离散分类或实数(回归树)。可以有效地处理大量数据,包括缺少或可处理噪声数据(分类噪声、属性噪声)属性值、默认决策树算法、培训数据放置、由上而下递归配置决策树DTree(examples,attributes)If所有示例属于同一分类,并返回该分类的标签的叶节点Elseif属性值为空a用作根节点ForA的每个可能值。VI是带有A=vi的示例子集,用于增加根节点中的分支(A=vi)。如果examplesi为空,则创建最常用的分类标签叶节点。否则,子树将调用DTree(examplesi)。属性-A,根属性选择,决策树数据集尽可能小的最小决策树NP-hard的简单递归算法是贪心启发式搜索,不保证最优子集必须尽可能“纯”,因此最常用的启发式规则是信息增益其中p和p-是s的正示例,反例是,如果所有样本属于同一分类,则熵为0(定义为0log0=0),如果样本分布均匀(p=p-=0.5),则熵被认为是对样本集分类进行编码所需的平均二进制位数,并被压缩为仅huff编码。更常见的分类编码越短,多分类问题(假定有c个分类)的熵的广义定义:其中pi是属于分类I的样本在s中所占的比例、信息增益、属性的信息增益是按该属性分割后熵的减少期望值。其中Sv是s中属性a值为v的子集示例:big、red、circle: small、red、Circle : small、red、square :-big、blue、blue摘要该空间内的搜索生成与数据相匹配的单个离散假设,因此,在不提供可靠性或构造有用的查询爬山搜索方面存在局部最优问题。可以找到适合所有无噪音数据集的树,但不一定是最小的批量学习。每个决策需要数据集扫描,可以提前结束学习以减少噪声的影响,在决策树学习中有误导性,树的深度必须最小化。但是,贪婪搜索可能找不到最小树。顶层节点不一定是高分隔。计算复杂性,最坏情况下,组织整个树。每个路径测试每个层次中其馀|A|-i属性计算的I。通常,性能和属性的数量是线性的。决策树研究的过去,1960s: hunt的完整搜索描述树方法(CLS)的概念学习建模20世纪70年代后期:Quinlan使用信息增益作为灵感策略的ID3方法,在从示例中学习构造专家系统的同时,B rehman和Friedman 学习教育数据并构建分类树可能无法达到最佳的一般化性能,噪声数据的影响部分决定仅基于少量数据,因此与客观事实不符。 据说h对教育数据进行了过度拟合。也就是说,在其他假设的情况下,在培训集中,H的误差小于H ,但在测试集中,H 的误差小于H,过度拟合和噪声、分类或属性噪声由于过度拟合而导致噪声实例增加(实际上-),噪波直接导致样品的碰撞(相同说明,不同分类)。叶节点标签必须指定为主分类,如果-属性不完整且不足以确定分类,则可能会发生示例冲突以避免过度拟合。有两种基本方法需要修剪,即预先修剪。如果没有足够的支持,树的生长后修剪将停止。如果可信度不足,则是否需要修剪相应子树的确定方法:交叉检验:保留一些用于验证统计测试的培训数据:通过培训集的统计信息确定最小说明长度(MDL):确定此假设没有内存异常更复杂,减少错误修剪,后期修剪,交叉验证方法将培训数据称为“增长”和“验证”使用“增长”数据降低整个树Until验证数据集的精度。do: foreach树中的非叶节点n暂时修剪n子树,并修剪对精度影响最大的分支(指定为“主要分类”的叶),而不是在验证集中计算树的准确度。最大信息增益可达到最大信息增益的单阈值分割算法Foreach连续特征Ai最好基于Ai值将样本排序为Foreach序列中的每个Xi对,以实现最佳平衡点,分割属性,将连续值映射为离散值节点分割。Xi 1IfXi和Xi 1的分类将Xi和Xi 1的中点作为可能的阈值(例如长度(:152128832450(顺序)分类: -检查阈值:L12.5、L24.5、L30、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025案例:合同无效的争议解决
- 2025外贸代理销售合同
- 石材开采合同(标准版)
- 汽车周期性生产计划考试题
- 机械安全故障诊断考试题
- 直管用工试题及答案
- 家庭智能垃圾桶创新创业项目商业计划书
- 无公害蔬菜企业员工餐厅供应创新创业项目商业计划书
- 家禽健康饮食文化传播创新创业项目商业计划书
- 水果环保包装创新创业项目商业计划书
- 机加工安全生产培训考核试题及答案(班组级)(精)
- 电梯从业证考试试题及答案解析
- 第二十四届上海市青少年计算机创新应用竞赛 python校内选拔试题及答案
- 2024年武汉商学院公开招聘辅导员笔试题含答案
- 江苏省宿迁市泗阳县2024-2025学年高二下册期末调研测试语文试题【附答案】
- 2025年《传染病防治法》综合培训试题(附答案)
- 储能电站项目实施方案
- 墙布工厂工程定制方案(3篇)
- 2025年工勤技师考试题库及答案
- 新鲜的牛肉采购合同范本
- 2025至2030年中国室内亲子游乐场行业市场评估分析及投资发展盈利预测报告
评论
0/150
提交评论