


全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
决策树模型相比贝叶斯算法,决策树的优势在于构造过程中不需要任何的参数设置,因此决策树更偏重于探测式的知识发现。决策树的思想贯穿着我们的生活方方面面,人们在生活中的每一个选择都是输的一个分支节点,只不过生活是一根走不到尽头的决策树,而一般的问题的决策结论是正确或者错误。举个例子说明决策树,比如给寝室的哥们介绍对象时需要跟人家讲明女孩子的如下情况:A. 家是哪里的。B. 人脾气如何C. 人长相如何D. 人个头如何OK ,先举这几个,以上4个条件便是一个实例。然后男孩的决定策略便是决策树,比如说寝室的哥们的要求是:家北京的,脾气温柔的,长相一般,个头一般。那么这个决策树变构造成了。一般上一般下个头一般上一般下长相不是北京温柔不温柔是北京家住址人脾气以上便是一个决策树,实例的每一个特征在决策树中都会找到一个肯定或者否定的结论,至于每一个节点的权重还需要以后在学习中获得,可以根据不同的权重将节点排序,或者每个节点带一个权重。构造决策树的关键步骤是分裂属性。所谓分裂属性就是在某个节点处按照某一特征属性的不同划分构造不同的分支,其目标是让各个分裂子集尽可能地“纯”。尽可能“纯”就是尽量让一个分裂子集中待分类项属于同一类别。分裂属性分为三种不同的情况: 1、属性是离散值且不要求生成二叉决策树。此时用属性的每一个划分作为一个分支。 2、属性是离散值且要求生成二叉决策树。此时使用属性划分的一个子集进行测试,按照“属于此子集”和“不属于此子集”分成两个分支。 3、属性是连续值。此时确定一个值作为分裂点split_point,按照split_point和=split_point生成两个分支。构造决策树的关键性内容是进行属性选择度量,属性选择度量是一种选择分裂准则,是将给定的类标记的训练集合的数据划分D“最好”地分成个体类的启发式方法,它决定了拓扑结构及分裂点split_point的选择。常用的有ID3算法和C4.5算法从信息论知识中我们直到,期望信息越小,信息增益越大,从而纯度越高。所以ID3算法的核心思想就是以信息增益度量属性选择,选择分裂后信息增益最大的属性进行分裂。下面先定义几个要用到的概念。 设D为用类别对训练元组进行的划分,则D的熵(entropy)表示为: 其中pi表示第i个类别在整个训练元组中出现的概率,可以用属于此类别元素的数量除以训练元组元素总数量作为估计。熵的实际意义表示是D中元组的类标号所需要的平均信息量。 现在我们假设将训练元组D按属性A进行划分,则A对D划分的期望信息为: 而信息增益即为两者的差值:对于计算机病毒的检测分类可以利用ID3算法,首先计算整个训练集的信息熵,然后计算训练集按照不同的属性进行划分的期望信息,当期望信息最小的时候的信息增益最大,也就是说决策树的节点是以该属性进行分裂的,然后依次类推即可构造病毒分类的决策树。具体的计算过程如下:A. 将训练集S分为1 .N个最终类别,对于病毒检测为2个类别,是病毒,不是病毒B. 计算S的总信息熵INFO(S),改值等于最终类别的各自信息量和几率质量函数的乘积,即每一个类别所占训练集的比例乘以该比例的对数值取负,然后加和。C. 确定用来进行分类的属性向量V1,V2.VnD. 计算每一个属性向量对应的该属性向量对训练集的信息熵INFO(S)Vi,比如对应的属性Vi将训练集分为了M类,那么改值等于在该属性划分下的某一类值出现的概率乘以对应的该值所在的集的信息熵。改值所在的集的信息熵再套公式发现等于最终分类在Vi属性划分下的某一个类里的概率值乘以该概率值的对数值取负。表述的有些复杂,最好看公式。E. 在众多属性对于训练集的信息熵之中取最小的,这样信息增益最大,信息增益最大代表着信息的纯度越高,这样的分类越有效。F. 然后完成了一次属性的分裂,之后的递归。C4.5算法: ID3算法存在一个问题,就是偏向于多值属性,例如,如果存在唯一标识属性ID,则ID3会选择它作为分裂属性,这样虽然使得划分充分纯净,但这种划分对分类几乎毫无用处。ID3的后继算法C4.5使用增益率(gain ratio)的信息增益扩充,试图克服这个偏倚。 C4.5算法
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年近代物理研究所部分研究室负责人竞聘考前自测高频考点模拟试题有答案详解
- 2025安徽池州市青阳县选聘县属国有企业高级管理人员1人考前自测高频考点模拟试题及答案详解(全优)
- 2025年浙江宁波市鄞州人民医院医共体东柳分院招聘编外人员1人模拟试卷附答案详解(考试直接用)
- 资阳空港投资集团有限公司员工市场化招聘(9人)笔试历年参考题库附带答案详解
- 浙江国企招聘2025年杭州市富阳区区属国有企业公开招聘工作人员20人笔试历年参考题库附带答案详解
- 2025陕西咸阳泾阳高新产业开发建设有限责任公司招聘拟录用人员(一)笔试历年参考题库附带答案详解
- 2025重庆设计集团有限公司市政设计研究院招聘笔试历年参考题库附带答案详解
- 2025重庆市汽车运输(集团)有限责任公司招聘60人笔试历年参考题库附带答案详解
- 2025贵州省建设投资集团有限公司招聘141人笔试历年参考题库附带答案详解
- 2025秋季中国石油兰州石化公司招聘294人笔试历年参考题库附带答案详解
- 【自考复习资料】05175税收筹划(重点知识汇总)
- 高校教师职业道德概论练习试题
- 体育馆行业音视频系统建设与应用解决方案
- GB/T 19494.2-2023煤炭机械化采样第2部分:煤样的制备
- 2023年【汽车驾驶员(技师)】考试题及汽车驾驶员(技师)试题答案
- 证监会行业分类结构与代码
- 安全仪表系统SIS课件
- Φ1397套管开窗侧钻操作规程
- 《寻梦环游记(2017)》完整中英文对照剧本
- RB/T 089-2022绿色供应链管理体系要求及使用指南
- 某某集团年度经营计划编制指引
评论
0/150
提交评论