第4章分类基本概念、决策树与模型评估.ppt_第1页
第4章分类基本概念、决策树与模型评估.ppt_第2页
第4章分类基本概念、决策树与模型评估.ppt_第3页
第4章分类基本概念、决策树与模型评估.ppt_第4页
第4章分类基本概念、决策树与模型评估.ppt_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第4章分类:基本概念、决策树和模型评估、4.1初步知识、4.2解决分类问题的一般方法、4.3决策树归纳、4.4模型过度拟合、4.5分类器属性评估、4.6分类器比较、分类任务:确定预定义的目标类对象属于哪个,示例:1。根据电子邮件标题和内容检查垃圾邮件。2.根据星系的形状对它们进行分类。螺旋星系和椭圆星系。首先,预备知识和分类任务的输入数据是记录的集合。每个记录也称为实例或样本,由元组(x,y)表示,其中x是一组属性,y是一个特殊属性,表示样本的类标签(也成为分类属性或目标属性)。分类?回来?分类,通过学习得到一个目标函数,也成为一个分类模型(classificationmodel),将每个属性集x映射到一个预定义的类标签y。描述性建模分类模型可以作为一个解释性工具来区分不同类中的对象。2.预测建模分类模型也可以用于预测未知记录的类别标签。分类器的任务:根据输入属性集x确定类别标签y,分类技术非常适合预测或描述二进制或名义数据集,但对于有序分类不是很有效,因为分类技术不考虑目标类中隐含的顺序关系。分类技术是一种基于输入数据集建立分类模型的系统方法。分类技术、决策树分类、基于规则的分类、神经网络和支持向量机都使用学习算法来确定分类模型。修改该模型可以很好地适应输入数据中类标签和属性集之间的关系。通过学习算法得到的模型不仅能很好地拟合输入数据,而且能正确预测未知样本的类别标签。训练算法的目标是建立一个具有良好泛化能力的模型。2.解决分类问题的一般方法,朴素贝叶斯分类,训练集:由具有已知类别标签的记录组成的测试集,由具有未知类别标签的记录组成的测试集,类别2问题的混淆矩阵,表中的每个条目表示具有实际类别标签但被预测为类别的记录的数量。分类模型正确预测的样本总数为,而错误预测的样本总数为。尽管混淆矩阵提供了衡量分类模型的信息,但通过将信息汇总到一个数字中,可以更容易地比较不同模型的性能。为了实现这个目标,可以使用性能度量,如精确度,定义如下:同样,分类模型的性能也可以用错误率来表示,错误率定义如下:目标:为了寻求最高的精确度或最低的错误率,1。什么是决策树?类似于流程图的树形结构,每个内部节点代表一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一个类或类分布。第三,决策树归纳。第三,决策树的使用:通过比较样本的属性值和决策树对未知样本进行分类。其次,决策树生成包括两个阶段。在决策树构造的开始,所有的训练样本通过根节点的选定属性被递归地分成样本(这些样本必须是离散值)。树木修剪许多分支反映训练数据中的噪声和孤立点。树木修剪试图发现并切断这些树枝。根节点:它没有边,但有零个或多个边。Internalnode:只有一个输入边沿和两个或多个输出边沿。叶节点或终节点:只有一个在边缘,没有外边缘。一旦构建了决策树,就很容易对检查记录进行分类。从树的根节点开始,测试条件用于检查记录,并根据测试结果选择适当的分支。沿着分支或者到另一个内部节点,使用新的测试条件,或者到一个叶节点。到达叶节点后,叶节点的类标签被分配给检查记录。对于给定的一组属性,可以构建的决策树的数量是指数级的。虽然有些决策树比其他的更精确,但是寻找最佳的决策树在计算中是不可行的,因为搜索空间是指数的。尽管如此,人们已经开发了一些有效的算法来在合理的时间内以一定的精度构造次优决策树。这些算法通常采用贪婪策略。有许多决策树算法:亨特算法信息增益(ID3)增益比增益(c4.5)基尼指数基尼指数(SLIQ,SPRINT)。在Hunt算法中,决策树是通过将训练记录一个接一个地划分成更纯的子集来递归建立的。让我们假设与节点T相关联的训练记录集是一个类标签。亨特算法的递归定义如下。(1)如果中的所有记录都属于同一个类,则T是叶节点并被标记。(2)如果有属于一个以上类别的记录,选择一个属性测试条件,将记录分成更小的子集。对于测试条件的每个输出,创建一个子节点,并根据测试结果将中的记录分发给子节点。然后,对于每个子节点,递归调用该算法。亨特算法,拖欠借款者=否,拖欠借款者=否,拖欠借款者=否,房主,拖欠借款者=否,房主,拖欠借款者=否,婚姻状况,年收入,拖欠借款者=是,拖欠借款者=否,(b),(c),(d),(a),拖欠借款者=否,房主,拖欠借款者=否,婚姻状况,拖欠借款者=是,是,是,否,否,是,单身离婚,单身离婚,已婚,已婚,=80k,亨特算法构建决策树。如果每个属性值的组合都出现在训练数据中,并且每个组合都有一个唯一的类标签,那么Hunt算法就是有效的。然而,对于大多数实际情况,这些假设过于苛刻。因此,需要额外的条件来处理以下情况:(1)在算法的第二步中创建的子节点可能是空的,也就是说,没有与这些节点相关联的记录。如果没有训练记录包含与节点相关联的属性值组合,则可能会发生这种情况。此时,该节点成为叶节点,类标签是其父节点上训练记录中的大多数类。(2)在第二步中,如果与关联的所有记录都具有相同的属性值(目标属性除外),则无法进一步划分这些记录。在这种情况下,该节点是叶节点,其标签是与该节点相关联的训练记录中的大多数类。(1)如何拆分培训记录?(2)如何停止拆分过程?树增长过程的每个递归步骤必须选择一个属性测试条件,以将记录分成更小的子集。为了达到这一步。该算法必须提供一种方法来为不同类型的属性指定测试条件,并提供一种客观的度量来评估每个测试条件。决策树需要一个结束条件来终止决策树的增长过程。一种可能的策略是拆分节点,直到所有记录都属于同一个类或者所有记录都具有相同的属性值。它表示属性测试条件的方法,1。二进制属性的二进制属性的测试条件产生两种可能的输出。温度,恒温,冷血,二元属性测试条件,2,标称属性因为标称属性有多个属性值,其测试条件可以用两种方式表达。婚姻状况,单身,已婚,离异,婚姻状况,已婚,单身,离异,婚姻状况,离异,单身,已婚,离异,婚姻状况,单身,已婚,离异,多向分割,二向分割(按属性值分组),3,序数属性序数属性也可以生成二向或多向分割,只要不违反序数属性值的排序,属性值就可以分组。衬衫尺寸,小号,中号,大号,大号,衬衫尺寸,小号,中号,大号,衬衫尺寸,小号,大号,中号,大号,(a)、(b)、(c),4,连续属性对于连续属性,测试条件可以是带有二进制输出的比较测试或带有输出的范围查询。年收入80k,(a)、(b),年收入,是,否,10k,10k,25k,10k,25k,50k,50k,80k,连续属性的测试条件,有许多指标可用于确定划分记录的最佳方法,这些指标由划分前后记录的类别分布定义。选择最佳分区度量,并在给定的节点T中设置属于第一类的记录的比例。有时,我们省略节点T并直接用它来表示该比例。在两类问题中,任何一个节点的类分布都可以记录为一个。男,女,模特,家庭,运动,奢侈品,c 0:6c 1:4,c 0:4c 1:6,c 03:1 c 1:3,c 03:8 c 1:0,c 03:1 c 1:7,(b),(a),c 03:1 c 1:0,c 03:1杂质水平越低,阶级分布就越不平衡。例如,(0,1)的节点具有零杂质,而平衡分布的节点(0.5,0.5)具有最高杂质。不纯度量的示例包括:熵、基尼指数、分类误差:其中c是类的数量,当计算熵时,二进制分类问题的不纯度量之间的比较显示不同的不纯度量是一致的,但是作为测试条件的属性的选择仍然根据不纯度量的选择而变化。为了确定测试条件的影响,我们需要比较父节点的不纯程度(划分前)和子节点的不纯程度(划分后)。差异越大,测试条件的效果越好。增益是一个可用于确定分区效果的标准:其中是给定节点的不纯度量,n是父节点上的记录总数,k是属性值的数量,并且是与子节点相关联的记

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论