新精品课程完整课件(第8讲)---数据分类-决策树.ppt

上传人：努*** IP属地：江西上传时间：2019-12-24 格式：PPT 页数：71 大小：2.51MB 积分：15 举报 版权申诉

已阅读5页，还剩66页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数据分类决策树目录基本概念决策树ID3算法决策树C4 5算法 2 学习目标 1 掌握数据分类的基本原理和评价指标2 了解两种决策树算法 3 4 PartI数据分类的基本概念定义数据分类是指把数据样本映射到一个事先定义的类中的学习过程即给定一组输入的属性向量及其对应的类用基于归纳的学习算法得出分类分类问题是数据挖掘领域中研究和应用最为广泛的技术之一如何更精确更有效地分类一直是人们追求的目标数据分类的任务通过学习得到一个目标函数f 把每个属性集x映射到一个预先定义的类标号y 5 分类的示例两类分类示例银行业区分高端信用卡和低端信用卡医疗诊断区分正常细胞和癌细胞互联网区分正常邮件和垃圾邮件多类分类示例油气传输区分行人走过汽车碾过镐刨电钻等行为文字识别区分不同的字符其中汉字识别是一个大类别问题社会网络区分中心用户活跃用户不活跃用户马甲用户等 6 示例数据集数据集包含多个描述属性和一个类别属性一般来说描述属性连续值或离散值类别属性只能是离散值目标属性连续对应回归问题 7 分类问题的形式化描述 8 分类的过程 9 获取数据预处理分类决策分类器设计获取数据数值型数据病例中的各种化验数据空气质量监测数据描述性数据人事部门档案资料图片型数据指纹掌纹自然场景图片很多情况下需要将上述数据统一转换为数值型数据序列即形成特征向量特征提取 10 预处理为了提高分类的准确性和有效性需要对分类所用的数据进行预处理去除噪声数据对空缺值进行处理数据降维特征选择 PCA LDA 主成分分析 PrincipalComponentAnalysis PCA 线性鉴别分析 LinearDiscriminantAnalysis LDA 有时也称Fisher线性判别 FisherLinearDiscriminant FLD 这种算法是RonaldFisher于1936年发明的是模式识别的经典算法 11 分类器设计1 划分数据集给定带有类标号的数据集并且将数据集划分为两个部分训练集 trainingset 测试集 testingset 划分策略1 当数据集D的规模较大时训练集2 D 3 测试集是1 D 32 当数据集D的规模不大时n交叉验证法 n foldvalidation 将数据集随机地划分为n组之后执行n次循环在第i次循环中将第i组数据样本作为测试集其余的n 1组数据样本作为训练集最终的精度为n个精度的平均值 12 3 当数据集D的规模非常小时每次交叉验证时只选择一条测试数据剩余的数据均作为训练集原始数据集有m条数据时相当于m 次交叉验证是N 次交叉验证的一个特例分类器设计2 分类器构造利用训练集构造分类器分类模型通过分析由属性描述的每类样本的数据信息从中总结出分类的规律性建立判别公式或判别规则在分类器构造过程中由于提供了每个训练样本的类标号这一步也称作监督学习 supervisedlearning 14 分类器设计3 分类器测试利用测试集对分类器的分类性能进行评估具体方式是首先利用分类器对测试集中的每一个样本进行分类其次将分类得到的类标号和测试集中数据样本的原始类标号进行对比由上述过程得到分类器的分类性能如何评价 15 分类决策在构造成功分类器之后通过测试则可以利用该分类器实际执行分类 16 分类的评价准则约定和假设 17 分类的评价准则指标1 精确度 accuracy 是最常用的评价准则代表测试集中被正确分类的数据样本所占的比例反映了分类器对于数据集的整体分类性能 18 分类的评价准则指标2 查全率 recall 第j个类别的查全率召回率表示在本类样本中被正确分类的样本占的比例代表该类别的分类精度 19 分类的评价准则指标3 查准率 precision 第j个类别的查准率表示被分类为该类的样本中真正属于该类的样本所占的比例代表该类别的分类纯度 20 分类的评价准则指标4 F measure可以比较合理地评价分类器对每一类样本的分类性能它是查全率和查准率的组合表达式其中参数是可以调节的通常取值为1 21 分类的评价准则指标5 几何均值 G mean 它能合理地评价数据集的整体分类性能是各个类别查全率的平方根当各个类别的查全率都大时才增大同时兼顾了各个类别的分类精度 22 延伸阅读 Jin MaoWei Xiao JieYuan etal Anovelmeasureforevaluatingclassifiers ExpertSystemswithApplications 37 2010 3799 3809 23 关于数据分类的小结所谓分类即是使用某种分类模型以对象的若干维描述属性为输入经过计算输出该对象所属类别的过程数据分类的两个关键步骤是分类器训练选定合适的分类模型及参数分类器测试利用合适的指标检验分类器有效性目前已有一些成熟的分类器可供使用决策树支持向量机最近邻 k 近邻 24 25 PartII决策树算法决策树是一种以给定的数据样本为基础的归纳学习方法在给定已知类标号的数据集的情况下采用自顶向下的递归方式来产生一个类似于流程图的树结构树的最顶层节点是根节点最底层节点是叶节点代表样本的类别根节点和叶节点之间的节点是内部节点决策树方法在根节点和内部节点上根据给定的度量标准来选择最适合的描述属性作为分支属性并根据该属性的不同取值向下建立分支 26 决策树示例购买保险 27 保险决策树解决了哪类人更倾向于购买保险的问题 28 年龄信誉度公司职员 c1 c1 c2 c1 c2 40 41 50 50 是否良优决策树向程序语言的转化 if 年龄50 信誉度为良买保险if 年龄 50 信誉度为优不买保险 29 基本决策树方法基本算法贪婪算法自顶向下的分治算法构造树开始所有的训练样本和树根相连属性为分类属性若是连续值则离散化根据选定的属性递归地划分样本如何选择基于启发式或统计度量选取测试属性 e g 信息增益停止划分的准则所有样本均和属于同一类的节点连接无剩下的属性用于继续划分样本叶节点分类应用多数表决法无剩余的样本其它的提前中止法 30 属性选择度量属性选择度量划分规则划分属性度量得分高的属性流行的属性选择度量信息增益 ID3 C4 5 选取时偏向于多值属性增益率 C4 5 偏向不平衡划分Gini指标 CART SLIQ SPRINT 偏向于多值属性类的数量很大时计算较困难信息增益 InformationGain 基于信息论熵选取具有最大信息增益的属性划分在属性节点A处样本集D所具有的熵 p j D 为类j在节点t处的概率度量节点的均质性当所有的类均匀分布时最大为 lognc 具有最多信息当只有所有样本属于一类时最小为 0 0 具有最少信息在属性A处将样本分为v类的信息量通过在属性A 形成v个分支后信息增益为增益最大的选为划分属性信息增益例子类P buys computer yes 类N buys computer no 指14个样本中有5个 age 30 两个属于类p 2个属于类N 因此Similarly 决策树首层 age 30 40 30 40 增益率 GainRatio C4 5 ID3的后继算法应用增益率克服信息增益的偏斜性信息增益的规范化 Ex GainRatio income 0 029 0 926 0 031具有最大增益率的属性选为划分属性信息增益缺点倾向于选择分割数目多的属性 Gini指数 Gini指数节点属性A划分样本的不纯度设样本集为D NOTE p j D 类j在样本D中的概率当所有样本均匀分布在不同类时最大为 1 1 nc 表示最小兴趣信息当所有的样本属于一类时最小为 0 0 表示最大兴趣信息 Gini例子 P C1 0 6 0P C2 6 6 1Gini 1 P C1 2 P C2 2 1 0 1 0 P C1 1 6P C2 5 6Gini 1 1 6 2 5 6 2 0 278 P C1 2 6P C2 4 6Gini 1 2 6 2 4 6 2 0 444 基于Gini指数的划分用于CART算法在节点A 将训练集D划分为k个子集子节点Di 则以划分的不纯度加权和度量其优劣ni 子树的训练样本个数i n 节点p处训练样本个数二值属性的Gini指数划分为两个子集带权划分的效果 Gini指数越小越好寻求更大和更纯的划分 B Yes No NodeN1 NodeN2 Gini D1 1 5 7 2 2 7 2 0 174Gini D2 1 1 5 2 4 5 2 0 32 Gini Children 7 12 0 174 5 12 0 32 0 204 决策树归纳算法算法种类多Hunt sAlgorithm oneoftheearliest CARTID3 C4 5SLIQ SPRINT ID3算法原理选择具有较高信息增益的描述属性作为给定数据集X的分支属性从而创建决策树中的一个节点根据该描述属性的不同取值再创建分支之后对各个分支中的样本子集递归调用上述方法建立下一级子节点当某个分支上的所有数据样本都属于同一个类别时划分停止形成叶节点或者当某个分支上的样本不属于同一个类别但是又没有剩余的描述属性可以进一步划分数据集时也形成叶节点并且用多数样本所属的类别来标记这个叶节点 41 ID3算法示例该样本集中共包含4个描述属性和1个类别属性空间容量为14目标是利用ID3思想构建一棵可用于新样本分类的决策树 42 第1步计算对训练集分类所需的期望信息已知total 14c1 买保险的样本数量是n1 9c2 不买保险的样本数量是n2 5所以P c1 9 14P c2 5 14根据期望信息公式可得 43 第2步计算A1 公司职员的熵 A1包含两种取值是和否利用A1可将X划分为两个子集X1和X2X1中的数据样本都是公司职员 7个标号为c1的有6个 n11 6标号为c2的有1个 n21 1则可得p11 6 7p21 1 7 44 第2步计算A1 公司职员的熵利用A1可将X划分为两个子集X1和X2X2中的数据样本都不是公司职员 7个标号为c1的有3个 n12 3标号为c2的有4个 n22 4则可得p12 3 7p22 4 7 45 第2步计算A1 公司职员的熵则计算出A1划分训练集所得的熵为 46 第3步计算A1 公司职员的信息增益 47 第4步求出其他描述属性的信息增益 Gain A2 0 246Gain A3 0 029Gain A4 0 048经比较可知Gain A2 最大所以选择A2 年龄作为决策树的根节点进一步将树划分为3个分支 48 第5步根据根节点划分数据集年龄 40的子集在此子集内继续检查Gain A1 Gain A3 Gain A4 选取信息增益最大的描述属性作为内部节点 49 第5步根据根节点划分数据集年龄41 50的子集该子集中所有样本的类别标号都一样所以无需继续划分可将它标注为一个叶节点而且叶节点的类标号为c1 50 第5步根据根节点划分数据集年龄 50的子集在此子集内继续检查Gain A1 Gain A3 Gain A4 选取信息增益最大的描述属性作为内部节点 51 ID3算法小结使用ID3算法的基本思想是采用自顶向下的递归方式将原始样本空间划分成若干更小的样本空间再对他们单独进行处理其中选择哪一个描述属性作为新建节点依据是考察该描述属性的信息增益是否最大 52 53 PartIIIC4 5算法下载地址 ID3的不足 1 2 使用信息增益作为属性选择依据带有倾向性倾向于选择取值较多的属性为什么一种可能的解释是对于较难分类的集合优先将样本分割到尽可能多的分支中将极大简化分类工作 54 ID3的不足 2 2 无法处理未知值的样本对于个别样本缺失了某项描述属性的情况无法处理无法处理连续值的样本对于描述属性是连续值的情况无法处理 55 变化一使用信息增益比 56 变化二处理未知值的训练样本 1 2 思想将未知值用最常用的值来替代较容易或依据现有取值的概率分布来估计未知值较真实显然依据思想一在已知样本中年龄的三个区间分布是50 5人则可以直接指定未知值为 50 57 变化二处理未知值的训练样本 2 2 思想将未知值用最常用的值来替代较容易或依据现有取值的概率分布来估计未知值较真实显然依据思想二在已知样本中年龄的三个区间分布是50 5人考虑未知值样本后分布更新为50 5 5 13人 58 变化三处理连续值的训练样本 1 10 思想将所有数据样本按照连续型描述属性Ac的具体取值由小到大进行升序排列得到的属性值取值序列 A1c A2c Atotalc 在 A1c A2c Atotalc 中生成total 1个分割点第i个分割点的取值设置为vi Aic A i 1 c 2或者vi Aic该分割点将数据集划分为两个子集即描述属性Ac的取值在区间 A1c vi 的数据样本和在区间 vi Atotalc 的数据样本显然划分共有total 1种方式从total 1个分割点中选择最佳分割点对于每一个分割点划分数据集的方式计算其信息增益比从中选择信息增益比最大的分割点来划分数据集 59 变化三处理连续值的训练样本 2 10 示例求利用C4 5算法在连续值描述属性A上的最佳分割点解第0步将A的取值升序排列 65 70 70 70 75 78 80 80 80 85 90 90 95 96 第1步计算vi 65时的信息增益比 60 变化三处理连续值的训练样本 3 10 解第1步计算vi 65时的信息增益比 61 变化三处理连续值的训练样本 4

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

新精品课程完整课件(第8讲)---数据分类-决策树.ppt

文档简介

温馨提示

最新文档

评论

新精品课程完整课件(第8讲)---数据分类-决策树.ppt

文档简介

温馨提示

最新文档

评论

相关文档