第3章_分类与决策树.ppt

上传人：努*** IP属地：江西上传时间：2019-12-27 格式：PPT 页数：72 大小：997.50KB 积分：9.6 举报 版权申诉

已阅读5页，还剩67页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第3章分类与预测主要内容分类与决策树概述ID3 C4 5与C5 0CART 分类VS 预测分类和预测是两种数据分析形式用于提取描述重要数据类或预测未来的数据趋势的模型分类预测类对象的分类标号或离散值根据训练数据集和类标号属性构建模型来分类现有数据并用来分类新数据预测建立连续函数值模型比如预测空缺值或者预测顾客在计算机设备上的花费典型应用欺诈检测市场定位性能预测医疗诊断分类是一种应用非常广泛的数据挖掘技术分类与预测的区别当估计的属性值是离散值时这就是分类当估计的属性值是连续值时这就是预测分类和预测示例分类银行贷款员需要分析数据来弄清哪些贷款申请者是安全的哪些是有风险的将贷款申请者分为安全和有风险两类我们需要构造一个分类器来预测类属编号比如预测顾客属类预测银行贷款员需要预测贷给某个顾客多少钱是安全的构造一个预测器预测一个连续值函数或有序值常用方法是回归分析数据分类一个两步过程 1 第一步也成为学习步目标是建立描述预先定义的数据类或概念集的分类器分类算法通过分析或从训练集学习来构造分类器训练集由数据库元组用n维属性向量表示和他们相对应的类编号组成假定每个元组属于一个预定义的类训练元组训练数据集中的单个元组学习模型可以用分类规则决策树或数学公式的形式提供数据分类一个两步过程 2 第二步使用模型对将来的或未知的对象进行分类首先评估模型的预测准确率对每个测试样本将已知的类标号和该样本的学习模型类预测比较模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比测试集要独立于训练样本集否则会出现过分拟合的情况第一步建立模型训练数据集分类算法 IFrank professor ORyears 6THENtenured yes 分类规则第二步用模型进行分类分类规则测试集未知数据 Jeff Professor 4 Tenured 监督学习VS 无监督学习监督学习用于分类模型的学习在被告知每个训练样本属于哪个类的指导下进行新数据使用训练数据集中得到的规则进行分类无监督学习用于聚类每个训练样本的类编号是未知的要学习的类集合或数量也可能是事先未知的通过一系列的度量观察来建立数据中的类编号或进行聚类数据预测的两步过程数据预测也是一个两步的过程类似于前面描述的数据分类对于预测没有类标号属性要预测的属性是连续值而不是离散值该属性可简称预测属性 E g 银行贷款员需要预测贷给某个顾客多少钱是安全的预测器可以看作一个映射或函数y f X 其中X是输入 y是输出是一个连续或有序的值与分类类似准确率的预测也要使用单独的测试集 3 1决策树概述决策树 DecisionTree 一种描述概念空间的有效的归纳推理办法基于决策树的学习方法可以进行不相关的多概念学习具有简单快捷的优势已经在各个领域取得广泛应用决策树是一种树型结构其中每个内部结点表示在一个属性上的测试每个分支代表一个测试输出每个叶结点代表一种类别决策树学习是以实例为基础的归纳学习从一类无序无规则的事物概念中推理出决策树表示的分类规则概念分类学习算法来源于Hunt Marin和Stone于1966年研制的CLS学习系统用于学习单个概念 1979年 J R Quinlan给出ID3算法并在1983年和1986年对ID3进行了总结和简化使其成为决策树学习算法的典型 Schlimmer和Fisher于1986年对ID3进行改造在每个可能的决策树节点创建缓冲区使决策树可以递增式生成得到ID4算法 1988年 Utgoff在ID4基础上提出了ID5学习算法进一步提高了效率 1993年 Quinlan进一步发展了ID3算法改进成C4 5算法另一类决策树算法为CART 与C4 5不同的是 CART的决策树由二元逻辑问题生成每个树节点只有两个分枝分别包括学习实例的正例与反例其基本思想是以信息熵为度量构造一棵熵值下降最快的树到叶子节点处的熵值为零此时每个叶节点中的实例都属于同一类决策树学习采用的是自顶向下的递归方法决策树的每一层节点依照某一属性值向下分为子节点待分类的实例在每一节点处与该节点相关的属性值进行比较根据不同的比较结果向相应的子节点扩展这一过程在到达决策树的叶节点时结束此时得到结论从根节点到叶节点的每一条路经都对应着一条合理的规则规则间各个部分各个层的条件的关系是合取关系整个决策树就对应着一组析取的规则决策树学习算法的最大优点是它可以自学习在学习的过程中不需要使用者了解过多背景知识只需要对训练例子进行较好的标注就能够进行学习如果在应用中发现不符合规则的实例程序会询问用户该实例的正确分类从而生成新的分枝和叶子并添加到树中树是由节点和分枝组成的层次数据结构节点用于存贮信息或知识分枝用于连接各个节点树是图的一个特例图是更一般的数学结构如贝叶斯网络决策树是描述分类过程的一种数据结构从上端的根节点开始各种分类原则被引用进来并依这些分类原则将根节点的数据集划分为子集这一划分过程直到某种约束条件满足而结束可以看到一个决策树的内部结点包含学习的实例每层分枝代表了实例的一个属性的可能取值叶节点是最终划分成的类如果判定是二元的那么构造的将是一棵二叉树在树中每回答一个问题就降到树的下一层这类树一般称为CART ClassificationAndRegressionTree 判定结构可以机械的转变成产生式规则可以通过对结构进行广度优先搜索并在每个节点生成 IF THEN 规则来实现如图6 13的决策树可以转换成下规则 IF 个子大 THENIF 脖子短 THENIF 鼻子长 THEN可能是大象形式化表示成构造一棵决策树要解决四个问题收集待分类的数据这些数据的所有属性应该是完全标注的设计分类原则即数据的哪些属性可以被用来分类以及如何将该属性量化分类原则的选择即在众多分类准则中每一步选择哪一准则使最终的树更令人满意设计分类停止条件实际应用中数据的属性很多真正有分类意义的属性往往是有限几个因此在必要的时候应该停止数据集分裂该节点包含的数据太少不足以分裂继续分裂数据集对树生成的目标例如ID3中的熵下降准则没有贡献树的深度过大不宜再分通用的决策树分裂目标是整棵树的熵总量最小每一步分裂时选择使熵减小最大的准则这种方案使最具有分类潜力的准则最先被提取出来预测变量目标变量记录样本类标号属性类别集合 Class 优良差决策树的基本原理根节点叶子节点分裂属性分裂谓词每一个叶子节点都被确定一个类标号每一个节点都代表了一个数据集根节点1代表了初始数据集D其它节点都是数据集D的子集例如节点2代表数据集D中年龄小于40岁的那部分样本组成的数据集子节点是父节点的子集 If 年龄3000 Then信用等级优决策树是指具有下列三个性质的树每个非叶子节点都被标记一个分裂属性Ai 每个分支都被标记一个分裂谓词这个分裂谓词是分裂父节点的具体依据每个叶子节点都被标记一个类标号Cj C 任何一个决策树算法其核心步骤都是为每一次分裂确定一个分裂属性即究竟按照哪一个属性来把当前数据集划分为若干个子集从而形成若干个树枝熵是数据集中的不确定性突发性或随机性的程度的度量当一个数据集中的记录全部都属于同一类的时候则没有不确定性这种情况下的熵就为0 决策树分裂的基本原则是数据集被分裂为若干个子集后要使每个子集中的数据尽可能的纯也就是说子集中的记录要尽可能属于同一个类别如果套用熵的概念即要使分裂后各子集的熵尽可能的小 3 2ID3 C4 5与C5 0 数据集D被按照分裂属性年龄分裂为两个子集D1和D2 信息增益 Gain D 年龄 H D P D1 H D1 P D2 H D2 显然如果D1和D2中的数据越纯 H D1 和H D2 就越小信息增益就越大或者说熵下降得越多按照这个方法测试每一个属性的信息增益选择增益值最大的属性作为分裂属性信息熵计算举例令C1对应是 C2对应否那么C1有9个样本 C2有5个样本所以数据集D的熵为决策树归纳策略 1 输入数据划分D是训练元组和对应类标号的集合attribute list 候选属性的集合Attribute selection method 指定选择属性的启发性过程算法步骤树以代表训练样本的单个节点 N 开始如果样本都在同一个类则该节点成为树叶并用该类标记否则算法调用Attribute selection method 选择能够最好的将样本分类的属性确定分裂准则指出分裂点或分裂子集决策树归纳策略 2 对测试属性每个已知的值创建一个分支并以此划分元组算法使用同样的过程递归的形成每个划分上的元组决策树一旦一个属性出现在一个节点上就不在该节点的任何子节点上出现递归划分步骤停止的条件划分D 在N节点提供的所有元组属于同一类没有剩余属性可以用来进一步划分元组使用多数表决没有剩余的样本给定分支没有元组则以D中多数类创建一个树叶属性选择度量属性选择度量是一种选择分裂准则将给定类标号的训练元组最好的进行划分的方法理想情况每个划分都是纯的即落在给定划分内的元组都属于相同的类属性选择度量又称为分裂准则常用的属性选择度量信息增益增益率Gini指标信息增益 1 S是一个训练样本的集合该样本中每个集合的类编号已知每个样本为一个元组有个属性用来判定某个训练样本的类编号假设S中有m个类总共s个训练样本每个类Ci有si个样本 i 1 2 3 m 那么任意一个样本属于类Ci的概率是si s 那么用来分类一个给定样本的期望信息是信息增益 2 一个有v个值的属性A a1 a2 av 可以将S分成v个子集 S1 S2 Sv 其中Sj包含S中属性A上的值为aj的样本假设Sj包含类Ci的sij个样本根据A的这种划分的期望信息称为A的熵A上该划分的获得的信息增益定义为具有高信息增益的属性是给定集合中具有高区分度的属性所以可以通过计算S中样本的每个属性的信息增益来得到一个属性的相关性的排序若以年龄作为分裂属性则产生三个子集因为该属性有三个不同的取值所以D按照属性年龄划分出的三个子集的熵的加权和为其中有一个子集的熵为0 同理若以收入水平为分裂属性若以有固定收入为分裂属性若以 VIP 为分裂属性以年龄作为分裂属性所得信息增益最大叶子节点 ID3的主要缺点 ID3算法只能处理分类属性离散属性而不能处理连续属性数值属性在处理连续属性时一般要先将连续属性划分为多个区间转化为分类属性例如年龄要把数值事先转换为诸如小于30岁 30至50岁大于50岁这样的区间再根据年龄值落入了某一个区间取相应的类别值通常区间端点的选取包含着一定的主观因素 ID3生成的决策树是一棵多叉树分支的数量取决于分裂属性有多少个不同的取值这不利于处理分裂属性取值数目较多的情况因此目前流行的决策树算法大多采用二叉树模型 ID3是采用信息增益来选择分裂属性的虽然这是一种有效的方法但其具有明显的倾向性即它倾向于选择具有大量不同取值的属性从而产生许多小而纯的子集尤其是关系数据库中作为主键的属性每一个样本都有一个不同的取值如果以这样的属性作为分裂属性那么将产生非常多的分支而且每一个分支产生的子集的熵均为0 因为子集中只有一个样本显然这样的决策树是没有实际意义的因此 Quinlan提出使用增益比例来代替信息增益 3 2 2C4 5 设S代表训练数据集由s个样本组成 A是S的某个属性有m个不同的取值根据这些取值可以把S划分为m个子集 Si表示第i个子集 i 1 2 m Si 表示子集Si中的样本数量那么称为数据集S关于属性A的熵用来衡量属性A分裂数据集的广度和均匀性样本在属性A上的取值分布越均匀 Split Info S A 的值就越大增益比例的定义为增益比例消除了选择那些值较多且均匀分布的属性作为分裂属性的倾向性连续属性的处理设属性Y有m个不同的取值按大小顺序升序排列为v1vi 将数据集划分为两个部分形成两个分支显然 v1 v2 vm 1 就是可能的阈值的集合共 m 1 个元素把这些阈值一一取出来并根据 Y vi 和 Y vi 把训练数据集划分为两个子集并计算每一种划分方案下的信息增益或增益比例选择最大增益或增益比例所对应的那个阈值作为最优的阈值可以看出如果选择连续属性作为分裂属性则分裂后只有两个分支而不象离散属性那样可能会有多个分支由离散属性的取值个数决定如果要计算年龄属性的信息增益则首先将不同的属性值排序 20 25 28 40 46 55 56 58 60 65 70 那么可能的阈值集合为 20 25 28 40 46 55 56 58 60 65 70 从中一一取出并形成分裂谓词例如取出 20 形成谓词 20 和 20 用它们划分训练数据集然后计算信息增益或增益比例处理有缺失值的样本 C4 5并不会武断地将一个有缺失值的样本抛弃也不会随意地将它分配到某个类别中去收入水平的值取为高的概率为3 12 取为中的概率为5 12 取为低的概率为4 12 S1 收入水平高的样本数量为 3 2 3 12 3 2 4C5 0算法 C5 0是经典的决策树模型的算法之一可生成多分支的决策树目标变量为分类变量使用c5 0算法可以生成决策树 decisiontree 或者规则集 rulesets C5 0模型根据能够带来最大信息增益 informationgain 的字段拆分样本第一次拆分确定的样本子集随后再次拆分通常是根据另一个字段进行拆分这一过程重复进行直到样本子集不能再被拆分为止最后重新检验最低层次的拆分那些对模型值没有显著贡献的样本子集被剔除或者修剪 C5 0的优点优点 C5 0模型在面对数据遗漏和输入字段很多的问题时非常稳健 C5 0模型通常不需要很长的训练次数进行估计 C5 0模型比一些其他类型的模型易于理解模型推出的规则有非常直观的解释 C5 0也提供强大的增强技术以提高分类的精度 C5 0算法选择分支变量的依据以信息熵的下降速度作为确定最佳分支变量和分割阀值的依据信息熵的下降意味着信息的不确定性下降举例在Clementine中应用C5 0 这里以学生参加某次社会公益活动的数据文件名为Students xls 为例讲解C5 0算法的具体实现操作分析目标是研究那些因素将显著影响到学生参与社会公益活动其中是否参加为输出变量除编号以外的变量均为输入变量数据流如下一建立模型第一步建立数据源第二步选择Modeling卡中的C5 0节点并将其连接到恰当位置鼠标右击该节点弹出下面窗口模型名称 Modelname 输出类型 Outputtype 此处指定希望最终生成的模型是决策树还是规则集群体字符 Groupsymbolics 如果选择该选项 C5 0会尝试将所有与输出字段格式相似的字符值合并如果没有选择该选项 C5 0会为用于拆分母节点的字符字段的每个值创建一个子节点使用自举法 Useboosting 提高其精确率这种方法按序列建立多重模型第一个模型以通常的方式建立随后建立第二个模型聚焦于被第一个模型错误分类的记录以此类推最后应用整个模型集对样本进行分类使用加权投票过程把分散的预测合并成综合预测 TheNumberoftrials选项允许控制用于助推的模型数量交叉验证 Cross validate 如果选择了该选项 C5 0将使用一组基于训练数据子集建立的模型来估计基于全部数据建立的模型的精确度如果数据集过小不能拆分成传统意义上的训练集和测试集这将非常有用或用于交叉验证的模型数目模式 Mode 对于简单的训练绝大多数C5 0参数是自动设置高级训练模式选项允许对训练参数更多的直接控制简单模式选项 simple 偏好 Favor 在accuracy下 C5 0会生成尽可能精确的决策树在某些情况下这会导致过度拟和选择Generality 一般化项以使用不易受该问题影响的算法设置期望噪声百分数 Expectednoise 指定训练集中的噪声或错误数据期望比率高级模式选项修剪纯度 pruningseverity 决定生成决策树或规则集被修剪的程度提高纯度值将获得更小更简洁的决策树降低纯度值将获得更加精确的决策树子分支最少记录数 Minimumrecordsperchildbranch 子群大小可以用于限制决策树任一分支的拆分数只有当两个或以上的后序子分支包括来自训练集的记录不少于最小记录数决策树才会继续拆分默认值为2 提高该值将有助于避免噪声数据的过度训练全局修剪 Useglobalpruning 第一阶段局部修建第二阶段全局修剪排除属性 Winnowattributes 如果选择了该选项 C5 0会在建立模型前检验预测字段的有用性被发现与分析无关的预测字段将不参与建模过程这一选项对有许多预测字段元的模型非常有用并且有助于避免过度拟和图1指定错误归类损失错误归类损失允许指定不同类型预测错误之间的相对重要性错误归类损失矩阵显示预测类和实际类每一可能组合的损失所有的错误归类损失都预设设置为1 0 要输入自定义损失值选择Usemisclassificationcosts 然后把自定义值输入到损失矩阵中具体设置执行结果二预测结果为观测C5 0对每个样本的预测结果可在流管理器的Models卡中鼠标右击C5 0模型结果选择弹出菜单中的AddToStream 并将模型结果连接到数据流中然后连接Table节点查看预测结果如下图所示三 C5 0模型评价 3 3CART 分类和回归树 ClassificationandRegressionTrees CART 在Clementine中简写为C RT CART算法中的每一次分裂把数据分为两个子集每个子集中的样本比被划分之前具有更好的一致性它是一个递归的过程也就是说这些子集还会被继续划分这个过程不断重复直到满足终止准则然后通过修剪和评估得到一棵最优的决策树三个步骤生成最大树生成一棵充分生长的最大树树的修剪根据修剪算法对最大树进行修剪生成由许多子树组成的子树序列子树评估从子树序列中选择一棵最优的子树作为最后的结果 3 3 1生成最大树标准问题集就某个给定的属性来说由于属性的取值可能有很多个所以按照这个属性来分裂数据集的方式也有很多种属性的标准问题集就是所有候选分支方案的集合连续属性的标准问题集离散属性的标准问题集杂度在ID3算法中用熵来度量数据集随机性的程度在CART中我们把这种随机性的程度称为杂度 impurity 也称为不纯度并且用吉尼 gini 指标来衡量它吉尼指标设t是决策树上的某个节点该节点的数据集为S 由s个样本组成其类标号属性具有m个不同的取值即定义了m个不同的类Ci i 1 2 m 设属于类Ci的样本的个数为si 那么这个节点的吉

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第3章_分类与决策树.ppt

文档简介

温馨提示

最新文档

评论

第3章_分类与决策树.ppt

文档简介

温馨提示

最新文档

评论

相关文档