第三周决策树和Boosting-ToStu.ppt

上传人：努*** IP属地：江西上传时间：2019-12-28 格式：PPT 页数：43 大小：484KB 积分：9.6 举报 版权申诉

已阅读5页，还剩38页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1 分类基本概念分类基本概念决策树基于规则分类贝叶斯分类方法提高分类准确率的技术小结 2 什么是分类分类分类器银行贷款员需要分析数据以便搞清楚哪些贷款申请者是安全的医学研究人员分析癌症数据以便选择治疗方案数据分析任务都是分类都需要构造一个分类器来预测类标号数值预测预测器销售经理希望预测一位给定的顾客在双11的一次购物期间将花多少钱数据分析任务就是数值预测所构造的模型预测器预测一个连续值函数或有序值而不是类标号 3 分类预测类标号离散的或标称的基于训练集和类标号构建分类器并对新的数据进行分类数值预测所构造的模型预测一个连续值函数而不是类标号典型应用信用卡贷款批准医疗诊断肿瘤是良性的还是恶性的欺诈检测一次交易是否是欺诈的网页分类属于哪一类预测问题分类与数值预测 4 分类一个两阶段过程两阶段学习阶段构建分类模型和分类阶段使用模型预测给定数据的类标号分类模型构建学习阶段描述预先定义的类假设每个元组都属于一个预先定义的类由类标号属性确定类标号属性是离散值的和无序的用于模型构建的元组集合称为训练集模型用分类规则决策树或数学公式表示模型使用分类阶段用于分类未知对象评估模型的准确性检验样本的已知标签与模型的分类结果比较准确率是被模型正确分类的检验样本所占的百分比检验集是独立于训练集的否则过分拟合如果准确性是可接受的则使用模型来分类新的数据 5 监督和无监督学习监督学习分类监督提供了每个训练元组的类标号即分类器的学习在被告知每个训练元组属于哪个类的监督下进行的新的数据基于训练集被分类无监督学习聚类每个训练元组的类标号是未知的要学习的类的个数或集合也可能事先不知道 6 阶段 1 模型构建训练数据分类算法 IFrank professor ORyears 6THENtenured yes 分类器模型学习用分类算法分析训练数据 7 阶段 2 使用模型预测分类器检验数据新数据 Jeff Professor 4 Tenured 分类检验数据用于评估分类规则的准确率 8 分类基本概念分类基本概念决策树基于规则分类贝叶斯分类方法提高分类准确率的技术小结 9 决策树从有类标号的训练元组中学习决策树树结构每个内部结点非树叶结点表示在一个属性上的测试每个分枝代表该测试的一个输出每个树叶结点存放一个类标号树的最顶层结点是根结点如何使用决策树分类给定一个类标号未知的元组X 在决策树上测试该元组的属性值跟踪一条由根到叶结点的路径该叶结点就存放着该元组的类预测 10 决策树归纳一个例子训练数据集 Buys computer决策树 11 决策树归纳算法基础算法贪心算法决策树以自顶向下递归的分治方式构造从训练元组集和它们相关联的类标号开始构造决策树所有属性是具有类别的如果是连续数值型的则它们需要事先离散化基于选择的属性对元组进行递归划分测试属性基于统计学度量来选择例如信息增益停止划分的条件给定结点的所有元组都属于同一个类没有剩余属性可以用来进一步划分元组给定的分枝没有元组算法基本策略三个参数 D为数据分区开始时它是训练元组和它们相应类标号的完全集参数attribute list是描述元组属性的列表参数Attribute selection method用来选择可以按类最好地区分给定元组的属性该过程使用一种属性选择度量信息增益或基尼指数树从单个结点N开始 N代表D中的训练元组如果D中的元组都为同一类则结点N变成树叶并用该类标记它否则算法调用Attribute selection method确定分裂准则分裂准则指定分裂属性并且也指出分裂点或分裂子集对分裂准则的每个输出由结点N生长一个分枝根据分裂属性A的类型有三种可能的情况A是离散值的结点N的测试输出直接对应于A的已知值A是连续值的结点N的测试有两个可能的输出分别对应于条件Asplit point 其中split point是分裂点A是离散值并且必须产生二叉树在结点N的测试形如 A SA 其中SA是A的分裂子集算法 Generate decision tree 由数据分区D中的训练元组产生决策树输入数据分区D 训练元组和他们对应类标号的集合attribute list 候选属性的集合 Attribute selection method 一个确定最好地划分数据元组为个体类的分裂准则的过程这个准则由分裂属性 splitting attribute 和分裂点或划分子集组成输出一棵决策树方法 1 创建一个结点N 2 ifD中的元组都在同一类C中then 3 返回N作为叶结点以类C标记 4 ifattribute list为空then 5 返回N作为叶结点标记为D中的多数类多数表决 6 使用Attribute selection method D attribute list 找出最好的 splitting criterion 7 用splitting criterion标记结点N 8 ifsplitting attribute是离散值的并且允许多路划分then 不限于二叉树 9 从attribute list中删除分裂属性 10 forsplitting criterion的每个输出j 划分元组并对每个分区产生子树 11 设Dj是D中满足输出j的数据元组的集合一个分区 12 ifDj为空then 13 加一个树叶到结点N 标记为D中的多数类 14 else加一个由Generate decision tree Dj attribute list 返回的结点到N endfor 15 返回N 14 属性选择度量信息增益 ID3 C4 5 符号定义设数据分区D为标记类元组的训练集假定类标号属性具有m个不同值定义m个不同类设Ci D是D中Ci类元组的集合选择具有最高信息增益的属性A作为结点N的分裂属性对D中的元组分类所需要的期望信息由下式给出基于按A划分对D的元组分类所需要的期望信息按属性A划分的信息增益 Pi用 Ci D D 估计 15 属性选择信息增益 ClassP buys computer yes ClassN buys computer no 意思为14个样本中有5个 age 30 的人其中2个为 Yes 3个为 No 因此类似地 16 计算连续值属性的信息增益假设A是一个连续值属性必须确定A的最佳分裂点首先将A的值按递增顺序排序每对相邻值的中点被看做可能的分裂点 ai ai 1 2是A的值ai和ai 1之间的中点对于A的每个可能分裂点计算InfoA D 具有最小期望信息需求的点选做A的分裂点分裂 D1是满足A split point的元组集合而D2是满足A split point的元组集合 17 属性选择增益率 C4 5 信息增益度量倾向于选择具有大量值的属性C4 5 ID3的后继采用增益率来克服这个问题规范化信息增益 GainRatio A Gain A SplitInfo A Ex gain ratio income 0 029 1 557 0 019具有最大增益率的属性作为分裂属性 18 基尼指数 CART 如果一个数据集D包含n个类则D的基尼指数定义为其中pj是D中元组属于类j的概率并用 Ci D D 估计如果数据集D基于属性A被划分成两个子集D1和D2 则基尼指数定义为不纯度降低对于离散值属性选择该属性产生最小基尼指数的子集作为它的分裂子集对于连续值属性选择产生最小基尼指数的点作为分裂点产生最小基尼指数或最大不纯度降低的属性选为分裂属性 19 基尼指数的计算例如数据集D有9个buys computer yes 的元组和5个 no 的元组假设按income属性子集 low medium 将数据集划分为D1 10个元组和D2 4个元组 Gini low high 是0 458 Gini medium high 是0 450 因此在income的子集 low medium 上划分因为它的基尼指数最小 20 过分拟合与树剪枝过分拟合树创建时由于数据中的噪声和离群点会过分拟合训练数据有很多分枝一些是由于噪声和离群点导致的异常预测准确率下降两种方法来避免过分拟合先剪枝如果划分一个结点后的元组低于预定义阈值则提前停止树的构建选取一个适当的阈值是困难的后剪枝由完全生长的树剪去子树用回溯方式去除树的一些点Useasetofdatadifferentfromthetrainingdatatodecidewhichisthe bestprunedtree 21 分类基本概念分类基本概念决策树基于规则分类贝叶斯分类方法提高分类准确率的技术小结 22 使用IF THEN规则分类以IF THEN规则的形式表示学习得到的模型R IFage youthANDstudent yesTHENbuys computer yes IF 部分称为规则前件或前提 THEN 部分称为规则的结论在规则前件条件由一个或多个用逻辑连接词AND连接的属性测试组成规则的结论包含一个类预测对于给定的元组如果规则前件中的条件都成立则规则覆盖了该元组规则的评价覆盖率和准确率ncovers表示规则R覆盖的元组数ncorrect表示规则R正确分类的元组数coverage R ncovers D D 训练数据集 accuracy R ncorrect ncovers 23 使用IF THEN规则分类如何使用基于规则的分类来预测给定元组X的类标号如果规则被X满足则称该规则被触发例如 X age youth income medium student yes credit rating fair X满足规则R 触发该规则如果R是唯一满足的规则则该规则激活返回X的类预测注意触发并不总意味激活因为可能有多个规则被满足如果多个规则被触发则需要解决冲突规模序把最高优先权赋予具有最苛刻要求的被触发的规则即具有最多属性测试的规则序预先确定规则的优先次序基于类的序按类的普遍性降序排序基于规则的序决策表根据规则质量的度量规则被组织成一个优先权列表最先出现在决策表中的被触发的规则具有最高优先权因此激活它的类预测 24 例子从buys computer决策树提取规则R1 IFage youngANDstudent noTHENbuys computer noR2 IFage youngANDstudent yesTHENbuys computer yesR3 IFage mid ageTHENbuys computer yesR4 IFage oldANDcredit rating excellentTHENbuys computer noR5 IFage oldANDcredit rating fairTHENbuys computer yes 由决策树提取规则与决策树相比 IF THEN规则可能更容易理解尤其是当决策树非常大时对每条从根到树叶结点的路径创建一个规则给定路径上的每个分裂准则的逻辑AND形成规则的前件 IF 部分存放类预测的树叶结点形成规则的后件 THEN 部分规则是互斥的和穷举的 25 规则归纳顺序覆盖算法顺序覆盖算法直接从训练集中提取规则典型的顺序覆盖算法 FOIL AQ CN2 RIPPER规则被顺序地学习给定类的每个规则覆盖该类的许多元组并且希望不覆盖其他类的元组步骤一次学习一个规则每学习一个规则就删除该规则覆盖的元组在剩下的元组上重复该过程直到满足终止条件例如不再有训练元组或返回规则的质量低于用户指定的阈值与决策树对比决策树归纳是同时学习一组规则 26 基本顺序覆盖算法算法顺序覆盖学习一组IF THEN分类规则输入 D 类标记元组的数据集合 Att vals 所有属性与它们可能值的集合输出 IF THEN规则的集合方法 Rule set 学习的规则集初始为空for每个类cdorepeatRule Learn One Rule D Att vals c 从D中删除被Rule覆盖的元组 until终止条件满足 Rule set Rule set Rule 将新规则添加到规则集endfor返回Rule set 27 如何Learn One Rule 从最一般的规则开始 condition empty 条件为空通过采用一种贪心的深度优先策略添加新的属性选择最能提高规则质量的属性规则质量度量同时考虑覆盖率和准确率Foil gain inFOIL RIPPER 用下式估计扩展条件而获得的信息偏向于具有高准确率并且覆盖许多正元组的规则 28 分类基本概念分类基本概念决策树基于规则分类贝叶斯分类方法提高分类准确率的技术小结 29 贝叶斯定理基础贝叶斯定理 X表示数据元组类标号未知H为某种假设如数据元组X属于某个特定类C分类是确定P H X 即后验概率在条件X下 H的后验概率例如 X是一位35岁的顾客其收入为4万美元令H为某种假设如顾客将购买计算机则P H X 反映当我们知道顾客的年龄和收入时顾客X将购买计算机的概率 P H 先验概率 H的先验概率如任意给定顾客将购买计算机的概率P X X的先验概率如顾客集合中的年龄为35岁并且收入为4万美元的概率P X H 在条件H下 X的后验概率例如已知顾客X将购买计算机该顾客是35岁并且收入为4万美元的概率 30 分类就是导出最大后验概率设D是训练元组和它们相关联的类标号的集合每个元组用一个n维属性向量X x1 x2 xn 表示假定有m个类C1 C2 Cm 分类法将预测X属于具有最高后验概率的类即最大的P Ci X 如果P Ci X 在所有k个类的P Ck X 中最大则预测X属于类Ci每个类的后验概率可根据以下贝叶斯定理计算得到由于P X 对所有类为常数所以只需要最大化 31 朴素贝叶斯分类简单假定属性有条件地相互独立即属性之间不存在依赖关系如果Ak是分类属性则P xk Ci 是D中属性Ak的值为xk的Ci类的元组数除以D中Ci类的元组数 Ci D 如果Ak是连续值属性 P xk Ci 通常基于均值和标准差的高斯分布计算假定连续值属性服从均值为标准差为的高斯分布由下式定义 32 朴素贝叶斯分类 Class C1 buys computer yes C2 buys computer no 待分类数据 X age 30 Income medium Student yes Credit rating Fair 33 朴素贝叶斯分类例子 P Ci P buys computer yes 9 14 0 643P buys computer no 5 14 0 357为每个类计算P X Ci P age 30 buys computer yes 2 9 0 222P age 30 buys computer no 3 5 0 6P income medium buys computer yes 4 9 0 444P income medium buys computer no 2 5 0 4P student yes buys computer yes 6 9 0 667P student yes buys computer no 1 5 0 2P credit rating fair buys computer yes 6 9 0 667P credit rating fair buys computer no 2 5 0 4X age 30 income medium student yes credit rating fair P X Ci P X buys computer yes 0 222x0 444x0 667x0 667 0 044P X buys computer no 0 6x0 4x0 2x0 4 0 019P X Ci P Ci P X buys computer yes P buys computer yes 0 028P X buys computer no P buys computer no 0 007因此 X属于类 buys computer yes 34 避免零概率问题朴素贝叶斯分类预测需要每个条件概率是非零的否则预测概率将会为零例如假设一个具有1000个元组的数据集 income low 0 income medium 990 和income high 10 使用拉普拉斯校准或拉普拉斯估计法每个组元组数加1Prob income low 1 1003Prob income medium 991 1003Prob income high 11 1003 校准的概率估计与对应的未校准的估计很接近 35 朴素贝叶斯分类评价优点易于实施大部分情况下可以获得好的结果缺点假设类条件独立因此损失准确性实际中属性之间经常存在依赖性属性之间存在依赖的情况不能通过朴素贝叶斯分类建模怎么处理这些依赖性贝叶斯信念网络 36 分类基本概念分类基本概念决策树基于规则分类贝叶斯分类方法提高分类准确率的技术小结组合方法提高分类准确率组合方法把k个学习得到的模型 M1 M2 Mk 组合在一起旨在创建一个改进的复合分类模型M 流行的组合方法装袋在一组分类器上平均预测提升基于一组分类器的加权表决 37 给定一个待分类元组X 它收集由基分类器返回的类标号预测并输出占多数的类装袋自助聚集类似基于多个医生多数表决的诊断训练每次迭代i d个元组的训练集Di采用有放回抽样从原始数据集D抽取从每个训练集Di学习一个分类器模型Mi分类对一个未知元组X分类每个分类器Mi返回它的类预测装袋分类器M 统计得票并将得票最高的类赋予X预测通过取给定元组的每个预测的平均值装袋也可以用于连续值的预测

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第三周决策树和Boosting-ToStu.ppt

文档简介

温馨提示

最新文档

评论

第三周决策树和Boosting-ToStu.ppt

文档简介

温馨提示

最新文档

评论

相关文档