数据挖掘PPT课件_第1页
数据挖掘PPT课件_第2页
数据挖掘PPT课件_第3页
数据挖掘PPT课件_第4页
数据挖掘PPT课件_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第八章:分类,分类,贝叶斯分类法贝叶斯定理朴素贝叶斯定理基于规则的分类提高分类准确率的技术,.,.,贝叶斯定理,贝叶斯定理X:数据元组,用n个属性集的测量值描述。H:某种假设,P():后验概率()P(H):先验概率(priorprobability)P(X/H):条件H下,X的后验概率。P(X):X的先验概率如何估计这些概率?P(X)、P(H)、P(X/H)由给定的数据估计。则,朴素贝叶斯()分类朴素贝叶斯分类法是一种简单贝叶斯分类法,其假定一个属性值在给定类上的影响独立于其他属性的值,这一假定称为类条件独立。,.,朴素贝叶斯分类,.,希望分类的元组,朴素贝叶斯分类,.,朴素贝叶斯分类,朴素贝

2、叶斯分类法的工作工程如下:,.,朴素贝叶斯分类,.,朴素贝叶斯分类,.,朴素贝叶斯分类,零值问题的解决,.,朴素贝叶斯分类,增量:每次训练的样本可以逐步增加/减少一个假设是正确的可能性先验知识可与观测数据相结合,.,优点:高准确率,高速度缺点:类条件独立性损失精度,朴素贝叶斯分类方法,分类,贝叶斯分类法基于规则的分类使用IFTHEN规则分类由决策树提取规则使用顺序覆盖算法的规则归纳提高分类准确率的技术,.,基于规则的分类,基于规则的分类器使用一组规则表示。规则的表达形式:,.,基于规则的分类,.,覆盖率和准确率是用来评估的标准:,基于规则的分类,假设有:,.,根据buys_computer对分

3、类。触发:如果规则被满足,则称该规则被触发,激活:如果是唯一满足的规则,则该规则激活,解决多个规则被触发冲突的策略:,基于规则的分类,解决不存在满足的问题:建立一个省却或默认规则默认规则的条件为空,当且仅当没有其他规则覆盖时,最后才使用默认规则。,.,基于规则的分类,由决策树提取规则,.,基于规则的分类,由决策树提取规则,.,决策树提取规则的方法:对每条从根到树叶节点的路径创建一个规则沿着给定路径上的每个分裂准则的逻辑形成规则的前件存放类预测的树叶结点形成规则的后件,基于规则的分类,使用顺序覆盖算法()的规则归纳,.,对剩下的元组重复该过程直到终止条件,基于规则的分类,.,基于规则的分类,规则

4、从一般到特殊的方式增长,成束状搜索()采用一种贪心的深度优先策略,.,基于规则的分类,规则质量度量准确率基于信息增益一阶归纳学习器(),.,基于规则的分类,统计显著性检验似然率统计量(),.,分类,贝叶斯分类法基于规则的分类提高分类准确率的技术组合分类方法简介装袋提升和AdaBoost随机森林提高类不平衡数据的分类准确性,.,提高分类准确率的技术,组合分类方法()简介组合分类器是一个复合模型,由多个分类器组合而成,基于投票返回类标号预测。常见的组合分类器有装袋、提升、随机森林,.,提高分类准确率的技术,装袋(bagging)训练,.,预测:每个分类器预测值的平均值,提高分类准确率的技术,.,提高分类准确率的技术,提升(boosting)和Adaboost(),.,提高分类准确率的技术,Adaboost是一种流行的提升算法,.,元组错误分类的权重和,.,提高分类准确率的技术,随机森林(RandomFore

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论