数据挖掘技术十课Bayes分类方法.ppt_第1页
数据挖掘技术十课Bayes分类方法.ppt_第2页
数据挖掘技术十课Bayes分类方法.ppt_第3页
数据挖掘技术十课Bayes分类方法.ppt_第4页
数据挖掘技术十课Bayes分类方法.ppt_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘技术 第十课 Bayes分类方法,主要内容,朴素Bayes分类 Bayes网络 集成方法,Bayes分类器,一个用于解决分类问题的概率框架 条件概率: Bayes定理:,Bayes定理举例,给定: 50%的脑膜炎患者脖子僵硬 人得脑膜炎的概率是1/50,000 脖子僵硬的人的概率是 1/20 若某个患者脖子僵硬,则他患脑膜炎的概率是多少?,Bayes分类器,将每个属性及类别标记视为随机变量 给定一个具有属性集合(A1, A2,An)的记录 目标是预测类别属性C 具体而言,要寻找使得P(C| A1, A2,An )最大的类别C,Bayes分类器,方法: 利用Bayes定理计算所有类别C的后验概率P(C | A1, A2, , An) 选择使如下概率值最大的类别C P(C | A1, A2, , An) 等价于使如下概率值最大 P(A1, A2, , An|C) P(C),朴素Bayes分类器,假定给定类别的条件下属性Ai之间是独立的: P(A1, A2, , An |C) = P(A1| Cj) P(A2| Cj) P(An| Cj) 可以从Ai和Cj中估算出P(Ai| Cj) 类别为使P(Cj) P(Ai| Cj)最大的类Cj,如何从数据中估算概率,类: P(C) = Nc/N e.g., P(No) = 7/10, P(Yes) = 3/10 对离散属性k: P(Ai | Ck) = |Aik|/ Nc 其中|Aik|是属于类Ck,并具有属性值Ai的记录数量 如: P(Status=Married|No) = 4/7 P(Refund=Yes|Yes)=0,如何从数据中估算概率,对连续属性: 将区间离散化至不同的桶 违背了独立性假设 2路分割: (A v) 或 (A v) 概率密度估计: 假设属性的取值服从正态分布 使用已有数据来估算分布的参数(如, 均值和方差) 若概率分布已知,则使用其来估算条件概率P(Ai|c),如何从数据中估算概率,正态分布: 对(Income, Class=No): 若Class=No sample mean = 110 sample variance = 2975,朴素Bayes分类举例,P(X|Class=No) = P(Refund=No|Class=No) P(Married| Class=No) P(Income=120K| Class=No) = 4/7 4/7 0.0072 = 0.0024 P(X|Class=Yes) = P(Refund=No| Class=Yes) P(Married| Class=Yes) P(Income=120K| Class=Yes) = 1 0 1.2 10-9 = 0 Since P(X|No)P(No) P(X|Yes)P(Yes) Therefore P(No|X) P(Yes|X) = Class = No,给定一条测试记录:,朴素Bayes分类举例,A: attributes M: mammals N: non-mammals,P(A|M)P(M) P(A|N)P(N) = Mammals,朴素Bayes分类器小结,抗噪声能力强 在概率估算阶段,通过忽略整条记录来处理缺失值 抗无关属性的能力强 属性独立的假设可能对某些属性不成立 可以使用Bayes信度网络(Bayesian Belief Networks, BBN),主要内容,朴素Bayes分类 Bayes网络 集成方法,Bayes网络,20世纪80年代,Bayes网络(Bayes Network)成功应用于专家系统,成为表示不确定性专家知识和推理的一种流行的方法。 在不确定性表示、可信度计算上还是使用概率方法。 实现时,要根据应用背景采用近似计算方法。,事件的独立性,独立:如果X与Y相互独立,则 P(X,Y) = P(X)P(Y) P(X|Y) = P(X) 条件独立:如果在给定Z的条件下,X与Y相互独立,则 P(X|Y, Z) = P(X|Z) 实际中,条件独立比完全独立更普遍,联合概率,联合概率:P(X1, X2, , XN) 如果相互独立: P(X1, X2, , XN) = P(X1) P(X2) P(XN) 条件概率: P(X1, X2, , XN) = P(X1|X2, , XN) P(X2, , XN) 迭代表示: P(X1, X2, , XN) = P(X1) P(X2| X1) P(X3| X2X1)P(XN|XN-1, , X1) = P(XN) P(XN-1| XN) P(XN-2| XN-1XN)P(X1|X2, , XN) 实际应用中就是利用条件独立来简化网络。,Bayes网络,一系列变量的联合概率分布的图形表示。 一个表示变量之间相互依赖关系的数据结构,图论与概率论的结合。,Bayes网络(续),两部分 结构图,有向无环图(Directed Acyclic Graph, DAG),每个节点代表相应的变量。 条件概率表(Conditional Probability Table, CPT),一系列的概率值,表示局部条件概率分布,即P(node|parents) 。,Bayes网络的构造,选择变量,生成节点 从左至右(从上到下),排列节点 填充网络连接弧,表示节点之间的关系 得到条件概率关系表 条件概率表示的概率网络有时叫“Belief Nets”,由Bayes网络计算概率,简单的联合概率可以直接从网络关系上得到,如: P(X, Y, Z) = P(X)P(Y)P(Z|X, Y),Bayes网络举例,假设: 命题S(Smoker):该患者是一个吸烟者 命题C(Coal Miner):该患者是一个煤矿矿井工人 命题L(Lung Cancer):他患了肺癌 命题E(Emphysema):他患了肺气肿 已知:S对L和E有因果影响,C对E也有因果影响。 命题间的关系可以描绘成Bayes网络。 每个节点代表一个证据 每一条弧代表一条规则(假设) 弧表达了由规则给出的、节点间的直接因果关系。,Bayes网络举例,CPT表为: P(S) = 0.4 P(C) = 0.3 P(E|S, C) = 0.9 P(E|S, C) = 0.3 P(E|S, C) = 0.5 P(E|S, C) = 0.1,Bayes网络举例(续),上图例中的联合概率密度为 变量与它在图中的非继承节点在是概率独立的。 P(E|S,C,L) P(E|S,C) (E与L在S条件下独立) P(L|S,C)= P(L|S) (L与C在S, E条件下独立) P(C|S)=P(C) (C与S在E条件下独立) 简化后的联合概率密度为:,Bayes网络的推理,主要用于因果推理和诊断推理 由因导果,P(肺癌|吸烟) 执果索因,P(吸烟|肺癌) 一般情况下是很困难的,原因 不是所有的CPT表都能够得到 网络结构大且复杂,NP-hard问题,Bayes网络的因果推理,已知父节点,计算子节点的条件概率。 主要操作: 重新表达所求的条件概率。 直到所有的概率值可从CPT中得到,推理完成。,因果推理举例,给定患者是一个吸烟者(S),计算他患肺气肿(E)的概率P(E|S)。,首先,引入E的另一个父节点(C),P(E|S)=P(E,C|S)+P(E,C|S) 右边的第一项 , P(E,C|S)P(E,C,S)/P(S)P(E|C,S)*P(C,S)/P(S)P(E|C,S)*P(C) 同理可得右边的第二项为:P(E,C|S) = P(E|C,S)*P(C)。 由此可得:P(E|S) = P(E| C,S)*P(C)+P(E|C,S)*P(C) P(C) = 1 P(C),则有: P(E|S)0.9*0.3+0.3*(1-0.3)=0.48,Bayes网络的诊断推理,在Bayes网中,从一个子节点出发计算父节点的条件概率,即从结果推测起因。 主要操作:使用Bayes公式把诊断推理转换成因果推理。,诊断推理举例,计算在不得肺气肿的人中,不是矿工的概率,即P(C|E)。,P(C|E) = P(E|C)*P(C)/P(E) 由因果推理可知: P(E|C) = P(E, S|C)+P(E, S|C) = P (E|S,C)P(S)+P (E|S,C)P(S) = (10.3)*0.4+(10.1)* (10.4)=0.82 由此得:P(C|E) = P(E|C)*P(C) / P(E) = 0.82*(10.3) / P(E)=0.574/ P(E) 同样, P(C|E) = P(E|C)*P(C) / P(E)=0.102 / P(E) 由于全概率公式, P(C|E)+ P(C|E)=1 代入得, P(E)=0.676 所以, P(C|E) = 0.849,Bayes方法预测2010世界杯,World Cup Group C,England beating Argentina,/,主要内容,朴素Bayes分类 Bayes网络 集成方法,集成方法(Ensemble),从训练数据中构建一系列的分类器。 使用多个分类器共同分类。,核心思想,为什么使用集成方法,假设有25个基本的2分类器 每个分类器具有同样的错误率 = 0.35 假定这些分类器是互相独立的 则Ensemble方法出错的概率为:,集成方法优于单个分类器的条件,基本分类器相互独立 基本分类器的正确率优于随机猜测。,常用的集成方法,如何构造集成分类器 Bagging Boosting,Bagging: 基本算法,给定S个样本。 在S中做有替代的抽样,其结果记为T,S中原来的样本在T中可出现多次,也可一次都不出现。 重复这种抽样,得到k个独立的训练集。 使用同样的算法在这些训练集上构建k个分类器C1, C2, , Ck。 对一个待分类样本i,每个分类器都独立对其进行分类。 样本i的类别标记为大多数分类器给出的类别。,Bo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论