贝叶斯决策理论2726524.ppt_第1页
贝叶斯决策理论2726524.ppt_第2页
贝叶斯决策理论2726524.ppt_第3页
贝叶斯决策理论2726524.ppt_第4页
贝叶斯决策理论2726524.ppt_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章贝叶斯决策理论 贝叶斯分类器正态分布决策理论关于分类的错误率分析最小风险Bayes分类器 Bayes分类器算法和例题聂曼 皮尔逊判别准则最大最小判别准则决策树序贯分类 对x再观察 有细胞光密度特征 有类条件概率密度 P x 1 2 如图所示利用贝叶斯公式 通过对细胞的再观察 就可以把先验概率转化为后验概率 利用后验概率可对未知细胞x进行识别 第四章贝叶斯决策理论 4 1Bayes分类器 最优分类器 最佳分类器一 两类问题例如 细胞识别问题 1正常细胞 2异常细胞某地区 经大量统计获先验概率P 1 P 2 若取该地区某人细胞x属何种细胞 只能由先验概率决定 设N个样本分为两类 1 2 每个样本抽出n个特征 x x1 x2 x3 xn T 通过对细胞的再观察 就可以把先验概率转化为后验概率 利用后验概率可对未知细胞x进行识别 1 判别函数 若已知先验概率P 1 P 2 类条件概率密度P x 1 P x 2 则可得贝叶斯判别函数四种形式 2 决策规则 3 决策面方程 x为一维时 决策面为一点 x为二维时决策面为曲线 x为三维时 决策面为曲面 x大于三维时决策面为超曲面 例 某地区细胞识别 P 1 0 9 P 2 0 1未知细胞x 先从类条件概率密度分布曲线上查到 解 该细胞属于正常细胞还是异常细胞 先计算后验概率 P x 1 0 2 P x 2 0 4 4 分类器设计 二 多类情况 1 2 m x x1 x2 xn 1 判别函数 M类有M个判别函数g1 x g2 x gm x 每个判别函数有上面的四种形式 2 决策规则 另一种形式 3 决策面方程 4 分类器设计 4 2正态分布决策理论一 正态分布判别函数1 为什么采用正态分布 a 正态分布在物理上是合理的 广泛的 b 正态分布数学上简单 N 只有均值和方差两个参数 2 单变量正态分布 3 多变量 多维正态分布 1 函数形式 2 性质 与 对分布起决定作用P N 由n个分量组成 由n n 1 2元素组成 多维正态分布由n n n 1 2个参数组成 等密度点的轨迹是一个超椭球面 区域中心由 决定 区域形状由 决定 不相关性等价于独立性 若xi与xj互不相关 则xi与xj一定独立 线性变换的正态性Y AX A为线性变换矩阵 若X为正态分布 则Y也是正态分布 线性组合的正态性 判别函数 最小距离分类器 未知x与 i相减 找最近的 i把x归类 如果M类先验概率相等 讨论 未知x 把x与各类均值相减 把x归于最近一类 最小距离分类器 2 第二种情况 i 相等 即各类协方差相等 讨论 针对 1 2二类情况 如图 3 第三种情况 一般情况 为任意 各类协方差矩阵不等 二次项xT x与i有关 所以判别函数为二次型函数 4 3关于分类器的错误率分析1 一般错误率分析 2 正态分布最小错误率 在正态分布情况下求最小错误率 4 4最小风险Bayes分类器假定要判断某人是正常 1 还是肺病患者 2 于是在判断中可能出现以下情况 第一类 判对 正常 正常 11 第二类 判错 正常 肺病 21 第三类 判对 肺病 肺病 22 第四类 判错 肺病 正常 12 在判断时 除了能做出 是 i类或 不是 i类的动作以外 还可以做出 拒识 的动作 为了更好地研究最小风险分类器 我们先说明几个概念 在整个特征空间中定义期望风险 期望风险 行动 i 表示把模式x判决为 i类的一次动作 损耗函数 ii i i 表示模式X本来属于 i类而错判为 i所受损失 因为这是正确判决 故损失最小 损耗函数 ij i j 表示模式X本来属于 j类错判为 i所受损失 因为这是错误判决 故损失最大 风险R 期望损失 对未知x采取一个判决行动 x 所付出的代价 损耗 条件风险 也叫条件期望损失 条件风险只反映对某x取值的决策行动 i所带来的风险 期望风险则反映在整个特征空间不同的x取值的决策行动所带来的平均风险 最小风险Bayes决策规则 二类问题 把x归于 1时风险 把x归于 2时风险 4 5Bayes分类的算法 假定各类样本服从正态分布 1 输入类数M 特征数n 待分样本数m 2 输入训练样本数N和训练集资料矩阵X N n 并计算有关参数 3 计算矩阵y中各类的后验概率 4 若按最小错误率原则分类 则可根据3的结果判定y中各类样本的类别 5 若按最小风险原则分类 则输入各值 并计算y中各样本属于各类时的风险并判定各样本类别 例1 有训练集资料矩阵如下表所示 现已知 N 9 N1 5 N2 4 n 2 M 2 试问 X 0 0 T应属于哪一类 解1 假定二类协方差矩阵不等 1 2 则均值 解2 假定两类协方差矩阵相等 1 2 解1 假定三类协方差不等 例2 有训练集资料矩阵如下表所示 现已知 N 9 N1 N2 3 n 2 M 3 试问 未知样本X 0 0 T应属于哪一类 可得三类分界线如图所示 解2 设三类协方差矩阵相等 可得三类分界线如图所示 作业 在下列条件下 求待定样本x 2 0 T的类别 画出分界线 编程上机 1 二类协方差相等 2 二类协方差不等 作业 有训练集资料矩阵如下表所示 现已知 N 9 N1 N2 N3 3 n 2 M 3 试问 X 2 2 T应属于哪一类 要求 用两种解法a 三类协方差不等 b 三类协方差相等 编程上机 画出三类的分界线 4 6在一类错误率固定使另一类错误率最小的判别准则 聂曼 皮尔逊判决neyman pearson 例 两类的模式分布为二维正态协方差矩阵为单位矩阵 1 2 I 设 2 0 09求聂曼皮尔逊准则T 解 所以此时聂曼 皮尔逊分类器的分界线为 由图可知为保证 2足够小 边界应向 1一侧靠 则 1 T与 2的关系表如右 4 7最大最小判别准则 前边的讨论都是假定先验概率不变 现在讨论在P i 变化时如何使最大可能风险最小 先验概率P 1 与风险R间的变化关系如下 这样 就得出最小风险与先验概率的关系曲线 如图所示 讨论 上式证明 所选的判别边界 使两类的概率相等 这时可使最大可能的风险为最小 这时先验概率变化 其风险不变 4 8决策树 多峰情况Bayes分类器只能适用于样本分布呈单峰情况 对多峰情况则不行 若用决策树 可进行如下步骤分类 整个分类过程可用右图的树表示 1 基本概念 1 决策树 二叉树 每个节点都是两类分类器 例如 节点a上的决策规则为 2 代价 损失 矩阵定义节点L的代价为 2 决策树的构造在构造决策树时 需要考虑以下问题 1 如何判断一节点是否为叶子 如右图表示 假定A B C D E F各包含50个样本 并有以下的代价矩阵 对于节点a 可以作出以下两个决策之一 决策1 a不再分割决策2 a分为两类决策1的代价为A1 a Ca 节点a的代价决策2的代价为A2 a Cb Cc 节点b c的代价和其中 为一经验因子 用以防止无限分割下去 只要经验因子 2 25 便有A2 a A1 a 因此取决策2的代价较小 故应把 分为两类 一般地决策代价为 2 选择节点的分割方式 a 根据经验确定 例如 全部样本分为三类 其代价矩阵为 b 根据对样本分布的了解试探确定 如右图所示 将a划分为b c的方式有两种c 根据聚类结果来划分 3 如何确定各节点分类器 原则 分类器应尽量简单 因此 多采用线性分类器 尽量减小分类时所使用的特征 选用最有效的特征进行分类 4 9序贯分类迄今为止所讨论的分类问题 关于待分类样本的所有信息都是一次性提供的 但是 在许多实际问题中 观察实际上是序贯的 随着时间的推移可以得到越来越多的信息 假设对样品进行第i次观察获取一序列特征为 X x1 x2 xi T则对于 1 2两类问题 若X 1 则判决完毕若X 2 则判决完毕若X不属 1也不属 2 则不能判决 进行第i 1次观察 得X x1 x2 xi xi 1 T 再重复上面的判决

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论