




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、模式识别贝叶斯决策理论,mqy_,一 最简单的贝叶斯分类算法,还使用前面的例子:鲈鱼(sea bass)和鲑鱼(salmon)。,使用一个特征亮度对这两种鱼进行表示。 新来了一条鱼特征是x(亮度),怎么根据特征x确定它到底是鲈鱼1还是鲑鱼2? 已知数据:鲈鱼类标号1,鲑鱼类标号2。鲈鱼总数量占所有鱼总数量的比率为P(1),鲑鱼总数量占所有鱼总数量的比率为P(2)。由鲈鱼的分布得知这条鱼的亮度x在分类为鲈鱼时出现的概率为p(x|1),由鲑鱼的分布得知这条鱼的亮度x在分类为鲑鱼时出现的概率为p(x|2)。,如何求解?可以求出x属于鲈鱼1的概率P(1|x)和x属于鲑鱼2的概率P(2|x)。如果P(1
2、|x)P(2|x),就认为x是鲈鱼。现在的问题是如何求P(1|x)和P(2|x)。,有一个概率公式:,从而推出:,换一种写法:,这就是著名的贝叶斯公式。其中P(j)叫做先验概率,就是类别出现的可能性;p(x|j)叫条件概率,就是在j时x出现的可能性;p(j|x)叫后验概率;p(x)是该样例出现的可能性。 因此:,对于上面的问题:,如果p(1|x)p(2|x),那么就认为x属于1,即这条鱼是鲈鱼。同理于:,这几个基本数据都已经给出了,因此可以计算出不等式的结果。 如果p(1|x)p(2|x),那么就认为x属于2,即这条鱼是鲑鱼。同理于:,二 贝叶斯决策算法,上面的分类有几个主要限制: 特征向量中
3、只包含一个特征:亮度。 只有两个类别:鲈鱼和鲑鱼。 仅仅允许分类,而不是根据分类采取行动。同时,没有加入损失控制:例如鲈鱼比鲑鱼贵。如果鲈鱼的罐头里装入了鲑鱼,那么客户会很生气;如果鲑鱼的罐头里装入了鲈鱼,那么客户很难感到有损失。那么这个时候分类后采取的行动就要偏向于便宜的鲑鱼。 下面就看突破这几个限制的比较通用的贝叶斯分类器是什么样的。,为了解决第一个显示,使用向量x代替原来的单变量x。x就叫做特征向量。比如鲈鱼鲑鱼分类的例子中,可以设计这样一个特征向量(x1,x2),其中x1表示亮度,x2表示长度。,定义类别总共有c个:1,2,c,第j个分类为j。 此时,x属于类别j的概率依然用这个公式计
4、算:,但是,并不是简单地将x归于具有最大p(j|x)值的那个类别j。因为要考虑损失: 定义进行第i个行动(比如将样例归于第i个类别)这种行为表示为:i。 在一个样例的真正类别为j时,进行第i个行动造成的损失是:(i|j)。 那么进行第i个行动的总损失:,这里将每个类别为真正类别时采取第i个行动造成的损失都加起来,作为采取第i个行动的总损失。 那么每个行动的总损失都可以求出来,采取其中总损失最小的行动。比如行动k最小,对应的行动是将样例归于第k个类别,那么就如此进行分类。,举例:贝叶斯决策算法在两类问题中的决策。,定义,,是在一个样例的真正类别为j时,进行第i个行动造成的损失。 采取第1个行动时
5、的总损失:,采取第2个行动时的总损失:,那么当,时,采取第1个行动。即:,比如对于上面的例子11=22=0。鲈鱼1比鲑鱼2贵。如果鲈鱼1的罐头里装入了鲑鱼2,那么客户会很生气;如果鲑鱼2的罐头里装入了鲈鱼1,那么客户很难感到有损失。那么这个时候分类后采取的行动就要偏向于便宜的鲑鱼。因此设当真正类别是鲑鱼2的时候,将x归类为鲈鱼1(造成鲈鱼1的罐头里装入了鲑鱼2)的损失12=2,设当真正类别是鲈鱼1的时候,将x归类为鲑鱼2(造成鲑鱼2的罐头里装入了鲈鱼1)的损失21=0.2。可以看到,上面的公式变成了:,三 判别函数,在模式识别里,经常用gi(x)来表示x属于第i个类别的可能性。 如果对于所有的
6、j!=i都有:gi(x)gj(x),那么认为x属于第i个类别i。 比如令gi(x)=-R(i|x)。 上面是一个不等式关系,如果不等式两边都乘以相同的正数,或加上相同的树,或取自然对数。那么不等式的关系是不变的。因此不考虑损失时的贝叶斯判别函数:,可以写成:,四 正态分布,贝叶斯公式中的p(x|j)是条件概率,代表在类别为j时,x的概率。比如在j为鲈鱼时,一个特定亮度x的概率。条件概率分布中常见的一个分布是高斯分布(正态分布)。 正态分布是最重要的一种概率分布。正态分布概念是由德国的数学家和天文学家Moivre于1733年首次提出的,但由于德国数学家Gauss(Carl Friedrich G
7、auss,17771855)率先将其应用于天文学家研究,故正态分布又叫高斯分布。,高斯分布的形状是钟形曲线。,很多随机变量的概率分布都可以近似地用正态分布来描述。例如: 同一种生物体的身长、体重等指标; 百度高个吧投票的身高分布:,在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标; 同一种种子的重量; 测量同一物体的误差; 某个地区的年降水量; 学生的智力水平,包括学习能力,实际动手能力等呈正态分布。,单变量正态分布的概率密度函数 :,其中是均值,是标准差。 均值就是所有数的平均数,就是把所有数都加起来再除以个数 2方差就是把每个数减去它们的平均数再平方,把这些平方加起来再除以个
8、数。方差表示统计数据的离散程度。 经常可以把上面的公式简写成:p(x)N(,2)。,多变量正态分布的概率密度函数 :,其中是d维平均向量。是d*d的协方差矩阵。|是它的行列式,-1是它的转置。 经常可以把上面的公式简写成:p(x)N(,)。,五 正态分布下的判别函数,将多变量正态分布公式带入下面的判别函数:,得到:,将单变量正态分布公式带入下面的判别函数:,得到:,1. i=2I,当所有变量都相互独立,且每个变量的方差都是2的时候,所有的协方差矩阵都相等:i=2I。 此时,判别函数简化成了:,此时判别函数就变成了一个线性判别函数。,当p(i)与p(j)相等的时候,一二三维高斯分布:,如下求分割线
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030年中国狗皮行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030年中国度假型酒店行业市场深度调研及竞争格局与投资研究报告
- 2025-2030年中国尼龙滤芯行业市场现状供需分析及投资评估规划分析研究报告
- 各类护理培训课件模板
- 社会工作专业博士的职业道路探索
- 软件工程师年终技术总结报告
- 智能制造对产业升级的推动作用深度解读报告
- 文娱传媒人才职业发展导航
- 汽车零部件行业发展与技术革新研究报告
- 典耀中国课件下载
- 固定资产报废申请表(样本)
- 铁总物资〔2015〕117号:铁路建设项目甲供物资目录
- 八年级物理光学测试题含答案试题
- Unit1Myclassroom单元整体设计(学历案)四年级英语上册教学评一致性资源(人教PEP版)
- 人教版高中物理必修一全套课件【精品】
- 四川省中小流域暴雨洪水计算表格(尾矿库洪水计算)
- 福建省危险性较大的分部分项工程安全管理标准
- 学习解读2023年水行政处罚实施办法课件
- 工艺管道安装质量控制
- 中国急性胰腺炎诊治指南解读
- 建筑节能与绿色建筑监理细则
评论
0/150
提交评论