版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第三节贝叶斯决策理论,参考:汉语教材:第二章p9-34,p42-43 2011-2012学年第二学期,第二章贝叶斯决策理论,第二章贝叶斯决策理论,2.1简介2.2贝叶斯决策理论2.3最小错误率分类2.4最小风险决策2.5分类器,判别运用概率论的概念分析,建立了错误分类识别错误的根本原因,并说明了与哪个量有关。在此基础上,指出了在哪些条件下可以将错误率降至最低。在某些情况下,不同错误分类造成的损失会有所不同,因此,在不可避免的情况下,如果错误分类不可避免,是否有可能控制损失较大的错误分类,请将分类与函数相关联,并在此基础上定义判别函数、决策面(子接口)、决策域等术语,以便准确设计最基本的方法设计
2、规范函数,要了解最基本的方法,请将设计的分类器与基准函数的极值匹配,即最佳解决方案。5,引文,模式识别是分类问题。也就是说,根据已识别物件提供的观测值将其分组到品类中。统计决策理论是处理模式分类问题的基本理论之一,其作用是引导模式分析和分类器的设计。贝叶斯决策理论是统计模式识别的基本方法,6,引用,统计模式识别的基本方法基本思想:基于概率和决策成本的分类决策基本假设问题可以用概率形式描述所有相关概率值都知道的情况。7,假设要引用、标识的物理对象用d属性观察值描述,并形成d维的特征向量。此d维度由所有可能的值范围构成d维度的图征空间。假设苹果的直径尺寸限制在7厘米到15厘米之间,其重量在3到8之
3、间变化。如果直径长度x以厘米为单位,则重量y为2个单位。x值为7到15、y值为3到8的二维空间是测量苹果的特征空间。8,引用,问题:是否已知此d维的特性空间存在各种统计分布c-class?尤其是omega I=1,2,是c的先验概率P(i)和类条件概率密度函数p(x|i)在已知条件下如何按特征向量分类特定条件的问题。观察到的特定本的固有向量是X,类c中有多个类可以表示X值,这种可能性可以用P(i|X)表示。做出合理判断的方法是关于贝叶斯决策理论的问题。9、在提出抽象之前,先从具体的例子开始,以货物载体上会出现什么样的鱼为例。在两个假设中,鲈鱼或鲑鱼引入符号来表示类别。=1鲈鱼=2鲑鱼是随机变量
4、,10,如果实际捕获的鲈鱼和鲑鱼的数量相同,那么下次在传送带上出现鲈鱼和鲑鱼的可能性也更大。先验概率P() 鲈鱼的先验概率P(2)鲑鱼的先验概率11,11,逆验概率反映了实际鱼出现前我们对任何种类的鱼的先验知识。例如,根据季节的不同或捕捞位置,您可以做出判断。12,引文,如果只有两种鱼,就只考虑p ( 1) p ( 2)=1先验概率来确定,那么会有什么决定规则呢?13,引用,仅使用先验概率的决策规则:decide1 if P(1)P(2)otherwise decide2,14,引用,判断结果的好坏取决于先验概率值:P以1判定,大多数情况下是对的。只有50%的准确度。15,参考,利用观测到的信
5、息,可以改进类条件概率密度函数。我们使用光泽指示器x改善决策规则。不同的鱼用不同的概率形式的变量表示光泽度。x是连续随机变量,其分布可以表示为p(x/),具体取决于类别的状态。这是“类条件概率密度”函数,即类别为时x的概率密度函数。16,引文,p (x | 1)和p (x | 2)的差值表示鲈鱼和鲑鱼光泽度的差值:17,引文,p (j)和p (x/j),j=1,18,引用,属于类j的模式具有唯一值x的合并概率密度可以采用以下两种形式:p (j,x)=p (j | x) p (x)=p (x | j) p (j)。19,引用,可定理的贝叶斯公式就是我们问题的答案!这里,20,lead,后概率通过
6、观察x的值,可以假定前概率p (j)为后概率p (j | x) ,在特征值x已知的条件下类别为j的概率。21,引用,似然函数(likelihood)将p (x | j)称为x的j的似然函数,在其他条件相同的情况下,p (x | j)越大,j就越有可能成为实际类。22,引用,后概率主要是由前概率和右度函数的乘积确定的,p(x)只能看作一个比例因子,为满足概率条件,保证所有种类后概率之和为一。23,23,例如,假设x产生p (1 | x) p (2 | x),如果给出实际类别为1的判定,如果x产生p (2 | x) p (1 | x),则根据规则对给定x采用上述规则,错误概率最小化。问题是,该规则
7、能否使平均错误概率最小化?24,引用,平均误差概率:如果保证每个x的P(error|x)尽可能小,则上述积分值也是贝叶斯决策规则:25,引用,贝叶斯决策规则:decide 1 if p (1 | x) p27,引文,中间p(x)只是比例因子,省略后得到完全匹配的判断规则,如下所示:decide 1 if p(x | 1)p(1)p(x | 2)p(2)otherwise decide 2,28,引文,通过调查一些特殊情况确定更深层次的问题对于任何x(x贝叶斯决策规则将这两者结合起来,得到最小的错误概率。例如,地震预测是一个比较困难的课题,可以根据地震和生物异常反应之间的关系进行研究。历史记录显
8、示,地震前一周出现生物异常反应的概率为50%,而一周没有发生地震,但出现生物异常反应的概率为10%。假设某个地区属于地震发生频率高的地区,地震发生的概率为20%。问:如果某一天观察到明显的生物异常反应现象,你需要预测一周内会发生地震吗?30,例如,将是否发生地震设置为两类。地震发生是1,地震发生不是 2。两个类别的预概率p ( 1)=0.2,p(2)=1-0.2=0.8;表示地震是否发生在一周前的生物的异常反应为x,x=1时不出现,x=0时不出现。根据历史记录可以得到统计。P (x=1 | 1)=0.5,p (x=1 | 2)=0.1,31,例如,有一天观察到明显的生物异常反应。发生地震的概率
9、为p(1 | x=1)=(p(1)p(x=1 |1)/(p(1)p(x=1 |1)p p(2)p(x=1 |2)=(0 . 80 . 1)/(0 . 20 . 5 0 . 8 * 0 . 1)=4/9,32,常用决策规则,反映分类设计者的许多注意事项最具代表性的是基于最小错误率的贝叶斯决策和基于最小风险的贝叶斯决策。基于最小错误率的贝叶斯决策基于最小风险的贝叶斯决策在错误率条件的范围内具有最小不同错误率的两类决策(自学)判别函数,决定曲面和分类器设计,33,基于最小错误率的贝叶斯决策,一般来说,c类的不同对象具有不同的特性,在d维特征空间中必须分别分布不同。如果仅对特定对象类型使用属性向量值x
10、,即,对特定对象的决策很容易,不会发生错误。问题在于产生暧昧的情况。此时,所有决策都有判断错误的可能性。使错误率最小的决策方法:基于最小错误率的贝叶斯决策理论,34,最小错误率分类问题,在分类问题中,活动I通常可以解释为决策类别I,如果采取了活动I,实际类别为j,则I=j,则分类正确;否则分类无效。要避免发生错误,必须找到将错误最小化的规则。定义“0-1”损失函数(或对称损失函数):由于此损失函数为正确判断赋予0,为错误确定分配1,因此所有误判成本相同。35,最小错误率分类,0-1损失函数对应的风险是平均错误率。根据贝叶斯决策规则,应选择最小化条件风险的措施,对于0-1损失函数,应选择最大化对
11、应错误率最小的后概率的措施。36,最小错误率分类,最小错误率贝叶斯决策规则:37,最小错误率分类说明,癌细胞识别:假定要识别的每个细胞都要预处理并提取d-特性说明量,用d-维的固有向量x表示的识别旨在根据相应的x向量将细胞分割为正常细胞或异常细胞。欧米茄1是正常细胞,欧米茄2是异常细胞。类别的状态是任意变量,可以估计出哪些状态出现的概率。先验概率P(1)和P(2),P(1)P(2);属性x的概率密度函数P(x|1)和P(x|2),38,最小误差率分类说明,病理学分析,提取的d维观测向量。设定两种类型的条件概率密度函数分布已知的d=1,如下图所示。P(x|1)是正常细胞的属性分布,P(x|2)是
12、异常细胞的属性分布,观察向量为x值时属于每种的概率是多少?后概率P(i|X),39,最小误差比分类说明将上图所示的类条件概率表达式(2-1)转换为下图所示的后概率分布。可以看出,在x值时间,细胞被判定为正常,更合理,做出错误判断的可能性更小。基于最小误差概率的贝叶斯决策理论取决于后概率的大小。,40,最小错误率分类说明,(1)如果(2-2) (2)以先验概率和类条件概率密度函数表示,(3)比例,(4) (2-4)表达式可以代数形式替换。例如,假设在特定区域的切片细胞中,正常(1)和异常( 2)的先验概率分别为P(1)=0.9,P(2)=0.1。现有识别目标细胞表示状态x,该条件概率密度分布曲线
13、检查p(x|1)=0.2,p (x | 2)=0.4,试图分类细胞x。解决方案:如果用贝叶斯公式分别计算状态x时间1和 2的后概率为42,那么根据贝叶斯决策(2-2),p ( 1 | x)=0.818 p ( 2 | x)=0.0182,因此确定细胞是正常细胞更合理。让学生用公式(2-3)和(2-5)计算,确认结果是否相同?说明:在本例中,考虑到类 2表示状态x的概率比1类表示该状态的概率高,但考虑到P(1)大于p ( 2),则表明状态x属于类1的可能性比属于类 2的可能性高得多。判定这个细胞正常的统计错误率要小得多。43,基于最小错误率的贝叶斯决策是基于后概率值大小的最基本的方法,其他形式基
14、本相同,但更易于使用。以上讨论了基于两种类型的最小错误概率的贝叶斯决策规则。根据此规则进行分类,必须证明错误实际上是最小的(在一维情况下,结果不难多维扩散)。44,证明:错误概率最小,统计判别方法根据统计参数做出决定,因此错误率也表示为仅在平均意义上可观察值的整个范围内错误识别率的平均值。在连续条件下,平均错误率为P(e),对应,45,证明:错误概率最小,指定为两类问题中的(2-2)的决策规则在p (w2 | x) p (w1 | x)为w2时确定显然,此决定是指P(w1|x)概率与观测x的误差率。例如,在上例中,w1确定实际上包含具有P(w2|x)=0.182的错误概率。对于这两个类别,p(e|x)为1,46,证明:出错概率最小,做出w1决定的所有观测区域称为R1,那么R1区域内的每个x值表示条件出错概率为p(w2|x)。条件误差概率为p(w1|x)的其他区域R2的x。因此,平均误差率P(e)为,47,证明:R1区域中的所有x值都具有p (w2 | x) p (w1 | x),因此R2区域中的所有x,48,证明:误差概率最小,R1和R2区域的特定概率分布,分别用图形表示p (x | 1) p ( 1)和p (x | 2) p ( 2)的分布,p ( 2),49,证明:最小错误概率,讨论了上述两种类型的问题情况。在c-类别情况下,很容易编写
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 兰州航空职业技术学院《人力资源管理(双语)》2024-2025学年第二学期期末试卷
- 六盘水师范学院《商务日语》2024-2025学年第二学期期末试卷
- 天津音乐学院《魏晋玄学》2024-2025学年第二学期期末试卷
- 厦门大学嘉庚学院《多媒体素材处理》2024-2025学年第二学期期末试卷
- 四川民族学院《汽车检测与故障诊断技术》2024-2025学年第二学期期末试卷
- 石家庄工程职业学院《电子商务案例分析与实践》2024-2025学年第二学期期末试卷
- 培训教育机构教学质量管理制度
- 惠州城市职业学院《西方神话与文化思辨》2024-2025学年第二学期期末试卷
- 宁夏幼儿师范高等专科学校《技术及其工程应用》2024-2025学年第二学期期末试卷
- 2026广西河池市都安瑶族自治县社区工作者招聘20人笔试备考试题及答案解析
- 2026北京市公安局监所管理总队招聘勤务辅警300人笔试参考题库及答案解析
- 2026年张家界航空工业职业技术学院单招职业技能考试备考题库含详细答案解析
- 迟到考勤考核制度
- 民航地面服务操作规范与流程手册(标准版)
- 2025年番禺水务集团笔试及答案
- 中国军队被装集中洗消社会化保障模式分析报告
- 2025生产安全事故伤害损失工作日判定培训课件
- 2026年春季苏教版(2024)三年级下册数学教学计划附教学进度表
- 2025-2026学年人教版(新教材)小学数学一年级下册教学计划(附进度表)
- 招商局集团招聘笔试题库2026
- 2024年湖北十堰郧阳中学自主招生数学试题真题(含答案详解)
评论
0/150
提交评论