模式识别-第二章 - 贝叶斯决策理论2

上传人：q*** IP属地：湖北上传时间：2023-01-31 格式：PPT 页数：73 大小：3.18MB 积分：28 举报 版权申诉

已阅读5页，还剩68页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第三讲贝叶斯决策理论参考书：中文教材：第二章p9-34，p42-432011-2012学年第二学期2第二章贝叶斯决策理论2.1引言2.2贝叶斯决策理论2.3最小错误率分类2.4最小风险决策2.5分类器、判别函数及决策面2.6正态密度2.7正态分布的判别函数2.8错误率与积分第三讲第四讲基本模式识别过程上一过程的数学表达：特征提取决策理论(判别准则)

根据决策理论计算理论结果，再用判别准则得到识别或分类结果。Object(n个样本)每个样本有d个特征c个类别被观测对象特征信息识别分类样本空间Ω事件

A划分

Bi4模式识别PatternRecognition

Ch.2分类器-基于Bayes决策理论

贝叶斯决策理论

例Thenthethresholdvalueis:Threshold forminimumr5模式识别PatternRecognition

Ch.2分类器-基于Bayes决策理论

贝叶斯决策理论

例2-1Thusmovestotheleftof(WHY?)Considerthereversesituationwhenthemovestotherightof?6知识点7小结(1)分类器设计时使用什么原则是关键---影响到分类器的效果。原则包括：错分率最小的原理。后验概率基于最小风险的贝叶斯决策的原理。(2)“风险”与“损失”风险系数损失：对某个样本作第i个决策的风险

λ(αi|ωj)=λ(αi,ωj)8小结分类所用的计算式：比较所计算数值谁大谁小；称为判别函数gi(X)。自变量是样本X；如果，则称特征空间的这一点X是第i类的决策域。由gi(X)占主导地位的区域称为第i类的决策域，我们将它表示成Ri如果第i类决策域Ri与第j类决策域相邻，则它们之间有边界。在边界上有gi(X)=gj(X),该式是一个方程式，称为决策面方程。

9学习目标结合一种比较典型的概率分布：正态分布，进一步基于最小错误贝叶斯决策分析分类器的设计。什么叫正态分布，或高斯分布，是哪一种概率定义的？定义高斯分布的表达式：均值/协方差矩阵。将正态分布与基于最小错误率的贝叶斯决策结合高斯分布是指数函数，因此计算时常用对数使计算简化不同分类器的定义

正态分布下的Bayes决策贝叶斯公式中类条件概率和先验概率未知时需要进行概率密度函数(probabilitydensityfunction,pdf)的估计。什么是正态分布？为何要用正态分布？

11正态分布在模式识别及其它信息处理应用系统中，正态分布假设是对各种随机变量使用得最普遍的假设正态分布在数学上比较简便。数学的简便性便于人们对统计识别方法进行数学分析。在模式识别技术的研究中，用正态分布模型抽取设计样本集与测试样本集在数学上实现起来也比较方便。物理上的合理性，在许多实际应用场合，如果同一类样本在特征空间内的确较集中地分布在其类均值的附近，远离均值处分布较少，那么一般情况下以正态分布模型近似往往是比较合理的。13正态分布概率密度函数的定义与性质一、单变量正态分布二、多元正态分布

1.多元正态分布的概率密度函数

2.多元正态分布的性质单变量正态分布单变量正态分布(NormalDistribution),即高斯分布(GaussDistribution)

正态分布的pdf:其中，：x的期望(均值)，：标准差，

：x的方差，单变量正态分布单变量正态分布的形状完全由和来确定：P(x)x小大P(x)x相同P(x)x

正态分布的样本主要集中分布在其均值附近，其分散程度可用标准差来衡量，σ愈大分散程度也越大。从正态分布的总体中抽取样本，约有95%的样本都落在区间(μ－2σ，μ+2σ)内。16正态密度17正态密度–讨论正态分布是指一个随机实数度量值在整个实数域上的分布规律。因此它属于概率密度函数类，不是先验概率P(ωi)和后验概率P(ωi|X)，而是p(x|ωi)。通用公式，具体化后的公式：其中σi是对σ的具体化。

18正态密度–讨论请思考一下，正态分布(又称高斯分布)以x为横轴，y为纵轴画出来是什么样子？有没有最高点？最高点的x坐标是什么？σ的大小对你所画的图有什么影响？如果有两种高斯分布μ1=μ2，σ1>σ2，你能将它们画在一起吗？两者有什么不同？Matlab实例-正态分布多元正态分布多变量正态分布的pdf:式中：均值向量，；协方差矩阵，为的行列式。1×dd×1d×d与单变量中相对应，变量间互不相关时是对角阵：20正态密度参数的计算：

是向量x的期望，＝E[x]=[μ1，μ2，…，μd]T

是矩阵(x-)(x-)t

的期望，=E[(x-)(x-)t]若xi是x的第i个分量，i是的第i个分量，ij2是的第i，j个元素，则：21正态密度协方差矩阵总是对称非负定阵，且可以表示为

其对角线上的元素是xi的方差，非对角线上的元素是xi和xj的协方差。如果各分量独立，则非对角线元素为0，协方差矩阵就成为对角矩阵。22正态密度如果是一个三维向量，它的协方差矩阵是几乘几的矩阵？每个元素又对应什么含义？是个3×3矩阵，协方差矩阵并不只对正态分布有用，它是多元随机变量中一个重要的数学统计表示方法，它描述了一个随机变量样本集中各个分量之间的相关性。

23正态密度协方差的性质它是一个对称矩阵，如果它的第i行第j列元素表示成，则应有。这就是说与第j行第i列的元素是相同的，这就是对称性。由于它的主对角元素都是各分量的方差，因此一般情况下都是大于零的值。因此协方差矩是正定的，这一点也是十分有用的。多元正态分布多元正态分布与单变量正态分布在形式上尽管不同，但有很多相似之处，实际上单变量正态分布就是维数为1的多元分布。当d=1时，Σ只是一个1×1的矩阵，也就是只有1个元素的矩阵，退化成一个数，|Σ|1/2也就是标准差σ，Σ-1也就是σ-2，而(x－μ)T(x－μ)也变成(x-μ)2。多元正态分布多元正态分布要比单变量正态分布复杂得多。并且多元正态分布具有许多重要的特性。多元正态分布的概率密度函数中的元，即特征向量的分量数，也就是维数。为了分析方便我们着重讨论二维向量。二维随机向量，其中每一个分量都是随机变量，服从正态分布。但是一个二维随机向量不仅要求考虑每个分量单独的分布，还要考虑两个随机变量之间的关系。两个多元正态分布例子两个二元正态分布的各个分量是相同的，即它们的期望μ1和μ2，方差σ1和σ2都相同，但这两个特征向量在空间的分布却不相同。对右图来说，x1和x2有很大的相关性，而对左图来说，随机变量x1与x2之间的相关性很小。这可以从两者的区别看出来。对于右图可以看出一个随机变量的x1分量较小时，另一分量x2也必然较小。而当随机变量的x1较大时，则其相应的x2分量也较大。换句话说，如果x1分量小于其均值μ1,则其相应的分量x2也很可能小于它的均值μ2。因此当x1-μ1<0时，也常伴有x2-μ2<0，这说明它们之间有联系，或称相关性，用（x1-μ1）（x2-μ2）这两项相乘来看其相关性。对整个随机变量样本集取期望值，就会使E[(x1-μ1)(x2-μ2)]有非零值。反过来看左图中的随机变量分布，就没有这种规律，一个随机变量x1分量小于其均值,并不对其相应分量x2与之间的关系有什么限制。在此时一个随机变量(x1-μ1)与(x2-μ2)的乘积的符号就可正可负，则E[(x1-μ1)(x2-μ2)]就可能接近于零，或等于零。因此我们可以用E[(x1-μ1)(x2-μ2)]来衡量这种相关性，称为协方差。协方差是个正数，很可能为零，协方差越大，说明两个变量的相关度越高。29正态密度以下是上两图特征向量分布的协方差矩阵,请问哪个是左图，哪个是右图？

30多变量正态分布的性质参数μ与Σ对分布具有决定性。这一点与单变量时是相似的，记作p(X)～N(μ，Σ)。等密度点的轨迹为一超椭球面不相关性等价于独立性边缘分布和条件分布的正态性线性变换的正态性线性组合的正态性31多变量正态分布的性质

从正态分布总体中抽取的样本大部分会落在由和所确定的一个区域里，区域的中心由均值向量决定，大小由协方差矩阵决定。μ由n个分量组成，∑由n(n+1)/2元素组成(考虑到对称性，所以独立元素的个数：n(n+1)/2)。

∴多维正态分布由n+n(n+1)/2个参数组成。返回32正态密度返回33等密度点的轨迹为一超椭球面返回34正态密度指数项为常数时，密度值P(x)不变，因此等密度点应是使指数项为常数的点，即应满足：其解是超椭球面，主轴方向由的特征向量决定，主轴的长度由的特征值决定。称为x到的Mahalanobis距离（马氏距离）的平方。区域中心由μ决定，区域形状由∑决定多元正态分布的离散程度由参数|Σ|１／２决定，这与单变量时由标准差σ决定是对应一致的。返回35正态密度返回36多元正态分布Σ是d×d维协方差矩阵，而Σ－1是Σ的逆矩阵，|Σ|是Σ的行列式。

(x－μ)ＴΣ－１(x－μ)

：在二维时Σ表示一个椭圆，在三维表示椭球，在高维是表示超椭球，：

返回37多元正态分布

，

返回38多元正态分布

，

返回39多元正态分布

，

返回40多元正态分布证明：

，

返回多元正态分布

，

返回42边缘分布和条件分布的正态性多元正态分布的边缘分布和条件分布仍然是正态分布。这就是说多元正态的随机向量，就其每个分量单独的分布而言，也是正态分布的。另一方面，对某个分量或若干个分量保持常数的条件下样本的分布也仍然是正态的。

返回43边缘分布和条件分布的正态性返回44边缘分布和条件分布的正态性边缘分布p(x1)服从均值为μ1，方差的为σ112正态分布返回45边缘分布和条件分布的正态性返回46边缘分布和条件分布的正态性返回47线性变换的正态性若对x用线性变换矩阵A(A是非奇异(|A|≠0))作线性变换，y

=Ax则y服从以均值向量为Aμ，协方差矩阵为A∑AT的多元正态分布。即p(y)~N(Aμ，A∑AT)返回⑸线性变换的正态性随机向量的变换设随机向量y是另一随机向量x的函数，即若x、y的函数关系是一一对应的，则其概率密度间满足下面关系返回⑸线性变换的正态性雅克比行列式J表示变换后体积微元的变化，Yn坐标系中体积微元

dy1dy2…dyn=|J|dx1dx2…dxn。|J|表示J的绝对值。返回⑸线性变换的正态性当x和y只是线性变换时返回⑸线性变换的正态性此时，J=|A|，|A|表示矩阵A的行列式。从而随机向量y的概率密度函数||A||表示行列式|A|取绝对值。返回⑸线性变换的正态性设x的均值向量为μ，协方差矩阵为Σ，则y的均值向量为υ=E(y)=AE(x)=Aμ，y的协方差阵为Υ=E[(y-υ)(y-υ)T)=AE[(x-μ)(x-μ)T]AT=AΣAT返回证明：y

=Ax，即x=A-1yx的均值向量为μ，y的均值向量为υυ=Aμ,即μ=A-1υ

根据雅可比行列式的定义，有|J|=||A||→x

变换y，设变换矩阵A为非奇异阵，返回证明：y的概率密度函数与x的概率密度函数之间的关系为由于返回即

p(y)~N(Aμ，A∑AT)返回根据线性变换的正态性可以说明，用非奇异阵A对x作线性变换后，原来的正态分布正好变成另一参数不同的正态分布。返回图中特征空间中的一个线性变换将一个任意正态分布变换成另一个正态分布。变换A将原分布变成分布N（AT，AT∑A)；另一个线性变换，即由向量a决定的向某条直线的投影P，产生沿该直线方向的N(μ,σ2)分布。尽管这些变换产生一个不同空间中的分布，还是将它们显示在原x1~x2空间中。一种白化变换，将产生一个圆周对称的高斯分布。列向量是∑的正交本征向量与本征值对应的对角矩阵返回变换后的意义由于∑是对称阵，根据线性代数知识总可以找到某个A使得变换后y的协方差阵A∑AT为对角阵，这就意味着y下的各个分量间是相互独立的(性质⑶的推论)，也就是说总可以找到一组坐标系，使各随机变量在新的坐标系中是独立的。这一性质对解决某些模式识别问题有着重要意义。返回⑹线性组合的正态性若x为多元正态随机向量，则线性组合是一维的正态随机变量其中是与x同维的向量。返回⑹线性组合的正态性证明，利用性质⑸作线性变换y=ATx，则p(y)~N(ATμ，AT∑A)其中为非奇异阵，A1为d×(d－1)维的矩阵，。返回这时根据性质⑸，y是服从以均值向量ATμ，协方差阵AT∑A的多元正态分布。又根据性质⑷y的边缘分布的正态性，可以得出服从正态分布，其概率密度函数为返回正态分布下的贝叶斯决策类条件概率P(x|ωi)为正态分布；判别函数选择：单变量代入多元正态分布：ci随着不同超二次曲面也不同：超球面、超椭球面、超双曲面、超平面等等。几种特殊情况：①各类中各向量相等；②各类相等。决策面方程可得到不同程度的简化。计算判别函数及决策面上式为非线性二次函数。得到特征向量的即可以计算判别函数及决策面。决策面gi(x)-gj(x)=0d=2时，二次曲面d>2时，超二次曲面多元正态分布下的最小错误率Bayes分类器1.第一种情况：各特征统计独立，且同方差情况。这种情况下协方差矩阵是对角阵。

几何上，这种情况对应于样本落于相等大小的超球体聚类中，第i类的聚类以均值向量为中心。最小错误率Bayes分类器判别函数：

最小距离分类器：未知x与μi相减，找最近的μi把x归类。

其中：讨论当P(ωi)=P(ωj)时，超平面通过μi与μj连线中点并与连线正交，如图所示。当P(ωi)=P(ωj)时，超平面通过μi与μj连线中点并与连线正交，如图所示。当P(ωi)=P(ωj)时，超平面通过μi与μj连线中点并与连线正交，如图所示。如果两种分布的协方差矩阵相等并且与单位阵成比例，那么它们呈d维球状分布，其判决边界是一个d-1维归一化超平面，垂直于两个中心的连线。在这些一维、二维及三维的例子中，是假设在P(ωi)=P(ωj)

的情况下来显示p(x|ωi)和判决边界的。在三维情况下，一个栅格平面将R1和R2分开。w=μi-μj当P(ωi)≠P(ωj)时，点x0将远离可能的均值。μi+μjLμi

IMJμjOPN一维、二维及三维例子最优判决可简述为：将某特征向量x归类，可以通过测量每一x到c个均值向量中的每一个欧式距离，并将x归为离它最近的那一类中。——最小距离分类器。75正态分布的判别函数最小距离分类器

若要对x进行分类，只要计算x到各类均值i的欧式距离平方||x-i||2，然后把x归于具有最小距离的类别。模板匹配

如果每一个均值向量被看成是其所属类别的一个理想原型或模板，则最小距离分类器本质上就是一种模板匹配技术。76正态分布的判别函数最小距离分类器举例在农产品检测中，需要对大枣进行分级，根据大小将其分为大枣和小枣两个级别（类别）。现以直径和长度作为特征，并获得如下训练样本：ω1类（小枣）：(2，2)t，(3，2)t，(3，4)t，(4，2)t；ω2类（大枣）：(3，6)t，(3，3)t，(4，3)t，(4，6)t。今有某待识别样本，其直径和长度均为1cm，即x=(1,1)t，请用最小距离法对其进行分类。77正态分布的判别函数解：1先求两类样本的均值：78正态分布的判别函数2计算x与两类均值的距离

3得出分类结果因D1<D2，故x应归属ω1类，即为小枣。2、第二种情况：Σi＝

Σ相等，即各类协方差相等。

几何上，这种情况对应于样本落于相同大小和相同形状的超椭球体聚类中，第i类的聚类中心在均值向量附近。这种情况下，最优判别准则可简化为：将向量x归类，可以计算从x到每一个均值向量的平方马氏距离，将x归于离它最近的均值所属的类。当先验概率不等的情况下，分类判定面将远离先验概率较大的类。

当先验概率不等的情况下，分类判定面将远离先验概率较大的类。线性判别函数：这种情况下，分离超平面并非与均值间的连线垂直正交。如果先验概率相等，其判定面确实与均值连线交于其中点x0处；如果先验概率不等，最优超平面将远离可能性较大的均值。相等但非对称的高斯分布，判决超平面未必和均值连线垂直正交。讨论(两类情况)若各类的先验概率相等，此时x0点为μi与μj连线的中点，根据前面的讨论，决策面应通过这一点，如图所示。若先验概率不相等，x0就不在μi与μj连线的中点上，而是在连线上向先验率小的均值点偏移。随着先验概率的改变，判决边界也随之改变;对于差别较大的离散先验概率而言，判决边界不会落于这些一维、一维及三维球状高斯分布的中心点之间3、第三种情况(一般情况)：Σί为任意∑i≠∑j，各类协方差矩阵不等，二次项xT

Σίx与i有关。所以判别函数为二次型函数。在一维情况下，对于存在任意协方差的情况，判别区域也可以不连通。如图所示。任意高斯分布导致一般超二次曲面的贝叶斯判别边界。任意高斯分布导致一般超二次曲面的贝叶斯判别边界。任意高斯分布导致一般超二次曲面的贝叶斯判别边界。任意的三维高斯分布产生的超二次曲面的贝叶斯判别边界。任意的三维高斯分布产生的超二次曲面的贝叶斯判别边界。任意的三维高斯分布产生的超二次曲面的贝叶斯判别边界。任意的三维高斯分布产生的超二次曲面的贝叶斯判别边界。甚至还有退化为直线的判别边界。4个正态分布的判决区域。尽管对于类别数如此少的情况，其判别区域的形状也是相当复杂的。如果分布更加复杂，则判别区域将更加复杂，尽管基本理论是一致的。如图示出了在二元正态情况下决策面的形式，在(a)~(e)五种形式中，变量x1和x2是类条件独立的，所以协方差矩阵为对角阵。如果在假定各先验概率相等，那么不同的决策面只是由于方差项的差异而引起的。在图中以标号1、2的等概率密度轮廓线来表征相应类别的方差，在图(a)中，p(x|ω2)的方差比p(x|ω1)小，因此来自类ω2的样本更加可能在该类的均值附近找到，同时由于圆的对称性，决策面是包围着μ2的一个圆。若把x2轴伸展，如图(b)所示，此时决策面就伸展为一个椭圆。在图(c)中两类的密度在x1方向上具有相同的方差，但在x2方向上p(x|ω1)的方差比p(x|ω2)的方差大，这时x2值大的样本可能是来自类ω1并且决策面为一抛物线。若对p(x|ω2)在x1方向上加大其方差，如图(d)所示，则决策面就变为双曲线。在图

(e)中示出了特殊的对称性情况，使决策面由双曲线退化为一对直线。举例以二维情况为例：假设：决策面：双曲线决策面：椭圆例：如图所示模式，试求判别函数。其中μi和∑i分别用

x3x1x2000001100110011101010111∈ω2∈ω1估计。Ni表示ωi类的样本数，xij表示第i类中的第j个样本。解：由图知：X1={(101)T，(000)T，(100)T，(110)T}，X2={(001)T，(011)T，(111)T，(010)T}

x3x1x2000001100110011101010111∈ω2∈ω1解：解：∴存在解：由于两类的协方差矩阵相等，使用方程i=1，2，……，c所以lnP(ωi)可略去，将x=(x1，x2，x3)T、μi、代入上式因为x3x1x2000001100110011101010111∈ω1∈ω2判别面方程为2x1－2x2－2x3+1=0如图所示例二维高斯分布数据的判别区域

为了阐明以上这些思想，通过例题详细的计算两类问题中二维数据的判决边界。两类高斯分布所计算出的贝叶斯判决边界，每一类都基于4个数据点。以ω1表示4个黑点的集合，ω2表示红点集合。二维高斯分布数据的判别区域假设两类先验概率相等，则为顶点位于(3,1.4665)的抛物线。246810-2-2.52.557.510x1x2μ2μ1对观察样本进行分类是模式识别的目的之一。在分类过程中任何一种决策规则都有其相对应的错误率。错误率反映了分类问题固有复杂性的程度，可以认为它是分类问题固有复杂性的一种量度，在分类器设计出来后，通常总是以错误率的大小来衡量其性能的优劣。特别是对同一种问题设计出几种不同的分类方案时，通常总是以错误率大小作为比较方案好坏的标准。在模式识别的理论和实践中错误率是非常重要的参数。关于分类器的错误率问题对于两类问题用最小错误率贝叶斯决策规则时，其错误率为

从上式可以看出当x是多维向量时，实际上要进行多重积分的计算。所以，虽然错误率的概念较简单，但在多维情况下类条件概率密度函数的解析表达式较复杂时，计算错误率是相当困难的。对错误率的求取方法人们在处理实际问题时研究了一些对错误率的计算或估计的方法，可概括为以下三方面：⑴按理论公式计算，⑵计算错误率上限，⑶实验估计。误差概率和误差积分首先考虑两类情况，且假设二分分类器以一种可能不是最优的方式将空间分成两个区域R1和R2。错误分类可能以两种形式出现：真实类别为ω1，而观测值x落入R2，或者真实类别为ω2，而观测值x落入R1。由于这些事件互斥并且覆盖整个事件空间，因此误差概率为(70)误差概率和误差积分此结果的一维情况如图2-17所示。粉红区域对应于实际类别为ω2而判为ω1的误差概率,灰色区域相反，如式(70)。如果判决边界在相等后验概率点xB处，那么此“可去误差”区将消失，总的有阴影的区域将减到最小—这就是贝叶斯判决导致的贝叶斯误差率。误差概率和误差积分一般的，如果p(x|ω1)P(ω1)>p(x|ω2)P(ω2)，则将x划归为R1是比较有利的，这样可减小误差积分的大小，而这正是贝叶斯判决规则所得的结论。在多类情况下，

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

模式识别-第二章 - 贝叶斯决策理论2

文档简介

温馨提示

最新文档

评论

模式识别-第二章 - 贝叶斯决策理论2

文档简介

温馨提示

最新文档

评论

相关文档