模式识别(第3章密度估计)(1).ppt_第1页
模式识别(第3章密度估计)(1).ppt_第2页
模式识别(第3章密度估计)(1).ppt_第3页
模式识别(第3章密度估计)(1).ppt_第4页
模式识别(第3章密度估计)(1).ppt_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2020/7/27,模式识别 Pattern Recognition,许建华 南京师范大学计算机学院 2009年秋季,2020/7/27,第3章 概率密度函数的估计,3.1 引言 3.2 参数估计的基本概念 3.3 最大似然估计与正态分布的参数估计 3.4 Bayes估计与正态分布参数的估计 3.5 总体分布的非参数估计 3.6 分类器错误率的估计问题,2020/7/27,3.1 引言,在贝叶斯决策理论中,基本的已知条件是: 类先验概率 P(i) 类条件概率密度 p(x |i ) 疑问: 它们从何而来?,2020/7/27,面临的实际情况是: 对于一个具体问题,我们只有有限数目的样本(所属类别

2、有可能还是未知的),2020/7/27,有限的样本数据,Bayes决策需要P(i) 、 p(x |i ),估计出 P(i) 、 p(x |i ),2020/7/27,分类器的设计分成两步来完成:,1 利用样本集估计出P(i) 、 p(x |i )(本章要解决的基本问题) 2 利用Bayes决策理论设计分类器(前一章已经解决的问题),2020/7/27,本章要解决的三个问题,如何用样本集估计出P(i) 、 p(x |i )的估计量 评估与分析估计量的性质 利用样本集估计分类器错误率的方法,2020/7/27,从样本集推断总体概率分布的方法,估计方法,参数估计,非参数估计,监督参数估计,非监督参数

3、估计,2020/7/27,说明:,监督:样本的类别是已知的 非监督:样本的类别是未知的 参数估计:概率密度形式已知,只需推断出其中的未知参数 非参数估计:直接推断出概率密度本身,2020/7/27,监督参数估计,条件:已知样本所属的类别及类条件总体概率密度函数的形式,未知概率密度函数的某些参数 监督参数估计:从已知类别的样本集,推断(估计)出总体分布(每一类概率密度函数)的某些参数的方法 例如:从样本求正态分布的均值向量与协方差矩阵,2020/7/27,非监督参数估计,条件:未知样本所属类别,已知总体概率密度函数形式,但未知其中的某些参数 非监督参数估计:推断(估计)出总体概率密度函数中的某些

4、参数的方法,2020/7/27,非参数估计,条件:已知样本所属类别,但未知总体概率密度函数的形式 非参数估计:从已知类别的样本数据中,直接推断出概率密度函数本身,2020/7/27,2020/7/27,估计方法的数学原理:,参数估计的数学原理: 最大似然估计方法与Bayes估计方法 非参数估计的数学原理: Parzen窗法与 kN 近邻法,2020/7/27,本章讲解的重点内容:,1 监督参数估计(估计类条件概率密度的参数) 2 非参数估计(估计类条件概率密度本身) 3 分类器错误率的实验估计方法,2020/7/27,1 统计量 2 参数空间 3 点估计、估计量(估计子)、估计值 4 区间估计

5、,3.2 参数估计的基本概念,2020/7/27,1 统计量,目的:样本中包含着总体的信息,希望有一种数学手段将样本集中的有关信息抽取出来 统计量:针对不同要求构造出的关于样本的某种函数,这种函数在统计学中称为统计量,2020/7/27,2 参数空间,在参数估计中,已知总体概率密度函数的形式,未知分布中的若干参数(记为 ) 在统计学中,将总体分布未知参数 的全部可容许值组成的集合称为参数空间,记为 (例如,n 维实数空间),2020/7/27,3 点估计,点估计问题是利用样本数据估计出总体分布参数的值 估计量(估计子):构造一个统计量d(x1,xN) 作为参数 的估计 ,在统计学中称 为 的估

6、计量(估计子),2020/7/27,估计值:对于属于类别 i 的样本观察值,代入统计量 d(x1,xN) 得到第 i 类的的具体数值,这个数值在统计学中称为 的估计值,2020/7/27,估计量的性能评估,估计量是随机变量,不同的样本有不同的估计值 无偏估计量:估计量的期望等于真实参数,2020/7/27,渐近无偏估计量:当样本数目趋于无穷时,估计量的期望等于真实参数值,2020/7/27,3.3 最大似然估计与正态分布的参数估计,3.3.1 最大似然估计的基本理论 3.3.2 正态分布参数的最大似然估计值 3.3.3 用身高、体重区分男女生的例子,2020/7/27,假设条件: 待估计参数

7、是确定性的未知量 按类别将样本划分 c 类,第 i 样本都是从类概率密度 p(x |i ) 的总体中独立地抽取出来的,3.3.1 最大似然估计的基本理论,2020/7/27,类条件概率密度 p(x |i ) 的函数形式是确定的,但是其中的某些参数是未知的 第 i 类的样本不包含有关 j (ij)的信息。不同类别的参数在函数上相互独立,每一类样本可以独立进行处理,2020/7/27,在满足四个假设条件下,可以将 c 类概率密度估计问题转化为 c 个独立的密度估计问题,分别单独进行处理,记号:,待求的参数向量,待求的概率密度,并表示 有关,2020/7/27,在统计学中似然函数的定义,N 个随机变

8、量 x1,xN 的似然函数是 N 个随机变量的联合密度,这是 的函数,2020/7/27,设某一类样本集有 N 个样本,它们是独立地按照概率密度 p(x | ) 抽取出来的(独立同分布样本),2020/7/27,似然函数为,含义:从总体中抽取 x1,xN 这样 N 个样本的概率(可能性),2020/7/27,最大似然估计的主要思想:如果在一次观察中一个事件出现了,则我们可以认为这一事件出现的可能性很大。现在,事件(x1,xN )在一次观察(从概率总体中抽取一组样本)中居然出现了,则我们认为似然函数 l() 应该达到最大值,2020/7/27,最大似然估计量:设 l() 是样本集 X x1, ,

9、 xN 的似然函数,如果,是参数空间 中使似然函数 l() 极大化的 值,则称 是 的最大似然估计量(估计子),2020/7/27,便于分析,可以取似然函数的对数,即,对数函数是单调增函数,H() 与 l() 的最大点相同,2020/7/27,求最大似然估计量的方法,如果H() 满足一定数学性质(连续可微),可以直接应用高等数学的知识来求最大点,即求梯度(偏导数),令其等于零,解线性或者非线性方程组得到估计量,2020/7/27,设,梯度算子,2020/7/27,从中求解出 的最大似然估计量,2020/7/27,说明:,1 有可能存在多个解,最大似然估计示意图,2020/7/27,2 有可能求

10、不出正确的解(比如均匀分布),均匀分布,N = 100 没有极大值点,对数似然函数,2020/7/27,两者至少有一个为无穷大,显然不合理,2020/7/27,最小的可能值,最大,2020/7/27,3.3.2 正态分布参数的最大似然估计值,单变量正态分布的概率密度函数,要求的未知参数(均值与方差),2020/7/27,我们已知 N 个一维样本集,问题:利用最大似然估计法,针对上述样本集,求出均值与方差的估计值,2020/7/27,2020/7/27,2020/7/27,最大似然估计量满足的方程,2020/7/27,均值,方差,2020/7/27,对于多元正态分布的概率密度函数,均值向量,协方

11、差矩阵,2020/7/27,解释: 正态总体均值的最大似然估计量是学习样本的算术平均 正态总体方差的最大似然估计量是 N 个矩阵 的算术平均,2020/7/27,性质: 均值的估计是无偏的 协方差矩阵的估计是渐近无偏的,无偏估计,2020/7/27,3.3.3 用身高、体重区分男女生的例子,到现在为止,我们知道: Bayes决策理论 概率密度参数的最大似然估计 下面讲一个简单的应用,2020/7/27,我们的任务可能是: 大学生男女同学在身高、体重方面的差别? 大学生男女同学在身高、体重方面是否存在明显的界限? 用同学们的身高、体重来区分男女同学?,解决的方案:已讲的分类方法来处理,2020/

12、7/27,模式识别系统的基本构造,只考虑特征形成,2020/7/27,数据获取: 给每一个同学发一张小纸条,要求同学将自己的身高(cm)、体重(kg)、性别(男、女)资料写在上面,最后收集小纸条,2020/7/27,数据预处理: 检查身高数据与单位、体重数据与单位是否有问题,如身高以 m 为单位,体重以斤为单位,如有则统一改成 cm 和 kg 是否有野值数据,如,身高 200 cm 体重100 kg,2020/7/27,特征形成: 每一个同学有三个数据: 性别(类别标识) 身高(第一个特征) 体重(第二个特征),+1 170 65 +1 175 70 -1 160 50 -1 155 45 .,2020/7/27,收集整理的样本构成两个样本集,各包含50个男女同学的数据: 样本集1(50个男生、50个女生):作为训练样本集 样本集2(50个男生、50个女生):作为测试样本集,2020/7/27,样本集1,样本集2,男,女,2020/7/27,Byes分类器设计,假设男女生样本分别满足各自的正态分布,针对样本集1,利用最大似然估计方法分别求出男女生的均值向量和协方差矩阵,2020/7/27,男生:均值向量和协方差矩阵,202

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论