3概率密度函数的估计.ppt_第1页
3概率密度函数的估计.ppt_第2页
3概率密度函数的估计.ppt_第3页
3概率密度函数的估计.ppt_第4页
3概率密度函数的估计.ppt_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

模式识别与神经网络PatternRecognitionAndneuralnetwork 第三章概率密度函数的估计 请各位思考的问题 1 我们可以构造一个比贝叶斯规则更好的分类器吗 2 利用贝叶斯法则构造分类器的前提条件是什么 3 为何要估计密度以及如何估计密度 TableofContents 3 1引言 基于样本的Bayes分类器 通过估计类条件概率密度函数 设计相应的判别函数 分类器功能结构 基于样本的直接确定判别函数方法 基于样本的Bayes分类器设计 Bayes决策需要已知两种知识 各类的先验概率P i 各类的条件概率密度函数p x i 知识的来源 对问题的一般性认识或一些训练数据基于样本的两步Bayes分类器设计利用样本集估计P i 和p x i 基于上述估计值设计判别函数及分类器面临的问题 如何利用样本集进行估计估计量的评价利用样本集估计错误率 引言 基于样本的Bayes分类器 最一般情况下适用的 最优 分类器 错误率最小 对分类器设计在理论上有指导意义 获取统计分布及其参数很困难 实际问题中并不一定具备获取准确统计分布的条件 引言 直接确定判别函数 基于样本的直接确定判别函数方法 针对各种不同的情况 使用不同的准则函数 设计出满足这些不同准则要求的分类器 这些准则的 最优 并不一定与错误率最小相一致 次优分类器 实例 正态分布最小错误率贝叶斯分类器在特殊情况下 是线性判别函数g x wTx 决策面是超平面 能否基于样本直接确定w 引言 概率密度估计的方法 类的先验概率P i 的估计 用训练数据中各类出现的频率来估计依靠经验 引言 类条件概率密度函数的估计 两大类方法参数估计 概率密度函数的形式已知 而表征函数的参数未知 需要通过训练数据来估计最大似然估计Bayes估计非参数估计 概率密度函数的形式未知 也不作假设 利用训练数据直接对概率密度进行估计Parzen窗法kn 近邻法 3 2参数估计 统计量 总体的某种信息是样本集K x1 x2 xN 的某种函数f K 参数空间 总体分布的未知参数 所有可能取值组成的集合 点估计和区间估计点估计的估计量 variable 和估计值 value 估计量的评价标准 估计量的评价标准 无偏性 有效性 一致性无偏性 E 有效性 D 小 估计更有效一致性 样本数趋于无穷时 依概率趋于 3 2 1最大似然估计 MaximumLikelihood ML 估计估计的参数 是确定而未知的 Bayes估计方法则视 为随机变量 样本集可按类别分开 不同类别的密度函数的参数分别用各类的样本集来训练 概率密度函数的形式已知 参数未知 为了描述概率密度函数p x i 与参数 的依赖关系 用p x i 表示 独立地按概率密度p x 抽取样本集K x1 x2 xN 用K估计未知参数 似然函数 似然函数 对数 loglarized 似然函数 最大似然估计 最大似然估计 最大似然估计 最大似然估计示意图 最大似然估计 计算方法 最大似然估计量使似然函数梯度为0 最大似然估计 3 2 2贝叶斯估计 最大后验概率 用一组样本集K x1 x2 xN 估计未知参数 未知参数 视为随机变量 先验分布为p 而在已知样本集K出现的条件下的后验概率为p K 最大后验概率估计 Maximumaposteriori MAP 贝叶斯决策问题与贝叶斯估计问题 贝叶斯决策问题 样本x决策ai真实状态wj状态空间A是离散空间先验概率P wj 贝叶斯参数估计问题 样本集K xi 估计量 s真实参数s参数空间S是连续空间参数的先验分布p s 贝叶斯估计 贝叶斯风险最小估计问题 用一组样本集K x1 x2 xN 估计未知参数 使估计带来的风险最小 贝叶斯 最小风险 估计 参数估计的条件风险 给定x条件下 估计量的条件风险 参数估计的风险 估计量的条件风险的期望 贝叶斯估计 使风险最小的估计 贝叶斯估计 贝叶斯估计 II 贝叶斯估计 损失函数定义为误差平方 定理3 1 如果定义损失函数为误差平方函数 则有 贝叶斯估计的步骤 确定 的先验分布p 由样本集K x1 x2 xN 求出样本联合分布 p K 计算 的后验分布计算贝叶斯估计 贝叶斯估计 3 3正态分布的参数估计 最大似然估计示例贝叶斯估计示例 3 3 1一元正态分布例解 最大似然估计 一元正态分布均值的估计 最大似然估计 一元正态分布方差的估计 最大似然估计 多元正态分布参数最大似然估计 最大似然估计是一致估计均值估计是无偏的 协方差矩阵估计是有偏的 协方差矩阵的无偏估计是 总体均值向量和协方差矩阵 最大似然估计 3 3 2一元正态分布贝叶斯估计例解 总体分布密度为 贝叶斯估计 均值 为随机未知变量 的先验分布为 用贝叶斯估计方法求 的估计量 样本集 K x1 x2 xN 计算 的后验分布 一元正态分布例解 II 计算 的后验分布 贝叶斯估计 计算 的贝叶斯估计 一元正态分布例解 总体分布密度为 均值 为随机未知变量 其先验分布为 样本集 K x1 x2 xN 计算 的后验分布 贝叶斯估计 3 4非参数估计 非参数估计 密度函数的形式未知 也不作假设 利用训练数据直接对概率密度进行估计 又称作模型无关方法 参数估计需要事先假定一种分布函数 利用样本数据估计其参数 又称作基于模型的方法两种主要非参数估计方法 核函数方法直方图法Parzen窗法kN 近邻法神经网络方法 PNN 参数PK非参数 非参数估计的优点 1 在利用样本数据对总体进行估计时 不依赖于总体所属的分布总体的分布形式 尤其是当对总体的分布不是很清楚时 因而非参数模型的适用性比较广 与参数方法相比 具有较好的稳健性 2 由于不必假定总体分布的具体形式 所以也无需多总体分布所具有的参数进行估计和检验 如果方法选择得当 非参数估计方法与参数估计的效果相差不多 尤其当参数估计的假设不满足时 非参数估计会比参数估计方法更为有效 非参数估计也有其缺点 1 如果对总体的了解足以确定它的分布类型 非参数估计就不如参数估计那样有更强的针对性 2 它没有充分利用样本所携带的关于总体的信息 因而有时它的效率会低一些 或者在相同的精度下 非参数估计比参数估计需要更大的样本 总体分布的估计直方图 1 计算最大值与最小值的差 知道这组数据的变动范围 2 决定组距与组数 将数据分组 组数 将数据分组 当数据在100个以内时 按数据多少常分5 12组 组距 指每个小组的两个端点的距离 3 决定分点 画频率分布直方图的步骤 4 列出频率分布表 5 画出频率分布直方图 抽查某地区55名12岁男生的身高 单位 cm 的测量值如下 128 1144 4150 3146 2140 6126 0125 6127 7154 4142 7141 2142 7137 6136 9132 3131 8147 7138 4136 6136 2141 6141 1133 1142 8136 8133 1144 5142 4140 8127 7150 7160 3138 8154 3147 9141 3143 8138 1139 7142 9144 7148 5138 3135 3134 5140 6138 4137 3149 5142 5139 3156 1152 2129 8133 2试从以上数据中 对该地区12岁男生的身高情况进行大致的推测 例题 解 频率分布表如下 频率分布条形图如下 身高 利用样本频率分布对总体分布进行相应估计 3 当样本容量无限增大 组距无限缩小 那么频率分布直方图就会无限接近于一条光滑曲线 总体密度曲线 2 样本容量越大 这种估计越精确 1 上例的样本容量为50 如果增至500 其频率分布直方图的情况会有什么变化 假如增至5000呢 总体密度曲线 产品尺寸 a b 图中阴影部分的面积 表示总体在某个区间 a b 内的取值概率 用样本分布直方图去估计相应的总体分布时 一般样本容量越大 频率分布直方图就会无限接近总体密度曲线 就越精确地反映了总体的分布规律 即越精确地反映了总体在各个范围内取值概率 总体密度曲线反映了总体在各个范围内取值的概率 精确地反映了总体的分布规律 是研究总体分布的工具 总体密度曲线 直方图估计法作为一种非参数估计方法 广泛被应用 直方图方法的特点是方法简单直观 但直方图在处多维数据时计算十分复杂 数据的大小范围必须事先知道 密度估计结果曲线不光滑 因此人们开始考虑用核估计方法进行密度估计 SILVERMAN把直方图估计看成是一种一维非参数核密度估计方法 宽度选择对界的影响很大 当直方图的宽度取得很小时个体特征很明显出现多峰状态 图1a 但当宽度越来越大时个特征逐渐消失 图1c 因此 如果使用直方图估计密度时宽度选择必须适中 宽度过大或过小都可能掩盖主统计特征 图1b较为合理 直方图总结 2 核函数方法基本思想 令R是包含样本点x的一个区域 其体积为V 设有n个训练样本 其中有k落在区域R中 则可对概率密度作出一个估计 相当于用R区域内的平均性质来作为一点x估计 是一种数据的平滑 有效性 当n固定时 V的大小对估计的效果影响很大 过大则平滑过多 不够精确 过小则可能导致在此区域内无样本点 k 0 此方法的有效性取决于样本数量的多少 以及区域体积选择的合适 收敛性 构造一系列包含x的区域R1 R2 对应n 1 2 则对p x 有一系列的估计 当满足下列条件时 pn x 收敛于p x 区域选定的两个途径 Parzen窗法 区域体积V是样本数n的函数 如 K 近邻法 落在区域内的样本数k是总样本数n的函数 如 Parzen窗法和K 近邻法 3 4 1Parzen窗方法 定义窗函数 1维数据的窗函数 概率密度函数的估计 超立方体中的样本数 概率密度估计 核函数的选择可以有多种 如Parzen窗 uniform 三角 Triangle Epanechikov 四次 Quartic 三权 Triweight 高斯 Gauss 余弦 Cosinus 指数 Exponent 等 核函数的选择取决于根据距离分配各个样本点对密度贡献的不同 通常选择什么核函数不是密度估计中最关键的因素 因为选用任何核函数都能保证密度估计具有稳定相合性 最重要的是带宽对估计分布的光滑程度影响很大 自然地如何选择带宽将成了最重要的问题 核函数的密度估计之所以能受到欢迎 是因为它在带宽选择上能从数学的角度进行论证带宽最优原则 并且在独立同分布的情况下 核估计量具有逐点渐进无偏性和一致渐进无偏性 均方相合性 强相合性 一致强相合性等 核函数的形式重要吗 窗函数的要求 上述过程是一个内插过程 样本xi距离x越近 对概率密度估计的贡献越大 越远贡献越小 只要满足如下条件 就可以作为窗函数 窗函数的形式 窗函数的宽度对估计的影响 hn称为窗的宽度 窗函数的宽度对估计的影响 识别方法 保存每个类别所有的训练样本 选择窗函数的形式 根据训练样本数n选择窗函数的h宽度 识别时 利用每个类别的训练样本计算待识别样本x的类条件概率密度 采用Bayes判别准则进行分类 3 4 2核函数方法 估计的目的 从样本集K x1 x2 xN 估计样本空间中任何一点的概率密度p x 基本方法 用某种核函数表示某一样本对估计密度函数的贡献 所有样本所作贡献的线性组合视作对某点概率密度p x 的估计 非参数估计 核函数方法图解 非参数估计 一个样本对自己所在位置的分布贡献最大 离得越远贡献越小 基本方法 基本思想 两种常用的方法 Parzen窗法 kN 近邻法 非参数估计 3 4 3Parzen窗法 样本集KN x1 x2 xN 区域RN是一个d维超立方体 棱长hN 体积VN hNd定义窗核函数 落入超立方体内样本数kN 某点概率密度p x 的估计 非参数估计 计数函数 核函数的选择 核函数需满足归一化条件 两种常用的核函数 均匀核 方窗 正态核 高斯窗 非参数估计 窗宽的选择 hN是控制 窗 宽度的参数 根据样本的数量选择 太大 平均化 分辨力低太小 统计变动大 不同窗宽的估计效果 非参数估计 估计密度函数的统计性质 为保证估计依概率渐进收敛到真实的概率密度 即 估计密度函数是渐进无偏和平方误差一致的 其充要条件 非参数估计 65 Parzen窗法示例1 非参数估计 估计单一正态分布 66 Parzen窗法示例2 非参数估计 估计两个均匀分布 示例代码 mus 0 20 3 0 350 75 0 650 55 0 80 25 C 0 0180 007 0 0070 011 z gauss 200 mus C x y gendat z 100 w parzenc x Parzenfigure 1 scatterd z holdon plotm w figure 2 scatterd z holdon plotc w z gauss 1000 mus C x y gendat z 900 w parzenc x figure 3 scatterd z holdon plotm w Parzen窗法估计正态分布的2D数据 样本数 100 样本数 900 有限样本的影响 密度估计的均方误差 维数灾难 CurseofDimensionality 当维数较高时 样本数量无法达到精确估计的要求 非参数估计 3 4 4kN 近邻法 均匀核函数Parzen窗估计 窗宽固定 不同位置落在窗内的样本点的数目是变化的 kN 近邻估计 把窗扩大到刚好覆盖kN个点 落在窗内的样本点的数目固定 窗宽是变化的 kN根据样本总数N选择 概率密度估计表达式 非参数估计 点x处窗的 体积 是Vn 收敛条件 经验值 kN 近邻法举例 kN的选择 渐进收敛容易保证 有限样本性质 最小平方误差与Parzen窗方法几乎相同 非参数估计 3 5分类器错误率的估计 在处理实际问题时 更多的是利用样本来估计错误率 对于已设计好的分类器 利用样本来估计错误率 TestDataset 对于未设计好的分类器 需将样本分成两部分 TrainDataset和TestDataset 1 已设计好的分类器的错误率估计 错误率的估计 错分样本数 总样本数 错误率估计 这是错误率的最大似然估计 错分样本数k是随机变量 服从二项分布 错误率估计的统计性质 是真实错误率的无偏估计 测试样本数越多 1 估计越有效 2 估计的置信区间越小 如果已知各类的先验概率 则可进行选择性抽样产生测试样本集 这比随机抽样更为有效 错误率估计 未设计好的分类器的错误率估计 需要把样本集分为训练集和测试集C 法 利用N个样本设计 也利用这N个样本测试 得到乐观估计 U 法 把样本集分为训练集和测试集 得到保守估计 样本划分法 样本数需要比较多 测试样本数越多越有效 留一法 样本较少时 N 1个样本设计 另一样本测试 遍历N个样本 假设错分样本数为K 则错误率估计为 错误率估计 3 6讨论 概率密度函数包含了随

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论