概率密度函数的估计..ppt_第1页
概率密度函数的估计..ppt_第2页
概率密度函数的估计..ppt_第3页
概率密度函数的估计..ppt_第4页
概率密度函数的估计..ppt_第5页
免费预览已结束,剩余45页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章概率密度函数的估计 概率密度估计的基础知识参数估计理论极大似然估计 MLE 贝叶斯估计 或称最大后验估计 贝叶斯学习非参数估计理论密度估计Parzen窗估计K近邻估计 KNE 4 1概率密度估计的基础知识贝叶斯分类器中只要知道先验概率 条件概率或后验概概率P i P x i P i x 就可以设计分类器了 现在来研究如何用已知训练样本的信息去估计P i P x i P i x 一 参数估计与非参数估计参数估计 先假定研究的问题具有某种数学模型 如正态分布 二项分布 再用已知类别的学习样本估计里面的参数 非参数估计 不假定数学模型 直接用已知类别的学习样本的先验知识直接估计数学模型 二 监督参数估计与非监督参数估计监督参数估计 样本所属的类别及类条件总体概率概率密度函数的形式已知 而表征概率密度函数的某些参数是未知的 目的在于 由已知类别的样本集对总体分布的某些参数进行统计推断 此种情况下的估计问题称为监督参数估计 非监督参数估计 已知总体概率密度函数形式但未知样本所属类别 要求推断出概率密度函数的某些参数 称这种推断方法为非监督情况下的参数估计 注 监督与非监督是针对样本所属类别是已知还是未知而言的 三 参数估计的基本概念1 统计量 样本中包含着总体的信息 总希望通过样本集把有关信息抽取出来 也就是说 针对不同要求构造出样本的某种函数 该函数称为统计量 2 参数空间 在参数估计中 总假设总体概率密度函数的形式已知 而未知的仅是分布中的参数 将未知参数记为 于是将总体分布未知参数的全部可容许值组成的集合称为参数空间 记为 3 点估计 估计量和估计值 点估计问题就是构造一个统计量作为参数的估计 在统计学中称为的估计量 若是属于类别的几个样本观察值 代入统计量d就得到对于第i类的的具体数值 该数值就称为的估计值 4 区间估计 除点估计外 还有另一类估计问题 要求用区间作为可能取值范围得一种估计 此区间称为置信区间 该类估计问题称为区间估计 5 参数估计方法 参数估计是统计学的经典问题 解决方法很多 在此只考虑两种常用方法 一种是最大似然估计方法 另一种是贝叶斯估计方法 1 最大似然估计 把参数看作是确定而未知的 最好的估计值是在获得实际观察样本的最大的条件下得到的 2 贝叶斯估计 把未知的参数当作具有某种分布的随机变量 样本的观察结果使先验分布转化为后验分布 再根据后验分布修正原先对参数的估计 6 参数估计的评价 评价一个估计的 好坏 不能按一次抽样结果得到的估计值与参数真值的偏差大小来确定 而必须从平均和方差的角度出发进行分析 即关于估计量性质的定义 4 2参数估计理论一 极大似然估计假定 待估参数 是确定的未知量 按类别把样本分成M类X1 X2 X3 XM其中第i类的样本共N个Xi X1 X2 XN T并且是独立从总体中抽取的 Xi中的样本不包含 i j 的信息 所以可以对每一类样本独立进行处理 第i类的待估参数根据以上四条假定 我们下边就可以只利用第i类学习样本来估计第i类的概率密度 其它类的概率密度由其它类的学习样本来估计 1 一般原则 第i类样本的类条件概率密度 P Xi i P Xi i i P Xi i 原属于i类的学习样本为Xi X1 X2 XN Ti 1 2 M求 i的极大似然估计就是把P Xi i 看成 i的函数 求出使它极大时的 i值 学习样本独立从总体样本集中抽取的 N个学习样本出现概率的乘积取对数 对 i求导 并令它为0 有时上式是多解的 上图有5个解 只有一个解最大即 P Xi i 2 多维正态分布情况 已知 未知 估计 服从正态分布所以在正态分布时 代入上式得 所以 有 这说明未知均值的极大似然估计正好是训练样本的算术平均 均未知A 一维情况 n 1对于每个学习样本只有一个特征的简单情况 n 1 由上式得即学习样本的算术平均样本方差 讨论 1 正态总体均值的极大似然估计即为学习样本的算术平均2 正态总体方差的极大似然估计与样本的方差不同 当N较大的时候 二者的差别不大 B 多维情况 n个特征 推导过程 作为练习 估计值 结论 的估计即为学习样本的算术平均 估计的协方差矩阵是矩阵的算术平均 n n阵列 n n个值 二 贝叶斯估计极大似然估计是把待估的参数看作固定的未知量 而贝叶斯估计则是把待估的参数作为具有某种先验分布的随机变量 通过对第i类学习样本Xi的观察 通过贝叶斯准则将概率密度分布P Xi 转化为后验概率P Xi 进而求使得后验概率分布最大的参数估计 也称最大后验估计 估计步骤 确定 的先验分布P 待估参数为随机变量 用第i类样本xi x1 x2 xN T求出样本的联合概率密度分布P xi 它是 的函数 利用贝叶斯公式 求 的后验概率 下面以正态分布的均值估计为例说明贝叶斯估计的过程 一维正态分布 已知 2 估计 假设概率密度服从正态分布P X N 2 P N 0 02 第i类学习样本xi x1 x2 xN T i 1 2 M第i类概率密度P x i xi P x xi 所以由贝叶斯公式 则可得后验概率 因为N个样本是独立抽取的 所以上式可以写成其中为比例因子 只与x有关 与 无关 P Xk N 2 P u N 0 02 其中a a 包含了所有与 无关的因子 P Xi 是u的二次函数的指数函数 P Xi 仍然是一个正态函数 P Xi N N N2 另外后验概率可以直接写成正态形式 比较以上两个式子 对应的系数应该相等 解以上两式得将 N 代入P Xi 可以得到后验概率 再用公式 对 的估计为若令P N 0 02 N 0 1 即为标准正态分布 且总体分布的方差也为1 则此时估计与极大似然估计相似 只是分母不同 三 贝叶斯学习1 贝叶斯学习的概念 通过已有的概率分布和观测数据推理求出 的后验概率之后 直接去推导总体分布 形式已知 即当观察一个样本时 N 1就会有一个 的估计值的修正值 当观察N 4时 对 进行修正 向真正的 靠近 当观察N 9时 对 进行修正 向真正的 靠的更近 当观察N个样本后 N就反映了观察到N个样本后对 的最好推测 而 N2反映了这种推测的不确定性 N N2 N2随观察样本增加而单调减小 且当N N2 0 当N P xi 越来越尖峰突起 于是N P xi 函数 即收敛于一个以真实参数为中心的函数 这个过程成为贝叶斯学习 2 类概率密度的估计在求出u的后验概率P xi 后 可以直接利用式推断类条件概率密度 即P x xi P x i xi 一维正态 已知 2 未知 的后验概率为 结论 把第i类的先验概率P i 与第i类概率密度P x xi 相乘可以得到第i类的后验概率P i x 根据后验概率可以分类 对于正态分布P x xi 用样本估计出来的 N代替原来的 用代替原来的方差即可 把估计值 N作为 的实际值 那么使方差由原来的变为 使方差增大 也就是说 用 的估计值 N代替真实值 将引起不确定性增加 多维正态 已知 估计 设P x N P N 0 0 根据Bayes公式 仿上面步骤可以得到 N N有以下关系 其中a与 无关 这就是在多维情况下 对 的估计 4 3非参数估计参数估计要求密度函数的形式已知 但这种假定有时并不成立 常见的一些函数形式很难拟合实际的概率密度 经典的密度函数都是单峰的 而在许多实际情况中却是多峰的 因此用非参数估计 非参数估计 直接用已知类别样本去估计总体密度分布 方法有 用样本直接去估计类概率密度p x i 以此来设计分类器 如窗口估计 用学习样本直接估计后验概率p i x 作为分类准则来设计分类器 如KN近邻法 1 密度估计原理 一个随机变量X落在区域R的概率为PP X 为P X 在R内的变化值 P X 就是要求的总体概率密度 假设有N个样本X X1 X2 XN T都是按照P X 从总体中独立抽取的 若N个样本中有k个落入在R内的概率符合二项分布其中 P是样本X落入R内的概率 Pk是k个样本落入R内的概率数学期望 E k k NP 对概率P的估计 是P的一个比较好的估计设P x 在R内连续变化 当R逐渐减小的时候 小到使P x 在其上几乎没有变化时 则其中是R包围的体积 条件密度的估计 V足够小 讨论 当V固定的时候N增加 k也增加 当时只反映了P x 的空间平均估计而反映不出空间的变化 N固定 体积变小当时 k 0时时所以起伏比较大 噪声比较大 需要对V进行改进 对体积V进行改进 为了估计X点的密度 我们构造一串包括X的区域序列 R1 R2 RN 对R1采用一个样本进行估计 对R2采用二个样本进行估计 设VN是RN的体积 KN是N个样本落入VN的样本数 则 密度的第N次估计 其中 VN是RN的体积 KN是N个样本落入VN的样本数 PN x 是P x 的第N次估计 若PN x 收敛于P x 应满足三个条件 当N 时 VN N VN 0这时虽然样本数多 但由于VN 落入VN内的样本KN也减小 所以空间变化才反映出来 N KN N与KN同向变化 KN的变化远小于N的变化 因此尽管在R内落入了很多的样本 但同总数N比较 仍然是很小的一部分 如何选择VN满足以上条件 使体积VN以N的某个函数减小 如 h为常数 窗口法 使KN作为N的某个函数 例VN的选择使RN正好包含KN个近邻V1 K1 V2 K2 VR KR KN近邻法 2 Parzen窗口估计假设RN为一个d维的超立方体 hN为超立方体的长度 超立方体体积为 d 1 窗口为一线段d 2 窗口为一平面d 3 窗口为一立方体d 3 窗口为一超立方体窗口的选择 方窗函数 指数窗函数 正态窗函数 u u u hN 正态窗函数 u 是以原点x为中心的超立方体 在xi落入方窗时 则有在VN内为1不在VN内为0落入VN的样本数为所有为1者之和 密度估计 讨论 每个样本对估计所起的作用依赖于它到x的距离 即 x xi hN 2时 xi在VN内为1 否则为0 称为的窗函数 取0 1两种值 但有时可以取0 0 1 0 2 多种数值 例如随xi离x接近的程度 取值由0 0 1 0 2 到1 要求估计的PN x 应满足 为满足这两个条件 要求窗函数满足 窗长度hN对PN x 的影响若hN太大 PN x 是P x 的一个平坦 分辨率低的估计 有平均误差若hN太小 PN x 是P x 的一个不稳定的起伏大的估计 有噪声误差为了使这些误差不严重 hN应很好选择 例1 对于一个二类 1 2 识别问题 随机抽取 1类的6个样本X x1 x2 x6 1 x1 x2 x6 x1 3 2 x2 3 6 x3 3 x4 6 x5 2 5 x6 1 1 估计P x 1 即PN x 解 选正态窗函数 0 1 2 3 4 5 6 x6 x5 x3 x1 x2 x4 x x是一维的上式用图形表示是6个分别以3 2 3 6 3 6 2 5 1 1为中心的丘形曲线 正态曲线 而PN x 则是这些曲线之和 由图看出 每个样本对估计的贡献与样本间的距离有关 样本越多 PN x 越准确 例2 设待估计的P x 是个均值为0 方差为1的正态密度函数 若随机地抽取X样本中的1个 16个 256个作为学习样本xi 试用窗口法估计PN x 解 设窗口函数为正态的 1 0hN 窗长度 N为样本数 h1为选定可调节的参数 讨论 由图看出 PN x 随N h1的变化情况 当N 1时 PN x 是一个以第一个样本为中心的正态形状的小丘 与窗函数差不多 当N 16及N 256时h1 0 25曲线起伏很大 噪声大h1 1起伏减小h1 4曲线平坦 平均误差 当N 时 PN x 收敛于一平滑的正态曲线 估计曲线较好 例3 待估的密度函数为两个均匀分布密度的混合密度解 此为多峰情况的估计设窗函数为正态 2 5 x 2 0 x 2 其它 当N 1 16 256 时的PN x 估计如图所示 当N 1时 PN x 实际是窗函数 当N 16及N 256时h1 0 25曲线起伏大 h1 1曲线起伏减小h1 4曲线平坦 当N 时 曲线较好 结论 由上例知窗口法的优点是应用的普遍性 对规则分布 非规则分布 单锋或多峰分布都可用此法进行密度估计 要求样本足够多 才能有较好的估计 因此使计算量 存储量增大 3 KN近邻估计 在窗口法中存在一个问题是对hN的选择问题 若hN选太小 则大部分体积将是空的 即不包含样本 从而使PN x 估计不稳定 若hN选太大 则PN x 估计较平坦 反映不出总体分布的变化 而KN近邻法的思想是以x为中心建立空包 使V 直到捕捉到KN个样本为止 因此称其为KN 近邻估计 V的改进体现为 样本密度大 VN 样本密度小 VN P x 的估计为 使PN x 收敛于P x 的充分必要条件 N与KN同相变化 KN的变化远小于N的变化 V1为N 1时的VN值 KN近邻估计对KN和VN都作了限制KN近邻法作后验概率的估计由KN近邻估计知N个已知类别样本落入VN内为KN个样本的概率密度估计为 N个样本落入VN内有KN个 KN个样本内有Ki个样本属于 i类则联合概率密度 根据Bayes公式可求出后验概率 类别为 i的后验概率就是落在VN内属于 i的样本ki与VN内总样本数KN的比值 K近邻分类准则 对于待分样本x 找出它的k个近邻 检查它的类别 把x归于样本最多的那个类别 K近邻分类的错误率随K Pk 最低的错误率为Bayes分类 P PK

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论