第三章-概率密度-刘园园-20180509.ppt_第1页
第三章-概率密度-刘园园-20180509.ppt_第2页
第三章-概率密度-刘园园-20180509.ppt_第3页
第三章-概率密度-刘园园-20180509.ppt_第4页
第三章-概率密度-刘园园-20180509.ppt_第5页
免费预览已结束,剩余136页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分类器 判别函数 决策面 分类器 判别函数 决策面 判别函数Discriminantfunctions 分类器 判别函数 决策面 基于最小误差概率的判别函数基于最小总风险的判别函数 分类器 判别函数 决策面 判别函数和决策面 分类器 判别函数 决策面 分类器设计就是设计判别函数 求出判定面方程g x 贝叶斯决策理论 引言贝叶斯决策常用的准则分类器 判别函数 决策面正态分布的判别函数 正态分布的统计决策 单变量正态分布密度函数 高斯分布 正态分布的统计决策 多元正态分布函数 期望 均值向量 协方差矩阵 对称非负定 其中 d维向量 d d矩阵 多元正态分布的性质 要使密度p x 值不变 需指数项为常数 即 多元正态分布的性质 马氏距离 MahanlanobisDistance 与欧式距离 不同 马氏距离考虑数据的统计分布 在模式识别中有广泛的用处 多元正态分布的性质 正态分布的等密度点的轨迹为超球面 正态分布的判别函数 1 贝叶斯判别函数可以写成对数形式 类条件概率密度函数为正态分布时 2 决策面方程 正态分布的判别函数 情况一 将 代入判决函数 得到判决函数 展开决策函数 正态分布的判别函数 情况一 将 代入判决函数 得到判决函数 正态分布的判别函数 最小距离分类器 当 通过测量每一x到c个均值向量中心的每一个欧氏距离 并将x归为离它最近的那一类 这样的分类器称为 最小距离分类器 因此 等价的判决函数为线性函数 如下 其中 决策面 可以写成 其中 决策面是一个超平面 1 当 位于两中心的中点 决策面方程 当 位于两中心的中点 在先验概率相等的情况下 最优判决的规则为 为将某特征向量x归类 通过测量每一x到c个均值向量中心的每一个欧氏距离 并将x归为离它最近的那一类 这样的分类器称为 最小距离分类器 各类的协方差矩阵相等 在几何上 相当于各类样本集中在以该类均值为中心的同样大小和形状的超椭球内 情况二 判别函数 不变 与i无关 判别函数化简为 正态分布的判别函数 一般地 决策函数 展开判别函数 对所有的i是相等的 则 其中 因此 判别函数是x的线性判别函数 决策面是一个超平面 决策面方程 可以写成 其中 由于 并非沿着 方向 因此分界面并非与均值 间的连线垂直正交 过与正交的超平面 当各类先验概率相等时 情况三 任意的 去掉与i无关的项 可以写为 其中二次项 一次项系数和常数项分别为 由于 对应的决策面为超二次曲面 第i类和第j类的决策面为 随着 的不同 超二次曲面可以 为 超球面 超椭球面 超抛物面 超双曲面 或超平面等 即 情况三 各类协方差不同 决策面为为超二次曲面 上述结果表示在二维特征空间里 如下图所示 正态分布的判别函数 例 两类正态分布样本 求决策面方程 令 决策面方程为 和 中点 偏下 刘芳 刘园园 尚凡华 概率密度估计 2020 4 18 西安电子科技大学计算机学院 生成模型与判别模型 2020 4 18 西安电子科技大学计算机学院 常见的判别模型有 KNN SVM 常见的生成模型有 朴素贝叶斯 隐马尔可夫模型 Gaussians 生成模型与判别模型 2020 4 18 西安电子科技大学计算机学院 生成模型 先对数据的联合分布建模 再通过贝叶斯公式计算样本属于各个类别的后验概率 由数据学习联合概率p x y 然后求出后验概率p y x 作为预测的模型 即 P y x p x y p x 特点 可以从统计的角度表示数据的分布情况 能反映同类数据本身的相似度 但不关心各类的边界在哪 学习收敛速度更快 存在隐变量时 仍适用 生成模型与判别模型 2020 4 18 西安电子科技大学计算机学院 判别模型 判别模型 直接对条件概率建模 不关心背后的数据分布 在有限样本下建立判别函数 不考虑样本的生成模型 直接研究预测模型 特点 直接学习的是条件概率分布 不能反映训练数据本身的特性 寻找不同类别之间的最优分界面 反映异类数据之间的差异 学习的准确率高 生成模型与判别模型 2020 4 18 西安电子科技大学计算机学院 生成模型与判别模型 2020 4 18 西安电子科技大学计算机学院 判别模型会生成一个表示P Y X 的判别函数 或预测模型 而生成模型先计算联合概率p Y X 然后通过贝叶斯公式转化为条件概率 简单来说 在计算判别模型时 不会计算联合概率 而在计算生成模型时 必须先计算联合概率 或者这样理解 生成算法尝试去找到底这个数据是怎么生成的 产生的 然后再对一个信号进行分类 基于你的生成假设 那么那个类别最有可能产生这个信号 这个信号就属于那个类别 判别模型不关心数据是怎么生成的 它只关心信号之间的差别 然后用差别来简单对给定的一个信号进行分类 概率密度估计 2020 4 18 西安电子科技大学计算机学院 引言最大似然估计贝叶斯参数估计非参数估计方法 引言 贝叶斯决策要事先知道两种知识 各类的先验概率特征向量的类条件概率密度实际问题 已知一定数目的样本 对未知样本分类 设计分类器 计算后验概率 如何得到先验概率与类条件概率密度 引言 一种很自然的想法 两步贝叶斯决策 首先根据样本估计和 分别记为 和然后用估计的概率密度设计贝叶斯分类 基于样本的 两步贝叶斯决策 引言 希望 当样本数N 时 如此得到的分类器收敛于理论上的最优解 即满足 重要前提 训练样本的分布能代表样本的真实分布 每个样本集中的样本都是所谓独立同分布的随机变量 i i d条件 且有充分的训练样本 引言 类的先验概率的估计 较容易 依靠经验用训练数据中各类出现的频率估计用频率估计概率的优点 无偏性收敛速度快 引言 类条件概率密度的估计 非常难 概率密度函数包含了一个随机变量的全部信息概率密度函数可以是满足下面条件的任何函数 引言 本章重点介绍类条件概率密度的估计利用同一类的样本估计本类的类条件概率密度概率密度是统计推断的重要内容概率密度的估计方法 参数估计 利用样本来估计这些参数已知 概率密度函数形式 未知 参数未知 最大似然估计 贝叶斯估计非参数估计 概率密度函数的形式未知 或者概率密度不符合目前研究的任何分布模型 利用样本吧概率密度函数数值化地估计出来 直方图方法 K 近邻方法 Parzen窗方法 引言 参数估计的基本概念统计量 样本中包含着总体信息 根据不同要求构造出样本的某种函数 这种函数在统计学中成为统计量 参数空间 参数估计中 总是假设总体概率密度函数已知 而未知的仅是分布中的参数 未知参数的全部可容许值组成的集合称为参数空间 点估计 估计量和估计值 点估计问题 要构造一个统计量作为参数的估计 在统计学中成为的估计量 如果是属于类别的几个样本观测值 带入统计量d就得到对于第i类的的具体数值 这个数值在统计学称为的估计量 最大似然估计 贝叶斯估计都是点估计 引言 参数估计的基本概念区间估计 用区间 d1 d2 作为可能的取值范围的一种估计 这个区间成为置信区间 估计方法的评价标准无偏性 样本无穷大才具有无偏性 称为渐近无偏有效性 如果一种估计的方差比另一种估计的方差小 则称方差小的估计更有效 一致性 对于任意给定的正数 总有则称为的一致估计 引言 无偏 有效 多次估计 并不能保证具体的一次估计的性能 一致性保证样本无穷多时 每一次的估计量都将概率意义上接近真实值 引言 本章探讨的重点内容 如何利用样本集估计概率密度函数 估计量的性质如何 如何根据样本集估计错误率 最大似然估计 ML 假设条件 1 已知C类样本的集合 是从 的总体中独立抽取出来的 2 第i类样本 密度为 独立同分布假设 i i d 3 类条件概率密度形式已知 正态分布 仅参数 未知 4 各类样本只包含本类分布的信息 不同类别参数独立 最大似然估计 ML 其中 参数 通常是向量 比如 一维正态分布 未知参数可能是 此时 可写成 或写成 最大似然估计 ML 要解决的问题 给定C类i i d 样本集 估计每一类的类条件概率密度 每一类分别进行单独估计 分别估计每一类条件概率密度函数中的参数值 参数估计 参数估计 parametricmethods 最大似然估计 ML估计 贝叶斯估计 Bayesian估计 最大似然估计 ML 鉴于上述假设 我们可以只考虑一类样本 记已知样本为 似然函数 likelihoodfunction 在参数 下观测到样本集X的概率 联合分布 密度 最大似然估计 ML 最大似然估计的基本思想 如果在参数 下 最大 则 应是 最可能 的参数值 记作 它是样本集的函数 称作最大似然估计量 最大似然估计 ML ML MaximumLikelihood 估计 要求使得出现该组样本的概率最大 实际中为了便于分析 定义对数似然函数 即 最大似然估计 ML 最大似然估计的求解 必要条件是似然函数的梯度为0 若似然函数满足连续可导的条件 则最大似然估计量就是方程 似然函数 的解 必要条件 最大似然估计 ML ML估计的解通过最大化似然函数或对数似然函数实现 样本分布 估计参数 似然函数 最大似然估计 ML 若未知参数不止一个 即 记梯度算子 则最大似然估计量的必要条件由S个构成的方程组 最大似然估计 ML 如果似然函数连续可导 存在最大值 且上述必要条件方程组有唯一解 则其解就是最大似然估计量 如果必要条件有多解 则需从中求似然函数最大者若不满足连续可导 则无一般性方法 用其它方法求最大 如 均匀分布的情况 最大似然估计 ML 均匀分布的情况 ML无法求解 最大似然估计 ML 观察值中最小的 观察值中最大的 的最小可能值 正态分布情况 仅参数未知 最大似然估计 ML 对 求导 最大似然估计 ML 令 得 结论 的最大似然估计值为样本集合中所有样本的均值 最大似然估计 ML 正态分布情况 参数均未知 一元正态分布时 样本集 对数似然函数 最大似然估计 ML 最大似然估计满足方程 而 最大似然估计 ML 于是 有方程组 解得 最大似然估计 ML d元正态分布时 样本的算术平均 矩阵的算术平均 统计量的无偏性 无偏估计 的ML估计是无偏估计 的ML估计是有偏估计 是渐近无偏估计 但当n 时 渐近无偏估计 最大似然估计 ML 最大似然估计的基本思想 如果在参数 下 最大 则 应是 最可能 的参数值 记作 它是样本集的函数 称作最大似然估计量 最大似然估计 ML ML MaximumLikelihood 估计 要求使得出现该组样本的概率最大 实际中为了便于分析 定义对数似然函数 即 最大似然估计 ML 最大似然估计的求解 必要条件是似然函数的梯度为0 若似然函数满足连续可导的条件 则最大似然估计量就是方程 似然函数 的解 必要条件 最大似然估计 ML 若未知参数不止一个 即 记梯度算子 则最大似然估计量的必要条件由S个构成的方程组 最大似然估计 ML 如果似然函数连续可导 存在最大值 且上述必要条件方程组有唯一解 则其解就是最大似然估计量 如果必要条件有多解 则需从中求似然函数最大者若不满足连续可导 则无一般性方法 用其它方法求最大 如 均匀分布的情况 正态分布情况 仅参数未知 最大似然估计 ML 对 求导 最大似然估计 ML 令 得 结论 的最大似然估计值为样本集合中所有样本的均值 最大似然估计 ML 正态分布情况 参数均未知 一元正态分布时 样本集 对数似然函数 最大似然估计 ML 最大似然估计满足方程 而 最大似然估计 ML 于是 有方程组 解得 最大似然估计 ML d元正态分布时 样本的算术平均 矩阵的算术平均 最大似然估计 ML ML估计总结简单性收敛性 无偏或者渐近无偏如果假设的类条件概率模型正确 则通常能获得较好的结果 但果假设模型出现偏差 将导致非常差的估计结果 参数估计 参数估计 parametricmethods 最大似然估计 ML估计 贝叶斯估计 Bayesian估计 贝叶斯估计 ML估计 仅从训练样本出发根据每一类的训练样本估计每一类的类条件概率密度 Bayesian估计 从参数的先验知识和样本出发同样根据每一类的训练样本估计每一类的类条件概率密度 但不再把参数看成是一个未知的确定变量 而是看成未知的随机变量 通过对第i类样本的观察 使概率密度分布转化为后验概 再求贝叶斯估计 贝叶斯决策问题 样本x决策 i真实状态wj状态空间A是离散空间先验概率P wj 贝叶斯参数估计问题 样本集估计量真实参数 参数空间 是连续空参数的先验分布P 条件风险 最小 损失函数 贝叶斯估计的思路与贝叶斯决策类似 只是离散的决策状态变成了连续的估计 贝叶斯估计 离散情况下 损失函数表 连续情况下 损失函数 常用损失函数 平方误差损失函数 贝叶斯估计 可以证明 如果采用平方误差损失函数 则 的贝叶斯估计量是在给定x时 的条件期望 即 证明略 也就是说 时 采用平方误差损 失函数的最小风险贝叶斯估计达到期望风险的最小值 贝叶斯估计 求贝叶斯估计的方法 平方误差损失下 先验概率与概率密度共轭 先验分布能够使得概率密度与后验概率的分布相同 正态分布情况 仅参数未知 贝叶斯估计 给定样本集 已知随机变量 均值未知而方差已知 均值变量的先验分布 求 的后验概率 吸收所有与 无关的项 共轭 的二次函数的指数函数 所以仍然是一个正态密度函数 由两式指数项中对应的系数相等得 其中 求解方程组得 其中 求 的贝叶斯估计值 的期望 因此 的贝叶斯估计值 其中 一般情况下 特殊情况 先验知识可靠 样本不起作用 先验知识十分不确定 完全依靠样本信息 样本无穷多 等价于最大似然估计 先验知识 n 样本数量 方差 随着样本数n的递增 方差单调递减 即新增的样本能够减少关于 的估计的不确定性 贝叶斯估计 通过观察数据集D 将先验概率密度P 转化为后验概率密度P D 并期望其在真实的 值处有一个尖峰 ML估计和Bayesian估计的比较 Bayesian估计 ML估计 ML估计和Bayesian估计的比较 ML估计1 参数为未知确定变量2 没有利用参数先验信息3 估计的概率模型与假设模型一致4 可理解性好5 计算简单 Bayesian估计1 参数为未知随机变量2 利用参数的先验信息3 估计的概率模型相比于假设模型会发生变化4 可理解性差5 计算复杂 其他分布情况 贝叶斯估计框架中的数学期望中的积分很难计算时吉布斯采样 GibbsSampling 等方法对参数的后验分布进行随机采样 用采样得到的参数的算数平均来估数学期望 这种采样不需要计算分母部分 参阅教材StatisticalPatternRecognition或者马尔科夫链蒙特卡罗MCMC的有关教材 2020 4 18 西安电子科技大学计算机学院 93 吉布斯采样 GibbsSampling 2020 4 18 西安电子科技大学计算机学院 94 贝叶斯估计 通过观察数据集D 将先验概率密度P 转化为后验概率密度P D 并期望其在真实的 值处有一个尖峰 非参数估计 引言 参数化估计 ML方法和Bayesian估计 假设概率密度形式已知 实际中概率密度形式往往未知 实际中概率密度往往是多模的 即有多个局部极大值 实际中样本维数较高 且关于高维密度函数可以表示成一些低维密度函数乘积的假设通常也不成立 本章介绍非参数密度估计方法 能处理任意的概率分布 而不必假设密度函数的形式已知 主要内容 直方图估计k 近邻分类器 k NN Parzen窗估计 非参数估计 概率密度估计问题 给定i i d 样本集 估计概率分布 非参数估计 直方图方法 非参数概率密度估计的最简单方法1 把x的每个分量分成k个等间隔小窗 x Ed 则形成kd个小舱 2 统计落入各个小舱内的样本数qi3 相应小舱的概率密度为 qi NV N 样本总数 V 小舱体积 非参数估计 直方图的例子 直方图估计 非参数概率密度估计的核心思路 一个向量x落在区域R中的概率P为 因此 可以通过统计概率P来估计概率密度函数p x 直方图估计 假设N个样本的集合 是根据概率密度 函数为p x 的分布独立抽取得到的 那么 有k个样本落在区域R中的概率服从二项分布 满足 k的期望值为 对P的估计 当时 估计是非常精确的 证明 直方图估计 假设p x 是连续的 且R足够小使得p x 在R内几乎没有变化 令R是包含样本点x的一个区域 其体积为V 设有N个训练样本 其中有k落在区域R中 则可对概率密度作出一个估计 对p x 在小区域内的平均值的估计 直方图估计 当样本数量N固定时 体积V的大小对估计的效果影响很大 过大则平滑过多 不够精确 过小则可能导致在此区域内无样本点 k 0 此方法的有效性取决于样本数量的多少 以及区域体积选择的合适 非参数估计 直方图的例子 过大则平滑过多 不够精确 过小则可能导致在此区域内无样本点 k 0 平均密度 窗口大小固定 窗口位置固定 非参数概率密度估计 收敛性问题 样本数量N无穷大是 估计的概率函数是否收敛到真实值 非参数概率密度估计 如果要求 能够收敛到p x 那么必须满足 1 随着样本数的增加 小舱体积应该尽可能小 2 同时又能保证小舱内有充分多的样本 3 但每个小舱内的样本数又必须是总样本数中很小的一部分 非参数贝叶斯概率密度估计 如果要求 能够收敛到p x 那么必须满足 选择Vn 选择kn 概率密度估计 两种选择方法 主要内容 直方图估计 窗口位置 大小固定 平均概率密度Parzen窗估计 滑动窗口 窗口大小固定 使用滑动窗口估计每个点的概率密度k 近邻分类器 k NN Parzen窗估计 定义窗函数 假设Rn是一个d维的超立方体 令hn为超立方体一条边的长度 则体积 立方体窗函数为 中心在原点的单位超立方体 Parzen窗估计 X处的密度估计为 落入以X为中心 h为棱长的立方体区域的样本数为 可以验证 窗函数的要求 Parzen窗估计过程是一个内插过程 样本xi距离x越近 对概率密度估计的贡献越大 越远贡献越小 只要满足如下条件 就可以作为窗函数 窗函数的形式 方窗函数 指数窗函数 正态窗函数 其中 窗口宽度的影响 Parzen估计的性能与窗宽参数hn紧密相关当hn较大时 x和中心xi距离大小的影响程度变弱 估计的p x 较为平滑 分辨率较差 当hn较小时 x和中心xi距离大小的影响程度变强 估计的p x 较为尖锐 分辨率较好 窗口宽度的影响 窗函数 密度估计值 5个样本的Parzen窗估计 渐近收敛性 Parzen窗密度估计的渐近收敛性 渐进无偏性 一致性 当时 x是一维的 上式用图形表示是6个分别以3 2 3 6 3 6 2 5 1 1为中心的正态曲线 而PN x 则是这些曲线之和 代入 由图看出 每个样本对估计的贡献与样本间的距离有关 样本越多 PN x 越准确 例 设待估计的P x 是个均值为0 方差为1的正态密度函数 若随机地抽取X样本中的1个 16个 256个作为学习样本xi 试用窗口法估计PN x 解 采用正态窗函数 0 1hN 窗长度 N为样本数 h1为选定可调节的参数 由图看出 PN x 随N h1的变化情况 当N 1时 PN x 是一个以第一个样本为中心的正态曲线 与窗函数差不多 当N 16及N 256时h1 0 25曲线起伏很大 噪声大h1 1起伏减小h1 4曲线平坦 当N 时 PN x 收敛于一平滑的正态曲线 估计曲线较好 例 待估的密度函数为二项分布解 此为多峰情况的估计设窗函数为正态解 此为多峰情况的估计设窗函数为正态 x 2 5 2 1 0 25 0 2 P x 2 5 x 2 0 x 2 x为其它 当N 1 16 256 时的PN x 估计如图所示 当N 1时 PN x 实际是窗函数 当N 16及N 256时h1 0 25曲线起伏大h1 1曲线起伏减小h1 4曲线平坦 当N 时 曲线较好 Parzen窗估计 优点由前面的例子可以看出 Parzen窗估计的优点是应用的普遍性 对规则分布 非规则分布 单锋或多峰分布都可用此法进行密度估计 可以获得较为光滑且分辨率较高的密度估

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论