版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2022-6-211非参数估计非参数估计-Kn近邻估计近邻估计报告人:马振磊报告人:马振磊2022-6-212统计决策法Bayes决策法参数估计法非参数估计法非参数估计法线性判别函数概率方法概率方法几何方法聚类分析非线性判别函数非参数估计2022-6-213 最大似然估计和贝叶斯估计都属于参数化估计。 要求待估计的类概率密度函数形式已知。 在实际应用中,类概率密度函数形式已知的条件并不一定成立,特别是多峰的概率分布,用普通函数难以拟合,这就需要用非参数估计技术。非参数估计2022-6-214 原理 不需获取类类概率密度的函数形式,而是直接利用学习样本估计特征空间任意点的类概率密度的值。 即直接
2、由学习样本来设计分类器。非参数估计2022-6-215概率密度估计概率密度估计 概率密度估计问题:概率密度估计问题:给定的样本集:给定的样本集:估计概率分布:估计概率分布:12,lX x xx p x2022-6-216概率密度估计概率密度估计 非参数概率密度估计的核心思路: RPpdx x一个向量一个向量x落在区域落在区域R中的概率中的概率P为:为:因此,可以通过统计概率因此,可以通过统计概率P来估计概率密度函数来估计概率密度函数p(x)2022-6-217概率密度估计概率密度估计 假设假设N个样本的集合个样本的集合是根据概率密度是根据概率密度函数为函数为p(x)的分布独立抽取得到的。的分布
3、独立抽取得到的。那么,有那么,有k个样本落在区域个样本落在区域R中的概率服从二项式中的概率服从二项式定理:定理:1N kkkNPPPkk 的期望值为的期望值为: E kNPkPN对对P的估计:的估计:当当 时,时, 估计是非估计是非常精确的常精确的N 2022-6-218概率密度估计概率密度估计 假设假设p(x)是连续的,且是连续的,且R足够小使得足够小使得p(x)在在R内几乎没内几乎没有变化。有变化。 令令R是包含样本点是包含样本点x的一个区域,其体积为的一个区域,其体积为V,设有,设有N个训练样本,其中有个训练样本,其中有k落在区域落在区域R中,则可对概率密度中,则可对概率密度作出一个估计
4、:作出一个估计: RPpdpVxxx /k NpVxkPN对对p(x) 在小区域内的平均值的估计在小区域内的平均值的估计2022-6-219非参数估计 思路 用已知类别的学习样本在特征空间X处出现的频度 来近似 即: 其中:v为包含X点的区域 , k为n个样本中落入体积v的样本数。)/(jXPvnkxp/)(2022-6-2110非参数估计故: 表示单位体积内落入x点邻域的样本在总样本中的比例,可以用此来近似样本在X点处的类概率密值。vnkxp/)(2022-6-2111非参数估计 问题一 若v固定,则当n增大时, 只能表示平均概率,而不是点概率密度 因此,为保证 为点概率密度,必须有)( x
5、p)( xp0 ,vn时)()(xpxpnn2022-6-2112非参数估计 问题二 若样本数n固定, 则当 时,则会出现x邻域内不包含任何样本,得出 的错误估计。0v0)(xp2022-6-2113 解决方案 考虑让v和k都随n的变化进行调整,即: nnnvnkxPvnkxP/)(/)(非参数估计2022-6-2114 如果要求如果要求 npx能够收敛到能够收敛到p(x),那么必须满足:,那么必须满足:lim0nnVlimnnk lim/0nnkn选择选择Vn选择选择kn非参数估计2022-6-2115非参数估计 基本方法 非参数估计法Parzen窗口法Kn近邻法2022-6-2116 基本
6、方法 Parzen窗口法:主动选择vn与n的关系,kn被动确定,指n个样本中落入区域v的样本数 kn近邻法:主动选择kn与n的关系, vn被动确定,指包含kn个样本的x邻域非参数估计2022-6-2117窗口宽度的影响窗口宽度的影响2022-6-2118Kn近邻法近邻法 Parzen窗口法的估计效果取决于样本总数n及 当n较小时,对 较为敏感,即 :1h1h 较大容易产生平均误差, 估计较平坦,反映 不出总体分布的变化。 较小容易产生噪声误差,大部分体积将是空的(即不包含样本),从而使 估计不稳定。1h1h)(xpn)(xpn2022-6-2119Kn近邻法近邻法 其原因是由于 只与总样本数有
7、关,即进行概率密度 估计时,任何x点处的 都是相同的 一种合理的选择是对样本出现密度大的x处, 可较小,而对样本密度较小的x处, 则相对大一些,这就是近邻法。 nvnvnv)(xpnnhvn12022-6-2120Kn近邻法近邻法2022-6-2121Kn近邻法近邻法 基本原理 主动选择 与n的关系, 被动确定,即使得体积 为样本密度的函数,而不是样本总数的函数。 可选择 ,该条件可满足: a. b. c.nvnvnknnknnklim0/limnknn0)(limxPnkvnnnn2022-6-2122Kn近邻法近邻法 近邻法,有效地解决了Parzen窗口法存在的问题,对平均误差和噪声性误差
8、均有较好的改善 选择 后, 如何计算 ? nvnknnKnnnnvnvnkxP1/)(2022-6-2123Kn近邻法近邻法 为与x点相邻的 个近邻样本中,与x距离最远的样本所构成的区域,即nvdnnhv nk2022-6-2124Kn近邻法近邻法 用Kn近邻法设计分类器的过程: 获取n个学习样本 令 找到待识样本X处的Kn个近邻 计算Kn 个邻近到X的距离,找到最远距离的样本 计算邻域的直径 ,计算邻域的体积 nkndnnhv nhnXXX,.,212022-6-2125Kn近邻法近邻法 则 对每一类样本重复上述过程,得各类的类概率密度 将样本X归类到 最大的类别中去dnnnnnhnvnvn
9、kXP11/)()(Xpn)()(jnPXp2022-6-2126K KN N近邻法作后验概率的估计近邻法作后验概率的估计由KN近邻估计知N个已知类别样本落入VN内为KN个样本的概率密度估计为: N个样本落入VN内有KN个,KN个样本内有Ki个样本属于i类则联合概率密度: VNkxPNNN)()()|(),(iiNiiNPxPvNkxPKn近邻法近邻法2022-6-2127根据Bayes公式可求出后验概率:MjjNiNNiiiiiiNxPxPPxPPxPxP11),(),()()|()()|()|(VNkxPxPNNMjjNN1),()(VNkxPNiiN),(kkxPNiiN)|(后验概率的估计: 类别为i的后验概率就是落在 内属于i的样本ki与 内总样本数 的比值。Kn近邻法近邻法VNVNkN2022-6-2128K K近邻分类准则近邻分类准则:对于待分样本x,找出它的k个近邻,检查
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年创新药专利组合价值评估与交易谈判
- 护理伦理与职业精神培养
- 2026年城市绿廊 林带降噪除尘效应量化评估方法
- 2026年政府储备粮承储企业资格认定与监管要求
- 电信行业物联网技术在智能制造中的应用方案
- 梳齿板伸缩缝监理实施细则
- 敏感指标:护理敏感质量提升策略
- 2026年“自然光”显示标准在护眼显示产品中的落地应用
- 2026年高强高模型碳纤维热处理工艺路线设计与优化
- 2026年检查检验结果跨机构互认平台建设指南
- 2025年海南省财金集团有限公司招聘笔试模拟试题及答案解析
- 谈判药品双通道管理办法
- 报废汽车回收拆解企业技术规范
- 体育测量与评价-第二章体育测量与评价的基础理论课件
- 神经重症早期康复讲课件
- 三级安全教育试题及答案
- 凯赛(乌苏)生物技术有限公司年产3万吨长链二元酸和2万吨长链聚酰胺项目环境影响报告书
- 市政工程监理培训课件
- 采购基础知识与技巧(第三版)课件:供应商管理
- 2.3《边城》(课件)-【中职专用】高二语文(高教版2023拓展模块下册)
- DB34T 5128-2025健康体检机构 体检服务质量控制规范
评论
0/150
提交评论