基于非参数技术的分类方法演示文稿_第1页
基于非参数技术的分类方法演示文稿_第2页
基于非参数技术的分类方法演示文稿_第3页
基于非参数技术的分类方法演示文稿_第4页
基于非参数技术的分类方法演示文稿_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于非参数技术的分类方法演示文稿目前一页\总数六十页\编于十三点优选基于非参数技术的分类方法目前二页\总数六十页\编于十三点基本问题类条件概率密度p(X|j)对基于统计决策的分类来说是非常关键的,如果已知其参数形式,就可以用极大似然估计和贝叶斯估计等方法估计p(X|j)。如果事先不知道对p(X|j)的数学形式,仅仅给定一个充分大的独立抽取的样本集,那么应该怎样估计p(X|j)?或者怎样估计后验概率p(j|X)?返回

目前三页\总数六十页\编于十三点非参数化方法的两种基本思路1.如何从训练样本中估计类条件概率密度p(X|j)。在结果可靠时,可以把估计结果当作真正的p(X|j)。2.如何利用训练样本直接估计后验概率p(j|X)?在结果可靠时,可以直接利用p(j|X)进行分类。返回目前四页\总数六十页\编于十三点类条件概率密度的估计基本思想及其数学描述前提条件和约束关系Parzen窗方法kn-近邻估计方法返回目前五页\总数六十页\编于十三点基本思想利用样本落在某点邻近区域中的频率除以该区域的体积来估计该点的概率密度。返回目前六页\总数六十页\编于十三点基本思想的数学描述设p(X)表示待估计的连续概率密度,样本集D={X1,X2,…,Xn}根据p(X)独立抽取:计算一个样本落在某区域R中的概率P计算k个样本落在区域R中的概率Pk用频率和体积估计概率密度p(X)返回目前七页\总数六十页\编于十三点计算单样本落在某区域中的概率一个样本落在区域R中的概率P为计算示意图返回目前八页\总数六十页\编于十三点区域概率示意图返回目前九页\总数六十页\编于十三点计算多样本落在某区域中的概率k个落在区域R中的概率为其中k的期望值为概率P=E(k)/nk/n返回目前十页\总数六十页\编于十三点用频率和体积估计概率密度如果包含X的区域R足够小,则有:如果定义样本落在R中的频率,那么有:示意图返回目前十一页\总数六十页\编于十三点概率密度估计示意图返回目前十二页\总数六十页\编于十三点前提条件概率密度的估计为:如果样本数n固定,那么当V充分小时,落在区域中的样本数k将为零,从而p(X)0,因此需要在k、n和V之间建立一定的约束关系。返回目前十三页\总数六十页\编于十三点约束关系构造一系列包含X的区域Rn(n=1,2,…),对Rn使用n个样本,Vn表示Rn的体积,kn表示落在Rn中的样本个数,pn

(X)表示对p(X)的第n次估计:如果要求pn

(X)表示p(X),就必须满足3个条件。返回目前十四页\总数六十页\编于十三点3个条件(1):保证区域均匀收敛和平均估计P/V收敛于p(X)。(2):只对p(X)0的点有意义,可使频率在概率的意义上收敛于概率P。(3):是pn(X)收敛于p(X)的一个必要条件。返回目前十五页\总数六十页\编于十三点Parzen窗方法选择区域序列Rn的方法选择窗函数(u)的方法pn(X)的计算及其冲击表示pn(X)的基本性质Parzen窗方法举例返回目前十六页\总数六十页\编于十三点选择区域序列Rn的方法根据某一个确定的体积函数,比如

来逐渐收缩一个给定的初始区域。通常Rn取为d维超立方体,用hn表示超立方体的边长,那么其体积就是:返回目前十七页\总数六十页\编于十三点体积函数示意图返回目前十八页\总数六十页\编于十三点选择窗函数的方法窗函数(u)必须满足下面两个条件:(1)(u)0(2)常用窗函数有:

方窗函数,三角窗函数,正态窗函数返回目前十九页\总数六十页\编于十三点方窗函数方窗函数(u)表示一个以原点为中心的单位超立方体返回目前二十页\总数六十页\编于十三点三角窗函数返回目前二十一页\总数六十页\编于十三点正态窗函数返回目前二十二页\总数六十页\编于十三点pn(X)的计算如果取(u)为方窗函数,取Rn为d维超立方体,那么有:因此落在超立方体中的样本个数是:从而返回目前二十三页\总数六十页\编于十三点pn(X)的冲击表示如果定义冲击响应函数(或狄拉克函数)为则可以把pn(X)表示成冲击响应的叠加:返回目前二十四页\总数六十页\编于十三点pn(X)的基本性质(1)pn(X)0且试证明(1)如果用和表示pn(X)的均值和方差,那么在一定条件下:

(2)且试证明(2)返回目前二十五页\总数六十页\编于十三点证明(1)返回目前二十六页\总数六十页\编于十三点pn(X)收敛到p(X)应满足的条件(1)(2)(3)(4)返回目前二十七页\总数六十页\编于十三点证明(2)返回目前二十八页\总数六十页\编于十三点Parzen窗方法举例对混合双均匀分布的估计对一维正态分布的估计对二维正态分布的估计对混合三角均匀分布的估计返回目前二十九页\总数六十页\编于十三点对混合均匀分布的估计设,假定待估计的概率密度函数是两个均匀分布密度函数的混合,即:窗函数为正态窗函数,h1取0.25、1和4三个不同的数值,试用Parzen窗方法对它进行估计:(1)n=1,(2)n=16,(3)n=256,(4)n=

返回目前三十页\总数六十页\编于十三点

n=1时的估计结果返回10.01.00.10.010.001n=1h1=0.25h1

=1h1

=4-202-202-202目前三十一页\总数六十页\编于十三点n=16时的估计结果返回10.01.00.10.010.001n=16-202-202-202h1=0.25h1=1h1=4目前三十二页\总数六十页\编于十三点n=256时的估计结果返回10.01.00.10.010.001n=256h1=0.25h1=1h1=4-202-202-202目前三十三页\总数六十页\编于十三点n=时的估计结果返回10.01.00.10.010.001n=h1=0.25h1=1h1=4-202-202-202目前三十四页\总数六十页\编于十三点对一维正态分布的估计返回目前三十五页\总数六十页\编于十三点对二维正态分布的估计返回目前三十六页\总数六十页\编于十三点对混合三角均匀分布的估计返回目前三十七页\总数六十页\编于十三点kn-近邻估计选择kn的方法pn(X)的计算kn-近邻估计举例返回目前三十八页\总数六十页\编于十三点选择kn的方法确定kn为n的某个函数,比如,通过逐步扩大区域来确定第n个区域Rn和体积Vn,使其恰好包含kn个样本。返回目前三十九页\总数六十页\编于十三点kn选择示意图返回目前四十页\总数六十页\编于十三点pn(X)的计算返回目前四十一页\总数六十页\编于十三点kn-近邻估计举例对两个一维概率密度的估计,一个为正态分布,另一个为混合三角均匀分布返回目前四十二页\总数六十页\编于十三点后验概率的估计基本思想最近邻规则k-近邻规则返回目前四十三页\总数六十页\编于十三点基本思想在对分类问题中的每个类都给定充分大的样本集后,这些样本就自然形成了一组分布。在决定新样本的类别时,可以先从已知样本中找出与新样本距离最近的样本,可以近似认为新样本与该样本具有相同的后验概率,从而可以把新样本分类到该样本所属的类别。返回目前四十四页\总数六十页\编于十三点新样本与最近邻样本的近似关系设X是新样本,X’是它的最近邻样本,那么当已知样本个数非常多时,有理由认为X’距离X足够近,从而:

P(i|

X’)P(i|

X)因此最近邻法则是真实后验概率的一个有效近似。返回目前四十五页\总数六十页\编于十三点最近邻规则最近邻规则的数学描述最近邻规则的判别函数最近邻规则的空间划分最近邻规则的错误率最近邻法则应用举例返回目前四十六页\总数六十页\编于十三点最近邻规则的数学描述设有c个类别i(i=1,2,…,c),每个类别i有Ni个样本Xik(k=1,2,…,Ni)。X是待分类的新样本,如果满足:那么决策。返回目前四十七页\总数六十页\编于十三点最近邻规则的判别函数相应的决策规则为:

如果gi(X)>gj(X)对于一切ij成立,则决策Xi。返回目前四十八页\总数六十页\编于十三点最近邻规则的空间划分最近邻规则把特征空间划分为许多单元网格,这些网格称为Voronoi网格。在每个Voronoi网格中只包含一个样本,称为Voronoi网格的中心样本。Voronoi网格内部的任意点均以中心样本为最近邻样本。示意图。返回目前四十九页\总数六十页\编于十三点Voronoi网格划分示意图返回目前五十页\总数六十页\编于十三点最近邻规则的错误率设P表示最近邻法则的错误率,P*表示最小贝叶斯错误率,那么可以证明下面的不等式关系:因此P小于P*的两倍。示意图。返回目前五十一页\总数六十页\编于十三点P和P*的关系示意图返回P*P0P=P*P=2P*目前五十二页\总数六十页\编于十三点最近邻法则应用举例已知样本集为两个样本:如果它们分别属于1和2,试用最近邻法则确定判别函数和决策边界。返回

目前五十三页\总数六十页\编于十三点判别函数的计算把判别函数g(X)定义为X到X1和X2的距离的平方差:化简后得:返回目前五十四页\总数六十页\编于十三点最近邻决策边界示意图决策边界方程为。返回X1X2x1x2目前五十五页\总数六十页\编于十三点k-近邻规则k-近邻规则的基本思想k-近邻规则的数学描述k-近邻规则的错误率k-近邻规则的应用举例返回目前五十六页\总数六十页\编于十三点k-近邻规则的基本思想为了克服单个样本类别的偶然性以增加分类的可靠性,可以考察待识别样本X的k个最近邻样本,在这k个最近邻样本中,哪一类样本最多,就将X判属哪一类。返回目前五十七页\总数六十页\编于十三点k-近邻规则的数学描述设k1,k2,…,kc分别是待识别样本X的k个最近邻样本中分别属于1,

2,…,c的样本数,k

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论