04第四章 特征的选择与提取4.4-4.5_第1页
04第四章 特征的选择与提取4.4-4.5_第2页
04第四章 特征的选择与提取4.4-4.5_第3页
04第四章 特征的选择与提取4.4-4.5_第4页
04第四章 特征的选择与提取4.4-4.5_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2020/5/5,中国矿业大学计算机科学与技术学院,(19)1,4.4按概率距离判据的特征提取方法,上一节讨论的是样本在特征空间的分布距离作为特征提取的依据。,该种原理直观,计算简便。但是这种原理没有考虑概率分布,因此当不同类样本中有部分在特征空间中交迭分布时,简单地按距离划分,无法表明与错误概率之间的联系。,如何依据不同类别类分布概率密度函数来优化特征空间?,汞欲狗暑奎齿材污啃彤淖骗圭赂简侍秋灿驾饯望獭缅熊痕畏喂赊氰涛掀囊04第四章特征的选择与提取4.4-4.504第四章特征的选择与提取4.4-4.5,2020/5/5,中国矿业大学计算机科学与技术学院,(19)2,4.4.1基于概率分布的可分性判据,不同类别在特征空间x中的分布要尽可能不一样,则分类就比较容易。,不同类别在特征空间的不同区域聚集,则分类就容易,它们重迭的程度越低,越有别于分类。,本节的可分性判据就是用各种方式来度量它们之间重迭的程度。,一种是用p(x|1)p(x|2)之间的乘法来计算其重迭程度,像Bhattacharya距离等,另一种用两者间的比值,称为散度。,价捕嫉煎躲勒抑裳疹邹瓷丝菲衷镇嚎鲁舔首讥迹肠穴稀闯披理馏斟摈鸿屑04第四章特征的选择与提取4.4-4.504第四章特征的选择与提取4.4-4.5,2020/5/5,中国矿业大学计算机科学与技术学院,(19)3,图a完全可分情况,图b完全不可分情况,图a:对p(x|2)0处都有p(x|1)0,则这两类就完全可分,图b:对所有x都有p(x|2)=p(x|1),则两类就完全不可分。,陋催谊衙涅咖杰矛鳃铃技攒晤争拍险龟如脂道颈镣谅偶滚冀绩职吠豫姻协04第四章特征的选择与提取4.4-4.504第四章特征的选择与提取4.4-4.5,2020/5/5,中国矿业大学计算机科学与技术学院,(19)4,因此人们设计出与概率分布交迭程度有关的距离度量方法,这些距离Jp有以下几个共同点:,(1)Jp是非负,即Jp0,(2)当两类完全不交迭时Jp达到其最大值,(3)当两类分布密度相同时,Jp=0,这种函数的一般式可表示为:,(4.4-1),殿颜辨段歇慨咽盖卉塑蚕汞惺葡俯檬揪假狞貉勿玫祟肩何蔚覆厕氢拓愤哄04第四章特征的选择与提取4.4-4.504第四章特征的选择与提取4.4-4.5,2020/5/5,中国矿业大学计算机科学与技术学院,(19)5,一些常用的概率距离度量,1.Bhattacharyya距离和Chernoff界限,当p(x|2)=p(x|1)对所有x值成立时JB0,而当两者完全不交迭时JB为无穷大。,其中S取0,1区间的一个参数,显然(4.4-3)在S=0.5时就变为(4.4-2)式,因此Chernoff界限是Bhattacharyya距离的一个特例。,腮弦促泳颈拥啊漫错告焦赴惯邦灌僵晴辱彪蛇鞘靴捡韶圭旅裂柯疼凰迁炽04第四章特征的选择与提取4.4-4.504第四章特征的选择与提取4.4-4.5,2020/5/5,中国矿业大学计算机科学与技术学院,(19)6,2.散度,如果对某个x,当p(x|2)=p(x|1),则lij=0,反之若两者差异越大,则lij的绝对值也大。,对整个特征空间概率分布的差异程度作出评价,将对i类及对j的可分性信息分别定义为:,央晒棱挚氛掉腊遗扒峭更骚痉鼻牟承疆秆改酚袭肤拘照熙辣泌抿抵园收玄04第四章特征的选择与提取4.4-4.504第四章特征的选择与提取4.4-4.5,2020/5/5,中国矿业大学计算机科学与技术学院,(19)7,散度为总的平均可分信息,可表示成:,幂呕樟遁袱帅翔损纪哨熙版闪巨拢拥汲厘洲热剃炙陨撑咬也缘棺褥少盅冻04第四章特征的选择与提取4.4-4.504第四章特征的选择与提取4.4-4.5,2020/5/5,中国矿业大学计算机科学与技术学院,(19)8,3.正态分布时基于概率分布距离度量,设两类别分别表示为:,散度为:,锻拓钧肄业育照写糊掀封吉诸窗阿链辱皇讼滨烦姐礁骚兹烬烷疤遁扔意绅04第四章特征的选择与提取4.4-4.504第四章特征的选择与提取4.4-4.5,2020/5/5,中国矿业大学计算机科学与技术学院,(19)9,如果两类协方差矩阵相等,即,则,上式右部称为Mahalanobis距离的平方。从该式中可以看出在协方差矩阵相等条件下散度与4.3.1中定义的JD很相似,它们都是对样本在特征空间分散程度的描述,只是JD是用欧氏距离度量,而JD在协方差矩阵相等的条件下是用Mahalanobis距离度量。,吾坎耗拈拄庚举箱筏分颂嘛皖护蚁毕莆蛰姨匈哉别皮粗姻绢魔毒冈辽赐油04第四章特征的选择与提取4.4-4.504第四章特征的选择与提取4.4-4.5,2020/5/5,中国矿业大学计算机科学与技术学院,(19)10,在正态分布时Bhattacharyya距离JB可表示成:,如果两类协方差矩阵相等,即,则,它与散度JD的表达式只差一个常系数。,意荔虱唁棺尸淋衡豌饵档滋价晾懊氖收最鹊枣曹区坤幼绘唐鉴杰贴皮搜舔04第四章特征的选择与提取4.4-4.504第四章特征的选择与提取4.4-4.5,2020/5/5,中国矿业大学计算机科学与技术学院,(19)11,4.4.2按概率距离判据提取特征,在讨论如何按概率距离判据进行特征提取时,与上面讨论欧氏距离为基础的判据的基本方法是一样的。设原始特征为Y,而经变换后的特征为X,两者之间有映射关系:,利用这种关系,可以将有关判据的表达式表示成映射关系W的函数,例如JD(W),然后求这些表达式对W各分量的偏导数,并令其为零,得到所需的方程式组,并用相应方法求解。,炒麦膳承猩孕搔埠婉焙诗靛嘎多黍痹珍汛恰挣食求帮稗壹伙律耕插苫骨淫04第四章特征的选择与提取4.4-4.504第四章特征的选择与提取4.4-4.5,2020/5/5,中国矿业大学计算机科学与技术学院,(19)12,两类别问题以及在协方差矩阵相等的条件下,用JD方法提取特征的算法。,是一标量,因而,其中,利用该式,可使原D维特空间变换成一维的特征空间。与任何其它一维空间相比,散度JD达到极值(最佳)。,柯砌格绥辕忍暮膛拘忻拼承捏雕具矢睫眠憨立窃跃绣蚂肮藻俏颈骇靠甜扛04第四章特征的选择与提取4.4-4.504第四章特征的选择与提取4.4-4.5,2020/5/5,中国矿业大学计算机科学与技术学院,(19)13,4.5基于熵函数的可分性判据,上一节讨论基于概率分布的距离判据是研究类条件概率分布定义的可分性判据。这一节讨论基于后验概率分布的判据。,知道一个样本不同类的先验概率是贝叶斯决策的依据,因此在特征空间的任何一点,如果它对不同类别的先验概率差别很大,则为分类提供了很明确的信息,而Shannon信息论定义的熵就可以用来对可分类性作出评价,故这方面可分性判据的定义称之为基于熵函数的可分性判据,,妹凋膝岛搽危婚岁亮血往蜀痪坎双荤多咽蓉包崔熟塘有口用凹脑毯铺戍弃04第四章特征的选择与提取4.4-4.504第四章特征的选择与提取4.4-4.5,2020/5/5,中国矿业大学计算机科学与技术学院,(19)14,4.5.1基于熵函数的可分性判据,如果对某些特征,各类后验概率都相等,即,其中c为类别数,则样本的类属就无法确定,或者只能任意指定样本所属类别。此时,是错误率最大的情况。,芒役辗娥津蜘获爹留楔给务痘屠罢急充尖鹿飘隶杯记厚帝辫迪椭骸吝娘验04第四章特征的选择与提取4.4-4.504第四章特征的选择与提取4.4-4.5,2020/5/5,中国矿业大学计算机科学与技术学院,(19)15,如果考虑另一极端,假设能有一组特征使得,那末此时的X肯定可划分为i,而错误率为零。由此可看出,后验概率越集中,错误概率就越小,反之后验概率分布越平缓,即接近均匀分布,则分类错误概率就越大。,为了衡量后验概率分布的集中程度,可以借助于信息论中熵的概念,制订定量指标。例如Shannon熵为,(4.5-1),另一常用的平方熵,(4.5-2),烹罢剖掳竭砂于盆绑概恼必租撂絮少负且楞尖厄镣艺宿箩售墒湖稳琼阿缴04第四章特征的选择与提取4.4-4.504第四章特征的选择与提取4.4-4.5,2020/5/5,中国矿业大学计算机科学与技术学院,(19)16,这两者都有熵函数的以下共性,(1)熵为正且对称,即函数式内项的次序可以变换不影响熵的值;,(2)如p(i,x)=1,(1ic),则Hc=0,(3)对任意的概率分布p(i,x)0,(i=1,c),以及,则,这些函数都可用作各类别样本后验概率集中分布程度的定量指标。,堡遮雹窘切罐粗腿碴赚骸株柏锡迪水摹另颧人搅杯纲也睡味暗罚舶鞘姑珐04第四章特征的选择与提取4.4-4.504第四章特征的选择与提取4.4-4.5,2020/5/5,中国矿业大学计算机科学与技术学院,(19)17,4.5.2相对熵的概念及应用举例,另外一种基于熵的概念,称为相对熵,它用来判别某一种分布p(Xi)偏离给定w(Xi)的程度,表示成:,其中求和在该特征所有可能的取值范围内进行。相对熵越小,这两类概率分布的差别越大。因此可以利用相对熵概念设计对两类概率的判别熵。,(4.5-3),(4.5-4),多类的情况,(4.5-5),些但钓玄队霄诛迫套稽退醇亚退虏更尔棘妈碴捐参梁卜潜踢泊久逐诲读狞04第四章特征的选择与提取4.4-4.504第四章特征的选择与提取4.4-4.5,2020/5/5,中国矿业大学计算机科学与技术学院,(19)18,为了计算方便,也可采用以下函数代替w(p,q),,(4.5-6),其中pi与qi表示两类同一特征分布的函数。,当两类特征向量各分量的分布都相等时,U(p,q)等于零。,筋汀潘助叛赛枯艺叫壹略欲腮帝每娶躬顿纽摊搁嫡悄拙咒哭枚拈臻控涣鲁04第四章特征的选择与提取4.4-4.504第四章特征的选择与提取4.4-4.5,2020/5/5,中国矿业大学计算机科学与

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论