第6章 特征的提取与选择_第1页
第6章 特征的提取与选择_第2页
第6章 特征的提取与选择_第3页
第6章 特征的提取与选择_第4页
第6章 特征的提取与选择_第5页
已阅读5页,还剩166页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第6章特征的选择与提取

模式识别的三大核心问题:

特征数据采集分类识别特征提取与选择

分类识别的正确率取决于对象的表示、训练学习和分类识别算法。【Why】主要内容1.引言2类别可分离性判据3特征选择4.特征提取5.K-L变换及PCA1.引言

特征提取与选择的基本任务是研究如何从众多特征中求出那些对分类识别最有效的特征,从而实现特征空间维数的压缩,即获取一组“少而精”且分类错误概率小的分类待征.

目的:使在最小维数特征空间中异类模式点相距较远(类间距离较大),而同类模式点相距较近(类内距离较小)。人脸识别的例子

ORL(http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html)人脸数据库中,每幅图像的分辨率为112×92,如果将每个像素作为1维特征,则高达10304维。若把所有的原始特征都作为分类特征送到分类器,不仅使得分类器复杂,分类判别计算量大,而且分类错误概率也不一定小;原始特征的特征空间有很大的冗余,完全可以用很小的空间相当好地近似表示图像,这一点与压缩的思想类似。因此有必要减少特征数目,以获取“少而精”的分类特征,即获取特征数目少且能使分类错误概率小的特征向量。使作为识别分类用的特征应具备以下几个条件:(1)具有很大的识别信息量。即所提供的特征应具有很好的可分性,使分类器容易判别。(2)具有可靠性。对那些模棱两可,似是而非不易判别的特征应该去掉。(3)具有尽可能强的独立性。重复的、相关性强的特征只选一个,因为强的相关性并没有增加更多的分类信息,不能要。(4)数量尽可能少,同时损失的信息尽量小。x1x2x3..xd对象模式的特征的有效性直接影响分类器的设计和性能.由信息获取部分获得的原始数据量一般是相当大的.为了有效地实现分类识别,要对原始数据进行选择或变换,得到最能反应分类本质的待征,构成特征向量.这就是特征抽取与选择的过程.传感器y1y2y3..ym学习.训练选择.提取分类器特征选择:从一组特征中挑选出一些最有效的特征以达到降低特征空间维数的目的,这个过程叫特征选择。特征提取:将一组高维特征,通过变换的方法得到一组新的低维特征,这个过程叫特征提取。特征形成:

根据被识别的对象产生出一组基本特征(也可称为原始特征),它可以是计算出来的,也可以是用仪表或传感器测量出来的。

有时特征提取和选择并不是截然分开的。例如,可以先将原始特征空间映射到维数较低的空间,在这个空间中再进行选择以进一步降低维数;也可以先经过选择去掉那些明显没有分类信息的特征,再进行映射以降低维数。特征提取特征选择概念描述

模式识别中减少特征数目(或压缩特征空间)的方法有两种:一种是特征提取,另一种是特征选择。

原始特征:通过直接测量得到的特征称为原始特征。比如人体的各种生理指标(描述其健康状况);数字图像中的各像素点的亮度值(描述图像内容),都是原始特征。

特征提取:通过映射(变换)的方法把高维的特征向量变换为低维的特征向量。通过特征提取获得的特征是原始特征集的某种组合,即A:X→Y,可见新的特征中包含有原有全体特征的信息。

特征选择:从原始特征中挑选出一些最有代表性、分类性能好的特征以达到降低特征空间维数的目的。也就是说,特征选择就是从已有的D个原始特征中挑选出d个特征组成一个特征子集,同时将D-d个对类别可分离性无贡献的或贡献不大的特征简单地忽略掉。

特征提取与具体问题有很大关系,目前没有理论能给出对任何问题都有效的特征提取方法。由于在许多实际问题中,那些最重要的特征往往不易找到,使得特征选择和特征提取成为构造模式识别系统最困难的任务之一。如:♦用傅立叶变换或小波变换的系数作为图像的特征;♦指纹的特征;♦统计特征,如矩、灰度共生矩阵(Co-occurrence

Matrix)等;♦用PCA方法作特征压缩;♦用LDA方法作特征压缩。共性选择方法(1)特征可以获取

模式识别系统的主要处理设备是计算机,因此作为观察对象的数字化表达,观察对象应该是可以通过数据采集设备输入到计算机的。目前,市场上有各种传感设备和数字化设备,如采集图像信息的图像卡和采集语音信息的声卡等。作为特征,既可以是数字化表达的结果,也可以是在数字化表达基础上形成的参数性质的值,如图像分割后的子目标特征表达等。共性选择方法(2)类内稳定

选择的特征对同一类应具有稳定性。由于模式类是由具有相似特性的若干个模式构成的,因此它们同属一类模式,其首要前提是特性相似,反映在取值上,就应该有较好的稳定性。共性选择方法(3)类间差异

选择的特征对不同的类应该有差异。若不同类的模式的特征值差异很小,则说明所选择的特征对于不同的类没有什么差异,作为分类的依据时,容易使不同的类产生混淆,使误识率增大。一般来讲,特征的类间差异应该大于类内差异。特征的类别1物理的:物理特征是比较直接、人们容易感知的特征,一般在设计模式识别系统时容易被选用。如为了描述指定班级中的某个学生,可以用以下物理特征:性别、身高、胖瘦、肤色等外在特征。物理特征虽然容易感知,却未必能非常有效地表征分类对象。2结构的:结构特征的表达能力一般要高于物理特征,如汉字识别的成功实现离不开结构特征的选择。结构特征的表达是先将观察对象分割成若干个基本构成要素,再确定基本要素间的相互连接关系。如指纹的识别就是基于结构信息完成的。结构信息对对象的尺寸往往不太敏感,如汉字识别时,识别系统对汉字大小不敏感,只对笔划结构信息敏感。人脸的五官结构信息等,是目前认定人的身份的重要参数。

3数学的:易于用机器定量描述和判别,如基于统计的特征,数学特有时和观察对象的固有特性没有任何联系,有时则是物理特征或结构特征的计算结果。

对特征空间的改造、优化、主要的目的是降维,即把维数高的特征空间改成维数低的特征空间。降维主要有两种途径。一种是删选掉一些次要的特征,问题在于如何确定特征的重要性,以及如何删选。另一种方法是使用变换的手段,在这里主要限定在线性变换的方法上,通过变换来实现降维。

实现特征选择的前提是确定特征是否有效的标准,在这种标准下,寻找最有效的特征子集。用于特征选择的特征既可以是原始特征,也可以是经数学变换后得到的二次特征。需要注意,特征提取一定要进行数学变换,但数学变换未必就是特征提取。【问题的提出】【问题的提出】典型的运用线性变换对原特征空间优化的基本方法,进一步深入理解模式识别处理问题的基本方法-确定准则函数,并通过计算进行优化。使用特征选择方法的基本问题。1.什么叫特征空间?如果我们用颜色、尺寸、重量来衡量水果的构造的特特空间是几维空间?2.如果用颜色、尺寸与重量组成的特征空间来区分苹果与梨,你认为这三种度量中的哪种最有效?为什么?能否想像这两种水果在这个三维空间的分布?如果用这个特征空间来区分红苹果与樱桃,你想像一下这两类水果在特征空间如何分布?能否对这两种情况设计更经济有效的特征空间?【问题的提出】3.如果两类物体在一个二维特征空间如图分布,能否用删除其中任一维来优化特征空间?有没有什么方法能得到一个对分类很有利的一维特征空间?【问题的提出】

4.上题的答案可用右图Y1与Y2组成的空间表示?你认为哪个分量可以删掉?

5.你有没有办法将原在X1、X2空间表示的数改成用Y1、Y2空间表示?【问题的提出】1.需要找到描述事物方法的选择与设计-确定准则函数方案1.从框架的左边框到数字之间的距离变化反映了不同数字的不同形状,这可以用来作为数字分类的依据。方案2.强调分析不同截面的信号,如在框架的若干部位沿不同方向截取截面分析从背景到字,以及从字到背景转换的情况,如AB截面切割字符三次,CD截面切割字符一次等。【问题的提出—总结】2.需要确定特征空间的优化---优化算法

这个层次的工作发生在已有了特征的描述方法之后,也就是已有了一个初始的特征空间,如何对它进行改造与优化的问题。一般说来要对初始的特征空间进行优化是为了降维。即初始的特征空间维数较高。能否改成一个维数较低的空间,称为优化,优化后的特征空间应该更有利于后续的分类计算

例用RGB颜色空间和HSI颜色空间【问题的提出】用RGB颜色空间和HSI颜色空间RGB和HSI是两种常用的颜色空间,虽然它们描述颜色的范围是一样的,也有确定的转换关系,但是用这两种不同的特征描述图像,对以后的识别工作会有很大影响2类别可分离性判据【概念】特征选择与提取的任务是找出一组对分类最有效的特征,因此需一准则。概念:数学上定义的用以衡量特征对分类的效果的准则,实际问题中需根据实际情况人为确定。误识率判据:理论上的目标,实际采用困难(密度未知,形式复杂,样本不充分,…)可分性判据:实用的可计算的判据为什么需要类别可分离性判据一般说来分类器最基本的性能评估是其分类的错误率如果能用反映错误率大小的准则,在理论上是最合适的

对错误率的计算是极其复杂的,以至于很难构筑直接基于错误率的判据为此人们设法从另一些更直观的方法出发,设计出一些准则,用来检验不同的特征组合对分类性能好坏的影响,甚至用来导出特征选择与特征提取的方法 这些准则就是类别可分离性判据

【概念】【类别可分离性判据应满足的条件】类别可分离性判据:衡量不同特征及其组合对分类是否有效的定量准则理想准则:某组特征使分类器错误概率最小常用类别可分离性判据:基于距离、概率分布、熵函数,也可以用:相关性、分类的错误率等参数。【概念】基于距离的可分性判据的实质是Fisher准则的延伸,即综合考虑不同类样本的类内聚集程度与类间的离散程度这两个因素。判据的优化体现出降维特征空间较好地体现类内密集。一些不能体现类间分隔开的特征很可能被排除掉了。离散度矩阵(散布矩阵):一种描述数据离散程度的方法。6.2.1基于距离的可分性判据【类内类间距离】基于距离度量是分类的常用的重要依据,因为一般情况下同类物体在特征空间呈聚类状态,即从总体上说同类物体内各样本由于具有共性,因此类内样本间距离应比跨类样本间距离小。Fisher准则是以使类间距离尽可能大同时又保持类内距离较小这一种原理为基础的。同样在特征选择与特征提取中也使用类似的原理,这一类被称为基于距离的可分性判据。为了度量类内、类间的距离,可用其他方法描述方法,即描述样本的离散程度的方法。6.2.1基于距离的可分性判据【类内类间距离】各类样本可以分开是因为它们位于特征空间的不同区域,显然这些区域之间距离越大,类别可分性就越大。如何表示两个类之间的距离?【类内类间距离】【用于可分性判据的类内类间距离】【用于可分性判据的类内类间距离】定义【用于可分性判据的类内类间距离】常用的基于类内类间距离的可分性判据:1)基于类内类间距离的可分离性判据是一种常用的判据,它实际上是各类向量之间的平均距离。2)具体而言,即J(x)表示各类特征向量之间的平均距离,我们通常认为J(x)越大,可分离性越好。

3)这种判据优点是计算简单;缺点是当类间距离较小,类内距离较大时,判据仍有可能取得较大的值,而此时的可分离性并不大。特点:直观,易于实现(用样本计算),较常用。不能确切表明各类分布重叠情况,与错误率无直接联系。当各类协差相差不大时,用此种判据较好。选择原则:ii.计算简单,易于实现。iii.数学上容易处理。准则函数的递推计算问题:每增/减一个特征,只影响向量中的一个元素,矩阵的一行和一列。【用于可分性判据的类内类间距离】i.实际分类问题需要,找与分类性能关系密切者。【基于概率分布的可分性判据】考查两类分布密度之间的交叠程度【基于概率分布的可分性判据】定义:两个密度函数之间的距离:它必须满足三个条件:【基于概率分布的可分性判据】具体定义有多种:Bhattacharyya距离Chernoff

界散度【基于概率分布的可分性判据】正态分布情况下:【基于概率分布的可分性判据】几种常见的概率距离准则(J)和概率相关性准则(I)

最佳分类器由后验概率确定,所以可由特征的后验概率分布来衡量它对分类的有效性。两种特殊情形下最佳分类器的错误率:1)各类后验概率是相等错误率错误率可见后验概率越集中,错误概率就越小.后验概率分布越平缓(接近均匀分布),则分类错误概率就越大。【熵可分性判据】

设ω为可能取值为ωi,(i=1,2,…,c)的一个随机变量,

它的取值依赖于分布密度为p(x)的随机向量x(特征向量),即给定x后ω的概率为p(ω/x).

为了衡量后验概率分布的集中程度,需要规定一个定量准则.我们可以借助于信息论中关于熵的概念.

我们想知道的是:给定某一x后,我们从观察得到的结

果中得到了多少信息?或者说ω的不确定性减少了多少?

从特征提取的角度看,显然用具有最小不确定性的那些特征进行分类是有利的。在信息论中用“熵”作为不确定性的度量.【熵可分性判据】【熵可分性判据】熵:事件不确定性的度量A事件的不确定性大(熵大),则对A事件的观察所提供的信息量大。思路:【熵可分性判据】定义熵函数满足如下条件①规一化②对称性③确定性④扩张性⑤连续性⑥分枝性即函数式内项的次序可以变换不影响熵的值【熵可分性判据】常用的熵函数Shannon熵:平方熵:广义熵:【熵可分性判据】结论【熵可分性判据】举例:图像分割3.特征选择问题:从D维特征中选取d维(d<D),使分类性能最佳(J最大)。【问题的提出】搜索算法可分为三类算法分为完全搜索(Complete),启发式搜索(Heuristic),随机搜索(Random)3大类一、穷举算法:计算每一可能的组合,逐一比较准则函数。适用于:d或D−d很小(组合数较少)的情况。二、分支定界算法:从顶向下,有回溯应用条件:准则函数单调性基本思想:按照一定的顺序将所有可能的组合排成一棵树,沿树进行搜索,避免一些不必要的计算,使找到最优解的机会最早。【完全搜索方法】特征总数D以及选择特征数d增加时,穷举法计算量迅速上升。【完全搜索方法】穷举法存在的问题:非最优,但某些情况下最优,实现简单(1)单独最优组合选前d个单独最佳的特征(2)SFS法(SequentialForwardSelection:顺序前进):从底向上每加入一个特征寻优一次,使加入该特征后特征函数最大。特点:考虑了特征间的相关性,但某特下一经入选,即无法淘汰(3)广义SFS法(GSFS)从底向上,每次增加l个特征。考虑了新增特征中的相关性计算量比SFS大,若l=d,(一步加满),则就是穷举法【启发式搜索方法】(4)SBS法(顺序后退,后向贯序)从顶向下,每次减一个特征与SFS相对,一旦失去,无法换回。(5)广义SBS法(GSBS)从顶向下,每次减r个特征SFS与SBS都属于贪心算法,容易陷入局部最优值模拟退火算法(SA,SimulatedAnnealing)

遗传算法(GA,GeneticAlgorithms)【随机搜索方法】【爬山算法】爬山算法是一种简单的贪心搜索算法,该算法每次从当前解的临近解空间中选择一个最优解作为当前解,直到达到一个局部最优解。其主要缺点是会陷入局部最优解,而不一定能搜索到全局最优解。如下图所示:假设C点为当前解,爬山算法搜索到A点这个局部最优解就会停止搜索,因为在A点无论向那个方向小幅度移动都不能得到更优的解。【模拟退火算法】思想1)爬山法是完完全全的贪心法,每次都鼠目寸光的选择一个当前最优解,因此只能搜索到局部的最优值。模拟退火其实也是一种贪心算法,但是它的搜索过程引入了随机因素。模拟退火算法以一定的概率来接受一个比当前解要差的解,因此有可能会跳出这个局部的最优解,达到全局的最优解。以上图为例,模拟退火算法在搜索到局部最优解A后,会以一定的概率接受到E的移动。也许经过几次这样的不是局部最优的移动后会到达D点,于是就跳出了局部最大值A。

若移动后得到更优解,则总是接受该移动,若移动后的解比当前解要差,则以一定的概率接受移动,而且这个概率随着时间推移逐渐降低(逐渐降低才能趋向稳定)。假设在状态xold时,系统受到某种扰动而使其状态变为xnew。与此相对应,系统的能量也从E(xold)变成E(xnew),系统由状态xold变为状态xnew的接受概率p。1)随机产生一个初始解x0,令xbest=x0,并计算目标函数值E(x0);2)设置初始温度T(0)=To,迭代次数i=1;3)DowhileT(i)>Tmin1)forj=1~k2)对当前最优解xbest按照某一邻域函数,产生一新的解xnew。计算新的目标函数值E(xnew),并计算目标函数值的增量ΔE=E(xnew)-E(xbest)。3)如果ΔE<0,则xbest=xnew;4)如果ΔE>0,则p=exp(-ΔE/T(i));1)如果c=random[0,1]<p,xbest=xnew;否则xbest=xbest。5)Endfor4)i=i+1;5)EndDo6)输出当前最优点,计算结束【模拟退火算法】

基本遗传算法(SimpleGeneticAlgorithms,简称SGA),其遗传进化操作过程简单,容易理解,是其它一些遗传算法的雏形和基础。

【基本遗传算法】基本遗传算法的组成(1)编码(产生初始种群)(2)适应度函数(3)遗传算子(选择、交叉、变异)(4)运行参数算法描述:首先随机产生一批特征子集,并用评价函数给这些特征子集评分,然后通过交叉、突变等操作繁殖出下一代的特征子集,并且评分越高的特征子集被选中参加繁殖的概率越高。这样经过N代的繁殖和优胜劣汰后,种群中就可能产生了评价函数值最高的特征子集。

编码

GA是通过某种编码机制把对象抽象为由特定符号按一定顺序排成的串。正如研究生物遗传是从染色体着手,而染色体则是由基因排成的串。SGA使用二进制串进行编码。【基本遗传算法】几个术语

基因型:1000101110110101000111

表现型:0.637197编码解码个体(染色体)基因【基本遗传算法】初始种群:SGA采用随机方法生成若干个个体的集合,该集合称为初始种群。初始种群中个体的数量称为种群规模。适应度函数

:遗传算法对一个个体(解)的好坏用适应度函数值来评价,适应度函数值越大,解的质量越好。适应度函数是遗传算法进化过程的驱动力,也是进行自然选择的唯一标准,它的设计应结合求解问题本身的要求而定。【基本遗传算法】

遗传算法使用选择运算来实现对群体中的个体进行优胜劣汰操作:适应度高的个体被遗传到下一代群体中的概率大;适应度低的个体,被遗传到下一代群体中的概率小。选择操作的任务就是按某种方法从父代群体中选取一些个体,遗传到下一代群体。【基本遗传算法】选择算子:交叉算子:所谓交叉运算,是指对两个相互配对的染色体依据交叉概率Pc按某种方式相互交换其部分基因,从而形成两个新的个体。交叉运算是遗传算法区别于其他进化算法的重要特征,它在遗传算法中起关键作用,是产生新个体的主要方法。SGA中交叉算子采用单点交叉算子。交叉前:00000|0111000000001000011100|00000111111000101交叉后:00000|0000011111100010111100|01110000000010000交叉点【基本遗传算法】交叉算子示意图

所谓变异运算,是指依据变异概率Pm将个体编码串中的某些基因值用其它基因值来替换,从而形成一个新的个体。遗传算法中的变异运算是产生新个体的辅助方法,它决定了遗传算法的局部搜索能力,同时保持种群的多样性。交叉运算和变异运算的相互配合,共同完成对搜索空间的全局搜索和局部搜索。SGA中变异算子采用基本位变异算子。【基本遗传算法】变异算子基本位变异算子的执行过程变异前:000001110000000010000变异后:000001110001000010000变异点【基本遗传算法】SGA的框图产生初始群体是否满足停止准则是输出结果并结束计算个体适应度值比例选择运算单点交叉运算基本位变异运算否产生新一代群体执行M/2次【基本遗传算法】4特征提取特征选择:从D个特征中选出d个特征提取:把D个特征变为d个新特征目的:更好分类和/或减少计算量【基本概念】按欧氏距离度量的特征提取方法基于距离可分性判据的特征优化过程是通过一个线性变换实现特征提取在这里意味着找到一个线性变换W,对原始特征向量Y=[y1,…,yD]T实行映射变换W:Y→X,得到维数减少的向量X=[x1,…,xd]T,即

W为D×d矩阵【欧氏距离准则下的特征提取】欧氏距离的判据【欧氏距离准则下的特征提取】【欧氏距离准则下的特征提取】利用W(D×d矩阵)线形变换后,希望变换后的特征向量能满足使某个准则函数达到极值的要求使用J2判据进行特征提取注意:如果对特征空间实行一个D×D矩阵的非奇异线性变换,J2保持不变【欧氏距离准则下的特征提取】例如对原特征空间实行一D×D线性变换A令Sw,Sb为原空间离散度矩阵S*w,S*b为映射后的离散度矩阵,则:

S*b=A

Sb

AT S*w=A

Sw

AT经变换后的J2变为:

J2*(A)=tr[(A

Sw

AT)-1

A

Sb

AT] =tr[(AT)-1

Sw-1Sb

AT]=tr[Sw-1Sb]=J2(A)【欧氏距离准则下的特征提取】使用J2判据进行特征提取因而以下讨论的特征提取变换,只考虑是降维的即用D×d矩阵(d<D)进行变换其目的是在维数d的条件下,使相应的判据为最大【欧氏距离准则下的特征提取】使用J2判据进行特征提取将J2判据表示成变换W的函数令Sw,Sb为原空间离散度矩阵,S*w,S*b为映射后的离散度矩阵:

S*b=WT

Sb

W S*w=WT

Sw

W则经变换后的J2变为:

J2(W)=tr[(WT

Sw

W)-1

WT

Sb

W]【欧氏距离准则下的特征提取】使用J2判据进行特征提取求使J2(W)最大的W解可利用特征值方法对W的各分量求偏导数,并另其为零,可以确定W值。结论:对J2

,J2

,J5来说,使判据达到最大的变换W如下:设矩阵Sw-1Sb的本征值为λ1,λ2…λD,按大小顺序排列为:

λ1≥

λ2

≥…≥λD,【欧氏距离准则下的特征提取】使用J2判据进行特征提取则选前d个本征值对应的本征向量作为W即:W=[μ1,μ

2

…μ

d]此时:

J2(W)=λ1+λ2+…+λd【欧氏距离准则下的特征提取】1.Chernoff

概率距离【概率距离判据下的特征提取方法】【概率距离判据下的特征提取方法】【概率距离判据下的特征提取方法】【概率距离判据下的特征提取方法】多类情况【概率距离判据下的特征提取方法】【基于判别熵最小化的特征提取】【基于判别熵最小化的特征提取】5K-L变换及PCAK-L变换及PCA1.引言2基于K-L展开式的特征提取3主成分分析(PCA)4.应用举例2基于K-L展开式的的特征提取非监督情况下,没有已知类别的训练样本,可分离性指标无从定义。只能根据知识和/或假定来进行特征选择。通常用方差作为衡量指标,认为选择或提取总体未知样本方差越大,越有利于将它分开。(实际上,我们无法确认方差大的特征一定有利于分类,但至少方差过小的特征是不利于分类的。)【非监督的特征提取】特征提取:用映射(或变换)的方法把原始特征变换为较少的新特征PCA(PrincipleComponentAnalysis)方法:

进行特征降维变换,不能完全地表示原有的对象,能量总会有损失。希望找到一种能量最为集中的的变换方法使损失最小。K-L(Karhunen-Loeve)变换:最优正交线性变换,相应的特征提取方法被称为PCA方法特征提取与K-L变换基本原则:进行特征降维变换,不能完全地表示原有的对象,能量总会有损失。希望找到一种能量最为集中的变换方法使损失最小。K-L变换:以最小均方误差为准则,将原特征向量作变换后再压缩原特征维数的方法。特征提取与K-L变换K-L变换最佳的含义K-L变换讨论的是特征空间的降维,因此,这个最佳是与降维联系起来的。对于降维,原特征空间是D维的,现希望降至d维(d<D)。不失一般性,认为D为无限大的情况,并设原信号x可用一组正交变换基uj表示:现要求降维至d维,也就是说将d+1维以上的成分略去,其表示成:现在的问题是如何在给定一个样本集条件下要找一个好的正交变换,能使这种误差从总体上来说是最小。显然原信号会因此受到一些损失,而每个信号的损失则表示成x与之差。注意这里讲的是总体,这是因为降维以后,样本集中的每个样本数据都受到损失,要衡量的是总体效果。在这种情况下最常用的指标是均方误差最小,或称均方误差的期望值最小,即:或者说要找一个正交变换,使样本集截取所造成的损失的均方误差的期望值为最小。uj是确定性向量,则公式写为:令:欲使该均方误差为最小,即在确保正交变换的条件下,使

达最小的问题,这可用拉格朗日乘子法求解。有:并对uj求导数,得:

可见向量uj,j=d+1,…,是矩阵特征值的特征向量截断误差为:

取前d项特征值对应的特征向量组成的坐标系,可使向量的均方误差为最小。满足上述条件的变换就是K-L变换。将i按其大小顺序排列:结论:以矩阵的特征向量作为坐标轴来展开x时,其截断均方误差具有极值性质,且当取d个uj,j=1,2,…,d来逼近x时,均方误差为:强调K-L变换的特殊性。K-L变换是一种独特的正交变换,它与一些常用的正交变换不同。最常见的正交变换,如傅立叶变换,哈达玛变换,离散余弦变换等都是一种通用的正交变换,它们各自有固定的形式,如傅立叶变换的基是以频率为参数的e的指数函数族组成。它主要用来对数据作频谱分析、滤波等。K-L变换的基并没有固定的形式,它是从对给定数据集{x}进行计算产生的。给定的数据集不同,得到的K-L变换基函数也因此而不同。由于它对给定数据集{x}存在依赖关系,它能在降低维数时仍能较好地描述数据,因此是模式识别中降低特征空间维数的有效方法。由于它的正交基函数族是从训练样本集中计算出来的,因此并不存在一种对任何数据都适用的K-L变换基。一般的作法是先用一组训练数据计算出K-L变换基,然后用这组基来重构或分析其它数据。K-L变换方法1.通过变换来寻求有效的特征向量,原样本(特征向量)x经过T变换变为新的特征向量y,将y中的N个元素中的N-M个用预先选定的常数代替或者舍去后所表征的x*向量与原来x的均方误差最小。2.将原特征向量组用维数较少的特征向量代替。基本步骤:对N个样本(特征向量),求产生矩阵。对矩阵,求N个特征值与特征向量。将N

个特征值按值的大小的顺序排列。取M个特征值(特征向量),组成新的变换矩阵yM=TxN

代替原来的特征向量。如何求解产生矩阵?举例:四个样本用K-L变换降维(维数为1,四个样本)解:1.求协方差矩阵2.协方差矩阵的本征值及本征向量u1u2x1x23.求新的变换矩阵,新的特征空间保留1舍弃2u1u2y1y2y3y44.计算特征变换所引起的均方误差上述变换并不引起误差x1x23.主成分分析例子:小学各科成绩的评估可以用下面的综合成绩来体现:a1×语文+a2×数学+a3×自然+a4×社会科学

确定权重系数的过程就可以看作是主成分分析的过程,得到的加权成绩总和就相对于新的综合变量——主成分【问题的提出】推而广之,当某一问题需要同时考虑好几个因素时,我们并不对这些因素个别处理而是将它们综合起来处理。这样综合处理的原则是使新的综合变量能够解释大部分原始数据方差。【问题的提出】由于各种量测到数据通常是以矩阵的形式记录、表达和存储的,实际中的很多数据信息往往是重叠与冗余的。从线性代数的观点来看,就是这些数据矩阵中存在相关的行或列。因此需要对其进行处理和提炼,抽取出有意义、独立的变量。

主成分分析(PrincipalComponentAnalysis,简称PCA)是一种常用的基于变量协方差矩阵对信息进行处理、压缩和抽提的有效方法。【问题的提出】情形II下总分的方差为0,显然不能反映三个学生各科成绩各有所长的实际情形,而红色标记的变量对应的方差最大,可反映原始数据的大部分信息。【问题的提出】为什么要根据方差确定主成分?上例可见,用总分有时可以反映原分数表的情况,保留原有信息,有时则把信息丢尽,不能反映原有的情况和差异。根据总分所对应的方差可以确定其代表了多大比例的原始数据(分数)信息。一般来说,我们希望能用一个或少数几个综合指标(分数)来代替原来分数表做统计分析,而且希望新的综合指标能够尽可能地保留原有信息,并具有最大的方差。【问题的提出】对主成分的要求压缩变量个数,用较少的变量去解释原始数据中的大部分变量,剔除冗余信息。即将许多相关性很高的变量转化成个数较少、能解释大部分原始数据方差且彼此互相独立的几个新变量,也就是所谓的主成分。这样就可以消除原始变量间存在的共线性,克服由此造成的运算不稳定、矩阵病态等问题。【问题的提出】主成分分析的目的PCA分析在很多领域有广泛应用(模式识别、化学组分的定量分析、多元物系的组分数目确定、动力学反应机理的确定等)主成分变换将三维空间的样本显示在二维空间【问题的提出】举例根据方差最大化原理,用一组新的、线性无关且相互正交的向量来表征原来数据矩阵的行(或列)。这组新向量(主成分)是原始数据向量的线性组合。通过对原始数据的平移、尺度伸缩(减均值除方差)和坐标旋转(特征分解),得到新的坐标系(特征向量)后,用原始数据在新坐标系下的投影(点积)来替代原始变量。一.主成分分析的基本原理假定有n个样本,每个样本共有p个变量,构成一个n×p阶的数据矩阵

当p较大时,在p维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。

定义:记x1,x2,…,xP为原变量指标,z1,z2,…,zm(m≤p)为新变量指标系数lij的确定原则:①

zi与zj(i≠j;i,j=1,2,…,m)相互无关;②

z1是x1,x2,…,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,…,xP的所有线性组合中方差最大者,或者说是对原始数据中尚未被z1解释的差异部分拥有最大的解释能力;

……zm是与z1,z2,……,zm-1都不相关的x1,x2,…xP,的所有线性组合中方差最大者。则新变量指标z1,z2,…,zm分别称为原变量指标x1,x2,…,xP的第一,第二,…,第m主成分。

从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2,…,p)在诸主成分zi(i=1,2,…,m)上的载荷lij(i=1,2,…,m;j=1,2,…,p)。因此主成分分析的关键就是确定这些系数。

从数学上可以证明,它们分别是的协方差(相关)矩阵的m个较大的特征值所对应的特征向量。(一)计算相关系数矩阵

rij(i,j=1,2,…,p)为原变量xi与xj的相关系数,rij=rji,其计算公式为二、主成分分析的计算步骤

(二)计算特征值与特征向量

解特征方程,求出特征值,并使其按大小顺序排列

分别求出对应于特征值的特征向量,要求=1,即,其中表示向量的第j个分量。③

计算主成分贡献率及累计贡献率贡献率累计贡献率

一般取累计贡献率达85%~95%的特征值所对应的第1、第2、…、第m(m≤p)个主成分。

计算主成分载荷

各主成分的得分

关于特征值原始数据前的加权系数决定了新的综合变量主成分(得分)的大小和性质,通常称为主成分轴或者载荷向量(载荷轴、载荷系数)。主成分分析的关键就是确定这些系数,这些系数构成了新的坐标系,将原始变量在新的坐标系下投影就可求得新坐标系下的变量值(主成分得分)。主成分轴、载荷向量PC1=a1xi1+a2xi2+a3xi3PC2=b1xi1+b2xi2+b3xi3三维主成分分析示意图三.主成分的特点☆主成分是原变量的线性组合;☆各个主成分之间互不相关;☆主成分按照方差从大到小依次排列,第一主成分对应最大的方差(特征值);☆每个主成分的均值为0、其方差为协方差阵对应的特征值;☆不同的主成分轴(载荷轴)之间相互正交。主成分的特点☆

如果原来有p个变量,则最多可以选取p个主成分,这p个主成分的变化可以完全反映原来全部p个变量的变化;☆

如果选取的主成分少于p个,则这些主成分的变化应尽可能多地反映原来全部p个变量的变化。主成分分析的优点

★它能找到表现原始数据阵最重要的变量的组合★

通过表示最大的方差,能有效地直观反映样本之间的关系★

能从最大的几个主成分的得分来近似反映原始的数据阵的信息例:有3个变量X1,X2与X3(p=3),其16次(n=16)观测值见下表:

四、主成分分析方法应用举例相关矩阵为:相关阵R的特征值分别为2.077,0.919,0.004,

前两个主成分的累计贡献率为99.866%。这说明第三个主成分所起作用非常小,可以只要两个主成分。

HelpprincompinMATLAB

例:使用princomp作主分量分析

从代数观点看主成分就是p个变量X1,X2,…,Xp的一些特殊的线性组合.在几何上这些线性组合正是把X1,X2,…,Xp构成的坐标系旋转产生新坐标系,新坐标系轴使之通过样本变差最大的方向(或说具有最大的样本方差).以最简单的二元正态变量来说明主成分的几何意义.设有n个样本,每个样本有p个变量记为X1,X2,…,Xp,它们的综合变量记为Y1,Y2,…,Yp.当p=2时,原变量是X1,X2,设X=(X1,X2)’~N2(μ,

),它们有下图的相关关系:对于二元正态分布变量,n个点的散布大致为一个椭圆,若在椭圆长轴方向取坐标轴Y1,在短轴方向取Y2,这相当于在平面上作一个坐标变换,即:Y2X2Y1X1可以看到Y1、Y2是原变量X1和X2的线性组合,用矩阵表示为显然UT=U-1且是正交矩阵.如果上图的椭圆是相当扁平的,可以只考虑长轴Y1方向上的波动,忽略Y2方向的波动.这样,二维可以降为一维.一般情况,p个变量组成p维空间,n个样本就是p维空间的n个点,对p元正态分布变量来说,找主成分的问题就是找p维空间中椭圆体的主轴问题.需要注意的地方在实际问题中,一般∑(或ρ)是未知的,需要通过样本来估计.设其中分别以S和R作为∑和ρ的估计,按前面所述的方法求得的主成分称为样本主成分.具体有如下结论:其中x=(x1,x2,…,xp)T为X的任一观测值.当依次代入X的n个观测值xk=(x1k,x2k,…,xpk)T

时,便得到第i个样本主成分yi

的n个观测值yik

(k=1,2,…,n).设S=(sij)p×p

是样本协方差矩阵,其特征值为

,相应的正交单位化特征向量为

,则第i个样本主成分为:

这时

第i个样本主成分的贡献率为:

前m个样本主成分的累计贡献率为:为了消除量纲的影响,我们可以对样本进行标准化,即令则标准化数据的样本协方差矩阵即为原数据的样本相关矩阵R.由R出发所求得的样本主成分称为标准化样本主成分.只要求出R的特征值及相应的正交单位化特征向量,类似上述结果可求得标准化样本主成分.这时标准化样本的样本总方差为p.例一设模式X=(X1,X2,X3)T的协方差矩阵为求X的各主成分.解:

易求得∑的特征值及其相应的正交化特征向量分别为因此X的主成分为取第一主成分,则贡献率为若取前两个主成分,则累计贡献率为因此,可用前两个主成分代替原来三个变量.

%Example1%C

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论