模式识别第3讲.ppt_第1页
模式识别第3讲.ppt_第2页
模式识别第3讲.ppt_第3页
模式识别第3讲.ppt_第4页
模式识别第3讲.ppt_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、模式识别,模式识别原理、方法及应用,第3次课程概要,模式判别 PCA 特征评价 维数比率问题,PCA,Principal component analysis 主元分析 或 主成分分析 功能:简化复杂数据到低维空间,从而发现数据中隐藏的简单结构。 原始数据源(生数据)通常有冗余,包含噪声 PCA的目标:去除冗余,并发现重要特征,PCA 特征评价 维数比率问题,PCA的大致思路,认为原始数据X是复杂的(有噪声有冗余),要对X重新表示 重新表示后数据的维度即为隐藏于X中的简单结构,PCA 特征评价 维数比率问题,PCA怎么做? 技术路线,利用线性代数为工具,用另一组基去重新描述数据空间 新的基能够

2、最好地表示原数据X 原有的基是什么样的形式呢?Nave basis: 目标:找到另一组基,能最好表达数据集,这个新的基是原有基的线性组合,PCA 特征评价 维数比率问题,采用该方法就隐含了一个假设:线性。数据限制在一个向量空间里,能被一组基表示,基变换,n个样本 每个样本m个特征 构成mn的矩阵X P是从X到Y的转换矩阵 几何上,Y由对X旋转拉伸得到 P的行向量构成一组新的基,而Y是在这组基下对X的重新表示,PCA 特征评价 维数比率问题,在线性的假设条件下,要解答,要寻求一组变换后的基,也就是P的行向量p1, pm 这组基就是X的主元,要解答的问题 1 我们要将X转换成为的Y是个什么样子?

3、2 对应于Y,如何求解P?,PCA 特征评价 维数比率问题,我们要将X转换成为的Y是个什么样子? 回顾一下PCA要解决的问题,数据复杂混乱 噪声 冗余,PCA 特征评价 维数比率问题,重要特征和噪声的数学描述,信噪比 要使得信噪比大,信号的方差大,噪声的方差小 假设:变化较大的信息认为是信号,变化较小的则是噪声,PCA 特征评价 维数比率问题,冗余的数学描述,该变量可以用其它变量表示,因此造成了信息冗余,PCA 特征评价 维数比率问题,协方差矩阵可以反映数据的噪声和冗余的程度,PCA的目标及它基于的假设,PCA 特征评价 维数比率问题,通过基变换,对协方差矩阵进行优化,即使得变换后的数据集Y,

4、其协方差矩阵为对角阵。 线性假设:PCA内部模型是线性的,是基于原始特征的线性变换。(如果原始数据存在非线性属性,则经PCA分析后将不再反映这种非线性属性) 方差越大,特征越重要。(有些对整体方差贡献不大的主成分,有可能在样本分类方面起至关重要的作用) 冗余用相关性表示。(数据的概率分布需要满足高斯分布或是指数型的概率分布) 主元正交,即转换基是一组标准正交基。该假设的作用是方便求解,PCA求解:特征根分解(1),PCA 特征评价 维数比率问题,寻找一组正交基组成的矩阵P,有Y=PX,使得CY是对角阵,则P的行向量,就是数据X的主元向量。,D是一个对角阵 E是对称阵A的特征根排成的矩阵 解题技

5、巧,令PET,PCA求解:特征根分解(2),PCA 特征评价 维数比率问题,PCA算法的一般求解步骤,由以上推导,PCA算法的一般求解步骤如下 1 采集数据,形成mn的矩阵,m为特征个数,n为样本数。 2 矩阵中的每个元素减去该维的均值,得到X 3 求XX的特征根,PCA 特征评价 维数比率问题,将PCA用于降维,由PCA线性变换后得到的数据集,可认为是没有冗余的。 在此结构下,可以讨论样本中的哪些属性(特征)比较重要。 按方差由大到小排序,但丢弃的准则是什么?,PCA 特征评价 维数比率问题,方法一:Kaiser准则 丢弃那些低于1的特征值 方法二:观察特征值的图,通过斜率检测,即从图中曲线

6、开始变平缓的点开始,丢弃后面的全部特征值。,有关PCA需要注意的一个问题,原始数据集里,每个特征是有意义的。比如图像中一个对象的形状、颜色等。 但是线性变换后,语义信息丢失了。 这对我们解释识别过程带来一定的问题。,PCA 特征评价 维数比率问题,特征评价,对于特征分类能力的评价 (1)图形考察:盒状图 分布图 (2)分布模型评价 (3)统计推论检测 这些评价方法可为我们观察某些特征集合下的数据分布提供直观的指导信息,PCA 特征评价 维数比率问题,盒状图怎么画(1),回顾:盒状图应用在此的目的是:评价特征用于分类的能力 因此,我们用来画盒状图的数据是 样本集中一个维度(特征)的数据 绘制步骤

7、: 1)将n个数据由小到大排序。(由大到小也可以) 2)计算3个四分位数。 a. 中位数(第2个四分位数,Q2) 如果n为奇数,则排序后,第(n+1)/2位是中位数。 如果n为偶数,则排序后,第n/2与第(n+1)/2位数的平均值, 为中位数。 b. 不计Q2,计算前半个数据集的中位数Q1。 c. 不计Q2,计算后半个数据集的中位数Q3。 3)3个四分位数、最小值、最大值共5个数字就可以绘制盒状图了。,PCA 特征评价 维数比率问题,盒状图怎么画(2),PCA 特征评价 维数比率问题,将成绩排序,班级某科某次测试成绩如下:,盒状图怎么画(3),PCA 特征评价 维数比率问题,最小值:27 最大

8、值:97 Q2:第(39+1)/2=20位的值 60 Q1:第(19+1)/2=10位的值 45 Q3:第(21+39)/2=30位的值 70,排序后的成绩,盒状图怎么画(4),PCA 特征评价 维数比率问题,有一半人及格;1/4学生70分以上;1/4学生45分以下; 另外,还体现了分数是集中还是分散,全距,最小值:27 最大值:97 Q2:60 Q1:45 Q3:70,四分位距,如何用盒状图观察特征的分类能力,软木塞数据集,三个类别在两个特征上的盒状图,PCA 特征评价 维数比率问题,特征PRT 特征PRTG,分布图,数据在特征空间分布上存在大量重叠,会对分类造成困难 分布图描绘了数据类别的

9、拓扑结构,可直观获取特征间分布重叠状况,PCA 特征评价 维数比率问题,分布模型评价,给定数据集(特征向量的集合),其分布是否与给定的分布模型吻合 用适当的分布模型描述数据集,就可以根据已知样本集为分布模型估计参数,确定后的模型可用作分类或聚类。,PCA 特征评价 维数比率问题,Kolmogorov-Smirnov检测K-S检验(1),经验分布函数 给定N个由小到大排序的数据X1.XN 其中n(i)是小于等于Xi的对象个数,PCA 特征评价 维数比率问题,(1,2,2,2,3,3,3,4),Kolmogorov-Smirnov检测K-S检验(2),PCA 特征评价 维数比率问题,给定一个经验分

10、布函数FX和一个理论累积分布函数FY,D=maxD+, D-,两个经验分布函数,Kolmogorov-Smirnov检测K-S检验(3),PCA 特征评价 维数比率问题,K-S检验的基本思路就是根据这 两根曲线的最大间距判断是否为 同一分布,给定一个正态分布下产生的100个随机数,下图绘制了 这100个随机数的经验分布函数 以及 正态累积分布函数,统计推论检测,量化特征的分类能力 常用的统计推论检验法 对于服从正态分布的特征 t-student检验 Anova统计检验 有时候,在样本有限的情况下,避免对特征的分布模型进行假设 Kruskal-Wallis检验 (K-W检验,又称H检验),PCA

11、 特征评价 维数比率问题,Kruskal-Wallis检验,给定有类别标签的一个样本集,检验其中一个特征的分类能力,需要挑出该特征下的数据,形成由n个数据组成的集合X (1)对X由小到大排序,每一个数据对应的序号称作秩次 (2)求评价值H ni:第i类的样本数 Ri:第i类中所有样本的秩次和 (3)一般认为,具有较高H值的特征有较强分类能力,PCA 特征评价 维数比率问题,Kruskal-Wallis检验一个例子,包含3个类别的样本集,取其中一个特征得到数据集如下: 类别1:279;338;334;198;303 类别2:229;274;310 类别3:210;285;117,PCA 特征评价 维数比率问题,n=11; n1=5;n2=3;n3=3; R1=37; R2=18; R3=11;,Kruskal-Wallis检验软木塞数据的检验结果,PCA 特征评价 维数比率问题,回顾:决策面,在一个低维空间里,决策面很复杂,投射到高维空间中,可以找到一个线性的决策面 但是在实际应用中,无限制地向高维投射,会存在“维数灾难”问题,PCA 特征评价 维数比率问题,数据不断增加时的两类分布图,这三个图想要给我们一个直观的印象: 当维数比率较低时,由训练集合学习得到的分类器将会是错误的。 维数比率较低对应着数据分布稀疏的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论