【《PCA算法的原理概述》3100字】_第1页
【《PCA算法的原理概述》3100字】_第2页
【《PCA算法的原理概述》3100字】_第3页
【《PCA算法的原理概述》3100字】_第4页
【《PCA算法的原理概述》3100字】_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PCA算法的原理概述目录TOC\o"1-3"\h\u6387PCA算法的原理概述 1203811.1引言 1150901.2PCA算法的原理 2196211.2.1PCA的基本思想 2223741.2.2PCA的数学模型 3PCA是一种主成分分析的技术,也可以简称为PCA或者是主成分分析。其目的在于充分运用减少维度的思想,把多个指标变换成少数的综合性指标。1.1引言由于数字图像的信号和数据量较大的人工通道所存储的容量有限这样的矛盾说明了如何对数据量进行压缩也是非常有必要的,不过,通常的情况下一张照片的各种像素之间都会存在一定范围内的关联性。特别地,在一个具有重要运动学意义的图像中,由于两个相邻的图像之间的时间间隔很短,所以它们都会被包括在很多与其相关的信息中。其中也就是视频信息的冗余。数据压缩的主要目标之一就是为了减少和消除影像信息中的许多冗余,并保证图像质量。通常是针对不同的文件类型和数据冗余,采取不同的冗余压缩处理方法。基于广泛的商业效益和不同厂家仪器设备的高度兼容性,产生了一种新型的视频影像编码规范。国际电气通信联盟的远程通信标准化机构(ITU-T,即原来的CCITT)和其它国际标准化机构中的国际电工理事会(ISO/IEC,即原来的ISO和CCIR)依次联合制定并共同发布了一系列的关于有关应用静态视频绘制和应用动漫视频编码的相关国际标准。这些技术标准一起研究归纳并整理总结了使用超过50年的图像编码压缩技术及其实际应用的相关研究成果,综合地充分考虑了图像压缩前的效率与图像压缩后的精度。实现了其技术复杂性和实际应用的简单性等,并且先后提出了一套相对最好的具体解决办法方案,表明了现在我国计算机图像编码处理技术的初步发展较高水平。1.2PCA算法的原理在现代统计学理论中,主成分分析PCA是一项简化了大量数据集的科学研究技术。这是一种线性转换[16]。这样的转移和变换就需要将所有的数据都变换成一个新的坐标体系,使得在图像中投影的任意一个数据的第一分散点都被放置于第一个坐标(也叫第一主要分量)上,使第二分散点均被放置于第二个坐标(即第二主要分量)上。主成分分析往往被广泛应用于减少和提高数据集在不同层次上的维度,但必须明确地保证如何使用和控制每一种数据集之间存在着对方性的差别以便为其做出最大的贡献。它就是通过去掉低阶的原始成份,却完全忽略了高阶的原始成份。这样一来,低层次的组件就能很好地维护这些数据中最重要的部件。1.2.1PCA的基本思想主成分分析法是对其在某一个数学维度上已经有所减少或者下降的一种分析方法,通过把一些综合的变量进行置换而成为了原始的许多个变量,这些所有被综合化的变量都能够尽最大程度地作为一种信息特征用于表示。而且他们之间又互不相联。因此,将这样的多个变量转换为具有少数相互依存性的几个综合变量的统计分析法被称为主成分分析或主成分分析。PCA的主要设计理念就是将一个维度特性映射到维度,并且这个维度本身是全新的正交特性。这个次元的特征被称为主要成分。这是新制作的次元的特征。在PCA中,数据将会从原先的坐标系转换成新的坐标系,但是对于新的坐标系如何选择却与其中的数据本身紧密地息息相关。第一个新的坐标轴在其原始数据中选择分散[17]最大的方向,而第二个新的坐标轴的选择是与第一坐标轴正交并且具有最大色散的方向。然后,该过程总是重复的,其中重复的次数就是原始数据中某些给定特征值的数目。由于大部分的方差都包括在最前面的几个新的坐标轴中,所以完全可以简单得直接忽略其他剩余几个坐标轴,即对所有数据进行降序优化处理。主成分分析所必须要做的事情就是,将以往很多与之有一定关联的变量重新组合,将与之前的相互不同或者无关的整个综合变量置换为原来的变量。通常,数学的处理方法就是将原来的变量进行线性化地组合,作为一个新的综合变量,但如果这种组合不受到限制,则可以有很多组合。怎么选择才好呢?当然,第一个所需要选择的是线性组合,即第一个综合变量,希望尽可能多地反映原始变量的信息。这里的“信息”用分散法测定。也就意味着,Var()的值越大,表示所需要包含的信息就可能会越多。因此,在所有的线性组合中,所需要选择的分散应该是其中最大的,故称为第一主成分。如果第一具有线性组合主成分的函数值不够准确地反映代表原始P个变量的所有具备相关性的信息,则我们完全可以直接通过各种考虑从这个具有相关性的信息中任意性地选取第二个线性组合;为了有效地准确地能反映原来的相关信息,已经存在的信息就不必再需要再出现在中,用一种数学的语言表达的话,需要Cov(,)=0,其中我们称为第二主成分,以此类推我们可以直接构造得出第三、四...第P个主成分。1.2.2PCA的数学模型对于一个样本资料,观测P个变量x1,x2,...,xp,n个样品的数据资料为:(2.1)其中:(2.2)主成分分析法是指将p个观察变量整体地综合成p个新的变量(总成分综合),即(2.3)简写为:(2.4)要求模型满足以下条件:,互不相关();的方差大于的方差大于的方差,按顺序类推;。因此,作为第一个主成分,作为第二个主成分,依次进行类推,一共包含了第P个主成分,其中的主成分也被人们统称为主分量。这里的我们称之为主成分系数。上述模型可以用矩阵表示为:(2.5)其中,A称为主成分系数矩阵。1.2.3PCA的几何解释假设二维空间中共有n个样本,每个样本中都包含有两个不同的变量,即讨论了二维空间中关于主成分的几何意义。将n个样本在二维空间中的位置和分布大致定义为一个椭圆,如下图所示:图1.1主成分几何解释图将椭圆坐标系进行正交旋转一个角度,在椭圆长轴方向取坐标,在椭圆短轴方向取坐标,旋转公式是(2.6)要创建矩阵的格式为:(2.7)这里是坐标旋转变换矩阵的正交矩阵,即有,就满足。经过旋转变换后,可获得下图所示的新坐标:图1.2主成分几何说明图新坐标有以下的性质:n个点的坐标和的相关几乎为零。(2)二维平面上的n个点的方差大部分归结于轴上,而轴上的方差小。和称为原始变量和的综合变量。由于n个点位于轴上的方差最大,因此将二维空间的每一个点置换为轴上的一维综合变量,所产生损失的数据信息量最小,由此称轴为第一主成分,轴与轴正交,有较小的方差,称它为第二主成分。PCA算法的一个本质特点就是在这些投影的方向上得到数据的色散差异为最大,并且这些投影方向找到几个投影方向,使得它们彼此正交。这实际上本身就是一个寻求得到一个全新的正交依据基础[18]的过程,其示出了计算这些正交依据基础上的各种原始数据所需要投影的方差,并且当时的方差也就越大,相应地在这些正交依据的基础上也会包括较为丰富的资料。原始数据的协方差矩阵中的特征值越高,所需要对应的特征分散度就越高,投影到所对应的特征向量的信息量就越大。相反,在一个特征值较小的情况下,说明向这些特征矢量投影数据的信息量较小,能够完全删除与小特征值所对应的某一个方向上的数据,实现维度下降的目的。PCA将与可能存在相关性的高阶元变量称为初级分量,并将它们集成到一个不需要依赖线性的低维变量中。而且新的低维数据集将尽可能保留更多的原始数据变量。该分析方法主要研究目的也就是通过对各种不同数据类型的统计数据分别采取一种具有特征性的矩阵分析计算方式,来将协方差阵在矩阵中的分解定义为每一个类型数据的各种类型主要积分量(分重即各种数据特征向量)及其权重(权值即各种数据特征向量值)。PCA就是我们利用最简单的元素特征性测量方法对多元素在统计学理论中的因素分布关系进行了综合分析。结果,可以说明原始数据的分散。哪个方向的数据值和对方的差异最大?换句话说,PCA就提供了一种降低数据维度的有效途径。如

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论