第十四讲 多元相关_第1页
第十四讲 多元相关_第2页
第十四讲 多元相关_第3页
第十四讲 多元相关_第4页
第十四讲 多元相关_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十四讲多元相关一、主成分分析二、因子分析三、典型相关分析方法。所研究的问题是:设有某个维总体一、主成分分析主成分分析是一种将多个指标化为少数几个指标以便揭示问题背后隐藏深层次原因的统计每个样品都测得个指标,而这个指标往往互有影响。能否将这个指标综合成很少几个综合性指标(或特征),要求这几个综合既能尽可能充分反映原来个指标的信息,且彼此间互不相关。(一)从个指标求主元的方法设为维随机向量,那么如何将这个指标综合成很少的几个指标且要尽可能反映原来指标的作用,又彼此不相关呢?一个自然的方法是寻找指标线性组合(线性变换)。我们先来考虑第一个总合指标,令其中是待定的常向量。现在的任务是选取适当的使得最大限度地反映原来指标的作用,这就相当于要求要有尽可能大的方差,即选取使得尽可能地大。说明是的无界函数。然而不能通过加大向量的长度使的方差变因为对任意的常数,有因此如果对不加大,即只要变长倍,相应的方差就扩大倍,也限制,问题就会变得毫无意义。一个自然的限制是令即要求是单位向量。从而问题变为:在的条件下,求使达到最大的。定理19.1设总体的均值和协方差阵分别为是总体的个指标,令其中,则使得的方差和达到最大的正好是矩阵的最大特征根所对应的特征向量。证明用Lagrange乘数法来证明。令则有令可得这样就有由于根据克莱姆法则知,上述齐次线性方程有非零解的充要条件是系数行列式为零,即这说明是矩阵的特征根,且由可知是对应于特征根的特征向量。又由可知欲使的方差最大,只要取为的最大特征根即可,这样就是对应的单位特征向量。由定理19.1可知,第一个综合指标为其中是的对应于矩阵最大特征值的单位特征向量,称为第一主成分(或第一主元)。若协方差矩阵即是非负定的,由矩阵论知它有个非负的特征根,不妨设为且是对应的个特征向量。自然应为的第二大特征根所对应的单位特征向量,并称为第二主成分。类似地,第二个综合指标可以取为重复以上过程,可得的第个综合指标称为的第个主成分。总之,我们可得到个主成分且其中是协方差阵的非零特征根并有而是对应的单位特征向量。若用矩阵可表示如下其中且即矩阵是行正交矩阵。因此,所谓的主成分分析也可以看作是对原来的个指标进行了一次正交变换而得到个互不相关的综合指标,即主成分这样关于寻找总体的综合指标——主成分的问题就转化为求的协方差矩阵的特征值和标准正交特征向量的问题,归纳为如下几个步骤:1.求的协方差阵的特征值,记为2.求对应的单位特征向量且要求正交。3.获得第个主成分注:若,则可得到的个主成分;当

有重特征值时,主成分不唯一。实际应用时到底应取多少个主成分作为分析问题的综合指标的问题留在后面讨论。在实际应用时,经常会遇到个指标的量纲不尽相同或取值彼此差异很大的问题,处理的一般方法是先将各指标进行标准化,即其中的协方差阵为但应注意这时即为相关矩阵其中因此求的主成分就是求的特征值和相应的单位特征向量,然后可得的分量的线性组合,即为所求的主成分。协方差阵和相关矩阵往往是未知的。这时在实际问题中,所研究的总体的均值需对总体进行抽样,设样本为取和的估计分别为——样本均值(二)样本主成分——样本相关矩阵设的特征值为对应的单位特征向量为则称为的第个样本主成分。——样本协方差阵同样地,若记的特征值为对应的单位特征向量为则称为标准化变量的第个样本主成分,其中对于样本可以得到相应的主成分的样本为了区别起见,将这小节的主成分统称为样本主成分;而上一小节的主成分统称为总体主成分。(二)贡献率和主成分的解释构造综合指标的目的是想用尽可能少的主成分来代替原有的个指标,且能对原始资料所具有的意义做出合理的解释。那么到底应该选择多少主成分才合理呢?下面就来讨论总体主成分个数的选取问题,对样本主成分也有类似的分析。设维总体的协方差阵为的第个主成分为由于这些主成分时互不相关的,因此有这说明的“总方差”(即个分量的方差之和)等于个互不相关的随机变量的方差之和,其中具有最大的方差,次之且有方差具有最小方差这样主成分依次集中了各分量的变化的主要部分,第一主成分的方差最大,即是以变化最大的方向向量为系数所得到的线性函数作为比值表明了方差在“全部方差”中所占的比重,显然这个比值越大,表明这个变量“综合”原始资料的能力越强。通常称这个比值为第一主成分的贡献率。类似地称为第个主成分的贡献率。而称为前个主成分的累计贡献率。这就是说,贡献率约达,则对应的主成分反映的能力就越强,反之则弱。因此,在实用常常略去那些贡献率小的主成分。经验指出:一般只要前个主成分的累计贡献率超过85%就足够了。这样就可以用前个不相关的主成分的变化来刻画的个相关分量的变化,即就是说可以用低维指标来反映高维指标的变化特性。例子参见P340.例某还海湾地区生物和地理环境之间的关系分析,在某海湾地区设置了274块地,调查了8个环境变量和7个物种。环境变量的选择是根据预备调查资料分析而确定的,变量名称和物种名称如表所示。由于量纲不同,现将它们进行标准化。环境因子(%)平均标准差物种平均(个/m2)标准差>250µm颗粒1.214.479Macoma

balthica23255996125-250颗粒20.3123.27Tellina

tenuis49.254462.5-125颗粒53.6721.36Hydrobia

ulvae374.21014<62.5颗粒24.7420.77Corophium

volutator540.51180燃烧损失1.5040.555Nereis

diversico

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论