主成分分析原理_第1页
主成分分析原理_第2页
主成分分析原理_第3页
主成分分析原理_第4页
主成分分析原理_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章主成分分析(一)教学目的通过本章的学习,我对主成分分析有了一个整体的清晰认识,了解了主成分分析的基本思想和数学模型,掌握了用主成分分析解决实际问题的能力。(2)基本要求理解主成分分析、几何解释的基本思想,理解主成分分析的数学模型,掌握主成分分析方法的主要步骤。(3)教学要点1、主成分分析、数学模型、几何解释的基本思想2.主成分分析的计算步骤及应用(4)教学时间3小时(5)教学内容1.主成分分析的原理和模型2.主成分推导和主成分分析步骤在实际问题中,我们经常会遇到研究多个变量的问题,而且在大多数情况下,多个变量之间存在一定的相关性。由于变量的数量和变量之间的相关性,分析问题的复杂性必然会增加。如何从多个变量中综合出几个有代表性的变量,不仅可以代表原始变量的绝大部分信息,而且相互之间也没有关系,可以在新的综合变量的基础上进行进一步的统计分析,因此需要进行主成分分析。第一节主成分分析的原理和模型一、主成分分析的基本思想和数学模型(一)主成分分析的基本思想主成分分析是一种数学降维方法,它找出几个综合变量来代替原来众多的变量,使这些综合变量能够尽可能地代表原来变量的信息内容,并且相互之间不相关。这种将多个变量转化为几个独立的综合变量的统计分析方法称为主成分分析或主成分分析。主成分分析所要做的是试图将原来的许多具有一定相关性的变量重组成一组新的独立的综合变量来代替原来的变量。通常,数学处理方法是将原始变量作为新的综合变量进行线性组合,但如果这种组合不受限制,可以有很多,应该如何选择呢?如果所选择的第一线性组合,即第一综合变量,被视为,自然地,希望它将反映原始变量的尽可能多的信息。这里的“信息”是用方差来衡量的,即希望越大,包含的信息就越多。因此,在所有的线性组合中,选择应该是方差最大的一个,所以它被称为第一主成分。如果第一个主成分不足以代表原始变量的信息,那么考虑选择第二个线性组合。为了有效地反映原始信息,现有信息不需要重新出现。用数学语言来表达它是需要的,称为第二主成分,依此类推,第三、第四、第三主成分就可以被构造出来。(2)主成分分析的数学模型对于一个样本数据,观察变量,样本的数据数组为:其中:主成分分析是将观察到的变量综合成一个新的变量(合成变量),即简称:模型需要满足以下条件:(1)不相关(,)(2)方差大于方差大于方差,依此类推因此,它被称为第一主成分,它是第二主成分,等等,它具有第一主成分。主成分也被称为主成分。这里我们称之为主成分系数。上述模型可用矩阵表示如下:,其中它被称为主成分系数矩阵。2.主成分分析的几何解释假设有一个样本,每个样本有两个变量,即在二维空间中讨论主成分的几何意义。让我们假设样本在二维空间中的分布近似为一个椭圆,如下图所示:图7.1主成分的几何解释坐标系正交旋转一个角度,使得椭圆的长轴方向获得坐标,短轴方向获得坐标(2)二维平面上各点的方差主要归因于轴,而轴上的方差很小。这个和称为原始变量的和。因为轴上每个点的方差最大,所以二维空间中的点被轴上的一维综合变量代替,并且丢失的信息量最小。因此,轴称为第一主分量,轴与轴正交,方差较小,称为第二主分量。三、主成分分析的应用卡尔帕森斯在1901年首次提出了主成分的概念,但当时只讨论了非随机变量。霍特林在1933年将这个概念扩展到随机变量。特别是近年来,随着计算机软件的应用,主成分分析的应用越来越广泛。其中,主成分分析可用于系统评价。系统评价是指对系统运行状态的评价,而对系统运行状态的评价往往需要对许多运行变量进行综合考察,如对某类企业经济效益的评价。影响经济效益的变量很多,很难直接比较它们的优缺点。因此,解决评价问题的重点是客观、科学地将一个多变量问题整合成一个单一的变量形式,即只有在一维空间中才能进行排序评价,这符合主成分分析的基本思想。在经济统计研究中,除了经济效益的综合评价、不同地区经济发展水平的评价、不同地区经济发展竞争力的评价、人民生活水平和生活质量的评价等。可以通过主成分分析来研究。此外,主成分分析除了用于系统评价的研究领域外,还可以与回归分析相结合进行主成分回归分析,主成分分析可以用于选择变量和变量子集。第二节主成分推导和主成分分析步骤一、主要成分的推导根据主成分分析数学模型的定义,主成分分析要求如何根据原始数据和模型的三个条件要求找到主成分系数,从而得到主成分模型。这是在推导主成分时要解决的问题。1.根据主成分数学模型(1)的条件,主成分彼此不相关,所以主成分之间的协方差矩阵应该是对角矩阵。也就是说,对于主要组件,它的协方差矩阵应该是,=2.将原始数据的协方差矩阵设置为,如果原始数据被归一化,则协方差矩阵等于相关矩阵,即,3.根据主成分数学模型条件(3)和正交矩阵的性质,如果条件(3)可以满足,则最佳要求是正交矩阵,即满足因此,用原始数据的协方差代替主分量的协方差矩阵公式来获得扩展以上内容展开等式的两边。根据矩阵相等的性质,这里仅从第一列得到的方程是:为了得到齐次方程的解,要求其系数矩阵的行列式为0,即显然,它是相关系数矩阵的特征值和相应的特征向量。类似的方程可以根据第二列、第三列等得到,所以它是一个方程。的根是特征方程的特征根,是其特征向量的分量。4、下面再次证明主成分的方差是按顺序递减的假设相关系数矩阵的每个特征根为,对应的特征向量为相对方差是同样的道理:也就是说,主成分的方差连续减少。协方差是:综上所述,根据证明,主成分分析中的主成分协方差应该是一个对角矩阵,对角线上的元素正好是原始数据相关矩阵的特征值,而元素之间的关系是一个对角矩阵第四步:选择重要的主成分,写出主成分表达式。主成分分析可以得到6个主成分。然而,由于每个主成分的方差在减小,其包含的信息量也在减小,所以在实际分析中,第一主成分通常不是根据每个主成分的累积贡献率来选择的。这里的贡献率是指主成分的方差占总方差的比例,实际上是某个特征值占总特征值的比例。也就是说,贡献率=贡献率越大,主成分中包含的原始变量信息就越强。主成分数量的选择主要取决于主成分的累积贡献率,即累积贡献率一般要求达到85%以上,以保证综合变量能够包含原始变量的绝大部分信息。此外,在实际应用中,在选择重要的主成分后,还应注意解释主成分的实际含义。主成分分析的一个关键问题是如何赋予主成分新的含义并给出合理的解释。一般来说,这种解释是基于主成分表达式与定性分析相结合的系数。主成分是原始变量的线性组合。在这种线性组合中,变量的系数有大有小,有正有负,有些大小相等。因此,不能简单地认为主成分是原始变量属性的函数。线性组合中各变量系数的大绝对值表明主成分主要整合绝对值大的变量。当几个变量的系数大小相等时,应该认为主成分是这些变量的和。这些变量的组合应该有什么实际意义?这应结合具体的实际问题和专

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论