版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
主成分分析主成分分析的基本思想主成分的计算主成分的性质主成分分析的应用主成分回归
一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。§1
基本思想
在进行主成分分析后,竟以97.4%的精度,用三新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展趋势F3。更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入I、总收入变化率
I以及时间t因素做相关分析,得到下表:
F1F2F3iitF11
F201
F3001
i0.995-0.0410.057l
i-0.0560.948-0.124-0.102l
t-0.369-0.282-0.836-0.414-0.1121主成分分析的基本思想
主成分分析就是把原有的多个指标转化成少数几个代表性较好的综合指标,这少数几个指标能够反映原来指标大部分的信息(85%以上),并且各个指标之间保持独立,避免出现重叠信息。主成分分析主要起着降维和简化数据结构的作用。
主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。
在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。
主成分分析试图在力保数据信息丢失最少的原则下,对这种多变量的截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。
很显然,识辨系统在一个低维空间要比在一个高维空间容易得多。§2数学模型与几何解释
假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为X1,X2,…,Xp,主成分分析就是要把这p个指标的问题,转变为讨论m个新的指标F1,F2,…,Fm(m<p),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。其中
这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合Fi。所以如果不对加以限制,问题就变得无意义。最大因此限制为单位向量。满足如下的条件:主成分之间相互独立,即无重叠的信息。即主成分的方差依次递减,重要性依次递减,即每个主成分的系数平方和为1。即•••••••••••••••••••••••••••••••••••••主成分分析的几何解释平移、旋转坐标轴•••••••••••••••••••••••••••••••••••••主成分分析的几何解释平移、旋转坐标轴•••••••••••••••••••••••••••••••••••••主成分分析的几何解释平移、旋转坐标轴•
旋转变换的目的是为了使得n个样品点在Fl轴方向上的离散程度最大,即Fl的方差最大。变量Fl代表了原始数据的绝大部分信息,在研究某经济问题时,即使不考虑变量F2也无损大局。经过上述旋转变换原始数据的大部分信息集中到Fl轴上,对数据中包含的信息起到了浓缩作用。Fl,F2除了可以对包含在Xl,X2中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上的n个点的方差大部分都归结在Fl轴上,而F2轴上的方差很小。Fl和F2称为原始变量x1和x2的综合变量。F简化了系统结构,抓住了主要矛盾。•••••••••••••••••••••••••••••••••••••主成分分析的几何解释平移、旋转坐标轴•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••§3
主成分的计算先讨论二维情形求主成分F1和F2。观察图,我们已经把主成分F1和F2
的坐标原点放在平均值所在处,从而使得F1和F2
成为中心化的变量,即F1和F2
的样本均值都为零。因此F1可以表示为关键是,寻找合适的单位向量,使F1的方差最大。最大问题的答案是:X的协方差矩阵S的最大特征根所对应的单位特征向量即为。并且就是F1的方差。推导同样,F2可以表示为寻找合适的单位向量,使F2与F1独立,且使F2的方差(除F1之外)最大。问题的答案是:X的协方差矩阵S的第二大特征根所对应的单位特征向量即为。并且就是F2的方差。推导求解主成分的步骤:1.求样本均值和样本协方差矩阵S;2.求S的特征根求解特征方程,其中I是单位矩阵,解得2个特征根3.求特征根所对应的单位特征向量4.写出主成分的表达式例1
下面是8个学生两门课程的成绩表
6585709065455565数学10090707085555545语文对此进行主成分分析。1.求样本均值和样本协方差矩阵2.求解特征方程=0
化简得:
解得:
3.求特征值所对应的单位特征向量
所对应的单位特征向量,
其中解得()=
所对应的单位特征向量
,其中解得:4.得到主成分的表达式
第二主成分:第一主成分:5.主成分的含义通过分析主成分的表达式中原变量前的系数来解释各主成分的含义。第一主成分F1是和的加权和,表示该生成绩的好坏。第二主成分F2表示学生两科成绩的均衡性6.
比较主成分重要性
第一主成分F1的方差为第二主成分F2的方差为方差贡献率
方差贡献率为
主成分F1和F2的方差总和为原变量和的方差总和为总方差保持不变身高x1(cm)胸围x2(cm)体重x3(kg)149.5162.5162.7162.2156.5156.1172.0173.2159.5157.769.577.078.587.574.574.576.581.574.579.038.555.550.865.549.045.551.059.543.553.5例2下表是10位学生的身高、胸围、体重的数据。对此进行主成分分析。1.求样本均值和样本协方差矩阵
2.求解协方差矩阵的特征方程
3.解得三个特征值
和对应的单位特征向量:4.由此我们可以写出三个主成分的表达式:
5.主成分的含义F1表示学生身材大小。F2反映学生的体形特征三个主成分的方差贡献率分别为:前两个主成分的累积方差贡献率为:
例3对88个学生5门不同课程的考试成绩进行分析,要求用合适的方法对这5门课程成绩进行平均,以对88个学生的成绩进行评比。这5门课程是:MechanicsVectors(闭),AlgebraAnalysisStatistics(开)。经计算,得到5个主成分的表达式如下:这5个主成分的方差分别为679.2,199.8,102.6,83.7和31.8。前两个主成分各自的贡献率和累积贡献率为在一般情况下,设有n个样品,每个样品观测p个指标,将原始数据排成如下矩阵:
求样本均值和样本协方差矩阵S;2.求解特征方程=0,其中I是单位矩阵,解得p个特征根3.求所对应的单位特征向量
即需求解方程组其中
再加上单位向量的条件解得4.写出主成分的表达式
根据累积贡献率的大小取前面m个(m<p)主成分选取原则:
且主成分个数的选取原则例4设的协方差矩阵为经计算,的特征值为相应的主成分分别为第一主成分的方差贡献率为:§4R型分析为消除量纲影响,在计算之前先将原始数据标准化。标准化变量的S=R,所以用标准化变量进行主成分分析相当于从原变量的相关矩阵R
出发进行主成分分析。统计学上称这种分析法为R型分析,由协方差矩阵出发的主成分分析为S型分析。
S型分析和R型分析的结果是不同的。在一般情况下,若各变量的量纲不同,通常采用R型分析。R型分析的概念§5
主成分的性质一、主成分的相关结构主成分Fk的方差
主成分Fk的方差贡献率为主成分与每个变量之间的相关系数
4.主成分对每个原变量的方差贡献证明因子负荷量(因子载荷)第i个分量为1,其余为0第一主成分与原变量的相关系数依次是第一主成分与原变量的相关系数依次是
同样,我们可以很容易地计算第二主成分与三个原变量之间的相关系数:
F1F2F3X1X2X30.8120.5760.0050.906-0.3490.2310.944-0.313-0.089F1F2F3X1X2X30.6590.3320.0000.8210.1220.0530.8910.0980.008横行之和为1,从横行看,有
因此从纵向看,有:从纵向来看,反映了65.9%的信息,反映了82.1%的信息,反映了89.1%的信息。
F1F2F3F4F5X1X2X3X4X50.7580.609-0.1750.1560.0260.7340.2240.3220.5480.0810.853-0.1360.139-0.003-0.4930.796-0.2880.4090.3210.1090.812-0.451-0.354-0.0940.050
F1F2F3F4F5X1X2X3X4X50.5740.3710.0300.0240.0010.5390.0500.1040.3000.0070.7270.0180.0190.0000.2430.6340.0830.1680.1030.0120.6800.2040.1250.0090.002二、主成分的性质主成分的协差阵为对角阵总方差保持不变与的相关系数若进行R型分析,则
若进行R型分析,则
对的方差贡献为
若进行R型分析,则从横行看有从纵向看有§6用主成分图解样品和变量
主成分分析后,若能以两个主成分代表原变量大部分的信息,则我们可以在平面上分析每一个样品点。步骤如下:
1、对每个样品分别求第一主成分F1和第二主成分F2的得分。
2、建立以F1和F2
为轴的直角坐标系。以
F1为横坐标,
F2为纵坐标,在坐标系中描出各个样品点(画散点图)。
3、解释坐标系的各个象限。一、图解样品(对样品分类)F1F2二、图解变量(对变量分类)
主成分分析后,若能以两个主成分代表原变量大部分的信息,则对应每个原变量,只剩下和。以为横轴,为纵轴,建立直角坐标系。然后以为横坐标,以为纵坐标,在坐标系中描出各变量对应的点。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年三亚理工职业学院单招综合素质考试题库附答案详细解析
- 广东深圳南山二外(集团)学府二小招聘小学体育教师1人笔试参考题库及答案解析
- 2026陕西师范大学生命科学学院教学科研人员招聘笔试模拟试题及答案解析
- 2026浙江事业单位统考柯桥区招聘75人考试备考题库及答案解析
- 2026青海海南州贵南县自然资源和林业草原局林业站招聘生态护林员2人笔试参考题库及答案解析
- 2026年中国人民解放军第五七二0工厂招聘笔试模拟试题及答案解析
- 2026浙江省对外服务有限公司丽水分公司招聘1人笔试模拟试题及答案解析
- 2026福建三明市教育局华东师范大学附属三明中学公开招聘专业技术人员13人 (河南师范大学专场)笔试备考试题及答案解析
- 2026年宜兴市事业单位公开招聘人员109人考试备考题库及答案解析
- 泸州市雁林高级中学2026年春期招聘笔试模拟试题及答案解析
- 托幼机构儿童心理保健
- 远程无人值守集中计量项目施工方案
- 山西省普通高等学校毕业生就业协议
- 选择性必修二 Unit 2 Improving yourself 单元整体教学设计
- GB/T 29197-2012铜包铝线
- GB/T 26423-2010森林资源术语
- GA/T 414-2018道路交通危险警示灯
- GA/T 1019-2013视频中车辆图像检验技术规范
- QJZ-2×SF-双电源双风机说明书
- 2023年河南机电职业学院单招职业技能考试笔试题库及答案解析
- GB∕T 36419-2018 家用和类似用途皮肤美容器
评论
0/150
提交评论