主成分分析法_第1页
主成分分析法_第2页
主成分分析法_第3页
主成分分析法_第4页
主成分分析法_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

关于主成分分析法4.1主成分分析法的基本原理主成分分析(PrincipalComponentsAnalysis)是由Hotelling于1933年首先提出的,它是利用降维的思想,把多指标转化为少数几个综合指标的多元统计分析方法。第2页,共37页,2024年2月25日,星期天4.1.1基本思想

对原始变量相关矩阵结构关系进行研究,找出影响某一经济过程的几个综合指标,使综合指标变为原来变量的线性组合,从而不仅保留了原始变量的主要信息,彼此之间又不相关,更有助于抓住主要矛盾。第3页,共37页,2024年2月25日,星期天

借助于一个正交变换T,将其分量相关的原随机向量x=(x1,x2,L,…,xp)T,转化成其分向量不相关的新随机向量u=(u1,u2,L,…,up)T

,这在代数上表现为将x的协方差阵变换成对角形阵,在几何上表现为将远坐标系变换成新的正交坐标系,使之指向样本点散布最开的p个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维度变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。第4页,共37页,2024年2月25日,星期天

定义:称为第k主成分分量的方差贡献率,称为前k个主成分分量的累计方差贡献率。第5页,共37页,2024年2月25日,星期天

例:儿童身高和体重两个变量之间的关系。下表表示儿童身高与体重数据:

变量观测量身高h体重w1h1w12h2w23h3w3┋┋┋nhnwn第6页,共37页,2024年2月25日,星期天使用散点图表示儿童身高与体重

y1y2

whθ

i=1,2,┅┅,n第7页,共37页,2024年2月25日,星期天

以该直线为一个坐标轴y1,以该轴的垂直线为另一个坐标轴y2。因为所有观测点均在坐标轴y1周围,而y1与y2

是两个相互垂直的坐标轴,因此彼此不相关。

上述也可以看成是将h轴和w轴同时按逆时针方向旋转θ角度,得到新的坐标轴y1和y2

,y1和y2是两个新的变量。第8页,共37页,2024年2月25日,星期天

根据旋转公式

y1=hcosθ+wsinθy2=-hsinθ+wcosθ

我们看到新变量y1和y2

是原变量h和w的线性组合,它的矩阵表示形式为y1cosθsinθh==U’xy2

一sinθcosθw其中U’为正交矩阵,即有U’=U-1,U’U-1=I第9页,共37页,2024年2月25日,星期天

旋转变换的目的是为了使得n个样本点在y1

轴方向上的离散程度最大,即y1的方差最大。变量y1

代表了原始数据的绝大部分信息,即把原始数据的信息集中到y1轴上,对数据中包含的信息起到了浓缩作用。

y1和y2可称为原始变量h和w的综合变量。由于n个点在y1

轴上的方差最大,因而将二维空间的点的描述用y1这个综合变量来代替,所损失的信息最小,由此称y1

为第一主成分,y2为第二主成分。

第10页,共37页,2024年2月25日,星期天

4.1.2主成分分析法与因子分析法主成分分析通过线性组合将原变量综合成几个主成分,用较少的综合指标来代替原来较多的指标(变量)。在多变量分析中,某些变量间往往存在相关性。是什么原因使变量间有关联呢?是否存在不能直接观测到的、但影响可观测变量变化的公共因子?因子分析法(FactorAnalysis)就是寻找这些公共因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考察原变量间的联系与区别。第11页,共37页,2024年2月25日,星期天

4.1.2主成分分析法与因子分析法例如,随着年龄的增长,儿童的身高、体重会随着变化,具有一定的相关性,身高和体重之间为何会有相关性呢?因为存在着一个同时支配或影响着身高与体重的生长因子。那么,我们能否通过对多个变量的相关系数矩阵的研究,找出同时影响或支配所有变量的共性因子呢?因子分析就是从大量的数据中“由表及里”、“去粗取精”,寻找影响或支配变量的多变量统计方法。可以说,因子分析是主成分分析的推广,也是一种把多个变量化为少数几个综合变量的多变量分析方法,其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。因子分析主要用于:1、减少分析变量个数;2、通过对变量间相关关系探测,将原始变量进行分类。即将相关性高的变量分为一组,用共性因子代替该组变量。第12页,共37页,2024年2月25日,星期天第13页,共37页,2024年2月25日,星期天第14页,共37页,2024年2月25日,星期天

4.2主成分分析的一般数学模型

变量观测量X1X2X3X4┅┅Xm1X11X12X13X14┅┅X1m2X21X22X23X24┅┅X2m┋┋┋┋┋┅┅┋nXn1Xn2Xn3Xn4┅┅Xnm

推广到一般情况,实测变量X1——Xm,共测得n个样品:第15页,共37页,2024年2月25日,星期天原始数据矩阵为:

X11X12┅┅X1mX21X22┅┅X2m┋┋┋Xn1

Xn2

┅┅XnmX=

第16页,共37页,2024年2月25日,星期天

在原始变量的m维空间中,找到新的m个坐标轴,新变量与原始变量的关系可以表示为:y1=u11x1+u12x2+┅┅+u1mxmy2=u21x1+u22x2+┅┅+u2mxm┅┅┅┅┅┅┅┅ym=um1x1+um2x2+┅┅+ummxm

并且满足uk12+uk22+┅┅+ukm2=1k=1,2,┅┅,m第17页,共37页,2024年2月25日,星期天系数uij由下列原则来确定:

(1)yi与yj(i≠j,i,j=1,2,┅┅,p)相互无关。(2)y1是x1、x2、┅┅、xp的一切线性组合中方差最大者;y2是与y1不相关的x1、x2、┅┅、xp的所有线性组合中方差最大者;yp是与y1、y2、┅┅、yp-1都不相关的x1、x2、┅┅、xp的所有线性组合中方差最大者。如此决定的综合变量y1、y2、┅┅、yp分别称为原始变量的第1、第2、┅、第p个主成分。其中y1在总方差中占的比重最大,综合变量y1、y2、┅┅、yp的方差依次递减,在具体分析时只挑选前几个方差最大的主成分,从而达到简化系统结构的目的。第18页,共37页,2024年2月25日,星期天4.3主成分分析法的算法

主成分分析法原理应用于实际课题,必须解决两个问题:一是随机向量x的协方差阵T或相关系数阵R通常是未知的,需借助于随机抽样的途径,对T或R作出极大似然估计;二是随机向量x的各个分量通常是不同的自然科学量或社会科学量,需通过标准化变换的方法,以解决不可公度的问题。

第19页,共37页,2024年2月25日,星期天

步骤1:采集p维随机向量x=(x1,x2,…,xp)T的n个样品xi=(xi1,xi2,…,xip)T,i=1,2,…,n,n>p,构造样本阵X

x1Tx11x12┅x1px2Tx21

x22

┅x2pX=┇=┇┇┇xnTxn1xn2

┅xnp

第20页,共37页,2024年2月25日,星期天

步骤2

对样本阵X中的元进行如下变换

xij,对正指标

Yij=-xij,对逆指标

Y=Yij

n×p

第21页,共37页,2024年2月25日,星期天步骤3

对Y正中元进行如下标准化变换

其中得标准化矩阵Z:Z=

z1Tz11z12┅z1pz2T=z21z22┅z2p┇┇┇┇znTzn1zn2┅znp第22页,共37页,2024年2月25日,星期天步骤4对标准化阵Z求样本相关系数阵

其中第23页,共37页,2024年2月25日,星期天步骤5解样本相关系数阵R的特征方程

得p个特征值第24页,共37页,2024年2月25日,星期天步骤6按

得单位特征向量:使信息的利用率达到85%以上。确定m值。对每个

解方程组第25页,共37页,2024年2月25日,星期天

步骤7求出zi=(zi1,zi2,┅,zip)T,i=1,2,┅,n的m个主成分量

uij=ziTbj0

,j=1,2,┅,m

得主成分决策阵

U=

=

其中ui为第i个样品的主成分向量,i=1,2,┅,n,它的第j个分量uij是向量zi在单位特征向量bj0

上的投影,j=1,2,┅,m。

第26页,共37页,2024年2月25日,星期天

步骤8选择适当的主成分价值函数模型,进一步把m维系统降成一维系统。一般评价函数模型为:

Fi=,i=1,2,┅,n。

其中

,j=1,2,┅,m。第27页,共37页,2024年2月25日,星期天

4.4实例分析:企业经济效益的主成分分析企业经济效益是指企业在一定的计划期内,以尽量少的资金占用、生产出尽量多的符合社会需求的产品。对企业经济效益的考核、分析和评价,是国家发展经济、实施宏观调控和科学管理所必须的,也是企业自我认识、自我发展、进行科学决策和科学管理的依据。第28页,共37页,2024年2月25日,星期天

4.4.1评价指标体系设计

(1)销售利润率(2)总资产报酬率

(3)资本收益率(4)资本保值增值率

(5)资产负债率(6)速动比率

(7)应收帐款周转率(8)存货周转率

(9)社会贡献率(10)社会积累率第29页,共37页,2024年2月25日,星期天

4.4.2建立数学模型

(1)根据调查研究,取n个样本,每个样本观测p项指标,从十个企业的财务报表中计算出所需的十个评价指标,得出原始数据矩阵如表1

Book1.xls第30页,共37页,2024年2月25日,星期天(2)为了消除原来各指标的量纲,使各指标之间具有可比性,对原始数据作标准化处理,其计算公式为:(i=1,2,….n;j=1,2,…p)

标准化原始数据矩阵所得结果如表2

Book1.xls

XIj*=第31页,共37页,2024年2月25日,星期天

(3)计算相关系数矩阵:R=

其中,rij=

(i=1,2,3,…p;j=1,2,3,…p)

根据标准化矩阵计算相关矩阵,结果如表3

Book1.xls第32页,共37页,2024年2月25日,星期天

(5)根据特征根计算主成分的贡献率和主成分的累计贡献率,选择m个主分量。当其达到一定水平时,说明前r个主成分来描述原样本所包含的信息量已经达到要求。计算公式如下:

第k个主主成分的贡献率=,

前r个主成分的累计贡献率=

计算结果如表4(Book1.xls)第33页,共37页,2024年2月25日,星期天

选择的4个主分量的方差和占全部方差总和的比例为0.9070接近1,即基本保留了原来的信息,而因子由10个减少为4个。故主成分为4个,根据Z=CX计算4个主成分的值z1,z2,z3,z4,

如下:

第一主成分:

z1=0.0620x1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论