主成分分析法精华讲义及实例-转载-修改-更新符号_第1页
主成分分析法精华讲义及实例-转载-修改-更新符号_第2页
主成分分析法精华讲义及实例-转载-修改-更新符号_第3页
主成分分析法精华讲义及实例-转载-修改-更新符号_第4页
主成分分析法精华讲义及实例-转载-修改-更新符号_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主成分分析类型:一种处理高维数据的方法。降维思想:在实际问题的研究中,往往会涉及众多有关的变量。但是,变量太多不但会增加计算的复杂性,而且也会给合理地分析问题和解释问题带来困难。一般说来,虽然每个变量都提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。因而人们希望对这些变量加以“改造”,用为数极少的互补相关的新变量来反映原变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的。一、总体主成分定义设Xi,X2,…,Xn为某实际问题所涉及的p个随机变量。记-xjXcX=:,其协方差矩阵为-XpJCov(X尸2=E((X-E(X)XX-E(X)))它是一个p阶非负定矩阵。设T__Yi=liX=lnXi+l21X2+…+lpiXp(1)Y2=l;X=Ii2XJI22X2+…+lp2Xp(1)Yp=|;XipX1+l2pX2+…+IppXp其中l其中lkIlkI12k“1一11Tl111121…1p1111112…11pT-XJY21Tx112122…1p2X2121122…12pX29—.■—9+.9—99+.9:Yp一1]T.1p-11p12P…1pp1Xp一111p11p2…1pp1Xp一即:Y==LtX其中L=lil2l其中L=lil2lpliiIl211222…11Pl…12P11pp1P2则有(2)Var(Yi)=Var(l:X)=l:.,i=1,2,...,p,(2)Cov(Y,Yj)=Cov(l:X,l;X)=lT、lj,j=1,2,...,p.为什么?见另一个文档。第i个主成分的定义如下:般地,在约束条件lili=1及Cov(Y")=l:以=0,k=1,2,…,i-1.下,求L使Var(Y)达到最大,由此1i所确定的Y=Kx称为X1,X2,…,Xp的第i个主成分。1.2总体主成分的计算设工是X=(X1,X2,...,Xp)1的协方差矩阵,工的特征值及相应的正交单位化特征向量分别为'1-'2---'p-0ei,e2,...,ep,则X的第i个主成分为Y=e:X=qiXi+ezX2+…+e.Xp,i=1,2,...,p,(3)此时Var(Y)=e:氏二一,i=1,2,...,p,

T—

Cov(Y,Yk)=e;羽=0,i=k.1.3总体主成分的性质主成分的协方差矩阵及总方差记Y=(Y,Y,…,Y)T为主成分向量,则Y=PtX,其中P=(e,e2,...,ep),且Cov(Y)=Cov(PTX)=Pt2P=A=Diag⑶,&,.,?p),由此得主成分的总方差为pppVVar(Y)=£%=tr(Pt2P)=tr(2PPT)=tr(2)=工Var(Xi),i1i1i1为什么tr(Pt2P)=tr(2PPt)?因为:PT冲与3PF:相似(P(PT\P)pT=PPT2PP_1=2PP-1=2PPT),所以迹不变。为什么2PPt=2?因为PPt=E所以成立。p为什么tr(1)=VVar(XJ,因为工对角元素就是Var(XJ。i1即主成分分析是把p个原始变量Xi,X2,…,Xp的总方差pVar(Xi)i1分解成p个互不相关变量丫1,丫2,…,Yp的方差之和,即pVVar(Y)i1而VarM)=%。

第k个主成分的贡献率:、ii1m▼'i前m个主成分累计贡献率:亍,它表明前m个主成分Yi,丫2,…,Ym.二■-ii1综合提供Xi,X2,…,Xp中信息的能力。1.3.2主成分Yi与变量Xj的相关系数由于Y=PtX,故X=PY(因为P是正交矩阵,所以PT=P」),从而Xj=e"ej2丫2ejpYp,所以:Cov(Yi,Xj)=Cov(Y,ejiYijY2「pYp)=Cov(Yi,ejiYi)Cov(Yi,ej2Y2)Cov(Y,ejiY)Cov(Y,ejpYp)-'i5由此可得Yi与Xj的相关系数为p_C0V(丫,Xj)=k©(4)Yi,XjVar(Y)Var(Xj)「二』jii.4标准化变量的主成分在实际问题中,不同的变量往往有不同的量纲,由于不同的量纲会引起各变量取值的分散程度差异较大,这时总体方差则主要受方差较大的变量的控制。为了消除由于量纲的不同可能带来的影响,常采用变量标准化的方法,即令*Xi,i=i,2,...,p,(5)其中*Xi,i=i,2,...,p,(5)其中‘i=E(X),二"的协方差矩阵便是=Var(X)这时X=(X1,X2,...,Xp)T的相关矩阵p=(Pj)P9矩阵,其中RjCov(XiRjCov(Xi,Xj)(6)原因:*一一*CovX*一一*CovXj,Xj=Covi'Xi-匕Xj—巴Cov(Xj-H,Xj-%)匚仅Xj”产(X—iWXj-Nj)—E(Xj))、EXj-EXjXj-EXjJ;ii.「jjCovXj,Xj所以:Cov(x*尸E((X*-E(X*mx*-e(x*))T尸E(X*X*t)=P利用X的相关系数矩阵P作主成分分析,有如下结论:设x*=(X1*,X;,...,Xp)T为标准化的随机向量,其协方差矩阵(即X的相关系数矩阵)为p,则x*的第j个主成分为…;)TxT号.看…e*pj营—⑺并且(8)ppP(8)二.Var(Y)人,j八Var(Xj)=p,j1j1j1其中却达至…乩至0为p的特征值,e*=(e*i,e*2,...,《)丁为相应于特征值%*的正交单位特征向量。*第j个主成分的贡献率:二;前m个主成分的累计贡献率:二Y*Y*与X:的相关系数为py*x*i,八j7*%eji°二、样本主成分前面讨论的是总体主成分,但在实际问题中,一般工(或P)是未知的,需要通过样本来估计。设xi=(xi1,x2,…,xip),i=/Sj=-/Sj=-:(xki-xi)(xkj-xj),i,j=1,2,...,p.n-1-分别以S和R作为工和P的估计,然后按总体主成分分析的方法作样本主成分分析为取自X=(X1,X2,...,Xp)T的一个容量为n的简单随机样本,则样本协方差矩阵及样本相关矩阵分别为1J__TS=(Sj)pp=(Xk-x)(Xk-x),

n-1k=iR=(rR=(rij)pp=其中_____1nX=(xi,x2,…,xp)T,xj二一'Xij,j=1,2,…,p,ni1

二、例题某市为了全面分析机械类个企业的经济效益,选择了8个不同的利润指标,14企业关于这8个指标的统计数据如下表所示,试进行主成分分析c表114家企业的利润指标的统计数据变量企业序号净产值利润率(%)Xil固定资产禾润率(%)Xi2总产值利润率(%)Xi2销售收入禾润率(%)Xi3产品成本利润率(%)Xi5物耗利润率(%)Xi6人均利润率Xi7(千九/人)流动资金利润率(%)Xi8140.424.77.26.18.38.72.44220.0225.012.711.211.012.920.23.5429.1313.23.33.94.34.45.50.5783.6422.36.75.63.76.07.40.1767.3534.311.87.17.18.08.91.72627.5635.612.516.416.722.829.33.01726.6722.07.89.910.212.617.60.84710.6848.413.410.99.910.913.91.77217.8940.619.119.819.029.739.62.44935.81024.88.09.88.911.916.20.78913.71112.59.74.24.24.66.50.8743.9121.80.60.70.70.81.10.0561.01332.313.99.48.39.813.32.12617.11438.59.111.39.512.216.41.32711.6解:样本均值向量为:Tx=(27.97910.9509.1008.54311.06414.6141.55214.686)T,样本协方差矩阵为:■168.33360.35745.75741.21557.90671.6728.602101.620]37.20716.82515.50523.53529.0294.78544.02324.84324.33536.47849.2783.62939.41024.42336.28349.1463.67538.718S=56.04675.4045.00259.723103.0186.82174.5231.1376.722102.707168.3360.35745.75841.21657.90671.6728.602101.6260.35737.20716.82515.50523.53529.0294.784644.02345.75816.82524.84324.33536.47849.2783.62939.4141.21615.50524.33524.42336.28349.1463.674738.718S=57.90623.53536.47836.28356.04675.4045.002259.72371.67229.02949.27849.14675.404103.026.821574.5238.6024.78463.6293.67475.00226.82151.1376.7217101.6244.02339.4138.71859.72374.5236.7217102.71由于S中主对角线元素差异较大,因此我们样本相关矩阵R出发进行主成分分析。样本相关矩阵R为:0.762660.707580.642810.596170.544260.621780.7728510.553410.514340.515380.468880.735620.7121410.987930.97760.974090.682820.7801910.980710.97980.697350.7730610.992350.626630.787180.63030.724490.622021矩阵R的特征值及相应的特征向量分别为:特征值特征向量6.13660.321130.295160.389120.384720.379550.370870.319960.355461.0421-0.4151-0.597660.229740.278690.316320.37151-0.27814-0.156840.43595-0.451230.10303-0.0398950.053874-0.0372920.0751860.77059-0.424780.22037-0.668170.36336-0.22596-0.110810.148740.069353-0.134950.559490.15191-0.0382170.624350.12273-0.0369090.159280.21062-0.43006-0.581050.0088274-0.101670.13584-0.158110.86226-0.25204-0.34506-0.13934-0.0265570.00296240.1596-0.061134-0.539660.0466060.7609-0.278090.06203-0.131260.00122380.19295-0.031987-0.641760.11002-0.253970.68791-0.006045-0.0054031R的特征值及贡献率见下表特征值贡献率(%)累“贝献率(%)6.13660.767080.767081.04210.130270.897340.435950.0544940.951840.220370.0275470.979380.151910.0189880.998370.00882740.00110340.999480.00296240.00037030.999850.00122380.000152971前3个标准化样本主成分类及贡献率已达到95.184%,故只需取前三个主成分即可。前3个标准化样本主成分中各标准化变量x;区(i=1,2,...,8)前的系数即为对应特征向量,由此得到3个标准化样本主成分为‘必=0.32113x;+0.29516x2+0.38912x3+0.38472x4+0.37955x5+0.37087x;+0.31996x;+0.35546x8V2=-0.4151x;-0.59766x;+0.22974x;+0.27869x;+0.31632x5+0.37151x6-0.27814x7-0.15684x8I********y3=-0.45123x1+0.10303x2-0.039895x3+0.053874x4-0.037292x5+0.075186x6+0.77059x7-0.42478x8注意到,y1近似是8个标准化变量<=xm(i=i,2,...,8)的等权重之和,是,0反映各企业总效应大小的综合指标,y1的值越大,则企业的效益越好。由于y1的贡献率高达76.708%,故若用y1的得分值对各企业进行排序,能从整体上反映企业之间的效应

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论