




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第 13 章 主成分分析13.1 主成分分析的理论与方法13.1.1 主成分分析的基本思想主成分分析是由 Hotelling 于 1933 年首先提出的。由于多个变量之间往往存在着一定程 度的相关性。人们自然希望通过线性组合的方式, 从这些指标中尽可能快地提取信息。 当第 一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个快速提取的过 程,直到所提取的信息与原指标相差不多时为止。这就是主成分分析的思想。一般说 来,在主成分分析适用的场合, 用较少的主成分就可以得到较多的信息量。 以各个主成分为 分量,就得到一个更低维的随机向量;因此,通过主成分既可以降低数据“维数”又保留了 原数
2、据的大部分信息。那么,什么是数据的“信息”呢?我们知道,当一个变量只取一个数据时, 这个变量(数 据)提供的信息量是非常有限的, 当这个变量取一系列不同数据时, 我们可以从中读出最大 值、最小值、平均数等信息。变量的变异性越大,说明它对各种场景的“遍历性”越强,提 供的信息就更加充分,信息量就越大。所以,主成分分析中的信息,就是指标的变异性,用 标准差或方差表示它。13.1.2 主成分分析的数学模型用原始数据矩阵 X的p个变量X1,L ,Xp作线性组合如下:?Y1 =u11X1+u12X2+L +u1pXp ?Y2 =u21X1 +u22X2 +L +u2pXp ?LL?Yp =up1X1+u
3、p2X2+L +uppXp用矩阵表示为:这里?Y1 ?u11Y =UX?Y = ?Y2 ?,U= ?u21?M?,= ?L?Yp ?up1u12Lu1p?X1 ?u22Lu2p?,X?X2?LLL ?, X?M?up2Lupp ?Xp?且满足:(1)矩阵 U 的每一行都是单位行向量,即2 2 2ui1 +ui2+L +uip = 1 , ( i = 1,2,L ,p)(2) Y与Yj ( i 工j , i, j =1,2,L , p )之间不相关;(3) Y是Xi,L ,Xp的一切线性组合(系数满足条件(1)中方差最大的,Y2是与Y 不相关的X1,L ,Xp的一切线性组合中方差最大的, ,Yp
4、是与Y1,Y2,L Yp-1都不相关的 Xi,L ,Xp的一切线性组合中方差最大的;(4) Y,L ,Yp的方差之和等于X1,L ,Xp的方差之和。13.1.3主成分的求解主成分的求解过程也就是求解转换矩阵U的过程。这里舍弃复杂的数学推导,仅不加证明地给出求解主成分的一般步骤:1计算原始数据的协差阵 艺。2计算协差阵工的特征根为 入况 >Ap X),相应的单位特征向量为 T1兀丄,Tp ,由 这些向量构成的矩阵记为 T,即有正交矩阵T =(T ,T2 ,L ,Tp)则可以证明:所要求的转换矩阵 U就是特征向量矩阵 T的转置,即U二T'。也就是说, 所求的矩阵U的第i行就是样本协差
5、阵 艺的第i大特征根对应的单位特征向量T。同时可以证明:第i个主成分Y的方差就等于样本协差阵艺的第i大特征根 入。13.1.4主成分的方差贡献率主成分分析把p个原始变量X1,L ,Xp的总方差分解成了 p个相互独立的变量 pY1,Y2,L ,Yp的方差之和 刀人。主成分分析的目的是减少变量的个数,所以一般不会使用k=1所有p个主成分,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。这里我们称为第k个主成分Yk的方差贡献率。第一主成分的贡献率最大,这表明Y,=壬次综合原始变量X1,L ,Xp的能力最强,而 Y2,Y3,L ,Yp的综合能力依次递减。若只取m(v p)个主成分,则称mPk
6、=1.k=1为主成分Y1,Y2丄,丫m的累计贡献率,累计贡献率表明Y1,Y2,L,丫m综合X1,L ,XP的能力。通常取m使得累计贡献率达到一个较高的百分数。13.1.5主成分的几何意义主成分分析数学模型中的正交变换,在几何上就是作一个坐标旋转。因此,主成分分析在二维空间中有明显的几何意义。假设共有n个样品,每个样品都测量了两个指标(X1,X2),它们大致分布在一个椭圆内,如图13-1所示。事实上,散点的分布总有可能沿着某一个方向略显扩张,这个方向就把它看作椭圆的长轴方向。显然,在坐标系x1Ox2中,单独看这n个点的分量X1和X2,它们沿着x方向和x2方向都具有较大的离散性,其离散 的程度可以
7、分别用 X1的方差和X2的方差测定。如果仅考虑 X1或X2中的任何一个分量, 那么包含在另一分量中的信息将会损失,因此,直接舍弃某个分量不是“降维”的有效办法。图13-1主成分的几何意义如果我们将该坐标系按逆时针方向旋转某个角度B变成新坐标系y1Oy2,这里y1是椭圆的长轴方向,y2是椭圆的短轴方向。旋转公式为?= X1 cos 0 + X2 sin 0?丫2 = - X1 sin 0+ X2 cos 0我们看到新变量丫和是原变量x1和x2的线性组合,它的矩阵表示形式为:?丫1? ? cos 0 sin 0?X1? ?=? = TX?丫2? ?- sin 0 cos 0?X2?其中,T'
8、;为旋转变换矩阵,它是一个正交矩阵,即有T' = T-1或TT = I 。易见,n个点在新坐标系下的坐标 Y和Y2几乎不相关,且n个点在y1轴上的方差达到最大,即在此方向上包含了有关n个样品的大部分信息。我们称 Y为第一主成分,称 Y2为第二主成分。13.1.6主成分分析的出发点从前面的介绍我们知道,与因子分析一样,主成分分析的一切计算也都是从样本协差阵艺出发的,其结果受变量单位的影响。为了消除由于单位的不同可能带来的影响,在进行主成分分析之前也常常先将各原始变量作标准化处理。由于经过标准化的数据的协方差矩阵就是X的相关系数矩阵R,如果主成分分析的一切计算都直接从样本相关系数矩阵R而不
9、是协差阵艺出发的话,就等价于先对数据进行标准化,然后再从协差阵出发进行主成分分析。13.1.7利用因子分析的结果计算主成分SPSS没有提供主成分分析的专用功能,只提供了因子分析的功能。但是因子分析和主 成分分析有着密切的联系。因子提取的最常用方法就是“主成分法”。利用因子分析的结果, 可以很容易地实现主成分分析。由12.1.3节可知,使用主成分法求得的因子载荷阵:A=(. 入 Ti ,寸 A2T2, L , J 入pTp)其中,入况 >Ap >0为协差阵工的特征根,T; ,T2丄,Tp为相应的单位特征向量。而由13.1.3节可知,主成分转换矩阵 U就是特征向量矩阵T的转置,即U 二
10、T'=(T1 ,T2,L ,Tp)因此,可以首先进行因子分析,然后利用得到的因子载荷阵A和样本协差阵的特征根来计算特征向量矩阵 T,即:其中,tij为特征向量矩阵T第i行第j列的元素,aij为因子载荷阵第i行第j列的元素, 入为第j个因子对应的特征根。然后将特征向量矩阵T转置,求得转换矩阵 U。13.2主成分分析的实例为了研究我国2005年第1、2季度31个省、市、自治区城镇居民家庭收支基本情况, 收集以下5个变量:X1 :平均每户人口(人);X2 :平均每户就业人口(人);X3 :平均每一就业者负担人数(人);X4 :平均每人实际可支配收入(元);X5 :平均每人消费性支出(元)。通
11、过这个例子,介绍如何利用SPSS软件实现主成分分析。13.2.1 SPSS操作步骤(一)利用SPSS进行因子分析将原始数据输入SPSS数据编辑窗口,将5个变量分别命名为X1 X5。在SPSS® 口中选 择Analyze宀Data Reduction宀Factor菜单项,调出因子分析主对话框,并将变量X1 X5移入Variables框中,其他均保持系统默认选项,单击0K按钮,执行因子分析过程(关于因子分子在SPSS中实现的详细过程,参见12.2节),得到如表13-1所示的特征根和方差贡献表以及表13-2所示的因子载荷阵。表13-1中Total列为各因子对应的特征根,本例中共提取两个公因
12、子;% of Varianee列为各因子的方差贡献率;Cumulative %列为累积方差贡献率,由表中可以看出,前两个因子已经可以解释79.31%的方差。表13-1 特征根与方差贡献表Total Variance ExplainedComponentInitial EigenvaluesExtraction Sums of Squared LoadingsTotal% of VarianceCumulative %Total% of VarianceCumulative %12.57651.52051.5202.57651.52051.52021.38927.79079.3101.38927
13、.79079.3103.96119.22298.5324.047.93299.4655.027.535100.000Extraction Method: Principal Component Analysis.表13-2旋转前因子载荷阵Comp onent MatrixComp onent12X1.121.928X2.708.612X3-.722.125X4.873-.299X5.882-.220(二)利用因子分析结果进行主成分分析1.将表13-2因子载荷阵中的数据输入 SPSS数据编辑窗口,两个变量分别命名为a1和a2。2计算特征向量矩阵为了计算第一个特征向量,点击菜单项中的 Transf
14、orm宀Compute,调出Compute variable对话框,如图13-2,在对话框中输入等式:“ t仁al / SQRT(2.576) ”。点击0K按钮,即可 在数据编辑窗口中得到以t1为变量名的第一特征向量。图 13-2 Compute variable 对话框t2=a2 / SQRT(1.389) ”,单再次调出Compute variable对话框,在对话框中输入等式: 击OK按钮,得到以t2为变量名第二特征向量。这样,我们得到了如表 13-3所示的特征向量矩阵。表13-3 特征向量矩阵t1 t2X10.0750.787X20.4410.519X3-0.4500.106X40.5
15、44-0.254X50.550-0.187根据表13-3可以得到主成分的表达式:Y1= 0.075X 1 + 0.441X 2 - 0.450X 3+ 0.544X4 + 0.550X 5Y2 = 0.787X 1 + 0.519X 2 + 0.106X 3- 0.254X4 - 0.178X5这里需要特别注意的是,由于我们是以相关系数矩阵为出发点进行因子分析,所以,主成分表达式中的各变量 X1 - X5应该是经过标准化变换后的标准变量。3计算主成分计算主成分之前首先需要对原始变量X1 - X5进行标准化,得到 5个变量名分别为zx1zx5的标准化变量(变量标准化的方法参见3.11节)。再次使
16、用Compute命令,调出Compute variable对话框,分别在对话框中输入等式:“y1 = 0.075 * zx1 + 0.441 *zx2- 0.450 * zx3 +0.544 * zx4 +0.550 * zx5 ”和“y2 = 0.787 * zx1 + 0.519 * zx2+ 0.106 * zx3 - 0.254 * zx4 - 0.178 * zx5 ”就可以计算得到两个主成分。13.2.2对财务指标进行主成分分析利用12.2节对2003年沪、深两市证券交易所 48家上市公司的13个财务指标因子分析结果对其进行主成分分析。共提取4个因子的旋转前因子载荷阵如表12-5。
17、表13-4 旋转前的因子载荷阵Comp onent MatrixComp onent1234X12.970-.155-.096.008X13.957-.126-.126.088X6.924-.174-.055.056X11.894-.016-.291.006X10.802-.053-.374.151X7.678-.112.364-.606X8.676-.103.366-.614X3.581-.406.419.424X4.542-.450.393.418X1.309.869.148.055X2.543.793.155.131X5.519.735.206.160X9.529.062-.687-.1
18、68Extractio n Method: Prin cipal Comp onent An alysis.a. 4 comp onents extracted.使用Compute命令计算得到的特征向量矩阵如表13-5。表13-5 特征向量矩阵t1 t2 t3 t4X10.120 0.562 0.125 0.050X2 0.2110.5130.1300.119X30.225-0.262 0.353 0.386X40.210-0.291 0.331 0.380X50.201 0.475 0.173 0.146X6 0.358-0.112-0.0460.051X7 0.263-0.0720.306-0.552X8 0.262-0.0670.308-0.559X90.2050.040 -0.578 -0.153X10 0.311-0.034-0.3150.137X11 0.347-0.011-0.2450.006X12 0.376-0.100-0.0810.007X13 0.371-0.081-0.1060.080根据表13-5可
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 IEC 60350-1:2023/AMD1:2025 EN-FR Amendment 1 - Household electric cooking appliances - Part 1: Ranges,ovens,steam ovens and grills - Methods for measuring performance
- 【正版授权】 ISO/IEC 23009-9:2025 EN Information technology - Dynamic adaptive streaming over HTTP (DASH) - Part 9: Redundant encoding and packaging for segmented live media (REaP)
- 2025年新媒体运营师职业资格考试试题及答案
- 2025年视觉艺术与设计课程考试试题及答案
- 2025年数字营销专业能力测试卷及答案
- 2025年数字内容编辑与管理考试试题及答案
- 2025年房地产经济学课程考试卷及答案
- 2025年初中数学期末考试试卷及答案
- 2025年跨文化交际与国际理解考试题目及答案
- 2025年化学工程及工艺考试试题及答案
- 精准结直肠癌外科诊疗专家共识(2025版)解读
- 弘扬雷锋精神传递正能量课件
- 服装厂安全操作规程
- 2025 年发展对象培训考试题及答案
- 2024北森图表分析题库
- 2025-2030中国海运拼箱行业市场发展现状及竞争格局与投资前景研究报告
- 2025年三片式球阀项目建议书
- 法院出庭授权委托书
- 2025年山东出版集团有限公司山东出版传媒股份有限公司招聘(192名)笔试参考题库附带答案详解
- 2024年浙江省海盐县事业单位公开招聘医务工作者笔试题带答案
- 江西省南昌市2025年中考语文一调试卷(含答案)
评论
0/150
提交评论