版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、会计学1第第 主成分主成分(chng fn)分析和因子分析分析和因子分析第一页,共108页。2ppppppppXXXYYY2121222211121121AXY pi,2,1第1页/共107页第二页,共108页。3且且 (13.1.3) 由式(由式(13.1.1)和式()和式(13.1.2)可以看出,可以对原始变量进行)可以看出,可以对原始变量进行任意的线性变换,不同线性变换得到的合成变量任意的线性变换,不同线性变换得到的合成变量Y的统计特征显然的统计特征显然是不一样的。每个是不一样的。每个Yi 应尽可能多地反映应尽可能多地反映(fnyng) p 个原始变量的信个原始变量的信息,通常用方差来度
2、量息,通常用方差来度量“信息信息”,Yi 的方差越大表示它所包含的的方差越大表示它所包含的信息越多。由式(信息越多。由式(13.1.3)可以看出将系数向量)可以看出将系数向量i 扩大任意倍数会扩大任意倍数会使使Yi 的方差无限增大,为了消除这种不确定性,增加约束条件:的方差无限增大,为了消除这种不确定性,增加约束条件:pjiYYpiYjijiii,2,1,),cov(,2,1)var(i1iaai第2页/共107页第三页,共108页。4 为了有效地反映原始变量的信息,为了有效地反映原始变量的信息,Y的不同分量包含的信息的不同分量包含的信息不应重叠。综上所述,式(不应重叠。综上所述,式(13.1
3、.1)的线性变换需要满足下面的)的线性变换需要满足下面的约束:约束: (1) ,即,即 ,i =1, 2, , p。 (2) Y1在满足约束在满足约束 (1) 即的情况下,方差最大;即的情况下,方差最大;Y2是在满足是在满足约束约束(1) ,且与,且与Y1不相关的条件下,其方差达到最大;不相关的条件下,其方差达到最大;Yp是在满足约束是在满足约束(1) ,且与,且与Y1,Y2,Y p-1不相关的条件下,不相关的条件下,在各种线性组合中方差达到最大者。在各种线性组合中方差达到最大者。 满足上述约束得到的合成变量满足上述约束得到的合成变量Y1, Y2, , Yp分别分别(fnbi)称称为原始变量的
4、第一主成分、第二主成分、为原始变量的第一主成分、第二主成分、第、第 p 主成分,而主成分,而且各成分方差在总方差中占的比重依次递减。在实际研究工作且各成分方差在总方差中占的比重依次递减。在实际研究工作中,仅挑选前几个方差较大的主成分,以达到简化系统结构的中,仅挑选前几个方差较大的主成分,以达到简化系统结构的目的。目的。122221ipiiaaa1iaai第3页/共107页第四页,共108页。5第4页/共107页第五页,共108页。6 1从协方差矩阵出发求解主成分从协方差矩阵出发求解主成分 设设1是任意是任意 p1向量,求解主成份就是在约束条件向量,求解主成份就是在约束条件 下,求下,求 X 的
5、线性函数的线性函数 使其方差使其方差 达到最大,即达到最大,且达到最大,即达到最大,且 ,其中,其中(qzhng) 是随机变量向量是随机变量向量X =(X1, X2, , Xp)的协方差矩阵。设的协方差矩阵。设1 2 p 0 为为 的特征值,的特征值,e1 , e2 , ep为为 矩阵各特征值对应的标准正交特征向量,则对于任意的矩阵各特征值对应的标准正交特征向量,则对于任意的ei 和和 ej,有,有 (13.1.4)且且 (13.1.5)Xa11Y1iaai111)var(aaY1iaaijijiji, 0, 1ee,1piiiieeIeeipii1第5页/共107页第六页,共108页。7因此
6、因此(ync) (13.1.6)当当1 = e1 时有时有 (13.1.7)此时此时 达到最大值为达到最大值为1。同理有。同理有 并且并且 (13.1.8)1111111111111)()(Iaaaeeaaeeaaapiiipiiii111111111eeeeee111)var(aaYii)var(Xepjijijjiji, 2, 1, 0),cov(eeeeXeXe第6页/共107页第七页,共108页。8 由上述推导得由上述推导得 (13.1.9) 可见可见Y1, Y2, , Yp 即为原始变量的即为原始变量的 p 个主成份个主成份(chng fn)。因。因此,主成分的求解转变为求此,主成分
7、的求解转变为求 X1, X2, , Xp 协方差矩阵协方差矩阵 的特征值和的特征值和特征向量的问题。特征向量的问题。 XeXeXeppYYY,2211第7页/共107页第八页,共108页。9p00)var(1YpiipiiYX11)var()var(piipiii11第8页/共107页第九页,共108页。10 由此可见,主成分分析是把由此可见,主成分分析是把 p 个随机变量的总方差分解个随机变量的总方差分解为为 p 个不相关随机变量的方差之和个不相关随机变量的方差之和1 2 P,则,则总方差中属于第总方差中属于第 i 个主成分(被第个主成分(被第 i 个主成分所解释)的比例个主成分所解释)的比
8、例为为 (13.1.12)称为第称为第 i 个主成分的贡献度。定义个主成分的贡献度。定义 (13.1.13)称为前称为前 m 个主成分的累积个主成分的累积(lij)贡献度,衡量了前贡献度,衡量了前 m 个主成个主成份对原始变量的解释程度。份对原始变量的解释程度。pi21pmpiimjj11第9页/共107页第十页,共108页。11pkieeXYXYXYriikkiiikkikikikik,2, 1,)var()var(),cov(),(第10页/共107页第十一页,共108页。12piXZiiiii,2, 1,1)var(,0)(iiZZE第11页/共107页第十二页,共108页。13 原始变
9、量的相关矩阵就是原始变量标准化后的协方差矩阵,原始变量的相关矩阵就是原始变量标准化后的协方差矩阵,因此,由相关矩阵求主成分的过程因此,由相关矩阵求主成分的过程(guchng)与由协方差矩阵求与由协方差矩阵求主成分的过程主成分的过程(guchng)是一致的。如果仍然采用(是一致的。如果仍然采用(i ,ei)表)表示相关矩阵示相关矩阵R对应的特征值和标准正交特征向量,根据式(对应的特征值和标准正交特征向量,根据式(13.1.9)有:有: (13.1.17) 由相关矩阵求得的主成分仍然满足性质由相关矩阵求得的主成分仍然满足性质13。性质。性质3可以进可以进一步表示为:一步表示为: (13.1.18)
10、)()(12/1XVeZeiiiYpi,2,1pkieZYrkkiik,2, 1,),(第12页/共107页第十三页,共108页。14npnnppnxxxxxxxxx21222211121121),(xxxx第13页/共107页第十四页,共108页。15则样本则样本(yngbn)协方差矩阵为:协方差矩阵为: (13.1.20)其中其中: (13.1.21)样本样本(yngbn)相关矩阵为:相关矩阵为: (13.1.22) 样本样本(yngbn)协方差矩阵协方差矩阵 S 是总体协方差矩阵是总体协方差矩阵 的无偏估计的无偏估计量,样本量,样本(yngbn)相关矩阵相关矩阵 是总体相关矩阵是总体相关
11、矩阵 R 的估计量。的估计量。ppijnkkksn)()(111xxxxSjkjnkikiijnkkiipxxxxnspixnxxxx1121)(11,2, 11),(x,)(ppijrRjjiiijijsssr R第14页/共107页第十五页,共108页。16Rp,21021ppeee,21pipiieeexxxxeyii2211pi,2,1pkikik,2,1,0),cov(yyipii,2,1,)var(iy第15页/共107页第十六页,共108页。17且由式(且由式(13.1.16)和性质)和性质(xngzh)2可得可得 (13.1.26) 则第则第i个样本主成分的贡献度为个样本主成分
12、的贡献度为 ,前,前m个样本主成份的累计贡献个样本主成份的累计贡献度为度为 另外另外 (13.1.27)piiipiisp11iikkiiksexyr),(pipmii/1第16页/共107页第十七页,共108页。18iii第17页/共107页第十八页,共108页。19 本例从一批对景气变动敏感,有代表的指标中筛选出本例从一批对景气变动敏感,有代表的指标中筛选出5个个反应宏观经济波动的一致指标组:工业增加值增速(反应宏观经济波动的一致指标组:工业增加值增速(iva)、)、工业行业产品销售收入增速(工业行业产品销售收入增速(sr)、固定资产投资增速()、固定资产投资增速(if)、)、发电量增速(
13、发电量增速(elec)和货币供应量)和货币供应量M1增速(增速(m1),样本区间),样本区间从从1998年年1月月2006年年12月,为了消除月,为了消除(xioch)季节性因素和季节性因素和不规则因素,采用不规则因素,采用X-12方法进行季节调整。常用的方法是美国方法进行季节调整。常用的方法是美国商务部采用的计算合成指数商务部采用的计算合成指数CI的方法。特别的,本例利用主成的方法。特别的,本例利用主成分分析降维的思想,提取主成分(分分析降维的思想,提取主成分(PCA),并与合成指数),并与合成指数CI的的结果进行比较。结果进行比较。第18页/共107页第十九页,共108页。20 本节以例本
14、节以例13.1的数据为例,介绍的数据为例,介绍EViews软件中主成分分析软件中主成分分析的实现过程。首先将所涉及的实现过程。首先将所涉及(shj)的变量建成一个组的变量建成一个组(g1),选择,选择组菜单的组菜单的View/Principal Components.,出现如图,出现如图13.6所示的窗所示的窗口。在窗口中有两个切换钮:第一个钮标着口。在窗口中有两个切换钮:第一个钮标着Components,第二,第二个钮标着个钮标着Calculation,控制着组中各序列离差矩阵的计算和估,控制着组中各序列离差矩阵的计算和估计。默认的,计。默认的,EViews完成主成分分析使用普通的(完成主成
15、分分析使用普通的(Pearson)相)相关矩阵,也可以在这个菜单下重新设定主成分的计算。关矩阵,也可以在这个菜单下重新设定主成分的计算。 第19页/共107页第二十页,共108页。21第20页/共107页第二十一页,共108页。22第21页/共107页第二十二页,共108页。23第22页/共107页第二十三页,共108页。24 表头描述了观测值的样本区间、计算离差矩阵的方法以表头描述了观测值的样本区间、计算离差矩阵的方法以及保留成分的个数(在这个例子中显示了所有的及保留成分的个数(在这个例子中显示了所有的5个主成分)。个主成分)。 表的第一部分概括了特征值(表的第一部分概括了特征值(Value
16、)、相应)、相应(xingyng)特征值与后一项的差(特征值与后一项的差(Difference)、对总方差的累积解释比)、对总方差的累积解释比例(例(Cumulative Proportion)等等。由于上述结果的计算采用)等等。由于上述结果的计算采用相关矩阵,所以相关矩阵,所以5个特征值之和等于个特征值之和等于5。第一个成分占总方差。第一个成分占总方差的的72.94%,第二个成分占总方差的,第二个成分占总方差的19.22%。前两个成分占总。前两个成分占总方差的方差的92.16%。 表的第二部分描述了线性组合的系数,第一个主成分表的第二部分描述了线性组合的系数,第一个主成分(标为(标为“PC1
17、”)大约等于所有)大约等于所有5个一致指标的线性组合,它可个一致指标的线性组合,它可以解释为一般的经济景气指数。以解释为一般的经济景气指数。 输出的第三部分表示计算的相关矩阵。输出的第三部分表示计算的相关矩阵。 第23页/共107页第二十四页,共108页。25第第1主成分主成分第第2主成分主成分第第3主成分主成分 第第4主成分主成分 第第5主成分主成分特特征征向向量量固定资产投资增速(固定资产投资增速(if)0.449-0.3670.6960.2000.374工业增加值增速(工业增加值增速(iva)0.510-0.153-0.0780.312-0.783货币供应量增速(货币供应量增速(m1r)
18、0.2040.9130.2850.2080.009产品销售收入增速(产品销售收入增速(sr)0.4900.023-0.6540.2930.496发电量增速(发电量增速(elec)0.5080.088-0.020-0.857-0.026特特 征征 值值3.6030.9880.2700.0870.051贡贡 献献 率率0.7210.1970.0540.0180.01累积贡献率累积贡献率0.7210.9180.9720.9901.000第24页/共107页第二十五页,共108页。26 由表由表13.1可以看出,第可以看出,第1主成分的贡献率为主成分的贡献率为72.1%,已能较好地,已能较好地反映反映
19、5个一致指标的总体变动情况,而且根据它们个一致指标的总体变动情况,而且根据它们(t men)的特征值的特征值可以发现第可以发现第2个特征值开始明显变小个特征值开始明显变小(小于小于1),碎石图出现明显的拐,碎石图出现明显的拐弯,同时为了讨论方便,仅选择弯,同时为了讨论方便,仅选择m=1,提取第一个主成分反映经济,提取第一个主成分反映经济变动。表变动。表13.1中已经给出对应的特征向量,根据式(中已经给出对应的特征向量,根据式(13.1.23)可以)可以得到对应的主成分序列。得到对应的主成分序列。 第25页/共107页第二十六页,共108页。27 如果在主对话框的如果在主对话框的Display部
20、分选择部分选择Eigenvalues plots,则显示按,则显示按顺序排列的特征值的线性图(碎石顺序排列的特征值的线性图(碎石(su sh)图)。在对话框的下面将图)。在对话框的下面将发生改变,可以选择显示特征值(碎石发生改变,可以选择显示特征值(碎石(su sh)图)、特征值的差、图)、特征值的差、方差累积贡献率其中之一,或是全部。如图方差累积贡献率其中之一,或是全部。如图13.7所示可以选择任意的所示可以选择任意的复选框。默认的复选框。默认的EViews仅显示特征值排序的碎石仅显示特征值排序的碎石(su sh)图。图。第26页/共107页第二十七页,共108页。28第27页/共107页第
21、二十八页,共108页。29 变量变量(binling)载荷图(载荷图(Variable loadings plot)给出对应主成分的变量)给出对应主成分的变量(binling)载载荷系数,从图中可以看出如何根据原始变量荷系数,从图中可以看出如何根据原始变量(binling)合成新的主成分;成分得分图合成新的主成分;成分得分图(Component scores plot)显示对应于样本区间内的观测值成分的得分值;)显示对应于样本区间内的观测值成分的得分值;biplot (Biplots (scores & loadings)则表示在一个图中同时显示载荷系数和得分值。则表示在一个图中同时显
22、示载荷系数和得分值。 第28页/共107页第二十九页,共108页。30第29页/共107页第三十页,共108页。31 2. Calculation选择钮选择钮 在在Type下拉菜单中选择使用相关下拉菜单中选择使用相关(Correlation)还是协方差还是协方差(Covariance)矩阵。在矩阵。在Method下拉菜单中选择计算方法:下拉菜单中选择计算方法:Ordinary, Ordinary (uncentered), Spearman rank-order or Kendalls tau-a, or Kendalls tau-b。在该对话框中,还可以设定。在该对话框中,还可以设定(sh
23、dn)计算使用的观测值计算使用的观测值样本。样本。 第30页/共107页第三十一页,共108页。32第31页/共107页第三十二页,共108页。33 第一个选项是第一个选项是Scaling,用于选择得分序列和载荷计算的权重。有,用于选择得分序列和载荷计算的权重。有4个选项:个选项: Normalize loadings,Normalize scores,Symmetric weights和和User loading weight,默认的,默认的Normalize loadings,表示标准化载荷,使,表示标准化载荷,使得所有观测值得分对特征值有标准的比例;选择得所有观测值得分对特征值有标准的比
24、例;选择Normalize scores,所,所有变量标准化为有变量标准化为1;选择;选择Symmetric weights,将会有对称的权重;选择,将会有对称的权重;选择User loading weight,可以用户自己定义权重。,可以用户自己定义权重。 然后需要输入然后需要输入(shr)得分序列的名称,在例得分序列的名称,在例13.1中,我们输入中,我们输入(shr)第一主成分的名字第一主成分的名字“PAC1”,用于保存第一个主成分。也可以根,用于保存第一个主成分。也可以根据需要保存对应得分的载荷、特征值和特征向量。据需要保存对应得分的载荷、特征值和特征向量。第32页/共107页第三十三
25、页,共108页。34 图图13.2中的实线给出了由主成分分析的第一主成分表示的一致景气指数(中的实线给出了由主成分分析的第一主成分表示的一致景气指数(PCA),虚线),虚线给出的是由国际上常用的美国商务部计算合成给出的是由国际上常用的美国商务部计算合成(hchng)指数的方法给出的一致合成指数的方法给出的一致合成(hchng)指数(指数(CI),可以发现二者的变化趋势和转折点几乎完全相同,只是波动的幅度略有差异。),可以发现二者的变化趋势和转折点几乎完全相同,只是波动的幅度略有差异。进一步表明:进一步表明:PCA指数不仅能够反映景气波动的变化趋势和峰谷的转折点,而且还能反映波指数不仅能够反映景
26、气波动的变化趋势和峰谷的转折点,而且还能反映波动的幅度。动的幅度。 第33页/共107页第三十四页,共108页。35 因子分析(因子分析(factor analysis,简称,简称FA)是主成分分析的)是主成分分析的推广,相对于主成分分析,因子分析更侧重于解释被观测推广,相对于主成分分析,因子分析更侧重于解释被观测变量之间的相关关系或协方差之间的结构。因子分析的思变量之间的相关关系或协方差之间的结构。因子分析的思想源于想源于1904年查尔斯年查尔斯斯皮尔曼(斯皮尔曼(Charles Spearman)对学)对学生考试成绩的研究。研究多指标问题时常常会发现,这些生考试成绩的研究。研究多指标问题时
27、常常会发现,这些指标相关性形成的背景原因是各种各样的,其中共同的原指标相关性形成的背景原因是各种各样的,其中共同的原因称为公共因子;每一个变量也含有因称为公共因子;每一个变量也含有(hn yu)其特定的原其特定的原因,成为特定(特殊)因子。因子分析的实质就是用几个因,成为特定(特殊)因子。因子分析的实质就是用几个潜在的但不能观察的互不相关的随机变量去描述许多变量潜在的但不能观察的互不相关的随机变量去描述许多变量之间的相关关系(或者协方差关系),这些随机变量被称之间的相关关系(或者协方差关系),这些随机变量被称为因子。为了使得这些因子能很好的替代原始数据,需要为因子。为了使得这些因子能很好的替代
28、原始数据,需要对这些因子给出合理的解释。同时为了使用这些因子,还对这些因子给出合理的解释。同时为了使用这些因子,还需要对提取结果进行评价。需要对提取结果进行评价。 第34页/共107页第三十五页,共108页。36 因此,可以简单将因子分析的目标概括为以下几方面:因此,可以简单将因子分析的目标概括为以下几方面: (1)首先考虑是否存在较少的不相关的随机变量可用于描)首先考虑是否存在较少的不相关的随机变量可用于描述原始变量之间的关系;述原始变量之间的关系; (2)如果存在公共因子,那么究竟应该选择几个;)如果存在公共因子,那么究竟应该选择几个; (3)对提取的公共因子的含义进行解释;)对提取的公共
29、因子的含义进行解释; (4)评价每一个原始变量与公共因子之间的关系;)评价每一个原始变量与公共因子之间的关系; (5)可以将这些公共因子用于其他的统计分析。)可以将这些公共因子用于其他的统计分析。 本节将从这几个角度给出详细的介绍。需要注意的是因子分本节将从这几个角度给出详细的介绍。需要注意的是因子分析从一系列高度相关的原始变量矩阵析从一系列高度相关的原始变量矩阵X=(X1, X2 , , Xp)中提中提取少数几个不相关的因子,所以如果原始变量之间不相关则没有取少数几个不相关的因子,所以如果原始变量之间不相关则没有必要进行因子分析。在实际研究和应用中,为了消除观察值之间必要进行因子分析。在实际
30、研究和应用中,为了消除观察值之间由于量纲的差异而造成的影响,需要将观测值按照式(由于量纲的差异而造成的影响,需要将观测值按照式(13.1.15)进行标准化处理进行标准化处理(chl)。本节的讨论都是基于标准化后的序列,。本节的讨论都是基于标准化后的序列,为了方便,把标准化后的随机变量矩阵仍记为为了方便,把标准化后的随机变量矩阵仍记为Z = (Z1, Z 2, , Zp)。 第35页/共107页第三十六页,共108页。37 假如对某一问题的研究涉及假如对某一问题的研究涉及 p 个指标,且这个指标,且这 p 个指标之间存在较强的个指标之间存在较强的相关性,则基本的因子模型可以表示为相关性,则基本的
31、因子模型可以表示为 (13.2.1)称式(称式(13.2.1)中)中F1, F2, , Fm为公共因子,为公共因子,1, 2, , p 表示特殊因表示特殊因子,其中包含了随机误差,子,其中包含了随机误差, i 只与第只与第 i 个变量个变量 Zi 有关有关(yugun), lij 称称为第为第 i 个变量个变量 Zi 在第在第 j 个因子个因子 Fj 上的载荷(因子载荷),由其构成的矩上的载荷(因子载荷),由其构成的矩阵阵 L 称为因子载荷矩阵。称为因子载荷矩阵。pmpmpppmmmmFlFlFlZFlFlFlZFlFlFlZ2211222221212112121111第36页/共107页第三
32、十七页,共108页。38 式(式(13.2.1)进一步可以表示为下面的矩阵形式)进一步可以表示为下面的矩阵形式 (13.2.2)其中,其中,F = (F1, F2 , , Fm); = (1, 2 , , p)。注意式。注意式(13.2.1)中的)中的F1, F2 , , Fm 是不可观测的随机变量,因此,必须是不可观测的随机变量,因此,必须(bx)对随机变量对随机变量 F 和和 做一些假定,使得模型具有特定的且能验做一些假定,使得模型具有特定的且能验证的协方差结构。证的协方差结构。 LFZ第37页/共107页第三十八页,共108页。39假设假设 (13.2.3) (13.2.4)且且 F 与
33、与 独立,即独立,即 (13.2.5)满足式(满足式(13.2.3)式()式(13.2.5)假定的模型()假定的模型(13.2.1)(或()(或(13.2.2)称为称为(chn wi)正交因子模型。正交因子模型。 IFFFF0F)(),cov(,)(EEpE000000)(),cov(21,)(0 E0FF,)()cov(E第38页/共107页第三十九页,共108页。40LFFFLFLFFZFZ)()()()(),cov(EEEELLFLLFLFFLLFLFLFLFLFLFLFLFZZZZ)()()()()()()()()(),cov(EEEEEEEE第39页/共107页第四十页,共108页。
34、41ijjijmjjijjimjjijjilFFFlFFlFZ),cov(),cov(),cov(),cov(11第40页/共107页第四十一页,共108页。42iimiiilllZ22221)var(21222221imjijimiihllll1)var(2iiihZ第41页/共107页第四十二页,共108页。43 式(式(13.2.9)表明,)表明, hi2 接近接近1时,时,i 接近接近 0,说明,说明(shumng) Zi 包含的几乎全部信息都可以被公因子解释;当包含的几乎全部信息都可以被公因子解释;当 hi2 接近接近 0 时,表明公共时,表明公共因子对因子对 的影响不大,主要由特殊
35、因子描述。因此,的影响不大,主要由特殊因子描述。因此, hi2 也反映了变量也反映了变量 Zi 对公共因子的依赖程度。与此类似,矩阵对公共因子的依赖程度。与此类似,矩阵 L 的第的第 j 列元素反映了第列元素反映了第 j 个因子个因子 Fj 对所有变量对所有变量 Z 的影响,记为的影响,记为 (13.2.10)称为公共因子称为公共因子Fj 对原始变量向量对原始变量向量 Z 的方差贡献,是衡量公共因子相对的方差贡献,是衡量公共因子相对重要性的一个尺度,其值越大反映重要性的一个尺度,其值越大反映 Fj 对原始变量向量对原始变量向量 Z 的方差贡献也的方差贡献也越大。越大。piijjlg122第42
36、页/共107页第四十三页,共108页。44 因子分析的首要步骤是先确定因子载荷,或估计得到因子载荷因子分析的首要步骤是先确定因子载荷,或估计得到因子载荷矩阵矩阵L,注意在式(,注意在式(13.2.1)和式()和式(13.2.2)中的)中的F1, F2, , Fm是不可是不可观测的随机变量,因此因子载荷矩阵观测的随机变量,因此因子载荷矩阵L的估计方法都比较复杂,常用的估计方法都比较复杂,常用的方法有极大的方法有极大(j d)似然法、主成分法、迭代主成分方法、最小二乘似然法、主成分法、迭代主成分方法、最小二乘法、法、 因子提取法等。因子提取法等。第43页/共107页第四十四页,共108页。45LL
37、)(,L,),(max),(LLLL第44页/共107页第四十五页,共108页。46ppppppppZZZYYY2121222211121121第45页/共107页第四十六页,共108页。47 由于由于A =(1, , , p)= (e1, e2, , ep) 为正交矩阵,则有为正交矩阵,则有 (13.2.14)如果在式(如果在式(13.2.13)中仅取前)中仅取前m个主成分,把其余的个主成分,把其余的 p-m 个主成分个主成分用特殊因子用特殊因子i 代替代替(dit),则式(,则式(13.2.13)可以表示为)可以表示为 (13.2.15)式(式(13.2.15)与式()与式(13.2.1)
38、的形式一致,)的形式一致,Yi 表示主成分,因此相互表示主成分,因此相互独立。独立。 YAZpmmppppmmmmYYYZYYYZYYYZ2211222221122112211111第46页/共107页第四十七页,共108页。48 为了使为了使 Yi 符合式(符合式(13.2.3)假设的公共因子,需要将主成分)假设的公共因子,需要将主成分Yi 的方差转变为的方差转变为1。由。由13.1节的介绍可知,主成分方差为特征节的介绍可知,主成分方差为特征(tzhng)根根 i,只需要将,只需要将 Yi 除以标准差除以标准差 即可,令即可,令, (13.2.16)则式(则式(13.2.15)转变为:)转变
39、为: (13.2.17) 式(式(13.2.15)已与式()已与式(13.2.1)不仅在形式上一致,而且完全)不仅在形式上一致,而且完全符合式(符合式(13.2.3)式()式(13.2.5)的假设。由此就得到因子载荷矩阵)的假设。由此就得到因子载荷矩阵和一组初始公共因子。和一组初始公共因子。 iiiiYF/jiiijlpmpmpppmmmmFlFlFlZFlFlFlZFlFlFlZ2211222221212112121111第47页/共107页第四十八页,共108页。49LLRLLRR*2*2122*2121122*1*ppppphrrrhrrrhRRR第48页/共107页第四十九页,共108
40、页。50 设设 的前的前m个特征值依次为个特征值依次为1* 2* m* 0,相,相应的正交单位特征向量为应的正交单位特征向量为e1* , e2*, em*,则对应的因子载荷,则对应的因子载荷矩阵矩阵 L 的解为的解为 (13.2.21)根据式(根据式(13.2.21)和式()和式(13.2.18),可以进一步得到特殊因子方),可以进一步得到特殊因子方差的最终估计量为差的最终估计量为 , (13.2.22)如果希望得到拟合程度更好的解,则可以采用迭代的方法如果希望得到拟合程度更好的解,则可以采用迭代的方法(fngf),即利用式(,即利用式(13.2.22)得到的特殊因子方差估计量带入)得到的特殊
41、因子方差估计量带入式(式(13.2.20)重复上述步骤,直到所求解比较稳定为止。)重复上述步骤,直到所求解比较稳定为止。*R*2*2*1*1,mmeeeLmjijiilh12211pi,2,1第49页/共107页第五十页,共108页。51 下面介绍几种求特殊因子方差和公共因子方差初始估计下面介绍几种求特殊因子方差和公共因子方差初始估计的几种常用方法:的几种常用方法: (1)复合相关系数()复合相关系数(squared multiple correlations,简,简称称SMC)方法)方法 SMC是比较常用的一种方法,令是比较常用的一种方法,令 ,其中,其中rii是是 的第的第i个对角元素,此
42、时公共因子方差的估计值为个对角元素,此时公共因子方差的估计值为 它表示它表示(biosh) Xi 与其他与其他 p-1 个解释变量之间的复相关系数。个解释变量之间的复相关系数。 (2)最大相关系数方法()最大相关系数方法(max absolute correlation) 最大相关系数方法是用第最大相关系数方法是用第 i 个变量个变量 Xi 与其他变量相关与其他变量相关系数绝对值的最大值来估计,即令系数绝对值的最大值来估计,即令 ,其中,其中 rij 表示表示(biosh)第第 i 个变量个变量 Xi 与第与第 j 个变量个变量 Xj 的相关系数。的相关系数。iiir/1*1Riiiirh/1
43、11*2ijjiirh max2第50页/共107页第五十一页,共108页。52 (3)对角线比例方法()对角线比例方法(fraction of diagonals) 该方法使用相关矩阵(或协方差矩阵)对角线元素的固定比例该方法使用相关矩阵(或协方差矩阵)对角线元素的固定比例 。特殊的可以取特殊的可以取 =1,此时结果等同于主成分求解得到的结果。,此时结果等同于主成分求解得到的结果。 (4)分块的协方差矩阵估计方法()分块的协方差矩阵估计方法(partitioned covariance,简称,简称PACE) 由于由于(yuy)第第3种方法种方法PACE的估计量是非迭代的,因此,比较适合的估计
44、量是非迭代的,因此,比较适合为迭代估计方法提供初值。为迭代估计方法提供初值。 (5)特殊的直接取)特殊的直接取 ,则,则 i*=0,此时得到的,此时得到的 也是一个主成也是一个主成分解。分解。12*ihL第51页/共107页第五十二页,共108页。53征值大于征值大于1的数作为公因子数。的数作为公因子数。第52页/共107页第五十三页,共108页。54的个数的个数第53页/共107页第五十四页,共108页。55第54页/共107页第五十五页,共108页。56LL:0H第55页/共107页第五十六页,共108页。57 在原假设成立的条件下可以构造下面的似然比统计在原假设成立的条件下可以构造下面的
45、似然比统计(tngj)量量 (13.2.28)其中其中 Sn 表示协方差矩阵的极大似然估计;表示协方差矩阵的极大似然估计; ,其中,其中 和和 分别表示分别表示 L 和和 的极大似然估计量,而的极大似然估计量,而 是是 的极大似然估计量。式的极大似然估计量。式(13.2.28)的统计)的统计(tngj)量服从量服从2分布。分布。 特别的,特别的,Bartlett在在1954年证明了年证明了-2ln抽样分布的抽样分布的 2近似近似可以用多重因子(可以用多重因子(n-1- (2p+4m+5)/6)代替式()代替式(13.2.28)中的)中的n。nnSlnln2LLLLLLL第56页/共107页第五
46、十七页,共108页。58 利用利用Bartlett修正,只要修正,只要n和和n- p大,若大,若 (13.2.29) 则在显著性水平则在显著性水平 下拒绝原假设下拒绝原假设 H0,认为,认为 m 个因子是不充分个因子是不充分的。式(的。式(13.2.29)表示的)表示的2统计量也称为统计量也称为Bartlett2统计量。由于式统计量。由于式(13.2.29)中的自由度必须大于)中的自由度必须大于0,进一步化简可以得到,进一步化简可以得到 (13.2.30)在选择在选择(xunz) m 时,必须根据上述方法进行判断模型的充分性。时,必须根据上述方法进行判断模型的充分性。2/ )(ln)6/ )5
47、42(1(22mpmpmpnnSLL)1812(21ppm第57页/共107页第五十八页,共108页。59 曾有学者研究了纽约曾有学者研究了纽约(ni yu)票股交易所的票股交易所的5只股票(阿莱德化学(只股票(阿莱德化学(allied)、杜邦)、杜邦(dupont)、联合碳化物、联合碳化物(union)、埃克森、埃克森(exxon)和德士古和德士古(texaco))从)从1975年年1月到月到1976年年12月期间周回报率之间的关系(数据见本章附录)。周回报率定义为(本周五收盘价月期间周回报率之间的关系(数据见本章附录)。周回报率定义为(本周五收盘价-上周五收盘价)上周五收盘价)/上周五收盘
48、价,如有拆股或支付股息时进行相应调整。连续上周五收盘价,如有拆股或支付股息时进行相应调整。连续100周的观测值表现出独立同分布,但是各股之间的回报率受总体经济状况的影响,也存在相关关系。表周的观测值表现出独立同分布,但是各股之间的回报率受总体经济状况的影响,也存在相关关系。表13.2给出各指标的相关矩阵。给出各指标的相关矩阵。第58页/共107页第五十九页,共108页。60allieddupontunionexxontexacoallied1.000.580.510.390.46dupont0.581.000.600.390.32union0.510.601.000.440.43exxon0.
49、390.390.441.000.52texaco0.460.320.430.521.00 从表从表13.2可以看出各股收益率之间存在一定的相关性,本例采用因子可以看出各股收益率之间存在一定的相关性,本例采用因子(ynz)分析计算其因子分析计算其因子(ynz)载荷矩阵、公共方差、剩余方差以及相应的贡献度。载荷矩阵、公共方差、剩余方差以及相应的贡献度。第59页/共107页第六十页,共108页。61第60页/共107页第六十一页,共108页。62第61页/共107页第六十二页,共108页。63第62页/共107页第六十三页,共108页。64EViews中可以从中可以从Initial communal
50、ities的下拉菜单中选择不同的下拉菜单中选择不同的方法。的方法。第63页/共107页第六十四页,共108页。65 估计属性主要包括估计属性主要包括(boku)对迭代控制、对迭代控制、scaling、随机数生成、随机数生成器以及器以及Heywood情况的选择和设置。选中情况的选择和设置。选中Scale estimates to match observed variances复选框,可控制剩余方差和公共方差之和等于复选框,可控制剩余方差和公共方差之和等于离差矩阵的对角元素。离差矩阵的对角元素。 在迭代主因子估计的过程中,可能会遇到被估计公因子方差在迭代主因子估计的过程中,可能会遇到被估计公因子
51、方差暗含至少一个剩余方差小于等于暗含至少一个剩余方差小于等于0,这种情况就是通常所说的,这种情况就是通常所说的Heywood情况。当情况。当EViews在计算中遇到在计算中遇到Heywood情况时,有几种情况时,有几种方法是可选择的。默认的,方法是可选择的。默认的,EViews将停止迭代,并给出最后的估将停止迭代,并给出最后的估计计(Stop and report final),同时指出结果可能是不适合的;或者,同时指出结果可能是不适合的;或者EViews报告前一次的迭代结果(报告前一次的迭代结果(Stop and report last);或者结果);或者结果为为0,继续(,继续(Set t
52、o zero, continue);或者忽略负的方差,继续);或者忽略负的方差,继续(Ignore and continue)。)。 第64页/共107页第六十五页,共108页。66 点击Data按钮,出现图13.13所示的窗口(chungku),该窗口(chungku)分为两部分协方差设置和协方差属性。第65页/共107页第六十六页,共108页。67第66页/共107页第六十七页,共108页。68第67页/共107页第六十八页,共108页。69第68页/共107页第六十九页,共108页。70第69页/共107页第七十页,共108页。71 下面给出例下面给出例13.2采用主成分方法求解采用主成
53、分方法求解m=2时的结果,因子个数设置为时的结果,因子个数设置为2,其他,其他(qt)选项都采用默认设置,其结果如下:选项都采用默认设置,其结果如下: 公共方差公共方差 ,剩余方差,剩余方差 =1-0.50 =0.50。其它相对应的公共方差和剩余方差以此类推。从表。其它相对应的公共方差和剩余方差以此类推。从表13.3中可以中可以发现所有发现所有(suyu)股票都高度依赖于股票都高度依赖于F 1 ,且载荷都差不多相等,可称之为,且载荷都差不多相等,可称之为市场因子,代表总的经济条件。而在因子市场因子,代表总的经济条件。而在因子F 2上,化学类股票在此因子上上,化学类股票在此因子上均有负载荷,石油
54、类股票在此因子上有正的载荷,表明因子均有负载荷,石油类股票在此因子上有正的载荷,表明因子F2 将不同行将不同行业股票加以区分,称为行业因子。业股票加以区分,称为行业因子。50. 0)09. 0(70. 02221h2111h第70页/共107页第七十一页,共108页。72 同时比较极大似然估计和主成分估计的结果可以发现:同样在因子同时比较极大似然估计和主成分估计的结果可以发现:同样在因子F1上有大上有大的正的载荷,称为市场因子;而因子的正的载荷,称为市场因子;而因子F2的结果与主成分分析载荷的符号正好相反,的结果与主成分分析载荷的符号正好相反,同样也是区分同样也是区分(qfn)了行业,因此也称
55、为行业因子。我们需要进一步通过因子旋了行业,因此也称为行业因子。我们需要进一步通过因子旋转才能发现有用的因子模式。转才能发现有用的因子模式。第71页/共107页第七十二页,共108页。 随着我国市场化程度的深化以及经济全球化进程的加随着我国市场化程度的深化以及经济全球化进程的加快,我国物价的波动不仅反映了国内市场中总供给和总需快,我国物价的波动不仅反映了国内市场中总供给和总需求的矛盾,而且受国际经济的影响,尤其是国际市场价格求的矛盾,而且受国际经济的影响,尤其是国际市场价格的影响也越来越大。受国内经济波动、居民收入及财富变的影响也越来越大。受国内经济波动、居民收入及财富变化、生产成本价格上涨、
56、国际石油、粮食等原材料价格的化、生产成本价格上涨、国际石油、粮食等原材料价格的影响使得我国物价的波动变得极其复杂。由于物价的波动影响使得我国物价的波动变得极其复杂。由于物价的波动不是取决于某一种因素不是取决于某一种因素(yn s),或某几个指标,而是受多,或某几个指标,而是受多方面因素方面因素(yn s)的影响,此时简单的多元回归分析已经无的影响,此时简单的多元回归分析已经无法满足分析的需要。法满足分析的需要。 本例选择本例选择15个经济变量,采用因子分析方法分析各因个经济变量,采用因子分析方法分析各因素素(yn s)对物价波动的影响,样本区间为对物价波动的影响,样本区间为2000年年1季度季
57、度2008年年3季度。采用主成分方法(季度。采用主成分方法(Principal Factors)求)求解,按照特征根大于解,按照特征根大于1的准则,选取因子数目的准则,选取因子数目 m=4,求解,求解结果如表结果如表13.5。第72页/共107页第七十三页,共108页。剩余(shngy)方差指标名称指标名称 F1载荷载荷li1F2载荷载荷li2F3载荷载荷li3F4载荷载荷li4剩余方差剩余方差CPI居民消费价格指数居民消费价格指数(CPI)-0.150.39-0.150.09成本成本因素因素原材料、燃料、动力购进价格指数原材料、燃料、动力购进价格指数-0.54-0.17-0.140.03工业
58、品出厂价格指数工业品出厂价格指数-0.51-0.08-0.140.04农副产品类购进价格指数农副产品类购进价格指数-0.21-0.21-0.010.34商品房销售价格指数商品房销售价格指数0.12-0.06-0.180.11工业企业成本费用利润率工业企业成本费用利润率0.24-0.180.060.16需求需求因素因素全部从业人员人均报酬增速全部从业人员人均报酬增速0.270.37-0.130.19城镇家庭人均可支配收入增速城镇家庭人均可支配收入增速0.41-0.050.11货币货币因素因素外汇储备同比增速外汇储备同比增速0.48-0.46-0.230.17货币乘数货币乘数0.44-0.560.
59、310.20M2增速增速0.22-0.19-0.190.30GDP增长率增长率0.300.000.400.06国际国际因素因素G7工业品出厂价格指数工业品出厂价格指数-0.560.19-0.130.19G7支出法支出法GDP同比增速同比增速0.19-0.50-0.180.31股价股价指数指数上证收盘综合指数同比增速上证收盘综合指数同比增速0.250.200.400.12 特征值特征值6.352.862.091.58 贡献率贡献率(%)42.3319.0813.9210.56 累计贡献率累计贡献率(%)42.3361.4175.3385.89第73页/共107页第七十四页,共108页。 从表从表
60、13.5中可以看出:中可以看出:4个公因子对原始变量方差的累计贡个公因子对原始变量方差的累计贡献率为献率为85.89%,可见通过因子分析实现了将,可见通过因子分析实现了将15维数据变量降至维数据变量降至4维的目的。采用表维的目的。采用表13.5的信息还可以得到各变量对应的公共方的信息还可以得到各变量对应的公共方差和剩余方差,如对于第一个变量,差和剩余方差,如对于第一个变量, =1-0.91 =0.09。其它变量相对应的公共方差和剩余方。其它变量相对应的公共方差和剩余方差以此类推。同时,通过表差以此类推。同时,通过表13.5各公因子的载荷可以看出:代各公因子的载荷可以看出:代表成本因素表成本因素(yn
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026山东潍坊理工学院上半年教职工招聘171人笔试备考试题及答案解析
- 2026年烟台毓璜顶医院公开招聘博士研究生等高层次人才(100名)笔试备考题库及答案解析
- 2026年广东省外语艺术职业学院高职单招职业适应性测试模拟试题及答案详细解析
- 2026重庆市永川区就业和人才中心招聘公益性岗位人员1人笔试备考试题及答案解析
- 2026湖北恩施州宣恩县松坪幼儿园招聘2人笔试备考题库及答案解析
- 2026年江西科技学院单招综合素质笔试备考试题含详细答案解析
- 2026安徽宿州砀山县晨光中学高中教师招聘笔试备考试题及答案解析
- 2026四川资阳市中医医院招聘药剂人员的2人笔试备考试题及答案解析
- 2026西藏日喀则亚东县中心医院招聘公益性岗位的笔试备考题库及答案解析
- 2026年上饶职业技术学院单招综合素质笔试参考题库含详细答案解析
- 老年患者的尊严护理与人文关怀
- 传染病的流行病学特点及防控措施
- 仲裁法课件教学课件
- 博物馆讲解员面试题目集
- 2025乍得矿产勘探行业现状调研与资源资本配置规划
- 旅游景区客流预测模型构建分析方案
- 漂流安全管理制度
- 文物建筑勘查设计取费标准(2020年版)
- 福建省中小学幼儿园教师职务申报表
- 有机电子材料与器件
- 物流行业转型与挑战试题及答案
评论
0/150
提交评论