SPSS数据的主成分分析报告课件_第1页
SPSS数据的主成分分析报告课件_第2页
SPSS数据的主成分分析报告课件_第3页
SPSS数据的主成分分析报告课件_第4页
SPSS数据的主成分分析报告课件_第5页
已阅读5页,还剩135页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

zf主成分分析

(PrincipalComponentsAnalysis)知识点什么是主成分和主成分分析?理解主成分分析的基本思想和几何意义?理解并掌握基于协方差矩阵或相关系数矩阵求解主成分?如何确定主成分个数?如何解释主成分?掌握运用SPSS软件求解主成分对软件输出结果进行正确分析zf主成分分析(PrincipalComponents2022/12/232zf蒋亮,罗汉《我国东西部城市经济实力比较的主成分分析》,《经济数学》,2003年3期田波平等《主成分分析在中国上市公司综合评价中的作用》,《数学的实践与认识》,2004年4期江冬明《主成份分析在证券市场个股评析中的应用》,《数理统计与管理》,2001年3期主成分分析在综合评价中的应用:2022/12/162蒋亮,罗汉《我国东西部城市经济实力比较2022/12/233zf陈耀辉,景睿《沪深股市市场收益率成因的主成份分析》,《南京航空航天大学学报》,2000年2期。主成分用于成因分析:2022/12/163陈耀辉,景睿《沪深股市市场收益率成因的2022/12/234zf王冬:《我国外汇储备增长因素主成分分析》,《北京工商大学学报(社会科学版)》,2006年4期。主成分回归分析:主成分用于判别分析等统计方法中……2022/12/164王冬:《我国外汇储备增长因素主成分分析2022/12/235zf多个指标的问题:1、指标与指标可能存在相关关系

信息重叠,分析偏误2、指标太多,增加问题的复杂性和分析难度

如何避免?2022/12/165多个指标的问题:2022/12/236zf主成分分析的基本思想一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。在进行主成分分析后,竟以97.4%的精度,用三新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F3。2022/12/166主成分分析的基本思想一项十分著名2022/12/237zf更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入I、总收入变化率I以及时间t因素做相关分析,得到下表:

F1F2F3iitF11

F201

F3001

i0.995-0.0410.057l

i-0.0560.948-0.124-0.102l

t-0.369-0.282-0.836-0.414-0.11212022/12/167更有意思的是,这三个变量其实都是可以直2022/12/238zf主成分分析:将原来具有相关关系的多个指标简化为少数几个新的综合指标的多元统计方法。主成分:由原始指标综合形成的几个新指标。依据主成分所含信息量的大小成为第一主成分,第二主成分等等。主成分与原始变量之间的关系:(1)主成分保留了原始变量绝大多数信息。(2)主成分的个数大大少于原始变量的数目。(3)各个主成分之间互不相关。(4)每个主成分都是原始变量的线性组合。2022/12/168主成分分析:将原来具有相关关系的多个指2022/12/239zf主成分分析通常的做法:寻求原指标的线性组合Fi。数学模型-主成分表达式2022/12/169主成分分析通常的做法:寻求原指标的线性2022/12/2310zf假设有n个样品,每个样品有两个观测变量xl和x2,在由变量xl和x2

所确定的二维平面中,n个样本点所散布的情况如椭圆状。如图所示:几何解释-坐标旋转变换•••••••••••••••••••••••••••••••••••••平移、旋转坐标轴2022/12/1610假设有n个样品,每个样品有两个观测变2022/12/2311zf••••••••••••••••••••••••••••••••••••••平移、旋转坐标轴2022/12/1611••••••••••••••••••2022/12/2312zf••••••••••••••••••••••••••••••••••••平移、旋转坐标轴•2022/12/1612••••••••••••••••••2022/12/2313zf由图可以看出这n个样本点无论是沿着xl

轴方向或x2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量xl

的方差和x2

的方差定量地表示。显然,如果只考虑xl和x2

中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。如果我们将xl

轴和x2轴先平移,再同时按逆时针方向旋转角度,得到新坐标轴Fl和F2。Fl和F2是两个新变量。Fl轴方向上的离散程度最大,即Fl的方差最大。说明变量Fl代表了原始数据的绝大部分信息,即使不考虑变量F2也无损大局。2022/12/1613由图可以看出这n个样本点无论是沿着x2022/12/2314zf旋转变换的目的:将原始数据的大部分信息集中到Fl轴上,对数据中包含的信息起到了浓缩作用。主成分分析的几何意义:主成分分析的过程也就是坐标旋转的过程,各主成分表达式就是新坐标系与原坐标系的转换关系,新坐标系中各坐标轴的方向就是原始数据方差最大的方向。其优点:(1)可达到简化数据结构的目的。(2)新产生的综合变量Fl,F2具有不相关的性质,从而避免了信息重叠所带来的虚假性。2022/12/1614旋转变换的目的:将原始数据的大部分信2022/12/2315zf了解了主成分分析的基本思想、数学和几何意义后,问题的关键:1、如何求解主成分?

2、如何确定主成分个数?

3、如何解释主成分所包含的经济意义?2022/12/1615了解了主成分分析的基本思想、数学2022/12/2316zf如何求解主成分??-

(1)基于协方差矩阵求解主成分假设有n个样本,每个样本有p个观测变量。运用主成分分析构造以下

p个主成分关于原始变量的线性组合模型:2022/12/1616如何求解主成分??-

2022/12/2317zf假设p个原始变量的协方差阵为:对角线外的元素不为0意味着:原始变量之间有相关关系2022/12/1617假设p个原始变量的协方差阵为:对角线2022/12/2318zf如何运用主成分分析将这些具有相关关系的变量转化为没有相关关系的新变量(主成分)呢??新变量(即主成分)之间没有相关关系,其协方差阵为对角矩阵:对角线上的元素λ1、λ2···λp分别为第一、二···第p个主成分方差;同时也是原始变量协方差阵的特征根主成分表达式的系数项即是λ1、λ2···λp的特征向量2022/12/1618如何运用主成分分析将这些具有相关关系2022/12/2319zf1、主成分的协方差阵为对角矩阵;2、3、4、第j个主成分的方差贡献为:

主成分包含了原始变量的所有信息协方差矩阵求解中主成分的性质该比率为第j个主成分方差与原始变量的总方差之比。2022/12/16191、主成分的协方差阵为对角矩阵;主成2022/12/2320zfk个主成分的累积方差贡献率为:

累积方差贡献率越接近1,表示k个主成分包含原始变量的信息越多。5.

主成分载荷:6.

主成分Fj与原始变量Xi相关系数的平方:•(1)可看作为第j个主成分可解释Xi多少比率的信息

(2)可看作为Xi在第j个主成分中的相对重要性2022/12/1620k个主成分的累积方差贡献率为:2022/12/2321zf主成分的求解-

(2)基于相关系数矩阵求解主成分假设p个原始变量的相关系数矩阵阵为:注意(1):相关系数矩阵可看作原始变量协方差阵的标准化形式,即:原始变量标准化的协方差矩阵。注意(2):运用主成分分析法时,若原始变量量纲不一致时,需对变量进行标准化处理基于协方差阵求解主成分;若不标准化则基于相关系数矩阵求解主成分。对角线外元素不全为0:原始变量间有相关关系2022/12/1621主成分的求解-

(2)2022/12/2322zf转化形成的没有相关关系的新变量(即主成分)的协方差阵为对角矩阵:对角线上的元素λ1、λ2···λp分别为第一、二···第p个主成分方差;同时也是原始变量相关系数矩阵的特征根主成分表达式的系数项即是λ1、λ2···λp的特征向量2022/12/1622转化形成的没有相关关系的新变量(即主2022/12/2323zf相关系数矩阵求解中主成分的性质1、主成分的协方差矩阵为对角阵.2.3、4、第k个主成分的方差贡献率为:前k个主成分的累积方差贡献率为:5、主成分载荷:

6、主成分载荷的平方:在解释第j个主成分的意义上起着重要作用•

(1)可看作为第j个主成分可解释Xi多少比率的信息(或:Xi的信息有多少可被第j个主成分解释);•(2)可看作为Xi在第j个主成分中的相对重要性。2022/12/1623相关系数矩阵求解中主成分的性质1、主2022/12/2324zf主成分个数的确定累积方差贡献率(Cumulativevarianceexplainedbycomponents):

通常要求累积方差贡献率达到85%以上来确定主成分个数。

特征根(eigenvalue):根据特征根来确定;数据标准化情况下:碎石图(Screeplot):依据特征值的变化来确定,即特征值变化趋势图由陡坡变为平坦的转折点即为主成分选择的最佳个数。2022/12/1624主成分个数的确定累积方差贡献率(C2022/12/2325zf主成分的解释运用主成分载荷解释主成分:陈耀辉,景睿《沪深股市市场收益率成因的主成份分析》,《南京航空航天大学学报》,2000年2期。蒋亮,罗汉《我国东西部城市经济实力比较的主成分分析》,《经济数学》,2003年3期。运用主成分得分系数矩阵解释主成分:王冬《我国外汇储备增长因素主成分分析》,《北京工商大学学报》,2006年4期。田波平等《主成分分析在中国上市公司综合评价中的作用》,《数学的实践与认识》,2004年4期2022/12/1625主成分的解释运用主成分载荷解释主成分2022/12/2326zf基于相关系数矩阵的主成分分析。对美国纽约上市的有关化学产业的三支股票(AlliedChemical,duPont,UnionCarbide)和石油产业的2支股票(ExxonandTexaco)做了100周的收益率调查(1975年1月-1976年10月)。

1)利用相关系数矩阵做主成分分析。2)决定要保留的主成分个数,并解释意义。主成分解释的案例分析2022/12/1626基于相关系数矩阵的主成分分析。对美国2022/12/2327zf(1)相关系数矩阵:10.5770.5090.3870.4620.57710.5990.3890.3220.5090.59910.4360.4260.3870.3890.43610.5230.4620.3220.4260.5231运用主成分分析法进行分析得到以下结果:2022/12/1627(1)相关系数矩阵:10.57702022/12/2328zf(2)相关系数矩阵的特征根:

EigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulativePRIN12.856712.047550.5713420.57134PRIN20.809160.269490.1618330.73317PRIN30.539680.088180.1079350.84111PRIN40.451500.108550.0903000.93141PRIN50.34295.0.0685901.00000(3)特征根所对应的特征向量:EigenvectorsPRIN1PRIN2PRIN3PRIN4PRIN5X10.463605-.240339-.6117050.386635-.451262X20.457108-.5093050.1781890.2064740.676223X30.470176-.2604480.335056-.662445-.400007X40.4214590.5256650.5407630.472006-.175599X50.4212240.581970-.435176-.3824390.3850242022/12/1628(2)相关系数矩阵的特征根:2022/12/2329zf(4)前两大主成分的累积方差贡献率:(5)前两大主成分的表达式:2022/12/1629(4)前两大主成分的累积方差贡献率:2022/12/2330zf

(6)碎石图:2022/12/1630(6)碎石图:2022/12/2331zf主成分的解释:1、第一大主成分PRIN1几乎是5只股票的等权平均;可将它看做股票收益率的“市场影响因素”(marketcomponent)2、第二大主成分PRIN2系数在AC,DP,UC(chemicalstocks)等3只股票上表现为负,而在EX,TE(oilstocks)等两只股票的系数表现为正;

可将它看作为股票收益率的“行业影响因素”(industrycomponent)2022/12/1631主成分的解释:2022/12/2332zf主成分分析步骤及框图主成分分析步骤:1.根据研究问题选取初始分析变量;2.根据初始变量特性判断由协方差阵求主成分还是由相关阵求主成分;3.求协差阵或相关阵的特征根与相应标准特征向量;4.判断是否存在明显的多重共线性,若存在,则回到第一步;5.得到主成分的表达式并确定主成分个数,选取主成分;6.结合主成分对研究问题进行分析并深入研究。2022/12/1632主成分分析步骤及框图主成分分析步骤:2022/12/2333zf主成分分析框图:特征值标准正交特征向量是否有接近0的情况是其他处理否主成分对主成分进行分析深入分析选择初始变量度量或取值范围相同?是否(否)对比分析相关阵分析协方差阵2022/12/1633主成分分析框图:特征值标准正交特征向2022/12/2334zf主成分分析的上机实现-SPSS操作1、analyze-descriptionstatistic-description-savestandardizedasvariables(若需要数据标准化,则进行该操作,一般在主成分分析过程中软件已自动进行了此操作)2、analyze-datareduction-Factor3、指定参与分析的变量4、运行factor过程2022/12/1634主成分分析的上机实现-SPSS操作2022/12/2335zf案例1:某分析师试图对汽车销量进行预测,选择了汽车品牌、汽车外观、油耗等10个变量作为影响变量(即自变量)(见数据car_sales.sav)。但是,这些影响变量之间存在相关关系,分析师担心直接进行回归预测会引起分析结果偏误。

分析师首先对10个影响变量进行主成分分析,将其转化少数几个无相关关系的新变量。

(1)可用新变量与销量进行回归预测(2)依据新变量,对各品牌汽车进行评价2022/12/1635案例1:某分析师试图对汽车销量进行预2022/12/2336zf(01)选择分析变量

——选SPSS[分析Analyze]菜单中的(降维DataReduction)→(Factor),出现【因子分析FactorAnalysis】对话框;——在【因子FactorAnalysis】对话框中左边的原始变量中,选择将进行因子分析的变量选入(变量Variables)栏。2022/12/1636(01)选择分析变量2022/12/2337zf(02)设置描述性统计量——在【FactorAnalysis】框中选【描述Descriptives】按钮,出现【描述统计Descriptives】对话框;——选择‘原始分析结果Initialsolution’选项——选择‘系数Coefficients’选项——点击(继续Contiue)按钮确定。√显示相关系数矩阵:检验原始变量有无相关关系显示共同度表,反映每个原始变量的信息有多少被新变量提取了2022/12/1637(02)设置描述性统计量√显示相关系2022/12/2338zf2022/12/16382022/12/2339zf主成分分析前提条件——相关性分析:分析方法主要有:1)计算相关系数矩阵(correlationcoefficientsmatrix)

如果相关系数矩阵中的大部分相关系数值均小于0.3,即各变量间大多为弱相关,原则上这些变量不适合进行因子分析。2)计算反映象相关矩阵(Anti-imagecorrelationmatrix)如果其主对角线外的元素大多绝对值较小,对角线上的元素值较接近1,则说明这些变量的相关性较强,适合进行因子分析。2022/12/1639主成分分析前提条件——相关性分析:2022/12/2340zf其中主对角线上的元素为某变量的MSA(MeasureofSampleAdequacy):

是变量和变量()间的简单相关系数;是变量和变量()在控制了其他变量影响下的偏相关系数,即净相关系数。取值在0和1之间,越接近1,意味着变量与其他变量间的相关性越强,越接近0则相关性越弱。2022/12/1640其中主对角线上的元素为某变2022/12/2341zf3)巴特利特球度检验(Bartletttestofsphericity)

该检验以原有变量的相关系数矩阵为出发点,其零假设H0是:相关系数矩阵为单位矩阵,即相关系数矩阵主对角元素均为1,非主对角元素均为0。(即原始变量之间无相关关系)。

依据相关系数矩阵的行列式计算可得其近似服从卡方分布。如果统计量卡方值较大且对应的sig值小于给定的显著性水平a时,零假设不成立。即说明相关系数矩阵不太可能是单位矩阵,变量之间存在相关关系,适合做因子分析。2022/12/16413)巴特利特球度检验(Bartlet2022/12/2342zf4)KMO(Kaiser-Meyer-Olkin)检验

KMO检验的统计量是用于比较变量间简单相关系数矩阵和偏相关系数的指标,数学定义为:KMO与MSA区别是它将相关系数矩阵中的所有元素都加入到了平方和计算中。KMO值越接近1,意味着变量间的相关性越强,原有变量适合做因子分析;越接近0,意味变量间的相关性越弱,越不适合作因子分析。Kaiser给出的KMO度量标准:0.9以上非常适合;0.8表示适合;0.7表示一般;0.6表示不太适合;0.5以下表示极不适合。2022/12/16424)KMO(Kaiser-Meyer2022/12/2343zf(03)设置对主成分或因子的提取选项

——在【因子分析FactorAnalysis】框中点击【抽取Extraction】按钮,出现【因子分析:抽取FactorAnalysis:Extraction】对话框;——在‘方法Method’栏中选择(主成分Principalcomponents)选项;——在分析Analyze栏中选择‘相关性矩阵’Correlationmatrix选项(基于相关系数求解主成分);——在‘输出Display’栏中选择‘未旋转的因子解Unrotatedfactorsolution’选项(主成分载荷矩阵);——在‘抽取Extract’栏中选择‘基于特征根Eigenvaluesover’并填上1(依据特征根大于1的原则提取主成分);——点击(继续Continue)按钮确定,回到【因子分析FactorAnalysis】对话框中。2022/12/1643(03)设置对主成分或因子的提取选项2022/12/2344zf2022/12/16442022/12/2345zf(04)设置主成分得分(或因子得分)——在【因子分析FactorAnalysis】对话框中,点击【得分Scores】按钮,出现【因子分析:因子得分FactorAnalysis:Scores对话框。——选择‘保存为变量’saveasvariable(将新变量得分值保存到数据文件)。

——选择‘displayfactorscorecoefficientmatrix(显示主成分表达式的系数矩阵)’——点击(继续Contiue)按钮确定,回到【因子分析FactorAnalysis】对话框。2022/12/1645(04)设置主成分得分(或因子得分)2022/12/2346zf2022/12/16462022/12/2347zf(05)设置主成分分析(或因子分析)的选项——在【因子分析FactorAnalysis】对话框中,单击【选项Options】按钮,出现【因子分析:选项FactorAnalysis:Options对话框。——缺失值MissingValues栏中的‘Excludecaseslistwise按列表排除个案’——‘CoefficientDisplayFormat(系数显示格式)’中的‘按大小排序Sortedbysize’表示依据主成分(因子)载荷量排序;“取消小系数Suppressabsolutevalueslessthan”,默认为0.1;表示列示所有载荷量大于0.1的载荷系数。2022/12/1647(05)设置主成分分析(或因子分析)2022/12/2348zf2022/12/16482022/12/2349zf分析结果:1.描述性统计——均值、标准差等的描述DescriptiveStatistics

Vehicletype.26.442152Priceinthousands27.3318214.418669152Enginesize3.0491.0498152Horsepower184.8156.823152Wheelbase107.4147.7178152Width71.0893.4647152Length187.05913.4712152Curbweight3.37618.636593152Fuelcapacity17.9593.9376152

MeanStd.DeviationAnalysisNFuelefficiency23.844.3051522022/12/1649分析结果:1.描述性统计——均值、标2022/12/2350zf2.相关系数矩阵——描述原始变量之间是否存在相关关系相关系数矩阵众对角线外的元素不全为0,而且很多的相关系数大于0.5,这表明原始变量之间有相关关系,适合进行主成分分析。2022/12/16502.相关系数矩阵——描述原始变量之间2022/12/2351zf3.共同度表CommunalitiesVehicletype1.000.930Priceinthousands1.000.876Enginesize1.000.843Horsepower1.000.933Wheelbase1.000.881Width1.000.776Length1.000.919Curbweight1.000.891Fuelcapacity1.000.861

InitialExtractionFuelefficiency1.000.860ExtractionMethod:PrincipalComponentAnalysis.

Communalities(共同度):每个原始变量的变异(信息)有多少可被主成分解释.Initial:每个原始变量的变异(信息)有多少可被所有的主成分解释。基于相关系数进行分析时,该值都为1。Extraction:每个原始变量的信息有多少被提取的主成分给提取了。(提取的主成分包含了每个原始变量的信息多少)如果共同度中extraction值越高,这意味着提取的主成分能很好的代表原始变量。如果extraction值很低,我们则需要再提取一个或多个主成分0.930,0.876···分别代表原始变量vehicletype和price等有93%和87.6%被我们提取的主成分提取了。基于协方差进行分析时,每个变量的Initial

又是如何呢??2022/12/16513.共同度表Communalitie2022/12/2352zf4.碎石图(陡坡检查)——除去坡线平坦部分的主成分(因子)图中第三个因子以后较为平坦,故保留3个因子碎石图有助于我们确定最优的主成分个数。横轴代表第几主成分,纵轴代表相应主成分的特征值(方差)。通常,提取碎石图较为陡峭部分的主成分;斜坡处的主成分的方差贡献较小,不考虑,原始变量的信息遗漏也较少。陡坡与斜坡的转折点在第3和第4主成分之间,从第4至第10主成分的方差很小且差别不大,所以该例提取3个主成分较为合适。

2022/12/16524.碎石图(陡坡检查)——除去坡线平2022/12/2353zf5.方差贡献率表

——取特征值大于1的因子,共有3个,分别(5.994)(1.654)(1.123);——方差贡献率分别为(59.94%)(16.54%)(11.23%)Totalvarianceexplained

ExtractionMethod:PrincipalComponentAnalysis.

15.99459.93859.9385.99459.93859.93821.65416.54576.4821.65416.54576.48231.12311.22787.7091.12311.22787.7094.3393.38991.098

5.2542.54193.640

6.1991.99495.633

7.1551.54797.181

8.1301.29998.480

9.091.90599.385

ComponentInitialEigenvaluesExtractionSumsofSquaredLoadingsTotal%ofVarianceCumulative%Total%ofVarianceCumulative%10.061.615100.000

Total这栏给出的是特征根,即每个主成分的方差(或者说,所有原始变量的信息有多少落到各个主成分上去).%ofVariance

这栏代表主成分的方差贡献率,即每个主成分方差占原始变量总方差的比率.Cumulative%这栏代表累积方差贡献率,即为前n

个主成分的方差贡献率之和。如累积贡献率76.482%=第一主成分的方差贡献59.938%+第二主成分的方差贡献16.545%.

原始变量有10个,提取了10个主成分,且10个主成分的方差之和=10个原始变量的方差之和;依据特征根大于1,我们提取了3个主成分。2022/12/16535.方差贡献率表Totalvari2022/12/2354zf6.主成分(因子载荷)矩阵表

ComponentMatrix(a)Vehicletype.471.533-.651Priceinthousands.580-.729-.092Enginesize.871-.290.018Horsepower.740-.618.058Wheelbase.732.480.340Width.821.114.298Length.719.304.556Curbweight.934.063-.121Fuelcapacity.885.184-.210

Component123Fuelefficiency-.863.004.339ExtractionMethod:PrincipalComponentAnalysis.a3componentsextracted.

主成分载荷矩阵表主要反映原始变量和主成分的相关关系,有助于我们进行主成分的解释。.

其中:第一主成分与Enginesize,Horsepower,Wheelbase,width,length,curbweight,Fuelcapacity,Fuelefficiency等高度相关.第二主成分与

Priceinthousands

高度相关.第三主成分与Vehicletype高度相关.从该表我们也可看到原始变量的信息如何被各个主成分提取的。如:Var(Vehicletype*)=0.4712+0.5332+(-0.651)2``````````

Var

(Fuelefficiency*)=(-0.863)2+0.0042+

0.3392根据该表我们可写出因子分析模型:

Vehicletype*=0.471f1+0.533f2-0.651f3``````````

Fuelefficiency*=-0.863f1+0.004f2-0.339f3从该表也可得到每个主成分方差是如何从各原始变量中提取的:Var(f1)=0.4712+0.5802+0.8712+…….+(-0.863)2Var(f2)

=0.5332+(-0.729)2+

(-0.290)2+……+(0.004)2Var(f3)

=(-0.651)2+(-0.092)2+0.0182+……+(0.339)22022/12/16546.主成分(因子载荷)矩阵表Co2022/12/2355zf7.主成分(因子)得分系数表

ComponentScoreCoefficientMatrixVehicletype.079.322-.579Priceinthousands.097-.440-.082Enginesize.145-.175.016Horsepower.124-.373.052Wheelbase.122.290.302Width.137.069.266Length.120.184.495Curbweight.156.038-.108Fuelcapacity.148.111-.187

Component123Fuelefficiency-.144.002.302ExtractionMethod:PrincipalComponentAnalysis.

依据该表,我们可写出主成分分析模型:

f1*=0.079Vehicletype*+0.097Price*+0.145Enginesize*+……-0.144Fuelefficiency*

…….每个样本的原始变量信息带入以上模型,我们则可得到每个样本:f1*,

f2*,f3*的取值。依据该取值我们可评价哪些品牌汽车在外观及油耗性能(f1*)上占优或处于劣势;哪些在f2*(汽车价位)上占优或处于劣势;····,要提升各品牌汽车应从何着手。综合f1*,

f2*,f3*的信息对各种品牌汽车的进行综合评价,依据各主成分的方差贡献产生新变量:

f=0.5999f1*+0.165f2*+0.112f3*2022/12/16557.主成分(因子)得分系数表Co2022/12/2356zf8.主成分(因子)得分协方差矩阵

ComponentScoreCovarianceMatrix11.000.000.0002.0001.000.000Component1233.000.0001.000ExtractionMethod:PrincipalComponentAnalysis.该矩阵为单位阵,意味着主成分之间互不相关。2022/12/16568.主成分(因子)得分协方差矩阵2022/12/2357zf以上例子是采用基于相关系数求解主成分,试用协方差矩阵求解,结果如何?由协方差矩阵或相关系数矩阵求解主成分结果一致吗?应如何选择?2022/12/1657以上例子是采用基于相关系数求解主成分2022/12/2358zf主成分分析求解应注意的问题:1、由协方差矩阵出发求解主成分所得的结果与由相关系数矩阵求解主成分所得结果有很大不同:所得的主成分的方差贡献率与主成分表达式均有显著差别。(1)一般而言,对于度量单位不同的指标或是取值范围彼此差异非常大的指标,不直接由其协方差矩阵进行主成分分析,而应该考虑将数据标准化。(若不标准化,则基于相关系数矩阵进行主成分分析)例:对上市公司的财务状况进行分析时,常常涉及利润总额、市盈率、每股净利率等。其中利润总额取值常在几十万到上百万或千万,市盈率一般取值在五到六七十之间,而每股净利率在1以下,不同指标取值范围相差很大,若直接用协方差矩阵进行主成分分析,利润总额的作用将起重要支配作用,而其他两个指标的作用很难在主成分中体现出来,此时应该考虑对数据进行标准化处理。

2022/12/1658主成分分析求解应注意的问题:1、由协2022/12/2359zf(2)对同度量或是取值范围在同量级的数据,还是直接从协方差矩阵求解主成分为宜。因为:对数据标准化的过程实际上也就是抹杀原始变量离散程度差异的过程,标准化后的各变量方差相等均为1,而方差是数据信息的重要概括形式。数据标准化后抹杀了一部分重要信息,使得标准化后各变量在对主成分构成中的作用趋于相等。对于采用何种方法求解主成分没有定论。在实际研究中,从不同角度求解并研究其结果的差别以及产生差别的原因,以确定哪种结果更为可信。2022/12/1659(2)对同度量或是取值范围在同量2022/12/2360zf2、主成分是有效剔除了原始变量中的重叠信息,还是按原来的模式将原始信息中的绝大部分用几个不相关的新变量表示出来,还值得讨论。如果计算所得协方差阵(或相关系数矩阵)的最小特征值接近于0,则意味着中心化以后的原始变量之间存在着多重共线性问题,即原始变量存在着不可忽视的重叠信息。此时应注意对主成分的解释,或者考虑对最初纳入分析的指标进行筛选。对原始变量存在多重共线性问题,在应用主成分分析时一定要慎重,应考虑所选初始变量是否合适,是否真实地反映事物的本来面目;主成分分析不能有效地剔除重叠信息,但它至少可发现原始变量是否存在重叠信息,这对减少分析中的失误是有帮助的。??2022/12/16602、主成分是有效剔除了原始变量中的重2022/12/2361zf练习:1.某主管局管辖20个工厂,现要对每个工厂作经济效益分析,经研究确定从所取得的生产成果同所消耗的人力,物力,财力的比率,选取五个指标作分析x1-固定资产产值率,X2-净产值劳动生产率,X3-百元产值流动资金占用率,X4-百元产值利润率,X5-百元资金利润率.(数据见ex301)2.职工健康(数据见职工健康情况分析)2022/12/1661练习:1.某主管局管辖20个工厂,现2022/12/2362zf主成分分析在综合评价中的应用:思想1:通过主成分分析,选择m个主成分y1,y2,…,ym,以每个主成分yi的方差贡献率αi作为权数,构造综合评价函数:其中为第i个主成分的得分。思想2:通过主成分分析,选择m个主成分y1,y2,…,ym,以每个主成分yi占所选的m个主成分的方差贡献率ui作为权数,构造综合评价函数:2022/12/1662主成分分析在综合评价中的应用:思想12022/12/2363zf案例:蒋亮,罗汉《我国东西部城市经济实力比较的主成分分析》,《经济数学》,2003年3期田波平等《主成分分析在中国上市公司综合评价中的作用》,《数学的实践与认识》,2004年4期江冬明《主成份分析在证券市场个股评析中的应用》,《数理统计与管理》,2001年3期2022/12/1663案例:蒋亮,罗汉《我国东西部城市经济2022/12/2364zf例:全国重点水泥企业某年的经济效益分析.X1为固定资产利税率,X2为资金利税率,X3为销售收入利税率,X4为资金利润率,X5为固定资产产值率,X6-流动资金周转天数,X7-万元产值能耗,X8-全员劳动生产率.(数据见ex308)

2022/12/1664例:全国重点水泥企业某年的经济效益分2022/12/2365zf练习:在企业经济效益的评价中,涉及的指标往往很多.为了简化系统结构,抓住经济效益评价中的主要问题,我们可由原始数据矩阵出发求主成分.在对我国部分省,市,自治区独立核算的工业企业的经济效益评价中,涉及到9项指标,x1-100元固定资产原值实现产值,X2-100元固定资产原值实现利税,X3-100元资金实现利税,X4-100元工业总产值实现利税,X5-100元销售收入实现利税,X6-每吨标准煤实现工业产值,X7-每千瓦时电力实现工业产值,X8-全员劳动生产率,X9-100元流动资金实现产值(数据见ex302)2022/12/1665练习:2022/12/2366zf陈耀辉,景睿《沪深股市市场收益率成因的主成份分析》,《南京航空航天大学学报》,2000年2期。主成分用于成因分析:2022/12/1666陈耀辉,景睿《沪深股市市场收益率成因2022/12/2367zf王冬:《我国外汇储备增长因素主成分分析》,《北京工商大学学报(社会科学版)》,2006年4期。主成分回归分析:2022/12/1667王冬:《我国外汇储备增长因素主成分分2022/12/2368zf练习:影响电的需求量的指标有:(1)钢的产量x1;(2)生铁产量x2;(3)钢材产量x3;(4)有色金属产量x4;(5)原煤产量x5;(6)水泥产量x6;(7)机械工业总产值x7;(8)化肥产量x8;(9)硫酸产量x9;(10)烧碱产量x10;(11)棉纱产量x11共11个指标。收集了23年的指标值,建立发电站需求模型。(数据见ex310)2022/12/1668练习:知识回顾KnowledgeReview知识回顾KnowledgeReview谢谢!放映结束感谢各位的批评指导!让我们共同进步谢谢!放映结束让我们共同进步zf主成分分析

(PrincipalComponentsAnalysis)知识点什么是主成分和主成分分析?理解主成分分析的基本思想和几何意义?理解并掌握基于协方差矩阵或相关系数矩阵求解主成分?如何确定主成分个数?如何解释主成分?掌握运用SPSS软件求解主成分对软件输出结果进行正确分析zf主成分分析(PrincipalComponents2022/12/2372zf蒋亮,罗汉《我国东西部城市经济实力比较的主成分分析》,《经济数学》,2003年3期田波平等《主成分分析在中国上市公司综合评价中的作用》,《数学的实践与认识》,2004年4期江冬明《主成份分析在证券市场个股评析中的应用》,《数理统计与管理》,2001年3期主成分分析在综合评价中的应用:2022/12/162蒋亮,罗汉《我国东西部城市经济实力比较2022/12/2373zf陈耀辉,景睿《沪深股市市场收益率成因的主成份分析》,《南京航空航天大学学报》,2000年2期。主成分用于成因分析:2022/12/163陈耀辉,景睿《沪深股市市场收益率成因的2022/12/2374zf王冬:《我国外汇储备增长因素主成分分析》,《北京工商大学学报(社会科学版)》,2006年4期。主成分回归分析:主成分用于判别分析等统计方法中……2022/12/164王冬:《我国外汇储备增长因素主成分分析2022/12/2375zf多个指标的问题:1、指标与指标可能存在相关关系

信息重叠,分析偏误2、指标太多,增加问题的复杂性和分析难度

如何避免?2022/12/165多个指标的问题:2022/12/2376zf主成分分析的基本思想一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。在进行主成分分析后,竟以97.4%的精度,用三新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F3。2022/12/166主成分分析的基本思想一项十分著名2022/12/2377zf更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入I、总收入变化率I以及时间t因素做相关分析,得到下表:

F1F2F3iitF11

F201

F3001

i0.995-0.0410.057l

i-0.0560.948-0.124-0.102l

t-0.369-0.282-0.836-0.414-0.11212022/12/167更有意思的是,这三个变量其实都是可以直2022/12/2378zf主成分分析:将原来具有相关关系的多个指标简化为少数几个新的综合指标的多元统计方法。主成分:由原始指标综合形成的几个新指标。依据主成分所含信息量的大小成为第一主成分,第二主成分等等。主成分与原始变量之间的关系:(1)主成分保留了原始变量绝大多数信息。(2)主成分的个数大大少于原始变量的数目。(3)各个主成分之间互不相关。(4)每个主成分都是原始变量的线性组合。2022/12/168主成分分析:将原来具有相关关系的多个指2022/12/2379zf主成分分析通常的做法:寻求原指标的线性组合Fi。数学模型-主成分表达式2022/12/169主成分分析通常的做法:寻求原指标的线性2022/12/2380zf假设有n个样品,每个样品有两个观测变量xl和x2,在由变量xl和x2

所确定的二维平面中,n个样本点所散布的情况如椭圆状。如图所示:几何解释-坐标旋转变换•••••••••••••••••••••••••••••••••••••平移、旋转坐标轴2022/12/1610假设有n个样品,每个样品有两个观测变2022/12/2381zf••••••••••••••••••••••••••••••••••••••平移、旋转坐标轴2022/12/1611••••••••••••••••••2022/12/2382zf••••••••••••••••••••••••••••••••••••平移、旋转坐标轴•2022/12/1612••••••••••••••••••2022/12/2383zf由图可以看出这n个样本点无论是沿着xl

轴方向或x2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量xl

的方差和x2

的方差定量地表示。显然,如果只考虑xl和x2

中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。如果我们将xl

轴和x2轴先平移,再同时按逆时针方向旋转角度,得到新坐标轴Fl和F2。Fl和F2是两个新变量。Fl轴方向上的离散程度最大,即Fl的方差最大。说明变量Fl代表了原始数据的绝大部分信息,即使不考虑变量F2也无损大局。2022/12/1613由图可以看出这n个样本点无论是沿着x2022/12/2384zf旋转变换的目的:将原始数据的大部分信息集中到Fl轴上,对数据中包含的信息起到了浓缩作用。主成分分析的几何意义:主成分分析的过程也就是坐标旋转的过程,各主成分表达式就是新坐标系与原坐标系的转换关系,新坐标系中各坐标轴的方向就是原始数据方差最大的方向。其优点:(1)可达到简化数据结构的目的。(2)新产生的综合变量Fl,F2具有不相关的性质,从而避免了信息重叠所带来的虚假性。2022/12/1614旋转变换的目的:将原始数据的大部分信2022/12/2385zf了解了主成分分析的基本思想、数学和几何意义后,问题的关键:1、如何求解主成分?

2、如何确定主成分个数?

3、如何解释主成分所包含的经济意义?2022/12/1615了解了主成分分析的基本思想、数学2022/12/2386zf如何求解主成分??-

(1)基于协方差矩阵求解主成分假设有n个样本,每个样本有p个观测变量。运用主成分分析构造以下

p个主成分关于原始变量的线性组合模型:2022/12/1616如何求解主成分??-

2022/12/2387zf假设p个原始变量的协方差阵为:对角线外的元素不为0意味着:原始变量之间有相关关系2022/12/1617假设p个原始变量的协方差阵为:对角线2022/12/2388zf如何运用主成分分析将这些具有相关关系的变量转化为没有相关关系的新变量(主成分)呢??新变量(即主成分)之间没有相关关系,其协方差阵为对角矩阵:对角线上的元素λ1、λ2···λp分别为第一、二···第p个主成分方差;同时也是原始变量协方差阵的特征根主成分表达式的系数项即是λ1、λ2···λp的特征向量2022/12/1618如何运用主成分分析将这些具有相关关系2022/12/2389zf1、主成分的协方差阵为对角矩阵;2、3、4、第j个主成分的方差贡献为:

主成分包含了原始变量的所有信息协方差矩阵求解中主成分的性质该比率为第j个主成分方差与原始变量的总方差之比。2022/12/16191、主成分的协方差阵为对角矩阵;主成2022/12/2390zfk个主成分的累积方差贡献率为:

累积方差贡献率越接近1,表示k个主成分包含原始变量的信息越多。5.

主成分载荷:6.

主成分Fj与原始变量Xi相关系数的平方:•(1)可看作为第j个主成分可解释Xi多少比率的信息

(2)可看作为Xi在第j个主成分中的相对重要性2022/12/1620k个主成分的累积方差贡献率为:2022/12/2391zf主成分的求解-

(2)基于相关系数矩阵求解主成分假设p个原始变量的相关系数矩阵阵为:注意(1):相关系数矩阵可看作原始变量协方差阵的标准化形式,即:原始变量标准化的协方差矩阵。注意(2):运用主成分分析法时,若原始变量量纲不一致时,需对变量进行标准化处理基于协方差阵求解主成分;若不标准化则基于相关系数矩阵求解主成分。对角线外元素不全为0:原始变量间有相关关系2022/12/1621主成分的求解-

(2)2022/12/2392zf转化形成的没有相关关系的新变量(即主成分)的协方差阵为对角矩阵:对角线上的元素λ1、λ2···λp分别为第一、二···第p个主成分方差;同时也是原始变量相关系数矩阵的特征根主成分表达式的系数项即是λ1、λ2···λp的特征向量2022/12/1622转化形成的没有相关关系的新变量(即主2022/12/2393zf相关系数矩阵求解中主成分的性质1、主成分的协方差矩阵为对角阵.2.3、4、第k个主成分的方差贡献率为:前k个主成分的累积方差贡献率为:5、主成分载荷:

6、主成分载荷的平方:在解释第j个主成分的意义上起着重要作用•

(1)可看作为第j个主成分可解释Xi多少比率的信息(或:Xi的信息有多少可被第j个主成分解释);•(2)可看作为Xi在第j个主成分中的相对重要性。2022/12/1623相关系数矩阵求解中主成分的性质1、主2022/12/2394zf主成分个数的确定累积方差贡献率(Cumulativevarianceexplainedbycomponents):

通常要求累积方差贡献率达到85%以上来确定主成分个数。

特征根(eigenvalue):根据特征根来确定;数据标准化情况下:碎石图(Screeplot):依据特征值的变化来确定,即特征值变化趋势图由陡坡变为平坦的转折点即为主成分选择的最佳个数。2022/12/1624主成分个数的确定累积方差贡献率(C2022/12/2395zf主成分的解释运用主成分载荷解释主成分:陈耀辉,景睿《沪深股市市场收益率成因的主成份分析》,《南京航空航天大学学报》,2000年2期。蒋亮,罗汉《我国东西部城市经济实力比较的主成分分析》,《经济数学》,2003年3期。运用主成分得分系数矩阵解释主成分:王冬《我国外汇储备增长因素主成分分析》,《北京工商大学学报》,2006年4期。田波平等《主成分分析在中国上市公司综合评价中的作用》,《数学的实践与认识》,2004年4期2022/12/1625主成分的解释运用主成分载荷解释主成分2022/12/2396zf基于相关系数矩阵的主成分分析。对美国纽约上市的有关化学产业的三支股票(AlliedChemical,duPont,UnionCarbide)和石油产业的2支股票(ExxonandTexaco)做了100周的收益率调查(1975年1月-1976年10月)。

1)利用相关系数矩阵做主成分分析。2)决定要保留的主成分个数,并解释意义。主成分解释的案例分析2022/12/1626基于相关系数矩阵的主成分分析。对美国2022/12/2397zf(1)相关系数矩阵:10.5770.5090.3870.4620.57710.5990.3890.3220.5090.59910.4360.4260.3870.3890.43610.5230.4620.3220.4260.5231运用主成分分析法进行分析得到以下结果:2022/12/1627(1)相关系数矩阵:10.57702022/12/2398zf(2)相关系数矩阵的特征根:

EigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulativePRIN12.856712.047550.5713420.57134PRIN20.809160.269490.1618330.73317PRIN30.539680.088180.1079350.84111PRIN40.451500.108550.0903000.93141PRIN50.34295.0.0685901.00000(3)特征根所对应的特征向量:EigenvectorsPRIN1PRIN2PRIN3PRIN4PRIN5X10.463605-.240339-.6117050.386635-.451262X20.457108-.5093050.1781890.2064740.676223X30.470176-.2604480.335056-.662445-.400007X40.4214590.5256650.5407630.472006-.175599X50.4212240.581970-.435176-.3824390.3850242022/12/1628(2)相关系数矩阵的特征根:2022/12/2399zf(4)前两大主成分的累积方差贡献率:(5)前两大主成分的表达式:2022/12/1629(4)前两大主成分的累积方差贡献率:2022/12/23100zf

(6)碎石图:2022/12/1630(6)碎石图:2022/12/23101zf主成分的解释:1、第一大主成分PRIN1几乎是5只股票的等权平均;可将它看做股票收益率的“市场影响因素”(marketcomponent)2、第二大主成分PRIN2系数在AC,DP,UC(chemicalstocks)等3只股票上表现为负,而在EX,TE(oilstocks)等两只股票的系数表现为正;

可将它看作为股票收益率的“行业影响因素”(industrycomponent)2022/12/1631主成分的解释:2022/12/23102zf主成分分析步骤及框图主成分分析步骤:1.根据研究问题选取初始分析变量;2.根据初始变量特性判断由协方差阵求主成分还是由相关阵求主成分;3.求协差阵或相关阵的特征根与相应标准特征向量;4.判断是否存在明显的多重共线性,若存在,则回到第一步;5.得到主成分的表达式并确定主成分个数,选取主成分;6.结合主成分对研究问题进行分析并深入研究。2022/12/1632主成分分析步骤及框图主成分分析步骤:2022/12/23103zf主成分分析框图:特征值标准正交特征向量是否有接近0的情况是其他处理否主成分对主成分进行分析深入分析选择初始变量度量或取值范围相同?是否(否)对比分析相关阵分析协方差阵2022/12/1633主成分分析框图:特征值标准正交特征向2022/12/23104zf主成分分析的上机实现-SPSS操作1、analyze-descriptionstatistic-description-savestandardizedasvariables(若需要数据标准化,则进行该操作,一般在主成分分析过程中软件已自动进行了此操作)2、analyze-datareduction-Factor3、指定参与分析的变量4、运行factor过程2022/12/1634主成分分析的上机实现-SPSS操作2022/12/23105zf案例1:某分析师试图对汽车销量进行预测,选择了汽车品牌、汽车外观、油耗等10个变量作为影响变量(即自变量)(见数据car_sales.sav)。但是,这些影响变量之间存在相关关系,分析师担心直接进行回归预测会引起分析结果偏误。

分析师首先对10个影响变量进行主成分分析,将其转化少数几个无相关关系的新变量。

(1)可用新变量与销量进行回归预测

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论