SPSS数据的主成分分析3.ppt

上传人：优*** IP属地：广东上传时间：2020-01-27 格式：PPT 页数：70 大小：1.32MB 积分：68 举报 版权申诉

已阅读5页，还剩65页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2020 1 27 主成分分析 PrincipalComponentsAnalysis 知识点什么是主成分和主成分分析理解主成分分析的基本思想和几何意义理解并掌握基于协方差矩阵或相关系数矩阵求解主成分如何确定主成分个数如何解释主成分掌握运用SPSS软件求解主成分对软件输出结果进行正确分析 1 2020 1 27 可编辑蒋亮罗汉我国东西部城市经济实力比较的主成分分析经济数学 2003年3期田波平等主成分分析在中国上市公司综合评价中的作用数学的实践与认识 2004年4期江冬明主成份分析在证券市场个股评析中的应用数理统计与管理 2001年3期主成分分析在综合评价中的应用 2 2020 1 27 可编辑陈耀辉景睿沪深股市市场收益率成因的主成份分析南京航空航天大学学报 2000年2期主成分用于成因分析 3 2020 1 27 可编辑王冬我国外汇储备增长因素主成分分析北京工商大学学报社会科学版 2006年4期主成分回归分析主成分用于判别分析等统计方法中 4 2020 1 27 可编辑多个指标的问题 1 指标与指标可能存在相关关系信息重叠分析偏误2 指标太多增加问题的复杂性和分析难度如何避免 5 2020 1 27 可编辑主成分分析的基本思想一项十分著名的工作是美国的统计学家斯通 stone 在1947年关于国民经济的研究他曾利用美国1929一1938年各年的数据得到了17个反映国民收入与支出的变量要素例如雇主补贴消费资料和生产资料纯公共支出净增库存股息利息外贸平衡等等在进行主成分分析后竟以97 4 的精度用三新变量就取代了原17个变量根据经济学知识斯通给这三个新变量分别命名为总收入F1 总收入变化率F2和经济发展或衰退的趋势F3 6 2020 1 27 可编辑更有意思的是这三个变量其实都是可以直接测量的斯通将他得到的主成分与实际测量的总收入I 总收入变化率 I以及时间t因素做相关分析得到下表 7 2020 1 27 可编辑主成分分析将原来具有相关关系的多个指标简化为少数几个新的综合指标的多元统计方法主成分由原始指标综合形成的几个新指标依据主成分所含信息量的大小成为第一主成分第二主成分等等主成分与原始变量之间的关系 1 主成分保留了原始变量绝大多数信息 2 主成分的个数大大少于原始变量的数目 3 各个主成分之间互不相关 4 每个主成分都是原始变量的线性组合 8 2020 1 27 可编辑主成分分析通常的做法寻求原指标的线性组合Fi 数学模型主成分表达式 9 2020 1 27 可编辑假设有n个样品每个样品有两个观测变量xl和x2 在由变量xl和x2所确定的二维平面中 n个样本点所散布的情况如椭圆状如图所示几何解释坐标旋转变换平移旋转坐标轴 10 2020 1 27 可编辑平移旋转坐标轴 11 2020 1 27 可编辑平移旋转坐标轴 12 2020 1 27 可编辑由图可以看出这n个样本点无论是沿着xl轴方向或x2轴方向都具有较大的离散性其离散的程度可以分别用观测变量xl的方差和x2的方差定量地表示显然如果只考虑xl和x2中的任何一个那么包含在原始数据中的经济信息将会有较大的损失如果我们将xl轴和x2轴先平移再同时按逆时针方向旋转角度得到新坐标轴Fl和F2 Fl和F2是两个新变量 Fl轴方向上的离散程度最大即Fl的方差最大说明变量Fl代表了原始数据的绝大部分信息即使不考虑变量F2也无损大局 13 2020 1 27 可编辑旋转变换的目的将原始数据的大部分信息集中到Fl轴上对数据中包含的信息起到了浓缩作用主成分分析的几何意义主成分分析的过程也就是坐标旋转的过程各主成分表达式就是新坐标系与原坐标系的转换关系新坐标系中各坐标轴的方向就是原始数据方差最大的方向其优点 1 可达到简化数据结构的目的 2 新产生的综合变量Fl F2具有不相关的性质从而避免了信息重叠所带来的虚假性 14 2020 1 27 可编辑了解了主成分分析的基本思想数学和几何意义后问题的关键 1 如何求解主成分 2 如何确定主成分个数 3 如何解释主成分所包含的经济意义 15 2020 1 27 可编辑如何求解主成分 1 基于协方差矩阵求解主成分假设有n个样本每个样本有p个观测变量运用主成分分析构造以下p个主成分关于原始变量的线性组合模型 16 2020 1 27 可编辑假设p个原始变量的协方差阵为对角线外的元素不为0意味着原始变量之间有相关关系 17 2020 1 27 可编辑如何运用主成分分析将这些具有相关关系的变量转化为没有相关关系的新变量主成分呢新变量即主成分之间没有相关关系其协方差阵为对角矩阵对角线上的元素 1 2 p分别为第一二第p个主成分方差同时也是原始变量协方差阵的特征根主成分表达式的系数项即是 1 2 p的特征向量 18 2020 1 27 可编辑 1 主成分的协方差阵为对角矩阵 2 3 4 第j个主成分的方差贡献为主成分包含了原始变量的所有信息协方差矩阵求解中主成分的性质该比率为第j个主成分方差与原始变量的总方差之比 19 2020 1 27 可编辑 k个主成分的累积方差贡献率为累积方差贡献率越接近1 表示k个主成分包含原始变量的信息越多 5 主成分载荷 6 主成分Fj与原始变量Xi相关系数的平方 1 可看作为第j个主成分可解释Xi多少比率的信息 2 可看作为Xi在第j个主成分中的相对重要性 20 2020 1 27 可编辑主成分的求解 2 基于相关系数矩阵求解主成分假设p个原始变量的相关系数矩阵阵为注意 1 相关系数矩阵可看作原始变量协方差阵的标准化形式即原始变量标准化的协方差矩阵注意 2 运用主成分分析法时若原始变量量纲不一致时需对变量进行标准化处理基于协方差阵求解主成分若不标准化则基于相关系数矩阵求解主成分对角线外元素不全为0 原始变量间有相关关系 21 2020 1 27 可编辑转化形成的没有相关关系的新变量即主成分的协方差阵为对角矩阵对角线上的元素 1 2 p分别为第一二第p个主成分方差同时也是原始变量相关系数矩阵的特征根主成分表达式的系数项即是 1 2 p的特征向量 22 2020 1 27 可编辑相关系数矩阵求解中主成分的性质 1 主成分的协方差矩阵为对角阵 2 3 4 第k个主成分的方差贡献率为前k个主成分的累积方差贡献率为 5 主成分载荷 6 主成分载荷的平方在解释第j个主成分的意义上起着重要作用 1 可看作为第j个主成分可解释Xi多少比率的信息或 Xi的信息有多少可被第j个主成分解释 2 可看作为Xi在第j个主成分中的相对重要性 23 2020 1 27 可编辑主成分个数的确定累积方差贡献率 Cumulativevarianceexplainedbycomponents 通常要求累积方差贡献率达到85 以上来确定主成分个数特征根 eigenvalue 根据特征根来确定数据标准化情况下碎石图 Screeplot 依据特征值的变化来确定即特征值变化趋势图由陡坡变为平坦的转折点即为主成分选择的最佳个数 24 2020 1 27 可编辑主成分的解释运用主成分载荷解释主成分陈耀辉景睿沪深股市市场收益率成因的主成份分析南京航空航天大学学报 2000年2期蒋亮罗汉我国东西部城市经济实力比较的主成分分析经济数学 2003年3期运用主成分得分系数矩阵解释主成分王冬我国外汇储备增长因素主成分分析北京工商大学学报 2006年4期田波平等主成分分析在中国上市公司综合评价中的作用数学的实践与认识 2004年4期 25 2020 1 27 可编辑基于相关系数矩阵的主成分分析对美国纽约上市的有关化学产业的三支股票 AlliedChemical duPont UnionCarbide 和石油产业的2支股票 ExxonandTexaco 做了100周的收益率调查 1975年1月 1976年10月 1 利用相关系数矩阵做主成分分析 2 决定要保留的主成分个数并解释意义主成分解释的案例分析 26 2020 1 27 可编辑 1 相关系数矩阵运用主成分分析法进行分析得到以下结果 27 2020 1 27 可编辑 2 相关系数矩阵的特征根 EigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulativePRIN12 856712 047550 5713420 57134PRIN20 809160 269490 1618330 73317PRIN30 539680 088180 1079350 84111PRIN40 451500 108550 0903000 93141PRIN50 34295 0 0685901 00000 3 特征根所对应的特征向量 EigenvectorsPRIN1PRIN2PRIN3PRIN4PRIN5X10 463605 240339 6117050 386635 451262X20 457108 5093050 1781890 2064740 676223X30 470176 2604480 335056 662445 400007X40 4214590 5256650 5407630 472006 175599X50 4212240 581970 435176 3824390 385024 28 2020 1 27 可编辑 4 前两大主成分的累积方差贡献率 5 前两大主成分的表达式 29 2020 1 27 可编辑 6 碎石图 30 2020 1 27 可编辑主成分的解释 1 第一大主成分PRIN1几乎是5只股票的等权平均可将它看做股票收益率的市场影响因素 marketcomponent 2 第二大主成分PRIN2系数在AC DP UC chemicalstocks 等3只股票上表现为负而在EX TE oilstocks 等两只股票的系数表现为正可将它看作为股票收益率的行业影响因素 industrycomponent 31 2020 1 27 可编辑主成分分析步骤及框图主成分分析步骤 1 根据研究问题选取初始分析变量 2 根据初始变量特性判断由协方差阵求主成分还是由相关阵求主成分 3 求协差阵或相关阵的特征根与相应标准特征向量 4 判断是否存在明显的多重共线性若存在则回到第一步 5 得到主成分的表达式并确定主成分个数选取主成分 6 结合主成分对研究问题进行分析并深入研究 32 2020 1 27 可编辑主成分分析框图 33 2020 1 27 可编辑主成分分析的上机实现 SPSS操作 1 analyze descriptionstatistic description savestandardizedasvariables 若需要数据标准化则进行该操作一般在主成分分析过程中软件已自动进行了此操作 2 analyze datareduction Factor3 指定参与分析的变量4 运行factor过程 34 2020 1 27 35 2020 1 27 可编辑案例1 某分析师试图对汽车销量进行预测选择了汽车品牌汽车外观油耗等10个变量作为影响变量即自变量见数据car sales sav 但是这些影响变量之间存在相关关系分析师担心直接进行回归预测会引起分析结果偏误分析师首先对10个影响变量进行主成分分析将其转化少数几个无相关关系的新变量 1 可用新变量与销量进行回归预测 2 依据新变量对各品牌汽车进行评价 36 2020 1 27 可编辑 01 选择分析变量选SPSS 分析Analyze 菜单中的降维DataReduction Factor 出现因子分析FactorAnalysis 对话框在因子FactorAnalysis 对话框中左边的原始变量中选择将进行因子分析的变量选入变量Variables 栏 37 2020 1 27 可编辑 02 设置描述性统计量在 FactorAnalysis 框中选描述Descriptives 按钮出现描述统计Descriptives 对话框选择原始分析结果Initialsolution 选项选择系数Coefficients 选项点击继续Contiue 按钮确定显示相关系数矩阵检验原始变量有无相关关系显示共同度表反映每个原始变量的信息有多少被新变量提取了 38 2020 1 27 可编辑 39 2020 1 27 可编辑主成分分析前提条件相关性分析分析方法主要有 1 计算相关系数矩阵 correlationcoefficientsmatrix 如果相关系数矩阵中的大部分相关系数值均小于0 3 即各变量间大多为弱相关原则上这些变量不适合进行因子分析 2 计算反映象相关矩阵 Anti imagecorrelationmatrix 如果其主对角线外的元素大多绝对值较小对角线上的元素值较接近1 则说明这些变量的相关性较强适合进行因子分析 40 2020 1 27 可编辑其中主对角线上的元素为某变量的MSA MeasureofSampleAdequacy 是变量和变量间的简单相关系数是变量和变量在控制了其他变量影响下的偏相关系数即净相关系数取值在0和1之间越接近1 意味着变量与其他变量间的相关性越强越接近0则相关性越弱 41 2020 1 27 可编辑 3 巴特利特球度检验 Bartletttestofsphericity 该检验以原有变量的相关系数矩阵为出发点其零假设H0是相关系数矩阵为单位矩阵即相关系数矩阵主对角元素均为1 非主对角元素均为0 即原始变量之间无相关关系依据相关系数矩阵的行列式计算可得其近似服从卡方分布如果统计量卡方值较大且对应的sig值小于给定的显著性水平a时零假设不成立即说明相关系数矩阵不太可能是单位矩阵变量之间存在相关关系适合做因子分析 42 2020 1 27 可编辑 4 KMO Kaiser Meyer Olkin 检验KMO检验的统计量是用于比较变量间简单相关系数矩阵和偏相关系数的指标数学定义为 KMO与MSA区别是它将相关系数矩阵中的所有元素都加入到了平方和计算中 KMO值越接近1 意味着变量间的相关性越强原有变量适合做因子分析越接近0 意味变量间的相关性越弱越不适合作因子分析 Kaiser给出的KMO度量标准 0 9以上非常适合 0 8表示适合 0 7表示一般 0 6表示不太适合 0 5以下表示极不适合 43 2020 1 27 可编辑 03 设置对主成分或因子的提取选项在因子分析FactorAnalysis 框中点击抽取Extraction 按钮出现因子分析抽取FactorAnalysis Extraction 对话框在方法Method 栏中选择主成分Principalcomponents 选项在分析Analyze栏中选择相关性矩阵 Correlationmatrix选项基于相关系数求解主成分在输出Display 栏中选择未旋转的因子解Unrotatedfactorsolution 选项主成分载荷矩阵在抽取Extract 栏中选择基于特征根Eigenvaluesover 并填上1 依据特征根大于1的原则提取主成分点击继续Continue 按钮确定回到因子分析FactorAnalysis 对话框中 44 2020 1 27 可编辑 45 2020 1 27 可编辑 04 设置主成分得分或因子得分在因子分析FactorAnalysis 对话框中点击得分Scores 按钮出现因子分析因子得分FactorAnalysis Scores对话框选择保存为变量 saveasvariable 将新变量得分值保存到数据文件选择 displayfactorscorecoefficientmatrix 显示主成分表达式的系数矩阵点击继续Contiue 按钮确定回到因子分析FactorAnalysis 对话框 46 2020 1 27 可编辑 47 2020 1 27 可编辑 05 设置主成分分析或因子分析的选项在因子分析FactorAnalysis 对话框中单击选项Options 按钮出现因子分析选项FactorAnalysis Options对话框缺失值MissingValues栏中的 Excludecaseslistwise按列表排除个案 CoefficientDisplayFormat 系数显示格式中的按大小排序Sortedbysize 表示依据主成分因子载荷量排序取消小系数Suppressabsolutevalueslessthan 默认为0 1 表示列示所有载荷量大于0 1的载荷系数 48 2020 1 27 可编辑 49 2020 1 27 可编辑分析结果 1 描述性统计均值标准差等的描述 DescriptiveStatistics 50 2020 1 27 可编辑 2 相关系数矩阵描述原始变量之间是否存在相关关系相关系数矩阵众对角线外的元素不全为0 而且很多的相关系数大于0 5 这表明原始变量之间有相关关系适合进行主成分分析 51 2020 1 27 可编辑 3 共同度表 Communalities ExtractionMethod PrincipalComponentAnalysis Communalities 共同度每个原始变量的变异信息有多少可被主成分解释 Initial 每个原始变量的变异信息有多少可被所有的主成分解释基于相关系数进行分析时该值都为1 Extraction 每个原始变量的信息有多少被提取的主成分给提取了提取的主成分包含了每个原始变量的信息多少如果共同度中extraction值越高这意味着提取的主成分能很好的代表原始变量如果extraction值很低我们则需要再提取一个或多个主成分 0 930 0 876 分别代表原始变量vehicletype和price等有93 和87 6 被我们提取的主成分提取了基于协方差进行分析时每个变量的Initial又是如何呢 52 2020 1 27 可编辑 4 碎石图陡坡检查除去坡线平坦部分的主成分因子图中第三个因子以后较为平坦故保留3个因子碎石图有助于我们确定最优的主成分个数横轴代表第几主成分纵轴代表相应主成分的特征值方差通常提取碎石图较为陡峭部分的主成分斜坡处的主成分的方差贡献较小不考虑原始变量的信息遗漏也较少陡坡与斜坡的转折点在第3和第4主成分之间从第4至第10主成分的方差很小且差别不大所以该例提取3个主成分较为合适 53 2020 1 27 可编辑 5 方差贡献率表取特征值大于1的因子共有3个分别 5 994 1 654 1 123 方差贡献率分别为 59 94 16 54 11 23 Totalvarianceexplained ExtractionMethod PrincipalComponentAnalysis Total这栏给出的是特征根即每个主成分的方差或者说所有原始变量的信息有多少落到各个主成分上去 ofVariance这栏代表主成分的方差贡献率即每个主成分方差占原始变量总方差的比率 Cumulative 这栏代表累积方差贡献率即为前n个主成分的方差贡献率之和如累积贡献率76 482 第一主成分的方差贡献59 938 第二主成分的方差贡献16 545 原始变量有10个提取了10个主成分且10个主成分的方差之和 10个原始变量的方差之和依据特征根大于1 我们提取了3个主成分 54 2020 1 27 可编辑 6 主成分因子载荷矩阵表 ComponentMatrix a ExtractionMethod PrincipalComponentAnalysis a3componentsextracted 主成分载荷矩阵表主要反映原始变量和主成分的相关关系有助于我们进行主成分的解释其中第一主成分与Enginesize Horsepower Wheelbase width length curbweight Fuelcapacity Fuelefficiency等高度相关第二主成分与Priceinthousands高度相关第三主成分与Vehicletype高度相关从该表我们也可看到原始变量的信息如何被各个主成分提取的如 Var Vehicletype 0 4712 0 5332 0 651 2 Var Fuelefficiency 0 863 2 0 0042 0 3392 根据该表我们可写出因子分析模型 Vehicletype 0 471f1 0 533f2 0 651f3 Fuelefficiency 0 863f1 0 004f2 0 339f3 从该表也可得到每个主成分方差是如何从各原始变量中提取的 Var f1 0 4712 0 5802 0 8712 0 863 2Var f2 0 5332 0 729 2 0 290 2 0 004 2Var f3 0 651 2 0 092 2 0 0182 0 339 2 55 2020 1 27 可编辑 7 主成分因子得分系数表 ComponentScoreCoefficientMatrix ExtractionMethod PrincipalComponentAnalysis 依据该表我们可写出主成分分析模型 f1 0 079Vehicletype 0 097Price 0 145Enginesize 0 144Fuelefficiency 每个样本的原始变量信息带入以上模型我们则可得到每个样本 f1 f2 f3 的取值依据该取值我们可评价哪些品牌汽车在外观及油耗性能 f1 上占优或处于劣势哪些在f2 汽车价位上占优或处于劣势要提升各品牌汽车应从何着手综合f1 f2 f3 的信息对各种品牌汽车的进行综合评价依据各主成分的方差贡献产生新变量 f 0 5999f1 0 165f2 0 112f3 56 2020 1 27 可编辑 8 主成分因子得分协方差矩阵 ComponentScoreCovarianceMatrix ExtractionMethod PrincipalComponentAnalysis 该矩阵为单位阵意味着主成分之间互不相关 57 2020 1 27 可编辑以上例子是采用基于相关系数求解主成分试用协方差矩阵求解结果如何由协方差矩阵或相关系数矩阵求解主成分结果一致吗应如何选择 58 2020 1 27 可编辑主成分分析求解应注意的问题 1 由协方差矩阵出发求解主成分所得的结果与由相关系数矩阵求解主成分所得结果有很大不同所得的主成分的方差贡献率与主成分表达式均有显著差别 1 一般而言对于度量单位不同的指标或是取值范围彼此差异非常大的指标不直接由其协方差矩阵进行主成分分析而应该考虑将数据标准化若不标准化则基于相关系数矩阵进行主成分分析例对上市公司的财务状况进行分析时常常涉及利润总额市盈率每股净利率等其中利润总额取值常在几十万到上百万或千万市盈率一般取值在五到六七十之间而每股净利率在1以下不同指标取值范围相差很大若直接用协方差矩阵进行主成分分析利润总额的作用将起重要支配作用而其他两个指标的作用很难在主成分中体现出来此时应该考虑对数据进行标准化处理 59 2020 1 27 可编辑 2 对同度量或是取值范围在同量级的数据还是直接从协方差矩阵求解主成分为宜因为对数据标准化的过程实际上也就是抹杀原始变量离散程度差异的过程标准化后的各变量方差相等均为1 而方差是数据信息的重要概括形式数据标准化后抹杀了一部分重要信息使得标准化后各变量在对主成分构成中的作用趋于相等对于采用何种方法求解主成分没有定论在实际研究中从不同角度求解并研究其结果的差别以及产生差别的原因以确定哪种结果更为可信 60 2020 1 27 可编辑 2 主成分是有效剔除了原始变量中的重叠信息还是按原来的模式将原始信息中的绝大部分用几个不相关的新变量表示出来还值得讨论如果计算所得协方差阵或相关系数矩阵的最小特征值接近于0 则意味着中心化以后的原始变量之间存在着多重共线性问题即原始变量存在着不可忽视的重叠信息此时应注意对主成分的解释或者考虑对最初纳入分析的指标进行筛选对原始变量存在多重共线性问题在应用主成分分析时一定要慎重应考虑所选初始变量是否合适是否真实地反映事物的本来面目主成分分析不能有效地剔除重叠信息但它至少可发现原始变量是否存在重叠信息这对减少分析中的失误是有帮助的 61 2020 1 27 可编辑练习 1 某主管局管辖20个工厂现要对每个工厂作经济效益分析经研究

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

SPSS数据的主成分分析3.ppt

文档简介

温馨提示

最新文档

评论

SPSS数据的主成分分析3.ppt

文档简介

温馨提示

最新文档

评论

相关文档