主成分分析和因子分析.ppt_第1页
主成分分析和因子分析.ppt_第2页
主成分分析和因子分析.ppt_第3页
主成分分析和因子分析.ppt_第4页
主成分分析和因子分析.ppt_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十四章 主成分分析和因子分析 一、主成分分析 1、概 述 主成分分析只是一种中间手段,其背景是研究中经常会遇到多指标的问题,这些指标间往往存在一定的相关,直接纳入分析不仅复 杂,变量间难以取舍,而且可能因多元共线性而无法得出正确结论。主成分分析的目的 就是通过线性变换,将原来的多个指标组合成相互独立的少数几个能充分反映总体信息 的指标,便于进一步分析。,在主成分分析中,提取出的每个主成分都是原来多个指标的线性组合 如有两个原始变量x1和x2,则一共可提取出 两个主成分如下: z1=b11x1+b21x2 z2=b12x1+b22x2,原则上如果有n个变量,则最多可以提取出n 个主成分,但如果将它们全部提取出来就失去了该方法简化数据的实际意义。多数情况下提取出前23个主成分已包含了80%以上的信息,其他的可以忽略不计。 提取出的主成分能包含主要信息即可,不一 定非要有准确的实际含义。,主成分在几何图形中的方向实际上就是相关矩阵R的特征向量的方向,主成分的方差贡献率等于R的相应特征值,因此,求主成分的过程实际上就是求相关矩阵R的特征值和特征向量的过程。,2、主成分模型中各统计量的意义: 特征根:可看成主成分影响力度的指标。一般用特征根大于1作为纳入标准; 主成分的方差贡献率:表明主成分的方差在全部方差中的比重; 累积贡献率:表明前K个主成分累计提取了原来所有变量的多少信息。,3、主成分分析的步骤: 对原来的P个指标进行标准化,以消除变量在数量级或量纲上的影响; 根据标准化后的数据矩阵求出协方差或相关阵; 求出协方差矩阵的特征根或特征向量; 确定主成分,结合专业知识给个主成分所蕴涵的信息给予适当的解释。,4、主成分的应用: 降低所研究的数据空间的维数,低维空间代替高维空间时所损失的信息很少; 因子负荷的结构有助于弄清x变量间的某些关系; 多维数据的一种图形表示方法。由图形可直观地看出各样品在主成分中的地位,进而还可以对样品进行分类处理;,由主成分分析法构造回归模型,即把各主成分作为新的自变量代替原来的自变量x做回归分析; 用主成分分析筛选回归变量。,二、因子分析 1、概 述 因子分析是一种多变量化简技术。目的是分解原始变量,从中归纳出潜在的“类别”,相关性较强 的指标归为一类,不同类间变量的相关性较低。每一类变量代表了一个“共同因子”,即 一种内在结构,因子分析就是要寻找该结构。,比如在市场调查中收集了食品的五项指标: 味道、价格、风味、是否快餐食品、能量。 经过因子分析后发现结果如下: x1=0.02z1+0.99z2+1 x2=0.94z1-0.01z2+2 x3=0.13z1+0.98z2+3 x4=0.84z1+0.42z2+4 x5=0.97z1-0.02z2+5,第一公因子主要影响价格、是否快餐食品和能量,代表“价廉” 第二公因子则主要影响味道和风味,代表 “味美” 代表特殊因子,只对当前变量有影响,表示该变量中独特的,不能被公因子所解释的特征,2、有关概念 因子负荷(因子载荷) :即表达式中各因子的系数值,用于反映因子和各个变量间的密切程度,其实质是两者间的相关系数。 特征根(Eigenvalue):反映了原始变量的总方差在各成分上的重新分配,可以被看成是因子主成分影响力度的指标,代表引入该因子主成分后可以解释平均多少原始变量的信息。,变量共同度(公共方差):原有变量Xi的共同度定义为因子载荷矩阵A中第i行元素的平方和,反映了全部公共因子变量对原有变量Xi总方差解释说明的比例。共同度越接近1,公共因子解释原有变量Xi的效果越好。 公共因子Fj的方差贡献:定义为因子载荷矩阵A中第j列各元素的平方和,反映了因子Fj对所有原始变量的解释能力,其值越高,该因子的重要程度越高。,3、方法用途 研究设计阶段/问卷效果评估阶段 评价问卷的结构效度 统计分析阶段 寻找变量间潜在结构 内在结构证实,4、适用条件 样本量 样本量与变量数的比例应在5:1以上 总样本量不得少于100,而且原则上越大越好,各变量间必须有相关性 KMO(Kaiser-Meyer-Olkin)检验 KMO统计量:用来比较简单相关系数和偏相关系数的一个指标,当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时, KMO 接近1。 KMO 度量标准:0.9最佳,0.8适合,0.7尚可,0.6很差,0.5以下放弃,Bartletts球形检验(Bartlett test of sphericity) Bartletts球形检验以变量的相关系数矩阵为出发点。它的零假设是:相关系数矩阵是一个单位阵。检验统计量根据相关系数矩阵的行列式计算得到。该统计量值较大时,对应的伴随概率小于设定的显著性水平,则应拒绝零假设,认为相关系数矩阵不是单位阵,适合做因子分析;反之相反。,5、标准分析步骤: 判断是否需要进行因子分析,数据是否符合要求 进行分析,按一定标准确定提取的因子数目 如果进行的是因子分析,则考察因子的可解释性, 并在必要时进行因子旋转,以寻求最佳解释方式 如有必要,可计算出因子得分等中间指标供进一步分析使用,6、公因子数量的确定 主成分的累积贡献率:8085以上 特征根:大于1 综合判断 因子分析时更重要的是因子的可解释性,三、因子分析实例 菜单: Analyze-Data Reduction-Factor,因子分析实例P478不旋转,使用默认值进行最简单的主成分分析(默认为主成分分析法:Principal components) 例子P478:对美国洛杉矶12个人口调查区的5个经济学变量的数据进行因子分析,数据data14-01,洛衫矶对12个人口调查区的数据,编号 总人口 中等学校平均 总雇员数 专业服务 中等房价 no pop 校龄School employ 项目数Services house 1 5700 12.8 2500 270 25000 2 1000 10.9 600 10 10000 3 3400 8.8 1000 10 9000 4 3800 13.6 1700 140 25000 5 4000 12.8 1600 140 25000 6 8200 8.3 2600 60 12000 7 1200 11.4 400 10 16000 8 9100 11.5 3300 60 14000 9 9900 12.5 3400 180 18000 10 9600 13.7 3600 390 25000 11 9600 9.6 3300 80 12000 12 9400 11.4 4000 100 13000,因子分析实例P478不旋转,菜单:AnalyzeData ReductionFactor Variables :pop,School,employ,Services, house 其他使用默认值(主成分分析法Principal components,选取特征值1,不旋转),因子分析实例P479不旋转,比较有用的结果:两个主成分(因子)f1,f2及因子载荷矩阵(Component Matrix),根据该表可以写出每个原始变量(标准化值)的因子表达式: Pop0.581f1 + 0.806f2 School 0.767f1 - 0.545f2 employ 0.672f1 + 0.726f2 Services 0.932f1 - 0.104f2 house 0.791f1 - 0.558f2,因子分析实例P479不旋转,每个原始变量都可以是5个因子的线性组合,提取两个因子f1和f2,可以概括原始变量所包含信息的93.4%。 f1和f2前的系数表示该因子对变量的影响程度,也称为变量在因子上的载荷。 但每个因子(主成分)的系数(载荷)没有很明显的差别,所以不好命名。因此为了对因子进行命名,可以进行旋转,使系数向0和1两极分化,这就要使用选择项。,因子分析实例P484旋转Rotation,由于系数没有很明显的差别,所以要进行旋转(Rotation:method一般用Varimax方差最大旋转),使系数向0和1两极分化, 例子同上 菜单:AnalyzeData ReductionFactor Variables :pop,School,employ,Services, house Extraction:使用默认值( method:Principal components,选取特征值1) Rotation:method选Varimax Score:Save as variables 和Display factor score Coefficient matrix,因子分析实例484旋转Rotation,比较有用的结果:两个主成分(因子)f1,f2及旋转后的因子载荷矩阵(Rotated Component Matrix) ,根据该表可以写出每个原始变量(标准化值)的因子表达式: Pop 0.01602 f1 + 0.9946f2 School 0 .941f1 - 0.00882f2 employ 0.137f1 + 0.98f2 Services 0.825f1 +0.447f2 house 0.968f1 - 0.00605f2,因子分析实例P484旋转Rotation,第一主因子对中等学校平均校龄,专业服务项目,中等房价有绝对值较大的载荷(代表一般社会福利-福利条件因子); 而第二主因子对总人口和总雇员数有较大的载荷(代表人口-人口因子). P493 比较有用的结果:因子得分fac1_1, fac2_1。其计算公式:因子得分系数和原始变量的标准化值的乘积之和(P493)。然后可以利用因子得分进行聚类p493(Analyze-Classify-Hierarchical Cluster)。,主成分分析实例P484不旋转 市场研究中的顾客偏好分析,在市场研究中,常常要求分析顾客的偏好和当前市场的产品与顾客偏好之间的差别,从而找出新产品开发的方向。顾客偏好分析时常用到主成分分析方法(因子没有旋转)。,市场研究中的顾客偏好分析,例子P492:数据来自SAS公司,1980年一个汽车制造商在竞争对手中选择了17种车型,访问了25个顾客,要求他们根据自己的偏好对17种车型打分。打分范围09.9, 9.9表示最高程度的偏好。data12-02a(1725:17个case,25个变量V1-V25),主成分分析实例P494 不旋转,菜单:AnalyzeData ReductionFactor Variables :V1-V25 Extraction:method:Principal components Extract:Number of factors:3 要三个主成分 Score:Save as variables,主成分分析实例P494 不旋转,比较

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论