




已阅读5页,还剩27页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十四章主成分分析和因子分析一、主成分分析1、概述主成分分析只是一种中间手段,其背景是研究中经常会遇到多指标的问题,这些指标间往往存在一定的相关,直接纳入分析不仅复杂,变量间难以取舍,而且可能因多元共线性而无法得出正确结论。主成分分析的目的就是通过线性变换,将原来的多个指标组合成相互独立的少数几个能充分反映总体信息的指标,便于进一步分析。,在主成分分析中,提取出的每个主成分都是原来多个指标的线性组合如有两个原始变量x1和x2,则一共可提取出两个主成分如下:z1=b11x1+b21x2z2=b12x1+b22x2,原则上如果有n个变量,则最多可以提取出n个主成分,但如果将它们全部提取出来就失去了该方法简化数据的实际意义。多数情况下提取出前23个主成分已包含了80%以上的信息,其他的可以忽略不计。提取出的主成分能包含主要信息即可,不一定非要有准确的实际含义。,主成分在几何图形中的方向实际上就是相关矩阵R的特征向量的方向,主成分的方差贡献率等于R的相应特征值,因此,求主成分的过程实际上就是求相关矩阵R的特征值和特征向量的过程。,2、主成分模型中各统计量的意义:特征根:可看成主成分影响力度的指标。一般用特征根大于1作为纳入标准;主成分的方差贡献率:表明主成分的方差在全部方差中的比重;累积贡献率:表明前K个主成分累计提取了原来所有变量的多少信息。,3、主成分分析的步骤:对原来的P个指标进行标准化,以消除变量在数量级或量纲上的影响;根据标准化后的数据矩阵求出协方差或相关阵;求出协方差矩阵的特征根或特征向量;确定主成分,结合专业知识给个主成分所蕴涵的信息给予适当的解释。,4、主成分的应用:降低所研究的数据空间的维数,低维空间代替高维空间时所损失的信息很少;因子负荷的结构有助于弄清x变量间的某些关系;多维数据的一种图形表示方法。由图形可直观地看出各样品在主成分中的地位,进而还可以对样品进行分类处理;,由主成分分析法构造回归模型,即把各主成分作为新的自变量代替原来的自变量x做回归分析;用主成分分析筛选回归变量。,二、因子分析1、概述因子分析是一种多变量化简技术。目的是分解原始变量,从中归纳出潜在的“类别”,相关性较强的指标归为一类,不同类间变量的相关性较低。每一类变量代表了一个“共同因子”,即一种内在结构,因子分析就是要寻找该结构。,比如在市场调查中收集了食品的五项指标:味道、价格、风味、是否快餐食品、能量。经过因子分析后发现结果如下:x1=0.02z1+0.99z2+1x2=0.94z1-0.01z2+2x3=0.13z1+0.98z2+3x4=0.84z1+0.42z2+4x5=0.97z1-0.02z2+5,第一公因子主要影响价格、是否快餐食品和能量,代表“价廉”第二公因子则主要影响味道和风味,代表“味美”代表特殊因子,只对当前变量有影响,表示该变量中独特的,不能被公因子所解释的特征,2、有关概念因子负荷(因子载荷):即表达式中各因子的系数值,用于反映因子和各个变量间的密切程度,其实质是两者间的相关系数。特征根(Eigenvalue):反映了原始变量的总方差在各成分上的重新分配,可以被看成是因子主成分影响力度的指标,代表引入该因子主成分后可以解释平均多少原始变量的信息。,变量共同度(公共方差):原有变量Xi的共同度定义为因子载荷矩阵A中第i行元素的平方和,反映了全部公共因子变量对原有变量Xi总方差解释说明的比例。共同度越接近1,公共因子解释原有变量Xi的效果越好。公共因子Fj的方差贡献:定义为因子载荷矩阵A中第j列各元素的平方和,反映了因子Fj对所有原始变量的解释能力,其值越高,该因子的重要程度越高。,3、方法用途研究设计阶段/问卷效果评估阶段评价问卷的结构效度统计分析阶段寻找变量间潜在结构内在结构证实,4、适用条件样本量样本量与变量数的比例应在5:1以上总样本量不得少于100,而且原则上越大越好,各变量间必须有相关性KMO(Kaiser-Meyer-Olkin)检验KMO统计量:用来比较简单相关系数和偏相关系数的一个指标,当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时,KMO接近1。KMO度量标准:0.9最佳,0.8适合,0.7尚可,0.6很差,0.5以下放弃,Bartletts球形检验(Bartletttestofsphericity)Bartletts球形检验以变量的相关系数矩阵为出发点。它的零假设是:相关系数矩阵是一个单位阵。检验统计量根据相关系数矩阵的行列式计算得到。该统计量值较大时,对应的伴随概率小于设定的显著性水平,则应拒绝零假设,认为相关系数矩阵不是单位阵,适合做因子分析;反之相反。,5、标准分析步骤:判断是否需要进行因子分析,数据是否符合要求进行分析,按一定标准确定提取的因子数目如果进行的是因子分析,则考察因子的可解释性,并在必要时进行因子旋转,以寻求最佳解释方式如有必要,可计算出因子得分等中间指标供进一步分析使用,6、公因子数量的确定主成分的累积贡献率:8085以上特征根:大于1综合判断因子分析时更重要的是因子的可解释性,三、因子分析实例菜单:Analyze-DataReduction-Factor,因子分析实例P478不旋转,使用默认值进行最简单的主成分分析(默认为主成分分析法:Principalcomponents)例子P478:对美国洛杉矶12个人口调查区的5个经济学变量的数据进行因子分析,数据data14-01,洛衫矶对12个人口调查区的数据,编号总人口中等学校平均总雇员数专业服务中等房价nopop校龄Schoolemploy项目数Serviceshouse1570012.82500270250002100010.96001010000334008.810001090004380013.61700140250005400012.8160014025000682008.3260060120007120011.440010160008910011.5330060140009990012.534001801800010960013.73600390250001196009.63300801200012940011.4400010013000,因子分析实例P478不旋转,菜单:AnalyzeDataReductionFactorVariables:pop,School,employ,Services,house其他使用默认值(主成分分析法Principalcomponents,选取特征值1,不旋转),因子分析实例P479不旋转,比较有用的结果:两个主成分(因子)f1,f2及因子载荷矩阵(ComponentMatrix),根据该表可以写出每个原始变量(标准化值)的因子表达式:Pop0.581f1+0.806f2School0.767f1-0.545f2employ0.672f1+0.726f2Services0.932f1-0.104f2house0.791f1-0.558f2,因子分析实例P479不旋转,每个原始变量都可以是5个因子的线性组合,提取两个因子f1和f2,可以概括原始变量所包含信息的93.4%。f1和f2前的系数表示该因子对变量的影响程度,也称为变量在因子上的载荷。但每个因子(主成分)的系数(载荷)没有很明显的差别,所以不好命名。因此为了对因子进行命名,可以进行旋转,使系数向0和1两极分化,这就要使用选择项。,因子分析实例P484旋转Rotation,由于系数没有很明显的差别,所以要进行旋转(Rotation:method一般用Varimax方差最大旋转),使系数向0和1两极分化,例子同上菜单:AnalyzeDataReductionFactorVariables:pop,School,employ,Services,houseExtraction:使用默认值(method:Principalcomponents,选取特征值1)Rotation:method选VarimaxScore:Saveasvariables和DisplayfactorscoreCoefficientmatrix,因子分析实例484旋转Rotation,比较有用的结果:两个主成分(因子)f1,f2及旋转后的因子载荷矩阵(RotatedComponentMatrix),根据该表可以写出每个原始变量(标准化值)的因子表达式:Pop0.01602f1+0.9946f2School0.941f1-0.00882f2employ0.137f1+0.98f2Services0.825f1+0.447f2house0.968f1-0.00605f2,因子分析实例P484旋转Rotation,第一主因子对中等学校平均校龄,专业服务项目,中等房价有绝对值较大的载荷(代表一般社会福利-福利条件因子);而第二主因子对总人口和总雇员数有较大的载荷(代表人口-人口因子).P493比较有用的结果:因子得分fac1_1,fac2_1。其计算公式:因子得分系数和原始变量的标准化值的乘积之和(P493)。然后可以利用因子得分进行聚类p493(Analyze-Classify-HierarchicalCluster)。,主成分分析实例P484不旋转市场研究中的顾客偏好分析,在市场研究中,常常要求分析顾客的偏好和当前市场的产品与顾客偏好之间的差别,从而找出新产品开发的方向。顾客偏好分析时常用到主成分分析方法(因子没有旋转)。,市场研究中的顾客偏好分析,例子P492:数据来自SAS公司,1980年一个汽车制造商在竞争对手中选择了17种车型,访问了25个顾客,要求他们根据自己的偏好对17种车型打分。打分范围09.9,9.9表示最高程度的偏好。data12-02a(1725:17个case,25个变量V1-V25),主成分分析实例P494不旋转,菜单:AnalyzeDataReductionFactorVariables:V1-V25Extraction:method:PrincipalcomponentsExtract:Numberoffactors:3要三个主成分Score:Saveasvariables,主成分分析实例P494不旋转,比较有
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版教育培训机构门店承包管理协议
- 二零二五年度离婚协议书模板定制与婚姻关系解除合同
- 二零二五年度防盗门及配件批发与安装服务合同
- 2025版大米加工厂与原料供应商风险共担合同范本
- 2025版个体户园艺设计师聘用服务协议
- 2025版厂区改造提升项目绿化景观设计施工一体化合同
- 二零二五年度婚前购房合伙人合作协议书
- 2025版互联网公司股东虚拟货币交易合作协议
- 二零二五年度医疗设备租赁中英文购销合同范本
- 2025年房地产公司信用贷款合同范本
- NT8012消防控制室图形显示装置培训-尼特
- 党务工作岗考试题及答案
- 中国地理矿产资源课件
- 2025年上海市(秋季)高考语文真题详解
- 2025-2030中国AI艺术生成器行业运营态势与投资前景预测报告
- 2024年湖南城建职业技术学院辅导员考试真题
- 大CK品牌管理制度
- 网络安全态势感知与应对策略-洞察阐释
- 国外警用枪支管理制度
- 平台广告投放管理制度
- 2023-2025北京高三(上)期末语文汇编:论语
评论
0/150
提交评论