第章因子分析与聚类分析含SPSSppt课件.ppt

上传人：儿*** IP属地：广东上传时间：2020-03-30 格式：PPT 页数：56 大小：2.29MB 积分：30 举报 版权申诉

已阅读5页，还剩51页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第八章因子分析与聚类分析本章内容第一节因子分析第二节聚类分析第一节因子分析一因子分析的概念和特点一因子分析的概念因子分析 factoranalysis 是利用降维的思想由研究原始变量相关矩阵内部的依赖关系出发把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法在会计实证研究中因子分析发挥着重要的作用如变量构造变量筛选和综合评价等二因子分析的特点1 因子变量的数量远少于原有指标变量的数量 2 因子变量并不是原有变量的简单取舍而是对原有变量的重新组构 3 因子之间线性关系不显著 4 因子变量具有命名解释性二因子分析的数学模型和相关概念一因子分析的数学模型因子分析的数学模型为 8 1 写成矩阵形式为其中为原始变量向量为公因子载荷矩阵为公共因子为特殊因子二因子分析中的基本概念1 因子的含义因子分析法中提到两种因子公共因子和特殊因子公共因子是每个原有变量的线性表达式中都共同出现的因子各公因子都是均值为0 方差为1的独立正态随机变量其协方差矩阵为单位矩阵特殊因子表示原有变量不能被公共因子解释的部分其均值为0 各特殊因子之间以及特殊因子与所有公共因子之间都是互相独立的 2 因子载荷模型中各公共因子的系数称为因子载荷反映了第个变量在第个公共因子上的相对重要性的绝对值越大表明与的相依程度越大 3 变量共同度因子载荷矩阵中第行元素的平方和称为变量的共同度即变量方差此值越接近1 表明该变量的几乎全部原始信息都被所选择的公共因子说明了此值接近于0 说明公共因子对的影响很小主要由特殊因子来描述 4 因子的方差贡献因子的方差贡献是因子载荷矩阵中第列元素的平方和反映了因子对原有变量总方差的解释能力是衡量公共因子相对重要性的指标此值越大表明相应因子的重要性越高计算出所有的指标按其大小排序就可以提炼出最有影响的公共因子三因子分析的步骤一因子分析的适合性检验1 相关矩阵和反映像相关矩阵相关矩阵中大部分相关系数都小于0 3 那么原则上这些数据不适合做因子分析另外如果反映像相关矩阵中除对角元素外其他大多数元素的绝对值均较小对角线上元素的值较接近1 则适合进行因子分析 2 检验检验统计量是用于比较变量间简单相关系数和偏相关系数的指标取值在0和1之间值越接近于1 意味着变量间的相关性越强原有变量越适合做因子分析 3 巴特利特球度检验 Bartletttestofsphericity 巴特利特球度检验以原有变量的相关系数矩阵为出发点其零假设是相关矩阵为单位阵即相关系数矩阵为对角矩阵巴特利特球度检验的检验统计量是根据相关系数矩阵的行列式计算得到且近似服从卡方分布如果该统计量的观察值比较大且相伴概率值小于或等于给定的显著性水平则应拒绝原假设反之如果该统计量的观察值比较小且相伴概率值大于给定的显著性水平则不应拒绝原假设二因子提取和因子载荷矩阵的求解因子分析的关键是根据样本数据求解因子载荷矩阵 SPSS提供了7种提取因子的方法其中占主要地位且使用最为广泛的是主成分分析法因子提取通常有以下三种方法 1 特征值准则即取特征值大于等于1的主成分作为初始因子放弃特征值小于1的主成分 2 累积方差贡献率因子累积解释的方差比例也是确定因子个数时可以参考的指标一般应达到70 85 或以上 3 碎石检验准则按照因子被提取的顺序画出因子的特征值随因子个数变化的散点图图形由陡变平曲线开始变平的前一个点被认为是提取的最大因子数三因子命名在因子分析模型中公共因子与因子载荷阵的解不是唯一的因子分析的目的不仅是找出主因子更重要的是知道每个主因子的意义以利于对公共因子命名和解释结果便于进一步的分析若每个公共因子的涵义不清难以找到合理的解释可对因子载荷矩阵实行旋转使每个变量仅在一个公共因子上有较大的载荷而在其他公共因子上的载荷较小 SPSS中有5种因子旋转的方式可供选择 Varimax选项方差最大旋转 DirectOblimin选项直接斜交旋转 Quartimax选项四次最大正交旋转 Equamax选项平均正交旋转 Promax选项斜交旋转方法四计算因子得分然后将它们用于各种进一步的分析中当因子确定以后便可以计算各因子在每个样本上的具体数值这些数值称为因子得分形成的变量称为因子变量于是在以后的分析中就可以因子变量代替原有变量进行数据建模或者利用因子变量对样本进行分类或评价等研究进而实现降维和简化问题的目标由于因子得分函数中方程的个数小于变量的个数因此不能精确的计算出因子得分只能对因子得分进行估计估计的方法很多 SPSS中列示了三种方法常用的是Regression回归法用因子得分还可以计算因子总分根据因子总分可对样本变量进行排序或归类作为评价的依据四因子分析在SPSS中的实现1 建立或打开数据文件后进入Analyze DataReduction FactorAnalysis主对话框如图8 1所示图8 1因子分析主对话框 2 把参与分析的变量选到Variables框中 3 SelectionVariable选择变量栏用于限制有特殊值的样本子集的分析当一个变量进入该栏时激活右侧的 Value 按钮待 Value 按钮激活后单击该键打开SetValue对话框如图8 2所示可在该对话框键入标识参与分析的观测量所具有的该变量值图8 2SetValue对话框 4 单击 Descriptivs 按钮展开Descriptives对话框如图8 3所示可以选择单变量的描述统计量和初始分析结果图8 3Descriptives对话框 1 Statistics统计量框 Univariatedescriptive复选项单变量描述统计量 Initialsolution复选项初始分析结果 2 CorrelationMatrix相关矩阵框 Coefficients复选项显示相关系数 Significancelevels复选项显示相关系数的显著性水平 Determinant复选项显示相关系数矩阵的行列式 Inverse复选项显示相关系数矩阵的逆矩阵 Reproduced选项显示再生相关阵 Anti image复选项选择此项给出反映象相关矩阵 andBartlett stestofSphericity复选项要求进行检验和球形Bartlett检验 5 单击 Extraction 按钮进入Extraction对话框如图8 4所示可以选择不同的提取公因子的方法和控制提取结果的判据图8 4Extraction对话框 1 Method框因子提取方法选择项 Principalcomponents选项主成份法 UnweightedleastSquare选项不加权最小平方法 Generalizedleastsquares选项用变量值的倒数加权 MaximumLikelihoud选项最大似然法 PrincipalAxisfactoring选项使用多元相关的平方作为对公因子方差的初始估计 Alphafactoring选项因子提取法 Imagefactoring选项映象因子提取法 2 Analyze框指定分析矩阵的选择项 CorrelationMatrix选项指定以分析变量的相关矩阵为提取因子的依据 Covariancematrix选项指定以分析变量的协方差矩阵为提取因子的依据 3 Display框指定与因子提取有关的输出项 Unrotatedfactorsolution复选项要求显示未经旋转的因子提取结果 Screeplot复选项要求显示按特征值大小排列的因子序号以特征值为两个坐标轴的碎石图 4 Extract框控制提取进程和提取结果的选择项 Eigenvaluesover选项指定提取的因子应该具有的特征值范围在此项后面的矩形框中给出 Numberoffactors选项指定提取公因子的数目 5 MaximumiterationsforConvergence参数框指定因子分析收敛的最大迭代次数 6 单击 Rotation 按钮展开Rotation对话框如图8 5所示可以选择因子旋转方法图8 5Rotation对话框 1 Method框选择旋转方法其中 None表示不进行旋转 Varimax为方差最大旋转法 DirectOblilmin为直接斜交旋转法 Quartmax为四次最大正交旋转法 Equamax为平均正交旋转法 Promax为斜交旋转法 2 Display框选择有关输出的选项其中 Rotatedsolution选项显示旋转结果 Loadingplot s 选项显示因子载荷散点图 3 MaximumiterationsforConvergence参数框指定旋转收敛的最大迭代次数 7 单击 Scores 按钮进入FactorScores对话框如图8 6所示可以要求计算因子得分选择显示或作为新变量保存图8 6FactorScores对话框 1 Saveasvariables复选项将因子得分作为新变量保存在数据文件中 2 Method栏指定计算因子得分的方法其中 Regression选项为回归法 Bartlett选项为巴特利特法 Anderson Rubin选项是为了保证因子的正交性而对Bartlett因子得分的调整 3 Displayfactorscorecoefficientmatrix复选项选择此项将在输出窗中显示因子得分系数矩阵是标准化的得分系数原始变量值进行标准化后可以根据该矩阵给出的系数计算各观测量的因子得分还显示协方差矩阵 8 单击 Options 按钮进入Options对话框可以进一步选择各种输出项如图8 7所示图8 7Options对话框 1 MissingValues栏选择处理缺失值方法 Excludecaseslistwise选项在分析过程中对那些指定的分析变量中有缺失值的观测量一律剔除 Excludecasespairwise选项成对剔除带有缺失值的观测量 Replacewithmean选项用该变量的均值代替该变量的所有缺失值 2 CoefficientDisplayFormat栏决定载荷系数的显示格式 Sortedbysize复选项选中此项载荷系数按其数值的大小排列并构成矩阵 Suppressabsolutevalueslessthan复选项选中此项不显示那些绝对值小于指定值的载荷系数第二节聚类分析一聚类分析概述一聚类分析的概念聚类分析是一种建立分类的多元统计分析方法它能够将一批样本或变量数据根据其诸多特征按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类将所有的样本或变量分别聚合到不同的类中使同一类中的个体有较大的相似性不同类中的个体差异较大所谓没有先验知识是指没有事先指定分类标准所谓亲疏程度是指在各变量特征取值上的总体差异程度二层次聚类和K Means聚类1 层次聚类层次聚类又称分层聚类系统聚类是指聚类过程是按照一定层次进行的层次聚类按照不同特征分为以下两种 1 按照对象类型分为型聚类和型聚类型聚类是对样本进行分类主要作用为可综合利用多个变量的信息对样本进行分类分类结果直观聚类谱系图非常清楚地表现分类结果所得结果比传统分类方法更细致全面合理型聚类是对变量进行分类处理主要作用为可了解个别变量之间及变量组合之间的亲疏程度根据变量的分类结果以及它们之间的关系可以选择主要变量进行回归分析或型聚类分析 2 根据聚类过程不同分为凝聚法和分解法分解法聚类开始把所有个体观测量或变量都视为属于一大类然后根据距离和相似性逐层分解直到参与聚类的每个个体自成一类为止凝聚法聚类开始把参与聚类的每个个体观测量或变量视为一类根据两类之间的距离或相似性逐步合并直到合并为一个大类为止无论哪种方法其聚类原则都是近似的聚为一类即距离最近或最相似的聚为一类实际上以上两种方法是方向相反的两种聚类过程 2 K Means聚类K Means聚类也称快速聚类它仍将数据看成维空间上的点仍以距离作为测度个体亲疏程度的指标并通过牺牲多个解为代价换得高的执行效率 K Means聚类的核心步骤为第一步指定聚类数目第二步确定个初始类中心第三步根据距离最近原则进行分类第四步重新确定个类中心第五步判断是否已满足终止聚类分析的条件从上述分析过程可以看出 K MeansCluster快速聚类是一个反复迭代的分类过程在聚类过程中样本所属的类会不断调整直到最终达到稳定为止快速聚类适用于大样本的聚类分析它能快速的把各观测量分到各类中去三聚类分析的几点说明1 所选择的变量应符合聚类的要求可根据实际工作经验和所研究问题的特征人为的选择变量这些变量应该和分析的目标密切相关反映分类对象的特征 2 各变量的变量值不应有数量级上的差异为了避免对变量单位选择的依赖数据应当标准化 3 各变量间不应有较强的线性相关关系如果所选变量之间存在较高的线性关系有两种处理方法 1 首先进行变量聚类从每类中选一代表性变量再进行样本聚类 2 进行主成分分析或因子分析降维使之成为不相关的新变量再进行样本聚类二聚类分析中亲疏程度的度量一个体间亲疏程度的度量聚类分析中对亲疏程度的测度一般有两个角度第一个体之间的相似程度第二个体之间的差异程度在SPSS中对不同度量类型的数据采用了不同的测定亲疏程度的统计量 1 定距型变量个体间距离的计算方式通常有欧式距离 Euclideandistance 平方欧式距离 SquaredEuclideandistance 夹角余弦 Cosine 距离相关系数距离 Pearsoncorrelation 切比雪夫距离 Chebychev Chebychev Block距离 City Block 或Manhattan距离明考斯基距离 Minkowski 用户自定义距离 Customized 等8种方法这些方法分别适用于型聚类和型聚类 2 计数变量个体间距离的计算方式如果所涉及的个变量都是计数 Count 的非连续变量对计数变量的不相似性测度方法是根据被计算的两个观测量或两个变量总频数计算其不相似性期望值来自观测量或变量的独立模型个体间距离的定量通常有卡方距离 Chi Squaremeasure Phi方距离 Phi Squaremeasure 两种方式 3 二值变量个体间距离的计算方式如果所涉及的个变量都是二值 Binary 变量那么个体间距离的定义通常有简单匹配系数 Simplematching和雅科比系数 Jaccard 两种方式二个体与小类小类与小类间亲疏程度的度量在SPSS中提供了多种度量个体与小类小类与小类间亲疏程度的方法如最短距离法 Nearestneighbor 最长距离法 Furthestneighbor 中间距离法 Medianclustering 组间平均链锁法 Between groupslinkage 组内平均链锁法 Within groupslinkage 重心法 Centroidclustering 离差平方和法 Ward smethod 在一般情况下用不同的方法聚类的结果是不会完全一致的在实际应用中一般采用以下两种处理方法根据分类问题本身的专业知识结合实际需要来选择分类方法并确定分类个数多用几种分类方法去作把结果中的共性提出来对有争议的样本用判别分析去归类三层次聚类在SPSS中的实现1 建立或打开数据文件后进入Analyze Classify HierachicalClusterAnalysis主对话框如图8 9所示图8 9层次聚类对话框 2 把参与分析的变量选到Variable s 框中 3 把一个字符型变量作为标记变量选到LabelCases框中它将大大增加聚类分析结果的可读性 4 在Cluster框中选择聚类类型其中Cases项表示进行型聚类 Variables项表示进行型聚类 5 在Display框中选择输出内容其中Statistics表示输出聚类分析的相关统计量 Plots表示输出聚类分析的相关图形 6 单击Statistics按钮选择要求输出的统计量如图8 10所示图8 10Statistics对话框 1 Agglomerationschedule复选项表示输出聚类分析的凝聚状态表 2 ProximityMatrix复选项表示输出个体间的距离矩阵产生什么类型的矩阵取决于在Method对话框中Measure栏中的选择 3 ClusterMembership 类成员栏选项显示每个观测量被分派到的类或显示若干步凝聚过程其中 None选项不显示类成员表是系统默认值 Singlesolution选项要求列出聚为一定类数的各观测量所属的类 Rangeofsolutions选项要求列出某个范围中每一步各观测量所属的类 7 单击Plots按钮选择输出统计图表如图8 11所示图8 11Plots对话框 1 Dendrogram复选项表示输出聚类分析的树形图 2 Icicle复选项表示输出聚类分析的冰柱图其中 Allclusters选项聚类的每一步都表现在图中 Specifiedrangeofclusters选项指定显示的聚类范围 None 不生成冰柱图 3 Orientation栏指定如何显示冰柱图其中Vertical表示纵向显示 Horizontal表示横向水平的冰柱图 8 单击 Method 按钮展开Method分层聚类分析的方法选择对话框如图8 12所示图8 12Method对话框 1 ClusterMethod表中列出可以选择的聚类方法有Between groupslinkage 类间平均链锁 Within groupslinkage 类内平均链锁法 Nearestneighbor 最近邻居法 Furthestneighbor 最远邻居法 Centroidclustering 重心法 Medianclustering 中间距离法 Ward smethod 离差平方和法 2 Measure框中给出的是不同变量类型下的个体距离的计算方法其中Interval框中的方法适用于连续性定距变量 Counts框中的方法适用于计数型变量 Binary框中的方法适用于二值变量 3 单击TransformValues框中的Standardize右侧向下的箭头按钮展开标准化方法列表只有选择了Interval或Counts后才可以进行标准化 Byvariable适用于型聚类分析 Bycase适用于型聚类分析对数据进行标准化的可选择的方法有 None选项不进行标准化 scores选项把数值标准化到分数 Range 1to1选项把数值标准化到 1到 1的范围内 Range0tol选项把数值标准化到0到 1的范围内 Maximummagnitudeof1选项把数值标准化到最大值1 Meanof1选项把数值标准化到一个均值的范围内 Standarddeviationof1选项把数值标准化到单位标准差 4 TransformMeasure框为测度的转换方法选择栏其中 AbsoluteValues复选项把距离值取绝对值当数值符号表示相关方向且只对负相关关系感兴趣时使用此方法进行变换 Changesign复选项把相似性值变为不相似性值或相反用求反的方法使距离顺序颠倒 Rescaleto0 1range复选项通过首先减去最小值然后除以范围的方法使距离标准化 9 聚类分析的结果可以用新变量保存在工作数据文件中单击主对话框的 Save 按钮展开相应的对话框如图8 13所示图8 13SaveNewVariables对话框 1 None选项不建立新变量 2 Singlesolution选项即单一结果 3 Rangeofsolutions选项即指定范围内的结果 10 执行Cluster过程点击主对话框中的 OK 按钮即可四快速样本聚类在SPSS中的实现1 建立或读入数据文件后进入Analyze Classify K MeansClusterAnalysis对话框如图8 15所示图8 15K MeansClusterAnalysis对话框 2 指定参与K Means聚类的变量放入Variables框中 3 把一个字符型变量作为标记变量选到LabelCases框中它将大大增加聚类分析结果的可读性 4 在NumberofClusters框中输入聚类数目该数应小于样本数 5 在Method框中指定聚类过程是否调整类中心点其中 Iterateandclassify表示在聚类分析的每一步都重新确定类中心点 Classifyonly表示聚类分析过程中类中心点始终为初始类中心点此

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第章因子分析与聚类分析含SPSSppt课件.ppt

文档简介

温馨提示

最新文档

评论

第章 因子分析与聚类分析含SPSSppt课件.ppt

文档简介

温馨提示

最新文档

评论

相关文档

第章因子分析与聚类分析含SPSSppt课件.ppt