




已阅读5页,还剩51页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第八章因子分析与聚类分析 本章内容 第一节因子分析第二节聚类分析 第一节因子分析 一 因子分析的概念和特点 一 因子分析的概念因子分析 factoranalysis 是利用降维的思想 由研究原始变量相关矩阵内部的依赖关系出发 把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法 在会计实证研究中 因子分析发挥着重要的作用 如变量构造 变量筛选和综合评价等 二 因子分析的特点1 因子变量的数量远少于原有指标变量的数量 2 因子变量并不是原有变量的简单取舍 而是对原有变量的重新组构 3 因子之间线性关系不显著 4 因子变量具有命名解释性 二 因子分析的数学模型和相关概念 一 因子分析的数学模型因子分析的数学模型为 8 1 写成矩阵形式为 其中为原始变量向量 为公因子载荷矩阵 为公共因子 为特殊因子 二 因子分析中的基本概念1 因子的含义因子分析法中提到两种因子 公共因子和特殊因子 公共因子是每个原有变量的线性表达式中都共同出现的因子 各公因子都是均值为0 方差为1的独立正态随机变量 其协方差矩阵为单位矩阵 特殊因子表示原有变量不能被公共因子解释的部分 其均值为0 各特殊因子之间以及特殊因子与所有公共因子之间都是互相独立的 2 因子载荷模型中各公共因子的系数称为因子载荷 反映了第个变量在第个公共因子上的相对重要性 的绝对值越大 表明与的相依程度越大 3 变量共同度因子载荷矩阵中第行元素的平方和 称为变量的共同度 即变量方差 此值越接近1 表明该变量的几乎全部原始信息都被所选择的公共因子说明了 此值接近于0 说明公共因子对的影响很小 主要由特殊因子来描述 4 因子的方差贡献因子的方差贡献是因子载荷矩阵中第列元素的平方和 反映了因子对原有变量总方差的解释能力 是衡量公共因子相对重要性的指标 此值越大 表明相应因子的重要性越高 计算出所有的指标 按其大小排序 就可以提炼出最有影响的公共因子 三 因子分析的步骤 一 因子分析的适合性检验1 相关矩阵和反映像相关矩阵相关矩阵中大部分相关系数都小于0 3 那么原则上这些数据不适合做因子分析 另外 如果反映像相关矩阵中除对角元素外 其他大多数元素的绝对值均较小 对角线上元素的值较接近1 则适合进行因子分析 2 检验检验统计量是用于比较变量间简单相关系数和偏相关系数的指标 取值在0和1之间 值越接近于1 意味着变量间的相关性越强 原有变量越适合做因子分析 3 巴特利特球度检验 Bartletttestofsphericity 巴特利特球度检验以原有变量的相关系数矩阵为出发点 其零假设是 相关矩阵为单位阵 即相关系数矩阵为对角矩阵 巴特利特球度检验的检验统计量是根据相关系数矩阵的行列式计算得到 且近似服从卡方分布 如果该统计量的观察值比较大且相伴概率值小于或等于给定的显著性水平 则应拒绝原假设 反之 如果该统计量的观察值比较小且相伴概率值大于给定的显著性水平 则不应拒绝原假设 二 因子提取和因子载荷矩阵的求解因子分析的关键是根据样本数据求解因子载荷矩阵 SPSS提供了7种提取因子的方法 其中占主要地位且使用最为广泛的是主成分分析法 因子提取通常有以下三种方法 1 特征值准则 即取特征值大于等于1的主成分作为初始因子 放弃特征值小于1的主成分 2 累积方差贡献率 因子累积解释的方差比例也是确定因子个数时可以参考的指标 一般应达到70 85 或以上 3 碎石检验准则 按照因子被提取的顺序 画出因子的特征值随因子个数变化的散点图 图形由陡变平 曲线开始变平的前一个点被认为是提取的最大因子数 三 因子命名在因子分析模型中 公共因子与因子载荷阵的解不是唯一的 因子分析的目的不仅是找出主因子 更重要的是知道每个主因子的意义 以利于对公共因子命名和解释结果 便于进一步的分析 若每个公共因子的涵义不清 难以找到合理的解释 可对因子载荷矩阵实行旋转 使每个变量仅在一个公共因子上有较大的载荷 而在其他公共因子上的载荷较小 SPSS中有5种因子旋转的方式可供选择 Varimax选项 方差最大旋转 DirectOblimin选项 直接斜交旋转 Quartimax选项 四次最大正交旋转 Equamax选项 平均正交旋转 Promax选项 斜交旋转方法 四 计算因子得分 然后将它们用于各种进一步的分析中当因子确定以后 便可以计算各因子在每个样本上的具体数值 这些数值称为因子得分 形成的变量称为因子变量 于是在以后的分析中就可以因子变量代替原有变量进行数据建模 或者利用因子变量对样本进行分类或评价等研究 进而实现降维和简化问题的目标 由于因子得分函数中方程的个数小于变量的个数 因此不能精确的计算出因子得分 只能对因子得分进行估计 估计的方法很多 SPSS中列示了三种方法 常用的是Regression回归法 用因子得分还可以计算因子总分 根据因子总分可对样本 变量 进行排序或归类 作为评价的依据 四 因子分析在SPSS中的实现1 建立或打开数据文件后 进入Analyze DataReduction FactorAnalysis主对话框 如图8 1所示 图8 1因子分析主对话框 2 把参与分析的变量选到Variables框中 3 SelectionVariable选择变量栏 用于限制有特殊值的样本子集的分析 当一个变量进入该栏时 激活右侧的 Value 按钮 待 Value 按钮激活后 单击该键 打开SetValue对话框 如图8 2所示 可在该对话框键入标识参与分析的观测量所具有的该变量值 图8 2SetValue对话框 4 单击 Descriptivs 按钮 展开Descriptives对话框 如图8 3所示 可以选择单变量的描述统计量和初始分析结果 图8 3Descriptives对话框 1 Statistics统计量框 Univariatedescriptive复选项 单变量描述统计量 Initialsolution复选项 初始分析结果 2 CorrelationMatrix相关矩阵框 Coefficients复选项 显示相关系数 Significancelevels复选项 显示相关系数的显著性水平 Determinant复选项 显示相关系数矩阵的行列式 Inverse复选项 显示相关系数矩阵的逆矩阵 Reproduced选项 显示再生相关阵 Anti image复选项 选择此项给出反映象相关矩阵 andBartlett stestofSphericity复选项 要求进行检验和球形Bartlett检验 5 单击 Extraction 按钮 进入Extraction对话框 如图8 4所示 可以选择不同的提取公因子的方法和控制提取结果的判据 图8 4Extraction对话框 1 Method框 因子提取方法选择项 Principalcomponents选项 主成份法 UnweightedleastSquare选项 不加权最小平方法 Generalizedleastsquares选项 用变量值的倒数加权 MaximumLikelihoud选项 最大似然法 PrincipalAxisfactoring选项 使用多元相关的平方作为对公因子方差的初始估计 Alphafactoring选项 因子提取法 Imagefactoring选项 映象因子提取法 2 Analyze框 指定分析矩阵的选择项 CorrelationMatrix选项 指定以分析变量的相关矩阵为提取因子的依据 Covariancematrix选项 指定以分析变量的协方差矩阵为提取因子的依据 3 Display框 指定与因子提取有关的输出项 Unrotatedfactorsolution复选项 要求显示未经旋转的因子提取结果 Screeplot复选项 要求显示按特征值大小排列的因子序号 以特征值为两个坐标轴的碎石图 4 Extract框 控制提取进程和提取结果的选择项 Eigenvaluesover选项 指定提取的因子应该具有的特征值范围 在此项后面的矩形框中给出 Numberoffactors选项 指定提取公因子的数目 5 MaximumiterationsforConvergence参数框 指定因子分析收敛的最大迭代次数 6 单击 Rotation 按钮 展开Rotation对话框 如图8 5所示 可以选择因子旋转方法 图8 5Rotation对话框 1 Method框 选择旋转方法 其中 None表示不进行旋转 Varimax为方差最大旋转法 DirectOblilmin为直接斜交旋转法 Quartmax为四次最大正交旋转法 Equamax为平均正交旋转法 Promax为斜交旋转法 2 Display框 选择有关输出的选项 其中 Rotatedsolution选项 显示旋转结果 Loadingplot s 选项 显示因子载荷散点图 3 MaximumiterationsforConvergence参数框 指定旋转收敛的最大迭代次数 7 单击 Scores 按钮 进入FactorScores对话框 如图8 6所示 可以要求计算因子得分 选择显示或作为新变量保存 图8 6FactorScores对话框 1 Saveasvariables复选项 将因子得分作为新变量保存在数据文件中 2 Method栏 指定计算因子得分的方法 其中 Regression选项为回归法 Bartlett选项为巴特利特法 Anderson Rubin选项是为了保证因子的正交性而对Bartlett因子得分的调整 3 Displayfactorscorecoefficientmatrix复选项 选择此项将在输出窗中显示因子得分系数矩阵 是标准化的得分系数 原始变量值进行标准化后 可以根据该矩阵给出的系数计算各观测量的因子得分 还显示协方差矩阵 8 单击 Options 按钮 进入Options对话框 可以进一步选择各种输出项 如图8 7所示 图8 7Options对话框 1 MissingValues栏 选择处理缺失值方法 Excludecaseslistwise选项 在分析过程中对那些指定的分析变量中有缺失值的观测量一律剔除 Excludecasespairwise选项 成对剔除带有缺失值的观测量 Replacewithmean选项 用该变量的均值代替该变量的所有缺失值 2 CoefficientDisplayFormat栏 决定载荷系数的显示格式 Sortedbysize复选项 选中此项载荷系数按其数值的大小排列并构成矩阵 Suppressabsolutevalueslessthan复选项 选中此项 不显示那些绝对值小于指定值的载荷系数 第二节聚类分析 一 聚类分析概述 一 聚类分析的概念聚类分析是一种建立分类的多元统计分析方法 它能够将一批样本 或变量 数据根据其诸多特征 按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类 将所有的样本或变量分别聚合到不同的类中 使同一类中的个体有较大的相似性 不同类中的个体差异较大 所谓 没有先验知识 是指没有事先指定分类标准 所谓 亲疏程度 是指在各变量 特征 取值上的总体差异程度 二 层次聚类和K Means聚类1 层次聚类层次聚类又称分层聚类 系统聚类 是指聚类过程是按照一定层次进行的 层次聚类按照不同特征分为以下两种 1 按照对象类型分为型聚类和型聚类型聚类是对样本进行分类 主要作用为 可综合利用多个变量的信息对样本进行分类 分类结果直观 聚类谱系图非常清楚地表现分类结果 所得结果比传统分类方法更细致 全面 合理 型聚类是对变量进行分类处理 主要作用为 可了解个别变量之间及变量组合之间的亲疏程度 根据变量的分类结果以及它们之间的关系 可以选择主要变量进行回归分析或型聚类分析 2 根据聚类过程不同分为凝聚法和分解法 分解法 聚类开始把所有个体 观测量或变量 都视为属于一大类 然后根据距离和相似性逐层分解 直到参与聚类的每个个体自成一类为止 凝聚法 聚类开始把参与聚类的每个个体 观测量或变量 视为一类 根据两类之间的距离或相似性逐步合并 直到合并为一个大类为止 无论哪种方法 其聚类原则都是近似的聚为一类 即距离最近或最相似的聚为一类 实际上以上两种方法是方向相反的两种聚类过程 2 K Means聚类K Means聚类也称快速聚类 它仍将数据看成维空间上的点 仍以距离作为测度个体 亲疏程度 的指标 并通过牺牲多个解为代价换得高的执行效率 K Means聚类的核心步骤为 第一步 指定聚类数目 第二步 确定个初始类中心 第三步 根据距离最近原则进行分类 第四步 重新确定个类中心 第五步 判断是否已满足终止聚类分析的条件 从上述分析过程可以看出 K MeansCluster快速聚类是一个反复迭代的分类过程 在聚类过程中 样本所属的类会不断调整 直到最终达到稳定为止 快速聚类适用于大样本的聚类分析 它能快速的把各观测量分到各类中去 三 聚类分析的几点说明1 所选择的变量应符合聚类的要求可根据实际工作经验和所研究问题的特征人为的选择变量 这些变量应该和分析的目标密切相关 反映分类对象的特征 2 各变量的变量值不应有数量级上的差异为了避免对变量单位选择的依赖 数据应当标准化 3 各变量间不应有较强的线性相关关系如果所选变量之间存在较高的线性关系 有两种处理方法 1 首先进行变量聚类 从每类中选一代表性变量 再进行样本聚类 2 进行主成分分析或因子分析 降维 使之成为不相关的新变量 再进行样本聚类 二 聚类分析中 亲疏程度 的度量 一 个体间 亲疏程度 的度量聚类分析中 对 亲疏程度 的测度一般有两个角度 第一 个体之间的相似程度 第二 个体之间的差异程度 在SPSS中 对不同度量类型的数据采用了不同的测定亲疏程度的统计量 1 定距型变量个体间距离的计算方式通常有欧式距离 Euclideandistance 平方欧式距离 SquaredEuclideandistance 夹角余弦 Cosine 距离 相关系数距离 Pearsoncorrelation 切比雪夫距离 Chebychev Chebychev Block距离 City Block 或Manhattan距离 明考斯基距离 Minkowski 用户自定义距离 Customized 等8种方法 这些方法分别适用于型聚类和型聚类 2 计数变量个体间距离的计算方式如果所涉及的个变量都是计数 Count 的非连续变量 对计数变量的不相似性测度方法 是根据被计算的两个观测量或两个变量总频数计算其不相似性 期望值来自观测量或变量的独立模型 个体间距离的定量通常有卡方距离 Chi Squaremeasure Phi方距离 Phi Squaremeasure 两种方式 3 二值变量个体间距离的计算方式如果所涉及的个变量都是二值 Binary 变量 那么个体间距离的定义通常有简单匹配系数 Simplematching和雅科比系数 Jaccard 两种方式 二 个体与小类 小类与小类间亲疏程度的度量在SPSS中提供了多种度量个体与小类 小类与小类间亲疏程度的方法 如最短距离法 Nearestneighbor 最长距离法 Furthestneighbor 中间距离法 Medianclustering 组间平均链锁法 Between groupslinkage 组内平均链锁法 Within groupslinkage 重心法 Centroidclustering 离差平方和法 Ward smethod 在一般情况下 用不同的方法聚类的结果是不会完全一致的 在实际应用中 一般采用以下两种处理方法 根据分类问题本身的专业知识结合实际需要来选择分类方法 并确定分类个数 多用几种分类方法去作 把结果中的共性提出来 对有争议的样本用判别分析去归类 三 层次聚类在SPSS中的实现1 建立或打开数据文件后 进入Analyze Classify HierachicalClusterAnalysis主对话框 如图8 9所示 图8 9层次聚类对话框 2 把参与分析的变量选到Variable s 框中 3 把一个字符型变量作为标记变量选到LabelCases框中 它将大大增加聚类分析结果的可读性 4 在Cluster框中选择聚类类型 其中Cases项表示进行型聚类 Variables项表示进行型聚类 5 在Display框中选择输出内容 其中Statistics表示输出聚类分析的相关统计量 Plots表示输出聚类分析的相关图形 6 单击Statistics按钮 选择要求输出的统计量 如图8 10所示 图8 10Statistics对话框 1 Agglomerationschedule复选项 表示输出聚类分析的凝聚状态表 2 ProximityMatrix复选项 表示输出个体间的距离矩阵 产生什么类型的矩阵取决于在Method对话框中Measure栏中的选择 3 ClusterMembership 类成员栏 选项 显示每个观测量被分派到的类或显示若干步凝聚过程 其中 None选项 不显示类成员表 是系统默认值 Singlesolution选项 要求列出聚为一定类数的各观测量所属的类 Rangeofsolutions选项 要求列出某个范围中每一步各观测量所属的类 7 单击Plots按钮 选择输出统计图表 如图8 11所示 图8 11Plots对话框 1 Dendrogram复选项 表示输出聚类分析的树形图 2 Icicle复选项 表示输出聚类分析的冰柱图 其中 Allclusters选项 聚类的每一步都表现在图中 Specifiedrangeofclusters选项 指定显示的聚类范围 None 不生成冰柱图 3 Orientation栏指定如何显示冰柱图 其中Vertical表示纵向显示 Horizontal表示横向水平的冰柱图 8 单击 Method 按钮 展开Method分层聚类分析的方法选择对话框 如图8 12所示 图8 12Method对话框 1 ClusterMethod表中列出可以选择的聚类方法有Between groupslinkage 类间平均链锁 Within groupslinkage 类内平均链锁法 Nearestneighbor 最近邻居法 Furthestneighbor 最远邻居法 Centroidclustering 重心法 Medianclustering 中间距离法 Ward smethod 离差平方和法 2 Measure框中给出的是不同变量类型下的个体距离的计算方法 其中Interval框中的方法适用于连续性定距变量 Counts框中的方法适用于计数型变量 Binary框中的方法适用于二值变量 3 单击TransformValues框中的Standardize右侧向下的箭头按钮 展开标准化方法列表 只有选择了Interval或Counts后才可以进行标准化 Byvariable适用于型聚类分析 Bycase适用于型聚类分析 对数据进行标准化的可选择的方法有 None选项 不进行标准化 scores选项 把数值标准化到分数 Range 1to1选项 把数值标准化到 1到 1的范围内 Range0tol选项 把数值标准化到0到 1的范围内 Maximummagnitudeof1选项 把数值标准化到最大值1 Meanof1选项 把数值标准化到一个均值的范围内 Standarddeviationof1选项 把数值标准化到单位标准差 4 TransformMeasure框为测度的转换方法选择栏 其中 AbsoluteValues复选项 把距离值取绝对值 当数值符号表示相关方向 且只对负相关关系感兴趣时 使用此方法进行变换 Changesign复选项 把相似性值变为不相似性值或相反 用求反的方法使距离顺序颠倒 Rescaleto0 1range复选项 通过首先减去最小值然后除以范围的方法使距离标准化 9 聚类分析的结果可以用新变量保存在工作数据文件中 单击主对话框的 Save 按钮 展开相应的对话框 如图8 13所示 图8 13SaveNewVariables对话框 1 None选项 不建立新变量 2 Singlesolution选项 即单一结果 3 Rangeofsolutions选项 即指定范围内的结果 10 执行Cluster过程 点击主对话框中的 OK 按钮即可 四 快速样本聚类在SPSS中的实现1 建立或读入数据文件后 进入Analyze Classify K MeansClusterAnalysis对话框 如图8 15所示 图8 15K MeansClusterAnalysis对话框 2 指定参与K Means聚类的变量放入Variables框中 3 把一个字符型变量作为标记变量选到LabelCases框中 它将大大增加聚类分析结果的可读性 4 在NumberofClusters框中输入聚类数目 该数应小于样本数 5 在Method框中指定聚类过程是否调整类中心点 其中 Iterateandclassify表示在聚类分析的每一步都重新确定类中心点 Classifyonly表示聚类分析过程中类中心点始终为初始类中心点 此
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 煤矿项目审查方案(3篇)
- 园艺小屋改造方案(3篇)
- DB23-T3017-2021-旅游气候季节划分-黑龙江省
- DB23-T2917-2021-红皮云杉人工林修枝技术规程-黑龙江省
- 共青团全委会管理制度
- 医院辐射相关管理制度
- 公寓公用设备管理制度
- 医院重要部门管理制度
- 地铁维护维修管理制度
- 楼顶围安装方案(3篇)
- 国际音标卡片(打印版)
- JJF1059.1测量不确定度评定培训讲演稿
- 《父亲》音乐课件
- 方案伪装防护要求
- 跨境支付中的金融稳定问题
- 2024年中石油煤层气有限责任公司招聘笔试参考题库含答案解析
- 腾讯云安全运维
- 大数据技术综合实训-实验报告
- 家委会向学校申请征订资料申请书
- 人教版八年级《竹竿舞》评课稿
- C-TPAT反恐程序文件(完整版)
评论
0/150
提交评论