版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、6、信息分类方法,因子分析与聚类分析,2,6.1因子分析,做一件上衣需要几个指标? 好裁缝做上衣,要测量上体长、手臂长、胸围等14个指标。用流水线生产上衣时要测量每个顾客的14个指标是不可能的。 于是统计学家出了个主意:这14个指标是相关的,可以找出几个反映上衣特征的综合指标,加工出的上衣大多数人都能穿,当然特体除外。 结果统计学家成功了。这两个不相关的指标就是上衣的型和号。而他们所采用的方法就是因子分析方法。,3,6.1.1 因子分析的基本原理,因子分析是一种主要用于数据化简和降维的多元统计分析方法。 它将相关性较强的几个变量归在同一个类中,每一类赋予新的名称,成为一个因子,反映事物的一个方
2、面,或者说一个维度。这样,少数的几个因子就能够代表数据的基本结构,反映信息的本质特征。 更可进一步从原始观测量推出因子的值,然后用这些因子代替原来变量进行其他统计分析。,模型 x1=a11F1+a12F2+a1mFm+1 x2=a21F1+a22F2+a2mFm+2 xp=ap1F1+ap2F2+apmFm+p 称为因子模型。,模型中的F1,F2,Fm,被称作公共因子(也称主因子),它们是在各个原观测变量的表达式中都出现的因子,是相互独立的不可观测的理论变量。公共因子的含义,必须结合具体问题的实际意义而定。 1,2,p被称作特殊因子,是向量X的分量Xi(i1,2,n)所特有的因子,各特殊因子之
3、间以及特殊因子与所有公共因子之间都是相互独立的。 模型中矩阵A(aij)的元素aij称作因子载荷,aij的绝对值越大,表明Xi与Fj的相依程度越大。,6.1.2因子分析的过程,(1)问题的定义(problem of formulation) :变量必须是区间和比率变量;样本容量必须是变量的4-5倍。 (2) 计算并检验协方差(相关)矩阵: 巴特利特球体检验(大的检验值意味着检验结果的显著性) KMO测度(大于0.5可以进行,大于0.7以上是满意) (3) 选择因子分析的方法(method of factor analysis) 主成分分析法是一种值得推荐的方法,同时也是应用比较广泛的一类方法。
4、,7,(4) 确定因子数目(number of factors) 除了经验判断外,特征值法是选用较多的判断方法;因子碎石图(scree plot)提供了因子数目和特征值大小的图形表示。可以用于直观的判定因子数目。 (5)因子旋转(rotation of factors) 因子旋转目的是使某些变量在某个因子上负载高,而在其它因子上的负载则显著的低。,8,(6)因子解释(interpretation of factors) (7) 因子得分(factor scores) Wij为第i个因子在第j个变量处的因子得分系数。并不等于因子载荷 (8)模型的适合度(model fitness) 因子分析的最
5、后,该对构建的模型是否适合问题本身有一个认识,这就涉及到模型的适合度的判断。这种判断常常基于残差矩阵而进行。,6.1.3示例:用因子分析法分析评价西部地区的人口素质,由于我国地区经济发展的不平衡,使各地区人口素质水平存在一定差异,尤其在西部地区。为了从宏观上把握我国西部各地区人口素质水平,使用因子分析法进行定量分析。为政府制定经济发展战略提供科学依据。,(1)指标样本数据的选取,(2)样本数据的处理,考虑到各指标数据的差异以及使得分析结果更加有效,首先将样本数据进行标准化处理,处理后的数据消除了量纲之间的差异。 保存在文件“西部地区人口素质.sav”中。,(3)利用SPSS进行因子分析,Ana
6、lyzeData reductionFactor,输出各个分析变量的初始共同度,特征值以及解释方差的百分比,(4)结果分析,KMO测度值大于0.5 巴特利特球体检验值查表也可以通过,因子载荷矩阵,旋转后的因子载荷矩阵,19,6.2 聚类分析,6.2.1 聚类分析的原理 聚类分析是根据事物本身的特性研究个体分类的方法,是多元分析与当代分类学结合的产物,又称群分析、点群分析或簇类分析。 基本的思想是:认为研究的样本或指标(变量)之间存在着程度不同的相似性(亲疏关系)。于是根据样本的多个观测指标,将其置于多维空间,按照它们空间关系的亲疏程度进行分类。关系密切的聚合到一个小的分类单位,疏远的聚合到一个
7、大的分类单位。,20,聚类分析的原理(续),21,6.2.2聚类分析的类型,按照分类对象的不同可分为: Q型聚类分析和R型聚类分析,前者是样品归并,后者是变量归并; 按照实施聚类的方法分为: 系统聚类法、动态聚类法等,系统聚类分析也称为分层聚类法,动态聚类法也称快速聚类法,或K-均值聚类。 在聚类过程中,所需要的计算量非常大 。,22,6.2.3 聚类分析的基本步骤,将数据标准化 计算对象之间的距离,补充:相关系数,皮尔逊相关系数,Spearman 斯皮尔曼等级相关 Kendalls tau-b 肯德尔等级相关,(1)定序变量 (2)不服从正太分布,另外两种常用方法 (1)Cosine (2)
8、欧几里得距离的平方,r(X,Y)= = =,思考:对于0模块过多的那种适合?,25,聚类分析的基本步骤(续),选择类与类之间的距离定义 (1)类的定义。由1个以上对象组成的集合; (2)类与类之间的距离,可由类的“代表点”之间的距离表示。 聚类 (1)把每个点(对象)作为一类(称为第一层的类); (2)找出距离最小(或最大)的 ,从而得出距离最近(或最远)的两类i与j,把它们合并为层次更高的一类。如果同时有几个距离一样最小(或最大),则同时把所涉及的点作为一类; (3)重复(2),直至所有的点(对象)都并入一个大类。 分类,补充:常用的聚类方法,Between-groups linkage组内
9、连接Within-groups linkage组内连接 Nearest neighbor最近邻法Furthest neighbor最远邻法 Centroid clustering重心聚类法Median clustering中位数法Wards method Ward最小方差法。,(1)SPSS中默认,组内连接 (2)在共现分析中,最广泛的是wards,扩展:MDS,MDS,多维尺度分析, 多维尺度分析(Multidimensional Scaling analysis, 简称MDS)处理的是表示变量亲近性的数据(Proximity data)。 MDS的目的是寻找决定多个变量的少数几个变量,并在
10、低维空间内以图形的形式表现出来。多维尺度法可依其输入(input)及输出(output)数据是计量(metric,比率和等距数据)或非计量(non-metric,定序和属性数据)可分为三类:完全计量多维尺度法(输入数据与输出结果都是计量);完全非计量多维尺度法(输入数据与输出结果都是非计量);非计量多维尺度法(输入数据是非计量但输出结果为计量的)。,在SPSS中提供了两种程序可以完成多维尺度分析,分别被命名为“Multidimensional Scaling”和“Multidimensional Scaling(PROXSCAL)”。在“Multidimensional Scaling”中输入
11、数据被假定为非相似性数据,即两个研究对象之间的数值越大说明越不相似。对于相似性数据,通过“Create distances from data”则可以实现将相似性数据转化为非相似性数据的目的。该程序产生的结果有两个非常重要的参数来考察结果的优劣性(即拟合优度)。一是Stress(压力系数),一是RSQ(Stress and squared correlation)。Stress越小约好,而RSQ越大约好。一般Stress0.2,RSQ0.6时,结果可以接受。 在“Multidimensional Scaling(PROXSCAL)”中输入数据的类型可以选择,比较灵活,既可以选择相似性数据,也可以选择非相似性数据。该程序产生的一个非常重要的参数是Normalized Raw Stre和Dispersion Accounted For(D.A.F.),Normalized Raw Stress该参数越小越好,D.A.F.相当于RSQ,越大越好。 1非计量MDS在1964由J.B.Kruskal提出“压力系数(Stress)”的概念与指标后,建立起一个评估所得到图形与输入数据间的配合度(goodness of fit)优劣的标准(用poor
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年湖南中医药高等专科学校附属第一医院医护人员招聘笔试备考试题及答案详解
- 2026年青海省人民医院医护人员招聘笔试备考题库及答案详解
- 2026年上海交通大学医学院附属第九人民医院医护人员招聘笔试备考试题及答案详解
- 2026年来宾市人民医院医护人员招聘笔试参考题库及答案详解
- 2026年厦门大学附属中山医院金榜分部医护人员招聘笔试备考试题及答案详解
- (2026版)学校生活饮用水卫生管理规章制度
- 2026年南通市肿瘤医院医护人员招聘考试备考题库及答案详解
- 2026年上海交通大学医学院附属瑞金医院北院医护人员招聘考试参考试题及答案详解
- 2026年辽阳市中心医院医护人员招聘考试备考题库及答案详解
- 2026年西南医科大学附属中医医院医护人员招聘笔试参考试题及答案详解
- DLT802.7-2023电力电缆导管技术条件第7部分非开挖用塑料电缆导管
- 电积铜出装安全操作规程
- JCT640-2010 顶进施工法用钢筋混凝土排水管
- 《消化系统疾病预防课件》
- 中考英语表格类阅读理解专题
- 城市一卡通系统总体方案
- 气管插管术 气管插管术
- DL-T 2199-2020 循环流化床锅炉燃料掺烧技术导则
- 客房计划维修(保养)表
- GB/T 22588-2008闪光法测量热扩散系数或导热系数
- GB/T 13298-1991金属显微组织检验方法
评论
0/150
提交评论