信息分析方法.ppt_第1页
信息分析方法.ppt_第2页
信息分析方法.ppt_第3页
信息分析方法.ppt_第4页
信息分析方法.ppt_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、好裁缝做上衣,要测量上体长、手臂长、胸围等14个指标。 这14个指标是相关的,可以找出几个反映上衣特征的综合指标,加工出的上衣大多数人都能穿,当然特体除外。 这两个不相关的指标就是上衣的型和号。而他们所采用的方法就是因子分析方法。,2020/9/24,1,4.3 因子分析,4.3.1 因子分析的数理统计背景 主要用于数据化简和降维 将相关性较强的几个变量归在同一个类中,每一类赋予新的名称,成为一个因子,反映事物的一个方面,或者说一个维度。 更可进一步推出因子的值,然后用这些因子代替原来变量进行其他统计分析。 设有n个样本,每个样本观测p个变量。 为了对变量进行比较,并消除由于观测量纲的差异及数

2、量级所造成的影响,将样本观测数据进行标准化处理。 使标准化后的变量的均值为0,方差为1。,2020/9/24,2,X=(x1,x2,xp)T,是可观测的随机向量,且向量均值E(X)0,协方差阵cov(X),且协方差阵与相关矩阵R相等; F(F1,F2,Fm)T,mp,是不可测的向量,其向量均值E(F)0,协方差矩阵cov(F)I,即向量F的各分量是相互独立的; =(1,2,p)T与F相互独立,且E()0,协方差阵是对角阵,说明各分量之间也是相互独立的。 则下列模型被称为因子模型: x1=a11F1+a12F2+a1mFm+1 x2=a21F1+a22F2+a2mFm+2 xp=ap1F1+ap

3、2F2+apmFm+p,2020/9/24,3,F1 , F2 , Fm,被称作公共因子(也称主因子),在各个原观测变量的表达式中都出现,是相互独立的不可观测的理论变量。 1 , 2 , p ,被称作特殊因子,是向量X的分量Xi(i1,2,n)所特有的因子。 aij称作因子载荷,aij的绝对值越大,表明Xi与Fj的相依程度越大。,2020/9/24,4,4.3.2 因子分析的过程 问题的定义 计算并检验协方差(相关)矩阵 巴特利特球体检验 KMO测度 选择因子分析方法(method of factor analysis) 主成分分析法是一种值得推荐的方法,同时也是应用比较广泛的一类方法。 确定

4、因子数目(number of factors) 除了经验判断外,特征值法是选用较多的判断方法;因子碎石图(scree plot)提供了因子数目和特征值大小的图形表示。,2020/9/24,5,因子旋转(rotation of factors) 因子旋转目的是使某些变量在某个因子上负载高,而在其它因子上的负载则显著的低。 因子解释(interpretation of factors) 通过在因子上具有较高负载变量的意义进行 因子得分(factor scores) 模型的适合度(model fitness) 模型是否适合,其判断常基于残差矩阵。,2020/9/24,6,例子:用因子分析法分析评价西

5、部地区的人口素质,唐万梅. 运筹与管理,2005,4:85-89 由于我国地区经济发展的不平衡,使各地区人口素质水平存在一定差异,尤其在西部地区。为了从宏观上把握西部地区的人口素质水平,使用因子分析法进行定量分析。 考虑到各指标数据的差异以及使得分析结果更加有效,首先将样本数据进行标准化处理,处理后的数据消除了量纲之间的差异。保存在文件“西部地区人口素质.sav”中。,2020/9/24,7,AnalyzeData reductionFactor,2020/9/24,8,2020/9/24,9,输出各个分析变量的初始共同度,特征值以及解释方差的百分比,2020/9/24,10,2020/9/2

6、4,11,2020/9/24,12,KMO测度值大于0.5 巴特利特球体检验值查表也可以通过,2020/9/24,13,因子载荷矩阵,旋转后的因子载荷矩阵,2020/9/24,14,2020/9/24,15,2020/9/24,16,2020/9/24,17,分类是各个学科领域都普遍存在的问题 例如,人口学中研究人口生育分类模式、人口死亡分类模式;营销学中进行市场细分、竞争对手确定等等,都需要对研究对象进行分类。随着多元统计技术的发展,对事物的分类在定量研究方面取得了极大的进步。 聚类分析(cluster analysis)根据事物本身的特性研究个体分类 是多元分析与当代分类学结合的产物,又称

7、为群分析、点群分析或簇类分析。,2020/9/24,18,4.4 聚类分析,4.4.1 聚类分析的原理 比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。 聚类分析不必事先知道分类对象的结构,从一批样品的多个观测指标中,找出能度量样品之间或指标(变量)之间相似程度或亲疏关系的统计量,构成一个对称相似性矩阵,并按相似程度的大小,把样品或变量逐一归类。,2020/9/24,19,4.4.2 聚类分析的步骤 数据标准化 为了消除不同变量的单位对聚类结果的影响,应当首先对所有的数据标准化。可以通过SPSS软件中Analyze菜单下的Classify选择Hierachical C

8、luster Analysis,打开Hierachical Cluster Analysis对话框,并点击Method按钮,然后在其中的transform values部分来完成数据标准化的转换。 计算对象之间的“距离” 将个案看成多维空间的一个点,引用多维空间中点的距离概念,定义不相似测度。距离越小,表示两者之间的关系越紧密,相似特征越多,就越有可能分在同一类;相反,距离越大,表示两者之间差异性越大。通过计算对象之间的两两“距离” ,得到“相似关系”矩阵 。在具体的计算中,“距离”有多种表达。,2020/9/24,20,选择类与类之间的距离定义 可由类的“代表点”间的距离表示。用两类之间的距

9、离最近(或最远)的点代表;用两类中所有点之间距离(平方的)的平均值,又称为组间连接法(between-groups linkage);按照某一规则,选择类中的某一点,代表该类。 聚类 把每个点(对象)作为一类(称为第一层的类);找出距离最小(或最大)的 ,从而得出距离最近(或最远)的两类i与j,把它们合并为层次更高的一类。如果同时有几个距离一样最小(或最大),则同时把所涉及的点作为一类;重复,直至所有的点(对象)都并入一个大类。 分类 依据实际需求,确定以第几层的类为最终的分类标准。,2020/9/24,21,4.4.3 聚类分析的主要方法 系统聚类法 也称为分层聚类法(Hierarchica

10、l Cluster),它是聚类分析中应用最广泛的一种方法 动态聚类法 也称快速聚类法,或K-均值聚类法(K-means Cluster) 二阶段聚类 是一个揭示数据集自然分组的探索性分析工具,2020/9/24,22,系统聚类法 基本思想 开始将样品和指标各视为一类,根据类与类之间的距离或相似程度将最相似的类加以合并,再计算新类与其他类之间的相似程度,并选择最相似的类加以合并。 每合并一次就减少一类,不断继续这一过程,直到所有样品或指标合并为一类为止。 数据文件 cluster1.sav “Analyze”“Classify”“Hierarchical Cluster”,2020/9/24,2

11、3,第一列表示聚类分析的第几步; 第二、三列表示本步骤类中哪两个个案或者小类聚成一类; 第四列是个案距离或小类距离; 第五、第六列表示本步骤类中参与聚类的是个案还是小类,0表示个案,非0表示由第几步聚类生成的小类参与本步骤类; 第七列标识本步骤类的结果将在以下第几步中用到。,习题 数据文件cluster3.sav是关于SPSS公司对所出售的产品的调查数据。 SPSS公司的统计软件中包括很多不同的模块,调查表中要求客户标出自己经常使用的模块,1代表经常使用,0代表不经常使用。 现要求对这九个变量进行分类,为公司下一步的决策提供依据。,2020/9/24,28,动态聚类 基本原理 在一开始就按照一

12、定的方法选取一批聚类中心(Cluster Center),让样品向最近的聚心凝聚,形成初始分类,然后按最近距离原则不断修改不合理分类,直至合理。 当要聚成的类数已知时,使用快速聚类可以很快地将观测量分到各类中去,其特点是处理速度快、占用内存少。 数据文件 cluster2.sav 是我国16个地区农民在1982年支出情况的抽样调查数据的汇总资料,每个地区都调查了反映每人平均生活消费支出情况的6个指标。 “Analyze”“Classify”“K-Means Cluster”,2020/9/24,29,Iterate and classify默认选项。表示聚类过程中选择或指定初始类中心点,按照K

13、-means的迭代算法不断调整类中心点。 Classify only聚类过程中只使用初始的类中心点而不做调整,迭代次数也进行一次。,Convergence Criterion:K-Means算法的收敛准则,输入范围在01之间,且不等于1。 默认值为0。若输入数值为0.01,表示两次迭代计算的最小类中心的变化距离小于初始类中心距离的1%时迭代停止。,Use running means:选择该项,表示在每个个案被分配到一类后立即计算新的类中心;反之,则在完成了所有个案的一次分配后,再计算各类的类中心。注意,对于大数据样本,选择该项会大大增加计算量和计算时间。,ANOVA table,该方差分析是以

14、聚类分析产生的类为控制变量的单因素方差分析,并输出各变量的方差分析表。,Exclude cases listwise将带有缺失值的个案从分析中剔除。 Exclude cases pairwise只有当个案的所有聚类变量值全部缺失时,才将其从分析中剔除,否则根据所有其他非缺失变量值,将其分配至最接近的一类中。,二阶段聚类 基本原理 可处理分类变量和连续型变量。综合处理多项-正态分布的数据。自动确定最优聚类数,有效地分析大样本。 step1 构建聚类特征树;step2 使用聚集聚类法对聚类特征树的结点进行分组,产生不同聚类数的指标,比较Schwarz-Bayesian或Akaike信息准则确定最优

15、类数。 数据文件 cluster4.sav,保存的是157个各种不同车型的数据。包括汽车生产厂家、汽车型号、各种型号汽车的销售额、价格和燃油效率等相关数据。要求对这157个不同型号的汽车,用二阶段聚类分析方法进行分类。 “Analyze”“Classify”“TwoStep Cluster”,2020/9/24,33,选定变量列表中参与运算的变量,按数据类型分别移动到“Categorical Variables”窗口和“Continuous Variables”窗口; 在“Distance Measure”(距离测度)部分确定聚类相似性计算方式;在“Number of Clusters”(聚类

16、数)部分指定聚类分析中聚类数的确定方式。既可以选定“Determine automatically”(系统自动确定聚类数),也可以使用“Specify fixed”(固定聚类数),指定一个正整数作为聚类数; 此外,如果是希望系统确定聚类数目,还需要在“Clustering Criterion”(聚类准则)部分选定确定聚类数目的算法, 使用“Schwarzs Bayesian Criterion(BIC)”即贝叶斯信息准则或“Akaikes Information Criterion(AIC)”即Akaike信息准则。,2020/9/24,34,2020/9/24,35,对聚类结果的输出进行设置

17、 Create cluster membership variable(创建聚类成员变量)表示将在工作数据文件中创建名为tsc_n的新变量,以保存每一个观测量所属的分类。同时,也可以在这个子对话框中指定将聚类模型及聚类特征树输出到不同的XML格式文件中。,2020/9/24,36,二阶聚类分析的结果主要通过“聚类浏览器”来查看 聚类浏览器包含左右两个面板,主视图位于左侧,链接或辅助视图位于右侧。主视图包括模型摘要和聚类视图,链接/辅助视图包括预测变量的重要性、聚类大小、单元格分布和聚类比较四种。 聚类视图。在左侧主面板下方单击“View”右侧的下拉列表,从中选择“Clusters”,即可看到聚

18、类视图,其中包含了每个聚类的名称、大小和概要。,2020/9/24,38,聚类预测变量重要性视图。单击“聚类浏览器”右侧面板下方“View”右侧的下拉列表框,从中选择“Predictor Importance”,即可切换到“聚类预测变量重要性视图”,该视图显示评估模型时每个变量的相对重要性。,2020/9/24,39,聚类大小视图。单击“聚类浏览器”右侧面板下方“View”右侧的下拉列表框,从中选择“Cluster Sizes”,即可切换到“聚类大小视图”。该视图显示每个聚类的饼图。并在每个分区上显示每个聚类占总数的百分比。,2020/9/24,40,单元格分布视图。单击“聚类浏览器”右侧面板下方“View”右侧的下拉列表框,从中选择“Cell Distribution”,切换到“单元格分布视图”,如没有显示出对应的视图,可在聚类视图中单击表格中的某一个单元格,则可看到相应的单元格分布视图。,2020/9/24,41,聚类比较视图。单击“聚类浏览器”右侧面板下方“View”右侧的下拉

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论