第5部分多元统计分析的SPSS实现_第1页
第5部分多元统计分析的SPSS实现_第2页
第5部分多元统计分析的SPSS实现_第3页
第5部分多元统计分析的SPSS实现_第4页
第5部分多元统计分析的SPSS实现_第5页
已阅读5页,还剩142页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

这一节我们利用SPSS对Fisher判别法和Bayes判别法进行计算机实现。为研究某地区人口死亡状况,已按某种方法将15个已知地区样品分为3类,指标含义及原始数据如下。试建立判别函数,并判定另外4个待判地区属于哪类?

X1

:0岁组死亡概率X

4:55岁组死亡概率

X

2

:1岁组死亡概率X5

:80岁组死亡概率

X

3

:10岁组死亡概率X6

:平均预期寿命判别分析SPSS实现当前第1页\共有147页\编于星期三\7点表4.1各地区死亡概率表当前第2页\共有147页\编于星期三\7点 (一)操作步骤

1.在SPSS窗口中选择Analyze→Classify→Discriminate,调出判别分析主界面,将左边的变量列表中的“group”变量选入分组变量中,将—变量选入自变量中,并选择Enterindependentstogether单选按钮,即使用所有自变量进行判别分析。图4.2判别分析主界面当前第3页\共有147页\编于星期三\7点 2.点击DefineRange按钮,定义分组变量的取值范围。本例中分类变量的范围为1到3,所以在最小值和最大值中分别输入1和3。单击Continue按钮,返回主界面。

3.单击Statistics…按钮,指定输出的描述统计量和判别函数系数。选中FunctionCoefficients栏中的Fisher’s和Unstandardized。这两个选项的含义如下:Fisher’s:给出Bayes判别函数的系数。(注意:这个选项不是要给出Fisher判别函数的系数。这个复选框的名字之所以为Fisher’s,是因为按判别函数值最大的一组进行归类这种思想是由Fisher提出来的。这里极易混淆,请读者注意辨别。)Unstandardized:给出未标准化的Fisher判别函数(即典型判别函数)的系数(SPSS默认给出标准化的Fisher判别函数系数)。当前第4页\共有147页\编于星期三\7点单击Continue按钮,返回主界面。图4.3Statistics子对话框当前第5页\共有147页\编于星期三\7点 4.单击Classify…按钮,定义判别分组参数和选择输出结果。选择Display栏中的Casewiseresults,输出一个判别结果表,包括每个样品的判别分数、后验概率、实际组和预测组编号等。其余的均保留系统默认选项。单击Continue按钮。图4.4Classify…子对话框当前第6页\共有147页\编于星期三\7点 5.单击Save按钮,指定在数据文件中生成代表判别分组结果和判别得分的新变量,生成的新变量的含义分别为:Predictedgroupmembership:存放判别样品所属组别的值;

Discriminantscores:存放Fisher判别得分的值,有几个典型判别函数就有几个判别得分变量;Probabilitiesofgroupmembership:存放样品属于各组的Bayes后验概率值。将对话框中的三个复选框均选中,单击Continue按钮返回。当前第7页\共有147页\编于星期三\7点 6.返回判别分析主界面,单击OK按钮,运行判别分析过程。图4.5Save子对话框当前第8页\共有147页\编于星期三\7点

(二)主要运行结果解释

1.StandardizedCanonicalDiscriminantFunctionCoefficients(给出标准化的典型判别函数系数)标准化的典型判别函数是由标准化的自变量通过Fisher判别法得到的,所以要得到标准化的典型判别得分,代入该函数的自变量必须是经过标准化的。

2.CanonicalDiscriminantFunctionCoefficients(给出未标准化的典型判别函数系数)未标准化的典型判别函数系数由于可以将实测的样品观测值直接代入求出判别得分,所以该系数使用起来比标准化的系数要方便一些。见表4.2(a)。当前第9页\共有147页\编于星期三\7点由此表可知,两个Fisher判别函数分别为:实际上两个函数式计算的是各观测值在各个维度上的坐标,这样就可以通过这两个函数式计算出各样品观测值的具体空间位置。当前第10页\共有147页\编于星期三\7点表4.2(a)未标准化的典型判别函数系数当前第11页\共有147页\编于星期三\7点 3.FunctionsatGroupCentroids(给出组重心处的Fisher判别函数值)如表4.2(b)所示,实际上为各类别重心在空间中的坐标位置。这样,只要在前面计算出各观测值的具体坐标位置后,再计算出它们分别离各重心的距离,就可以得知它们的分类了。表4.2(b)组重心处的Fisher判别函数值当前第12页\共有147页\编于星期三\7点 4.ClassificationFunctionCoefficients(给出Bayes判别函数系数)如表4.3所示,GROUP栏中的每一列表示样品判入相应列的Bayes判别函数系数。在本例中,各类的Bayes判别函数如下: 第一组: 第二组: 第三组:

当前第13页\共有147页\编于星期三\7点将各样品的自变量值代入上述三个Bayes判别函数,得到三个函数值。比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。例如,将第一个待判样品的自变量值分别代入函数,得到:

F1=3793.77,F2=3528.32,F3=3882.48比较三个值,可以看出最大,据此得出第一个待判样品应该属于第三组。当前第14页\共有147页\编于星期三\7点表4.3Bayes判别法的输出结果当前第15页\共有147页\编于星期三\7点 5.CasewiseStatistics(给出个案观察结果)在CasewiseStatistics输出表针对每个样品给出了了大部分的判别结果,其中包括:实际类(ActualGroup)、预测类(PredictedGroup)、Bayes判别法的后验概率、与组重心的马氏距离(SquaredMahalanobisDistancetoCentroid)以及Fisher判别法的每个典型判别函数的判别得分(DiscriminantScores)。出于排版要求,这里给出结果表的是经过加工的,隐藏了其中的一些项目,如表4.4所示。从表中可以看出四个待判样本依次被判别为第三组、第一组、第二组和第三组。当前第16页\共有147页\编于星期三\7点表4.4个案观察结果表当前第17页\共有147页\编于星期三\7点 6.由于我们在Save子对话框中选择了生成表示判别结果的新变量,所以在数据编辑窗口中,可以观察到产生的新变量。其中,变量dis-1存放判别样品所属组别的值,变量dis1-1和dis2-1分别代表将样品各变量值代入第一个和第二个判别函数所得的判别分数,变量dis1-2、dis2-2和dis3-2分别代表样品分别属于第1组、第2组和第3组的Bayes后验概率值。当前第18页\共有147页\编于星期三\7点本章结束当前第19页\共有147页\编于星期三\7点聚类分析SPSS实现一在SPSS中利用系统聚类法进行聚类分析

二在SPSS中利用K均值法进行聚类分析

当前第20页\共有147页\编于星期三\7点一、在SPSS中利用系统聚类法进行

聚类分析设有20个土壤样品分别对5个变量的观测数据如表5.16所示,试利用系统聚类法对其进行样品聚类分析。表5.16土壤样本的观测数据当前第21页\共有147页\编于星期三\7点当前第22页\共有147页\编于星期三\7点

(一)操作步骤

1.在SPSS窗口中选择Analyze→Classify→HierachicalCluster,调出系统聚类分析主界面,并将变量X1~X5移入Variables框中。在Cluster栏中选择Cases单选按钮,即对样品进行聚类(若选择Variables,则对变量进行聚类)。在Display栏中选择Statistics和Plots复选框,这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。当前第23页\共有147页\编于星期三\7点图5.15K均值聚类分析主界面当前第24页\共有147页\编于星期三\7点 2.点击Iterate按钮,对迭代参数进行设置。MaximumIterations参数框用于设定K-means算法迭代的最大次数,ConvergenceCriterion参数框用于设定算法的收敛判据,其值应该介于0和1之间。例如判据设置为0.02,则当一次完整的迭代不能使任何一个类中心距离的变动与原始类中心距离的比小于2时,迭代停止。设置完这两个参数之后,只要在迭代的过程中先满足了其中的参数,则迭代过程就停止。这里我们选择系统默认的标准。单击Continue,返回主界面。图5.16Iterate子对话框当前第25页\共有147页\编于星期三\7点 3.点击Save按钮,设置保存在数据文件中的表明聚类结果的新变量。其中Clustermembership选项用于建立一个代表聚类结果的变量,默认变量名为qcl_1;Distancefromclustercenter选项建立一个新变量,代表各观测量与其所属类中心的欧氏距离。我们将两个复选框都选中,单击Continue按钮返回。图5.17Save子对话框当前第26页\共有147页\编于星期三\7点 4.点击Options按钮,指定要计算的统计量。选中Initialclustercenters和Clusterinformationforeachcase复选框。这样,在输出窗口中将给出聚类的初始类中心和每个观测量的分类信息,包括分配到哪一类和该观测量距所属类中心的距离。单击Continue返回。

5.点击OK按钮,运行K均值聚类分析程序。图5.18Options子对话框当前第27页\共有147页\编于星期三\7点

(二)主要运行结果解释

1.InitialClusterCenters(给出初始类中心)

2.IterationHistory(给出每次迭代结束后类中心的变动) 从表5.18中可以看到本次聚类过程共经历了三次迭代。由于我们在Iterate子对话框中使用系统默认的选项(最大迭代次数为10和收敛判据为0),所以在第三次迭代后,类中心的变化为0,从而迭代停止。当前第28页\共有147页\编于星期三\7点 3.ClusterMembership(给出各观测量所属的类及与所属类中心的距离) 表5.19中Cluster列给出了观测量所属的类别,Distance列给出了观测量与所属类中心的距离。(出于排版要求,此表经过加工,因此与原始输出表形态有一定差异)。表5.18迭代过程中类中心的变化量当前第29页\共有147页\编于星期三\7点表5.19各观测量所属类成员表当前第30页\共有147页\编于星期三\7点 4.FinalClusterCenters(给出聚类结果形成的类中心的各变量值)表5.20最终的类中心表当前第31页\共有147页\编于星期三\7点结合表5.19和表5.20,我们可以看出31个地区被分成3类。第一类包括:江苏、浙江、山东和广东4个省。这一类的类中心三个产业的产值分别为1102.14亿元、6423.01亿元和4454.26亿元,属于三个产业都比较发达的地区。第二类包括:天津、山西、内蒙古、吉林、江西、广西、海南、重庆、贵州、云南、西藏、陕西、甘肃、青海、宁夏和新疆16个地区。这一类的类中心三个产业的产值分别为307.61亿元、795.41亿元和673.63亿元,属于欠发达地区。剩下的11个地区为第三类。这一类的类中心三个产业的产值分别为713.28亿元、2545.20亿元和212.87亿元,属于中等发达地区。

5.由于我们已经在Save子对话框中设置了在数据文件中生成新的分类变量,所以,在数据编辑窗口中,我们可以看到生成的两个表示分类结果的新变量。变量qcl_1和变量qcl_2分别代表分类号和观测量距所属类中心的距离。当前第32页\共有147页\编于星期三\7点本章结束当前第33页\共有147页\编于星期三\7点主成分分析SPSS实现一主成分分析实例

二利用SPSS进行主成分分析

当前第34页\共有147页\编于星期三\7点一、主成分分析实例表6.1是某市工业部门13个行业的8项重要经济指标的数据,这8项经济指标分别是:

X1:年末固定资产净值,单位:万元;

X2:职工人数据,单位:人;

X3:工业总产值,单位:万元;

X4:全员劳动生产率,单位:元/人年;

X5:百元固定资产原值实现产值,单位:元;

X6:资金利税率,单位:%;

X7:标准燃料消费量,单位:吨;

X8:能源利用效果,单位:万元/吨。当前第35页\共有147页\编于星期三\7点表6.1某市工业部门13个行业8项指标当前第36页\共有147页\编于星期三\7点我们要考虑的是:如何从这些经济指标出发,对各工业部门进行综合评价与排序?我们先计算这些指标的主成分,然后通过主成分的大小进行排序。表6.2和表6.3分别是特征根(累计贡献率)和特征向量的信息。利用主成分得分进行综合评价时,从特征向量我们可以写出所有8个主成分的具体形式:当前第37页\共有147页\编于星期三\7点表6.2特征根和累计贡献率当前第38页\共有147页\编于星期三\7点表6.3特征向量当前第39页\共有147页\编于星期三\7点表6.4各行业主成分得分及排序当前第40页\共有147页\编于星期三\7点我们以特征根为权,对8个主成分进行加权综合,得出各工业部门的综合得分,具体数据见表6.4。综合得分的计算公式是: 根据上式可计算出各工业部门的综合得分,并可据此排序。从上表可以看出,机器行业在该地区的综合评价排在第一,原始数据也反映出机器行业存在明显的规模优势,另外从前两个主成分得分上看,该行业也排在第一位,同样存在效益优势;而排在最后三位的分别是皮革行业、电力行业和煤炭行业。当前第41页\共有147页\编于星期三\7点二、利用SPSS进行主成分分析SPSS没有提供主成分分析的专用功能,只有因子分析的功能。但是因子分析和主成分分析有着密切的联系。因子分析的重要步骤——因子的提取最常用的方法就是“主成分法”。利用因子分析的结果,可以很容易地实现主成分分析。具体来讲,就是利用因子载荷阵和相关系数矩阵的特征根来计算特征向量。即:其中,zij为第j个特征向量的第i个元素;aij为因子载荷阵第i

行第j列的元素;λj为第j个因子对应的特征根。然后再利用 计算出的特征向量来计算主成分。以下是我国2005年第1、2季度分地区城镇居民家庭收支基本情况。通过这个例子,介绍如何利用SPSS软件实现主成分分析。当前第42页\共有147页\编于星期三\7点表6.5分地区城镇居民家庭收支基本情况

当前第43页\共有147页\编于星期三\7点表6.5分地区城镇居民家庭收支基本情况

当前第44页\共有147页\编于星期三\7点

(一)利用SPSS进行因子分析将原始数据输入SPSS数据编辑窗口,将5个变量分别命名为X1~X5。在SPSS窗口中选择Analyze→DataReduction→Factor菜单项,调出因子分析主界面,并将变量X1~X5移入Variables框中,其他均保持系统默认选项,单击OK按钮,执行因子分析过程(关于因子分子在SPSS中实现的详细过程,参见第7章实例)。得到如表6.6所示的特征根和方差贡献率表和表6.7所示的因子载荷阵。表6.6中Total列为各因子对应的特征根,本例中共提取两个公因子;%ofVariance列为各因子的方差贡献率;Cumulative%列为各因子累积方差贡献率,由表中可以看出,前两个因子已经可以解释79.31%的方差当前第45页\共有147页\编于星期三\7点图6.2因子分析主界面当前第46页\共有147页\编于星期三\7点表6.6特征根和方差贡献率表当前第47页\共有147页\编于星期三\7点

(二)利用因子分析结果进行主成分分析

1.将表6.7中因子载荷阵中的数据输入SPSS数据编辑窗口,分别命名为a1和a2。表6.7因子载荷阵当前第48页\共有147页\编于星期三\7点 2.为了计算第一个特征向量,点击菜单项中的Transform→Compute,调出Computevariable对话框,在对话框中输入等式:

z1=a1/SQRT(2.576)

点击OK按钮,即可在数据编辑窗口中得到以z1为变量名的第一特征向量。 再次调出Computevariable对话框,在对话框中输入等式:

z2=a2/SQRT(1.389)

点击OK按钮,得到以z2为变量名第二特征向量。这样,我们得到了如表6.8所示的特征向量矩阵。当前第49页\共有147页\编于星期三\7点图6.3Computevariable对话框当前第50页\共有147页\编于星期三\7点根据表6.8可以得到主成分的表达式:

3.再次使用Compute命令,就可以计算得到两个主成分。表6.8特征向量矩阵当前第51页\共有147页\编于星期三\7点本章结束当前第52页\共有147页\编于星期三\7点因子分析SPSS实现一利用SPSS进行因子分析二因子分析在市场研究中的应用当前第53页\共有147页\编于星期三\7点一、利用SPSS进行因子分析

当前第54页\共有147页\编于星期三\7点

(一)操作步骤

1.在SPSS窗口中选择Analyze→DataReduction→Factor,调出因子分析主界面图(7.1),并将变量X1—X13移入Variables框中。图7.1因子分析主界面当前第55页\共有147页\编于星期三\7点 2.点击Descriptives按钮,展开相应对话框,见图7.2。选择Initialsolution复选项。这个选项给出各因子的特征值、各因子特征值占总方差的百分比以及累计百分比。单击Continue按钮,返回主界面。图7.2Descriptives子对话框当前第56页\共有147页\编于星期三\7点 3.点击Extraction按钮,设置因子提取的选项,见图7.3。在Method下拉列表中选择因子提取的方法,SPSS提供了七种提取方法可供选择,一般选择默认选项,即“主成分法”。在Analyze栏中指定用于提取因子的分析矩阵,分别为相关矩阵和协方差矩阵。在Display栏中指定与因子提取有关的输出项,如未旋转的因子载荷阵和因子的碎石图。在Extract栏中指定因子提取的数目,有两种设置方法:一种是在Eigenvaluesover后的框中设置提取的因子对应的特征值的范围,系统默认值为1,即要求提取那些特征值大于1的因子;第二种设置方法是直接在Numberoffactors后的矩形框中输入要求提取的公因子的数目。这里我们均选择系统默认选项,单击Continue按钮,返回主界面。当前第57页\共有147页\编于星期三\7点图7.3Extraction子对话框当前第58页\共有147页\编于星期三\7点 4.点击Rotation按钮,设置因子旋转的方法。这里选择Varimax(方差最大旋转),并选择Display栏中的Rotatedsolution复选框,在输出窗口中显示旋转后的因子载荷阵。单击Continue按钮,返回主界面。图7.4Rotation子对话框当前第59页\共有147页\编于星期三\7点 5.点击Scores按钮,设置因子得分的选项。选中Saveasvariables复选框,将因子得分作为新变量保存在数据文件中。选中Displayfactorscorecoefficientmatrix复选框,这样在结果输出窗口中会给出因子得分系数矩阵。单击Continue按钮返回主界面。

6.单击OK按钮,运行因子分析过程。图7.5Scores子对话框当前第60页\共有147页\编于星期三\7点

(二)主要运行结果解释

1.Communalities(给出变量共同度)变量共同度反映每个变量对所提取的所有公共因子的依赖程度,此数值是因子载荷阵中每一行的因子载荷量的平方和,提取的因子个数不同,变量共同度也不同。

2.TotalVarianceExplained(给出各公因子方差贡献表)InitialEigenvalues给出初始相关矩阵或协差阵矩阵的特征值,用于确定哪些因子应该被提取,共有三项:Total列为各因子对应的特征值,本例中共有四个因子对应的特征值大于1,因此应提取相应的四个公因子;%ofVariance列为各因子的方差贡献率;Cumulative%列为各因子的累积方差贡献率,由表7.1可以看出,前四个因子已经可以解释89.651%的方差。RotationSumsofSquaredLoadings给出提取出的公因子经过旋转后的方差贡献情况。当前第61页\共有147页\编于星期三\7点表7.1特征根与方差贡献率表

当前第62页\共有147页\编于星期三\7点

当前第63页\共有147页\编于星期三\7点表7.2旋转前因子载荷阵当前第64页\共有147页\编于星期三\7点当前第65页\共有147页\编于星期三\7点表7.3旋转后因子载荷阵

当前第66页\共有147页\编于星期三\7点当前第67页\共有147页\编于星期三\7点注意:在因子表达式中的各变量为进行标准化变换后的标准变量,均值为0,标准差为1。

7.由于我们已经在Scores子对话框中选择了Saveasvariables复选框,因此,因子得分已经作为新的变量保存在数据文件中,变量名分别为fac1_1、fac2_1、fac3_1和fac4_1。此后,我们还可以利用因子得分进行其他的统计分析。当前第68页\共有147页\编于星期三\7点表7.4因子得分系数矩阵

当前第69页\共有147页\编于星期三\7点二、因子分析在市场研究中的应用表7.5是研究消费者对购买牙膏偏好的调查数据。通过市场的拦截访问,用7级量表询问受访者对以下陈述的认同程度(1表示非常不同意,7表示非常同意)。

V1:购买预防蛀牙的牙膏是重要的;

V2:我喜欢使牙齿亮泽的牙膏;

V3:牙膏应当保护牙龈;

V4:我喜欢使口气清新的牙膏;

V5:预防坏牙不是牙膏提供的一项重要利益;

V6:购买牙膏时最重要的考虑是富有魅力的牙齿。当前第70页\共有147页\编于星期三\7点表7.5牙膏属性评分得分表当前第71页\共有147页\编于星期三\7点当前第72页\共有147页\编于星期三\7点将表7.5中的数据通过SPSS进行因子分析,得到相关结果是:

1.特征根和累计贡献率表7.6方差贡献率表当前第73页\共有147页\编于星期三\7点从表7.6可以看出,提取两个因子累计方差贡献率就达到82%,第三个特征根相比下降较快,因此我们选取两个公共因子。

2.因子的含义为了得到意义明确的因子含义,我们将因子载荷阵进行方差最大法旋转,得到旋转后的因子载荷矩阵如下表7.7。表7.7旋转后因子载荷矩阵

当前第74页\共有147页\编于星期三\7点从因子载荷阵可以看出:因子1与V1(预防蛀牙),V3(保护牙龈),V5(预防坏牙)相关性强,其中V5的载荷是负数,是由于这个陈述是反向询问的;因子2与V2(牙齿亮泽),V4(口气清新),V6(富有魅力)的相关系数相对较高。因此,我们命名因子1为“护牙因子”,是人们对牙齿的保健态度;因子2是“美牙因子”,说明人们“‘通过牙膏美化牙齿’影响社交活动”的重视。从这两方面分析,对牙膏生产企业开发新产品都富有启发意义。当前第75页\共有147页\编于星期三\7点本章结束当前第76页\共有147页\编于星期三\7点相应分析SPSS实现一利用SPSS进行相应分析——实例1

二利用SPSS进行相应分析——实例2

当前第77页\共有147页\编于星期三\7点一、利用SPSS进行相应分析——

实例1数据来自SPSS软件自带数据集voter.sav,为1992年美国大选的部分数据。要求对选民的最高学历水平(degree)和所支持的总统候选人(pres92)进行相应分析。 (一)操作步骤

1.正确打开数据集voter.sav后,由Analyze→DataReduction→CorrespondenceAnalysis可进入相应分析的主对话框(图8.1)。图8.1相应分析主界面当前第78页\共有147页\编于星期三\7点 2.从左侧变量列表中选择两个变量作为相应分析的两个维度。这里我们选择pres92作为行维度,点击Row左侧的三角箭头就可以看到在Row项下出现了pres92(??),这时用鼠标选中该变量,其下方的DefineRange子对话框激活,点击后出现变量水平设置窗口(图8.2)。分为上下两个部分:Categoryrangeforrowvariable:pres92和CategoryConstraints。这里要分析所有的三位总统候选人和选民的学历水平的关系,所以在Minimumvalue中填入1,在Maximumvalue中填入3,之后点击Update按钮。就可以在下方的CategoryConstraints栏中看到,后续分析中的行变量仅包含3个类目,分别是1、2和3。当前第79页\共有147页\编于星期三\7点图8.2DefineRowRange子对话框当前第80页\共有147页\编于星期三\7点在右侧还有三个单选项:None表示没有任何约束;Categoriesmustbeequal可用于指定某些类目的得分必须相同,最多可以设置有效类目的个数减1个得分相等的类目,如本例中最多可以设置2个类目得分相等;Categoryissupplemental表示某些类目不参加相应分析但是会在图形中标示。这里我们不对分类进行任何约束,点击Continue按钮后回到主对话框。类似的可以指定degree的有效类目最小值为0,最大值为4。

3.点击Model按钮,指定相应分析结果的维数。(图8.3)

(1)Dimensionsinsolution。默认为2,最大可以设置为各变量中的最少类目数减1。 (2)选择距离测度的方式DistanceMeasure。有Chisquare 和Euclidean两种,定性变量应该用Chisquare。 (3)标准化方法StandardizationMethod。当前第81页\共有147页\编于星期三\7点图8.3Model子对话框当前第82页\共有147页\编于星期三\7点

(4)正态化方法NormalizationMethod。需要比较行列变量的类目差异时选择Symmetrical,需要比较行列变量中任意两个类目的差异时选择Principal,比较行变量的类目差异时选择Rowprincipal,而比较列变量的类目差异时选择Columnprincipal,也可以在Customize中指定[-1,1]之间的任意实数,特别的,如果输入-1则为Columnprincipal,输入1为Rowprincipal,输入0为Symmetrical。而一般该对话框中的选项无需改动。

4.点击Statistics按钮,设定输出的相应分析统计量,如图8.4。可以指定输出相应分析表Correspondencetable,行点总览表Overviewofrowpoints,列点总览表Overviewofcolumnpoints,行轮廓Rowprofiles,列轮廓Columnprofiles。默认只输出前三项。而Permutationsofthecorrespondencetable是用于指定前n个维度的行列得分表。如果该项选中,下方的Maximumdimensionforpermutations被激活,用于指定维度n。此外,还可以在ConfidenceStatisticsfor复选项中选择计算行点和列点的标准差以及相关系数。

当前第83页\共有147页\编于星期三\7点图8.4Statistics子对话框当前第84页\共有147页\编于星期三\7点 5.点击Plots按钮,设定输出的统计图,如图8.5。可以指定输出相应分析的散点图Scatterplots,默认只输出包含行列变量的双变量散点图Biplot。也可指定输出行点图Rowpoints和列点图Columnpoints。而IDlabelwidthforScatterplots是指定散点标签的长度,默认20。下方的Lineplots项中,可以输出行/列点对应于行/列得分的线图,和散点图类似。

6.我们在Model,Statistics,Plots三个子对话框中都使用默认设定,点击主对话框的OK按钮,即得到相应分析的结果。当前第85页\共有147页\编于星期三\7点图8.5Plots子对话框当前第86页\共有147页\编于星期三\7点

(二)结果分析:

SPSS运行相应分析后会产生以下四张表(表8.4到表8.7)。

1.CorrespondenceTable(相应分析表),如表8.4,即列联表。ActiveMargin为边际频数。大致可以看出Clinton在各个学历层次都有最高的票数。表8.4列联表

当前第87页\共有147页\编于星期三\7点 2.Summary(总览表),如表8.5。表中从左到右依次是维度编号、奇异值、惯量、卡方统计量、显著性、惯量所占总惯量比例、每个维度的奇异值的标准差和相关系数。SingularValue为特征值的平方根,根据总惯量和特征值求和相等,有0.1392+0.0162=0.019+0.000=0.019。第一个维度惯量0.019,占总惯量的98.7%,第二个维度惯量接近0,仅占总惯量1.3%。因此可以认为只要用一个维度就可以解释行列变量之间所有的关系,但为了说明分析过程,仍然保留两个维度。总惯量35.867÷1844=0.19,满足总惯量和卡方统计量的关系式。同时卡方统计量的自由度8=(3-1)×(5-1),数值为0.000,说明行列变量之间存在显著的相关性,相应分析是有意义的。当前第88页\共有147页\编于星期三\7点表8.5总览表当前第89页\共有147页\编于星期三\7点 3.OverviewRowPoints与OverviewColumnPoints(行/列点总览表),如表8.6,表8.7。现以表8.6为例,Mass项表示行变量中每个类目的边际概率。Scoreindimension下面则是行点在两个维度的坐标(SPSS称为得分),即有坐标点Bush(0.194,-0.156),Perot(0.663,0.198),Clinton(-0.346,0.053)。Inertia项为惯量,即每个行点与行重心的加权距离的平方。而行惯量为行点与行重心的加权距离平方和,即0.19=0.002+0.009+0.008。比较表8.6和表8.7的总惯量,可以发现行惯量与列惯量相等。Contribution项有两个部分,分别是行变量的每个类目对维度(公共因子)特征值的贡献,每一个维度对每个类目的特征值的贡献。当前第90页\共有147页\编于星期三\7点表8.6行点总览表当前第91页\共有147页\编于星期三\7点表8.7列点总览表当前第92页\共有147页\编于星期三\7点 4.相应分析图,如图8.6。可以发现研究生层次的选民(Graduatedegree)倾向于具有实干精神的Clinton,而较Clinton更为激进的Bush更受highschool和Bachelor层次的选民欢迎,Perot仅和juniorcollege层次的选民较近。图8.6相应分析的二维图当前第93页\共有147页\编于星期三\7点 5.如果在Statistics子对话框中选中了Rowprofile和Columnprofile,SPSS还会输出以下两张表(表8.8,表8.9)。表8.8行轮廓表当前第94页\共有147页\编于星期三\7点表8.9列轮廓表当前第95页\共有147页\编于星期三\7点 6.行/列点图(图8.7,图8.8)。如果要单独考察行/列变量的各个水平在两个公共因子维度上的分布情况,可在Plots子对话框中选中Rowpoints和Columnpoints。运行后即得下图:图8.7行点在两个公共因子维度上的分布当前第96页\共有147页\编于星期三\7点图8.8列点在两个公共因子维度上的分布当前第97页\共有147页\编于星期三\7点二、利用SPSS进行相应分析——

实例2

当前第98页\共有147页\编于星期三\7点表8.104只股票的财务数据当前第99页\共有147页\编于星期三\7点

(一)操作步骤:

1.首先由SPSS的因子分析过程(详细步骤参见因子分析一章),通过主成分法估计和最大方差旋转法进行因子旋转,发现需要3个公共因子才能解释83%以上的方差。可得因子得分的计算公式为(加上*号的变量和因子表示都已经标准化):当前第100页\共有147页\编于星期三\7点因此factor1可以称为股票规模因子,factor2称为股票收益因子,factor3称为个股价值因子。将这三个因子划分为5个等级:低于-0.5,-0.5~0,0~0.5,0.5~1,大于1,分别编码为1,2,3,4,5。这样就可以利用相应分析来详细的研究这三个因子之间的关系。

2.在相应分析的主对话框中,我们以factor1和factor2为例说明。设置好类目(图8.9),在Model子对话框中仍然选择维数2,其他设置不变,点击OK后,就得到相应分析的结果。当前第101页\共有147页\编于星期三\7点图8.9相应分析主界面当前第102页\共有147页\编于星期三\7点

(二)结果分析:这里仅列出相应分析表(表8.11)、总览表(表8.12)以及相应分析图(图8.10),其余图表的分析与前一例题类似。表8.11列联表当前第103页\共有147页\编于星期三\7点表8.12总览表当前第104页\共有147页\编于星期三\7点从表8.12中可以看出,卡方检验是显著相关的,因此相应分析是有意义的,而且只需要两个公共因子就可以解释92.7%的总惯量。所以使用二维图就可以充分的反映行列变量之间的关系了。在图8-10上可以发现,规模因子为1和5,个股价值因子为5,这表明“小股票”和“大股票”都可能实现最高的个股价值,并且“小股票”似乎更有可能。而股票规模因子中略高于平均水平的取值为3,4,这两个档次较为接近可以将其合并为一个档次,相应的个股价值因子也略高于平均水平。读者应该可以发现相应分析实际是对两组高维空间的点的二维投影进行分析。有时在高维空间中相隔很近的点投影后却显的很远,因此有时需要进一步分析每个类目对公共因子的贡献大小。同时相应分析主要是建立在图形分析的基础上,而没有给出足够充分的统计量来度量这种相关程度,因此相应分析的结果带有一定的主观性。当前第105页\共有147页\编于星期三\7点图8.10二维相应分析图当前第106页\共有147页\编于星期三\7点本章结束当前第107页\共有147页\编于星期三\7点典型相关分析SPSS实现一利用SPSS进行典型相关分析实例1二利用SPSS进行典型相关分析实例2当前第108页\共有147页\编于星期三\7点一、利用SPSS进行典型相关分析

实例1测量15名受试者的身体形态以及健康情况指标,如9.2表。第一组是身体形态变量,有年龄、体重、胸围和日抽烟量;第二组是健康状况变量,有脉搏、收缩压和舒张压。要求测量身体形态以及健康状况这两组变量之间的关系。表9.2两组身体素质的典型变量

当前第109页\共有147页\编于星期三\7点当前第110页\共有147页\编于星期三\7点

(一)操作步骤在SPSS中没有提供典型相关分析的专门菜单项,要想利用SPSS实现典型相关分析,必须在语句窗口中调用SPSS的Canonicalcorrelation.sps宏。具体方法如下:

1.按File→New→Syntax的顺序新建一个语句窗口。在语句窗口中输入下面的语句:(图9.1)

INCLUDE'Canonicalcorrelation.sps'. CANCORRSET1=x1x2x3x4/ SET2=y1y2y3/.当前第111页\共有147页\编于星期三\7点 2.点击语句窗口Run菜单中的All子菜单项,运行典型相关宏命令,得出结果。图9.1语句窗口当前第112页\共有147页\编于星期三\7点

(二)主要运行结果解释

1.CorrelationsforSet-1、CorrelationsforSet-2、CorrelationsBetweenSet-1andSet-2(分别给出两组变量内部以及两组变量之间的相关系数矩阵)

2.CanonicalCorrelations(给出典型相关系数)从表9.3中可以看出第一典型相关系数达到0.957,第二典型相关系数为0.582,第三典型相关系数为0.180。表9.3典型相关系数当前第113页\共有147页\编于星期三\7点 3.Testthatremainingcorrelationsarezero(给出典型相关的显著性检验)表9.4中从左至右分别为Wilks的统计量、卡方统计量、自由度和伴随概率。从表中可以看出,在0.05的显著性水平下,三对典型变量中只有第一对典型相关是显著的。表9.4典型相关系数的显著性检验当前第114页\共有147页\编于星期三\7点

当前第115页\共有147页\编于星期三\7点表9.5两组典型变量的标准化系数

当前第116页\共有147页\编于星期三\7点

由于Y1(脉搏)的系数-0.721绝对值最大,说明健康状况的典型变量主要由脉搏所决定。同时,由于两个典型变量中抽烟量和脉搏的系数是同号的(都为负),反映抽烟量和脉搏的正相关,即日抽烟越多则每分钟的脉搏跳动次数也越多。抽烟对身体健康有害,这和客观事实是相符的。6.RedundancyAnalysis(分别给出两组典型变量的冗余分析)表9.6中给出的四组数据分别是身体形态变量被自身的典型变量解释的方差比例、身体形态变量被健康状况的典型变量解释的方差比例、健康状况变量被自身的典型变量解释的方差比例和健康状况变量被身体形态的典型变量解释的方差比例。当前第117页\共有147页\编于星期三\7点表9.6典型冗余分析当前第118页\共有147页\编于星期三\7点当前第119页\共有147页\编于星期三\7点二、利用SPSS进行典型相关分析

实例2利用SPSS软件对(1952)关于典型相关的经典例子进行分析。表9.7列举了25个家庭的成年长子和次子的头长和头宽。利用典型相关分析法分析长子和次子头型的相关性。 (一)操作步骤

1.按File→New→Syntax的顺序新建一个语句窗口。在语句窗口中输入下面的语句:

INCLUDE'Canonicalcorrelation.sps'. CANCORRSET1=x1x2/ SET2=y1y2/. 2.点击语句窗口Run菜单中的All子菜单项,运行典型相关宏命令,得出结果。当前第120页\共有147页\编于星期三\7点表9.7长子和次子的头长与头宽

当前第121页\共有147页\编于星期三\7点当前第122页\共有147页\编于星期三\7点

(二)主要运行结果解释

1.典型相关系数和典型相关的显著性检验(表9.8、表9.9)从表二可以看出,两队典型变量中,第一对的典型相关系数达到0.788,属于强相关,而第二对典型变量的相关则比较弱。这一点从表3可以更清楚的看到。显著性检验的结果表明,在0.05的显著性水平下,只有第一对典型相关是显著的。表9.8典型相关系数当前第123页\共有147页\编于星期三\7点表9.9典型相关的显著性检验当前第124页\共有147页\编于星期三\7点

当前第125页\共有147页\编于星期三\7点 3.冗余分析从表9.11可以看到,长子的头型变量被自身的第一典型变量解释了86.7%,次子的头型变量被自身的第一典型变量解释了91.8%。表9.10两组典型变量的未标准化系数当前第126页\共有147页\编于星期三\7点表9.11冗余分析当前第127页\共有147页\编于星期三\7点本章结束当前第128页\共有147页\编于星期三\7点多维标度法SPSS实现

一多维标度法在SPSS中的实现二利用SPSS对本章美国十城市的例子进行多维标度

当前第129页\共有147页\编于星期三\7点一、多维标度法在SPSS中的实现

——实例1以SPSS自带文件World95.sav为例,对亚洲国家和地区的17个国家的人口寿命情况进行分析。(一)操作步骤:

1.在Data→Selectcase对话框的If过滤条件中输入过滤条件“region=3”。得到17个国家和地区。

2.主菜单中选择Analyze→Scale→MultidimensionalScaling(ALSCAL)。就进入多维标度法的主对话框(图10.3)。在左上方是变量列表选择以下变量:urban(城市人口比例),lifeexpf(女性平均寿命),lifeexpm(男性平均寿命),gdp_cap(人均GDP),death_rt(千人死亡率),birth_rt(千人出生率),literacy(受教育人口比例)。由于原始数据不是距离阵,因此需要在下方Distances单选项中选择Createdistancesfromdata,这时Measure子对话框被激活,默认计算Euclideandistance,即欧氏距离。当前第130页\共有147页\编于星期三\7点图10.3多维标度法的主对话框当前第131页\共有147页\编于星期三\7点 3.点击进入Measure子对话框,对距离阵进行设定,(图10.4)。由于我们的变量都是连续数值型的,所以应在Measure单选项中选择Interval。并在其下方的TransformValues栏中选择变量标准化变换的方式,这里我们选择Zscores和Byvariable,表示对变量进行正态标准化。然后在CreateDistanceMatrix单选项中选择

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论