SPSS统计分析及统计图表的绘制指导书.doc_第1页
SPSS统计分析及统计图表的绘制指导书.doc_第2页
SPSS统计分析及统计图表的绘制指导书.doc_第3页
SPSS统计分析及统计图表的绘制指导书.doc_第4页
SPSS统计分析及统计图表的绘制指导书.doc_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

实验三 SPSS统计分析及统计图表的绘制一、实验目的要求学生能够进行基本的统计分析;能够对频数分析、描述分析和探索分析的结果进行解读;完成基本的统计图表的绘制;并能够对统计图表进行编辑美化及结果分析;能够理解多元统计分析的操作(聚类分析和因子分析)。二、实验内容与步骤2.1 基本的统计分析打开“分析/描述统计”菜单,可以看到以下几种常用的基本描述统计分析方法:1.Frequencies过程(频数分析)频数分析可以考察不同的数据出现的频数及频率,并且可以计算一系列的统计指标,包括百分位值、均值、中位数、众数、合计、偏度、峰度、标准差、方差、全距、最大值、最小值、均值的标准误等。2.Descriptives过程(描述分析)调用此过程可对变量进行描述性统计分析,计算并列出一系列相应的统计指标,包括:均值、合计、标准差、方差、全距、最大值、最小值、均值的标准误、峰度、偏度等。3.Explore过程(探索分析)调用此过程可对变量进行更为深入详尽的描述性统计分析,故称之为探索性统计。它在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,显得更加细致与全面,有助于用户思考对数据进行进一步分析的方案。Descriptives:输出均数、中位数、众数、5%修正均数、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误;Confidence Interval for Mean:平均值的%估计;M-estimators:作中心趋势的粗略最大似然确定,输出四个不同权重的最大似然确定数;Outliers:输出五个最大值与五个最小值;Percentiles:输出第5%、10%、25%、50%、75%、90%、95%位数。4.Crosstabs过程(列联表分析)调用此过程可进行计数资料和某些等级资料的列联表分析,在分析中,可对二维至n维列联表(RC表)资料进行统计描述和2 检验,并计算相应的百分数指标。此外,还可计算四格表确切概率(Fishers Exact Test)且有单双侧(One-Tail、Two-Tail),对数似然比检验(Likelihood Ratio)以及线性关系的Mantel-Haenszel2 检验。2.2 基本统计分析结果解读1.频率分析的结果解读图1 频率分析的结果解读(附中英文对照,具体详见电子版Excel文件)2.描述分析的结果解读(同上,略)3.探索分析的结果解读图2 探索分析的结果解读(附中英文对照,具体详见电子版Excel文件)4.列联表分析的结果解读2.3 统计图表的绘制表2 一般统计图表1.条形图(Bar)图3 条形图定义选项框Summaries for groups of cases:以组为单位体现数据;Summaries of separate variables:以变量为单位体现数据;Values of individual cases:以观察样例为单位体现数据。多数情形下,统计图都是以组为单位的形式来体现数据的。在定义选项框的上方有3种直条图可选:Simple为单一直条图、Clustered为复式直条图、Stacked为堆积式直条图。2.直方图(Histogram)条形图用来绘制离散型单一类别变量的分布情况,描述连续性数据的分布情况则用直方图。3.方盒图(Boxplot)箱图可用于表现观测数据的中位数、四分位数和两头极端值。中间的粗线为中位数,灰色的箱体为四分位(箱体下端为第二十五百分位数、上端为第七十五百分位数),两头伸出的线条表现极端值(下边为最小值、上边为最大值)。“*”表示极度偏离值,“”表示轻度偏离值。4.散点图(Scatter/Dot)散点图用于表现测量数据的原始分布状况,读者可从点的位置判断测量值的高低、大小、变动趋势或变化范围。图4 散点图定义选项框Simple为单层散点图,Overlay为多层散点图,Matrix为矩阵散点图,3-D为立体散点图。5.饼图(略)2.4 统计图表的美化和编辑统计图绘制好以后,可以双击统计图进行图表的各种美化和编辑。此部分同学们自己练习。2.5 多元统计分析(了解)2.5.1 聚类分析(Analyze/Classify)1.基本概念聚类分析是根据事物本身的特性研究个体分类的方法,目的在于将相似的事物归类。聚类分析的原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。根据分类对象的不同,可将聚类分析分为样品(观测量)聚类(Q型聚类)和变量聚类(R型聚类)两种:(1)Q型聚类。对观测量(Case)进行聚类(不同的目的选用不同的指标作为分类的依据,如选拔运动员与分课外活动小组)(2)R型聚类。找出彼此独立且有代表性的自变量,而又不丢失大部分信息。在生产活动中不乏有变量聚类的实例,如:衣服号码(身长、胸围、裤长、腰围)、鞋的号码。变量聚类使批量生产成为可能。2.聚类分析法在市场研究中的作用(1)细分市场(2)市场机会研究(3)消费者心理和行为研究(4)实验市场的选择(5)设计抽样方案(6)作为多元分析的预处理3.样本间的相似性或距离测度为了得到比较合理的分类,首先要采用适当的指标来定量地描述研究对象(样本或变量,通常是变量)之间的联系的紧密程度,常用的指标有“距离”和“相似系数”。常用的5种距离和1种相似系数:欧式距离(Euclidean distance);欧式距离的平方(Squared Euclidean distance);绝对值距离(Block);切比雪夫距离(Chebychev distance);幂距离(Power or Customized distance);余弦系数(Cosine)。4.常用的系统聚类法(1)最短距离法(Nearest neighbor)(2)最长距离法(Furthest neighbor)(3)中间距离法(Medina neighbor)(4)沃德法(Wards method)(5)重心法(Centroid clustering)(6)类间平均连接(Between-group linkage)(7)类内平均连接(Within-group Linkage)5.SPSS进行聚类分析(Analyze/Classify)(1)Statistics选项:Agglomeration schedule:凝聚状态表。显示聚类过程的每一步合并的类或样品、被合并的类或样品之间的距离以及样品或加入到一类的类水平。Proximity matrix:相变量似矩阵。给出各类之间的距离或相似测度值。Cluster Membership:类成员。显示每个样品被分配到的类或显示若干步凝聚过程。具体内容有三个选项:None:不显示类成员表,是默认值;Single solution:要求列出聚为一定类数的各样品所属的类;Range of solutions:要求列出某个范围中每一步各样品所属的类。(2)Plot选项Dendrogram:树形图。Icicle:冰柱图。(3)Method选项Cluster:聚类方法选择。Measure:对距离和相似系数的不同测量方法。Transform Values:转换数值的方法,标准化方法。Transform Measures:测度的转换方法。(4)实例演示一维集群分析(按年龄集群)促销市场的选择各省份根据产业结构、水平分类(5)聚类要注意的问题聚类结果主要受所选择的变量影响。如果去掉一些变量,或者增加一些变量,结果会很不同。相比之下,聚类方法的选择则不那么重要了。因此,聚类之前一定要目标明确。 另外就分成多少类来说,也要有道理。只要你高兴,从分层聚类的计算机结果可以得到任何可能数量的类。但是,聚类的目的是要使各类距离尽可能的远,而类中点的距离尽可能的近,而且分类结果还要有令人信服的解释。这一点就不是数学可以解决的了。2.5.2 判别分析(Analyze/Classify/Discriminate)1.基本概念判别分析研究方法是根据已知对象的某些观测指标和所属类别来判断未知对象所属类别的一种统计学方法。与聚类分析有所不同的是:判别分析法首先需要对所研究对象进行分类,进一步选择若干对观测对象能够较全面地描述的变量,建立判别函数。对一个未确定类别的样本只要将其代入判别函数就可以判断它属于哪一类总体。2.判别分析实例数据team.sav为李宁杯拉拉队竞赛评审裁判为15个参赛学校根据组织、气氛、领导三要素,将team分为高、中、低效能。其中评价的指标为组织、凝聚力和领导三个变量;我们希望根据这些team的上述变量的打分和它们已知的组别(三个组别:1代表高效能,2代表中效能,3代表低效能)找出一个分类标准,以对折15个team以外的team进行分类。该数据有15个team(15个观测值),其中4个属于高效能,6个属于中效能,5个属于低效能,这个数据就是一个“训练样本”。(1)根据距离的判别(不用投影)数据有3个用来建立判别标准(或判别函数)的(预测)变量,另一个是组别。因此每一个team的打分在这3个变量所构成的3维空间中是一个点。这个数据有15个点,由于已经知道所有点的类别了,所以可以求得每个类型的中心。这样只要定义了如何计算距离,就可以得到任何给定的点(team)到这三个中心的三个距离。显然,最简单的办法就是离哪个中心距离最近,就属于哪一类。通常使用的距离是所谓的Mahalanobis距离。用来比较到各个中心距离的数学函数称为判别函数(discriminant function),这种根据远近判别的方法,原理简单,直观易懂。(2)Fisher判别法(先进行投影)所谓Fisher判别法,就是一种先投影的方法。考虑只有两个(预测)变量的判别分析问题。假定这里只有两类。数据中的每个观测值是二维空间的一个点。这里只有两种已知类型的训练样本。其中一类有38个点(用“o”表示),另一类有44个点(用“*”表示)。按照原来的变量(横坐标和纵坐标),很难将这两种点分开。于是就寻找一个方向,也就是图上的虚线方向,沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。可以看出,如果向其他方向投影,判别效果不会比这个好。有了投影之后,再用前面讲到的距离远近的方法来得到判别准则。这种首先进行投影的判别方法就是Fisher判别法。 (3)逐步判别法(仅仅是在前面的方法中加入变量选择的功能)有时,一些变量对于判别并没有什么作用,为了得到对判别最合适的变量,可以使用逐步判别。也就是,一边判别,一边引进判别能力最强的变量,这个过程可以有进有出。一个变量的判别能力的判断方法有很多种,主要利用各种检验,例如Wilks Lambda、Raos V、The Squared Mahalanobis Distance、Smallest F ratio或The Sum of Unexplained Variations等检验。其细节这里就不赘述了;这些不同方法可由统计软件的各种选项来实现。逐步判别的其他方面和前面的无异。(4)实例操作Indepentents:选择自变量和使用自变量的方法对于选定的自变量可以全部应用到判别函数中去,这是系统默认的使用全部自变量法“Enter independent together”。如果要对变量进行筛选检验,将使用选项逐步进入法“Use stepwise method”。使用该方法后,按钮“Methord”将被激活,在窗口中可以进一步定义使用哪一种逐步进入法:“Wilks lamda”法为系统默认的方法;“Unexplained variance”不解释方差法;“Mahalamobis distance”马哈拉莫比斯距离法;“Smallest F ratio”最小F比率法;“Raos V”劳氏增值法。Statistiacs:统计量、矩阵和函数系数的计算“Descriptives”中的选项有三个:“Means”为计算各个自变量的平均值和标准差以及各个类别中的平均值和标准差;“Univariate ANOVA”计算各类中同一个自变量的一元方差分析;“Boxs M”计算各类的协方差矩阵,并进行协方差分析。“Matrices”计算相关矩阵或协方差矩阵:“Within-groups correlation”计算组内相关矩阵;“Within-groups covariance”计算组内协方差矩阵;“Separate-groups covariance” 计算分组协方差矩阵;“Total covariance” 计算总体协方差矩阵。 “Function Coefficients”计算判别函数的系数:”Fishers”计算可以用于对新样本进行判别并分类的费氏系数;”Unstandardized”计算非标准化判别系数,可用于计算判别分类。Classify:分类方式和判别结果设置分类所依据的判别先验概率和协方差矩阵,以及输出图形和显示结果。“Prior Probabilities”先验概率的设置指定,有两种方式:“All groups equal”各个类取相等的先验概率;“Compute from group size”依据各个类的样本个数确定先验概率。“Display”输出分析结果:“Casewise results”输出各个样本的分类结果,其中有:判别分、指定类和判别类和后验概率等;“Summary table”输出分类摘要表,表中将标明:与原指定类相同的判别类,该判别类是根据判别函数得到的,即正确类。同时还标明与原指定类不同的判别类以及相应的概率;“Leave-one-out classification” 是一种交互检验。“Use Covariance Matrix”选择使用协方差矩阵:“Within-groups”选择分析使用的组内协方差矩阵进行判别分析;“Separate-groups”选择分析使用的分组协方差矩阵进行判别分析。Plots:统计图形的输出“Combined-groups”将各个类的图形都存放在同一张图中。“Separate-groups”分类显示各个类的图形。“Territorial map”分界图,将坐标平面划分为不同的区域,每个区域将代表一个类,落在该区域中的样本观测点就属于该区域所代表的类。Replace missing values with mean:将缺失值用样本平均值代替。结果分析Canonical Discriminant Function Coefficient:典则判别函数。将未归类的样本的变量值代入两个典则判别函数,算出两个数。把这两个数目当成该样本的坐标,这样数据中的每个样本就是二维平面上的点。Classification Function Coefficients:分类函数系数表。把每个观测点带入每类对应的函数,就可以得到分别代表各类的值,哪个值最大,该点就属于相应的那一类。(5)判别分析的注意事项训练样本中必须有所有要判别的类型,分类必须清楚,不能有混杂。 要选择好可能用于判别的预测变量。这是最重要的一步。当然,在应用中,选择的余地不见得有多大。 要注意数据是否有不寻常的点或者模式存在。还要看预测变量中是否有些不适宜的;这可以用单变量方差分析(ANOVA)和相关分析来验证。判别分析是为了正确地分类,但同时也要注意使用尽可能少的预测变量来达到这个目的。使用较少的变量意味着节省资源和易于对结果进行解释。 2.5.3 因子分析(Analyze/Data Reduction/Factor)1.基本概念假定你是一个公司的财务经理,掌握了公司的所有数据,这包括众多的变量,如:固定资产、流动资金、借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、分工和教育程度等等。如果让你向上级或有关方面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗?在如此多的变量之中,有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。需要把这种有很多变量的数据进行高度概括。因子分析只是一种中间手段,其背景是研究中经常会遇到多指标的问题,这些指标间往往存在一定的相关,直接纳入分析不仅复杂,变量间难以取舍,而且可能因多元共线性而无法得出正确结论。因子分析的目的就是通过线性变换,将原来的多个指标组合成相互独立的少数几个能充分反映总体信息的指标,便于进一步分析。2.因子分析模型Xi=ai1f1+ai2f2+aimfm+ui其中,f1,f2,fm公因子(Common factors);ui特殊因子(Unique factor);aim因载(Factor loading)。3.有关概念(1)因子负荷:即表达式中各因子的系数值,用于反映因子和各个变量间的密切程度,其实质是两者间的相关系数(2)公因子方差比(Communalities):指的是提取公因子后,各变量中信息分别被提取出的比例,或者说原变量的方差中由公因子决定的比例。(3)特征根(Eigenvalue):可以被

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论