描述性统计分析--Descriptive Statistics菜单详解_第1页
描述性统计分析--Descriptive Statistics菜单详解_第2页
描述性统计分析--Descriptive Statistics菜单详解_第3页
描述性统计分析--Descriptive Statistics菜单详解_第4页
描述性统计分析--Descriptive Statistics菜单详解_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第六章:描述性统计分析DescriptiveStatistics菜单详解描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在DescriptiveStatistics菜单中,最常用的是列在最前面的四个过程:Frequencies过程的特色是产生频数表;Descriptives过程则进行一般性的统计描述;Explore过程用于对数据概况不清时的探索性分析;Crosstabs过程则完成计数资料和等级资料的统计描述和一般的统计检验,我们常用的X2检验也在其中完成。IC声本章讲述的四个过程在9.0及

2、以前版本中被放置在Summarize菜单中。6.1Frequencies过程频数分布表是描述性统计中最常用的方法之一,Frequencies过程就是专门为产生频数表而设计的。它不仅可以产生详细的频数表,还可以按要求给出某百分位点的数值,以及常用的条图,圆图等统计图。Q和国内常用的频数表不同,几乎所有统计软件给出的均是详细频数表,即并不按某种要求确定组段数和组距,而是按照数值精确列表。如果想用Frequencies过程得到我们所熟悉的频数表,请先用第二章学过的Recode过程产生一个新变量来代表所需的各组段。6.1.1界面说明Frequencies对话框的界面如下所示:该界面在SPSS中实在太普

3、通了,无须多言,重点介绍一下各部分的功能如下:【Displayfrequencytables复选框】确定是否在结果中输出频数表。【Statistics钮】单击后弹出Statistics对话框如下,用于定义需要计算的其他描述统计量。现将各部分解释如下:PercentileValues复选框组定义需要输出的百分位数,可计算四分位数(Quartiles)、每隔指定百分位输出当前百分位数(Cutpointsforequalgroups)、或直接指定某个百分位数(Percentiles),如直接指定输出P2.5和P97.5。Centraltendency复选框组用于定义描述集中趋势的一组指标:均数(Me

4、an)、中位数(Median)、众数(Mode)、总和(Sum)。oDispersion复选框组用于定义描述离散趋势的一组指标:标准差(Std.deviation)、方差(Variance)、全距(Range)、最小值(Minimum)、最大值(Maximum)、标准误(S.E.mean)。Distribution复选框组用于定义描述分布特征的两个指标:偏度系数(Skewness)和峰度系数(Kurtosis)。Valuesaregroupmidpoints复选框当你输出的数据是分组频数数据,并且具体数值是组中值时,选中该复选框以通知SPSS,免得它犯错误。站众数(Mode)指所有数值中出现频

5、率最高的一个值,在国内用的非常少。【Charts钮】弹出Charts对话框,用于设定所做的统计图。Charttype单选钮组定义统计图类型,有四种选择:无、条图(Barchart)、圆图(Piechart)、直方图Histogram),其中直方图还可以选择是否加上正态曲线(Withnormalcurve)。ChartValues单选钮组定义是按照频数还是按百分比做图(即影响纵坐标刻度)。【Format钮】弹出Format对话框,用于定义输出频数表的格式,不过用处不大,一般不管。oOrderby单选钮组定义频数表的排列次序,有四个选项:Ascendingvalues为根据数值大小按升序从小到大作

6、频数分布;Descendingvalues为根据数值大小按降序从大到小作频数分布;Ascendingcounts为根据频数多少按升序从少到多作频数分布;Descendingcounts为根据频数多少按降序从多到少作频数分布。oMultipleVariables单选钮组如果选择了两个以上变量做频数表,则Comparevariables可以将他们的结果在同一个频数表过程输出结果中显示,便于互相比较,Organizeoutputbyvariables则将结果在不同的频数表过程输出结果中显示。oSuppressTablesmorethan.复选框当频数表的分组数大于下面设定数值时禁止它在结果中输出,这

7、样可以避免产生巨型表格。6.1.2分析实例例6.1某地101例健康男子血清总胆固醇值测定结果如下,请绘制频数表、直方图,计算均数、标准差、变异系数CV、中位数M、p2.5和p97.5(卫统第三版p2331.1题)。TOC o 1-5 h z4.773.376.143.953.564.234.314.715.694.124.564.375.396.305.217.225.543.935.214.125.185.774.795.125.205.104.704.743.504.694.896.255.324.504.633.614.444.434.254.035.854.093.354.084.79

8、5.304.973.183.975.165.105.864.795.344.244.324.776.366.384.885.553.044.553.354.874.175.855.165.094.524.384.314.585.726.554.764.614.174.034.473.403.912.704.604.095.965.484.404.553.894.604.473.644.345.186.143.244.903.05解:为节省篇幅,这里只给出精确频数表的做法,假设数据已经输好,变量名为X,具体解法如下:Analyze=DescriptiveStatistics=Frequencie

9、sVariables框:选入X单击Statistics钮:选中Mean、Std.deviation、Median复选框单击Percentiles:输入2.5:单击Add:输入97.5:单击Add:单击Continue钮单击Charts钮:选中Barcharts单击Continue钮单击OK得出结果后手工计算出cv。炉上面做出的直方图分组太多,需要进一步编辑。6.1.3结果解释上题除直方图外的的输出结果如下:FrequenciesStatistics忖Validhlissirig101Ijh.dean4.699505Median4.8-10000Std.Deuiation.861S15F1ere

10、entiles2.53.i:i455i:ii:i97.56.45B500最上方为表格名称,左上方为分析变量名,可见样本量N为101例,缺失值0例,均数Mean=4.69,中位数Median=4.61,标准差STD=0.8616,P2.5=3.04,P97.5=6.45。XCumuIativsFrequencyF&rcentVa1idF1ercentF1en:PritWalid2.700011.01.01.03.i:KiU11.01.02.03.050011.01.03.02.-1SIJU11JJ1.u4.u3.2iU11.01.05.0系统对变量X作频数分布表(此处只列出了开头部分),Vail

11、d右侧为原始值,Frequency为频数,Percent为各组频数占总例数的百分比(包括缺失记录在内),Validpercent为各组频数占总例数的有效百分比,CumPercent为各组频数占总例数的累积百分比。6.2Descriptives过程Descriptives过程是连续资料统计描述应用最多的一个过程,他可对变量进行描述性统计分析,计算并列出一系列相应的统计指标。这和其他过程相比并无不同。但该过程还有个特殊功能就是可将原始数据转换成标准正态评分值并以变量的形式存入数据库供以后分析。6.2.1界面说明【Savestandardizedvaluesasvariables复选框】确定是否将原

12、始数据的标准正态评分存为新变量。【Options钮】弹出Options对话框,大部分内容均在前面Frequences过程的Statistics对话框中见过,只有最下方的DisplayOrder单选钮组是新的,可以选择为变量列表顺序、字母顺序、均数升序或均数降序。6.2.2结果解释下面是一个典型的Descriptives过程结果统计表:Descrip=7.2)Stemwidth:1.0000Eachleaf:1case(s)以上是茎叶图,整数位为茎,小数位为叶。这样可以非常直观的看出数据的分布范围及形态,在国外非常流行。CflfiTill以上是箱式图,中间的黑粗线为均数,红框为四分位间距的范围,

13、上下两个细线为最大、最小值。6.4Crosstabs过程Crosstabs过程用于对计数资料和有序分类资料进行统计描述和简单的统计推断。在分析时可以产生二维至n维列联表,并计算相应的百分数指标。统计推断则包括了我们常用的X2检验、Kappa值,分层X2(X)。如果安装了相应模块,还可计算n维列联表的确切概率(FishersExactTest)值。Crosstabs过程不能产生一维频数表(单变量频数表),该功能由Frequencies过程实现。6.4.1界面说明【Rows框】用于选择行*列表中的行变量。【Columns框】用于选择行*列表中的列变量。【Layer框】Layer指的是层,对话框中的

14、许多设置都可以分层设定,在同一层中的变量使用相同的设置,而不同层中的变量分别使用各自层的设置。如果要让不同的变量做不同的分析,则将其选入Layer框,并用Previous和Next钮设为不同层。Layer在这里用的比较少,在多元回归中我们将进行详细的解释。【Displayclusteredbarcharts复选框】显示重叠条图。【Suppresstable复选框】禁止在结果中输出行*列表。【Exact钮】针对2*2以上的行*列表设定计算确切概率的方法,可以是不计算(Asymptoticonly)、蒙特卡罗模拟(MonteCarlo)或确切计算(Exact)。蒙特卡罗模拟默认进行10000次模拟

15、,给出99%可信区间;确切计算默认计算时间限制在5分钟内。这些默认值均可更改。如果你在安装SPSS时没有安装EXACT模块,则此处对话框中不会出现Exact钮。在3*3及以上的行*列表中,确切概率的精确计算是极为漫长的过程。我曾经用SAS6.12在P133机上计算过一个12格表的确切概率,整整跑了两个小时后,SAS告诉我说机器内存不足:(。SPSS的计算速度比SAS要慢许多倍,因此一般只需要选用蒙特卡罗模拟算出概率值的99%可信区间就行了,精度完全可以满足需要,而速度极快(10000次模拟一般耗时在10秒左右)。【Statistics钮】弹出Statistics对话框,用于定义所需计算的统计量

16、。oChi-square复选框:计算X2值。oCorrelations复选框:计算行、列两变量的Pearson相关系数和Spearman等级相关系数。Norminal复选框组:选择是否输出反映分类资料相关性的指标,很少使用。Contingencycoefficient复选框:即列联系数,其值界于01之间;PhiandCramersV复选框:这两者也是基于X2值的,Phi在四格表X2检验中界于-11之间,在R*C表X2检验中界于01之间;CramersV则界于01之间;Lambda复选框:在自变量预测中用于反映比例缩减误差,其值为1时表明自变量预测应变量好,为0时表明自变量预测应变量差;Unce

17、rtaintycoefficient复选框:不确定系数,以熵为标准的比例缩减误差,其值接近1时表明后一变量的信息很大程度来自前一变量,其值接近0时表明后一变量的信息与前一变量无关。Ordinal复选框组:选择是否输出反映有序分类资料相关性的指标,很少使用。Gamma复选框:界于01之间,所有观察实际数集中于左上角和右下角时,其值为1;Somersd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例;Kendallstau-b复选框:界于-11之间;Kendallstau-c复选框:界于-11之间;oEta复选框:计算Eta值,其平方值可认为是应变量受不同因素影响所致方差的比

18、例;oKappa复选框:计算Kappa值,即内部一致性系数;oRisk复选框:计算比数比OR值;oMcNemanr复选框:进行McNemanr检验(一种非参检验);oCochransandMantel-Haenszelstatistics复选框:计算X2统计量(分层X2,也有写为X2的),可在下方输出H假设的OR值,默认为1。CMH0【Cells钮】弹出Cells对话框,用于定义列联表单元格中需要计算的指标:oCounts复选框组:是否输出实际观察数(Observed)和理论数(Expected);oPercentages复选框组:是否输出行百分数(Row)、列百分数(Column)以及合计百

19、分数(Total);Residuals复选框组:选择残差的显示方式,可以是实际数与理论数的差值(Unstandardized)、标化后的差值(Standardized,实际数与理论数的差值除理论数),或者由标准误确立的单元格残差(Adj.Standardized);Format钮】用于选择行变量是升序还是降序排列。分析实例例6.2某医生用国产呋喃硝胺治疗十二指肠溃疡,以甲氰咪胍作对照组,问两种方法治疗效果有无差别(医统第二版P37例3.10)?处理愈合未愈合合计呋喃硝胺54862甲氰咪胍442064合计9828126解:由于此处给出的直接是频数表,因此在建立数据集时可以直接输入三个变量一一行变

20、量、列变量和指示每个格子中频数的变量,然后用WeightCases对话框指定频数变量,最后调用Crosstabs过程进行X2检验。假设三个变量分别名为R、C和W,则数据集结构和命令如下:RCW1.001.0054.001.002.0044.002.001.008.002.002.0020.00Data=WeightCasesWeightCasesby单选框:选中FreqencyVariable:选入W单击OK钮Analyze=DescriptiveStatistics=CrosstabsRows框:选入RColumns框:CStatistics钮:Chi-square复选框:选中:单击Cont

21、inue钮单击OK钮结果解释上题的结果如下:CrosstabsCaseProcessingSummary匚目庄5:Validh1issinTo-talMPureent忖Percynt忖FerccntRsC1260w126他心啊首先是处理记录缺失值情况报告,可见126例均为有效值。R1CCrosstabulationCountcTotdl1.002.00F:1.0054449:=:2.0CsTotal6264126上面为列出的四格表,实际使用时可以在其中加入变量值标签,使看起来更清楚。Chi-SquareTes+sVa1uedf.凸刊ttip.Siq.(2-sided:iE:占ctSiq.(2-sided)ExactSiq.L/1-sided)PearsijnChi-Square6.-1331.013ContinuilyCorrction

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论