浅析计量资料的统计描述.doc_第1页
浅析计量资料的统计描述.doc_第2页
浅析计量资料的统计描述.doc_第3页
浅析计量资料的统计描述.doc_第4页
浅析计量资料的统计描述.doc_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计量资料的统计描述描述性统计分析是进行统计分析的第一步,做好这一步是正确进行统计推断的先决条件。计量资料常用的统计描述指标和方法主要有:1、集中趋势指标(Central Tendency):包括均数、几何均数、中位数等。其中均数适用于正态分布和对称分布资料;几何均数适用于对数正态分布和呈等比的数据资料;中位数适合于所有分布类型的资料,但在实际中,中位数主要应用于偏态分布资料、分布不明资料和开口资料。2、离散趋势指标(Dispersion):包括全距、四分位数间距、 方差、标准差、变异系数、标准误等。方差、标准差用于正态分布资料,四分位数间距用于偏态分布资料,变异系数用于度量单位不同和均数相差悬殊的资料,标准误用于反映样本均数的离散程度,说明均数抽样误差大小。SPSS的许多模块均可完成描述性统计分析,但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中,最常用的是列在最前面的四个过程:Frequencies过程:产生频数表;按要求给出某百分位数。对计量资料、计数资料和等级资料的描述都适用Descriptives过程:进行一般性的统计描述,用于服从正态分布的资料,计算产生均数、标准差等;Explore过程:用于对数据概况不清时的探索性分析;Crosstabs过程:完成计数资料和等级资料的统计描述和一般的统计检验,我们常用的X2 检验也在其中完成。本次实习练习前3个过程:Frequencies过程,Descriptives过程,Explore过程。Crosstabs过程在X2 检验实习讲述。Frequencies过程案例:某地101例健康男子血清总胆固醇值测定结果如下,请绘制频数表、直方图,计算均数、标准差、变异系数CV、中位数M、p2.5和p97.5。4.77 3.37 6.14 3.95 3.56 4.23 4.31 4.71 5.69 4.12 4.56 4.37 5.39 6.30 5.21 7.22 5.54 3.93 5.21 4.12 5.18 5.77 4.79 5.12 5.20 5.10 4.70 4.74 3.50 4.69 4.38 4.89 6.25 5.32 4.50 4.63 3.61 4.44 4.43 4.25 4.03 5.85 4.09 3.35 4.08 4.79 5.30 4.97 3.18 3.97 5.16 5.10 5.86 4.79 5.34 4.24 4.32 4.77 6.36 6.38 4.88 5.55 3.04 4.55 3.35 4.87 4.17 5.85 5.16 5.09 4.52 4.38 4.31 4.58 5.72 6.55 4.76 4.61 4.17 4.03 4.47 3.40 3.91 2.70 4.60 4.09 5.96 5.48 4.40 4.55 5.38 3.89 4.60 4.47 3.64 4.34 5.18 6.14 3.24 4.90 3.05一、建立数据文件1、定义变量:在数据窗口,点击Variable View ,定义一个变量,变量名(Name)“x”,类型(Type)“数值(Numeric)”,宽度(Width)8,小数位数(Decimals)2,变量标签(Label):“血清总胆固醇”。(2)输入数据:二、求最大值、最小值、全距(R),确定组距和组段 由于SPSS给出精细的频数分布表(列出每个观察值的频数),不能指定组距和组段,需要人工制定,故求出组距,确定组距和组段,对数据重新编码后在做频数分析Analyze=Descriptive Statistics=Descriptives在Variable(s)框选入血清总胆固醇(x),= Options,点击Range旁边的复选框,=Continue结果输出资料的最大值是7.22,最小值是2.70,全距是4.52。则频数表的组距 I=R/10=0.452,取0.5。第1组段的下限取2.7,最后一个组段是7.27.7,共分10个组段。三、对原始数据进行分组根据上述划分的组段,用Recode命令对数据进行分组。操作方法:Analyze=Transform=Recode= Into Different Variables在Numeric Variable - Output 选入 X ,在 Output Vable 窗口的Nane对话框中填入X1(新变量名),在Label框中添入“血清总胆固醇分组”(对x1进行标签)。= Change = Old and New Values 在Old Value 框中,选择Range , 分别输入每个组段血清总胆固醇值的范围;在New Valuable 中,在Value 框中输入每个组段血清总胆固醇新的值(分别用110代表)。= Continue= OK 运行后产生新的变量x1, 其值110,最好对x1的值定义标签,以便在统计分析的结果中明确1-10所对应的数值范围。四、对原始数据(变量X)进行Frequencies过程分析Analyze=Descriptive Statistics=Frequencies Variables框:选入X 单击Statistics钮: 选中Mean、Std.deviation、Median复选框 单击Percentiles:输入2.5:单击Add:输入97.5:单击Add: 单击Continue钮 单击Charts钮: 选中Histograms (绘制直方图,若选择了 With normal curve 则输出带有正态曲线的直方图) 单击Continue钮 单击OK得出结果后手工计算出CV。结果如下:最上方为表格名称,左上方为分析变量名,可见样本量N为101例,缺失值0例,均数Mean=4.6995,中位数Median=4.6100,标准差STD=0.8616,P2.5=3.0455,P97.5=6.4565。偏度系数(Skewness)0.251, 偏度系数标准误(Std.Error ofSkewnes) =0.240,峰度系数(Kurtosis)=0.101, 峰度系数标准误(Std.Error of Kurtosis)=0.476。 偏度系数和峰度系数除各自的标准误即为u值,若都小于1.28,则可以认为资料服从正态分布。该资料这两个值分别为1.05和0.212,可以认为该资料服从正态分布。系统对变量x作频数分布表(列出每个值的频数,由于表太长,此处只列出了开头部分),Vaild右侧为原始值,Frequency为频数,Percent为各组频数占总例数的百分比(包括缺失记录在内),Valid percent为各组频数占总例数的有效百分比,Cum Percent为各组频数占总例数的累积百分比。下图绘制的直方图,左侧的图形不添加正态曲线,右侧的图形添加有正态曲线,可见这资料的分布和正态曲线比较吻合。五、对重新分组的数据(X1)进行Frequencies过程分析Analyze=Descriptive Statistics=Frequencies Variables框:选入X1 单击Charts钮: 选中Bar charts (输出直条图)单击Continue钮 单击OK结果输出:对重新分组后的数据X1作频数分析,得出我们所熟悉的频数表,其中组段6.7的频数为 0。由于x1的数据已经重新定义为110,故不宜计算均数、标准差等指标,也不宜计算百分位数。若要计算这些指标,应使用原始数据计算,见上例结果。结果输出了直条图,能直观反映出各个组段的频数(注:连续性频数分布资料应该绘制直方图,但在这里选择绘制直方图效果不好)。Descriptives过程Descriptives过程是连续性资料统计描述应用最多的一个过程,他可对变量进行描述性统计分析,计算并列出一系列相应的统计指标。这和其他过程相比并无不同,但该过程还有个特殊功能就是可将原始数据转换成标准正态评分值并以变量的形式存入数据库供以后分析。案例1:上述对101例血清胆固醇值进行统计描述1、建立数据文件(见前面)2、统计分析过程(1)Analyze=Descriptive Statistics=Descriptives(2)在Variable(s)框选入血清总胆固醇(x),(3)单击 Options按钮;(4)选中Mean、Std.Devivation、Minimum、Maximum 、Range、Variance、 S.E.mean旁边的复选框(计算均数、标准差、方差、最大值、最小值及全距)(5)单击Continue 按钮;(6)单击 OK。结果案例2110名7岁男童身高频数分布资料如下表,对该资料进行统计描述。 身高 110 112 114 116 118 120 122 124 126 128 130 132 134136组中值 111 113 115 117 119 121 123 125 127 129 131 132 135频数 1 3 9 9 15 18 21 14 10 4 3 2 1上表为计量资料的频数表,描述性统计分析方法如下:【操作方法】1、建立数据文件设立两个变量:分析变量High(输入身高的组中值),频数变量F,输入各个组段的频数。 HighF111111331159:2、统计分析过程(1)Data = Weight Cases. = Weight Cases by =Frequency Variable框中选入:F (按F对数据进行加权)=OK (2)Analyze=Descriptive Statistics=Frequency在Variable(s)框选入x,(3)单击 Statistic按钮;选中Quartile 、Mean、Median、Std.Devivation、Minimum、Maximum 、Range、Variance、S.E.mean 、Skewness、Kurtosis旁边的复选框(四分位间距、计算均数、标准差、方差、最大值、最小值及全距、偏度系数、峰度系数及其标准误) 选种 Value are group midpoimt (说明数据是频数表资料,并且使用组中值进行计算)(4)单击Continue 按钮;(5)单击Charts. 按钮; 选种 Histograms(绘制直方图);(6)单击Continue 按钮;(7)单击 OK。结果Explore过程Explore过程可对变量进行更为深入详尽的描述性统计分析,主要用于对资料的性质、分布特点等完全不清楚时进行分析,故又称之为探索性分析。它在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,如茎叶图、箱式图等,显得更加详细、全面,有助于用户制定继续分析的方案。案例:上述对101例血清胆固醇值进行Explore过程1. Analyze=Descriptive Statistics=Explore2. 在Dependent List:框:选入X 3. 单击Statistics钮: 选中M-Estimator、Outlier复选框(Descriptives 为默认选择项) 4. 单击Continue钮 5. 单击Plots钮: 选中Normality Plots With tests (绘制QQ正态概率图和趋势QQ正态概率图) 6. 单击Continue钮 7. 单击OK结果:首先是例行的处理记录缺失值情况报告,可见101例均为有效值。上表详细列出了常用的描述统计量,如果有标准误也会列出(如偏度和峰度系数)。其输出内容的统计量,从上到下依次是:均数(及其标准误)、均数95%可信区间的下限和上限值、去除5%极端值后的均数、中位数、方差、标准差、最小值、最大值、全距、四分位数间距、偏度系数(及标准误)、峰度系数(及标准误)。上表为M统计量,列出了四种M统计结果:Huber、Tukey、Hampel、Andrew,这四个结果很接近,且与均数相差不大。这些结果说明该数据分布偏性不大,均数可以代表数据的集中趋势。上表列出最大和最小5个值及其记录号,这些值可以看作极端值(Extreme value)。上表为正态性检验结果,统计量为0.072,P值为0.200,可以认为该资料服从正态分布。血清总胆固醇 Stem-and-Leaf Plot Frequency Stem & Leaf 1.00 2 . 7 8.00 3 . 00123334 9.00 3 . 556689999 24.00 4 . 000001111222333333344444 25.00 4 . 5555556666677777777788899 17.00 5 . 01111111222333334 9.00 5 . 556778889 6.00 6 . 112333 1.00 6 . 5 1.00 Extremes (=7.2)Stem width: 1.00 Each leaf: 1 case(s)以上是茎叶图,整数位为茎,小数位为叶。这样可以非常直观

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论