第三讲 统计描述.ppt_第1页
第三讲 统计描述.ppt_第2页
第三讲 统计描述.ppt_第3页
第三讲 统计描述.ppt_第4页
第三讲 统计描述.ppt_第5页
已阅读5页,还剩105页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三讲 统计描述,在建立了数据文件之后,需要对数据作进一步的考察,如了解数据的基本特征,如数据的均值、标准差、四分位点,数据的分布形态等,这个过程称为对数据进行基本统计描述。所以说,数据的基本统计描述的目的是:了解数据的基本特征和基本分布形状,为进一步分析做好充分准备。 数据的基本统计描述方法:频数分析、探索分析及交叉列联表分析等,第三讲 统计描述性分析,第一节 统计数据的描述性分析 第二节 描述性分析的SPSS实现 第三节 SPSS中的多选项分析,所谓描述性统计分析,就是对一组数据的各种特征进行分析,以便于描述测量样本的各种特征及其所代表的总体的特征。描述性统计分析的项目很多,常用的如平均数

2、、标准差、中位数、频数分布、正态或偏态程度等等。这些分析是复杂统计分析的基础。,平均数、标准误,中位数、众数、全距,标准差、方差,四分位、十分位、百分位数,频数分布、峰度、偏度,标准分数及其线性转换,探索分析,交叉列联表分析,第一节 描述性统计量,一、集中趋势的测度,其他:分位数、截尾平均数,分位数(Quantile),把顺序排列的一组数据分割为若干相等部分的分割点的数值 。 分位数可以反映数据分布的相对位置(而不单单是中心位置)。 常用的有四分位数、十分位数、百分位数。 四分位数(Quartile):Q1 Q2 Q3 十分位数(Decile): D1 D2 D9 百分位数(percentil

3、e):P1 P2 P99,四分位数(Quartile),数据按大小顺序排序后把分割成四等分的三个分割点上的数值 。 在实际应用中四分位数的计算方法并不统一(数据量大时这些方法差别不大)。对原始数据: SPSS中四分位数的位置为(n+1)/4, 2(n+1)/4, 3 (n+1)/4。 Excel中四分位数的位置分别为(n+3)/4, 2(n+1)/4,(3 n+1)/4。 如果四分位数的位置不是整数,则四分位数等于前后两个数的加权平均。,十分位数,十分位数是将一组数据由小到大(或由大到小)排序后,用9个点将全部数据分为十等份,与9个点位置上相对应的变量称为十分位数,分别记为D1,D2,D9,表

4、示10%的数据落在D1下,20%的数据落在D2下,90%落在D9下。,百分位数,百分位数是将一组数据由小到大(或由大到小)排序后分割为100等份,与99个分割点位置上相对应的变量称为百分位数,分别记为P1,P2,P99,表示1%的数据落在P1下,2%的数据落在P2下,99%落在P99下。,(low quartile),(upper quartile),50%的观测值小于中位数,50%的观测值位于上下四分位数之间,50%的观测值大于中位数,截尾平均数(Trimmed Mean),截尾平均数是指去掉观察值中的极端值以后,根据剩下的观察值计算的平均数。,截尾平均数的统计意义,二、离散趋势的测度,其他

5、:四分位差、异众比率,四分位数差(InterQuartile Range),四分位数差:上四分位数值(Q3)减去下四分位数值的差(Q1),即Q3-Q1 四分位偏差:四分位数差除以2 特点: 反映离散趋势时比极差有效 可以避免极端值的干扰,一定程度上可以反映观察值的离散情况。 缺点:只利用了顺序位置信息。,异众比率,异众比率,指的是非众数的次数与全部变量值总次数的比率,即众数不能代表的那一部分变量值在总体中的比重。 异众比率的作用是衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性

6、越好。,三、统计数据的分布特征,统计数据的形态特征,偏态系数的含义,峰度系数的含义,峰度系数K0,与正态分布相比该分布一般为扁平、瘦尾,肩部较胖。,峰度系数K0,与正态分布相比该分布一般为尖峰、肥尾,肩部较瘦。,四、统计图形,柱形图或条形图(Bar chart) 用宽度相同的条形的高度或长短表示频数分布的变化的图形,适用于定类或定序变量的分析。 饼图(Pie chart) 即用圆形及圆内扇形的面积表示频数百分比的变化的图形,用于研究事物内部结构,适用于定类或定序变量的分析。 直方图(Histograms) 用矩形面积来表示频数分布变化的图形。适用于定距变量的分析。可以在直方图上附加正态分布曲线

7、,便于与正态分布的比较。,不同类型变量适用的集中趋势测度指标,为该类变量最适用的测度指标,总结,不同类型变量适用的离散趋势测度指标,为该类变量最适用的测度指标,第二节 描述性分析的SPSS实现,【描述统计】子菜单 频率:产生变量值的频数分布表,并可计算常见描述性统计量和绘制相对应的统计图。 描述:计算一般的描述性统计量。 探索:探索性分析,使用户能够从大量的分析结果之中挖掘到所需要的统计信息。,交叉表( Crosstabs):对分类变量进行统计推断,包括卡方检验、确切概率等,是SPSS重要的过程。 Ratio图:计算两个变量相对比的统计量特征。 P-P 图:绘制P-P图,检验数据服从的分布情况

8、。 Q-Q 图:绘制Q-Q图,检验数据服从的分布情况,SPSS的Frequencies过程,频数分析是在统计分组的基础上,对各组数据归类汇总。通过频数分析能够了解变量取值的情况,对把握数据的分布特征非常有用。 SPSS频数分析的目的: 编制频数分析表 频数、百分比、有效百分比、累比百分比等 绘制统计图 计算重要的描述性统计量,频数分析举例,例1:利用住房调查问卷调查数据,分析被调查家庭中文化程度、户口状况、目前所住房屋的产权状况。 操作步骤: 打开文件:住房状况调查.sav,按图表按纽绘制统计图形,输出百分位数: 输出四分位数,显示25%、50%、75%的百分位数; 将数据平均分为所设定的相等

9、等份,可输入2100 的整数,如键入4则输出第25、50、75百分位数 自定义百分位数,可输入0100 的整数。,离散趋势,分布形态栏,集中趋势栏,输出统计量对话框,结果:,摘要表,饼图:,例2,利用住房调查问卷调查数据,分析被调查家庭中人均住房面积状况。,未选频数分析表:为什么?,点“图表”按纽:,为什么选直方图?,带有正态分布曲线的直方图,点“统计量”按纽,这里大多数的选项都可用,为什么?,结果分析:,本例中,也可以先对人均住房面积进行分组,然后对分组后的数据进行分析。 如分组如下 10平米以下 1020 2030 3040 40以上 具体操作见演示,选择选项TransformRecode

10、 into different varable.,出现窗口:,生成一个新变最myfz,修改此变量的变量值标签。,点击AnalyzeDescriptive statistics-Frequencies,结果如下:,SPSS的“描述”过程,通过频数分析把握了数据的分布状况后,通常还要对定距型数据的分布特征有更为精确的认识,这就需要通计算基本描述统计量等途径来实现。 基本描述统计: 集中趋势 离散趋势 分布形态,例1.利用住房状况问卷调查数据,对人均住房面积计算基本描述统计量,并对本市户口和外地户口家庭进行比较。 操作步骤: 打开文件:住房状况调查.sav Analyze-Descriptive s

11、tatistics-Descriptives,对原始数据进行标准化,可以确定原始数据在总体分布中的位置,对不同分布的各种原始数据进行比较, 标准正态分布的均值是0,标准差是1,如Z=2, 表示这个值与均值(等于0)的距离是2个标准差,在总体中的位置是0.95。 在聚类分析及多元回归中都要用到标准分。标准化的意义在于过滤原始单位的影响。,通过标准化可以得到一系列新变量值,通常称为标准化值或z分数。计算标准化值可以通过对话框中的复选框“将标准化得分另存为变量”来实现,并将结果保存在一个新变量中。该变量的命名规则为字母z+原变量名的前七个字符。 对新变量进行排序并浏览其标准化值的取值情况,z分数值的

12、绝对值大于3的观察值,可作为异常值,但要注意:这一异常值的判断方法是假设数据呈正态分布。,68%,95%,约100%,经验法则,如果数据近于钟形分布,则有:约68%的数据项与均值的距离在1个标准差之内;95%的数据项与均值的距离在2个标准差之内;几乎所有的数据项与均值的距离在3个标准差之内。,方差与标准差,Options 对话框,基本统计量,当Variables框中有多个变量时,此框确定其输出顺序: 按Variables框中的排列顺序输出 按各变量的字母顺序输出 按均值的升序排列 按均值的降序排列,分布,分析结果:,SPSS的Explore分析过程,探索性分析(Explore):调用此过程可对

13、变量进行更为深入详尽的描述性统计分析,故称之为探索分析。 探索性分析一般是考察定距变量,探索性数据分析的内容包括如下: 1.检查数据是否有错误: 可通过绘制箱图和茎叶图等图形直观地反映数据的分布形式和数据的一些规律性,包括考察数据中是否存在异常值等。 过大或过小的数据均有可能是奇异值、影响点或错误数据。要找出这样的数据,并分析原因,然后决定是否从分析中删除这些数据。因为奇异值和影响点往往对分析的影响较大,不能真实反映数据的总体特征。 2.正态分布检验。常用的正态分布检验是Q-Q图。 3.方差齐性检验。对数据分析不仅需要进行正态分布检验,有时候还需要比较各个分组的方差是否相同,这就要进行方差齐次

14、性检验。例如,在进行独立右边的T检验之前,就需要事先确定两个数据的方差是否相同。,例1,住户调查数据,对人均住房面积数据按户口状况进行探索性分析。,选择一个或多个变量进入Dependent框作为分析变量,单击OK可获得分析变量的一系列基本统计量和图形。,此作为分组变量,可以是字符变量,对分析变量的分析将按该变量的观测值进行分组分析。可有多个分组变量,这时会按多个变量的交叉组合进行分组。,该框中的变量作为标识符,在输出诸如异常值时,用该变量进行标识,只允许有一个标识符。,可同时输出基本统计量和图形 只输出基本统计量 只输出图形,Explore 主对话框,输出基本统计量 均值的置信区间,可键入19

15、9%的任意值,根据该值算出置信区间的上下限。,给出中心趋势的最大似然比的稳健估计量,当数据分布均匀,且两尾较长,或当数据中存在极端值时,可给出比均值或中位数更合理的估计。,输出最大和最小的5个数,且在输出窗口中加以标明。,输出5%、10%、25%、50%、75%、90%和95%的百分位数。,Statistics对话框,Statistics子对话框:用于选择需要的描述统计量; descriptives:输出均值、中位数、众数、5%截尾均值、估计标准误、方差、标准差、最小值、最大值、全距、四分位差、峰度系数及其标准误、偏度系数及其标准误及指定的均值置信区间; m-estmators:做集中趋势的最

16、大稳健估计,该统计量是利用迭代方法计算出来的,受异常值的影响要小得多。如果该估计量离均值较远,则说明数据可能存在异常值,此时宜用该估计量替代均值以反映集中趋势。一共会输出四种m估计量,其中huber适用于数据接近正态分布时,另三种则适用于数据中有许多异常值的情况; outliers:输出五个最大值和五个最小值。 percentiles:输出第5%、10%、25%、50%、75%、90%、95%分位数。,plots子对话框:用于选择需要的统计图; boxplots复选框:确定箱式图的绘制方式,可以分组绘制(factor levels together),也可以不分组绘制(dependents t

17、ogether),或者不绘制(none) ; descriptive复选框:可以选择绘制茎叶图(stem-and-leaf)和直方图(histogram); normality plot with test:绘制正态分布图(QQ图),并进行变量是否符合正态分布的检验; Levene检验 :用于设置当存在分组变量时,可自动判断各组间的离散程度(方差)是否相同,并为此寻求一个比较合适的变量变换方法。此功能一般不用。,输出结果,摘要表,描述性统计量,均值的稳健估计:,百分位数:,当数据量较大,且基本无重复值时,两法的结果相同;反这,加权平均法应当比 Tukey法更加准确。,分别输出两个组中的最大5个

18、数和最小5个数,并且包括这些值对应的ID,如下表所示,正态性检验,从表的检验结果可以看出, (1)本市户口:假设检验的P值均小于0.05,拒绝呈正态分布的原假设; (2)外地户口:假设检验的P值均大于0.05,拒绝呈正态分布的原假设,注:Shapiro-wilk检验适合于3n50的小样本场合。 Kolmogorov-Simirnov适合于大样本场合。,输出方差齐次性检验结果,得出方差齐性检验的P值为0.1以下,故拒绝原假设, 认为不同户口的人均面积的方差是不相等的。,直方图:,茎叶图:,茎叶图 (stem-and-leaf),1.用于显示未分组的原始数据的分布 2.由“茎”和“叶”两部分构成,

19、其图形是由数字组成的 3.以该组数据的高位数值作树茎,低位数字作树叶 4.树叶上只保留一位数字 5.茎叶图类似于横置的直方图,但又有区别: 直方图可观察一组数据的分布状况,但没有给出具体的数值 茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息 6.图的下方会标示出茎宽和实际值的倍数,每行的茎和叶组成的数字再乘以茎宽,即得到实际数据的近似值如茎宽为10,则图中的2.3代表23,同样在图的下方也会标示出每片叶子代表的记录数。,例:未分组数据茎叶图,正态概率图((Quantile Quantile plot ,简称QQ 图) ),如果数据来自正态分布, 图形的散点应该呈现

20、一条直线,正态概率图QQ图,QQ图是一种散点图,对应于正态分布的QQ图,就是由标准正态分布的分位数为横坐标,样本值为纵坐标的散点图. 要利用QQ图鉴别样本数据是否近似于正态分布,只需看QQ图上的点 是否近似地在一条直线附近,而且该直线的斜率为标准差,截距为均值. 用QQ图还可获得样本偏度和峰度的粗略信息. 但该图毕竟还是粗略的,更准确的判断需要进行正态性检验,如前面提到的K-S检验或S-W检验。,箱线图,箱线图,箱线图(Boxplot)也称箱须图(Box-whisker Plot),是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地

21、看出数据是否具有有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。 箱线图优点: 1.直观明了地识别数据批中的异常值:小于Q1-1.5QR或大于Q3+1.5QR 的作为异常值,其中:QR=Q3-Q1。 2.利用箱线图判断数据批的偏态和尾重 3.利用箱线图比较几批数据的形状 不足: 不能提供关于数据分布偏态和尾重程度的精确度量; 对于批量较大的数据批,箱线图反映的形状信息更加模糊; 用中位数代表总体平均水平有一定的局限性等等。,Bootstrap方法(自助法),经典统计学的参数估计方法无一例外需要先对变量的分布进行假定,然后才能进行相应的计算;并且,经典统计学对均值的参数估计,特别是

22、区间估计的研究比较完善,但对其他一些分布参数如中位数、四分位数、标准差等的区间估计的研究则较少,这无疑是方法体系上的一大缺憾。 Bootstrap方法由Efron于1979年提出,是基于大量计算的一种模拟抽样推断方法,它的使用主要出于两种目的:(1)判断原参数估计值是否准确;(2)计算出更准确的置信区间,判断得出的统计学结论是否正确。,bootstrap法,又称自助法,或靴襻法,其核心思想和基本步骤如下: (1) 采用重抽样技术从原始样本中抽取一定数量(自己给定)的样本,此过程允许重复抽样。 (2) 根据抽出的样本计算给定的统计量T。 (3) 重复上述N次(一般大于1000),得到N个统计量T

23、。 (4) 计算上述N个统计量T的样本方差,得到统计量的方差。 应该说Bootstrap是现代统计学较为流行的一种统计方法,在小样本时效果很好。通过方差的估计可以构造置信区间等,其运用范围得到进一步延伸。 SPSS目前在许多过程的对话框中均纳入了Bootstrap模块。,例:对人均住房面积的均值、标准差、中位数、偏度、峰度等进行bootstrap方法的参数点估计和区间估计。,执行bootstrap:要求进行bootstrap抽样,样本数默认为1000次,一般不需要修改。 设置Mersenne Twister种子:使用该选项可以自行设定随机种子,从而在设定相同随机种子的情况下,可得到完全相同的分

24、析结果。 置信区间:默认为用百分位数法计算出95%置信区间,如希望得到更为精确的结果,可使用偏差修正加速(BCa)来调整区间,但此时计算需要更长时间。 抽样:默认为简单随机抽样,也可以通过指定分层变量来实现分层抽样。,Bootstrap输出结果:,当采用Bootstrap抽样得到的结果与经典统计学明显不同时,则说明变量分布 很可能违反了经典统计学的前提假设,例如呈偏态分布,或者可能存在明显的 极端值,此时,基本上应该以bootstrap方法计算出的点估计和区间估计为准来加 以使用。,此列为Bootstrap 方法得到的结果 与普通方法得到 结果的差异。,普通分析的结果,作为对比,下表给出了经典

25、方法的输出结果(见操作):,第三节 分类变量的统计描述,一、分类数据 统计数据类型:分类数据(定类、定序)和数值型数据(定距、定比)。 数值型数据也可以转化为分类数据 例如,“收入”是一个数值型数据,但可以按照一定标准把不同收入的被调查者分为不同的类型,如“高收入”、“较高收入”、“中等收入”等。研究文化程度与收入间的关系,也可以采用列联分析的方式。,二、分类变量的统计描述 单个分类变量的统计描述 频数分布:如各类别的样本数有多少,以及各类别占总样本量的百分比各为多少等。对于定序数据,还需要计算相应的累计频数和累计百分比等。 集中趋势:如众数、中位数等。 多个分类变量的联合描述 列联表(con

26、tingency table)是由两个以上的变量进行交叉分类的频数分布表。 如:,列联表的结构(r c 列联表的一般表示),列(cj),行(ri),fij 表示第 i 行第 j 列的观察频数,列联表:由两个以上的变量交叉分类的频数分布表 行变量:态度变量,类别用 r 表示, ri 表示第 i 个类别 列变量:单位变量,类别用 c 表示, cj 表示第 j 个类别 每种组合的观察频数用 fij 表示 表中列出了行变量和列变量的所有可能的组合 一个 r 行 c 列的列联表称为 r c 列联表,列联表的结构(2 2 列联表),列(cj),行 (ri),多选题的统计描述: 多选题是调查问卷中极为常见的

27、调查题目类型,第2章已对其录入方式进行了讲解,由于它所收集的数据也属于分类数据,因此,本章将继续讲解对于这类多选题如何进行描述分析。 以标准的多重二分法为例,多选题会使用多个变量加以记录,当然,可以对每一个单独的题项/变量进行统计描述,但这样做是不全面的,因为这些变量实际上回答的是一个大问题,将问题割裂开来可能会导致不正确的分析结果,而且无法计算一些汇总指标。 在多选题分析中比较特别的描述指标有以下4个: (1)应答人数(count):是指选择各选项的人数,或者说是原始频数。 (2) 应答人数百分比(Percent of Case):选择该项的人占总人总数的比例,应答人数百分比可以反映该选项在

28、人群中的受欢迎程度。 (3)应答人次(Response):是指选择各选项的人次,对于单个选项,应答人次和应答人数是相同的,但是对整个问题而言,应答人次可能远远大于应答人数,因为如果一个受访者选择了两个选项,则将会被计为1个人数,2个人次。 (4)应答次数百分比(Percent of Response):在做出的所有选择中,选择该选项的人次占总人次数的比例。应答次数百分比可以用于比较不同选项的受欢迎程度。,三、SPSS中的相应功能,SPSS的许多分析过程均可完成分类变量统计描述的任务,常用的有:位于描述统计子菜单下的“频率”过程和“交叉表”过程,以及“多重响应”子菜单,频率过程:主要针对单个分类

29、变量的统计描述,如频数、百分比、众数等,以及直接用于分类变量的条图、饼图等。这些前面已经介绍。 交叉表过程:其强项在于两个/多个分类变量的联合描述,可产生二维至n维列联表,并计算相应的行/列合计百分比,行/列汇总指标等。 多重响应子菜单:专门用于对多选题变量集进行设定和统计描述,包括多选题的频数表和交叉表均可制作,可以满足基本的多选题分析需求。,案例:对保险市场调查.sav中受访者的学历等背景变量进行描述。,使用频率过程进行描述,相应的可继续对性别、婚姻状况、工作单位性质等分类变量进行分析。,使用交叉表过程进行描述 如果研究者希望知道性别和学历的交叉频数分布,以及各种百分比的情况,就需要交叉过

30、程。,该框中的变量作为分布表中的行变量和列变量。,该框中的变量作为控制变量,决定频数分布表中的层,可有多个控制变量。,显示每一组中各变量的分类条形图。,只输出统计量,不输出多维列联表。,主对话框: 如果进行二维列联表分析,则将行变量选择到Row(s)框中,将列变量选择到Column(s)框中。 如果Row(s) 和Column(s)框中有多个变量名,SPSS会将行列变量一一配对后产生多张二维列联表。 如果进行三维或多维列联表分析,则将其他变量作为控制变量选到Layer框中。多控制变量间可以是同层次的,也可以是逐层叠加的,可通过Previous或Next按钮确定控制变量间的层次关系。 “精确”按钮

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论