描述性统计分析的spss实现_第1页
描述性统计分析的spss实现_第2页
描述性统计分析的spss实现_第3页
描述性统计分析的spss实现_第4页
描述性统计分析的spss实现_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章 描述性统计 我们把对某一个问题的研究对象的全体称为总体,总体就是一个具有确定分布的随机变量我们统计分析的目的是通过从总体中抽得的样本,对总体分布进行推断,要想较准确的推断出总体的分布,首先要对样本的分布状况有一个基本的了解,这一章就是介绍用以描述样本分布状况的一些常用统计分析方法,这些方法既直观又简单,而且也很实用1.1频数分析与图形表示一、总体X为只取少数个值的离散型随机变量 例1.1.1考察一枚骰子是否均匀,设计实验如下:独立地掷这枚骰子42次,所得点数纪录如下: 3 2 4 1 5 1 5 3 4 3 5 6 4 2 5 3 1 3 4 1 4 3 1 6 3 3 1 2 4 2 6 3 4 6 6 1 6 2 4 5 2 6X为掷一枚均匀的骰子一次所得的点数 X1234567688671/61/74/214/211/71/6 二、当总体X取较多离散值或X为连续取值时 设是总体X的一组样本观测值,具体做法如下:求出和,取a略小于,b略大于;将区间a,b分成m个小区间(mn),小区间长度可以不等,分点分别为 a =b注意:使每个小区间中都要有一定量的观测值,且观测值不在分点上。划分区间个数的确定:区间过少:分布信息混杂,丢失信息区间过多:出现很多空区间区间划分个数m依赖于样本总数n,理论上有如下两个公式可参考: Moore(1986) : m C,C = 13; Sturges(1928) : m 1+3.322(lg n);用表示落在小区间(,中观测值的个数(频数)并计算频率=(j=1,2,m);在直角坐标系x-o-y的x轴上标出,分别以(,为底边,以为高作矩形,即得频数条形图。例1.1.2下表是某大学总数为从352名学生的“普通统计学”考试的成绩中,随机抽取的60位学生的成绩63 76 83 91 45 81 93 30 72 80 82 83 81 76 67 84 72 58 83 64 93 63 75 9974 76 95 91 83 61 82 85 83 44 88 72 66 94 68 78 88 71 94 85 82 79 100 9083 88 84 48 72 80 85 80 87 76 62 96对上述数据作频数分析并画出条形图。解 分析 区间个数:n=60 ,用Moore公式计算得C*5.123,这里C=1合适,取区间m = 6用Sturges公式计算得区间m = 6.907, 取区间m = 6 区间划分 10分一区间区间30,3940,4950,5960,6970,7980,8990,100频数1318132311 重新划分区间30,5960,6869,7677,8485,9290,100频数5712181081.2直方图与经验分布函数 我们往往希望通过来自总体的一个样本能对总体X的分布有一个大概的估计,常用的方法是直方图与经验分布函数一直方图直方图是利用样本所构造的函数来估计总体的分布密度函数设是总体X的一组样本观测值,X的分布密度为f具体做法如1.1中的做法,只是:在直角坐标系x-o-y的x轴上标出,分别以(,为底边,/为高作矩形,=-(j=1,2,m),即得直方图用直方图来近似总体的分布密度函数的实质是:用直方图所对应的分段函数 =/ x(,,j=1,2,m来近似总体的分布密度函数f(x)由于当n充分大时可用X 取(,的频率=来近似x(,的概率即 P(X(,)(n充分大)而P(X(,)=,即且当m充分大,较小时,对x(,)时 故有 即 =/, x(,,j=1,2,m例1.2.1做出例1.1.2中考试成绩的直方图区间30,59(59,68(68,76(76,84(84,92(92,10029877785712181080.0830.1170.20.30.1670.133/0.0030.0150.029.0.0430.0240.017二经验分布函数 利用样本所构造的函数来估计总体X的分布函数。构造的方法如下:从总体X中抽取容量为n的样本,, ,为样本观察值将样本观察值从小到大排列得到,对任意实数x,令= 称为总体的经验分布函数(或样本分布函数) 经验分布函数图由的定义可知(1)单调、非降、右连续,在x = 处有间断点,在每一个间断点上的跳跃量都是,显然,01且满足= 0,= 1 ,所以是一分布函数,其图象如上。 (2)对于x的每一个值,为样本,的函数,因而是一个随机变量,其可能取的值为0,1事件“=”发生,意味着样本,中有k 个小于等于x,而其余n-k个大于x,即有k 个事件“x”发生,而有n-k个事件“x”不发生( 1n,1n,s =1,2, ,n)由于,相互独立,具有相同的分布函数F(x)(总体X的分布函数),于是事件“=”发生的概率等价于n次独立试验中事件“Xx”发生k次,而其余n-k次“Xx”不发生的概率,即P = (3)事实上,对于x的任一个确定的值,是事件“Xx”发生的频率,而F (x)=P(Xx)是事件“Xx”发生的概率于是由贝努里大数定理知,当n足够大时,依概率收敛到F(x),即对任意给定的0,有 P|F(x)|=0这一事实揭示了经验分布函数与总体分布函数F (x)的内在联系,即当样本容量n足够大时,由样本得到的经验分布函数与总体分布函数F(x)相差较大的可能性是很小的进一步的结果由格列汶科于1933年给出定理1.2.1(格列汶科定理)设总体X的分布函数为F (x),经验分布函数为对于任意实数x,记 |F(x)|则有 P = 0 = 1格列汶科定理指出:当样本容量n足够大时,经验分布函数与总体分布函数F(x)相差最大处概率为1地趋于零这就是我们在数理统计中可以用样本去推断总体的理论依据1.3 描述样本数据分布特征的统计量一描述位置的统计量描述样本数据位置的统计量:样本均值、中位数、上下四分位数和众数、1 样本均值(Mean) (中心位置)(1)n个不同的值 样本均值:= (2)个不同的值及每个值出现的频数,列表如下: 表1.3.1合计n = 样本均值:= 样本均值,即数据的算术平均值,数据组中的所有元素以它为中心而分布在它的周围,是最常用的统计量。显然有等式 2中位数(Median) (中心位置)设n个数据按从小到大的顺序排列为: 中位数为 M = 顾名思义,中位数即是大小处于中间位置的数,n个数据按从小到大的顺序排好后,我们称与为第1层,与为第2层,从两头一层一层往里剥,则有第3层,第4层,最后就达到“中心”,当n为奇数时,剥到最后一层是一个数,当n为偶数时,剥到最后一层有两个数和,于是取它们的算术平均值作中位数。例1.3.1随机抽取某地11人的月收入情况,数据如下(单位:元):790,380,420,770,1000,550,480,640,880,930,4500,由n=11为奇数,故其中位数为 M=770 前面已经引入了样本均值来刻划数据分布的中心,为什麽还要引入中位数来作为数据分布的中心呢?样本均值与中位数表示的含义各有不同,样本均值即算术平均蕴含了“重心”的意思;而中位数则明确地说明有一半及一半以上的数据不大于中位数,一半及一半以上的数据不小于中位数。中位数用于概括一个样本的位置,是高度耐抗的。因为,即便是一个“好的”数据也难免有那麽百分之几的大错误,但这个别的极大或极小值,一般不会引起中位数的变化。正是由于这个特点,进行社会经济领域的数据分析时,将中位数作为中心常常比样本均值更具实际意义。下面举例说明。 例如,在进行人口普查时,人口年龄的平均数是无法告诉人们社会是否已经进入老龄化,同时也没有告诉人们任何有关年龄分布状况的信息。而中位数恰恰可以反映出这方面特征,如人口年龄的中位数较大,也就告诉我们至少有一半以上人口的年龄已经超过了这个数,从而对社会是否进入老龄化这样的问题会有所掌握。因此西方许多国家人口普查或抽样调查中有关人口年龄的发布通常采用中位数进行描述。 又如我们想了解某地区居民年生活费收入,如果计算人均年生活费收入,那麽往往占人口比例很小的少数先富起来的人的收入很可能提高这个地区的人均收入指标,因而掩盖了贫富之间的差异,而忽略了反映一些处于贫困线以下居民的困难状况。从例1.3.1数据的统计量均值(1100)远远大于中位数(770)可以得出,其月收入的差距还是相当大的,确实还存在着一些贫困户,如月收入为380,420,480的人。但是由于11人中有一个高收入者,月收入为4500元,使得这11人的月平均收入达到1031元/月一个很不错的数字,它完全掩盖了数位贫困者的处境,而这11个数的中位数是770元/月,不太高的中位数蕴含着近一半的人连这个数字也未必达到,对于政府管理部门制订政策及商家决定经营方针来说不能不算是个重要的信息。类似的例子可以举出许多,事实上人口统计方面的数据有不少是应当采用中位数来概括的。倘若我们处理的数据所来自的总体分布有一个长长的尾巴,采用中位数来概括会优于样本均值,因为在某些场合,均值对于分布尾部的小概率事件赋予了太多的关注(如上例中的4500元/月)。均值中位数,有较大的离群值或右侧更为分散的数据,其偏度为正,右偏均值中位数,有较小的离群值或左侧更为分散的数据,其偏度为负,左偏3众数(Mode)众数就是样本中出现频率最多的数据,,记作例如我们有如下数据:3,4,4,5,6,6,6,8,8,8,8,10,则众数为8一般来讲众数只有在样本容量n较大,有某些样本值出现较多时才有意义二描述样本数据分散程度的统计量描述样本数据分散程度的统计量有三种:样本方差、样本均方差、变异系数1样本方差 (Variance)略2样本标准差(Std.deviation)略3均值标准误差(S.E.mean)也可称为抽样标准误,是样本均值的标准差,反映了样本均值与总体均值之间的差异程度,计算公式为 S.E.mean=4变异系数(百分率)样本均方差(标准差)s,一般能较好地描述样本数据之间的差异大小,但是由于s是有单位的,所以在用它描述样本数据之间的差异大小时,还存在一些问题。如我们多次测量北京和上海之间的距离,所得标准差为1公里,这样的测量应该说是高精度的;但如果测量的是从民族大学到中关村的距离所得的标准差也为1公里,这样的测量精度显然是不够的。因此需要引入一个更好地度量样本数据偏离样本均值程度的统计量,即变异系数,=值越大,表明此样本的分散程度越大 例1.3.2 现从某高校体检结果中,随机抽取部分同学的体重数据经计算得男女同学体重的平均值和标准差为:男: = 60.29kg , s=4.265kg;女: = 48.52kg , s=3.958kg.是否就能说明男同学体重的差异大于女同学的呢?若直接看男同学体重的标准差大于女同学的,还不能,还要计算它们的变异系数男:=7.04%女:=8.21%从变异系数可得女同学体重的差异大于男同学的。一般来说,对于拥有不同均值和标准差的数据的比较,变异系数能更好的比较样本数据的分散程度。5上下四分位数设n个数据按从小到大的顺序排列为: 下四分位数(lower-quantile)与上四分位数(upper-quantile)分别为位于25% 与75% 位置的数,即它们所处的层为(当n为偶数时)或(当n为奇数时),如果或不等于整数时,则取层与+1层(层与+1层)的数据和的均值。例如n=20时,则与应为位于5层的数,因此取第5层与第6层的数据的均值。例1.3.3计算例1.3.1中数据的下四分位数与上四分位数某地11人的月收入情况,数据如下(单位:元):790,380,420,770,1000,550,480,640,880,930,4500,n =11 奇数 = 四分位数也有它的实际意义,对上四分位数说,数据组中有及以上的数均大于等于,有及以上的数均小于等于,对于也有类似的意义。由四分位数的定义可知应有一半的数据落在与之间,因此上下四分位数之间的距离也是一个重要的统计量四分位极差(Interquartile range),记为 IQR =- H的长短在一定程度上反映了数据的集中与否。 人们在检测数据组中是否存在异常数据以及哪些数据可能是异常数据时常用到与这两个四分位数。一般地人们认为在区间(- 1.5 IQR , + 1.5 IQR)之外的数据可以视为异常值。6极差(Range)7五数概括与盒式图 五数概括是统计上常用的描述数据分布的一个提法,所谓“五数”是指:最小观测值,最大观测值,中位数M,下四分位数,上四分位数。对一组数据,如果我们已经知道了最大小值、中位数及上下四分位数这五个数,实质上我们已经粗略地掌握了该数据组的分布情况,这种对数据组的概括描述我们称之为“五数概括”。 在实际中人们常用图形来表示这五个数,这个图形称为箱线图(Box-Wisker图)。例1.3.4 计算教材p10例1.6中的数据的五数并作盒式图经计算=8,=33,M=19,=15,=24,盒式图如下:例1.3.3的盒式图三刻画分布形状的统计量 当样本数据的取值关于中心对称时,我们用和s刻画其数据分布的特征一般是很有效的而当其不对称时,显然是不够的为此给出下面刻画数据分布形状的统计量:样本偏态系数、样本峰度系数1样本偏态系数(skewness) 是刻画样本分布偏斜程度和方向的统计量。其计算公式为:=0关于均值对称的数据其偏度为0; 0 右侧更为分散的数据,其偏度为正,称为右偏。2样本峰度系数(kurtosis)是刻画样本数据分布峰度高低的统计量,其计算公式为:利用峰度研究数据分布的形状是以正态分布为标准(假定正态分布的方差与所研究分布的方差相等)比较两端极端数据的分布情况,若 近似于标准正态分布,则峰度接近于零; 尾部较正态分布更分散,则峰度为正,称为轻尾 尖顶型; 尾部较正态分布更集中,则峰度为负,称为厚尾 平顶型。例1.3.5现有两个班的学生(每班50人)的某门课的考试成绩如下:9585756555451班频数5102211112班频数414161420利用样本统计量对这两个班的成绩进行比较s1班75.810.47-0.1650.6282班75.810.270.07-0.6273结论:两个班的成绩平均值相等,标准差也几乎相同,偏态系数分别为-0.165和0.07,显示两个班的成绩基本对称,但两个班成绩分布的峰度明显不同,1班稍显尖顶,2班比较平滑。1.4 描述性统计分析的SPSS实现 一、 频数分析及条形图的SPSS实现例1.4.1掷一枚均匀的骰子42次的纪录是:3 2 4 1 5 1 5 3 4 3 5 6 4 2 5 3 1 3 4 1 4 3 1 6 3 3 1 2 4 2 6 3 4 6 6 1 6 2 4 5 2 6 数据集 xzj27a.sav分析(Analyze)频数(Frequencies)打开频数对话框统计量按钮图表按钮骰子值频率百分比有效百分比累积百分比有效1716.716.716.72614.314.331.03819.019.050.04819.019.069.05614.314.383.36716.716.7100.0合计42100.0100.0例1.4.2(例1.1.2)下表是某大学总数为从352名学生的“普通统计学”考试的成绩中,随机抽取的60位学生的成绩63 76 83 91 45 81 93 30 72 80 82 83 81 76 67 84 72 58 83 64 93 63 75 9974 76 95 91 83 61 82 85 83 44 88 7266 94 68 78 88 71 94 85 82 79 100 9083 88 84 48 72 80 85 80 87 76 62 96对上述数据作频数分析并画出条形图。频数分析及条形图的SPSS实现 数据xzj28.sav 数据重新编码(产生分组变量)转换(Transeform)=重新编码为不同变量(Recode Into Different Variables)打开重新编码为不同变量(Recode Into Different Variables)对话框选择“旧值和新值”打开旧值和新值对话框二、 数据的描述性统计分析与探索性分析1数据的描述性统计分析 主要应用 描述(Descriptives)对话框完成描述性统计分析。操作: 分析(Analyze)=描述统计(Descriptive Statistics)= 描述(Descriptives)打开 描述(Descriptives)对话框l 变量(Variable(s))框: 输入分析变量l 将标准化得分另存为变量(z)(Save standardized values as variables)选项: 选中则要求进行标准化变换,并将变量的标准得分作为新变量保存。l 选项(ptions)按钮: 设置输出的统计量。例1.4.3数据集world95.sav中,记录了世界169个国家和地区经济发展基本情况的数据。该文件包含了26个变量。挑选其中的lifeexpf(女性平均寿命)和lifeexpm(男性平均寿命)来进行描述性统计分析 Descriptive StatisticsNRangeMinimumMaximumMeanStd. DeviationVarianceSkewnessKurtosisStatisticStatisticStatisticStatisticStatisticStatisticStatisticStatisticStd. ErrorStatisticStd. ErrorAverage female life expectancy10939438270.1610.572111.762-1.109.231.213.459Average male life expectancy10935417664.929.27385.984-1.080.231.336.459Valid N (listwise)109例1.4.4数据集wyzli2_1中的数据为两个不同地区居民家庭收入和支出情况的抽样调查(单位:元),利用SPSS对数据集中的变量家庭总收入分地区进行描述性统计分析,利用结果对两地区的家庭总收入情况进行对比分析。 由于两地区的家庭总收入是由一个变量“家庭总收入”表示的,而不是由两个变量“地区1的家庭总收入”和“地区2的家庭总收入” 表示,所以要分地区作描述性统计分析前先要利用Data菜单中的Split file,将数据集wyzli2_1按变量“地区编号”拆分为两个数据集(不是真拆分,而是在做其他分析或作图时按不同地区进行)。2数据的探索性分析利用 探索(Explore)对话框,探求变量的分布特征及分布规律,以便寻找出更适合处理数据的统计分析方法。探索分析的内容:提供观测数据可能存在的异常值。输出观测数据的描述统计量表与统计图形。进行观测数据的分布正态性检验。当观测数据可以分组时,还可以进行分组探索分析,同时进行方差齐性检验。例1.4.5对例1.4.4中数据集wyzli2_1中的变量“家庭总收入

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论