统计案例解析分析-大学生月平均生活费的估计和检验_第1页
统计案例解析分析-大学生月平均生活费的估计和检验_第2页
统计案例解析分析-大学生月平均生活费的估计和检验_第3页
统计案例解析分析-大学生月平均生活费的估计和检验_第4页
统计案例解析分析-大学生月平均生活费的估计和检验_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计案例分析案例2.1大学生月平均生活费的估计和检验姓名: 覃玉冰学号:班级: 16 应用统计、数据为了了解大学生日常生活费支出及生活费来源状况,对中国人民大学在校本科生的月生活费支出问题进行了抽样调查。该问卷随机抽取中国人民大学大一、 大二、大三、大四在校本科生男女各 30多人作为样本。调查采取分层抽样,对 在校本科生各个年级男生、女生各发放问卷 30多份,共发放问卷300份,回收 问卷291份,其中有效问卷共272份。其中,男生的有效问卷为127份,女生为 145份。调查得到的部分数据见表一。表一 大学生月平均生活费支出的调查数据(仅截取部分)性别所在年级家庭所在 地区平均月 生活费 (元

2、)性别所在年级家庭所在 地区平均月 生活费 (元)男1998 级大型城巾1000女1998 级大型城巾500男1998 级大型城巾800女1998 级大型城巾800男1998 级大型城巾1000女1998 级大型城巾500男1998 级中小城市400女1998 级大型城巾1000二、生活费支出的区间估计和假设检验(一)平均月生活费的描述统计量为了更好地研究全校本科学生平均月生活费支出, 我们先来看一下样本数据 中平均月生活费支出的一些描述统计量。在spss中,点分析一描述统计一描述一变量选择“平均月生活费”,选项 选择“均值、标准差、均值的标准误”,得到的样本数据中平均月生活费的描述 统计量见

3、表二。表二平均月生活费的描述统计量N均值标准差统计量统计量标准误统计量平均月生活费有效的N (列表状态)272272595.0414.761243.444从表二可以看到,样本数据中平均月生活费支出的均值为595.04,标准差为243.444,均值的标准误为14.761.(二)平均月生活费的假设检验从表二中我们已经知道了样本数据中平均月生活费支出的均值为595.04 ,现在我们来检验一下全校本科学生即总体的月平均生活费支出是否等于500。1.检验统计量的确定样本数据的样本量n为272,其大于30,可以认为该数据是一个大样本。 现 在我们并不知道总体的月平均生活费支出是否服从正态分布,但是在样本量

4、大的条件下,如果总体为正态分布,样本统计量服从正态分布:如果总体为非正态分 布,样本统计量也是渐进服从正态分布的。所以在这种情况下,我们都可以把样本统计量视为正态分布,这时可以使用z统计量(z分布)。即在总体标准差 已 知时,有x 0z /n而我们这里总体标准差是未知的,此时可以用样本标准差 s代替,上式可以写为:z x 0s/ , n.提出假设原假设Ho为:全校本科学生月平均生活费支出 u=500备择假设H1为:全校本科学生月平均生活费支出 u=500. spss操作及结果分析在spss中点分析一比较均值一单样本T检验一检验变量选“平均月生活费” 一检验值填“ 500”,得到的平均月生活费的

5、假设检验的结果见表三。表三平均月生活费的假设检验的结果检验值=500tdfSig侬侧)均值差值差分的95%置信区间下限上限平均月生活费6.43827100095.03765.98124.10从表三可以看到,检验的P值接近于0,其小于0.05,根据小拒大接的原则, 拒绝原假设,表面全校学生的月平均生活费支出与500元有显著差异。(三)平均月生活费的区间估计.数学模型的建立样本数据的样本量n为272,其大于30,可以认为该数据是一个大样本。 现 在我们并不知道总体的月平均生活费支出是否服从正态分布, 但是在样本量大的 条件下,样本均值X的抽样分布均为正态分布,其数学期望为总体均值 ,方差 为 彳。

6、X经过标准化以后的随机变量服从标准正态分布,即xzN(0,1)/ n由上式和正态分布的性质,可以得出总体均值 在1-置信水平下的置信区间为标准误;z2 . .n是估计总体均值时的估计误差。,时的z值;是总体均值的2n式中,x z 称为置信下限,x z 2芯称为置信上限;是事先所确定的一个概率值,也称为风险值,它是总体均值不包括在置信区间的概率;1-称为置信水平;z .是标准正态分布右侧面积为 2这里,我们并不知道全校本科学生的平均月生活费支出的方差,但是由于样本数据的样本量较大,所以上式中的总体方差2可以用样本方差s2代替,这时 总体均值 在1 -置信水平下的置信区间可以写为:.模型的求解由表

7、二可知,样本均值为595.04,样本均值的标准误s、- n为14.761.当风险值 取0.05时,即置信水平1-取95%寸,全校学生月平均生活费支出的 95% 的置信区间为595.04-1.96*14.761, 595.04+1.96*14.761,即 566.11 到 623元之间。三、男女学生的平均月生活费的假设检验(一)男女学生的平均月生活费的描述统计量为了更好地研究全校本科男女学生的平均月生活费支出间是否有显著差异, 我们先来看一下样本数据中男女学生的平均月生活费支出的一些描述统计量。在spss中点数据一拆分文件一勾选“比较组” 一分组方式选“性别” 然后点分析一描述统计一描述一变量选

8、择“平均月生活费”,选项选择“均值、 标准差、均值的标准误”,得到的平均月生活费的描述统计量见表四。表四 男女学生平均月生活费的描述统计量N均值标准差性别统计量统计量标准误统计量男平均月生活费有效的N (列表状态)127127569.6S|20.387229.748女平均月生活费有效的N (列表状态)145145617.2421.056253.543从表四可以看到,样本数据中男生的平均月生活费支出的均值为596.69,标准差为 229.748 ;女生的平均月生活费支出的均值为617.24.标准差为253.543 o单从样本数据中男女学生的平均月生活费支出的均值来看,全校本科 男女学生的平均月生

9、活费支出间是有差异的,但是这只是我们主观的看法,下面我们用两个总体均值之差的假设检验来探究全校本科男女学生的平均月生活费 支出问是否有显著差异。(二)男女学生的平均月生活费间的假设检验1.检验统计量的确定样本数据中男学生有127人,女学生有145人,均大于30,说明两个总体 的样本量均较大,此时无论两个总体的分布是不是正态分布, 可以证明的是,由 两个独立样本算出来的k 9的抽样分布都是服从正态分布的, 此时,作为检验 统计量z的计算公式为:(X1 x1 )( 12 )式中,1, 2分别为两个总体的均值,I :分别为两个总体的方差。这里,我们并不知道全校本科男学生和女学生的平均月生活费支出的方

10、差,但是由于两个总体的样本量都较大,所以可以用样本方差 s2, S22来替代总体方;.此时,上式可以写为:(X1 X1) ( 1 TOC o 1-5 h z , 22SiS2I.A 12.提出假设原假设Ho为:全校本科男女学生月平均生活费支出之差1- 2 0,即全校本科男女学生的平均月生活费支出之间没有显著差别。备择假设Hi为:全校本科男女学生月平均生活费支出之差1-2 0,即全校本科男女学生的平均月生活费支出之间有显著差别。3. spss操作及结果分析在spss中点数据一拆分文件一勾选“分析所有个案,不创建组”,然后点 分析一比较均值一独立样本T检验一检验变量选“平均月生活费” 一分组变量选

11、 “性别编号”,定义组选择“使用指定值 1和2”,得到的男女学生的平均月生 活费间的假设检验的结果见表四。表四 男女学生的平均月生活费间的假设检验的结果方差方程的Levene检验均值方程的t检验FSig.tdfSig.砥 侧)均值 差值标准误 差值差分的95%置信区间下限上限平均月生活费假设方差 相等.484国-1.612270国-47.55629.500-105.63510.523假设方差 不相等-1.623269.679.106-47.55629.308-105.25810.145从表四可以看出,当原假设是男女学生的平均月生活费的方差相等时,检验所对应的P值是0.487,其大于0.05,根

12、据小拒大接的原则,不能拒绝原假设, 即没有证据表明方差是不相等的,故我们看假设方差相等时的假设检验的结果就 可以了。从假设方差相等时的假设检验的结果上来看,检验的P值为0.108 ,其大于0.05 ,根据小拒大接的原则,不能拒绝原假设,即没有证据表明男女学生的月平 均生活费支出之间有显著差异。四、估计乡镇地区学生的比例(一)对学生按性别和来源进行分类汇总为了估计乡镇地区学生的比例,我们先对学生按性别和来源进行分类汇总, 在spss中点分析一描述统计一交叉表一行选择“性别”,列选择“家庭所在地 区” 一单元格中的百分比勾选“行”,得到如表五所示的汇总表。表五 按性别和家庭所在地区进行的分类汇总家

13、庭所在地区合计大型城市乡镇地区中小城市性别 男计数性别中的2620.5%4636.2%5543.3%127100.0%女计数性别中的6041.4%2215.2%6343.4%145100.0%合计计数性别中的8631.6%68 25.0%|11843.4%272100.0%从表五可以看到,家庭所在地区为乡镇地区的学生占所有被抽中的学生的25%。(三)乡镇地区学生比例的区间估计1,数学模型的建立样本数据的样本量n为272,其大于30,可以认为该数据是一个大样本。由 样本比例p的抽样分布可知,当样本量足够大时,比例p的抽样分布可用正态分布近似。p的数学期望为E(p) ; p的方差为2 (1一)。样

14、本比例经标准 n化后的随机变量则服从标准正态分布,即p(1)/nN(0,1)与总体均值的区间估计类似,在样本比例 p的基础上加减估计误差z .2 p, 即得总体比例在1-置信水平下的置信区间为:p z 力-(1), p z /J(1)2 . n2 , n用上式计算总体比例 的置信区间时,值应该是已知的。但实际情况不然,值恰好是要估计的,所以,需要用样本比例 p来替代。这时,总体比例的置 信区间可表示为:p(1 p)p(1 p)p Z /47 P z / .J2 . n2 . n式中,p zzJp(1 p)称为置信下限,p zjp(1 p)称为置信上限;2 , n2 n是显著性水平;z 2是标准

15、正态分布右侧面积为 /2时的z值; 乜 计总体比例时的估计误差 2.模型的求解从表五可以得到,家庭所在地区为乡镇地区的学生占所有被抽中的学生的25%。所以全校本科学生中,乡镇学生比例的95%的置信区间为0.25-1.960.25(1-0.25)272,0.25 1.960.25(1-0.25),272,即 19.85%J 30.15%问。五、单因素对月平均生活费支出的影响分析(一)数学模型1.单因素方差分析单因素方差分析是指对单因素试验结果进行分析, 检验因素对试验结果有无 显著性影响的方法。单因素方差分析是两个样本平均数比较的引伸, 它是用来检 验多个平均数之间的差异,从而确定因素对试验结果

16、有无显著性影响的一种统计 方法。在数据中,总误差反映全部观测数据的误差;处理误差(组间误差)是由于 不同处理造成的误差,它反映了处理对观测数据的影响, 因此称为处理效应;随 机误差(组内误差)是由于随机因素造成的误差,也简称为误差。|数据的误差用平方和表示,记为S3其中总平方和记为SST其计算公式为:l n2SST (% y) i 1 j 1它反映全部数据总误差大小的平方和。处理平方和记为SSA其计算公式为:l=,、2SSA ni(yi y) i 1它反映处理误差大小的平方和,也称为组问平方和。误差平方和记为SSE其计算公式为:l n,、2SSE(yj yi)i 1 j 1它反映了随机误差大小

17、的平方和,也称为组内平方和。误差平方和的分解及其关系所图一所示。总误差处理误差随机误差息平方和(S5T)处理平方和(5网俣差平方和(SSE!图一误差平方和的分解及其关系方差分析的基本原理就是要分析数据的总误差中有没有处理误差。 如果处理 对观测数据没有显著影响,意味着没有处理误差。这时,每种处理所对应的总体 均值应该相等,如果存在处理误差,每种处理所对应的总体均值至少有一对不相在只考虑一个因素的情况下,方差分析也就是要检验下面的假设:H 0 -12ik也:i(i 1,2,k)不全相等注意:拒绝原假设,只表明至少有两个总体的均值不相等,并不意味着所有的均值都不相等。2.多重比较多重比较的作用是在

18、拒绝原假设的条件下,通过对总体均值之间的配对比较 来进一步检验到底哪些均值之间存在差异。多重比较方法有多种,如 Fisher的 LSD方法、Tukey-Kramer 的 HSM法等。其中LSD是最小显著差异(least significant difference) 的缩写,该检验 方法是由统计学家Fisher提出来的,因此也称为Fisher的最小显著差异方法, 简称LSD方法。LSD的适用场合是:如果研究者在事先就已经计划好要对某对或 某几对均值进行比较,不管方差分析的结果如何(拒绝或不拒绝原假设),都要进 行比较,这时适合采用LSD方法。我们在下面的操作中都是用LSD方法进行多重 比较的。

19、(二)年级对月平均生活费支出的影响分析不同年级的学生的月平均生活费支出可能有所不同, 现在我们来探究年级对学生的月平均生活费支出是否有显著的影响。方差分析中有三个基本假定:(1)每个总体都应服从正态分布。也就是说,对于因素的每一个水平,其 观测值是来自正态分布总体的简单随机样本。(2)各个总体的方差必须相同。也就是说,各组观察数据是从具有相同方 差的正态总体中抽取的。(3)观测值是独立的每个年级各抽取了 60多个学生,样本量比较大,故对于因素的每一个水平,其观测值均可以认为近似服从正态分布, 所以满足了第一个假定。由于抽 取四个年级的学生是独立进行的,所以可以认为四组样本观测值是相互独立的,

20、即满足了第三个假定。对于第二个假定,我们需要进一步的验证,故我们在做方 差分析时要顺带做一下方差齐性检验。在spss中点分析一一股线性模型一单变量一因变量选择“平均月生活费”, 固定因子选择“所在年级” 一两两比较中的两两比较检验选择“所在年级”,假 定方差齐性选择“LSD” 一选项中勾选“方差齐性检验”,得到的年级对月平均 生活费支出的影响分析结果如表六、表七和表八所示。表六 年级对支出影响的方差齐性检验因变量:平均月生活费Fdf1df2Sig.0683268回检验零假设,即在所有组中因变量的误差方差均相等。a.设计:截距+所在年级从表七可以看出,方差齐性检验的 P值为0.977,大于显著性

21、水平0.05,根 据小拒大接的原则,应该接受原假设,此处的原假设是四个总体的方差相等, 故 满足方差齐性的假设,即满足第二个假定,可以进行方差分析。表七 年级对支出影响的方差分析表因变量:平均月生活费源III型平方和df均方FSig.校正模型截距所在年级误差总计校正的总计75378.112a87257473.26975378.11215985421.5211.124E816060799.63231326827227125126.03787257473.26925126.03759647.095.4211462.896.421.738.000国a. R 方=.005 (调整 R 方=-.006)

22、从表七可以看到,方差分析检验的 P值为0.738,大于显著性水平0.05,根 据小拒大接的原则,不能拒绝原假设,即认为没有证据表明年级对生活费支出有 显者影响。表八年级对支出影响的多重比较平均月生活费LSD(I)所在年级 (J)所在年级均值差值(I-J)标准误差Sig.95%置信区间下限上限1998 级1999 级-15.6948.162四-110.5279.132000 级24.4645.757画-65.63114.552001 级17.6849.689-80.15115.511999 级1998 级15.6948.162西-79.13110.522000 级40.1537.828回-34.

23、33114.632001 级33.3842.500画-50.30117.062000 级1998 级-24.4645.757画-114.5565.631999 级-40.1537.828画-114.6334.332001 级-6.7739.753画-85.0471.502001 级1998 级-17.6849.689西-115.5180.151999 级-33.3842.500回-117.0650.302000 级6.7739.753国-71.5085.04基于观测到的均值。误差项为均值方 (错误)=59647.095。从表七可以看到,在多重比较中,检验的各P值均大于显著性水平0.05,根 据

24、小拒大接的原则,不能拒绝原假设,这表明各年级之间的月平均生活费支出之 间没有显著差异。(三)地区对月平均生活费支出的影响分析不同地区的学生的月平均生活费支出可能有所不同,现在我们来探究地区对学生的月平均生活费支出是否有显著的影响。从表五可以看出,每个地区所抽取的样本量都比较大,故对于因素的每一个 水平,其观测值均可以认为近似服从正态分布, 所以满足了第一个假定。由于抽 取三个地区的学生是独立进行的,所以可以认为三组样本观测值是相互独立的, 即满足了第三个假定。对于第二个假定,我们需要进一步的验证,故我们在做方 差分析时要顺带做一下方差齐性检验。在spss中点分析一一股线性模型一单变量一因变量选

25、择“平均月生活费”, 固定因子选择“家庭所在地区” 一两两比较中的两两比较检验选择 “家庭所在地 区”,假定方差齐性选择“ LSD” 一选项中勾选“方差齐性检验”,得到的年级 对月平均生活费支出的影响分析结果如表九、表十和表十一所示。表九 地区对支出影响的方差齐性检验因变量:平均月生活费Fdf1df2Sig.1.2822269179|检验零假设,即在所有组中因变量的误差方差均相等。a.设计:截距+家庭所在地区从表九可以看出,方差齐性检验的 P值为0.279,大于显著性水平0.05,根 据小拒大接的原则,应该接受原假设,此处的原假设是四个总体的方差相等, 故满足方差齐性的假设,即满足第二个假定,

26、可以进行方差分析表十 地区对支出影响的方差分析表因变量:平均月生活费源III型平方和df均方FSig.校正模型391308.716a2195654.3583.359.036截距89252281.148189252281.1481532.204.000家庭所在地区391308.7162195654.3583.359回误差15669490.91726958250.896总计1.124E8272校正的总计16060799.632271a. R 方 =.024 (调整 R 方=.017)从表十可以看到,方差分析检验的 P值为0.036,小于显著性水平0.05,根 据小拒大接的原则,应该拒绝原假设,即有

27、证据表明地区对生活费支出有显著影 响。表十一 地区对支出影响的多重比较平均月生活费LSD(I)家庭所在地区(J)家庭所在地区均值差值(I-J)标准误差Sig.95%置信区间下限上限大型城市乡镇地区85.12*39.166|.031|8.01162.23中小城市-4.1134.22010!-71.4863.26乡镇地区大型城市-85.12*39.166国-162.23-8.01中小城市-89.23*36.7466-161.58-16.89中小城市大型城市4.1134.220|.905|-63.2671.48乡镇地区89.23*36.746丽16.89161.58基于观测到的均值。误差项为均值方

28、(错误)=58250.896。*.均值差值在.05级别上较显著。表十一给出的各P值表明,乡镇地区与大城市和中小城市之间的月平均生活 费支出之间均有显著差异,而大城市与中小城市之间的差异则不显著。六、双因素对月平均生活费支出的影响分析(一)数学模型双因素方差分析有两种类型:一个是无交互作用的双因素方差分析,它假定 因素A和因素B的效应之间是相互独立的,不存在相互关系;另一个是有交互作用的双因素方差分析,它假定因素 A和因素B的结合会产生出一种新的效应只考虑主效应的误差分解如图二所示0因素A的处理误差随机 误差总平方和(SST)因素A平方和.(SSA)因素B平方和伊B)俣差平方和(SSE)因素R的

29、处理误差图二只考虑主效应的误差分解考虑交互效应的误差分解如图三所示总平方和(SST)因素A的处理误差因素B的 +处理误差交互作用十;口 *I天麦+随机误差因素A的平方和 十SSA)因素B的平方和(SSB)交互作用平方和(SSAB)误差平方利6SE1图三考虑交互效应的误差分解(二)不考虑交互效应的性别和地区对月平均生活费支出的影响分析不同性别和地区的学生的月平均生活费支出可能有所不同,现在我们来探究不考虑交互效应时的性别和地区两个因素对学生的月平均生活费支出是否有显 著的影响。在双因素方差分析中,每个观测值看作由行因素(性别)的2两个水平和列 因素(家庭所在地区)的三个水平所组合成的6个总体中抽

30、取的样本量为1的独 立随机样本。这六个总体中的每一个总体都应该服从正态分布且具有相同的方 差。由于每个总体的样本量较大,所以可以认为近似服从正态分布, 对于第二个 假定,我们需要进一步的验证,故我们在做方差分析时要顺带做一下方差齐性检 验。在spss中点分析一一股线性模型一单变量一因变量选择“平均月生活费”, 固定因子选择“性别和家庭所在地区” 一模型中的指定模型勾选“设定”,构建 项选择“主效应”,并将“性别和家庭所在地区”选入模型 一绘制中选择图“性 别*家庭所在地区、家庭所在地区*性别” 一选项中勾选“方差齐性检验”,得到 的同时考虑性别和地区两个因素的影响但不考虑交互效应的分析结果如表

31、十二 和表十三所小。表十二 考虑性别和地区影响(只考虑主效应)分析的方差齐性检验因变量:平均月生活费Fdf1df2Sig.6985266鬲检验零假设,即在所有组中因变量的误差方差均相等。a.设at :截距+家庭所在地区 +性别从表十二可以看出,方差齐性检验的 P值为0.625,大于显著性水平0.05, 根据小拒大接的原则,应该接受原假设,故满足方差齐性的假设,可以进行方差 分析。表十三考虑性别和地区影响(只考虑主效应)的方差分析表因变量:平均月生活费源III型平方和df均方FSig.校正模型455828.125 a3151942.7082.609.052截距88948545.338188948

32、545.3381527.604.000家庭所在地区302712.4462151356.2232.599回性别64519.409164519.4091.108网误差15604971.50826858227.506总计1.124E8272校正的总计16060799.632271a. R 方 =.028 (调整 R 方=.018)从表十三可以看到,方差分析中,家庭所在地区检验的P值为0.076,性别检验的P值为0.293,均大于显著性水平0.05,根据小拒大接的原则,不能拒绝 原假设,即均没有证据表明二者对生活费支出有显著影响。平均月生活费的估算边际均值估方除均值525-500-大型城市学4境区中小

33、龌市家庭所在地区平均月生活费的估算边际均值估方除均值家艇所在地区大型城市多铺地区中小城市性别图四性别和地区对支出影响的均值图图四给出了两个因素影响的均值图。纵坐标是估计的平均月生活费的边际 均值。条线分别表示不同性别和不同家庭所在地区的学生的平均月生活费情况。 由于此处我们使用的只考虑主效应的方差分析模型,所以线条折线是平行的。(三)考虑交互效应的性别和地区对月平均生活费支出的影响分析现在我们来探究一,除了同时考虑性别和地区两个因素的影响外, 还考虑二 者对月平均生活费支出的交互效应的情况。在spss中点分析一一股线性模型一单变量一因变量选择“平均月生活费”, 固定因子选择“性别和家庭所在地区” 一模型中的指定模型勾选“全因子” 一绘 制中选择图“性别*家庭所在地区、家庭所在地区*性别” 一选项中勾选“方差齐 性检验”,得到的分析结果如表十四和表十五所示。表十四 考虑性别和地区影响(考虑交互效应)分析的方差齐性检验因变量:平均月生活费Fdf1df2Sig.1.0305266

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论