SPSS软件入门与基础统计知识2_第1页
SPSS软件入门与基础统计知识2_第2页
SPSS软件入门与基础统计知识2_第3页
SPSS软件入门与基础统计知识2_第4页
SPSS软件入门与基础统计知识2_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、版权所有,使用者请注明出处版权所有,使用者请注明出处, ,请勿修改请勿修改SPSS软件应用第二讲基本学习内容:Z分布-正态分布u 利用SPSS计算计算Z Z分数分数; 例如:求某学生某学科成绩在总体学生成绩中的相对位置,比较某个学生的不同学科成绩T分布-学生分布u 利用利用SPSSSPSS进行进行T T检验;检验; 例如:求某个样本平均值和某个已知值是否相等,是否有显著差异?1, 单样本t检验2,独立样本t检验3,依存样本t检验分类比较例子:如果我想知道男生和女生如果我想知道男生和女生分别的高考语文的频数表、分别的高考语文的频数表、直方图,平均分,方差?直方图,平均分,方差?我该如何分成男生和

2、女生我该如何分成男生和女生两类呢?两类呢?扩展:除了基于性别分类,还扩展:除了基于性别分类,还有哪些分类:学生类型,学生有哪些分类:学生类型,学生学习风格,学生所在班级、学学习风格,学生所在班级、学区、学生家庭收入状况等进行区、学生家庭收入状况等进行分类等分类等分类比较:拆分数据 (split file) 拆分文件:按类别分析数据:拆分文件:按类别分析数据:数据数据 拆分数据拆分数据 按组组织输出按组组织输出合并文件:数据合并文件:数据 拆分文件拆分文件 分析所分析所有个案,不创建组;有个案,不创建组;分类比较:探索法 (explore) 分析分析 描述统计描述统计 探索探索 1,比较男孩和女

3、孩的高考语文成绩: 因子因子(factor)(factor):性别:性别 因变量列表因变量列表(dependent)(dependent):高考语文:高考语文 2,比较本地和外地学生的: 高考英语成绩 因子:学生类型因子:学生类型 因变量列表:高考英语因变量列表:高考英语 两种样本分类比较:拆分法: 1 1,可以计算所有的不同群体的统计量,可以计算所有的不同群体的统计量 2 2,创造出单独的群,创造出单独的群探索法: 1 1, 并不能创造群(并不能创造群(groupgroup);); 2 2, 不能得到某些统计量:中数,饼状图,条状不能得到某些统计量:中数,饼状图,条状图,有正态曲线的直方图等

4、图,有正态曲线的直方图等基本概率论知识:为了确定抛掷一枚硬币发生正面朝上这个事件的概率 ,历史上有人作过成千上万次抛掷硬币的试验成千上万次抛掷硬币的试验。在表1中列出了他们的试验记录:从表1可看出,随着实验次数的增多,正面朝上这个事件发生的频率越来越稳定地接近0.5,我们就把0.5作为这个事件的概率。 1. 样本频率总是围绕概率上下波动 2. 样本含量样本含量n n越大,波动幅度越小,频率越接近概率越大,波动幅度越小,频率越接近概率。 图1 抛硬币“正面正面”向上的频率摆动示意图频率与概率基本规律:如果样本量很大,组段很多,矩形顶端组成的阶梯型曲线可变成光滑的分布曲线。 大多数情况下,可采用一

5、大多数情况下,可采用一个函数拟合这一光滑曲线。这种函数称为概率密度函数个函数拟合这一光滑曲线。这种函数称为概率密度函数(probability density functionprobability density function)。)。生活中最常见的分布:正态分布正态分布是一种很重要的连续型随机变量的概率分布:现实现实生活中有许多变量是服从或近似服从正态分布的生活中有许多变量是服从或近似服从正态分布的。许多许多统计分析方法都是以正态分布为基础的统计分析方法都是以正态分布为基础的。因此在统计学中,正态分布无论在理论研究上还是实际应用中,均占有重要的地位。222)(21)(xexf),(2Nx

6、若连续型随机变量x的概率密度函数为其中其中 为总体均值,为总体均值, 为总体方差为总体方差,则称随机,则称随机变量变量x x服从正态分布服从正态分布(normal distribution)(normal distribution), 记记为为 。2正态分布定义:正态曲线关于正态曲线关于直线直线x= x= 对称,且在对称,且在x= x= 时位于最高点;时位于最高点;当当 一定时,曲线的形状由一定时,曲线的形状由 确定确定 越大,曲线越越大,曲线越“矮胖矮胖”,表示总体的分布越分散,表示总体的分布越分散; 越小,曲线越越小,曲线越“瘦高瘦高”,表示总体的分布越集中,表示总体的分布越集中 x xC

7、 CA AB B 和 对正态曲线的影响正态分布函数的基本性质:) 1 , 0 ( NXZ任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布标准正态分布 Z分布当我考试考了76分的时候:01Z分数=(76-82)/12=-0.512原始分数大于平均数:z符号为“+”原始分数小于平均数:z符号为“”Z分数含义:原始分数与均值之间相差几个标准差Z分数的运用:Z分数是一种类型的标准分1 1, 将将一般的正态分布转化为标准正态分布,计算一般的正态分布转化为标准正态分布,计算概率时只需要查一张表,更简单,便捷。概率时只需要查一张表,更简单,便捷。2, 标准分的主要用途是将分数放置在相同的量表标

8、准分的主要用途是将分数放置在相同的量表中,从而可以进行不同个体和变量的比较。中,从而可以进行不同个体和变量的比较。正态分布与概率Z分数运用查总体中的概率一次期中考试,100分的数学试卷,你只考了55分。你的心情如何?_ 描述统计 描述 利用已知的总体总体平均值和SD: 转换 计算变量 SDxz利用两种方式求高考语文分数的z分数 但但在实际工作中,总体的在实际工作中,总体的往往是未知的。我们往往是未知的。我们常用常用s s作为作为的估计值的估计值,因而引出概念,因而引出概念t t分布。分布。Z Z分布:分布:在一个在一个已知已知的正态分布总体中,抽取若干样本,其均数分布的正态分布总体中,抽取若干

9、样本,其均数分布依然服从正态分布,即依然服从正态分布,即N N(,)。)。我们是用样本推算总体哦我们是用样本推算总体哦总体的标准差总体的标准差未知,我们希望通未知,我们希望通过样本来推算总体的特征哦过样本来推算总体的特征哦t t分布分布的性质的性质n = n = 1 1n=n=2020-3-2-11230.10.20.30.4t t 分布的图形分布的图形( (红色的是标准正态分布红色的是标准正态分布) )1, t分布的密度函数曲线与标准正态分布N(0,1)的密度函数相似2, t(n)的蜜豆函数两侧尾部比N(0,1)尾部稍粗t(n)的方差比N(0,1)稍大3, 随着自由度n的增加,t分布的密度函

10、数越接近正态分布密度函数4, 当n=30, t分布和标准正态分布接近2013年武汉近城区教师中随机抽取随机抽取100100名教师名教师进行电子白板问卷调查,满意度均分为4.1分/5分。1 1代表很不满意,代表很不满意,2 2代表不满意,代表不满意,3 3代表中立,代表中立,4 4代表满意,代表满意,5 5代表非常满意代表非常满意提问: 我想知道,2013年武汉市近城区教师对电子白板使用是否满意?单样本T检验例子:思考一思考一: : 怎么来表示教师是否满意?怎么来表示教师是否满意?当教师的均分大于或者等于当教师的均分大于或者等于4 4的时候,我们认为教师是满意的的时候,我们认为教师是满意的思考二

11、思考二: : 我们已经得到教师满意度均分我们已经得到教师满意度均分4.14.1分了,分了, 为什么我们不能直接下结论说为什么我们不能直接下结论说20132013年近城区教师对电子白板使用是满意的?年近城区教师对电子白板使用是满意的?1 1,我们测得的满意度均分是样本的满意度,我们想求的是总体满意度。,我们测得的满意度均分是样本的满意度,我们想求的是总体满意度。2 2,如果教师样本均分是,如果教师样本均分是3.93.9,我们可以断言教师离满意是显著性不同的吗?是,我们可以断言教师离满意是显著性不同的吗?是真的不同,还是基于抽样的随机性?真的不同,还是基于抽样的随机性?假设检验假设检验:先对总体的

12、参数总体的参数提出某种假设,然后利用样本信息样本信息判断假设是否成立的过程。它可以帮助我们判断:两两组数据是否存在显著差异组数据是否存在显著差异我们要研究的参数是否与我们设定的基准值不同我们要研究的参数是否与我们设定的基准值不同假设检验:一个完整的假设检验过程,通常包括以下四个步骤:1 1、明确问题(实际问题明确问题(实际问题统计问题)统计问题)2 2、提出原假设、备择假设、提出原假设、备择假设3 3、选取合适的统计验证方法、选取合适的统计验证方法4 4、规定显著性水准、规定显著性水准 5 5、回答问题(统计结论、回答问题(统计结论实际结论)实际结论)假设检验的过程我认为平均是4,教师满意电子

13、白板拒绝或者无法拒绝原假设别无选择!假设检验假设检验2,建立检验假设,确定检验水准(选用单侧或者双侧检验)H H0 0原假设(原假设(不存在变化或差异的命题):H0H0:= = 0 0H1H1备择假设(备择假设(有统计意义上明显差异):H1H1: 0 0对于检验假设,需注意:1,检验假设是针对总体而言,不是针对样本2,H0和H1是相互联系,对立的假设,两者缺一不可3,H1的内容直接反映了检验的单双侧性;例如:例如:H1H1: 0 0 并没有考虑方向,为双侧检验并没有考虑方向,为双侧检验 H1 H1: 0 0 或者或者 0 0,不仅考虑了差异,还考,不仅考虑了差异,还考虑了差异的方向,此为单侧检

14、验虑了差异的方向,此为单侧检验* * *单双侧检验的确定,应根据专业知识,以及所想解决的单双侧检验的确定,应根据专业知识,以及所想解决的问题来确定。一般认为双侧检验保守稳妥。问题来确定。一般认为双侧检验保守稳妥。规定显著性水平是预先规定的概率值,它是小概率事件发生的标准。即规定概率不超过就是小概率事件。通常取0.1、0.05、0.01。这表明,当作出接受原假设的决定时,其正确的可能性(概率)为90%、95、99。规定显著性水平;犯该错误的概率用犯该错误的概率用表示,统计上把表示,统计上把称为假设检验中的显着性水平称为假设检验中的显着性水平(Significant levelSignifican

15、t level),),也就是决策中所面临的风险。也就是决策中所面临的风险。所以所以,显著显著性水平性水平是指当原假设为正确时人们却把它拒绝了的概率是指当原假设为正确时人们却把它拒绝了的概率或风险。或风险。这个概率是由决策者确定的,通常取这个概率是由决策者确定的,通常取0.10.1、0.050.05、0.010.01。这表明,当作。这表明,当作出接受原假设的决定出接受原假设的决定时,其正确的可能性(概率)为时,其正确的可能性(概率)为90%90%、9595、9999。1、我们作出了正确决定的情况:原假设正确,我们接受了(同时也就拒绝了备择假设)原假设错误,我们拒绝了(同时也就接受了备择假设)2、

16、假设检验是根据样本提供的信息进行推断的,也就有犯错误的可能原假设正确,我们拒绝了(也就是接受了备择假设)我们设定=0.05假设检验1、第一类错误(拒真)- H0为真时却被拒绝。风险-出现第一类错误的机率或最大风险。P拒绝H0| H0为真称为显著水平,允许犯第一类错误的最大概率为,即1-置信度关于有无显著性差异的判断是在显著水平之下做出的2、第二类错误(取伪) - H0为伪时没有被拒绝。风险-出现第二类错误的机率或最大风险。P接受H0| H1不真1- 是否定原假设错误的概率,这是检验的功效POWER。假设检验术语说明可能的判断错误(风险):实际情形实际情形根据根据样本样本数据数据判断判断 第二种

17、错误第二种错误取伪错误取伪错误: :概率概率 第一种错误第一种错误拒真错误拒真错误: :概率概率对于一定样本容量n,要使小,必导致大;要使小,必导致大;要使、皆小,只有在样本量n很大场合才可达到,这在实际中并不可行, 折中方案是:控制以制约 ,但不使过小:常选=0.05(即置信度95%),偶尔也用=0.10或0.01。 假设检验术语说明哪一类错误所带来的后果严重,在假设检验中就应当把哪一类错误作为首要的控制目标。但在假设检验中,大家都在执行这样一个原则,即首先控制犯错误原则。从前面假设检验的步骤中我们会发现,步骤之三“规定显着性水平”就体现了这样的原则。p p- -值值(p-value)(p-

18、value)P-valueP-value为多少是好呢为多少是好呢? ?- - 一般一般 P-value0.05,P-value 比较均值比较均值 单样本单样本T T检验检验 填写原假设指定值填写原假设指定值110分分数据分析:因为因为P值值=0.03 0.05, 因此因此无法无法拒绝原假设拒绝原假设APA 格式表达结果:APAAPA是美国心理协会格式,是最通用的论文格式之一。是美国心理协会格式,是最通用的论文格式之一。结果表达例子:在武汉抽样的高考学生中(M=104.7,SD=15.7), 成绩显著低于110分,t(43)=-2.24,p 0.05。APA tAPA t测试一般表达:测试一般表

19、达:t t(dfdf)=t=t值,值,p p值与值与值大小值大小几点说明:1,p值越小越好;值越小越好; (p=0.000意味着意味着p 0.001)2,p值值 ,无法拒绝原假设;,无法拒绝原假设;3,关于,关于95%置信区间:当不包含置信区间:当不包含0的时候,拒绝在的时候,拒绝在=0.05 当包含当包含0的时候,无法拒绝在的时候,无法拒绝在=0.054,如果是,如果是99%的置信区间呢?意味着什么?的置信区间呢?意味着什么?2012年武汉市近城区教师武汉市近城区教师掌握电子白板的调查问卷均值为3.6分/5分2013年武汉近城区教师中随机抽取随机抽取100100名教师名教师进行相同的电子白板

20、问卷调查,均分为4.1分/5分提问: 2013年教师技能与2012年比,是否在均分上(技能上)有显著提高?这0.5分的差异有没有意义?是否是由于抽样的随机性造成?3分的差异源自抽样的随机性。抽样的随机性不能造成0.5分这么大的差异。单样本T检验例子:练习:打开学生自信心量表调查_已调整1= 完全不符合 2= 多数不符合 3= 一般/不确定 4= 多数符合 5= 完全符合共有前9题是体现学生自信度的。那么如果我们想看看学生的自信度,该如何比较均值?学生样本前九题值和学生样本前九题值和=3=3进行比较?如果和进行比较?如果和=4=4进行比较进行比较呢?呢?请用单样本请用单样本t t检验来测试?告诉

21、我你得出了什么结论?检验来测试?告诉我你得出了什么结论?独立样本t检验与相依样本t检验如何拆分比较平均值?如何拆分比较平均值?数据数据 拆分数据拆分数据 按组组织输出按组组织输出分析分析 描述统计描述统计 探索探索但是,描述性统计并不能告诉我们平均值是否是统但是,描述性统计并不能告诉我们平均值是否是统计意义上的显著不同。计意义上的显著不同。要知道要知道未知总体未知总体统计意义上的显著不同,我们必须统计意义上的显著不同,我们必须用推断性统计。用推断性统计。独立样本t检验独立样本独立样本t t检验用于检验用于检验两个组别中关于某些感兴趣的因变量的均值是否存在显检验两个组别中关于某些感兴趣的因变量的

22、均值是否存在显著差异。通俗说:我们想要比较相同变量的两个组的均值。著差异。通俗说:我们想要比较相同变量的两个组的均值。例子:例子:1 1,男人和女人平,男人和女人平均吸烟多少是否有均吸烟多少是否有显著差异?显著差异?2 2,使用不同教学,使用不同教学方法的两组学生是方法的两组学生是否存在成绩上的显否存在成绩上的显著差异著差异自变量自变量性别:男性女性性别:男性女性教学方法:教学方法:以学生为中心的以学生为中心的引导学习引导学习以教学为主的传以教学为主的传统学习统学习因变量因变量吸烟多少吸烟多少学生的测量量表学生的测量量表成绩成绩相依样本t检验相依相依样本样本t t检验用于检验用于检验两个相关组

23、别中关于某些感兴趣的因变量的均值是否存检验两个相关组别中关于某些感兴趣的因变量的均值是否存在显著差异;检验之,同一个人不同时刻进行测量的结果;在显著差异;检验之,同一个人不同时刻进行测量的结果;例子:例子:1 1,学生更喜欢哪,学生更喜欢哪种教学方式?种教学方式?利用等级量表利用等级量表2 2,使用电子白板,使用电子白板教学后学生的计算教学后学生的计算机能力测试是否可机能力测试是否可以考得更好?以考得更好?自变量自变量教学方法:教学方法:以学生为中心的以学生为中心的引导学习引导学习以教学为主的传以教学为主的传统学习统学习电子白板教学电子白板教学因变量因变量重要性等级(重要性等级(1-1-5 5

24、)学生的测量量表学生的测量量表成绩成绩独立样本t检验的三大假设1,观测是否独立,观测是否独立如果违反这一假定,将严重损害独立样本t检验的准确性。例如参与者共同合作完成问卷。2,每组变量总体服从正态分布,每组变量总体服从正态分布这个假定指的是两个样本的分数服从正态分布;注意:对于中等或者较大样本(n=30), 绝大多数非正态分布对t检验精确性影响不大。3,每组总体方差相等,每组总体方差相等可通过SPSS中levene检验结果读取;独立样本t检验的三大假设1,观测是否独立,观测是否独立如果违反这一假定,将严重损害独立样本t检验的准确性。例如参与者共同合作完成问卷。2,每组变量总体服从正态分布,每组

25、变量总体服从正态分布这个假定指的是两个样本的分数服从正态分布;注意:对于中等或者较大样本(n=30), 绝大多数非正态分布对t检验精确性影响不大。3,每组总体方差相等,每组总体方差相等可通过SPSS中levene检验结果读取;例子:我有一个样本量我有一个样本量n=40n=40的随机的武汉市的随机的武汉市某年高考语文成绩;如果我想检验该年某年高考语文成绩;如果我想检验该年武汉高考语文男孩和女孩的成绩的显著武汉高考语文男孩和女孩的成绩的显著性:性:1 1,男孩的语文成绩和女孩的语文成绩是否统计意义上,男孩的语文成绩和女孩的语文成绩是否统计意义上的显著不同?的显著不同?2 2,女孩的语文成绩是不是统

26、计意义上的显著地比男孩,女孩的语文成绩是不是统计意义上的显著地比男孩好?好?SPSS中的独立样本t检验分析分析- - 检验均值检验均值- - 独立样本独立样本t t检验检验检验变量:高考语文;检验变量:高考语文;分组变量分组变量: :性别;点击定义组,组性别;点击定义组,组1:11:1,组,组2:22:2从描述性统计的角度看,我们从描述性统计的角度看,我们可以看出女性的高考语文成绩可以看出女性的高考语文成绩比男性高,但是,是否是在比男性高,但是,是否是在“统计意义上的统计意义上的”不同呢?还不同呢?还是只是基于概率造成的差异是只是基于概率造成的差异?我们该如何解读这个推断性统计量表呢?独立样本

27、t检验的三大假设1,观测是否独立,观测是否独立如果违反这一假定,将严重损害独立样本t检验的准确性。例如参与者共同合作完成问卷。2,每组变量总体服从正态分布,每组变量总体服从正态分布这个假定指的是两个样本的分数服从正态分布;注意:对于中等或者较大样本(n=30), 绝大多数非正态分布对t检验精确性影响不大。3,每组总体方差相等,每组总体方差相等可通过可通过SPSSSPSS中中levenelevene检验结果读取;检验结果读取;独立t检验方差相等的levene检验Levene检验的原假设和对立假设:H0:两组总体方差相等:两组总体方差相等H1:两组总体方差不相等:两组总体方差不相等提问:那么,如果

28、相等方差的Levene检验的p值如果大于0.05,方差是 相等还是不相等相等还是不相等 ?,如果p值小于0.05,方差 ? p=0.913 0.05,p=0.913 0.05, 所以所以我们假设方差相等,当我们假设方差相等,当相等的时候,我们利用相等的时候,我们利用上面一行解释数据上面一行解释数据因为因为p=0.0560.05,p=0.0560.05,所以两所以两组均值相等的原假设无法组均值相等的原假设无法拒绝,所以男孩和女孩的拒绝,所以男孩和女孩的高考成绩没有显著差异。高考成绩没有显著差异。如果是单侧检验的话,假设如果是单侧检验的话,假设女孩的高考成绩比男孩好,女孩的高考成绩比男孩好,p=0

29、.056/2=0.0250.05,p=0.056/2=0.0250.05,我我们可以拒绝原假设,认为女们可以拒绝原假设,认为女孩的高考成绩比男孩在统计孩的高考成绩比男孩在统计意义上要高。意义上要高。APA格式结果表达:在写独立样本独立样本t检验检验的时候,除了报告均值和样本标准差,还有报告假设实验的结论,自由度,t值,p值:具体描述:具体描述:表格表格*显示,显示,*数据样本来自数据样本来自26名男性和名男性和18名女性,女性的样本均值名女性,女性的样本均值M=110.10 (SD=16.49),男性的样本均值男性的样本均值M=100.96(SD=14.24),根),根据据Levene检验可知,总体方差假设成立(检验可知,总体方差假设成立(F=,p=),独立样本),独立样本t检验检验表示高考语文成绩的均值是显著的(表示高考语文成绩的均值是显著的(t=-1.96, df=42, p=0.025)。因此,)。因此, 当当=0.05时时.女孩女孩的高考成绩(的高考成绩(M=110.1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论