SPSS在教育与心理统计学的应用_第1页
SPSS在教育与心理统计学的应用_第2页
SPSS在教育与心理统计学的应用_第3页
SPSS在教育与心理统计学的应用_第4页
SPSS在教育与心理统计学的应用_第5页
已阅读5页,还剩426页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.,SPSS,浙江师范大学教育学院心理系康春花akang,.,课程框架,一、教育统计与测量预备知识二、相关分析三、假设检验(独立总体)四、假设检验(相关总体)五、方差分析基础六、一元线性回归分析七、多元统计分析八、问卷的质量分析九、卡检验十、复选题的处理与分析,.,教材与参考资料,教材:张敏强著教育与心理统计学人民教育出版社参考资料:1.张厚粲著心理与教育统计学北京师范大学出版社2.金瑜著心理测量华东师范大学出版社,.,教学目标,1.明白教育与心理统计学在教育与心理科学研究中的地位与作用;2.掌握各种统计分析法的使用条件,能依据不同的研究问题选择正确的统计分析法;3.根据研究目的,能正确解释各种统计分析结果;4.理解各种统计分析法的相同与不同,结合研究问题,能巧妙地运用多种统计分析法为研究服务。,.,一、教育统计与测量的预备知识,(一)教育与心理统计学的研究对象与性质,.,教育与心理统计学:是把数理统计的理论与方法应用到教育与心理领域,研究教育与心理现象的一门应用统计学,它是我们正确认识教育与心理现象数量特征的重要工具。,.,(二)统计方法在教育领域中的作用1.教育与心理统计是教育科学研究的工具2.学习教育与心理统计有利于教育行政和管理工作者正确掌握情况,进行科学决策3.教育与心理统计是教育评价不可缺少的工具4.学习教育与心理统计有利于训练科学的推理与思维方法,.,1.教育与心理统计是教育科学研究的工具(1)研究范式与方法在社会科学研究中,其方法从总体上讲可以概括为质的研究方法(qualitativeresearch)和量的研究方法(quantitativeresearch)两种,这两种方法是不能相互取代的,而是相互补充的。,.,研究范式与方法,.,图1-1心理与教育研究的一般过程,.,(2)心理、教育科学研究与理论构建a归纳理论的构建归纳理论是从对研究数据的观察和分析中发展出来的能够解释现象或变量之间关系的概括性理论。归纳理论构建的逻辑基础是归纳推理,即从特殊到一般,从事实到理论。研究者要观测、分析大量的事实,更主要的是要善于从复杂的数据中寻找具有普遍意义的模式或规律。,.,如:美国社会心理学家格罗克1967年进行的关于宗教信仰的大规模调查,从大量数据事实中探讨了四个变量(性别、婚姻状况、年龄、家庭收入)与宗教信仰程度的关系,最后得出结论:在社会生活中最大程度地被剥夺了成功感和满足感的人倾向于信仰宗教,以获得慰藉和补偿(宗教的社会剥夺理论)。,.,b演绎理论的构建演绎理论是从某些一般性的规律出发对于某些特殊事件建立的理论。演绎理论的逻辑基础是演绎推理,即从一般到特殊,从理论到特殊事件。,.,演绎理论的一般步骤是:a选择研究课题,并确定一般性理论的应用范围;b确定研究的变量并使之操作化;c收集和分析有关变量之间关系的命题;d从命题出发进行逻辑推理,得出逻辑推理。,.,如:从社会心理学中“人际交往对个人价值取向与行为方式的影响”理论出发来考察独生子女的心理和行为特点。当然这些分析还需要调查和实验的研究来加以验证。,天然的无选择的人际关系,社会的个人选择的人际关系,独生子女可能成长为较有独立性、自我定向以及灵活应付社会的能力较强的人,少,多,.,c机能理论的构建机能理论是指综合了归纳与演绎的成分,既强调数据,又强调解释的理论。事实上,在具体的研究中,归纳和演绎经常是结合在一起的。,.,图1-2心理与教育研究中的归纳和演绎,.,天然的无选择的人际关系,社会的个人选择的人际关系,独生子女可能成长为较有独立性、自我定向以及灵活应付社会的能力较强的人,少,多,调查或实验,比较独生子女与非独生子女在独立性、自我定向和应付社会等方面的能力强弱,独生子女心理与行为理论,归纳,演绎,.,d模型理论的构建模型理论的构建以类比为基础,在认知心理学中运用比较多。,.,教育工作者对教育问题的研究不仅从定性的角度去认识,而且越来越注意从定量的角度去分析。而教育与心理统计学正是为实证主义研究(量的研究)服务的。这可以从以下量的研究的流程图中看出。,.,教育与心理学量化研究流程图,撰写研究成果,.,如:研究课题:中学生时间管理倾向、心理健康与学业成绩之间的关系研究。研究假设1:中学生的时间管理倾向、心理健康与学业成绩之间存在显著的相关关系;研究假设2:对中学生时间管理倾向的训练能提高中学生的时间管理技能、心理健康程度和学业成绩。,.,研究方法:收集资料的方法:问卷调查法实验法分析资料的方法:利用SPSS对数据资料进行统计分析(相关分析、t检验)研究工具:时间管理倾向量表MHT量表学业测量量表(考试卷)实验设计:实验组、对照组前后测设计,.,2.学习教育统计有利于教育行政和管理工作者正确掌握情况,进行科学决策,.,3.教育统计是教育评价不可缺少的工具教育评价质量的获取、整理、解释及评价结果的质量分析,都离不开统计方法。,.,4.学习教育统计有利于训练科学的推理与思维方法统计研究是以大量数据并通过严密的逻辑推理去说明事物的本质,而不是靠个别事实。,.,(三)教育与心理统计学的内容1.描述统计描述统计,主要研究如何将实验或调查得到的大量数据简缩成有代表性的数字,使其能客观、全面地反映这组数据的全貌,将其所提供的信息充分显现出来,为进一步统计分析和推论提供可能。,.,例如:描述学业考试中全校或班级的考试状况(平均成绩)、描述学生的升学率、及格率或优秀率等。,.,2.推断统计推断统计是以描述统计为基础,以解决由局部到全体的推论问题,即通过对一组统计量的计算分析,推论该组数据所代表的总体特征。,.,例如:随机抽取某校若干名学生的考试成绩,推断该校学生成绩与全市该类学生考试成绩的差异性。,.,(四)统计概念和术语1.随机现象与随机变量随机现象是一种不确定性现象.如考试、心理测验等。存在随机误差。我们把具有变化规律的表示随机现象各种结果的变量称为随机变量。如学生的身高、体重、性别、智商、成绩等等。随机变量具有离散性、变异性与规律性的特点。,.,2.变量的类型(1)连续变量与非连续变量(间断变量、离散变量)(2)因变量与自变量随机变量按性质分有如下四种:(1)称名变量(Nominal)如性别、年级等。(2)顺序(等级)变量(ordinal)如名次、等级评定、喜爱程度、品质等级、能力等级等。(3)等距变量(interval)如天气温度、各种能力分数、智商等。(4)比率变量(ratio)如身高、体重、反应时等。,.,3.总体个体样本总体是某一类所欲研究的对象的全体。N构成总体的每个基本单元称为个体。x从总体中抽取的一部分个体,称为总体的一个样本。n,.,4.统计量与参数统计量是描述样本情况的统计指标。如,S,r等。参数又称总体参数,是指描述一个总体情况的统计指标,用希腊字母表示。如等,.,推断统计,如:样本平均数样本标准差S样本相关系数r,如:总体平均数总体标准差总体相关系数,描述统计,各种概念之间的关系,.,5.平均数、标准差(1)平均数的概念(2)方差与标准差的概念,.,(1)平均数的概念观测值的总和除以观测值的总次数所得的商,总体平均数用表示,样本平均数用表示。,.,(2)方差与标准差的概念总体方差与标准差:样本方差与标准差:,.,如:数据(三位射击手的射击成绩)A:7788899R=2B:457891112R=8C:147891215R=14谁的成绩更稳定?8对于谁的代表性更好?,.,在心理学中,常用平均数与标准差建立量表的常模。如:在SCL-90中,抑郁分量表的均值为1.50,标准差SD为0.59,如果某人的得分偏离常模团体平均数达到两个标准差时0.32,2.68,则可认为是异常。,.,6.正态分布与t分布(1)正态分布正态分布也称为常态分布或常态分配,是连续随机变量的概率分布的一种。其概率分布是一种呈钟型的对称曲线,叫正态曲线或高斯曲线。某变量服从正态分布写作:XN(),.,不聪明的人,人数,很多人,很少人,中等聪明的人,聪明的人,矮的人,中等高矮的人,高的人,正态分布,.,100,130,120,110,90,80,70,0,3,2,1,-1,-2,-3,(),原始分,标准差,正态曲线下的面积被分成不同的区域(=100,=10),.,平均数决定曲线在横坐标上的位置(总体水平的高低),低分,高分,A的平均数,B的平均数,C的平均数,y,.,标准差决定总体的离散程度(分布形态),低分,高分,平均数,y,分布A,分布B,分布C,.,在正态分布曲线下,标准差与概率(面积)有一定的数量关系。如:离开平均数正负1个标准差之间包含总面积的68.26%。其他见下表:,.,100,130,120,110,90,80,70,0,3,2,1,-1,-2,-3,(平均数),原始分,标准差,34.13%,34.13%,13.59%,13.59%,2.15%,2.15%,.13%,.13%,.,.,同样,.,正负1.96个标准差之间,包含总面积的95%;正负2个标准差之间包含总面积的95.44%;正负2.58个标准差之间包含总面积的99%;正负1.64个标准差之间包含总面积的90%;正负3个标准差之间包含总面积的99.74%。,.,任何正态分布都可以通过转换成标准正态分布。转化成标准正态分布后,所有的原始分数都变成了标准分数,所有的普通正态分布曲线下横坐标上的数据都转变成了标准正态分布下的标准分数,因而把不等单位的原始数据转变成了可以比较(加减乘除)的标准分数。,.,如上述正态分布XNX为110的标准分为:,.,0,3,2,1,-1,-2,-3,标准分,34.13%,34.13%,13.59%,13.59%,2.15%,2.15%,.13%,.13%,所有学生分数中84%的学生的分数低于1个标准分,即P(Z1)=0.84。即16%的学生的分数高于1个标准分。,.,(2)t分布t分布也是钟形对称的分布,与正态分布相比,中间稍低而尖翘,两头高而平缓。t分布因自由度的不同而形成不同的形态,而正态分布是由平均数和方差决定的分布,标准正态分布只有一条曲线,而t分布随着自由度的增大,曲线形态会越来越接近正态分布,当df趋近无穷时,t分布曲线与正态分布曲线重合。,.,.,案例呈现1(仅作教学使用),研究题目:“浙江省大学生人格状况调查研究”。研究工具:“大五”人格问卷。研究问题:(一)该抽样调查的样本结构如性别、年级、学校人数结构(二)浙江省大学生的人格现状描述(三)浙江省大学生人格的性别差异研究,.,(四)浙江省大学生人格的年级差异研究(五)浙江省大学生人格的学校差异研究(六)浙江省大学生人格在性别与年级上是否存在交互作用(七)浙江省大学生人格在性别与学校上是否存在交互作用(八)浙江省大学生人格在学校与年级上是否存在交互作用(九)高低人格类型与性别、年级、学校的关系,.,收集资料的方法:问卷调查法。分析资料的方法:问题(一)、(二):描述统计分析问题(三)、(四)、(五):一元推断统计分析问题(六)、(七)、(八):多元推断统计分析问题(九):卡方检验,.,案例呈现2(仅作教学使用),研究题目:私立高中学生心理健康水平与其父母教养方式的相关研究。研究工具:周步成的“学生心理健康综合测量(mht)”、“父母教养方式评价量表”。研究问题:(一)私立高中学生心理健康水平的总体描述,.,(二)独生与非独生子女MHT的差异(三)学生MHT的文理科、性别差异(四)学生MHT的年级差异(五)父亲教养方式与学生MHT的相关分析(六)母亲教养方式与学生MHT的相关分析(七)父亲文化程度与学生MHT的关系(八)母亲文化程度与学生MHT的关系,.,收集资料的方法:问卷调查法分析资料的方法:问题(一)描述统计分析:平均数、标准差问题(二)(三):假设检验问题(五)(六):相关分析问题(四)(七)(八):方差分析,.,实证研究(量的研究)的论文格式:(一)题目题目最好能表现研究的变量关系(即关系是可验证的假设)。如“学习困难儿童友谊质量、定向、孤独感的研究”(心理科学2003年第2期P236。)(二)引言或前言说明该研究的意义以及题目产生的过程;提出问题的背景材料;提出问题的假设并加以一定的阐述。,.,(三)研究方法1.被试选择被试的选择方式,被试的年龄、性别及相关信息,被试的数目、如何分组(实验研究)等体现被试总体的大概信息。(可用文字、描述统计分析图或表来说明)2.研究材料(仪器材料),.,量表研究(如本例)智力量表、学业成绩、孤独问卷、友谊质量问卷、定向问卷(交代问卷的效度及信度资料);如果是自编问卷应交代问卷质量分析过程。实验研究呈现自变量或测量因变量用的。如眼动仪还应写明自变量如何呈现,呈现的时间和速度等。,.,3.研究程序(实验程序)量表研究:指导语、如何进行测试。实验研究:实验设计,进行实验的原则、方法和步骤,指导语是什么,用什么措施控制了哪些条件等。(四)结果(对研究问题进行统计分析的结果)以图或表的形式表示的统计结果。客观结果。,.,(五)讨论这部分主要是要根据研究结果对所要解决的问题给予回答并指出假设是否得到证实。如果研究(实验)结果不能充分说明问题或者各部分有矛盾,就要进行讨论,找出原因。如果研究(实验)结果与其他研究者的同类研究结果不一致时,要进行讨论,提出自己的看法。如果研究(实验)得到意外结果,也要进行讨论。还应对本研究的程序、所用仪器材料以及进一步研究提出修改意见和建议。,.,以上具体过程可参见:刘在花许燕学习困难儿童友谊质量、定向、孤独感的研究心理科学2003年,第2期,P236,(六)结论以概括的形式说明实验结果证实了或否定了什么问题。结论应确切地反映整个实验的收获。(七)参考文献文献的作者、题目、出处、出版日期等。(八)附录另外,有的研究(实验)还要求写“摘要”。“摘要”应写在题目下,正文前。200字左右。包括所解决的问题、方法、结果或结论等内容。,.,二、相关分析及其应用,案例1对语文与教学成绩关系的统计处理设想语文成绩与数学成绩之间有一定的相关,在小学阶段,语文成绩好的学生,可以更好的理解数学题目,在低年级更加明显。某些小学老师对这个问题很感兴趣,他们对参加考试的同学中,抽取10名学生,其成绩如下:,.,.,【问题与思考】1.相关分析的原理是什么?2.相关分析的类别有什么?3.对于本案例该用何种相关来进行分析?,.,相关分析(描述两变量关系的量数),1.什么是相关关系变量之间的关系可以分为两类:一类是确定的函数关系,比如销售额(M)、价格(P)和销售量(Q)之间的关系为:M=P*Q;它们之间为一一对应的关系,知道其中两个变量,就可以确定第三个变量。,.,另一类是统计相关关系。相关关系指的是变量之间有联系,但其密切程度又没有达到一一确定的因果关系。比如不同地区家庭的人均食品支出与人均收入的关系,收入高的地区,往往食品支出也高,但是相同收入的地区,食品支出不一定相同,这是因为后者还与地区物价以及不易测量的消费习惯等随机因素有关。,.,变量之间相关的密切程度可以用相关系数r来表示,其取值范围为-1,+1,绝对值r越接近1表明相关密切程度越高,或者说一变量受另一变量的影响程度越高。可见具有函数关系的两变量,其相关系数一定为+1或-1。正相关:方向一致,如身高与体重成正相关。负相关:方向相反,如初学打字,练习次数越多,错误越少。零相关:不存在线性相关,如成绩好坏与身高无关,不是不相关,因为有可能是曲线相关。,.,图74相关系数示意图,散点呈椭圆形分布,X、Y同时增减-正相关(positivecorrelation);X、Y此增彼减-负相关(negativecorrelation)。,散点在一条直线上,X、Y变化趋势相同-完全正相关;反向变化-完全负相关。,X、Y变化互不影响-零相关(zerocorrelation),零相关,.,2.相关系数的计算计算相关系数一般要求成对的数据,即若干个个体中的个体要有两种不同的观测值。例如每个学生的数学和语文成绩;每个学生的智力分数与学习成绩;每个学生的英语听力水平和口语水平。,.,积差相关(积矩相关)适用条件:连续变量成对出现正态分布,.,定义公式:计算公式:,.,例如,被试的身高(cm)和体重(公斤)均服从正态分布,求其相关密切程度。(r=0.792),.,spearman等级相关适用条件:两列变量都是等级或顺序变量的时候。确定不了数据的分布形态的时候。积差相关运算太繁,转用等级相关。,.,计算公式:D为等级相减之差例:学习12345678910纪0-202-4110-13,.,3.对于本案例的分析由于语文和数学考试都是采用百分制,故可把它们都看作是连续变量,因而其相关分析可用积差相关来做。=0.83,.,以上数据统计分析也可在SPSS10.0中进行,具体操作过程如下:(1)菜单选择:Analyze/Correlate/Bivariate(2)统计结果:(3)结果说明:数学和语文成绩相关显著,相关系数为r=0.83(p0.01)。,.,三、假设检验及其应用1,案例2对独生和非独生子女社会认知能力数据的统计处理随着计划生育基本国策的推广,有越来越多的独生子女出现,独生子女问题一直是大家比较关心的问题。设想独生子女与非独生子女在社会性方面存在差异,有些研究者对这个问题很感兴趣,他们随机抽取独生子女7人,非独生子女12人,进行社会认知测验,测验题目共200题,在规定时间内答对算1分。测验成绩的数据如下:,.,.,【问题与思考】1.平均数差异显著性检验的原理是什么?2.平均数假设检验的类别有什么?3.对本例的分析。,.,1.平均数差异显著性检验的原理均值比较就是看两个样本中某变量均值不同,其差异是否具有统计意义,即能否通过样本平均数之间的差异去推论总体之间确实存在差异.,.,要解决这个问题,其步骤为:建立假设检验假设作出结论。(1)关于假设:两者在社会认知能力上无差异:两者在社会认知能力上有显著性差异,.,虚无假设是统计推论的出发点,人们在进行研究时,总是从虚无假设出发,通过计算某一检验统计量来推翻虚无假设,从而得到希望证实的研究假设。,.,(2)统计决策的原理统计决策的原理是“小概率事件原理”。在一次随机抽样中小概率事件不会也不可能发生,小概率事件的小概率记为,称为显著性水平(Levelofsignificant),所谓显著性水平就是研究者拒绝真的虚无假设时犯错误之最大概率值,通常取0.05,0.01三个值比较多。在spss中,如果sig0.05或带有*(在文章中写作p0.05),就可以拒绝原假设,从而接受研究假设。,.,差异显著性检验的原理从样本(我们实际观察)的统计量的差异能否作出一般性结论总体参数之间确实存在差异。要检验这种差异,必须建立与之对立的虚无假设(不存在差异,是误差因素引起的),经过检验如果所得到差异超过了统计学规定的某一误差限度(横坐标上的界限值),则表明差异已经不属于抽样误差,而是总体确实有差异,这种情况叫做差异显著,应拒绝虚无假设。,.,(3)检验统计量值(t检验与t值)平均数差异的检验均可以采用t检验,t值的计算为:t=(平均数之差)/SEt值计算出来后,应该与临界值比较,如果t值大于临界值,此时sig0.05(p0.05),则拒绝原假设,接受研究假设,即认为平均数之间存在显著性差异。,.,.95,保留区域,t值落在拒绝区域(发生了小概率事件),t(df)/2,-t(df)/2,.,2.平均数假设检验的内容(Analyze/CompareMeans/)(一)单总体平均数差异显著性检验(onesamplettest)(二)两独立总体平均数差异显著性检验(independent-samplesttest)(三)两相关总体平均数差异显著性检验(paired-samplesttest)(四)单因素方差分析(One-WayANOVA),.,3.对本例的分析对本案例数据分析的统计学原理是什么?当然是双总体平均数假设检验,因为实验中有两组被试,其行为表现水平分别用各组被试测量值的平均数作为代表值,则其行为表现的差异性当然就是两组被试平均数差异的显著性检验的问题。,.,那么,该用独立总体平均数假设检验的方法还是用相关总体平均数假设检验的方法呢?让我们来看看两相关总体的判断方法:其一、同一批被试的两列测量值是相关的;其二、一一严格配对的两组被试是相关的。故对本例而言,毫无疑问是两独立总体平均数差异显著性检验的问题。,.,检验统计量为:t=服从df=的t分布。,.,检验过程:(1)作统计假设:(2)计算检验统计量120101=445.82由于、差不多,故可认为两总体方差相等。,.,1.91(3)由=1.912.001,发生了小概率事件,应拒绝原假设,即认为实验班与对照班成绩存在显著性差异。实验取得了显著效果。,.,.95,保留区域,拒绝区域(发生了小概率事件),.,保留区域(0.95),拒绝区域,2.56,.,SPSS操作:数据见“自主学习教学方式.sav”。Analyze/comparemeans/Independent-samplesTtest,把“成绩”送入testvariable中,把“group”送入groupingvariable中,点击definegroups按钮定义组别(1和2),ok。,.,.,结果说明:实验班成绩显著好于对照班成绩t=2.56(p0.05),实验效应显著。,.,你是否能读懂这个表格?,*P0.05*P.01*P.001,.,四、假设检验及其应用2,案例4:对“品酒实验”数据的统计处理设想酒的颜色可以影响一个人对酒的喜爱程度,某些实验者对这个问题很感兴趣,他们研制了一种装置,这种装置可以在不改变酒味的情况下改变酒的颜色。在这个实验中,酒的颜色是深红色,它可以变成绿色。实验的因变量是愉悦评价。可以通过一个5等级量表来测量出被试的愉悦程度,自变量是酒的颜色。,.,下面是研究者在实验中涉及到的自变量、因变量及无关变量。自变量酒的颜色因变量评价(1-5个等级),12345没有愉悦中等愉悦非常愉悦无关变量控制:酒的温度应该保持恒定;光线不应太暗也不应太亮;顺序即第一种酒的品尝可能会影响对后一种酒的品尝;环境和他人的注视,主试对被试进行独立测验,而不应该分组进行,因为组内其他人的注视压力可能会影响一个人的评价。,.,研究者在这个实验中采用了被试匹配设计。因为主试认为被试变量如品酒经验可能对结果有很大影响。因此在品酒经验上对被试进行匹配,这样每对相匹配的被试就有相同的经验水平。自变量:酒的颜色;因变量:质量评价;匹配变量(无关变量):品酒经验;被试分配:把16名被试按照品酒经验分成8个区组,每区组内2个被试,每个被试接受一个处理。这样每组内的两个被试是一一匹配的。,.,实验数据如下:,.,【问题与思考】1.平均数差异显著性检验的原理是什么?2.双总体平均数假设检验的类别有什么?3.对本例的分析。,.,平均数差异显著性检验的原理与前案例相同,那么,该用独立总体平均数假设检验的方法还是用相关总体平均数假设检验的方法呢?让我们来看看两相关总体的判断方法:其一、同一批被试的两列测量值是相关的;其二、一一严格配对的两组被试是相关的。故对本例而言,毫无疑问是两相关总体平均数差异显著性检验的问题。,.,检验统计量为t=服从df=n-1的t分布。其中,(d=X-Y)。,.,t=-10接下来我们用软件把结果计算出来。,.,SPSS过程:数据见“品酒实验.sav”。(1)菜单选择:Analyze/CompareMeans/PariedSamplesTTest(2)统计结果见:“品酒.spo”,.,.,(3)结果说明:表一是描述统计量值;表二是t检验的结果,可以看出被试对人工酒色的评价显著低于对原色酒的评价(t=-9.979,P0.001)。,.,五、方差分析及其应用,案例5:三种自习指导方法的实验效果一位初中数学老师的困惑:在自习课上,采用不同指导方法对学生进行指导所产生的效果是否存在显著差异?为此,该老师设计了一个教学实验。自变量自习指导方法,有三个水平:(a1:指导10分钟;a2:指导20分钟;a3:指导30分钟)因变量:被试的数学测试成绩。控制变量:学生本身的数学水平、作业量、教学方法等,.,被试分配程序:该教师抽取3个平行班,每个班级随机接受一种自习指导方法的指导,对其它因素加以控制。一个月后实验结束,进行数学测试。从每一班级中随机抽出5名学生,他们的测验成绩如下,试分析三种自习指导方法的效果是否一致?,.,三种自习指导方法的教学实验,.,【问题与思考】1.什么是方差分析,它与t检验有什么区别和联系?2.方差分析的原理和步骤是什么?3.对本例该如何进行分析?,.,1.方差分析的原理(1)方差分析的目的三个或多个平均数差异检验,采用的手段是用两个方差之比来作决策。例如,在本例中,就是比较三种自习指导方法的实验效果是否一致,即三个样本所代表的总体平均数是否相等。,.,(2)方差分析中常用的术语因素(factor)、水平(level)因素指的是实验当中的一个自变量,如本例中的自习指导方法就是一个因素。水平指的是因素的具体取值,如本例中的a1(10分钟)、a2(20分钟)、a3(30分钟)就是因素的三个水平。,.,比较(comparisons)对各处理水平平均数之间差异的估计叫比较。当经过方差分析发现多个平均数之间存在显著性差异时,且因素的水平数多于2时,需要两两之间进行比较,进一步揭示出到底哪些水平之间比较是差异显著的,这就是比较的主要任务。,.,(3)方差分析的基本原理方差分析作为一种统计方法,是把实验数据的总变异分解为若干个不同来源的分量。因而它所依据的基本原理是变异的可加性(可分解性)。具体地讲,它是将总平方和分解为几个不同来源的平方和(这里的平方和指实验数据与平均数离差的平方和)。,.,因变量受到两方面影响:自变量与随机因素(误差),.,理解方差分析的逻辑,把总变异分解为组间变异和组内变异。组间差异是由于实验处理效应造成的,因此也可将组间离差平方和记为SSA,组内差异是由于实验误差造成的,因此可将组内离差平方和记为SSE,E表示误差。如果实验数据的总变异主要是由实验因素(处理或自变量)造成的,那么在总变异中组间差异将占较大比例,组内差异将占较小比例,这时有充分理由认为不同自习指导方法的实验效果不同,三平均数之间有显著性差异,拒绝原假设。,.,.,(4)方差分析的基本过程建立假设目的是检验几种实验处理是否有显著差异,因此:至少有一对不等,.,求平方和=,.,确定自由度和求均方=,(组间自由度)=,(组内自由度)进行F检验,.,列出方差分析表,作出结论,.,2.对本例的方差分析(1)建立假设Ho:不同的自习指导方法的效果不存在显著差异,即H1:至少有两种方法产生的效果存在显著差异(2)平方和分解与计算平方和分解:SSt=SSw+SSb,.,计算平方和:,.,(3)确定自由度,求均方已知k=3,N=15,则,各均方为:,.,(4)进行F检验(5)列出方差分析表,.,(6)做出结论查附表:则可以拒绝Ho,即三种自习指导方法的效果存在显著差异。,.,SPSS过程:数据见“三种自习指导方法.sav”。(1)菜单选择:Analyze/CompareMeans/One-WayANOVA(2)统计结果:,.,.,(3)结果说明表一是方差分析方差分析的结果,结果表明三种自习指导方法的效果存在显著差异的(F=4.59,P0.05)。表二是多重事后比较的结果,以进一步了解差异的实质。由结果知:指导20分钟比指导10分钟的效果更好,而指导20分钟和30分钟的效果差别不显著,指导10分钟和30分钟的效果差别也不显著。,.,六、一元线性回归分析(Analyze/Regression/Linear),案例6:识字率与城市化率关系的确定现有107个国家的城市化率和识字率的数据。将识字率作为自变量,城市化率作为因变量,分析和建立识字率与城市化率之间的线性函数关系。,.,【问题与思考】1.相关分析与回归分析的区别与联系?2.方差分析与回归分析的区别与联系,回归分析的原理与步骤?3.对本例的分析。,.,1.回归分析的意义表示变量之间的不确定性关系以及关系的密切程度,统计学上可以用相关关系来表达。但对于不确定性关系的变量,如何通过自变量的值去估计和预测因变量的发展变化,相关系数却无能为力。这就需要引进一种新方法:回归分析。,.,回归分析:如果把其中的一个或一些因素作为自变量,而另一些随自变量的变化而变化的变量作为因变量,研究他们之间的非确定性因果关系,看自变量对因变量是否有显著的预测作用,这种分析就称为回归分析。,.,回归分析的目的:就是确定变量之间数量关系的可能形式,并用一个数学模型来表示这种关系形式。,.,2.回归分析的基本原理回归分析的数学模型:这个模型假设因变量y受到k个自变量影响,同时还受到一些未知因素或随机误差影响,其中,自变量的影响用函数来表示,而表示随机误差。由于f是函数,对于自变量的每一组确定的值是确定的,但由于不确定,所以y也是不确定的。,.,回归模型中的虽然不确定,但是在每一组确定的自变量值之下,所有的都服从均数为0的正态分布,因而对于每一组自变量确定的值,因变量y也服从正态分布,其平均数就是:也称为回归的主值(回归方程),回归分析的一个重要任务就是求取回归方程。,.,3.回归分析的主要内容(任务)回归分析包括三大部分内容:建立回归方程、检验和评价所建立回归方程的有效性、利用所建立回归方程进行预测和控制。,.,4.一元线性回归的模型及模型的建立(1)一元线性回归模型一元线性回归研究的是具有线性相关关系的因变量和一个自变量之间的回归问题。其模型为:其中称一元线性回归方程,称为变量y对变量x的一元线性回归方程。,.,上述模型是针对总体而言的,但实际上我们经常调查的仅仅是从总体中抽取的样本,因而样本的回归方程为要建立回归方程实际上就是求a和b的值,其中a为常数,b为自变量的回归系数。例如:研究数学(x)与物理(y)的关系;识字率(x)与城市化率(y)的关系。,.,如研究问题:现有107个国家的城市化率和识字率的数据。将识字率作为自变量,城市化率作为因变量,分析和建立识字率与城市化率之间的线性函数关系。“一元线性回归.sav”就这个问题而言就是要建立一个这样的方程:城市化率=a+b识字率。,.,(2)回归方程的有效性检验回归方程有效性检验的原假设是:所求回归方程无效。假设的实际上是由自变量决定的回归方差并不显著大于剩余方差。但是如果经过F检验发现回归方差远远大于剩余方差(由误差解释的方差)则必须拒绝原假设,即所建立的回归方程有效。SPSS结果体现在方差分析表中。,.,(3)回归方程有效性高低的指标在回归分析中衡量回归方程有效性高低的指标称决定系数或测定系数,.,在一元线性回归中决定系数是因变量与自变量积差相关系数的平方。回归分析对所建立回归方程进行的有效性检验,其本质还是对变量相关显著性的检验。决定系数表明了自变量对因变量的解释量,或者说因变量中有百分之多少是由自变量决定的,当然其值越大越好。,.,结合实例进行讲解,(1)研究问题见(2)操作过程:我们要建立的是线性回归方程,那么在分析之前有必要看看因变量与自变量之间是否具有线性关系,作出一散点图便知,其操作为:Graphs/scatter/选择simple点击Difine按钮,把“城市化率”送入y轴,“识字率”送入x轴即可。通过散点图可以看出两变量之间具有很好的线性关系,因而可以进一步进行回归分析。,.,Analyze/regression/linear,把“城市化率”作为因变量送入Dependent框中,“识字率”作为自变量送入independent框中,点击save,在predictedvalues中选中unstandardized和standardized要求建立含有未标准化和标准化的回归系数的回归方程。其他只要按默认的即可。,.,(3)结果说明表格一表明我们是采用enter法进行的回归分析;表格二模型解释:R=0.657,=0.432,自变量对因变量的解释量为43.2%;,.,表格三回归方程有效性检验:F=78.185,p0.05,表明方程常数项应该为0,回归系数为0.678,p0.001。因而所求方程为y=0.678x;标准化回归方程为y=0.657x。,.,由于方程可以不包括常数项,因此,我们重新进行回归分析,在“option”中不选择“Includeconstantinequation”。这时输出结果为:R为0.956,决定系数为=0.915;F=1113.633,p0.05;年级存在主效应,F=4.698,P0.01;性别*年级存在交互效应,F=5.058,P0.01.,.,性别与年级交互效应图,.,在因素实验中,一个因素的水平在另一个因素的某个水平上的变异叫简单效应(simpleeffects)。当方差分析中发现一个两次交互作用时,需要进一步做简单效应检验,以说明两个因素之间交互作用的实质。通过上图可以看出,各年级适应性水平在性别为1的大学生中可能存在显著性差异。(是否正确?需进行简单效应检验),.,简单效应检验:分别在性别各水平上做年级的差异性检验。分析过程:在(Data/selectcases)中选择样本ifsex=1和ifsex=2分别对“适应性”进行年级的单因素方差分析。结果发现:在性别为1上,适应性存在年级简单效应,而在性别为2上并不存在。,.,性别为1时(F=7.539,P0.05),.,既然在性别为1上,年级之间存在显著性差异,我们可以进一步做事后比较。这样交互效应的实质就可以挖掘出来了。,.,性别为1时,年级效应的多重比较,.,结论如何写?,这样,在适应性人格方面,年级主效应及性别*年级交互效应的实质就挖掘出来了,即大学生的适应性人格存在年级差异,这种差异主要表现在性别为1的大学生身上。,.,具体而言,在性别为1的大学生中,其适应性得分:大一低于大二和大四(t=-1.79,p0.001;t=-2.48,p0.01);大二高于大三(t=2.52,p0.05);大三低于大四(t=-3.20,p0.05)。,.,练习1:检验在其他分量表上是否存在性别与年级的交互作用?练习2:检验3种小学语文实验教材,在4种不同教学方法中的教学效果。,.,教材*教学方法实验数据,.,第二章多元线性回归(Analyze/Regression/Linear),案例8:多个自变量与因变量关系的确定。初始工资、工作经验、受教育年限(自变量)与当前工资(因变量)之间的关系预测。【问题与思考】1.多元回归分析与多元方差分析的区别与联系?2.多元线性回归与一元线性回归的联系?3.对本例的分析。,.,根据多个自变量的最优组合建立回归方程来预测因变量的回归分析称为多元线性回归分析。多元线性回归分析的模型为:偏回归系数表示在控制其他自变量的情况下,某一个自变量变化引起因变量变化的比率。多元回归方程建立后,也需对方程有效性检验,采用的也是F检验。也要给出方程有效性高低的指标即多元决定系数。,.,多元线性回归中的统计指标,1复相关系数复相关系数R表示n个自变量组合与因变量y之间线性关系密切程度的指标。2多元测定系数(决定系数、判定系数)复相关系数的平方叫多元测定系数,在多元回归中也使用测定系数来解释回归模型中自变量的变异在因变量中所占的比率。为了消除自变量的个数以及样本容量的大小对测定系数的影响,引进经调整的测定系数(AdjustedRSqure)。,.,3零阶相关系数、部分相关与偏相关系数零阶相关系数(Zero-Order)表示自变量与因变量之间的简单相关系数。部分相关(PartCorrelation)表示在排除了其他自变量对的影响后,当一个自变量进入回归方程模型后,复相关系数的平方增加量。,.,偏相关系数(PartialCorrelation)表示在排除了其他变量的影响后,自变量与因变量y之间的相关程度。部分相关系数小于偏相关系数。偏相关系数也可以用来作为筛选自变量的指标,即通过比较偏相关系数的大小,判别哪些自变量具有较大的影响力,从而决定哪些自变量进入回归方程。因此回归方程有效性检验后,还要对每个自变量与y的偏回归系数进行检验。,.,多元回归分析的检验,1方差分析多元回归方程也采用方差分析对回归方程进行检验,使用检验统计量为F。原理与一元回归分析同。值得注意的是,经方差分析是对回归方程的整体的检验,回归方程有效,但回归方程中每个偏回归系数不一定都显著,或者说,某一个回归系数不显著时回归方程可能仍然显著,因此还需进行偏回归系数显著性检验。,.,2偏回归系数与常数项的检验偏回归系数是表示各个自变量与因变量y关系密切程度的指标,实际上也可以看出各个自变量对因变量的解释量。偏回归系数检验的目的就是剔除对因变量影响不显著的自变量。检验的假设是:总体中回归方程各个自变量偏回归系数为0,常数项为0。检验使用t统计量。,.,3.共线性问题在回归方程中,虽然各自变量对因变量都有意义,但某些自变量彼此相关,即存在共线性的问题。因此,需要对回归方程中的变量进行共线性(collinarity)诊断。所谓共线性指的是由于自变量间的相关太高,造成回归分析之情境困扰。两变量间的相关系数越接近1,表明变量间的共线性越强。,.,方程的确定系数很高,且y与各自变量的相关系数也很高,但自变量的回归系数均不显著,表明自变量之间可能存在共线性问题。见下图,.,有多元共线性(自变量间非直交关系)无多元共线性(自变量间直交关系),.,在回归分析中,最好先呈现预测变量间相关矩阵,以探讨变量间的相关情形,如果某些变量间的相关系数太高,可考虑只挑选其中一个较重要的变量投入多元回归分析。,.,自变量间是否存在共线性问题,可以由以下指标判断:1容忍度(Tolerance)。容忍度的值界于0至1之间,如果一个自变量的容忍度太小,表示此变量与其他自变量间有共线性问题。2.方差膨胀因子(varianceinflationfactor;VIF)。为容忍度的倒数,它的值越大,自变量间存在共线性的可能性越大。,.,3.条件指数(conditionindex;CI)CI=,在自变量相关矩阵之因素分析中,特征值可作为变量间有多少个层面的指数,如果有数个特征值接近0,表示原始变量间有高的内在相关存在,条件指数如果在15以上,则表示可能有共线性问题,条件指数如果在30以上,则表示有严重的共线性问题,CI值越大,越有共线性问题。,.,补救多重共线性影响的办法(1)去掉与y相关程度低、而与其他自变量高度相关的变量。(2)去掉可以被其余自变量线性表现出的变量。(3)增加样本规模。(4)采用新的样本数据。(5)利用先验信息组合变量。,.,多元线性回归的方法,(1)逐步回归法(stepwise)是运用较广泛的回归法。它结合向前回归法或顺向选择法(forwardselection)与向后回归法或反向剔除法(backwardelimination)两中方式的优点。根据在option对话框中所设定的判据,首先根据方差分析结果选择对因变量贡献最大的自变量进入回归方程。然后根据向后剔除法,将模型中F值最小的且符合剔除判据的变量剔除出模型重复进行直到回归方程中的自变量均符合进入模型的判据,模型外的自变量都不符合进入模型的判据为止。,.,(2)向前回归法或顺向选择法(forwardselection)。是自变量一个一个进入回归模式中。从模型中无自变量开始,根据option中所设定的判据,在第一个步骤中,首先进入方程式的自变量是与因变量关系最密切者,亦即与因变量间有最大正相关或最大负相关的自变量;第二个步骤(以后每一个步骤中)则选取与因变量偏相关为最大之自变量进入模型。在每个步骤中,使用F统计(t统计的平方)检验进入回归模型的自变量。,.,(3)向后回归法或反向剔除法(backwardelimination)。先建立全模型即将所有自变量均纳入模型,之后根据option中所设定的判据每次剔除一个对因变量贡献最小的自变量。有两个标准:一是最小之F值SPSS中默认是2.71(可以自己设定);二是最大之F概率值,SPSS默认是0.10,也可以设定为0.05。,.,(4)消去法(remove)。建立回归方程时,根据设定的条件剔除部分自变量。(5)强行进行法(enter)。这也是一种常见的方法,强迫所有自变量有顺序进入回归模型。在研究设计中,如果研究者事先建立假设,决定变量重要性层次,则应该使用强迫进入法。强迫进入法又称“层次进入法”(hierarchicalenter)。,.,多元线性回归实例,(1)线性回归的数据要求:自变量与因变量应该是数值型变量(连续型变量)。象宗教、研究方向、性别等分类变量,需要被重新编码为哑变量(虚拟变量)或者其他类别的对比变量。,.,(2)研究问题:建立一个以初始工资、工作经验、受教育年限等为自变量,当前工资为因变量的回归模型。数据见“多元线性回归.sav”。(3)操作过程:Analyze/Regression/Linear,在Model中选择“stepwise”,在statistics中选择Estimates,Modelfit,Rsquaredchange,partandpartialcorrelation,共线性诊断collinearitydiagnostics。,.,(4)结果说明表格二中的R为自变量与因变量的复相关系数,Rsquare为总解释量即为模型中自变量组合对因变量的总解释量,为消除自变量个数及样本容量影响有一个校正后的AdjustedRsquare,Rsquarechange下的系数实际上是被加入的这个自变量对因变量的单独解释量。,.,1.表格二复相关与解释量,.,初始工资、工作经验、受教育年限与当前工资的复相关系数为0.895,对当前工资的总解释量为0.800。其中初始工资的解释量为0.775,工作经验的解释量为0.019,受教育年限的解释量为0.008。,.,2.表格三方程有效性检验(方程有效,F=632.607,P0.05;三个偏回归系数均达到了显著性水平;三个自变量的容忍度均较高,.554、.866、.520可以认为不存在共线性问题。,.,由于本方程不应包含常数项,因此需重新进行线性回归分析,其它操作与前同,只是在opitions命令选择项中不选中includeconstantinequation。,.,这时结果发生了变化,1.总解释量为0.960,比前提高了;2.方程是有效的,但F值变化了;3.三个自变量的偏回

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论