MJ心理学考研大纲解析--心理统计(小白修订版).doc_第1页
MJ心理学考研大纲解析--心理统计(小白修订版).doc_第2页
MJ心理学考研大纲解析--心理统计(小白修订版).doc_第3页
MJ心理学考研大纲解析--心理统计(小白修订版).doc_第4页
MJ心理学考研大纲解析--心理统计(小白修订版).doc_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

考研专业课大纲解析心理统计学心理统计大纲解析一、描述统计心理统计中常见的基本概念1.变量及其种类(1)变量变量又称随机变量,即不断变化的,可取不同值的量。如实验中出现的自变量、因变量与额外变量(2)变量与数据的区别心理统计学中,一旦对变量进行了观测,或者进行了取值,这个数值也就是这个变量的一个观测值,即数据,一个变量可以有无数多的数据值。(3)变量和数据的分类1.根据变量性质的划分名称变量:如性别、颜色等,也称类目变量,若属性只有两种结果,亦称二分名称变量。其所属数据是计数数据,即各类属的数量。顺序变量:按事物的某一属性的大小或多少按顺序排列起来的数据,相邻两个等级的间隔是不等距的,只有等级上的差别,无单位又无绝对0点。等距变量:这类数据只有相等的单位,而无绝对0点,如测验分数、温度等。比率变量:又称等比变量,是一种既有相等单位,又有绝对零点的变量,如距离、时间、人的身高、体重等。后三种变量的数据都是用一定的测量工具或测量标准测量时所获得的数据,统称度量数据。2.根据变量的连续性划分连续变量:即可无限划分的变量,如长度可划分为千米、米、厘米、微米等离散变量:指测量单位间不能再细分的数据,常取整数,如名称变量3.根据变量间的关系划分:即自变量、因变量与额外变量的划分2.统计术语初步总体是指具有某些共同的,可观测特征的一类事物的全体个体是构成总体的基本单位或单元,又称元素或个案样本即从总体中抽出的一部分个体,一般30以上的样本称大样本,30一下的称小样本参数是总体的特征量数,一般只是理论假设时存在,实际无法测量,如(总体平均数)、(总体标准差)、(总体相关系数)等统计量则是直接从样本计算出的量数,代表的是样本的特征,如M(样本平均数)、S(样本标准差)、r(样本相关系数)等(一)统计图表统计表和统计图都是对数据进行初步整理,以简化的形式加以表现的两种最简单的方式。在制定统计图表之前,一般首先要对数据进行以下两种初步整理:(1)数据排序:按照某种标准,对收集到的杂乱无章的数据按照一定顺序标准进行排列,其具体方法一般有如下三种:顺序分布法:将数据按大小排列,后用频数f表示相同数据的出现次数等级分布法:先按顺序排列数据,后以事物本身的性质标上相应的等级R,若有重复等级时,应在划分等级时根据其实际的排序位置求平均等级次数分布法(2)统计分组:根据被研究对象的特征,将所得到数据划分到各个组别中去1.统计图统计图:用点、线、面的位置、升降或大小来表达统计资料数量关系的一种陈列形式 组成:坐标轴、图号、图题、图目、图尺、图形、图例、图注图形的种类:直条图(条形图)和圆形图(饼图)都是用于绘制离散型数据的统计图次数多边形图(线性图)与直方图是用于绘制连续型数据的统计图散点图则是用于表示对事物相互关系的统计图此外还有茎叶图、测量中用来表示结果的剖面图等2.统计表统计表:将要统计分析的事物或指标以表格的形式列出来,以代替烦琐文字描述的一种表现形式 组成:隔开线、表号、名称、标目、数字、表注 分类:简单表、分组表、复合表次数分布表的编制过程与方法:(1)求全距(Range,R)(2)定组数和组距经验法是根据经验将数据分为1020组,其中1015组为最佳,组距一般选择2、3、4、5、10等当数据来自于一个正态分布的总体时,可以用计算法:; 或;其中i为组距,k为组数(3)定组限 组限是指每一组的起止点表达界限:即根据第二步人为确定的上下限精确界限:上限or下限分别+/- 0.5(或0.05、0.005)所得的界限 (4)登记与汇总 即写出各组频数f与总数f (二)集中量数集中量数即表示集中趋势的一种参数或统计量,反映的是频数分布中大量数据向某一点集中的情况。1.算术平均数(1)定义算数平均数:即所有观察值的总和与总频数之商,简称为平均数或均数。(2)特点在一组数据中每个变量与平均数之差的总和等于零:在一组数据中,每一个数都加上一个常数C,所得的平均数为原来的平均数加常数C:在一组数据中,每一个数都乘以一个常数C,所得的平均数为原来的平均数乘以常数C:(3)意义算数平均数是应用最普遍的一种集中量数,它在大多情况下是真值最好的估计值。2.中数(1)定义:中数:按顺序排列在一起的一组数据中居于中间位置的数,在这组数据中,有一半数据比它大,一半数据比它小,以Md或Mdn表示。(2)算法:数列总个数为奇数时,第 (N+1)/2 个数就是中数数列总个数为偶数时,可取位于中间的两个数的平均数作为中数分布中有相等的数时,将重复的数字看成一个连续体,利用中间分数的精确上下限使用插值法注:有相等数数列的中数计算不容易,要自己好好摸索,我通常是采取如下方法:总个数为奇时取第(N+1)/2个数的组中值;总个数为偶时取第N/2个数的精确上限与第 (N+1)/2 个数的精确下限的均值3.众数众数:在次数分布中出现次数最多的那个数的数值,以Mo表示。众数可能不只一个。均数、中数、众数的关系与应用比较: (1)关系 当数据分布呈正态时:M = Mdn = Mo呈偏态分布时,众数位于峰值最高点上,中数位于均值与众数之间,且有Mo = 3Mdn - 2M即正偏态分布时Mo Mdn M;负偏态分布时M Mdn j格中的择优分数。注:U系数的取值范围在01之间,为1时,意味着评分者的意见完全一致;当U为(奇数)或(偶数)时,意味着评分者意见完全相反,而U取值的正负并不表示一致的方向。4.点二列相关与二列相关(1)点二列相关适用于一列数据为正态等距变量,另一列为离散型二分变量的情况,可用于计算二分计分题目的区分度。是与二分称名变量的一个值对应的连续变量的平均数是与二分称名变量的另一个值对应的连续变量的平均数p与q是二分称名变量两个值各自所占的比率, st是连续变量的标准差(2)二列相关适用于两列变量都是正态等距变量,但其中一列变量被人为地分成两类。y为标准正态曲线中p值对应的高度,查正态分布表能得到5.相关适用于两个变量都是二分变量的情况,不论是真正的二分变量还是人为的分为两类。其中a、b、c、d分别为四格表中左上、右上、左下、右下的数据(详见卡方检验一章)补充:r的取值范围为-1r1,一般认为00.40为低度相关;0.400.70为中度相关;0.701.00为高度相关对事物关系的解释和说明并非纯粹依据所计算出的相关系数来进行,因此在解释相关关系时应谨慎对待:首先,要从逻辑上判断事物之间是否真正存在关系;其次,要注意随着样本容量的增大,达到相关显著的相关系数数值会变得越来越小;此外,还应注意要在一定的时空范围内解释相关系数。(若样本量足够大,无论什么样的两组数据间都必定会出现相关显著,故应用时应考虑清楚)二、推断统计(一)推断统计的数学基础1.概率(1)事件与概率事件是一种数学语言,通俗地说就是事情或现象。大致分为确定事件、模糊事件和随机事件三类。随机事件虽然在每次试验中可能发生也可能不发生,但是当试验次数很大时又会表现出统计的规律性。一种随机事件的发生次数与总试验次数的比值就成为频率,而概率则是随机事件在试验中发生可能性的程度或可能性的大小,以P表示,概率的定义有统计定义和古典定义之分。概率的统计定义是指通过实际试验所得频率来计算的概率,由于它是由实际经验得到的,又称经验概率;而根据问题本身所具有的理论特点直接计算的概率,则是概率的古典定义,又称先验概率。小概率事件是指在一次试验中发生的可能性极小,但在大量重复试验下终究会发生的事件,一般认为概率小于或等于0.05的随机事件为小概率事件。(此概念是区间估计与假设检验的基础)(2)概率分布及其类型经验分布是根据观察或试验所获得的数据而编制的次数分布或相对频率分布,它往往是一个总体的样本,故又称样本分布;理论分布或指数学模型,或指按某种数学模型计算出的总体的资料分布,故又称总体分布。2.正态分布(1)正态分布与标准正态分布正态分布就是中间量数次数分布多,两端分布少,呈对称型的概率分布。其中,平均数和标准差决定着曲线的位置和形状:越大,曲线越是“低阔”;越小,曲线越是“高窄”。标准正态分布则是为1,为0的正态分布。(2)特点正态曲线的形状就像一口挂钟,呈对称分布,其均值、中数、众数实际上对应于同一个数值。大部分的原始分数都集中分布在均值附近,极端值相对而言比较少。曲线两端向靠近横轴处不断延伸,但始终不会与横轴向交。正态分布曲线转化为z分数后人以z分数与零点对应曲线下面积固定。(3)用法依据Z分数求概率,即已知标准分数求面积。从概率求Z分数,即从面积求标准分数值。已知概率或Z值,求概率密度,即正态曲线的高。3.二项分布二项分布:对于一个事件有两种可能A和B,但我们对这一事件观察n次,事件A发生的总次数的概率分布就是二项分布(是一个离散型分布)性质:当p=q=n时,不论n的大小如何,二项分布曲线都是对称的;pq,且n相当小时,图形显偏态;当n相当大(n30)时,二项分布曲线会逐渐接近正态分布(计算上可以简化为pq且nq5时,二项分布接近正态分布)。 二项分布的均值为 方差公式为 标准差的公式为4.t分布一、抽样分布理论及其定理注意:此标题下各概念都极其重要,是以后学习统计推论的理论基础(1)总体分布、样本分布与抽样分布总体分布:总体内个体数值的频率分布样本分布:总体中一部分个体数值的频数分布抽样分布:总体中可抽取的所有可能的特定容量分布的统计量所形成的分布(就是说如果我们从总体里面进行很多次抽样,每次抽样都能得到一个分布,那么所有的每一个这样的分布的均值凑在一块也会构成一个高低错落有致的分布,这就是抽样分布。其他统计量如方差、相关系数等亦是如此)(2)几个重要概念 随机样本:即从总体中经随机抽取所得的样本 抽样误差:以样本均值为例,则是样本均值与总体均值间的差异。其取值范围为: 最大允许抽样误差是评价抽样结果精确度的一个指标,用d表示,通常为:。 标准误:由于抽样研究中存在抽样误差,需要估计其大小,而所用的量便是抽样分布的标准差,称为标准误,可用或表示。标准误越小,说明样本对总体的代表性越好。同样以样本均值为例,便等于与间的标准距离。 自由度(Degree of freedom):用df或n表示,是一组数据中可以独立自由变动的数目。(这个概念我们放到实验中来理解可能更清晰些,例如有一个实验要我们分配4名被试,那么我们在分配前3名被试时,他们的位置都可以是自由的,比如第一位被试可以放在1234任何一个位置上,但最后一名被试则是没得选择,只能放在最后那个位置,因此他是“不自由”的,于是自由度便等于n-1了。自由度的计算中,n是原有的样本容量,而减去的则是受限制的数目,此处乍看好像是最后一名被试受到限制了,但实际上是全体被试受到了可分配数目的限制,也就是说自由度总是受到一些参数或统计量的限制,涉及的参数或统计量越多,往往可以自由变动的数目,也就越少)(3)中心极限定律(我不知道这公式怎么来的,有兴趣的同学可以询问高人或查阅其他统计资料)由此可得以下定律: 大数定律:样本容量n越大,标准误越小;总体方差越大,标准误就越大中心极限定律:对于任何均值为,标准差为的总体,样本容量为n的样本均值分布,会随着n趋近无穷大时趋近均值为,标准差为的正态分布。(2)常用抽样分布常用的抽样分布包括正态及渐进正态分布(样本平均数分布)、t分布、卡方分布、F分布等 t分布t分布(学生氏分布)是由小样本统计量形成的概率分布,其分布形态与方差无关而与自由度有关,很类似正态分布,我们可以将正态分布看作t分布当自由度为正无穷时的特例。统计定义:若一样本X为标准正态分布,另一样本Y为自由度为n的卡方分布,则随机变量服从自由度为n-1的t分布。总体分布为正态,方差未知时,样本平均数的分布为t分布: 其中特点:对称,均值为0; 形状随自由度改变,是一簇曲线; 理论上n趋于无用时,t分布以标准正态曲线为极限;n逐渐减少时,分布离散程度变大,其峰顶逐渐下降,尾部抬高 t分布t值均有对应的p值。应用:总体正态,总体方差未知,且n30时,样本均值分布呈t分布或渐进正态分布; 总体方差未知时,两样本均值之差的分布、样本相关系数的分布、回归系数的分布在一定条件下也服从t分布。 2分布2分布的构造是从一个服从正态分布的总体中每次抽去n个随机变量,计算其平方和之后标准化的一个分布。统计定义:几个相互独立的,均服从正态分布的随机变量的平方和的分布。特点:正偏态,自由度趋近无穷大时,2分布为正态分布; 具有可加性(是一个服从的2分布); 2值都是正值 2时,2分布平均数,方差; 2分布是连续性分布,但有些离散性分布也服从2分布。应用:计数数据的假设检验,样本方差与总体方差的一致性检验等。5.F分布如果有两个正态分布的总体,我们从其中各自取出两个样本,各自计算出2,则:统计定义:设有两个总体X、Y,分布符合自由度分别为n1和n2的2分布,且X与Y相互独立,则随机变量服从第一自由度为n1,第二自由度为n2的F分布将2公式代入以上定义式,分析可知F比率其实为样本方差各除以其总体方差的比率,而如果我们所计算的F两样本取自相同总体,即,则上式可化简为:特点:正偏态,随与的增大而趋向正态分布; F总为正值; 当分子自由度为1时,F值与分母自由度相同t值(双侧)的平方相等,即 应用:总体方差齐性检验、多组之间均值差异检验等6.样本平均数分布样本平均数分布是一种抽样分布,服从正态或渐进正态分布根据中心极限定律,样本平均数分布的平均数和方差与母体的平均数和方差有如下关系:; ; 应用于以下情形:1.总体呈正态,总体方差已知,则样本均值分布呈正态分布;2.总体呈非正态,总体方差已知,样本容量n足够大(n30),样本均值分布为渐进正态分布。样本的方差及标准差的分布也渐趋于正态分布,其分布的平均数与标准差和总体有如下关系:7.抽样原理与抽样方法(1)抽样原理抽取样本的基本原则是随机性原则,即在进行抽样时,总体中每个个体被抽选的概率应完全相等。由于随机抽样使每个个体有同等机会被抽取,因而有相当大的可能使样本保持和总体有相同的结构,或者说,具有最大的可能使总体的某些特征在样本中得以发现,从而保证由样本推论总体。(2)抽样方法 概率抽样方法简单随机取样法:对整个总体进行完全随机抽样,通常有抽签法与随机数字法两种 缺点:1.总体很大时无法使用;2.常忽略总体已有信息,降低了样本代表性。系统随机取样法(等距抽样):把总体中所有个体按一定顺序编号,后依固定间隔抽样 缺点:1.若总体有周期性变化,则效果不好;2.也容易忽略已有信息。分层随机取样法:根据需要将总体分层,再从各层中分别随机抽样,在每层中抽样数目可以是不同的,应适当考虑总体比例抽取,分层原则是层与层间变异越大越好。分层抽样最佳抽取人数计算: 或 其中ni为所求该层应抽数目;n为样本容量;Ni为i层的总人数;N为总体人数;i为i层标准差;为总体标准差。多段随机取样法(整群抽样):先在第一层总体中抽取样本群体,再在抽得的各群体中进行随机抽样,适用于大规模调查。 非概率抽样方法方便抽样:随便抽,想怎么抽怎么抽;判断抽样:通过某些条件过滤后再抽。(二)参数估计1.点估计、区间估计与标准误参数估计就是根据样本统计量去估计相应总体的参数。(1)点估计点估计是直接以样本统计量作为总体参数的估计值,良好点估计量有一定前提条件:1无偏:即样本容量固定,统计量的分布的均值和被估计的参数相等;2一致:指样本容量无限增多时,估计量趋于被估计参数(即所谓的数学期望);3有效:当总体参数的无偏估计量不只一个时,抽样分布方差小者较为有效;4充分:指一个容量为n的样本统计量不充分地反映了总体的信息。(2)区间估计由于我们永远无法排除抽样误差的存在,因此点估计不能提供正确估计的概率,因此就需要区间估计。区间估计是根据估计量以一定可靠程度推断总体参数所在的区间范围,它是用数轴上的一段距离来表示未知参数可能落入的范围。总体参数可能所在的这个范围便是置信区间,上下端点为置信界限。置信区间表明过了区间估计的准确性。估计总体参数落在某一区间时,可能犯错误的概率为显著性水平,用表示,1-为置信度或置信水平。置信度表明了区间估计的可靠性。区间估计的原理是样本分布理论。进行区间估计的计算及解释估计的正确概率时,依据的是该样本统计量的分布规律及其样本分布的标准误。分布提供概率解释,而标准误的大小决定了区间估计的长度。标准误越小,置信区间的长度就越短,估计就越准确,总体参数就越应该落入样本统计量所界定的区间中,而不落在其中的概率即为显著性水平。置信度与置信区间长度有一代偿关系,即置信度越高,置信区间就越宽,反之,我们的估计要求越是精确,置信区间越窄,置信度就越小,正确估计的把握就越小。(3)估计的标准误标准误:即样本平均数分布的标准差,其平方,即样本均值分布的方差,则称为变异误 总体方差未知时用估算的总体方差计算标准误。参数估计的基本步骤:分析条件,判断方法;求标准误;求置信区间;结果解释。2.总体平均数的估计总体平均数的估计方法大致有三种,对比如下:正态法(Z)t分布法近似正态法(Z)条件已知未知总体正态,n不论大小;或总体非正态,n30总体不论正态与否,n30标准误求得置信区间* 注: 未知,n30时,必需用t分布法3.标准差与方差的区间估计(1)总体方差的估计由于样本方差与总体方差之比的分布呈2分布,因此有:(df=n-1)(2)总体标准差的估计根据抽样分布理论,n30时,样本标准差分布近似正态分布,且,则有:在对标准差的总体进行估计时,可先对其方差进行估计(用2),求得方差置信区间后,再开平方。(三)假设检验1.假设检验的原理(1)差异及差异显著性检验当两个事物之间出现差异时,有可能是抽样误差,也有可能是实质性的差异,如果经过统计检验发现差异超过了统计学所规定的某一误差限度时,则表示差异已经不属于抽样误差了,统计上将这样的情况称为差异显著,反之即是差异不显著。由于在进行差异检验时需要先对事物是否存在差异做出假设,再作统计检验,因此这一过程便称为假设检验。(2)假设检验的统计学原理 假设与假设检验统计学中的假设一般专指统计学属于对总体参数所作的假定性说明。在进行任何一项研究时,都需要根据已有的经验和理论先对研究结果 作出一种预想的希望证实的假设。这种假设叫科学假设,记作H1,又叫备择假设。由于证实远比证伪困难,在统计学中,不对H1的真实性直接检验,需要建立与其对立的假设,成为虚无假设,记作H0。假设检验的问题就是要判断虚无假设是否正确,因此虚无假设就是统计推论的出发点。注意:备择假设总是要假设对比两者间是有差异的,例如单总体检验样本均值与总体均值是否有差异时,我们的备择假设就是,对应备择假设,虚无假设总是假设两者并无差异,即表示为。 显著性水平显著性水平指的是拒绝虚无假设的小概率值,用表示。也就是说,如果一件事情发生的概率小于我们设定的这么一个显著性水平,我们就将其归为“小概率事件”,也就是认为它是一件“几乎不可能发生”的事件。 小概率原理假设检验的基本思想是概率性质的反证法,基于统计学中广泛采用的小概率原理,该原理认为“小概率事件在一次实验中几乎是不可能发生的”,由此假设检验首先假定虚无假设为真,在虚无假设为真的前提下,若导致了违反常理或不合理的现象出现,则表明“虚无假设为真”的假定错误,必须拒绝虚无假设。而若没有,那就认为“虚无假设为真”是正确的,即要接受虚无假设。(3)差异显著性的检验方法 双尾检验双尾检验的实际意义是值推断差异是否存在,而不断言差异的方向。其显著性水平标记为:=0.05/2或=0.01/2 单尾检验单尾检验是研究者根据已有的资料事先能够预料到谁优谁劣,检验只是为了进一步确证而选择的方法。(即是说研究者已经不只能够判断出“有差异”,而且可以判断出“A比B好/优/大/快”的情况下所采用的方法)其中当预料到一个总体参数大于另一个总体参数时,采用右侧检验;而当预料到是小于时,则采用左侧检验。单尾检验与双尾检验的区别在于:问题的提法不同。双侧检验的提法是:与已知常数0是否有显著差异?单侧检验的提法是:是否显著地高于/低于已知常数0?建立假设的形式不同。双侧检验的零假设和备择假设为:H0:;H1:;单侧检验的零假设与备择假设为:H0:;H1:或H0:;H1:。否定域不同。如Z检验中双侧检验的否定域为Z/2;而单侧检验为Z。使用时一定要根据研究目的所规定的方向性来确定使用何种检验,若该用单侧检验的问题使用了双侧检验,其结果不仅可能使结论由“显著”变为“不显著”,还会增大错误。反之用单侧检验代替了双侧检验,虽然缩小了错误,但却使得无方向性的问题人为地变成单方向问题,有悖于研究目的。差异是否显著,是由观测值和临界值(如Z值、t值等)相比获得的。观测值大于临界值,则结果在相应的显著性水平上是显著的。(4)统计决策的两类错误接受H0拒绝H0H0为真正确决策I型(弃真、)错误H0为假II型(取伪、)错误正确决策之前已经介绍过,其实就是用来定义小概率事件的一个概率值,在这里也就成了拒绝H0的概率,同时也就是会犯拒真错误的概率。如图,显著性水平与犯II型错误的概率间又存在密切关系: 减小了犯I型错误的风险,必定会增大犯II型错误的风险,反之亦然; +不一定等于1,在其他条件不变的情况下,与不可能同时减小或增大; 可以通过增大样本容量和增大处理效应来同时减小两类错误。对于I型错误来说,可以通过控制显著性水平来减小犯错误的概率II型错误与I型错误不同,影响值大小的因素主要有三:一、在参数检验中,依赖于参数的实际值与假设值之间的距离,两者相差越大,越小;二、越小,就越大;三、当与n固定时,根据研究问题的性质选择适当的检验类型可以减少。(详见统计效果量一章)(5)假设检验基本步骤 根据问题要求,提出虚无假设和备择假设 确定显著性水平,确定单尾还是双尾,确定自由度,查表求临界值 计算样本的实际观测值 比较样本实际分数与临界分数 对H0作出结论 报告结果(6)假设检验与参数估计的联系与区别假设检验是当样本统计量超过一定标准时,就说统计显著,是检验两事物差异是否显著的一种方法;而参数估计是要找到总体值所可能落入的可靠范围,是利用样本统计量对总体参数所作的估计。而作为两者的代表性指标显著性水平和置信水平也是从不同角度回答了相同的问题。2.样本与总体平均数差异的检验由于样本均值分布服从正态分布、t分布或者渐进正态分布,因此检验与差异时,根据不同情况便有三种可选择的方法检验步骤: 确定单双尾 明确总体方差是否已知 分析总体分布是否正态 根据下表选择适当的检验方法检验方法总体情况标准误检验值Z检验正 态已知t检验未知Z检验非正态且n30已知未知3.两样本平均数差异的检验(1)检验逻辑与公式两个样本间的关系可以有如下两种:独立样本:即两个互不相关的样本,往往来自不同总体,即是不同组别间相同性质的比较,如某校初三(1)班的语文成绩与初三(2)班的语文成绩。相关样本:即两个样本间是存在某些联系的,往往来自同一个总体,即是同一个组内产生的两种不同类别的数据,例如初三(1)班学生的语文成绩与数学成绩。检验逻辑:用样本的均值估计总体均值,用相减后的值来作为两均值之差的分布的均值,由于这一分布在不同情况下符合正态分布、t分布或渐进正态分布,因此计算时也应根据不同情况慎重选择。是两样本平均数检验的通用公式,所不同的仅在于标准误的计算。实际上标准误的计算公式也是相同的,即:,不同的只是两独立样本情况下,样本间数据相关r=0,于是公式出现了差异。下面分两种样本详述计算公式。(2)独立样本间平均数差异的检验 两总体方差已知,用Z检验: 两总体方差未知,且方差齐性,用独立样本t检验: 使用条件:1.观察间彼此独立;2.两总体均为正态;3.两总体方差齐性(经齐性检验同质)。 公式:;() 当n1和n2都是大样本(大于等于30)时,不管方差是否齐性,都可用近似Z检验:(3)相关样本间平均数差异的检验 两总体方差已知,用Z检验: 两总体方差未知,用相关样本t检验:a. 相关系数未知: 其中D为每一对对应数据之差(,n为对子数)b. 相关系数已知:,计算公式同上。4.方差齐性的检验(1)样本方差与总体方差当从正态分布的总体中随机抽取容量为n的样本时,其样本方差与总体方差比值服从2分布:由自由度查2表,依据显著性水平判断(2)多个总体间的方差齐性检验以方差最大的样本方差为分子除以方差最小的样本方差,所得比值与F表中临界值作比较比值服从第一自由度为,第二自由度为的F分布,为单侧检验(F大于2时多半就不同质)。5.相关系数的显著性检验(1)积差相关 当=0时:其中 当0时:先通过查表将r和转化为费舍Zr和Z然后进行Z检验。(2)点二列相关 与进行t检验 若n50;则时,在0.05水平显著;时,在0.01水平显著(3)等级相关和肯德尔W系数在总体相关系数为零时:查各自的相关系数表,判定样本相关显著。(四)方差分析1.方差分析的原理与基本过程(1)方差分析的含义与前提在科学研究中,实验涉及的变量越多,便越能接近于现实情况,进而作出更加可靠有效的解释和预测,因此单纯的单因素两水平间的对比一般不能满足研究人员的需要,而若运用用多个t检验来检验多个水平间均值的差异时,相当于从t分布中随机抽取了多个t值,这样落在临界范围之外的可能将大大增加,犯型错误的机会也就大大增加。方差分析就是对多个平均数进行比较的一种统计方法,又称变异数分析,即ANOVA。它既避免了增加犯错误的概率,又可以对多个变量间的差异进行分析,是社会科学研究中运用最广泛的一种方法。方差分析的使用前提: 总体分布的正态性(总体非正态时可转换为正态或用非参数方差分析) 各个实验组的方差齐性(出自同一总体) 变异的相互独立性(保证变异的可加性)(2)方差分析的基本原理 方差分析中的几个概念因素:实验中的自变量称为“因素”水平:某一个因素的不同处理情况称为因素的“水平”处理:包括量差和质别两种情况,按各个“水平”进行的重复实验称为实验的各种处理。比如现在我们要区分小白和小黑哪个能比较有效地吸收阳光的能量,这样的一个实验中除开额外变量便只有一个因素,即“颜色”;而小白和小黑则是这一因素内的两个不同水平;至于我们把他们抓到太阳地下晒,就是实验的“处理”了。总差异组内差异组间差异个体差异随机误差 基本逻辑方差分析的理论基础即方差的可分解性(详见描述统计部分)。方差分析的目的是对多组平均数差异的显著性进行检验,看他们之间是否存在差异,实际也就是探测实验处理是否发挥了显著功效。若研究数据的总变异是由处理效应造成的,那么组间变异便应占较大比例。具体操作时,以F检验来推断组间差异与组内差异的比值,若比值较大,则各组均值的差异就越显著。(3)方差分析的过程 各变异的内容与表达根据各变异关系及方差分析的可加性,有:总变异 = 组间变异 + 组内变异总变异的数学意义是每一个原始分数()与总平均数()的离差:;组间变异的数学意义是每一组的平均数()与总平均数的离差:;组内变异的数学意义是每一组内部的各原始分数与该组平均数的离差:。 总变异的分解及各部分的计算方差分析的内容很多,因此我们将方差的分子和分母分别计算,然后再合成。1. 平方和的分解与计算 平方和的定义式 根据变异的可加性,对于任何一个原始分数,有: 把某组的n个数据的平方和相加,得: 则对于总共k组而言:平均数离差和为0,即原式为:即: 平方和的计算式 总平方和: 组间平方和: 组内平方和:2. 自由度的分解 总自由度: 组间自由度: 组内自由度:3. 变异的分解总变异:组间变异:组内变异: 变异率与F分布 变异率即是一类揭示组间变异所占比例的统计量,以F表示: 若实验处理未产生影响,则F=1。 F检验就是检验F值中分子大于分母的一种检验方法,属单尾检验,若计算得F1,则无需查表即可直接做出差异不显著的结论;而若F远大于1,则需查F临界值表,查;若采用双尾检验的方法,则查。 自此方差分析告一段落,方差分析结束后,需将其步骤和结果归列成一方差分析表,由变异来源、平方和、自由度、均方、F值和p值构成。(4)方差分析基本步骤总结 建立假设,陈述H0和H1; 确定显著性水平; 计算并确定自由度; 查表找出临界F值; 计算统计量; 比较与决策:进行F检验,作出判断,若是多因素方差分析,还应作交互作用分析; 列方差分析表; 若有需要,还应进行事后检验。2.完全随机设计的方差分析(1)完全随机设计完全随机设计就是随机地抽取研究对象并随机将其分配至各种实验条件进行实验的设计形式,每一随机组接受一种实验处理,所以也成独立组设计或被试间设计。若实验结果出现组与组之间差异显著,就可以认为实验处理的效应显著。(2)完全随机设计的方差分析分为样本容量相等与不等两种情况,应注意不同情况下N值的计算,其余均与上一节所述一致。 陈述假设确定显著水平确定检验自由度确定F临界值计算F观察值比较F值得出结论 (3)特殊数据的方差分析有时欲分析的资料只有各组的、及等样本特征值,也可以按方差分析基本思想与概念进行推导: 求总体均值: ;3.随机区组设计的方差分析(1)随机区组设计随机区组设计是指每个区组均随机地接受全部实验处理或因素水平的实验涉及类型,又称相关设计。(详见实验部分)(2)随机区组设计方差分析的原则与原理在方差分析基本原理中,我们把组内变异笼统地视为一种误差,而实际上却是实验误差与个体误差同时造成的。根据完全随机区组设计的思想,将个体差异再从中分离,剩余的误差则成为一种较纯的随机误差,由此提高了分析的精度。即:组内变异 = 区组变异 + 误差变异;公式如下:(n为区组数,k为组间数,R为各区组分数,X为各处理分数)自由度也分成三部分:;(3)随机区组设计方差分析的过程其基本过程与完全随机设计一样,只是误差分解不同,F值的计算不同:4.协方差分析(1)协方差分析的性质在实验过程中,我们经常会遇到一些光靠实验操作难以控制额外变量的情况,如果这些变量与因变量之间存在共变关系,我们就可以运用协方差分析对数据进行统计控制。协方差分析本质上可以视为线性回归与方差分析的综合使用,即在原有的方差中减去那些与因变量呈线性关系的变量与因变量的协方差,从而消除这些额外变量的影响,以达完善实验的目的。(建议扎实学习完方差分析与线性回归后再来学习这一节)(2)协方差分析的一般步骤 经过线性回归的显著性检验,得到x确实向y回归,且意义显著; 在假定各组的回归与总体回归一致的前提下,分别求出组内、组间及总的均积(均积是样本统计量,其对应的总体参数为协方差,记作xy或COV(x,y));即: 算出未经调整的组内、组间、总体和方; 算出三种经过调整的和方; ()()() 用已矫正的方差值进行F检验。经过处理,若原先y的差异是由x造成的,那么矫正后y之间将没有显著差异;反之若y的变异除掉x造成

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论