测量的信度精要课件_第1页
测量的信度精要课件_第2页
测量的信度精要课件_第3页
测量的信度精要课件_第4页
测量的信度精要课件_第5页
已阅读5页,还剩181页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章测验的信度第四章测验的信度导学信度是评价测验优劣的重要指标,了解信度的相关知识是编制优质高效测验的前提。通过本章的学习我们可解决三个问题:一、明确信度的理论定义及操作定义;(难点)二、掌握几种常模参照测验的信度估计方法;(重点)三、了解影响信度的因素,在信度估计时尽量避免由此造成的误差;提高信度的方法。导学信度是评价测验优劣的重要指标,了解信度的相关知识是编制优第一节信度概述一、什么是信度1.信度的理论定义信度即测量结果的稳定性、一致性或可靠性。是用同一测量工具反复测量某人的同一种心理特质,所得结果的一致性程度。

第一节信度概述一、什么是信度2.信度的统计定义定义1:信度是被试团体真分数方差与实得分数方差之比定义2:信度是被试团体真分数与实得分数相关系数的平方定义3:信度是一个测验X(A卷)与它的任意一个平行测验(B卷)的相关系数

rxx代表测量的信度,S2T代表真分数的变异数,S2x代表是实得分数的变异数,即总变异数。2.信度的统计定义定义1:信度是被试团体真分数方差与实得分数由于真分数的方差无法统计,可转化为:rxx=(S2x-S2E)/S2x=1-S2E/S2x

该定义有两点需要注意:第一、信度指的是一组测验分数或一列测量的特性,而不是个人分数的特性;第二、真分数的变异数是不能直接测量的,因此信度是一个理论上构想的概念,只能根据一组实得分数做出估计。由于真分数的方差无法统计,可转化为:信度只受随机误差的影响。随机误差越大,信度越低。信度不受系统误差的影响。信度只受随机误差的影响。随机误差越大,信度越低。二、信度指标1.信度系数与信度指数大部分情况下,信度是以信度系数为指标,信度系数又以相关系数表示,即用同一被试样本所得的两组资料的相关系数作为测量一致性的指标,称作信度系数(rxx)信度系数是表示测量结果的稳定性程度的指标。rxx=r2XT=s2T/s2xrXT信度指数,它的平方就是信度系数二、信度指标1.信度系数与信度指数信度系数是表示测量结果的稳定性程度的指标。记为:信度系数的值域:?没有百分之百可靠的测量,因此,rXX=1只是理论上的值,实际当中是不会存在的。相关系数的值域是[-1,+1],信度系数的值域:[0,1],为什么?

[0,1]信度系数是表示测量结果的稳定性程度的指标。记为:信度系数的值经典测量理论的信度系数重测信度——稳定性系数复本信度——等值性系数、等值性与稳定性系数内部一致性系数——分半信度、同质性信度评分者信度——肯德尔和谐系数经典测量理论的信度系数重测信度——稳定性系数对信度系数要注意的几点:1.在不同情况下,对不同样本,采用不同方法会得到不同的信度系数,因此一个测验可能不只一个信度系数。2.信度系数只是对测量分数不一致程度的估计,并没有指出不一致的原因。3.获得较高的信度系数并不是心理测量追求的最终目的,它只是迈向目标的一步,是使测量有效的一个必要条件。对信度系数要注意的几点:1.在不同情况下,对不同样本,采用不信度系数要达到多高才可以接受呢?

最理想的是rxx=1.00,但办不到研究结果显示,能力,成就测验都在0.90以上,有的还可以达到0.95以上;人格测验、兴趣、态度、价值观等都在0.80~0.85。一般原则:⑴当rxx﹤0.70时,测验不能用于对个人作出评价或预测,而且不能做团体比较;⑵当0.70≤rxx<0.85时,可用于团体比较;⑶当rxx≥0.85时,才能用来鉴别或预测个人成就或作为。另一原则:新编的测验信度应该高于原有的同类测验或相似测量信度系数要达到多高才可以接受呢?

最理想的是rxx=1.0测验类型

信度系数

低中高学业成就测验0.660.920.98学术能力测验0.560.900.97特殊能力倾向测验0.260.880.96人格测验0.460.850.97兴趣测验0.420.840.93态度测验0.470.790.98注:表中数据来源,LewisR.Aiken:Psychologicaltestingandassessment(eighthedition),AllynandBacon,Inc,1994.测验类型信度系数低中高学业成就测验0.660.920.92.标准误信度系数仅表示一组测量的实得分数与真分数的符合程度,但并没有直接指出个人测验分数的变异量。由于误差存在,一个人所得分数有时比真分数高,有时比真分数低,有时二者相等。理论上我们可以对一个人施测无数次测验,然后求得分数的平均数和标准差。这个平均数就是这个人的真分数,而标准差就是测量误差大小的指标。但在实际上是行不通的。然后,我们可以用一组被试两次测量结果来代替对同一人的反复施测,以估计测量误差的变异数。2.标准误此时,个人在两次测验中的分数差异就是测量误差。据此可制成误差分数的分布。这个分布的标准差(误差分布的标准差)我们称之为测量的标准误,是表示测量误差的大小的指标,其计算公式为:SE表示测量的标准误,即误差分布的标准差;Sx表示实得分数的标准差;rxx表示信度系数。此时,个人在两次测验中的分数差异就是测量误差。据此可制成误差三、信度的作用(信度与测验分数的解释)1.信度是测量过程中所存在的随机误差大小的反映

(解释真实分数与实得分数的相关)信度系数可以解释为:总的方差中有多少比例是由真实分数的方差决定的,也就是测验的总变异中真分数造成的变异占百分之几。例如,r=0.9时,实得分数90%的变异来自真分数,10%来自误差。r=1呢?r=0呢?信度系数从0.00~1.00,代表了从缺乏信度到完全可信的所有状况信度系数也告诉我们误差有多大三、信度的作用(信度与测验分数的解释)1.信度是测量过程中所2.确定信度可以接受的水平最理想的是rxx=1.00,但办不到研究结果显示,能力,成就测验都在0.90以上,有的还可以达到0.95以上;人格测验、兴趣、态度、价值观等都在0.80~0.85。一般原则:⑴当rxx﹤0.70时,测验不能用于对个人作出评价或预测,而且不能做团体比较;⑵当0.70≤rxx<0.85时,可用于团体比较;⑶当rxx≥0.85时,才能用来鉴别或预测个人成就或作为。另一原则:新编的测验信度应该高于缘由的同类测验或相似测量2.确定信度可以接受的水平最理想的是rxx=1.00,但办3.解释个人分数的意义作用:其一是估计真实分数的范围;其二是了解实得分数再测时可能的变化情形。这就是测量标准误的应用。

X-1.96SETX+1.96SE真分数的估计区间为:3.解释个人分数的意义作用:其一是估计真实分数的范围;其二是第四章测量的信度精要课件我们可以用测量的标准误来估计个人测验的真分数的大小。如果选用95%的可靠性水平(置信水平),即显著性水平(a值)为.05,,真分数有95%的可能落入X±SE,即X±1.96SE的范围之内,也可以写成X-1.96SETX+1.96SE,SE则用公式代入。或有5%的可能落入这范围之外。这实际上也表明了再测时分数改变的可能范围。X―1.96SE<T≤X+1.96SE我们可以用测量的标准误来估计个人测验的真分数的大小。例:在一个智力测验中,某个被试的IQ为100,这是否反映了他的真实水平?如果再测一次,他的分数将改变多少?已知该智力测验的标准差为15,信度系数为.84,则其IQ的测量标准误和可能范围为:

例:在一个智力测验中,某个被试的IQ为100,这是否反映了他注意几点:(1)SE对真分数做的是区间估计,不可能由此得到一个确切的点。这就是说,测验分数不是一个定点,而是具有一定的分布范围。因此,两次测验分数之间存在差异是很正常的。(2)置信水平确定后,估计的精度主要取决于SE,SE越小,范围越小,估计就越精确,反之也然。(3)真分数不能等同于真正能力或心理特质,真分数中包括了系统误差。注意几点:4.比较不同测验分数的差异来自不同测验的原始分数是无法直接进行比较的,只有将它们转换成相同尺度的标准分数才能进行比较。这种比较包括两个人不同分数的差别和同一被试在两个测验上的差别。SEd为差异的标准误,S代表两个测验使用的标准差,这个标准差要相同,因为只有在两个分数具有相同的单位时才可以比较。rxx、ryy分别为两个测验的信度系数。4.比较不同测验分数的差异来自不同测验的原始分数是无法直接进例;某被试在韦氏成人智力测验中言语智商为102,操作智商为110。已知两个分数都是以100为平均数,15为标准差的标准分数。假设言语测验和操作测验的分半信度分别为0.87和0.88。问其操作智商是否显著高于言语智商呢?首先计算出差异分数的标准误:在统计上,经常要求两个分数的差异程度达到0.05的显著水平,才能承认不是误差的影响。因此,将差异标准误(7.5)乘以1.96,结果为14.7,这表明个体在韦氏测验两半得分的差异高于大约15分,才能达到0.05显著水平。上述被试的差异分数110-102=8是不显著的。例;某被试在韦氏成人智力测验中言语智商为102,操作智商为1课堂练习1.某个被试的测验IQ=100,再测的分数可能是多少?(已知测验的标准差为15,信度系数为0.90).2.被试在韦氏智力测验中言语智商为102,操作智商为110。两个分测验都是以100为平均数,15为标准差的标准分数。假设言语测验和操作测验的分半信度分别为0.93和0.94.问其操作智商是否显著高于言语智商?95%的可能在90.6~109.4之间课堂练习1.某个被试的测验IQ=100,再测的分数可能是多少课后作业1.某智力测验的信度r=0.75,某次施测得到标准差为3.00,则该测验的测量标准误是多少,若某被试得分为100,试估计其真分数1-=.95的置信区间2.某测验的信度为0.75。要使该测验的信度达到0.90,须增加多少题目(原测验长度的多少倍)?3.一个包含10个题目的测验,信度为0.50,若增至50个题目,其信度将是多少?4.书本P57-58第2、3题课后作业1.某智力测验的信度r=0.75,某次施测得到标准差第二节信度的评估方法一、重测信度二、复本信度三、内部一致性信度四、评分者信度第二节信度的评估方法一、重测信度一、重测信度(Test-RetestReliability)(一)含义也叫再测信度1.重复测验:同一量表,同一被试群体,在不同时间,两次施测。2.重测信度:用同一测验,对同一组被试前后两次施测,两次测验分数之间的相关程度(用相关系数来表示)就是再测信度。3.重测信度实质:主要考察了一个测量工具是否能够保证在不同时间测量结果的一致性,表示测验结果的稳定性。故称之为稳定性系数(CoefficientofStability)4.形式:施测A1—适当时间—再施测A2一、重测信度(Test-RetestReliability一般来说,重测的时间间隔越短,那么各种施测情境的变化就越小,重测信度系数就会越大。重测信度系数较大时,说明该测量工具前、后两次的测量结果比较一致。结果具有较好的跨时间上的稳定性。一般来说,重测的时间间隔越短,那么各种施测情境的变化就越小,(二)评估方法重测信度的大小可以通过计算测量工具的重测系数或稳定性系数来标志。具体来说,就是求取同一组被试在两个不同时间施测同一个测量工具所得结果分数的相关系数。即积差相关法,是皮尔逊的积差相关系数rxx(二)评估方法重测信度的大小可以通过计算测量工具的重测系数或例:10名学生两次测验的成绩如下,求该测验的重测信度?第1次成绩:86587964885855823275第2次成绩:88568976856847764575例:(三)重测信度应满足的条件所测量的特征必须是稳定的遗忘与练习的效果是相同的两次实测期间被试的学习效果没有差别一般用于速度测验或人格测验,不用于难度测验(三)重测信度应满足的条件所测量的特征必须是稳定的(四)使用重测信度时需要注意的问题1.两次施测时间间隔的长短会影响重测信度系数估计值的大小,因此,在报告重测信度系数时应该报告间隔的时间长度。2.应该间隔多长时间?应该根据已有的相关研究结论考虑所测心理特质本身的稳定性程度,以确定前后两次施测时间的间隔究竟应该多长比较合适时,不应该随便选择间隔时间的长短。对于年幼儿童,两次施测的时间间隔应该短于年龄大些的被试;智力测验的间隔一般在6个月左右。3.应注意提高被试的积极性(四)使用重测信度时需要注意的问题1.两次施测时间间隔的长短一个测验就是一个重测信度吗?一个测验就是一个重测信度吗?(五)重测信度的优缺点1.优点:能提供有关测验结果是否随时间而变异的资料,可作为预测受测者将来行为的依据。2.缺点:容易受练习和记忆的影响,前后两次施测间隔的长短必须适度;第一次尝试所发现的错误也可能导致第二次反应的变化而增加误差变异。(五)重测信度的优缺点1.优点:二、复本信度(Alternate-formraliability)(一)含义1.复本测验:指在题目内容、题型、题数、难度、区分度、指导语、时限等方面都一致(相等)的两份或多份测验,又叫平行测验。即:用不同题目测量同样内容而且测验结果的平均值和标准差都相同的两个测验。任何测验只是所有可能题目中的一份取样(行为样本),所以可编制许多平行的等值测验(复本)。2.复本信度:同一组被试在复本测验上所得结果的相关系数。二、复本信度(Alternate-formraliabil3.实质:反映了由于题目的不同以及时间间隔所导致的测量误差。4.形式:

等值性系数稳定性与等值性系数3.实质:反映了由于题目的不同以及时间间隔所导致的测量误差。(二)复本信度估计方法等值性系数(同一时间内连续施测)稳定性和等值性系数(相隔一段时间施测)式中,XA、XB为同一被试在两个测验复份A、B上的分数,SA、SB为A、B两型测验的标准差,N为被试人数。(二)复本信度估计方法等值性系数(同一时间内连续施测)式中,例:假设用A、B两个创造力复本测验对初中一年级10个学生施测。结果见下表。请计算复本信度。测验被试12345678910A

20191918171614131210B2020181615171211139例:假设用A、B两个创造力复本测验对初中一年级10个学生施测(三)复本信度要符合的条件1.各份测验测量的是同一种心理特性。具有相同的内容和形式。题目不应重复。题目数量相等,难度和区分度大体相同。分数分布(平均数和标准差)大致相等。2.被试有条件接受两个测验(三)复本信度要符合的条件1.各份测验1.两次测验的时间间隔要适当,若太短,由于测验太相似被试可能厌倦,若太长可能又会因新的学习而产生干扰。应该尽量在测试结果报告中,详尽地说明两次测试的时间间隔、测试顺序安排、测试过程中被试的有关测验经历等。稳定性与等值性系数是测验信度的最严格的考察,得到的是信度系数的下限。

(四)注意事项1.两次测验的时间间隔要适当,若太短,由于测验太相似被试可(五)使用复本信度的局限1.只能减少但不能完全消除练习和记忆的影响;2.由于第二个测验只改变了题目的具体内容,已经掌握的解题原则可以很容易地迁移到同类问题。3.对许多测验来说,建立复本是十分困难的。4.被试易出现疲劳、失去积极性等反应。这些称为顺序效应,为了抵消顺序效应,可随机分配一半被试先做复本A再做复本B,另一半被试先做复本B再做复本A,以平衡顺序效应。(五)使用复本信度的局限1.只能减少但不能完全消除练习和记三、内部一致性信度测验内部(或测题之间)的一致性信度。包括:分半信度和同质性信度(一)分半信度1.含义分半信度(Split-HalfReliability):指的是将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度。2.实质分半信度评价了测验两个随机组成部分的题目是否测量了相同的心理特质。

三、内部一致性信度测验内部(或测题之间)的一致性信度。3.估计方法皮尔逊积差相关XA、XB为同一被试分别在两个半测验A、B上的分数,SA、SB为A、B两半测验的标准差,rhh为分半信度。计算分半信度先要对测验分半。不同的分半法可能会得到不同的信度值,需要校正。3.估计方法4.分半信度的校正公式之一由于在用分半测验得分计算相关系数时,测验题量被缩短,信度系数需要通过以下这个公式对分半相关系数进行矫正而得到。为两个分半测验之间的相关系数,为完整长度测验的信度系数估计值。4.分半信度的校正公式之一由于在用分半测验得分计算相关系数时例:100个题目,分半信度r=0.70,整个测验的估计信度是多少?rxx=2×0.7/(1+0.7)=0.82例:100个题目,分半信度r=0.70,整个测验的估计信度是4.分半信度的校正公式之二4.分半信度的校正公式之二4.分半信度的校正公式之三Rulon公式中分子方差反映了由于题目不同等条件带来的误差方差,他与总方差之比反映了误差方差在总方差中所占的比例。4.分半信度的校正公式之三Rulon公式中分子方差反映了由于5.分半的方法1)按题目序号分半,分奇数题和偶数题2)按题目难度分半3)按题目的内容分半。如遇到有牵连的项目或一组解决同一问题的项目时,这些项目应放在同一半,否则会高估信度的值。5.分半的方法1)按题目序号分半,分奇数题和偶数题6.适用的前提条件1)通常在只能施测一次或没有复本的情况下使用。2)斯皮尔曼-布朗公式时要求全体被试在两半测验上得分的变异数(方差)要相等。3)实践中对测验分半时,为了尽量减少无关因素的影响,通常需要考虑题型、题分、题目测试先后顺序等因素的平衡问题。6.适用的前提条件1)通常在只能施测一次或没有复本的情况下使4)当一个测验无法分成对等的两半时,分半信度不宜使用。速度测验也不宜采用分半法。因为速度测验中试题的难度低,被试得分的多少主要是看答题的多少,分半法易使得分相同,从而夸大分半法的信度估计。

5)同一测验通常会有多个分半信度,提供分半信度值时,要说明分半的方法。(20个题目的测验可得到92,378分半信度!)4)当一个测验无法分成对等的两半时,分半信度不宜使用。速度测例:有一个由100题构成的量表施测于10个高三学生。测验一次后,应试者即毕业离校。现在怎样评价测验结果的信度?

(1)计算出每个应试者的奇数题总分(X1)和偶数题总分(X2),见表。

得分被试12345678910X1

38373841403638394035X237373639393438393936例:有一个由100题构成的量表施测于10个高三学生。测验一次分半法实际上是对测验内部一致性的一个粗略估计。但对于同一个测验分半的方法是很多的,而且用不同的分半方法求出的分半信度都不一样,因此分半信度不是最好的内部一致性的估计。为了弥补分半法的不足,可以采用其它的方法。分半法实际上是对测验内部一致性的一个粗略估计。但对于同一个测(二)同质性信度(Homogeneityreliability)1.含义:同质性指测验的所有题目测量的是同一种心理特质,表现为各个题目得分之间有较高的相关,相关越高则同质性越强(是正相关还是负相关?相关为零则表明了什么?)。同质性信度就是一个测验所测内容或特质的相同程度。即:题目之间的一致性程度2.同质性信度的计算公式和校正公式估计所有可能的分半信度系数的平均数,作为完整测验的内部一致性最佳估计值。(二)同质性信度(Homogeneityreliabil2.同质性信度计算方法0、1记分的同质性信度2.同质性信度计算方法0、1记分的同质性信度2.同质性信度计算方法非0、1记分的同质性信度公式中,k是测验题目个数,S2i是被试在题目i上得分的方差,S2t是被试测验总分方差。克龙巴赫a系数2.同质性信度计算方法非0、1记分的同质性信度公式中,k是测a值的计算步骤:P52注意:a值是所有的分半信度的平均值a值只是测量信度的下界的一个估计值。即a值大,测量信度必定高;但a值小时,却不能断定测量信度不高。a值的计算步骤:P523.同质性信度的解释同质性信度高,说明测验主要测的是某一单个心理特质,实测结果就是该特质水平的反映;同质性信度低,说明测验结果可能是几种特质的综合反映。具体如何解释?测量单一特质与同质性信度的关系?3.同质性信度的解释同质性信度高,说明测验主要测的是某一单个

四、评分者信度(ScorerReliability)1.含义:是指两个或多个评分者给同一批人的答卷进行评分的一致性程度。2.估计方法:⑴两个评判者的评分信度:随机抽取若干份答卷,由两个独立的评分者打分,再求每份答卷两个评判分数的相关系数(积差相关或等级相关)。⑵多个评判者的评分信度:用肯德尔和谐系数来估计

四、评分者信度(ScorerReliability)1.评分者信度的计算:1.评分者为两个人时若是连续变量的评分,且分布是正态则计算皮尔逊积差相关系数(可用计算机直接计算)。XA、XB分别为两个评判者在同一道题上所给的分数,SA、SB分别为两个评判者所评分数的标准差,rxx为评分者信度评分者信度的计算:XA、XB分别为两个评判者在同一道题上所若是等级评定或虽是等距或等比的数据但分布非正态,则计算斯皮尔曼等级相关。斯皮尔曼等级相关公式:(公式5-12)式中D为各对偶等级之差,是各D平方之和,N为等级数目。若是等级评定或虽是等距或等比的数据但分布非正态,则计算斯皮尔当有相同的等级出现时,计算斯皮尔曼等级相关的公式为:(公式5-13),;,式中,N为成对数据数目,n为相等等级数目。当有相同的等级出现时,计算斯皮尔曼等级相关的公式为:例7:甲乙两位教师评阅10份试卷,他们对每一试卷各自所评的分数列入下表,问这两位教师评分的一致性如何?两位教师对10份试卷的评分例7:甲乙两位教师评阅10份试卷,他们对每一试卷各自所评的分试卷得分名次甲评分乙评分甲评分乙评分A9493B9092C8692D8670E7282F7076G6865H6676I6468J6160试卷得分名次甲评分乙评分甲评分乙评分A9493B9092C82.评分者为多个时采用肯德尔和谐系数(Kendallcoefficientofconcordance)来估计信度系数(公式5-14)式中,W为和谐系数,K为评分者人数,N为被评对象数,Ri为每一对象被评的等级之和。2.评分者为多个时出现相同等级时采用下面的公式:(公式5-15)式中,W为和谐系数,K为评分者人数,N为被评对象数,Ri为每一对象被评的等级之和,n为相同等级数目。出现相同等级时采用下面的公式:例8:六位教师各自评阅相同的五篇作文,每位教师给每一篇作文都评了等级(共五等),并列入下表5-7。求六位老师所评等级的一致性程度。例8:六位教师各自评阅相同的五篇作文,每位教师给每一篇作文都评分者K=6试卷编号(N=5)12345A35241B35241C34152D35142E35241F35241RiRi2评分者K=6试卷编号(N=5)12345A35241B352例9:三位教师评阅四份试卷,所评等级列入下表5-8。他们所评的等级的一致性程度怎样?评卷教师K=3作文编号(N=4)1234张3142王2141李2232Ri例9:三位教师评阅四份试卷,所评等级列入下表5-8。他们所评再测信度:估计测验中跨时间的一致性复本信度:估计测验跨形式(题目)的一致性等值稳定性系数:估计测验跨时间和形式的一致性内部一致性系数:估计测验跨项目或两个分半测验之间的一致性评分者信度:估计测验跨评分者的一致性各种方法具有不同的意义,每一种信度系数不能代替其他的信度系数,所以编制或使用测验时,应该尽可能收集各种信度证据。五、信度系数及其估计方法小结再测信度:估计测验中跨时间的一致性五、信度系数及其估计方法小1.测试次数和测试卷份数与信度系数估计方法测试次数测试卷份数1份2份1次分半信度Kuder-Richardson信度Alpha系数复本信度(同时测试)2次重测信度复本信度(延时测试)1.测试次数和测试卷份数与信度系数估计方法测试次数测试卷份数2.各种信度估计方法的误差方差来源信度估计方法误差来源重测信度复本信度(同时测试)复本信度(延时测试)分半信度Kuder-Richardson和Alpha系数评分者信度时间间隔题目内容时间间隔与题目内容题目内容题目内容与心理行为特质的同质性评分者间差异2.各种信度估计方法的误差方差来源信度估计方法误差来源重测信第三节影响信度的因素及提高信度的方法一、影响信度的因素(一)样本特征1.样本团体异质性的影响

信度系数就是相关系数,任何相关系数都要受到团体中分数分布范围的影响。而分数分布范围与样本团体的异质程度有关。

一个团体越异质,其分数范围越大,信度系数也就越高。相反,相对同质的团体分数则较为均匀。如图所示:第三节影响信度的因素及提高信度的方法一、影响信度的因素

图中大方框显示的是一个较大的异质团体在两次施测中的分数分布,显然有很高的正相关.在小方框中显示的是一个高度同质的亚团体,两次分数几乎呈随机变化,相关接近于零.第四章测量的信度精要课件⑴取样团体异质程度高,被试差异较大,两次测验高者得分高,低者得分低,分数相关系数就高,信度较高,所以会高估测验的信度。⑵取样团体异质程度低,被试差异不大,两次测验,第一次高者第二次可能低,低者可能高,分数相关系数低,信度就低,所以会低估测验的信度。⑴取样团体异质程度高,被试差异较大,两次测验高者得分高,低者2.样本团体平均能力水平的影响

测验的信度不仅受团体中个别差异程度的影响,也受不同团体间平均能力水平的影响。因为对于不同团体,题目具有不同难度,每个题目在难度上的细微差异累计起来就会影响信度。例如,同一套智力测验,年幼者不会的题目多,靠猜测答题,分数的偶然性比较大,信度就差。而大学生完成的准确性就高,信度也就高。这种题目难度上的差异很难用统计来预测和估计,只能靠经验发现。因此,编制测验应该把常模按照各种标准分成更为同质的亚团体,分别报告信度系数。2.样本团体平均能力水平的影响(二)测验长度(测验的数量)1.测验越长,测题取样或内容取样越有代表性2.测验越长,被试的猜测因素影响就越小。(一道题可以猜对,100个题都猜对就不可能)但也不能太长,被试过分疲劳和反感,也会影响信度。增加多长合适呢?斯皮尔曼-布朗公式:

K=rkk(1-rxx)/rxx(1-rkk)

K为改变后的长度与原来长度的比。rxx原来测验的信度,rkk为改变后信度的估计(二)测验长度(测验的数量)一般来说,题目数量对相关系数的影响是递增的。如表所示题目数量相关系数501002003004005000.500.830.910.950.9680.9760.980题目数量相关系数50100但是,增加测验长度的效果遵循报酬递减率,测验过长是得不偿失的,可以通过上式确定一个测验究竟要增长多少才能达到理想的信度水平。但是,增加测验长度的效果遵循报酬递减率,测验过长是得不偿失的例如,信度为0.8有40个题目的测验,要提高信度到0.90,需要增加多少题目?K=0.9(1-0.80)/0.80(1-0.90)=2.252.25×40=90,要增加50道题1.假设有一份由20题组成的测验,rxx=0.50,若测验增加同质性题目80道,则增长后的测验信度rxx是多少?2.假设有一个包括10个题目的测验,信度为0.60,若把测验增加到80个题目,其信度将增加到多少?3.一个包含50个题目的测验信度为0.75,欲将信度提高到0.90,需要增加多少题目?例如,信度为0.8有40个题目的测验,要提高信度到0.90,(三)测验题目的同质性如果一个测验内部的试题之间彼此异质,则无法使测量的内部一致性系数提高。(三)测验题目的同质性如果一个测验内部的试题之间彼此异质,则(四)测验难度难度对于信度的影响,只存在于智力测验、成就测验、能力倾向测验中。从理论上讲,平均难度水平为0.50时,才能使测验分数分布范围最大,信度最高。事实上,0.50的难度只适合于简答题,选择题猜测因素高,难度也要提高。(四)测验难度洛德(Lord)提出在学绩测验中,为了保证其可靠性,各类选择题的理想平均难度为:五择一测题,0.70;四择一测题,0.74;三择一测题,0.77;是非题,0.85。如果某个测验适用范围广,则其难度水平通常适用于中等能力水平的被试,而高水平被试觉得容易,低水平被试觉得难,信度水平降低。

洛德(Lord)提出在学绩测验中,为了保证其可靠性,各类选择(五)时间间隔时间间隔只对重测信度、不同时间测量的复本信度有影响两次测验相隔时间越短,其信度系数越大(五)时间间隔(六)其他因素凡能引起测量的随机误差的因素,都会影响测量信度。1.被试方面身心状况、应试动机、注意力、耐心、求胜心、作答态度等2.主试者方面施测者:不按指导手册的规定施测,或故意制造紧张气氛,或给考生一定的暗示、协助等。阅卷者:评分标准不一3.施测情境方面4.测量工具试题取样、试题难度、试题之间的同质性程度(六)其他因素凡能引起测量的随机误差的因素,都会影响测量信度二、提高测量信度的常用方法1.适当增加测验的长度新增项目必须与试卷中原有项目同质新增项目的数量必须适度2.使所有题目的难度接近正态分布,并控制在中等水平3.努力提高测验题目的区分度4.选取恰当的被试团体,提高测验在各同质性较强的亚团体上的信度5.主试严格执行施测规程,评分者严格把握评分准则,施测场地按要求布置,减少无关因素的干扰二、提高测量信度的常用方法1.适当增加测验的长度1.速度测验的信度问题

因为速度测验的题目难度都很低,所以不能用奇偶分半求分半信度;因为几乎不可能把题目做完,所以同质性信度不适用。可以用重测信度和复本信度。2.标准参照测验的信度问题

总体越同质,相关系数越低。用复本,通过人数的百分比差别越小,信度越高。信度的特殊问题1.速度测验的信度问题信度的特殊问题3分测验的信度除整个测验的信度外,各个分测验也应有信度,否则,从分测验得分来做推论就会出问题。4差异的信度比较两门课成绩的差异,若两门课的信度都不可靠时,二者的差别更不可靠。3分测验的信度

课后练习1.测验的信度体现在()A.测验结果在不同的时间阶段具有一致性B.同一测验内各个部分题目所测的是同一行为或行为特质C.不同评分者对同一测验结果的评分一致D.测量内容与未来行为是一致的课后练习1.测验的信度体现在()2.假设有一份主观幸福感调查表,先后两次施测于10名学生,时间间隔为半年,结果如表所示,求该测验的重测信度。(r=0.97)测验X1

16151313111010987X21616141211911867被试

123456789102.假设有一份主观幸福感调查表,先后两次施测于10名学生

3.假设用A、B两型创造力复本测验对初中一年级10个学生施测。结果如表所示,X1,X2分别代表A、B两型测验。求该测验的复本信度(r=0.94)。

测验

被试12345678910X1

20191918171614131210X220

201816151712111393.假设用A、B两型创造力复本测验对初中一年级10

4.假设有三位专家给六篇论文评等级,结果如表所示,试计算此次评分的评分者信度。(r=0.90)三位专家给6篇论文的评定专家123456

124156223415523341462专家15.一个由25个题目组成的测验,其rXX=0.50,若将测验增加到100个题目,其rXX是多少?6.已知某量表的分半信度为0.63,请算出原长度的信度系数。7.已知某个测验的信度为0.75,要使该测验的信度达到0.90,必须增加多少题目?8.假定韦克斯勒儿童量表中国修订版的信度为0.95,请算出其标准误。9.已知WISC-R的标准差为15,信度系数为0.951,对一名12岁的儿童实施该测验后,IQ为110,那么他的真分数在95%的可靠度要求下,变动范围应是多大?[103.5,116.5]5.一个由25个题目组成的测验,其rXX=0.50,若将测验10.某测验信度为0.8,其随机误差的方差在观察分数方差中所占的比重为()A.80%;B.20%;C.64%;D.32%11.分别叙述下列四种信度估计方法的理论依据,并比较它们的应用性能:重测信度、复本信度、分半信度、a系数10.某测验信度为0.8,其随机误差的方差在观察分数方差中所

第四章测验的信度第四章测验的信度导学信度是评价测验优劣的重要指标,了解信度的相关知识是编制优质高效测验的前提。通过本章的学习我们可解决三个问题:一、明确信度的理论定义及操作定义;(难点)二、掌握几种常模参照测验的信度估计方法;(重点)三、了解影响信度的因素,在信度估计时尽量避免由此造成的误差;提高信度的方法。导学信度是评价测验优劣的重要指标,了解信度的相关知识是编制优第一节信度概述一、什么是信度1.信度的理论定义信度即测量结果的稳定性、一致性或可靠性。是用同一测量工具反复测量某人的同一种心理特质,所得结果的一致性程度。

第一节信度概述一、什么是信度2.信度的统计定义定义1:信度是被试团体真分数方差与实得分数方差之比定义2:信度是被试团体真分数与实得分数相关系数的平方定义3:信度是一个测验X(A卷)与它的任意一个平行测验(B卷)的相关系数

rxx代表测量的信度,S2T代表真分数的变异数,S2x代表是实得分数的变异数,即总变异数。2.信度的统计定义定义1:信度是被试团体真分数方差与实得分数由于真分数的方差无法统计,可转化为:rxx=(S2x-S2E)/S2x=1-S2E/S2x

该定义有两点需要注意:第一、信度指的是一组测验分数或一列测量的特性,而不是个人分数的特性;第二、真分数的变异数是不能直接测量的,因此信度是一个理论上构想的概念,只能根据一组实得分数做出估计。由于真分数的方差无法统计,可转化为:信度只受随机误差的影响。随机误差越大,信度越低。信度不受系统误差的影响。信度只受随机误差的影响。随机误差越大,信度越低。二、信度指标1.信度系数与信度指数大部分情况下,信度是以信度系数为指标,信度系数又以相关系数表示,即用同一被试样本所得的两组资料的相关系数作为测量一致性的指标,称作信度系数(rxx)信度系数是表示测量结果的稳定性程度的指标。rxx=r2XT=s2T/s2xrXT信度指数,它的平方就是信度系数二、信度指标1.信度系数与信度指数信度系数是表示测量结果的稳定性程度的指标。记为:信度系数的值域:?没有百分之百可靠的测量,因此,rXX=1只是理论上的值,实际当中是不会存在的。相关系数的值域是[-1,+1],信度系数的值域:[0,1],为什么?

[0,1]信度系数是表示测量结果的稳定性程度的指标。记为:信度系数的值经典测量理论的信度系数重测信度——稳定性系数复本信度——等值性系数、等值性与稳定性系数内部一致性系数——分半信度、同质性信度评分者信度——肯德尔和谐系数经典测量理论的信度系数重测信度——稳定性系数对信度系数要注意的几点:1.在不同情况下,对不同样本,采用不同方法会得到不同的信度系数,因此一个测验可能不只一个信度系数。2.信度系数只是对测量分数不一致程度的估计,并没有指出不一致的原因。3.获得较高的信度系数并不是心理测量追求的最终目的,它只是迈向目标的一步,是使测量有效的一个必要条件。对信度系数要注意的几点:1.在不同情况下,对不同样本,采用不信度系数要达到多高才可以接受呢?

最理想的是rxx=1.00,但办不到研究结果显示,能力,成就测验都在0.90以上,有的还可以达到0.95以上;人格测验、兴趣、态度、价值观等都在0.80~0.85。一般原则:⑴当rxx﹤0.70时,测验不能用于对个人作出评价或预测,而且不能做团体比较;⑵当0.70≤rxx<0.85时,可用于团体比较;⑶当rxx≥0.85时,才能用来鉴别或预测个人成就或作为。另一原则:新编的测验信度应该高于原有的同类测验或相似测量信度系数要达到多高才可以接受呢?

最理想的是rxx=1.0测验类型

信度系数

低中高学业成就测验0.660.920.98学术能力测验0.560.900.97特殊能力倾向测验0.260.880.96人格测验0.460.850.97兴趣测验0.420.840.93态度测验0.470.790.98注:表中数据来源,LewisR.Aiken:Psychologicaltestingandassessment(eighthedition),AllynandBacon,Inc,1994.测验类型信度系数低中高学业成就测验0.660.920.92.标准误信度系数仅表示一组测量的实得分数与真分数的符合程度,但并没有直接指出个人测验分数的变异量。由于误差存在,一个人所得分数有时比真分数高,有时比真分数低,有时二者相等。理论上我们可以对一个人施测无数次测验,然后求得分数的平均数和标准差。这个平均数就是这个人的真分数,而标准差就是测量误差大小的指标。但在实际上是行不通的。然后,我们可以用一组被试两次测量结果来代替对同一人的反复施测,以估计测量误差的变异数。2.标准误此时,个人在两次测验中的分数差异就是测量误差。据此可制成误差分数的分布。这个分布的标准差(误差分布的标准差)我们称之为测量的标准误,是表示测量误差的大小的指标,其计算公式为:SE表示测量的标准误,即误差分布的标准差;Sx表示实得分数的标准差;rxx表示信度系数。此时,个人在两次测验中的分数差异就是测量误差。据此可制成误差三、信度的作用(信度与测验分数的解释)1.信度是测量过程中所存在的随机误差大小的反映

(解释真实分数与实得分数的相关)信度系数可以解释为:总的方差中有多少比例是由真实分数的方差决定的,也就是测验的总变异中真分数造成的变异占百分之几。例如,r=0.9时,实得分数90%的变异来自真分数,10%来自误差。r=1呢?r=0呢?信度系数从0.00~1.00,代表了从缺乏信度到完全可信的所有状况信度系数也告诉我们误差有多大三、信度的作用(信度与测验分数的解释)1.信度是测量过程中所2.确定信度可以接受的水平最理想的是rxx=1.00,但办不到研究结果显示,能力,成就测验都在0.90以上,有的还可以达到0.95以上;人格测验、兴趣、态度、价值观等都在0.80~0.85。一般原则:⑴当rxx﹤0.70时,测验不能用于对个人作出评价或预测,而且不能做团体比较;⑵当0.70≤rxx<0.85时,可用于团体比较;⑶当rxx≥0.85时,才能用来鉴别或预测个人成就或作为。另一原则:新编的测验信度应该高于缘由的同类测验或相似测量2.确定信度可以接受的水平最理想的是rxx=1.00,但办3.解释个人分数的意义作用:其一是估计真实分数的范围;其二是了解实得分数再测时可能的变化情形。这就是测量标准误的应用。

X-1.96SETX+1.96SE真分数的估计区间为:3.解释个人分数的意义作用:其一是估计真实分数的范围;其二是第四章测量的信度精要课件我们可以用测量的标准误来估计个人测验的真分数的大小。如果选用95%的可靠性水平(置信水平),即显著性水平(a值)为.05,,真分数有95%的可能落入X±SE,即X±1.96SE的范围之内,也可以写成X-1.96SETX+1.96SE,SE则用公式代入。或有5%的可能落入这范围之外。这实际上也表明了再测时分数改变的可能范围。X―1.96SE<T≤X+1.96SE我们可以用测量的标准误来估计个人测验的真分数的大小。例:在一个智力测验中,某个被试的IQ为100,这是否反映了他的真实水平?如果再测一次,他的分数将改变多少?已知该智力测验的标准差为15,信度系数为.84,则其IQ的测量标准误和可能范围为:

例:在一个智力测验中,某个被试的IQ为100,这是否反映了他注意几点:(1)SE对真分数做的是区间估计,不可能由此得到一个确切的点。这就是说,测验分数不是一个定点,而是具有一定的分布范围。因此,两次测验分数之间存在差异是很正常的。(2)置信水平确定后,估计的精度主要取决于SE,SE越小,范围越小,估计就越精确,反之也然。(3)真分数不能等同于真正能力或心理特质,真分数中包括了系统误差。注意几点:4.比较不同测验分数的差异来自不同测验的原始分数是无法直接进行比较的,只有将它们转换成相同尺度的标准分数才能进行比较。这种比较包括两个人不同分数的差别和同一被试在两个测验上的差别。SEd为差异的标准误,S代表两个测验使用的标准差,这个标准差要相同,因为只有在两个分数具有相同的单位时才可以比较。rxx、ryy分别为两个测验的信度系数。4.比较不同测验分数的差异来自不同测验的原始分数是无法直接进例;某被试在韦氏成人智力测验中言语智商为102,操作智商为110。已知两个分数都是以100为平均数,15为标准差的标准分数。假设言语测验和操作测验的分半信度分别为0.87和0.88。问其操作智商是否显著高于言语智商呢?首先计算出差异分数的标准误:在统计上,经常要求两个分数的差异程度达到0.05的显著水平,才能承认不是误差的影响。因此,将差异标准误(7.5)乘以1.96,结果为14.7,这表明个体在韦氏测验两半得分的差异高于大约15分,才能达到0.05显著水平。上述被试的差异分数110-102=8是不显著的。例;某被试在韦氏成人智力测验中言语智商为102,操作智商为1课堂练习1.某个被试的测验IQ=100,再测的分数可能是多少?(已知测验的标准差为15,信度系数为0.90).2.被试在韦氏智力测验中言语智商为102,操作智商为110。两个分测验都是以100为平均数,15为标准差的标准分数。假设言语测验和操作测验的分半信度分别为0.93和0.94.问其操作智商是否显著高于言语智商?95%的可能在90.6~109.4之间课堂练习1.某个被试的测验IQ=100,再测的分数可能是多少课后作业1.某智力测验的信度r=0.75,某次施测得到标准差为3.00,则该测验的测量标准误是多少,若某被试得分为100,试估计其真分数1-=.95的置信区间2.某测验的信度为0.75。要使该测验的信度达到0.90,须增加多少题目(原测验长度的多少倍)?3.一个包含10个题目的测验,信度为0.50,若增至50个题目,其信度将是多少?4.书本P57-58第2、3题课后作业1.某智力测验的信度r=0.75,某次施测得到标准差第二节信度的评估方法一、重测信度二、复本信度三、内部一致性信度四、评分者信度第二节信度的评估方法一、重测信度一、重测信度(Test-RetestReliability)(一)含义也叫再测信度1.重复测验:同一量表,同一被试群体,在不同时间,两次施测。2.重测信度:用同一测验,对同一组被试前后两次施测,两次测验分数之间的相关程度(用相关系数来表示)就是再测信度。3.重测信度实质:主要考察了一个测量工具是否能够保证在不同时间测量结果的一致性,表示测验结果的稳定性。故称之为稳定性系数(CoefficientofStability)4.形式:施测A1—适当时间—再施测A2一、重测信度(Test-RetestReliability一般来说,重测的时间间隔越短,那么各种施测情境的变化就越小,重测信度系数就会越大。重测信度系数较大时,说明该测量工具前、后两次的测量结果比较一致。结果具有较好的跨时间上的稳定性。一般来说,重测的时间间隔越短,那么各种施测情境的变化就越小,(二)评估方法重测信度的大小可以通过计算测量工具的重测系数或稳定性系数来标志。具体来说,就是求取同一组被试在两个不同时间施测同一个测量工具所得结果分数的相关系数。即积差相关法,是皮尔逊的积差相关系数rxx(二)评估方法重测信度的大小可以通过计算测量工具的重测系数或例:10名学生两次测验的成绩如下,求该测验的重测信度?第1次成绩:86587964885855823275第2次成绩:88568976856847764575例:(三)重测信度应满足的条件所测量的特征必须是稳定的遗忘与练习的效果是相同的两次实测期间被试的学习效果没有差别一般用于速度测验或人格测验,不用于难度测验(三)重测信度应满足的条件所测量的特征必须是稳定的(四)使用重测信度时需要注意的问题1.两次施测时间间隔的长短会影响重测信度系数估计值的大小,因此,在报告重测信度系数时应该报告间隔的时间长度。2.应该间隔多长时间?应该根据已有的相关研究结论考虑所测心理特质本身的稳定性程度,以确定前后两次施测时间的间隔究竟应该多长比较合适时,不应该随便选择间隔时间的长短。对于年幼儿童,两次施测的时间间隔应该短于年龄大些的被试;智力测验的间隔一般在6个月左右。3.应注意提高被试的积极性(四)使用重测信度时需要注意的问题1.两次施测时间间隔的长短一个测验就是一个重测信度吗?一个测验就是一个重测信度吗?(五)重测信度的优缺点1.优点:能提供有关测验结果是否随时间而变异的资料,可作为预测受测者将来行为的依据。2.缺点:容易受练习和记忆的影响,前后两次施测间隔的长短必须适度;第一次尝试所发现的错误也可能导致第二次反应的变化而增加误差变异。(五)重测信度的优缺点1.优点:二、复本信度(Alternate-formraliability)(一)含义1.复本测验:指在题目内容、题型、题数、难度、区分度、指导语、时限等方面都一致(相等)的两份或多份测验,又叫平行测验。即:用不同题目测量同样内容而且测验结果的平均值和标准差都相同的两个测验。任何测验只是所有可能题目中的一份取样(行为样本),所以可编制许多平行的等值测验(复本)。2.复本信度:同一组被试在复本测验上所得结果的相关系数。二、复本信度(Alternate-formraliabil3.实质:反映了由于题目的不同以及时间间隔所导致的测量误差。4.形式:

等值性系数稳定性与等值性系数3.实质:反映了由于题目的不同以及时间间隔所导致的测量误差。(二)复本信度估计方法等值性系数(同一时间内连续施测)稳定性和等值性系数(相隔一段时间施测)式中,XA、XB为同一被试在两个测验复份A、B上的分数,SA、SB为A、B两型测验的标准差,N为被试人数。(二)复本信度估计方法等值性系数(同一时间内连续施测)式中,例:假设用A、B两个创造力复本测验对初中一年级10个学生施测。结果见下表。请计算复本信度。测验被试12345678910A

20191918171614131210B2020181615171211139例:假设用A、B两个创造力复本测验对初中一年级10个学生施测(三)复本信度要符合的条件1.各份测验测量的是同一种心理特性。具有相同的内容和形式。题目不应重复。题目数量相等,难度和区分度大体相同。分数分布(平均数和标准差)大致相等。2.被试有条件接受两个测验(三)复本信度要符合的条件1.各份测验1.两次测验的时间间隔要适当,若太短,由于测验太相似被试可能厌倦,若太长可能又会因新的学习而产生干扰。应该尽量在测试结果报告中,详尽地说明两次测试的时间间隔、测试顺序安排、测试过程中被试的有关测验经历等。稳定性与等值性系数是测验信度的最严格的考察,得到的是信度系数的下限。

(四)注意事项1.两次测验的时间间隔要适当,若太短,由于测验太相似被试可(五)使用复本信度的局限1.只能减少但不能完全消除练习和记忆的影响;2.由于第二个测验只改变了题目的具体内容,已经掌握的解题原则可以很容易地迁移到同类问题。3.对许多测验来说,建立复本是十分困难的。4.被试易出现疲劳、失去积极性等反应。这些称为顺序效应,为了抵消顺序效应,可随机分配一半被试先做复本A再做复本B,另一半被试先做复本B再做复本A,以平衡顺序效应。(五)使用复本信度的局限1.只能减少但不能完全消除练习和记三、内部一致性信度测验内部(或测题之间)的一致性信度。包括:分半信度和同质性信度(一)分半信度1.含义分半信度(Split-HalfReliability):指的是将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度。2.实质分半信度评价了测验两个随机组成部分的题目是否测量了相同的心理特质。

三、内部一致性信度测验内部(或测题之间)的一致性信度。3.估计方法皮尔逊积差相关XA、XB为同一被试分别在两个半测验A、B上的分数,SA、SB为A、B两半测验的标准差,rhh为分半信度。计算分半信度先要对测验分半。不同的分半法可能会得到不同的信度值,需要校正。3.估计方法4.分半信度的校正公式之一由于在用分半测验得分计算相关系数时,测验题量被缩短,信度系数需要通过以下这个公式对分半相关系数进行矫正而得到。为两个分半测验之间的相关系数,为完整长度测验的信度系数估计值。4.分半信度的校正公式之一由于在用分半测验得分计算相关系数时例:100个题目,分半信度r=0.70,整个测验的估计信度是多少?rxx=2×0.7/(1+0.7)=0.82例:100个题目,分半信度r=0.70,整个测验的估计信度是4.分半信度的校正公式之二4.分半信度的校正公式之二4.分半信度的校正公式之三Rulon公式中分子方差反映了由于题目不同等条件带来的误差方差,他与总方差之比反映了误差方差在总方差中所占的比例。4.分半信度的校正公式之三Rulon公式中分子方差反映了由于5.分半的方法1)按题目序号分半,分奇数题和偶数题2)按题目难度分半3)按题目的内容分半。如遇到有牵连的项目或一组解决同一问题的项目时,这些项目应放在同一半,否则会高估信度的值。5.分半的方法1)按题目序号分半,分奇数题和偶数题6.适用的前提条件1)通常在只能施测一次或没有复本的情况下使用。2)斯皮尔曼-布朗公式时要求全体被试在两半测验上得分的变异数(方差)要相等。3)实践中对测验分半时,为了尽量减少无关因素的影响,通常需要考虑题型、题分、题目测试先后顺序等因素的平衡问题。6.适用的前提条件1)通常在只能施测一次或没有复本的情况下使4)当一个测验无法分成对等的两半时,分半信度不宜使用。速度测验也不宜采用分半法。因为速度测验中试题的难度低,被试得分的多少主要是看答题的多少,分半法易使得分相同,从而夸大分半法的信度估计。

5)同一测验通常会有多个分半信度,提供分半信度值时,要说明分半的方法。(20个题目的测验可得到92,378分半信度!)4)当一个测验无法分成对等的两半时,分半信度不宜使用。速度测例:有一个由100题构成的量表施测于10个高三学生。测验一次后,应试者即毕业离校。现在怎样评价测验结果的信度?

(1)计算出每个应试者的奇数题总分(X1)和偶数题总分(X2),见表。

得分被试12345678910X1

38373841403638394035X237373639393438393936例:有一个由100题构成的量表施测于10个高三学生。测验一次分半法实际上是对测验内部一致性的一个粗略估计。但对于同一个测验分半的方法是很多的,而且用不同的分半方法求出的分半信度都不一样,因此分半信度不是最好的内部一致性的估计。为了弥补分半法的不足,可以采用其它的方法。分半法实际上是对测验内部一致性的一个粗略估计。但对于同一个测(二)同质性信度(Homogeneityreliability)1.含义:同质性指测验的所有题目测量的是同一种心理特质,表现为各个题目得分之间有较高的相关,相关越高则同质性越强(是正相关还是负相关?相关为零则表明了什么?)。同质性信度就是一个测验所测内容或特质的相同程度。即:题目之间的一致性程度2.同质性信度的计算公式和校正公式估计所有可能的分半信度系数的平均数,作为完整测验的内部一致性最佳估计值。(二)同质性信度(Homogeneityreliabil2.同质性信度计算方法0、1记分的同质性信度2.同质性信度计算方法0、1记分的同质性信度2.同质性信度计算方法非0、1记分的同质性信度公式中,k是测验题目个数,S2i是被试在题目i上得分的方差,S2t是被试测验总分方差。克龙巴赫a系数2.同质性信度计算方法非0、1记分的同质性信度公式中,k是测a值的计算步骤:P52注意:a值是所有的分半信度的平均值a值只是测量信度的下界的一个估计值。即a值大,测量信度必定高;但a值小时,却不能断定测量信度不高。a值的计算步骤:P523.同质性信度的解释同质性信度高,说明测验主要测的是某一单个心理特质,实测结果就是该特质水平的反映;同质性信度低,说明测验结果可能是几种特质的综合反映。具体如何解释?测量单一特质与同质性信度的关系?3.同质性信度的解释同质性信度高,说明测验主要测的是某一单个

四、评分者信度(ScorerReliability)1.含义:是指两个或多个评分者给同一批人的答卷进行评分的一致性程度。2.估计方法:⑴两个评判者的评分信度:随机抽取若干份答卷,由两个独立的评分者打分,再求每份答卷两个评判分数的相关系数(积差相关或等级相关)。⑵多个评判者的评分信度:用肯德尔和谐系数来估计

四、评分者信度(ScorerReliability)1.评分者信度的计算:1.评分者为两个人时若是连续变量的评分,且分布是正态则计算皮尔逊积差相关系数(可用计算机直接计算)。XA、XB分别为两个评判者在同一道题上所给的分数,SA、SB分别为两个评判者所评分数的标准差,rxx为评分者信度评分者信度的计算:XA、XB分别为两个评判者在同一道题上所若是等级评定或虽是等距或等比的数据但分布非正态,则计算斯皮尔曼等级相关。斯皮尔曼等级相关公式:(公式5-12)式中D为各对偶等级之差,是各D平方之和,N为等级数目。若是等级评定或虽是等距或等比的数据但分布非正态,则计算斯皮尔当有相同的等级出现时,计算斯皮尔曼等级相关的公式为:(公式5-13),;,式中,N为成对数据数目,n为相等等级数目。当有相同的等级出现时,计算斯皮尔曼等级相关的公式为:例7:甲乙两位教师评阅10份试卷,他们对每一试卷各自所评的分数列入下表,问这两位教师评分的一致性如何?两位教师对10份试卷的评分例7:甲乙两位教师评阅10份试卷,他们对每一试卷各自所评的分试卷得分名次甲评分乙评分甲评分乙评分A9493B9092C8692D8670E7282F7076G6865H6676I6468J6160试卷得分名次甲评分乙评分甲评分乙评分A9493B9092C82.评分者为多个时采用肯德尔和谐系数(Kendallcoefficientofconcordance)来估计信度系数(公式5-14)式中,W为和谐系数,K为评分者人数,N为被评对象数,Ri为每一对象被评的等级之和。2.评分者为多个时出现相同等级时采用下面的公式:(公式5-15)式中,W为和谐系数,K为评分者人数,N为被评对象数,Ri为每一对象被评的等级之和,n为相同等级数目。出现相同等级时采用下面的公式:例8:六位教师各自评阅相同的五篇作文,每位教师给每一篇作文都评了等级(共五等),并列入下表5-7。求六位老师所评等级的一致性程度。例8:六位教师各自评阅相同的五篇作文,每位教师给每一篇作文都评分者K=6试卷编号(N=5)12345A35241B35241C34152D35142E35241F35241RiRi2评分者K=6试卷编号(N=5)12345A35241B352例9:三位教师评阅四份试卷,所评等级列入下表5-8。他们所评的等级的一致性程度怎样?评卷教师K=3作文编号(N=4)1234张3142王2141李2232Ri例9:三位教师评阅四份试卷,所评等级列入下表5-8。他们所评再测信度:估计测验中跨时间的一致性复本信度:估计测验跨形式(题目)的一致性等值稳定性系数:估计测验跨时间和形式的一致性内部一致性系数:估计测验跨项目或两个分半测验之间的一致性评分者信度:估计测验跨评分者的一致性各种方法具有不同的意义,每一种信度系数不能代替其他的信度系数,所以编制或使用测验时,应该尽可能收集各种信度证据。五、信度系数及其估计方法小结再测信度:估计测验中跨时间的一致性五、信度系数及其估计方法小1.测试次数和测试卷份数与信度系数估计方法测试次数测试卷份数1份2份1次分半信度Kuder-Richardson信度Alpha系数复本信度(同时测试)2次重测信度复本信度(延时测试)1.测试次数和测试卷份数与信度系数估计方法测试次数测试卷份数2.各种信度估计方法的误差方差来源信度估计方法误差来源重测信度复本信度(同时测试)复本信度(延时测试)分半信度Kuder-Richardson和Alpha系数评分者信度时间间隔题目内容时间间隔与题目内容题目内容题目内容与心理行为特质的同质性评分者间差异2.各种信度估计方法的误差方差来源信度估计方法误差来源重测信第三节影响信度的因素及提高信度的方法一、影响信度的因素(一)样本特征1.样本团体异质性的影响

信度系数就是相关系数,任何相关系数都要受到团体中分数分布范围的影响。而分数分布范围与样本团体的异质程度有关。

一个团体越异质,其分数范围越大,信度系数也就越高。相反,相对同质的团体分数则较为均匀。如图所示:第三节影响信度的因素及提高信度的方法一、影响信度的因素

图中大方框显示的是一个较大的异质团体在两次施测中的分数分布,显然有很高的正相关.在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论