心理测量第三讲_第1页
心理测量第三讲_第2页
心理测量第三讲_第3页
心理测量第三讲_第4页
心理测量第三讲_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、测验的信度测验的信度主讲:刘润香v如果一个秤今天和明天秤的结果不一样,我们就不会相信这个秤,认为这个秤有问题v类似的,如果一个心理测验多次测量的结果不稳定或者不一致,那么也不会有人去用这个测验。信度的概念信度的概念v一般定义:一般定义:信度:即测验的可靠性,指的是测验所得结信度:即测验的可靠性,指的是测验所得结果的一致程度。它是衡量测验质量好坏的最果的一致程度。它是衡量测验质量好坏的最基本指标。基本指标。信度的指标v信度系数rxxv信度指数rxTv测量标准误SE信度系数信度系数经典测量理论的假设:经典测量理论的假设:X=T+E.X为实得分数,为实得分数,T为真实分数,为真实分数,E为随机误差分

2、数。为随机误差分数。可以转换为:可以转换为:S2x=S2T+S2E.信度定义:信度是一组测验分数的真分数方差与信度定义:信度是一组测验分数的真分数方差与总方差(实得分数方差)的比率,即总方差(实得分数方差)的比率,即rxx=S2T/ S2x= 1-S2E/ S2x编号测量身高X真实身高T测量误差E116516612171170131791812416016335158160261631612信度指数信度指数vr2xT=S2T/ S2x,rxT即为信度的第一种表示信度指即为信度的第一种表示信度指数。但这里数。但这里S2T无法求取。无法求取。v对同一被试反复施测无数次,或用无数个相等对同一被试反复

3、施测无数次,或用无数个相等的测验对同一被试反复施测无数次,从而一个的测验对同一被试反复施测无数次,从而一个被试可以得到无数个分数,这无数个分数的平被试可以得到无数个分数,这无数个分数的平均值为真实分数均值为真实分数T,标准差即为测量的误差方,标准差即为测量的误差方差,它也是信度的第二种表示。这里对一个被差,它也是信度的第二种表示。这里对一个被试能不能反复施测无数次?试能不能反复施测无数次?测量标准误vSE=Sx(1- rxx)1/2v测量的标准误与信度之间有互为消长的关系:测量的标准误与信度之间有互为消长的关系:信度越高,标准误越小;信度越低,标准误信度越高,标准误越小;信度越低,标准误越大越

4、大 信度评估的方法信度评估的方法v根据反映测验误差的不同来源,可分:根据反映测验误差的不同来源,可分:重测信度重测信度考察跨时间的一致性。考察跨时间的一致性。复本信度复本信度考察跨内容的等值性。考察跨内容的等值性。内部一致性内部一致性考察题目的同质性。考察题目的同质性。评分者信度评分者信度考察评分的一致性。考察评分的一致性。v注意:注意:信度估计方法不只上面几种,实际上有多少信度估计方法不只上面几种,实际上有多少误差来源,便有多少估计信度的方法。原则误差来源,便有多少估计信度的方法。原则上一个测验哪种误差大,便采用哪种估计方上一个测验哪种误差大,便采用哪种估计方法,有时甚至需要有几种信度系数。

5、法,有时甚至需要有几种信度系数。重测信度重测信度v定义:即使用同一测验,在同样条件下对同一定义:即使用同一测验,在同样条件下对同一组被试者前后施测两次,求两次得分间的相关组被试者前后施测两次,求两次得分间的相关系数,又称稳定性系数系数,又称稳定性系数 。v计算方法:重测法。计算方法:重测法。A1 A2,求,求r12。v使用条件:使用条件:(1)所测心理特质是稳定的(气质、性格、兴)所测心理特质是稳定的(气质、性格、兴趣、态度);趣、态度);(2)遗忘和练习效应基本抵消;)遗忘和练习效应基本抵消;(3)两次施测间隔内,被试没有得到更多的学)两次施测间隔内,被试没有得到更多的学习、练习(动态测验)

6、习、练习(动态测验)2-4周周v注意事项:注意事项:(1)报告重测信度要报告两次施测间隔时)报告重测信度要报告两次施测间隔时间。间。(2)两次测量之间最适宜的时距:随测验)两次测量之间最适宜的时距:随测验的目的、性质和被试特点而异,一般是的目的、性质和被试特点而异,一般是两周到四周为宜,间隔时间最好不超过两周到四周为宜,间隔时间最好不超过六个月。(不能太短,使得记忆或练习六个月。(不能太短,使得记忆或练习效应得以消退;不能过长,以避免被试效应得以消退;不能过长,以避免被试心理状态受到成熟、历史性变化的影响)心理状态受到成熟、历史性变化的影响)复本信度复本信度v等值性系数:等值性系数:A B(反

7、映测验内容(反映测验内容引起的误差)引起的误差)定义:是以两个等值但题目不同的测验(复定义:是以两个等值但题目不同的测验(复本)来测量同一群体,然后求得被试在两个本)来测量同一群体,然后求得被试在两个测验上得分的相关系数。测验上得分的相关系数。施测方法:将被试随机分成两半,一半被试施测方法:将被试随机分成两半,一半被试先做先做A,再做,再做B;另一半先做;另一半先做B,再做,再做A,合,合并两个并两个A和和B的数据求相关。的数据求相关。v稳定性与等值性系数。稳定性与等值性系数。A B两个复本的施测相隔一段时间。两个复本的施测相隔一段时间。v计算:类同重测信度,两次测验上得分的积差相关系数。v使

8、用条件:(1)编制两份平行测验(很难编)(2)被试有条件接受两次测验v注意事项:(1)稳定等值性系数需报告施测间隔时间(2)依然存在练习/记忆效应(如:同一类型的题,解题策略相同)PS:重测信度和复本信度都不适合难度测验。分半信度v分半信度:分半信度:1/2A 1/2A定义定义v指在测验实施后,将测验按奇偶性分成两半,并指在测验实施后,将测验按奇偶性分成两半,并分别计算每位被试在两半测验上的得分,求出这分别计算每位被试在两半测验上的得分,求出这两半分数两半分数的相关系数。属于内部一致性系数中的的相关系数。属于内部一致性系数中的一种,反映的是两半测验间的一致性。一种,反映的是两半测验间的一致性。

9、校正校正v原因:测验长度变短,易低估测验的信度;原因:测验长度变短,易低估测验的信度;v公式:公式: rxx=2rhh/(1+rhh)v使用前提:测验能被分成两半(如语文、韦氏智力测验就很难分半)v注意事项:(1)一个测验往往有多种分半方法,因此也对应有多种分半信度,在报告分半信度时需说明分半的方法。(2)常用的分半方法有奇偶分半、难度分半、内容分半、时间分半(常用于速度测验)同质性信度v同质性信度同质性信度主要代表测验内部主要代表测验内部所有题目所有题目间的一致性。正间的一致性。正相关高,测验为同质的;低正相关或为负相相关高,测验为同质的;低正相关或为负相关时,测验为异质。也属于内部一致性系

10、数关时,测验为异质。也属于内部一致性系数中的一种,其实质是所有分半信度的平均值。中的一种,其实质是所有分半信度的平均值。如果测验由许多分测验组成,则要求分测验如果测验由许多分测验组成,则要求分测验内部同质,分测验之间异质。内部同质,分测验之间异质。评分者信度评分者信度v适用:用于测量不同评分者之间所产生的误适用:用于测量不同评分者之间所产生的误差。差。v两个评分者之间的信度:有若干份试卷,每两个评分者之间的信度:有若干份试卷,每份试卷由两人评分,然后根据每份试卷的两份试卷由两人评分,然后根据每份试卷的两个分数求相关。(如果受过训练的评分者,个分数求相关。(如果受过训练的评分者,其评分一致性应达

11、其评分一致性应达0.90以上)以上)v多个评分者之间的信度:如果采用等级评分,多个评分者之间的信度:如果采用等级评分,可采用可采用W系数计算评分者信度。系数计算评分者信度。应注意的问题应注意的问题v有多少误差来源就有多少信度估计方法。有多少误差来源就有多少信度估计方法。v应根据情况采用不同的信度指标,原则上一应根据情况采用不同的信度指标,原则上一个测验哪种误差大,便用哪种误差估计。个测验哪种误差大,便用哪种误差估计。v一个测验往往要计算多种信度系数。一个测验往往要计算多种信度系数。例子v复本信度又称等值性系数。它是以两个等值但复本信度又称等值性系数。它是以两个等值但题目不同的测验(复本)来测量

12、同一群体,然题目不同的测验(复本)来测量同一群体,然后求得被试者在两个测验上得分的相关系数。后求得被试者在两个测验上得分的相关系数。复本信度反映的是测验在(复本信度反映的是测验在( )上的等值性。)上的等值性。(A)时间)时间 (B)题目)题目 (C)评分)评分 (D)内容)内容v一般要求在成对的受过训练的评分者之间平均一般要求在成对的受过训练的评分者之间平均一致性达到一致性达到( )以上,才认为评分是客以上,才认为评分是客 观的。观的。 (A) 0.70 (B) 0.80(C) 0.90 (D)l .00信度与测验分数的解释信度与测验分数的解释v解释真实分数与实得分数的相关程度解释真实分数与

13、实得分数的相关程度rxx=S2T/ S2x rxx0,10,1rxx=0=0, S2E= = S2x rxx=1=1, S2T= = S2xv确定信度可以接受的水平确定信度可以接受的水平两个原则:两个原则:vrxx0.70时,测验不能用于团体比较和对个人进时,测验不能用于团体比较和对个人进行评价和预测。行评价和预测。0.70rxx0.85时,测验能用于时,测验能用于团体比较。团体比较。rxx0.85时,能用于鉴别或预测个人时,能用于鉴别或预测个人成绩或作为。成绩或作为。v新编测验的信度应高于原有同类测验或相似测验。新编测验的信度应高于原有同类测验或相似测验。能力或成就测验:能力或成就测验: r

14、xx0.90(甚至甚至0.95)人格测验:人格测验: rxx0.80,0.850.80,0.85或更高或更高PS:信度高并不是心理测验追求的最高目标,只是使测验有效的一个必要条件。v解释个人分数的意义解释个人分数的意义测量标准误的作用:测量标准误的作用:v估计真实分数的范围;估计真实分数的范围;v了解实得分数再测时可能的变化情形。了解实得分数再测时可能的变化情形。真分数的估计,或再测时实得分数的变化范真分数的估计,或再测时实得分数的变化范围计算:围计算:v根据根据SE=Sx(1- rxx)1/2,求,求SE。v如果已知或然水平,一般为如果已知或然水平,一般为95%。v则真分数的置信区间或再测时

15、则真分数的置信区间或再测时X的变化范围是:的变化范围是:X-1.96SE 1.96 ,则差异显著;反之,则差异,则差异显著;反之,则差异不显著。不显著。不同测验分数的差异比较举例v某被试在韦氏成人智力测验中言语智商为100,操作智商为105,已知两个分数都是以100为平均数,15为标准差的标准分数,假设言语分量表和操作分量表的分半信度为0.87和0.88,问言语智商和操作智商是否存在显著性差异。举例v“大约有大约有95%的可能性真分数落在所得分数的可能性真分数落在所得分数+1.96SE的范围内,或有的范围内,或有5%的可能性落在范的可能性落在范围之外围之外”的描述,其置信区间为(的描述,其置信

16、区间为( )。)。(A)X-1.96SEXTX+1.97SE (B)X-1.96SEXT(C)X+1.96SEXT (D)X-1.96SE XTX+1.96SE 影响信度的因素影响信度的因素v样本特征样本特征样本团体内的异质性(指水平的差异):异样本团体内的异质性(指水平的差异):异质高,则信度高。质高,则信度高。样本团体间平均能力水平:团体的不同水平,样本团体间平均能力水平:团体的不同水平,导致题目的难度不同,从而影响信度的高低。导致题目的难度不同,从而影响信度的高低。在智力测验中,对年幼者或能力水平低者,在智力测验中,对年幼者或能力水平低者,不适宜使用选择题测验。不适宜使用选择题测验。在编

17、制测验时,应将常模团体分为更同质的在编制测验时,应将常模团体分为更同质的亚团体,分别报告其信度。亚团体,分别报告其信度。v测验长度测验长度测验越长,测验的测量取样或内容取样就越测验越长,测验的测量取样或内容取样就越有代表性;测验越长,被试猜测因素的影响有代表性;测验越长,被试猜测因素的影响就越小。就越小。增加测验长度的效果遵循报酬递减率原则,增加测验长度的效果遵循报酬递减率原则,因此增加测验长度要适当。因此增加测验长度要适当。斯皮尔曼斯皮尔曼皮朗公式的导出公式(皮朗公式的导出公式(rXX为原为原测验信度):测验信度):)1 ()1 (kkxxxxkkrrrrkv测验难度测验难度难度对信度的影响只存在最高作为测验中。难度对信度的影响只存在最高作为测验中。难度与信度之间不是简单的对应关系。难度与信度之间不是简单的对应关系。难度为难度为0.5只适合于简答题。选择题的难度只适合于简答题。选择题的难度应偏高。应偏高。洛德提出,在学绩测验中各类选择题的理想洛德提出,在学绩测验中各类选择题的理想平均难度值为:五择一为平均难度值为:五择一为0.70,四择一为,四择一为0.74,三择一为,三择一为0.77,是非题为,是非题为0.85。v时间间隔时间间隔只对重测信度和重测复本

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论