心理测量学教学课件2014年版第3章_第1页
心理测量学教学课件2014年版第3章_第2页
心理测量学教学课件2014年版第3章_第3页
心理测量学教学课件2014年版第3章_第4页
心理测量学教学课件2014年版第3章_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 第一节第一节 信度的涵义信度的涵义 第二节第二节 测量误差的来源测量误差的来源 第三节第三节 信度的种类与估计信度的种类与估计 第四节第四节 影响信度的因素影响信度的因素 第五节第五节 信度的应用信度的应用一、信度的定义一、信度的定义信度(信度(reliability)是指测量结果的稳定性)是指测量结果的稳定性和可靠性程度。和可靠性程度。 即:相同被试在不同时间或场合下,重复使相同被试在不同时间或场合下,重复使用同一测量工具或等价工具测量所得结果的一用同一测量工具或等价工具测量所得结果的一致性。致性。所谓真分数就是一个测量工具在测量没有误差时,所得到的纯正值。其操作定义是:经其操作定义是:经

2、过无数次测量所得到的测量结果的平均值。过无数次测量所得到的测量结果的平均值。真分数的定义表明,一个人在一个测验上所得的分数,即是它的真分数的函数,也是测量误差的函数,用公式表示如下: X=T+E 需要说明的是,这里的测量误差(E) 指的是引起测量不一致性的变因产生的效应,即指随机误差,不包括系统误差,后者不引起分数的改变,因而包含在真值中。 在公式中E可能是正的,也可能是负的。即一个人的实得分数可能大于真实量,也可能小于真实量,总是围绕真值上下波动。误差分数的平均数是零误差分数的平均数是零 误差分数与真分数相互独立误差分数与真分数相互独立, ,没有任何相关没有任何相关 两次测量的误差分数之间的

3、相关为零两次测量的误差分数之间的相关为零 经典测量理论的假设经典测量理论的假设 式中,式中,X为观察分数,为观察分数,T为一般真分数,为一般真分数,E为随机为随机误差分数,误差分数,V为目标真分数,为目标真分数,I为非目标真分数(系为非目标真分数(系统误差)。统误差)。ETXTVIXVIE 信度的定义信度的定义测量追求的初步目标:测量追求的初步目标:T占占X的比例越大越好。的比例越大越好。测量追求的终极目标:测量追求的终极目标:V占占X的比例越大越好。的比例越大越好。 当当T占占X的比例很大时,那么测值就会是稳定的。的比例很大时,那么测值就会是稳定的。一般来说,稳定的测值是可靠的、可信的,因此

4、,信一般来说,稳定的测值是可靠的、可信的,因此,信度可被认为是测量结果的度可被认为是测量结果的稳定性程度稳定性程度。TXVIE 测量分数测量分数=真分数真分数+ +误差分数误差分数误差之和为零误差之和为零测量分数的平均数测量分数的平均数=真分数的平均数真分数的平均数测量分数的方差等于真分数的方差与误差方测量分数的方差等于真分数的方差与误差方差之和差之和在经典测量理论中,信度被定义为:一组测验分数的真变异数与总变异数(实得变异数)的比率。即 rxx=ST2 / Sx2 式中rxx代表测量的信度,ST2代表真分数的变异数, Sx2代表是实得分数的变异数,即总变异数。该定义有两点需要注意: 第一、信

5、度指的是一组测验分数或一列测量的特性,而不是个人分数的特性; 第二 、真分数的变异数是不能直接测量的,因此信度是一个理论上构想的概念,只能根据一组实得分数做出估计。 信度涉及的主要问题是对测验分数意义的概化能力,即从一次测量来推论总体能达到何种正确程度。1.经典测量理论的信度系数经典测量理论的信度系数信度系数是表示测量结果的稳定性程度的指标。信度系数是表示测量结果的稳定性程度的指标。记为:记为:信度系数的值域:信度系数的值域:0,1没有百分之百可靠的测量,因此,没有百分之百可靠的测量,因此,rXX=1只是理论只是理论上的值,实际当中是不会存在的。上的值,实际当中是不会存在的。1.1.经典测量理

6、论的信度系数经典测量理论的信度系数(1)重测信度重测信度(test-retest coefficients),是指用同一个量表),是指用同一个量表对同一组被试施测两次所得结果的一致性程度,其大小等于对同一组被试施测两次所得结果的一致性程度,其大小等于同一组被试在两次测验上所得分数的相关系数。同一组被试在两次测验上所得分数的相关系数。(2)复本信度复本信度(alternative-form coefficients),是指两个),是指两个平行的测验测量同一批被试所得结果的一致性程度,其大小平行的测验测量同一批被试所得结果的一致性程度,其大小等于同一批被试在两个复本测验上所得分数的相关系数。等于同

7、一批被试在两个复本测验上所得分数的相关系数。(3)内部一致性系数内部一致性系数(internal consistency coefficients)也)也叫同质性信度(叫同质性信度(homogeneity reliability),是指测验内部所),是指测验内部所有题目间的一致性程度。有题目间的一致性程度。2.2.经典测量理论的测量标准误经典测量理论的测量标准误 测量标准误差测量标准误差(standard error of measurement)是测量误差的假设分布的标准差。用下列公式能够是测量误差的假设分布的标准差。用下列公式能够容易地计算测量标准误差:容易地计算测量标准误差:式中,式中,

8、St 表示测验分数的标准差,表示测验分数的标准差,rtt表示信度系数。表示信度系数。3.概化理论概化理论的概化系数(的概化系数(generaliability coefficients)4.IRT的测验信息函数的测验信息函数(test information function)一、误差的概念及种类一、误差的概念及种类 概念:概念:心理测量中所指的误差就是在测量中与目的无关的变因所产生的不准确或不一致的效应。 种类:种类:抽样误差、系统误差、随机误差。抽样误差、系统误差、随机误差。系统误差系统误差 是由与测验目的无关的因素所引起的恒定的、系统的、有规律的变化,存在于每次测量中,故又称恒定误差。它

9、直接影响着测量的准确性,与效度有关。因为它们在测验中不引起测量结果的不一致性,所以与信度无关。 随机误差随机误差 是使用测量工具进行心理测量所造成的误差,又称测量误差、观察误差、偶然误差。它是由与测验目的无关的偶然因素引起,使得几次测量结果不一致,且这种不一致是无系统的、随机的。随机误差与信度及效度都有关系,信度则完全受随机误差影响。 1 测验本身引起的误差测验本身引起的误差(1 1)测题取样不当)测题取样不当(2 2)测题格式不妥)测题格式不妥(3 3)测题难度不适)测题难度不适(4 4)测题或指导语用词)测题或指导语用词不当不当(5 5)测验时限过短)测验时限过短 2 施测过程引起的误差施

10、测过程引起的误差(1 1)物理环境)物理环境(2 2)主试者方面)主试者方面(3 3)意外干扰)意外干扰(4 4)评分不客观、计算、)评分不客观、计算、登分失误等登分失误等 3 受测者本身引起的误差受测者本身引起的误差(1 1)测验动机)测验动机(2 2)焦虑水平)焦虑水平(3 3)生理因素)生理因素(4 4)学习、发展和教育)学习、发展和教育(5 5)测验经验)测验经验(6 6)练习效应)练习效应(7 7)反应风格)反应风格提高测验信度的常用方法提高测验信度的常用方法规范施测程序统一施测环境规范施测程序统一施测环境适当增加测验的长度适当增加测验的长度控制试题的难度分布控制试题的难度分布努力提

11、高每道题的区分度努力提高每道题的区分度维持测验的同质性维持测验的同质性被试样本的选取与构成被试样本的选取与构成保证被试有充裕的作答时间保证被试有充裕的作答时间严格控制评分误差严格控制评分误差测验长度测验长度的增加与的增加与信度的提信度的提高不是等高不是等比例的比例的信度是一个理论上构想的概念,在实际应用时,通常以同一样本所得的两组资料的相关,作为测量一致性的指标。因为测验分数的误差来源不同,估计信度的方法也不同,故每一种信度系数只能说明信度的不同方面,因而具有不同的意义。下面介绍四种估计信度的方法。(一)定义与计算定义 用同一种测验,对同一组受试者,前后施测两次,再根据受试者两次测验分数计算其

12、相关系数,即得再测信度。即测验时距(天、月) 再测验此种信度能表示两次测验结果有无变动,反映测验分数的稳定程度,故又称稳定性系数。 计算方法计算方法 (P147-148) 计算使用皮尔逊积差相关公式的变式: rxx = 式中、为同一被试的两个分数, 、为两次测验的标准差,为被 试人数。(二)误差来源(二)误差来源1. 测验本身:测验所测的特性本身就不稳定,例如情绪。2. 被试方面:成熟、知识的发展并非人人都等量增长,且练习因素、记忆效果也存在个体差异。3. 施测情境:偶发因素的干扰,如计时错误,情绪波动,健康状况,动机变化等。 (三)计算重测信度的几个假设(三)计算重测信度的几个假设所测量的特

13、性必须是稳定的;遗忘与练习的效果相同;两次施测期间被试的学习效果没有差别。 (四)使用重测信度的优缺点(四)使用重测信度的优缺点 (优点)能提供有关测验结果是否随时间而变异的资料,可作为预测受测者将来行为的依据。 (缺点)容易受练习和记忆的影响,前后两次施测间隔的长短必须适度; 第一次尝试所发现的错误也可能导致第二次反应的变化而增加误差变异;耗时耗精力,被试不好找。(五)注意事项(五)注意事项两次测验的时间间隔要适当。最适宜的时距随测验目的、性质及被试特点而异;此方法适用于速度测验或人格测验,不适于难度测验;注意提高被试的积极性。 (一)定义与计算 1. 定义 根据一组被试在两个平行(等值)测

14、验根据一组被试在两个平行(等值)测验上的得分计算相关系数。上的得分计算相关系数。 即即 测验复份测验复份A A 测验复份测验复份B B 因为它反映的是两个测验之间的等值程度,因为它反映的是两个测验之间的等值程度,故又称等值系数。故又称等值系数。 如果两个版本间隔一段时间施测称为稳定性如果两个版本间隔一段时间施测称为稳定性等值系数等值系数 最短时距 2. 计算方法 rxx = ABABAB 式中A 、B为同一被试在两个测验复 份A、B上的分数,A 、B为A、B两 型测验的平均分数,A 、B为A、B两型测验的标准差,N为被试人数。 (二)误差来源(二)误差来源 1. 测验两种形式是否等值: (1)

15、测题取样是否匹配; (2)格式是否相同; (3)内容、题数、难度、平均数、标准差是否一致。 2. 被试方面情绪波动、动机变化等。 3. 测验情境的变化,偶发因素的干扰。 (三)等值测验应符合的条件(三)等值测验应符合的条件 等值测验可避免重测法的缺点,但所使用的必须是真正的复本。复本应符合以下条件: 1. 各份测验测量的是同一种心理特性; 2. 各份测验具有相同的内容和形式; 3. 各份测验的题目不应有重复的地方; 4. 各份测验题目数量相等,并且有大体相等的难度、区分度; 5. 分数分布(平均数和差异度)大致相等。 (四)注意事项(四)注意事项 1. 两个测验必须在项目的内容、形式、数量、难

16、易、时限、指导语等方面相同或相似; 2. 两次测验的时间间隔要适当,若太短,由于测验太相似被试可能厌倦,若太长可能又会因新的学习而产生干扰。(五)使用复本信度的局限(五)使用复本信度的局限 1. 只能减少但不能完全消除练习和记忆的影响; 2. 由于第二个测验只改变了题目的具体内容,已经掌握的解题原则,可以很容易地迁移到同类问题。 3. 对许多测验来说,建立复本是十分困难的。 (一)同质性的含义 所谓同质性指的是测验内部题目的一致性。即测验里各题得分为正相关(测验里各题得分相关为零叫异质)。 题目内部的一致性主要受两方面变异的影响: 1内容的一致性; 2所研究的行为的同质性。(二)分半的方法(二

17、)分半的方法 要计算分半信度,首先是如何将测验分半,以便得到最接近的可比较的两半。通常采用奇偶分半法。使用此方法应注意: 1一组解决同一问题或互相有牵连的题目应尽量安排在同一半内。 2当试卷中有任选题时不宜使用分半法,速度测验也不宜用。校正公式 分半法求得的相关仅是半个测验分数相关,应使用“斯皮尔曼布朗”公式加以校正,藉以估计整个测验的信度。 1.斯皮尔曼布朗公式 rxx=2rhh/(1+ rhh) 其中,rhh为两半分数的相关系数, rxx为测验在原长度时的信度估计。 此法假设:两半测验分数的变异性相等,但实际资料未必符合此假设。 当两半不等值时,即上述假设不满足时,可采用下面两公式之一:

18、2弗朗那根公式: rxx=21-(Sa2+Sb2)/Sx2 其中Sa2和Sb2分别表示两半测验分数的变异数,Sx2表示测验总分的变异数。 3卢伦公式: rxx=1- (Sd2/Sx2) 其中Sd2表示两半测验分数之差的变异数,Sx2表示整个测验分数的变异数。(三)同质性信度的其他计算 1库德理查逊公式: (1)K-R20公式: rkk=K/(K-1)(Sx2-piqi )/ Sx2) 式中K表示整个测验的题数,pi为项目通过率,qi为项目未通过率,Sx2表示测验总分的变异数(方差)。 (2)K-R21公式,适用于各题难度相近的情况: rkk=K/(K-1)( Sx2-K piqi)/ Sx2

19、pi为题目的平均通过率,qi为1-pi 。 K-R21公式计算较为简单,但求得的信度系数有低估的倾向,当题目难度相差大时偏差更大。公式K-R20和K-R21只适用于0,1记分的测验。 2克伦巴赫系数 适用于非0,1记分的一种内在一致性系数。其公式如下: =K/(K-1)1-(Si2/ Sx2) 其中Si2为每一项目分数的变异数,其他字母意义与K-R20相同。 上面这些公式均不适用于速度测验,因为只有每个人都做完全部题目时,题目的变异数才是准确的。1. 只适合于同质性的测验只适合于同质性的测验2. 特别不适合于速度测验特别不适合于速度测验评分者信度是由多个评分者给一组测验结评分者信度是由多个评分

20、者给一组测验结果评分,所得各个分数之间的一致性。果评分,所得各个分数之间的一致性。 一般要求在成对的受过训练的评分者之间平均一致性达到0.900.90以上以上,才认为评分是客观的。 当多个评分者评多个对象,并以等级法记分时,可用肯德尔和谐系数作为评分者信度的估计: W=Rt2-(Ri)2/N/(1/12)K2(N3-N) 其中,K是评分者人数,N是被评的对象数,Rt是每一个对象被评等级的总和。 严重到什么程度?严重到什么程度? 历史教授的答案被评阅为历史教授的答案被评阅为“不及格不及格” 高考作文高考作文一幅漫画的启示一幅漫画的启示,67位评阅者,位评阅者,6至至25分都有,最高分与最低分相差

21、分都有,最高分与最低分相差19分分 1984年,高考作文评分调查,年,高考作文评分调查,438位老师,位老师,4篇作篇作文,。最高得分为文,。最高得分为41.25,最低分为,最低分为20.75,标准差为,标准差为2.98。 1985年,对年,对1984年的四篇作文再研究,年的四篇作文再研究,347位老师位老师(有部分年参加研究的老师),最高得分为(有部分年参加研究的老师),最高得分为42.5,最,最低分为低分为24.75,标准差为,标准差为3.3。 试题原因试题原因 评分者原因评分者原因专业知识水平不够专业知识水平不够评判能力不够评判能力不够个性倾向个性倾向心理状态心理状态 客观效应客观效应“

22、名片名片”、“光环光环”、“对比对比”、“先后先后” 环境、组织管理的原因环境、组织管理的原因 控制试题作答反应方向与范围控制试题作答反应方向与范围 预先制订好评分细则预先制订好评分细则 阅卷人员要选择、要培训阅卷人员要选择、要培训 流水作业流水作业 分因素评分分因素评分 组织复查组织复查 要求评分者自觉防止各种客观效应的影响要求评分者自觉防止各种客观效应的影响 大规模阅卷可考虑采用统计手段控制大规模阅卷可考虑采用统计手段控制估计信度的方法与测验复本的数目以及施测次数的关系所需要的所需要的施测次数施测次数 所需复本的数目一二一二 分半信度 同质性信度 评分者信度再测信度 复本信度(连续施测)

23、复本信度(间隔施测) 各种信度系数相应的误差来源各种信度系数相应的误差来源 误差变异的来源误差变异的来源 再测信度 时间取样 复本信度(连续施测) 内容取样 复本信度(间隔施测) 时间与内容取样 分半信度 内容取样 同质性信度 内容的异质性 评分者信度 评分者间的差异 一、分数分布范围 二、测验长度 三、测验的难度 四、间隔时间 误差变异越大,信度越低。除前面谈到的几种误差来源外,还有以下几个因素会影响信度系数的大小:一、被试样本(分数分布范围)一、被试样本(分数分布范围) (一)团体的异质性 信度系数受分数的分布范围(全距)的影响,而分数范围与被试团体的异质程度有关。一个团体越异质,其分数范

24、围越大,信度系数也就越高。相反,相对同质的团体分数则较为均匀。如图所示: 图中大方框显示的是一个较大的异质团体在两次施测中的分数分布,显然有很高的正相关.在小方框中显示的是一个高度同质的亚团体,两次分数几乎呈随机变化,相关接近于零。 (二)团体的平均水平 对于不同的团体,题目具有不同的难度。每个题目在难度上的微小差异积累起来便会影响信度。例如,同一量表对不同年龄,不同IQ水平的被试,信度则不尽相同。因此,我们在编制测验量表,抽选被试时,往往要考虑选取不同层次的被试,以使得测验团体呈异质性,从而使得信度提高。反之,当需要同质团体的信度时,就应该尽量选取同一层次的被试。 二、题目的数量二、题目的数

25、量 一般说来,在一个测验中增加同质的题目,可以使信度提高。即测验越长,信度越高。这是因为测验加长,加大了分数分布的范围,可能改进项目取样的代表性,从而能更好地反映受测者的真实水平。即测验的项目越多,在每个项目上的随机误差就可以互相抵消。 增加测验长度的效果可以用斯皮尔曼布朗的通式来计算: rkk=Krxx/1+(K-1)rxx 式中K为改变后的长度与原来长度之比,rxx为原测验的信度,rkk为测验长度是原来的K倍时的信度估计。一般来说,题目数量对相关系数的影响是递增的。如表所示:题目数量相关系数10 50 100 200 300 400 5000.50 0.83 0.91 0.95 0.968

26、 0.976 0.980 但增加测验长度的效果遵循报酬递减率,测验过长是得不偿失的,可以通过下式确定一个测验究竟要增长多少才能达到理想的信度水平: K= rkk(1-rxx)/rxx(1- rkk) 应注意一点,只有当新题目是与原题目选自同一总体,增长测验才能改进信度。三、测验难度三、测验难度 要使信度达到最高,能产生最广分数分布的难度水平方为合适。通常这个难度为0.5。洛德提出选择题的理想平均难度是:五选题0.70、四选题0.74、三选题0.77、是非题0.85。四、间隔时间四、间隔时间 间隔时间越短,信度系数越大;间隔时间越长,受外界影响越大,信度系数越小。1.1.信度是评价测验质量的重要

27、指标之一。信度是评价测验质量的重要指标之一。测验类型测验类型 信度系数信度系数 低低中中高高学业成就测验学业成就测验0.660.920.98学术能力测验学术能力测验0.560.900.97特殊能力倾向测验特殊能力倾向测验0.260.880.96人格测验人格测验0.460.850.97兴趣测验兴趣测验0.420.840.93态度测验态度测验0.470.790.98注:表中数据来源,Lewis R. Aiken: Psychological testing and assessment (eighth edition), Allyn and Bacon, Inc, 1994.2.2.信度是测量过程

28、中所存在的随机误差大小的反映。信度是测量过程中所存在的随机误差大小的反映。 例如,我们已知高考文科试卷的总信度例如,我们已知高考文科试卷的总信度rXX =0.965,文科,文科考生总分的标准差为考生总分的标准差为53.42,那么,文科考试成绩的标准误为:那么,文科考试成绩的标准误为:3.3.信度可以用来解释个人测验分数的意义信度可以用来解释个人测验分数的意义测量测量标准误。标准误。 如果某生的考试成绩为如果某生的考试成绩为495分,在置信度为分,在置信度为0.95时,其真时,其真分数的置信区间为:分数的置信区间为:4.4.信度可以帮助进行不同测验分数的比较。信度可以帮助进行不同测验分数的比较。差异分数的测量标准误可用如下公式求出:差异分数的测量标准误可用如下公

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论