版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、测量的信度与效度测量的信度与效度 本章提要:本章提要: 误差的概念与估计方法误差的概念与估计方法 信度的概念与估计方法信度的概念与估计方法 提高信度的方法提高信度的方法 效度及其与信度的关系效度及其与信度的关系 效度的种类与估计方法效度的种类与估计方法 提高效度的方法提高效度的方法 从“斯芬克斯之谜”说起 一种动物一种动物: 早晨四条腿,中午早晨四条腿,中午 两条腿,晚上三条腿走路;两条腿,晚上三条腿走路; 腿最多时最无能。腿最多时最无能。 n古希腊的德尔斐,传说中的太阳神阿波 罗的驻地,哲人塔列斯刻在太阳神圣殿 外的一句传世名言: “ !” “人啊,认识你自己!人啊,认识你自己!” 人啊,准
2、确地(accurately)认 识你自己! n准:一致准:一致 n确:正确确:正确 心理测量试图帮助我们准确了解人的心理心理测量试图帮助我们准确了解人的心理 现象(心理特质),就像尺子帮助我们测量身现象(心理特质),就像尺子帮助我们测量身 高高。 但这个工具是有但这个工具是有误差误差的。的。 为了准确地认识心理特质,误差要控制在一为了准确地认识心理特质,误差要控制在一 个许可的范围内。个许可的范围内。 一、误差的定义和种类 心理测量中所指的误差就是在测量 中与目的无关的变因与目的无关的变因所产生的不准确或 不一致的效应。 一是误差是由与测验目的无关的变因引起的; 二是误差存在于的测量结果中。
3、主要类型:系统误差、随机误差。 系统误差 是由与测验目的无关的因子所引起 的恒定的、系统的、有规律的变恒定的、系统的、有规律的变 化,存在于每次测量中化,存在于每次测量中,故又称常 定误差。 随机误差 是使用测量工具进行心理测量所造成 的误差,又称测量误差、观察误差、偶然 误差。它是由与测验目的无关的偶然因偶然因 素引起素引起,使得几次测量结果不一致,且 这种不一致是无系统的、随机的无系统的、随机的。 二、误差的来源二、误差的来源 n(一)测验内部引起的误差(一)测验内部引起的误差 n(二)由施测过程引起的误差(二)由施测过程引起的误差 n(三)由受测者本身引起的误差(三)由受测者本身引起的误
4、差 在心理测量中,常见的误差来源于三在心理测量中,常见的误差来源于三 个方面:测验内部、施测过程、受测者本个方面:测验内部、施测过程、受测者本 身。身。 (一)测验内部引起的误差(一)测验内部引起的误差 测验内部引起的误差主要来源于题目测验内部引起的误差主要来源于题目 取样:取样: 当测验题目较少或取样缺乏代表性当测验题目较少或取样缺乏代表性 时,被试的反应受机遇影响较大;时,被试的反应受机遇影响较大; 当几个测验复本不等值时,接受不当几个测验复本不等值时,接受不 同的题目,就会获得不同的分数;同的题目,就会获得不同的分数; 测验题目格式不妥;测验题目格式不妥; 测验的难度过高或过低;测验的难
5、度过高或过低; 测题或指导语用词不当;测题或指导语用词不当; 测验时限过短。测验时限过短。 (二)由施测过程引起的误差二)由施测过程引起的误差 三种误差来源中,此种误差可能是最三种误差来源中,此种误差可能是最 容易控制和检验的。与施测过程有关容易控制和检验的。与施测过程有关 的误差主要有以下几种:的误差主要有以下几种: 1.物理环境物理环境 施测现场的温度、光线、声音、桌施测现场的温度、光线、声音、桌 面好坏、空间阔窄等皆有影响。面好坏、空间阔窄等皆有影响。 2.主试者方面主试者方面 主试者的年龄、性别、外表,施测时的言谈举止、主试者的年龄、性别、外表,施测时的言谈举止、 表情动作等均能影响测
6、验结果。表情动作等均能影响测验结果。 3.意外干扰意外干扰 在测验环境复杂,特别是当受试人数较多时,容在测验环境复杂,特别是当受试人数较多时,容 易发生意外情况,这会导致测验成绩不准确。易发生意外情况,这会导致测验成绩不准确。 4.评分记分评分记分 评分不客观、计分、登记分数出错等也是常见的评分不客观、计分、登记分数出错等也是常见的 误差。误差。 (三)由受测者本身引起的误差(三)由受测者本身引起的误差 即使一个测验经过精心编制,题目取样具有即使一个测验经过精心编制,题目取样具有 代表性,又有标准化的施测程序,由于受测者代表性,又有标准化的施测程序,由于受测者 本身的变化,仍然会给测验分数带来
7、误差,这本身的变化,仍然会给测验分数带来误差,这 种误差是最难控制的。主要有以下几种:种误差是最难控制的。主要有以下几种: 1.应试动机应试动机 受测者对测验的动机不同,会影响其作答态受测者对测验的动机不同,会影响其作答态 度、注意力、持久性、反应速度等,从而影响度、注意力、持久性、反应速度等,从而影响 测验成绩。测验成绩。 2.测验焦虑测验焦虑 一般来说一般来说 ,适度的焦虑会使人的兴奋,适度的焦虑会使人的兴奋 性提高,注意力增强,提高反应速度,从性提高,注意力增强,提高反应速度,从 而对测验成绩产生积极的影响。过高的焦而对测验成绩产生积极的影响。过高的焦 虑却会使工作能力下降,注意分散,记
8、忆虑却会使工作能力下降,注意分散,记忆 中储存的东西不能提取,影响测验成绩。中储存的东西不能提取,影响测验成绩。 3.生理因素生理因素 生病、疲劳、失眠等生理因素会影响测生病、疲劳、失眠等生理因素会影响测 验成绩而带来误差验成绩而带来误差。 4.学习、发展和教育学习、发展和教育 由一般学习经验或发展变化所引起由一般学习经验或发展变化所引起 的测验分数上的差异,在大多情况下,的测验分数上的差异,在大多情况下, 只构成恒定误差,但有时也构成随机只构成恒定误差,但有时也构成随机 误差。误差。 5.测验经验测验经验 受测者对测验的经验也会影响测验受测者对测验的经验也会影响测验 成绩,对测验的程序和技能
9、熟悉程度成绩,对测验的程序和技能熟悉程度 不同,所得分数便不能直接比较。不同,所得分数便不能直接比较。 6.练习效应练习效应 任何一个测验在第二次应用时,都任何一个测验在第二次应用时,都 会有练习效应而使成绩提高。会有练习效应而使成绩提高。 7.反应方式反应方式 反应方式是指独立于测验内容的反反应方式是指独立于测验内容的反 应倾向。这种反应倾向也会影响测验应倾向。这种反应倾向也会影响测验 成绩。成绩。 三、真分数三、真分数 所谓真分数就是一个测量工具在测量没所谓真分数就是一个测量工具在测量没 有误差时,所得到的纯正值。有误差时,所得到的纯正值。 其操作定义是:经过无数次测量所得到的平其操作定义
10、是:经过无数次测量所得到的平 均值。均值。 真分数的定义表明,一个人在一个测验真分数的定义表明,一个人在一个测验 上所得的分数,即是它的真分数的函数,上所得的分数,即是它的真分数的函数, 也是测量误差的函数,用公式表示如下:也是测量误差的函数,用公式表示如下: X=T+E 这里这里 X为实得分数或观测分数,为实得分数或观测分数,T是假设的是假设的 真分数,真分数,E是测量误差。是测量误差。 需要说明的是,这里的测量误差(需要说明的是,这里的测量误差(E) 指的是引起测量不一致性的变因产生的效指的是引起测量不一致性的变因产生的效 应,即指随机误差,不包括系统误差,后应,即指随机误差,不包括系统误
11、差,后 者不引起分数的改变,因而包含在真值中。者不引起分数的改变,因而包含在真值中。 在公式中在公式中E可能是正的,也可能是负的。可能是正的,也可能是负的。 即一个人的实得分数可能大于真实量,也即一个人的实得分数可能大于真实量,也 可能小于真实量,总是围绕真值上下波动。可能小于真实量,总是围绕真值上下波动。 真分数理论的三个基本假设:真分数理论的三个基本假设: 误差分数的平均数是零(由于测误差分数的平均数是零(由于测 量误差具有随机性);量误差具有随机性); 误差分数与真分数相互独立,即误差分数与真分数相互独立,即 相关为零;相关为零; 两次测量的误差分数之间的相关两次测量的误差分数之间的相关
12、 为零。为零。 对于一个团体来说,实得分数、真分对于一个团体来说,实得分数、真分 数和测量误差之间有如下关系:数和测量误差之间有如下关系: SX 2 =ST2+SE2 即实得分数的变异数等于真分数的变异数即实得分数的变异数等于真分数的变异数 加上误差变异数。加上误差变异数。 公式公式(5.2) 只涉及随机误差的变异,系只涉及随机误差的变异,系 统误差的变异包含在真分数的变异中,统误差的变异包含在真分数的变异中, 即即 ST 2=S V2+SI2 公式中公式中S V2是与测量目的有关的(有效是与测量目的有关的(有效 的)变异数,的)变异数,SI2 是与测量目的无关但 是与测量目的无关但 却是稳定
13、的变异数。却是稳定的变异数。 可得公式:可得公式: S SX X 2 2= S= SV V2 2+S+SI I2 2+S+SE E2 2 这就是说,一组测验分数之间的变异性是这就是说,一组测验分数之间的变异性是 由与测量目的有关的变异数、稳定的但出自无关由与测量目的有关的变异数、稳定的但出自无关 来源的变异数和测量误差变异数所决定的。来源的变异数和测量误差变异数所决定的。 SV2 SI2 SE2 Sx2 ST2 第一节第一节 测量信度测量信度 一、什么是信度一、什么是信度 1. 1. 定义定义 信度(信度(reliability)是指测量结果的稳定性()是指测量结果的稳定性(stability
14、) 和可靠性程度。和可靠性程度。 一个好的测验必须稳定可靠,即多次测量结一个好的测验必须稳定可靠,即多次测量结 果要保持一致。果要保持一致。 2. 信度的测量学定义一信度的测量学定义一 信度系数信度系数 该定义有两点需要注意:该定义有两点需要注意: 第一、信度指的是一组测验分数或一第一、信度指的是一组测验分数或一 列测量的特性,而不是个人分数的特性;列测量的特性,而不是个人分数的特性; 第二第二 、真分数的变异数是不能直接测、真分数的变异数是不能直接测 量的,因此信度是一个理论上构想的概念,量的,因此信度是一个理论上构想的概念, 只能根据一组实得分数做出估计。只能根据一组实得分数做出估计。 信
15、度涉及的主要问题是对测验分数意信度涉及的主要问题是对测验分数意 义的概化能力,即从一次测量来推论总体义的概化能力,即从一次测量来推论总体 能达到何种正确程度。能达到何种正确程度。 3. 误差方差与信度的关系误差方差与信度的关系 n信度的范围信度的范围 : 0到到1.00 n信度不受系统误差影响,受随机误差影响信度不受系统误差影响,受随机误差影响 信度的定义二信度的定义二 n信度乃是一个被测团体真分数与实得分数的信度乃是一个被测团体真分数与实得分数的 相关系数的平方。相关系数的平方。 nr rXX XX=P =P2 2TX TX 信度的定义三信度的定义三 n信度乃是一个测验信度乃是一个测验X X
16、与它的任意一个与它的任意一个 平行测验平行测验X X的相关系数。的相关系数。 nr rXX XX=P =PXX XX A A卷:你是一个喜欢热闹的人吗?卷:你是一个喜欢热闹的人吗? 1=1=绝对是绝对是 2=2=是是 3=3=不一定不一定 4=4=不是不是 5=5=绝对不是绝对不是 B B卷:你是一个喜欢安静的人吗?卷:你是一个喜欢安静的人吗? 1=1=绝对是绝对是 2=2=是是 3=3=不一定不一定 4=4=不是不是 5=5=绝对不是绝对不是 对信度系数要注意三点:对信度系数要注意三点: 第一,在不同情况下,对不同样本,采用第一,在不同情况下,对不同样本,采用 不同方法会得到不同的信度系数,
17、因此一个不同方法会得到不同的信度系数,因此一个 测验可能不止一个信度系数;测验可能不止一个信度系数; 第二,信度系数只是对测量分数不一致程第二,信度系数只是对测量分数不一致程 度的估计,并没有指出不一致的原因;度的估计,并没有指出不一致的原因; 第三,获得较高的信度系数并不是心理测第三,获得较高的信度系数并不是心理测 量追求的最终目的,它只是迈向目标的一步,量追求的最终目的,它只是迈向目标的一步, 是使测验有效的一个必要条件。是使测验有效的一个必要条件。 信度系数要达到多高才可以接受呢?信度系数要达到多高才可以接受呢? 一般能力与学绩测验的信度系数在一般能力与学绩测验的信度系数在 0.90 0
18、.90 以上;以上; 人格测验的信度系数通常在人格测验的信度系数通常在0.80 0.80 以上。以上。 当当r rxx xx 0.700.70时,不能用测验对个人作时,不能用测验对个人作 评价,也不能在团体间作比较;评价,也不能在团体间作比较; 当当r rxx xx 0.70 0.70时,可用于团体间比较时,可用于团体间比较; ; 当当r rxx xx 0.85 0.85 时,可用于鉴别个人。时,可用于鉴别个人。 中臺科技大學李復惠編製 信度係數參考範圍信度係數參考範圍 信信 度度 係係 數數可可 信信 程程 度度 信度 0.30不可信 0.30 信度 0.40初步的研究,勉強可信 0.40
19、信度 0.50稍微可信 0.50 信度 0.70可信(最常見的信度範圍) 0.70 信度 0.90很可信(次常見的信度範圍) 0.90 信度十分可信 第三节第三节 信度的估计方法信度的估计方法 n一、重测信度一、重测信度 (一)定义与计算(一)定义与计算 (二)误差来源(二)误差来源 (三)计算重测信度的几个假设(三)计算重测信度的几个假设 (四)使用重测信度的优缺点(四)使用重测信度的优缺点 (五)注意事项(五)注意事项 n二、复本信度二、复本信度 (一)定义与计算(一)定义与计算 (二)误差来源(二)误差来源 (三)等值测验应符合的条件(三)等值测验应符合的条件 (四)注意事项(四)注意事
20、项 (五)使用复本信度的局限(五)使用复本信度的局限 n三、分半信度三、分半信度 (一)定义及计算(一)定义及计算 (二)分半的方法(二)分半的方法 (三)校正公式(三)校正公式 n四、同质性信度四、同质性信度 (一)定义(一)定义 (二)计算(二)计算 n五、评分者信度五、评分者信度 n六、几种信度估计方法的比较六、几种信度估计方法的比较 信度是一个理论上构想的概念,在信度是一个理论上构想的概念,在 实际应用时,通常以同一样本所得的实际应用时,通常以同一样本所得的 两组资料的相关,作为测量一致性的两组资料的相关,作为测量一致性的 指标。因为测验分数的误差来源不同,指标。因为测验分数的误差来源
21、不同, 估计信度的方法也不同,故每一种信估计信度的方法也不同,故每一种信 度系数只能说明信度的不同方面,因度系数只能说明信度的不同方面,因 而具有不同的意义。而具有不同的意义。 一、重测信度(一、重测信度(test-retest reliability) (一)定义与计算(一)定义与计算 定义定义 用同一种测验,对同一组受试者,前用同一种测验,对同一组受试者,前 后施测两次,再根据受试者两次测验分数后施测两次,再根据受试者两次测验分数 计算其相关系数,即得再测信度。计算其相关系数,即得再测信度。 即即测验测验时距(几分几年时距(几分几年) 再测验再测验 此种信度能表示两次测验结果有无变动,此种
22、信度能表示两次测验结果有无变动, 反映测验分数的稳定程度,故又称稳定性反映测验分数的稳定程度,故又称稳定性 系数。系数。 计算方法 计算使用皮尔逊积差相关公式的变式: rxx 式中、为同一被试的两个分数, 、为两次测验的标准差,为被 试人数。 2.重测信度使用的条件重测信度使用的条件 (1)所测量的心理特质必须是稳定的)所测量的心理特质必须是稳定的 (2)遗忘和练习的效果基本上相互抵消)遗忘和练习的效果基本上相互抵消 (3)在两次测试时间间隔内,被试在所要)在两次测试时间间隔内,被试在所要 测查的心理特质方面没有其他的学习和练测查的心理特质方面没有其他的学习和练 习习 3.计算重测信度应注意的
23、问题计算重测信度应注意的问题 (1)两次测验时间间隔要适当)两次测验时间间隔要适当 (2)应提高被试的积极性)应提高被试的积极性 (3)适宜于人格测验与速度测验,)适宜于人格测验与速度测验, 不适合于智力等难度测验不适合于智力等难度测验 时间间隔的把握时间间隔的把握 n间隔时间越长,稳定性系数越低。适宜时间间隔依照间隔时间越长,稳定性系数越低。适宜时间间隔依照 测验目的、性质及被试特点而定。几分钟至几年。测验目的、性质及被试特点而定。几分钟至几年。 n年幼儿童,间隔要小;年长群体,间隔可大。智力测年幼儿童,间隔要小;年长群体,间隔可大。智力测 验的间隔不能太短,成就测验的间隔不能太长。验的间隔
24、不能太短,成就测验的间隔不能太长。 n一般间隔时间不超过六个月。(即不能让被试记住上一般间隔时间不超过六个月。(即不能让被试记住上 一次测验的内容,又不能让其特质发生变化,或对所一次测验的内容,又不能让其特质发生变化,或对所 学知识产生遗忘)学知识产生遗忘) (二)误差来源 1. 测验本身:测验所测的特性本身 就不稳定,例如情绪。 2. 被试方面:成熟、知识的发展并 非人人都等量增长,且练习因素、记忆 效果也存在个体差异。 3. 施测情境:偶发因素的干扰,如 计时错误,情绪波动,健康状况,动机 变化等。 重测信度高,说明分数受被试状况和 测验情境变化影响小。这里题目取样并 不影响重测信度。 (
25、四)使用重测信度的优缺点 (优点)能提供有关测验结果 是否随时间而变异的资料,可作为预测 受测者将来行为的依据。 (缺点)容易受练习和记忆的 影响,前后两次施测间隔的长短必须适 度; 第一次尝试所发现的错误也可能导 致第二次反应的变化而增加误差变异。 二、复本信度(等值系数) (一)定义与计算 1. 定义 根据一组被试在两个平行(等值)测验 上的得分计算相关系数。 即 测验复份A 测验复份B 因为它反映的是两个测验之间的等值程 度,故又称等值系数。 最短时距 2. 计算方法 rxx = ABAB AB 式中A 、B为同一被试在两个测验复 份A、B上的分数,A 、B为A、B两 型测验的平均分数,
26、A 、B为A、B两 型测验的标准差,N为被试人数。 (二)误差来源 1. 测验两种形式是否等值: (1)测题取样是否匹配; (2)格式是否相同; (3)内容、题数、难度、平均数、 标准差是否一致。 2. 被试方面情绪波动、动机变化等。 3. 测验情境的变化,偶发因素的干扰。 (三)等值测验应符合的条件 等值测验可避免重测法的缺点,但所使 用的必须是真正的复本。复本应符合以下 条件: 1. 各份测验测量的是同一种心理特性; 2. 各份测验具有相同的内容和形式; 3. 各份测验的题目不应有重复的地方; 4. 各份测验题目数量相等,并且有大 体相等的难度、区分度; 5. 分数分布(平均数和差异度)大
27、致 相等。 (四)注意事项 1. 两个测验必须在项目的内容、 形式、数量、难易、时限、指导语等方 面相同或相似; 2. 两次测验的时间间隔要适当, 若太短,由于测验太相似被试可能厌倦, 若太长可能又会因新的学习而产生干扰。 (五)使用复本信度的局限 1. 只能减少但不能完全消除练习 和记忆的影响; 2. 由于第二个测验只改变了题目 的具体内容,已经掌握的解题原则,可 以很容易地迁移到同类问题。 3. 对许多测验来说,建立复本是 十分困难的。 三、分半信度 (一)定义和计算 在测验无复本且只能施测一次的情 况下,通常用分半法估计信度,即将测 题分成对等的两半,根据各人在这两半 测验的分数,用皮尔
28、逊积差相关公式计 算其相关系数,作为信度指标。 分半信度考察的是两半题目之间的 一致性,故这种信度系数也称内部一致 性系数。计算分半信度仍然可用积差相 关方法。 (二)分半的方法 要计算分半信度,首先是如何将测 验分半,以便得到最接近的可比较的两 半。通常采用奇偶分半法。使用此方法 应注意: 1一组解决同一问题或互相有牵连 的题目应尽量安排在同一半内。 2当试卷中有任选题时不宜使用分 半法,速度测验也不宜用。 (三)校正公式 分半法求得的相关仅是半个测验分数 相关,应使用“斯皮尔曼布朗”公式加 以校正,藉以估计整个测验的信度。 1.斯皮尔曼布朗公式 rxx=2rhh/(1+ rhh) 其中,r
29、hh为两半分数的相关系数, rxx为测验在原长度时的信度估计。 此法假设:两半测验分数的变异性相 等,但实际资料未必符合此假设。 当两半不等值时,即上述假设不满足 时,可采用下面两公式之一: 2弗朗那根公式: rxx=21-(Sa2+Sb2)/Sx2 其中Sa2和Sb2分别表示两半测验分数 的变异数,Sx2表示测验总分的变异数。 3卢伦公式: rxx=1- (Sd2/Sx2) 其中Sd2表示两半测验分数之差的变 异数,Sx2表示整个测验分数的变异数。 四、同质性信度 (一)同质性的含义 所谓同质性指的是测验内部题目的一 致性。 即测验里各题得分为正相关(测 验里各题得分相关为零叫异质)。 题目
30、内部的一致性主要受两方面变 异的影响: 1内容的一致性; 2所研究的行为的同质性。 (二)同质性信度的计算 1库德理查逊公式: (1)K-R20公式: rkk=K/(K-1)(Sx2-piqi )/ Sx2) 式中K表示整个测验的题数,pi为项 目通过率,qi为项目未通过率,Sx2表示 测验总分的变异数(方差)。 (2)K-R21公式,适用于各题难度相近的 情况: rkk=K/(K-1)( Sx2-K piqi)/ Sx2 pi为题目的平均通过率,qi为1-pi 。 K-R21公式计算较为简单,但求得的信度 系数有低估的倾向,当题目难度相差大时 偏差更大。公式K-R20和K-R21只适用于0,
31、 1记分的测验。 2克伦巴赫系数 适用于非0,1记分的一种内在一致 性系数。其公式如下: =K/(K-1)1-(Si2/ Sx2) 其中Si2为每一项目分数的变异数,其 他字母意义与K-R20相同。 上面这些公式均不适用于速度测验, 因为只有每个人都做完全部题目时,题 目的变异数才是准确的。 五评分者信度 考察评分者信度的方法是:随机抽 取相当份数的试卷,由两位或多位评分 者按记分规则分别给分,然后根据每份 试卷的分数计算其相关系数,即得评分 者信度。 一般要求在成对的受过训练的评分 者之间平均一致性达到0.90以上,才认 为评分是客观的。 当多个评分者评多个对象,并以等级 法记分时,可用肯德
32、尔和谐系数作为评分 者信度的估计: W=Rt2-(Ri)2/N/(1/12)K2(N3-N) 其中,K是评分者人数,N是被评的对 象数,Rt是每一个对象被评等级的总和。 六、几种信度估计方法的总结比较 估计信度的方法与测验复本的数目以及 施测次数的关系 所需要的所需要的 施测次数施测次数 所需复本的数目 一二 一 二 分半信度 同质性信度 评分者信度 再测信度 复本信度 (连续施测) 复本信度 (间隔施测) 各种信度系数相应的误差来源 信度系数的类型 误差变异的来源 再测信度 时间取样 复本信度(连续施测) 内容取样 复本信度(间隔施测) 时间与内容取样 分半信度 内容取样 同质性信度 内容的
33、异质性 评分者信度 评分者间的差异 随堂练习 1. 假设有一份主观幸福感调查表, 先后两次施测于10名学生,时间间隔为 半年,结果如表所示,求该测验的重测 信度。 测 验 X1 16 15 13 13 11 10 10 9 8 7 X2 16 16 14 12 11 9 11 8 6 7 被 试 1 2 3 4 5 6 7 8 9 10 2. 假设用A、B两型创造力复本测验 对初中一年级10个学生施测。结果如表 所示,X1 ,X2 分别代表A、B两型测验。 求该测验的复本信度。 测 验 被 试 1 2 3 4 5 6 7 8 9 10 X1 20 19 19 18 17 16 14 13 12
34、 10 X2 20 20 18 16 15 17 12 11 13 9 3. 假设有三位专家给六篇论文评等 级,结果如表所示,试计算此次评分的 评分者信度。 三位专家给6篇论文的评定 专家 1 2 3 4 5 6 1 2 4 1 5 6 2 2 3 4 1 5 5 2 3 3 4 1 4 6 2 第四节 影响信度的因素 n一、分数分布范围 n二、测验长度 n三、测验的难度 n四、间隔时间 误差变异越大,信度越低。除前面谈 到的几种误差来源外,还有以下几个因素 会影响信度系数的大小: 一、被试样本(分数分布范围) (一)团体的异质性 信度系数受分数的分布范围(全距) 的影响,而分数范围与被试团体
35、的异质程 度有关。一个团体越异质,其分数范围越 大,信度系数也就越高。相反,相对同质 的团体分数则较为均匀。如图所示: 图中大方框显示的是一个较大的异质 团体在两次施测中的分数分布,显然有很 高的正相关.在小方框中显示的是一个高 度同质的亚团体,两次分数几乎呈随机变 化,相关接近于零. (二)团体的平均水平 对于不同的团体,题目具有不同的 难度。每个题目在难度上的微小差异积 累起来便会影响信度。例如,同一量表 对不同年龄,不同IQ水平的被试,信度 则不尽相同。因此,我们在编制测验量 表,抽选被试时,往往要考虑选取不同 层次的被试,以使得测验团体呈异质性, 从而使得信度提高。反之,当需要同质 团
36、体的信度时,就应该尽量选取同一层 次的被试。 二题目的数量 一般说来,在一个测验中增加同质 的题目,可以使信度提高。即测验越长, 信度越高。这是因为测验加长,加大了 分数分布的范围,可能改进项目取样的 代表性,从而能更好地反映受测者的真 实水平。即测验的项目越多,在每个项 目上的随机误差就可以互相抵消。 增加测验长度的效果可以用斯皮尔曼 布朗的通式来计算: rkk=Krxx/1+(K-1)rxx 式中K为改变后的长度与原来长度之比, rxx为原测验的信度,rkk为测验长度是原来 的K倍时的信度估计。一般来说,题目数量 对相关系数的影响是递增的。如表所示: 题目 数量 相关 系数 50 100
37、200 300 400 500 0.50 0.83 0.91 0.95 0.968 0.976 0.980 但增加测验长度的效果遵循报酬递 减率,测验过长是得不偿失的,可以通 过下式确定一个测验究竟要增长多少才 能达到理想的信度水平: K= rkk(1-rxx)/rxx(1- rkk) 应注意一点,只有当新题目是与原 题目选自同一总体,增长测验才能改进 信度。 第五节 测量的标准误差 一、测量的标准误差 个人在两次测验中的分数差异就是 测量误差,据此可制成误差分数的分布。 这个测量误差分布的标准差就是测量的 标准误(SE ),是表示测量误差大小的 指标。 测量标准误可以通过一次测验结果 及信度
38、估计得到,公式如下: SE = Sx1rxx 式中,SE为测量标准误,Sx 为所得分数 的标准差,rxx 为测验的信度。 从信度可以解释个人分数的意义,这 就是测量标准误的应用。它有两个作用: 其一是估计真分数的范围;其二是了解实 得分数再测时可能的变化情况。在实际中, 我们往往用一组被试施测两次的结果来代 替对同一个人反复施测,以估计误差变异 数。 测量的标准误与信度之间有互为消长的 关系:信度越高,标准误越小;信度越低, 标准误越大。根据公式,知道了一组测量 的标准差和信度系数,就可以求出测量的 标准误,进一步我们就可以从每个人的实 得分数估计出真分数的可能范围,即确定 出在不同置信水平上
39、真分数的置信区间。 (人们一般采用95%的置信水平,其置信区 间为:X1.96SE TX1.96SE) 可见,测量的标准误差可以用来估计个人的真 分数。 例如,已知WISCR的标准差为15,信度系数为 0.95,对一名12岁的儿童实施该测验后,IQ(即X) 为110,那么他的真分数在95%的可靠度要求下,变 动范围应是多大? 解:SE = Sx1 rxx SE = Sx1rxx = 1510.95 = 3.35 已知 X=110 将其代入X1.96 SETX1.96 SE中,则 110 1.963.35 T 110+1.963.35 即 103.4 T 116.6 练习: 在WISCR中,甲生
40、在测验中得到78分,乙 生得了81分,那么乙生比甲生的成绩高吗? (注意事项) 第一、SE 对真分数作的是区间估 计,不可能由此得到一个确切的点。这 就说明,测验分数不是一个定点,而是 具有一定的分布范围,或呈带状。这样 就不会对两次测验之间微小的差别作过 分的解释。 第二、置信水平确定后,估计的精确 度主要取决于SE ,SE越小,估计就越精确, 相反则越粗略。 第三、真分数不等同于真正能力或特 质。当系统误差对实测分数产生影响时, 用此方法估计出的真分数就并非代表被试 的真正能力或特质。 二、直接估计标准误差 用复份法和重测法估计标准误差时, 可以采用公式 SE = 0.707SX1-X2
41、SX1-X2是两次测验分数差异的标准 差。 随堂练习 1. 假设有一个包括 10个题目的 测验,信度为0.50,若把测验增加 到50个题目,其信度将增加到多少? 2. 一个包含50个题目的测验信 度为0.75,欲将信度提高到0.90,需 要增加多少题目? 本章小结本章小结 v信度又叫可靠性。指的是测量的一致性程 度。一个好的测验必须稳定可靠,即多次 测量结果要保持一致。 v在测量理论中,信度被定义为:一组测验 分数的真变异数与总变异数(实得变异数) 的比率。 v大部分的信度指标都以相关系数表示,即 用同一被试样本所得的两组资料的相关作 为测量一致性的指标。 v信度是个理论上构想的概念,在实际应
42、 用时,通常以同一样本所得的两组资料 的相关,作为测量一致性的指标。因为 测验分数的误差来源不同,估计信度的 方法也不同。 v信度与误差变异之间有密切的关系。误 差变异越大,信度越低。 v被试样本、测验长度、测验难度及间隔 时间都会影响信度的估计。 (二)复本信度(二)复本信度(Parallel-forms reliability ,等值性,等值性 系数)系数) 1.含义与计算含义与计算 是指两个平行测验测量同一批被试所得结果的一致程是指两个平行测验测量同一批被试所得结果的一致程 度,其大小等于同一组被试在两个复本测验上所得分度,其大小等于同一组被试在两个复本测验上所得分 数的积差相关系数。计
43、算公式同重测信度。数的积差相关系数。计算公式同重测信度。 两个复本测验实施的时间不同,复本信度两个复本测验实施的时间不同,复本信度 所表达的含义略有不同。所表达的含义略有不同。 (1)等值性系数)等值性系数 如果两个复本测验是同时连续测试的,则如果两个复本测验是同时连续测试的,则 称这种复本信度为等值性系数。等值性系称这种复本信度为等值性系数。等值性系 数的大小主要反映着两个复本测验的题目数的大小主要反映着两个复本测验的题目 差别带来的变异情况差别带来的变异情况。 ()稳定性与等值性系数()稳定性与等值性系数 如果两个复本测验是相距一段时间分两如果两个复本测验是相距一段时间分两 次测试,则称这
44、种复本信度为稳定性与次测试,则称这种复本信度为稳定性与 等值性系数。此时两个题目间的差别、等值性系数。此时两个题目间的差别、 两次施测情境、被试特质水平等方面的两次施测情境、被试特质水平等方面的 差别都会成为测验结果不一致的原因。差别都会成为测验结果不一致的原因。 2. 复本信度使用的条件复本信度使用的条件 (1)两个测验必须在项目的内容、形式、数)两个测验必须在项目的内容、形式、数 量、难易、时限、指导语等方面相同或相似。量、难易、时限、指导语等方面相同或相似。 (2)两次测验的时间间隔要适当。)两次测验的时间间隔要适当。 局限:局限: (1)复本法只能减少而不能排除练习和记忆)复本法只能减
45、少而不能排除练习和记忆 效应。效应。 (2)对于许多测验来说要建立复本是非常困)对于许多测验来说要建立复本是非常困 难的。难的。 n内部一致性系数(coefficient of internal consistency) 将测验项目分成不同的样本,从而间接考虑信度。 (三)分半信度(三)分半信度(Split-half reliability) 1.含义与计算含义与计算 是指将一个测验分成对等的两半后,所有被试在这两半上是指将一个测验分成对等的两半后,所有被试在这两半上 得分的一致性。得分的一致性。 分半信度信度与等值性系数的解释一样,即可以把对等的分半信度信度与等值性系数的解释一样,即可以把对
46、等的 两半测验看成是最短时距内施测的两个平行测验。分半信两半测验看成是最短时距内施测的两个平行测验。分半信 度描述的是两半题目间的一致性,所以也叫内部一致性系度描述的是两半题目间的一致性,所以也叫内部一致性系 数。数。 注意题目分半的方法:按题号奇偶性分半、按注意题目分半的方法:按题号奇偶性分半、按 题目难度分半、按题目内容分半等。题目难度分半、按题目内容分半等。 计算方法与复本信度类似,但被试在两半测验计算方法与复本信度类似,但被试在两半测验 上得分的相关系数只是半个测验的信度,所以上得分的相关系数只是半个测验的信度,所以 必须用斯皮尔曼必须用斯皮尔曼布朗公式加以校正:布朗公式加以校正: 2
47、.使用的前提条件和范围使用的前提条件和范围 分半信度通常是在只能施测一次或没有复本的情分半信度通常是在只能施测一次或没有复本的情 况下使用。其中使用斯皮尔曼况下使用。其中使用斯皮尔曼布朗公式时要求布朗公式时要求 全体被试在两半测验分数的变异数相等。当测验全体被试在两半测验分数的变异数相等。当测验 无法分成对等的两半时,无法使用。无法分成对等的两半时,无法使用。 (四)同质性信度(四)同质性信度(Homogeneity reliability) 1.含义含义 同质性信度也叫内部一致性系数,它是测验内部所有题同质性信度也叫内部一致性系数,它是测验内部所有题 目间的一致性程度。这里的一致性有两种含义
48、:一是所目间的一致性程度。这里的一致性有两种含义:一是所 有题目都测的是同一种心理特质,二是所有题目得分之有题目都测的是同一种心理特质,二是所有题目得分之 间都具有较高的正相关。同质性信度就是一个测验所测间都具有较高的正相关。同质性信度就是一个测验所测 内容或特质的相同程度。内容或特质的相同程度。 实际上实际上系数是所有可能分半信度的平均值,系数是所有可能分半信度的平均值, 但它是测验信度的一个下界值,即但它是测验信度的一个下界值,即系数值大,系数值大, 测量信度必然高,但测量信度必然高,但系数值小,却不能判断系数值小,却不能判断 测量信度不高。测量信度不高。 例题:某态度量表共道题目,例题:
49、某态度量表共道题目,100个被试在各个被试在各 题上得分的方差分别是题上得分的方差分别是0.81, 0.82, 0.80, 0.86, 0.88, 0.79, 0.89,测验总分的方差是测验总分的方差是26.00,计算该测量的计算该测量的 信度。信度。 (五)评分者信度(五)评分者信度(Scorer reliability) 1.含义与计算含义与计算 评分者信度指的是多个评分者给同一批人的答评分者信度指的是多个评分者给同一批人的答 卷进行评分的一致性程度。对于主观试题,不卷进行评分的一致性程度。对于主观试题,不 同的评分者给出的分数是不等的,这样会造成同的评分者给出的分数是不等的,这样会造成
50、误差,如何降低评分者信度是心理测量的重要误差,如何降低评分者信度是心理测量的重要 任务之一。任务之一。 当评分者人数为当评分者人数为2时,评分者信度等于两个评时,评分者信度等于两个评 分者给同一批被试答卷所给分数的相关系数。分者给同一批被试答卷所给分数的相关系数。 如果是多个评分者,评分者信度采用肯德尔和如果是多个评分者,评分者信度采用肯德尔和 谐系数进行估计。谐系数进行估计。 三、信度的作用三、信度的作用 (一)评价测验(一)评价测验 信度是测量过程中所存在的随机误差大小的反映。信度低,信度是测量过程中所存在的随机误差大小的反映。信度低, 测量随机误差大,测量结果就会与真分数发生较大偏离。测
51、量随机误差大,测量结果就会与真分数发生较大偏离。 信度是衡量一个测验好坏的重要指标之一,测验的信度达信度是衡量一个测验好坏的重要指标之一,测验的信度达 到多少才可以接受呢?一般来讲,能力与成就测验的信度到多少才可以接受呢?一般来讲,能力与成就测验的信度 应该在应该在0.90以上,人格测量信度系数应该在以上,人格测量信度系数应该在0.80 以上。以上。 测量中的系统误差与信度无关。测量中的系统误差与信度无关。 (二)解释分数(二)解释分数 1. 解释个人测验分数的意义解释个人测验分数的意义 从理论上讲,一个人的真分数本来是用同一测验对他反复从理论上讲,一个人的真分数本来是用同一测验对他反复 施测
52、所得的平均值,其误差则是这些实测值的标准差。但施测所得的平均值,其误差则是这些实测值的标准差。但 实际上,这是做不到的。实际的做法是用一个团体(人数实际上,这是做不到的。实际的做法是用一个团体(人数 足够多)两次施测得结果来代替对同一个人的反复施测,足够多)两次施测得结果来代替对同一个人的反复施测, 以估计测量误差的变异数。以估计测量误差的变异数。 此时每个人两次测量的分数之差构成一个新的分此时每个人两次测量的分数之差构成一个新的分 布,这个分布的标准差就是测量的标准误,它是布,这个分布的标准差就是测量的标准误,它是 此次测量中误差大小的客观指标,有了这一指标,此次测量中误差大小的客观指标,有
53、了这一指标, 就可以对团体中任何一个人的测验成绩做出恰当就可以对团体中任何一个人的测验成绩做出恰当 的解释。的解释。 2不同测验分数的比较不同测验分数的比较 四、影响测量信度的主要因素四、影响测量信度的主要因素 测量信度是测量过程中随机误差大小的反映,随测量信度是测量过程中随机误差大小的反映,随 机误差大,信度就低,随机误差小,信度就高。机误差大,信度就低,随机误差小,信度就高。 因此,在测量过程中凡是能引起测量随机误差的因此,在测量过程中凡是能引起测量随机误差的 因素都会影响测量信度。影响信度的几种主要因因素都会影响测量信度。影响信度的几种主要因 素为:素为: (一)被试方面(一)被试方面
54、就单个被试而言,其身心健康状况、应试动机、就单个被试而言,其身心健康状况、应试动机、 注意水平、作答态度等会影响测量信度。注意水平、作答态度等会影响测量信度。 就团体而言,团体的异质程度与分数的分布密切就团体而言,团体的异质程度与分数的分布密切 相关,一个团体越是异质,其分数分布范围越大,相关,一个团体越是异质,其分数分布范围越大, 计算出来的信度系数值越高,这样会高估真正的计算出来的信度系数值越高,这样会高估真正的 信度值。当团体内部水平相差不大(同质)时,信度值。当团体内部水平相差不大(同质)时, 其得分分布必然会狭窄,以相关为基础计算出来其得分分布必然会狭窄,以相关为基础计算出来 的信度
55、值必然小,可能会低估真正的信度值。此的信度值必然小,可能会低估真正的信度值。此 外若团体的平均数太高或太低,同样使测验的总外若团体的平均数太高或太低,同样使测验的总 分分布变窄,低估测验的真正信度。分分布变窄,低估测验的真正信度。 (二)主试者方面(二)主试者方面 就主试者而言,若不按指导手册中的规定施测,就主试者而言,若不按指导手册中的规定施测, 或故意制造紧张气氛,或给考生一定的暗示、协或故意制造紧张气氛,或给考生一定的暗示、协 助等,测量信度会大大降低。助等,测量信度会大大降低。 就阅卷评分者而言,若评分标准掌握不一,或前就阅卷评分者而言,若评分标准掌握不一,或前 后标准不统一,甚至随心
56、所欲,则也会降低测量后标准不统一,甚至随心所欲,则也会降低测量 信度。信度。 n(三)施测情境方面(三)施测情境方面 n实施测验时,环境是否安静,光线和通风状况是实施测验时,环境是否安静,光线和通风状况是 否良好,所需设备是否齐全,桌面是否合乎要求否良好,所需设备是否齐全,桌面是否合乎要求 等都可能影响到测量信度。等都可能影响到测量信度。 (四)测量工具方面(四)测量工具方面 测量的取样、测验的长度、难度等是影响测量信度的主要测量的取样、测验的长度、难度等是影响测量信度的主要 因素或关键因素。因素或关键因素。 一般来说,测验越长,信度值越高。这是因为:一般来说,测验越长,信度值越高。这是因为:
57、 测验加长,能够改进项目取样的代表性,从而能够更好地测验加长,能够改进项目取样的代表性,从而能够更好地 反映受测者的真实水平。测验的项目越多,每个项目上得反映受测者的真实水平。测验的项目越多,每个项目上得 随机误差会相互抵消。测验太难或太容易,都会降低测验随机误差会相互抵消。测验太难或太容易,都会降低测验 的信度。的信度。 (五)两次施测之间的时间间隔(五)两次施测之间的时间间隔 计算重测信度、稳定性与等值性系数时,两计算重测信度、稳定性与等值性系数时,两 次测验相隔时间越短,其信度值可能会越大;次测验相隔时间越短,其信度值可能会越大; 两次测验相隔时间越长,其信度值可能会越两次测验相隔时间越
58、长,其信度值可能会越 小。小。 五、提高测量信度的常用方法五、提高测量信度的常用方法 (一)适当增加测验的长度(一)适当增加测验的长度 增加新项目必须与原试卷中的所有项目同质,新增项目必须适度。增加新项目必须与原试卷中的所有项目同质,新增项目必须适度。 (二)使测验中题目的难度接近正态分布,并控制在中等难度(二)使测验中题目的难度接近正态分布,并控制在中等难度 (三)努力提高测验试题的区分度(三)努力提高测验试题的区分度 (四)选取适当的被试团体(四)选取适当的被试团体 (五)主试者严格按照要求去做(五)主试者严格按照要求去做 考研对其的要求 n测量误差的定义; n测量误差的来源及控制; n测
59、量误差的估计。 n信度的定义 n信度系数的估计; n信度的影响因素与改进。 n信度与效度的关系。 第二节第二节 测量效度测量效度 n一、什么是效度(一、什么是效度(validityvalidity) n(一)效度的概念(一)效度的概念 n效度是指一个测验或量表实际能测出其所要测的心理特质效度是指一个测验或量表实际能测出其所要测的心理特质 的程度。或者说实测结果与所要测查的结果的吻合或一致的程度。或者说实测结果与所要测查的结果的吻合或一致 程度。程度。 n例如:一个小学数学测验的成绩若同时受到数学能力和例如:一个小学数学测验的成绩若同时受到数学能力和 语文能力(读懂题意的能力)的影响,测试结果成
60、绩低,语文能力(读懂题意的能力)的影响,测试结果成绩低, 就不能认为实际所要测的数学能力这一心理特质水平不就不能认为实际所要测的数学能力这一心理特质水平不 高。高。 n关于效度应该注意以下几个方面:关于效度应该注意以下几个方面: n1. 效度是一个相对的概念,其相对性表现在:效度是一个相对的概念,其相对性表现在: n(1)效度是相对于测量目的而言的。一个测验或量表是)效度是相对于测量目的而言的。一个测验或量表是 否有效主要看它是否达到了测量的目的。否有效主要看它是否达到了测量的目的。 n(2)心理特质是比较隐蔽的特性,心理测量不可能百分)心理特质是比较隐蔽的特性,心理测量不可能百分 之百的准确
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 艾灸疗法的护理要点与操作规范
- 吉林省长春市第104中学2025-2026学年初三第五次月考数学试题文试题含解析
- 辽宁省营口市大石桥市石佛中学2026届初三物理试题(新课标)第二轮复习测试卷含解析
- 江苏省南通市第一中学2026年初三下学期第二次阶段考试数学试题含解析
- 正德职业技术学院《高等物理有机化学》2024-2025学年第二学期期末试卷
- 四川宜宾县横江片区2025-2026学年初三下学期期末质量检测试题(一模)数学试题含解析
- 陕西省西安市周至县重点达标名校2026届中考预测卷(全国Ⅱ卷)数学试题试卷含解析
- 护理质量控制与跨学科合作
- 脊椎骨折的预防措施与健康教育
- 智研咨询发布-2026年中国太阳能熔盐行业市场运行态势及发展趋势预测报告
- 消防酒店应急预案
- 2025及未来5年中国高压真空开关市场调查、数据监测研究报告
- 公墓管理员岗位操作规程考核试卷及答案
- 水利建设项目“六项机制”建设制度汇编
- 内蒙古房屋市政工程施工现场安全资料管理规程
- 钢结构构件运输与吊装方案
- 月嫂岗前培训课件班
- 旋挖钻孔灌注桩全护筒跟进施工工艺主要施工方法及技术措施
- 第四单元应用文写作《说明书》(教学设计)-【中职专用】高二语文上(高教版2023职业模块)
- 急救中心建设标准
- 矿安益学习题库
评论
0/150
提交评论