第四章测量信度与随机误差控制_第1页
第四章测量信度与随机误差控制_第2页
第四章测量信度与随机误差控制_第3页
第四章测量信度与随机误差控制_第4页
第四章测量信度与随机误差控制_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章 测量信度与随机误差控制* 1学习目标:1.什么是信度 ?信度与测量随机误差的关系?2.信度的统计定义?3.描述信度的指标有哪些?4.分析测验信度应注意哪些问题?5.信度的标准与作用?6.经典测量理论信度系数的估计方法。7.提高测量信度的主要方法有哪些?Date 2第一节 信度概述Date 3一、信度与测量误差1.经典测量理论的假设式中, X为观察分数, T为一般真分数, E为随机误差分数, V为目标真分数, I为非目标真分数(系统误 差)。 第一节 信度的概述Date 42.信度的定义测量追求的初步目标: T占 X的比例越大越好。测量追求的终极目标: V占 X的比例越大越好。第一节 信度的概述Date 5当 T占 X的比例很大时,那么测值就会是稳定的。一般来说,稳定的测值是可靠的、可信的,因此,信度可被认为是测量结果的稳定性程度。Date 62.信度的定义第一节 信度的概述信度( reliability)是指在不同时间,使用同一测验,或者使用两个不同项目的等值测验,或在其他不同的测试条件下,对同一组被试实施两次或多次测试所得分数的一致性。Date 7v测验信度表示测验分数中个体差异可归因于所测特质中 “真实 ”差异的程度,以及可归因于随机误差的程度。Date 8二、信度的统计定义1.经典测量理论假设的推论第一节 信度的概述Date 92.信度的统计定义定义 1:信度是被试团体真分数方差与实得分数方差之比定义 2:信度是被试团体真分数与实得分数相关系数的平方定义 3:信度是一个测验 X( A卷)与它的任意一个平行测验(B卷)的相关系数第一节 信度的概述Date 10三、描述信度的指标1.经典测量理论的信度系数 信度系数是表示测量结果的稳定性程度的指标。记为:第一节 信度的概述信度系数的值域: 0,1没有百分之百可靠的测量,因此, rXX=1只是理论上的值,实际当中是不会存在的。? 相关系数的值域是 -1,+1 ,信度系数的值域:0,1,为什么?Date 11四、信度的作用2.信度是测量过程中所存在的随机误差大小的反映。第一节 信度的概述例如,我们已知高考文科试卷的总信度 rXX =0.965,文科考生总分的标准差为53.42,那么,文科考试成绩的标准误为:3.信度可以用来解释个人测验分数的意义 测量标准误。如果某生的考试成绩为 495分,在置信度为 0.95时,其真分数的置信区间为:Date 124.信度可以帮助进行不同测验分数的比较。第一节 信度的概述考察两个分数的差异是否可靠,是否真有差异的问题。比如,某人的物理成绩是否真的优于化学?某人的数学技能本学期是否真有进步?某人在韦氏智力量表上操作智商与言语智商的差异是否真有显著意义等。 Date 13第一节 信度的概述差异分数的测量标准误可用如下公式求出:式中, SEdiff是差异分数的测量标准误; rXX和 rYY是两个测验各自的信度系数; SD是两测验间使用的相同的标准差。在比较分数之前,必须将两个测验分数转为具有相同量表的标准分数 。Date 14第一节 信度的概述例如,在韦氏成人智力量表中,言语和操作分测验的信度为 0.97和 0.93,而它们的智商的平均数为 100,标准差为 15,故言语和操作智商差数的标准误为:因为 4.741.96 9.29,因此,言语和操作智商相差 10分时,在 0.05水平上,我们说存在显著差异。若要在 0.01水平上作出差异显著的结论,就要相差 13分。测验分数的比较与平均数差异显著性检验是一回事吗?Date 15研究下下节课继续Date 16第二节 信度的种类与评估方法详细介绍第一节中提出的各种信度估计方法的计算。Date 17一、重测信度1.含义 同一个测量工具在两个不同时间对同一组被试施测所得结果的一致性程度。 重测信度主要考察了一个测量工具是否能够保证在不同时间测量结果的一致性,他反映了测量工具的结果受到时间间隔因素影响的大小。 一般来说,重测的时间间隔越短,那么各种施测情境的变化就越小,重测信度系数就会越大。 重测信度系数较大时,说明该测量工具前、后两次的测量结果比较一致。结果具有较好的跨时间上的稳定性。第二节 测验信度的种类与评估方法Date 18一、重测信度2.评估方法重测信度的大小可以通过计算测量工具的重测系数(test-retest coefficient)或叫稳定性系数( coefficient of stability)来标志。具体来说,就是求取同一组被试在两个不同时间施测同一个测量工具所得结果分数的相关系数。第二节 测验信度的种类与评估方法Date 19一、重测信度3.应用条件测量工具所测量的个体心理特质在时间上应该是相对稳定的。测量工具所测量的个体心理特质应该不存在明显的练习效应和遗忘效应。在两次施测间隔期间不应该进行专门的训练和培训,以保证重测信度反映的是随机因素的影响效应。第二节 测验信度的种类与评估方法Date 20一、重测信度4.使用重测信度时需要注意的问题两次施测时间间隔的长短会影响重测信度系数估计值的大小,因此,在报告重测信度系数时应该报告间隔的时间长度。应该根据已有的相关研究结论考虑所测心理特质本身的稳定性程度,以确定前后两次施测时间的间隔究竟应该多长比较合适时,不应该随便选择间隔时间的长短。第二节 测验信度的种类与评估方法Date 21练习题v10名学生前后 2次参加某心理测验,分数如下,假设总体符合正态分布,计算该测验信度Date 22被试1 2 3 4 5 6 7 8 9 10第一次76 50 80 6590 48 5581 32 76第二次80 53 90 7886 70 4876 30 55Date 23答案v0.789Date 24二、复本信度1.含义 两个平行的测验(复本测验)测量同一批被试所得结果的一致性程度。 复本信度反映了由于题目的不同以及时间间隔所导致的测量误差。 平行测验或复本测验指的是两个在题目内容、数量、形式、难度、区分度、指导语、时限以及所用的例题、公式和测验等其他方面都相同或相似的测验。也就是用不同的题目测量同样的内容而且其测验结果的平均值和标准差都相同的两个测验。第二节 测验信度的种类与评估方法Date 25二、复本信度2.评估方法 复本信度的估计过程就是计算同一批被试在两个平行的复本测验上所得分数的相关系数,也叫作等值系数( coefficient of equivalence)。 测试设计:同时测试和延时测试。 同时测试是在同一个时间段内进行测试,而延时测试则是在两个时间段进行测试,同时测试可能会存在作答疲劳的效应,而延时测试则可能会存在学习或培训效应。又称稳定性等值系数第二节 测验信度的种类与评估方法Date 26二、复本信度3.应用条件要构造出两份或两份以上真正平行的测验 ;计算复本信度需要对同一批被试测试两份平行测验,这就需要掌握一个合理的时间安排。应该尽量在测试结果报告中,详尽地说明两次测试的时间间隔、测试顺序安排、测试过程中被试的有关测验经历等。第二节 测验信度的种类与评估方法Date 27三、内部一致性信度1.含义内部一致性信度主要评价了测验各随机组成部分之间是否测量了相同的心理特质,因此,它反映的是题目内容的抽样一致性程度。 具体估计方法主要包括分半信度评估法、库德 -理查森信度评估法、克龙巴赫 Alpha系数评估法。 与重测信度和复本信度不同,在估计测验的内部一致性信度时,只要用同一个测验对一批被试测试一次。第二节 测验信度的种类与评估方法Date 28三、内部一致性信度2.分半信度含义我们总是可以把一个测验的所有题目随机地划分成对半的两个部分,然后估计所有被试在这两个部分题目上得分的一致性程度,这样得到的测验一致性估计称为分半信度。分半信度评价了测验两个随机组成部分的题目是否测量了相同的心理特质。第二节 测验信度的种类与

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论