版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章教育测量的质量指标1(信度)主要内容教育测量与评价的信度教育测量与评价的效度教育测量与评价中题目(项目)的难度教育测量与评价中题目(项目)的区分度2第一节信度一、信度的意义二、信度的统计定义三、信度系数的类型与估计方法四、提高信度的方法3一、信度的意义信度(reliability)测量结果的稳定性和可靠的程度是对测验工具及其操作的整体质量的一中量度,是测验性能的重要质量指标。记为rxx4一、信度的意义1.信度是任何一种测量的必要条件。因为教育测量的对象主要是精神现象,所测量的特性不易把握,为了能真实地反应测验对象的某种特点,需要更加注意测量的信度,从而正确地判断测量结果的价值。2.信度高的教育测量,能给教师和教育工作的领导者提供可靠的信息,为他们的教育预测和决策提供依据。3.信度高的教育测量,能使教师对学生的评价变得客观和可靠,也使学生对自己的认识更符合实际情况,从而有助于改进教与学的方法。4.信度高的教育测量,有助于提高教师的工作效率。5一、信度的统计定义x=T+E(公式1-1)(X:观察分数,T:真分数(未知的,可将多次测量的实测值的平均值作为真值的近似值),E:误差)1、试比较以下两次测量结果(只进行一次)的信度:用尺子量100cm高的一个儿童,得到1cm的绝对误差;量185cm高的一位运动员,也得得到1cm的绝对误差。61、试比较以下两次测量结果(只进行一次)的信度:用尺子量100cm高的一个儿童,得到1cm的绝对误差;量185cm高的一位运动员,也得得到1cm的绝对误差。要比较两种测量结果的信度,一定要看误差分数(E)对于真分数(T)所占的百分数是多少。相对误差=E/T×100%公式(1-3最大绝对误差=E/x×100%公式(1-4)7
相对误差(甲)=1/100×100%=1%相对误差(乙)=1/185×100%=0.54%
据此,度量乙的信度要比度量甲的信度高。
8大家有疑问的,可以询问和交流可以互相讨论下,但要小声点9怎样估计对一组人或一个人测量多次的实测值与真值(真分数)的差异程度呢?判别两组数据谁好谁差,不能只靠对平均数的统计和比较,关键是确定这两组数据偏离各自的平均数的大小。为了消除数据容量的影响,我们借鉴研究加权平均数的方法,选用各个偏差的平方的平均数,来描述一组数据偏离其平均数的大小,这就是方差。根据假设,观察分数的方差应等于真分数的方差加上测量误差的方差。即:
公式(1-4)10根据公式(1-4)可以给出信度的统计定义:第一,信度是一个被测团体的真分数方差与观察分数方差之比,即:
公式(1-5)公式(1-6)可见,测验的信度一般在[0,1],越接近1,考试的信度越高。11例:对5个人的某种智力因素的测验结果如表1-1,试估计测量的信度。表1-1测量5个学生的某种分数12
学生真分数误差分数实得分数
A
18-2
16
B
9+1
10
C
15+2
17
D
21+1
22
E
12-2
10
平均数15
0
15
方差18
2.8
20.8
1314第二,信度是一个被试团体的真分数与观察分数的相关系数的平方。第三,信度是一个被试团体在测试X(A卷)上的观察分数与在测验X的任意一个“平行测验”X`(B卷)上的观察分数的相关系数。15三、信度系数的类型与估计方法(一)稳定性系数(二)等值性系数(三)内部一致性系数(四)论文式测验的信度系数(五)评分者信度16(一)稳定性系数(coefficientofstability)又称重测信度,是指用同一量表对相同被试者(一组人)在不同时间测验两次的实得分数的相关系数。估计稳定性系数的基本程序:
测验A1
适当时距测验A217(一)稳定性系数相关系数可以用不同方法计算,这取决于数据的性质。最为普遍的是皮尔逊积差相关系数:
X为第一次测验的实得分数;Y为第一次测验的实得分数;N为应试者数.18(一)稳定性系数用一个算术四则的速度测验12个小学生,得分记为X,为了考察测量结果的可靠性,于3个月后再测一次,得分记为Y,问测验结果是否可靠?序号123456789101112X202021222323232425262627Y2021212023232525262627291920解:(1)把资料列表于后,计算出公式(1-10)所需的各种统计量:ΣX=280ΣY=286ΣX2=6594ΣY2=6912ΣXY=6420(2)把所计算的统计量代入公式(1-10):21采用重测法计算稳定系数时,要注意的问题:1、两次测验之间的时间间隔要适宜,尽可能在较短的时距内进行。2、两次测验试卷要等值,即在内容范围、题型、题数、难度、区分度等方面要基本相同。3、确定两测验是否等值,还要考察两次测绘结果的平均数与标准差。4、重测法适用于导质性测验,适用于速度测验而不适用于难度测验。5、测试应注意提高被试者的积极性。22(二)等值性系数(coefficientofequivalence
)又名复本信度(alternate-formsreliability):是以两个等值(题型题数、难度、区分度相等)但具体内容不同的量表,在最短时距内,对相同应试者先后施测两次所获得的两组对应分数的相关系数。其模式是:23(二)等值性系数(coefficientofequivalence
)以A、B两型英语复本测验对初中三年级10个学生施测,为避免由测验施测顺序所造成的误差,其中5个学生先做A型测验,休息15分钟后,再做B型测验;而另5个学生先做B型测验,休息15分钟后,再做A型测验。10个学生A型测验结果记为X,B型测验结果记为Y,其测验的复本信度如何?学生序号12345678910X19191817161515141312Y2017181817151315121224(二)等值性系数(coefficientofequivalence
)优点:1、测验的两个复本,如果在不同的时间使用,其信度既可以反映在不同时间的稳定性,又可以反映对于不同测题的一致性;2、两个复本在同时使用时,可以避免再测信息的一些缺点,如首测时再测在记忆、练习、效果的影响,间隔期间获得新知识的影响,两次施测的环境不同和被试主观状态不同的影响,以及为了应付测验所作训练的影响等。25(二)等值性系数(coefficientofequivalence
)缺点:1、编制两个完全相等的测验是很困难的,如果两个复本过分相似,则变成再测形式,而过分不相似,又使等值的条件不存在;2、两个复本测验有可能在某种程度上测量了不同的性质,这就会低估测验的信度;3、被试同时接受性质相似的两个测验,可能减少完成测验的积极性;4、虽然两个复本测验的题目材料不同,但被试一旦掌握了解题的某一模式,就能触类旁通,有可能失去复本的意义。26(三)内部一致性系数(internalconstancy)又叫同质性信度(homogeneityreliability)。是同一测验量表的两个部分(例如分为奇数题和偶数题,或者量表的前一半和后一半)得分的相关系数。估计方法有两种:1、分半法(Split-halfmethod):是将一次测验分成两个假定相等而独立的两部分来记分。通常是以题目的奇数为一组,偶数为一组,计算两级的相关系数,最后用斯皮尔曼-布朗公式校正,求得整个测验的信度系数。斯皮尔曼-布朗公式为:
rxy
为两组测验分数的相关系数,rtt表示整个测验的信度系数。27问题:为什么不直接用奇数题总分与偶数题的部分计算出的相关系数作为整个测验的信度系数而要加以校正?这是因为测验的长度(指量表中所包含的题目数)对信度的大小有一定的影响,测验越长,信度越高。而用分半法,实际上等于把整个测验长度减小了一半,所以按分成两半的资料求出的信度必然低于整个测验的信度。28例:有一个由100题构成的量表施行于10个高三学生(分数见下表)。测验一次后,应试者即毕业离校。现在怎样评价测验结果的信度?方法:分半法2930解:把有关统计量代入公式(1-10),求相关系数用斯皮尔曼-布朗公式校正,经校正后的信度系数很大(0.91),说明整个测验的信度高。312、库德尔-理查森公式法
(KuderRichardsonreliability)用此法只需测验一次,然后以各个问题的正确反应数为基础(此可视为各题难度的信息),或根据各人总分的平均数和标准差,计算信度系数。此公式有几个,其中常用的有rKR20和rKR21。(1)rKR20的用法:这个公式以每题能正确回答的人数占总人数的百分数为基础计算(每题只有通过或未通过两种分数)。32例:有一种包含6个问题的测验,10个应试者得分如下表(答对得1分,答错得0分),试估计应试者反应的一致性程度。3334解:1)列出得分矩阵,计算有关统计量:
这个测验的信度系数较低,说明内容一致性差,量表中的题目并非都可以测量相同的特性,即题目的同质性差或难度悬殊较大。35(2)rKR21的用法:这个公式以各应试者总分的平均数和方差为基础,无需各题的难度信息。公式如下:36(四)论文式测验的信度系数论文式测验的评分没有严格的评分标准,以致同样一个题目,不同的应试者的回答和得分都不一样,所以无法用前面的公式,而要用克龙巴赫(Cronbach,1951)所创的α系数公式:37例:有一种包含6个论文式题目的测验,对5个应试者施行,得分列入下表,试求该测验的信度。38解:1)求每题各应试者得分的方差Si2(见表列)
2)求每题各应试者得分的方差之和ΣSi2
ΣSi2=3.04+1.36+……+3.04=18.65
3)求所有应试者各自的总分的方差ΣST2(表格最下一行各数据的方差)
ST2=68.96
4)代入公式(1-14)得信度系数
39(五)评分者信度要计算评分者评分的一致性系数,需区分评分者的人次数。若为2人评N份试卷,可用斯皮尔曼等级相关的公式计算;若三个人以上的评分者评N份试卷,则需计算肯德尔和谐系数(以W表示)1、斯皮尔曼等级相关公式:40例:甲乙两位教师评阅10份试卷,他们对每份试卷各自所评的分数和等级列入下表,问这二位教师评分的一致性如何?41解:1)计算所需统计量:D和D2(见表);N=10;
ΣD2=0+0.25+1+12.25+……+1+0=26
2)将统计量N和ΣD2代入公式(1-15)答:甲乙两位教师阅卷的一致性系数较高,评分比较可靠。422、肯德尔和谐系数(W)例:10个评委对7位参赛选手所评等级如下表所示,问这10位评委的评分是否具有一致性?4344分析:从W=0.827来看,10人的评价较为一致。严格地讲,W值是否达到显著性水平,需要做统计假设检验。当K等于3∽20,N等于3∽7时,可根据K和N查“W显著性检验时S的临界值表”进行检验。(见王汉澜教授主编的测量学教材P52页)45在进行等级评定时,常会遇到两个或两个以上事物的等级相同,如果遇到这种情况,应采用下面的修正公式:46例:三位教师评阅四份试卷,所评等级列入下表,他们所评的等级是否一致?解:本题因王老师给两份试卷评了相同等级,李老师给三
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 泌尿外科患者的呼吸监测与护理
- 工地铲车安全协议书
- 创伤止血包扎培训协议
- 潍坊地理会考试卷及答案
- 2026年脑外伤后遗症康复诊疗试题及答案(神经内科版)
- 2026年写字楼公共区域监控安防合同协议
- 三明市2026年5月高三高三毕业班质量检测历史试卷(含答案)
- 通化市辅警招聘考试题库及答案
- (必会)陕西社区工作者招聘历年考试高频真题300题(含答案)
- 灾害应对试卷及答案
- 2025年AP考试物理C真题
- Maya 2024三维设计基础教程(全彩微课版) 课件全套 来阳 第1-10章 初识Maya 2024 -综合实例
- 售后服务部主管述职报告
- GB/T 6109.5-2025漆包圆绕组线第5部分:180级聚酯亚胺漆包铜圆线
- 《食品冷链物流追溯管理要求编制说明》
- 槽型铸铁平台施工方案
- 2024上海立达学院辅导员招聘笔试真题及答案
- 2025年中国地质调查局招聘面试题预测与备考指南
- 卫校报名面试题库及答案
- 钟山区南开风电场环境影响报告表
- 公司报废件物品管理制度
评论
0/150
提交评论