教育测量的质量指标--信度概述(ppt 54页)_第1页
教育测量的质量指标--信度概述(ppt 54页)_第2页
教育测量的质量指标--信度概述(ppt 54页)_第3页
教育测量的质量指标--信度概述(ppt 54页)_第4页
教育测量的质量指标--信度概述(ppt 54页)_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章教育测量的质量指标,信度效度难度区分度,第二章教育测量的质量指标,衡量教育测量的质量,可采用四个指标:信度主要对整个测量而言。效度难度主要对测量的项目而言。区分度,第一节信度,一、信度的概念二、信度系数的类型三、信度对于教育测量的意义四、提高信度的方法,一、信度的概念,信度(reliability):指的是测量结果的稳定性和可靠的程度,亦即测量的结果是否真实、客观地反映了考生的实际水平,可记为rxx。具体而言,可以从以下三方面来理解测量的信度:,(一)信度指实测值和真值相差的程度,xTE(公式1-1)x表示实测值,T表示真值(是未知的,可以把多次测量的实测值的平均值作为真值的近似值),E表示误差。Ex-T(公式1-2),(一)信度指实测值和真值相差的程度,1、试比较以下两次测量结果(只进行一次)的信度:用尺子量100cm高的一个儿童,得到1cm的绝对误差;量185cm高的一位运动员,也得得到1cm的绝对误差。,要比较两种测量结果的信度,一定要看误差分数(E)对于真分数(T)所占的百分数是多少。这个百分数表示该实得分数(x)的相对误差。其计算式如下:相对误差E/T100%公式(1-3)把上述两次测量(设为甲和乙)和绝对误差分数和真分数代入上式,得:相对误差(甲)1/100100%1%相对误差(乙)1/185100%0.54%据此,度量乙的信度要比度量甲的信度高。最大绝对误差E/x100%公式(1-4),2、怎样估计对一组人或一个人测量多次的实测值与真值(真分数)的差异程度呢?,判别两组数据谁好谁差,不能只靠对平均数的统计和比较,关键是确定这两组数据偏离各自的平均数的大小。为了消除数据容量的影响,我们借鉴研究加权平均数的方法,选用各个偏差的平方的平均数,来描述一组数据偏离其平均数的大小,这就是方差。根据假设,实得分数的方差应等于真分数的方差加上测量误差的方差。即:公式(1-5),2、怎样估计对一组人或一个人测量多次的实测值与真值(真分数)的差异程度呢?,于是,信度(rxx)可定义为真分数的方差与实得分数方差的比率。即:公式(1-6)公式(1-7)可见,越小,测量的信度就越高。信度的取值范围为0,1。,例:对5个人的某种智力因素的测验结果如表1-1,试估计测量的信度。,表1-1测量5个学生的某种分数,学生真分数误差分数实得分数A18216B9110C15217D21122E12210平均数15015方差182.820.8,统计量是指样本上的各种数字特征。(如样本平均数、标准差等);参数是总体上的各种数字特征(如总体平均数、标准差等)。在统计学中,统计量越接近参数,这个统计量的可靠性越高。而要知道统计量与参数的接近程度,可以对参数进行区间估计。,(二)信度指统计量与参数之间的接近程度,我们不妨将测量的平均值看做平均数抽样分布中的一个平均数,真值视为平均数抽样分布的总平均数(),这样一来,只要能估计出实得分数分布的标准差测量的标准误,就可以利用区间估计的公式,算出实测值与真值的接近程度,从而计算出测量结果的信度。,(二)信度指统计量与参数之间的接近程度,例:根据对一组人(设n30)进行某种智力因素测验的结果,计算出有关统计量如下,求真分数的置信区间(或真值在什么数值的范围内)。,(三)信度指两次重复测验或等值测验之间的关联程度,统计学中估计事物或现象间数量变动的一致性,主要采用相关分析的方法,即计算出两种变量的相关系数(rxy)。在使用相关系数表示信度的高低时,相关系数可称为信度系数(coefficientofreliability)。它是对相同应试者的同一特性的两次测量分数的相关系数,是测量结果的一致性的指标。,三、信度系数的类型,(一)稳定性系数(二)等值性系数(三)内部一致性系数(四)论文式测验的信度系数(五)评分者信度,(一)稳定性系数(coefficientofstability),又称重测信度,是指用同一量表对相同被试者(一组人)在不同时间测验两次的实得分数的相关系数。估计稳定性系数的基本程序:测验A1适当时距测验A2,(一)稳定性系数,相关系数可以用不同方法计算,这取决于数据的性质。最为普遍的是皮尔逊积差相关系数:,X为第一次测验的实得分数;Y为第一次测验的实得分数;N为应试者数.,(一)稳定性系数,用一个算术四则的速度测验12个小学生,得分记为X,为了考察测量结果的可靠性,于3个月后再测一次,得分记为Y,问测验结果是否可靠?序号123456789101112X202021222323232425262627Y202121202323252526262729,解:(1)把资料列表于后,计算出公式(1-10)所需的各种统计量:X280Y286X26594Y26912XY6420(2)把所计算的统计量代入公式(1-10):,采用重测法计算稳定系数时,要注意的问题:,1、两次测验之间的时间间隔要适宜,尽可能在较短的时距内进行。2、两次测验试卷要等值,即在内容范围、题型、题数、难度、区分度等方面要基本相同。3、确定两测验是否等值,还要考察两次测绘结果的平均数与标准差。4、重测法适用于速度测验而不适用于难度测验。5、测试应注意提高被试者的积极性。,(二)等值性系数(coefficientofequivalence),又名复本信度(alternate-formsreliability):是以两个等值(题型题数、难度、区分度相等)但具体内容不同的量表,在最短时距内,对相同应试者先后施测两次所获得的两组对应分数的相关系数。其模式是:,(二)等值性系数(coefficientofequivalence),以A、B两型英语复本测验对初中三年级10个学生施测,为避免由测验施测顺序所造成的误差,其中5个学生先做A型测验,休息15分钟后,再做B型测验;而另5个学生先做B型测验,休息15分钟后,再做A型测验。10个学生A型测验结果记为X,B型测验结果记为Y,其测验的复本信度如何?学生序号12345678910X19191817161515141312Y20171818171513151212,(二)等值性系数(coefficientofequivalence),优点:1、测验的两个复本,如果在不同的时间使用,其信度既可以反映在不同时间的稳定性,又可以反映对于不同测题的一致性;2、两个复本在同时使用时,可以避免再测信息的一些缺点,如首测时再测在记忆、练习、效果的影响,间隔期间获得新知识的影响,两次施测的环境不同和被试主观状态不同的影响,以及为了应付测验所作训练的影响等。,(二)等值性系数(coefficientofequivalence),缺点:1、编制两个完全相等的测验是很困难的,如果两个复本过分相似,则变成再测形式,而过分不相似,又使等值的条件不存在;2、两个复本测验有可能在某种程度上测量了不同的性质,这就会低估测验的信度;3、被试同时接受性质相似的两个测验,可能减少完成测验的积极性;4、虽然两个复本测验的题目材料不同,但被试一旦掌握了解题的某一模式,就能触类旁通,有可能失去复本的意义。,(三)内部一致性系数(internalconstancy),又叫同质性信度(homogeneityreliability)。是同一测验量表的两个部分(例如分为奇数题和偶数题,或者量表的前一半和后一半)得分的相关系数。估计方法有两种:1、分半法(Split-halfmethod):是将一次测验分成两个假定相等而独立的两部分来记分。通常是以题目的奇数为一组,偶数为一组,计算两级的相关系数,最后用斯皮尔曼布朗公式校正,求得整个测验的信度系数。斯皮尔曼布朗公式为:,rxy为两组测验分数的相关系数,rtt表示整个测验的信度系数。,问题:为什么不直接用奇数题总分与偶数题的部分计算出的相关系数作为整个测验的信度系数而要加以校正?,这是因为测验的长度(指量表中所包含的题目数)对信度的大小有一定的影响,测验越长,信度越高。而用分半法,实际上等于把整个测验长度减小了一半,所以按分成两半的资料求出的信度必然低于整个测验的信度。,例:有一个由100题构成的量表施行于10个高三学生(分数见下表)。测验一次后,应试者即毕业离校。现在怎样评价测验结果的信度?,方法:分半法,解:把有关统计量代入公式(1-10),求相关系数,用斯皮尔曼布朗公式校正,,经校正后的信度系数很大(0.91),说明整个测验的信度高。,2、库德尔理查森公式法(KuderRichardsonreliability),用此法只需测验一次,然后以各个问题的正确反应数为基础(此可视为各题难度的信息),或根据各人总分的平均数和标准差,计算信度系数。此公式有几个,其中常用的有rKR20和rKR21。(1)rKR20的用法:这个公式以每题能正确回答的人数占总人数的百分数为基础计算(每题只有通过或未通过两种分数)。,例:有一种包含6个问题的测验,10个应试者得分如下表(答对得1分,答错得0分),试估计应试者反应的一致性程度。,解:1)列出得分矩阵,计算有关统计量:,这个测验的信度系数较低,说明内容一致性差,量表中的题目并非都可以测量相同的特性,即题目的同质性差或难度悬殊较大。,(2)rKR21的用法:,这个公式以各应试者总分的平均数和方差为基础,无需各题的难度信息。公式如下:,(四)论文式测验的信度系数,论文式测验的评分没有严格的评分标准,以致同样一个题目,不同的应试者的回答和得分都不一样,所以无法用前面的公式,而要用克龙巴赫(Cronbach,1951)所创的系数公式:,例:有一种包含6个论文式题目的测验,对5个应试者施行,得分列入下表,试求该测验的信度。,解:1)求每题各应试者得分的方差Si2(见表列)2)求每题各应试者得分的方差之和Si2Si23.041.363.0418.653)求所有应试者各自的总分的方差ST2(表格最下一行各数据的方差)ST268.964)代入公式(1-14)得信度系数,(五)评分者信度,要计算评分者评分的一致性系数,需区分评分者的人次数。若为2人评N份试卷,可用斯皮尔曼等级相关的公式计算;若三个人以上的评分者评N份试卷,则需计算肯德尔和谐系数(以W表示)1、斯皮尔曼等级相关公式:,例:甲乙两位教师评阅10份试卷,他们对每份试卷各自所评的分数和等级列入下表,问这二位教师评分的一致性如何?,解:1)计算所需统计量:D和D2(见表);N10;D200.25112.2510262)将统计量N和D2代入公式(1-15),答:甲乙两位教师阅卷的一致性系数较高,评分比较可靠。,2、肯德尔和谐系数(W),例:10个评委对7位参赛选手所评等级如下表所示,问这10位评委的评分是否具有一致性?,分析:从W=0.827来看,10人的评价较为一致。严格地讲,W值是否达到显著性水平,需要做统计假设检验。当K等于320,N等于37时,可根据K和N查“W显著性检验时S的临界值表”进行检验。(见王汉澜教授主编的测量学教材P52页),在进行等级评定时,常会遇到两个或两个以上事物的等级相同,如果遇到这种情况,应采用下面的修正公式:,例:三位教师评阅四份试卷,所评等级列入下表,他们所评的等级是否一致?,解:本题因王老师给两份试卷评了相同等级,李老师给三份试卷评了相同等级,所以要用公式(1-17)计算W。,三、信度对于教育测量的意义,1.信度是任何一种测量的必要条件。因为教育测量的对象主要是精神现象,所测量的特性不易把握,为了能真实地反应测验对象的某种特点,需要更加注意测量的信度,从而正确地判断测量结果的价值。2.信度高的教育测量,能给教师和教育工作的领导者提供可靠的信息,为他们的教育预测和决策提供依据。3.信度高的教育测量,能使教师对学生的评价变得客观和可靠,也使学生对自己的认识更符合实际情况,从而有助于改进教与学的方法。4.信度高的教育测量,有助于提高教师的工作效率。,四、提高测验信度的方法,(一)信度系数(以相关系数表示)以多大为宜信度系数必须和求得信度系数的环境条件(测验的用途以及测验的内容和条件)相联系。就测验的内容来说,标准学业成绩测验要求信度系数在0.90以上,常达到0.95。标准智力测验的信度系数应达到0.85以上。个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论