教育测量中的信度和效度专题培训课件_第1页
教育测量中的信度和效度专题培训课件_第2页
教育测量中的信度和效度专题培训课件_第3页
教育测量中的信度和效度专题培训课件_第4页
教育测量中的信度和效度专题培训课件_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

教育测量中的信度和效度教育测量与评价的质量特性教育测量与评价的信度教育测量与评价的效度教育测量与评价中题目的难度教育测量与评价中题目的区分度教育测量与评价方案的可用性一、信度的意义信度是指测量结果的稳定性程度,记为rXX

。换一句话说,信度是指用同一测量工具反复测量同一种物质对象所得多次测量结果间的一致性程度。测验信度是对测验工具及其操作的整体质量的一种量度,是测验性能的重要质量指标。如果测验本身抗干扰能力强,测验实施过程各方面误差因素都控制得好,多次施测所得分数(测值)的一致性就高,那么测量信度高,人们在使用所得测值时就会感觉可靠。举例:量一个物体的长度,人们用标准的钢尺和弹性很大的橡皮尺测量,显然用钢尺测量更接近物体的实际尺寸,我们就说用钢尺测量的信度较高;而用橡皮尺测量可能由于自身弹性导致单位长度的距离发生改变,从而引起测量的误差,我们就说橡皮尺测量的信度较低。

二、信度的统计定义X=T+EX:观察分数(测量的结果)T:真分数(客观具体的实际水平)E:测量的误差σ2x=σ2T

+σ2E

σ2x

:观察分数的方差σ2T

:真分数的方差σ2E

:误差分数的方差二、信度的统计定义定义1:信度是一个被测团体真分数方差与观察分数方差之比。即:rXX=σ2T/σ2X

(0<rxx<1)

定义2:信度是一个被试团体的真分数与观察分数的相关系数的平方。即:rXX=ρ2TX

定义3:信度是一个被试团体在测验X(A卷)上的观察分数与在测验X的任意一个“平行测验”X´(B卷)上观察分数的相关系数。即:rXX=ρXX´理论意义理论意义实际意义三、信度的估计方法重测信度复本信度同质性信度重测信度重测信度是指用一个量表(测验或评价表)对同一组被试施测两次所得结果的一致性程度,其大小等于同一组被试在两次测验上所得分数的相关系数。重测信度有个基本假设,那就是假设某测验所要测量的潜在特质,短期内不会随时间推移而改变。人类的有些潜在特质是会随着时间而改变的,因此重测信度的高低和两次测量时间的间隔长短有密切关系。一般时间间隔较长,可能由于记忆、遗忘、施测环境的改变,而容易发生信度降低,反之亦然。

究竟两次测量的时间间隔应该多久才合适呢?一般来说,在时间间隔内,被试的遗忘和练习的效果基本上相互抵消,这样才是适度的时间间隔,具体而言,没有固定的标准,要视具体情况而定。比如说要考虑测验结果的用途、测验种类、被试的年龄等。

重测信度重测信度属于异质性测验异质性测验:一个测验包括几个不同的部分,这几部分分别测量几个不同的心理特质,它们之间可能并不存在相关或相关较低。(如加减乘除)重测信度适用于速度测验而不适用于难度测验速度测验由于题量较大,有规定的时间,第二次测验较少受记忆的影响。重测信度还适用于运动技能的测验复本信度复本信度是指两个平行测验测量同一批被试所得结果的一致性程度,其大小等于同一批被试在两个复本测验上所得分数的相关系数。复本测验:在试题格式、题数、难度、指导语说明、施测要求等方面都相当,并且都用来测量相同潜在特质或属性,但试题又是不相同的测验。复本信度实施复本测验的方式:一是在同一个时间连续施测(此时所得的复本信度叫等值性系数),二是间隔一段时间后施测(此时所得复本信度叫等值稳定性系数)。使用复本信度首先要构造出两份或两份以上的真正的平行测验。这是一个很难达到的条件。另外,重测信度的一些不足,在复本信度中仍然存在,需要加以克服。复本信度不仅适用于难度测验,也是适用于速度测验。等值性系数:同一时间内实测的复本信度。等值性系数主要反映出测验内容造成误差的多少,也就是说可以反映两个测验是否是真正的平行测验。等值稳定性系数:间隔一段时间内测量的复本信度。等值稳定性系数不仅能够反映检验内容的抽样误差,而且能够反映被试被试本身的改变,它同时兼顾了试题抽样和时间影响。若与其他信度系数相比,等值稳定系数较大,说明可靠性比较高。但是若测得等值稳定系数比较小,我们是不能够判断到底是哪种因素导致了信度较低。同质性信度同质性信度的概念同质性信度(内部一致性信度)是指测验内部所有题目间的一致性程度。这里题目间的一致性含有两层意思:其一是指所有题目测的是同一种心理特质;其二是所有题目得分之间都具有较高的正相关。同质性信度同质性信度的概念同质性信度的基本假设:当一个测验具有较高的同质性信度时,说明测验主要测的是某一单个心理特质,由于众多的题目测试了同一心理特质,那么实测结果就是该特质水平的反映。同质性信度不适用于异质测验和速度测验。如果同质性信度较低,可能会有哪些因素影响同质信度?1.测验结果可能是几种心理特质的综合反映,题目没有反映同一种心理特质。2.所有题目具有较低的相关性。

估计同质性信度的三种方法估计同质性信度的三种方法分半信度库德-理查逊信度克龙巴赫系数估计同质性信度的三种方法分半信度分半信度指是的将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度。分半信度的计算方法和等值复本信度的方法类似,只不过分半信度计算的是两个“半测验”上得分的相关系数,只是半个测验的信度,还必须用斯皮尔曼—布朗公式加以校正。估计同质性信度的三种方法分半信度计算分半信度的方法并不难,南难就难在如何将测验分成相等的两半。分半分方法很多,如按题号的奇偶分半、按题目的难度分半、按题目的内容分半等等。在实际的应用中,由于题目一般都是依据难度大小排列,采用奇偶分半可使两半测验的题目在难度上基本相等,因此常常被采用。估计同质性信度的三种方法库德——理查逊信度该方法适合于测验题目全部为二分记分题的测验的内部一致性信度分析。常用的库德-理查逊公式有:估计同质性信度的三种方法克龙巴赫系数当测验题型较多,并非都是二分记分题时,估计测验信度可采用克龙巴赫系数。其计算公式为:标准测验的信度分析标准参照测验的概念标准参照测验是以预定的标准为参考,来衡量个体被试是否达到标准的一种测验。所谓标准就是有测样所参考的行为领域和或教学目标所确定的被试在测验上应当达到的行为表现。究竟什么是标准参照测验?举例说明

常模参照测验比如说研究生考试,我们总会根据总体的情况划定一个国家线,这个标准是根据这个团体的水平划定的标准,百分之多少的可以进入研究生的行列。标准参照测验比如说飞机和汽车驾驶资格证书考试属于标准参照测验,它就会根据教学目标在外部划定一个标准,达不到这个标准就不能够获得证书,它不会说考试排名在前多少名可以获得证书。标准测验的信度分析标准测验信度分析的两种方法百分比一致性指标百分比一致性指标是指同一测验或两平行测验先后两次施测,其对被试的分类结果一致的比例。其计算公式为:K一致性系数K一致性系数是指实际被评定为一致的百分比与在理论上被评定为一致的最大可能次数百分比的比率。其计算公式:测量标准误与测验信度的关系测量标准误的概念测量标准误是指测验中所得测值偏离真分数的程度,记为SE。它与测验信度系数之间存在可定量的表达关系:SX为观察分数的标准差 rxx是测量的信度系数测量标准误与测验信度的关系测量标准误的意义测量标准误是反映测量结果精确性和可靠性的又一指标,同时也是人们正确解释测验分数的科学依据。评分者信度评分者信度的含义评分者信度是指多个评分者给同一批人的答卷进行评分的一致性程度。评分者信度的计算(1)当评分者人数为两人时,评分者信度等于两个评分者给同一批被试的答卷所评分数的相关系数。依据数据形式,可采用不同的相关系数计算方法。(2)当评分者人数多于两人时,评分者信度可用肯德尔和谐系数进行估计。测量与评价的效度效度的意义效度是指一个测验或量表实际能测出其所要测量的特性的程度。对这一概念,我们可以从以下几个方面来理解:①效度始终是针对一定测量目的而言的;②效度只有程度上的差异;③效度是针对测量结果而言的;④评价一个测量是否有效要多角度、多方面地收集证据。测量与评价的效度效度的统计定义效度可定义为目标真分数方差与观察分数方差之比:

r2XY=σ2V/σ2X

σ2V:目标真分数方差;σ2X:观察分数方差

目标真分数 X=T+E X=V+I+E

V:目标真分数

测量的题目能够测量某一种心理特质水平。比如要测学生的空间思维能力,我们可能会设计一道几何题。I:非目标准分数

测量的题目与测量的目标没有关系。比如我们要测学生的数学计

算能力,但是却出了一道政治题。内容效度及其分析方法内容效度的含义及应用范围内容效度是指测验题目样本对于应测内容与行为领域的代表性程度。如果是教学情境下的成就测验,那么其内容效度就是看测验题目样本能体现教学目标与教材要求的程度。内容效度主要适用于教育测量(尤其是学业成就测验)的情境中,也适合于某些用于选拔和分类的职业测验,但不适合某些心理测验(如智力测验、人格测验)。内容效度及其分析方法内容效度的分析方法逻辑分析法:依靠有关专家对测验题目与应测内容范围的吻合程度作出判断。依靠专家来分析一份试卷的所有题目,把所有题目按考试内容和考查的目标分布进行双向分类,形成实际的“题目双向分类表”,然后与事先制订的“题目双向细目表”进行对照分析,了解实际命题在多大程度上偏离了原命题计划。

结构效度及其验证方法结构效度的含义结构效度是指一个测验或量表实际测到所要测量的理论结构(结构是指心理学或社会学上的一种理论构想或特质)的程度。举例:

智力就是心理学中的一种结构效度,指的就是测验能够测量的理论上所定义的某种心理结构或特质的程度,它本身观察不到,并且也无法直接测量,但学术理论假设它是存在的,以便能够来理解和预测个人或团体的行为表现。结构效度及其验证方法结构效度的验证一般步骤①提出有关理论结构的说明,并据此设计测量用的试题;②提出可以验证该理论结构是存在的假设说明;③采用各种方法收集实际的资料,以验证第二步提出的假设的正确性;④收集其他类型的辅助证据,淘汰与理论结构相反的试题,或是修正理论,并重复第二和第三步,直到下述的假设得到验证,即测验的结构效度获得支持为止。结构效度及其验证方法结构效度的验证方法①测验内部寻找证据法这种方法是通过研究测验内部结构来验证测验的结构效度。它主要包括内容效度、作答过程分析、测验的同质性和因素分析等四个方面。②考察测验的实证效度法如果一个测验有实证效度,则可以拿该测验所预测的效标的性质与种类作为该测验的结构效度指标,至少可以从效标的性质与种类来推论测量的结构效度。主要方法有差异被试比较法和先后测试分析法。效标关联效度及其估计方法效标关联效度的含义、种类及适用范围效标关联效度是指一个测验对于处于特定情境中的个体行为进行预测时的有效性。根据效标资料获得的时间不同及测验使用的目的不同,效标关联效度可以分为:①同时效度:测验分数与效标资料的取得约在同一时间内连续完成,计算这两种资料的相关系数即代表测验的同时效度。这种效度的目的主要用于诊断现状,在于用更简单、更省时、更廉价和更有效的测验分数来取代不易搜集的效标资料。②预测效度:在测验分数取得一段时间后才获得效标资料,计算这两种资料间的相关系数即代表测验的预测效度。预测效度的作用在于预测某个个体将来的行为。同时效度举例,韦氏智力测验其有效性已经得要验证的,但其操作较为复杂、费时。如果我们有自编的一个能团体施测的纸笔智力测验,有着较高的效度,那么就可用它替代韦氏智力量表的使用。为此,我们可以将韦氏智力测验和自编智力测验同时向一批被试施测,然后获得的两批数据资料进行相关分析,如果相关一致性高,就说明新编测验效度高,可以实际使用。预测效度高考是一种用来为高等学校选择合格新生的学习成绩测验,其有效性在录取完新生时还无法验证判明,等新生入学一学期或一年后,在拿新生的高考成绩和大学学业成绩作比较,看看其相关性如何。相关高,说明高考的预测效度好;相关低,说明高考的预测效度差。

效标关联效度及其估计方法效标关联效度的估计方法*①相关法:该方法就是计算测验分数与效标测量的相关系数,具体方法有:积差相关、等级相关、点双列相关、二列相关、四分相关、Φ相关、列联相关法等等。在使用过程中,该选择何种计算方法,应根据测验分数与效标测量数据资料

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论