已阅读5页,还剩40页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
-,1,经典测评理论的发展、技术及运用,西北师范大学教育科学学院吕国光Email:lugg,-,2,吕国光生活小档案,山茶书,-,3,主要内容,测评的含义及教育测评的历史发展经典测评理论实施的条件经典测评理论的实施技术及在教育评价中的运用,-,4,测评的含义及教育测评的历史发展,测评的含义教育测评的历史发展,-,5,教育测评的含义和特点,测评(Measurement):通常是指人们对客观事物进行某种数量化的测定。天平、秤、尺子、温度计。教育测评(EducationalMeasurement):对学生的学习能力、学业成绩、兴趣爱好、思想品德以及教育措施上许多问题的数量化测定。主要用于对学生精神特性的测定。,-,6,教育测评的含义和特点,教育测评是困难的教育测评是可能的Thordike(1918)说:“凡是存在的事物都有数量。”Mccall(1922)说“凡是有数量的都可以测量”,测量中的误差来源测量的仪器和设备所测量事物的一致性程度测量人的因素,-,7,教育测评的含义和特点,教育测评的特点教育测评一般是间接测评教育测评的度量单位是相对的教育测评是为实现教育目的服务的,-,8,教育测评的历史发展,主观经验性考试阶段(1864年以前)客观标准化测验阶段(1864-1940年)经典测评理论成熟和深入发展阶段(1940-),-,9,主观经验性考试阶段,西周:“古之教者,家有塾,党有庠,术有序,国有学。比年入学,中年考校。一年视离经辨志,三年视敬业乐群,五年视博习亲师,七年视论学取友,谓之小成;九年知类通达,强立而不返,谓之大成。”(学记)隋炀帝大业二年(606年)分科考试。局限:题目数量少;评价缺乏客观的评分标准,-,10,客观标准化测验阶段,1864年英国教师GeorgeFisher收集许多学生成绩样本,分别优劣,汇集成量表集(ScaleBook),作为度量学生各科成绩的标准。1895年美国学者Rice主张用统一的测验考察、比较各校学生的成绩,并编制了算术、语言等测验。1905年法国学者Binet和Simon制订的第一个智力量表。,-,11,经典测评理论的成熟和深入发展,1940年由美国学者Tyler主持的“八年研究”结束,标志经典测评理论(ClassicalTestTheoryCTT)的成熟。1963年Cronbach发表了概化理论:信度理论的丰富和发展标志着概化理论(GeneralizabilityTheoryGT)的诞生。1952年美国学者Lord创立了项目反应理论(ItemResponseTheory,IRT),-,12,经典测评理论实施的条件,信度效度难度区分度,-,13,一、信度(reliability)的意义,概念:可靠性或可靠的程度信度指观测值和真值相差的程度信度指统计量与参数之间的接近程度信度是指一种测验对相同被试再次测验时引起同样反映的程度,-,14,信度指观测值和真值相差的程度,X=T+EX表示观测值,T表示真值,E表示误差分数.在团体测验中,T可以理解为许多人(理论上应是无限多人)在相同条件下进行同类测量所获得的大量观测值的平均数.各人的真值与观测值之差仍称测量误差.E=X-T,-,15,由于测量误差是随机产生的,与真值无关.在理论上正的误差分数和负的误差分数相抵消,平均误差为0.根据这一假设,观测值的方差应等于真值的方差加上测量误差的方差.即:x=t+e,-,16,于是,信度(用rxx表示)可定义为真值方差(t)与观测值方差(x)的比率。即:rxx=t/x此公式表明:真值的方差在观测值方差中所占的比重越大,则信度就越高。,-,17,计算信度的公式,rxx=t/x(1)x=t+e(2)t=x-e(3)rxx=t/x=1-e/x(4),-,18,信度系数的计算,常用的信度系数有:稳定性系数(coefficientofstability)等值性系数(coefficientofequivalence)内部一致性系数(coefficientofinternalconstancy),-,19,稳定性系数,稳定性系数(coefficientofstability):用同一量表对相同被试在不同时间测验两次的观测分数的相关系数。,-,20,稳定性系数的意义,任何事物都在运动变化着,但也具有一定的稳定性,所以才能对事物进行测量和研究。教育测量也是假定所测量的特性处于相对稳定的状态,如果用同一种量表对相同的被试测量两次,其结果应相同或近似。换言之,测量结果应具有稳定性。例如,在一次测验中得高分的学生,在另一次测验中也有得高分的倾向,被试在两次测验中的相对地位也非常接近。这种稳定性也就表明测验结果是可靠的或信度高的。,-,21,使用稳定性系数时要注意的问题,两次测验的时间间隔要适宜;重测法适用于速度测验而不适用于难度测验。要注意提高被试的积极性。,-,22,等值性系数,等值性系数(coefficientofequivalence)是以两个等值(题型、题数、难度、区分度等)但具体内容不同的量表,在最短时距内,对相同被试先后试测两次所获得的两组对应分数的相关系数。等值性系数可采用复份法(equivalenceformsreliability),-,23,使用等值性系数时要注意的问题,复份法的关键是两个量表必须等值。两次测验的时间间隔要尽可能短。如果两次测验紧接,应注意被试厌倦态度。标准化测验一般有复份,若没有说明等值信度,或等值性系数较低,则使用复本时应慎重。,-,24,内部一致性系数,内部一致性系数(coefficientofinternalconstancy):是同一测验量表的两个部分得分的相关系数。计算内部一致性系数的方法有两种:(1)分半法(2)Cronbach,-,25,分半法,将测验按题目的编号分为两半:一半是奇数题,一半是偶数题。先计算每个人的奇数题和偶数题总分,然后求奇数题和偶数题总分的相关系数。最后用Spearman-Brown公式校正。求整个测验的信度系数。问题:为什么要进行校正呢?,-,26,Cronbach系数,使用最广泛的信度系数计算公式:=n/(n-1)*(1-i/x)其中,n为题目数,i为每题被试观测分数的方差之和,x为所有被试观测总分的方差。,-,27,影响信度的因素,测验的长度测验愈长,内容愈具代表性,信度愈高变量的方差方差愈大,信度愈高rxx=1-e/x,-,28,信度,题目数和信度的关系,-,29,测验的难度太难或太简单均会降低信度测验的客观性愈客观,信度愈高,-,30,1007550250,123,分數,难度太小,难度太大,难度适当,平均数(M):852160标准差():3.94.212.4信度(KR21):0.430.460.90,分数之分散度和难度与信度之间的关系,-,31,提高测验信度的方法,延长测验长度新增加的题目与原有测验题目应有相同的统计性质,同时,不影响被试回答问题的方法。难度要适当。经验表明,难度在.40-.70之间是合适的,也有人认为.25-075都有利于提高测验信度。测验的内容应尽量同质;测量时间要充分;测量的程序应统一;评分要客观。加大应试者之间的差异,-,32,效度的意义,测验分数的正确性,意即“有多正确的程度”效度的种类内容效度(contentvalidity)效标关联效度(criterion-relatedvalidity)建构效度(constructvalidity)传统上强调效度的概念有三种,而且是有所区别的,-,33,內容效度(contentvalidity),意义:测验在逻辑上能测出所要测量的变量或特质的程度;测验内容的代表性或取样的适切性;又称为逻辑效度(logicalvalidity)或专家效度(expertvalidity)考验方法:由专家以逻辑判断的方式来决定,测验内容是否具有代表性以代表潜在的总体试题,-,34,效标关联效度(criterion-relatedvalidity),意义:测验分数与外在效标间的关联程度,效标是指测验所要衡量或预测的某些特质。又称为统计效度(statisticalvalidity)或实证效度(empiricalvalidity)类型同时效度(concurrentvalidity)预测效度(predictivevalidity)考验方法:求测验分数与其他测验成绩之相关。其他测验成绩如在同时测量则为同时效度;如在往后测量则为预测效度,-,35,结构效度(constructvalidity)的意义,测验能够测量到理论上的结构或特质的程度。(“结构”是用来解释人类行为的理论构想或心理特质,它是观察不到的,但心理学假设它是存在的,以便能解释人类的行为,ex:动机、性向、焦虑等。构念有其理论基础,因此依据理论可以预测人类的行为),-,36,结构效度的考查方法,评分标准及规则能够合理反映构念所指称的特质之结构方法:因素分析(factoranalysis)将看似复杂的因素或特质,归纳成几个共同的因素,用以解析评分项目的结构并与理论中的构念结构相互参照,-,37,难度,难度(Difficulty)的意义难度指测验的难易程度。在教育测量中一般用通过率作为指标。若用公式表示,即:P=R/N以(0,1)为记分方式P=X/K以(0,K)为记分方式Q=1-P整个测验的难度等于全部被试测验总分的平均数对于测验满分值之比.,-,38,测验的难度影响测验分数的分布形态测验难度影响测验分数的离散程度(Ebel的实验)测验难度影响测验的鉴别能力,难度对测验的影响,-,39,测验的适宜难度,.50.20-.80,-,40,区分度,区分度(Discrimination)是指测验对被试实际水平的区分程度.,-,41,区分度的计算方法,客观题(1)D=Ph-Pl其中,D为区分度符号,Ph为高分组通过试题的人数比例,Pl为低分组通过试题的人数比例。(27%),-,42,经典测评理论的实施技术及在教育评价中的运用,简单介绍SPSS统计软件SPSS统计软件在使用经典测评理论实践中的运用.,-,43,有关教育测评的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论