经典测验理论的局限性评析.pdf

上传人：s*** IP属地：河南上传时间：2020-02-09 格式：PDF 页数：3 大小：142.22KB 积分：20 举报 版权申诉

全文预览已结束

下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2005年8月第23卷第4期湖北大学成人教育学院学报 Journal of A dult Education College of HubeiU niversity A ug 2005 Vol 23 No 4 经典测验理论的局限性评析纪凌开湖北大学教育学院武汉 430062 摘要本文着重从实践应用角度对经典测验理论的一些不足进行系统的分析并指出当前测验理论的发展方向关键词经典测验理论CTT 局限性发展趋势中图分类号 B84112 文献标识码 A 文章编号 1009 0444 2005 04 0064 03 经典测验理论 Classical Test Theory 起源于上世纪初Spearman有关智力和智力测验的著名研究并由Novick给出了最终的公理化形式 1 Spearman认为任何心理测验所得到的分数 X 都是由反映被试稳定心理特征的真分数 T 例如在教育考试中考生的真实能力水平和由随机因素例如考试中考生的情绪考场的因素等所造成的实际成绩与其真正能力水平的差异误差分数 e 所组成即X T e 这个分数模型中隐含了三个基本假设 1 1 模型中的真分数 T 是相对稳定的它刻划的是被试某种比较稳定的心理特质比如在教育测验中考生的真实能力水平对相同对象多次重复测量的误差分数 e 如考生的当时的情绪状态或监考人员因素或测验试题的难度排列顺序等造成考生实际成绩离其真实能力水平的差异呈正态分布 2 真分数和误差分数相互独立 3 真分数分数与误差分数最终可简单合成测验分数在此基础上建立了 CTT理论的信度和效度理论从而为奠定了整个经典测验理论的基础经典测验理论对心理与教育测量理论和实践的贡献都是巨大的迄今为止我国关于教育测验的信度与效度的理论依然还是以经典测验理论为基础的但是随着社会的发展测验在教育考试人才选拔业绩评估心理特质描述与诊断等领域中的作用不断提高人们对测验理论的要求也日益提高但是CTT理论在指导日益发展的测验运动中却渐力不从心这主要源于其本身存在着一些先天上的不足一 CTT的不足剖析一个测验理论在测验中强有力的指导功能源于理论模型是否有利于指导真实有效地刻划其所测验的被试的心理特质水平及其量化的指标是否具有稳定性或可靠性但是CTT在这两个方面的表现都不是很理想 11 测验结果在实际应用中受到很大的限制教育与心理测量都是间接测量测量中主试记录下被试的反应向量这些反应向量并不是直接测量但提供了推断测值的依据与其它实验测量一样要获得对被试真实值的有效推断必须控制影响测验结果的各种误差变量经典测验理论为此采用了两种技术其一标准化技术在实际应用中常见的标准化技术包括命题组卷的标准化施测过程的标准化评分的标准化测验分数解释的标准化等 2 标准化技术的应用使得可以控制无关因素的影响从而减少这部分的误差但是标准化本身也意味着它是一种约束标准化越是完善测验情境就离实际生活情境越远而研究与实际情景的相似 46 收稿日期 2005 01 18 作者简介纪凌开 1972 男江西上饶人湖北大学教育学院教师性则是外部效度的关键性因素之一 3 这种相似性程度越高研究结果的可应用性也越好这一点体现了对人的测量与对客观物体测量的有着较大的不同其二随机化技术随机化思想是由费歇尔提出 4 是当代测量理论最具有意义的成就之一所谓随机化原则就是在总体取样中采用随机化程序使得总体中的每一个体被抽取的机会均等这样具有不同特征水平的个体在被抽取以后将会相互抵消和平衡个体之间的天然差异从而使得不可控制的无关因素影响所造成的误差在总体效果上不能形成一种系统误差从而达到对误差的有效控制理论上测验本身只是一个工具它对于不同的被试有着不同的精度和区分能力例如一道高等数学题对于一个初中学生和一个这个领域的专家而言这个题目就完全失去了辨别力而只有对刚学习过这个知识点的学生而言它才可能是一个合适项目因此要估计出测验中误差对被试的影响严格地说只有将测验对这个被试实施大数目的重复施测才可以利用CTT理论分数模型中误差正态分布假设从而获得误差的影响量的大小但这在对客观事物的测量时是可以做到的因为物不存在着学习或其它的主观能动力的累积效应但对于人而言情况就不一样了为此 CTT理论采用信度的概念来解决这个问题但在CTT中的信度本身存在着很大的问题这将在下面专门详细剖析这个问题 21 受测者的特质水平依赖于具体的测验理论上受测者的特质水平不应该受测验工具具体的影响但实际上 CTT控制误差应用标准化技术但其标准化的对象是测验的各种外部变量对测验本身即测验的项目的性质却没有也不可能实现标准化这就使得设计来测量相同能力的两个不同测验上的分数即使其测量的外部条件都已标准化其间一般都是不等的因为每一个测验包括了它独特的项目集并且每一项目的性质也不相同从测量学观点看项目的这种性质是实验中的噪声或者是逃脱了标准化的误差变量这一事实造成了测验分数对具体测验的依赖性迫使经典测验理论要么使用统一试卷要么使用实际上并不平行的所谓平行试卷 1 实际上严格的平行测验在实践中是不可能得到的这种处理方法给实际操作带来困难也给结果解释带来较大的误差 31 测验参数具有对被试样本的很强的依赖性经典测验理论指标中最主要的就是测验的信度效度和测验项目的难度区分度要施行高质量的测验离不开对这四个度的准确估计但是在经典测验理论中这些参数的估计对样本的依赖性是很大的最明显的例子就是项目难度对于同一项目若样本的群体水平较低就有较高的难度估计值若样本的群体水平较高则又会有较低的难度估计值项目区分度从本质上讲是样本群体的项目分与测验总分之间的相关系数而众所周知的是相关系数的估计受样本全距的影响很大样本全距宽相关系数值大样本全距窄相关系数值小测验的信度和效度也主要通过相关分析估计因此同样受到样本全距的影响为此经典测验理论为避免抽样偏差对参数估计的影响特别强调样本对总体的代表性但经典理论应用的是随机抽样随机抽样的偏差总是存在而有时是会很大的更何况在实际操作中囿于客观条件的限制有时还做不到真正的随机抽样参数估计值的这种样本依赖性使得所估参数对测验的分析仅是具有有限价值 41 信度指标在实践应用不能起到应有的指导作用从本质上讲信度是测量随机误差的指标对于同一测验而言如果它施测于不同特质水平的对象则应该有不同的精度只有在测验与被试特质水平相近的情况下测验才能取得较好的精度这是一个常识比如一份测验对于高水平者而言可能过易对于低水平者而言则过难都不能测出被试的真实水平从而造成很大的误差 CTT中根据真分数模型测验信度是真分数方差与原始分数方差之比按此定义测验信度实际上是不能计算的因为这个定义除了原始分数方差实际可得真分数方差与误差分数方差都是无从求取为实际估计测验信度经典测验理论又提出了平行测验概念或等价测验概念 1 从而推演出若干信度估计公式但如前所述严格平行的测验是不存在的等价的测验也是很难获取在此基础上估计的测验信度很难达到比较高的精确程度测量的重要目标就是要提高测验质量降低测验误差而作为测验误差指标的测验信度在经典测验理论中却首先得不到精确估计应该是一个缺陷其次 CTT中信度的定义无法适应不同 56 的被试在实际实测时有着不同精度这一客观事实因为在CTT中每个测验都只有一个信度值即每个测验对于不同的被试都只有一个测量误差的指标从估计与使用来说都是非常的方便实际上这应该是经典理论的一个很大的缺陷是难以令人满意的使得CTT在实际测验实践中不能起到应有的指导作用显然对于大多数被试来说一个误差值对他们的描写不是偏高了就是偏低了另外测验是由项目组成一个测验只有一个信度值各项目在测验总信度中作用如何也无法回答这也是一个不足之处 51 特质水平如能力量表与测验难度量表不具备同质性测验工作者应用测验试题测量被试水平显然应该选择最适合被试能力水平的试题才有针对性但是在经典测验理论中被试能力量表是测验的卷面总分项目的难度量表按照CTT 2 4 是被试群体的得分通过率因此被试卷面总分的参照系是测验的全部项目被试得分80表示该被试正确作答了全部项目的百分之八十项目难度量表的参照系是被试群体项目难度0 80表示有百分之八十的被试正确作答该项目由于两个量表的参照系完全不同我们无法判断那难度为0 80的项目是否就与得分为80分的被试特质水平相匹配由于难度量表与能力量表的不一致性虽然两个指标各自的意义都非常清楚但是由于没有把他们定义在同一个度量标尺上从而失去了精确指导测验编制的作用因为测量者无法知晓对于考分为80的被试的适宜项目的难度值是否0 2 或0 8 更深入的研究可以发现经典测验理论的所有项目参数与被试能力参数之间的关系都是非常含混泛化的一份所有项目参数均已知的测验施测于一个能力水平参数已知的被试其在各个项目上的反应情况将如何结果分数将会是多少以及测量的误差将会有多大都是事先无法估计的这种现象说明经典测验理论的参数指标对测验活动的指导价值是相当有限的随着政治经济文化的发展当代社会需要开发出功能更为齐全适应面更为广泛测量精度更高的测验例如如何实现自适应测验如何实现建立大型有价值富有效率的题库如何实现测验之间有效的等值如何实现测验的公平性等等问题成为实践上的迫切需要对于这些需求鉴于CTT的各种局限性它对目前这种测验运动的飞速发展的指导作用已经显得力不从心社会需要建立更为科学的心理与教育测量理论去指导丰富多变的测量实践目前一种以项目分析 5 为基础且建立在潜在特质理论和统计理论基础上的项目反应理论应运而生项目反应理论比较成功地应用了实验误差控制的统计调整技术在测验的较为微观领域即测验项目上开展研究建起了项目反应模型将测验项目的性质噪声对测量的影响参数化再通过模型控制这些参数从而达到控制测量误差的目的项目反应理论的兴起

人人文库> 全部分类> 生活休闲 > 科普知识

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

经典测验理论的局限性评析.pdf

文档简介

温馨提示

最新文档

评论

经典测验理论的局限性评析.pdf

文档简介

温馨提示

最新文档

评论

相关文档