


全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2005年8月 第23卷 第4期 湖北大学成人教育学院学报 Journal of A dult Education College of HubeiU niversity A ug 2005 Vol 23 No 4 经典测验理论的局限性评析 纪凌开 湖北大学教育学院 武汉 430062 摘 要 本文着重从实践应用角度对经典测验理论的一些不足进行系统的分析 并指出当前测 验理论的发展方向 关键词 经典测验理论CTT 局限性 发展趋势 中图分类号 B84112 文献标识码 A 文章编号 1009 0444 2005 04 0064 03 经典测验理论 Classical Test Theory 起源 于上世纪初Spearman有关智力和智力测验的著 名研究 并由Novick给出了最终的公理化形 式 1 Spearman认为任何心理测验所得到的分数 X 都是由反映被试稳定心理特征的 真分数 T 例如在教育考试中考生的真实能力水平 和 由随机因素例如考试中考生的情绪 考场的因 素等所造成的实际成绩与其真正能力水平的差 异 误差分数 e 所组成 即X T e 这个分数 模型中隐含了三个基本假设 1 1 模型中的真分 数 T 是相对稳定的 它刻划的是被试某种比较 稳定的心理特质 比如在教育测验中考生的真实 能力水平 对相同对象多次重复测量的误差分数 e 如考生的当时的情绪状态或监考人员因素或 测验试题的难度排列顺序等造成考生实际成绩离 其真实能力水平的差异 呈正态分布 2 真分数 和误差分数相互独立 3 真分数分数与误差分数 最终可简单合成测验分数 在此基础上 建立了 CTT理论的信度和效度理论 从而为奠定了整个 经典测验理论的基础 经典测验理论对心理与教育测量理论和实践 的贡献都是巨大的 迄今为止 我国关于教育测验 的信度与效度的理论依然还是以经典测验理论为 基础的 但是随着社会的发展 测验在教育考试 人才选拔 业绩评估 心理特质描述与诊断等领域 中的作用不断提高 人们对测验理论的要求也日 益提高 但是CTT理论在指导日益发展的测验 运动中却渐力不从心 这主要源于其本身存在着 一些先天上的不足 一 CTT的不足剖析 一个测验理论在测验中强有力的指导功能源 于理论模型是否有利于指导真实有效地刻划其所 测验的被试的心理特质水平及其量化的指标是否 具有稳定性或可靠性 但是CTT在这两个方面 的表现都不是很理想 11 测验结果在实际应用中受到很大的限制 教育与心理测量都是间接测量 测量中主试 记录下被试的反应向量 这些反应向量并不是直 接测量 但提供了推断测值的依据 与其它实验测 量一样 要获得对被试真实值的有效推断 必须控 制影响测验结果的各种误差变量 经典测验理论 为此采用了两种技术 其一 标准化技术 在实际应用中常见的标准 化技术包括命题组卷的标准化 施测过程的标准 化 评分的标准化 测验分数解释的标准化等 2 标准化技术的应用使得可以控制无关因素的影 响 从而减少这部分的误差 但是标准化本身也意 味着它是一种约束 标准化越是完善 测验情境就 离实际生活情境越远 而 研究与实际情景的相似 46 收稿日期 2005 01 18 作者简介 纪凌开 1972 男 江西上饶人 湖北大学教育学院教师 性则是外部效度的关键性因素之一 3 这种相似 性程度越高研究结果的可应用性也越好 这一点 体现了对人的测量与对客观物体测量的有着较大 的不同 其二 随机化技术 随机化思想是由费歇尔提 出 4 是当代测量理论最具有意义的成就之一 所 谓随机化原则就是在总体取样中采用随机化程 序 使得总体中的每一个体被抽取的机会均等 这 样具有不同特征水平的个体在被抽取以后 将会 相互抵消和平衡个体之间的天然差异 从而使得 不可控制的无关因素影响所造成的误差在总体效 果上不能形成一种系统误差 从而达到对误差的 有效控制 理论上 测验本身只是一个工具 它对 于不同的被试有着不同的精度和区分能力 例如 一道高等数学题对于一个初中学生和一个这个领 域的专家而言 这个题目就完全失去了辨别力 而 只有对刚学习过这个知识点的学生而言 它才可 能是一个合适项目 因此要估计出测验中误差对 被试的影响 严格地说 只有将测验对这个被试实 施大数目的重复施测 才可以利用CTT理论分 数模型中误差正态分布假设 从而获得误差的影 响量的大小 但这在对客观事物的测量时是可以 做到的 因为物不存在着学习或其它的主观能动 力的累积效应 但对于人而言 情况就不一样了 为此 CTT理论采用信度的概念来解决这个问 题 但在CTT中的信度本身存在着很大的问题 这将在下面专门详细剖析这个问题 21 受测者的特质水平依赖于具体的测验 理论上 受测者的特质水平不应该受测验工 具 具体 的影响 但实际上 CTT控制误差应用 标准化技术 但其标准化的对象是测验的各种外 部变量 对测验本身即测验的项目的 性质 却没 有也不可能实现标准化 这就使得设计来测量相 同能力的两个不同测验上的分数 即使其测量的 外部条件都已标准化 其间一般都是不等的 因 为 每一个测验包括了它独特的项目集 并且每一 项目的性质也不相同 从测量学观点看 项目的这 种性质是实验中的 噪声 或者是逃脱了标准化的 误差变量 这一事实造成了测验分数对具体测验 的依赖性 迫使经典测验理论要么使用统一试卷 要么使用实际上并不平行的所谓 平行试卷 1 实际上 严格的平行测验在实践中是不可能得到 的 这种处理方法 给实际操作带来困难 也给结 果解释带来较大的误差 31 测验参数具有对被试样本的很强的依赖 性 经典测验理论指标中最主要的就是测验的信 度 效度和测验项目的难度 区分度 要施行高质 量的测验离不开对这四个 度 的准确估计 但是 在经典测验理论中 这些参数的估计对样本的依 赖性是很大的 最明显的例子就是项目难度 对 于同一项目 若样本的群体水平较低 就有较高的 难度估计值 若样本的群体水平较高 则又会有较 低的难度估计值 项目区分度从本质上讲是样本 群体的项目分与测验总分之间的相关系数 而众 所周知的是 相关系数的估计受样本全距的影响 很大 样本全距宽 相关系数值大 样本全距窄 相 关系数值小 测验的信度和效度也主要通过相关 分析估计 因此同样受到样本全距的影响 为此 经典测验理论为避免抽样偏差对参数估计的影 响 特别强调样本对总体的代表性 但经典理论应 用的是随机抽样 随机抽样的偏差总是存在 而有 时是会很大的 更何况在实际操作中 囿于客观条 件的限制 有时还做不到真正的随机抽样 参数估 计值的这种样本依赖性使得所估参数对测验的分 析仅是具有有限价值 41 信度指标在实践应用不能起到应有的指 导作用 从本质上讲 信度是测量随机误差的指标 对 于同一测验而言 如果它施测于不同特质水平的 对象 则应该有不同的精度 只有在测验与被试特 质水平相近的情况下 测验才能取得较好的精度 这是一个常识 比如一份测验对于高水平者而言 可能过易 对于低水平者而言 则过难 都不能测 出被试的真实水平 从而造成很大的误差 CTT中 根据真分数模型 测验信度是真分 数方差与原始分数方差之比 按此定义 测验信度 实际上是不能计算的 因为这个定义除了原始分 数方差实际可得 真分数方差与误差分数方差都 是无从求取 为实际估计测验信度 经典测验理论 又提出了平行测验概念或等价测验概念 1 从而 推演出若干信度估计公式 但如前所述 严格平行 的测验是不存在的 等价的测验也是很难获取 在 此基础上估计的测验信度很难达到比较高的精确 程度 测量的重要目标就是要提高测验质量 降低 测验误差 而作为测验误差指标的测验信度在经 典测验理论中却首先得不到精确估计 应该是一 个缺陷 其次 CTT中信度的定义无法适应不同 56 的被试在实际实测时有着不同精度这一客观事 实 因为在CTT中 每个测验都只有一个信度 值 即每个测验对于不同的被试都只有一个测量 误差的指标 从估计与使用来说都是非常的方便 实际上这应该是经典理论的一个很大的缺陷 是 难以令人满意的 使得CTT在实际测验实践中 不能起到应有的指导作用 显然 对于大多数被试 来说 一个误差值对他们的描写 不是偏高了就是 偏低了 另外 测验是由项目组成 一个测验只有 一个信度值 各项目在测验总信度中作用如何 也 无法回答 这也是一个不足之处 51 特质水平 如能力 量表与测验难度量表 不具备同质性 测验工作者应用测验试题测量被试水平 显 然应该选择最适合被试能力水平的试题才有针对 性 但是在经典测验理论中被试能力量表是测验 的卷面总分 项目的难度量表按照CTT 2 4 是被 试群体的得分通过率 因此 被试卷面总分的参照 系是测验的全部项目 被试得分80表示该被试正 确作答了全部项目的百分之八十 项目难度量表 的参照系是被试群体 项目难度0 80表示有百分 之八十的被试正确作答该项目 由于两个量表的 参照系完全不同 我们无法判断那难度为0 80的 项目是否就与得分为80分的被试特质水平相匹 配 由于难度量表与能力量表的不一致性 虽然两 个指标各自的意义都非常清楚 但是由于没有把 他们定义在同一个度量标尺上 从而失去了精确 指导测验编制的作用 因为测量者无法知晓对于 考分为80的被试的适宜项目的难度值是否0 2 或0 8 更深入的研究可以发现 经典测验理论的 所有项目参数与被试能力参数之间的关系都是非 常含混泛化的 一份所有项目参数均已知的测验 施测于一个能力水平参数已知的被试 其在各个 项目上的反应情况将如何 结果分数将会是多少 以及测量的误差将会有多大 都是事先无法估计 的 这种现象说明 经典测验理论的参数指标对测 验活动的指导价值是相当有限的 随着政治 经济 文化的发展 当代社会需要 开发出功能更为齐全 适应面更为广泛 测量精度 更高的测验 例如 如何实现自适应测验 如何实 现建立大型 有价值 富有效率的题库 如何实现 测验之间有效的等值 如何实现测验的公平性等 等问题成为实践上的迫切需要 对于这些需求 鉴 于CTT的各种局限性 它对目前这种测验运动 的飞速发展的指导作用已经显得力不从心 社会 需要建立更为科学的心理与教育测量理论 去指 导丰富多变的测量实践 目前 一种以项目分析 5 为基础且建立在潜在特质理论和统计理论基础上 的项目反应理论应运而生 项目反应理论比较成 功地应用了实验误差控制的统计调整技术 在测 验的较为微观领域即测验项目上开展研究 建起 了项目反应模型 将测验项目的 性质 噪声对测 量的影响参数化 再通过模型控制这些参数从而 达到控制测量误差的目的 项目反应理论的兴起
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年大学华文教育专业题库- 大学生文学素养与自主学习能力
- 2025年造价工程师案例分析模拟试卷:工程造价咨询行业案例分析解析试题
- 2025年大学科学教育专业题库- 科学教育的专业发展规划
- 2025年大学工会学专业题库- 工会学专业教学资源整合与共享
- 2025年注册会计师考试《会计》会计差错更正练习试题
- 2025年大学工会学专业题库- 工会在城市化进程中的支持与引导
- 2025年大学劳动教育专业题库- 劳动教育与教师专业素养提升
- 2025年造价工程师案例分析模拟试卷:工程造价咨询行业案例分析创新思维实战经验试题
- 2025年中学教师资格考试《综合素质》教育案例解析试题型(含答案)
- 2025年大学人文教育专业题库- 人文教育对学生判断力的培养
- 2025湖南益阳安化县事业单位招聘工作人员61人考试参考试题及答案解析
- 7 呼风唤雨的世纪 课件
- 电瓶托盘堆垛车安全培训课件
- 快递分拣中心操作流程及安全规范
- 第七章-辐射防护分析课件
- 研究生英语阅读综合教程reading more
- 比较思想政治教育学-课件
- 眼科学教学课件:眼睑病
- ZXONE8700技术规范书
- 微观经济学生产与成本理论
- 环境监测第2章(2)——水和废水监测ppt课件
评论
0/150
提交评论