




已阅读5页,还剩7页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
课程性质和教学要求课程性质和教学要求 课程的性质课程的性质 教育测量与评价 是教育测量学与教育评价学内容的整合并侧重于教育测 量的一门综合性教育课程 它着力探讨对教育教学效果进行测量 评价的原理和方法 是 一门带有综合性 技术性 实践性 应用性等特征的应用性学科 是实现教育科学研究与 教育管理科学化所必须借助的一门科学 也是教育学专业和小学教育专业所开设的一门必 修专业基础课程 教学目标和要求教学目标和要求 理解 教育测量与评价 的基本概念 原理和方法 能正确使用各类标 准化的教育测验 会作测验质量分析 能正确解释分数的含义 并学会运用这些知识 对 学校教育 教学和研究实践中的实际问题 做出比较正确与合理的判断和评价 以促进教 育管理现代化 教育研究科学化 第一章第一章 教育测量与评价的学科发展教育测量与评价的学科发展 教育测量与评价的基本问题 教育测量与评价的发展历史 教育测量与评价的学科地位和作用 1 测量的定义测量的定义 史蒂文斯曾对测量作出以下定义 就其广义来说 测量是按照法则给事物指派数字 我国有些学者认为 测量是对客观事物进行某种数量化的测定 测量是按照一定的 法则 用数字方式对事物的属性进行描述的过程 本书的观点 从广义上讲 测量就是根据某些法则与程序 用数字对事物在量上的规定性 予以确定和描述的过程 从以上对测量所下的各种定义可以看出 这种对事物进行区分的过程 必须是按照一定 法则的 区分的结果必须能够用数字的方式进行描述的 2 测量的要素测量的要素 1 测量的量具 测量的量具是指依据某些科学原理和法则 发展出合适的量具或制定出科学的测量方案 2 测量的单位 不同的测量所采用的单位是不同的 理想的测量单位必须符合两个条件 要有确定的意义 要有相等的价值 教育测 量的单位不够完善 既无统一的单位 也不符合等距的要求 3 测量的参照点 量的参照点系测量的起点 要确定事物的量 必须有一个测量的起点 这个起点就叫做测 量的参照点 参照点有两种类型 绝对参照点 绝对零点 相对参照点 相对零点 理想的参 照点是绝对参照点 但教育测量中很难找到绝对零点 多采用人为指定的相对零点 3 教育测量的定义与特点教育测量的定义与特点 教育测量的定义 教育测量 就是针对学校教育影响下学生各方面的发展 侧重从量的规定性上予以确定 和描述的过程 教育测量的特点 1 本书的观点 间接性和推断性 测量对象的模糊性和测量误差的不可避免性 量表具有多样性 结果具有相对抽象性 2 其他的观点 有人概括为 间接性 相对性 金瑜 有人概括为 间接性 相对性 客观性 郑日昌 有人概括为 间接性 不确定性 明确的目的性 朱德全 宋乃庆 4 量表及其种类量表及其种类 量表的概念 量表 量尺 是指确定了测量单位和参照点并具有取值系统的测量工具 量表的类型 由于事物的属性 特征 不同 以及所制定的规则不同 致使用数的属性来描述事物属 性 特征 所达到的程度不同 这就产生了不同测量水平的问题 史蒂文斯根据对测量结果数量化描述的不同水平 将测量分成四种不同水平 称名测量 顺序测量 等距测量 比率测量 这四种不同水平的测量产生了相应的四种类型的量表 5 称名量表和顺序量表称名量表和顺序量表 称名量表 命名量表或名称量表或类别量表 称名量表是最低水平的测量量表 它只是用数字代表事物或用数字对事物进行分类 在 这种情况下 数字只是事物的符号 而没有任何数量的意义 适合于对称名量表进行统计分析的统计方法有百分比 次数 众数和 2 检验 顺序量表 等级量表 顺序量表是次低水平的测量量表 它不仅能够指代事物类别 而且能够表明不同类别的 大小 等级或事物具有某种特征的程度 在顺序量表中 数字只表示等级 大小和程度的 顺序 它既没有相等的单位 也没有绝对的零点 适合于对顺序量表进行统计分析的方法有中数 百分位数 等级相关系数和肯德尔和谐系 数等 6 等距量表和比率量表等距量表和比率量表 等距量表 等距量表是较高水平的测量量表 它不仅能够指代事物的类别 等级 而且具有相等的 单位 适合于对等距量表进行统计分析的方法有平均数 标准差 积差相关系数以及 t 检验和 F 检验 比率量表 等比量表 比率量表是最高水平的测量量表 它除了具有类别 等级 等距的特征外 还具有绝对零 点 适合于对比率量表进行统计分析的方法除了与等距量表相同外 还有几何平均数 变异系 数 7 教育测量属于哪一种水平的测量 为什么 教育测量属于哪一种水平的测量 为什么 答 1 教育测量属于顺序测量的水平 2 从所使用的参照点来说 教育测量领域的参照点均为相对参照点 从所使用的单位来说 教育测量的单位远没有其他测量的单位成熟和完善 既无统一的单位 也不符合等距的要求 8 教育评价的概念 如何理解教育评价的概念 如何理解 教育评价教育评价 的含义 的含义 评价的含义 广义的讲 评价泛指衡量 判断人物或事物的价值 教育评价的定义 对于什么是教育评价 专家 学者至今没有一个统一的认识 但具有代表性的观点有以 下几种 格兰朗德 评价是为了确定学生达到教学目标的程度 收集 分析和解释信息的系统过 程 评价包括对学生的定量描述和定性描述两方面 斯塔费尔比姆 评价是一种规定 获取和提供叙述性和判断性的过程 这些信息涉及研 究对象的目标 设计 实施和影响的价值及优缺点 以便指导如何决策 满足教学效能核 定的需要 并增加对研究对象的了解 美国教育评价标准委员会 评价是某些现象的价值如优缺点的系统调查 为教育决策提 供依据的过程 泰勒 评价评价的过程在本质上是确定课程和教学大纲在实际上实现教育目标的程度的 过程 德雷斯 所谓评价 就是决定某种活动 目的及程序的价值的过程 桥本重治 评价是与教育的目标和价值有明确关系的概念 是按照教育目标和价值观对 学生的学习成果及教育计划的效果等进行测量的过程 布鲁姆 评价乃是系统地收集证据用以确定学习者实际上是否发生某些变化 确定学生 个体变化的数量或程度 我国学者黄光扬 教育评价是指按照一定的价值标准和教育目标 利用测量和非测量的 种种方法系统地收集资料信息对学生的发展变化及其影响学生发展变化的各种要素进行价 值分析和价值判断 并为教育决策提供依据的过程 从上述对 评价 概念在教育教学活动情境下的各种描述中不难发现 教育评价包含以下 几个共同的要点 强调以教育目标为标准的价值判断过程 强调运用多种方法系统收集资料和信息 教育评价的内容既要以是教育计划 也要以是学生的学习结果 也要以是某种教 育现象 教学活动 教育目的或教育程序 强调为学生发展和教育决策服务 9 教育测量与教育评价的关系教育测量与教育评价的关系 测量与评价既有联系又有区别 教育评价最根本的特征是做出价值判断 而教育测量过 程的完结 在给出数量事实的描述与判断之后 不一定都要做出价值判断 从这个意义上 说 教育测量可以为教育评价提供价值判断的基本数量事实 教育测量是教育评价的基础 而教育评价往往是教育测量过程的继续 是对测量结果的解释与应用 并朝着价值判断与 释放教育功能的方向拓展 10 思考题 思考题 教育测量与教育评价有何区别 答 1 教育评价最根本的特征是做出价值判断 而教育测量在给出数量事实的描述与 判断之后 不一定都要做出价值判断 2 教育测量可以为教育评价提供价值判断的基本数量事实 教育测量是教育评价 的基础 而教育评价往往是教育测量过程的待续 是对测量结果的解释与应用 并朝着价 值判断与释放教育功能的方向拓展 11 教育评价与教育评估的关系教育评价与教育评估的关系 教育评价与教育评估这两个概念既有联系又有区别 第一 英语词源不同 教育评价通 常用 education evaluation 表示 教育评估通常用 educational assessment 表示 其意 义则多少有所差别 第二 源出相同 教育测量运动 美国著名的 八年研究 它们肯 定有想通与交叉之处 第三 汉语词义相近 评估 一词 含有 评判 评量 估 测 估算 等意思 教育评估可能有价值判断 也可能没有价值判断 它们在内容上有 交叉 也有区别 22 教育测量与评价的发展历史教育测量与评价的发展历史 1 中国是考试制度的发源地 2 中国科举制度的世界地位 3 教育测量学科的诞生 4 教育测量运动的蓬勃开展 5 美国的 八年研究 是教育评价的催生剂 6 教育测量与评价理论的发展 13 教育测量与评价的学科地位和作用教育测量与评价的学科地位和作用 1 教育测量与评价是现代教育科学研究的三大领域之一 2 教育测量与评价在教育改革中具有重要的作用 3 教育改革呼唤教育测量与评价更加科学化 4 教育测量与评价是教师的专业素养和能力 第二章第二章 教育测量与评价的类型和功能教育测量与评价的类型和功能 教育测量与评价的主要类型 教育测量与评价的主要功能 1 教育测量与评价的类型教育测量与评价的类型 1 按测量与评价在教学中运用的时机分类 教育测量与评价可分为 1 形成性测量与评价 形成性测量与评价是在教学活动过程中经常实施的 其目 的 其一 教师藉此获得教学过程中连续性的反馈 了解学生的学习效果 学习历程 学 习特点 学习困难等信息 作为随时修正自己教学的参考 其二 学生根据反馈的结果获 知自己学习后的表现情况 从而肯定或修正自己以后的学习方式 2 诊断性测量与评价 诊断性测量与评价是对经常表现出学习困难的学生所作的 测量与评价 它的目的是对个人的问题行为及其原因进行诊断 诊断性测量与评价多半是 在形成性测量与评价之后实施 3 终结性测量与评价 终结性测量与评价是用于教学结束后 其目的 其一 在教 学目标之下 检查学生一学期的学业达到了什么样程度 从而判断教学效果的得失 其二 根据终结性测量与评价的结果 评定学生的学业成绩 并将评定结果通知学生家长或记入 档案 2 按解释测量结果或评价结果时的参照点分类 教育测量与评价可分为 1 常模参照测量与评价 常模参照测量与评价是将被试水平与测验常模相比较 以 评价被试在团体中的相对地位的一种测量与评价类型 2 标准参照测量与评价 目标参照测量与评价 标准参照测量与评价是将被试的 表现与既定的教育目标或行为标准相比较 以评价被试在多大程度上达到该标准 3 潜力参照测量与评价 潜力参照测量与评价是将被试实际水平与其自身潜在水平 潜力 相比较 以评价被试有无充分发挥自身潜力为目的 在强调人性化 动态化和个 别化的现代教育测评潮流下 潜力参照测量与评价理应发挥更大的作用 3 按测量与评价被试行为表现的性质分类 教育测量与评价可分为 1 最佳行为测量与评价 最佳行为测量与评价是以测量最佳行为表现为目的 凡是 以成就或能力的高低为评价基础的 都属于最佳行为测量与评价 2 典型行为测量与评价 典型行为测量与评价的目的不在测量与评价被试能力的高 低 而是测量与评价其是否具备某种 或某些 典型行为 在这些测量过程 希望被试以 其平常的典型状况来回答 无所谓正确与错误之分 在重视学生个性发展和全人教育的现 代教育理念下 典型测量与评价的方法具有特殊的意义 4 按测量与评价的内容分类 教育测量与评价可分为 1 智力测量与评价 智力测量与评价的目的在于测量被试的智力并对被试的智力 发展水平和特点做出评价 2 能力倾向测量与评价 能力倾向测量与评价的目的在于测量与评价个人的潜在 才能 预测个人的能力发展倾向 能力倾向测量与评价一般可分为两种 一种是关于一般 能力倾向的测量与评价 旨在探测个人多方面的潜能 另一种是特殊能力倾向测量与评价 旨在探测个人某方面的特殊潜在能力 3 成就测量与评价 成就测量与评价的目的在于测量并评价个人在接受教育或训 练后的成就 成就测量与评价有两种类型 一是学科成就测验 旨在测量与评价被试在某 一科目上的学习成就 二是综合成就测验 旨在测量与评价被试在多个学科或综合学科上 学习成就 4 人格测量与评价 个性测量与评价 人格测量与评价的目的在于测量与评价 被试的人格心理特征 诸如气质 性格 兴趣 态度 动机 适应性等方面的心理特征 用于人格测量与评价的量具主要分为两类 一类是自陈人格问卷 另一类是投射测验 5 按测量与评价的对象分类 教育测量与评价可分为 1 个别测量与评价 个别测量与评价是指同一主试在同一时间内只能测量一个被 试 这种形式的测量与评价 主试对被试行为反应有较多的观察和控制机会 主试与被试 有更多的交流 这可让主试获得更多的信息 也可以建立较融洽的主被试合作关系 有利 于测量与评价的进行 但是个别测量与评价费时 费力 特别是主试必须经过严格的训练 才能胜任 2 团体测量与评价 团体测量与评价是指在同一时间内由一位主试测量许多位被 试 这种形式的测量与评价突出的优点是节省时间 可以在短时期内收集到大量的测量数 据 但由于同一时间内接受测量的被试多 不易有效地控制被试的行为 容易产生测量误 差 从而影响测量的信度和效度 6 按测量与评价的材料 测验材料 分类 教育测量与评价可分为 1 文字测量与评价 文字测验 纸笔测验 文字测量与评价的测验内容是以文 字的形式表现的 被试也用文字作答的一种测量与评价的方式 对于不同教育背景的被试 这种测量与评价的有效性将受到一定程度的影响 2 非文字测量与评价 非文字测验 操作测验 非文字测量与评价的测验内容 是通过图形 仪器 工具 实物 模型等形式表现的 被试通过指认 手工操作向主试提 供答案的一种测量与评价的方式 这种形式的测量与评价不受或较少受文化背景的影响与 限制 7 按测量与评价量具有的标准化程度分类 教育测量与评价可分为 1 标准化测量与评价 标准化测验 标准化测量与评价的测验是指由测量专家 严格按照测验编制程序而精心编制的一种测验 通常标准化测验都具有一定的编制程序 包括试题的抽样 难度 区分度指标分析 明确的施测指导语和施测程度 计分标准 解 释分数的常模 以及信度 效度等指标资料 2 非标准化测量与评价 非标准化测量与评价的测验编制相对自由 没有严格按 照测验编制程序进行 教师自编测验常由教师依照自己的教学需要和教学目标而自行编制 的测验 是一种非标准化测验 2 教育测量与评价的功能教育测量与评价的功能 1 实现教育判断的功能 教育测量与评价的最基本 最原始 最现实 最普遍的功能 就是实现教育判断 具体来 说就是实现测量评定 事实判断 价值判断 问题诊断和区分选拔等功能 2 改进教师教学的功能 通过教育测量与评价的结果 教师能够了解学生的起点行为 作为改进教学 补救教 与学的依据 确保教学目标的达到 从而充分发挥其改进教师教学的功能 3 促进学生学习的功能 教育测量与评价具有激励学生的学习动机 帮助学生的记忆和促进迁移 促进学生自我评 价等促进学生学习的功能 4 行使教育管理的功能 教育测量与评价具有控制 指挥 导向 计划 检查 考核 评估和监督等方面的作用 通过对教师 目标和过程等方面管理来行使其教育管理的功能 第三章第三章 教育测量与评价的质量特性教育测量与评价的质量特性 教育测量与评价的信度 教育测量与评价的效度 教育测量与评价中项目的难度 教育测量与评价中项目的区分度 1 信度的意义信度的意义 信度是指测量结果的稳定性程度 记为 rXX 换一句话说 信度是指用同一测量工具 反复测量同一种物质对象所得多次测量结果间的一致性程度 测验信度是对测验工具及其操作的整体质量的一种量度 是测验性能的重要质量指标 如果测验本身抗干扰能力强 测验实施过程各方面误差因素都控制得好 多次施测所得分 数 测值 的一致性就高 那么测量信度高 人们在使用所得测值时就会感觉可靠 2 信度的统计定义信度的统计定义 定义 1 信度是一个被测团体真分数方差与观察分数方差之比 即 XX 2T 2X 定义 2 信度是一个被试团体的真分数与观察分数的相关系数的平方 即 XX 2TX 定义 3 信度是一个被试团体在测验 X A 卷 上的观察分数与在测验 X 的任意一个 平 行测验 X B 卷 上观察分数的相关系数 即 XX XX 3 重测信度 稳定性系数 重测信度 稳定性系数 1 重测信度是指用一个量表 测验或评价表 对同一组被施测两次所得结果的一致性程 度 其大小等于同一组被试在两次测验上所得分数的相关系数 2 重测信度基本假设 某测验所要测量的潜在特质 短期内不会随着时间推移而改变 3 重测信度适用于异质性测验 一个测验包括几个不同的部分 这几个部分分别测量几 个不同的心理特质 它们之间可能并不存在相关或相关较低 也适用于速度测验和运动技 能测验 4 复本信度 等值性系数或等值稳定性系数 复本信度 等值性系数或等值稳定性系数 1 复本信度是指两个平行测验 在试题格式 题数 难度 指导语说明 施测要求等 方面都相当 并且都用来测量相同潜在特质或属性 但试题又是不相同的测验 测量同一 批被试所得结果的一致性程度 其大小等于同一批被试在两个复本测验上所得分数的相关 系数 2 实施复本测验的方式 一是在同一个时间连续施测 此时所得的复本信度叫等值性 系数 二是间隔一段时间后施测 此时所得复本信度叫等值稳定性系数 3 使用复本信度首先要构造出两份或两份以上的真正的平行测验 这是一个很难达到 的条件 另外 重测信度的一些不足 在复本信度中仍然存在 需要加以克服 4 复本信度不仅适用于难度测验 也是估计速度测验信度的好方法 5 同质性信度的概念同质性信度的概念 1 同质性信度 内部一致性信度 是指测验内部所有题目间的一致性程度 这里题目间 的一致性含有两层意思 其一是指所有题目测的是同一种心理特质 其二是所有题目得分 之间都具有较高的正相关 2 同质性信度的基本假设 当一个测验具有较高的同特性信度时 说明测验主要测的是 某一单个心理特质 由于众多的题目测试了同一心理特质 那么实测结果就是该特质水平 的反映 3 同质性信度不适用于异质测验和速度测验 6 同质性信度的估计方法同质性信度的估计方法 1 分半信度 分半信度指是的将一个测验分成对等的两半后 所有被试在这两半上所得分数的一致性 程度 分半信度的计算方法和等值复本信度的方法类似 只不过分半信度计算的是两个 半测 验 上得分的相关系数 只是半个测验的信度 还必须用斯皮尔曼 布朗公式加以校正 2 库德 理查逊信度 该方法适合于测验题目全部为二分记分题的测验的内部一致性信度分析 常用的库德 理查逊公式有 3 克龙巴赫系数 当测验题型较多 并非都是二分记分题时 估计测验信度可采用克龙巴赫系数 其计算 公式为 4 荷伊特信度 1941 年荷伊特提出用方差分量比来估计测验内部一致性的方法 其估计值为 7 评分者信度评分者信度 评分者信度的含义 评分者信度是指多个评分者给同一批人的答卷进行评分的一致性程度 评分者信度的计算 1 当评分者人数为两人时 评分者信度等于两个评分者给同一批被试的答卷所评分数 的相关系数 依据数据形式 可采用不同的相关系数计算方法 2 当评分者人数多于两人时 评分者信度可用肯德尔和谐系数进行估计 8 标准参照测验的信度分析标准参照测验的信度分析 百分比一致性指标 PA 百分比一致性指标是指同一测验或两平行测验先后两次施测 其对被试的分类结果 一致的比例 其计算公式为 K 一致性系数 K 一致性系数是指实际被评定为一致的百分比与在理论上被评定为一致的最大可能 次数百分比的比率 其计算公式 K2 指数 标准参照测验关注决断的可靠性 而这种决断显然与被试团体的平均水平密切相 关 在考虑到这个因素的基础上 心理统计学家莱芬斯顿提出了 K2 指数作为考察标准参 照测验信度的指标 其计算公式为 9 测量标准误测量标准误 测量标准误的含义 测量标准误是指测验中所得测值偏离真分数的程度 记为 SE 测量标准误与测验信度的关系 测量标准误的意义 测量标准误是反映测量结果精确性和可靠性的又一指标 同时也是人们正确解释测验 分数的科学依据 10 效度的概念效度的概念 效度的意义 效度是指一个测验或量表实际能测出其所要测量的特性的程度 对这一概念 我们可 以从以下几个方面来理解 效度始终是针对一定测量目的而言的 效度只有程度上的差异 效度是针对测量结果而言的 评价一个测量是否有效要多角度 多方面地收集证据 效度的统计定义 效度可定义为目标真分数方差与观察分数方差之比 XY 2V 2X 效度与信度的关系 信度高是效度高的必要而非充分条件 效度系数不会大于信度系数的平方根 11 如何理解如何理解 效度效度 的意义 的意义 效度是指一个测验或量表实际能测出其所要测量的特性的程度 对这一概念 我们可以从 以下几个方面来理解 1 效度始终是针对一定测量目的而言的 2 效度只有程度上的差异 3 效度是针对测量结果而言的 4 评价一个测量是否有效要多角度 多方面地收集证据 12 内容效度内容效度 内容效度的含义及应用范围 内容效度是指测验题目样本对于应测内容与行为领域的代表性程度 如果是教学情境下 的成就测验 那么其内容效度就是看测验题目样本能体现教学目标与教材要求的程度 内容效度主要适用于教育测量 尤其是学业成就测验 的情境中 也适合于某些用于选 拔和分类的职业测验 但不适合某些心理测验 如智力测验 人格测验 内容效度的分析方法 逻辑分析的方法 内容效度的逻辑分析法 即依靠有关专家对测验题目与应测内容范围的吻合程度作出判 断 内容效度的量化分析方法 该方法要求专家在仔细审阅测验目标的基础上 独立地对测验的每个题目作出判断 该题目实际测到的内容与其欲测量的目标内容之间相关程度如何 并用四点量表 用完 全无关 有点相关 相关较密切 完全相关来表示 来表示这种相关的程度大小 当两位 专家完成此项工作后 统计弱相关 完全无关 有点相关 强相关 相关较密切 完全相 关 的题目数 则此测验的内容效度系数为 内容效度系数 D A B C D D 表示 两位专家都判定为强相关的题目数 13 结构效度结构效度 结构效度的含义 结构效度是指一个测验或量表实际测到所要测量的理论结构 结构是指心理学或社会学 上的一种理论构想或特质 的程度 结构效度的验证一般步骤 提出有关理论结构的说明 并据此设计测量用的试题 提出可以验证该理论结构是存在的假设说明 采用各种方法收集实际的资料 以验证第二步提出的假设的正确性 收集其他类型的辅助证据 淘汰与理论结构相反的试题 或是修正理论 并重复第二 和第三步 直到下述的假设得到验证 即测验的结构效度获得支持为止 结构效度的验证方法 测验内部寻找证据法 这种方法是通过研究测验内部结构来验证测验的结构效度 它主要包括内容效度 作答 过程分析 测验的同质性和因素分析等四个方面 测验之间寻找证据法 这一方法的特点是同时考察两个或多个测验间的相互关系 从而来验证测验的结构效度 它包括相容效度 聚合效度 区分效度和 多种特质 多种方法矩阵法 等具体方法 考察测验的实证效度法 如果一个测验有实证效度 则可以拿该测验所预测的效标的性质与种类作为该测验的结 构效度指标 至少可以从效标的性质与种类来推论测量的结构效度 主要方法有差异被试 比较法和先后测试分析法 14 试比较内容效度 结构效度 效标关联效度的异同试比较内容效度 结构效度 效标关联效度的异同 相同点 三者都是作为检验测验有效程度的指标 都可以作为评价一个测验优劣的标准 不同点 考察的角度不同 内容效度是指测验题目样本对于应测内容与行为领域的代 表性程度 结构效度是指一个测验或量表实际测到所要测量的理论结构 结构是指心理学 或社会学上的一种理论构想或特质 的程度 效标关联效度是指一个测验对于处于特定情 境中的个体行为进行预测时的有效性 应用的范围不同 内容效度主要适用于教育测量 尤其是学业成就测验 的情境中 也适合于某些用于选拔和分类的职业测验 但对于某些特质的心理测验 如智力测验 人 格测验 内容效度并不适合 结构效度主要用于智力测验 人格测验等一些心理测验方面 效标关联效度适用于能够找到有效效标的测验 常用的效标主要有 学业成就 等级评定 临床诊断 专门的训练成绩 实际的工作表现 对团体的区分能力以及其它现成的有效测 验 确定的方法不同 内容效度确定的主要方法是逻辑分析法 量化分析法 结构效度确 定的主要方法是测验内部寻找证据法 测验之间寻找证据法和考察测验的实证效度法 效 标关联效度确定的主要方法有相关法 显著差异法 命中率 15 难度的概念难度的概念 题目或项目的难度 就是指被试完成题目或项目任务时所遇到的困难程度 定量刻画被试 作答一个题目的困难程度的量数 就叫做题目的难度系数 也常称为难度值 用符号 P 表 示 16 难度系数的计算方法难度系数的计算方法 以全体被试得分率为难度系数 如果一个题目的难度大 则被试得高分的可能性小 反之 如果题目的难度小 则被 试得高分的可能性就大 因此 用得分率可以作为难度系数的指标 其计算公式为 如果题目是选择题的话 被试有可能猜对而得分 因此 对选择题的难度系数有人建 议需用下面的公式进行校正 CP P 1 1 以全体被试失分率为难度系数 直接建立在通过率基础上的难度系数 P 值越大试题越容易 P 值越小试题越难做 这与人们观念可能不一致 因此有人提议用失分率 q 来表示难度 计算公式为 q 1 P 以两端组被试得分率的均值为难度系数 该方法是分别计算高分组被试和低分组被试的得分率 然后求取二者的平均值作为难度 系数 公式为 P PH PL 2 以两端组被试的得分率作为难度系数的具体计算步骤 按被试的总分 将全体被试从高到低进行排序 从高分往下找 找出高分组 由低分往上找 找出低分组 两组人数分别占总人数的 分别计算高分组 低分组的被试在该题目上的平均得分 代入公式 分别计算分组和低分组被试在同一个题目上的难度系数 把 PH 和 PL 代入公式 P PH PL 2 计算这个题目的难度系数 17 难度的等距变换难度的等距变换 用上述方法计算出来的难度系数 都属于顺序变量 不具有相等的单位 因此 通过 P 值的比较并不能客观指出难度之间差异大小 这对我们作进一步的难度分析带来了困难 为了解决这个问题 人们常假设每个试题所要测量的潜在特质或能力是呈正态分布的 然后就可以根据正态分布曲线 将试题的难度值 P 作为正态曲线下的 概率 面积 转 换成具有相等单位的等距量表 即 Z 分数 标准分数 由于标准分数具有相等单位 属 于等距量表 所以 用标准分数作为题目难度的指标 为进一步作难度分析带来了一些方 便 18 测验题目的恰当难度和恰当难度分布测验题目的恰当难度和恰当难度分布 测验由多个题目所组成 显然 所有这些题目的难度取值都应该力求恰当 而且这些题 目分布状态也应合理 究竟怎样的题目难度与难度分布是合适的 这主要取决于测验的目 的与性质 19 常模参照测验 标准参照测验所要求的项目恰当难度及难度分布是什么 为什么 常模参照测验 标准参照测验所要求的项目恰当难度及难度分布是什么 为什么 1 常模参照测验的项目恰当难度是 P 值尽量接近 0 50 因为只有在这种情况下题目 的区分性能最好 常模参照测验所要求的项目恰当难度分布是 围绕这个点 有一个适当宽的全距 这 样做的原因有以下两个 一是测验时 通常希望开始有几个难度较低的题目来稳定被试情 绪 末尾用几个难度稍大的题目以便只有少数高水平者才能通过 二是让全部项目都取 0 50 的难度 通常难以实现 当然 在允许有适当宽的全距的前提下 仍然要力争大多数 项目难度取值接近 0 50 2 标准参照测验的目的是要考察被试的水平是否达到应有要求 因而测验项目的难度 就不应由被试的实际通过率来决定 而应由项目的考核要求是否体现了应有标准或教学目 标来决定 无论项目通过率是高还是低 只要体现了应用的标准或教学目标 项目的难度 就是合理的恰当的 20 区分度的意义区分度的意义 题目区分度是指题目区别被试水平能力的量度 记为 D 区分度的分析方法 大约可以归纳成两类 一是外在效标法 即分析被试在测验题目 上的得分与外在客观标准上的表现之间的关系 二是内部一致性法 即分析被试在测题上 的得分与在整个测验总分之间的一致性程度 区分度的值域范围在 1 00 至 1 00 之间 通常 D 为正值 称作积极区分 D 为负 值 称作消极区分 D 为 0 称作无区分作用 具有积极区分作用的项目 其 D 值越大 区分的效果越好 21 区分度的计算区分度的计算 1 相关法 区分度的实质是题分与总分的相关 因此 各种计算相关系数的方法都可以用于计算 区分度 但具体采用哪一个 应根据题分 总分的数据形式而定 2 高低分组法 被试在测验分数序列中两端高分 低分组被认为是两个极端效标组 这两个极端效标 组间在特定题目上的反应差别程度可以刻画题目的区分能力 因此 类似于前面谈及应用 两端分组的办法来估计题目的难度系数一样 可用高分组在特定题目上的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年遂宁市中考地理试卷真题(含答案解析)
- 地理(广西卷)(A3考试版)
- 计算机网络基础教案1
- 设备购买合同
- 2025年天津市第二新华中学高一下第二次月考-地理试卷
- 幼儿园大班《认识人民币》课件
- 从中医师承指导老师学术思想看中医临床实践的发展方向
- 2024-2025学年下学期高二生物沪科版期末必刷常考题之生态系统的稳定性受到各种干扰的影响
- 建筑施工特种作业-桥(门)式起重机司机真题库-11
- 山东中考历史题目及答案
- 2024年中考地理模拟试题(共6套有答案)
- 江苏省苏州市2024-2025学年高一历史下学期期末考试试题含解析
- 安徽省马鞍山市2024-2025学年高一生物下学期期末考试试题
- 蔬菜农药残留检测合同
- YY 0117.1-2024外科植入物骨关节假体锻、铸件第1部分:Ti6Al4V钛合金锻件
- 任务6.4 IBP盘认知与操作课件讲解
- 2024年首届全国“红旗杯”班组长大赛考试题库800题(含答案)
- 基于3D打印技术的个性化正畸矫治器设计
- 河南省郑州市中原区2023-2024学年八年级下学期期末历史试卷
- GB/T 44087-2024北斗三号区域短报文通信用户终端技术要求与测试方法
- 资本论在中国智慧树知到期末考试答案2024年
评论
0/150
提交评论