




免费预览已结束,剩余140页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 教育测量与评价教案 第一篇 教育评价的基本原理与方法 第一章 教育测评概述 第一节 教育测量概述 一 测量的定义一 测量的定义 一般认为 测量系根据法则给事物分派数字 这里包含了测量三个方面的特性 法则法则 指测量的标准 也就是测量的依据和准则 即我们根据什么原理来进行测 量 法则也有好坏之分 使用好的法则可以得到比较理想的测量结果 而较差的法则 只能导致不准确的测量结果 要寻找和建立较好的测量法则是一件极为困难的事情 但不管什么法则的建立都是一个渐进的过程 事物事物 指测量的对象 也就是对什么进行测量 更明确地说 就是引起我们兴趣 的事物的属性或特征 不同的事物具有不同的属性或特征 所测量的事物是否具有一 致性 这是影响测量结果是否精确的一个重要原因 数字数字 这是测量结果的表现形式 是区别测量与定性评价的一个标志 数字大多 时候具有量的意义 这样它是代表一定的数值 这些数值具有自然数的特点 如区分 性 序列性或等级性 等距性和可加性 这些性质是我们进行运算的基础 必须指出 在测量中 我们是根据事物的属性和属性的大小来分派数字的 因此 必须考虑数字是否具有如上性质 同时还要考虑事物的性质和指派数字的原则 二 测量的三要素 1 单位 是我们用于计算的标准 理想的单位必须具备两个条件 一是要有确切的意义 即对同一单位 所有人的 理解意义要相同 不能出现不同的解释 二是要有相等的价值 即等值性 也就是相 邻两个单位点之间的差别是相等的 2 参照点 是计算的起点 一般分为绝对零点和相对零点 绝对零点指客观地存在着 0 这个数字 即完全没有 相对零点则是人们为了区 分或分出等级人为地指定出一个零点 即即使在 0 这个位置 也不说明事物的属性 是不存在的 3 量表 这是测量的工具 是具有一定单位和参照点的连续体 由于制订量表的单位和参照点不同 量表的种类也不同 一般从低到高 分为四 种水平 类别量表水平 称名量表 顺序量表水平 等级量表 等距量表水平 等 距量表 比率量表水平 比率量表 类别量表是最低水平的一种测量量表 它只是用数字代表事物和事物的归类 没 2 有任何数量的意义 如对性别 民族等可分类事物进行分类 其产生的数值不能用于 数量化分析 不能进行数学运算 最多只能进行百分比分类 顺序量表比类别量表要精确一些 其中数字不仅指明了事物类别 同时指明不同 类别的大小等级或具有某种属性的程度 等距量表不仅有大小关系 而且有相等的单位和相对的零点 这时数值可以进行 加减运算 但由于只是相对零点 所以不能进行乘除运算 比率量表是最高级和体现最精确的测量水平的一种测量量表 它既有等距的单位 又有绝对零点 因此可以加减乘除 大多数物理测量量表是比率量表 而教育测量中 的量表很难达到这一水平 三 什么是教育测量 教育测量是根据测量学的原理和方法对教育现象及其属性进行数量化研究的过程 主要包括对学生内在的精神属性的测量 如测量学生的学习成绩 智力水平 品德状 况 人格特征等 这里 要注意的是 第一 教育测量是一个数量化研究过程 所以 在进行教育测量时 要解决的第 一个问题是如何将我们所要测量到的人的各种属性量化表示的问题 在教育问题中 有许多往往很难加以量化 有时即使加以量化 但量化水平只能 停留在类别变量或顺序变量的层次 难以实现数量化分析 意义 这也是我们现在教 育测量和教育评价在社会上讨论非常激烈 人们十分关注 但又成效不大的原因所在 第二 教育测量主要测学生内在的精神属性 因而具有间接性 这就导致了误差 甚至错误的存在 一 教育测量的特点 1 测量结果的间接性 我们无法直接测量学生的内在心理特征 而只能通过其外 显行为 来间接测量其心理活动的特点与水平 也就是说 我们只能通过学生对测验 韪的反应和一些行为表现 运用推理 判断的方法 来间接地测量出他们的知识水平 智力高低和品德好坏 2 度量单位的相对性 教育测量的另一个特点是它的度量单位一般是相对的 即 是相对零点 必须经过转换后才能进行相应的数学分析 3 测量对象的复杂性 首先 学生的精神属性是内在的 不能直接测量 其次 它是多变的 因为学生是发展的 第三 有些主 客观因素也会影响测量的结果 如 精神状态 注意力 天气因素 紧张等 4 测量目的的针对性 四 教育测量的误差问题 测量中 误差是不可避免的 产生误差的原因主要有 一 测量的仪器和设备 测量工具的精度会影响测量的精确程度 二 所测量的事物的一致性程度 3 三 测量者的因素 五 教育测量学的作用 一 有利于提高教育教学水平 二 有利于提高教育管理水平 三 有利于发展教育研究方法 第二节 教育评价概述 一 什么是评价 评价 一词早在 900 多年前我国北宋时期就已出现 评价就是根据某种价值观对事物及其属性进行判断 衡量 也就是对人或物做出 好与坏 真与假 善与恶 美与丑 优与劣等判断 这里 价值观在评价中起着十分重要的作用 价值观不同 对同一事物会有不同 的评价 价值是客观的 但评价带有主观性 在哲学史上有几种不同的价值观 一种 是客观主义的价值观 认为价值是客观对象所固有的本性 是纯客观的东西 一种是 主观主义的价值观 认为价值是用来表达个人对事物的好恶情感的 是纯主观的东西 另一种是辩证唯物主义的价值观 认为价值是一种表明客体对主体的特殊效用性 是 主观性与客观性的统一 客观事物的效用性与主观的需要和愿望相结合 就具有了一 定的价值 符合的程度大 价值就越大 二 教育评价的定义 一 早期的界说 泰勒在 20 世纪 40 年代初将教育评价解释为 确定教育目标在实际上被理解到 何种程序的过程 后来日本学者进一步把它界定为 教育评价就是系统地 有步骤地从数量上测 量或从性质上描述儿童的学习过程和结果 据此判定是否达到了所期望的教育目标的 一种手段 这种解释和界说 认为以教育目标为依据 评量学习结果达到目标的程度 就是 教育评价 二 60 年代的界说 克龙巴赫对教育评价的阐释是基于突破行为目标模式的观点 提出 评价是为决 策提供信息的过程 后来有人对这一界说做了具体的描述 教育评价是一种有系统 地去寻找并搜集信息资料 以便协助决策者在诸种可行的途径 方案 中择一而行的 历程 这种观点强调了评价的信息作用 扩大和拓宽了评价的功能 范围 从广义上 宏观上对评价进行了创造性的解释 三 较深层的定义 斯克里文和豪斯的定义 评价是一种对优缺点和价值的评估 是一种既有描述 又有判断的活动 4 日本心理学家大桥正夫认为 教育评价就是对照教育目标 对教育行为产生的 变化进行价值上的判断 这种评价观点认为教育评价的着眼点在于教育现象的价值 也就是评价应当着重 判断教育的效果 看其是否具有价值 这里的关键主要是价值判断 尽管各国评价学 者对教育评价有不同的界说 但在这一点已相当一致 四 对教育评价的初步界定和理解 20 世纪 80 年代以来 我国教育界也对教育评价理论进行了初步探讨 对教育评价 的概念也进行了专门研究 在系统地学习 借鉴国外评价理论的同时 力图从我国实 际出发 对教育评价的含义作了一些描绘和阐释 在这些观点中 有些共同的认识 1 承认评价是一个过程 2 价值判断是评价的本质特征 3 以一定的教育价 值观为依据 4 采用一切可行的科学手段 根据上述观点 我们把教育评价界定为 教育评价是根据一定的价值观或教育目 标 运用可行的科学手段 通过系统地搜集信息 分析解释 对教育现象进行价值判 断 从而为不断优化教育和教育决策提供依据的过程 这一概念 包含以下几个方面 1 教育评价的对象 范围和地位 其对象不仅包括学生学习结果 而指以教育的全部领域为对象 不仅包括现象 还包括结果 计划 活动 过程等 2 教育评价的目的和作用 它涉及评价的指导思想和教育观等基本理论问题 教育评价是为鉴定 考核 还 是为了推动 改进 是为了选拔 淘汰 还是为了教育 发展 这是两种不同的教育 观和评价观 过去的教育评价偏重于鉴定 筛选的功能 其目的是为了 选拔适合教育的儿童 是为 应试教育 服务的 而现代教育评价则强调评价的反馈 矫正功能即调控功能 其目的是为了 创造适合儿童的教育 即评价是为了诊断评价对象的现状 以便发现 问题 使教育教学工作不断改进 不断完善 不断适合教育对象的需要 为促进儿童 个性全面发展和提高教育质量服务 教育评价的目的是为教育决策提供信息和依据 为改进教育服务 也是为不断完 善和改进教育过程 为提高教育质量服务 3 教育评价的依据 价值判断是教育评价的本质特征 是教育评价的核心 根据什么进行价值判断 如何进行判断 这就是价值判断的实质和关键 也就是必须一个衡量和判断的客观依 据和标准 是教育价值目标和标准问题 它涉及什么是价值 教育价值 教育价值观 的问题 我们应当根据马克思主义价值观和社会主义现代化建设的需要 根据人才成长发 展规律 确立我们的教育价值观和价值取向 确定教育评价的价值目标和标准 从这 个意义上说 教育方针 政策和教育目标就是我们的教育价值观的集中体现 我们应 当以教育方针和教育目标为依据确定评价的目标和标准 5 4 教育评价的手段 五 教育评价与教育测量的关系 测量是工具 评价是目标 三 教育评价的功能和意义 一 教育评价的系统结构 1 价值目标和标准 2 组织机构和人员 3 评价方法和技术 4 评价对象与评价人员的心理调控 二 教育评价的功能 根据系统论的观点 评价功能是教育评价系统结构的内在机制 是构成评价系统 的各个要素的组成形式在运动状态下所发挥的功效 是评价系统内部所固有的一种潜 在能量 这种潜能只有在评价实践中才能表现或释放出来 这种功能的外在表现即是 作用 1 教育评价的意义 1 教育评价是教育管理的重要组成部分 教育管理的各个环节都需要评价 没 有评价的管理是一个开放式的管理系统 无反馈机制 这是一种不科学 不健全的管 理 2 教育评价是深化教育改革的重要措施 要进行一项教育改革 首先要进行改 革方案的可行性评估 在改革进程中 必须加强形成性评价 在某一改革告一段落时 必须进行终结性评价 只有这样才能避免盲目性 确保教育改革沿着健康的轨道发展 3 教育评价是全面提高教育质量的重要手段 4 教育评价是教育科学研究的重要内容 2 教育评价的功能 1 导向功能 2 监督检查功能 3 激励功能 4 筛选择优功能 5 诊 断改进功能 四 教育评价的种类 一 根据评价对象和范围不同 可分为宏观教育评价 中观教育评价和微观教 育评价 宏观教育评价是以教育的全领域及宏观决策方面的教育现象 措施为对象的教育 评价 或对一个具有相当规模的地区的教育进行的评价 属于总体的 全局性的 高 层次的评价 中观教育评价是以学校为对象 对学校内部各方面的工作进行的评价 微观教育评价是以学生为对象的教育评价 二 根据评价的时间和作用不同 可分为诊断性评价 形成性评价和总结性评 价 三 根据评价的基准不同 可分为相对评价和绝对评价 6 相对评价指在评价对象团体中确定一个基准 或以某一团体的评价状况为基准 对团体中的个体成员在这个团体中所处的相对位置进行评价 其特点是 评价基准是 在评价对象团体内部确定的 参照的标准是对团体进行测量以后确定的 它关心的是 团体成员在该团体中所处的相对位置 绝对评价指以预先制订的目标为评价基准 评价每个对象达到目标或基准的程度 也称目标参照评价 其特点是 评价基准是在评价对象团体以外确定的 参照标准是 在对团体进行测量以前确定的 它关心的是评价对象达标的程度 四 根据评价的性质不同 可分为需要性评价 可行性评价和配置性评价 需要性评价是指根据某种需要 对新提出的教育目标 计划方案的必要性作出价 值判断 其目的是要判断新提出的教育目标 计划方案或活动是否有必须进行或开展 一般是在某种教育改革项目开始前或对教育活动整个过程进行总体反思时进行 可行性评价是指对教育目标 计划 方案实现的条件 可行性程度的评价 目标 是了解实施教育目标 计划 方案的物质条件 技术条件和经济效益 配置性评价是指对教育目标 计划 方案所需要的资源条件 人员与技术条件的 配置进行价值判断 目的是合理安排和利用人力 物力和财力 五 根据评价的主客体不同 可分为自我评价和他人评价 自我评价指被评者按照一定的评价目的与要求 对自身的工作 学习和品德等方 面的表现进行价值判断 他人评价指被评者以外的人进行的评价 也叫外部评价 第三节 教育测评的发展阶段 一 教育测量的发展阶段 一 教育测量的萌芽阶段 1864 年以前 根据 学记 记载 我国早在西周时期 就实行了教育考评 自隋炀帝大业三年 公元 606 年 始置进士科开始的科举制度 到清末光绪三十 一年 1905 年 废止 正好 1300 年 对我国进一步完善高等学校招生制度乃至整个干 部选拔制度 都有重要的借鉴意义 科举制度的特点 第一 要经过严格的政治条件方面审查 第二 要进行严格的 文化考查 第三 历代对考生都有健康方面的标准 科举制度可取之处 第一 政治理论考试是最主要的考试项目 第二 文化素养 特别是写作能力是必考项目 第三 注意考查分析问题和解决问题的能力 录取原则 第一 对已被录取者一律要进行复试 第二 对落选者要给予其他出 路 第三 录取时要参考平时成绩 注意的问题 第一 考生入场挟带文书 是历代都极为注意的 第二 考场秩序 也是历代都极为重视的问题 第三 试卷是评定成绩高低 录取与否的唯一依据 它 屡经考生和各类考试工作人员之手 如不严格管理 很容易使舞弊者有机可乘 科举制度实际上就是一个关于学生学力检测 评价制度 但是它缺乏对人全面的 科学的考察 并且存在着许多弊端 在 18 世纪以前的西方各国 由于学校尚未普及 学校考试主要是口试 1702 年 7 英国剑桥大学首先以笔试代替口试 开西方学校考试先河 1845 年 美国初等学校普及 学生数激增 对毕业生一一口试已不可能 于是 波士顿市教育委员会率先在美国相继以笔试代替口试 由于笔试客观性 可靠性比口试高 并且节约时间 测试结果大大优于口试 但 因为评分易受主观偏见影响 况且题目太少 不足以反映学生所获知识与能力的全貌 因此 为矫正弊端 力求考试客观化 于是测验方法随之出现 二 教育测量的蓬勃兴起阶段 1864 1940 年 1864 年英国格林威治医院附属学校一位名叫费舍的教师收集了许多学生成绩样本 汇集了一本 量表集 作为度量学生各科成绩的标准 可以说是客观标准化测量的萌 芽 1897 年莱斯发表了他对 20 所学校 3000 余名学生所作的拼字测验研究结果 测验 表明 8 年中每天花 45 分钟时间进行拼字练习同每天花 15 分钟进行练习的成绩并没有 多大差别 这一结论尽管遭到了不少人反对 但它引起了人们对测验问题的普遍关心 推动了教育测验问题的研究 中世纪以后 西方自然科学由于在方法论上引入了测定 观察和实验 一些传统 科学取得了长足发展 1879 年冯特在德国莱比锡建立了第一个心理学实验室 为进一 步揭示人的心理本质而设计了种种周密的实验方案与实现方案的各种严密的测量方法 所有这些方法论的变革促进了教育测量运动的兴起 1882 年英国高尔顿受达尔文影响 在伦敦建立了人类学测验实验室 与德国冯特 的心理学实验室相对峙 德国实验心理学派通过专门研究人类的一般行为规律来进一 步揭示人的心理本质 而英国人类学派则对人类个别差异寄予了关心 高尔顿在统计 学家皮尔逊的帮助下 设计了许多统计方法 这些统计方法不仅对美国的人事工程思 想甚有帮助 而且一些教育家借鉴这些方法 在教育上把不同学生的学习能力与学习 效果量化 并加以客观比较 促进了教育测量运动的发展 19 世纪末 法国在 自由 平等 博爱 等进步思想的影响下 提出社会不仅 要对身体有缺陷的儿童加以关怀 还要结心理 精神智能有缺陷的儿童给予关怀 恰 好当时巴黎一带的学校有许多学习效果低劣的孩子很成问题 比纳想鉴别这些孩子是 因为懒惰 还是因为智能低下而不能适应 并且想在教育上尝试如何加以辅救 因此 1895 年 比纳等设计了一套智力测验的方法 1905 年在西蒙的协助下 制成了著名的 比纳 西蒙智力量表 20 世纪 20 年代 美国的教育测验运动蓬勃发展起来 可分为三个时期 开拓期 1904 1915 这一段时间是方法的探索与初步的发展时期 在美国心理 学家卡特尔研究的基础上 1904 年桑代克发表了 精神与社会测验学导论 这是一本 在测验学史上划时代巨著 标志教育测验运动的开始 桑代克在书中宣称 凡是存 在的东西都有数量 凡是有数量的东西都可测量 兴盛期 1915 1930 这一时期对桑代克提出的信条不但在技术方面努力求得正 确应用 而且不断提高到理论上加以证实 这一时期已发展了三种不同性质的测验 即学力测验 智力测验和人格测验 8 批判期 1930 1940 随着教育测验运动的不断发展 人们逐渐认识到 教育测 验尽管能使考试客观化 标准化 并能把人的能力换算成数字 甚至个别差异的程度 也可以量化 但它毕竟不能测出人的全部 即使是研究最多最富成果的学力测验也不 能测得学力的全部领域 在人格测验方面 单纯的测验是无法把握的 如社会态度 兴趣 情绪 鉴赏力等 1931 年 塞蒙兹发表了 人格与行动的诊断 一书 主张人 格测量应用评定法 问卷法 轶事记录法等 从而从思想上否定了单纯的人格测量法 从此 教育测量运动逐步过渡到教育评价时期 三 教育测量的深入发展阶段 1940 至今 在经过以上批判期以后 现代教育测量在以下方面有了新的发展 第一 开始重视学生智力和思想品德的测量 第二 现代教育测量量表的编制突破了过去单一答案的求同式思维题 发展为包 括多种答案的求异式思维题和论文式试题 第三 教育测量的范围由过去偏重于学生学习成绩的测量 发展到涉及到课程设 置 教材 教育改革方案等效益方面的测量 第四 现代的教育测量由过去单一的常模参照性测验模式发展到常模参照性测验 与目标参照性测验相结合的模式 第五 教育测量本身的理论研究与技术开发更加深入与完善 如关于测验等值 项目反应理论 IRT 测验信度 评分误差控制的研究等都有了较大的发展 二 教育评价的发展阶段二 教育评价的发展阶段 教育评价作为科学概念 是 20 世纪 30 年代在美国进步主义教育聪明的新教育课 程的改革实验 八年研究 中正式诞生的 一 教育评价产生的历史渊源与社会背景 1 我国古代教育考试制度 自人类社会形成 人类祖先为了生存 延续 自发地产生了原始生产经验和生活 规范的传递 这种传递就是教育的萌芽 随着社会经济 政治和文化的发展 特别是 由于古文字的出现 产生了学校 各种教育机构都有了相应的教育内容 从而产生了 衡量教育结果的手段和规定 从我国教育史上看 早在西周时代 已经形成了较为完备的考试制度 如 学记 中记载的 比年入学 中年考校 就是典型例子 更多的科举制度更是历时 1300 年 2 西方教育测量运动的兴起 古代西方教育盛行以口头提问和实际操作来评定学生的学业 从中世纪到 19 世纪的学校基本以口试作为考查学生成绩的方法 进入资本主义发展时期以后 由于社会需要大量掌握读写算的人力 学校和学生 激增 口试被笔试取代 但笔试也有很多弊端 为追求测验 考试的客观性 受实验 心理学 个别差异研究和智力测验的影响 20 世纪初 在美国 教育测量取代了传统 的考试 并形成了一种趋势和运动 20 年代末 由于新教育思潮的出现 教育测量已 不能完全适应教育发展的需要 因而出现了对教育测量的批判 3 社会背景 9 20 世纪 20 年代末 30 年代初 美国爆发了空前的经济危机 许多工厂倒闭 工人 失业 大批青年为了加强劳动力市场的竞争能力 重新涌入中学学习 谋求新职业 但当时美国的中学所开设的课程是为了升大学服务的 不适应整个社会与失业青年的 需要 这就使学生与学校课程之间发生了尖锐矛盾 在这种情况下 美国一些受杜威 教育思想影响的教育家 组织了进步主义教育同盟 PEA 他们提出教育的目的在于 生活 在于儿童 反对旧的传统的死记硬背的考试测验 他们以新教育理论为依据 以全面发展人的才能为主要目标 设计了一套新的课 程 并在 7 所大学 30 所中学进行教育实验 为达到实验目标 需要研究一套新的考查 教育成就的方法 经推荐 组成了以泰勒为首的评价委员会 时间从 1933 年到 1940 年 历时 8 年 史称 八年研究 1940 年 泰勒教授提出了第一个报告 第一次提出了 教育评价 这个概念 认 为实施教育评价首先必须分析教育应达到的目标 再用这个目标来评价教育的效果 运用评价来促进教育活动向理想的目标逼近 被人们称为 划时代的教育评价宣言 二 现代教育评价的发展阶段 1 教育评价的开创时期 1930 1958 八年研究 后 现代教育评价正式诞生 终于取代了教育测量成为考查教育效 果 促进教育改革的重要理论和手段 在这一阶段中 教育评价方法论的实证化特点非常明显 主要表现在目标导向评 价模式之中 首先 泰勒认为开展评价的论据是把所要评价的内容分成具体可见的 可操作的学生行为目标 以便在评价中能够围绕这些行为目标进行观察和测定 其次 泰勒在他的评价模式中非常强调对学习和教育结果进行客观的测量 统计 他提出三 种评价手段 专家测验 情境考察 提问作答 并提出运用时三个重要准则 客观性 信度和效度 2 大发展时期 1958 1972 1957 年前苏联的人造卫生上天后 美国朝野一片震惊 并对教育进行了深刻的反 思 在加大教育投资力度的同时 教育评价很快从过去仅是学术机构和民间的研究转 而被纳入各级政府和各地方教育当局的议事日程 1963 年美国政府正式提出要对教育 的效能和质量进行评价 并拨出大量专款用于教育评价理论与技术 方法的研究和培 养专门的教育评价工作人员 1963 年 克龙巴赫发表 通过评价改革课程 提出评价的内容不应仅仅是课程或 教学目标及其被达到的程度 而应更关心对教育决策及其所依据的准则的评价 为决 策提供信息更应是评价的中心 1963 年格拉泽发表文章 在指出相对评价的不足时 提出在学校教育中应着重绝 对评价 1967 年斯克里芬发表评价史上具有深远影响的 评价方法论 指出过去的评价不 仅在理论上而且在实践中都很不全面 他第一次对形成性评价与终结性评价 专业性 评价与业余性评价 对目标到达程度的评价与对目标本身价值及比较性评价与非比较 性评价等作了明确的阐述和区分 10 1969 年 艾斯纳对泰勒的目标评价理论进行了抨击 认为对教育本质的不同理解 可以造成对目标的不同表述 泰勒的评价方法不一定适用于教育实际 因为它既没有 提供评价目标本身的方法 也没有提出判断评价目标与结果之间差异的标准 从此 以目标为中心的评价模式不再是唯一的了 其它评价模式相继出现 目标的价值结构 受到了挑战 在这一段时间里 出现了 40 多种评价模式 各适用于不同的范围 采取 不同的方式方法 3 专业时期 1973 至今 在这一阶段中 教育评价方法论的人文化特点得到迅速发展并有超过实证化倾向 的势头 这些评价模式的共同特点就是在评价中不只是单纯从评价者的需要出发 而 是考虑到所有参与人的需要 强调个体的经验 活动和主观认识的作用 不过分追求 客观化 并试图摒弃数量特征 而是从人的角度出发 重视人文社会科学方法在评价 中的运用 如应答评价模式的应答 就是让评价对象和其他与评价有关人员提出他们 关心的问题 并表达他们各自的意见 在评价过程中 评价者的职责就是把收集到这 些资料与众人讨论 并以磋商的形式 逐渐消除分歧 最近达成共同的 公认的 统 一的观点 第二章 教育测量的基本问题 添加内容 一 测验必须注意的问题一 测验必须注意的问题 我们前面已经说过 教育测量实际上是基于心理结构的分析而进行的间接测查 这一特点给相应的测量工具的设计带来了几个难题 如人事部门的一位心理学家想编 制用于测试某工厂求职人员机械能力的测验 一位学校心理学家想编制教师对身体残 疾学生的态度量表 一位教师想编制一套五年级学生解答多位数除法技能的单元测 验 这里 每个人要测的东西结构上完全不同 那么应该怎么来设计呢 其实 对于所有的心理测评 测验编制者至少要考虑五个问题 首先 对任何结构的测量不存在普遍认同的一种方法 因为对某种心理结构的测 量总是建立在被认为与该结构相关的行为研究的基础上间接进行的 当人们谈到同一 结构时却往往选择不同类型的行为给该结构下操作性定义 也可能要求学生解答一系 列问题 也可能要求学生写出每一步的结果 也可能要求他们找出答错的题目中的错 误 也可能要求学生用多种方法解答 因而不同的操作性定义会得出不同的测量程序 这又很可能导致对学生知识水平的不同评价 其次 心理测量通常是基于有限的行为样组的 我们不可能考核所有我们要考查 的行为 只能从其中抽样 这就涉及测量题目的数量和内容广度 这是产生一个良好 测量的最主要的步骤 第三 测量的结果总人受到误差的影响 第四 测量量表缺乏定义清晰的单位 受测者未能回答出多位数除法测验的任一 测题是否意味着他们没有这种技能 如果一位同学答对了 5 个题 另一同学答对了 10 个题 第三位同学答对了 15 道题 是否能认为前两位同学之间的差异与第二 三位同 学之间的差异一样呢 三个学生在测验所测验的能力连续体上的差距是否相等 11 第五 心理结构不能仅以操作定义来界定 还必须说明它与其他结构或可观察现 象间的关系 虽然心理测量建立在可观察到的反应基础之上 但只有它能够按照所依 赖的理论结构进行合理解释时 它才具有意义 因此 1 必须根据可观察行为来界定 结构 这类定义具体说明了如何进行测量 2 必须在理论系统内根据它与别的结构 间的逻辑或数学关系来界定结构 这类定义为的获得的测量结果的解释提供了基础 测验理论在研究和评估中的作用为了阐明测验理论在广义的研究和评估方法学中 的作用 把教育和社会科学研究看作是由几个明确界定的步骤所组成的调查过程 将 有助于问题的说明 这个过程可以分为以下几个步骤 1 简洁明白地陈述研究的问题或假设 2 通过决定在研究中如何控制和测量变量 对假设中的每个变量下操作定义 即选择模型 3 编制或选择获取和量化每一变量观察值的工具及程序 确定测验分数的使用 目的 确定代表该结构的行为 包括内容分析 研究回顾 关键事件 直接观察 专 家判断 教学目标等方法 领域取样 包括随机抽样 系统抽样 多阶段抽样 分 层抽样 整群抽样 分层整群抽样 重复抽样 配额抽样 判断抽样等多种方法 准备测验说明书 项目编制 包括最佳行为测验法 包括是非 多选 配对 调查问 卷项目形式 包括二分法 五级连续法 两极形容词列表法 4 检查所使用的工具和程序的准确性及敏感性 注意精确性 与测验说明相符 或相关程度 项目编制的技术性缺点 语法 攻击性语言或 偏见 的出现 可读性 水平等问题 然后进行试测检查 进行项目分析 得出项目的相关指标 即信度 效 度 难度 区分度等 5 收集实验设计框架内的实验资料 以回答最初提出的问题 6 用数学方法处理数据资料 适当地利用统计检验去判断观察结果归因于机遇的 可能性 在这个过程中 测验理论的内容与步骤 2 步骤 3 和步骤 4 有很大关系 有必要指 出 在进行大范围的实验研究 步骤 5 和 6 之前 步骤 4 通常要求收集预试样组试测结 果的数据并进行统计分析 以确保工具的有效性 编制和预试研究工具失败的部分原 因是与教育和社会科学研究经常具有矛盾和模糊的结果的特点有关 在物理和生物科 学中 测量程序在实验使用之前全都要经过检验 一位生物化学家在没花大量时间校 准分光仪 以保证它能够提供精确的波长读数时 是绝不会试图去分析实验室中未知 的化合物的 然而 相比之下社会科学家们更经常地尝试通过实际上从未试用过的测 验去评估实验程序如何影响了一个复杂的变量 如心理病人的焦虑水平或学前儿童的 语言发展 从提出研究问题和定义变量直接跳到收集实验资料的研究者很可能会一无 所获 假如研究者没有观察到各种处理之间的差异 那么他们也就不可能知道是各种 处理无效 还是测量不那么精确以致处理的真实效果未被觉察到 在实施最后的正式 实验前 严格地遵照优秀测验编制程序和在实践中试测的原则将对提高教育学和心理 学研究的总体质量大有裨益 三 测验理论中的统计概念 主要是复习 12 一 频数表和分布图 二 集中量数 众数 中位数 平均数 三 差异量数 全距 离差 方差 标准差 四 Z 分数 后面还会再讲 五 正态分布 六 用于描述两个变量间关系的量 散点图 相关系数 包括皮尔逊积差相关 斯皮尔曼等级相关 点二列相关 列联相关等 七 用于预测个体表现的量 回归分析 估计的标准误等 第二章 教育测量的质量指标 第一节 信度 一 信度的概念 信度指测量结果的稳定性或可靠性程度 亦即测量的结果是否真实 客观反映了 老先生的实际水平 可从三个方面来考虑 第一 信度指实测值和真值相差的程度 测量的目的之一 就是希望通过测量得到的实测值能够接近事物的真值 但由于 各种原因 实测值与真值之间必然存在误差 但误差越小 说明信度越高 实测值 T 真值 E 误差 由于真值是未知的 因此误差值是大是小也是未可知的 一般为求得最接近的实 测值都是通过多次实测取其平均值来作为真值的近似值 但这一方法缺乏实际可操作 性 也无法求得信度的大小 第二 信度是指统计量与参数之间的接近程度 统计量和参数是统计学中的两个基本概念 统计量是指样本上的各种数字特征 如样本的平均数 标准差等 参数是总体上的各种数字特征 如总体的平均数 标 准差等 统计量越接近参数 这个统计量的可靠性程度就越高 因此信度越高 而要知道统计量与参数的接近程度高 可以对参数进行区间估计 这种方法对估 计真分数有用 但仍然无法计算出信度 第三 信度指两次重复测量或等值测量之间的关联程度 如果对同一对象进行两次重复测量或者等值测量后 计算两次测量的相关系数 相关系数越高 说明测量的信度越高 反之 信度越低 但应注意的是 重复测量会受到被试的经验 知识的增长等因素的影响 等值测 量又较难编制 因此 采用这种方法计算信度时 也是有误差的 信度是任何一个测量的必要条件 对于教育测量来说 它具有更为重要的意义 因为教育测量的对象主要是精神现象 所测量的特性不易把握 为了能真实地反映测 量对象的某种特点 更加需要注意测量的信度 二 信度的理论公式 13 见 P32 这里需要注意的是 对实得分数进行分解后 可以分解成真分数的方差 随机误 差的方差两部分 很明显 随机误差的方差越小 测量的信度就越高 信度取值范围为 0 1 三 信度的类型 用上面的理论公式计算不了信度 因为真分数根本不知道 如果知道就不用算了 实际中常用以下几种方法 也就是几种不同的信度 一 稳定性系数 重测信度 指用同一测验试卷 在先后两个不同时间内对同一组被试进行测验 两次测验实 得分数的相关系数 这是最简单的估量信度的方法 要注意的是 1 重测法只适用于速度测验而不适用于难度测验 2 所测的 信度大小 常常受到两次测验时间间隔长短影响 3 第二次测验没有吸引力 不易 引起被试的兴趣 4 要实施两次测验 耗费人力 物力和时间较多 二 等值性系数 当同一测验的一种型式不能或不适合实施两次时 就需要采用该测验的另一个平 等测验或者复份 复本 复份要求在测验的内容 题数 格式 难度 平均数 标准 差等方面应与原测验一样 否则 估计的等值系数就会出现较大误差 决定等值系数的方法是 先实施第一次测验 然后在最短时间内实施第二份等值 的测验 再求它们的相关系数 这个相关系数就是信度的等值性系数 采用复份法估计信度系数要注意 1 两次测验试卷要等值 即在内容范围 题 型 题数 难度 区分度等方面要基本相同 2 两次测验要尽可能在较短的时距内 进行 3 确定两次测验是否等值 还要考察两次测验结果的平均数与标准差 但在 实际操作中 要编制两份等值的测验是非常困难的 三 内部一致性系数 前面两种估计信度系数的方法都是要测验两次的 但在实际的测验之中 一方面 教师很难编制两份等值的试卷 学生也没有那么多时间和精力重复参加测验 因此需 要根据一次测验来估计测验的信度系数 这就是内部一致性系数 即把一次测验人为 地分成两个部分 比较两个部分的一致程度 从而估计信度系数 按照分成两个部分的不同 内部一致性系数的估计方法有两种 1 分半信度 这种方法是将一次测验分成两个假定相等而独立的部分来记分 通常是以题目的 奇数为一组 偶数为一组 计算两组的相关系数 最后用斯皮尔曼 布朗公式校正 求得整个测验的信度系数 公式见教材 2 库德尔 理查森公式法 用这种方法只需要测验一次 然后以各个问题的正确反应数为基础 此可视为各 题难度的信息 或根据各人部分的平均数和标准差 计算信度系数 库德尔 理查森 14 公式有好几个 最常用的是rKR20和rKR21 rKR20的用法 以每题能正确回答的人数占总人数的百分数为基础计算 每题只 有通过或未通过两种分数 具体公式见教材 rKR21的用法 这个公式以各反应者总分的平均数和方差为基础计算 无需各题 难度的信息 公式见教材 计算内部一致性系数 需要注意下列问题 A 若用分半法时 以按奇数题和偶数题分为两半为宜 若把整个测验分为前后两 半 一方面前半部试题与后半部试题未必等值 另一方面被试者在完成后半部试题时 可能因疲劳 厌倦等原因而影响回答质量 以致前后反应不一致 影响信度 B 若速率是测验的重要因素 则不宜用分半法 因为速度测验中试题的难度低 被试者得分多少 在很大程度上是因为答题的多少 分半法易使得分相同 从而夸大 分半法的信度估计 C 如果答案多种多样 得分也多种多样时 如论文式考试 则不能用上列公式 计算一致性系数 四 论文式测验的信度系数 论文式测验的评分 没有严格的评分标准 以致同样一个题目 不同的应试者的 回答和得分都不一样 所以无法用前面的公式 而要用克龙巴赫所创的 系数公式 见教材 五 评分者信度 一般论文式考试 只能提供列出答案要点的参考答案而无固定的标准答案 因而 不同的评分者对同一份试卷往往给分不同 甚至有很大悬殊 在作文测验 投射测验 品德测验 创造力测验等的评分中 都存在这个问题 计算这种信度需要区分评分者的人次数 若为 2 人评 N 份试卷 可用斯皮尔曼等级相关计算 若为三人以上评 N 份试卷 则用肯德尔和谐系数计算 四 提高信度的方法 一 信度以多大为宜 对于学科测验 要求达到 0 9 以上 智力测验要求达到 0 8 以上 品德测验能达到 0 6 以上就不错了 二 测量误差的来源 1 测验本身所引起的误差 测验本身的有些因素会直接产生误差 如题目格式中的判断题猜测的可能性会很 大 规定的时限 用词不准确引起的误解 题目的多少等 测验所包括的测题样本也会引起测量误差 2 测验的实施所引起的误差 如指导语错误 对答案纸的错划 时间记录的错误 主试本身的主观影响 记分 误差等 3 被试引起的误差 15 这是最难控制的误差 具体表现为动机的作用 学习 发展和教育的影响 对于 测验的经验 测验的焦虑 生理因素等 三 提高测验信度的方法 1 适当增加测验题目的数量 即可提高信度也可提高效度 2 测验的难度要适中 这样信度能达到最大 也能使测验区分度达到最大 3 测验的内容应尽量同质 4 测验的程序应统一 包括试卷统一 测验开始时的指导语 回答问题的方式 分发及收回试卷的办法 测验时间的掌握等 特别应该提到的是 考试的组织问题 监考问题等 这是关系到测验信度的重要因素 5 测验的时间要充分 6 评分要尽量做到客观化 减少评分误差 第二节 效度 一 概念 指测量结果的准确性和有效性的程度 亦即测量是否达到了预期目的 首先 测量的效度始终是对一定的测量目的而言的 一般而言 任何测量都有某 种特定的目的和功能 判断效度高低 就是判断测验达到目的的程度 其次 测量的效度也是对测量的结果而言的 一种测量工具只能经过实际测量 才能根据出来的结果判断它的效度 所以也可以把效度理解为测量的结果正确反映所 欲测量的特性或功能的程度 对于任何一种测量来说 只有当它的测量结果真实 正 确地反映所欲测量的功能和特性时 才能认为这种测量是较为有效地或效度较高的 第三 一种测量的效度只是高或低的问题 因为 一种测量在编制时 总是针对 一定目的而编制的 不存在无效度的测量 只是高或低的问题而已 第四 在教育测量中 效度问题比在其他领域的测量更为重要 因为 首先 教 育测量的对象大多是精神现象 只能通过对其具有可测性的外部表现 如言语或动作 等 的测量 以间接认识其心理活动 心理特征或知识水平等 其次 学生的心理活 动 心理特征与其外部表现之间 一般仅具有相关关系而无函数关系 外部行为并不 能准确无误地反映某种心理状态 此外 教育测量的对象不是物而是具有主观能动性 的人 人能有意识地调节自己的外部行为 掩盖自己的内心活动 这就增加了认识其 精神现象的难度 二 效度的理论公式 实得分数可分解为潜在真分数 系统误差 随机误差三部分 具体关系见教材 P43 三 效度的分类及估计 一 内容效度 指测验目的代表所欲测量的内容和引起预期反应所达到的程度 也就是测量内容 的代表性程度 在编制测验时 内容效度是一个相当复杂和不易解决的问题 以成绩测验来说 16 固然要求测验题目能代表所学习过的全部内容 但仅仅在形式上做到这一点还不能保 证足够的内容效度 因为学习成绩的高低要从学习内容的巩固程度 理解程度和应用 能力几种行为反应去考察 如果测验题目大多是只需要牢记教材就可以回答的问题 那么 对全面测验学生的成绩这一目的来说 内容效度仍然不高 估计内容效度的方法 1 逻辑分析的方法 这是根据教育学和心理学的理论 根据教学大纲要求 勾画 出学生掌握知识内容的范围和深度 提出应形成的技能名称 然后以逻辑分析的方法 估计测验在多大程度上代表了这些内容 在多大程度上能够测量出所要测量的特性和 功能 2 用测验题目与教材内容比较的方法 这需要先制两个表 一个是测验的双向细 目表 见第三章 分别列出所要测验的各单元教材内容在考题中应占的百分比和所要 求的各种行为的反应在全部反应中的百分比 另一个表是测验试题分类表 根据各单 元教材内容列出试题 并注明该题所要求的行为反应及其应占的百分比 然后对照这 两个表 根据各个部分相符合的程度判断内容效度的高低 二 效标关联效度 又称经验效度或统计效度 是以测验分数和效标之间的相关系数来表示测验的效 度高低的 效标就是足以显示测验所欲测量的特性的变量或足以显示测验所欲测量的特性的 变量 作为检定效度的参照尺度 效标关联效度又可分为同时效度和预测效度 同时效度指测验与当前效标之间的关系程度 预测效度指测验与将来的效标之间 的关联程度 如用全国高考的成绩作为效标来检验高中毕业会考的成绩 计算两者的 相关系数就是会考的同时效度 而用大学一年级的成绩作为效标来检验高考的成绩 两者的相关系数就是高考的预测效度 效标是用来衡量测验效度的尺度 具体而言 效标是辨别真伪的尺度 当事物满 足该原则要求时 才能存在 效标是不能违反的 当然 标准可以提高 也可以降低 效标不仅随着测验的种类不同而不同 也可能随时间而改变 选择效标是件困难而重要的事情 通常教育测验所依循的效标 可采用各学科成 绩和教师的评定结果 智力测验的效标 可采用学科成绩 教师评判的结果 学生总 成绩 受教育年限 年龄以及其他相关事物 能力倾向性测验的效标 可采用特殊课 程或特殊训练的成绩等 职业兴趣测验的效标 可采用从业人员实际服务成绩或记录 人格测验的效标 很难找到 只能按编制者的主观标准判断 或以被试以后的行为或 临床资料作为效标 效标关联效度的计算主要通过计算相关系数求得 可用积差相关 二列相关或点 二列相关 四格相关和多元相关系数等 参见有关教育统计学教材 三 结构效度 指一个测量能实际测量出理论上的概念或心理特性的程度 它的目的在于用心理 学的概念来说明分析测验分数的意义 也就是说从心理学的理论观点就测验的结果加 17 以解释和探讨 结构效度的研究是较困难和有争议的 至今从概念上和数学上作了部分解释 确 定一个测量的结构效度之所以困难 是因为效标 构想不是直接可测的 因而不能计 算测量与效标的相关 结构效度确定的方法如下 首先从某一结构理论出发 导出各项关于心理功能或行为的基本假设 据此编制测验 然后由果溯因 以相关 实验和因素分析的方法 检验测验结果是否符合心理学 上的理论见解 例如 从现代智力理论 可以推断四项主要功能上的假设 智力随年龄增 长 智商是相对稳定的 智力受遗传影响 智力与学业成就有密 切关系 因此 在根据上述的假设编制智力测验后 就要从上述四个方面进行检验 由此可见 结构效度是由累积的证据来评价 不可能有单一的结构效度指标 确定一个测量的结构效度需要两个重要步骤 首先 必须指出 这个测量和所用 理论上认为应与之有关的其它测量 有显著的相关 其次 必须指出 必须指出这个 测量与所有理论上认为不应与之有关的其它测量 没有明显相关 四 提高效度的办法 一 各种效度的要求 不同测验对效度系数有不同要求 例如 智力测验分数与教师对学生的等级评定 之间的效度系数一般在 0 3 0 5 的范围内 相同科目的标准测验成绩与教师对学生名 次排列之间的相关系数一般应达到 0 60 0 70 之间 两种不同的智力测验或标准测验 之间的相关系数应达到 0 60 0 80 才能符合要求 对效度系数大小的要求 也受原始与获得效标的测验之间的相似性制约 若二者 不相似 则效度系数偏低 若相似 则效度系数会高些 二 影响效度的因素 1 测验组成方面 测题的性能是影响测验效度的因素之一 如测验的取材 长度 辨别力 难度及其编排方式等都和效度有关 2 测验实施方面 一个测验的效度要保证 主试应适当控制测验情境 遵照测验 守则的各项规定实施 3 被试主观状态方面 被试的动机 兴趣 情绪 态度和身体健康及是否充分合 作与尽力而为等都能影响结果的可靠性和正确性 4 估计效度所依循的效标 选择适当的效标是统计效度的先决条件 如因所选效 标不当 以致测验的效度不能显出 则测验的价值可能被淹没 一个测验因其所采用 的效标不同 其效度可能大相径庭 从统计观点来看 一个效标关联效度受下列三个 因素影响 1 测验信度 2 效标变量测量的信度 3 测验变量和效标变量之 间真正的相关程度 5 样本方面 效度确认所依据的样本 必须能代表某一测验所拟应用的全体对象 一个测验应用于不同的对象 由于他们在性别上 年龄上 教育程度上以及经验背景 18 上的差别 其测验功能不一致 效度也随之而异 样本规模大小对效度也有影响 样 本的异质性也会影响测验的效度系数 总之 为了增进测验的效度 必须要求测验编制和实施程度的标准化 注意被试 在测验情境中的行为反应 并顾及适当样本和效标的选择 以建立符合测验目的和功 能的效度 三 提高效度的办法 1 控制系统误差 2 精心编制量表 首先 测验内容要确实能反映测验目的 其次 题目表述必须 清楚 简明 所用字 词 句能为学生理解 内容应能引起被试者的兴趣 排列则易 到难 但前面的题目不应暗示后面的答案 再次 题目难度合适 有足够区分度 最 后试卷印刷清楚 无错误和遗漏 并力求精美
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025实证金融方法试题及答案
- 2025上交金融面试题及答案
- 成都工贸职业技术学院《抽象代数》2024-2025学年第一学期期末试卷
- 2025山东公务员b考试试题及答案解析
- 集美大学诚毅学院《工业通风工程》2024-2025学年第一学期期末试卷
- 贵州大学《音视频制作B》2024-2025学年第一学期期末试卷
- 长江大学《计算机网络A》2024-2025学年第一学期期末试卷
- 广西职业技术学院《物理引擎应用技术》2024-2025学年第一学期期末试卷
- 日照职业技术学院《书写技能训练》2024-2025学年第一学期期末试卷
- 辽宁轻工职业学院《Web前端设计》2024-2025学年第一学期期末试卷
- 粮食仓储(粮库)安全生产标准化管理体系全套资料汇编(2019-2020新标准实施模板)
- 喜茶运营管理手册和员工操作管理手册
- 比亚迪汉DM-i说明书
- 心肾综合征及其临床处理
- 普通高中课程方案
- 2022年山东高考生物试卷真题及答案详解(精校版)
- GB/T 38936-2020高温渗碳轴承钢
- 高考地理一轮复习课件 【知识精讲+高效课堂】 农业区位因素及其变化
- 教师专业发展与名师成长(学校师范专业公共课)
- 互通立交设计课件
- 生物竞赛辅导 动物行为学第七章 行为发育(38)课件
评论
0/150
提交评论