教育测量.PPT.ppt_第1页
教育测量.PPT.ppt_第2页
教育测量.PPT.ppt_第3页
教育测量.PPT.ppt_第4页
教育测量.PPT.ppt_第5页
已阅读5页,还剩118页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

教育测量 杨福义讲师博士华东师范大学Email yangfuyi 电话 021 62232680138160579672007年8月 教育测量 课程内容 第一章教育测量的基本原理第二章测验的性质 种类和功能第三章信度的理论定义 操作定义及其估计方法第四章效度的理论定义 操作定义及其估计方法第五章测题分析第六章测验量表和常模第七章测验编制的步骤和方法第八章测验例举 教育测量 课程考核 总评成绩由平时成绩 考试成绩组成平时成绩占20 包括考勤和作业 考试成绩占80 闭卷考试 时间为2小时 可以使用计算器 第一章教育测量的基本原理 一 测量的概念 1 测量的定义测量 根据法则给事物分派数字 史蒂文斯 1951 例1 测量学生体重测量的属性 体重 规则 身穿极少量衣服 赤脚自然地站在体重计上 用来描述学生体重的数 体重计上指示的 数字 例2 评定学生道德品德 2 测量的三要素事物的属性 测量的对象物理属性 长度 重量 体积 温度 时间等心理属性 智力 个性 能力 知识 技能 态度 兴趣等数字 描述事物属性的符号同一性和区分性 每一个数的独特性等级性或位次性 若干个数之间按其大小所形成的次序关系等距性等比性 规则 给事物的属性分派数字的依据规则是指导我们如何测量的一种准则或方法 当测量的其他条件相同时 使用不同的规则 会产生不同的测量效果 规则的好坏 取决于制定规则的程序和所欲测量的事物属性本身是否易于建立规则和便于操作规则 二 教育测量 1 教育测量的定义广义教育测量 就是对于教育领域内的事物或现象 根据一定的客观标准 作缜密的考核 并依据一定的规则将考核的结果予以数量的描述 狭义教育测量 是指对学生某些学科经过学习和训练之后 所获得的知识 技能的测量 2 教育测量的两要素参照点 人为指定的相对零点单位 无统一单位 也不符合等距要求 三 教育测量的可能性 凡物之存在必有其数量 桑代克 1918 凡有数量的现象都可以测量 麦柯尔 1923 四 教育测量的特点 间接性相对性 五 四种测量量表 广义量表 scale 任何可以使事物数量化的值和量的渐进系列 测量的本质是根据某一法则将事物数量化 即在一个定有参照点和单位的连续体上把事物的属性表现出来 这个连续体即为量表 只要将预测的事物属性放在这个连续体的适当位置上 看它们距离参照点的远近 便会得到一个测量值 1 名称量表 名称是测量中最简单的形式 即分类 在名称量表中 用来描述事物的数字仅仅是代表事物的符号 只能区分事物的类别 适用的统计方法 比率 百分比 相关系数 2检验 2 等级 位次 量表 按某一标准对事物的属性进行分类 用来描述各个类别的数字不仅具有区分性 而且还具有等级性 用这样的数字表示的量表称为等级量表或位次量表 量表上的数字不能进行加减乘除运算 适用的统计方法 中位数 百分位数 等级相关系数 肯德尔和谐系数 符号检验 秩次检验 秩次方差分析 3 等距量表 有相等单位和人定参照点的量表称为等距量表 量表上的数值不仅具有区分性 等级性 还有等距性 可以作加减运算 但不能作乘除运算 适用的统计方法 算数平均数 标准差 积差相关系数 Z检验 t检验 F检验 4 比率 等比 量表 有相等单位和绝对零点的量表称为比率量表 量表上的数值可以进行加减乘除运算 适用的统计方法 算数平均数 标准差 积差相关系数 Z检验 t检验 F检验 几何平均数 差异系数 六 教育测量的量表属性 教育测量中上述四种量表都有 心理 知识 技能 测验多属于等级量表 通常仍将测验分数作为等距量表来处理 第二章测验的性质 种类和功能 一 测验的概念 1 测验的定义心理测验 是一种对行为样本的客观和标准化的测量 阿纳斯塔西 1967 广义心理测验包括智力 人格 能力倾向 学业成就等测验 教育测验主要是学业成就测验 所以该定义也适用于教育测验 2 测验的三要素行为样本测验的标准化测验的客观性 二 行为样本 行为样本 对于所欲测量的心理属性具有代表性的一组行为反应 三 测验的标准化 测验的标准化 测验的编制 实施 记分 分数的解释都按照统一的标准和严格的规定进行 使所有被试的测验条件一致 包括四方面 测验材料的标准化测验实施的标准化评分 记分的标准化测验分数解释的标准化 四 测验评价的客观性 信度效度难度区分度 五 测验误差的来源 1 测验本身测题本身的代表性测题的数量测题的种类2 测验实施测验情境主试的影响意外干扰 3 被试状态生理状况情绪状况练习因素 六 标准化测验准备和实施中应注意的问题 一 测验的准备1 主试准备2 测验环境准备房间座位材料人物3 被试准备时间选择主试与被试建立和睦关系 二 测验的实施测验前期工作测题的选定记录正确对待被试的要求主试注意事项 三 测验结果解释被试测验前后的行为是否一致被试在强项和弱项测验内容方面的表现被试的测验行为是不是一般行为 即测验表现是否代表在校或在家的行为评定测验成绩一般不要采用绝对化的语言 应该综合其他评定量表或评判标准作综合界定 七 测验的种类 1 根据测量的属性智力测验能力倾向测验人格测验教育测验2 根据测验的标准化程度标准化测验教师自编测验 3 根据测验的功能普通测验和诊断测验难度测验和速度测验预测测验和成绩测验4 根据记分标准常模参照测验标准参照测验 5 根据同时受测的人数个别测验团体测验6 根据测验所用的材料和形式语言或文字测验非语言文字测验 八 测验的功能 了解个别差异检查和巩固学习辨别智愚和分类安置选拔人才对比实验考查学习努力程度预测能力指导就业课程评价 第三章信度的理论定义 操作定义及其估计方法 第一节信度的理论定义和操作定义 一 信度的理论定义 1 信度与误差的关系 1 一般统计资料的三种误差抽样误差测量误差系统误差 2 信度与误差的关系抽样误差可以忽略不计系统误差影响不大测量误差是影响信度的主要原因 2 信度的理论定义测验分数都包括两个部分 真分数 测量误差信度是一组测验分数中真分数方差与获得分数方差的比率 真分数理论的三个假设 误差分数的平均数等于零误差分数与真分数之间无相关两次测量的误差分数之间相关为零 二 信度的操作定义 信度是同一个测验 或相等的两个 多个测验 对同一组被试实施两次或多次 所得结果的一致性程度 也即测验的可靠性 测验的信度以两次测验结果的相关系数表示 第二节再测信度 一 再测信度及其估计方法 1 再测信度的定义再测信度 以同一个测验对同一组被试先后实施两次 所得结果的相关系数 若对同一组被试先后实施多次 可用每两次测验结果的相关系数之平均数来表示 再测信度又称为稳定系数 2 再测信度的估计方法用原始数据计算用样本平均数和样本标准差计算用样本平均数和总体标准差的估计值计算 某算术运算速度两次测验分数 二 再测信度的优缺点 优点缺点 三 再测信度的适用范围 异质性测验速度测验运动技能测验 第三节复本信度 一 复本信度及其估计方法 1 复本信度的定义复本信度 等值性的两个测验对同一组被试实施结果的一致性程度 复本测验是指在性质 内容 题型 题数 难度等方面都一致或相等的两个或多个测验 若复本的个数在两个以上 可用每两个复本测验结果的相关系数之平均数来表示 复本信度系数分等值系数和稳定等值系数两种 2 复本信度的估计方法用原始数据计算用样本平均数和样本标准差计算用样本平均数和总体标准差的估计值计算 二 复本信度的优缺点 优点缺点 三 复本信度的适用范围 是考察测验可靠性的最好方法 第四节内在一致性信度 一 内在一致性信度及其估计方法 再测信度 测验在不同时间的一致性复本信度 测验的两种不同形式的一致性内在一致性信度 测验内部 测题之间的一致性 一 分半信度 斯皮尔曼 布朗公式矫正法卢农公式矫正法弗拉南根公式矫正法 二 同质性信度 0 1记分测验的同质性信度非0 1记分测验的同质性信度 二 内在一致性信度的优缺点 优点缺点 三 内在一致性信度的适用范围 同质性测验难度测验 第五节评分者信度 一 评分者信度的定义 评分者信度是指多位评分者对同一组被试作答反应评分的一致性程度 二 评分者信度的估计方法 积差相关或等级相关估计法 系数估计法肯德尔和谐系数估计法 信度估计方法的总结 第四章效度的操作定义及其估计方法 效度 一个测验对其所欲测量的属性能够确实测到的程度 即测验的正确性 根据美国心理学会的标准 测验的效度分为三大类 效标关联效度内容效度结构效度 效度的相对性 一个测验的有效性 总是就其特殊的目的 功能和适用范围而言的 并不是就任何目的 功能和任何适用范围而言的 按照特定的目的精心编制的测验 其效度不是全有全无的区别 只是程度上的不同 第一节效标关联效度 一 效标关联效度的概念 效标关联效度是指以某一种测验分数与其效标分数之间的相关来表示的效度 又称为统计效度 效标 指确能显示或反映所欲测量的属性的变量 是考察检定测验效度的参照标准 智力测验效标 学科成绩 教师评定等级 受教育年限 年龄等 能力倾向测验效标 特殊能力或特殊训练的成绩教育测验效标 相应的学科成绩或教师的等级评定职业兴趣测验 实际工作成绩或记录 同时效度和预测效度 根据获得测验分数和效标分数的时间关系 可以将效标关联效度分为同时效度和预测效度 同时效度 以测验分数与现有效标分数之间的相关表示的效度 预测效度 以被试的测验分数与其未来效标分数之间相关表示的效度 二 效标关联效度系数的计算 测验分数与效标分数之间的相关系数称为效标关联效度系数 1 积差相关法当测验分数和效标分数均为正态连续变量时采用2 二列相关法当测验分数和效标分数均为正态连续变量 而其中一个变量被人为地分成二分变量时 3 点二列相关法当测验分数和效标分数其中一个变量为连续变量 而另一个为真正的二分变量或双峰分布变量时 4 等级相关法当测验成绩和效标成绩两个都 或其中一个 以等级次序排列或以等级次序表示时 5 四分相关及 相关法当测验成绩和效标成绩都是二分变量或以二分变量表示时 6 列联相关当测验和效标成绩中有一个不止分为两个类别时 第二节内容效度和结构效度 一 内容效度 1 概念及意义内容效度 指测验内容对所要测量的内容的代表性程度 2 建立过程3 检定方法 1 逻辑判断法一般由本学科的专家根据所欲测量属性的定义和测量内容范围的界定 以及各部分内容 各认识层次的比重 用逻辑分析的方法对策得体性能是否能代拨所欲测量的内容及教育目标作出判断 2 比较平均数差异的显著性对同一组被试用一个测验的两个复本在某一学科教学或训练前后实施测验 根据两次测验成绩差异的显著性来判断该测验内容的有效性 3 相关法用反映同一内容的两个不同测验对同一组被试施测结果的相关系数表示 4 提高内容效度的方法增加测题的同质性专家小组平行作业法多人裁判法5 表面效度表面效度 指测验在表面上使被试直觉感到的有效性程度 为了使测验具有表面效度 必须根据测验的性质 被试的年龄和知识背景来选择测验材料和习惯用语 表面效度不是测验的真正效度 二 结构效度 1 概念指测验对于人的假设属性或理论概念测量到的程度 2 建立过程对所欲测量的属性根据某种理论提出假定的结构根据假定的结构拟定测题和编制测验寻求测验分数与其它评定之间的关系根据测验结构来验证假设结构中的各种因素是否成立修改测验 重新实施有关步骤 3 检定方法用内容效度为结构效度提供证据用相容效度来确定结构效度相容效度 一个新编的尚待确定其结构的测验与另一个已知其结构的测验共同测量相同结构的程度 多元特质与多重方法矩阵辐合效度 用多种方法对同一种特质进行测量 所得结果具有高相关 辨别效度 用同一种方法对多种不同特质进行测量 所得结果的相关低于用多种方法测量同一种特质的相关 三 效度系数的显著性检验 积差相关系数表示的效度系数之检验 检验和 检验 第五章测题分析 第一节测题的难度 一 测题难度的概念 测题难度指测题的难易程度表示测题难易程度的数量称为测题的难度指数 用P表示 二 测题难度的估计 一 0 1记分测题难度的估计1 P R n 所有被试该题答对的人数比率 2 P PH PL 2 高分组和低分组答对人数比率的平均数 二 0 1记分多重选择题难度的校正CP kP 1 k 1 如果要比较两个选项数目不同的测题难度 必须先用此公式对两测题的难度进行校正 三 非0 1记分测题难度的估计P 所有被试该题得分的平均数 该题满分分数 三 难度的评价 1 0 1记分测题的平均数和标准差每个测题得分的平均数就是其难度指数P每个测题得分的标准差为pq2 测题难度的理论评价测题方差的大小表示测题对被试反应的鉴别能力中等难度 即难度指数P 0 5 的测题鉴别力最好 3 测题难度的选择测验中各测题难度的选择与测验的性质和目的有关 对于测量某门学科知识或技能掌握程度的测验来说 测验中大部分测题难度指数P分布在0 35 0 65为宜 所有测题难度指数的平均数在0 5左右为宜 如果测验的目的在于选拔人才 测题难度指数的平均数应根据录取率而定 如果测验的目的在于测量速度 则要求所有的测题难度指数接近相等 测题难度还应该考虑接受测验的对象 第二节测题的区分度和效度 一 测题的区分度 一 区分度的概念测题的区分度指测题对于被试反应的区分程度和鉴别能力 区分度一般用某测题的得分与测验总分之间的相关系数来表示 二 测题区分度的估计1 0 1记分测题区分度的估计分组法 鉴别指数D PH PL点二列相关法二列相关法 2 非0 1记分测题区分度的估计积差相关法 二 测题的效度 一 测题效度的概念测题效度是指测题分数与外部效标分数的相关程度 测题的效度对测验的效度有很大的贡献 如果把测验总分视为内部效标 测题的区分度就是测题的内部效标效度 从测题效度对被试反应的鉴别能力来说 它也是一种区分度 二 测题效度的估计方法凡是可以用来估计测题区分度的方法都可以用来估计测题的效度 只是将内部效标换成了外部效标而已 可以采用二列相关 点二列相关 积差相关等 三 测题区分度和效度的评价 测题区分度和效度的取值范围都是 1 1之间 如果区分度或效度为正值 其数值越大 则测题越好 测题鉴别指数评鉴 如果测验的目的在于评定学生的学习成绩 而且测验是同质性的 则应选择区分度作为评价指标 如果测验的目的在于预测被试未来的表现 则应选择测题的效度作为评价指标 第六章测验量表和常模 第一节测验分数的解释 一 测验分数与所测属性的关系 对于人类心理属性的测量很少有绝对的测度测验分数相同的增量很难代表相同的心理增量 二 原始分数和导出分数 原始分数 根据测验的记分标准 对被试的测验结果所计算出的测验分数 对于同一个学生不同学科的原始分数 由于缺乏参照点和一定的单位 所以既不能相互比较 也不能相加求和 导出分数 经过统计整理的 具有一定参照点和单位的 可以相互比较的分数 常用的导出分数有百分等级 标准分数 年级等值分数 年龄等值分数 对一个标准化样本施行某一个测验之后 将所获得的原始分数以常模 平均数 为参照点转换成某种导出分数 并以等值表的形式将原始分数与导出分数之间的对应值表示出来 这就是测验量表 常用的测验量表有百分等级量表 标准分量表 年级量表和年龄量表 三 常模与标准 常模 某年级 某年龄或具有某种共同特征的被试团体在某一测验上实际达到的平均水平 常模是一个相对的数量 不适一种绝对的 永久性的 固定不变的标准 它会随着时间和空间的不同而变化 标准化样本 对于使用某测验的总体具有代表性的那部分个体 标准 某年级 某年龄或具有某种共同特征的被试团体在某一测验上应当达到的水准 第二节百分等级量表 一 百分等级量表的含义 百分等级量表 以标准化样本测验分数的中位数为参照点 以百分等级 百分位 为单位的测验量表 与百分等级相对应的原始分数称为该百分等级的百分位数 根据标准化样本的测验分数计算出各相应的百分位数 即建立百分等级与原始分数的等值对照表 即为百分等级量表 二 百分等级量表的评价 一 优点百分等级量表上的等级的意义容易被人理解 同一被试在不同测验上的百分等级可以相互比较 不同被试在同一测验上的百分等级可以相互比较 在较高层次的学校中 当年龄或年级量表不甚适用时 可采用百分量表 百分等级可转换成标准分数 二 缺点百分等级的单位距离不相等 在百分等级量表上 靠近分布中央的原始分数稍有变化 其百分等级就会有较大的变化 而靠近分布两端的原始分数 虽然变化较大 其百分等级却变化较小 百分等级量表属于四种测量量表种的等级或位次量表两个不同样本中的百分等级不能相互比较百分等级量表对测验成绩的普遍水平不够敏感 与T量表相比 其可靠性较差 第三节线性标准分数量表 标准分数量表是以平均分数为参照点 以标准差为单位的测验量表 其量表值称为标准分数 线性标准分数就是由原始分数转换成标准分数之后 只改变了分布的平均数和标准差 并不改变分布的形态 常见的线性标准分数有线性Z分数 线性CEEB分数 线性ITED分数 线性T分数 一 线性Z分数量表 一 线性Z分数的含义线性Z分数是以平均数为0 标准差为1的标准分数 线性Z分数量表是线性Z分数与原始分数的等值对照表 二 线性Z分数量表的编制方法根据标准化样本中每个被试测验的原始分数 计算其平均数及标准差 根据公式计算原始分数全距中每一个原始分数的线性Z分数 三 线性Z分数量表的评价1 优点线性Z分数的单位是等距的 如果几个不同测验分数的分布形态是很相近的 那么同一个被试在几个不同测验上的线性Z分数可以相互比较 如果几个不同测验分数的分布形态是很相近的 可以将一个被试几个不同测验上的线性Z分数相加求和 或计算几个测验线性Z分数的平均数 同时还可以比较不同被试几个线性Z分数的总分或平均数 2 缺点小于平均数的原始分数转换成线性Z分数后都是负值 这既不容易理解 也不便于运算 标准化样本 线性Z分数的全距一般不超过6个单位 由于单位太大 难以区分个别被试测验成绩的差异 若要精确地区分个别被试的差异 线性Z分数的值在小数点后必须保留一到两位数字 这也不便于运算 线性Z分数的分布形态与原始分数的分布形态完全一样 当两个测验的分布形态不同时 它们的线性Z分数既不可以相互比较 又不可以相加求和 二 线性CEEB量表 一 线性CEEB分数的意义及其量表的编制CEEB分数是平均数为500 标准差为100的线性标准分数 CEEB 100Z 500线性CEEB分数量表是线性CEEB分数与原始分数的等值对照表 先将原始分数全距中每一个原始分数转换成线性Z分数 再利用上述公式将每个线性Z分数转换成线性CEEB分数 二 线性CEEB分数量表的评价1 优点线性CEEB分数全为正数 容易理解 也便于运算 线性CEEB分数的单位为1 100 大大小于线性Z分数的单位1 这不仅使它全部变成了整数而不带小数 而且使其能精确地区分个别被试的差异 因而特别适用于大规模选拔性测验 尽管线性CEEB分数是一种线性转换 并未改变原始分数的分布形态 但通常来说 它为一个被试几种不同测验分数的相互比较及相加求和提供了条件 也为不同被试之间多科总分的比较提供了条件 2 缺点两个分布形态不同的线性CEEB分数不可以相互比较 也不可以相加求和 对于单位不需要过细的测验来说 CEEB分数的数字太大 计算起来不甚方便 三 线性标准分数转换的通式 CEEB 100Z 500 大规模选拔性测验 T 10Z 50 智力测验和教育测验 九段分数 2Z 5 辅导与咨询 军队选拔 ITED 5Z 15 教育发展测验 第四节年级和年龄量表 一 年级量表 一 年级量表的含义及编制测验的原始分数与年级的等值对照表称为年级量表 将某种测验施于由各年级组成的标准化样本 然后求出各年级测验分数的平均数 或中位数 这些平均数与年级分数的对应表就是年级量表 一般将一个学年分成十个学月 然后再定出每一个学月相对应的原始分数 二 年级量表的评价年级量表常会被误解年级量表不能比较不同测验的得分年级量表的可靠性较差年级量表仅适用于低年级而不适用于高年级 二 年龄量表 一 年龄量表的含义及编制测验的原始分数与年龄的等值对照表称为年龄量表 年龄量表可以分为心理年龄量表和教育年龄量表

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论