




已阅读5页,还剩86页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2020 1 25 1 教育测量的一般理论与基本方法 袁亚良 2020 1 25 2 主要内容 一 基本概念二 数据整理三 集中趋势分析四 分析评价报告 2020 1 25 3 一 基本概念 1 教育测量教育测量有广义和狭义之分 从广义上说 教育测量泛指运用测量手段对教育活动所进行的量的测定 它涉及的范围很广 凡是需要并能够测量的与教育有关的活动均在研究之列 如教育投入 教育过程各要素 教育的效果等 从狭义上讲 教育测量专指按一定规则对学生的知识 智能 个性发展 思想品德等所进行的量的测定 通常所提及的多是狭义上的教育测量 2020 1 25 4 2 教学评价 教学评价是按照一定标准 运用科学可行的方法 对教育活动所进行的价值判断的过程 它包括对教学过程和教学效果的评价 诸如学校 教师的教学工作 课堂教学 教学方法 模式和内容 以及学生的学业成就 一般智能发展 个性发展 思想品德状况等评价 2020 1 25 5 3 测验及其种类 测验是指对通过一定的仪器和试题所引起的受测者的行为样本进行测量的系统程序 教育测量的对象和内容是非常丰富的 测验作为教育测量的主要工具 种类也很繁多 可按不同标准加以分类 2020 1 25 6 按测验的功用分类 1 学绩测验 测量个人 或团体 经过一定形式的学习活动后对知识和技能的掌握程度 因为主要是为测量学习成绩而设计 因而称为学业成绩测验 简称学绩测验 又称作学业成就测验 平时我们举行的学科测验就属此类 2020 1 25 7 2 能力测验能力测验可分为 1 一般能力测验 如智力测验 创造能力测验 2 特殊能力测验 如对美术 音乐 数学等方面的特殊才能的测验 3 潜在能力测验 又称能力倾向测验 测量潜在能力是为了测定个人能力发展的潜在特质 即尚未表现出来的潜藏着的能力 在一定条件下某种能力可能达到的水平 2020 1 25 8 3 人格测验 测量动机 兴趣 态度 气质 情感 信念 价值观等除能力以外的个性特征和倾向 2020 1 25 9 按测验的目的分类 1 诊断性测验 也称作配置性测验 是指在教学活动的一定阶段 如学年 学期或教学某一课程章节之初进行的测验 其目的在于了解学生的知识基础和情感发展状态 对即将学习的内容的准备状况 使教师 管理人员心中有数 以便合理编班 组织教学 恰当处理教学内容 2020 1 25 10 2 形成性测验 是指在教学活动的进程中所实施的 以改进教学为目的的测验 这种测验形式灵活 师生可以通过形成性测验了解前段教与学的状况 以便采取措施及时矫正 例如在教学中 当讲过一个单元之后 为了了解学生对该单元的内容掌握情况 可以组织形成性测验 以便及时反馈信息 采取补救措施 改进教学工作 更好地完成教学任务 2020 1 25 11 3 终结性测验 是指在学期学年或某一门课程终了时举行的测验 其目的在于鉴定教师的教学和学生的学习 甚至一门课程的编制 这种测验的组织 实施都比较正规 例如毕业考试就是其中的一种 2020 1 25 12 1诊断 形成 终结性测验对照表 2020 1 25 13 按测验的对象分类 1 个别测验每次仅以一个被试为对象 其优点是主试对被试者的言语 情绪有较多的控制机会 能进行细致的观察 缺点是费时多 手续复杂 对主试专业素质要求较高 一般多用于个性测量 外语的口试等 2020 1 25 14 2 团体测验是指在同一时间内由一位主试对多数人实施的测验 它的优点是时间经济而且不一定找专业素质高的人担任主试 缺点是对被试的行为不能有效的控制和细致观察 目前教育测量多数采用团体测验 2020 1 25 15 按解释分数和方法分类 1 常模参照测验指参照被测群体的实际水平解释分数的测验叫做常模参照测验 群体的平均分数一般可以反映群体的水平 称为常模 以常模为参照点 将被测个人的成绩与常模比较 并把比较结果所反映出来的差异数量化 作为导出分数 参照常模解释分数 便于比较和选拔工作的进行 它属于相对评价的范畴 例如 在升学考试中 按标准化的要求进行的分数转换就是参照常模得出的 2020 1 25 16 2 目标参照测验参照被测达到目标的程度来解释分数的测验 叫做目标参照测验 也称作标准参照测验 通过与特定的标准进行比较 了解被测的达标程度 这是一种绝对评价方法 例如 毕业考试就是以某一学段的教育目标为标准 衡量学生的达标情况而进行的 2020 1 25 17 2常模参照测验和目标参照测验对照表 2020 1 25 18 4 测量的要素 测量的三要素 参照点参照点分绝对零点和相对零点 教育测量所应用的参照点都是相对零点 统一的单位 量具 测量工具 教育测量常用的工具是试卷 而试卷由测题构成 故我们必须高度重视命题的研究 提高试题的质量 这样才能保证测验的可靠性和有效性 2020 1 25 19 5 教育测量中使用的量表 百分量表 百分等级量表 标准分 量表 量表 2020 1 25 20 二 数据整理 一 系统抽样方法抽样方法是从总体所包含的全部个体中随机地抽出一部分个体作为样本 用以估计总体情况的一种方法 要使样本有代表性 能充分反映总体的情况 必须采用随机抽样的方法 所谓随机抽样 就是从总体抽取样本时 排除人的主观因素的影响 使每个个体被抽取的机会均等 常用的抽样方法有四种 2020 1 25 21 1 简单随机抽样 最简单的随机抽样方法是用抽签法 其方法是先将总体中的所有个体编号 总体中个体的个数为N 号码便是从1编到N 对个体编号时也可以利用已有的编号 如班级中的座位号 考试时的准考证号等 再将所有编号制成号签 即写在形状 大小相同的卡片 或纸条 小球等 上 将号签放在一个暗箱里 搅拌均匀 抽签时根据样本的容量抽取 如要求抽取K个个体作为样本 则每次抽出1个号签 连续抽出K次 已经抽出的号签不再放回参加抽取 2020 1 25 22 现在较为先进的抽样方法是利用 随机数表 进行抽样 随机数表的制作 是将0 1 2 9十个数字 按随机的方式重复地抽出 根据抽出的顺序排列所作成的表 表中可约定二个或三个数字 乃至五个数字为一组 制作随机数表时 要保证表中每组位置上 数字出现的概率是相等的 现在统计工作者常用计算机来制作随机数表 2020 1 25 23 简单随机抽样 简便易行 适合于总体的个体数不多的情况 若总体的个体很多 要事先将所有个体码号 然后逐个抽取 过程较繁琐 可采用其他方法 2020 1 25 24 2 系统抽样 系统抽样是先将总体均衡地分成若干个部分 然后按事先约定的规则 从每部分抽取出1个个体 得到所需要的样本 2020 1 25 25 3 分层抽样 分层抽样是已知总体是由有明显差异的几个部分组成时 为了使样本更充分地反映总体情况所采用的抽样方法 它是先依据总体的差异情况将总体分成几部分 然后按各部分所占的比进行抽样 分层抽样能充分利用已知信息 能使样本有较好的代表性 缩小变异程度和抽样误差 在实践中较多采用 2020 1 25 26 4 群体抽样 群体抽样是以集体为对象而不以个体为对象的抽样方法 整体抽样的方法易于组织 能节约人力物力 适用于大规模的调查研究 但样本单位在总体中分布的均匀性较差 如果结合分层抽样进行 能减少误差 缩小变异程度 2020 1 25 27 四种抽样一览表 2020 1 25 28 二 数据分布 在教育测量中 通过各种测验获得大量分数 这些杂乱无章的分数有三个问题 一是看不清它们的分布形态 二是不了解它们的特征和变化规律 三是每个分数表达的意义含混模糊 因此 需要对零乱分散的分数进行整理和分析 以便在此基础上作出解释和评价 2020 1 25 29 1 顺序排列表顺序排列是简单的整理分数的方法 它是将所有个体的成绩 按高低顺序排列 并且列于表中 称作顺序排列表 这种方法简明清晰 一眼便能看到最高分数和最低分数 而且可以大致了解个体成绩在总体中的位置 2020 1 25 30 2 频数分布表 频数分布表是一种反映数据分布情况的统计表 所谓频数是指一群数据在各个数值 或区间 上所出现的数据的个数 也称为次数 每一个频数除以数据的总个数称为频率 或称相对次数 2020 1 25 31 3 频数直方图 频数分布表可以制作频数直方图 方法是 以分数为横轴 频数为纵轴 建立直角坐标系 在横轴上标出各组分数的组中值 频数值等距标在纵轴上 然后以组中值为底边中点 组距为底边 组频数为高作出各矩形 即得频数直方图 2020 1 25 32 三 集中趋势分析 1 算术平均数一组数值的总和除以数据的总频数所得的商称为算术平均数 简称平均数 2020 1 25 33 2 方差 一组数据中 各数离均差的平方和的算术平均数称为这组数据的方差 又叫均方差或变异数 用符号S2或 2表示 S2 2020 1 25 34 3 标准差 方差的算术平方根称为标准差 标准差是反映全体考生分数之间的离散程度和差异情况 它与平均分一起使用 决定了某次考试分数分布情况 S值越大 表示部分考生离平均分的 差距越大 也就是分数分布较广 S值越小 则分数分布较窄或说 集中在平均分附近 S 2020 1 25 35 4 由分组标准差求总体标准差的方法 在教育测量中 常常需要根据各部分数据的平均数 标准差求全部数据的标准差 主要步骤如下 1 求全体学生的总平均分 2 求组内偏差平方和各分组方差si2与相应的组内数据个数Ni之积的和叫做组内偏差平方和 用q1表示 即q1 Ni si2 2020 1 25 36 3 求组间偏差平方和 各分组平均数与全体总平均数的差叫做组间偏差 用di表示 组间偏差平方di2与相应组数据个数Ni之积的和叫组间偏差平方和 用q2表示 即q2 Ni di2 4 求总标准差总标准差公式 2020 1 25 37 5 差异系数 标准差较准确地反映了一组分数的离散程度 它与原数据的单位相同 是一种绝对差异量数 在进行不同组间离散程度比较时 适用于单位相同 平均数相近的情况 如果各组数据单位不同 或虽然单位同但平均数相差甚远时 不能直接用标准差比较 这时应使用差异系数 差异系数是一组数据的标准差与平均数的百分比 用CV表示 2020 1 25 38 例5某市中考成绩语文的标准差S1 15 平均分85分 满分120分 政治的标准差S2 10 平均分50分 满分70分 试比较两科的差异情况 2020 1 25 39 解 语文学科的差异系数为CV 15 85 17 6 政治学科的差异系数为CV 10 50 20 因此 政治学科分数的离散程度大 2020 1 25 40 6 标准分数 标准分数是以平均分为参照点 标准差为度量单位的分数 它具有重要理论价值和应用价值 不改变分布形态的标准分数 定义式为 2020 1 25 41 例6 某生高考数学成绩105分 所在省的数学平均分68 40分 标准差为28 90分 求他的标准分数 解 Z 1 266 这种标准分数又称z分数 2020 1 25 42 为了与通常记分的习惯协调一致 对z分数可以再施行线性变换 以消除它的负值和小数 例如线性变换y Az B 当A 10 B 50时 便得到了T分数T 10z 50 2020 1 25 43 市区7年级基础教育质量监测的标准分数T分就采用了线性变换y Az B 其中A 100 B 500 2020 1 25 44 正态化的标准分数当两种测验的原始分数分布形态不相同时 应采用非线性变换的方法 对偏态分布进行正态化处理 正态化方法如下 首先把原始分数化为百分等级 然后把百分等级看作正态分布曲线下的累积面积 查正态分布表找出相应的z值 便得到了中位数为零点的正态化标准分数 2020 1 25 45 7 难度 难度是指试卷 题 的难易程度 一般用试卷 题 的得分率或答对率 P 表示 所以难度事实上是容易度 P值在0 1之间 数值越大 说明试卷 题 越容易 2020 1 25 46 难度公式难度与分数分布一般情况下 测验的平均难度接近0 50时 分数趋于正态分布 否则分数分布将出现偏态 就整个测验而言 当平均难度为0 5且题目组间的相关为零的情况下 分数呈正态分布 而难度值越小 则题目越难 低分段人数必然较多 难度值越大 题目越容易 分数将大部分集中在高分区 这样 在分数的分布上 就会呈现出两种不同的偏向 前者为正偏态 后者为负偏态 2020 1 25 47 有关考试难度水平估计一览表 2020 1 25 48 2020 1 25 49 2020 1 25 50 2020 1 25 51 8 区分度 是试题对不同考生的知识 能力水平的鉴别程度 如果一个题目的测试结果使水平高的考生答对 得高分 而水平低的考生答错 得低分 它的区分能力就很强 题目的区分度反映了试题这种区分能力的高低 一般认为 区分度的数值达到了0 3 便可以接受 达到了0 3以上为好的题目 在0 4以上为优秀题目 低于0 3的题目 区分能力差 2020 1 25 52 1994 1995年高考数学试题区分度统计表 2020 1 25 53 1 得分率求差法 将受测群体按题目得分的高低排列 取高分人数的27 为一组 他们的得分率记作PH 低分人数的27 为另一组 他们的得分率记作PL 则该题的区分度为D PH PL 2020 1 25 54 2 得分求差法 适用于解答题 将受测群体按题目得分的高低排列 取高分人数的27 为一组 低分人数的27 为另一组 用D表示区分度 用H表示高分组得分总和 用L表示低分组得分总和 用n表示高分组 低分组 人数 XH表示该题的最高得分 XL表示该题的最低得分 则 2020 1 25 55 3 当题目为多值评分时 可以用受测者在某题上的得分与其测验总分之间的积差相关计算区分度 2020 1 25 56 积差相关 2020 1 25 57 9 信度 1 信度的概念信度是衡量测验分数一致性或可靠性的一个指标 即用一个或一组测验对同一被试群体施测多次 所得结果的一致性的程度 以及测验分数所反映被试真实水平 即真分数 的可靠性程度 一般情况下 在规模较大的测验中 信度系数应不低于0 90 以达到0 95为好 学校平时测验的信度系数也应不低于0 60 2020 1 25 58 2 常模参照测验的信度 稳定性信度对一组受测者先后两次施测同一测验所得分数的一致性称作稳定性信度 稳定性信度适用于速度测验 测题数量较多 且有一定的时间限制 受测者很难记住前一次测验的内容 受记忆影响较小 计算稳定系数的方法是求两次测验分数的积差相关系数 2020 1 25 59 等值性信度 两个复份测验之间分数的一致性称作等值性信度 通常被表示为两个复份测验分数的相关系数 所谓复份测验是指在测验性质 内容 题型 题量 难度等方面均为一致的A B两个测验 这两个测验中的一个几乎是另一个的复本 所以等值性信度又称为复本信度 计算等值系数的方法是 先用A卷施测 然后在较短的时间间隔内施测B卷 再求它们得分的积差相关系数 2020 1 25 60 例18名学生化学模拟测验和高中会考成绩如下表 其中x表示模拟成绩 y表示会考成绩 求测验的等值性信度 2020 1 25 61 用这两类测验成绩的积差相关系数表示 2020 1 25 62 内在一致性信度 在一个测验中 各个测题上所得成绩的一致性称作内在一致性信度 测验内部的一致性是确定测验中的所有题目是否测量了同一个心理属性 这里只介绍用分半相关和 系数公式来计算内在一致性系数 2020 1 25 63 分半相关 将全卷中全部试题按题号或分数适当分半 得到两个平行的 子试卷 计算这两个子试卷考生得分的相关系数 这样求得的是半个试卷的信度 然后再用斯皮尔曼 布郎 Spearman Brown 公式校正 得到考试的分半信度系数 一般认为分半信度系数在0 90以上比较合适 这个方法比较适合多数为选择题的试卷 2020 1 25 64 斯皮尔曼 布郎 Spearman Brown 校正公式 其中 rtt分半信度系数 rab表示A B两份试卷得分的积差相关系数 一般认为分半信度系数在0 90以上比较合适 2020 1 25 65 内部一致性信度 通常采用的是克伦巴赫 Cronbach 的 系数公式 它适用于非选择题 多重记分 较多的试卷 系数为试卷信度的最低限 一般认为其值在0 80以上 考试的信度比较好 2020 1 25 66 克伦巴赫 Cronbach 系数公式 它适用于非选择题 多重记分 较多的试卷 系数为试卷信度的最低限 一般认为其值在0 80以上 考试的信度比较好 克伦巴赫 Cronbach 公式 其中 Si2是每个测试题目得分的方差 St2是整份测验总分的方差 2020 1 25 67 1994 1996年高考数学 理科 试卷统计数据对比表 2020 1 25 68 3 标准参照测验的信度标准参照测验强调注重于考查学生对教学内容熟练掌握的程度 在教与学各个环节处理得较好或较差的情况下 受测团体的水平将比较一致 测验分数的分布范围比较小 这样 即使测验具有一定的稳定性或可靠性 它的信度系数仍然较低 2020 1 25 69 2020 1 25 70 根据标准参照测验的特点 可用较为简便的方法估计信度 阶段比较法 比率系数估计法 2020 1 25 71 阶段比较法 对数学学科内部某一分支的标准参照测验 可用阶段比较法来判断测验的信度 例如 施测 不等式 的内容 先对学生进行 不等式的性质 的标准对照测验 鉴别出学生通过与未通过的类别 学生经过下一阶段的学习 再进行 不等式证明 的标准对照测验 如果前阶段通过的学生中后阶段未通过的比率较高 经过考察 发现这些学生不会证明的原因 是由于没有真正熟练掌握不等式的性质 那么说明前阶段的测验可靠性较低 2020 1 25 72 阶段比较法还适用于同一知识内容在不同时期 或不同水平上 的标准对照测验 例如 先对学生施测较低水平的标准参照测验 找出通过的学生 经过一段时间学习 再用较高水平的标准参照测验施测 如果第一次测验通过的学生已具备学习下阶段内容的条件 他们在阶段学习中又确实取得成功 也就是说 在第一次测验通过的学生中第二次测验达到熟练掌握的学生人数比率较高 那么说明该测验信度较高 2020 1 25 73 比率系数估计法以甲 乙两个复份的标准参照测验对同一组学生施测 用两个测验都通过和都未通过的人数之和与该组学生总数之比作为测验的信度系数 公式为 rtt a d a b c d 2020 1 25 74 如果两次测验都通过与都未通过的人数之和与总人数之比的比值较高 可以认为测验具有稳定性 2020 1 25 75 10 效度 效度是反映1份试卷有效性或准确性的指标 一个测验可以具有不同的效度指标 当我们讨论一个测验的效度时 只有界定了它的条件 效度才有确切的意义 每一种效度有其特定的适用范围 常模参照测验的效度主要有 效标效度 内容效度 结构效度 2020 1 25 76 1 效标关联效度 效标关联效度是指考试分数与效标的关联程度 我们可以用一类标准化测验作为某次测验的效标 如国家级高考 省级各类会考等 用积差相关法计算效度 当要以某种考试来估计目前或将来的成就在其他考试上的相关程度时 就要用效标关联效度 2020 1 25 77 由于客观上的种种原因 难以确定有效的效标 因此 效度的计算 采用求平均区分度代替 其计算公式是 2020 1 25 78 两种效标关联效度 同时效度 本次考试分数与作为效标的分数两者获得的时间间隔很短 预测效标 以上两种考试分数获得的时间间隔较长 2020 1 25 79 2 内容效度 测验的题目对所要测量的内容具有代表性的程度称作内容效度 它反映测验题目在所要测量的内容范围和教学目标内取样是否充分和确切的问题 主要用于学科成绩测验 内容效度一般不用数量化指标来表示 主要依靠在某种依据的基础上作出逻辑分析 为了提高测验的内容效度 首先要注意界定测验的内容范围 其次要注意基于经验判断基础上的系统取样 学科成绩测验的编制应根据教学目标的分类 先拟就测验的蓝图 将各部分内容和教学目标各层次按确定的比重表达出来 然后编制测题 以满足提高内容效度的要求 2020 1 25 80 3 结构效度 构造效度 测验对假设的理论概念或心理属性测量的有效程度称作结构效度 也可以说结构效度是指考试对理论上构造或特质的测量程度 如测量 思维能力 时 即可通过考分来推断这种心理特质的程度 就要用结构效度作为衡量指标 2020 1 25 81 推算结构效度 常用下面的方法 测验内容法 相关系数法 因素分析法 2020 1 25 82 确定结构效度需三个步骤 建立理论体系 理论结构 并以此出发提出关于某一心理特征的假设 设计和编制测验 并进行实施 用收集证据和逻辑分析的方法来验证与理论假设的相符程度 由于建立理论和提出假设的困难 操作步骤较为复杂 且没有单一的量化指标来描述有效程度 所以 在一般的考试质量分析中很少采用 2020 1 25 83 标准参照测验效度标准参照测验主要检查学生的学习效果 考察学生对规定的内容掌握得如何 或是否达到某种标准 如果全体学生都已经掌握 他们所得分数的方差是零 根据影响效度的因素 受测团体同质性可知 即使这类测验再有效 效标关联效度系数也不会高 所以 标准参照测验的主要评价方法是内容效度 2020 1 25 84 参考资料
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- “JUZI汉语”软件在HSK词汇教学中的应用研究
- JS银行ESG管理体系优化研究
- 读后续写教学中高中英语教师的教学信念对其教学行为影响的个案研究
- 玩具设计核心要素与创新实践
- 孩子作业书写培训
- 电信网络安全班会
- 脑动静脉畸形MRI诊断
- 颐和园英文课件
- 三减三健健康知识教育
- 心内科胸闷气促的护理诊断
- DB11-T 1192-2025 工作场所防暑降温技术规范
- 2025年社区工作者招聘考试(公共基础知识)经典试题及答案
- 2025年精益生产管理考试试题及答案
- 历年造价员考试试题及答案
- 小学美术大单元教学设计与实施研究
- 山地生态治理修复项目可行性研究报告
- 2025广西公需科目真题续集(附答案)
- 小儿喘息性肺炎的护理
- 2025年 浙江“三支一扶”招募笔试考试试卷附答案
- 《个人信息保护法》考试参考试题库100题(含答案)
- (正式版)SH∕T 3548-2024 石油化工涂料防腐蚀工程施工及验收规范
评论
0/150
提交评论