




已阅读5页,还剩76页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
教育统计与测量学原理 Z x x s 教育科研所张国威 教育统计与测量学原理 学习教育统计与教育测量的重要意义1 教育统计和测量是认识教育本质的有力武器 2 是分析处理教育工作中各种数据资料 进行教育督导与评价的有效工具 3 对教育管理科学化具有重要意义 4 是教育科学研究中 发现探索教育教学规律 指导教育教学实践 为教育行政部门决策提供依据的重要思想方法 5 是党和政府制定教育方针 政策以及认清教育事业和整个国民经济发展关系的重要工具 第一部分 教育统计学 一 概述1 什么是教育统计学2 教育统计学的历史3 教育统计学的内容二 描述统计1 常用的统计表 图与统计量2 相关分析3 正态分布三 推断统计1 相关概念2 总体平均数估计3 平均数差异的显著性检验四 实验设计简介 一 概述教育统计学概念 发展历史 内容 1 概念 教育统计学就是运用数理统计的原理和方法研究教育问题的一门应用科学 它是研究如何收集 整理 分析和解释教育方面的数据 从而表明教育上某些现象的特征及规律的一门科学 它是处理教育实际工作和进行教育研究以及提高管理质量的科学水平 提高教育质量的重要工具 教育统计学的主要任务 对教育现象进行调查和实验 在占有充分数据资料的基础上 经过对数据的整理计算 统计分析和统计检验等方法 对研究结果予以科学说明 即从数量方面的研究 来探索教育和心理现象的发展变化的特征和规律 或根据研究结果的数据处理 统计推断 做出正确决策 教育统计学概念 发展历史 内容 2 教育统计学发展史 教育统计学产生于上个世纪初 发展于五 六十年代 广泛应用于八十年代以后 1 国外 20世纪初统计学传入美国 桑代克 E L Thorndike 为了达到 极力以心理学与统计学为工具研究教育学 使教育科学化 的目的 1904年出版世界上第一本有关教育统计学的专著 心理与社会测量导论 2 国内 我国的教育统计学是在辛亥革命以后 随着西方科学技术成就一起被引入 当时的大学教育系和中等师范学校 都把教育统计学作为必修课程 很多学者撰写专著 如薛鸿志 教育统计方法 1925 王书林 教育测验与统计 1935 等 1979年随着全国教育科学规划会议的召开 教育统计学恢复了新生 各师范大学又都开设了教育统计学课程 教育部组织叶佩华 万梅亭 郝德元 陈一百等教授编写 教育统计学 作为全国通用教材 经过100多年的发展 各种教育统计方法已相当丰富 但每一种方法的运用在我国还处于推广和适用阶段 因此不少人对它的作用缺乏足够的认识 特别是对复杂的教育问题 由于统计方法本身的限制 还有十分重要的实验设计和统计推断的问题不能在理论上得到有力解决 还有待于教育学家亲自动手来推进统计理论和改进统计工具 教育统计学概念 发展历史 内容 3 教育统计学的内容 教育统计学按应用分为描述统计 推断统计 实验设计 多元统计 三部分内容 1 描述统计的主要作用就在于就所关心的教育现象进行全面调查和观测 然后将所得的大量数据加以整理 简缩 制成图表 或就这些数据的分布特征 如集中趋势 离散趋势 相关度等等 计算出具有概括性的数字作为标志 借助这些概括性的数字 我们就可以从杂乱无章的数据中取得有意义的信息 2 推断统计也叫抽样统计 它是在描述统计的基础上发展起来的 是用抽样的方法 根据部分数据来推断一般情况 即通过局部对全局的情况加以推断的一种方法 它可以帮我们透过现象看到本质 对客观现象作出本质性的判断 它是从样本的研究中得出统计量 来推断总体的有关特征 以便作出具体的措施和决策 常用的方法有 u检验 t检验 卡方检验和非参数检验 还有多元分析中的主成份分析和因素分析等 3 实验设计通常指实验程序的计划和安排 而实验程序的计划和安排离不开统计和检验 二 描述统计第一章常用统计表 统计图及统计量 一 常用统计表1 统计表的结构 由标题 项目 标目 数据 线条 表注 数据来源 组成1983年我国普通中学教师学历统计表学历人数百分比 大学本科以上30088711 6大专毕业56686321 8中专毕业以下172975066 6合计2596900100 0注 引自 中国教育成就统计资料 1984年人民教育出版社 标题项目线条 数据表注 二 描述统计第一章常用统计表 图及统计量数 2 制表的一般要求A 统计表的内容要简要 最好一个表说明一个中心内容 标题的措词要简明扼要 正确说明内容 使人一望便知 B 分项要准确 以能说明问题为主 分项的好坏是决定统计表质量的关键 切忌分项太细 C 数据是统计表的语言 说明内容 要求准确 书写整齐 一律用阿拉伯数字 单位要统一 位数对齐 有效数字要一致 表格内不能有空白 D 线条不要太多 表的上下端有顶线与底线 左右两边不要用线封死 纵项目用细线格开 横项目一律不画线条 合计项目用粗线条或双线与其它项目分开 二 常用统计图 1 统计图结构 图题 图目 图尺 图例 图形 图注 第一章常用统计表 统计图及统计量 2 统计图的类型及绘制要求 绘制统计图的要求A 根据数据和目的选择合适的图形B 图形所表示的面积或距离要比例适当C 表示不同的事物要用不同的颜色与线条 类型 1直条图2圆形图3曲线图4直方图 二 常用统计图 3 次数分布表与直方图 对一批数据按一定次序排列并加以分组 编成反映这群数据在各组上出现次数的统计表和图 就是次数分布表和直方图 例 一次考试之后 某班48名学生的成绩如下 86 77 63 78 92 72 66 87 75 83 74 47 83 81 76 82 97 69 82 88 71 67 65 75 70 82 77 86 60 93 71 80 76 78 57 95 78 64 79 82 68 74 73 84 76 79 86 68将该组数据整理成次数分布表与直方图 二 常用统计图 1求全距 R max xi min xi 用该组数据最大数减最小数2定组数和组距 数据划分组数 每组上下限之间距离 全距除以组数 3列组限 从最高分至最低分以组距为单位依次分组4归组划记 计算数据出现次数 并计算累积次数及相对次数 步骤 例 一次考试之后 某班48名学生的成绩如下 86 77 63 78 92 72 66 87 75 83 74 47 83 81 76 82 97 69 82 88 71 67 65 75 70 82 77 86 60 93 71 80 76 78 57 95 78 64 79 82 68 74 73 84 76 79 86 68 1412108642 4550556065707580859095100 分数 直方图 三 常用统计量 集中量数 1 集中量数 代表一组数据的集中趋势和典型特征常用的有 平均数中数众数 第一章常用统计表 统计图及统计量 2 中数 中位数 用Md表示 是在一组按大小顺序排列的数据中位置居中的那个数 数据是奇数个时 正好是中间位置的数 即第 N 1 2个那个数 数据是偶数个时 求中间位置两个数的平均数 如 13679Md 6 36792021Md 7 9 2 8 3 众数 用M0表示 是一组数据中次数出现最多的那个数 在众数不明显的情况下 一般可看众数段 即哪个分数段的次数多 就以该段中点值作众数 一般用观察法求得 众中平 众中平 平中众 正态分布正偏态分布负偏态分布 平均数 中数 众数在数据常态分布中的相对位置 2 差异量数 全距平均差标准差差异量数是描述次数分布中 离中趋势 这一特征的统计量 简称 差异量 一组数据 若离中趋势小 则集中量的代表性就大 反之 若离中趋势大 则集中量的代表性就小 但是 仅考虑集中量数是不够的 要了解两组学生成绩分布的全貌 还必须研究两个组的差异量数 最常用的差异量有全距 平均差和标准差 1 全距 符号为 R 指一组数据中由最大量数到最小量数的距离 R小说明离散程度小 比较整齐 2 平均差 指一组数据内的每个数与均数差的绝对值的算术平均数 通常用AD表示 平均差的计算公式为 常用统计量 差异量数 差异量数 方差与标准差 3 标准差 指一组数据中每一个数值与它们的平均数之差的平方的算术平均数的平方根 其符号为S 样本标准差 总体标准差用 表示 S的计算公式为 S越大表明离散程度越大 数据不均匀 集中量的代表性小 方差与标准差除具有平均差的优点之外 还具有受抽样影响小和适于代数运算等优点 是最优良的差异量数 标准差的应用 变异系数 标准分数 标准差的应用 变异系数 变异系数计算公式 主要用于 同一团体不同观测值离散程度的比较 对于水平相差较大 但进行的是同一种观测的各种团体离散程度的比较 例 已知某小学一年级学生的平均体重为25千克 标准差是3 7千克 平均身高110厘米 标准差为6 2厘米 问体重与身高的离散程度那个大 解 CV体重 3 7 25 14 8 CV身高 6 2 110 5 64 答 通过比较差异系数可知 体重的分散程度比身高的分散程度大 14 8 5 64 变异系数是一种相对差异量 常用cv表示 标准差的应用 标准分 标准分数 又称Z分数 它是一种以平均数为参照点 以标准差为单位的 表示一个分数在团体分数中所处位置的量数 其计算方法为 由原始分数与平均分数的差除以标准差所得的量数 其符号为 Z 计算公式是 标准分是以标准差为单位的 故称为标准分 它是一种相对地位分 标准分有正负之分 一般在 3 3 中 几率为99 74 平均值为零 标准分可比性根据在于标准正态分布 T分数 T 10Z 50 一般20 T 80 E分数 E 20Z 90 一般30 E 150 例 有某生三次数学考试的成绩分别为70 57 45 三次考试的班平均分为70 55 42 标准差分别为8 4 5 如何看待该生的三次考试成绩 答 如果仅从原始分数看 肯定认为第一次最好 其实不然 要计算出各次的标准分数 才能说明问题 根据公式得出 Z1 70 70 8 0Z2 57 55 4 0 5Z3 45 42 5 0 6这说明 原始分数为70 其位置正在平均线上 而原始分数为57的 其位置在平均线上0 5处 而原始分数为45的 其位置在平均线上0 6处 很显然第三次成绩最好 第一次最差 标准差的应用 标准分 标准分数 运用标准分比较不同教育测验成绩总分的优劣 更为合理 例 甲乙两学生五科考试成绩如下 试分析哪名学生成绩好些 科目XSXZ 如果按原始分数乙生总分是354分优于甲生的342分总分 但按标准分数则甲生的3 24分优于乙生的3 03分 标准差的应用 标准分 二 描述统计 相关分析 研究两自变量之间的关系紧密程度的过程 统计学上称为相关分析 事物的变化总是伴随着一定的量的变化 有些是单变量 有些是双变量或多变量 也有些是复变量 集中量数和差异量数反映的是单变量数据特征 相关分析主要研究双变量数据特征 我们都知道事物现象间的相互关系 如果从数量关系的角度考察 可分为函数关系和相关关系两种类型 相关关系可分为正相关 负相关 直线相关 曲线相关 完全相关 函数关系 高度相关 低相关和零相关 如 教育经费的投入与教育事业发展规模和速度之间的关系是正相关 复习次数与遗忘量之间的关系是负相关 相关分析的方法有二 一是图示法 一为计算法 第二章相关分析 图示法 将两组观测值标在坐标系中 二 描述统计 相关系数 是描述两组数据之间相关程度的量数种类有 积差相关系数 等级相关 点二列相关和 相关 积差相关系数 皮尔逊系数 是描述来自正态总体两个连续变量之间线性相关程度的一种相关量数 r n xy x y n X2 X 2 n y2 y 2 相关系数的范围 1 r 1当r是正值时为正相关 当r是负值时为负相关 r 0为零相关 通常1r 0 70为高度相关 0 70r 0 40为较显著相关0 40 r0为低相关 当然在下结论时还要进行显著性检验 第二章相关分析 对相关系数的解释注意以下问题 A在小样本中要做显著性检验 B相关系数大小差异不是绝对的 C相关系数不是等距的不能进行大小比较 D相关关系不一定是因果关系 第二章相关分析 例 数学与物理 物理与英语相关性比较 第三章正态分布 在社会 教育现象中大多数随机变量都呈现是或近似正态分布的情形 正态分布是统计理论与统计应用中最重要应用最广泛的一种分布 正态曲线的特点 二 描述统计 一个正态分布是由总体的平均数和总体的方差所决定的 1 正态曲线及其特点 第三章正态分布 2 正态分布曲线的重要性质 z x 3 正态曲线理论的应用 1 推求学生成绩中某些分数的人数例 假定500个学生某科成绩近似正态分布 其X 70 10 试问 1 75分以下有多少人 2 85分以上有多少人 3 75 85分之间有多少人 解 1 z 75 70 10 0 5 查正态分布表中值为0 6915 因此75分以下的学生占69 15 75分以下的人数是500X69 15 346 人 2 z 85 70 10 1 5 查正态分布表中值为0 93319 85分以下的学生占93 319 因此85分以上的学生占100 93 319 6 681 所以85分以上的人数是500X6 681 33 人 3 75分至85分之间 实际上是75分以上至85分以下的范围 因此85分的百分率减去75分以下的百分率即为所求93 319 69 15 24 169 500 x24 169 121 人 正态曲线理论的应用 2 推求某一特定百分率的成绩界限例 某县对初一年级学生1000名学生进行能力测验 其结果为X 75 10 现拟根据此次结果选取25名学生作为 尖子班 培养 假定测验成绩近似正态分布 问多少分以上才能被选到 尖子班 学习 在正态分布表中查表中值0 975所对应的标准分数 z 1 96 既是说1000名学生中有97 5 的人数在标准分数1 96以下 因此有2 5 的人数在标准分1 96以上 再将标准分数1 96化为原始分数得 1 96X10 75 94 6 分 答 分数在94 6分以上才能进 尖子班 分析 尖子班 的人数占全年级的百分比为 25 1000 2 5 正态曲线理论的应用 3 分析测验试题的难度例 某校学生在一次测验中 第一题的答对率为15 第二题的答对率为25 第三题的答对率为35 假设这三题所测量的能力近似正态分布 问1 2 3题的难度值各为多少 各题之间的难度差异怎样 在正态分布中 通常是根据答错率找出所对应的标准分数界限值 此值即为该题的难度比值 由左表可知虽然三题的答对率都相差10 但第二题与第三题的难度差异却比第一题与第二题的难度差异要小 三 推断统计 教育现象和一切客观物质世界中的现象一样 不仅存在质的方面 同时也存在量的方面 而且这两方面是辩证统一的 教育统计学就是在教育现象的质与量中 专门研究其数量方面特征的重要工具 在建立了以概率论和抽样方法为主要依据后 教育统计学便具有了以局部推知全体 以样本资料推知总体性质的科学推断功能 根据样本信息对总体参数状况的推断有两种不同形式 既总体参数估计和假设检验 二者既有区别也有联系 三 推断统计 1 总体和样本 所要研究对象的全体叫做总体 其中每一个研究对象叫做个体 从总体中抽取的一部分叫做总体的一个样本 样本中个体的数目叫做样本容量 例1 对家用电器质量抽查 确定次品率 不能采用全部检测的方法 例2 全市要检查初中学生体育锻炼达标情况 对每名学生一一测试工作量很大 不仅耗费人力 物力和时间 而且没有必要 有没有一种科学的方法只抽测一少部分学生 然后根据这部分学生的测试成绩去推知全市中学生的体育达标情况 2 参数与统计量 总体参数是指一切由观察测定总体的全部个体而得到的统计量数 样本统计量是指为估计总体参数从样本所得的统计 s 第一章相关概念 推断统计 4 抽样方法 3 随机误差 样本统计量与总体参数之间的差距 从某市参加高考的1200名学生中抽取200名试卷组成一个样本 计算这200份试卷的平均分和标准差 这200份试卷的平均分和标准差与1200名考生的平均分和标准差是有差距的 不同的抽取带来不同的差距 这种差距称之为随机误差 A 随机抽样 抽签法 随机数字法 B 机械抽样C 分层抽样D 整群抽样 抽取样本应遵循的原则 第一总体中每一个个体被抽中的机会均等 即抽中与抽不中纯属偶然 第二任一个体与其它个体在抽取时无联带关系 即抽中的个体与抽不中的个体无关 第三在条件允许的情况下 尽量使样本容量大一些 5 小概率事在随机事件中 概率很小的事件被称为小概率事件 习惯上约定在0 05以下 即当P A 5 时 则称A为小概率事件 在统计推断中认为 小概率事件在一次试验或观察中是不可能发生的 第二章总体平均数的区间估计 总体平均数的置信区间 推断统计的基本理论之一就是抽样理论 而推断统计的任务则是根据样本资料来推断总体的特征 从而揭示总体的本质和规律 抽样分布的几个重要定理 统计推断的理论依据 1 从总体中随机抽出容量为n的一切可能样本的平均数的平均数等于总体的平均数 E x 2 容量为n的平均数在抽样分布上的标准差 等于总体标准差除以n的方根 3 从正态总体中 随机抽取的容量为n的一切可能的样本平均数的分布也呈正态分布 4 虽然总体不呈正态分布 如果样本容量较大 反映总体 和 的样本平均数的抽样分布 也接近于正态分布 第二章总体平均数的区间估计 总体平均数的置信区间 一 原总体的方差已知样本平均数的总体分布 在样本容量很大时其分布近似于正态分布 样本平均数分布的标准差为 n 根据正态分布的性质U X X服从正态分布 对于给定的 值 0 1 则称 1 为置信度 可求出满足P U U 1 一般取 0 01或 0 05 对应的U0 05 1 96U0 01 2 58 置信区间 0 05 x 1 96 n x 1 96 n 为总体平均数95 的置信区间 0 01 x 2 58 n x 2 58 n 为总体平均数99 的置信区间 根据样本平均数估计总体平均数的所在区间 称为总体平均数的区间估计 基本原理 按一定概率要求 根据样本平均数估计总体平均数的所在区间 x 1 96 n x 1 96 n x 1 96 n x 1 96 n 二 原总体的方差未知 对于总体方差未知且容量n 30 则用S代 相应的有置信区间为 0 05 x 1 96S n x 1 96S n 为总体平均数95 的置信区间 0 01 x 2 58S n x 2 58S n 为总体平均数99 的置信区间 例 从某地区高考初试的数学试卷中 随机抽取40份 分析后得到如下数据 平均成绩为51 2 标准差为3 8 问这一地区初试数学平均成绩在怎样的范围内 答 已知X 51 2S 3 8n 40 本题属于总体方差未知且大样本n 30 因此 置信区间的下限 51 2 1 96x3 8 40 50置信区间的上限 51 2 1 96x3 8 40 52这一地区初试数学平均成绩有95 的可能性在 50 52 范围内 同理也可以计算出有99 的可能性在 49 6 52 7 范围内 三 推断统计第三章显著性检验 平均数差异的显著性检验 Z检验与t检验 一 显著性检验的基本思想显著性检验是统计推断的一种方法 它是确定一个具有已知统计量的样本是不是从已知对应参数的总体中抽出来的或是两样本的统计量是来自同一总体还是来自不同的总体 或从另外的角度说 样本统计量与总体参数的差异或两个样本统计量的差异究竟是由于抽样所引起的随机误差 还是本质上的误差 这需要检验才能加以确定 判断这种差异是否显著 要用概率来回答 如果差异是由于抽样误差而引起的可能性大 那末两者的差异就不显著 反之两者的差异就显著 抽样误差的概率大小是由显著性水平来衡量的 通常采用的显著性水平为0 05或0 01 如果P 0 05为差异不显著 如果0 05 P 0 01差异显著 如果P 0 01则特别显著 需要注意的是 显著性检验是以随机样本为前提的 以概率论原理为基础的 所以进行检验时应注意样本的随机性 以及样本的可比性 观测指标的所有条件应尽可能相同或基本相同 二 显著性检验的一般方法一般来说 统计检验先对总体的分布规律作出某种假说 然后 根据样本提供的信息 对假说作出肯定或否定的决策 具体步骤为 提出假设 如 假设两个群体平均数没有差别 其数学符号为 H0 1 2 这种对群体所作的 无差别 的假设 称为 零假设 或称虚无假设 用符号 H0 表示 与此同时实际上存在第二种假设 两个总体平均数有差别 其符号为 H1 1 2 称为备择假设 显然 零假设 与 备择假设 是两个对立的假设 肯定是此否定彼 根据不同条件和样本提供的信息即数据 从零假设出发 代入相应的公式 计算出零假设的概率 作出统计决断 根据 小概率事件实际上不可能性 原理 研究H0成立的概率 如果H0的概率P 0 05 表示零假设不是一个小概率事件 则H0成立 便否定被择假设H1从而确定 1 2 如果H0的概率p 0 05 表明是个小概率事件H0不成立 就肯定备择假设H1的成立 从而确定 1 2 结论 当P 0 05时差异不显著 当0 01 p 0 05时差异显著 当P 0 01时差异特别显著 三 推断统计第三章显著性检验 推断统计 显著性检验 三 显著性检验的一般步骤 1 建立检验假设 H0 或 1 2 2 选择和计算统计量 z值或t值 3 确定P值4 判断结果 当P 0 05为差异不显著接受检验假设当0 05 P 0 01差异显著拒绝检验假设当P 0 01差异特别显著拒绝检验假设 平均数差异的显著性检验 Z检验 1 两个独立大样本平均数差异的显著性检验 Z检验是一般用于大样本 即样本容量大于30 平均值差异性检验的方法 它是用标准正态分布的理论来推断差异发生的概率 从而比较两个平均数的差异是否显著 Z检验公式 例1987年上海市初中三年级语文教学调查中 对男女生语文测试成绩作如下统计 试检验男女生语文成绩是否存在显著差异 抽取的两个样本均大于30 属两个独立大样本平均数差异的显著性检验 用Z检验 平均数差异的显著性检验 Z检验 检验步骤 提出零假设z H0 1 2即假定男女写作 阅读及读写总分均无显著差异 现在的差异是抽样误差所致 计算统计量 代人Z值公式 41 可编辑 平均数差异的显著性检验 Z检验 计算出的Z值与下表进行对照 作出判断 因为 Z写 2 27 显然 Z写 1 96 表明概率P 0 05 男女生写作成绩差异显著 因为 Z读 2 00 显然 Z读 1 96 表明概率P 0 05 男女生阅读成绩差异显著 因为 Z总 2 15 显然 Z总 1 96 表明概率P 0 05 男女生语文成绩差异显著 结论 当P 0 05时 拒斥H0 肯定H1 1987年调查说明上海市初三语文成绩男女生存在显著差异 女生高于男生 平均数差异的显著性检验 t检验 2 小样本与总体均数的差异检验 t检验是用于小样本 样本容量小于30 时的平均值差异程度检验方法 它是用t分布理论来推断差异发生的概率 从而比较两个平均数的差异是否显著 例某校初一年级抽出一组20人 对数学自学辅导教材进行试验 期末全年级测试平均成绩为70分 而这20人的平均分为 77 7 标准差为15 试检验实验效果 本例随机抽样样本容量为20人 属小样本 因此适用t检验 所谓检验实验效果 就是以样本 20人 的平均数与某已知总体平均数 之间的差异程度的显著性检验 既检验样本所取自 所代表 的总体的平均数 与 0 是否有差异 t检验公式 平均数差异的显著性检验 t检验 检验步骤 提出零假设 H0 0 即假定样本所代表的总体平均数与已知平均数无显著差异 如有差异仅是抽样误差所致 本题 0 70分 计算检验统计量t值 用如下公式 式中 样本平均数77 7 0 已知总体平均数70 s 样本标准差15 n 样本容量20 代人公式得 平均数差异的显著性检验 t检验 作出判断 与正态分布曲线不同 t分布的曲线形式随自由度大小而不同 自由度 记作 df 作总体平均数的假设检验时 统计量t的自由度df n 1 据此 本题的df 20 1 19 查t值表 得出理论t值为 t 19 0 05 2 093再与计算所得t值比较可得 t 2 24 t 19 0 05 2 093依据 t值与差异显著性关系 表 推断H0发生的概率 作出结论 t值与差异显著性关系 因为t 2 31 t df 0 05 从上表可知 概率P 0 05时 和 0之间的差异显著 因此可下结论为 拒斥H0 0 而肯定H1 0 又因 0 故结论表明新教材实验有成效 平均数差异的显著性检验 t检验 3 其它检验公式 如果是按同一组样本不同情况的测试所得的平均值1和2来检验平均值的差异程度 其计算公式为 式中 D为两次测试中每对分数之差即D X2 X1 对于两个独立的正态总体 如果已知两总体方差相等但未知总体方差具体数值 从中各抽取一随机样本 两样本平均数之差将服从自由度为的t分布 其检验统计量的计算公式 实验设计简述 实验设计 实验者为了揭示实验中的自变量与因变量的关系 在实验之前所作的实验计划 通常指实验程序的计划和安排 而实验程序的计划和安排离不开统计 检验 实验设计的内容 包括怎样选择被试 实验对象 控制那些因素 指出什么假设 观察那些内容 如何安排实验步骤 采取何种统计方法来处理和分析实验结果等等 例 控制变量指示语 一 目的 通过把指示语作为自变量 观察被试对反应变量的不同影响 从而了解到不是以指示语为自变量的实验中控制指示语的重要性 二 材料 数学试卷一份 马表 三 程序 1按全班被试的数学程度 分为数学能力相同的甲 乙两组 2主试仅向甲组被试着重指出 你们在运算时必须注意试题中数字之间的关系 余内容两者相同 3主试说明实验要求 发给各被试试题一张 覆置桌上 主试发 预备 口令时 被试把题纸翻转正面 写好姓名等项 主试发 开始 口令时 同时开动马表 被试答题 4被试做完题目 立即停笔并问得答题时间 记录在试题纸上 5全组做完 主试宣布答案 被试加以核对 并记录成绩 以便整理全组结果 四 结果 1统计甲乙两组的平均成绩 做对题数和做题的时间 2检验两组时间 或成绩 差异的显著性 五 讨论 1在本实验中 你是怎样发现题目的规律的2指导语在解题中所起作用如何 实验设计简述 附 数学试题如下姓名 组别 时间 在下列各数列后的横线上 填写你认为应该填写的数字 1 26101418 2 31248192768 3 8421 4 31 4833 4 5 455667 6 38131823 7 134679 8 72503 2 9 1346101222 10 1222428 第二部分教育测量学原理简介 第一章教育测量概述一教育测量的含义与特点二教育测量发展的历史三教育测量的要素和种类四教育测量的功能及对教育测量应持的态度第二章测验的信度 效度 难度与区分度一 测验的信度二 测验的效度三 测验的难度四 测验的区分度第三章测验的编制与实施一 确定测验目的二 教育目标分类三 编制测验双向细目表四 试题的编制五 试题评分六 试卷的编辑与测验实施七 试卷分析第四章题型编制的一般原理与方法 第一章教育测量概述 一 教育测量的含义与特点1 教育测量的含义测量 Measurement 通常指人们对客观事物进行某种数量化的测定 测量是以数量来表述结果的 没有数量来表述的结果不能称为测量 教育测量 EducationalMcasufement 就是对学生的学习能力 学业成绩 兴趣爱好 思想品德以及教育措施上许多问题的数量化测定 教育测量主要对学生精神特性的测定 凡物之存在必有其数量 凡有数量的东西都可以测量 测不准原理 一 教育测量的含义与特点 测量 测验 考试 评价的联系与区别 测量与测验 测验 Test 是引起某种行为的工具 通常是指运用某些仪器 试题来引起人们的某种行为 从而测定人们的某种特性 它是进行数量化分析和科学推断的前提和手段 测量比测验的含义要广泛 测量不仅包括着运用仪器 试题来进行测定事物的质量与特性 而且还包括着运用调查 观察等方法来测量事物的质量与特性 测量既包括对事物的测验 又包含对事物进行数量化的分析 并对测验结果进行一定的解释和评价 测验与考试 Examination 也不尽相同 我们平时所说的考试 通常只凭教师自己的经验去出试题和评分 带有主观随意性 测验是经过较细致的科学分析才编制出测验的题目 在测验的程序和评分方面也有较严格的要求 考试一般用于考核学生的学业成绩 测验不仅用于考核学生的学业成绩 还用于心理特性的测量 测量与评价 Evalution 既有联系 也有区别 测量强调的是数量化 评价则是突出价值观 充分重视对问题的分析与评断 一 教育测量的含义与特点 2 教育测量的特点 1 教育测量一般是间接测量我们只能通过学生对测验题目的反应和一些行为表现运用推理 判断的方法 来间接的测量出他们的知识水平 智力高低和品德好坏 2 教育测量的度量单位是相对的学生的学业成绩好坏 智力高低和能力大小等 都是就其在所在团体的整个分数序列 行为序列中的地位来说的 其测量的分数单位 并非绝对的 3 教育测量是为实现教育目的服务的是为改进教育工作 提高教育质量 更好地实现教育目的服务的 不能脱离教育目的和教材的要求 随意地制定测验量表 任意地进行测量 对各种教育测量结果的评价 也都应依据教育目的的要求来进行 第一章教育测量概述二 教育测量发展的历史 主观经验性考试阶段 1864年以前 教育测量起源于我国的科举考试制度 客观标准化测验阶段 1864一1940年 法国的比纳 西蒙 美国的推孟 桑戴克 麦柯尔比纳被称为智力测量的鼻祖 桑戴克被称为教育测量学的鼻祖客观测验的深入发展阶段 1940年 过去教育测量多为对学生知识的测量 很少测量学生的心理和品德 现在的教育测量 不仅重视测量学生的知识 而且重视学生的智力和思想品德的测量 过去教育测量的量表编制多为单一答案的求同式思维 缺乏多种答案的求异式思维 现在教育测量的量表中 也包括有多种答案的求异式思维题和论文题 过去教育测量多用于对学生的学习成绩的测量 很少涉及课程设置 教材 教育改革方案等效益方面的测量 现在在教育工作的各个方面都运用教育测量 过去教育工作中的客观测验 一般是常模参照测验 现在教育工作中的客观测验 不仅有 常模参照性测验 而且有 目标参照性测验 第一章教育测量概述三 教育测量的要素和种类 单位教育测量中的单位不是绝对等价值的参照点教育测量的参照点都属于人为设定 从参照点起计算的分数不能以 倍数 的方式解释量表具有单位和参照点的连续体 教育测量所使用的量表有四种 百分量表 年龄量表 等级量表 T量表2 教育测量的种类以测量的对象来分 学业成绩测验 智力测验 人格测验 特殊能力测验以测量的目的来分 预测测验 形成性测验 总结性测验 诊断性测验 难度测验 速度测验以测量的方式来分 个人测验 团体测验以试题的形式来分 客观性测验 论文式测验 投射测验 情景测验 1 教育测量的要素 第一章教育测量概述四 教育测量的功能及对教育测量的认识态度 1 教育测量的功能教育测量是改进教学的良好工具教育测量是教育管理的重要手段教育测量是教育研究的重要方法2 对教育测量应有的认识态度教育测量是一种工具教育测量尚需完善对教育测量应持严肃的态度 教育测量学原理 第二章测验的信度 效度 难度与区分度 测验的信度 效度 难度与区分度是衡量测量质量的基本标准作为教育测量的工具 测验 它的编制是一项十分复杂的工作 它需要懂得一些教育测量基本知识和基本方法的人来完成 一个连信度 效度 难度和区分度等教育测量基本概念都不甚了解的人是难以编出高质量的测验的 从教育测量的理论上来讲 一个良好的测验应该具备以下条件 测验的试题与测量的目标吻合测验的试题应具有代表性测验的试题有恰当的难度和区分度测验的试题的语言陈述简单 明确测验的结果有效和可靠 即效度 信度高 测验的实施符合经济性原则其中测验的信度 效度 难度和区分度是衡量测验质量的基本指标 测验的信度 效度 难度与区分度 一 信度 reliability 所谓测验的信度是指测验的可靠性或者可靠程度 具体地说 测验的信度是指同一组学生用同一测验实施两次后所得分数的一致性 或者同一组学生经过一次测验后 用另一个同质的测验再测一次 这两次测验所得分数的一致性 根据统计学的基本原理 刻划测验的信度有三种方法 稳定性系数稳定性系数的求法是 先对某个测验实施一次 过了一段时间后 再用这个测验实施一次 然后计算学生在前后再次测验中所得分数的相关系数 这个相关系数就是稳定性系数 等值性系数等值性系数的求法是 等值性系数是以两个等值 题型 题数 难度 区分度相等 但具体内容不同的量表 在最短时距内 对相同应试者先后施测两次的两组对应分数的相关系数 内部一致性系数内部一致性系数的求法是 将一个测验分数分为两个相等而独立的部分 例如奇数题和偶数题 然后求两者的相关系数 对于这个相关系数 再用斯皮尔曼 布朗公式r信 2r 1 r来校正 其中r是相关系数 r信就是内部一致性系数 测验的信度 效度 难度与区分度 在前述三种类型的信度系数中 前两个都要学生接受同一 或同质 内容的两次测验 这在实际的中小学教育过程中是不现实的 因此 在中小学教育或从事教育科学研究的过程中 信度系数的计算一般以内部一致系数为主 测验的信度是十分重要的 不可靠的测验是没有什么意义的 如用一杆秤去称肉 第一次称的的重量是1500克 第二次称得的重量是1000克 那么这种秤还有什么用呢 教育测量也是如此 如用一次去测量学生的数学学业水平 第一次测验的成绩是92分 第二次测验的成绩却只有61分 这样就无法确定这个学生的数学学业水平 当然 这个测验是根本不可靠的 就测验的内容而言 学业成绩测验要求信度系数在0 9以上 常达到0 95 智力测验应达到0 85以上 个性测验和兴趣测验稍低 应在0 7 0 8 测验的信度 效度 难度与区分度 提高测验信度的方法 延长测验的长度 量表题目越少 得分越容易受试题抽样的偶然因素影响 当然测验的信度也越低 新增加的试题必须与原试题同质 平均难度一样 且不使被试感到厌倦 测验的难度要适中 同一测验中的试题难度水平接近 施测内容尽量单一 不要妄图在一次测验中测量被试的所有能力 信度很低 测验的时间要充分 使被试从容回答问题 测验的程序要统一 进行多次测验 开始时的指导语 回答问题方式 分发收回试卷的办法 时间掌握都要尽量一致 评分要客观 客观性测验 评分标准明确有助于提高测验的信度 主观性试题 受偶然因素影响大 往往评分者的 量尺 不统一 信度差 加大应试者之间的差异 因为信度系数的大小与实得分数成正比 加大被试能力的差异可提高信度 测验的信度 效度 难度与区分度 二 效度 Validity 所谓测验的效度是指一个测验真正能确实测量到它所要测量的东西的程度 它是针对测量的目的和结果而言的 根据测量的目的 可以把测验的效度分为内容效度 结构效度和效标关联效度三种 内容效度内容效度是指测验目的代表准备测验的内容和引起的预期反应所达到的程度 如在教育实验研究的测量中 准备测量的内容 是指实验自变量的变化 预期反应 是指实验因变量的变化 目前 对测验的内容效度没有恰当的计算方法 尚不能用一个简单数字来刻划它 现在判断测验的内容效度一般是用逻辑分析法或内容分析法 结构效度测验的结构效度是指测验结果能够说明教育学和心理学理论的某种结构或特征的程度 它可以理解为测验实际上测量了准备测量的结构特征所达到的程度 测验的结构效度问题比较复杂 一般在中小学教育和教育科学研究中所使用的自编测验是不考虑这个问题的 效标关联效度测验的效标关联效度是指测验结果与作为效标的另一个独立的测验结果之间的一致性程度 这种一致性程度一般是用本测验结果与另一个独立的测验结果之间的相关系数来描述的 那个独立的测验结果是用来估计本测验效度的标准 所以叫做效标 实际上 效标在一定程度上用另一个独立测验结果反映本测验准备测量的某些特征 由于效标是计算测验的效标关联效度的主要依据 因此 效标必须确实能反映某个方面的特征 只有这样才能成计算测验效标关联效度的依据 测验的信度 效度 难度与区分度 效度的统计定义 提高效度的方法 控制系统误差 精心编制量表 妥善组织测验 扩充样本的容量和代表性 合理处理信度和效度的关系 从某种意义上讲效度比信度更重要 三 难度 被试完成题目 item 任务时所遇到的困难程度 在教育测量中 某测验的难度一般是用正确解答该测验题的人数与参与测验的学生数的比值来刻划的 用公式表示即P R N其中 P表示某测验题的难度 R表示答对该测验题的人数 N表示参加测验的人数 难度对测验有很大的影响 这种影响主要体现在影响测验成绩的分布 影响测验成绩的离散程度 影响测验的区分能力等三个方面 难度计算 常用的以下几个公式 P X W其中P表示某测验题的难度 X表示接受测验的学生在该测验题上的平均分数 W表示该测验题的最高得分 P PH PL 2其中P表示某测验题的难度 PH表示接受测验的高分组学生 占总数的27 在该测验题的通过率 PL表示接受测验的低分组学生 占总数的27 在该测验题的通过率 P XH XL 2NL 2N H L 该公式只适宜计算论文式测验题的难度 其中P表示某测验题的难度 XH表示接受测验的高分级学生的得分总数 XL表示接受测验的低分级学生的得分总数 N表示接受测验的学生总数 H表示该测验题的最高可能得分 L表示该测验题的最低可能得分 测验的信度 效度 难度与区分度 四 区分度区分度又叫鉴别力 它是测验对学生实际水平的区分程度的指标 一个具有良好区分度的测验题 实际水平高的学生应该得高分 实际水平低的学生应该得低分 测验的区分度有积极区分度和消极区分度两种 积极区分是指区分的方向与测验总分的方向一致的区分 区分的方向与测验部分的方向不一致的区分是消极区分 测验题的区分度的取值范围在 100至100之间 如果区分度是负值 则表示该区分是消极区分 如果区分度为0 则表示该测验题没有区分 如果区分度是正值 则表示该区分是积极区分 测验的信度 效度 难度与区分度 四 区分度测验题的区分度的计算方法很多 在中小学教育和教育科学研究中使用的测验题的区分度一般用下列公式来计算 客观性测验题区分度计算公式D PH PL其中D表示某测验题的区分度 PH表示测验高分组学生对该测验题的通过率 PL表示测验低分组学生对该测验题的通过率 论文式测验题区分度计算公式D XH XL N H L 其中D表示某测验题的区分度 XH表示接受测验的高分级学生的得分总数 XL表示接受测验的低分级学生的得分总数 N表示接受测验的学生总数 H表示该测验题的最高可能得分 L表示该测验题的最低可能得分 测验的信度 效度 难度与区分度 测验的信度 效度 难度与区分度 区分度的一般评价标准0 2以下应淘汰 0 2 0 3合格题目 可能需加以改进 0 3 0 4良好 0 4 1性能颇佳 测验题目难度与区分度的关系题目难度 区分度与测验信 效度之间关系复杂 测验中题目的总体难度过高或过低 都会导致测验的总体区分能力降低 所以一般说来 中等难度的题目应占40 60 教育测量学原理第三章测验的编制与实施 一 确定测验目的 要编制测验 首先要明确测验的目的 在教育活动中 测验无论多么重要它也只能是为目的服务的工具 测验的质量如何 关键在于能否有效地促进教育目标的实现 把握常模参照性测验与目标参照性测验的区别 常模参照测验 是指以学生团体测验的平均成绩作为参照标准 说明某一学生在团体中的相对位置 将学生分类排队 重在个人与个人之间的比较 主要用于选拔或编组 编班 要求试题难度适中 尽量对所有学生都有较强的鉴别力和区分度 常模参照测验以鉴别学生个别差异为指导思想 目的是为了测得学生在所处团体中的相对水平 常模实际上即是该团体在测验中的平均成绩 学生成绩便是以常模为参照标准来确定的 这一测验衡量的是学生的相对水平 故其评分属相对评价范畴 目标参照测验 是以达到教学目标为标准参照点 它提供的信息是完成教学目标的情况 旨在检查学生的成绩与教学之间的差异 不比较个人之间成绩的差异 测验试题 必须完全能代表教学目标要求才能发挥作用 考试成绩就代表学生掌握教学目标要求达到的程度 二 教育目标分类 1956年布鲁姆 B S Bloom 制定出了教育目标的分类系统 认知目标 情感目标 运动目标 三大类 每类目标又分成不同的层次排列成由低到高的阶梯 1998年霍恩斯坦教育目标分类学是在批判继承布卢姆教育目标分类学的基础上推出的一个全新的教育目标分类体系 它的主要特点是以建构主义为理论基础 体现了人的行为的整体性 突出了过程性 它将全部教育目标划分为认知领域 情感领域 动作技能领域和行为领域4个部分 每个领域包含5个层次的教育目标 它对布卢姆教育目标分类学的超越主要表现为 适当地减少了教育目标类别的数量 增强了平稳性和可比性 更适合于指导课堂教学 测验的编制与实施 霍恩斯坦于1998年推出了一个全新的教育目标分类 这个分类将全部教育目标划分为4个领域 认知领域 情感领域 动作技能领域和行为领域 每个领域包括5个类别的目标 霍恩斯坦教育目标分类与布卢姆教育目标分类之间存在一些共同点 也存在重要的区别 霍恩斯坦教育目标分类实现了对布卢姆教育目标分类的超越 六 评价五 综合四 分析三 应用二 理解一 知识 布鲁姆认知目标是指与智力活动有关的教学目标 分为六个层次 每一层次又有若干小层次形成了由简单到复杂的阶梯 简单目标在下 复杂目标在上 高层目标包含低层目标 并在低层目标基础之上发展起来 教育目标分类 测验的编制与实施三 编制测验双向细目表 测验双向细目表 tabieofspecification 具有极大的实用性 无论对教学还是对测验都有重要作用 它可以帮助我们明确如下问题 教学内容是什么 如何支配教学时间 教授相应知识的内容目的是什么 如何用测验来测量相应教学内容的目标实现的程度 编制测验双向细目表的步骤 1 列出教材大纲 2 对列出教材大纲赋予权重 3 对各种教育目标赋予权重 4 编制双向细目表 自然常识测验双向细目表 测验双向细目表顶端列出了应测验的认知目标 表的最下端列出了与各项目标对应的分配权重 表的左端列出的是测验内容 大纲 表的最右端列出的是对各项内容的分配权重 表的主体部分是对认知目标及测验内容的权重分解 在保证权重分配不太偏离的情况下 可以灵活调节 测验的编制与实施 小学数学毕业考试水平测试知识与能力双向细目表 题量 数学知识 三 编制测验双向细目表 教育测量学原理四 试题的编制 以双向细目表为依据编制试题 命题 命题是测验编制中的核心环节 它包括选择试题类型 编拟试题 确定评分方法 编制测验说明 搭配并组织试卷等项工作 1 试题类型根据不同的标准 可以把试题分为不同的类型 客观性试题 选择题 单选 多选 填空题 配对题 排列题 是非题 简答题等 客观性试题答案明确 回答简便 评分可靠并可用计算机评卷 在固定考试时间内包含较多题量等优点 缺点是试题不易编制 对考生的阅读能力要求高 难以排除被试对试题的猜测 非客观性试题 主观性试题 作文题 论述题 自由反应性试题等 优点是易于编制 便于考察被试的书面表达能力 缺点是没有标准答案 评分困难 且不可靠 在限定时间内不能扩大题
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安徽省皖江名校联盟2025-2026学年高三上学期8月联考暨开学考 化学试卷(含答案)
- 抗洪电视摄像培训课件
- 2025年市政工程项目发展计划
- 抗5羟色胺课件
- 2025年哲学考研考试题目及答案
- 2025年会计实操考试试题及答案
- 2025年动物医学函授考试试题及答案
- 房产中介培训课件
- 慢性肾脏疾病课件
- 情景表演课件
- 呼吸慢病管理及策略
- 罗伊的适应模式讲解
- 小儿推拿培训课件
- 数据科学基础 课件 第5章 网络爬虫与信息提取
- 前端开发技术演进年度总结
- 广东省地质灾害危险性评估实施细则(2023年修订版)
- 《新能源汽车整车控制技术》教案全套 项目1-5 整车控制系统检测与维修-电动助力系统检测与维修
- 2023年工业固废处理行业市场分析报告及未来发展趋势
- 建筑装饰工程施工总平面布置图
- (完整版)中国古代书法史课件
- 2023广东惠州市惠城区桥西街道办事处招聘治安队员、党建联络员、社区“两委”班子储备人选笔试通告笔试备考题库及答案解析
评论
0/150
提交评论