教育测量的质量指标概述.ppt_第1页
教育测量的质量指标概述.ppt_第2页
教育测量的质量指标概述.ppt_第3页
教育测量的质量指标概述.ppt_第4页
教育测量的质量指标概述.ppt_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章教育测量的质量指标 第二节效度 第二节效度 一 效度的概念二 效度的统计学原理及其与信度的关系三 效度的估计四 提高效度的方法 一 效度的概念 效度 Validity 是指测量结果的准确性和有效性的程度 亦即测量是否达到了预期的目的 第一 效度是一个相对的概念 1 测量的效度始终是对一定的测量目的而言的 2 测量的效度是相对于测量的结果而言的 第二 一种测验的效度只是高或低的问题 第三 在教育测量中 效度问题比在其他领域的测量中更为重要 一 效度的概念 这是因为 教育测量的对象大多是精神现象 只能通过对其具有可测性的外部表现 如语言或动作等 的测量 以间接认识其心理活动 心理特征或知识水平等 学生的心理活动 心理特征与其外部表现之间 一般仅具有相关关系而无函数关系 外部行为并不能准确无误地反映某种心理状态 教育测量的对象不是物而是有主观能动性的人 人能有意识地调节自己的外部行为 掩盖自己的内心活动 这就增加了认识其精神现象的难度 二 效度的统计学原理及其与信度的关系1 效度的统计学原理 在实际测量中 影响效度的主要因素是系统误差 因而在讨论效度时 还必须把真分数方差分解为两个部分 一是潜在真分数方差 V2 另一部分是系统误差分数方差 I2 它与由随机误差引起的变异 E2 不同 2 效度与信度的关系 根据公式 2 2 和 2 3 可将效度与信度的关系图解于后 根据分析 可得结论如下 1 高信度是高效度的必要条件 而非充分条件 2 效度系数不会大于信度系数的平方根 可以用下式表示 高效度 高信度 低效度 高信度 低效度 低信度 三 效度的估计 效度估计就是多方寻找证据来证明一个测验的有效性程度的过程 1974年美国心理学会发行的 教育和心理测量的标准 一书将效度分为三大类 内容效度 效标关联效度和结构效度 一 内容效度 Contentvalidity 又称合理效度或逻辑程度 是指测验内容或行为取样的代表性和适当程度 即测验的内容范围 材料与所要测量的内容范围 教育目标是否相符合 测验中测题所引起的行为是否是所要测量的属性的明确反应 测验的结果是否是一个有代表性的行为样本 估计内容效度的方法 估计内容效度的方法 1 逻辑分析的方法 其工作思路是请有关专家对测验题目与原定内容范围的吻合程度作出判断 2 统计分析法 从同一个教学内容总体中抽取两套独立的平行测验 用这两个测验来测同一批被试 求其相关 若相关高 表明测验内容效度较高 若相关低 表示测验的内容效度较低 采用求统计量的公式进行计算 其公式有以下三种形式 内容效度主要应用于成就测验 学科测验 选拔和分类职业测验 内容效度不适合用于能力倾向和人格测验 二 效标关联效度 又可称为经验效度或统计效度 是以测验分数和效标之间的相关系数来表示测验效度的高低的 效标就是足以显示测验所欲测量的特性的变量或足以显示测验所欲预测的特性的变量 它是用来检验测验效度的外在的 客观的标准和尺度 效标关联效度又可分为同时效度和预测效度 用全国高考的成绩作为效标来检验高中毕业生会考的成绩 计算两者之间的相关系数就是会考的同时效度 而用大学一年级的成绩作为效标来检验高考的成绩 计算两者的相关系数就是高考的预测效度 估计效标关联效度可采用积差相关 二列相关或点二列相关 四格相关和多元相关系数等计算各种相关系数 1 用积差相关系数的方法估计效度 积差相关 是计算两个变量线性相关的一种方法 由英国统计学家皮尔逊提出 因此也称为皮尔逊 Pearson 相关 要使用积差相关必须同时具备如下几个条件 两个变量都是由测量获得的连续性数据 即等距或等比数据 两个变量的总体都呈正态分布 或接近正态分布 至少是单峰对称分布 当然样本并不一定要正态 必须是成对的数据 而且每对数据之间是相互独立的 即各自互不影响 本条件是难以检验的 两个变量之间呈线性关系 一般用描绘散点图的方式来观察 最好是先各自转化为Z分数 单位会统一些 例 某中学数学教研组的教师积多年的教学法经验 认为刚入高中的学生学习立体几何感到困难的主要原因是空间想像力弱 为了证明这个论点 他们让刚入高中的103名学生作10道题 测量其空间想像力 为避免知道了某些学生的刚入高中时的成绩影响以后考试的评分 试卷暂不评阅 立体几何学完后 进行考试 按得分多少把成绩分为五等 A B C D E 分别得5 4 3 2 1分 这时才评阅入学时的试卷 统计出期末得5 4 3 2 1分者在入学测验中分别答对1道题至10道题的人数 见表2 1 就现有资料 用什么方法可以判断教师们的意见是否正确 表2 1 解 1 设期末考试的等第为y 空间想像力测验答对的题数为x 列出二重交叉次数分布表 2 用积差相关系数公式计算效度系数 二列相关 适用于两个变量就其实际含义而言是等距或等比数据 它们服从正态分布 其中一列人为地划分为两类 点二列相关 适用于一列数据为等距或等比且总体服从正态分布 实际上只需要单峰对称分布 如 分布 另一列变量是按事物的性质划分为两类的变量 也可以是一个双峰分布 人为划分为两类 如文盲与非文盲 这种相关系数多用于测验中评价题目的区分度 对选择题 判断题在整个测量中作用作出判断 基本计算公式 例 有一位教师自编了一套测验题 用来预测学生一年后的某科成绩 自编测验按百分制评分 一年后考试评分只把学生分为及格者和不及格者 试就所获资料估计自编测验的预测效度 解 1 把两次测验成绩成对排列 2 计算出二列相关公式所需统计量 三 结构效度 Constructvalidity 结构效度是指一个测量能实际测量出理论上的构想或心理特性的程度 它的目的在于从心理学的理论观点就测验的结果加以解释和探讨 这里的结构的含义是心理学理论所涉及的抽象而属假设性的概念 构想 特性或变量 如智力 焦虑 机械能力倾向 成就 动机等 结构效度主要用于智力测验 人格测验等一些心理测验方面 例如 人的创造力可以分解为人的思维流畅性 灵活性和创造性三大特性 并根据这三大特性编制测验 若有足够的证据来证明该测验确实可以测到这些特性 则认为该测验是个结构效度较高的创造力测验 1 结构效度的特点 结构效度的大小完全取决于事先假定的心理特质理论 一旦人们对同一种心理特质有着不同的定义或假设 则会使得关于特质测验的结构效度的研究结果无法比较 当实际测量的资料无法证实我们的理论假设时 并不一定就表明该测验结构效度高 因为还有可能出现理论假设不成立 或者该实验设计不能对该假设作适当的检查等情况 这就使得结构效度的获取更为困难 2 建立结构效度的步骤 A 提出理论假设 B 根据假定结构拟定测题 编制测验 C 以测验结果为根据来验证假设结构中的各种因素是否成立 3 结构效度的估计 A 因素分析法其目的是把一些具有错综复杂关系的因素归结为数量较少的几个综合因素或称共同因素 并以此测验所测之特质对测验分数作出解释 B 多元特质多重方法矩阵法是由肯贝尔和菲斯克1959年提出的最受欢迎的一种结构效度的评估方法 这种方法的设想 若采用两种方法以上的方法去测量两种以上的特质 那么这些测量结果之间可以形成一个多元特质多重方法矩阵 四 提高效度的方法 一 各种效度系数的要求 二 影响效度的因素测验的构成 要素 测验实施方面 过程 被试主观状态方面估计效度所依循的效标样本方面 四 提高效度的方法 三 提高效度的方法 1 控制系统误差2 精心编制量表3 妥善组织测验4 扩充样本的容量和代表性5 合理处理效度和信度的关系6 适当增加测验的长度 表2 1测验长度与信度和效度的关系 第三节难度及其计算 一 难度的概念难度是指测量试题的难易程度 一个题目的难度大小 除了所测的内容本身的难易程度有关以外 还与测验的编制技术和被试的知识经验有关 这就是说测验的难度具有相对性 正因为此 必须让试题通过实践来对难度作出检验 二 难度的计算 一 计算难度的基本公式1 客观题难度的计算 2 主观题难度的计算 P表示难度指标 N表示参加考试的总人数 R表示答对某道客观题的人数 二 难度的计算 例1 在100个学生中 答对第一题的30人 答对第二题的60人 求第一 二道题的难度 比较这两道题谁比谁难 例2 某道论述题满分12分 所有考生在这道题上的平均得分为3 6分 求该题的难度 例3 语文测验第五题最高得分为12分 这道题考生的平均得分是8 5分 求该题难度 例4 60人参加考试 某题满分为12分 正确得分累积是480分 求该题难度 二 用极端分组法计算试题的难度 1 用极端分组法计算客观题的难度具体步骤如下 1 先按测验总分的高低 按由高到低的顺序依次排列试卷 2 从得分最高的一份试卷开始依次向下选出全部试卷的27 作为高分组 从得分最低的一份试卷开始依次向上选出全部试卷的27 作为低分组 3 按计算公式计算难度 例题5 某区域1000人参加考试 试卷第一题高分组180人答对 低分组60人答对 求该题难度 约为0 44 如果该题满分为10分 高分组得分总数为2100分 低分组得分总数为830分 求该题难度 2 用极端分组法计算论文试题难度 步骤如下 1 按测验得分排列试卷 确定高分组与低分组 各占总人数的25 方法同前 2 分别为高分组 低分组编制每道试题的分析表 3 按下列公式计算难度 例 某道论文题 高分组得分总和为40分 低分组得分总和为15分 有40人参加考试 这道题最高得分为8分 最低得分为2分 则此题的难度为多少 0 125 计算 解 依据主观题极端分组法计算公式 0 125 三 难度的分析与控制 1 难度分析进行难度分析的主要目的是为了筛选题目 A 测验题目难度水平的确定测验题目难度水平的适当与否 取决于测验的目的 性质和题目的形成 当P值接近于0或接近于1时 即被试在该题上全部答对或全部答错 则该题无法提供个体的信息 而只当P值接近于0 50时 题目才能把被试做最大的程度的区分 但在实际工作中 若每一题的难度值均为0 50 那么此测验很可能只能区分出好与差两种极端被试的差异 却不能对各种被试作更精确的区分 因此 一般各题的难度可在0 50 20之间 B 测验难度对分数分布的影响 1 测验难度影响分数的分布形态 难度值越接近0 测验的难度就越大 测验分数就越是集中在低分端 其分数分布越呈现正偏态 反之 难度值越接近1 00 其难度就越小 测验分数越集中在高分端 分数分布呈负偏态 2 测验难度影响测验分数的离散程度测验难度过大过小 都会造成测验分数偏离正态分布 从而使分数的全距缩小 使测验分数的离散程度变小 3 测验难度影响测验的鉴别能力在测验中 考生之间相互配对比较的可能性越多 就越有利于准确地鉴别考生的不同能力 2 难度的控制 一般说来 影响题目难度的主要因素有 考察知识点的多少 考察能力的复杂程度或层次的高低 考生对题目的熟悉态度 命题的技巧 难度控制 正确估计考生水平 弄清弄懂各知识点 掌握命题技巧 第四节区分度及其计算 一 区分度的意义 一 区分度 Discrimination 是指测验对考生实际水平的区分程度 用符号D表示 又叫鉴别力 它是评价试题质量 筛选试题的主要指标与依据 区分度 D 的取值范围介于 1 00 1 00之间 值越大 区分度的效果越佳 区分度D 0为正区分 D 0为负区分 D 0为零区分 区分度的高低直接影响到测验的信度和效度 二 区分度与测验信度 难度的关系 1 区分度与信度的关系 见下表2 2 这里是假定全部试题的难度均为0 50时所预测的信度系数 区分度指的是平均值 可见 要想达到理想的测验信度 提高区分度是一个好办法 二 区分度与难度的关系 表2 3D的最大值与试题难度的关系由上表可知 难度适中 可使区分度达到最大值 二 区分度的计算 一 用极端分组法计算区分度1 客观题区分度的计算 D PH PL2 主观题区分度的计算 二 区分度的计算 例1 有道试题 高分组有70 学生通过 低分组有30 的学生通过 而另一道题 高分组有40 学生通过 低分组有70 学生通过 求两题的各自区分度 例2 高分组低分组得分X人次f得

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论