心理与教育测量第六章(1)_第1页
心理与教育测量第六章(1)_第2页
心理与教育测量第六章(1)_第3页
心理与教育测量第六章(1)_第4页
心理与教育测量第六章(1)_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

心理与教育测量 主讲 邓稳根 博士 赣南师范学院教育科学学院E Mail dwengen 第六章测验的项目分析 测验项目的难度测验项目的区分度分析猜测问题与猜测率多重选择题的项目分析 第一节测验项目的难度 难度的意义项目难度的计算测验难度水平的确定难度的等距变换难度对测验的影响 一 难度的意义 难度分类项目难度和测验难度 本章主要讲项目难度 难度定义难度是测验项目的难易程度 通常用 P 来表示 一个测验项目 如果大部分被试都能答对 则该项目的难度就小 反之亦然 CTT下的难度特征难度是测验项目性质与被试水平共同作用的结果 如果测验项目需要较复杂的心理操作 那么被试水平高时 得到的难度值就小 反之得到的难度值就大 二 项目难度的计算 得分率法通式 所有项目都适用 为全体被试在项目上的平均得分 F为项目满分值 特式 针对二分法记分项目 其中P代表项目难度 N为全体被试数 R为答对通过该项目的人数 高低分组法通式 其中 分别为总分排名在前27 的高分组和后27 低分组被试在要计算难度的项目上的平均分 F为满分值 特式 RH NH RL NL 2其中和分别代表高分组与低分组的通过率 RH和RL分别代表高低分组答对人数 NH和NL分别代表高低分组总人数 举例 请分别用通过率法和高低分组法计算下列两题难度 二 测验难度水平确定 取决于测验的目的目标参照性测验可以不过多考虑项目难度 只要客观标准要求掌握的内容均应适用 常模参照测验应使项目平均难度为0 5 项目难度范围为0 5 0 2 选拔性考试应将项目难度控制在录取率附近分布 或使对选拔点附近的被试有0 5的难度 或难度为录取率 取决于测验的性质速度测验难度不宜太高 项目难度值基本相等 难度测验要求难度值在0 5左右 无论速度还是难度测验 都要防止被试得满分 四 难度的等距变换 难度转换的目的难度为通过率 属于等级量表水平 需要转换为等距量表水平才能进一步进行加减运算 难度到Z分数的转换 以通过率P在标准正态分布表中查得对应的Z分数 由于Z分数存在负数和小数点 需要将Z分数作进一步的线性变换 ETS常采用下列换算公式 4 Z 13 越大 难度越大 五 难度对测验的影响 测验难度影响到测验分数的分布形态 测验难度太大 测验分数将呈正偏态分布 测验难度太小 测验分数将呈负偏态分布 测验难度中等 测验分数将呈正态分布 测验项目的难度分布影响到测验分数的离散程度 进而影响到信度 Ebel的实验 如下一幻灯片所示 Ebel的研究结论 项目的难度集中在0 5左右为最佳 测验项目的难度会影响到项目的区分度 区分度这节再讲 第二节测验项目的区分度 项目区分度的意义区分度的计算区分度与难度的关系区分度的相对性 一 项目区分度的意义 定义 区分度指测验项目对被试心理特质水平差异的区分能力 通常用D表示 区分度价值 将优劣被试准确区分是测验项目的职能 区分度是对项目这项职能高低的评价指标 是评价项目质量 选择优秀项目的依据 区分度标准 本来应找客观外界标准 也即类似于效标的测量 但因比较困难 故转而在测验内部找 实际以测验总分为标准 称其为内部效标 区分度的实质 项目得分与总分的一致性程度 区分度取值范围 1 1 D为0无区分作用 D值为正 表示积极区分 越大区分效果越好 D 0表示消极区分 二 区分度的计算 高低分组法 也称鉴别指数法 适用范围 二分法记分的测验项目 计算公式 评价标准 Ebel的研究结果 相关系数法点二列相关二列相关 相关积差相关 一 点二列相关 适用范围用于总分是连续变量 题分是二分变量情况 显著性检验可用积差相关检验 计算公式其中p q为答对和答错的人数比率 与对应于答对和答错该项目的被试的总分平均数 为所有被试总分的标准差 举例 请计算该题区分度 二 二列相关 适用范围题分和总为均为连续变量 但人为地将其中一个变量 既可以是总分 也可以是题分 区分为二分变量 例如 将总分为及格和不及格两类 计算公式y是标准正态曲线下p与q交界处的Y轴高度 曲线高 要查正态分布表 二列相关的显著性检验 三 相关 适用范围总分区分为高分组和低分组 项目得分区分为通过和未通过 即两个变量均为二分变量时 资料整理成四格表 注意 格式中的符号表示该格的人数 计算公式 其中a b c d为四个格子的人数 为 相关系数 相关的显著性检验使用检验 其中自由度df 1 检验公式为 举例 请计算该题的区分度 四 积差相关 例子 请用积差相关法计算下列论述题的区分度 三 区分度与难度的关系 D的最大值与项目难度的关系 理论上 题目的综合分析和筛选 整个测验的平均难度应保持在0 5左右 测验中各项目之间有一定相关 为了使成绩分布均匀 项目难度的应广一些 梯度大一些 最好成正态分布 每项题目理想的区分度都应在0 3以上 至少是0 2 四 影响区分度的因素 效标不同 区分度不同 应选择较好的效标 不同的计算方法 所得区分度不同在分析同一个测验时 各个项目的区分度值要采用同一种指标 样本容量大小影响相关法区分度值的大小样本容量越小 区分度的计算值越不可靠 采用相关法计算的区分度要进行显著性检验和计算统计检验力 分组标准影响鉴别指数值一般情况下 取25 33 习惯上取27 当效标分数较正态分布平坦时 比值应略高于27 当样本团体人数过少 例如样本容量n 100 时 可按50 的规则选取高低分组被试 被试样本的同质性程度影响区分度值大小同质性高 区分度小 区分度高低受被试样本团体特质水平影响 因此不能将区分度作为筛选试题的绝对标准 五 提高题目区分度方法 1 控制好题目难度 将题目难度在0 5左右时 区分能力理论上会比较高 2 保证题目所测心理特质与全卷所测心理品质的一致性 3 题干及答案无歧义 4 语言准确规范 5 借助选项分析提供的信息对不良选项进行修改 以提高题目区分能力 综合练习 一试卷施测于十一名被试 结果如附表 请求取 1 第二 第五两题的难度 2 第三题的区分度 点二列相关 3 第六题的区分度 高低分组法 4 全卷信度 系数 5 试卷实证效度 第三节猜测问题与猜测率 客观测验题中的猜测问题与猜测率项目难度受猜测影响的校正 一 客观测验题中的猜测问题与猜测率 客观测验题中的猜测问题测验分数确实反映了被试的真实特质水平还是因为猜测而获得成功 猜测误差的来源猜相对于不猜引起的误差是否猜得对引起的误差猜测率是指被试全凭随机猜测而答对题目的概率 猜测行为主要出现在客观题 如选择题 是非判断题 配对题等 二 项目难度受猜测影响的校正 猜测校正公式 前提 猜测是随机猜测 因猜测对项目难度的校正其中CP为校正后难度 K为备选答案数 P为实际难度 因猜测对个体得分的校正其中R为原答项目数 W为错答数 K为为选项数 举例 有A B两个测题 项目A为四重选择题 通过率为0 58 项目B为五重选择题 通过率为0 56 试比较两题校正后的难度 某被试参加由100道四重选择题组成的测验 每题1分 测验结果是82分 请问其校正后的分数是多少 猜测校正的争议赞成猜测校正的理由通过猜测校正可避免降低测验的信度 校正后的得分可以反映被试的真正水平的能力 在教育测验中 可培养被试诚实的美德 比较公平 不同试题间的难度比较分析需要校正 不赞成猜测校正的理由公式的基本假设不成立 只要被试能答完全部试题 猜测校正就无实质作用 不采用猜测校正对信度并无重大影响 有时会出现无法解释的现象 合理猜测是值得培养的好习惯 综合观点 如果答题时间充裕 选择题的备选答案数目在四个或四个以上 则没有必要校正记分 第四节多重选择题的项目分析 多重选择题项目分析的作用与内容项目能否测到要测的心理特质 项目难度是否恰当 项目的区分度能否达到要求 正答选项选答率是否恰当 正答选项在高低分组上选答率是否正差 差距是否足够大 诱答选项选答率是否恰当 诱答选项在高低分组上选答率是否是负差 差距是否足够大 具体分析步骤 1 根据被试的测验总分 对被试进行排序2 确定高分组和低分组被试3 分别登记高分组被试和低分组被试在每个备选项的人数及未作答人数 也可以是人数百分比 最终整理成类似下表中的数据资料 4 根据第3步整理好的数据资料 进行具体分析 选项分析的方法及选项修改原则1 首先分析两组平均选答率正确答案的平均选答率 即难度 最佳值为 每个干扰项应该平均分剩余的选答率 如果正确答案的选答率过高或过低 这都不利于区分高分组和低分组被试 如果某干扰项选答率特低 则说明该干扰项错的过于明显应加以淘汰 若某干扰项选答率特高 则要考虑该题正确答案是否错误或有两个正确答案 2 对于正确答案主要考察高分组和低分组被试在正确答案上的选答率是否是正差 及这一差距是否足够大 只有当高分组和低分组被试在正确答案上的选答率是正差 且这一差距足够大时 这时题目质量较佳 3 对于干扰项考察高分组和低分组被试在干扰项上的选答率是否是负差 及这一差距是否足够大 只有当高分组和低分组被试在正确答案上的选答率是负差 且这一距差足够大时 这时干扰项的设置比较合理 否则干扰项设置不合理 应对干扰项进行删除或修改 4 其它 如果高分组被试的选答集中在两个答案上 且人数又相近 说明此题可能有两个正确答案 或者在某种意义上另一个选择项也有一定道理 应考虑题目本身是否存有歧义或有两个正确答案 如果高分组对正确答案的选答率与低分组相等或低于后者 说明该题所考察东西与被试水平无关 即不具有鉴别力 此题应作大修改或删除 如果一个题目被试未作答的人数较多 速度测验除外 或选择各个备选项答案的人数相等 说明该题目过难或题意不清 被试无法作答或全凭猜测 应修改或删除本题 举例 下表为一个由370人参加的英语测验中四道选择题的统计结果 试分析每题难度 区分度是如何计算出来的 并对这四题的选项质量进行评价 选项分析 第1题 正确答案和干扰项的两组平均选答率都基本正常 在正确答案上高分组的被试选择人数要多于低分组被试 且在非正确选项上 高分组的被试选择人数要少于低分组被试 这符合实际情况 四个选项的设置均较合理 第2题 正确答案和干扰项B的两两组平均选答率基本一致 且正确答案上高分组的被试选择人数要少于低分组被试 而在非正确选项B D上 高分组的被试选择人数要多于低分组被试 这均不符合实际情况 且高分组被试中选择人数最多的为选项B 则要考虑该是否有2个正确选项 因此该题选项设置较差 因此整题质量较差 第3题 选项A B D两组平均选答率都基本正常 设置均较合理 但选项C需修改 第4题 选项A D设置合理 选项C设置不合理需修改 不论高分还是低分组被试均无人选择B 该选项无任何迷惑作用 可删除该选项 并换其它具有迷惑性的选项 练习 补充 题目功能差异与测量偏差控制 题目功能差异 测量偏差定义及其侦查方法题目功能差异及测量偏差定义 某年的高考实验试卷有一道关于鱼头和鱼尾作文题 第一幅是母亲把鱼中段夹给年幼的儿子 自己吃鱼头鱼尾 第二幅漫画是儿子长大了 把鱼头鱼尾留给母亲吃 自己吃鱼中段 要求被试就此发表议论 写一篇作文 题目功能差异 differentialitemfunction DIF 是指不同群体对同一题目的答对概率 或得分率 不同 即不同群体在同一题目上得分存在差异 造成题目功能差异的原因可能是群体间本身水平存在差异 也可能是群体本身水平不存在差异而由于其它原因 如风俗习惯 性别 种族 地域 所致 若题目功能差异是由前者引起 则称为良性题目功能差异 若是由后者引起 则称为不良题目功能差异 即存在测量偏差 题目功能差异主要是针对不同群体而言 目前测量学领域关注较多群体差异主要有性别差异 地区差异 种族差异 跨文化差异等 因此有DIF的题目不一定存在测量偏差 良性DIF不存在测量偏差 不良DIF才存在测量偏差 但有测量偏差的题目一定存在DIF 在题目功能差异研究中还有一对重要概念 一致性DIF和不一致性DIF 一致性DIF是指被试的能力水平与其组别之间不存在交互作用 即在所有的能力水平上 一组被试回答某一项目的正确率都大于另一组 当被试的能力水平与其组别之间存在交互作用时 则表现为非一致性DIF 题目功能差异及测量偏差侦查方法要侦查题目是否存在测量偏差 首先应侦查题目是否存在DIF 若不存在DIF 则不存在测量偏差 若存在DIF 还应分析是良性DIF还是不良DIF 只有不良DIF才会造成测量偏差 1 DIF及测验偏差侦查的一般步骤 1 被试群体的确定及数据资料的准备根据测验特征 确定哪两类被试群体可能会存在DIF 然后再随机抽取这两类被试群体的测验反应数据 所抽取的被试总量应足够多 一般不少于1000人 2 目标组和参照组的确定根据题目特征 确定题目对以上确定的哪类群体有利 若第 1 步确定为男生和女生两个群体 且认为题目可能对男生有利 那么一般把男生样本作为参照组 女生样本作为对照组 3 匹配变量的确定一般以测验总分作为匹配变量 将两个群体中相同测验总分的被试一一匹配 采用适当的DIF侦查方法进行分析 找出并剔除存在DIF的题目 从而组成一个不含DIF的子测验 然后再以该子测验的总分作为匹配变量 再对子测验进行DIF分析 找出并剔除存在DIF的题目 如此反复 直到找到一个不含DIF题目的子测验 并以被试在该子测验上的得分作为最终的匹配变量 4 DIF的探索性分析根据第 步确定的最终的匹配变量对测验所有项目进行正式的DIF分析 5 DIF成因分析成立

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论