(基础心理学专业论文)samejima等级反应模型下cat选题策略比较研究.pdf_第1页
(基础心理学专业论文)samejima等级反应模型下cat选题策略比较研究.pdf_第2页
(基础心理学专业论文)samejima等级反应模型下cat选题策略比较研究.pdf_第3页
(基础心理学专业论文)samejima等级反应模型下cat选题策略比较研究.pdf_第4页
(基础心理学专业论文)samejima等级反应模型下cat选题策略比较研究.pdf_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

竺复 竺竺堑垦壅壁型 昼坚垄墨苎堕些墼堕壅 摘要 本文采用计算机模拟程序 用五个评价指标 分别从能力水平估计精确性 选题 策略的稳定性 测验的效率和题库中项目的调用均匀性 这四个方面对s a m e j i m a 等级 反应模型下c a t 的六种选题策略 进行了比较研究 研究结果表明 1 当项目难度参数服从正态分布时 难度等级中位数与能力匹配选题策略 比难 度等级平均数与能力匹配选题策略略好 项目的最大信息量选题策略 比能力的最大 信息量选题策略的测验效率高 但其项目的调用均匀性差 a 分层 中 选题策略优于a 分层 平 选题策略 2 当项目难度参数服从均匀分布时 在题库中项目的调用均匀性方面 难度等级 中位数与能力匹配选题策略 较难度等级平均数与能力相匹配选题策略差 但在其他 指标上 前者略优于后者 而a 分层 中 的项目调用均匀性好于a 分层 平 但在其 他指标上 略劣于后者 能力的最大信息量选题策略 较项目的最大信息量选题策略 的能力估计精确 测验效率高 但是其项目调用均匀性较差 3 1 综合各评价指标 在项目难度参数服从不同分布的情况下 a 分层选题策略优 于其他选题策略 而且就a 分层选题策略本身而言 在每一层中用难度等级中位数与 能力匹配选题策略 优于难度等级平均数与能力匹配选题策略 4 1 项目参数结构的不同 对c a t 选题策略的优劣有影响 关键词 等级反应模型 c a t选题策略被试能力调用项目信息量 第2 页 咝 磐 璧垦生堡型 鱼坚垄星苎堕堕墼竺窒 a b s t r a c t t h i sp a p e ri n v e s t i g a t e st h ec o m p a r i s o nr e s e a r c hb e t w e e ns i xi t e ms e l e c t i o ns t r a t e g i e s o fc a t b a s e do nt h es a m e j i m ag r a d e dr e s p o n s em o d e lf r o ms u c hf o u rp e r s p e c t i v e sa s a c c u r a c yo fa b i l i t ye s t i m a t i o n s s t a b i l i t yo f i t e ms e l e c t i o ns t r a t e g y e f f i c i e n c yo f t e s t i n ga n d w h e t h e rt h ei t e mb a n ka r ee v e n l ys e l e c t e d t h es i m u l a t i o nm e t h o da n df i v ee v a l u a t i o n i n d i c e sa r ea d o p t e d t h er e s u l t ss h o wt h a t 1 u n d e r t h ec o n d i t i o nt h a tt h ed i f f i c u l t yp a r a m e t e r sf o l l o wt h en o r m a ld i s t r i b u t i o n t h e s t r a t e g yo f t h ed i f f i c u l t yo r d e r sm a t c h i n gw i t ht h ea b i l i t y i ss l i g h t l yb e t t e rt h a nt h a to ft h e m e a no ft h ed i f f i c u l t yo r d e r sm a t c h i n gw i t ha b i l i t y t h ei t e ms e l e c t i o ns t r a t e g yo ft h ei t e m m a x i m u mi n f o r m a t i o nj sm o r ee f f i c i e n tt h a nt l a to ft h ea b i l i t ym a x i m u mi n f o r m a t i o n w h i l e t h ei t e m sa r ew o r s ee v e n l ys e l e c t e d a s t r a t i f i e ds e l e c t i o ns t r a t e g yo ft h em e d i u mi ss l i g h t l y b e t t e rt h a nt h a to ft h em e a n 2 w h e nt h ei t e md i f f i c u l t yp a r a m e t e r sf o l l o wt h ee v e nd i s t r i b u t i o n i nt h ea s p e c to f w h e t h e rt h ei t e m sa r ee v e n l ys e l e c t e d t h es t r a t e g yo ft h em e d i u mo ft h ed i f f i c u l t yo r d e r s m a t c h i n g w i t ha b i f i t yi ss l i g h t l yw o r s et h a nt h a to ft h em e a n m a t c h i n g w i t ha b i l i t y w h i l eo n o t h e rp e r s p e c t i v e st h a ta r em e n t i o n e da b o v e t h ef o r m e ri ss l i g h t l yb e t t e rt h a nt h el a t e r b u t a sf a ra st h ea s t r a t i f i e ds e l e c t i o ns t r a t e g yi sc o n c e r n e d i ti sa n o t h e rc a s e t h em e d i u m s t r a t e g yi sb e t t e rt h a nt h em o a ns t r a t e g yi nt h ea s p e c tw h e t h e r t h ei t e m sa r ee v e n l ys e l e c t e d a n do no t h e rp e r s p e c t i v e i ti ss l i g h t l yw o r s e i nt h ea s p e c t so fa c c u r a c yo fa b i l i t ye s t i m a t i o n a n de f f i c i e n c y i t e ms e l e c t i o ns t r a t e g yo f a b i l i t ym a x i m u m i n f o r m a t i o ni sb e t t e rt h a nt h a to f t h ei t e mm a x i m u mi n f o r m a t i o n w h i l ei ti sw o r s ei nt h ea s p e c to fw h e t h e rt h ei t e m sa r e e v e n l y s e l e c t e d 3 i ng e n e r a i u n d e rt h ec o n d i t i o n st h a tt h ei t e md i f f i c u l t yp a r a m e t e r sf o l l o wd i f f e r e n t d i s t r i b u t i o n s a s t r a t i f i e ds e l e c t i o ns t r a t e g yi ss l i g j a f l yb e t t e rt h a no t h e rs t r a t e g i e s a sf a ra s t h ea s f f a t i f i e ds e l e c t i o ns t r a t e g yi t s e f fi sc o n c e r n e d i ne v e r ys t a g e t h es f f a t e g yo ft h e m e d i u mo fd i f f i c u l t yo r d e r sm a t c h i n gw i t ha b i l i t yi sb e t t e rt h a nt h a to ft h em e a nm a t c h i n g w i t ha b i l i t y 4 t h e c o n s t r u c t so ft h ei t e mp a r a m e t e r sh a v ee f f e c to nt h er e s u l t so fc a ti t e ms e l e c t i o n s t r a t e g i e s k e y w o r d s g r a d e dr e s p o n s em o d e l c a t s e l e c t i o ns t r a t e g y e x a m i n e e a b i l i t y i t e ms e l e c t i o n i n f o r m a t i o n 第3 页 s a m c j i m a 等级反应模型下c a t 选题策略比较研究 s a m e ji m a 等级反应模型下c a t 选题策略比较研究 1 引言 2 0 世纪7 0 年代 项目反应理论及计算机技术的发展为心理测量开辟了新的领域 计算机自适应测验 c o m p u t e r i z e d a d a p t i v et e s t i n g c a t 它是现代测量学理论与计 算机技术相结合的产物 在传统的纸笔测验当中 无论被试能力水平高低都使用同样 的试题测试 当能力水平高的被试作答难度小的项目时 测不出被试真实的能力水平 而且被试稍一疏忽 造成失分 反而增加了测量误差 反之 能力水平低的被试对于 难度大的项目 根本无法作答 易产生受挫心理 甚至引起瞎猜 这样也会增加测量 误差 理论分析与实践都证明 当项目难度跟被试水平相当时 项目所提供的信息量 大 被试的积极性高 测验的效果也就最好 而c a t 正是根据被试当前的能力估计值 从已知题库中选择最适合被试作答的项目 测试被试 从而傲到真正的 因人旌测 与传统的纸笔测验相比较 c a t 不但减少了测验长度 提高了测验效率 而且由于c a t 是由计算机准确地控制测验过程 这样就比纸笔测验更加精确化 同时 还简化了测 验修订等过程 真正地实现了测验的无纸化 在美国 c a t 已经得到广泛的研究与应用 自1 9 9 9 年以来 有许多教育 心理测 量学文章纷纷对c a t 研究进行了介绍 在应用方面 许多大型的测验都采用了c a t 形式 例如美国研究生入学考试 g r a d u a t e r e c o r d e x a m i n a t i o n g r e 军事服役职业能 力倾向成套测验 加强e ds e r v i c e sv o c a t i o n a l a p t i t u d e b a t t e r y a s v a 8 及护士 医生资格 考试 t h en a t i o n a l c o u n c i lo fs t a t eb o a r d so fn u r s i n ga n dn a t i o nb o a r do fm e d i c a l e x a m i n e r s 等等 在我国 c a t 的理论与应用研究的普及度都还不够 理论研究方面 主要有 i 漆 书青 戴海崎 丁树良三人著的 现代教育与心理测量学原理 和漆书青 戴海崎两 人著的 项目反应理论及其应用研究 这两本书中介绍了c a t 原理 2 张淑慧 范 光辉 1 9 9 7 发表了 电脑适性测验应用于学业性向测验之成效评估 一文 应用研 究方面 主要有漆书青 戴海琦等人 1 9 9 1 1 9 9 8 以r a s l 模型为理论指导 编制 了 县级党政干部专业知识人机对话自适应测验 和 党务干部专业知识自适应考试 1 9 9 8 年 与香港中文大学合作 采用了张华华等人提出的 a 分层选题策略 编制 第4 页 s a m c j i m a 等级反应模型下c a t 选题策略比较研究 了 小学生三 六年级数学水平计算机化自适应测验 c a t 的许多研究与应用 都建立在双歧评分模型的基础上 但是在实际的教育与 心理测量中 为了比较有效地测量诸如综合分析 创造评价之类的高层次心理品质 还需要应用一些自由反应项目 如计算 问答 证明题等 这些项目的评分往往多于 一个等级 所以 为了满足实际测量的需要 有必要研究多级评分模型下的c a t 也 就是说 实践与理论的发展必将推动c a t 进一步的发展 人们对c a t 的探讨也将不 会停留在简单的双歧评分模型 选题策略是c a t 研究的一项重要内容 研究选题策略 以降低被试能力估计误差 减少项目调用次数并平衡项目曝光均匀性 是人们在c a t 研究中不断探讨的问题 本 文比较了s a m e j i m a 等级反应模型下的几种选题策略 笔者希望此文对推动我国c a t 的研究与应用工作 能起到一定的促进作用 2 文献综述 2 1 c a t 简介 适应性测验 a d a p t i v e t e s t i n g a t 是对各种不同的能力水平的被试 给予难度 合适的测验项目 许祖慰 1 9 8 9 太难的项目 不易准确地测量能力水平低的被试 容易的项目 也不能准确地测量能力水平高的被试 由此看来 只有采用对被试能力 水平而言难度适中的项目 才能达到准确测量被试能力水平的目的 适应被试水平用不同难度项目去进行测试 以求得到准确的测量结果 这一思想 比纳在编制他的智力量表时就已提出 他抽取不同年龄组的儿童进行试验性测试 从 而找到了代表各年龄组水平的典型性项目 这些项目按年龄水平高低加以排列后 不 同被试从哪一处开始接受测验 受测过程中作答对错有了结果后 再继续选择什么水 平的项目测试 以及测验要到什么状况方才予以结束 都要取决于被试的实有表现和 水平 不同对象不同对待 这显然是自行适应被试水平的测验 n 十世纪后期 计 第5 页 s m e i i m 碍级反匝模型fc a t 选思策略比较研究 算机技术的进步和心理测爨理论的发展 绘蹇适应性测验带来了巨大的变化 美国专 家r e c k a s e 于1 9 7 4 年开发了第一个c a t 但由于当时的计算机硬件与软件技术的限 制 r e c k a s e 无法使自己的研究更加完善 翻 但时至今日 随着心理测量学理论的发 展和计算桃技术的不断进步 c a t 的时代已经真正来搦了 j o h n m i c h a e l l i n a e r e 2 0 0 0 2 4 1 c a t 对被试铡试主要包括以下几个步骤 1 被试能力承平值豹估计 2 选择一 个最逶合搜试当前能力估计值作答蛉项目 测试梭试 3 掇据被试作答情况更新被试 的能力估计值 4 重复第2 与第3 步 直到符合测验的终止原则时 结束攫4 验 这其 中涉及到以下几个问题 第一 被试能力水平的估计如何进行 第二 项目选题簧略 如何设计 第三 测验的起始与终止采街什么标准 由此可见 c a t 的越个过程不 可能借助笔与纸来进行 必须借助计蓐枧来完成 c a t 中披试能力承平的估计和选题簸略盼设谤 都是基于项胃反应理论 i t e m r e s p o n s et h e o r y i r t 而进行的 首先 c a t 选题策略根据项目难度与被试能力水 平檩匹配的原则 从题库中调用一个蜃适台艘试能力水平炸答的项蟊 这就意味着 项目难度与能力水平虚表达在同一最表上 同时要求在测试过程中 不断地更额被试 的能力估计值 那么这就需要借勘i r t 的理论与模型 其次 c 虹 要有大型题库提供 大量的项目戳备选择 丽建设大型题库 裁需要借助i r t 中硕露参数不变性的特性 第三 c a t 还运用了i r t 中项露信息景与测验信息蠢这两个概念 出此可觅 没有先进的计算机技术与项强反应理论 c a t 也就无法更科学 更高 效地实现 2 2 双数译分模掇下c a t 选题策略研究穰述 2 2 1 经典选题策略 m c b r i d e 1 9 9 7 i l l l 1 2 11 1 3 1 把二十世纪七十年代末以前的选题策略归为经典选题策 略 w e i s s 1 9 7 9 将经典选蹶策略分为两类 第一类为机械性选题策略 第二类为数 学性选题策珞 前者主要是基于经典测量理论的c a t 其选题策略都是按事先的逻辑 蹶序进行选题 屠者是以i r t 为基础豹c a t 其选题策略主要存最大信息量法 l o r d 1 9 7 0 和贝盱斯法 w e i s s 1 9 6 5 1 9 7 5 规械挂选题策略豹共同点是 预先已按菜类属性 沈空拜按瑷是滩瘦承平 对项嚣进 行了排序 然后根据被试对当前项目的作答情况 来选择下一个项目 当被试作答完 第6 页 s a m e i i m 等级反应模型下c a t 选题策略比较研究 算机技术的进步和心理测量理论的发展 给自适应性测验带来了巨大的变化 美国专 家r e c k a s e 于1 9 7 4 年开发了第一个c a t 但由于当时的计算机硬件与软件技术的限 制 r e c k a s e 无法使自己的研究更加完善 1 2 但时至今日 随着心理测量学理论的发 展和计算机技术的不断进步 c a t 的时代已经真正来临了 j o h nm i c h a e ll i n a c r e 2 0 0 0 2 4 1 c a t 对被试测试主要包括以下几个步骤 1 被试能力水平值的估计 2 选择一 个最适合被试当前能力估计值作答的项目 测试被试i3 根据被试作答情况更新被试 的能力估计值 4 重复第2 与第3 步 直到符合测验的终止原则时 结束测验 这其 中涉及到以下几个问题 第一 被试能力水平的估计如何进行 第二 项目选题策略 如何设计 第三 测验的起始与终止采用什么标准 由此可见 c a t 的整个过程不 可能借助笔与纸来进行 必须借助计算机来完成 c a t 中被试能力水平的估计和选题策略的设计 都是基于项目反应理论 i t e m r e s p o n s et h e o r y i r t 而进行的 首先 c a t 选题策略根据项目难度与被试能力水 平相匹配的原则 从题库中调用一个最适合被试能力水平作答的项目 这就意味着 项目难度与能力水平应表达在同一量表上 同时要求在测试过程中 不断地更新被试 的能力估计值 那么这就需要借助i r t 的理论与模型 其次 c a t 要有大型题库提供 大量的项目以备选择 而建设大型题库 就需要借助i r t 中项目参数不变性的特性 第三 c a t 还运用了i r t 中项目信息量与澳4 验信息量这两个概念 由此可见 没有先进的计算机技术与项目反应理论 c a t 也就无法更科学 更高 效地实现 2 2 双歧评分模型下c a t 选题策略研究概述 2 2 1 经典选题策略 m c b r i d e 1 9 9 7 11 1 1 i n i t 3 1 把二十世纪七十年代末以前的选题策略归为经典选题策 略 w e i s s 1 9 7 9 将经典选题策略分为两类 第一类为机械性选题策略 第二类为数 学性选题策略 前者主要是基于经典测量理论的c a t 其选题策略都是按事先的逻辑 顺序进行选题 后者是以i r t 为基础的c a t 其选题策略主要有最大信息量法 l o r d 1 9 7 0 和贝叶斯法 w e i s s 1 9 6 5 1 9 7 5 机械性选题策略的共同点是 预先己按某类属性 比如按项目难度水平 对项目进 行了排序 然后根据被试对当前项目的作答情况 来选择下一个项目 当被试作答完 第6 页 s a m c j i m a 等级反应模型下c a t 选题策略比较研究 了应作答的项目之后 根据作答的情况 便可对被试的能力水平进行估计 运用这类 选题策略的 镀主要有以下几种形式 二阶段测验f n v 0 s t a g et e s t i n g l o r d 1 9 7 1 难 度可变测验 f l e x i l e v e l t e s t i n g l o r d 1 9 7 1 分枝测验 b r a n c h i n g t e s t i n g l o r d 1 9 7 0 金字塔式自适应测验 p y r a m i d a la d a p t i v et e s t i n g l a r k i n w e i s s 1 9 7 4 分层自适应 测验 s t r a d a p t i v et e s t i n g w e i s s 1 9 7 4 这些自适应测验都是比奈智力自适应测验方法 的发展与延伸 它们都可以在计算机上实现 b e t z w e i s s 1 9 7 4 1 9 7 5 v a l e w e i s s 1 9 7 5 等人就机械性选题策略的自适应铡验做了计算机模拟研究 并将其与传统的 纸笔测验做了大量的比较研究 他们的研究结果表明 运用机械性选题策略的自适应 测验 比传统的纸笔测验的有效性 准确性及效率都要高 但从根本上来说 机械性 选题策略还没有完全地实现真正意义上的自适应 数学性选题策略主要有最大信息量法和贝叶斯法 数学性选题策略的主要特点是 在项目选择过程当中运用了数学算法 并且当被试每次作答完一个项目之后 就用统 计方法对被试能力估计值进行更新 最大信息量法是根据项目在被试当前能力估计值 上 信息量是否最大来选项目 贝叶斯法是根据 项目是否使被试能力水平的贝叶斯 后验分布的方差期望值最小 来选项目 具体而言 最大信息量法 就是当被试作答完第m 个项目之后 用条件极大似 然法估计被试当前能力值占 然后计算题库中未被调用的项目在占上的信息量 并选 取在这个能力水平上信息量最大的项目 把它作为被试将要作答的第m 1 个项目 r e c k a s e 1 9 7 4 及s a m e j i m a 1 9 7 6 等人做了能力的最大信息量选题策略的计算机模 拟研究 l o r d 1 9 7 7 做了能力的最大信息量选题笨略的应用研究 将它应用于言语能 力的大跨度适应性测验 2 2 2 现代选题策略 v a nd e rl i n d e n p e t e r 2 0 0 0 1 5 把二十世纪八十年代后出现的选题策略归为现代 选题策略 它主要包括以下几种 1 极大全息信息准则 m a x i m u mg l o b a l i n f o r m a t i o nc r i t e r i o n c h a n g y i n g 1 9 9 6 其基本思想是 对项目在当前估计能力水平上的库尔柏克一李伯勒信息函数进 行积分 调用积分值最大的项目 2 似然权重信息准则 l i k e l i h o o d w e i g h t e d i n f o r m a t i o nc r i t e r i o n v e e r k a m p b e r g e r 1 9 9 7 这种准则的基本思想是对项目的费舍信息函数加权后求积分 调用积 第7 页 s a m c j i m a 等级反应模型下c a t 选题黄略比较研究 分值最大的项目 其中权重系数为被试作答概率的似然函数 3 全贝叶斯准则 f u l l yb a y e s i a nc r i t e r i a v a n d e rl i n d e n 1 9 9 8 其基本思想是 对项目的费舍信息函数加权后积分 调用积分值最大的项目 但此时的权重系数 为 被试能力的先验分布函数和被试作答概率似然函数两者的乘积 4 具有经验先验的贝叶斯准则 b a y e s i a n c r i t e r i aw i t ha ne m p i r i c a l p r i o r v a nd e r l i n d e n 1 9 9 9 这种准则用于已知被试的背景信息 求取被试能力水平的先验分布函 数 再用全贝叶斯准则来选题 5 具有随机项目参数的贝叶斯准则 b a y e s i a n c r i t e r i a w i t h r a n d o m i t e m p a r a m e t e r s t s u t a k a w a j o h n s o n 1 9 9 0 这种准则用于未知项目参数的情况 根据所 有先前被试的作答反应得分矩阵和当前被试的作答概率函数 导出当前被试能力水平 的后验分布 再用全贝叶斯准则来选题 6 a 分层选题策略 a s t r a t i f i e dd e s i g n s d c h a n g y m g 1 9 9 8 具体说来 a 分 层选题策略是将题库中的项目按a 值大小进行排序后 根据测验长度 将题库分成若 干层 在测试过程中 根据被试的能力估计值与项目难度值相匹配的原则 逐层调用 数目相当的项目 直至满足测验结束原则 如此 在测验的初级阶段a 值小的项目被 调用 在测验的后阶段a 值大的项目被调用 c h a n g y m g 1 9 9 6 1 6 认为 在测验初 级阶段由于被试的能力估计初值常常远离其能力真值 那么即使施用a 值较小 难度 与能力估计值相当的项目 也可以提供一定的信息量对能力水平值进行粗估 若此时 使用a 值大的项目实属浪费 在测验的后阶段 当被试能力估计值与真值越来越接近 时 用a 值大的项目 更有利于被试的能力估计 这样 不会造成在整个c a t 过程 当中 反复地调用区分度大的项目 而区分度小的项目则很少被调用 如此可使题库 中的项目均匀合理使用 由此可见 现代选题策略是运用现代测量理论一 玎 大型题库和复杂的能力估计 算法和选题算法来实现 它较经典选题策略更科学 更系统 更精确 2 2 3 双歧评分模型下c a t 选题镱略研究小结 双歧评分模型下c a t 各种选题策略研究的归纳 见表2 1 的所示 第8 萸 s m 目i m a 婷级反应模型下c a t 选厝策喀比较研究 表2 1双歧评分模型下c a t 选题策略归纳 分类策略 特征 机械性选题策略 二阶段测验 难 这类选题策略基于经典测量理论 算 经 度可变测验 分枝测验 金字塔式 法简单明了 易于理解与实现 但并 典 自适应测验 分层自适应测验 没有实现真正意义上的自适应 选 题 数学选题策略 最大信息量法和贝最大信息量法效率高 能力估计值准 策叶斯法 确 但是项目调用次数不均匀 而贝 略 叶斯法则要考虑被试能力水平的先验 分布 在实际应用当中不是很普遍 极大全息信息准则 似然权重信息这类选题策略运用了复杂的数学统计 准则 全贝叶斯准则 具有先验分方法 不易理解 要与计算机技术相 现 布的贝叶斯准则 具有随机项目参结合才能实现 其中后三种准则要考 代 数的贝叶斯准则虑能力水平的先验分布 在实际应用 选 题 当中不是很普遍 策 a 分层选题策略整个题库按区分度a 值大小进行分层 略 后 依次在每一层中选题 从而提高 测验效率 平衡并减少项目调用次数 2 3 等级反应模型下c a t 研究概述 等级反应模型下的c a t 研究始于二十世纪八十年代 1 9 8 8 年 d o d d 1 9 1 等人用 i i k c r t 态度量表调查所得实际数据 将等级反应模型下的c a t 与a n d r i c hr a t i n gs c a l e 下的c a t 进行了比较研究 此外 同时还对在不同模型下c a t 的能力估计精确性 进行了比较 1 9 8 9 年 d o d d i r a 等人又完成了等级反应模型下的c a t 模拟研究 其主 要研究内容包括题库容量应为多大 用条件极大似然估计法估计能力水平 是否会出 现不收敛的现象 及测验应采取哪种终止原则这三个问题 九十年代 s i n g h 等人 1 9 9 0 1 9 9 3 1 9 用i i k c r t 态度量表调查所得实际数据 比 较等级反应模型下的c a t 与传统的纸笔测验这两种测验结果的精确性 其结果表明 在相同的测量精确性下 c a t 比传统的纸笔测验要减少2 5 5 0 的测验长度 d o a y a l a 等 k 1 9 9 2 1 9 将等级反应模型下的c a t 与拓广分布评分模型下的c a t 进行 了比较研究 其主要目的是比较不同模型下c a t 项目的拟合情况 目前 等级反应模型下c a t 的研究还仅仅处在发展的初级阶段 这与双歧评分 模型c a t 研究在上世纪7 0 年代末 8 0 年代初时的发展状态大致相当 d o d d d e a y a l a 第9 页 竺 吼 壁垦皇堡型 呈 兰垄壁苎壁些墼堡塞 r k o c h 1 9 9 5 1 9 l 等级记分模型下c a t 的研究 还要不断地借鉴双歧评分模型下c a t 的研究 还要不断地深入下去 d o d d d c a y a l a r k o c h 1 9 9 5 2 0 1 2 4 本文研究的主要内容 本文采用计算机模拟研究方法 比较了等级反应模型下c a t 的六种选题策略 这 六种选题策略分别是 1 难度等级平均数与能力匹配选题策略 2 难度等级中位数与 能力匹配选题策略 3 能力的最大信息量选题策略 4 项目的最大信息量选题策略 5 a 分层选题策略 每层用难度等级平均数与能力匹配选题策略 6 a 分层选题策略 每层用难度等级中位数与能力匹配选题策略 为了便于比较 还将随机选题法作为一 种选题策略列入其内 以供参照 在比较这六种选题策略时 共采用了五个评价指标 分别是无偏性 返真性 能力估计标准差 人均用题数和题目调用次数标准差 这五 个评价指标分别从能力估计精确性 选题策略稳定性 测验效率和题库项目使用情况 四个方面 对上述六种选题策略进行比较与评价 这便是本文研究的主要内容 3 c a t 选题策略比较模拟研究 3 1 等级反应模型简介 3 1 1 等级反应模型简介 s a m c j i m a 等级反应模型假设项目i 共有艮个等级 对于任一等级l z 1 2 3 局 把全体被试在此等级上的反应作一个 1 0 式划分 根据这种划 分 被试在项目i 上被评为l 等级的概率 用双参数l o g i s t i c 模型可表示为以下形式 晶p t 巧p 一层 p z o 1 2 3 k 其中i 昂p m 1i 3 1 f 巧p i 南1 只z p oj 第l o 页 竺 笪堕 璧垦皇堡型工璺坚鎏璧苎堕堕墼堡塞 3 1 式为等级反应模型 g r a d er e s p o n s em o d e l 表达式 有些学者认为 同一项 目在各个等级上的区分度相等 故用一个区分度参数口 表示 b 为难度等级参数 它 是一组单调上升的有序参数 这说明在项目i 上要取得l 1 等级比取得 等级更难 有 时需要一个单一的难度参数来刻划某个项目 则可以用各等级难度参数的算术平均值 作为整个项目的难度值 即 觑 垃垫立譬唑 k o 1 2 3 墨 3 2 若项目难度等级出现了极端值 这时可用中位数来刻划它 3 1 2 等级反应模型的信息函数 若被试j 的能力值为0 那么项目i 对被试 旌测的信息量为 o 一d 2 a 2 囊k 9 一只j 9 匝一昂 9 一只j 9 汁 3 3 测验在某能力水平上的信息量 为各项目在该能力水平上信息量的累加和 b i m b a u m 1 9 6 8 则由 个项目构成的测验对被试j 施测的信息量为 6 o j 意 3 4 测验信息函数的倒数是测验标准误差 则能力水平值为0 的被试经过测试后其测 验标准误差为 泖沪丽1 南 5 显然 测验信息量越大 贝 j s g o 就越小 对被试特质水平的估计就越精确 而 测验信息量为各项目在该能力水平上信息量的累加 那么当测验中各项目在被试能力 值上的信息量越大 则测验信息量就越大 s e o 就越小 3 2 拟比较选题策略设计 若整个题库有打个项目 被试完成测验共要作答m 个项目 肌 l 2 m 表示被 试作答项耳的序号 s l 一 i 表示效试已经作答的项目 i 表示项目在题库中 第1 1 页 s a m i i m 等级反应模型下c a t 选题策略比较研究 所对应的项目序号 以一札 n 一s 表示题库当中未被调用的项目 3 2 1 难度等级平均数与能力匹配选题策略 计算整个题库当中各个项目多个难度等级的平均数 见公式3 2 然后调用被试没 有作答的 且项目难度等级的平均数与被试当前能力估计值最接近的项目 难度等级 平均数与能力匹配选题策略可用公式表示为 圬仁tm i n 蓐卸 凡 阻e 3 2 2 难度等级中位数与能力匹配选题策略 计算整个题库当中各个项目多个难度等级的中位数 然后调用被试没有作答过的 且项目难度等级的中位数与被试当前能力估计值最接近的项目 难度等级中位数与能 力匹配选题策略可用公式表示为 叫 t 一m i n b 一占睁b 7 3 2 3 能力的最大信息量选题策略 能力的最大信息量选题策略 即按项目在被试当前能力估计值上的最大信息量选 题 计算心中各项目在被试当前能力估计值上的信息量 从中选出5 个项目 这5 个 项目比其他项目在当前能力估计值上信息量要大 然后再在这5 个项目中随机调用一 题 若用爿 口 口 码 口 口 表示在当前能力估计值上有最大信息量的项目集合 首 先求取集合a 然后再在集合a 中随机选一题 这个过程可表示为 i l l m a x g f 凡 驴 p 峄 晚f 如1 铲 i 1 t m a x 埘 慨 a i a 2 i l l m a x 晚r 帆 a t a 1 a 3 f j 第1 2 页 皇苎垡坐量望垦堡堡型 曼竺垄望苎堕些墼堡窒 口5 i i l l m a x 埘 帆 a i a 2 a 3 a 4 j i 一肋n d i n 口1 口2 口3 口4 口5 3 8 3 2 4 项目的最大信息量选题策略 首先把能力水平区间 一3 3 按一定步长均分为若干分 然后计算题库中每个项目 在每个等分上 即在能力的不同点上的信息量 找出最大信息量所对应的那个能力点 纠 然后将卅与被试当前能力估计值占相匹配 调用氏中研与占差距最小的项目 用 公式可表示为 f f f l l 口 m i np 一占 f r l 3 9 3 2 5 a 分层选题策略 按区分度a 值从小到大 把整个题库分t 层 每一层当中的选题策略又分两种情 况 一为难度等级平均数与能力匹配选题策略 见公式3 6 把每层采用这种选题策略 的a 分层策略 简称为a 分层 平 二为难度等级中位数与能力匹配选题策略 见公式 3 7 把每层采用这种选题策略的a 分层策略 简称为a 分层 中 a 分层选题策略从a 值最小的那层开始选题 随着能力估计越来越精确 所选项 目的a 值也越来越大 层次也越来越商 直到接近精度要求时 直接从最高层中选题 这样一个过程需要有一个自动控制选题层次的机制 因此设置以信息量的大小来分层 进行控制 可相应地将测验信息量也划分t 层 测验信息量是如何划分呢 测验信息量受区分度a 值平方影响最大 见公式3 3 3 4 由此设想各层信息量的划分不应是均匀的 若累积到第置层的信息量为厶 假 设它是层次k 的二次函数 其自变量是测验信息量被分的层数 当然信息量的划分还 与测验信息量的大小有关 要保证最终达到测验信息量值 若测验信息量共划分为r 层 则 厶 如嘭f 3 1 0 在本模拟研究中 测验信息量为2 5 按区分度a 值把整个题库分为1 0 层 即a 值介于 0 2 5 0 3 5 l 拘y c d 目为第一层 a 值介于 o 3 5 o 4 5 的项目为第二层 依次类推 至 1 1 5 1 2 5 j 根据公式 3 1 嘴信息量的分层情况为 第1 3 页 s a m c i i m a 等级反应模型下c a t 选题策略比较研究 l o 2 5 2 1 3 2 2 5 4 4 5 6 2 5 1 6 9 1 7 1 2 2 5 8 1 6 1 9 2 0 2 5 i 2 5 也就是说 调第一层的项目测试 累积信息量为o 2 5 即当被试在第一层调用的 项目 在当前能力估计值上的信息量大于或等于0 2 5 时 就进入第二层调用项目 第 二层的项目累积信息量为1 即当被试在第一层与第二层所作答的项目 在当前能力 估计值上的累积信息量大于或等于1 时 进入第三层调用项目 以此类推 真至最后 一层 在这一层所调用的项目与前九层所调用的项目的全部信息量 大于或等于2 5 时 结束测验 3 3c a t 模拟程序设计 本文采用自编c a t 模拟程序进行问题的研究 编制c a t 模拟程序 一方面实现了 c a t 的过程 而且其中大量的数学统计运算 如能力估计 信息量的计算都必须借助 计算机来实现 另一方面 克服了在研究过程中的一些困难 如项目参数真值不可得 等 3 3 1 测验起始与测验终止原则 c a t 测试过程分为两个阶段 第一个是测验的初测阶段 也叫探测性阶段 第二 个是正式测试阶段 在初测阶段 对被试能力水平一无所知 这阶段是对能力值进行 初步估计的阶段 为正式测试阶段打好基础 这个阶段可以从题库当中随机调用不同 的题目对被试进行测试 当被试得分不全为0 分且不全为满分时终止 然后对能力水 平进行估计 当被试作答得分全为0 分或全为满分时 极大似然估计法无法估计被试 当前能力值 因此 在初测阶段 被试作答的项目得分既不能全为o 分也不能全为满 分 整个测验终止原则有两种 固定测验长度与不固定测验长度 通过确定测验项目 个数来终止测验的原则 即为固定测验长度 以这种原则结束整个c a t 过程 每个被 试作答项目的个数是一样的 不固定测验长度 也叫做变长原则 这种原则以测验信 息量来终止测验 若被试所作答的项目信息量的累加和达到了要求就结束测验 在这 种终止原则下 被试之间作答的测验项目个数不一定相同 有的多 有的少 但是所 有被试能力水平值的测量精确度都一样 在本模拟中 采用变长原则结束测验 3 3 2 能力值估计方法 能力估计方法采用条件极大似然法 m a x i m u m l i k e l i h o o de s t i m a t i o n m l e 已知 第1 4 页 一 墅 塑竺箜塑垦皇堡型 璺坚墨墨茎堕堕墼竺壅 作答项目的参数和实际作答得分矩阵 估计被试的当前能力值 首先介绍两个概念 作答反应向量和等级分数概率 若有n 个项目 项目i 的最高等级为k i f 1 2 n 被试j 在项目i 上的得分为f 作答反应向量为 邶 曲 其中 2 s 焉渡 p m 被试 在项目i 上恰得 等级分 则 f 1 未得 等级分时 朋 o 则被试j 在t 个项目上的得分概率为 巾 6 j i 舻p 3 1 2 若被试在m 个项目上的得分概率为公式 3 1 2 从这个似然函数中求解口值 使 得似然函数值达到最大 由于似然函数与其对数有相同的极值点 l 的计算叉十分烦 琐 就对似然函数取对数 然后对口求导 令其为0 求极值 辈导 0 3 1 3 a 一 用牛顿一拉酱逊迭代法求解上述方程 新的能力估计值的校正数为 新的能力估计值为 口 器i n j 疗一口 a zl f a 8 8 y 0 a o 3 1 4 3 1 5 计算程序反复执行 直到新的校正数的绝对值小于或等于设定的精度值 如e o 0 1 程序就停止计算 3 3 3c a t 模拟程序简介 3 3 3 1c a t 模拟程序流程图 本程序采用v b 6 0 语言编写 模拟能力水平参数 项目参数均用 m d b 格式 结 果文件用 m d b 和 t t 格式 整个模拟程序流程图见图3 1 所示 第l s 页 目 竺蔓墨垦皇堡至 旦竖些璧墨些 墼曼墨 i 调用计算评价指标的子程序 l保存结果j 图31 c a t 模拟程序流程图 第1 6 页 s a m c j i m a 等级反应模型下c a t 选题策略比较研究 3 3 3 2 模拟测试过程说明 整个模拟过程采用蒙特卡罗法 模拟生成被试能力真值和项目参数 根据被试的 能力真值在c a t 中对项目进行模拟作答 在分析估计过程中 由于预先并不知道被试 能力真值 因此 在初测阶段 可采用随机选题的方法 从整个题库中 随机调用不 同的项目 给被试进行模拟作答 直到被试对所调用的项目作答结果 不全为0 分且 不全为满分时 估出能力初值 结束初测进入正式测试 在正式测试阶段 根据不同 的选题策略 从题库当中调用最适合被试当前能力值作答的第所题 当被试作答完第 历题后 根据被试对这m 题的模拟作答结果 对被试的能力进行估计 同时根据新的 能力估计值 计算这m 题的测验信息量 直到测验信息量满足条件 结束该被试的 c a t 过程 3 3 3 3 模拟被试作答说明 模拟作答也是采用蒙特卡罗法 在计算机模拟程序当中 根据模拟生成的被试能 力真值 项目参数及均匀生成随机数的方法来模拟作答 先用被试能力真值0 和项目 参数 求出被试在项目i 上得f 等及f 等以上的概率为p 曰 见公式3 1 在 0 1 间随机生成一个小数尸 若随机小数p 值落在 p j f j 口 p 8 之间 那么就说 被试目在项目i 上的作答得分为f 例如 若项目i 共有3 个等级 用被试真能力值 计算在各个等级及以上的作答概率依次为昂一1 只 一0 7 巧一0 5 只 一0 2 只 0 若 随机生成的小数p o 4 0 2 0 4 3 2 8 5 0 3 1 4 1 3 3 0 7 6 1 2 7 7 8 5 2 6 5 7 8 那么选题策略的效果由好到差的顺序为 1 a 分层 中 2 a 分层 平 3 难度等级中位数与能力匹配选题策略 4 项目的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论