(计算机软件与理论专业论文)irt中3plm参数估计新方法ga算法.pdf_第1页
(计算机软件与理论专业论文)irt中3plm参数估计新方法ga算法.pdf_第2页
(计算机软件与理论专业论文)irt中3plm参数估计新方法ga算法.pdf_第3页
(计算机软件与理论专业论文)irt中3plm参数估计新方法ga算法.pdf_第4页
(计算机软件与理论专业论文)irt中3plm参数估计新方法ga算法.pdf_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 本文在项目 反应理论 ( i r t ) 框架下, 就目 前流行的参数估计方法进行分析 比 较;对工 r t 中3 p l m 的参数估计问 题,用传统的统计估计方法解决得并不令 人满意, 我们应用新的 估计方法 改进的 遗传算法解决这一问 题。 新方法不 需要未知参数的求导及先验分布的任何信息, 同时也克服了 传统参数估计算法 中 对迭代 初值要求严格的 缺点。 蒙 特卡 洛模拟结果 显示, 这种新的 估计方法提 高了 估计值对真值的恢复能力, 特别是提高了 项目 的难度和猜测度参数估计的 精度。本文主要围 绕遗传算法的 技术基础、 特性研究以 及在 工 r t 3 p l m 参数估 计方面的应用等问题, 重点进行了以下的研究工作: 1搜集、 整理和总结了 近年来国内外在i r t 参数估计领域内的主要参数估 计方法, 对i r t 中各种算法的基本算法原理、 构成、 特点及相关的应用问 题等 进行了较为系统的研究和探讨。 2 .对遗传算法的结构特点和算法特性进行系统的介绍。 3 . 根据i r t 中3 p l m 参数估计特性对遗传算法进行了 相应的探讨和改进。 4 ,为了验证遗传算法在i r t 3 p l m 参数估计方面所具有的 独特优势,本文 将改进后的遗传算法应用于i r t 中多个3 p l m 参数估计适应度函数。 本文的创新点是: 1 .将现有遗传算法中的改进方法进行综合, 提出了“ 改进实码遗传算法” 这新的参数估计方法, 并将它应用于工 r t 中3 p l m 参数估计, 得到了良 好的效果. 2 .将以 前 只能 用 于 双 参 数 估 计, 且 要 求 能 力己 知 的 x 2 检 验 的 参 数 估 计 方 法应用于3 p l m ,新方法放宽了 对适应范围的要求( 不需能力值己 知) 。 3 .将多个检验统计量经过改写, 应用于i r t 的3 p l m 参数估计。 4 ,就新的参数估计方法所提出多个适应度函数,进行了 性能对比的模拟 实验。 关键词:i r t ;参数估计:遗传算法;蒙特卡洛模拟:3 p l m . ab s t r a c t b a s i n g o n i r 双i n t h i s p a p e r s e v e r a l p r e v a l e n t p a r a m e t e r e s t i m a t i o n m e t h o d s a r e c o m p a r e d . t o 3 p l m o f i r t , t h e t r a d i t i o n a l p a r a m e t e r e s t i m a t e m e t h o d i s o f t e n u n s a t i s f a c t o ry , s o w e u s e a n i m p r o v e d g e n e t i c a l g o r i t h m t o r e s o l v e p a r a m e t e r e s t i m a t e s , t h i s n e w a p p r o a c h d o e s n t n e e d t h e i n f o r m a t i o n o f d e r i v a t iv e a n d p r i o r d i s t r i b u t i o n o f t h e u n k n o w n p a r a m a t e r s , a n d c o n q u e r s s h o rt c o m i n g i n i t e r a t i o n i n t h e t r a d i t i o n p a r a m e t e r e s t i m a t i n g t h a t i s h i g h l y s e n s i t i v e t o i n i t i a l v a l u e s . t h e r e s u l t s o f m o n t e c a r l o s i m u l a t i o n s h o w t h a t t h i s n e w a l g o r i t h m i s m o r e e ff e c t i v e t h a n t r a d i t i o n a l p a r a m e t e r e s t i m a t i o n t e c h n i q u e s o n c o n t r i b u t i o n s t o r a i s e t h e c a p a b i li t y o f p a r a m e t e r s r e c o v e ry , e s p e c i a l l y t o r a i s e t h e p r e c i s i o n o f i t e m d i f f ic u l t y a n d a s y m p t o t e p a r a m e t e r e s t i m a t e s . e n c i r c l i n g t h e t e c h n o - f o u n d a t i o n a n d c h a r a c t e r i s t i c - r e s e a r c h o f g e n e t i c a l g o r i t h m a n d a p p l i c a t i o n i n 3 p l m e s t i m a t i o n a l g o r i t h m , w e m a i n l y m a d e t h e f o ll o w i n g r e s e a r c h i n g : l i n t h i s p a p e r , w e c o l l e c t , r e g u l a t e a n d s u m m a r i z e i n t e r n a l a n d e x t e rna l a p p r o a c h e s o f p a r a m e t e r e s t i m a t i o n o n i r t 3 p l m i n r e c e n t y e a r s . w e s y s t e m a t i c a l l y s t u d y a n d d i s c u s s t h e b a s a l p r i n c i p l e , c o n s t i t u t e s , c h a r a c t e r a n d a p p l i c a t i o n o f a l g o r i t h m i n i r t . 2 . t h e s t r u c t u r e a n d c h a r a c t e r i s t i c o f g e n e t i c a l g o r i t h m i s i n t r o d u c e d . 3 . b a s e d o n t h e a b o v e w o r k , i n t h i s p a p e r g e n e t ic a l g o r i t h m i s c l o s e l y c h e c k e d a n d i m p r o v e d . 4 .1 n o r d e r t o v a li d a t e t h e u n i q u e a d v a n t a g e o f p a r a m e t e r e s t i m a t io n b a s e d o n g e n e t i c a l g o r i t h m , t h i s p a p e r a p p l y t h e i m p r o v e d g e n e t i c a l g o r i t h m t o t h e e s t i m a t i o n o f i t e m p a r a m e t e r s b a s e d o n t h e t h r e e p a r a m e t e r s l o g i s t i c m o d e l f o r s e v e r a l f i t - f u n c t i o n s t h e c r e a t i v e p o i n t s o f t h i s p a p e r a r e : 1 . w e s y n t h e s i z e s e v e r a l i m p r o v e d m e t h o d s o f e x i s t in g g e n e t i c a l g o r i t h m , p r e s e n t a n e w p a r a m e t e r e s t i m a t i n g m e t h o d t h e i m p r o v e d r e a l c o d e d g e n e t i c a l g o r i t h m , t h e n a p p l y i t t o 3 p l m p a r a m e t e r e s t i m a t i n g o f i r t , a n d r e cei v e f a v o r a b l e r e s u l t . 2 . a p p l y t h i s p a r a m e t e r e s t i m a t i n g m e t h o d t o 3 p l m,w h i c h w a s u s e d i n t w o p a r a m e t e r s e s t i m a t i n g a n d r e q u i r e d k n o w n a b i l i t y c h i - s q u a r e t e s t i n t h e p a s t . a n d t h i s n e w m e t h o d b r o a d e n s a d a p t i v e s c o p e . ( n o t r e q u i r e k n o w n a b i li t y ) 3 . r e w r i t e s e v e r a l t e s t s t a t i s t i c s , a n d a p p l y t h e m t o p a r a m e t e r e s t i m a t i n g f o r i r t 3 p l m. 4 . b a s e d o n t h e n e w p a r a m e t e r e s t i m a t i n g m e t h o d , w e p r e s e n t s e v e r a l f i t - f u n c t i o n s , a n d m a k e s i m u l a t in g e x p e r i m e n t s f o r t h e p e r f o r m a n ce c o n t r a s t . k e y w o r d s : i t e m r e s p o n s e t h e o ry o r d;p a r a m e t e r e s t i m a t i o n ; g e n e t i c a l g o r i t h m; mo n t e c a r l o s i mu l a t i o n ; 3 p l m. 本文所用的主要符号说明 h l 某个被试 ( 考生) 某个项目 参数向量 能力参数 方差阵 项目区分度 项目 难度 项目 猜测度 某个项目( 题目) 似然函数 对数似然函数 得分矩阵 设计阵 答对第i 个项目 的 概率 答错第i 个项目 的 概率 a b s 五ms d .f i t ( ! ) 表示第a 个被试在第i 个项目的反应 ( 答 对 u 4 一 1 ; 答 错 u ,y 一 0 ) 取绝对值 偏移均方根 个体交叉概率 个体变异概率 个 体i 的 适 应 度函 数 注:如果上述说明与正文不同,则以 正文说明为主。 x均甄场pc甄 i r t中3 p l m参数估计新方法- g a算法 第1 章 引 言 1 . 1项目反应理论简介 测量就是按照一定规则给研究对象在一定性质的数字系统( 尺度) 上指定值, 目的就在于正确认识和对待客体对象。 心理与教育测量是了解和评价个体发展水 平 的 重 要 手 段 , 测 量 的 实 践 必 须 要 有 理 论 的 指 导 。 心 理 与 教 育 测 量 理 妙 发 展 经 历了两个时期:2 0 世纪5 0 年代之前只有经典测验理论起作用,称为经典测验理 论阶段;5 0 年代至今, 除经典测验理论外, 还有项目 反应理论 ( i t e m r e s p o n s e t h e o r y , 简记为i r t ) 、 概括力理论等, 可称为多种理论并存阶段。 经典测验理论 的 模型始于斯庇尔曼 ( 1 9 0 4 年) , 而由 洛德 ( f . m . l o r d ) 和诺维克 ( m . r . n o v i c k ) ( 1 9 6 6 ,年 ) 给 出 了 最 终 的 公 理 化 形 式 。 经 典 测 验 理 论 对 心 理 与 教 育 测 量 理 论 和 实 践的贡献都是巨大的, 并且还将在测量实践中继续发挥它的作用。 但是由于它的 理论体系的先天不足, 经典测验理论存在着不少的局限性, 其主要表现在: x验 结果拓广的 有限性, 测量分数的 测验依赖性, 统计量的 样本依赖性, 信度估计的 不精确性,能力量表与难度量表的不一致性。目 前, 经典测验理论的这些局限性 虽然有个别的得到了一些改善, 但是大多数局限性在经典测验理论自 身的框架内 还是无法克服。 项目 反应理论就是在批评了经典测验理论的局限性的基础上发展起来的一 种现代测验理论+ , 。 项目 反应理论的 发展首先建立在潜在特质理论的 基础之上。 其主要内容就是揭示被试在测验项目 上的反应行为 ( 作答) 与测验所测的被试潜 在特质 ( 即制约人的行为的心理品质) 之间的关系, 这种关系的函数描述称为项 目 特征曲线 ( i t e m c h a r a c t e r i s t i c c u r v e ,简记为 i c c ) . 项目 特征曲线的解析 式,即这种关系的函数表达式, 则被称作为项目 反应理论各种模型的项目 特征函 数 ( i t e m c h a r a c t e r i s t i c f u n c t i o n , 简记为i c f ) ,若i c c 的形态确定后, 再配 上i c f ,则组成项目 反应理论模型 ( i t e m r e s p o n s e t h e o r y m o d e l 有时又简称项 目 反应模型) 。 项目反应理论的项目反应模型同经典测量理论相比, 除了能够拟合所确认的 项目 特征曲 线的 形态,还包括一些非常重要的特征ill 。 首先是这个模型可以 满足 假设: 被试在一个测验上的行为完全依据被试在潜在特质空间各特质分量上的地 位来解释和预测, 与其他任何因素无关; 因为如果被试的测验行为除了受到所定 义的潜在特质空间的各个特质分量的影响外还受到另外一种或数种潜在特质的 影响, 那么就可扩大特质空间的维度修正原有模型, 来使得这一条模型假设能够 i r t中3 p l m参数估计新方法- g a算法 第1 章 引 言 1 . 1项目反应理论简介 测量就是按照一定规则给研究对象在一定性质的数字系统( 尺度) 上指定值, 目的就在于正确认识和对待客体对象。 心理与教育测量是了解和评价个体发展水 平 的 重 要 手 段 , 测 量 的 实 践 必 须 要 有 理 论 的 指 导 。 心 理 与 教 育 测 量 理 妙 发 展 经 历了两个时期:2 0 世纪5 0 年代之前只有经典测验理论起作用,称为经典测验理 论阶段;5 0 年代至今, 除经典测验理论外, 还有项目 反应理论 ( i t e m r e s p o n s e t h e o r y , 简记为i r t ) 、 概括力理论等, 可称为多种理论并存阶段。 经典测验理论 的 模型始于斯庇尔曼 ( 1 9 0 4 年) , 而由 洛德 ( f . m . l o r d ) 和诺维克 ( m . r . n o v i c k ) ( 1 9 6 6 ,年 ) 给 出 了 最 终 的 公 理 化 形 式 。 经 典 测 验 理 论 对 心 理 与 教 育 测 量 理 论 和 实 践的贡献都是巨大的, 并且还将在测量实践中继续发挥它的作用。 但是由于它的 理论体系的先天不足, 经典测验理论存在着不少的局限性, 其主要表现在: x验 结果拓广的 有限性, 测量分数的 测验依赖性, 统计量的 样本依赖性, 信度估计的 不精确性,能力量表与难度量表的不一致性。目 前, 经典测验理论的这些局限性 虽然有个别的得到了一些改善, 但是大多数局限性在经典测验理论自 身的框架内 还是无法克服。 项目 反应理论就是在批评了经典测验理论的局限性的基础上发展起来的一 种现代测验理论+ , 。 项目 反应理论的 发展首先建立在潜在特质理论的 基础之上。 其主要内容就是揭示被试在测验项目 上的反应行为 ( 作答) 与测验所测的被试潜 在特质 ( 即制约人的行为的心理品质) 之间的关系, 这种关系的函数描述称为项 目 特征曲线 ( i t e m c h a r a c t e r i s t i c c u r v e ,简记为 i c c ) . 项目 特征曲线的解析 式,即这种关系的函数表达式, 则被称作为项目 反应理论各种模型的项目 特征函 数 ( i t e m c h a r a c t e r i s t i c f u n c t i o n , 简记为i c f ) ,若i c c 的形态确定后, 再配 上i c f ,则组成项目 反应理论模型 ( i t e m r e s p o n s e t h e o r y m o d e l 有时又简称项 目 反应模型) 。 项目反应理论的项目反应模型同经典测量理论相比, 除了能够拟合所确认的 项目 特征曲 线的 形态,还包括一些非常重要的特征ill 。 首先是这个模型可以 满足 假设: 被试在一个测验上的行为完全依据被试在潜在特质空间各特质分量上的地 位来解释和预测, 与其他任何因素无关; 因为如果被试的测验行为除了受到所定 义的潜在特质空间的各个特质分量的影响外还受到另外一种或数种潜在特质的 影响, 那么就可扩大特质空间的维度修正原有模型, 来使得这一条模型假设能够 i r t中3 p l m参数估计新方法- g a算法 成立。 其次, 一个适当的 项目 反应模型能揭示被试行为与相关心理特质之间的 真 实关系;也就是说, 项目 反应模型是心理测量潜在特质理论的具体化, 或者说模 型化和函数化, 是人的测验行为与潜在特质之间关系的真实的描述和模拟。 其三, 一个适当的项目 反应模型能够提供测验被试估计特质分数的方法。 该模型通过数 学解析式揭示了被试行为与特质分数之间的关系, 而且这种解析式是能够被参数 化和用数学方法处理。 其四, 被试的特质分数完全能由被试在一组测验项目 上的 行为来进行估计。 1 9 5 2 年, 美国学者l o r d 提出了双参数正态肩形曲线模型, 这是现代测量理 论中第一个项目 反应模型;1 9 5 7 年至 1 9 5 8 年,伯恩鲍姆提出了逻辑斯蒂克模型 ( l o g i s t i c m o d e l ) ,为后来的各类模型发展开通了方便之路;另外,还有 1 9 6 9 年日 本学者 s a m e j i m a提出的适合多等级评分资料的等级评分模型 ( g r a d e d r e s p o n s e m o d e l ) 等等。 1 . 2本文研究内容与创新点 项目 反应理论是一种现代教育与心理测量理论。 如上所述, 它有一些经典测 量理论 ( c t t )所不具有的优点。然而与 c t t相比,在使用上它却需要较多的准 备工作,比 如它分析一个项目 就比c t t 复杂。工 r t 之所以 难以 推广,除了 人们的 观念转变需要一定时间之外, 掌握i r t 比较困难也是一个重要原因。 参数估计是 应用工 r t 的前提,将这些参数估计出来是建设题库、评价被试、评价考试质量等 的需要。可以说,i r t的发展史也就是编制参数估计软件的发展史,这两者互相 交织。 i r t 中 项目 参数与能力参数的 计算较复杂, 没有计算机帮忙是难以 完成的, 编制相应的参数估计程序,特别是较高质量的参数估计程序也不容易。 由于未知参数是含在非线性方程 ( 组)中, 所以估计比较困难。目 前针对这 些未知 参数所提出 的 估计方 法川 通常 都离不开 迭代, 而迭代的 方法大 部分是牛 顿 一 拉 夫 逊 ( n - r ) 迭 代 或 费 歇 评 分 ( f i s h e r s c o r e ) 迭 代t , 但 是2 p l m ( t w o - p a r a m e t e r l o g i s t i c m o d e ) 与3 p l ” 有着更为本 质的区 别。 b a k e r 指出 + 1采用迭代法求3 p l m 项目 参数的最大似然估计值存在许多 缺陷: 其收敛速度不快; 要求初值特别靠近 真值; 估计中增长不能太大且增长方向 要对头; 以及迭代时发生的极大值“ 振荡气 所有这些近乎苛刻的要求暗示了用传统的迭代方法估计出来的猜测度值的精度 不可能太高,由此又影响到其它待估参数的准确性, 使得最后迭代出的所有参数 估计值都不 十分理 想。 近年来有人引 入了 神经网 络算 法5 . z e 和以 四 参数b e t a 作为 项目 参数的 先验分布参数估计法(e ) 。 但是 他们的 方 法受到 先 验分布等信息的 约束, 其项目 参数估计的实验结果也并不太好。 i r t中3 p l m参数估计新方法- g a算法 成立。 其次, 一个适当的 项目 反应模型能揭示被试行为与相关心理特质之间的 真 实关系;也就是说, 项目 反应模型是心理测量潜在特质理论的具体化, 或者说模 型化和函数化, 是人的测验行为与潜在特质之间关系的真实的描述和模拟。 其三, 一个适当的项目 反应模型能够提供测验被试估计特质分数的方法。 该模型通过数 学解析式揭示了被试行为与特质分数之间的关系, 而且这种解析式是能够被参数 化和用数学方法处理。 其四, 被试的特质分数完全能由被试在一组测验项目 上的 行为来进行估计。 1 9 5 2 年, 美国学者l o r d 提出了双参数正态肩形曲线模型, 这是现代测量理 论中第一个项目 反应模型;1 9 5 7 年至 1 9 5 8 年,伯恩鲍姆提出了逻辑斯蒂克模型 ( l o g i s t i c m o d e l ) ,为后来的各类模型发展开通了方便之路;另外,还有 1 9 6 9 年日 本学者 s a m e j i m a提出的适合多等级评分资料的等级评分模型 ( g r a d e d r e s p o n s e m o d e l ) 等等。 1 . 2本文研究内容与创新点 项目 反应理论是一种现代教育与心理测量理论。 如上所述, 它有一些经典测 量理论 ( c t t )所不具有的优点。然而与 c t t相比,在使用上它却需要较多的准 备工作,比 如它分析一个项目 就比c t t 复杂。工 r t 之所以 难以 推广,除了 人们的 观念转变需要一定时间之外, 掌握i r t 比较困难也是一个重要原因。 参数估计是 应用工 r t 的前提,将这些参数估计出来是建设题库、评价被试、评价考试质量等 的需要。可以说,i r t的发展史也就是编制参数估计软件的发展史,这两者互相 交织。 i r t 中 项目 参数与能力参数的 计算较复杂, 没有计算机帮忙是难以 完成的, 编制相应的参数估计程序,特别是较高质量的参数估计程序也不容易。 由于未知参数是含在非线性方程 ( 组)中, 所以估计比较困难。目 前针对这 些未知 参数所提出 的 估计方 法川 通常 都离不开 迭代, 而迭代的 方法大 部分是牛 顿 一 拉 夫 逊 ( n - r ) 迭 代 或 费 歇 评 分 ( f i s h e r s c o r e ) 迭 代t , 但 是2 p l m ( t w o - p a r a m e t e r l o g i s t i c m o d e ) 与3 p l ” 有着更为本 质的区 别。 b a k e r 指出 + 1采用迭代法求3 p l m 项目 参数的最大似然估计值存在许多 缺陷: 其收敛速度不快; 要求初值特别靠近 真值; 估计中增长不能太大且增长方向 要对头; 以及迭代时发生的极大值“ 振荡气 所有这些近乎苛刻的要求暗示了用传统的迭代方法估计出来的猜测度值的精度 不可能太高,由此又影响到其它待估参数的准确性, 使得最后迭代出的所有参数 估计值都不 十分理 想。 近年来有人引 入了 神经网 络算 法5 . z e 和以 四 参数b e t a 作为 项目 参数的 先验分布参数估计法(e ) 。 但是 他们的 方 法受到 先 验分布等信息的 约束, 其项目 参数估计的实验结果也并不太好。 i r t中3 p l m参数估计新方法- g a算法 针对3 p l m 中 对未知参数进行估计的困 难, 我们欲寻求一种突破传统的方法。 既不采用n - r 迭代也不采用费歇评分迭代求解未知参数在非线性方程组中的解, 而是采用一种比较稳健的并且对初值要求不太严格的算法。 我们采用软计算方法 之一-遗传算法求出3 p l m 中未知参数的极大似然估计。 遗传算法( g e n e t i c a l g o r i t h m 简称g a ) 是近几十年发展起来的基于生物自 然 选择和自 然遗 传理论的 随机化全局 优化算 法 t3 。 与 其它 优化方 法相比, g a 具有 其 它算法所没有的自 适应性、 全局优化性和隐含并行性, 在解决问 题时体现出很强 的鲁棒性 ( r o b u s t , 又称稳健性)18 .9 . 10 1 。 本文通过大量m o n t e c a r l o 模拟研究表 明, 将基于实 数编码的 遗传算法3 4 3 用于 工 r t 3 p l m 参数估计与 传统的 参数估计方 法相比具有明显的优越性。 本文的创新点主要体现在以下两个方面: 首先, 根据遗传算法的思想提出了新的项目 参数估计方法基于改进实码 遗传算法的三参数估计, 新方法几乎不需要未知参数的求导及先验分布参数的任 何信息; 其次,将在统计学中用于优度拟合检验的三个检验函数进行改写,并将 其分别作为适应度函数结合新方法进行 工 r t的3 p l m参数估计,我们通过大量的 实验模拟, 证实了新方法的估计结果与同 类软件的估计结果相当: 项目 难度和项 目 猜测度参数的估计精度明显地高于当前国际流行软件b i l o g :在题量和人数中 等( 6 0 题,1 0 0 0 人) 条件下,整个项目 参数的估计值要比b 工 l o g的参数估计精度 要高。 本文的章节安排如下: ( 1 ) 第2 章主要讨论了现有的参数估计方法,比如条件似然估计 ( c m l e ) , 联合似然估计 ( j m l e ) , 边际似然估计 ( m m l e )以 及通过e m 算法实现边际似然估 计 ( m m l e / e m ) ,贝叶斯估计,双重两步迭代估计算法, 适应 2 p l m参数估计的 s q r t / e m 算法和基于联结主义的连续记分i r t 模型的项目 参数和能力估计等; ( 2 ) 第3 章主要介绍基本遗传算法 ( s g a )的一些基本知识及s g a 算法的实 现步骤。 ( 3 )第 4 章主要介绍s g a 存在的问题以及我们通过现有的文献对 s g a 进行 改进的一些相应措施; 在此基础上形成了一种经过改进后的基于实数编码的遗传 算法。 ( 4 ) 第5 章主要介绍3 p l m 参数估计新方法的原理、相应参数估计算法; ( 5 ) 第 6章主要介绍我们提出的几个新的适应度函数,以 及利用经过改进 后的基于实数编码的 遗传算法在3 p l m 情况下的进行模拟实验的结果: ( 6 )第7 章提出待进一步研究的问题。 wr 中3 p l m参数估计新方法- g a算法 第2 章 现有参数估计方法的综述 项目 反应理论根据被试对项目 的反应 ( 作答) 来估计被试的潜特质 ( l a t e n t t r a i t ) 水平 ( 通常潜特质又称为能力) , 用含有未知参数的数学模型表示被试答 对项目 的可能性。 这些未知参数包含两类, 一类是刻画项目 的 计量学指标, 诸如 难度、区分度、 猜测度;另一类是被试的 潜特质( 能力) 。 一个优良的项目 反应模型能揭示被试行为与相关心理特质之间的真实关系, 目 前使用的模型常常用l o g i s t i c 反应模型来刻画被试的表现与潜在特质的关系, 本文将应用于实践中的主要参数估计方法作一个扼要的综述。 l o g i s t i c反应模型对考生和试卷进行评价的指标通常只关心能力参数( 0 ) 和项目 参 数( a ,b , c ) , 根据 模型中 所 适 合的 项目 参 数的 多 少, 适 用 于0 - 1 评 分 方式 的1 崛 i s t i 。 项 目 特 征 曲 线 ( 简 记 为: c c ) 分 为 单 参 数 、 双 巍 和 三 参 数 三 种 模 式 。 其中三参数模式为: p- p ( 8 ; a , b , c ) - c + 1一亡 ( 2 . 1 ) 1 + e x p - d a ( 9 一 b ) 式中d - i . 7 0 2 , 0 : 被试能力值,a , b , c : 分别表示项目 的区分度、 难度和 猜测度系数, p ( b ; a , b , c ) 表示能 力为。 的 被试答 对区 分 度为a , 难度为b , 猜测度 为c 的项目 的概率cq 。其曲线形态参见图2 - 1 . p ( b ) / 拐点 二_._1._ 一 .- . 一l一“ 一 二 爹 c b 图2 - 1 三参数逻辑斯蒂克项目 特征曲线图 当c 二 0 时,式 ( 2 . 1 ) 称为为双参数模式:当c - 0 且a - 1 时式 ( 2 . 1 ) 称为 单参数模式。通常0 , a , b , c 都是未知的,我们需要根据被试对项目的作答反应 对0 , a , b , c 进行估计。 i r t中3 p l m参数估计新方法- g a算法 前已 述及, 项目 反应理论是用数学模型将被试反应与其潜在特质( 一般称之 为能力) 联系在一起, 这个数学模型中 包含了一些数学公式以 及含在数学式子中 的一组参数,比 如项目 参数与能力参数。 将这组参数估计出来是建设题库、 评价 被试、 评价考试质量等的需要。 确定了项目 反应模型后, 参数估计依照问题的性 质,可以分成以下三种:第一是各项目 参数已知,要对被试的能力值进行估计; 第二是被试的能力值己知, 要对试题中的各项目 参数进行估计; 第三是被试的能 力值和各项目 参数都未知,要同时估计出 被试能力和项目 参数i ii 。也可以说, 第 三种情况是第一、二种情况的综合。 为了 使模型简单, 工 r t 作了 一些 基本假设u ,1给定 能力条件 下同 一 被试 对每 个项目的反应是相互独立的 ( 这便是所谓的局部独立性) ;不同被试的反应是相 互独立的。另外,为了不拘泥于细枝末节,除非另有申明, 我们下面均是针对三 参数l o g i s t i c 的0 一 1 评分模型进行讨论。 设 有n 个 被 试 参 加 长 度 为m 的 考 试 , 第a 个 被 试 的 能 力记 为 b a , l - a - n ; 第 j 个 试 题( 又 称 项目 ) 的 难 度 、 区 分 度 、 猜 测 度 分 别 记 为 。 j , 妈 , 。 , , 1 - j a m , b m , c m l u l l , . . . , u n . ) 式 中q i - 1 - p v 。 为 方 便 起 见 , 本 文 中 将 式( 2 . 简 记为 l ( 8 ; a , b , c ) , 则 式( 2 . 2 ) 可改 为: n m uy 。 1- u qi i i i p i z:, ( 2 . 2 ) a - 1 j - 1 2 )左边未知参数用向量表 l (9 ; a , b , c , 一 具 u p y “ 1 uy q w 根 据 似 然 函 数 估 计 原 理 , 我 们 希 望 找 到 ( a , b , c ) 和吞 使 得 工 ( 吞 ; , 6 , 匀 - a x l ( b ; a , b , c ) ( 2 . 3 ) 注 意 到l ( b ; a , b , c ) 与i n l ( 9 ; a , b , c ) 的 极 大 值点 相同, 故 欲使 式( 2 . 3 ) 成 立, wr 中3 p l m参数估计新方法一 o a算法 只要使下式成立 1 n l ( b ; a , b , c ) 一 m a x in l ( b ; a , b , c ) ( 2 . 4 ) 通过求式 ( 2 . 4 )的条件极值便可获得该参数的极大似然估计值。 2 . 1条件极大似然估计( c o n d i t i o n m a x i m u m l i k e l i h o o d e s t i m a t i o n c a 能曰 c a l e根据已知参数的不同分为: 所有项目 参数都已知时对能力参数进行 极大似然估计的条件估计; 所有能力参数都已 知时 对项目 参数进行极大似然估 计的条件估计。 既.5) 2 . 1 . 1 已 知 项目 参 郑 估 出 能 力 值 我 们需 要 估 计 每一 位 被 试的 能 力 值, 令式( 2 . 4 ) 对b q 的 一 阶导 等于0 , 8 1n la b 一 0 。 一 二 :. 上式关于能力参数表达式是非线性方程, 必须用迭代法求解, 一般通过牛顿 一拉夫逊( n - r ) 迭代或费 歇评分( f i s h e r s c o r e ) 迭代求 解u ) , 迭代的 终止条件为 阅 +1) _ 引 3 , 则 令6 - 3 , 如 果b q 一, 则 令b a 一 采用n -r 迭代方法必须保证迭代过程中分母不为0 ,遇到分母为0时,应 输出迭代失败的提示。 对于所有项目 全答对或全答错的被试 ( 称之为特殊反应模 式 ) , c a il e 不 能 正 确 估 计 其 能 力 , 因 为 此 时 只 有 0 + 0 0 时 , 似 然 函 数 才 能 达 到 最大。我们可在迭代开始前将这些特殊反应模式剔除。 wr 中3 p l m参数估计新方法一 o a算法 只要使下式成立 1 n l ( b ; a , b , c ) 一 m a x in l ( b ; a , b , c ) ( 2 . 4 ) 通过求式 ( 2 . 4 )的条件极值便可获得该参数的极大似然估计值。 2 . 1条件极大似然估计( c o n d i t i o n m a x i m u m l i k e l i h o o d e s t i m a t i o n c a 能曰 c a l e根据已知参数的不同分为: 所有项目 参数都已知时对能力参数进行 极大似然估计的条件估计; 所有能力参数都已 知时 对项目 参数进行极大似然估 计的条件估计。 既.5) 2 . 1 . 1 已 知 项目 参 郑 估 出 能 力 值 我 们需 要 估 计 每一 位 被 试的 能 力 值, 令式( 2 . 4 ) 对b q 的 一 阶导 等于0 , 8 1n la b 一 0 。 一 二 :. 上式关于能力参数表达式是非线性方程, 必须用迭代法求解, 一般通过牛顿 一拉夫逊( n - r ) 迭代或费 歇评分( f i s h e r s c o r e ) 迭代求 解u ) , 迭代的 终止条件为 阅 +1) _ 引 3 , 则 令6 - 3 , 如 果b q 一, 则 令b a 一 采用n -r 迭代方法必须保证迭代过程中分母不为0 ,遇到分母为0时,应 输出迭代失败的提示。 对于所有项目 全答对或全答错的被试 ( 称之为特殊反应模 式 ) , c a il e 不 能 正 确 估 计 其 能 力 , 因 为 此 时 只 有 0 + 0 0 时 , 似 然 函 数 才 能 达 到 最大。我们可在迭代开始前将这些特殊反应模式剔除。 i r t中3 p l m参致估计新方法一 g a算法 2 . 1 . 2已知能力值,估出项目 参数 对每个项目1 式 ( 2 . 4 ) 对a i , b i , 对 数 似 然 函 数 式( 2 . 4 ) 有 三 个 未 知 参 数。 i , 妈 , c j , 分 别 令 , c i 的 一 阶 导 等 于0 : 旦 竺 三. 0 8a; a ) 丝_ 0 a b i a 竺 三 _ 0 口 c l l 一 1 , 2 , . . . , m ( 2 . 6 ) fl九八 r.,1.jlesesl 同 样 需 迭 代 求 解 出 。 j , 妈 , c f 的 估 计 值 , 采 用 牛 顿 一 拉 夫 逊( n - r ) 迭 代 求 解 。 雅可比矩阵j由 d o l 的二阶导组成,即: 人几几 十 j- 1 ( 2 . 7 ) o t w sq ,6 t . 6 s1 i k 31 辉 式 ( 2 . 7 )的迭代是对向量进行,故迭代的终止条件要用范数来表示: a 犷 + , 一 a 犷 , b ,(t , 一 b (1) c 夕 + , 一 c 夕 , 石 (t+ 1)万 (t) 2丁 不 (t+ 1) - (!)(a j - a ) + (b 1 6 j 不飞 不1) - c (q ) 2, (2 . ” ) . 2 n比比比比口朋朋朋朋朋朋朋朋叮服“口 、恤卫.胜2 我 们在 求 解过 程中 , 通常 用一 e ( j ) 来 代替j( 称之 为 费 歇f i s h e r - s c o r e 迭 代 法 ) , 对 于 二 阶 导 中 的 未 知 参 数 “ a + 有 e (u 砂 凡。 起 初 , - e ( j ) 是 正 定 阵 , 但随 着迭代次 数的 增加, 有可能使相 应的 矩阵 ( 以 下仍记为e ( j ) ) 不可 逆或病 态,最终导致迭代式无意义或不收敛。要消除这种影响,通常在迭代过程中对 e ( j ) 进 行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论