(教育学原理专业论文)项目反应理论irt中运用em算法进行参数估计.pdf_第1页
(教育学原理专业论文)项目反应理论irt中运用em算法进行参数估计.pdf_第2页
(教育学原理专业论文)项目反应理论irt中运用em算法进行参数估计.pdf_第3页
(教育学原理专业论文)项目反应理论irt中运用em算法进行参数估计.pdf_第4页
(教育学原理专业论文)项目反应理论irt中运用em算法进行参数估计.pdf_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 本文介绍了在项旦垦鏖! 墼中,运用型垄望! 学行i 鲎笪j 缈一般原理及其 一般步骤。作为实践,用e m 算法自编了s a m e j i m a 等级反应模型的项目参数估计 程序,运用蒙特卡洛方法对程序估计精度进行检验,估计精度与国外已有的程序 b i l o g 、m u l t i l o g 相当。 a b s t r a c i t h i s p a p e r i n t r o d u c e st h e b a s i c p r i n c i p l e s a n d p r o c e d u r e s o f p a r a m e t e re s t i m a t i n gb yu s i n ge ma l g o r i t h m w i t h i nit e mr e s p o n s et h e o r y a p p l y i n ge ma l g o r i t h m ,i td e s i g n i t e mp a r a m e t e ra n de s t i m a t ep r o g r a mo f s a m e j i m ag r a d e dr e s p o n s em o d e l :u s i n gm o t ec a r l o ,i t c h e c k so np r o g r a m e s t i m a t ea c c u r a c y ,w h i c hi sa p p r o x i m a t et ob i l o ga n dm u l t i l o ga l r e a d y e s t i m a t i n ga b r o a d 江西师范大学硕士学位论文 项目反应理论( i i ) 中运用e m 算法进行参数估计 引言 2 0 世纪五十年代创立起来的项目反应理论( i r t ) ,给测验带来了许多优良的性质与强劲活 力。利用这些优良性质,可以建设起大型优质题库,并可以按测验精度目标编制各种计算机 化自适应测验。但是获得这些优良性质必须解决i r t 中的一个基础问题,即参数估计问题。 国外对于参数估计有着深入的研究,提出了不少估计方法,许多参数估计方法都编制出 了与之相应的计算机程序。如运用联合极大似然法进行参数估计的l o g i s t 软件,运用e m 算法和牛顿一拉夫森迭代法进行参数估计的b i l o g 软件,运用极大似然法和贝叶斯方法的 m i c r o c a t 软件等。还有一些运用e m 算法编制的适用多级计分模型的软件,如 p a r s c a l e m u l t i l o g 等。 国内虽然对于参数估计的方法和参数估计程序的研究起步较晚,但也取得了一定成绩。 早在2 0 世纪八十年代初期江西师大的教师对联合极大似然估计法进行了研究,用联合极大似 然估计法编制出了三参数( 3 p l ) 的参数估计程序,八十年代末期华东师大的许祖慰也用联 合极大似然估计法编制出单参数( 1 p l ) 等的参数估计程序( 参见文献 1 0 1 ) ,八十年代末九十 年代初江西师大的教师又对等级反应模型和分部评分模型的参数估计方法进行了研究,并用 极大似然估计法编制了相应程序。对于e m 算法的研究和运用e m 算法编制参数估计程序的 研究工作却一直未能很好展开。e m 算法作为统计学中的一种算法,2 0 世纪八十年代初期王 松桂e m 算法一文对e m 算法作了一个介绍,但是并没有人把e m 算法运用到i r t 参数 估计当中。后来江西师大漆书青老师等在其编著现代教育与心理测量原理的一书中,对 e m 算法如何运用到“0 ,1 ”计分模型的参数估计中作了介绍,但是并没有探讨如何运用到 i r t 等级反应模型参数估计当中去,更未实际编程。 本文正是要在这一基础之上,对e m 算法如何运用到i r t 参数估计当中进行探讨,并编 制出运用e m 算法估计s a m e j i m a 等级反应模型参数的计算机程序,并对估计出参数的精度进 行了检验。本文结构共分四部分,第一部分文献综述,第二部分讨论如何运用e m 算法进行 参数估计,第三部分讨论如何运用e m 算法实现对s a m e j i m a 等级反应模型参数估计,第四部 分对e m 算法进行参数估计中所出现的问题进行讨论。 江西师范大学硕士学位论文 一文献综述 在i r t 中,所谓参数估计是指根据被试的作答反应矩阵,也就是所有的被试对所有的题 目( 或项目) 的作答反应情况,估计出被试的能力参数和每个题目( 或项目) 的项目参数。 由于项目参数估计的过程是应用i r t 中最困难、最重要的过程,因此研究项目反应理论的学 者一直不断寻求好的参数估计方法,从i r t 创立之初,洛德( 1 9 5 2 ) 就提出了双参数正态肩 形曲线模型( t w o p a r a m e t e r n o m a l o g i v e m o d e l ) 并导出了模型参数估计的方法和应用x 一分 布检验数据拟合性的方法,从那以后,研究项目反应理论的学者又提出不少参数估计方法, 但常用的参数估计方法有极大似然估计法和贝叶斯估计法。 在i r t 中,极大似然估计法是根据被试的作答反应矩阵,在局部独立性的条件下,导出 参数估计的似然函数,然后通过求取似然函数的极大值,估计项目参数和被试能力参数。由 于估计时需要估计出两方面的参数一项目参数和能力参数,1 9 6 8 年伯恩鲍姆提出分两步进行 参数估计,第一步假设项目参数已知,只对能力参数进行估计,第二步将估计出来的能力值 假设为真实值,只对项目参数进行估计,将这一过程反复循环进行,直至参数估计值达到稳 定为止。极大似然估计具有许多优点,成为一种应用最为广泛的参数估计方法,但它也有两 条明显的缺点:( 1 ) 没有利用关于被试能力的先验的知识:( 2 ) 对于满分和零分的被试无法 进行参数估计。 为了克服这两个缺点,贝叶斯估计方法应运而生。贝叶斯估计方法是指利用贝叶斯原理, 确定项目参数和被试能力参数的先验分布,建立联合极大似然函数,然后通过求取联合极大 似然函数的极大值,估计出项目参数和被试能力参数。贝叶斯估计的关键是指定各参数的先 验概率分布,这一点对于能力参数似乎还是可能的,因为如果对一个测验使用的时间长了, 那么对被试相应能力的先验概率分布还是可能作出较为客观的估计,但是对项目参数先验概 率分布的估计则纯粹是主观的。各参数的先验概率分布确定之后,贝叶斯估计和极大似然估 计的方法大致是差不多的。贝叶斯估计方法运用于两级计分模型,似乎还有可能,但是对于 多级计分模型,由于每题有多个难度值,而且这多个难度值有可能是逐渐增大,也可能是没 有变化规律,因此项目参数的先验分布难于确定。贝叶斯估计方法运用到i r t 模型参数当中, 仍有许多理论上的和技术上的问题未解决,而且关于估计方法的稳定性还缺乏证据( 参见文 献【8 】) 。 安德森( 1 9 7 2 ,1 9 7 3 ) 的研究表明,对于2 p l m 和3 p l m 极大似然估计法所得到的估计 江西师范大学硕士学位论文 值并不具有一致性。当被试数目增加时,估计值的偏差并不随被试人数增加而趋于零。安德 森提出,解决该问题的方法是采用条件极大似然法。运用该方法的前提是得到能力参数的充 分统计量。因为拉希模型的实得分数是被试能力参数的充分统计量,所以,对于拉希模型可 以采用条件极大似然法进行参数估计。但是对于两级计分的双参数模型和三参数模型和多级 计分模型都不能运用这一种方法,而且目前的算法只对4 0 个项目以下适用,当项目数超过 6 0 个时,参数估计过程将非常缓慢,当项目数超过8 0 个时,条件极大似然估计方法失效( 参 见文献 1 l 】,p 7 6 ) 。 为了解决条件极大似然估计存在的问题,博克和利伯曼( 1 9 7 0 ) 等人提出了边际极大似 然法,其基本思想是首先建立边际似然函数,然后极大化边际似然函数,估计出项目参数和 被试的能力参数。项目参数的边际极大似然估计具有一致性和渐近性,如果把项目的边际极 大似然估计和能力参数的贝叶斯估计结合使用,那么i r t 模型参数的估计精度可有较大的提 高。西森( t h i s s e n ) 的研究表明:对拉什模型来说,条件极大似然估计的效果基本上和边际 极大似然估计相近。但边际极大似然估计的一个最大缺点是运算量太大,需要进行大量的积 分运算,因而只要项目数( 或题目数) 稍大一点,这个方法就无法使用。( 参见文献【7 ,p 1 8 0 ) 由于边际极大似然估计具有这一缺点,1 9 8 1 年博克和艾特金( a i t k i n ) 对博克和利伯曼 ( 1 9 7 0 ) 的方法加以改进,即假定了被试独立和各个项目独立,项目与被试独立,并且对边 际似然方程中的能力对被试的作答反应的条件分布,亦即后验分布用“人工数据( a r t i f i c i a l d a t a ) ”进行改写,又用e m 算法建立了人工数据和项目参数估计值之间的依赖关系。这种方 法被称作运用e m 算法的边际极大似然估计法。e m 算法就被第一次引进到i r t 的参数估计 当中,由于e m 算法使用简单、适用范围广,在1 9 9 5 年,林顿( l i n d e n ) 和汉布尔顿所编著 的现代项目反应理论手册( h a n d b o o ko f m o d e mi t e mr e s p o n s et h e o r y ) 书中,该书所介 绍的i r t 模型所使用参数估计方法,都是使用e m 算法进行参数估计,特别是对于多级计分 模型和多维模型的参数估计方法更都是使用e m 算法进行参数估计。这说明e m 算法已成为 i r t 中一种通行的参数估计方法。但是国内i r t 的研究者对于运用e m 算法进行参数估计的 研究较少,只有江西师大的漆书青等老师在所编著的现代教育与心理测量学原理一书中 对e m 算法运用到i r t 的参数估计当中有所介绍,但是并没有对e m 算法运用i r t 的参数估 计当中进行深入和细致介绍,特别是如何运用e m 算法编制参数估计计算机程序更是没有介 绍。 二运用e m 算法进行参数估计 e m 算法从2 0 世纪八十年代初期引入到i r t 领域,已成为i r t 估计参数的一种最常用的 江西师范大学硕士学位论文 方法。国外较为流行的商业化的参数估计程序大部分采用的e m 算法进行参数估计,如 b i l o g 、p a r s c a l e 、m u l t i l o g 等。 ( 一) e m 算法的简介 e m 算法是由d e m p s t e r 、l a i r d 和r u b i n ( 参见文献 4 】) 于1 9 7 7 年提出的从不完全数据求 参数极大似然估计的一种方法。这个算法的主要特征是每一个迭代都是由两步组成:第一步 是求期望值( e x p e c t a t i o ns t e p ,以下简称e 步) :第二步是求极大化( m a x i m i z a t i o ns t e p ,简称m 步) 。正是由于这个原因,此算法就被称为e m 算法( e m a l g o r i t h m ) 。 e m 算法中的不完全数据有着较广泛的含义。一方面,常见的丢失若干观测值的数据是典 型的不完全数据。另一方面,许多统计问题中,尽管数据并未丢失,但潜在决定数据的概率 模型中有不可观察的参数,一般被称为多余参数( n u i s a n c e p a r a m e t e r ) ,可形式地把我们已有 的观测值视为不完全数据。这种提法使得e m 算法能够处理相当一批参数估计问题。在测验 情况下,能观察到的是反应数据组成的分数矩阵( u ) ,而被试能力参数( 0 ) 是潜在的不可 观察的变量,于是观察分数与被试能力构成的联合分布数据f ( u ,护) ,在实际工作中就成了不 完全数据了。在测验实施后的统计分析中,我们就要从这种不完全数据出发来估出被试能力 参数和测验项目性能参数。正是由于e m 算法能够解决的问题具有普遍性,加之算法简单, 于是,近年来它受到统计界的重视。 ( 二) i r t 中运用e m 算法估计参数 e m 算法最早由博克( b o c k ,r d ) 和艾特金( a i t k i n ) ( 参见文献【2 】) 引进到i r t 的在参 数估计领域中,是为了解决边际极大似然估计所需要的大量的积分运算,以后又有不少研 究项目反应理论的学者把e m 算法运用到i r t 其他模型的参数估计当中。下面我们对e m 算法在i r t 中的运用做一个较为详细的阐述。 1 几个术语 观察数据 我们把被试f 对项目,的作答反应记为y 。,又记向量 y ,= ( y ”:,y ,。) ,称作观察数据,其中i = 1 , 2 ,n ,j = 1 , 2 ,m 。对于两级计分 模型,y 。表示如果被试f 答对项目,则记为1 ,如果被试f 答错项目,则记为0 。对于 多级计分模型,y ,表示被试f 在项目,上所得的分数,y 。= 0 ,l ,2 ,k ,其中k 为第j 题 的满分值。 缺失数据 我们把每个被试的潜在的不可观察到能力值称做缺失数据,记作 江西师范大学硕1 :学位论文 0 = ( 只,0 :,只,o n ) ,其中只是被试f 的潜在能力值。 完全数据完全数据对每一个被试来说就是观察数据加缺失数据,记作 【( y 口) ,( _ y 2 ,0 2 ) ,一,( y ,0 ) 。 2 运用e m 算法估计参数 前已说e m 算法包含了两步:e 步,即在给定缺失数据的分布、观察数据和参数初值 时,求取完全数据的对数似然函数的条件期望。m 步,即使用e 步计算出的完全数据充分 统计量的条件期望值,极大化完全数据的对数似然函数的条件期望,然后e 步和m 步进行 循环迭代,直到参数估计收敛。e m 算法与直接极大化观察数据似然函数相比较,更为简 单。 e m 算法估计的参数包括两方面的参数:项目参数,记为;能力参数,记为石。下面 具体说明e m 算法估计参数的过程。 在i r t 当中,我们通常认为能力参数0 的是连续随机变量,故可取任意值。在e m 算 法估计参数的过程中,我们视能力参数0 为离散分布( 参见文献 1 、 3 】) 。能力0 只能取 q ,q2 ,q t ,q ,k 个值中的一个,且j p ( 臼= q t ) = 以,k = 1 , 2 ,k 。 1 ) 完全数据的似然函数 e m 算法使用完全数据的对数似然函数,来达到极大化观察数据的似然函数的目的。首 先我们就要求到完全数据的似然函数。 假设有n 名被试参加项目长度为m 的考试,n 名被试对m 个项目,形成n m 的矩 阵y ,y = ( ,y 2 ,”,y u ) 。,其中”是一向量,y 。= ( y h ,y :一,y 。) 。n 个被试按能力 分成k 组,即能力0 只能取k 个值q ,q 2 ,q ,q 。,k = 1 , 2 ,k 。且能力0 为q 。的概率为 石k ,记石= ( 万l ,石2 ,且以= 1 。 我们假设某一被试的能力值为q 。,其作答反应向量为y ,的条件概率记为f ( y 。l ,q 。) ,则 f ( y ,i ,g 。) = 兀p ( q 。1 j 9 【l p ( q 。,l 占棚1 。“ 其中:p ( q 。阿) 为被试正确答对某一项目的概率,万,为项目j 的参数。 ( 2 1 ) 由于对于某一被试的能力值为q 。,其作答反应向量为y ,有如下关系成立: f ( y 。,g il ,石) = f ( y ,l ,q 。) 石。( 2 2 ) 江西师范大学硕士学位论文 我们根据( 2 1 ) 式和( 2 2 ) 式,则可以导出完全数据的似然函数: nmy ” l ( r ,目1 ,z ) = 丌兀p ( e ,h ) 【1 一p ( a ,h ) r “f ( o ,1 口) i = i ny 一 = 兀兀p ( p p ,) 1 一p ( o ,l a 川1 。“f ( 0 ,i z ) ( 2 - 3 ) ,= l ,= i 其中 a 为所有项目参数向量,记作a = 5 1 ,占:,a m :p ( o , 1 8 ,) 为能力水平为只的答对 第,题的概率:如果臼,= q 。,则f ( 0 ,k ) = 吼 由于n 个被试已经按能力分成k 组,则记表示具有能力水平为q 。的人数:表示具 有能力水平为q 。答对项目的人数,且如果只= q 。,则厂( 只k ) = 巩,则( 2 3 ) 式可变形为 ( 2 4 ) 完全数据似然函数还可以通过其他的方法导出,可参见文献 1 】、 7 】。由于在给出的参数 和石的条件下,完全数据( ”,p ) 的充分统计量是( _ ,屹,k ,啊,z :, 。) ( 参见文献 1 , p 3 ) ,因此( 2 4 ) 式可以改写为: k 地 ,k , r i , 2 , , f k i 咖) 2 珥珥粥阶 1 - p ( o , 8 s ) r 石k “ ( 2 5 ) 对( 2 5 ) 式求取它的自然对数: 1 n ( 月,门i a , z c ) = j = l k = l 。1 n p ( 吼j ) 】+ ( 一以) 1 n 【l p ( q t 阿) 】+ 仇l n 防t 】) ( 2 6 ) 其中:r = ( 1 ,屹,r k ) ,”= ( n l ,胛2 ,) 。 2 ) e 步和m 步 e 步 e 步是计算完全数据的充分统计量( 即r 和n ) 的条件期望值。第s 次迭代的充分统计量的 期望值用哺1 和月来表示,啦和”也称作“人工数据”,其中_ ,= l ,2 ,聊;女:1 ,2 ,k 。 在确定了作答反应向量y ,和参数“和7 ”,被试能力值为q 。的条件概率为: 6 月i 厅 0 日 占 g( p p ) 占 g p 。n 。n 一 = ) 厅口r ( l 江西师范大学硕卜学位论文 m 。y , , a c o , r c ( o ) :善巫坐盟 。f ( y 帆,“) ) z z 兀j d ( g 。f 万,“) “ 1 一p ( q 。眇) r 凡 27 。( ) = 1 匕- _ 一 z 。“i - i p ( q 。p ,”) “i 1 一p ( q 。l j j 5 ) “一“ 女= l,= l n 的值是仇的条件期望值,这个期望值等于所有被试的能力值为q 。的条件概率的之和, 根据( 2 7 ) 式,可以将”表示为: = e ( n ky ,石) = ,( q 。k ,石1 ) :羔k 坐盟 眨。) j ”7 z s ( y ,i q 。“) t r 。5 。石( i p ( q 。l ”) 儿 1 _ p ( q 。妙) r h = 乏:1 之- 一 9 。研“e ( q 。i t ”) 儿 1 - p ( q 。眇) r 帕 咄的值是。的条件期望值,这个期望值等于所有被试的能力值为q 。的答对某一项目, 的条件概率的之和,根据( 2 6 ) 式,可以将喀表示为 堙= e ( o l ,口) = y q f ( q 女l y ,“,口5 ) l,= i 一亡y o f ( y ,i q t ,) z 9 1 f ( y 。i q ,a “) “ p ( q i 融) p ( q 。”) ( 1 _ h ( 2 9 ) m 步 第s 次迭代的m 步是把e 步中所得到的完全数据的充分统计量代入( 2 6 ) 式,通过极大 化( 2 6 ) 式,就可以求得和石的值。我们把第s 次的迭代所得到和石的值,用【s 和巧( 一来 表示。这= t l :h “u 汁出参数值被用来作第j + 1 次迭代的e 步值。 把r 譬和”代入( 2 6 ) 式,则第j 次的迭代的e 步可以改写为: 一 一卜 p y 一p 吼一 舭而 硝 。 兰堕塑翌查兰堡= ! :! 兰些堡兰 l n l ( r “,”5 i ,厅) _ 【f ( ) + ,( ,) 】 其中 ( 2 1 0 ) ,( t ) :k 1 n p ( g 。i ) + ( ”p 一) l n 1 一尸( 吼 ) ( 2 1 1 ) 0 r ) = l n 以 ( 2 1 2 ) 要求取参数和万,只要对( 2 1 0 ) 式求参数和7 的偏导,并分别令其等于0 。由于对 完全数据的对数似然函数求取项目,的参数,的偏导,仅取决于f ( d 。) ,而对完全数据的对数 似然函数求取参数万。的偏导,仅取决于,) ,因此极大似然估计每一个项目的参数与极大 似然估计能力参数丌可以分别进行。 完全数据的对数似然函数中l ( x ) 是含有能力参数的多项分布的对数似然形式,通过极大 似然估计多项分布的能力参数巩,可得巩= 乡磊。n n n m 步n s 次的迭代中的万圳t g , - i 以计算出来: 硝州= 等 3 ) m 步第s 次的迭代中项目参数“”,可以通过求解方程组: 下8 l ( 6 0 ) :o ( 2 1 4 ) a 6 。 、 1 其中f = l ,2 ,l ,因此项目,有1 个参数。把( 2 9 ) 式代入( 2 1 2 ) 可得 ( 2 1 5 ) 其中f = 1 ,2 ,l 。求解( 2 1 5 ) 式方程组,就可以求解出西”。( 2 1 5 ) 式方程组可以 通过牛顿一拉夫逊迭代( n r ) 方法求解。 不同i r t 模型,对于( 2 1 5 ) 式仅仅是对项目参数求导出的表达式有所不同,例如对于 三参数逻辑斯蒂克模型( 3 p l ) ,此时t 2 3 ,点,万6 ,可分别记为口,b ,c ,将p ( 吼 气) 简 记圪,n ( 2 1 5 ) 式可分别表示为: 争笠二鲨:垒丝止:o 智( 1 一巳) 巳o a , r 警 f 啪黜 塑啪。赢 江西师范大学硕士学位论文 争丛二鲨! 鱼型:o 智( 1 一气) o b , 争笠二型鱼型:o 智( 1 一吃) 吃3 c , 其中堡o a j ,翌o b j ,警删为 ( 2 1 6 ) 翌:! :! 亟二堡丛刍二丛! 二型 l c 羹:二! :竺丛二盘二型 _ 1 7 o b ,1 一。 8 p q1 一p q o c ,1 一c 。 3 、运用e m 算法估计参数的一般步骤 把e m 算法运用到i r t 模型的参数估计当中,对于不同i r t 模型,最大的不同在于m 步 的第二步一求取项目参数。对于不同的i r t 模型,导致求解项目的参数难度不一,因此运用 e m 算法到i r t 的参数估计当中,一般步骤如下: 1 ) e 步 首先确定q 。和以; 用前一次迭代参数“5 和石5 ( 在迭代的开始,用参数和疗的初值) ,代入( 2 8 ) 式和( 2 9 ) 式,求出n :。和,譬1 。 2 ) m 步 m 步包括二个步骤,需要分别求取参数项目参数和能力参数石。 计算石“1 值,k = 1 ,2 ,k ,使用( 2 1 3 ) 删ee 步求出的h 。 计算彰”1 的值,= 1 ,2 ,m ,通过用e 步中求出的n f 和r ,代入( 2 1 5 ) 式, 可以求得。 3 ) 如果所得的似然函数值与上一轮的似然函数值没有变化( 即它们的差的绝对值小于 某一预先指定的精度) ,则迭代收敛且m 步中所得到的项目参数估计值即为所求;否 则,重复1 ) 、2 ) 步( 即重复e 步与m 步) 。 江西师范大学硕士学位论文 三运用e m 算法编制参数估计程序 ( 一) 模型的选择 在i r t 中,有许多的模型。考虑到我国教育测验当中,大量存在的是两级计分与多级计 分混合的数据,而且多级计分等级数都特别大,例如,作文题的等级数高达6 0 。不但在教育 测验当中这样的数据广泛存在,而且心理测验中等级计分的数据也大量的存在,如某些能力 测验,按被试回答的正确程度分别记为0 分、1 分和2 分。在学生的品德评定中,采用的优、 良、中、差,也是属于等级类型的记分。因此对于这样的数据就要选用等级反应模型。常用 的等级反应模型是s a m e j i m a 等级反应模型,它是假设对于每一个反应类别都有一条操作特征 曲线,如果对于项目j 的反应划分成三,+ 1 个类别,其分数分别记为,= o ,l ,2 ,l ,那么, 等级反应类别的操作特征就定义为: & = 毛 一& + t ( 3 1 ) 其中p 一( 是能力水平为0 的被试得到分数j ,及其以上分数的概率,其数学形式为两级计分 的l o g i s t i c 模型或正态曲线模型,还定义了p ,。( 口) = 1 ,p 。,+ ( 口) = o ,常用的是双参数 l o g i s t i c 模型。由于s a m e j i m a 等级反应模型是对两级计分模型的一种拓广,可以把两级计 分的数据作为等级计分数据的特例来处理,因此它既可以处理两级计分的数据,又可以处理 等级计分数据,具有较宽广的适应性。由于它对于被试反应的划分不仅仅限于两个类别,因 此它比两级计分模型能提供更多的信息,从而降低了测量的误差。 ( 二) 运用e m 算法编制s a m e j i m a 等级反应模型参数估计程序 i 、原始分数矩阵 设n 个被试参加了一场由m 个项目组成的测验,每个项目的等级数依次为 厶,三:,。测试后n 个被试在各个项目上所评等级数矩阵为d : d = d l l d 1 2 d 2 ld 2 2 d l 。 d 2 。 d n ld q :dn 。 = ( d 。) 。 其中f = 1 , 2 ,;j = 1 , 2 ,m 。 依据等级数矩阵d ,我们建立函数 ( 3 2 ) 江西师范大学硕士学位论文 1 2 :1 d v 5 7 ,扛1 ,2 ,;2 1 ,2 , ( 3 3 ) 9 1 2 1 0d f ) f :o l ,2 , “ “。,是一个由项目、被试、等级三个足标控制的( 1 ,o ) 式的函数。“口,= l 表示第f 个被 试在项目,上恰得,等级分,“。= 0 表示第f 个被试在项目,上未评得,等级分。对于每一组 固定的i 和,从0 到上,时,。有且有仅有一次取值为1 ,余皆为0 。为便于表示,记u 为所有“。组成的三维数据集。等级反应模型中运算特征曲线0 ,( 口) 所表示的,是能力为口的 被试在项目上恰得,等的概率。那么第i 个被试在项目,上被评得等级的概率可由下式表示 兀“( 口) ( 3 4 ) 2 、项目参数初值的确定 运用e m 算法进行参数估计,同样首先要确定项目参数的初值,由于我们选用的是双参数 s a m e j i 【i a 等级反应模型,因此首先要确定项目区分度和项目各个等级上的难度的初值。 ( 1 ) 项目区分度初值的确定 由于每一个项目只有一个区分度,是用来反映项目与项目之间区分的程度。因此通 过求取项目与总分的相关系数,作为项目的区分度初值。 ( 2 ) 项目难度初值的确定 由于每一个项目有多个等级,因此首先对原始数据进行整理,求出每等级上的人数, 如果某一等级上的人数过少。要与前一等级进行合并,例如,设有i 0 0 0 名被试,如果某 一等级上的人数少于5 人,可以把这一等级与前一等级进行合并。然后求出每一项目每 一个等级上的通过率,把这个通过率转化为标准正态分数,就可以得到每一个等级上项 目难度参数初值。 3 、结点和结点系数的确定 由于e m 算法是采用固定能力的办法,因此首先要确定结点和结点系数。通常确定结点和 结点系数的办法是,假设被试的能力的分布是正态分布,然后确定结点的个数,采用b i l o g 推荐的办法,如果项目数为m ,则结点数取为与2 脚相近的自然数,对于结点系数采用近似直 方图的方法,确定结点系数。 4 、用e m 算法估计项目参数 ( 1 )e 步求取完全数据的条件期望值。 江西师范大学硕士学位论文 。厅,n 向地。1 ”【1 - 地。矽) 】( 一 带l 一- k 和j n f f i ! i 赢5 1 石孓忑而8 1 和扣n n p ( q f 阿”) 呦【1 一p ( q r 阿订) 】o ”“ ”p = 石n | p ( 卧 6 ,) 【1 一p ( 卧眇,) 】l l 飞r 1 = 1 i = 1 尸【引) 广“ ( 3 5 ) ( 3 6 ) ( 2 )m 步极大化完全数据的对数函数的似然函数 争卫竺蚓型:o( 3 7 ) 怠e ( 钆院)a 毛 其中f = 1 , 2 ,r ,f 1 , 2 ,l ,。求解( 3 7 ) 式方程组,就可以求解出赌“。( 3 7 ) 式方程 组可以通过牛顿一拉夫逊迭代( n ,r ) 方法求解。具体的数学式子,参见附录。 5 、程序流程图 数据准备l 1 求取项目参数初值 求取结点和结点系数 求取第一次的似然函数值 e 步:求取人工数据 毗 :求解似然方程组 求第二次的似然函数值 输出项目参数 i9 程序流程图的简要说明:第一数据的准备,表示进行项目参数估计时需要两方面的数据, 一是每个被试得分的原始数据文件,二是每题的总分文件,还耍指定迭代的精度s 和迭代的 1 2 广 占 g以 。兀m 。n 川 巩 。n 2 3 4 5 6 7 8 江西帅范大学硕士学位论文 最大次数;第二是求取项目参数的初值,这一步骤根据每题每一等级的通过率和题分对总分 的相关系数,导出项目参数的b 和a 初值。第三是求取结点和结点系数,假定被试的能力分 布为正态分布,先确定结点的个数,再采用近似直方图方法,确定结点的系数。第四求取第 一次似然函数值,前一次循环即按项目参数估出值( 第一次循环时按初值与实测所得的分数 矩阵求取) 。第五e 步,根据式( 3 5 ) 和式( 3 6 ) ,求取r 2 和h ”。第六m 步,求解似然方 程组,根据我们附录所列的式子,运牛顿一拉夫逊迭代法进行求解。第八求取前后二次似然函 数的值改变量,判断前后二次的似然函数值改变量是否小于预先指定的精度值占。如果不小 于s ,则返回到第四步,直到迭代收敛。第九是输出项目参数值。 6 、程序检验 为了对我们所编的程序的估计的参数精度进行检验,我们作了以下几方面的工作。( 以下 把我们的自编程序简称为g m p l ) ( 1 ) 与b i l o g 相比较 b i l o g 是处理两级计分题( 选择题) 数据的程序,由于我们的程序可以把两级计分题的 数据作为等级计分题数据的特例来处理,因此可以采用蒙特洛方法生成一批数据,用两程序 分别对之估出项目参数,再考察这两批估出值跟事先指定的真值的差,来检验参数的估计精 度,以确定我们的程序是否跟b i l o g 程序估出参数精度相仿,具体检验过程如下: 首先指定a 和b 参数的分布,a 参数是平均数为0 7 5 ,标准差为o 1 的正态分布,b 参数 为标准正态分布:然后确定项目参数,模拟生成了两组数据,一组有2 5 个项目,另一组有5 个项目。最后在假定被试为正态分布的条件下,对2 5 个项目构成的测验和5 个项目构成的测 验,各生成1 0 0 0 名被试的2 0 个作答反应矩阵,再把这两种测验的各2 0 批被试作答反应矩阵 分别放入到g m p i 程序和b i l o g 进行估计,估计结果见表3 1 : 表3 - 1g m p i 与b i l o g 蒙特卡洛检验结果比较 ;】巨 旦值 g m p ib i l o g g m p ib 1 l 石万 注:s b = _ :毫h 一寺喜l 】2 ,即估出参数对真值的平均偏差程度,取值越小越好。 彳m s e = 丽1 喜砉i x , - 量,9 估出参数取值的平均变异幅度,取值越越小越好。 其中x ,为真值,i ,为估计值。 从表3 - 1 中可看出,当题数较多时,g m p i 估出的参数a 值和b 值的a s b 与a s m e 大 江西师范大学硕士学位论文 都小于b i l o g 的对应值,故其估计参数的精度要相当或稍高于b 1 l o g ,而当题数较少时, g m p 估计参数的精度a 值要比b i l o g 的稍差,b 值则相当或略好。但是,一份试卷中, 题目的数量通常要大于5 题,因此完全可以认为g m p i 的性能跟b i l o g 相当,是可以用来 估计所有题目均为两级计分题的数据,有效地进行参数估计的。 ( 3 ) 与m u l t i l o g 相比较 i 实测数据检验 我们选用了两批数据:一批数据是1 9 9 9 年高考数学数据,这批数据各题的等级数多 少不等,是混合的:另一批数据是p a r s c a l e 中所附实例中所带的数据,这批数据题目 的等级数均一样,都是4 等级。两批数据分别用两程序进行估计,结果分别如下: 表3 - 2 :等级混合数据g m p | 与m u l t l o g 参数估计结果 ab 1b 2b 3b 4b 5b 6 b 7b 8 第1 题 0 m p 107 8 - 4 7 3- 4 1 8- 3 4 8- 3 0 8- 2 1 11 3 8 09 8 m u u i l o g0 7 946 5- 4 1 0- 34 1 3 0 1- 20 41 3 20 9 3 第2 题 g m p i1 4 2- 2 6 8- 2 2 61 6 91 1 20 8 70 3 7 0 0 60 8 7 m u u i l o g1 4 82 5 52 1 5 - 1 5 9- 1 0 4- o 8 00 3 l0 1 0o 8 8 第3 题 g m p i1 9 1- 0 7 60 2 80 1 50 2 80 4 9 0 6 41 o o2 0 8 m u l t i l o g2 0 30 6 8- 0 2 20 18o 310 5 2o 6 6 1 0 22 0 5 第4 题 g m p l1 3 3- 2 2 51 5 0 0 9 80 2 50 6 l m u u 、i l o g1 3 52 1 6- 1 4 30 9 20 2 80 6 4 第5 题 g m p i1 0 6- 1 6 41 4 5 - 11 5o 8 7- o 2 2o 1 9 1 4 0 m u l t i l o g】0 7- 1 5 6- 1 4 1 1 0 90 8 10 1 7o 2 3 1 4 2 第6 题 g m p i1 1 7- 0 1 1 0 0 50 1 50 4 60 8 0 1 6 72 5 92 9 0 m u l t i l o g1 2 0- 0 0 7o 0 9 0 1 90 4 9o 8 31 6 8 2 5 82 8 8 第7 题 g m p i1 3 6一o 8 2- o 2 4 0 2 7o 7 6lo l 2 1 8 m u l t i l o g1 3 6- o 7 7- 0 1 9 o 3 l0 8 01 0 42 2 0 第8 题 g m p i1 4 70 9 7 1 2 71 7 0 1 9 72 3 0 m u l t i l o g1 4 81 0 0 1 2 91 7 31 9 9 2 3 2 第9 题 g m p i1 7 2- o 9 2- o5 9 - o 2 90 1 20 5 7 1 0 9 1 6 62 4 0 m u l t i l o g1 7 6- 0 8 6- o 5 4 - 0 2 4o0 7o 6 0 1 】l1 6 72 3 9 一 1 4 江西师范大学硕士学位论文 表3 3 :等级数相同数据g m p i 与m u l t l o g 参数估计结果 ab l b 2b 3 g m p i m u l t i l o g 第2 题 g m p i m u l l l i l o g 第3 题 g m p j m u l t i l o g 第4 题 g m p i m u l l i l o g 第5 题 g m p i m u u l i l o g 第6 题 g m p j m u l t i l o g 第7 题 g m p i m u u i l o g 第8 题 g m p i m u l t i l o g 第9 题 g m p i m u 【i l o g 第1 0 题 g m p l m u l 刖l o g 第1 1 题 g m p i m u l t i l o g 第1 2 题 g m p i m u l t i l o g 第1 3 题 g m p i m u u l l o g 第1 4 题 g m p i m u l j l l o g 第1 5 题 g m p i m u l t i l o g 第1 6 题 g m p i m u 【t j l o g 第1 7 题 g m p j m u u 、i l o g 第1 8 题 g m p i m u 【t i l o g 第1 9 题 g mp i m u 【t i l o g 第2 0 题 2 2 0 1 9 7 2 4 4 2 0 4 2 3 8 2 0 0 2 3 9 2 1 4 1 6 9 2 2 5 1 2 1 1 6 4 1 2 2 1 7 5 1 2 4 1 8 3 1 1 2 1 7 2 1 0 5 1 6 3 08 5 1 2 8 0 8 7 1 3 1 0 9 5 1 4 2 0 9 0 1 3 5 0 9 2 1 4 0 0 7 4 1 0 1 0 6 6 0 9 2 0 7 2 0 9 9 07 0 0 9 5 1 2 1 1 3 4 1 1 4 1 3 0 - 1 1 7 1 2 9 - 1 2 1 12 8 - 1 2 3 12 6 0 7 6 0 6 7 0 6 9 - 0 6 1 - 0 7 1 0 6 7 - 0 6 7 0 6 5 0 6 9 - o 7 6 一1 5 0 2 1 0 - 1 1 8 - 1 9 1 1 2 7 - 1 9 9 1 2 0 - 1 9 2 1 0 9 1 8 0 - 0 7 8 - 1 2 3 0 9 7 1 5 6 - 0 7 8 1 2 8 0 7 5 1 2 6 o 0 2 0 0 6 0 0 5 0 1 0 0 0 3 0 0 0 0 0 1 0 0 5 00 3 - 0 0 8 0 4 9 0 5 4 0 4 9 0 5 4 0 4 2 0 4 6 0 4 3 0 4 9 0 4 8 0 6 0 0 4 3 o 6 9 0 4 5 0 7 3 - 0 3 7 - 0 6 1 0 3 5 - 0 5 9 - 0 3 4 0 6 0 0 0 1 0 0 7 0 0 8 - 0 2 1 0 。0 5 0 0 3 0 0 4 o 0 l 1 2 3 1 2 9 1 1 7 1 2 l 1 1 6 1 2 1 i 1 4 1 1 4 l2 1 1 1 5 1 6 8 1 7 8 1 6 5 1 7 7 1 6 1 1 7 8 1 5 3 1 8 0 l4 8 1 9 1 06 9 0 6 2 0 5 4 05 4 0 4 0 05 5 0 5 3 0 6 7 03 8 0 4 8 0 8 3 1 2 4 0 9 2 1 3 2 0 8 2 1 2 8 08 2 1 3 0 g m p i o 71 - o 6 5 0 0 4 o 7 4 幽生塑一! :! !:! :! ! ! :塑逸 江西师范大学硕士学位论文 从表3 2 估计出的参数结果来看,在等级混合数据情况下,两程序估计出参数值更为一 致。而在等级均相同的数据情况下,两程序估计出参数值差距稍大一些。但总的来说,两程 序估计的结果还是较为接近的。 i i 蒙特卡洛方法检验 用实测数据作两程序估出值的比较,只能作相关趋势考察,缺乏真值参照标准,难 于作出确切的结论。我们又进一步采用蒙特洛方法,在指定项目参数真值的条件下,生 成多级计分的反应矩阵数据。然后分别用两程序进行估计,比较两程序估计值返回参数 值的情况看,那一个更接近真值。我们用蒙特卡洛法模拟生成5 道题,每题满分值分别 为2 、3 、4 、5 、6 ,并生成1 0 0 0 人的反应分数矩阵2 0 个。我们自编程序g m p i 跟m u l t i l o g 各自估出了每题的参数,每题上都有2 0 组a 、b 值,然后分别求平均及标准差,以便与 预先设定的真值作比较。比较结果见表3 - 4 : 表3 - 4g m p l 与m u l t i l o g 蒙特卡洛检验结果 鱼m

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论