(概率论与数理统计专业论文)半参数项目反应模型.pdf_第1页
(概率论与数理统计专业论文)半参数项目反应模型.pdf_第2页
(概率论与数理统计专业论文)半参数项目反应模型.pdf_第3页
(概率论与数理统计专业论文)半参数项目反应模型.pdf_第4页
(概率论与数理统计专业论文)半参数项目反应模型.pdf_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东大学硕士学位论文 半参数项目反应模型 田瑜 ( 山东大学数学与系统科学院,济南,山东2 5 0 1 0 0 ) 中文摘要 项目反应理论作为现代教育测量学中应用最为广泛的理论,近 年的研究主要集中在模型稳健性、计算机自适应考试及多维度项目 反应模型三个方面 本文以模型稳健性为出发点,将一种统计性质优良的半参两阶 估计与项目反应理论结合,得到新的半参数项目反应模型可以看 到,新的半参项目反应模型兼具参数项目反应模型和非参数项目反 应模型的优点 参数项目反应理论作为现代心理测量学的代表,结束了经典真 分数理论的统治,开创了心理测量学的新纪元在随后的几十年里, 众多学者提出了基于不同假设的参数模型实际中项目分析者可以 利用历史信息及专业经验灵活选择模型,这成就了参数项目反应理 论的灵活性另外,参数项目反应理论给出了像项目难度、区分度、 猜测度等形式简单、意义明确直观的项目参数,用以刻画项目的性 质 然而随着对参数项目反应模型的深入研究,很多人发现对于一 些考试,它不能很好拟合数据这使得更为稳健的模型成为迫切需 求非参数项目反应模型就在这种背景下被提出它将不同的非参 数平滑方法与项目反应理论相结合,拓展了项目反应理论的使用范 围对小样本和短测验,非参数模型拟合地更好由于非参数模型 是相对稳健的,因而可用于参数项目反应模型的失拟合检验但是, 非参数项目特征函数中不存在项目参数的概念,这成为项目分析者 不乐于使用它的原因之一 山东大学硕士学位论文 新的半参数项目反应模型估计项目特征函数时,使用参数模型 作为一阶估计,再用非参数方法进行校正这样,新的估计就可以 同参数模型一样地利用历史数据和经验信息,同时具有与非参项目 反应模型同样优良的稳健性另外,新估计可确定比参数项目反应 模型更加可靠的项目参数估计,克服了非参数模型的这一缺陷 新的半参项目反应模型从“参数开始,使用“非参,调整,结束 于“半参 ,填补了项目反应理论中半参方法使用的空白 本文第一章简要介绍心理测量学、项目反应理论、非参数项目反 应理论的历史及现状,并介绍文章针对的问题背景,最后简述半参 数项目反应模型;第二章介绍参数项目反应模型( p i r m ) 的模型及 方法;第三章介绍非参数项目反应模型( n i r m ) 的模型及方法;第四 章解释半参数项目反应模型( s i r m ) ,给出计算方法;第五章将新估 计推广;第六章用数据模拟考察新估计的性质;第七章是结语和其 他讨论 关键词:项目反应理论;非参数项目反应模型;半参数项目反应 模型;核平滑;半参回归 山东大学硕士学位论文 s e m i p a r a m e t r i ci t e mr e s p o n s em o d e l t i a n 勋 ( s c h o o lo fm a t h e m a t i c sa n ds y s t e ms c i e n c e ,s h a n d o n gu n i v e r s i t y , j i n a n ,s h a n d o n g2 5 0 1 0 0 ,p r c h i n a ) a b s t r a c t a st h et h e o r ym o s tw i d e l yu s e di nm o d e me d u c a t i o n a lm e a s u r e m e n t ,i t e mr e - s p o n s et h e o r y ( i r t ) r e c e n t l yf o c u so nt h es t u d yo fm o d e lr o b u s t n e s s ,t h ec o m p u t e r a d a p t i v et e s ta n dm u l t i - d i m e n s i o n a li t e mr e s p o n s em o d e l t h i st h e s i ss t a r t sf r o mm o d e lr o b u s t n e s s ,c o m b i n i n gas e m i - p a r a m e t r i ct w o - s t a g ee s t i m a t i o nw i t hg o o ds t a t i s t i c a lp r o p e r t ya n di r t ,a n do b t a i n san e ws e m i - p a r a m e t r i ci t e mr e s p o n s em o d e l ( s i r m ) i t i se a s yt os e et h a tt h en e ws i r mo b t a i n s t h em e r i t so fb o t ht h ep a r a m e t r i ci t e mr e s p o n s em o d e l ( p i t m ) a n dn o n - p a r a m e t r i c i t e mr e s p o n s em o d e l ( n i r m ) a sar e p r e s e n t a t i v eo fm o d e r nm e n t a lm e a s u r e m e n t ,p i r te n d e dt h er u l eo f t h ec l a s s i c a lm e a s u r e m e n tt h e o r ya n dt r u es o r et h e o r ya n dm a r k e dan e we p o c h i nm e n t a lm e a s u r e m e n t i nt h es u b s e q u e n td e c a d e s ,m a n ys c h o l a r sp u tf o r w a r d n u m b e r so fp a r a m e t r i cm o d e l sb a s e do nd i f f e r e n ta s s u m p t i o n s i np r a c t i c e ,i t e ma n a l y z e r sc a nc h o o s ed i f f e r e n tm o d e l sf l e x i b l yu s i n gt h eh i s t o r - i c a li n f o r m a t i o na n dp r o f e s s i o n a le x p e r i e n c e s ,w h i c hr e f l e c t st h ef l e x i b i l i t yo fp i r t i na d d i t i o n ,i t e mp a r a m e t e r s ,w h i c hd e s c r i b et h ep r o p e r t yo fi t e m se f f e c t i v e l yw i t h d e a r l ya n dv i s i b l em e a n i n g ,s u c ha si t e md i f f i c u l t yp a r a m e t e r ,i t e md i s c r i m i n a t i o n p a r a m e t e ra n di t e mg u e s s i n gp a r a m e t e r e t ca r eo f f e r e db yp i r t h o w e v e r ,w i t ht h ea d v a n c eo ft h es t u d yo fp i r m ,m a n ys c h o l a r sf o u n dt h a t f o rs o m ee x a m i n a t i o n si tw a sn o ta b l et of i tt h et e s td a t aw e l l t h i sm a d ea nu r g e n t r e q u i r e m e n to fam o r er o b u s tm o d e l n i r m ,w h i c he x p a n dt h er a n g eo fu s eo fi r t i i i 山东大学硕士学位论文 勰ac o m b i n a t i o no fn o n p a r a m e t r i cm e t h o da n di r t w a sr a i s e d i nt h i sc o n t e x t n i r mg e t sb e t t e rf i t t i n gf o rs m a l ls a m p l 篑a n ds h o r te x a m a n di tc o u l db eu s e dt o t e s tt h ef i to fp i r mb e c a u s eo ft h er o b u s t n e s s h o w e v e r ,t h e r e sn ot h ec o n c e p t o fi t e mp a r a m e t e ri nn i r t ,w h i c hb e c a m eo n eo ft h er e a s o n st h 8 ti t e ma n a l y z e r s a r eu n w i l l i n gt ou s ei t n e ws i r me s t i m a t e si r fw i t hp a r a m e t r i cm o d e la st h ef i r s t - s t a g ee s t i m a t o r , w h i c hi st h e na d j u s t e db yn o n p a r a m e t r i cm e t h o d i nt h i sw a y , t h en e we s t i m a t o r c o u l dm a k eh i s t o r i c a ld a t aa n de m p i r i c a li n f o r m a t i o ni nu s ea sp i r m ,a n ds i m u l - t a n e o u s l yh o l de x c e l l e n tr o b u s t n e s sa sn i r m i na d d i t i o n ,t h en e we s t i m a t o rc a r l g e tm o r er e l i a b l ee s t i m a t i o no fi t e mp a r a m e t e r st h a np i r m w h e r e a sn i r mc a nn o t o f f e ri ta ta 1 1 t h en e ws i r ms t a r t s 丘o mt h ep a r a m e t r i cm o d e l a d j u s t sw i t hn o n p a r a m e t r i c m e t h o d sa n de n d si nt h en e ws e m i - p a r a m e t r i cm o d e l i tf i l l st h eb l a n ko fs e m i - p a r a m e t r i ca p p l i c a t i o ni ni r t i n t h ef i r 8 tc h a p t e ro ft h i st h e s i s ,t h eh i s t o r ya n ds t a t u so fm e n t a lm e a s u r e m e n t , i r ta n dn i r ma l eb r i e f l yi n t r o d u c e d t h ei n t r o d u c t i o no tt h eb a c k g r o u n do tt h e p r o b l e ma n dt h eb r i e fo ft h en e ws i r ma r ea l s oi nt h i sc h a p t e r i nt h e s e c o n dc h a p - t e r 。p i r ma n dt h em e t h o d sd e a l i n gw i t ht h e ma l ei n t r o d u c e d n i r mi sm e n t i o n e d i nc h a p t e rt h r e e t h ee x p i a n a t i o no fs i r ma n dt h ea l g o r i t h mw i l lb ei nt h ef o u r t h c h a p t e r i nt h ef i f t hc h a p t e r ,t h en e we s t i m a t i o nw i l lb ep r o m o t e d t h ep r o p e r t y o ft h en e we s t i m a t i o nw i l lb es t u d i e du s i n gt h es i m u l a t i o ni nt h es i x t hc h a p t e ra n d o t h e rd i s c u s s i o n sa n dc o n c l u s i o n sa r em e n t i o n e di nt h el a s tc h a p t e r k e y w o r d s :i t e mr e s p o n s et h e o r y ;n o n p a r a m e t r i ci t e mr e s p o n s em o d e l ;s e m i - p a r a m e t r i ci t e mr e s p o n s em o d e l ;k e r n e ls m o o t h i n g ;s e m i p a r a m e t r i cr e g r e s s i o n i v 原创性声明 本人郑重声明。所呈交的学位论文,是本人在导师指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文 不包含任何其他个人或集体已经发表或撰写过的科研成果对本论 文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。 本声明的法律责任由本人承担 论文作者签名。 蝤 日期:迎8 :三:! 翌 一 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版允许 论文被查阅和借阅;本人授权山东大学可以将本学位论文全部或部 分内容编入有关数据库进行检索,可以采用影印、缩印或其他复制 手段保存论文和汇编本学位论文 ( 保密的论文在解密后应遵守此规定) 敝作者麟唾导师繇妈日期,必 山东大学硕士学位论文 第一章背景介绍 百余年时间里,心理测量学经历真分数理论、概括化理论、项目 反应理论阶段发展至今近年,统计方法越来越多的应用于其中非 参方法与项目反应理论的结合为其发展给出新的思路本文则将半 参数方法应用于项目特性曲线的估计,并就新估计的性质和应用进 行讨论 本章的第1 节介绍心理测量学及项目反应理论的历史及发展现 状,第2 节涉及非参数项目反应理论的出发点及特点,第3 节给出本 文的问题背景,简要介绍新的半参两阶估计方法 1 1 心理测量学及项目反应理论 1 9 世纪末,心理学脱离哲学而独立,心理和教育测量学随之正 式诞生,称为心理计量学( p s y c h o m e t r i c s ) 他是一门包括量化心理学 ( q u a n t i t a t i v ep s y c h o l o g y ) 、个别差异( i n d i v i d u a ld i f f e r e n c e s ) 和心理测验 理论( m e n t a lt e s tt h e o r i e s ) 等研究范围的学问 心理测量学的发展经历了两个主要阶段。古典考试理论( c l a s s i c a l t e s tt h e o r y , c t t ) 阶段和现代考试理论( m o d e r nt e s tt h e o r y ) 阶段 2 0 世纪初到2 0 世纪5 0 年代,心理测量学处于真分数理论( t r u e s c o i l et h e o r y ) 为旗帜的经典测验理论发展成熟的阶段2 0 世纪3 0 年代 末,真分数理论的信度概念完成数学形式化;5 0 年代初,在格里克 森( g l l l l i l 【8 饥h ) 的心里测量理论( t h e o r yo fm e n t a l i 钒) 一书中, 经典的心理测量学理论臻于成熟;到6 0 年代末,劳德( l o r dfm ) 与 诺维克( n o v i c kmr ) 的心里测验分数的统计理论( s t a t i s t i c a lt h e o r y o fm e n t a lt e s ts c o r e s ) 不仅使经典测验理论得到十分严格的逻辑论证, 而且开始向现代测量理论转变因为该书用了好几章来论述项目反 应理论( i t e mr e s p o n s et h e o r y , i r i i ) ,并提出了在测验分析中使用方差 分析模型的问题2 0 世纪后半叶是现代测量理论勃兴发展的时期 其代表之一是概括化理论( g e n e r a l i z a b i l i t yt h e o r y , g t ) ,它跟真分数理 论一起,同属随机抽样理论( r a n d o ms a m p l i n gt h e o r y ) 范畴;二是项 目反应理论( i t e mr e s p o n s et h e o r y , r o t ) ,它是一种量表化理论( s c a l m g 山东大学硕士学位论文 t h e o r y ) 。 参照着物理量测量分析框架而建立起来的真分数理论虽属于早 期成熟的一种经典测验理论,但确有局限并且现已渐渐完全失去生 命力经典真分数理论的局限在于,其测量模型不能深入到测验的 内部,直接去面向被试在各项目上的作答反应过程,去如实揭露项 目上的正确作答反应概率跟被试内部实有水平以及项目测量性能如 难度、区分力、猜测答对可能等等间的关系。概括化理论跟经典真 分数理论一起,同属随机抽样理论范畴,而项目反应理论却紧紧抓 住了内部过程,属量表化模型理论范畴,并因此而在克服上述种种 局限上取得了长足进展,成为了现代测量理论的主要代表与经典 测试理论相比,它有以下优点。1 试题参数估计更准确;2 定义了信 息函数,根据信息函数来选择测试的试题,使得挑选试题更为科学、 合理;3 试题参数的估计独立于被测试样本;4 能力参数的估计也独 立于试题样本;5 可以在得分与题目参数之间建立函数关系,适合 编制自适应考试系统 7 自本世纪七十年代以来,项目反应理论已经成为测验理论的研 究重点其起源则可追溯到三十年代末和四十年代初早在1 9 3 6 年, 理查森首次提出项目反应函数的参数估计方法;劳勒于1 9 4 4 年提出 一系列关于项目反应理论领域中基本的理论问题,推出了几种很有 价值的参数估计方法;格特曼于1 9 4 4 年提出了“无误差模型”( 一种确 定性模型,即理想量表项目) ,是以后项目特征函数( i t e mc h a r a c t e r i s t i c f u n c t i o n ,i c f ) ,或称项目反应函数( i t e m s p o n f u n c t i o n ,础) 的雏 形而项目特征曲线( i t e mc h a r a c t e r i s t i cc u r v e ,i c c ) 这一项目反应理 论中的关键性概念,是由塔克于1 9 4 6 年【1 4 1 首次提出的所谓的项 目特性曲线,就是被试对一个测验项目的正确反应概率与该测验所 对应的能力或特质水平的一种二维曲线图关于项目反应曲线的研 究可进一步上溯到比奈( b i n e t ) 和西蒙( s i m o n ) 【1 3 】他们在比奈西 蒙智力量表的研究设计中已经用到了项目反应曲线这一概念对于 项目反应理论贡献最大的是美国测量专家劳德( l o r dfm ) 他于1 9 5 2 年首次提出了项目反应模型,即双参数正态卵形模型,并提出了与 此相关的参数估计方法1 1 5 1 1 1 6 1 1 7 1 由于该模型的出现,使得项目反 应理论可被用来解决实际的二值记分的测验问题,处理成就测验和 2 山东大学硕士学位论文 能力测验的数据 与真分数理论不同,项目反应理论是建立在强假设基础上的,其 基本假设有四条:一是测验的潜质空间( l a t e n ts p a c e ) 的单维性假设; 二是测验项目的局部独立性假设;三是测验的项目特征曲线假设;四 是测验的非限时性假设除此之外,不同的项目特征睦线模型对相 应的测验还有不同的要求,这就对应了额外的假设 测验的项目按照评分方式可分为二级评分项目( b i n a r yi t e m ) 、多 级评分项目( m u l t i p l ei t e m ) 、连续评分项目( c o n t i n u o u si t e m ) 在实际 应用中,最为成熟的只有二级评分项目的项目分析对多级评分项 目的研究分析,多转换为多个二级评分项目处理连续评分项目模 型通常看作分级数趋于无穷的多级项目进行相应的分析因此,本 文将主要关注作为基础的二级评分项目的分析 相对于近年出现的非参数项目反应模型( n o n p a r a m e t r i ci t e mr e - , s p o n s em o d e l ,n i r t ) ,参数项目反应模型( p a r a m e t r i ci t e mr e s p o n s em o d e l ,p i r t ) 的优点集中在s 1 可以得到意义明确的参数估计:在实际使用中,人们总是更希望 能够使用意义明确且简单直观的参数值来描述项目及测试的性 质; 2 模型选择多:考试分析者可以利用自己的经验来选择合适的模 型,这便充分使用了历史和经验信息,可以期待得到更好的估 计; 3 相对非参数项目反应模型,计算更加简便 由于不同项目特征哇珏线假设就对应着不同的项目反应理论模型, 因此已有的项目反应模型不下二十种,但多已失去实用价值现在 最常用的二级评分项目的项目反应模型是l o g i s t i c 模型而l o g i s t i c 模型又分为单参数模型( 1 p l m ) 、双参数模型( 2 p l m ) 、三参数模型 ( 3 p l m ) 和四参数模型( 4 p l m ) 对三参数l o g i s t i c 模型的研究已比较 成熟,其使用已也逐步推广开来但四参数模型目前主要还是理论 研究阶段目前,对项目反应理论的研究主要集中在模型的稳健性 ( m o d e lr o b u s t n e s s ) 的研究、计算机自适应考试及多维度项目反应模型 3 山东大学硬士学位论文 等问题已有的对模型稳健性的研究主要集中在两个方面:一是研 究已有的常用参数项目反应模型对不同类型测试数据的稳健性;二 是尝试给出更为稳健的模型本文的出发点即后者 1 2 非参数项目反应理论 本世纪统计学最重要的进步之一是直接估计函数的方法的发展 以往的参数方法存在的本质的问题是t 无论已使用多少参数,应用 中人们总是期望得到比此参数族更具弹性的估计非参数回归是指 直接估计独立变量z 和独立变量3 ,之间的函数关系的一大类方法 现在的问题是估计项目特性曲线,答对概率和被试潜在特征水 平之间的函数关系当测验满足前述假设时,使用参数项目反应模 型进行拟合,可以提供项目和被试的大量辅助信息然而,实际总 是不同程度的违反这些假设虽然大多数项目反应模型对于一定程 度上不满足这些假设的测验是稳定的,但估计结果的可靠性不好 已有证明:项目反应曲线并不总能用参数项目反应模型很好的建模 ( r m - a s s y ,1 9 9 1 1 9 ) 于是,在参数型项目反应理论得到了广泛的研究与 应用的同时,近年来关于非参数项目反应理论的研究也同样得到了 广泛的关注之所以出现这种趋势,主要是由于三方面的原因( j u n k e r & s i j t a m a ,2 0 0 1 1 1 s ) :首先,非参数项目反应理论提供了非常有价值的 补充;其次,非参数项目反应模型为参数项目反应模型适用的局限 性提出更有弹性的框架;其三,因为短测验或小样本数据情况下采 用参数项目反应模型所估计的参数存在很大的误差,而非参数项目 反应模型则可以很好地适用于小样本数据 r m n s a y ( 1 9 9 1 ) 【9 】将核平滑运用于项目反应理论随后也有其他 一些非参平滑方法应用于项目反应理论:局部多项式平滑,h a s t i ea n d l o a d e r ( 1 9 9 3 ) 2 2 1 给出了这种方法优于核平滑的一些陈述;样条平滑, 虽然这仅可算作理论上的尝试,但是这种方法能够同时给出项目特 性曲线的派生物和曲线本身的估计,而前者对于信息函数的非参估 计非常重要 虽然非参数项目反应模型有如上种种的优点,它的致命缺陷是 不能提供意义明确的参数估计来描述项目的性质这使得它的应用 4 山东大学硕士学位论文 具有极大的局限性而本文提出的新方法具有非参数项目反应模型 的稳健性,同时可克服非参数项目反应模型的这一缺点 1 3 半参项目反应模型 本文要处理的是如下问题: 假设有个被试参加了一次测验,测验包含了n 个m l 计分项 目,即答对该项目得1 分,答错得0 分基于教育测量学的基础假设 中的单维性要求,不妨设这些测验项目测量的是被试的某一种能力 或者潜质的水平z 用噩,拖,x 表示这个被试的该能力或潜 质的真实水平显然这个变量是不可观测的,但它确实存在,且在 一定时间内稳定不变测验总分可以从一定程度上反应出被试水平, 记被试j 的测验总分为岛= 垒1u 嵇,u 谚 o ,1 ) 表示被试歹在项目i 上的得分实际观测到的数据只有被试得分,即馆n 矩阵甜= ( t - 巧) 称为项目反应矩阵,它是我们所能得到的全部观测数据 项目设计确定后,对于水平为z 的被试,必然存在答对此项目的 可能性,这种可能性与其能力或潜质水平高低密切相关因此,可设 他答对项目i 的概率为最( z ) 不同能力水平答对某一项目的概率是 由项目自身的性质决定的,也就是说函数关系只( z ) 刻画了该项目的 性质我们关心的问题是,能否估计出该函数关系以研究项目性质, 从而建立起被试得分与其真实能力或潜质水平之间的关系这显然 可归类于统计学中的回归问题但由于真实能力是不可观测的,要 做的实质上是估计只( z ) = 只似i x = z ) 此概率函数关系即称为项目 反应函数( i r f ) ,其曲线称为项目反应曲线( i r c ) 如前面几节提到的,对于项目反应函数的估计问题,已经有很多 不同的参数和非参的解决方法,本文将给出一种新的半参估计方法: 在参数项目反应函数估计的基础上,进行非参的校正最后通过数 据模拟,将新方法和已有的非参和半参方法结果进行数据和图形上 的比较 本文选用三参数l o g i s t i c 模型作为一阶估计,二阶估计中则使用 局部l 2 拟合准则来确定校正因子对于大多数考试项目,参数l o g i s t i c 模型是稳健的,这种情况下,可以直接使用一阶估计中的难度、区 5 山东大学硕士学位论文 分度和猜测度等参数描述项目性质实施过程中可以使用最终的半 参估计来检验一阶估计的拟合性,以决定一阶估计中的项目参数是 否可用在一阶估计的参数不可用时,本文给出了另一种项目参数 估计的考虑直观的项目参数估计是新估计优于非参数项目反应模 型之处 与参数项目反应模型相比,新估计的优势是不言而喻的由于非 参估计修正的加入,新估计更加稳健;对于不符合参数模型函数结 构假设的考试项目,新估计自然有更好的拟合度。 此外,实际应用中,用户可以按照自身需要更换一阶估计的模 型,从而使历史和经验的信息使用更加充分的被利用这让新估计 更具灵活性新估计很容易推广到多选项的选项反应曲线估计及多 级项目反应曲线估计中本文仅给出新估计在多选项项目分析方面 的推广 6 山东大学硕士学位论文 第二章参数项目反应模型( p i r m ) 本世纪五六十年代,哥特曼、拉查斯菲尔德等提出了一些有影响 力的0 - l 计分的二级评分模型:最优量表模型( p e r f e c ts c a l em o d e l ) 、潜 在距离模型( l a t e n td i s t a n c em o d e l ) 、潜在线性模型( l a t e n tl i n e a rm o d e l ) 等这些模型使用阶梯函数或者直线拟合项目反应函数,虽然直观 地在一定程度上可以对潜在能力与得分之间的关系作出解释,但是 有极大的局限性,因此现在已经没有人使用此类模型 正态曲线模型( n o r m a lo g i v em o d e l ) 劳德于1 9 5 2 年提出劳德认为,每一个测验项目i 都对应了 个潜在变量鼽,当一个被试的们值大于某一水平n 时,他对这 个项目就能做出正确的反应,即项目i 的得分t = l ,反之则作出 错误的反应,即项目i 的得分蛳= 0 根据测验的单维性假设以及 因子分析理论,潜在变量y i 所对应的能力或特质是测验所要测 量的那种能力或特质z ,以及项目i 对应的特殊能力的组合 因此,劳德的正态曲线模型建立在如下假设基础上t 1 潜在变量城关于能力参数z 的回归是线性的,即。 e c y d z ) = 蛾= 口z + 玩 2 潜在变量弧关于能力参数茹的回归是同方差即t v a r c y d z ) = v a r ( y l ,z ) 3 佻关于z 的条件概率分布是正态的 在以上假设下建立起来的三参数正态曲线模型为: 嘶) = c i + ( 1 刊仁 也去e 一譬出 其中,0 4 称为项目区分度( i t e md i s c r i m i n a t i o np a r a m e t e r ) ,钆称 为项目难度( i t e md i f f i c u l t yp a r a m e t e r ) ,q 称为项目猜测度( i t e m g u e s s i n gp a r a m e t e r ) 7 8 山东大学硕士学位论文 当假设c - 4 = 0 时,适用无猜测的测验,就是两参数正态曲线 模型: 舴) = 仁卜啪而1 e 一譬出 在实际使用中有时为了分析方便,对一些由区分度比较接近 的项目所构成的测验,常假设所有项目的区分度都是相同的适 用于此类测验的就是所谓的单参数正态曲线模型: 删= 仁k 砺1 e 一譬如 在测验符合参数项目反应理论的基本假设时,正态曲线与 实际测验有很好的匹配性;但正态模型的缺点是参数估计过于 复杂,因为在模型中引入了积分运算 l o g i s t i c 模型( l o g i s t i cm o d e l ) l o g i s t i c 模型是伯恩鲍姆于1 9 5 7 年提出来的,以用作劳德的正 态曲线模型的一种近似因而l o g i s t i c 模型亦有单参数、两参数和 三参数之分近年有人提出四参数l o g i s t i c 模型形式分别为; 1 p l m : 2 p l m : 3 p l m : 4 p l m : h e l ( z ) = 再葛再面1 郦 p i , 2 p l ( z ) = 再画再瓦1 再= 丽 忍,3 p l ( z ) = c + 再丽孓1 面- - c 函4 珂 p i , 4 p l ( 2 ) 2q + 再画币r 面- - c 砸4 j 丽 ( 1 ) ( 2 ) ( 3 ) ( 4 ) 其中,参数啦、玩和q 的意义同正态曲线模型,d 为常数,通 常取d = 1 7 0 4 4 p l m 中加入参数r 是基于项目的最高达对概率 不应达到1 的考虑 对于正常取值范围内的啦、k 和q 的任何一组值( os 口 3 o ;一3 0sbs3 o ;0sc 0 5 ) ,正态模型和l o g i s t i c 模型之差的绝 山东大学硕士学位论文 对值都小于0 0 1 而l o g i s t i c 模型与正态模型相比有明显的优点: 首先是形式的简洁更具数学模型的特色;其次是模型参数和能力 参数的估计比较方便;第三是l o g i s t i c 模型趋向其渐近线下限的 速度比正态曲线模型慢,因而由于被试疏忽而产生的错误对其能 力估计的影响相对来说也比较小,所以估计的精度更高 l o g i 8 t i c 模型是目前公认的最有效且应用最广的二级评分参数项 目反应模型 参数项目反应模型有两类参数,一类是能力参数,通常记为z ; 另一类是项目参数o ,可能包括项目区分度口、难度b 和猜测度c 参数项目反应模型中参数估计方法大体可分为条件似然估计( 能 力或项目参数已知时) 、联合似然估计、边际似然估计、用e m 算法 实现的边际似然估计、贝叶斯估计以及近似估计等每种估计都有 其独特的背景和方法多种估计方法的出现,从侧面反映了参数项 目反应模型参数估计内容的多样以及探讨过程的艰辛因为某种方 法的出现,往往是为了弥补前一种方法的某种不足 以上能力和项目参数估计的各种方法,建立在不同假设之上,计 算复杂度也不同这决定了它们的应用范围其中,联合似然估计 b - j m l e 由于其历史悠久、计算简单以及似然函数易理解的特点在实 际中应用广泛 本文的新估计中,一阶估计使用三参数l o g i s t i c 模型( 3 p l m ) 的 联合极大似然估计( b - j m l e ) 事实上,可以选取任意的参数模型的 任何一种估计方法作为一阶估计,第五章将着重讨论这方面内容 9 山东大学硕士学位论文 第三章非参数项目反应模型( n i r m ) 项目特征曲线建模最常用的参数函数族三参数l o g i s t i c 模型虽 然只使用了3 个参数,但这个相当简单模型很好的说明了函数的参 数估计方法存在的问题例如,当题目简单时,显然实质上不应有 数据可用来估计猜测度c 于是,如果c 变化较大,区分度a 就会相 应的变化,进行补偿结果是:在描述项目中扮演了重要的角色的 区分度口可能估计的很t c 坏,因此在项目难度很低时,最明智的办 法是设c = 0 ,即使用两参数l o g i s t i c 模型建模甚至对于中等难度的 项目,三参数l o g i s t i c 模型的参数估计的协方差也相当高,因此需要 大量的数据来估计它们t h i s s e n & w a i n e r ( 1 9 8 2 ) 【2 lj 讨论了以上问题以 及三参数l o g i s t i c 的其他问题 参数方法在灵活性等方面的弊端,促使非参数统计方法的发展 成为必然在众多的非参数项目反应函数估计方法中,核平滑方法 可能是最简单的,计算最方便的虽然有其他方法在不同的方面更 出众,但是核平滑这种简单而有效的方法,大量数据计算的需时更 少,并且程序更紧凑( r a m s a y ,2 0 0 0 1 1 0 1 ) 核平滑是局部平均思想的推广。因为,p ( x ) = e ( u i f f i = 茹) 成立,项 目反应函数的一个合理估计可以通过在被试特征水平岔附近的的观 测上,对响应蹦取加权平均得到权重的分配可用散点图确定平 滑方法及平滑参数的选择则可通过考虑估计的偏差和方差的平衡决 定 核平滑( k e r n e ls m o o t h i n g ) 是估计回归函数的一种著名方法它广 泛应用是因为它计算加权序列简单核平滑是局部平均的扩展,局 部平均是非参回归的本质概念项目反应函数的非参数核平滑估计 众m m 有形式( r 3 瞄a y ,1 9 9 1 1 9 1 ) z = 毫黯 其中,j i = l ,2 ,n 为被试;汪l ,2 ,f ;为项目;是0 - 1 二分响 应,代表给定项目正确与否;q 代表被试j 的潜在能力;k ( ) 是非负 对称核函数,当它的自变量远离零时非增;h 是窗宽,由用户来选择 以控制光滑性 1 0 山东大学硕士学位论文 用户选择的平滑参数是如下决定:观察拟合的函数,决定它们 是否足够光滑到可用于解释,但又不能太光滑以致丢失细微的性质 更客观的方法是由数据决定平滑参数选择,可用c r o s s - v a l i d a t i o n 方法 得到关于c r o s s - v a l i d a t i o n 方法,后面章节有更为详细的描述 因此,怠,n m 是加权平均平滑,权重由k ( ) 和h 决定 t l a m s a y 于1 9 9 1 年【9 】提出核平滑方法后,于2 0 0 0 年发布了代码公 开的多选题图形分析的计算机程序t e s t g r a f ( r a m s a y ,2 0 0 0 1 0 ) 对于 二级评分项目分析,其计算步骤如下: 秩:按照某种统计量s ( 通常为被试的考试总分) 将巧排序,估 计第j 个被试的秩巧; 替换:用标准正态分布的分位数代替秩q 这些分位数即将标准 正态密度下方区域划分成l ( 1 v + 1 ) 等份的值,使用这些值作为估 计中经验的潜质水平霹( 歹= 1 ,2 ,) 排序:将被试响应向量按照被试能力水平排序 平滑:对于项目,使用个o - 1 指示变量组成的响应向量,和潜 质能力水平向量( z i ,z 知) ,来估计其答对概率只( ) : = 核平滑方法中,使得均方误差达最优的平滑参数窗宽为h = n 一1 5 , 这也是最常用的窗宽取值t e s t g r a f 中使用缺省值h = 1 1 n 一1 5 在第四章将看到新的半参两阶估计对非参校正的估计实质上使 用的是核平滑方法,但实施方法与r a m s e y 的t e s t g r a f 程序不同而且 新估计的窗宽选择,更为合理的使用了c r o s s - v a l i d a t i o n 方法对于实 际考试中大量的性质复杂且独特的项目,根据被试的反应数据来选 择窗宽,会使估计更为合理 町 :| 触 = p r 中其 山东大学硕士学位论文 第四章半参数项目反应模型( s i r m ) 4 1 模型简述 参数项目反应模型对项目反应函数的结构有事先的假设若测 验项目实际不满足这种结构假设,参数项目反应函数估计的效率会 大大下降非参数项目反应模型无此限制,然而损失了已有的关于模 型结构的信息一如果测验实际满足参数项目反应函数结构假设, 参数项目反应模型的效率毋庸置疑因此,一个有意义的问题是:如 何有效利用这部分信息,并且在参数模型的函数结构假设不成立时, 得到与非参项目反应模型同样i f - 的估计 本文引进这样一种i r f 的半参两阶估计,第一步,假设只( ) 有 3 p l m 参数结构,只( z ) = 只。3 p l ( z ;o i ) ,其中吼为项目参数,包括项目区 分度啦,难度b d 和猜测度c 使用联合极大似然( b - j m l e ) 对项目参数 段进行估计,得到项目反应函数的p i r t 估计t 或,3 p 二0 ;蛾) = 只,3 p 占( z ;氆) 若测验项目满足结构假设,则上述参数i r f 估计有很好的拟合度;但 实际中很多时候,测验项目不满足结构假设为得到更优的估计,第 二步使用非参因子e ) ,迸一步对一阶参数估计进行修正,获得半 参估计:怠, 3 r l ( z ;o t ) - i - g ( z ) 利用局部炉拟合准则来确定6 ( z ) 的估 计t6 ( z ) 最终的半参估计的形式为t 1 2 a 。栅l ( z ) = a ,3 p l ( 霉;e ) + 己( z ) = a 肌( 柏) + 南萎1 ( 沪帅( 硼 + 模型的详细介绍以及计算方法在下一节中说明 4 2 方法及计算 第一步:求项目反应函数的参数的b - j m l e 估计: 对于反应矩阵玖,似然函数为: me n 三似i x ,o ) = p i c x j ) k i ( 1 一只( 吻) ) 1 岣 ( 5 ) ( 6 ) 山东大学硕士学位论文 i , , l ( u l x ,o ) = 融巧z n 只( 吩) + ( 1 - t o ) m ( 1 一只( 巧) ) 1 ( 7 ) i = 1j = l 假设已知o ,若只( ) 有3 p l m 结构,x 的条件极大似然估计( c m l e ) 可求解下述似然方程得到( 歹= l ,2 ,) : 筹= 。砉嘶嵇咧训端鹄= 。 若只( ) 有2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论