




已阅读5页,还剩65页未读, 继续免费阅读
(概率论与数理统计专业论文)irt多级评分模型的logistic模型下等值方法的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 测验等值是教育学、心理学中的一项重要研究内容,它对于考试的公平性、 可比性、题库建设、教育质量评价、计算机自适应性测验都有重要的意义。针对 我国国情,项目反应理论下多级评分模型测验参数的等值显得更加重要。现有文 献中通常使用迭代法求得等值常数的数值解。迭代法计算量较大,对初值要求较 为严格,收敛性无保证。而且使用数值解无法对等值常数做进一步分析研究。 本文首先将二级评分模型l o g i t 变换法求得的解做了进一步完善,得到了 l o g i t 变换法二级评分模型最简形式的解析解。接着做了多级评分模型的进一步 推广及改进。 本文采取将用于二级评分模型的双参数l o g 括t w 模型推广到多级评分的思 路,提出了本文的多级评分模型。从h a e b a r a 和s t o c k i n g l o r d 的项目特征曲线 法的基本思想出发,先后给出了三种求解等值常数的新方法,分别是:多级l o g i t 变换法、加权多级l o g i t 变换法、改进多级l o g i t 变换法。三种方法每一种都是 对前一种方法的改进,并分别推导出了等值常数的解析解。求解析解的计算量大 大低于用迭代法求数值解,而且解析解中包含了更多的有用信息。通过对解析解 的分析,证明了这样得到的等值常数,满足唯一性、对称性以及与被试能力无关 等对等值常数的基本要求。这是使用数值解无法做到的。最后使用蒙特卡洛方法 进行了大量数值模拟,从等值的稳定性、准确性方面比较了三种新方法。通过模 拟数据进一步验证了等值常数解析解的正确性;分析指出了各种等值方法的特点 和使用范围,分别说明了各种方法的相对优劣,提出了使用建议。总体表明,本 文提出的针对多级评分模型求解等值常数的三种新方法适合于项目参数含有随 机误差的实际应用,将三种方法结合使用效果更好。 关键词:测验等值;项目反应理论( i r t ) :多级评分模型;l o g i s t i c 模型;l o g i t 变换 a b s t r a c t a b s t r a c t t e s te q u a t i n gi sa i li m p o r t a n ts t u d yi ne d u c a t i o na n dp s y c h o l o g y ,i ti sv e r yi m p o r t a n tf o r f a i r n e s sa n dc o m p a r a b i l i t yo fe x a m i n a t i o n ,i t e m b a n k i n g ,t e a c h i n gq u a l i t ya s s e s s i n g a n d c o m p u t e r i z e da d a p t i v et e s t p o i n ta tt h en a t i o n a lc o n d i t i o n so fo u rc o u n t r y , i ti sm o r ei m p o r t a n tf o r t e s tp a r a m e t e r se q u a t i n go fp o l y c h o t o m o u s l y s c o r e dr e s p o n s e sm o d e li ni t e mr e s p o n s et h e o r y c o n v e n t i o n a lm e t h o di n e x i s t i n gl i t e r a t u r en o r m a l l y u s e si t e r a t i v ea l g o r i t h mt oa c h i e v ea n u m e r i c a ls o l u t i o n t h i sm e t h o dn o to n l yi n v o l v e se x t e n s i v ec a l c u l a t i o n s ,b u ta l s od e m a n d sas t a r t p o i n tc l o s et ot h et r u ev a l u e so fe q u a t i n gc o e f f i c i e n t sf o rt h ec o n v e r g e n c eo ft h ei t e r a t i o n ,a n dt h e o b t a i n e dn u m e r i c a ls o l u t i o nm a yb eh a r dt ob ee v a l u a t e di nr e s e a r c h e s i n t h i sp a p e r ,w ep e r f e c tt h er e s u l to fl o g i tt r a n s f o r m a t i o ni nd i c h o t o m o u s s c o r e dr e s p o n s e s m o d e la n da c c e s st ot h em o s ts i m p l ef o r mo fe x p l i c i ts o l u t i o n sf i r s t l y t h e nw ep r o m o t ea n d i m p r o v ei tt op o l y c h o t o m o u s l y s c o r e dr e s p o n s e sm o d e l w ee x t e n dt w o p a r a m e t e rl o g i s t i cm o d e li nd i c h o t o m o u s - s c o r e dr e s p o n s e sm o d e lt ot h e c a s e so fp o l y c h o t o m o u s l y s c o r e dr e s p o n s e s ,a n dg i v eo u tap o l y c h o t o m o u s l y s c o r e dr e s p o n s e s m o d e li nt h i sp a p e r b a s e do ni t e mc h a r a c t e r i s t i cc u r v eo fh a e b a r aa n ds t o c k i n g l o r d ,t h r e en e w m e t h o d sf o re s t i m a t i n gt h e e q u a t i n g c o e f f i c i e n t sa r e p r o p o s e d ,t h e y a r e m u l t i s t a g e l o g i t t r a n s f o r m a t i o n , w e i g h t e dm u l t i s t a g e l o g i tt r a n s f o r m a t i o n , a n d i m p r o v e m e n tm u l t i s t a g e l o g i t t r a n s f o r m a t i o n e a c ho ft h e mi si m p r o v e db yt h a tw h a tf o l l o w s ,a n dg i v e se x p l i c i ts o l u t i o n so f e q u a t i n gc o e f f i c i e n t s t h ee x p l i c i ts o l u t i o n si sm u c he a s i e rt oc o m p u t e ,a n dc o n t a i n sm o r eu s e f u l i n f o r m a t i o n t h r o u g ht h ea n a l y s i so ft h ee x p l i c i ts o l u t i o n ,i ti sp r o v e dt h a tt h ee s t i m a t e de q u a t i n g c o e f f i c i e n ti st h eo n l ym e e t ,s y m m e t r ya n di n d e p e n d e n to ft h ea b i l i t yo ft h et e s t e e s u c hp r o p e r t i e s a r eb a s i cr e q u i r e m e n t sf o rt h ee s t i m a t e de q u m i n gc o e f f i c i e n t st ob eu s e di np r a c t i c e ,b u tt h e ya r e h a r d l ys a t i s f i e db yt h ec o n v e n t i o n a lm e t h o d f i n a l l yal a r g en u m b e ro fm o n t ec a r l os i m u l a t i o na r e e m p l o y e dt oe v a l u a t et h en e wm e t h o d sw i t hr e s p e c tt os t a b i l i t y ,a c c u r a c ya n do t h e ra s p e c t so f t h e i r p e r f o r m a n c e t h er e s u l t s o b t a i n e ds h o wt h a tt h en e we s t i m a t i o nm e t h o d so ft h ee q u a t i n g p a r a m e t e r sa r ev a l i d a t e ,a n dr e v e a ls o m ec h a r a c t e r i s t i c so ft h en e wm e t h o d s p r o p o s i t i o n sa r e p r e s e n t e df o rt h eu s eo f t h em e t h o d ac o m b i n a t i o no ft h r e em e t h o d sw i l lb eb e t t e r k e y w o r d s :t e s te q u a t i n g ;i t e mr e s p o n s et h e o r y ( i r t ) ;p o l y c h o t o m o u s l y s c o r e d r e s p o n s e sm o d e l ;l o g i s t i cm o d e l s ;l o g i tt r a n s f o r m a t i o n i i 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名:丐形铉日期:m 谚r ;。 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名: | 耱 导师签名:多良嗽e l 期:pp f 乡汐 第1 章绪论 1 1 课题的背景与意义 第1 章绪论 随着我国社会的发展,测验作为衡量各种能力和知识水平的手段,已经得到 了越来越普遍的应用。比如,目前在选用干部、引进人才时,已经引入心理、知 识等测验。对于同一个被试对象参加不同版本的同一个测验,当然希望测验结果 具有稳定性。而测验编制者也希望同一个被试在不同版本的测验中成绩具有可比 性。以便对试卷或试题的质量,对不同版本的同一个被试者的水平做出公正的评 价,合理的解释。尽管测验编制者做出了种种努力,使同一测验内容不同版本的 试卷尽可能在难易程度上保持稳定性,但还是很难避免试卷在难度、区分度、信 度等等方面会有差别。这种差别不仅影响到测验的质量,影响到评价标准的客观 公正,还会影响到在不同时间、使用不同试卷参加同一考试的被试者应得的公平 性。因此,测验的公平性,可比性成为迫切需要解决的问题。这就需要找到不同 版本的测验之间的转换关系,将不同年度或不同场次、不同被试的测验成绩转化 到同一个单位系统上去;或者将同一内容不同次考试的参数,如:难度、区分度 等转化到同一个测量系统中。这就相当于公里与里、华氏温度与摄氏温度之间的 计量单位的换算,统一评价标准后便于进行比较。这种把测量同一种心理特质或 某项能力的不同测验分数、测验参数通过一定的统计模型转换到同一单位系统中 的过程称为测验的等值。其中,对测验分数的转换称为测验分数等值;对测验参 数的转换称为测验参数等值。 测验等值是心理与教育测量中一个十分重要的研究领域。在教育与心理测量 中,测验等值使得不同测验的测验分数之间具有可比性。其实质是应用统计方法 寻找测量同一种心理特质的不同测验间的分数、参数转换方法,以实现可比性。 测验等值的必要性主要体现在以下几点: 1 体现测验的公平性,使不同场次考试具有可比性 如果不进行等值,对于不同时间、场次的同一考试,被试的考试成绩、评价 标准就可能受到试卷难易的影响,而不具备可比性。被试的成绩会与运气有关。 对于那些无论试卷难易程度如何都以统一尺度衡量的考试,如t o e f l 、g r e 、人 才录用等,不进行等值就会由于某次试题过难而影响被试者的前途。这对那些水 平高却遇到较难试卷的被试是不公平的。为使大家在公平的基础上进行测验、竞 争,为了保证试卷难易程度的稳定性,考试分数、参数的可比性,选拔人才的高 效性,录用人才的合理性必须进行等值处理。 2 制作试题库 等值研究的意义不仅限于测验分数的等值。许多大型测验项目,出于保密性 北京工业大学硕七学位论文 或者多次施测的需求等原因,常常要求对同一测验构建不同的测验版本,即题库 建设。为了避免命题和试卷编制中的盲目性和偶然性,也有必要建立题库。尽管 题库编制者总是尽可能保持不同版本的测验难度相同,但难以避免会存在一些差 异。为了减少这些不同测验版本上的差异,进行题目参数( 如:难度、区分度) 的等值是建设科学化题库的前提。 3 适应计算机自适应性测验的需要 随着计算机的应用,测验的计算机化正在成为一个趋势,即:计算机辅助自 适应性测验。开发计算机化自适应性测验系统需要解决的一个核心问题是题库中 的试题参数( 如难度等) 要标在同一个测量标准上,以使测验具有公平性。这就 需要进行题目参数的等值。测验等值理论为计算机自适应性测验提供了理论基础 和操作方法。 4 高层次教育质量监控的要求 随着大众对教育质量要求的提高,教育管理部f 7 x c j 教育质量的监控更趋于规 范化。对监控的公平性、可比性要求越来越成为迫切需要解决的问题,解决这一 问题所需要的一项技术,就是测验等值。 本文利用统计及数学方法探讨测验等值的理论,提出了自己的观点和方法。 1 2 国内外研究现状 测验等值研究是心理学与教育测量学中的一个很重要的研究方向。随着这 门学科的发展,测验等值研究越来越多地与其他学科结合,成为一门融心理学、 教育学、数学、统计学等学科在内的交叉学科。在国外,测验等值已经得到了比 较普遍的应用。许多大型常设测验,如:t o e f l ,g r e 都已经实现了计算机自适应 性测验,并应用测验等值来进行不同次测验间分数的比较,为公平测验建立了试 题库。虽然我国测验等值研究起步较晚,许多方面还处于理论探讨阶段,但是已 经得到了越来越多研究者的关注。我国的研究者从九十年代初开始研究测验等 值,当时使用的是经典测验理论指导下的测验等值方法,只进行测验分数的等值。 随着项目反应理论在我国的传播,有学者开始研究项目反应理论下的等值方法, 研究内容从测验分数的等值拓广到测验者能力等值、项目参数等值等方面,所用 模型从二级评分模型拓广到多级评分模型。但是多数都是将国外的研究结果进行 应用。在项目反应理论框架下实施等值,不仅理论完善,前提条件也较易满足。 但是由于项目反应理论出现较晚,理论中用到数学知识较多等原因,在我国的发 展还很缓慢。 各国长期的教育实践产生了丰富的测验评价形式,导致测验的形式多种多 样。我国测验的特点是主客观题目并重,既有二级评分的填空选择题目,也有 多级评分的解答论述题目。多级评分适合我国国情。因此,近年来,我国越来 2 第1 章绪论 越多的研究者开始研究项目反应理论下多级评分模型的测验参数等值问题。这 也是我国对测验考试的规范化、公平化、计算机化的迫切要求所促成的。由于 多级评分模型比较复杂,涉及的数学知识较多,等值结果的效果检验也较为困 难。因此,目前我国很多研究者多是从心理学、教育学的角度来研究多级评分 模型,多数文章都发表在心理学杂志上。而且对已有的多级评分模型实际应用 方面的探讨较多,理论研究较少。多级评分模型研究的重点及难点是建立合理 的模型与求解模型得到等值常数。而现有的求解等值常数的方法都很繁琐,需 要迭代处理。一部分研究者为了求解简便,高度简化了模型,使模型存在一些 比较明显的缺陷。目前国际上常用的等值方法,如黑巴赫( h e a b a r e ) 等值法, 斯托克洛德( s t o c k i n g l o r d ) 等值法都对初值要求较严,由均数一标准差法提 供的初值常常使相应的迭代过程不收敛。对于l o g i s t i c 模型,国内丁树良、戴 海崎等研究者提出了比较完善,也相对复杂的模型。他们在文献 5 、 1 0 、 1 1 、 1 6 3 、 1 8 与 1 9 中采用或提出了新的等值准则,如对称相对熵等值准则、对 数对比等值准则及平方根等值准则。这些模型全部是利用等值准则式通过牛顿 迭代法最终估计出等值常数。因此,求解比较困难,而且只能得到等值常数的 数值解。计算量大,过程复杂,还需要考虑迭代过程是否收敛等问题。在一定 程度上限制了这些方法的应用。由此可见,给出简单易算的求解等值常数的方 法很有必要。关于多级评分的等值研究中没有见到能够给出解析解的方法。文 献 3 提出了一种二级评分模型中相对较好的求等值常数解析解的方法一双参数 l o g i s t i c 模型的l o g i t 变换法。然而,这种方法只针对了二级评分模型,对多级 评分模型没有涉及。文献 8 也提出了一种二级评分模型求等值常数解析解的方 法,对多级评分模型也没有提及。而目前的研究前沿是对项目反应理论下多级 评分模型的研究。丁树良等人提出的对数对比等值法,只将l o g i t 变换法做了 形式上的多级评分模型的推广,没有进行本质的推广,求解等值常数仍然要用 迭代法,并没有将l o g i t 变换法有解析解的特点加以推广。而且其方法只适于 部分多级评分模型。 受到研究水平的限制,国内的许多大型考试尚未引入测验等值。目前应用 测验等值技术的实际考试仅有大学英语四、六级考试( c e t ) ,汉语水平考试 ( h s k ) n 们,人事部主持的经济专业资格考试n 引。国家自考委已决定建设高等 教育自学考试国家题库,其中有些课程要建设应用项目反应理论的题库,其关键 技术之一就是多级评分模型测验参数等值引。 为了将测验等值技术应用到更多的考试中,有必要对项目反应理论下多级 评分模型做更加深入的研究,以提出模型完善,求解简捷,结果合理的多级评 分模型。 北京丁业大学硕士学位论文 1 3 本文主要研究内容和方法 目前,见于文献的基于项目反应理论的测验等值多级评分模型的研究,多以 s a m e j i m a 等级反应模型为基础。由于s a m e j i m a 等级反应模型以及派生模型较为 复杂,只能采取迭代算法求得等值常数的数值解。国内的研究者丁树良等人也提 出了新的等值准则,但是其方法也都要求通过迭代求解。迭代算法通常对初值要 求较为严格,否则即使收敛也不一定收敛到真正的解,而且使用数值解不易对等 值常数做进一步研究。 在阅读相关文献的过程中,作者发现文献 3 中l o g it 变换法二级评分模型 提出者对模型解的推导没有完成,造成解的形式比较复杂,影响到对解的进一步 研究。本文在前人工作的基础上,首先得到了l o g i t 变换法二级评分模型最简形 式解析解,完善并推广了这一模型。 本文采取将用于二级评分模型的双参数l o g t i c 模型推广到多级评分的思 路,提出了本文的多级评分模型。从h a e b a r a 和s t o c k i n g l o r d 的项目特征曲线 法的基本思想出发,将二级评分模型的l o g i t 变换法进行了多级评分模型的推广 和改进,并给出了新的求解等值常数的新方法,推导出了求解等值常数的解析解。 求解析解的计算量大大低于用迭代法求数值解,而且解析解中包含了更多的有用 信息。通过对解析解的分析,证明了这样得到的等值常数满足唯一性、对称性以 及与被试能力无关等对等值常数的基本要求。这是使用数值解无法做到的。最后 使用蒙特卡洛方法进行了大量的数值模拟,通过对模拟数据的分析,进一步验证 了等值常数解析解的正确性。并且从等值的稳定性、准确性方面比较了所提出的 新方法,分别说明了各种方法的相对优劣。检验了等值常数的解析解对项目参数 的随机误差的敏感性,检验了其稳定性。并与项目特征曲线法的迭代法进行了比 较,种种模拟检验说明:本文提出的针对多级评分模型求解等值常数的新方法适 合于项目参数含有随机误差的实际应用,而且简捷高效。 1 4 本文主要创新点 1 注意到了二级评分模型的l o g i t 变换法提出者对该方法的研究并未完善。 在他的工作基础上,给出了更好的结果。 2 将l o g i t 变换法的二级评分模型推广到多级评分,并进行了改进。给出了 求等值常数的解析解的三种方法。 3 通过对等值常数解析解的分析,发现了与项目反应理论一致的结论:项目 参数的估计独立于被试的能力。从而说明了使用本文模型求得的等值常数的合理 性。此外,与其他模型相比,求解时不必提供被试的能力参数,更加符合i r t 的 要求。 4 使用等值常数的解析解,从等值的角度理论证明了这样求得的等值常数具 4 第1 章绪论 有对称性、唯一| 生,满足对等值常数的基本要求。 5 利用实验数据,比较了使用三种求解等值常数的新方法进行等值的稳定 性和准确性。并与项目特征曲线法的迭代法进行了比较。分析指出了各种等值方 法的特点和使用范围,分别说明了各种方法的相对优劣,提出了使用建议。 北京t j 世大学硕士学位论文 第2 章理论基础 2 1 测验理论 2 1 1 经典测验( 测量) 理论( c l a s s i c a lt e s tt h e o r y , c t t ) 测验即考试制度,虽然发端于中国,但是针对考试所做的量化研究却于2 0 世纪之初兴起于西方n 7 1 。它的研究属于心理计量学、教育测量学范畴。测验等值 属于教育测量技术的前沿科学。它的发展经历了经典测验理论( c t t ) 和现代测 验理论( m o d e mt e s tt h e o r y ) 阶段。而现代测验理论中最有代表性的为项目反应 理论( i t e mr e s p o n s et h e o r y ,i r t ) 。 经典测验理论( c t t ) 是以真分数( 没有任何测量误差情况下被试某种潜在 心理特质的真正水平) 为理论基础,认为:观察分数等于真实分数与误差分数之 和,发展了信度、效度、难度以及区分度等概念系统,用以衡量一个测验方法或 考试题目的质量。它对测验中每一题目给出了难度与区分度的概念,通常定义题 目的难度为该题被试的通过率或得分率,题目的区分度为高分组与低分组该题得 分率( 或通过率) 之差或与总得分的相关系数。尽管这些定义比较直观,浅显易懂, 为目前大多数教育与心理测验所用,但具有一些难以克服的缺点: 1 首先,c t t 中的项( 题) 目难度及区分度等参数都与求得这些参数所使用 的被试样本密切相关,是一种样本依赖指标,被试样本的平均能力水平 和能力范围对这些参数值有很大的影响。因此,同一份试卷很难获得一 致的难度、区分度等参数 2 c t t 对被试的某项能力或特质水平的估计值只有当所有被试所用的都是 同一个或并行测验( 即复本测验) 时才是可比的,而对于同一能力或特 质的功能相同但不同测验的测验结果无法直接进行比较。 3 c t t 将每位被试者的钡0 量标准误差视为相同,而没有考虑被试者的能力 差别与测量标准误差的关系,因而理论假设受到怀疑。 2 1 2 项目反应理论( i t e mr e s p o n s et h e o r y , i r t ) 2 1 2 1 项目反应理论简介 自2 0 世纪6 0 - 7 0 年代以来,以项目反应理论( i r t ) 为核心的现代测验理论 取代了c t t 。i r t 是目前国际上应用相当广泛的一种测量理论。而我国在这方面 的工作的开展比较晚,但是已经取得了很多可喜的研究和应用成果。 项目反应理论( it e mr e s p o n s et h e o r y ) 也称潜在特质理论或潜在特质模型, 是一种现代心理测量理论,其意义在于可以指导项目筛选和测验编制。项目反应 理论假设被试有一种“潜在特质”,潜在特质是在观察分析测验反应基础上提出 的一种统计构想。在测验中,潜在特质一般是指潜在的能力,并经常用测验总分 第2 章理论基础 作为这种潜力的估算。项目反应理论认为被试对测验项目的反应和成绩与他们的 潜在特质有特殊的关系,通常用项目特征曲线( i t e mc h a r a c t e r i s t i cc u r v e ,i c c ) 来表示m 3 。i c e 描绘出被试对一个项目的正确反映概率尸( o ) 既与被试的潜在特质 0 有关,也与试题的参数有关。无论样本能力分布的情况如何不同,在一定项目 上获得一定答对概率所需的能力水平是相同的,它不随其所在能力分布的不同而 改变。无论由哪一组能力分布的被试作为样本来估计试题参数,其值都是相同的。 试题参数的估计独立于被试样本,能力参数的估计独立于试题样本1 。这是利用 i r t 进行等值的有利条件。当项目参数已知时,无论题目难易,在不考虑抽样变 化的情况下,同一被试的能力估计值是不变的。不同被试的能力估计值本来就是 在同一度量表上,因而具有可比性。这时不存在能力等值的问题。而当项目参数 未知时,项目被安排给两个不同的被试组施测。由于项目参数及能力参数都是未 知的,所以这时会出现同一项目( 如:难度参数) 在不同被试组中估计出的项目 参数不同的情况,但这只是表面上的差异,是因为能力或项目参数具有一定的不 确定性】。这时,我们就要利用i c c 的参数不变性,这种参数不变性在能力和项 目参数作线性变换的意义下保持不变3 。项目反应理论通过i c c 综合各种项目分 析的资料,使我们综合直观地看出项目难度、区分度等项目参数的特征,从而起 到指导项目筛选、编制测验和比较分数等作用。 2 1 2 2 项目反应理论的优越性 国外的很多考试已经实现了基于i r t 基础的计算机化自适应性测验,除了前 面提到的t o e f l :g r e 外,一些传统的智力测验如比奈测验、韦氏智力测验、瑞 文测验等也采取了i r t 作为分析的理论基础 3 。国外的一些权威性测评机构如 “美国教育研究联合会( a e r a ) 和“国家教育测量委员会( n c m e ) ”都相继开展 了对i r t 的讨论,理论上证实了其优越性3 。与c t t 相比,因为i r t 的等值克 服了许多c t t 在理论及操作上的不足,具有许多明显的优点: 1 c c t 是建立在样本依赖之上的测验理论;i r t 是建立在测验模型之上的 测验理论,显然更精确稳健。 2 i r t 明显的优点在于项目参数及能力参数估计的不变性。即:无论样本 能力分布如何,被试在同一项目上获得一定答对概率所需的能力水平是 相同的,它不随其所在样本能力分布的不同而改变,各项目的答对概率 仅与特定的能力水平有关,而与这一水平上的人数无关。无论用哪组能 力分布决定项目的参数,其值都是相同的。 3 i r t 的潜在应用更广泛,能进行c t t 不易做的等值,如:项目参数等值。 更是实现计算机自适应性测验必不可少的理论及指导。 由于i r t 将项目难度与心理特质( 能力) 定义在同一量表上,故也可以认为 北京t 业大学硕士学位论文 i r t 中的等值是将考核同一心理特质的多个测验形式系统地做出项目参数转换, 从而使不同测验形式中的项目参数之间具有可比性。 正是基于i r t 理论的上述优点,本文采取了i r t 理论进行测验等值的研究。 当然,任何事物都不会是十全十美的,项目反应理论虽然比经典测验理论具 有无可比拟的优势,但是也有其局限性:除了要求研究者具有一定的统计学知识 外,还存在主要源于该理论的基本假设的下列问题:l 单一维度:即假定测验的 所有项目只测查同一种能力或潜在特质。2 局部独立性:被试在不同项目上的反 应只受所测定的能力的影响,相互之间是独立的。3 单调性:被试对项目正确反 应的概率随着能力水平的增加而单调递增。由于这三条假设非常严格,近年来有 研究者在尝试建立新的测量理论n 。 2 2i r t 基础模型 i r t 中认为:对一个测验中项目的反应可以采用在数量上比测验项目少得多 的潜在特质来说明。该理论的“核心”是建立一类统计模型:具有某种特质的不 同能力水平的被试在一个项目上如何反应的数学模型,其实质就是给项目特征曲 线( i c c ) 配上函数表达式口1 。i r t 的基础模型主要有正态肩形曲线模型( n o r m a l o g i v em o d e l ) 、拉希模型( r a s c hm o d e l ) 、l o g i s t i c 模型m 1 。其中l o g i s 打c 模型 是二级评分模型比较常用的一种。该模型刻画了具有某种特质的被试对一道题目 的正确反应概率是被试能力的函数。 二参数的l o g i s t i c 模型是由伯恩鲍姆( b i m b a u m ) 在1 9 5 8 年将洛德( l o r d ) 的 双参数正态肩型曲线模型改变而来的。最初的正态肩型曲线模型的表达式为: r 2 尸,( 目) :兰一l 目,徊而g i 西 。4 2 x j - 。 由于表达式中有积分,应用上不方便,因此现在大多采用l o g i s t i c 模型,该 模型的形式为 1 l 。驴( x ) 2 寿 取x = d a ( 9 一b j ) ,贝0 有 1 乞( 秒) 2 瓦专而 这是双参数l o g i s t i c 模型,其中d 为常数因子,有人证明:当d 取1 7 时, 有i 1 蒡r p 一譬衍一 0 ,口越大表示在0 = b 附近,题目区分被试能力的作用越大;b 是题目的难度 参数,是使p ( e ) = 妄的能力参数值,一 b + c o ,b 越大表示题目越难。而对 z o l 评分模型来说,p ( o ) 是被试答对该题的概率,这时被试答题只有对与错两种 结果。 2 3 二级评分模型及多级评分模型 在i r t 中,根据评分的方式又分为二级评分模型和多级评分模型。二级评分 模型是指被试对项目的反应只有对与错,即:答对记1 分,答错记o 分,因此, 又称为0 1 评分模型。而多级评分是指根据被试对项目的不同反映给予不同的评 分。因此,针对我国的考试特色,二级评分模型适于客观题目的评分,多级评分 模型更适于主观题目的评分。显然,用多级评分进行测验比用二级评分进行测验 所得信息更丰富,测验结果更准确可靠。二级评分模型的项目特征曲线一般都采 用l o g i s t i c 模型。i r t 中用于主观题型分析的也有一些多级评分模型,如:等 级反应模型、评定量表模型、分部评分模型等。我国研究者从我国实际出发在研 究多级评分模型时一般采用的是s a m e j i m a 于1 9 6 9 年给出的等级反应模型,原因 是:1 该模型比较适合于我国主观题的评分形式,其逻辑顺序要求并非非常严格; 2 该模型的建模思想建立在二级评分模型的拓广上,这一模型容易被接受;3 该 模型的数学表达式是大家熟悉的l o g i s t i c 函数,数学处理较为方便n 引。 s a m e j i m a 等级反应模型分为单参数、双参数模型;其双参数的形式为: p ,o ( 臼) = 1 一p j ( p ) ; p 腑( 口) = p :( 臼) 一p , k + l ( 口) ( k = 1 , 2 ,k 。一1 ) ( 2 2 ) p 膻;( 矽) = 以,( 臼) ; 其中p 二( 护) 为双参数l o g i s t i c 函数的形式: p 2 ( o ) 。五e 蒜 ( 2 _ 3 ) l + ”“7 其中,b 趾为项目f 第k 等的难度参数,a 庙为项目i 第k 等的区分度参数, p 诸( 0 ) 表示能力为目的被试在测验项目f 恰获k 等分数的概率,p 二( 目) 表示能力为 秒的被试在测验项目f 获得k 等或k 等以上分数的概率 4 o s a m e j i m a 模型虽然使用了我们熟悉的l o g i s t i c 函数,但是将恰得k 等分数的 概率定义为两个l o g i s t i c 函数之差,而这两个l o g i s t i c 函数分别表示能力为目的 被试在测验项目f 获得k 等或k 等以上分数的概率,这就要求项目参数中的难度 北京工业大学硕十学位论文 必须是单调的,实际应用中这一条件不一定得到满足。本文给出了另一种多级评 分模型,对难度没有单调的要求。 2 4 测验等值 2 4 1 测验等值的基本要求 等值是有条件的,不是任意两个测验都可以进行等值的n 1 。必须满足下面的要 求才能等值: 1 ) 测验的一维性:要求等值的两个测验必须是测量同一心理特质的。 2 ) 只有当测量同一心理特质的两次测验的信度即可靠性相同或相近时才能等 值。 3 ) 测验等值的转换关系应具有公平性:两个或多个测验等值时无论以其中任何 一个作为基准来进行转换都是可行的,被试接受任何一个测验其分数转换后 结果是同样的。 4 ) 测验等值转换关系应具有唯一性:等值转换方程的求得应独立于被试样本的 特点和实测时的具体环境。 5 ) 测验等值转换关系应具有对称性:测验等值转换关系式可以双向进行,既可 以把测验x 的分数等值化为y 的分数,也可以从】,等值到丘 2 4 2 测验等值设计方法 在实际进行等值时,所有测验等值都包括两部分:测验等值设计( 数据的采 集方法设计) 和等值方法( 建立用于分析数据的统计模型,数据的处理) 。 要对不同次测验进行等值,就必须收集可以用于等值的数据,如果两个不同 测验间的分数没有统计关系,则无法使用统计方法使之产生联系。为揭示等值关 系需对测验的编制或施测的过程设计采集等值数据的方法,称此为测验等值设计 1 j o 测验等值设计方法一般分为两类,一类是以“入”为媒介的共同被试设计( “铆 人”) ,即让同一组被试接受用于等值的不同的测验版本:另一类是以“题目”为 媒介的共同用项目设计( “铆测验”) ,即在不同测验版本中有共同的题目。常用 方法有以下几种:随机等组设计、平衡单组设计、铆测验非等组设计口1 。其中随 机等组设计、平衡单组设计都是基于“铆人 的设计,认为被试样本来自同一个 总体或总体分布相同。然而,这在实际中是不容易实现的。因为在大型考试中不 可能采集一个样本让被试参加两次考试内容相同而形式不同的平行测验,同时两 份试卷的练习效应、疲劳及厌倦等因素的影响,会给结果带来显著的误差,大型 考试实际操作起来很困难。如,我国的高考,不可能让同一组人分别参加两次高 考;同时,不太可能获得总体分布相同的两个样本来分别参加两份测验,因为很 l o 第2 章理论基础 难证明两个样本的总体分布相同。因此,现在多数等值都采取了铆测验非等组设 计。 铆测验非等组设计:把应予等值的测验分别向不同的考生组施测,但这两个 测验都附加由共同项目组组成的附加测验,称之为“铆测验 。要求“铆测验” 是这两份测验的一个缩影。由其作为桥梁把测验x 和】,联系起来n 1 。 铆测验非等组设计虽然不要求两个被试样组的能力分布完全一样,也不会给 考生带来太大的练习效应和疲劳因素,但要求“铆测验 是这两份测验的一个 缩影。铆测验与等值的测验不论在难度上的差异还是内容上的差异都会对结果带 来误差。 2 4 3 测验等值方法 根据等值设计得到成批数据之后,就可以采用适当的方法对测验进行等值。 等值方法也依据测验理论不同而分为经典测验理论等值和现代测验理论等值。 经典测验理论的等值一般有三种方法:平均数等值法、线性等值法、百分位 数等值法。经典测验理论等值只能进行测验分数的等值,而题库建设及计算机自 适应性测验要求必须进行测验参数的等值。i r t 可以用来进行项目参数的等值, 因此,本文采取了现代测验理论的i r t 等值。 现代测验理论常用的等值方法为项目反应理论等值法( 是对测验项目的参数 进行等值) : 项目反应理论等值的优越性在于:试题参数的估计独立于被试样本,而被试 的能力估计与试题无关。 当同一道题目被安排给两个不同的被试组施测时,由于项目参数和能力参数 都是未知的,这时同一题目在不同组中估计出来的项目参数可能并不一样,这是 由于度量的量纲系统不同造成的。按照项目反应理论,同一道题目在不同量纲系 统上估计出的两套参数间具有以下线性关系: f 8 以= q 9 。+ j b b z = 动可+ ( 2 4 ) il 【2i 口巧 其中g x 7 , b 掣分别是x 测验第_ ,道题目的区分度、难度参数,a y y , b 埘分别是】,测 验第道题目的区分度、难度参数,q ,哦。分别是被试f 在测验y 与测验x 上的 能力参数,口,是两套参数的转换系数,叫做等值常数。测验等值的主要工作就 是确定线性转换公式( 2 4 ) 中的口和,即确定等值常数。 利用此线性关系可以将不同测量系统中得到的估计值转化到同一测量系统 北京工业大学硕七学位论文 中去,这就是测验的等值,从而使两组被试的能力或两份测验的参数获得比较。 2 4 4 求等值常数的方法 i r t 等值的关键是求线性转换公式( 2 - 4 ) 中的等值常数口,对此有多种 方法:真分数等值法;回归等值法;均值和标准差等值法,稳健的均值和标准差 等值法,项目特征曲线等值法1 、l o g i t 变换等值法口1 等。但是这些方法都是用于 二级评分模型的。下面将常用的等值方法分别介绍一下,并分析它们的不足之处: 1 ) 回归法 回归法等值就是先找出要等值的两次测验题目参数间的线性关系,如: y = 放+ + e ,然后用最小二乘法求出相应的回归系数。这里的双】,分别表示 两次测验项目参数中的难度。等值常数口和的估计由 i ,、s , 弘岛葛 ( 2 删 l = y 一口x 厶山e s ;口l j j o 这里p x y 是x 与y 间的相关系数,x ,y 是x ,y 的均值,s x 2s y 是x ,y 的标准 差。回归法的不足之处是:回归关系不具有对称性,所以这种等值法也不具有对 称性引。 2 ) 均值和标准差法 氲】,分别表示两次测验项目参数中的难度。他们满足线性关系,y = 以+ 。 两边同时取均值、标准差得: ly = a x + 【s y = a s , ( 2 6 ) j 一 5 。 则得口和的估计: 口2i (2-7) l 一 一 【= y ax 其中,苁】,分别是x ,】,的均值,s ,s 。分别是x ,y 的标准差。该方法虽然是对称 的,但没有考虑到每个项目参数和能力参数的估计精度是不一样的。而且该方法 只使用了项目难度之间的关系而没有使用项目区分度之间的关系。因此,使用该 方法得到的等值常数不是很精确。 3 ) 稳健的均值和标准差法 为了避免上述方法的不足,有人提出了稳健的均值和标准差法,主要思想是: 1 2 第2 章理论基础 用两个测验的能力参数或项目难度参数组成数对( x ,】,) ,每个x ,】,都有自己的估 计标准误差。因此,要给每个数加权,权数就是两个估计方差中较大的一个的倒 数。采取对每对数据赋予不同的权重时,估计误差较大的数据由于可靠性不高而 给予较小的权重,估计误差较小的数据由于可靠性较高而给予较大的权重1 。 此方法虽然改善了稳健性,但由于此方法只使用了项目难度之间的关系而 没有使用项目区分度间的关系,因而存在与均值和标准差法同样的准确性缺陷。 4 ) 项目特征曲线法 项目特征曲线法利用了心理学研究的相关信息和所有参数信息,被认为是最 理想的参数等值方法。黑巴诺( h a e b a r a ) 1 9 8 0 年首先提出用此方法进行等值常数 的求解,后来斯托金( s t o c k i n g ) 和洛德( l o r d ) 在1 9 8 3 年也提出了类似的确 定等值常数口,的方法,但其条件比黑巴诺的相对宽松一些。 项目特征曲线法的思想是:如果参数估计没有误差,则能力相同的考生在两 个测验中的共同项目上的得分概率相同。 设能力为谚的被试在测验x 上的第,个项目的得分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 供应链管理规范
- 分布式并行计算细则规定
- 绿色节能型中央空调采购及安装一体化服务合同
- 离婚协议书范本及离婚后子女探望权行使规定
- 离婚协议子女户口迁移与子女安置及财产分割合同
- 人工智能技术研发企业股权收购与成果转化协议
- 智能物流科技公司股份转让与物流配送优化协议
- 生态农业示范区树木种植与循环农业合作协议
- 离婚协议书:车辆分配及保险理赔期限及费用承担协议
- 离婚协议中子女教育经费及财产分割模板
- 电信公司炒店活动方案
- 中层干部面试题库及答案
- 2024年食品安全抽检监测技能大比武理论考试题库(含答案)
- 《 大学生军事理论教程》全套教学课件
- 全国质量奖现场汇报材料(生产过程及结果)课件
- 政策评价-卫生政策分析课件
- 高中物理实验—测定物体的速度及加速度(含逐差法)
- 饮食习惯与健康
- 华为人力资源管理纲要2.0
- 第二章 园艺设施的类型、结构、性能及应用
- 银行卡收单外包服务协议范本
评论
0/150
提交评论