(计算机科学与技术专业论文)基于irt的自适应考试系统的研究与设计.pdf_第1页
(计算机科学与技术专业论文)基于irt的自适应考试系统的研究与设计.pdf_第2页
(计算机科学与技术专业论文)基于irt的自适应考试系统的研究与设计.pdf_第3页
(计算机科学与技术专业论文)基于irt的自适应考试系统的研究与设计.pdf_第4页
(计算机科学与技术专业论文)基于irt的自适应考试系统的研究与设计.pdf_第5页
已阅读5页,还剩74页未读 继续免费阅读

(计算机科学与技术专业论文)基于irt的自适应考试系统的研究与设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 摘要 考试是教学活动中最重要的环节之一,随着计算机技术和网络技术发展日益 成熟,各种类型的网络考试系统不断涌现出来。目前大部分的考试系统都是基于 传统的经典测试理论( c t t ) ,其存在的问题是不能客观、准确地测试出考生的知识 和能力水平等。本文将尝试采用项目反应理论( i r t ) 去解决这些问题,实现一个“因 人施测”的自适应考试系统。 计算机自适应考试( c o m p u t e r i z e da d a p t i v et e s t i n g ,简称c a t ) 是以项目反应理 论为指导,同时也是近年来将计算机技术应用于教育测量学并取得重大进展的考 试方法,它在很大程度上弥补了基于经典测试理论传统考试的不足。由于国内实 用的c a t 很少,所以c a t 系统的研究有着很大的空间和实用价值。 本文首先在介绍了三种教育测量理论的基础上,较详细地论述了项目反应理 论的基本原理、模型、参数估计以及信息函数等。分析比较了目前c a t 开发的三 个重要算法,在此基础上提出了实现c a t 考试系统的解决方案。本系统采用三参 数逻辑斯蒂模型( 3 p l m ) 来描述项目特征性与考生特质水平之间的关系。然后基于 3 p l m 与c a t 考试特点建设一个i r t 题库,并就建设题库过程中所涉及到的各项 参数估计方法深入讨论。本文以i r t 项目参数不变性为基础,同时充分结合c t t 理论的优点,利用c t t 与i r t 的统计结果之间存在某种相关性,进行项目参数估 计。 最后以i r t 为理论基础,采用j 2 e e 技术、m v c 三层设计模式和b s 架构实 现了一个基于i r t 的自适应考试系统。经蒙特卡洛模拟实验,得出一些评价指标, 反映出本系统有较好的准确性和测验效率。并对全文进行小结,提出了进一步研 究的方向和内容。 关键词:l r t ;l r t 参数估计;自适应考试;题库;选题策略 英文摘要 a b s t r a c t e x a mi so n eo ft h em o s ti m p o r t a n tl i n k si nt e a c h i n ga c t i v i t y , n o w , w i t l lt h e i n c r e a s i n gm a t u r i t y o ft h e d e v e l o p m e n to fc o m p u t e rt e c h n o l o g ya n dn e t w o r k t e c h n o l o g y , m a n yk i n d so fn e t w o r ke x a m i n a t i o ns y s t e ma r ee m e r g i n g m o s to f t h et e s t s y s t e m sa r e b a s e do nt h ec l a s s i c a lt e s tt h e o r y ( c 邢c u r r e n t l y t h e r e f o r e ,s o m e p r o b l e m se x i s ts u c h a st e s t e r s k n o w l e d g ea n da b i l i t y l e v e l sc a nn o tb et e s t e d o b j e c t i v e l ya n da c c u r a t e l ya n ds oo n i nt h et h e s i si t e mr e s p o n s et h e o r y ( i r t ) w i l lb e u s e dt os o l v et h ep r o b l e m sa n da c h i e v ea na d a p t i v et e s ts y s t e mw h i c ht e s t sa c c o r d i n gt o t e s t e r sa p t i t u d e c o m p u t e r i z e da d a p t i v et e s t i n g ( c a t ) i sb a s e do ni r t , a n d i ti st h em e t h o do ft h e c o m p u t e r t e c h n o l o g ya p p l i e di n e d u c a t i o nm e a s u r e m e n tw h i c hh a sm a d es i g n i f i c a n t p r o g r e s si nr e c e n ty e a r s c a tm a k e su pt h ed e f i c i e n c yo ft h et r a d i t i o n a lt e s tw h i c hi s b a s e do nc t tt oal a r g ee x t e n t p r a c t i c a lc a ti sr a r ei nd o m e s t i c ,s ot h es t u d yo fc a t s y s t e mi ss p a c ea n dp r a c t i c a lv a l u e i nt h et h e s i s ,t h eb a s i cp r i n c i p l e ,m o d e l ,p a r a m e t e re s t i m a t i o na n di n f o r m a t i o n f u n c t i o no fi r ta r ed i s c u s s e db a s e do nt h r e ee d u c a t i o nt e s tt h e o r i e s t h e s i sc o m p a r e s c u r r e n tt h r e ei m p o x t a n ta l g o r i t h m so fd e v e l o p m e n tc a t , a n dap l a nt or e a l i z ec a t s y s t e mi sp u tf o r w a r d t h i ss y s t e m su s et h r e ep a r a m e t e r sl o g i s t i cm o d e l ( 3p l m ) t o d e s c r i b et h er e l a t i o n s h i pb e t w e e nt h ep r o j e c tc h a r a c t e r i s t i ca n dt e s t e r st r a i tl e v e l t h e n , c r e a t eat e s td a t a b a s eb a s e do nt h ec h a r a c t e r i s t i c so f3 p l ma n dc 峨a n dd i s c u s st h e e s t i m a t i o nm e t h o d so fp a r a m e t e r sd e e p l y i nt h et h e s i s ,u s et h ec o r r e l a t i o nb e t w e e nt h e s t a t i cr e s u l t so fc t ta n di r tt oe s t i m a t ep r o j e c tp a r a m e t e r s w h i c hi sb a s e do nt h e i n v a r i a n t eo fl r ti t e mp a r a m e t e ra n d 、) ,i t ht h ea d v a n t a g e so fc t t a tl a s t ,t h ea u t h o ru s e sj 2 e et e c h n o l o g y , t h r e e - t i e rm v cd e s i g np a t t e r na n db s s t r u c t u r et oa c h i e v eac a ts y s t e mw h i c hi sb a s e do ni r tt h e o r y t h ea c c u r a c ya n d e f f i c i e n c yo fs y s t e mi sp r o v e db ys o m ee v a l u a t i o ni n d e x e st h r o u g hm o n t ec a r l o s i m u l a t i o ne x p e r i m e n t i nt h ee n d ,t h et h e s i ss u m m a r i z e st h ef u l lt e x ta n dp r o p o s e dt h e d i r e c t i o na n dc o n t e n tf o rf u r t h e rr e s e a r c h k e yw o r d s :i r t ;i r tp a r a m e t e r ;c a ts y s t e m ;t e s td a t a b a s e ;s e l e c t i o ns t r a t e g y 大连海事大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果,撰写成硕士 学位论文= = 基王! 盟丝自适廛鲞道丕统的班蕴星退让:。除论文中已经注明引用的内容 外,对论文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本论文中不包 含任何未加明确注明的其他个人或集体已经公开发表或未公开发表的成果。本声明的法律责 任由本人承担。 学位论文作者签名:彳马壶毕j 学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连海事大学研究生学位论文提交、版权使用管 理办法”,同意大连海事大学保留并向国家有关部门或机构送交学位论文的复印件和电子版, 允许论文被查阅和借阅。本人授权大连海事大学可以将本学位论文的全部或部分内容编入有 关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。同意学校 有权将本学位论文加入全国优秀博硕士学位论文共建单位数据库。保密的论文在解密后遵守 此规定。 保密口,在 :年解密后适用本授权书。 本学位论文属于:保密口 不保密口( 请在以上方框内打“”) 论文作者签名:彳参捌牟幺导师签名:鸯筵茹i : 日期:加够年7 月 。 基于i r t 的自适应考试系统研究与设计 第1 章绪论 1 1 自适应考试研究背景 考试是教育评价的主要方式,担负着因材施教、选拔人才、评价教学等众多 功能。随着教育的普及,考试种类层出不穷,考试要求也随之提高,传统的人工 出题、考生考试、人工阅卷、成绩统计评估及试卷分析的考试形式已经不能适应 现代考试的需要。最近几年的考试方式陆续采用无纸化考试,通过开发相关的考 试系统和考试题库来进行。但目前大部分的考试系统都是基于传统的经典测量理 论( c t t ) ,而且这些考试系统只是简单的将传统的人工出题方式改为计算机出题, 或者将笔试改成上机考试。此种考试系统,允许教师根据考试需要从题库中抽取 试题生成试卷,然后考生直接在机房进行网络在线考试。 一个考试系统,一般由自动和手动两种组卷方式。自动组卷是系统根据教师 提供的信息量进行计算机组卷;而手动组卷则是人为从题库中选题,然后组成试 卷。目前,虽然现有的网络考试系统提高的了工作效率,节省了教师出题、阅卷 的时间,但是它们在一定程度上还存在一些问题。首先是试题各参数的确定问题, 虽然试题的难度系数是由有经验的教师专家预先设定的,但由于受主、客观的影 响,靠经验指定肯定有误差;其次是同题型同知识点的试题重复出现,对某个知 识点往往会有多个类型相同的试题,在组卷时可能会同时出现;再次是这种基于 经典测量理论的传统考试不能测出所有考生的真实水平,无法建立考生得分与测 验题目参数之间的关系,对能力低和能力高的考生往往缺乏精确的估计,题库建 设维护工作存在问题等。现有的考试系统往往缺乏科学考试理论的指导,只是把 大量的题目收集到数据库中,对于试题的难度、知识点以及区分度等信息很少涉 及。如何结合新技术的发展,客观、准确地测试出考生的知识和能力水平,已经 成为现代教育测试研究的热点问题。 计算机自适应考试( c o m p u t e r i z e da d a p t i v et e s t i n gs y s t e m ,简称c a t ) 是建构 在2 0 世纪5 0 年代发展起来的现代测验理论一项目反应理论( i t e mr e s p o n s et h e o r y , 简称i r t ) 基础上,同时也是近年来将计算机技术应用于教育测量学并取得重大进 展的考试方法。随着计算机技术的发展,i r t 得以迅速推广应用【l 】。目前一些大型 的考试t o e f l 、g r e 等,都相继采用了以i r t 为理论基础的计算机化适应性测验方 1 第1 章绪论 式,一些传统的智力测验如比奈测验、韦氏智力测验、瑞文测验等也将i r t 作为分 析的理论依据。i r t 的前景是无可争议的。 1 2 自适应考试的优势 传统考试的思想是一次考试以固定的考题考核每个考生,所有考生都接受一 套固定结构试卷的测验。由于传统考试项目组合固定,而现实的考生能力有高低, 难以测出所有考生真实水平。以经典测量理论为基础的传统考试系统,其中的试 题参数与考生得分是在不同的基础上分别求得的,所以无法建立考生得分与试题 参数之间的关系,且主要针对中等水平的考生,对能力高和能力低的考生往往缺 乏精确的估计。 自适应考试在很大程度上弥补了基于经典测量理论传统考试的不足。 1 从心理学角度分析,因为自适应考试的试题与考生能力相适应,考生会更 有积极性做完试题,减少因为题目太难或太易而造成的心理的负面影响的 可能性【2 】。 2 自适应考试能在很短时间内对考生能力做出评价,缩短考试时间。 3 自适应考试总是抽取与考生能力相适应的题目,考生将更容易发现自己对 哪方面的知识掌握的不足,从而帮助他们有针对性的学习。 4 自适应考试还解决了考试跨度与精度难以兼顾的困难。 自适应考试可以不以试卷形式进行考试,而是以试题的形式,根据考生的上 一道试题的答题情况决定下一试题的内容,结合i r t 题库的建立,在一定程度上降 低了试题重复率。 1 :3 自适应考试在国内外发展现状及研究意义 计算机化自适应测验是以项目反应理论( i r t ) 为指导进行的,可以说项目反应 理论是自适应考试的核心。项目反应理论起源于2 0 世纪初的现代测量技术,真正 建立于5 0 年代,在7 0 年代得到了迅猛发展。从7 0 年代起到现在,项目反应理论已 成为美国、欧洲、日本以及澳大利亚等西方国家心理与教育测量专家们研究工作 中的一个主要课题【3 1 。 如今在美国,自适应考试己在教育测试、职业测试、人事测评等领域中大显 基于i r t 的自适应考试系统研究与设计 身手,如美国研究生入学考试( g r e ) ,工商管理类研究生入学考试( g m a t ) 以及全 美护士国家委员会资格考试( n n c l t ) 等都己采取了自适应考试方式。美国n o v e l l 公司于1 9 9 1 年成功地应用了自适应考试进行认证考试,参j j l :i n o v e l l 自适应考试的人 数已超过1 ,0 0 0 ,0 0 0 人次【4 1 。 1 9 8 4 年,北京语言大学汉语水平考试中心设计并开发了基于经典教育测量理 论的中国汉语水平考试( 简称h s k ) ,目前,已经共有来自1 2 0 多个国家的约1 0 0 多 万人参加了考试。随着考试模式和内容的改革,以及教育理论的发展,国内出现 了一些应用型的研究,如江西师范大学进行了小学数学计算机自适应考试的研究、 华南理工大学进行了数据结构自适应考试系统的开发、上海交通大学国际教 育学院的教师也在进行相关课题研究一汉语水平机助自适应测验系统题库建设理 论研究【5 1 。全国大学英语四、六级考试委员会一直致力于项目反应理论和“机助自 适应测验 的研究和开发。 国内研究基于w e b 的考试系统的热潮正在兴起,但对自适应的考试系统还处于 研究状态。目前项目反应理论已成功的用于c e t 分数等值处理过程中,但自适应测 验软件正在研究建设过程中,目前还没有成品的软件模型问世【6 】。由于国内目前尚 未出现正式的大规模考试采用c a t 考试,实用c a t 很少,现有c a t 中参数估计方 法靠开发者的经验探索,有的科学性和合理性还有待理论证实和实践检验,所以 适合大规模考试的c a t 系统的研究有着非常大的空间和实用价值。 1 4 研究目标和主要内容 本文研究目标:建立一个良好的l r t 题库,在题库建设中解决试题参数估计问 题;设计三个重要算法:能力值估计、选题策略和终止规则;采用j 2 e e 技术,最 终实现一个自适应考试系统。 本文组织结构如下: 第1 章绪论。简单介绍了自适应考试研究背景、自适应考试的优热以及国 内外发展现状。 第2 章自适应考试系统的理论基础。自适应考试系统相关理论研究,简单分 析了教育测量理论发展过程中的三种测量理论:经典测量理论、概化理论、项目 反应理论。着重介绍了项目反应理论,主要内容有i r t 模型、参数估计、项目测验 第1 章绪论 信息函数。对三种理论进行了比较研究,以及现在的应用情况。 第3 章自适应考试系统的实现技术。介绍了该系统实现将采用的技术。 第4 章自适应考试系统的总体设计与分析。进行系统需求分析,形成合理的 用例模型,设计出数据库的逻辑表结构和系统的体系架构,进行系统功能模块划 分,分析了自适应考试的过程。 第5 章基于i r t 的题库建设。本章节分别论述了命题规划、试题参数估计( 难 度、区分度、猜测系数、能力值) 、试题曝光率和内容平衡问题,以及题库题量 的问题,并对题库进行了结构设计。 第6 章自适应考试系统的实现。基于项目反应理论,结合开发技术,完成自 适应考试系统的页面设计及代码编写,最终实现了自适应考试系统。 第7 章系统测试与小结。用蒙特卡洛模拟实验来分析该系统的性能,进行系 统测试,对全文进行小结,并提出了下一步研究工作。 基于i r t 的自适应考试系统研究与设计 第2 章自适应考试系统的理论基础 1 9 0 5 年,b i n e t s i i n o n 在法国推出了人类第一个客观的心理测量,它是测量理 论的真正开始。随着美国心理学家桑代克具有划时代意义的论著精神与社会测 量导论的出版,教育测量与评价理论得到了快速的发展。心理与教育测量理论 的发展经历了两个时期:5 0 年代前是经典测量理论阶段;自5 0 年代至今,除了经 典测量理论外,还有概化理论、项目反应理论等,是一个多种理论并存的阶段。 经典测量理论建立了一系列题目分析的公式,对等值、建立试卷与考分转换等均 有一套较为完整的方法。所以,2 0 世纪以来,在世界范围内,经典测量理论一直 是教育测量理论的理论基础。但人们在测试实践中,发现该理论存在许多无法克 服的问题。为了克服经典测量理论的缺点,项目反应理论随之产生。下面,对三 种测量理论进行比较分析。 2 1 经典测量理论 2 1 1 经典测量理论的基本原理 经典测量理论( c l a s s i c a lt e s tt h e o r y ,简称c t t ) 的理论基础是真分数理论【_ 7 1 , 是一种随机抽样理论,该理论提出了三个假设【8 】:真分数具有不变性、误差是完全 随机的、观测分数是真分数和误差分数的和,所以c t t 把测验得分( 通常称为测验 的观测分数) 看作真分数和误差分数的线性组合,可归结为如下简单的数学模型: x = 丁+ e 。其中工是观测分数,丁是真分数,e 是误差分数。e 是一个随机变量, 如果测量次数足够多则e 的均值接近于零。在三个基本假设的基础上,真分数理论 得出了如下两个重要推论:第一,真分数等于实得分数的平均数( t = e ( x ) ) ; 第二,在一组测量分数中,实得分数的方差等于真分数的方差与误差分数的方差 之和,即( s 2 x = s 2 t + s 2 e ) 。传统的测验信度、效度、项目分析的原理与方法 均建立在这一模型之上1 9 。经典测量理论比较成熟,使用范围非常的广泛,现在很 多标准化测验大规模考试,都是建立在真分数理论之上的。但在实践中,真分数 理论逐渐暴露出它的局限性。 第2 章自适应考试系统的理论基础 2 1 2c t t 的局限性1 1 0 l 1 抽样变动大 项目统计量( 项目难度和项目区分度) 依赖于测验所实施的考生样组。比如答 对率即难度p = r ,( r 是答对该题的人数,是答该题的总人数) 如果样本中 含能力高的考生越多,则尸值越高;相反若样本中含较多低于平均能力的考生, 则户值较低。区分度也一样。 2 能力难比较 考生测验分数依赖于所施测项目( 试题) 的难度。不同测验测量同一种心理特 质时,会得到不同的测验分数。项目难度高,考生测验分数低。这样,考生在不 同测验上所得分数难以比较。 3 复本难实施 c t t 是在平行测验( 即复本) 假设下,估计测验信度和测量标准误,以达到预 期信度所需的测验长度的。所谓平行测验是指,能够对同一考生的同一特质作相 同准确测量的不同测验形式( 试题) 。事实上,平行测验是不可能实现的,所以由 此而进行的各种估计就不会非常精确。 4 缺乏预测力 c t t 不能提供不同能力水平的考生如何对项目做出反应的信息,而实际工作 中却往往要对考生答对各个项目的概率进行估计。 5 等测量标准误差 c t t 假设对所有考生测量误差的方差都相等,这是难以满足的。让较低能力的 考生参加较难测验,则测量误差大。 经典测量理论主要适合于进行观察分数等值,难以较好地满足题目参数等值 的要求。尽管真分数理论存在局限性,但经典测量理论现在还是生命力旺盛,且 应用极为广泛。 2 2 概化理论 随着经典测量理论在心理与教育测量中的广泛应用,其作用和地位日益显著, 但同时也暴露出其自身难以克服的不少弊端。针对c t t 的不足,c r o n b a c h 等人创 立了概化理论。概化理论( g e n e r a l i z a b l i t yt h e o r y ,简称g t ) 又称为概括力理论或 基于i r t 的自适应考试系统研究与设计 拓广理论【l l 】,它将因素试验设计及其分析、方差分量模型等统计工具应用到教育 与心理测量学。概化理论也属于随机抽样理论,它只是更多地从宏观结构上作了 深入分析。该理论认为,测验的观察分仅是可获得的观察分总体中的一个样本, 因而测验的编制出版者有责任说明他们对这个观察分总体是如何认识的。概化理 论与经典测量理论最大差别在于概化理论在测量误差控制方面更深入。 教育测量中形成误差的原因有多种,形成误差的原因不同、误差性质不同、 误差大小也不同。即使性质相同的误差,在不同条件下,其大小也可能不同,要 想测量可靠,就必须控制和缩小误差,对误差的来源、大小、控制手段都要了解。 g t 的主要任务就是区分误差的各种来源,并把误差方差分解成各个相应的方差分 量,为控制和减少测量误差提供依据。简单地说,概化理论就是,设计一个收集 数据的方案,对这些数据进行系统分析,然后根据分析结果对已实施的方案进行 修改,以得到更好的方案。 概化理论的局限性在于:对样本的依赖性较强。该理论模型的建立依赖于 对测验情境关系的详细调查,必然对样本有很大的依赖性;设计与分析复杂, 难以被使用者接受,这也是它未被广泛使用的原因。罗兹布认为:概化理论所指 的可获得的观察分总体仅在理论上存在,而在概化研究中,要得到如此众多的样 本,实际上是不可能的。 2 3 项目反应理论 2 3 1 项目反应理论的基本原理 经典测量理论的固有缺陷一精度指标不恰当、信度计算的前提要求实事上难 以满足,无法在该理论内部得到解决。从微观的角度对c t t 的突破诞生了项目反 应理论【1 2 】。项目反应理论( i r t ) 又称潜在特质理论或项目特征曲线理论,它是对 考生能力的一种估计,并将考生对单个测验项目( 试题) 的某种反应概率与此试 题的一定特质联系起来。该特征曲线包含了对试题的特征进行描述的试题参数和 对考生的特征进行描述的潜在特质或能力参数。从理论上说,有效地解决了经典 测量理论无法建立考生得分与试题参数之间函数关系的问题。 项目反应理论采用非线性模型;考生能力的估计不依赖于特定的试题,不同 的测验结果可直接比较;试题参数具有跨群体不变性;测验信息函数代替了信度 第2 章自适应考试系统的理论基础 理论,避免了平行测验的假设;对测验等值、适应性测验、标准参照性测验的编 制等问题给出了满意的解决办法 1 3 , 1 4 】。 2 3 2ir t 模型 目前应用最广的项目反应模型是以伯恩鲍姆提出的逻辑斯蒂模型为代表。根 据参数数量的不同,特征函数可分为单参数逻辑斯蒂模型( 1 p l m ) 、双参数逻辑 斯蒂模型( 2 p l m ) 、三参数逻辑斯蒂模型( 3 p l m ) 三种模型,其数学模型如下【1 5 】。 单参数模型z ( 秒) 2 再j = 南可 2 1 ) 双参数模型只( 乡) 2 再i 面1 万:万 2 2 三参数模型 只( 臼) = q + 尚 ( 2 3 ) 其中,( 臼) 表示能力水平为0 的考生答对试题f 的概率,护表示考生的能力水 平,匆表示试题i 的难度,e 表示自然对数的底e = 2 7 1 8 2 8 ,d 表示量表因子d = 1 7 , q 表示试题f 的区分度,q 表示试题i 的猜测参数。当猜测参数q = 0 时,即为双参 数逻辑斯蒂模型;当c = o ,a j = i 时,即为单参数逻辑斯蒂模型。 单参数模式中,考生答对试题的概率只( 秒) 只取决于试题的难度包,该模式最 为简单,设置的参数最少,目前应用到中小学的考试系统设计中比较合适。而对 于双参数模式,考生答对试题的概率只( 秒) 除了取决于试题的难度匆外,还有区分 度a j ,其参数设置适中,可应用于大专院校及社会上的各种考试系统设计中。而 高等院校的师资力量、硬件基础比较好,可以使用三参数模式。在三参数模式下, 考生答对试题的概率鼻( 臼) 则取决于试题的三个参数,难度6 f 、区分度口j 以及猜测 参数q 。 项目反应函数又称作项目特性函数,从上面的数学模型表达式可得出,考生 答对试题f 的概率( 乡) 是考生能力水平跟试题难度的差值( 0 一匆) 函数,其取值范 围是( o ,1 ) 。在项目反应理论中,试题的参数具有不变性,即a i ,勿,c ,的值是固 定的,因此p ( 乡) 只随考生能力水平的变化而变化。 图2 1 是逻辑斯蒂三参数模型的特性曲线,是一个s 形点对称曲线【1 6 】,它描 8 基于i r t 的自适应考试系统研究与设计 述的是各种特质水平的考生,对某一试题的正确反应概率。 图2 1 逻辑斯蒂三参数模型的特性曲线 f i g 2 1i n d i c a t r i xo ft h r e e p a r a m e t e rl o g i s t i cm o d e l 由于特质水平越高的考生答对概率越大,所以这条曲线应该是单调递增函数 曲线。试题的区分度a i ,即特征曲线的斜率,它的值越大说明试题对考生的区分程 度越高;试题的难度反,即特征曲线在横坐标上的投影,与护在同一量表中,曲线 的拐点( 斜率最大处) 在秒轴上的取值反可看成是项目的难度值,在该处答对试题f 的概率只( 秒) 就是( 1 + c ) 2 。匆值越大表示试题越难,匆值越小表示试题越简单, 这与经典测验理论中的难度值p 不同。在经典测验理论中尸值越大表示通过率越 高,试题越简单,尸值越小表示通过率越低,试题越难。;试题的猜测参数e ,即 特征曲线的截距,它的值越大,说明不论考生能力高低,都容易猜对。从图2 1 可 见,考生能力水平越高,答对试题f 的概率越大,随着考生能力的增强,答对概率 趋近于1 。理论上秒的取值范围是( ,佃) ,但实际上当秒取标准分数量表时的 取值范围是( 一3 ,+ 3 ) 。 项目反应理论中所用试题的统计参数( 如a t ,匆,c ) ,在收集试题时都无法得 知,需要经过抽样测试后,根据得到的数据进行精确估算而获得。对于这些参数 的估算有多种方法,通常采用的是极大似然估计法。 另外,有不少试题,即使是高水平考生,也难以完善作答,这反映在项目特 第2 章自适应考试系统的理论基础 征曲线上就是曲线尾部并不是以1 o o 为极限,而是低于1 o o 。因此,有人提出了 第四个参数r ,这样就得到了四参数逻辑斯蒂模型,表达式如下。 四参数模型 ( p ) = c i + i i r 画- - 静c i = 耵 ( 2 4 ) 2 3 3ir t 模型参数估计 一个项目反应模型包含试题参数和考生能力参数,在c a t 中,对能力参数估 计的常用方法有极大似然估计法和贝叶斯方法,本文着重介绍极大似然估计法, 为了计算方便,采用0 和1 的双歧记分法,用”。,表示考生f 对第题的作答反应, u o - = 1 表示答对,u i j = 0 表示答错。参数估计分为三种情况:第一种是各试题参数 已知,估计考生能力;第二种是考生能力己知,估计试题参数;第三种是同时估 计考生能力和试题参数1 1 6 1 。下面分别对三种情况进行讨论。 1 已知各试题参数,估计考生能力 在试题局部独立性假设的前提下,具有能力幺的考生对这聊个试题的作答模 式是一个朋维的向量,能力9 的考生对m 个试题作答的概率分布函数为: p ( ,掰ml 移) = np ( 秒尸q ( 秒) 1 ”f ( 2 5 ) 而全体考生的作答模式则构成一个行m 列的反应矩阵u = ,它的似然函数 为: 三( 秒,口,blu ) = 丌兀矽q ( 2 6 ) i = ij = l 其中秒= 瞑 ;口= q ;6 = 勿 ,是考生人数;m 为试题数,表示考生f 答 对第,个试题的概率,q = l e 表示考生f 答错第个试题的概率。当似然函数取 最大值时的秒值,称为秒的极大似然估计值秒,也就是说当考生的能力值护= 乡时, 考生对试题做出的反应模式的可能性最大。 根据极大似然估计的思想,求出最有可能的p 值,作为p 的估计值,使能取 极大值。通过高等数学方法求极值,得出l ( o ,a ,bu ) - 与t n t ( o ,a ,bu ) 同时达到极 值点,对数似然函数简化为: 基ti r t 的自适应考试系统研究与设计 卅 i nl = ( l n 弓+ ( 1 - u 口) i n q 口) ( 2 7 ) 根据高等数学知识可知,要求能力参数的h a l 的极大值,对9 的一阶求导使之等于 0 ,即: 酉d i n l = 。f = 1 ,2 由于式2 8 是非线性方程,可用牛顿一拉夫逊( n r ) 迭代方法求解。 ( 2 8 ) q 州= 谚- g ( s t ) g ( q ) t = o ,1 ,2 ,3 , ( 2 9 ) 其中g ( 乡) = 百o l n l2 。喜半掣, “小学圳喜血错豸塑。根据式2 9 龇直到满足迭代的 终止规则l 最) 一幺,) l g ( s 为预先指定的一个充分小的正数) ,可得口的极大似然 估计值乡。以上是一个能力值精确估计的过程,而试探性初估能力值即考生能力水 平的初值采用的方法是,取皖= l n 二,其中x 表示考生在本次测验中的得分, 一l - z x 表示失分,z 表示该测验的总分。 在大样本条件下,极大似然估计值刍有如下特征【1 7 】: ( 1 ) 极大似然估计法估计的能力值口是其能力真值6 i 的一致性估计,也就是说 随着试题数量的增加,能力估计值就会向它的真值收敛,即l i m b = 包。 刀o o ( 2 ) 能力估计值参近似于正态分布,其均值就是能力真值包, 方差为【,( 目) 】- 1 , 其中i ( o ) 表示测验信息函数。 ( 3 ) 在充分统计量存在的情况下,0 是充分统计量的函数。在使用双参数逻辑 斯蒂模型时,s ,= 口,u ,是待估计的能力参数乡的充分统计量。这就意 味着在s 的基础上对能力参数的估计是充分可靠的,不再需要其他信息。 2 已知考生能力,估计试题参数 第2 章自适应考试系统的理论基础 把考生的特质参数看作是已知的,用极大似然估计法估出试题的三个参数, 以区分度的估计为例,同样用牛顿一拉夫逊( n r ) 迭代公式2 1 0 计算,直到满 足迭代的终止规则k + 1 ) - - a ( 川 d ( m a x ) ,则z = d ( m a x ) ) , 返回执行1 ; ( 3 ) 若考生答对数少于2 道题,则z o 1 ( z 0 5 0 ( q o 5 0 ) ,则a 1 3 。也就是值越大,则难度越大;a 值越 小,则难度越小;= 1 3 表示中等难度。 下面对历年的c 语言考试结果进行统计分析。按照上述难度值计算步骤进行 计算,随机抽取5 0 0 个考生,把处于前2 7 的考生列为高分组,处于后2 7 的考 生列为低分组,均为1 3 5 份试卷,共2 7 0 份试卷。根据公式5 1 或5 2 计算各个试 题的难度值,部分计算结果如表5 1 所示。 表5 1 试题难度值 t a b 5 1d i f f i c u l t yv a l u eo ft e s t 计算出试题难度值后,根据试题难度转换为标准难度的步骤,得出试题的表 第5 章基于i r t 的题库建设 中难度值,上表中的难度值转换为标准难度值如表5 2 所示。 表5 2 试题标准难度值 t a b 5 2s t a n d a r dd i f f i c u l t yv a l u eo ft e s t 由表5 2 中的数据可以得出:值越大,试题难度越大;值越小,试题难度 值也越小。 用上述方法计算试题的标准难度较麻烦,常用比较简便的方法是根据高分组 通过率( k ) 与低分组通过率( b l ) ,通过范式项目分析直接查出标准难度值。 在范式项目分析表中,高分组通过率的范围是o 0 5 0 9 9 ,低分组通过率的范围是 0 0 1 一o 9 5 ,这样的话,当高分组和低分组在某些试题上的通过率超出了范式项目 分析表的范围,就无法通过查看表来直接得到标准难度值了。通过查看范式项目 分析表得出的标准难度值与通过公式计算出的标准难度值比较结果如表5 3 所示。 4 0 基t - i r t 的自适应考试系统研究与设计 表5 3 查表标准难度值与公式计算标准难度值比较 t a b 5 3c o m p a r eo fs t a n d a r dd i f f c u l t yv a l u eb yl o o k - u pt a b l ea n du s ef o r m u l a 上面方法估算出来的难度是基于经典测量理论中的难度,需要经过一些转换, 使之适合项目反应理论。本文采用一种简单可行的方法进行难度转换,借鉴考生 能力初值的确定方法,将难度值用经验式b = i n f - 加以修正,g 是c t t 的难度 l g 值。相关文献表明,用经验公式修正后得到的难度值与通过逻辑斯蒂模型求出的 难度值呈高度一致。因此,我们完全可以采用上述简单实用的方法进行难度估算 转换。此处需要将上述计算出来的难度值调整成难度值越大,试题难度也越大的 正比关系,只要将公式修改成b = l n ! 兰即可。这样用过修正公式计算出来的难度 g 值,与能力值相对应。那么表5 1 中的难度值转换成i r t 难度值如表5 4 所示。 表5 4i r t 难度转换 t a b 5 4i r td i f f i c u l t yc o n v e r s i o n 第5 章基于i r t 的题库建设 5 2 2 区分度 区分度是指试题对不同知识和能力水平考生的鉴别程度,即高分考生得分与 低分考生得分差值:差值大表示试题区分性能好;差值小表示试题区分性能差。 高分考生与低分考生得分都差不多,则表示试题无区分能力或零区分。 由于难度和区分度有一定联系,可根据难度的计算来确定区分度。按极端分 组法计算区分度的公式为d = 一眈或者用公式d = ( k 一置) w 进行计算。题 目区分度指数的范围为:一1 0 0 d + 1 0 0 。依据区分度指数的大小,一般对题目 有如表5 5 所示评价。 表5 5 试题区分度的评价标准 t a b 5 5e v a l u a t i o nc r i t e r i o no ft e s td i s c r i m i n a t i o ni n d e x 区分度指数( d )评价 0 4 0 以上 o 3 0 一0 3 9 o 2 0 一0 2 9 0 1 9 以下 非常好 良好,如能改进更好 尚可,用时需作改进 劣,必须淘汰或作修改以提高区分度后方可使用 根据第二章中经典测量理论与项目反应理论的联系,用公式q = 1 丝一,( 口f q 、一p 为项目反应理论中的区分度,肛为经典测量理论中试题f 的区分度) 将经典测量理 论中的区分度转化成项目反应理论中的区分度。对表5 1 中的试题进行区分度计算 得出的结果如表5 6 所示。 由于有的试题很简单或是曝光率很高,这样试题的区分度会很小,甚至等于o , 可以根据实际需要对试题进行调整。 上述的难度和区分度的估算方法虽然简单,但都能通过经典测量理论也项目 反应理论之间的联系,将c t t 的难度和区分度转换成i r t 的难度和区分度,最终 达到了目的。 基于i r t 的自适应考试系统研究与设计 表5 6 试题区分度 t a b 5 6d i s c r i m i n a t i o ni n d e xo f t e s t 5 2 3 猜测系数 由于目前还没有很好的方法来估计猜测系数c ,所以可以通过对题型结构的控 制来减少猜测对得分的影响。客观题型分为是非题和选择题,其中是非题在各类 考试中多有采用,而这种题对不懂的考生有5 0 答对的可能性,存在很大的弊端, 因此建议,除小学之外最好少采用此种题型。选择题随着命题日趋标准化,此题 型在试题中所占的比重也随之增大,在此种题型中广泛采用的有单选题和多选题。 单选题相当于在珊个答案中选择一个正确答案,猜测系数c 随脚的增大而减少,因 此在单选题中备选答案应尽量多一些,同时加强各选答案的模糊性。而多选题相 当于聊个答案中选择七个正确答案,此题总选择方式有 ,2 = c :+ c :+ + c := 巴,而只有一种选择方式是正确的,这样猜测系数 ,= l c = i l ,由此可见,多选题的猜测系数比单选题的猜测系数小得多。 q 5 3 曝光率控制 c a t 中另一个很重要的问题是试题的保密性和题库的利用率。目前,c a t 中 常用的选题方法是选择在当前的能力估计值附近有最大信息量的试题。这样做是 可以增加测量的精度,提高考试的效率。但某种特定的试题就比较容易被抽取, 第5 章基于i r t 的题库建设 而与此同时,相当多的试题则很少被选到,这就造成题库的试题曝光率非常不均 衡。这种不平衡的试题使用率降低了考试的安全性。2 0 0 2 年8 月7 日,e t s 官方 网站公告,鉴于亚洲部分地区g r e 考试的安全性出现问题,重新启用纸笔测试方 式,取代计算机自适应测试。e t s 做此决定的直接原因是,调查发现,在中国大 陆和韩国发现数个交流g r e 考试经验的网站,上面贴有g i 迮考生记忆的现有题 库中的大量题目 4 0 】。理想的情况下,在题库中所有试题都应该有相似的曝光率来 满足对考试安全性以及试题有效使用的需求。很明显,解决这一问题的一条途径 是降低高区分度试题的使用率而提高低区分度试题的使用率。 目前,试题曝光控制的方法主要有三种类型。随机方法;概率方法; 层化方法。前两种方法用于控制高区分度试题的曝光率,而第三种方法则用于得 到更平均的试题使用率。 1 随机方法【4 l 】 随机方法首先选出一批信息量最大的试题,然后从中随机地选择一个。这样 的话,在当前评估能力值对应的信息量最大的试题可能不会被选出。然而,这种 方法只是提供了对经常选择的试题的有限保护,并且不会增加那些很少选择的试 题的使用率。该方法与5 4 3 2 1 方法相似,它是由m c b r i d e 和m a r t i n ( 1 9 8 3 ) 提出的最早使用的随机选择过程,这个方法从5 个信息量最大的试题中随机选择 第一个试题,然后从4 个信息量最大的试题中随机选择第二个试题,以此类推, 直到第五个,剩余题目用最大信息量选题法。但是,这种方法被证明出在保证试 题安全性上并没有比没有采取曝光控制时要好。 r e v u e l t a 和p o n s o d a ( 1 9 9 8 ) 提出了改进方法,这个方法同时包含了随机选择 和最大信息量选题。考试一开始从同样多的信息量最大的试题中选择一个试题, 随着考试的进行,最大信息量法与随机选择角色互换,最大信息量法的影响逐步 增大。 2 概率方法【4 2 , 4 3 1 应用最广泛的概率方法就是s y m p s o n h e t t e r 方法( s h ) ,它包括两个阶段,第 一个阶段根据一系列针对目标人群进行的模拟c a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论