




已阅读5页,还剩69页未读, 继续免费阅读
(计算机应用技术专业论文)基于多约束线性离差求解算法的题库系统设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 皇曼曼曼曼曼量曼毫i i 一一一一一; i 一 i l l ! 摘要 随着信息技术的发展,计算机技术在教育测量、测试中的应用越来越广泛。 以信息技术为基础的计算机化测试,对于提高测试质量和公正、客观、准确的评 价测试群体、控制测试误差,以及对于人才的选拔具有重要意义。而这些测试的 前提和基础是要建立一个包含试题数据库、题库管理、测试实施、评价等功能的 测试题库( i t e mb a n k ) 系统,而组卷算法是衡量题库水平的重要指标之一。 本课题来源于北京教育考试院项目,以北京市高等自学考试为研究实例,根 据北京市高等自学考试现状和业务功能需求,采用“分步走”的策略,前期的工 作重点在于建立考试专用经典理论题库和系统,在保证目前考试顺利进行的前提 下,结合试测和实测,完成试题参数的采集以及考试模式的探讨和实验。 本文首先介绍了以计算机为基础的测试( c o m p u t e rb a s e dt e s t i n g - - c b t ) 和计算机自适应考试( c o m p u t e ra d a p t i v et e s t c a t ) 的相关理论与研究成果。 之后,重点介绍题库系统,包括建设基本理论知识、概念和国内外的发展现状, 并针对本课题的应用需求,设计了用于自动组卷功能的算法一“多约束线性离差 求解 算法( m u l t i p l ec o n s t r a i n tw e i g h t e dd e v i a t i o n sp r o b l e m ) 。 在完成上述理论研究工作的基础上,本文提出了完整的北京市高等自学考试 题库系统的解决方案,并设计了系统的总体结构。系统采用客户端朋艮务器端结 构,客户端处理用户的访问请求,将用户的访问请求发送到服务器端,并将服务 器端的响应数据返回给用户。服务器端响应来自客户端的访问请求,处理来自客 户端的各种信息并完成相应的业务逻辑处理、功能。 完成系统的总体结构设计之后,本文按照所制定的设计思路给出了模块化的 系统实现并着重介绍了负责整体系统的研究和题库系统实现、算法研究。最后, 本文对系统的实际应用进行了介绍,给出了应用实例并对应用情况进行了总结与 分析。 关键词c b t ;c a t ;题库系统;加权离差算法;多约束线性离差求解算法 a b s t r a c t a b s t r a c t w i t he v o l v i n gi n f o r m a t i o nt e c h n o l o g y ( i t ) ,c o m p u t e r sh a v e b e e n w i d e l yu t i l i z e d i ne d u c a t i o n a lm e a s u r e m e n ta n de x a m v a r i o u si t - b a s e dc o m p u t e r i z e dm e a s u r e m e n t a n de x a ms y s t e m sh a v ed r a m a t i c a l l yi m p r o v e dt h e q u a l i t y , f a i m e s s ,o b j e c t i v e n e s s ,a n d a c c u r a c yo ft e s t i n gs y s t e mi nt e r m so fa s s e s s i n ge x a m i n e e s ,a sw e l la sr e d u c i n gt h e m a r g i no fe r r o r a sar e s u l t ,i th a sp l a y e das i g n i f i c a n tr o l ei nt h ep r o c e s so fs e l e c t i o n a n dp r o m o t i o no fi n t e l l e c t u a l s d e v e l o p m e n to fs u c has y s t e mu s u a l l yi n v o l v e st h e d e v e l o p m e n t o fa l li t e m d a t a b a s e , i t e m b a n k i n ga n dm a n a g e m e n ts y s t e m , i m p l e m e n t a t i o n q a ,a n daf u l ls y s t e me v a l u a t i o n o n eo ft h ei m p o r t a n te v a l u a t i o n c r i t e r i ai sar o b u s ta l g o r i t h mo ft e s tc o n s t r u c t i o na n df o r m g e n e r a t i o n f u n d e db yb e i j i n ge d u c a t i o ne x a m i n a t i o n sa u t h o r i t y ( b j e e a ) ,t h i sr e s e a r c hh a s c a s e s t u d i e db e i j i n ga d v a n c e de d u c a t i o ns e l f - s t u d ye x a m ( b j a e s s e ) s y s t e mt of u l f i l lt h e f u n c t i o n a lr e q u i r e m e n t so fb j a e s s ei nl i g h to fi t sc u r r e n ts i t u a t i o na n df u t u r en e e d s ap r o g r e s s i v es t r a t e g yh a sb e e na d o p t e db yt h i sp r o j e c tw h i c hb e g i n sw i t ht h e d e v e l o p m e n to fi t e mb a n ko fw e l l - k n o w ne x a m si nt h ep a s t c o n s e q u e n t l y , w i t h o u t i n t e r f e r i n gw i t ht h eo n g o i n ga c t u a le x a m s ,e x p e r i m e n t so fi t e ms e l e c t i o np a r a m e t e r s a n df o r mg e n e r a t i o nh a v e b e e nc o n d u c t e dw i t hl a ba n df i e l dt e s t s t h i sp a p e rf i r s tr e v i e w sr e l e v a n tt h e o r i e sa n dr e s e a r c hr e s u l t so f c o m p u t e rb a s e d t e s t i n g ( c b t ) a n dc o m p u t e ra d a p t i v et e s t ( c a t ) t h e ni to u t l i n e si t e mb a n ks y s t e m i nt e r mo fu p t o d a t e dt h e o r ya n dc o n c e p td o m e s t i c a l l ya n di n t e r n a t i o n a l l y t of u l f i l l a na p p l i c a t i o nr e q u i r e m e n to ft h ep r o j e c t ,a na l g o r i t h mt os o l v e m u l t i p l ec o n s t r a i n t w e i g h t e dd e v i a t i o n sp r o b l e m h a sb e e nd e s i g n e dt oa u t o m a t et e s tc o n s t r u c t i o na n d f o r mg e n e r a t i o n u p o nt h ee s t a b l i s h m e n to fa b o v et h e o r e t i c a ls t u d y , t h i sp a p e ri n t r o d u c e sa c o m p r e h e n s i v es o l u t i o nt ob j a e s s e si t e mb a n ka n do v e r a l ls y s t e mi n f r a s t r u c t u r e d e s i g n ac l i e n t s e r v e r - b a s e da r c h i t e c t u r ei sa d o p t e db yt h es y s t e mi nw h i c ht h ec l i e n t ( a p p l i c a t i o n ) p r o c e s s e se n d u s e rr e q u e s ta n ds e n d si tt ot h es e r v e rw h i c hf e e d sb a c k i i i 北京t q k 人学t 学硕卜学位论文 t h er e q u e s t e dd a t a d u r i n gt h ep r o c e s s ,t h es e r v e ra l s oc a r r i e so u tr e l e v a n tb u s i n e s s l o g i c g i v e nt h eo v e r a l la r c h i t e c t u r ed e s i g n ,t h i sp a p e r p r e s e n t st h ei m p l e m e n t a t i o no f t h em o d u l a t e ds y s t e ma c c o r d i n gt ot h ec o n c e p t u a ld e s i g na n de x p l a i n si nd e t a i lt h e o v e r a l ls y s t e ms t u d y , i t e mb a n k i n gi m p l e m e n t a t i o n ,a n dt e s tf o r mc o n s t r u c t i o n a l g o r i t h md e v e l o p m e n t f i n a l l yt h ep a p e ra n a l y z e sa n ds u m m a r i z e st h ea p p l i c a t i o no f t h ed e v e l o p e ds y s t e mi na c t u a lc a s e s k e yw o r d s :c b t , c a t , t h ei t e mb a n ks y s t e m ,w e i g h t e dd e v i a t i o nm o d e l , m u l t i p l ec o n s t r a i n tw e i g h t e dd e v i a t i o n sp r o b l e m 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 入已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名: 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:益返导师签名:垒嬗日期:趔。3 o 第l 章绪论 1 1 研究背景 第1 章绪论 计算机化考试发展,从最初的c b t 考试,到目前的c a t 考试,无论从理论 还是实践研究,均取得了明显的效果。我国作为教育考试大国,考试已有近千年 历史。全国统一的大规模考试,如高等教育自学考试每年全国考试科次近千万, 全国计算机等级考试一次考试近1 2 0 万人次,几百万科次的四、六级考试,这样 的规模,以及我国目前的管理模式,成为了我国计算机化考试发展的限制。 我国的计算机化考试研究是近十几年才开始的,最早应用在高等学校工科大 学物理、数学、化学题库系统中。这些系统以计算机题库系统为基础,计算机作 为媒体工具只起到随机调取、统计报告结果的作用。之后,象全国计算机等级考 试的上机考试、a t a 公司的上机操作考试、n i t 计算机考试相对取得了进步,计 算机依据题库或卷库可以进行随机调取、施测、评分并报告结果,是基于题库系 统的c b t 考试。但对于c a t 考试,根据我国的实际情况,对于设备、场地、考 试持续时间、技术人员配备、监考管理、题库系统容量、题目试测等等,目前只 能处于研究阶段,和真正的实用还有一定的距离。 不论是哪种形式的计算机化测试,测试的编制与实施的基础是要有大容量、 高质量、参数表达在共同量尺上的题库,没有这样的题库,一切都是空中楼阁。 就我国目前考试的情况,直接一步达到先进国家水平并不现实,为缩小差距先期 的基础工作刻不容缓,建立大型题库系统并取得必要的题目参数,可为将来的 c a r 考试打下坚实的基础。 1 2 国内外研究现状 上世纪9 0 年代开始,国外出现了大量的c a t 考试,如e s l 阅读理解测试 ( 1 9 9 1 ) 、法语熟练能力测试( 1 9 9 5 ) 、日语熟练能力测试( 1 9 9 6 ) 、全美护士协 会职业资格考试等,国内应用最多的是g m a t 、t o e f l 考试。测量理论从i r t 的单参数模型到三参数模型,逐级递增。 在我国,基于c b t 的考试较多,如交通法规考试、全国计算机等级考试、 l 北京t 业大学t 学硕f 学位论丈 证券从业人员考试,高等教育自学考试计算机应用基础考试等,目前我国尚 无一项考试真正做到c a t 模式。c a t 模式前提较为苛刻,完备的大型题库系统的 建立需要大量的投入。其中,每道试题的精确测试所花费的人力、物力、财力以 及保密要求更是一般机构难以承受的。另外,c a t 的理论基础i r t ,对于多级赋 分的试题评分仍存在问题。因此,我国的c a t 考试面临的困难更大,还需要一段 较长的时间去实践。 在国内,题库建设提出已经有了2 0 来年,但到目前为止还处于初级阶段, 其主要原因有以下几个方面: 1 ) 题库系统的应用很少,需求很少,因此理论、系统及算法发展落后; 2 ) 从事测量、考核理论研究的专业人员很少,而且从事人员出现了年龄结 构的断层; 3 ) 单独从事考试理论研究的人员和计算机软件设计人员相对较多,但对理 论研究与软件设计两方面均熟悉的人员较少; 4 ) 征集的题库试题质量较低,直接影响到题库的质量; 5 ) 题库题目数量较大,但相比之下,题目利用率较低,造成了大量人力、 物力、资源的浪费; 6 ) 题库系统开发经费不足; 7 ) 题库中征集的试题需大规模试测,现实条件无法满足; 8 ) 系统维护、题目补充的经费及人员不足。 以上这些原因直接影响到我国考试测试理论及测试应用的发展,随着考试规 模及考试形式的变化,矛盾越发突出,这是对计算机人员、考试理论研究人员提 出的一个新的挑战。 1 3 研究内容与目标 根据我国国情现状,直接进入c a t 考试存在较大困难,因此,提出了“分 步走 的策略,一期工程建立考试专用经典理论题库和系统,在保证目前考试顺 利进行的前提下,结合试测和实测,完成试题参数的采集以及考试模式的探讨和 2 第1 章绪论 实验。在二期工程中,进一步向c a t 考试转化,完成最终的c a t 考试。 为打破以上题库系统建设的限制,成立专题小组,并先在高等教育自学考试 的四门课程试点采用c t t 题库系统。在此试点的基础上逐年第增至3 0 0 门课程, 这将极大地有利于减少人力、物力的重复劳动,提高试题的利用率,对于我国考 试机构的现代化建设和现代化考试理论建设都将有着重要意义,也是我国考试机 构命题管理上一次质的飞跃,它为以后的自适应考试( c a r ) 和多次开考奠定了 坚实的基础。 无论是c b t 或c a t 考试,计算机化的测试基础都是题库系统,其目的是利 用现有的数据库中的试题组成科学的试卷来测试、评价应试者。因此,组卷算法 是衡量题库水平的重要指标之一。虽然国外已有了成熟的理论和经验,但如何结 合我国的实际,在现有条件下,研制自己的系统和组卷算法很有必要,并在此基 础上,完成实验题库系统的研制。 1 4 论文的结构与安排 本文共分为四章: 第1 章绪论 介绍课题的研究背景、国内外研究现状、本文的研究内容和目标,以及本文 的组织结构。 第2 章基础理论与相关技术介绍 本章主要介绍计算机化考试、题库系统及组卷算法的研究现状,对其基础理 论与关键技术进行分析与总结。 第3 章多约束线性离差求解( m u l t i p l ec o n s t r a i n tw e i g h t e dd e v i a t i o n s p r o b l e m ) 算法的设计 本章对组卷算法的相关研究现状进行分析,并在此基础上,针对本课题的应 用需求,结合他们的优点,在“加权离差算法”基础上提出了“多约束线性离差 求解 ( m u l t i p l ec o n s t r a i n tw e i g h t e dd e v i a t i o n sp r o b l e m ) 。本章着重介绍了该算法 理论、两步法实现途径,即“加权离差算法 的“粗选 和“精选过程。最后 举例说明实施过程、方法以及效果。 第4 章系统进行总体设计设计与实现 本章就基于“多约束线性离差求解”组卷算法的题库系统的具体设计和实现 3 北京t 业人学t 学硕卜学位论文 机制展开论述。给出系统的总体结构,介绍系统的工作原理,详细分析系统的 模块构成,对本人承担的负责整体系统的研究和题库系统实现、算法研究进行详 细阐述。并介绍该系统在北京市高等自学考试管理平台项目中的应用情况,并对 实际应用情况进行分析与总结 结论 总结了本论文的主要工作,并对下一步的工作进行了展望。 4 第2 章幕础理论j 相关技术介绍 第2 章基础理论与相关技术介绍 2 1 引言 本章我们将着重介绍计算机化考试、题库系统及组卷算法的研究现状,对其 基础理论与关键技术进行分析与总结。 2 2 计算机化考试系统理论 2 2 1 发展过程 随着计算机技术的发展,在教育、教育测量领域中得到了广泛应用,最早出 现了以美国军方为代表的计算机管理的测试。 c b t c b t ( c o m p u t e rb a s et e s t ) 是最简单的基于计算机测试,包括计算机存储的 单份测验( 如m m p l 人格问卷等) 和计算机存储卷库测试( 如高等教育自学考 试、全国计算机等级考试等) ,它由计算机随机调取、施测、评分、报告结果, 是非基于题库的测试。只是借助于计算机单纯的存储技术,这时使用的理论基础、 策略原则、算法规则多采用真分数理论也称经典理论( c t t ,c l a s s i c a lt e s t i n g t h e o r y ,它以测验信度理论为核心内容,认为观察分数是真分数与误差分数的 和) 。如表2 1 所示。 北京t 业人学t 学硕f 一学化论文 表2 - 1经典理论应用 t a b l e2 - 1c l a s s i c a lt e s t i n gt h e o r y 分类 事例 完成工作 菲基于题库计算机存储单份测试 人格问卷、1 6 p f 、 计算机施测、评 的测试瑞文推理测验分、报告结果 计算机存储卷库测试全国计算机等级考计算机存储、调 试、高等教育自学取、排版、施测、 考试评分、报告结果 基于题库的自适应测试定长测试 m c s e 计算机管理题库、 测试 ( c a t ) 可变长度测试g & r测试、评分、报告 结果 自动组卷经典理论 计算机应用基计算机管理题库、 础 组卷、排版、评分、 项目反应理论 t o e f l 报告结果 ( i r t ) 随着计算机性能的不断提高,个人计算机和程序设计的普及,以及教育测量 理论的进一步成熟,推动了计算机自适应考试的发展。 c a t c a t ( c o m p u t e r a d a p t i v et e s t ) 即计算机自适应考试,它是由适应性测验 ( t a i l o rt e s t ) 发展而来。美国心理学家l 0 r d 于1 9 7 1 年最早提出了c a t ,即测 试本身自动的去适应应试者的具体情况,在施测试题的难度和数量上,根据应试 者的特点灵活变通。自适应测验要求对不同水平的应试者用一批难度和数量不同 的试题,每道试题的质量参数都能根据试测资料实际算出,并采用等值方法转换 到同一量表中进行比较。 欧洲学者w e i s s 和k i n g s b u r y 在1 9 8 4 年对c a t 进行了描述:它是由项目反 应理论( i r t ,i t e mr e s p o n s et h e o r y ,它建立在潜在特质理论基础上,它通过项 目特征曲线研究应试者在测验项目上的反应行为与测验所测的应试者潜在特质 问的关系) 和自适应测试以及交互式计算机测试管理共同组成的。由于高速计算 6 第2 章幕础理论j 相关技术介绍 机和先进技术的共同孵化,以及在i r t 基础上的试题选择算法,使c a t 考试可 行性大大提高,它使个性化的测试题目选择成为可能。c a t 依靠大型题库,采 用i r t 理论,自行适应应试者水平,灵活选用难度最适合的项目进行测试,以达 到最精确测试的目的。 典型的c a t 测试步骤如图2 1 。 计笸棚从颢虚审诜柽一个颢l 异仉肌咫阡1 。地丁千 咫厂 1r 题目显示在计算机 0 l 应试者根据试警键入或选择答案 不i 士 公正确 豁少- l 下道试题黻蜘 是否满足预 l 则说明题目具有高区分度;b 为题目的难度, 与能力量表口在同一量表中,即特征曲线在横坐标上的投影,取值范围 一2 b + 2 ;c 为题目的猜测系数,即特征曲线的截距。通常定义为应试者能力 水平远低于项目难度2 a 个单位的那些人在该项目实际猜测作答获得成功的概 率。它的值越大,说明不论应试者能力高低,都容易猜对本道题目,取值为 0 c l ;p ( p ) 为能力为目的人答对此题目的概率,取值在0 = 一0 0 时取0 ,在 口= 佃时取1 。 l o ( 1 + c ) ,2 1 1 。_ 一一 褥 对 概 叶: iiilii 一32 - l oi23 熊- h 炳 b 图2 2项目特征曲线 f i g u r e2 - 2 i t e mc h a r a c t e r i s t i c sc u f v e 可见,一道好的试题,应试者在其上正确作答的概率会随着应试者测验总分 的增大而提高。在i r t 理论中,应试者答对试题概率越高,认为其相应的能力值 越大,能力越强。 i r t 理论与经典理论应用过程也存在不同。经典理论高中低水平的应试者接 受同一批试题测试,有相当数量的试题与应试者实际水平不匹配,它们所能提供 的信息量和贡献自然有限。整个测试的误差很难变小,信度( 即可靠性,指测量 结果的一致性程度,一个好的测量工具对同一事物反复多次测量,结果应保持不 变) 难以保证。而i r t 理论,由于除初测阶段外,试题的选择基本符合应试者实 际能力,所以较c t t 理论它所使用的试题数量少,较早达到测试要求。 项目反应理论同经典测试理论相比,具有以下特点: 1 ) 题目参数估计更为准确,由于每道试题在使用之前必须进行试测,以取 得相对准确的题目参数; 2 ) 全面解决考试等值问题,以往经典理论的测量结果是在多个量表中,彼 此之间无法准确的衡量,i r t 理论将所有的指标放在同一能力量表中,可以 更好的对比、衡量: 3 ) 定义了信息函数( 4 ) 这一综合质量指标,作为科学地挑选题目的标准; 4 ) 更适合自适应考试;i r t 对c a t 的贡献在于按照其理论可科学地建立大 规模完整的题库系统;可以建立试题和应试者的通用模型,更好的衡量应试 者的能力范围;改变了原有的试题选择过程,符合个性化测试,并对个性化 北京t 业人学t 掌硕t 学位论文 的测试优化,提高效率和准确率。 虽然i r t 理论具有很多优点,但项目反应理论也有许多局限,尤其是在技术 上发展还不成熟,许多优越性更多只是理论上而不是实际的。首先,题目反应理 论的假设条件严格,对于学科题库所难于完全满足。其次,技术上最成熟的单维 三参数模型,主要适用于“1 - 0 记分的考试,连续、等级评分的处理还有不少 问题。再次,所说的“特质 、“维度等是统计学的概念,并非直接的心理学概 念。因此,所谓满足了“单维性和“多维性”假设的要求,并不能保证具有某 一特定的内容效度和结构效度。按题目反应理论编出的测验,其效度检验仍要用 经典理论所发展起来的种种方法。最后,i r t 理论的计算方法复杂,工作量大。 因此,经典理论当前仍旧必不可少、无法完全替代。它概念直观,计算简单, 求出的指标精度一般能满足实际工作的需要,经过了多年发展,开发出了整套的 统计分析方法。特别是普遍适用于处理“1 - 0 ”计分和连续与等级计分的各种资 料,能解决选择题、非选择题等的题目分析和试卷质量分析的各种问题。尤其对 于我国,c t t 考试可以达到测试的目的,减少经费开支,只要在c t t 考试系统 中,留有必要的i r t 接口,待题库达到一定规模、测量技术、计算机技术成熟时, 再向i r t 方向转换。 目前在教育领域中有部分课程设置陈旧,大纲本身不适合,这种现象在全国 高等教育自学考试中表现尤为突出。入库试题需要进行测试,根据我国国情,大 量试题的测试人力缺乏、物力、财力投入过大,建设周期过长。因此,c t t 或 i r t 理论均有一定的优势和局限性,究竟在系统建立时采用哪种理论,要根据客 观的实际情况而定。 2 2 4 计算机化考试系统建设 c b t 、c a t 考试的建立,是一个长期、复杂的过程。从计算机应用的角度, c b t 的系统建立可分为如下几部分:题库管理系统、教育测量理论、试题( 试 卷) 分发系统、分数报告等。 成熟的c b t 、c a t 系统模型都采用网络环境,一个超级管理员( t a ) 控制、 监控整个网络,包括测试( e t ) 工作站的启动、收发试卷。c a t 测试过程包括 建立题库、参数初始化、能力估测、选择试题和终止条件几部分。 1 2 第2 章幕础理论与相关技术介绍 建立题库 题库是进行测试的基础,高质量的题库应具有优质、量大、等值、动态可 扩充等特点。c a r 题库的建立有以下几个步骤: 1 ) 选择模型,首先应选择适应的i r t 模型,如常用的三参数模型。在此模 型的基础上,建立题库中题目的规格标准。 2 ) 题目的开发,应按题库命题的规格标准进行,应注重不同知识内容与能 力层次、不同难度和不同题型的结合,对开发的试题应组织审查,确保 题目的质量。 3 ) 题目参数的确定,主要是对题目i r t 各参数值的确定,一般有两种途径: 一是经试测后统计分析,另一种是由专家进行评估后,再采用统计方法 确定参数。 4 ) 题库的动态维护,基于i r t 的题库由于i r t 理论具有参数相对稳定不变 等优点,题库的扩充变的更为容易,只需安排一些连接题目与新题目相 混合进行试测,就可以将新题目的参数值与旧题目的参数值统一到一张 量表中。 参数初始化 由于不知道应试者的真实水平,因此开始时,按照惯例在题库系统中,随机 抽取一中等难度的试题测试,根据第一题的答题情况,决定第二题的抽取。参数 的初始化是指应试者在进行测试之前,对应试者的能力值进行初始估计,一般有 以下几种方法: 1 ) 选择中等难度的试题,即假定应试者的能力为中等,在题库中随机抽取 难度为中等的题目,作为测试的开始点。 2 ) 根据历史记录确定应试者的初始能力值,应试者可能参加过测试,可以 根据以前的测试记录决定此次的开始题目,或根据以前其他应试者的测 试记录决定开始题目。 3 ) 应试者自行选择,由应试者自行决定自己的能力程度,选择测试起始题 目。在应试者既有答错又有答对的情况下,初测结束。 能力估计 正确估计应试者的能力是c a t 考试顺利进行的前提,c a t 系统采用最大拟 然估计法( m a x i m u ml i k e l i h o o de s t i m a t i o n ,m l e ) 初步估计测试特质的发展水 北京t 业人学t 学硕i 学位论文 平。若以似然函数三似,l 口) ( 公式2 - 4 ) 表示能力为9 的应试者对题目的反应为 u j ( 若答对,“= 1 ;答错,“j 。o ) 的概率。我们要对每一个反应向量( 材。,“:,“。) 当似然函数取最大值时的口值就是待估测的特质参数的估计值。 nm 三( 掰,i 口) = 兀兀矽力 ( 2 4 ) a = lj = l 其中,有个应试者参加试题数量为m 的考试,第a 个应试者能力为口, 第个题目的难度、区分度、猜测度为b 、口、c ,“巧为第口个应试者对第歹道题 的反应( 答对为1 ,答错为0 ) ,只为应试者答对第i 题的概率:q 为应试者答错 第i 题的概率。 由于似然方程是非线性的,应使用数值方法求解。我们以n e w t o n r a p h s o n 法逐次迭代,求出能力的极大似然估计值( 莎) ( 公式2 - 5 ,2 - 6 ,2 - 7 ) 。 1 9 f 卅= o t h , 卿 ( 2 5 ) 其中:幺“幺为第t + l 、t 次迭代的能力估计值。 ”舞h = f 。( 臼) = d 口, ,一只) ( 鼻一q ) 只( 1 一q ) d 2 口融,c ,一只2 ) ( e c ,) q f 霉2 ( 1 一c ;) ;朋) = 百o l n l ( 力( 2 - 6 ) ( 2 7 ) d 为常量1 7 0 2 :i 为题目编号;a i , b i ,c ,分别为第i 题的区分度、难度、猜测 系数;为应试者答对第i 题的概率;q f 为应试者答错第i 题的概率;u i 为应试 者的反应( 答对为1 ,答错为0 ) 。当h ,足够小时,迭代即可停止。 n e w t o n r a p h s o n 在三参数模型计算中,迭代收敛速度较慢,如采用似然函 数不以单个应试者为单位,而将相同作答模式的应试者归为一类,采用公式2 8 1 4 第2 章幕础理论j 相关技术介绍 的似然函数,将可以提高运算速度。 gm厂f 三( 以) 2 珥珥路蹭飞淼御 ( 2 _ 8 ) t = l ,= l7 盯。、,材, 其中:对m 个应试者按照反应模式分为g 类,第k 类有 人,而第k 类应 试者在第题上答对的人数为人,答错的为 一;只“为应试者答对第i 题 的概率;饼,为应试者答错第i 题的概率。 采用极大似然估计法估计应试者能力值的最大好处是简便实用,它比较适合 于题目较多的情况,在求边际分布过程中,我们采取b a y e s 方法,或采取将两种 方法相结合的途径估计应试者能力。但当应试者连续答对或答错时失效。所以, 建立大型完善的题库系统,必须包含从极易到极难多层次的试题。 选择题目 不断抽取和应试者能力相适应的题目是c a t 的基本原则,采用精确估计特 质参数,即按照“因人施测”的思想测试。由于第一阶段的测试试题较少,信息 量不够,不足以精确估计应试者的特质水平,因此,要不断施测,增加必要的信 息量,选出那些略低于应试者水平的试题中信息量最大( 即区分度最大、猜测度 最小、性能最优良) 的题目测试。 通常,我们利用i r t 题库中题目的最大信息函数来确定所选择的题目。i r t 用题目的信息函数i ( e ) 来表示题目参数与应试者能力的关系。每个项目所提供的 信息不受其他项目的影响,测验中各项目独立地对测验总信息量做出贡献。三参 数模型的信息函数为公式2 - 9 : 厶( 口) = 耳2 p ) 只p ) q ( p ) 】= i i :面i 丢三考雩鼍 ( 2 - 9 ) 其中:d ,p 为常量;9 为应试者能力估计值;a i , b i ,c i 为第i 题的区分度、难 度、猜测系数。项目信息函数变化的取值除与秒有关外,只受项目本身的特性 北京t 业大学t 学硕 j 学位论文 参数制约。 由于信息量具有可加性,可以随时估计一组试题施测的信息量的总和( 公式 2 1 0 。 邶) = ( 乡) ( 2 1 0 ) 对于不同能力的应试者,题目有不同的信息量,信息量取最大值时,它所 对应的能力值即是最适合于采用此题目测试的人员能力值。因此,在c a t 系统 中,根据前面推测的能力值,系统搜寻相应信息量最大的题目进行测试。另外, 还可以采用b a y e s 方法选取试题,它是以能力估计值在测试之后的改变作为选择 标准,即选择使得能力估计值在测试之后改变最小的题目进行测试。 终止条件 通常以达到测试的最大容量作为测试的终止条件。另外,还可以以能力估计 值达到预定的精度要求作为终止条件,即当应试者的能力估计值逐渐稳定下来 时,便可以结束测试。一般采用特质水平估计误差s e ( o ) ( 公式2 1 1 ) 小于可接 受误差时终止。测验信息函数在某一特制水平上的值的平方根的倒数,即是该点 特质水平估计误差。公式2 1 1 说明,估计标准误差与测验信息函数值成反比, 测验提供的信息越多,估计误差就越小,估计精度越高。 趿胪南2 赢 p 1 1 ) 以g r e 的c a t 考试为例,图2 3 描述了两个g r e 考生参加考试答题过程 的情况。g r e 题库中题目由于收集、评审、修改费用较高,数量较为有限,基 本上几个月才更换一批题目。该考试根据以往历史记录,基本上选择了中等难度 的试题作为初始化试题,参数初始化为应试者初始能力估计值统一定位在5 0 0 。 它根据应试者对试题的做答情况,估计考生的初始能力,如果真实的能力吼知道, 1 6 第2 章基础理论与相关技术介绍 当试题的b 与岛相近( b = 岛时) 且选择了最大的a ,即可进行下一步测试。但实 a 际过程中o o 未知需要估计,估计能力秒在计算中代替吼使用。在初始状态时,以 与0 差别较大,在测试过程中逐渐缩小差距。在实际测试过程中,系统选择与最 大值的口、b 相近的能力值0 的试题( 乡6 = o ) ,区分度口增加。周而复始,待测 试基本稳定后,终止测试。 5 5 0 暑6 0 0 o 0 5 翟5 5 0 葛 磊5 0 0 i k i 4 卯 蜘 誊4 6 0 d 价 甚4 0 0 苫 3 5 0 山 3 0 0 5 1 01 52 0 q u e s t i o n 蟛 lll ili i ii i 1 6q u e s a o mr i g h t 1 4t d t t e s t 】m n sw r o n g 1 5h f m a ls c o r e :3 5 0 ;1 81 ) e 代 e x f i l e iiii-llili 多、上一姒上舭 专7气搽佩佩阿胛吖w 惭w 51 01 52 0 0 u e s t j o n 图2 - 3 两个g r e 考生c a t 考试答题过程图 f i g u r e2 - 3 2g r ee x a m i n e e s c a tt e s tp r o c e s s e s 从最后测试结果看,是应试者所做题目的对、错数目基本相当。第一个考生 前5 道题答对的正确率较高,系统估测的考生能力明显上升。当出现第一道答错 的题目后,系统认为第6 道试题的难度过高,需要降低下一题的难度,因此,下 一题的选择较上一道做对的试题的难度相差较小,同时略高于做错的试题难度。 直到系统达到相对稳定后,结束测试。由于该应试者初始时,做答正确率很高, 直接影响到该考生最后测试结果分值较高,能力较强,可以达到8 0 个百分点。 而第二名测试者由于测试错误概率较大,所以系统认为其能力较低,分值不高。 虽然两个人答对与答错题目的数量相当,但是由于个性化的测试,每个人所做题 1 7 3 北京i 业穴字1 掌坝f :学1 市论文 目的a 值不同,反应出的能力存在差别。因此,分值差异较大。 随着计算机技术的快速提高,c a t 考试系统的开发紧随其后。但是c a t 推 广的时候,两个问题值得关注: 1 ) 试题暴光度。因为在大规模考试,在相对固定的时间段内,使用同样的 测试模型,题库系统中有些试题将会过度暴光,这将直接影响测试的准确度 和安全性。 2 ) 有效性问题。相对过去的考试,单独测试必须保证不同内容区域的试题 测试平行问题,否则将失去考试的公正性。所以在c a t 试题的选择应包括 心理测量和非统计属性的题目。 2 3 题库系统建设 2 3 1 题库系统基本概念 题库( i t e mb a n k ) 源于本世纪6 0 年代英国的一个全国教育研究课题,本意 指测验试题的有序集合。他是按统一类别、方式标定位置并存放,可以准确方便 的调用,他不同于试题集( i t e mp 0 0 1 ) ,并非试题的简单堆积。 题库是适应考试事业大规模发展,考试工作进一步科学化、标准化的需要 而发展起来的。它是对临考前抽人入闱命题的工作方式与编制标准化试卷,而反 复使用的测验表现形式的一种发展与革新。在本世纪初,标准化测验发展的早期, 并未提出建设题库的问题,而题库和计算机组卷是7 0 年代技术发展的一大重要 成果,我国的一些考试机构和大学几年来也颇为注意题库的建设。题库建设是和 大规模测试的兴起分不开,在大规模的考试中,要求每次考试所得的分数具有可 比性,建立题库正是为了适应这种客观需要,因此题库不是一些题目的简单集合, 而是一些经过特殊处理的、具有较大信息量的题目的科学组合。一个题库的好坏 取决于它的组织的科学严密性、内容的广泛性、对考生能力的预测性、使用的经 济可行性等。题库的重点分为以下几个问题: a 建立题库的基本条件; b 建立题库的数学模型; c 试题参数估计; d 题库的扩充; 第2 章莘础理论与相关技术介绍 e 题目的选择; f 适应性估算。 题库在各级各类大规模考试以及一些行业对专门技术人才的水平考试和职 业技术考试占有重要地位,它是保证考试或测验具有较高质量、稳定水平、更好 地达到预测目的的重要手段。因此,一些教育水平发达的国家对题库建设给予了 足够重视,并取得了长足进展。随着计算机技术的发展,更为基于计算机的题库 系统的考试发展奠定了坚实的基础。 2 3 2 题库系统建设过程 题库建设是复杂、动态的过程,其中题库理论建设是极为关键。题库理论建 设包括以下几个部分:学科体系与教育目标层次分类理论、题型功能与命题技术 理论、题目分析理论、参数等值理论及试题与试卷统计性质关系的理论等。 学科体系与教育目标层次分类理论,将决定整个题库及生成试卷的内容效度 和结构效度,是提出命题与征题规划的基本依据,题库的整个框架结构就要按它 的要求来设计和实际建设。题型功能与命题技术理论是直接关系到试题的开发、 编写、筛选、评价与比例配置,提供试题命制原则方法,又提供题库结构评价的 根本标准,所以是题库建设理论的一个重要方面。 题目分析即试题质量分析的统计理论,是标准化测验兴起后心理与教育测量 学研究的主要课题,在考试科学化过程中起着重要作用,自然是题库建设的重要 理论基础之一,不进行题目分析,试题没有技术质量参数,就不会有科学根据的 筛选、修订和调取使用。参数等值理论,本身包括两方面:一是考生测验总分等 值;二是试题参数等值。 试题和试卷统计性质关系的理论,是保证题库实现其生成所必须的。无论是 选拔性考试或参照性考试,对试卷施测后,所得的测验分数的统计性质,都会提 出符合考核目标的要求,即会提出平均分、标准差、分数分布状态,以及测量标 准误差的要求。要保证测验确实具有某些特定的统计性质,就需要测验所包含的 试题的数量、质量、满分等符合某些特定要求。因此,就有必要弄清楚试题和试 卷统计性质的关系。 题库建设是一项相当复杂的系统工程,一般建设一个题库,包括以下几个阶 段: 1 9 北京t 业人学t 学硕f ,学位论文 1 ) 试题开发。它是工作的起始阶段,开发按命题规划进行。开发形式有三 种:组织专业命题人员命制;面向社会征题;从有关资料中选题。之后,经 专人审定,进入题库系统,形成基础的试题集合。它是题库质量的基础保证。 2 ) 分析等值。这一阶段要使所有拟入库试题的考核性能予以查明,所有试 题参数都转换到统一量表上,查明考核内容范围与能力层次,进行定性评估。 试题难度等技术质量指标的确定有两种途径:试测后统计分析和专家评估。 由于题库试题量较大,全部试测不可能达到,因此,利用“铆题”( 多套试 卷中,加入的一组相同的试题,通过该试题
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 刺灸学课件教学课件
- 农业安全培训心得课件
- 初次安全培训
- 兴化市华阳安全生产培训课件
- 华为网络营销方案(3篇)
- 内部三级安全培训课件
- 内训课件教学课件
- 化学安全生产培训课件
- 化学品安全生产培训内容课件
- 创伤重症识别课件
- 2025湖北宜昌市不动产交易和登记中心招聘编外聘用人员17人考试参考题库及答案解析
- 疼痛介入治疗的护理
- DB44-T 2542-2024 自然教育基地建设规范
- 《拒绝努力羞耻症》学习动力主题班会课件
- 2025AICon全球人工智能开发与应用大会-上海站:昇腾推理技术的优化实践
- 第2课 信息技术伴成长教学设计-2025-2026学年小学信息技术(信息科技)第八册(2019)电子工业版(安徽)
- 2025年中国酒店行业白皮书-
- 脑梗的课件和提纲
- 煤矿井下爆破培训课件
- 2025年医疗卫生信息化系统操作考核答案及解析
- 第3课 秦统一多民族封建国家的建立 课件 必修 中外历史纲要上
评论
0/150
提交评论