（计算机应用技术专业论文）教育考试评估方法研究.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-17 格式：PDF 页数：47 大小：1.99MB 积分：12 举报 版权申诉

已阅读5页，还剩42页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘要科学化的考试对学生的发展有许多积极作用，使用考试手段能够检测教育质量，规范和引导教师的教学行为，促进学生积极努力地学习，而且对培养学生分析问题、解决问题等综合素质能力可以发挥非常重要的鞭策作用。传统的考试都是以经典测量理论为指导的，老师根据学习的内容出一份试卷，对考生进行考试。对于每个考生而言，试卷中的题目只有一部分是符合自己真实能力的，其余题目或者简单，或者太难，因而，这样的考试存在着明显的弊端。项目反应理论是针对经典测量理论的不足而提出来的，其理论基础是潜在特质理论。项目反应理论建立了深刻地、综合地反应考生作答反应与题目质量及能力水平间关系的非线性模型，估计出的能力水平不依赖于特定的施测题目样本，而且能明确算出信息量即试卷的测量精度也就是我们通常所说的试卷的质量。随着计算机技术的飞速发展，项目反应理论在考试领域有了广泛的应用，最典型的应用是计算机自适应考试。虽然，项目反应理论中具有经典测量理论不可比拟的优势，但是它仍然存在一些明显的问题。本文以项目反应理论为基础，论述项目反应理论的国内外研究现状，分析项目反应理论的参数估计和项目反应理论应用过程中的组卷策略和c a t 的实施，重点分析了c a t 并对c a t 的试题的建立、试卷的生成、考试的实施和结果的评价作了大量改进，最后指出项目反应理论存在的一些问题和项目反应理论的发展方向。关键词教育；考试；评估方法；项目反应理论 a b s t r a c t a b s t r a c t s c i e n t i f i ce x a m i n a t i o nh a s m a n y a c t i v ee f f e c t si ns t u d e n t s d e v e l o p m e n t w ec a n u s ee x a m i n a t i o nt ot e s tt h et e a c h i n gq u a l i t y ，t o g u i d et h eb e h a v i o ro ft e a c h e r s ，t op r o m o t es t u d e n t st os t u d yh a r d e r a n de x a m i n a t i o nh a si m p o r t a n tf u n c t i o n si nc a p a b i l i t i e so f s t u d e n t s s o l v i n ga n da n a l y z i n gp r o b l e m e x a m i n a t i o ni sk e ym e a n so fe d u c a t i o n m e a s u r e m e n t a n dt r a d i t i o n a le x a m i n a t i o ni sb a s e do nc l a s s i ct e s tt h e o r y ( c t t ) t e a c h e r sm a k eat e s tp a p e ra c c o r d i n gt ot h el e a r n i n gc o n t e n ta n d t h e nt e s ts t u d e n t s a sf o ra ne x a m i n e e ，o n l ys o m eit e m so ft e s tp a p e r m e e tt h er e a lc a p a b il i t yo fe x a m i n e e ，t h er e s ti t e m si st o oe a s yo rt o o d i f f i c u l tf o rt h e m t h e r e f o r e ，t h i st y p eo fe x a m i n a t i o nh a so b v i o u s d i s a d v a n t a g e s i t e mr e s p o n s et h e o r ys e t su pn o n l i n e a r i t ym o d e l sw h i c h p r o f o u n d l ya n ds y n t h e t i c a l l yr e f l e c te x a m i n e e s r e s p o n s ea n d t h e r e l a t i o no fi t e mq u a l i t ya n dc a p a b i l i t yl e v e l t h ee v a l u a t e dc a p a b i l i t y l e v e lo fi r td o e sn o td e p e n do ni t e ms a m p l e sa n di r tc a nf i g u r eo u t i n f o r m a t i o nc a p a c i t yw h i c hi sm e a s u r e m e n tp r e c i s i o n w i t ht h er a p i dd e v e l o p m e n to fc o m p u t e rt e c h n o l o g y ，i r th a saw i d e a p p l i c a t i o ni nt e s ta r e a 。t y p i c a l l y ，i ta p p l i e si nt h ec o m p u t e ra d a p t i v e t e s t a l t h o u g h ，i r th a sm a n ya d v a n t a g e st h a no t h e rt h e o r i e s ， b u tt h e r e a r em a n yo b v i o u s l yp r o b l e m si na p p l i c a t i o nw i t hi r t t h ep a p e rb a s e so n i r t ，s t u d i e st h ep r e s e n tr e s e a r c h a n da n a l y s e st h ep a r a m e t e r se v a l u a t i n g i nt h ea p p l i c a t i o no fi r ta n dh o wt ou s ei r ti ne x a m i n a t i o n a n dt h i s p a p e ri m p o r t a n t l ya n a l y z e sc o m p u t e r i z e da d a p t e dt e s t ( c a t ) a n dm a k e s m a n yc h a n g e si nm a k i n gt e s tp a p e r ，t e s tp r o c e s sa n di nt e s te v a l u a t i o n a tl a s ti tt e l l su ss o m ep r o b l e m sw i t ha p p l i c a t i o no fi r ta n dt h e d e v e l o p m e n to fi r t k e y w o r d se x a m i n a t i o me d u c a t i o n ；e v a l u a t em e t h o d ；i t e mr e s p o n s et h e o r y j j j 独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特，l , l j n 以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名：关于论文使用授权的说明日期：翻! 生本人完全了解北京工业大学有关保留、使用学位论文的规定，即：学校有权保留送交论文的复印件，允许论文被查阅和借阅；学校可以公布论文的全部或部分内容，可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名：导师签名：夕主钦邑日期：导师签名：么五丛垒日期：第l 章绪论第1 章绪论 1 1研究背景近年来，随着国民经济和社会各项事业的发展，我国教育事业得到了前所未有的跨越式的巨大发展，教育改革从诸多方面影响、推动、促进了教育事业，其中以精英教育到大众教育、学校教育到继续教育和终身教育的两大转变尤其引人注意。但应当清醒地看到，当前我国教育事业的发展与经济、社会文化发展仍然存在着许多不相适应的矛盾。如何较好地开拓教育资源，提高教育质量，并能有效的降低教育成本成为当前教育工作者必须研究的现实问题。在这样的大背景下，作为教育工作的重要环节，考试的重要性十分突出。近年来，从考试设计到考试实施，从考试成绩管理到考试信息资料管理，对考试的研究范围不断扩大，研究深度也不断加深。科学化的考试对学生的发展有许多积极作用，使用考试手段能够检测教育质量，规范和引导教师的教学行为，促进学生积极努力地学习，而且对培养学生分析问题、解决问题等综合素质能力可以发挥非常重要的鞭策作用。如何客观、科学地反应和评价每一位学生的专业理论水平和实际应用能力，定量化比较不同学校、不同教师、不同教学模式的教学质量和效果，在检测标准上与国际接轨，充分发挥考试对改进教学的反馈功能以及考试对教学的作用，为社会培养高质量人才，是我国各级各类教育必须解决的课题。目前大多数考试系统主要采用的是经典测试理论1 1 1 ( c l a s s i c a lt e s tt h e o r y ， c 1 ，无法测试出学生的真实水平【2 】。项目反应理论【3 】是一种先进的测量理论，是针对经典测量理论的不足而提出来的。项目反应理论( i t e mr e s p o n s et h e o r y ， m r ) 与流行的经典测量理论相比，强调自适应测验嗍( a d a p t i v et e s 0 ，即测验能够自动地适应考生的认知水平，试题难度、数量、知识单元分布等可根据考生的特点而灵活变通。随着计算机技术的飞速发展，项目反应理论在考试领域有了广泛的应用。 1 2 国内外研究现状项目反应理论的建立与发展是一大批学者数十年共同努力的结果。项目反应理论的发展除了自身的基本理论系统、模型种类、数据模型拟合检验方法和参数估计方法的发展之外，在实际应用方面也有很大的成就。但由于i r t 数学上的复杂性以及缺乏有效的计算机程序的支持，i r t 的发展始终是缓慢的。随着计算机的发展，以及参数估计方法和相应计算机程序的出现，i t r 逐渐成为北京工业大学工学硕士学位论文心理与教育测验理论的研究热点。七十年代以后，r i t 在理论上己日趋成熟，因而需要在实际应用中来检验其本身的正确性。i r t 在实际中的原理以及各个领域中的应用，是i r t 发展史上一本非常重要的著作。1 9 8 3 年，w e i 5 5 写了测验的新领域，特别介绍了项目反应理论在计算机自适应测验上的重要作用。自适应测验是指测验内容能够根据测验情境中的预定因素动态调整的测验系统。计算机自适应测验则是在计算机上进行的由特定程序控制的，能够使测验在一定程度上实现自动化、半自动化的自适应测验系统。 1 2 1国外研究现状国外关于项目反应理论的研究起步较早，研究也比较深入，已经有一套成型的理论，自适应系统的应用也比较广泛，而且国外的项目反应理论不仅用于心理学测验，还用于一些正规的大型考试，如美国研究生入学考试( g r a d u a t e r e c o r de x a m i n a t i o n ) 、全美护士国家委员会资格考试( n u r s en a t i o n a lc o m m i t t e e l i c e n s et e s t ) t 5 1 、英国的英语资格考试和水平认证等【6 】o 1 2 2 国内现状分析国内对项目理论及其应用的研究起步较晚，从上世纪九十年代初开始，全国大学英语四、六级考试委员会一直致力于c a t 的研究与开发。国内出版了张厚架、漆书青、余嘉元、张敏强、许祖慰等人的著作，较为详细地介绍了项目反应理论及其应用研究。1 9 9 2 年许祖慰出版了项目反应理论及其在测验中的应用，主要介绍了他在博士研究生期间的一些研究工作。江西师范大学的学者长期以来一直坚持对项目反应理论和计算机自适应测验的学习、研究、实验和应用，他们不仅出版了相应的著作，承担了不少相应的课题，而且进行了较为系统的全面的实验研究i 7 ，他们还编制出了国内较早且较为实用的参数估计程序m l e j c t 引。此外，微软的m c s e 考试和g r e g m a t t o e f l 英语考试已经开始采用了自适应考试形式【9 】。其中g r e 和t o e f l 是目前应用最广、影响力最大的计算机自适应测验系统【1 0 1 。全国大学英语四、六级考试委员会也一直致力于项目反应理论和“机助自适应测验”的研究和开发。目前项目反应理论已成功的用于c e t 分数等值处理过程中，但自适应测验软件正在研究建设过程，目前还没有成品的软件模型问世【1 1j 。此外，基于w e b 的自适应系统的研究正在成为测验领域的一个热点问题，也有了一些应用的实例如基于w e b 的自适应考试系统【l 引、基于n e t 框架的自适应考试系统的设计和实现【l3 1 、基于w e b 的化学计算机化自适应测验系统的实现t 1 4 1 、基于w e b 的适应性考试系统的设计与实现【l5 1 、基于英语网络测试系统的第1 章绪论自适应测试与常规测试的对比实验研究【1 6 1 。 1 3 研究的意义教育测量理论在考试中的应用主要体现于考试质量的评价，即运用教育测量原理和方法对考试结果进行科学分析与评估，进而发挥考试的系列功能。近年来，课程考试的质量评价在教育界日益受到重视并广泛开展。然而，由于过去较少涉此领域，实际经验欠缺；而且，许多教育工作者大多未受过专业学科训练，测量理论的基本知识与技能薄弱，因此，实践中难免出现机械引用理论、盲目照搬他人等现象，考试质量评价总体水平不高。同时，教育测量理论自身在发展中依然存在缺陷，要完全适应教育多元化的考试改革发展，尚需进一步研究。因此，如何科学运用教育测量理论评价考试质量，是当前考试改革面临的重要课题。在新一轮的教育改革当中，现存的考试制度和考试形式受到了很大的质疑，似乎考试应该为目前存在的应试教育的种种弊端负责。从我国的历史文化和社会现状分析，着眼于教育，特别是教育评价的公平性原则，我们不能简单地否定现存的考试形式，而是要对这种考试形式进行完善，使之更有效地服务于新课改的要求，进而推进教育改革的深入f 1 7 1 。虽然我们反对把现存的考试制度看成是应试教育的替罪羊，但现存的考试方式确实存在一些明显的问题。要克服存在的问题，我们就有必要分析在考试实践背后的测量与考试理论研究的进展，从中寻找可能的问题解决途径。自项目反应理论出现以来，倍受国内外广大学者的关注，对于促进我国教育考试评价方式的改革和发展具有很大的指导意义。 1 4 本文的研究内容本课题分析测量理论的研究发展，重点分析先进的项目反应理论，研究项目反应理论模型、项目反应理论在教育测量中的应用和项目反应理论存在的问题及对产生的问题进行分析研究。课题可分为：测量理论的发展、项目反应理论及模型、项目反应理论的应用、项目反应理论存在的问题及发展。测量理论的发展：介绍经典测量理论和项目反应理论两种测量理论，并分析他们的优缺点。项目反应理论及模型：介绍主要的项目反应模型，并对项目反应模型进行整体分析。项目反应理论的应用：介绍如何在考试测验过程中使用项目反应理论，分析了项目参数估计方法和自适应测试并对自适应测试进行了改进。北京工业大学工学硕士学位论文项目反应理论存在的问题及发展：提出项目反应理论存在的问题及项目反应理论的发展方向。 1 5 组织结构本文内容的组织安排如下：在第二章介绍教育测量理论的发展。主要包括经典测量理论、项目反应理论的基本概念和优缺点，为下面章节的研究和讨论做好准备工作。在第三章介绍项目反应理论模型。主要包括正态卵形模型和逻辑斯蒂模型，着重介绍逻辑斯蒂模型，并分析说明逻辑斯蒂模型的项目特征曲线。在第四章完整介绍项目反应理论在考试中的应用。主要包括测试信息函数的基本概念、参数估计的概念和常用的参数估计方法、组卷策略、自适应测试的应用，并对自适应测试应用作了改进说明和在改进后如何应用。在第五章介绍项目反应理论的不足和发展。主要分析项目理论的不足，并介绍了项目理论的发展方向包括多维项目反应理论、非参数项目反应理论和认知诊断理论。最后是总结。对本文所做的工作进行了总结，分析取得的成绩，指出存在的不足。第2 章教育测量理论的发展第2 章教育测量理论的发展教育测量是对受教育者接受某种教育后，在知识的掌握、能力的提高、性格的培养等方面进行的测量。科学的教育测量必须具备正确性、可靠性、鉴别力等要素，其数量化的语言是效度、信度等。随着美国心理学家桑代克( e l t h o m d i k e ) 具有划时代意义的论著精神与社会测量导论的出版，教育测量理论得到了快速的发展。到了2 0 世纪的4 0 年代，欧美等国家的一些测验统计理论专家提出了今天广泛使用的测验信度、效度、项目的难度与区分度等指标以及经典的统计分析方法，并在2 0 世纪5 0 年代前后形成了经典测量统计理论。从2 0 世纪6 0 年代以来，除了经典测量理论进一步拓展外，还创立了多种现代测量理论，其中包括项目反应理论和概化理论。鉴于当前考试系统的不足，有人提出引入先进的考试理论来改善考试系统的不足。当前，作为现代考试的指导理论主要有两种：经典测量理论和项目反应理论。两种理论的核心部分都是数学模型，它们是基于不同的假设提出的。经典测量理论采用的是线性的定性模型；项目反应理论采用的是非线性的概率模型。 2 1 经典测量理论c t t 2 1 1c t t 的假设和模型经典测量理论产生于1 9 世纪末，经过几十年的探讨与摸索，在2 0 世纪5 0 年代便形成了一套相当完整的理论体系，对测验的编制提出了一系列具体实用的统计分析方法，这些方法在实际测量工作中产生了巨大影响，至今仍然在使用，但传统的c t t 对误差的分析是粗糙的、笼统的，c t t 的真分数的线性模型为 x = t + e ( 观察分数x 等于真分数t 与误差e 之和) ，同时x = t + e7 ( x 和x7 为平行测验，平行测验是指内容相似，平均分、标准差及误差均相同的测验) ，该模型最突出的弱点就是把所有的误差都归为一类，而没能区分测验情景中的各类误差，在误差e 中包括了类似评定者、测题、测验环境等影响测量目标的各种因素，也没有说明这些测量误差究竟来自哪些误差源，及各自产生的误差的大小；另外，c t t 的测验信度是建立在严格平行测验假设基础上的，即两测验是以相同的程度测量同一心理特质i l 引。北京工业大学工学硕士学位论文 2 1 2 参数的定义 1 经典测量理论( c t t ) 题目难度的概念经典测量理论是通过试题的得分率或答对率作为难度定义的，又称为题目的正确作答率。在每次考试以后，为了了解考生对试题的答题情况，需要进行试题分析，其中一项重要内容就是统计本次考试中每一道题有多少考生答对，有多少考生做错，或者说平均得分情况。在这次考试中平均得分高的试题较易，平均得分低的试题较难。为了对各题难易程度进行比较，在题目分析中一般就用题目的得分率或题目的答对率作为比较题目难度的依据，这也就是经典测量理论中题目难度定义。可见，c t t 中的题目的难度是因人而异的，是相对的而不是绝对的。经典测量理论题目难度是主客观相互作用的结果。主观主要体现为考生群体的水平，客观主要体现在试题考查内容的深度、广度以及问题解决复杂程度。当考生群体水平没有发生变化时，试题间难度值的差异反应试题考查内容的深度和广度的差异或不同；考生群体水平发生变化时，试题难度值反应考生水平的变化或差异。正因为如此，试题难度的预测必须建立在预测群体水平与实考群体水平大体一致的前提下，否则，所估计的题目难度意义不大【l 引。 2 经典测量理论( c t t ) 的题目区分度的概念经典测量理论的题目区分度是某题得分与全卷分数间的相关系数。对于o 1 记分的题目( 例如选择题) ，通常使用二列相关( r b i s ) 系数表示题目区分度。对于非o 1 记分的题目，可用题目得分与全卷得分之间的积差相关系数来表示。一般认为，题目区分度的r b i s 值应大于0 2 才能够在正式考试中使用。 2 1 3 经典测量理论( c t t ) 的不足经典测量理论以真分数理论为依据，所采用的计算公式简洁明了、浅显易懂，为目前测量学界使用与流通最广的理论依据。但是，由于它的理论体系的先天不足，存在以下五个不足【l 】： 1 测验结果拓广的有限性：经典测量理论主要应用的是配对或标准化和随机化技术，然而，使用配对或标准化的测量结果仅仅能在相同的测量条件下成立，却不能将其拓广到非标准化环境中去，使得测量的应用受到很大的限制。 2 测量分数的测验依赖性：经典测量理论应用标准化技术控制误差，但其标准化的对象是测验的各种外部变量，对测验项目的“性质”没有也不可能实现标准化。这造成了测验分数对具体测验的依赖性，迫使经典测量理论要么使用统一试卷，要么使用实际上并不平行的所谓“平行试卷”。不是给实际操作带来困难，就是使结果解释带来较大的误差。第2 章教育测量理论的发展 3 统计量的样本依赖性：经典测量理论以测验的信度、效度和测验项目的难度、区分度等参数来刻画测量的各方面特性。这些参数的估计对样本的依赖性是很大的，经典测量理论总是强调样本对总体的代表性，但经典理论应用的是随机抽样，偏差总是存在的，有时还会很大，同时，受客观条件的限制，有时还难以做到真正的随机抽样。参数估计值的这种样本依赖性使得所估参数对测验的分析仅具有限价值。 4 信度估计的不精确性：信度是测验质量的重要指标。经典测量理论，测验信度的估计是很不精确的。一是估计方法不精确，真分数理论中的误差分数与真分数的独立性假设不真实，即便假设成立，测验信度也不可计算；二是估计值的笼统性，在经典测量理论中，每个测验都只有一个信度值，对大多数被试来说，一个误差不是偏高就是偏低；同时，经典测量理论对测验总信度也无法回答。 5 能力量表与难度量表的不一致性：经典测量理论的所有项目参数与被试能力参数之间的关系是非常含混泛化的。 2 2 项目反应理论lr t 2 2 1 项目反应理论基本概念项目反应理论是针对经典测量理论的不足而提出来的，其理论基础是潜在特质理论。项目反应理论建立了深刻地、综合地反应考生作答反应与题目质量及能力水平间关系的非线性模型，估计出的能力水平不依赖于特定的施测题目样本，而且能明确算出信息量即测量精度。因而，即使多个考生各自接受了一批难度变化不同的测验，据此估出的能力水平值也是可以相互比较的。项目反应理论假设被试有一种“潜在特质，潜在特质是在观察分析被试测验反应基础上提出的一种统计构想，在测验中，潜在特质一般是指潜在的能力，并经常用测验总分作为这种潜力的估算。项目反应理论认为被试在测验项目的反应和成绩与他们的潜在特质有特殊的关系。通过项目反应理论建立的项目参数具有恒久性的特点，意味着不同测量量表的分数可以统一。项目反应理论通过项目反应曲线综合各种项目分析的资料，使我们综合直观地看出项目难度、区分度等项目分析的特征，从而起到指导项目筛选、编制测验和比较分数等作用。 2 2 2 项目反应理论假设众所周知，考试的目的在于将被试的不能直接测量的内部潜在特质用测验分数来进行估计。项目反应理论是通过建立特定的数学模型来描述这种关系的，而北京工业大学工学硕士学位论文数学模型的建立往往离不开一组假设。 1 局部独立性假设所谓局部独立性是指被试能力参数口一定时，被试对各个项目的应答在统计上是独立的。设x i 表示被试对项目i 应答的二值变量，当被试作答正确时，x i = l ，反之x i = 0 。这时，局部独立性的假设可由下式表示1 2 2 ： p ( x f = 1ip ) = 尸( = 1i 口，x l ，x 2 ，x 1 ，x f + 1 ，x 。) ( 2 1 ) 当测试满足局部独立性假设时，测试的结果仅由被试能力9 决定的。即被试对某一测验项目的反应不受其它测验项目反应情况的影响，只与测验项目本身的性质有关。也就是说被试在某项目上作答，不受其他项目答对或答错的影响，完全由被试的能力( 或特质) 水平来决定。 2 潜在特质空间的单维度性假设即测试出来的被试能力0 是处在单维空间中，可在一个量表中表示，不同的被试之间可以相互比较。潜在特质空间维度，又称能力维度，是指被测量的测验成绩是由若干种能力01 ，0 2 ，0 3 ，0 n 所决定的，这一n 维空间称为潜在空间。假设潜在空间是一维的，就是说被测量的测验结果只取决于一种能力，其它能力的影响都可以忽略，这就是所谓的能力单维性假设。在这种假设下，许多问题的处理比较简单。实际上，任何测验都不可能是单维的。影响被试对测验项目反应的因素，除了该测验所测量的能力或特质外，还需要其他多种能力的共同配合。因而项目反应理论的关于测验单维性假设只是说明所有影响被试反应的能力向量中仅有一个分量占主导地位，它正是测验所要测量的能力。随着i r t 研究的进一步深入，多维度自适应测试m a t 也得到长足发展。在 m a t 中，单维性假设也就没有必要。 3 项目特征函数假设如果一个测试模型能够模拟被试的测试行为，就必须用数学函数揭示被试行为与特质之间的关系，而且这种解析式能够被参数化，能够用函数曲线描述出来。 4 单调性即被试对题目正确反应的概率随其能力水平的增加而单调递增。 2 2 3 项目反应理论的优点与经典测量理论相比，项目反应理论具有下列优点： 1 试题难易度的估计不因样本不同而不同。项目反应理论的题目参数计算是独立于学生样本组的。根据项目反应理论的有关性质，项目反应理论的题目参数具有不变性，而不管学生组的能力分布如何。第2 晕教育测量理论的发展 2 学生能力的估计不因测验改变而改变。项目反应理论在提供题目参数的同时，提供了每一个学生在完成题目时的能力参数。这就使题目参数与学生的能力参数有效的联系起来，克服了经典测试理论中题目参数与学生得分是在不同基础上求得的缺陷。在这种条件下，就可以使学生能力发展水平的估计独立于所施测的题目组，从而为“因材施考或设立自适应测试奠定了理论和方法基础。 3 测量误差的估计因学生程度的不同而不同。利用计算得到的测验信息函数来估计测验标准误差，并以此作区间估计，从而取代了经典测试理论中平行测验的信度概念。由于项目反应理论中“信度”的概念与个人有关，测验标准误差就会因人而异，这就为准确的估计每个学生的能力水平提供了准确的信息，显然，可以通过增加或减少测验题目来调整测量的精确度，这就为实施具有相同水平的、测量精确度高的个别测验提供了工具。 4 为多种形式测验的实施提供了更为完整的理论和方法。在题目分析和估计学生能力的同时，可以得到题目信息函数和测验信息函数者两个统计量。有了这两个统计量之后，就可以精确的估计每个学生的能力水平，控制不同能力水平的学生的测量误差提供了标准，这也为自适应测验的实施提供了必要的实施条件。 2 3 本章小结本章介绍了作为现代考试的两种指导理论，经典测量理论和项目反应理论。这两种理论的核心部分都是数学模型，它们是基于不同的假设提出的。经典测量理论采用的是线性的定性模型；项目反应理论采用的是非线性的概率模型。经典测量理论产生于1 9 世纪末，经过几十年的探讨与摸索，在2 0 世纪5 0 年代便形成了一套相当完整的理论体系，对测验的编制提出了一系列具体实用的统计分析方法，这些方法在实际测量工作中产生了巨大影响，至今仍然在使用。虽然在实际的教育考试中广泛的使用经典测量理论，但是经典测量理论仍然存在着大量不足的地方，本章第一小节详细分析了经典测量理论五个方面的不足。项目反应理论是针对经典测量理论的不足而提出来的，其理论基础是潜在特质理论。项目反应理论通过项目反应曲线综合各种项目分析的资料，使我们综合直观地看出项目难度、区分度等项目分析的特征，从而起到指导项目筛选、编制测验和比较分数等作用。项目反应理论是通过建立特定的数学模型来描述这种关系的，而数学模型的建立往往离不开一组假设。本章第- - d , 节讲述了项目反应理论的一组假设，并指出项目反应理论具有经典测量理论不可比拟的优点。项目反应理论是本文教育考试评估方法研究的重要理论依据，分析项目反应理论和经典测量理论的基本概念、假设和优缺点等基础理论是为本文的进一步研北京工业大学工学硕士学位论文究提供坚实的理论基础和理论支撑。 1 0 第3 章项目反应理论模型第3 章项目反应理论模型项目反应理论模型【2 0 】【2 l 】是一种数学模型，它的特点是以概率来解释被试对项目的反应和其潜在能力特质之间的关系。项目反应理论的基本思想起源于上世纪3 0 年代末和4 0 年代初，1 9 4 6 年，塔克( t u k e r ) j e 式提出“项目特征曲线概念。所谓项目特征曲线，就是表征被试的能力或特质水平与其对一个测验项目的正确反应概率之间关系的二维曲线图。不同的项目特征曲线假设对应着不同项目反应模型，项目反应理论的模型不下2 0 余种，可根据实际情况选择适当的模型【2 4 】【2 5 】。目前应用最广的项目反应模型是正态卵形模型2 6 】和逻辑斯蒂模型【2 6 1 1 2 7 1 ，以伯恩鲍姆提出的逻辑斯蒂模型为代表【2 引。 3 1 正态卵形模型 1 9 5 2 年，美国心理和教育测量学家洛德提出的著名的正态卵形模型【2 们，其项目反应函数是正态卵形函数，其表达式为： a ( e - b )1 三f 2 p ( m + ( 1 删! 孛2d t(3-1) 其中日为被试的特质水平，取值范围是正负无穷。只 ) 表示特质水平为9 的被试在某项目上正确作答的概率，并且其取值在9 = - 时取0 ，在9 ：+ 时取1 ； a 为项目的区分度，b 为项目的难度参数，c 为猜测系数。 3 2 逻辑斯蒂模型( l o gis tic 模型) 1 9 5 7 年，伯恩鲍姆提出了逻辑斯蒂模型( l o g i s t i e 模型) 【2 6 】【2 7 1 。他所假定的项目特性曲线描述的是各种特质水平的被试( 一般用0 表示) ，对某一测验项目的正确反应概率( 一般用p ( 9 ) 表示) 。一定能力或特质水平的被试对某一测验项目的正确反应概率只与该项目的质量有关。被试的答对概率与其特质水平之间的关系是非线性的，即当特质水平0 大或小到一定的程度以后，答对概率p ( o ) 随之变大或变小的速度显著变小。研究表明，这种曲线的形状，是一条以其拐点为对称中心的s 形曲线。实际上，洛德提出的正态卵形函数与逻辑斯蒂函数相比，在计算结果上并无大的区别，所绘制的曲线也大体相同，然而，在实际中大多采用后者。北京工业大学工学硕士学位论文其中主要有以下两个方面的原因：首先是它形式上的简洁，更具数学模型的特点；其次是它便于用对数关系作处理，因而模型的项目质量参数和能力参数估计起来较为方便。由于l o g i s t i c 模型相对比较简单，准确性较高，计算量较其他模型小，因此常采用l o g i s t i c 模型。由于参数的不同，分为单参数、双参数( 2 p a r a m e t e r sl o g i s t i c m o d e l ，2 p l m ) 、三参数及四参数l o g i s t i c 模型( 4 p l m ) ，前三者都已在实际应用中广泛采用，其中又以三参数的l o g i s t i c 模型( 3 p l m ) 最为常用，由于计算机和网络技术的发展，对考试的准确性的要求也越来越高，对三参数的l o g i s t i c 模型的研究也比较成熟，现在逐步趋向使用三参数模型。而四参数模型目前主要还是理论研究阶段。 1 单参数l o g i s t i c 模型单参数l o g i s t i c 模型【2 9 1 1 3 0 1 ，又称r a s c h 模型，它是为纪念丹麦数学家g e o r g e r a s c h 在此领域所做的贡献而以之命名的。其数学形式如下： p ( 9 ) = 百1 而 ( 3 2 ) 其中，p ( 9 ) 表示能力为a 的学生答对试题j 或在试题j 上正确反应的机率；b 表示试题难度参数；e 代表自然对数的底数；且p ( 8 ) 是一种s 形曲线，其值介于 0 与l 之间。一个参数的试题特征曲线如图3 1 所示。第3 章项目反应理论模型 d c 之81 且 abf o 窆o 图3 - 1 单参数l o g i s t i c 模型特征曲线在图3 1 中，横坐标表示的是试题难度，同时也是考生能力的量表。纵坐标表示的是考生在某道试题正确作答的概率，显然概率值应当在【0 ，1 】之间。图3 1 中所示的曲线即为某道试题的项目特征曲线。b 等于项目特征曲线斜率最大处在能力量表上对应点的值，是曲线的拐点。在这个点上学生正确作答的概o 5 。所表示的含义是，当一道试题的难度与学生的能力完全相同时，学生正确的概率是 5 0 。在图3 1 中的a 和b 两条竖直线表示两名能力不等的学生a 和b 作答的概率。据图示，显然可以看出，b 的能力大于a 。因此在该道试题上，学生b 正确作答率d 要大于a 作答的概率c 。 2 双参数l o g i s t i c 模型双参数l o g i s t i c 模型【2 9 】【3 0 1 数学形式如下： 1 p ( 9 产百南 ( 3 - 3 ) 与单参数相比，双参数增加了参数a ，a 表示试题的区分度。双参数的试题特征曲线如图3 2 所示，其表示了三个b 相同而a 参数不同的试题特征曲线。北京工业大学工学硕士学位论文乡。，。 - 知 o20。南，如0 图3 - 2 双参数l o g i s t i c 模型特征曲线与图3 1 相似部分不再介绍，参数a 是试题的区分度参数，它是曲线在拐点处的切线的斜率。若a 的值越大，曲线在b 点附近越陡峭。因此对于能力值0 位于b 点附近的学生，只要9 与b 稍有差异，则该学生正确作答的概率就迅速增大或者减小表现出很强的区分作用。 3 三参数l o g i s t i c 模型三参数l o g i s t i c 模型【2 9 3 0 1 数学形式如下： 1 一， p ( p ) = c + i 南( 3 - 4 ) 其中d = i 7 ，参数项目参数a 和b 的意义与双参数模型中的一样的，当e = 0 时，即为双参数l o g i s t i c 模型；当e = 0 ，a - l 时，即为单参数l o g i s t i c 模型。与双参数相比，三参数增加了参数c ，表示试题伪随机水平参数，一般将伪随机水平参数称为猜测参数。顾名思义，猜测参数是指一位能力极低的学生在试题上通过猜测正确作答的概率。三参数的试题特征曲线如图3 3 所示，该图表示了三个a 、b 参数均相同而c 不相同的曲线。从图形上看c 表示项目特征曲线下第3 章项目反应理论模型端渐进线的高度。多，， 01 o南o3 3 0 ， 1 o 图3 - 3 三参数l o g i s t i c 模型特征曲线 4 四参数l o g i s t i c 模型四参数l o g i s t i c 模型【3 1 】数学形式如下： 1 一， p ( p ) 时瓦而赤而 ( 3 - 5 ) a 参数为项目的区分度参数； b 参数为项目的难度参数； c 参数为项目的猜测参数； d 参数为项目的速度参数，其取值范围为【0 ，1 0 】，该值越大，表明正确解决这一项目要的时间越多； p 被试的速度参数，其取值范围为【o ，2 】，值越大，表示被试在解决项目时所需要花费的时间越多； 8 被试能力参数； t 是被试在项目上的作答反应时间。 5 四种模型之间的关系： ( 1 ) 当四参数模型中的参数p = o 或d = o 时，既不考虑速度因素时即为三参北京工业大学工学硕士学位论文数模型，见式( 3 4 ) ； ( 2 ) 对于选择题和是非题猜测参数是必须考虑的，而其他类型的试题一般不用考虑猜测参数，可令c = o ，此时即为双参数模型，见式( 3 3 ) ； ( 3 ) 如果不含有猜测参数，且测验中各个试题又有大致相同的区分度，此时可令a 取某一定值，如令a = l ，此时即为单参数模型，见式( 3 2 ) 。前三者都己在实际应用中广泛采用，其中又以三参数的l o g i s t i c 模型( 3 p l m ) 最为常用，不难推测，就三参数l o g i s t i c 模型而言，对于任意给定的试题，能力值低的被试的正确反应概率低( 接近猜测参数值c ) ，能力值高的被试的正确反应概率高( 接近确定值1 ) 。由于计算机和网络技术的发展，对考试的准确性的要求也越来越高，对三参数的l o g i s t i c 模型的研究也比较成熟，现在逐步趋向使用三参数模型。而四参数模型目前主要还是理论研究阶段。 3 3 本章小结本章介绍了项目反应理论模型是一种数学模型，它的特点是以概率来解释被试对项目的反应和其潜在能力特质之间的关系。而项目特征曲线是项目反应理论模型的曲线表征形式。项目反应理论的模型不下2 0 余种，目前应用最广的项目反应模型是正态卵形模型和逻辑斯蒂模型。本章着重介绍了单参数、双参数、三参数和四参数逻辑斯蒂模型的数学表式形式，绘制了单参数、双参数、三参数逻辑斯蒂模型的项目特征曲线并对这三种项目特征曲线进行了详细的分析，指出单参数、双参数、三参数和四参数逻辑斯蒂模型四种模型之间的关系和它们在实际测量过程中的应用。第4 章项目反应理论在考试中的应用第4 章项目反应理论在考试中的应用 4 1 测试信息函数 4 1 1信息函数的概念按经典的真分数理论作项目分析时，提出项目难度和区分度两个项目特性指数，但却是分别对它们作考察的。虽然也承认这两方面会彼此联系，统一发挥作用，却未定义综合指标，并且，没有揭露测验所含各个项目的性能与质量，跟整个测验的性能与质量的关系。真分数理论的信度系数与测验标准误差的求取，与项目难度与区分度是没有关系的。这就给项目选取、测验编制、效能分析等，留下了许多技术难题。i r t 中的信息函数概念【l l 的提出，就为突破这些困难闯出了一条新路。信息是一个非常重要的科学与哲学的概念。一般说，信息可以看成是不肯定性的消除。假定我们要了解某学校一年级男生平均身高，当我们未作任何调查测量时，无法对之做出任何肯定性结论，不能设想会在数轴上哪个区间或点上取值。也就是说，不肯定性无穷大，在未作任何消除时，我们所掌握的信息量就为零。当进行了调查，求取了样本平均数时，就可据此推断该学校一年级男生平均身高大概会在数轴上某一范围内取值。也就是说，我们能以一定的把握做出一定程度的肯定，亦即掌握了一定量的信息。样本平均数的抽样理论( 中心极限定理) 指出，随机样本容量的增大，抽样分布标准误会缩小，统计推断置信区间半长会变短。这就是说，不肯定性会随之进一步消除，信息量会进一步增大。因此，在这种情况下就可以说，信息量是抽样标准误的函数，其定量关系是信息函数值等于抽样 1 标准误平方数( 即方差) 的倒数。若信息函数记为i ，则有i = ，以上是一般 e 统计估计情形。在心理和教育测量中，问题完全类似。当我们采用i r t 时，也是要根据实测资料，按照一定统计数学方法，估计被试的特质水平值。具体地说，若采用逻辑斯蒂克函数，按极大似然函数方法估计被试的能力水平9 值时，估计值日会随实测项目样本容量的增大而渐近正态分布。所以，我们也可以定义测验信息函数为估计误差方差的倒数。即有，( 日) = v ( o1 日) - 1 ，这里，( 臼) 为测验信息函数，v ( o9 ) q 是估计误差方差。而且，极大似然函数估计中估计误差方差等于测验所含项目反应函数的对数似然函数，再对9 求二阶导数的期望值的相反数，即北京工业大学工学硕士学位论文有，( p ) = v ( bp ) 一= 一e ( 0 2i n l a 0 2 ) 这个结果，数理统计中叫f i s h e r 信息函数。在对上式进一步推导时，对于o 1 评分项目而言，可得测验信息函数的具体取值如下：，( p ) = - e ( a 2l n l 0 02 ) = ( ) 2 ( 尸q ) ，这里是第i 题的项目反应 i = i 函数，q f = 1 ，是第i 个项目反应函数对8 的一阶导数。测验信息函数是n 项的和，而每一项恰好对应测验所含的一个项目，即每项均为一项目的项目信息函数。若记项目信息函数为厶( 9 ) ，则有，其中( 臼) = ( 只。) 2 ( 尸q j ) 。测验信息函数又可写成，( 臼) = ( 日) 。以上就是i r t 所给出的测验和项目信息函数的定义。 4 1 2 信息函数的性质 1 每个项目所提供

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）教育考试评估方法研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）教育考试评估方法研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档