（教育技术学专业论文）计算机自适应测试系统的研究与应用.pdf

上传人：活*** IP属地：宁夏上传时间：2020-01-10 格式：PDF 页数：5 大小：1.85MB 积分：7.2 举报 版权申诉

免费预览已结束，剩余1页可下载查看

下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘要至今仍有广泛应用的经典测试理论( c t t ) 具有样本依赖性、对误差的控制和信度理论方面的不完善、只适用于常模参照测试等缺陷，而项目反应理论( 1 r t ) 则较好地克服了上述缺点。计算机自适应测试( c a t ) 是将计算机技术应用于教育测量领域从而发展起来的基于项目反应理论的新型测试方法，由于近年来计算机科学的飞速发展，使得计算机自适应测试成为未来教育测试的发展趋势。计算机自适应测试在国外许多领域都有研究和应用，而在国内的发展则相对滞后。本文针对n c a e 项目中原有系统存在的问题，通过比较三种测试理论的优缺点，得出设计一个c a t 系统可以很好地解决现有问题的结论。然后通过对各种参数估计算法的比较，选择适当的参数估计策略，设计了一个计算机自适应测试的测试过程，并将n c a e 项目中的原有系统改进成基于c a t 的测试系统，其中重点实现了考试中心子系统的题库管理模块和考点子系统的考试模块。最后对系统中的关键问题试题项目参数估计、被试能力参数估计和试题选择等进行了研究和实现，并提出了系统的性能优化策略，以及在今后的工作中值得研究的课题。关键字：计算机自适应测试( c a t ) 、项目反应理论( 1 r t ) 、参数估计、c a t 测试过程、系统设计 a b s t r a c t a b s t r a c t c l a s s i c a lt e s tt h e o r y ( c t r ) ，w h i c hi su s e de x t e n s i v e l ys of a r , h a s s a m p l ed e p e n d e n c e ，f a u l t i n e s so nc o n t r o lo ne f f o ra n d l e t t e rd e g r e e s ，a n d i t i so n l ys u i t a b l ef o rm o u l dc o n s u l t i n gt e s t i n g h o w e v e r , i t e mr e s p o n s e t h e o r y ( i m 3c a no v e r c o m ea b o v e - m e n t i o n e ds h o r t c o m i n gb e t t e r c o m p u t e ra d a p t i v et e s t i n g ( c a t ) i st h en e w t y p em e t h o do ft e s t i n g d e v e l o p i n go nt h eb a s i so f1 r t , w h i c ha p p l i e sc o m p u t e rt e c h n o l o g yt ot h e e d u c a t i o nm e a s u r ef i e l d o na c c o u n to ft h er a p i dd e v e l o p m e n to f c o m p u t e rs c i e n c ei nr e c e n ty e a r s c a th a sb e c o m et h et r e n do fe d u c a t i o n t e s t i n gi nt h ef u t u r e ，c a th a se x t e n s i v er e s e a r c ha n da p p l i c a t i o ni n al o t o ff i e l d sa b r o a d ，b u ti t sd e v e l o p m e n tl a gb e h i n di no u rc o u n t r y t h i sa r t i c l ea n a l y s e st h ep r o b l e m se x i s t i n gi nt h eo r i g i n a ls y s t e mo f n c a ep r o j e c t ，c o m p a r e st h et h r e et e s t i n gt h e o r y ，a n dd r a wt oa c o n c l u s i o nt h a td e s i g n i n gac a ts y s t e mcanw e l ls o l v et h ee x i s t i n g p r o b l e m t h e nt h r o w l 曲c o m p a r i n gv a r i o u sk i n d so fp a r a m e t e r se s t i m a t i n g a r i t h m e t i c ，i tc h o o s e st h ep r o p e rp a r a m e t e re s t i m a t i n gs t r a t a g e m s t o d e s i g nt h et e s t i n gc o u r s eo fc a t b e s i d e s ，i ti m p r o v et h eo r i g i n a ls y s t e m o fn c a e p r o j e e lt oa nt e s t i n gs y s t e mb a s e do nc a t , a n dr e a l i z et h ei t e m s m a n a g i n gm o d u l ei nt h et e s t i n g c e n t e rs y s t e ma n dt h et e s t i n gm o d u l ei n t h e t e s t i n gp o i n ts y s t e m a t l a s ti tr e s e a r c ha n dr e a l i z et h e s i x t y f o u r - d o l l a rq u e s t i o n o ft h es y s t e m s u c ha si t e mp a r a m e t e r s - - - - ，_ _ _ _ ，一 e s t i m a t i n g , e x a m i n e e sa b i l i t yp a r a m e t e re s t i m a t i n ga n di t e mc h o o s i n g ， a n db r i n gf o r w a r dt h eo p t i m i z i n gs t r a t a g e m sf o rt h ep e r f o r m a n c eo ft h e s y s t e ma n dt h es u b j e c tw o r t ho fr e s e a r c h i n gi nt h ef u t u r e k e y w o r d s ：c a t , i r t , p a r a m e t e r se s t i m a t i n g ，c a tt e s t i n gc o u r s e ， s y s t e md e s i g n i n g 1 综述 1 1 研究背景 1 1 1 项目背景 2 0 0 4 年上半年，我们实验室承担了全国信息化应用能力考试 ( n c a e ) 系统项目的研发、测试及相关的实旌工作。n c a e 是国家信息产业部信息化工程师认证考试管理中心( n c 砸) 最新推出的认证考试系统，以专业化、广泛性的市场调研为基础，在信息产业部等有关部门指导下，与教育、培训、i t 、人力资源等行业的主流机构进行开放性和创新性的合作，建立一套具有国际化水准的技术类职业人才培训及认证体系，以推动我国信息化建设的发展。 n c a e 根据我国现有的信息化发展程度和特点，对实际工作中的岗位类型进行了划分，基本岗位认证阶段主要考察学员对相关基础知识和基本软件的掌握和应用能力，高级岗位认证阶段主要考察学员对行业发展趋势和特点的把握及工作中的创造能力和分析问题、解决问题的能力。此外，n c a e 认证内容在对专业知识、操作技能的考核基础上，首开先河地增加了对学员职业素质和性格特点的考察，内容涉及学习能力、沟通能力、职业习惯、团队精神、职业礼仪、职业规划等多个方面，能更好的为企业选择人才提供全面的参考。 n c a e 在认证内容中涉及了大量实际工作经验性的知识和技巧，使认证内容充分体现职业应用的特点，真正反映学员的实际工作能力。北京交通大学硕士学位论文 1 1 2 目前系统存在的问题由项目背景介绍可以看出，n c a e 考试系统主要是一个能力测试系统，学员参加测试得到的成绩应该能够真实的反映学员在测试领域所具有的能力。而且由于参加测试的学员能力水平参差不齐，这就要求n c a e 这种诊断性测试具有相当高的效率，要用尽量少的试题数在尽量少的时问内测试出学员的真实能力。然而，目前的系统从根本上来讲仍然是在传统的测试理论指导下的考试系统，仍然是以组织同一时间同一地点的大规模的考试为主，学员参加考试需要提前报名申请，然后考点向考试中心统一提出考试申请，由考试中心的教师做出相应的模版，再根据模版抽取试卷，下传到各个考试中心，这样学员才能参加考试。虽然每个学员所要作答的试题是不相同的，但是在考试之前每个学员试卷的内容是确定的，并不会根据学员的能力产生变化，因此不能准确地反映学员的能力水平：而且学员不能够随时参加考试，单个学员或是少数学员单独参加考试，将造成人力、物力、财力上的浪费，影响经济效益。综上所述，目前的系统并不能完全满足实际的应用需求。 1 1 3 其他相关背景高等学校的计算机教育和英语教育，由于学生来自不同的地区，因此对知识的掌握程度和相关能力有很大的不同，针对这种情况，应该安排不同层次的课程以满足不同的教育目标；高等学校学生普遍存在选课盲目性的现象，学生不知道如何选择适合自己的课程，不知道自己是否具备所选课程相关的预备知识。以上种种情况都需要提前对 2 考生做相关的能力测试。远程教育过程中，参与远距离学习的学生范围很广，能力参差不齐，这就要求测试具有相当高的效率，要用尽量少的试题，测试出学生的真实能力，否则会引起学生在学习时间上的浪费，也可能引起学生的厌烦或恐惧的情绪，从而影响学生的学习。 1 1 4 结论因此，未来的传统教育、职业教育和远程教育中的考核测量的趋势，必然是计算机自适应测试( c a t ) 。自适应测试可以很好地满足对能力测试的需求，这样，在传统教育中可以通过自适应测试来准确的标定学生当前的能力水平，从而避免教育的盲目性；而在职业教育和远程教育中，学生还可以随时参加他所选择的考点举行的考试，而不必像过去那样，必须同时参加定期举行的考试。并且，这种不同考试之间的测量结果仍然具有可比性，而这一点正好可以满足职业教育和远程教育中考核的异步性的要求。 1 2 计算机自适应测试( c a t ) 近年来，教育测量领域的发展方兴未艾，在理论上不断地趋于完善和丰富，在教育实践中的应用也日趋广泛和深入。目前，由于计算机科学的飞速发展，使得计算机自适应测试成为教育测量的发展趋势。计算机自适应测试( c a t ，c o m p u t e r a d a p t i v e t e s t i n g ) 是近年来将计算机技术应用于教育测量领域从而发展起来的新型测试方法，它北京交通大学硕士学位论文的基本思想是“因人施测”，即不同能力水平的被试都能接受一组跟自己特质水平相适应的试题。c a t 可以认为是一种个性化的测试，它能够根据每个被试的实际能力进行定制，即根据被试对最初几道试题的答题情况，对被试的能力作初步估计，再通过试题选择算法，从试题库中选取与被试能力水平最接近的试题继续进行测试，不断重复这个过程直到能够准确地标定被试的能力值为止。自适应测试最早可追溯到比内智力测试，这种测试在二十世纪初期诞生于法国，后来在英语国家中又发展为斯坦福比内 ( s t a n d f o r d b i n e t ) 智力测试。在这个测试中，研究者根据不同年龄事先编制好不同难度的题库，向被试呈现和他年龄相应的题目，如果被试答对了该年龄水平的题目，则呈现更高年龄的题目，如果被试没有答对有关题目，则向被试呈现较低年龄的题目。这是一种由人工控制的固定分支的自适应测试。它使用了固定的分题规则，一个可变的入口点和一个可变的测试结束标准，比内测试确定了自适应测试的一些基本原则。此后，许多教育测量学家对适应性测试的理论作了大量深入的研究，为日后计算机白适应测试的发展奠定了坚实的理论基础。美国的教育测量学专家洛德( l o r d ) 进行了一种称之为“灵活测试”的试验，测试试卷中包括了一系列的试题，其难度从极易到极难等距分布。在测试开始时，被试先回答中等难度的试题，如果回答正确就接着给出先前没有给过的更难的试题，如果回答错误则给出更容易的试题。对该项特性具有高水平者会接受最难的试题，低特性水平者接受较低难度的试题，在这两者之间的被试接受一组能覆蔬其特性水平的试题。在这个实验中，最大的贡献是尝试通过灵活的、可变的分支来选择试 4 综述题，至此，自适应测试的基本原则已经全部建立。 2 0 世纪7 0 年代以后，计算机科学的发展对全社会各行各业都产生了巨大而深刻的影响，同样也促使适应性测试的研究迈上了一个新的台阶。七十年代初，洛德依据当时计算机技术的发展，在前人对适应性测试理论研究的基础上，首先提出了计算机自适应测试( o 蟠) 这一概念。它的出现首先从方法上突破了延续千年的以纸笔作为作答工具的考试方法的限制，变革为以显示器呈现题目、以键盘和鼠标为作答工具的考试方法。更重要的则是测试思想的变革，它通过计算机给每个被试建立一个个性化的测试来达到更为准确化的知识、能力、水平的测量，测试的试题是根据被试的能力水平进彳亍测试而确定的。与传统的测试相比较，c a t 的每一道试题都不是对被试能力水平的消极的度量，每一道试题的作用都由单一评定这一项功能变为两项功能，即不但要评定被试对该试题所代表知识的掌握程度，还决定着下一道试题的挑选。若此题回答正确，则下一道试题将选择难度较高的试题：若此题回答错误，则下一试题将选择难度较低的试题。因而被试所傲的每一道试题都与被试的能力水平相适应。这样，能力水平较高的被试能够避免做难度较低的试题，而能力水平较低的被试则能够避免做超出其能力范围的试题。因此，c a t 是为了解决测试跨度与精度难以兼顾的困难而设计的。它为不同能力水平的被试提供难度适合的测试题目，因而能对所有特质水平上的被试的能力提供相同精度的测量，从而实现了测试策略思想的更新，为教育测量提供了新视角，开辟了新领域。 5 北京交通大学硕士学位论文 1 3 c a t 的国内外研究应用现状自适应测试理论在美国发展地比较快，1 9 4 6 年，t u c k e r 就提出了“项目特性曲线”；1 9 5 2 年，l d f d 提出正态卵形模型；1 9 5 7 年， b i r n b a u m 构造了逻辑斯蒂模型；1 9 6 0 年r a s c h 提出拉什模型：1 9 6 9 年，s a m q i m a 做出了可用二级、多级连续评分测试模式等等。近十几年来，在美国c a t 已经在教育测量、职业测量、人事测评等领域大显身手。国外的一些著名的第二语言或外语考试机构都已采用或即将采用c a t 的测试方式，例如，美国研究生入学考试( g r e ， g r a d u a t er e c o r de x a m i n a t i o n ) 、工商管理类研究生入学考试( g m a t ， g r a d u a t ef o rm a n a g e m e n ta n d a d m i n i s t r a t i o nt e s t ) 、全美护士国家委员会资格考试( n n c l t ，n u r s en a t i o n a lc o m m i t t e el i c e n s et e s t ) 等都已采取了c a t 的测试方式；世界上最大的考试机构美国教育考试服务中心( e t s ，e d u c a t i o n a lt e s t i n gs e r v i c e ) 已在美洲、欧洲、亚洲、非洲等近7 0 个国家和地区设有c a t 考点，总数已逾3 0 0 个。在信息产业中，美国n o v e l l 公司于1 9 9 6 年成功地应用了c a t 进行认证考试，使参加n o v e l l 认证考试的人数超过1 , 0 0 0 ，0 0 0 人次。相比较而言，国内在c a t 的理论和应用领域的研究和发展还是比较滞后的。目前，社会上比较成熟地大规模地应用c a t 这种考试方式的主要是一些从国外引进的语言能力水平测试和职业能力认证测试，例如，g r e 、托福( t o e f l ，t e s to fe n g l i s ha saf o r e i g n l a n g u a g e ) 、博思( b u l a t s ，b u s i n e s sl a n g u a g et e s t i n gs e r v i c e ) 以及微软认证( m c s e 、m c s d ) 等等。但是，近年来在国内c a t 的发展也弓起了国家和社会各界的重 6 综述视，目前的研究和应用也主要集中在语言测试领域。例如，自上个世纪九十年代初期开始，教育部一直都在投入人力物力致力于全国大学英语四、六级考试的c a t 系统的研究和开发。我国对外汉语教学界也开始探索自适应汉语水平考试( h s k ) ，以弥补现有的纸笔型汉语水平考试偏重评估考生的接受性能力的局限。现在，h s k 已经形成了一个初具规模的题库和试卷计算机自动生成系统，并着手研发h s k 多媒体试题。并且，社会上也出现了一些c a t 应用型的研究，自行编制了一些c a t 系统，并取得了实际的应用效果。例如，上海电大在上海市计算机应用能力的考试项目“v b 6 0 程序设计”中已采用了 c a t 的考试设计方法；江西师范大学小学教学c a t 研究、华南理工大学的“数据结构”c a t 系统的研究也取得了一定的成果；以及广东外语外贸大学外国语言学及应用语言学研究中心的机助语言测试研究项目、武汉科技学院外语系的自适应阅读能力测试系统等等。但是，国内自行研发的真正能够用于大规模测试的c a t 系统目前还几乎没有。 1 4 本文的工作第一，通过对经典测试理论和自适应澳4 试理论的比较，分析c a t 的特点和优点；第二，比较各种参数估计算法的优缺点，选择各种策略设计一个 c a t 的测试过程；第三，针对当前n c a e 项目中原有系统存在的问题和实际需求，将其改进成基于c a t 的测试系统；第四，崽结系统的优缺点，提出需要进行的改进，并展望c a t 7 北京交通大学硕士学位论文未来的发展。 1 5 本文组织结构图本篇论文的内容共分为六章，其组织结构图如图i - 1 所示分析研究背景，确定研究目的分析测试理论的发展 i 比较几种测试理论的优缺点 j 设计一个c a t 的测试过程 l 设计基于c a t 的n c a e 系统 l 系统中关键问题的研究与实现总结和展望图1 - 1 论文组织结构示意图 8 测试理论的发展 2 测试理论的发展测试是对学习者的学习信息进行有组织、有系统的收集，并通过对这些信息的处理做出确切判断和适当决定的科学手段和工具。【1 l 测试的实践必须要有理论的指导，测试理论的发展大致经历了两个时期：5 0 年代以前的以真分数理论为代表的经典测试理论；5 0 年代以后出现的概化理论和项目反映理论等。 2 1 经典测试理论( c i i ) 最早发展起来的心理与教育测量理论是经典测试理论( c 1 t ， c l a s s i c a lt e s tt h e o r y ) ，又称为真分数理论( t r u es c o r et h e o r y ) ，它起源于s p e a r m a n 二十世纪初的研究工作，发展至5 0 年代已逐渐形成了完整的体系，至今已有将近一百年的历史。般认为，5 0 年代g u l l i k s e n 的著作使经典测试理论具有了完备的数学理论形式。1 9 6 8 年f m l d r d 和m r n o v i c k 的心理测试分数的统计理论一书，将经典的真分数理论发展推至巅峰状态，并实现了向现代测量理论的转变。1 3 2 1 ，1 真分数模型真分数模型是经典测试理论的基石，所谓真分数指在测试中不存在测量误差时的真值，实际的观察值等于真分数加上误差，即：抬n e ，其中j 为实际观察分数，r 为真分数，层为误差。由于误差的存在，实际观察分数会在真分数上下一定范围内波动变化。真分数理论提出了三个基本假设：第，误差分数的平均数为零： 9 北京交通大学硕士学位论文第二，误差分数和真分数相互独立，真分数反映的是不同被试在测量对象上的水平，而误差是和测量目标无关的变量所引起的测量的不一致效应；第三，两次测量的误差分数之间的相关为零。误差是随机出现的，每次测量所产生的误差是独立的，两次测量之间没有必然的联系。【8 】 2 1 2 项目分析通常，对测试的分析与评价分为两方面进行：一是对各个试题的分析，称为“项目分柝”；二是对整个溯试进行的分析和评价，称为 “整体分析”。【1 0 】 c r r 有一套完整的项目分析指标体系和评价标准，其中常用的主要有难度、区分度等。 2 1 ( 一) 难度难度是指测试项目的难易程度，一般是以能够正确回答试题的人数与参加测试的总人数之比，作为难度指标。难度是测试中项目分析的重要内容，它对测试的信度和效度都会产生直接影响。难度的计算与测试项目的类型有关： 1 客观性试题计算难度的方法：原始定义法：当测试项目是采用二分法记分( 即通过记1 分，未通过记0 分) 时，可用公式2 - 1 计算项目的难度： p ；旦 ( 2 一1 ) n 其中： p 为难度值5 r 为答对该试题的人数； 1 0 测试理论的发展为参) j n n 试的总人数。事实上，这里的尸值实为容易度，1 一p 值实为困难度。在二分法记分中，对选择题的解答，由于允许被试猜测，被试的得分可能会被夸大，选项的数目越少，投机的作用越大。为平衡猜测对难度的影响，可用公式2 - 2 校正： c p ：k p - 1( 2 2 ) x 一2 其中： c p 为校正后的难度值； p 为实际得到的通过率： k 选项数目。极端分组法：当举行大规模测试时，由于被试人数很多，用原始定义法计算项目难度比较麻烦，这时可以采用极端分组法计算难度。极端分组法是根据测试总分按高低次序排列，用两极端组在某项目上的平均通过率表示项目的难度，其计算公式如公式2 3 所示： p ：姓( 2 - 3 、 2 其中： p 0 为高分组通过率；吃为低分组通过率。 2 主观性试题计算难度的方法：平均分数法：当测试项目采用非二分法记分时，即对项目不能简单地判定对、错或通过、不通过时，一般采用公式2 - 4 计算项目的难度： p ；x( 2 4 )p 昌( 2 4 ) 北京交通大学硕士学位论文其中： p 为难度值；盖为被试在某项目上的平均得分：为该项目的满分。极端分组法：对主观性试题，若考生人数较多，可用公式2 5 来计算项目难度： p ；叠肇二! 罂1 2 n ( h l ) ( 2 5 ) 其中：翰为高分组所得总分；魁为低分组所得总分； h 为该试题的最高得分：三为该试题的最低得分；为考生总人数的2 5 。项目难度与测试目的相关，测试目的不同，测试项目的难度值也不同；项目难度会对测试的质量产生直接的影响，它会影响测试分数的分布以及测试鉴别力等。 ( 二) 区分度区分度是测试对被试实际水平的区分程度。区分度是测试项目分析的重要内容，它是作为评价项目质量，筛选项目的主要指标与依据。区分度通常用d 表示，d 的取值范围在一1 0 0 和+ 1 0 0 之间，d 值越大，试题的区分能力越强。当d 为正值是，说明试题是积极区分，即高分组通过率高，低分组通过率低。当d 为负值时，说明试题是消极区分，高分组通过率低，低分组通过率高。当d 为0 时，说明试题 1 2 测试理论的发展无分区作用。计算区分度的方法比较多，试题类型不同计算区分度的方法也不同： 1 ，极端分组法：将测试总分排序，确定一定比例的高分组与低分组，然后根据高分组和低分组在某些项目通过率上的差异比较，最后确定其区分度指标。这种计算方法易于理解，计算简便，但由于只使用了高分组和低分组的数据，中间还有部分数据没有参加计算，因而所得结果不够准确，一般在教师自编测试中使用。客观性试题区分度的计算公式如公式2 - 6 所示： d = 晶一最 ( 2 6 ) 其中： d 为区分度； p u 为高分组通过率；见为低分组通过率。主观性试题区分度的计算公式如公式2 7 所示：肌耥l 协7 ， 1 日一j 2 相关法：在大规模的测试或标准化测试中，一般采用相关法分析项目的内部一致性，即以项目分数与效标分数( 效标分数不易得到时，则以测试总分代替) 的相关作为项目区分度的指标，相关越高，区分能力越好。用相关法计算区分度时，多采用积差相关、点二列相关、- y u 相关、函相关等方法计算相关系数。积差相关法：当考生在试题上的得分与测试总分都属于连续变量时，可以采用积差相关法计算试题的区分度。使用积差相关法计算北京交通大学硕士学位论文项目区分度时，必须保证测试具有较高的信度。其计算公式如公式2 - 8 所示： n ? 胛一了x v y 工2 一( 肖r j p 一( y r ( 2 8 ) 其中： r 为积差相关系数；工为考生某试题得分； y 为考生测试总分：为考生总数。点二列相关法：当测试的一个变量为连续变量，另一个变量为真正的二分变量时，要用点二列相关系数表示某项目的区分度。其计算公式如公式2 - 9 所示：一学历( 2 - 9 ) 其中：为点二列相关系数； x ，为考生答对某试题的平均得分；盖，为考生答错某试题的平均得分； p 为答对某试题人数占全体考生人数之比； q 为答错某试题人数占全体考生人数之比，q = i - - p ；为全体考生测试得分的标准差。二列相关法：当测试总分和项目分数均为连续变量，而其中一个被人为分为两个类别，即当测试总分为连续变量，欲分析其中某一 1 4 测试理论的发展试题的区分度，人为地把它分为合格和不合格两种情况时，要用二列相关系数表示试题的区分度。其计算公式如公式2 - 1 0 所示：矗= 兰譬协其中：为二列相关系数； y 为正态分布下p 的曲线高度。驴相关法：当测试的两个变量都是二分变量时，则可用计算毋相关系数来表示某项目的区分度。这种方法一般是根据以测试总分化分为合格、不合格两组被试在某一试题e 通过、不通过的人数列成四格表来计算( 见表1 - 1 ) ，其计算公式如公式2 - 1 1 所示：。2ad-bc(2-11)v(a+bxc+dxa+cxb+d) 。= 表1 - 1 四格表合格不合格通过aba + b 未通过 cd c + d a + cb + d 区分度越高，说明试题的质量越好，区分度是评价测试好坏的重要标准。北京交通大学硕士学位论文 2 1 3 整体分析整体分析利用测试的结果对整个测试进行全面的分析和评价，主要通过两个指标和评价标准来描述：信度、效度。f 2 j ( - - ) 信度测试结果的可靠性称为测试的信度。测试中对信度的估计和计算，一般采用相关分析的方法，即计算出两种变量的相关系数，用相关系数的大小来表示一致性程度的高低。如果一种测试前后两次旋测同样的被试，测试结果的相关系数大，则该测试的信度高；前后两次测试结果的相关系数小，则该测试信度低。根据计算方法，可将信度分为再测信度、复本信度、内部一致性信度和评分者信度等。 1 再测信度：再测信度是一种表示测试稳定性的方法，可用稳定性系数表示。稳定性系数是同一测试在先后两个不同时间内对同一组被试施测后求得的实得分数的相关系数。因此，计算再测信度实际上使用的是重测法。其计算公式如公式2 1 2 所示； r l a l 。 ( 2 1 2 ) 其中： k ，为两次测试结果的相关系数； x 为第一次测试的实得分数； l ，为第二次测试的实得分数；为被试人数。 2 复本信度：复本信度是- - , e o 表示测试等值性的方法，可用等值性系数表示。等值性系数是以两个等值但具体内容不同的量表，在 1 6 测试理论的发展最短的时距内，对相同被试先后施测两次测试所获得的两组对应分数的相关系数。所谓测试的等值是指测试在题型、题数、难度、区分度等方面应相等。复本信度的计算公式同公式2 1 2 。 3 内部一致性系数：内部一致性系数是同一测试的两个部分( 例如分为奇数题和偶数题，或者测试的前一半和后一半) 得分的相关系数。内部一致性系数的估计方法有两种，即分半信度和库德一理查逊 ( k u d e r - r i c h a r d s o n ) 公式法。分半信度：分半法是将一个测试分裂为两个假定相等而独立的部分来记分，通常以项目的奇数为一组，偶数为一组，不宜将前后两部分分组。分组之后，求其两组分数的相关系数，最后用斯皮尔曼一布朗( s p e a r m a n b r o w n ) 公式校正，以求得整个测试的信度系数。其计算过程如下：第一，计算出每个被试的奇数题总分( 五) 和偶数题总分( 施) ；第二，求出分半后两部分总分的相关系数，计算公式如公式2 1 3 所示： ( 2 1 3 ) 第三，用斯皮尔曼布朗公式校正，其公式如公式2 1 4 所示： 2 r x 。x ， 2 1 + r x 。, x ：其中：为校正后的信度系数 ( 2 一i 4 ) x = 为分半信度系数。库德一理查逊公式法：库德理查逊公式有很多个，其中常用的 1 7 北京交通大学硕士学位论文有2 d 和，艘2 i 。 ( 1 ) r 。的计算法：这种方法以每道试题能准确回答的人数占总人数的百分数为基础来计算，即以各题难度信息为计算的依据( 每题只有通过或未通过两种情况) 。其计算公式如公式2 1 5 所示： = 嵩( 卜擎) 沼m 其中： r k r 2 。为整个测试结果的信度系数； k 为测试题目数； p 为各题正确反应人数占总人数的百分数； q 为各题错误反应人数占总人数的百分数( q = l - - p ) ；妒为各被试各题得分之和的方差( 每题答对得1 分，答错得0 分) 。 ( 2 ) r 。：。的计算法：这种方法以各被试总分的平均数和方差为基础计算，无需各题难度的信息。其计算公式如公式2 一1 6 所示： z 刮一蔷厂一其中： x 为各被试总分的平均数；，为各被试总分的方差； k 为题目数。 4 评分者信度：当测试试题为主观试题时，必须进行评分者信度系数的估计。评分者信度系数即评分者评分的一致性系数。一个良好的测试首先必须保证测试的结果可靠，即要保证测试具测试理论的发展有较高的信度。 ( 二) 效度效度足一种测试能够正确地测量出它所要测量的特性或功能的程度。效度是测试中最基本、最重要的问题，是选择和评价测试质量的重要指标。美国心理学会1 9 7 4 年发行的教育和心理测试的标准一书中，将效度分为内容效度、构想效度和效标关联效度三大类。 1 内容效度：内容效度是指测试内容与预定要测的内容之间的一致性程度，也可以说是指测试内容对所要测试的全部内容的取样代表性程度。取样代表性是指测试试题能最大限度地代表欲测试的内容范围。因此，一个测试要具有较高的内容效度必须具备两个条件，其一是测试内容范围明确，其二是取样具有代表性。内容效度的估计方法有逻辑分析法和统计分析法等。 2 构想效度：构想效度是指测试成绩能够解释心理学理论上的某种结构或特质的程度。所谓构想，是指心理学理论所涉及的抽象而属假设性的概念、特质或变量，如智力、能力倾向、行为习惯、成就动机等。确定构想效度的步骤和方法是：首先根据一定的心理学理论建立某种心理品质的理论结构；然后根据这一理论结论提出有关测试成绩的假设；最后用逻辑和实证的研究由果求因来验证提出的假设。 3 效标关联效度：效标关联效度是指测试分数与作为效标的另一独立测试结果之间的一致性程度。般是用本测试与效标测试去测同一组被试得到的两组分数的相关系数表示。所谓效标，是检验测试效度的参照标准。效标关联效度分为两种，即同时效度和预测效度。同时效度是一种测试的结果与另一大约同时获得的测试结果( 即效标) 之间的一致程度。同时效度的高低用两次测试结果的相关系数来 1 9 北京交通大学硕士学位论文估计。预测效度是指测试分数与将来的效标之间的相关程度，或者说预测效度是测试在预测被试将来从事某种学习或工作能够达到应有水平的有效程度。预测效度的高低用两次测试结果的相关系数来估计。 2 1 4c t t 的优缺点经典测试理论发展到今天已经形成了非常成熟的理论体系，在心理和教育测量领域起到了重大的指导作用，并且至今仍有十分广泛的应用。经典测量理论的优点在于： ( 1 ) 以弱假设作为理论基础，在实际应用中这些弱假设条件容易被绝大多数测试情境所满足。因此，其应用具有广泛性。 ( 2 ) 统计分析方法简单明了，计算方便，易于掌握和理解。 ( 3 ) 我国教育测量工作者对经典测量理论及方法有深刻的认识，其应用具有广泛的基础性。但是，经典测试理论仍然有许多局限和不足，突出表现在以下几个方面：嘲 ( 1 ) 统计量的样本依赖性。c r r 中用于项目分析的指标( 如难度、区分度) 严重依赖于被测试样本。对同样的试题，若被试样本能力水平普遍较高，则所得的难度值就会偏低；反之，所得的难度值就会偏高。若被试样本能力水平差异较大，则所得的区分度值就会很高；反之，所得的区分度值就会很低。可见，被试样本的取样会严重影响到a 广r 的各项统计指标。 ( 2 ) 对误差的笼统划分与控制。c r r 将所有的误差都归为一类，而没能区分测试情景中的各类误差，包括类似评定者、试题、测试环 2 0 测试理论的发展境等影响测量目标的各种因素，也没有确定这些测量误差究竟来自哪些误差源，及各自产生的误差的大小，这些最终都将导致误差难以控制。 ( 3 ) 信度理论不完善。c r r 中信度是在“严格平行测试”的理论假设上求得的，而在实际实施时，严格意义上的平行测试很难做到，因此在此基础上计算出的信度值很难达到较高的精确度，其误差难以控制。 ( 4 ) 只适用于测试被试相对能力水平( 常模参照测试) ，而不适用于考察实际能力水平( 目标参照测试) 。 ( 5 ) 测试被试的某项能力或知识水平时，必须对所有被试同时使用问一测试或平行等价测试，否则测试结果将无法直接进行比较。 i3 1 2 2 概化理论( g t ) 针对经典测试理论存在的误差划分笼统和“严格平行测试”假设难以实施的局限，c r o n b a c h 等人以方差为基础，创立了概化理论( g t ， g e n e r a l i z a b i l i t yt h e o r y ) ，又称为概括力理论、拓广理论。1 9 7 2 年出版的平行策略的可靠性：测试分数和剖面图的概化理论一书标志着概化理论的正式形成，概化理论为研究信度和测量误差开辟了新的思路。i 引概化理论比较注重测量的情景，因为任何测试都是在特定测量情景下进行的，所以测量的根本目的不是为了获得在特定条件下得到的固定结果，而是要以此来判断更广泛条件下可能得到的测量结果。概化理论认为，测量情景关系由测量目标和测量侧面构成。测量者希望 2 l 北京交通大学硕士学位论文测量的那些实体称为测量目标( o b j e c t o fm e a s u r e m e n t ) ，在心理与教育测量中通常是人的能力、成就等特性。测量总是在特定条件下进行的，概化理论用侧面( f a c e t ) 这一概念来表示组特定的测量条件，并称条件的数量为该侧面的水平( l e v e l ) 。概化理论认为这些侧面对测量结果有影响，是测量误差的来源。教育测量中形成误差的原因是多种多样的，形成误差的原因不同，误差性质不同，误差大小也不同；相同性质的误差，在不同条件下，其大小也可能不同。要使测量可靠，必须控制和缩小误差，必须对误差的各种来源、大小、控制手段都要有深入的了解。概化理论的主要任务就是区分出误差的各种来源，并把误差方差分解为各个相应的方差分量，为控制和减少测量误差提供依据。概化理论对测试的研究主要分为两步：概化研究( g e r i e r a l i z a b i l i t y s t u d y ，简称g 研究) 和决策研究( d e c i s i o ns t u d y ，简称d 研究) 。g 研究的目的是辅助设计一项具有充分概化力的d 研究，g 研究的设计需要预计到测量的不同用途和目的，并尽可能多地测量变异来源的信息，且主要工作是用方差分析等方法来估计方差分量，为d 研究提供分析数据。所以，原则上g 研究应该是在d 研究之前进行的，d 研究则为作决策或解释收集数据。概化研究的目的是为了求出一个测试在各种不同变量( 时闽、测试类型、版本、被试、测试环境等) 在各种不同水平下的测试得分的方差。通过这些方差可求出该测试的概化系数( c o e f f i c i e n to f g e n e r a l i z a b i l i t y ) ，即该测试的总体方差与该测试在某一特定情景中所可能获得的观察分的方差之比。它要解决的问题是控制和减少误差。粗略地说，概化理论的内容就是：设计一个收集数据的方案，对这些测试理论的发展数据进行统计分析，然后根据分析结果对已实施的方案进行修改，以期得到更好的方案。概化理沧虽然对c t t 进行了改进，但是同样具有局限和不足，它的局限性在于： ( i ) 对样本的依赖性较强，概化理论模型的建立依赖于对测试情景关系的详细调查，必然对样本有很大的依赖性。 ( 2 ) 设计与分析复杂，难以被使用者接受，这也是它未被广泛应用的主要原因。【5 】 2 3 项目反应理论( i r t ) 项目反应理论( i r t ，i t e mr e s p o n s et h e o r y r ) 是在改进c t t 的局限和不足的基础上发展起来的一种新的测试理论，是计算枫自适应测试的重要理论基础。它突破了经典测试理论的局限性，将被试特质水平与被试在项目上的行为关联起来并且将其参数化、模型化。基于i r t 的测试模型称为r t 模型，i r t 模型是一种数学模型，定义了考生对试题的反应和其潜在能力特质之间的关系。i r t 模型建立了考生反应与试题参数和能力水平之间的非线性模型，具有参数不变性，估计出来的能力值不依赖于施测项目样本的特性，同对可以根据试题的信息量，选择与受测者能力相匹配的试题，直到达到预定的测试精度要求。项目反应理论认为，被试对测试的反应受某种心理特质支配，测试的结果和这种特质之问所存在的关系可用“项目特性曲线”来描述。项目反应理论对于测量误差的处理是通过信息函数加以实现的。北京交通大学硕士学位论文 2 3 1 i r t 的基本假设任何数学模型，都存在一些特定的假设。与c r r 相比，i r t 是建立在强假设基础上的。i r t 主要有以下基本假设： 4 1 1 潜在特质空间的单维性假设：所谓特质，是指一个人所具有的稳定、持久而又独立于情境的心理特征，如推理能力、刨造性、社会性、注意的稳定性等。能力或特质可以用测试成绩分析估计，但却不能直接测量，故称为“潜在特质”。潜在特质空间维度，又称为能力维度，是指被测量的测试成绩是由若干种能力b ，口：，8 。所决定的，这一，l 维空间称为潜在空间。假设潜在空问是一维的，就是说被测量的测试结果只取决于一种潜在特质或能力，其它潜在特质或能力的影响都可以忽略，这就是所谓的能力单维性( u n i d i m e n s i o n a l i t y ) 。这里的潜在特质或能力主要是一个统计学概念，能力的单维性也只是说一个数学变量就可以解释了。 2 局部独立性假设： i r t 假设被试在某一试题上的答对概率独立于其它试题的答对概率，也就是说被试对多个试题的反应是互无影响的，即在全部试题上的联合答对概率为各个试题答对概率之积。假设被试对n 个试题的反应模式为u ，i = 1 2 ，n ( 若答对， u , - = 1 ；答错，u f = 0 ) ，p f 表示被试对试题i 的答对概率，则答错概率 q i - - 1 一p f ，由局部独立性假设可以推出如公式2 1 7 的结论： p ( 【，z = “，u ：一n z ，u 。= i 口) 一丌只p 卜q p y l ( 2 1 7 ) 3 项目特征函数假设：测试理论的发展 r t 假设被试对某试题的正确反应概率与其能力之间的关系可以用一个单调上升的函数表示，即可以找到一条项目特征曲线，并且可以用多种项目特征函数来描述和逼近它。项目特征曲线是被试在项目上的正答概率对潜在特质分数的回归曲线。 4 速度无关性假设：常用的i

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（教育技术学专业论文）计算机自适应测试系统的研究与应用.pdf

文档简介

温馨提示

最新文档

评论

（教育技术学专业论文）计算机自适应测试系统的研究与应用.pdf

文档简介

温馨提示

最新文档

评论

相关文档