




已阅读5页,还剩18页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
IRT在量表(测验)编制上的应用2目录前言-1第三章 计算机化适性测验-2第一节 CAT的原理与概念-2第二节 CAT的程序-2第三节 CAT的范例-6第四节 CAT的相关问题-8第四章 多向度测验-11第一节 多向度测验的概念-11第二节 多向度试题反应理论(MIRT)-14第三节 多向度IRT的相关问题-17第四节 MIRT分析的范例-19前言试题反应理论(IRT)是测验领域中较新的技术,它已经被应用在教育、心理、医疗等相关领域中,如国中基本学力测验、托福、GRE、GMAT考试,以及国外的一些人格量表与医学相关量表的编制。当代著名的计算机化适性测验(CAT)也必须仰赖IRT的理论与技术才能运作。本次工作坊的主要内容是以介绍IRT的概念与实务应用为主,上午的课程是先对IRT做基础概念的介绍,接着以生活质量量表与国中基本学力测验的发展为例,介绍IRT的基础应用,并有实际数据让学员上机操作,对于有量表发展需求者而言相当实用。下午是IRT的进阶课程,介绍IRT在多向度测验及计算机化适性测验上的应用,对于有兴趣发展人格量表、多元性向测验等多向度测验,或是想发展计算机化适性测验的人而言是很适合的课程。第三章、计算机化适性测验第节 CAT的原理与概念计算机化适性测验(以下简称CAT)是由计算机根据受试者的答题反应立刻估计出其能力,并且马上选出适合于受试者能力的题目来施测。由于所选出来的题目难度较符合受试者的程度,因此只要传统非适性测验的1/21/3题数就能达到与传统非适性测验相同的测量精准度。此外,计算机化测验的多媒体特性可以让试题以色彩、声音、动画、互动、操作等方式来呈现,提高测验的真实性与生动感。CAT的主要理论依据是试题反应理论(以下简称IRT)。IRT主要是描述题目参数、受试者能力与其作答反应机率的数学模式。基于IRT的单向性(unidimensionality)与局部独立性(local independency)假定,只要试题符合IRT的模式,则接受不同难度试题的受试者其能力是可以互相比较的(Hambleton & Swaminathan, 1985)。第二节 CAT的程序在进行CAT时,由于题目是根据每个人的能力所选取出来的,因此每个人所接受的试题都不相同,如果计算出来的能力无法互相比较则进行CAT就失去意义了。所幸基于IRT的单向度与局部独立性(local independency)假定,只要试题符合IRT的模式,则接受不同难度试题的受试者其能力是可以互相比较的。要进行CAT需要下列几个步骤:1.建立题库(item bank)题库建立的程序与一般测验编制程序相同,主要有建立测验双向细目表、根据命题原则设计试题、修整与审查试题、预试与试题分析、筛选试题、将试题内容与试题参数输入计算机数据库等几个步骤Wainer et al., 1990。其中双向细目表是所欲测量特质的架构,它能使命题时有范围与目标可循。在进行CAT选题时,也要使各内容或题型的题数比例符合双向细目表的架构,如此测量到的能力才能符合测验建构。为了使题库的适用范围扩大,对不同能力的人都能进行CAT,题库中试题的难度范围也应该尽量扩大。在难度分布型态方面,有研究者建议题库中的难度分布最好呈均等分布Urry,1977。但何荣桂1991的研究则显示,难度为均等分配的题库其被选出来施测的题目有集中在少数几题的现象,这些经常被施测的题目曝光率过高,容易外泄。因此他建议题库中的b参数要以中难度者居多,a参数是愈高愈好,c参数则是愈低愈好。2.估计试题参数与连结由于CAT的选题是根据试题参数来进行,而且施测的题数都不多,因此题库中试题参数的精确性很重要。一般而言,欲使估计出来的试题参数是稳定可靠的,单参数模式最好能有200人以上,三参数模式最好能有1000人以上,而且受试者的能力要够分散。由于无法针对同一批人施测题库中的所有试题,因此预试时通常是给予不同批受试者不同的题目其中包含一些共同题,再进行试题参数的连结。进行试题参数连结时,受试者的能力愈分散其效果愈好洪碧霞,1993。常用的试题参数连结方式有平均数标准差法、强韧平均数标准差法、特征曲线法等,其中特征曲线法的效果较好,但是也比较麻烦。此外,如果各群体的测验中安排有共同试题,也可以用同时估计法直接对所有试题进行参数估计,如此题目参数就已经是在同一个量尺上,就不需要再进行连结了。3.能力估计与选题在能力估计方面,目前常用的能力估计方法主要有最大概率法(Maximum Likelihood; ML)与贝氏估计法两类,贝氏估计又分为最大后验法(maximum a posteriori, MAP)与期望后验法(expected a posteriori, EAP)。其中EAP法与MAP法的估计误差较小,对各种答题反应的受试者皆可进行估计,但是会有回归性的偏误;而ML比较没有回归性偏误,但估计误差较大,且受试者的答题反应中必须有答对也有答错的反应才能进行估计,全部答对或全部答错者无法进行洪碧霞,吴裕益,吴铁雄,陈英豪,1992; Bock & Mislevy, 1982; Weiss & Mcbride, 1984)。选题分为起始选题与适性选题(adaptive item selection)。刚开始进行CAT时,由于不了解受试者的能力,通常会选择中难度试题作为起始试题。后续的选题则是根据受试者在先前题目上的答对或答错情况来估计其暂时的能力值,并选择能对此暂时能力值提供最高讯息量的下一个适性题目。CAT在进行能力估计时,是以受试者所作答过的n个试题反应型态来进行暂时的能力估计,并根据暂时的能力估计值来选择能提供最高讯息量的第n + 1题,再根据受试者对前n + 1个试题的答题反应计算新的能力估计值,并继续选出能对新的能力值提供最高讯息量的下一题,直到能力估计误差或试题数量到达某个预设的目标为止。4.CAT的测验结束方式在正式施测之前,还要决定CAT的测验结束方式。测验结束方式最常见的有固定题数终止与目标讯息量终止。固定题数终止是当受试者做完某个既定的试题数量就停止,不过每个人的测量精准度可能会不同;目标讯息量中止是当受试者的能力估计讯息量达到一个既定的标准后就停止,这种方式可以确保对每个人能力的测量精准度都差不多,但每个人所接受的测验题数可能会不同。由于讯息量的概念较难被大众所理解,因此固定题数终止法是较多人采用的方式。5.规划软件与硬件CAT必须要有适当的软、硬件设施才能实际的来进行。从硬件来说,以目前计算机科技的进步情形,只要有一台速度较快的计算机(约2.4G的CPU与512 mega-bit的ram)作为服务器,再加上几台计算机作为使用者端来联机,就能进行到50100人左右的CAT。但是当人数增加时,其选题速度就会开始变慢,因此就需要更高速的计算机作为服务器,或者同时准备多台服务器同时来进行。CAT的软件通常需要有下列几项功能:(一)命题功能CAT的命题功能最好要能结合计算机的多媒体优势,如果都与一般纸笔测验的文字型题目无异,就失去测验计算机化的意义了。CAT的命题功能最好能做出下列几种试题类型(陈柏熹,2005):(1)文字题型:这种题型与一般纸笔测验相同,只是改成在计算机屏幕中呈现罢了,完全没有利用到计算机的多媒体优势。很可惜目前的计算机化测验试题大多为此种题型。(2)彩色照片或图片题:这是在题目中包含分辨率较高的彩色照片,以作为作答时的判断依据。例如:植物照片的判断,岩石土壤照片的判断,医疗时所使用的X光片等。由于屏幕的分辨率与立体感优于纸本印刷,因此这类题型出现在计算机化测验中会比出现在测验卷上效果好。(3)动画影像题:这种题目主要是让受试者看完一小段动画或影片,接着再让受试者回答问题;或是使用动画人物来说明试题以吸引小朋友注意。例如:可以用动画呈现力学概念,再要求受试者答出该项概念的名称或预测后续的发展。甚至可以用在动态天气图的判断上,要求受试者预测气象。(4)声音题:这种题目主要是以声音作为问题呈现的主体,要求受试者根据所听到的声音来回答问题。例如:英语的听力测验,机师对引擎问题的判断,或医师对心跳、呼吸、胃肠蠕动等声音的判断等。(5)交互式实作题或模拟操作题:这种题型需要受试者实际在计算机上操作以完成题目的要求。例如,中英文打字技术,建筑师或设计师的绘图,航海或飞行人员的模拟驾驶测验,医师的模拟手术等。(6)写作式测验题:计算机化的写作能力测验与一般纸笔的写作能力测验大致相同,主要的差别是计算机化的写作能力测验让受试者用打字的方式来完成句子修改,句子重组,或甚至于完成一篇文章。其优点是可以避免在阅卷时受到字迹美丑所影响,甚至可以计算机来进行批改。缺点是每个人的打字速度不同,对打字速度较慢者不利。(二)题库管理功能题库管理功能主要是让测验编制者能够管理试题的质量,了解以及调整现有题库,并且设定选题或组成测验卷的条件,以使CAT所选出来的题目不但符合受试者的能力水平,也能够符合双向细目表的要求,让每位受试者所接受的试题在各内容上的比例不至于差异太大。这些功能通常包含题库中的试题数量统计,各项试题参数资料统计,以及选题限制与选题条件设定等项目。(三)适性选题功能适性选题功能主要是将先前提到的适性选题算则与能力估计算则写成计算机程序,供测验编制者在建置测验时选用。目前常见的主要有最大概似估计法(ML),贝氏期望后验法(EAP)与贝氏最大后验法(MAP)等。详细程序可以参见洪碧霞等(1992)或Hambleton与Swaminathan(1985)。(四)作答与作答辅助功能CAT软件中用量最大的莫过于作答功能。作答功能指的是答题所需要的接口,例如:试题呈现方式的规划,作答区域的设计,题干与选项区域的设计,图表的呈现方式,题组的呈现方式等。目前的CAT试题呈现方式都是单题式的,因为无法确定下一道适性试题是哪一题,必须等到受试者回答某一试题,并估计出其能力后,才能选出下一道适性试题。如果是非适性的计算机化测验,则可以一次将所有试题都呈现出来,受试者可以利用下拉式滚动条来控制答题进度,甚至可以进行答案检查,或修改之前所作答的题目,等到全部试题都答完后才将资料送出计分。这种作法与台湾目前大部分的测验情境较为相似。(五)计分与成绩报表将测验计算机化的优点除了是使试题多样性、情境控制标准化以及作答方便之外,另一项重要的优势就是计分迅速。几乎是受试者作答完所有题目并将数据送出后,成绩就能立即计算出来。因此,如果要达到计算机化测验一贯化目的,最好是能将成绩计算与产生成绩单的系统也规划到测验软件中。最常见的成绩单通常包含所作答的题目编号、答题反应与参考答案、原始分数或量尺分数等,较好的功能甚还有测验成绩的解释。整体而言,人性化的设计是软件功能的最重要考虑因素。由于测验编制者或受试者对于计算机操作的熟悉程度不同,因此在设计上要尽量作到即使从来没使用过计算机,也能经由简单的说明就能在计算机上编制试题或作答。第三节 CAT的范例本节主要是以一个范例来阐述CAT的执行过程。表3-1是某测验题库中的试题难度,假设某一位受试者要使用这个题库来进行计算机化适性测验,测验目标是要作完5个题目的CAT。表3-1 某题库中的题号与难度题号难度题号难度题号难度1-2.9111-0.90210.602-2.5712-0.78221.033-2.2813-0.57231.484-2.1114-0.45241.695-2.0015-0.36251.936-1.8716-0.17262.097-1.7517-0.02272.368-1.46180.09282.519-1.29190.25292.6510-1.06200.37302.95其进行CAT的过程如表3-2所示,说明如下:表3-1 某受试者进行5题CAT的过程顺序接受题号难度答对与否能力值117-0.0212221.0300.53210.60-0.2416-0.1710.355200.370-0.051.起始选题由于不知道受试者的能力,因此只好假设他为0。因此就需要从题目中选出一个可以对能力值为0者提供最高讯息量的题目。此时可以选取难度最接近0的第17题,因为当题目的难度与受试者能力相当时,能够提供最高讯息量(如果为2PL或3PL模式则要逐题计算讯息量,选出讯息量最高的题目)。2.根据作答反应估计能力当开始获得受试者的答题反应后,就可以开始估计其能力值。之前曾提到能力估计方法有三种。其中ML法是必须有答对以及答错的题目才有办法估计其能力,全部答对或答错者无法估计。而MAP法与EAP法可以针对全对者及全错者进行能力估计,但是必须知道受试者是来自于何种能力分布型态的群体。由于不知道受试者是来自于何种能力分布型态的群体,因此采用ML法。又因为只答对一题,没有答错,无法估计其能力,因此暂时不估计能力,直接选取较难的试题让他作答。例如:选择难度增加1.0的题目,本例为第22题(难度1.03)。如果受试者仍然答对第22题,则需要再选择更难的题目让受试者继续作答;如果受试者答错第22题,就可以开始以ML法进行能力估计。在本例中,受试者答对第17题且答错第22题,其用ML法估计出来的能力值约为0.55。3.根据暂时的能力值选择下一题由于受试者能力值约为0.55,而题库中难度最接近0.55的题目为第21题。该题也是可以提供最高讯息量的题目。当受试者作答完第21题时,再重复第2步骤,依据受试者在这三题上的反应,重新估计受试者能力;接着再重复第3步骤。如此反复进行,直到作答完目标题数为止。4.CAT终止,计算估计误差当受试者作答完CAT的目标题数后,就可以依受试者在这些题数上的作答反应来估计其能力值,同时也可以算出估计误差。以本例而言,能力估计值约为-0.05,而能力估计误差就是讯息量平方根的倒数,约为0.94。由于本例只做了5题,因此估计误差颇大。为了比较CAT与传统非适性测验的差异,作者以随机抽题的方式对题库中的题目抽选10题,并计算其IRT能力值与估计误差。结果发现,即使受试者的作答反应是完美的Guttman scale反应,其估计误差也有将近1.10(能力估计值约为0.0)。也就是说,CAT只需要传统非适性测验1/2的题数,就能够达到相同的能力估计精准度了。 第四节 CAT的相关问题CAT的主要理论依据是IRT,尤其是单向度与局部独立性假定。但这两项假定也限制了CAT的应用,使目前的CAT大都局限在单向度能力的测量上,对于人格量表、多元性向测验、综合能力测验等包含多向度特质的测验,以及一些含有多向度试题或题组的测验,目前还无法用CAT来进行。目前大部分的CAT都是建立在IRT单向度假定的基础上,亦即测验中所有试题都是在测量同一种特质,可称为单向度计算机化适性测验。然而,实际生活情境中有许多的问题并非靠单一能力或潜在特质就能解决的,测验的作答也是如此(Bejar, 1986; Kelderman, 1996)。当受试者答对试题的机会受到不只一种能力所影响时,已经违反了单向度IRT的理论假设,因此不应该进行UCAT。Ackerman(1991)的研究显示,当试题测量不只一种能力时,如果以单向度IRT来进行参数估计会使鉴别度较大的能力向度被扩大、鉴别度较小的向度被缩小或忽略掉,产生偏差的试题参数估计值,而且所估计出来的能力其意义已经模糊了,不适合放在同一个向度上互相比较。再从测量精确度的角度来看,单向度IRT无法借着各向度能力的相关性来提升对各向度能力的估计,因此每个向度都需要很多题,才能到达某个信度水平。这也是为什么目前大部分的人格量表,兴趣量表或性向测验的题数都这么多。如果能使用多向度IRT,在估计能力时可以将向度间的相关纳入,提升了各向度能力估计的精确性,则每个向度只要少数几题其各向度的信度就很高了。为了解决理论上的限制,近几年来已有许多测验学者提出相关研究与方式来克服与改善之。在理论的限制方面,学者们提出了多向度试题反应模式(multidimensional item response theory; MIRT)(Adams, Wilson & Wang, 1997; Hattie, 1981; Mckinley & Reckase, 1983; Reckase & Mckinley, 1991; Sympson, 1978)。MIRT除了可以克服单向度IRT的限制外;还可以利用向度之间的相关性来提高对各向度能力估计的精准度(Wang, Chen, & Cheng, 2004),因此其测量效益比单向度IRT还要高。Wang, Chen与Cheng(2003)的研究显示,当向度之间为高相关时,多向度IRT分析可以大幅提高各向度的信度,由原本的0.6(单向度IRT分析)提升至0.8。为了使CAT的测量信度能够更加提升,并突破试题只能测量一种能力的限制,近几年来MCAT的概念渐渐被提出来(陈柏熹,王文中,2004; Luecht, 1996; Segall, 1996; Wang & Chen, 2004)。由于MCAT不仅具有多向度分析的优势,又加上了适性程序的效能,因此MCAT可以说是当代测量效益最高的测验程序。作者过去的研究显示(陈柏熹,王文中,2000a,b),当各能力之间为高相关(0.7以上)时,MCAT大概只需要一般传统非适性测验的1/5题数就能够达到相同的能力估计精准度。即使各能力之间为中等程度相关(0.40.7),也只需要1/3左右的题数就能达到与传统非适性测验相同的精准度。除了理论上的限制外,CAT在实际运作时也会面临到部分题目的曝光率太高导致试题外泄的问题,或是不同受试者在各内容的题数比例不同以致测验效度受质疑的问题。为了解决实务上的限制,近几年来也有学者提出许多试题曝光率控制技术Davey & Parshall, 1995; Hetter & Sympson, 1997; McBride & Martin, 1983; Stocking & Lewis, 1995a, 1995b; Sympson & Hetter, 1985,以及包含许多条件限制的CAT选题技术(Stocking & Swanson, 1993; Stocking & Swanson, 1998; van der Linden & Reese, 1998)。Chang1998曾经研究5种试题曝光率控制方法的效果以及对能力估计的影响,发现McBride与Martin1983的5-4-3-2-1控制法与没有进行控制曝光率控制的试题曝光率差不多。Sympson与Hetter1985的方法在发展试题曝光率控制参数时比Stocking与Lewis1995a的非条件化多元控制程序unconditional multinomial procedures的曝光率控制效果好。Stocking与Lewis1995b的条件化多元控制程序conditional multinomial procedures是曝光率控制效果最好的,不过能力估计信度的损失较大。Davey与Parshall1995的方法是该研究者建议较好的方式,但实际执行上略微复杂些,计算所需的时间也较久。而上述这些方法的试题曝光控制效果会随着题库中题数的多寡而不同。此外,在进行CAT时,如果不顾及各内容的题数比例,则可能影响测验建构,使不同受测者的能力比较很难比较。以数学科的测验为例,如果有的受测者都接受到几何方面的题目,而有的受测者却都接受到代数方面的题目,这两群受测者的分数恐怕难以比较。因此,在进行CAT时,通常还需要加入一些选题的限制,这些限制除了各内容题数比例的限制之外,还有题组的选题限制一次选取多个相关联试题,以及可能互相提供答题线索之相依题选题限制等。CAT的选题限制会使最高讯息量的试题无法被选取,而改以次高讯息量的试题来施测,使测量精准度受到影响。van der Linden与Reese1998的研究发现,在总题数较少的情境中20题以下,加入选题限制会使CAT之能力估计均方误MSE与偏误bias较大;但当题数增加到30题以上时就没什么影响了。总之,即使是测量效益这么高的CAT,目前仍然有一些理论上与实务上的议题值得做进一步研究。期待未来能够有更多的人才投入这方面的研究,让测验领域的发展能进步的更加快速。第四章、多向度测验第一节多向度测验的概念由于IRT的单向度假定,目前的IRT还无法适用于一些常见的测验情境,例如:综合能力测验、人格量表,以及当试题测量不只一种能力时。综合能力测验的试题都是测量相似属性的能力,例如:自然科测验测量了物理、化学、生物、地球科学等学科能力;社会科测验测量了地理、历史、公民等学科能力。在这些测验中,由于测量各学科的题目不会太多,如果要单独将各学科拆开来分析,所得到的信度会很低;而如果勉强将测量不同学科的题目视为同一向度来分析,不仅违反测验本身的建构,也无法得知关于不同学科的较详细信息。人格量表经常包含许多分量表,分别测量不同的人格特质。单向度IRT在处理人格量表时,是分别针对各项能力或人格特质进行单向度IRT分析。虽然这种做法尚能符合测验的建构,但是为了避免测验时间太长而产生疲劳,各分量表所包含的题目不能太多,因此分量表的信度都不高。而且这种分别对各项能力进行单向度IRT的分析方法,无法藉由各向度间的相关性来提高能力估计的精确性,所得到的信度远比多向度IRT的分析方式低Chen & Wang, 2000。此外,这种分别对各向度进行分析再来求各向度相关性的做法,会因为各向度本身的估计误差而低估了各向度间的相关性。除了上述两类测验外,还有一些测验其试题被认为测量到两种或两种以上的能力。例如,瑞文氏推理能力测验中的部份试题被认为需要使用两种以上的规则才能解答,而且二向度模式比单向度模式更能符合这些试题的反应资料Carpenter, Just & Shell, 1990;Kelderman, 1996。又例如明尼苏达多向人格测验Minnesota Multiphasic Personality Inventory, MMPI也有部分试题测到了两个向度,这些题目(第18题、31题、39题等)在不同分量表被重复计分。国小数学科测验中的应用题也是测量两种能力,学生必须先使用表征能力将题目情境以数学关系式来表示,再用计算能力将答案算出来。还有一些实作试题也是同时测量多个向度的:例如,作文题同时测量了立论见解和语文表达两种能力;科学实验题同时测量了科学知识和仪器操作能力。这种二向度试题对受试者能力所提供的讯息远比单向度试题来得丰富,可是单向度IRT无法对这种试题进行分析,因为这种同时测量多个向度的试题已经违反了单向度IRT的假设。总而言之,单向度IRT会出现两种缺点。第一,对于测验组合而言,无法利用向度间的关连,来增进各向度的测量准确度。第二,无法分析同时测量多个向度的试题。近年来多向度IRT的发展试图解决这两大困难。为了提升测量精确度并突破单向度IRT的限制,多向度IRT已逐渐被学者们提出来Adams, Wilson & Wang, 1997; Bock & Aitkin, 1981; Fraser, 1988; McDonald, 1967; Mckinley & Reckase, 1982; Sympson, 1978; Whitely, 1980。多向度测验主要可以分为两种Adams, Wilson, & Wang, 1997; Wang, Wilson, & Adams, 1997。一种是每个试题只测量一种能力(单向度试题),但是一份测验中包含许多单向度试题,这些试题分别测量几种不同的能力,这种测验称为题间多向度测验between-item multidimensional test,如图4-1a所示。测验组、人格量表与综合能力测验就是属于这种类型。在人格测验中,每个试题都是测量某种人格特质,而一份测验中通常包含许多分量表,分别测量不同的人格特质。综合能力测验则是将几种能力类型相似的试题都放在同一份测验中。第二种多向度测验是测验中有些试题测量了一种以上的能力,这种类型被称为题内多向度测验within-item multidimensional test,如图4-1b所示。例如,小学高年级的数学测验中经常包含计算题与应用题两种题型:其中计算题是属于单向度试题,纯粹是测量四则运算能力;而应用题是属于二向度试题,受试者需要使用表征能力(representation)将问题情境用计算式来表示,然后再使用计算能力将答案算出来。因此单向度IRT模式不适合用在这类测验上。如果忽略试题多向度的特性,勉强使用单向度IRT进行分析,会因为忽略了其中某一项能力而产生偏差的结果,使分数的意义变模糊Ackerman, 1991。第1题第2题第4题第3题第5题第6题第7题第8题第1题第2题第4题第3题第5题第6题第7题第8题神经质物理社会性情绪稳定性生物化学1a 题间多向度测验模式第1题第2题第4题第3题第5题第6题第7题第8题计算题1计算题2计算题3应用题1应用题2应用题3计算能力生物问题表征能力物理化学1b 题内多向度测验图4-1 二种类型的多向度测验模式使用多向度IRT不仅可以保留测验在测量多个向度的构想,而且利用向度之间的相关来帮助对各向度能力的估计,提升估计的信度。如果向度间的关连不低,则信度将会大幅增加。根据Chen与Wang2000的研究显示,以一般纸笔测验而言,在五个向度间为高相关,而各向度题数较少约为10题的题间多向度测验中,分别对每个向度进行单向度IRT所得到的信度约为0.5比多向度IRT所得的信度低约为0.8。而如果要达到相同能力估计信度,多向度IRT所需的题数大约为单向度IRT的1/3至2/3。此外,多向度IRT可以直接估计各向度间的变异数-共变量矩阵,这可以避免因为使用二阶段估计先估计各向度能力,再求其相关的方式而造成共变性被削弱attenuated的现象,亦即多向度IRT所估计的向度间相关性是比较精确的。第二节 多向度试题反应理论(MIRT)近代学者们提出来的多向度试题分析模式主要有两类Reckase, 1997。一类是因素分析取向的模式,也就是将因素分析应用在答对或答错1,0的测验反应中,如McDonald 1967, 1996所提的测验试题因素分析法。另一类是属于IRT取向,也就是将原本单向度IRT的模式中能力参数与试题参数扩展成多向度的型式,而发展出多向度IRT。例如Adams, Wilson与Wang1997、Fraser1988、Hattie1981、Mckinley与Reckase1982、Sympson1978、Fischer与Seliger1996、Embretson1996等。本文主要介绍IRT取向的多向度IRT。目前所提出的多向度IRT模式大多是单向度IRT模式的衍生模式。例如:Reckase与Mckinley1983, 1991所发展的多向度二参数模式multidimensional two parameters model是二参数IRT的衍生模式以下简称为M2PL,如公式4-1所示:, 4-1其中xij为受试者反应型态,答对该题时纪录为1,答错时纪录为0。ai为试题鉴别度向量,di为试题难度,j为能力向量。此模式是将原本的受试者能力值q 与试题鉴别度a扩展为向量,如此就能将多向度的能力同时包含在模式中,也就是答对试题的机率会受到多种能力所影响。藉由可以定义出多向度鉴别度与多向度难度:其中m为能力向度数目。另外,还有用来描述题目对不同向度能力提供不同鉴别度的方位角度概念:Hattie1981的模式与Sympson1978的模式相当类似,都是将Birnbaum1968三参数IRT模式中的能力参数与鉴别度参数改成向量的型式所产生的以下简称为M3PL。其反应模式如公式4-2所示: , 4-2其中Ui为反应型态,ci为试题的猜对率,ai为试题鉴别度向量,D = 1.7,而1是为了使试题的难度成为向量,这样才能与能力向量相减。的意义与上述Reckase与Mckinley1991的模式相同,这两种模式的概念相当接近。Segall1996的多向度计算机化适性测验(MCAT)程序就是用此模式发展出来的。此外,Ackerman1994, 1996也曾对上述两种模式发展出二向度试题讯息量图标法。Adams、Wilson与Wang1997等人所提出来的多向度随机系数多项洛基模式multidimensional random coefficients multinomial logit model, MRCML为Rasch模式的衍生模式。其反应模式如公式4-3所示:, 4-3其中Xik为受试者反应型态,Ki为第i试题的计分类别数。其中bik 为第i题在第k个反应类别上的计分向量;q为受试者能力向量;aik 为第i题中第k个反应类别的设计向量;x为试题参数向量。举例来说,若一份测验中测量到了D种能力,分别为q1, q2, q3,qD等;而受试者在第i个试题回答出第k个反应类别时,在这D个向度能力上所得到的分数为bik = bik1, bik2,bikD,此计分向量应该根据当初设计试题与选项时的构想来决定的,也就是试题设计的理论基础与计分方式必须一致。在x方面,若测验试题共有3题,第1题的计分为02的部份给分,其余两题为0,1的二元计分,则第一题需要估计2个参数难度、其余两题各估计1个参数,共估计了x11, x12, x2, x3等4个参数,即x = x11,x12,x2,x3 。aik称为设计向量design vector,是估计每个试题参数时所使用的系数,也就是描述了第i题的第k类别反应是否要用来估计某个参数xik,这可以根据研究者的目的自行设计,详见Wu、Adams与Wilson1998。表4-1为上述三种多向度IRT模式的比较。其中Reckase与Mckinley1991的模式引入了多向度鉴别度、多向度难度以及其方位角度的概念,这些信息对于理解试题的讯息量型式相当有用。然而,该模式只适用在选择题的二元计分的情境中。而且其面临的另一个问题是原本各向度能力被定义为独立的,但实际上人类许多能力之间通常不是独立的。此外,其能力估计与讯息量计算方式中没有考虑到能力间的共变影响(因为已经限制独立),Ackerman1993认为其公式中应当考虑各向度间的共变影响,因而发展出能力估计与讯息量的校正公式。但是当能力向度超过两个时,Ackerman所发展出来的讯息量校正公式变得相当复杂,使讯息量的计算变得十分困难。在估计软件方面,目前有软题MAXLOG Mckinley & Reckase, 1983可以用来估计其各项参数。MRCML模式是功能较多、包容性较广,而且目前已经发展出参数估计软件Acer ConQuest Wu, Adams, & Wilson, 1998。举凡最原始的Rasch模式Rasch, 1960; Wright & Stone, 1979、Fischer 1973的逻辑斯地潜在特质模式logistic latent trait model; LLTM、Andrich 1978的评定量尺模式rating scale model、Masters 1982的部份给分模式partial credit model、Linacre 1989的多面向many-faceted Rasch模式等,都是它的特例。就计分方式来说,MRCML可以适用在二元计分、多元计分、评定量尺等计分方式上;就能力向度来说,可以用来估计单向度与多向度能力;此外还可以用来研究不同评分者的效果、试题难度的潜在影响因素,以及试题差异功能differential item function等。除了上述这些多向度IRT之外,目前还有Fischer与Seliger1996的多向度线性逻辑斯地模式multidimensional linear logistic models for change、Embretson1996的多成分反应模式multicomponent response models、Kelderman与Rijkes1994所提出的线性对数多元计分多向度模式loglinear multidimensional models for ploytomous等,这些都是近几年来所提出的多向度IRT。在ven der Linder与Hambleton1996的当代试题反应理论手册Handbook of Modern Item Response Theory中还专门为多向度能力的测量专辟一个主题共七章来阐述,可见多向度IRT在最近这几年来是颇受到重视的。表4-1三种多向度IRT模式的比较模式与提出者M2PLMckinley & Reckase, 1983Reckase & Mckinley, 1991M3PLHattie 1981,Sympson 1978MRCMLAdams, Wilson, & Wang, 1997参数估计软件MAXLOGNOHARMConQuest适用的向度数二向度多向度多向度适用的计分方式二元计分二元计分二元计分、多元计分或评定量尺特色l 可以用图标法呈现出试题的讯息量与难度,容易理解。l 贝氏能力估计与选题算则顾及了各向度间的相关性,也提升了测量信度。l 包容性较广,适用于许多常见的测验情境与目的中。缺点或限制l 限制能力间为独立。l 鉴别度常无法界定。l 能力估计与讯息量计算忽略了向度间的共变影响。l 试题参数常无法界定。l 向度增加时,鉴别度、讯息量等概念很难理解。l 单参数模式。第三节 多向度IRT的相关问题多向度IRT虽然已经发展了将近10年之久,但是其在实际使用上仍然会面临到一些问题。其中最主要的是参数估计的问题与计算所需时间的问题。在参数估计的问题上,MIRT的参数估计方式主要有两类,一类是属于探索性的参数估计,也就是好像探索性的因素分析一般,不需要指定每个题目所测量到的能力向度为何,软件会协助估计出每个题目测量到各向度的鉴别度(一般而言,多向度试题难度都被定义为只有一个难度,但是对各向度分别有不同的鉴别度,如公式4-1)。M2PL与M3PL的大部分软件都是属于这一类的。由于没有指定试题的向度,因此每个试题都被视为同
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 未来绿色社区规划与管理专业面试题目
- 常熟市2025-2026学年九年级上学期语文期中测试试卷
- 昌吉回族自治州2025-2026学年八年级上学期语文月考测试试卷
- 企业员工关系管理面试题
- 2025年系统工程学家技术考试试题及答案
- DB3401∕T 254-2022 装配整体式混凝土结构结合面技术规程
- 2025年物流运输管理师资格考试试题及答案
- 2025年制药工程师职业能力综合考试试题及答案
- 2025年物流配送管理师运输技能试题及答案解析
- 2025年物流管理师综合能力试卷答案
- 住宅楼弱电系统的故障诊断与维护
- 皮肤科护理中的营养与饮食指导
- 流动人口信息登记表模板doc
- 智能网联汽车计算平台测试装调完整全套教学课件
- 夏季预防中暑及中暑急救培训PPT
- 急腹症的诊断及治疗(吴慧锋)
- GB/T 4666-2009纺织品织物长度和幅宽的测定
- GB/T 13912-2020金属覆盖层钢铁制件热浸镀锌层技术要求及试验方法
- 《空气动力学》配套教学课件
- 2023年西安陕鼓动力股份有限公司招聘笔试模拟试题及答案解析
- 送达地址确认书(完整版)
评论
0/150
提交评论