认知诊断测验编制的原则.doc_第1页
认知诊断测验编制的原则.doc_第2页
认知诊断测验编制的原则.doc_第3页
认知诊断测验编制的原则.doc_第4页
认知诊断测验编制的原则.doc_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

认知诊断测验编制的原则2011-01-03 来源:/摘要:Tatsuoka 给出的实例表明,不同知识状态可能对应同一理想反应模式,即对知识状态产生误判。如果不是对测验进行事后分析,找出属性及层级,而是采用Leighton 等人所倡导的方法,在认知诊断测验编制之前确定所测属性及其层次,导出可达阵,这时可以证明只要将可达阵作为认知诊断测验蓝图的一部分,则可避免这一问题。这一原则不仅对认知诊断测验蓝图的设计有指导作用,而且对制定有认知诊断功能的计算机化自适应测验的选题策略有着重要的参考作用。关键词:测验蓝图;认知诊断;可达矩阵;理想反应模式;计算机化自适应测验1. 引言通常把对个体知识结构、加工技能或认知过程(均简称为属性,attribute)的诊断评估称为认知诊断评估或认知诊断(cognitive diagnosis assessment /cognitive diagnosis, CDA,Leighton and Gierl,2007.) 1。一般的教育考试, 特别是大规模的考试,只提供考试分数或能力分数。然而由单一的分数,既不能得到被试具体掌握或未掌握什么知识的结论,也不能得到被试做错试题的原因,以进行补救;对于相同分数的个体,更无法得到他们之间可能存在的知识状态和认知结构的差异。传统的考试提供的信息已不太适合个体发展的需要,认知诊断评估的主要任务是挖掘更多的认知加工信息。Leighton 和 Gierl(2007)1认为认知诊断是用于测量/评价个体特定的知识结构(knowledge structure)和加工技能(processing skills)。CDA 通过测验获得被试在测验上(可观察)的反应而推知该被试不可观察的知识状态(knowledge state)。Leighton 和Gierl(2007) 1在他们所编写的书第一篇文章(p.3)称CDA 仍处于萌芽状态(CDA is still in its infancy),表明对CDA 的研究,包括认知诊断测验的构造都是新的课题。Gierl(2007) 1在注释(p.337)中又指出,认知诊断测验设计是一个重要的研究领域,而已有的相关研究成果却很少,连Downing 和 Haladyma 编辑的由Erlbaum 在2006 年出版的测验编制手册(Handbook of test development)中也没有相应的章节涉及认知诊断测验编制,甚至找不到认知诊断评价的主题词条(subject entry)。Gierl(2007)2还认为只有Gorin(2007)1描述了认知诊断测验编制的原理。认知诊断测验的编制是一件具有挑战性的任务,限于篇幅和本文主旨,这里不讨论如何与命题专家沟通,打磨出好的试题的问题,而集中讨论认知诊断测验蓝图的编制问题。在讨论认知诊断测验蓝图的编制问题之前,我们先看两个例子,一个是简化的用以解释原理性的例子;另一个是规则空间模型(rule space model,RSM)的开创者Tatsuoka(1995)给出的例子23 45,用以说明实际工作中考虑不周就很有可能编制出有问题的诊断测验。下文中理想反应是指既不猜测也不失误的作答反应,只有被试掌握了项目所测的所有属性,才能正确作答。属性层级方法(attribute hierarchy method,AHM)678中称理想反应为期望反应模式;确定性输入,噪声“与”门模型(deterministic inputs,noisy ”and” gate model,DINA,如可参见Henson& Douglas,20059)中的理想反应模式具体计算公式见附录1(其实,差不多所有理想反应模式都可以这样计算,当然也可以用丁树良等10介绍的方法计算)。由附录1 中具体计算公式可见理想反应模式十分重要,其实理想反应模式对诸如RSM,AHM等许多认知诊断模型都十分重要。对于诊断测验,在既不猜测也不失误的理想作答反应情况下,具有不同知识状态的被试对应不同的理想反应模式, 则称为理想的认知诊断测验;否则称为理想反应误判的认知诊断测验。若具有不同知识状态被试对应相同的理想反应模式,则称这些不同知识状态为等价类。实际上,这个等价类是由测验蓝图(测验Q阵)决定的,称为知识状态中由测验Q阵决定的等价类。我们希望有测验Q阵,使得每个等价类中仅仅有一个知识状态。例1.三个属性A1,A2,A3,它们彼此之间不存在先决关系(prerequisite relation)。于是属性之间的可达阵R 为三阶单位阵I。今给出三个项目作为诊断测验。注意被试的知识状态共有8 种,即1=(000),2=(001),3=(010),4=(011),5=(100),6=(101),7=(110),8=(111)。如果上述8 种被试分别参加测验蓝图为Qi(i=1,2,3,4)的认知诊断测验,则对于Q1,1,2,3,5 的理想反应模式均为(0,0,0),即理想反应模式为(0,0,0)的模式其潜在知识状态可能为1,2,3,5 ,此时如果根据其所有理想反应模式来判断其知识状态,误判率为3/8;上例中1,2,3,5 是Q1 决定的等价类;对于Q2,1,2,3,4 为一个等价类,理想反应模式均为(0,0,0);而5,6为另一个等价类,理想反应模式均为(1,0,0),即误判率为4/8;对于Q3,1,2 的理想反应模式均为(0,0,0),3,4 理想反应模式均为(0,1,0),而5,6 为第三个等价类,理想反应模式均为(1,0,0),即误判率为3/8;但对于Q4 却不带来任何误判。例2.Tatsuoka(1995,P.337)4给出了小学分数加减的认知诊断测验,测验共含9 个项目,依Tatsuoka 的事后(post hoc)分析,即通过对测验后的得分矩阵进行分析,得出5 个属性,属性完全相同的项目仅保留一个。如第五题:7121 + 和第六题:2131 + 都是检测通分(A3)和分数相加(A4),即T)(00110 ,只保留第五题;而第四题44 222 1 + 与第八题42 363 1 + 均检测了所有五个属性,也应归为一类,即T) (11111 ,只保留第四题(本文中xT 表示向量x 的转置),于是仅剩下7 类项目,组成一个57 的Q 阵。这里的Q 阵与Tatsuoka 给出的有不同,因为她给出的Q 阵有笔误,比如第七题只涉及分子相加(A4),即T) (00010 ,而不像Tatsuoka所标定的为“答案化简”,我们对这些笔误进行修正。最后修正的Q 阵,它不含相同的列。然而这个Q 阵可能导致对知识状态的误判,比如根据所测属性及其层次关系,有两个被试的知识状态分别为1=(0,0,1,1,1),2=(0,1,1,1,1),它们导出的理想反应模式却相同,都等于(0,1,1,0,1,1,0)8。这个例子说明一个很严重的问题:Tatsuoka(1995,p.328)4希望规则空间模型(Rule spacemodel, RSM)中的Q-矩阵理论,能够起到桥梁作用将可观察的反应向量对应到不可观察的知识状态。现在至少有两个不同的知识状态(例如1,2),居然对应到同一个理想反应模式,即这个等价类中至少含有两个知识状态。此时如果我们观察到这个理想反应模式,以此来诊断其隐藏的知识状态,我们难以判断隐藏的知识状态到底是1,还是2。这时完全可能产生误判。我们称不同知识状态对应同一理想反应模式的现象为对知识状态的误判。Tatsuoka(1995,pp.341-342)4以实例说明属性掌握模式(即被试知识状态)和理想反应模式并不是一一对应的,而是多个属性掌握模式对应同一个理想项目反应模式(idealitem-response pattern)。这种现象对于被试的归类是很不利的,同时也说明Tatsuoka 提供的方法存在一定的问题。由于认知诊断测验蓝图直接影响CDA 的分类效果,下描述了CDA 最为核心的过程,其中, s Q 是由可达阵R 导出的Q阵,称为被试Q阵,这时s Q 的每一列都代表了“一类”知识状态(knowledge state),表示一个测验中项目与属性关联关系的的Q矩阵为测验Q矩阵,记为t Q ,显然t Q 只是s Q 的某一部分,即t Q 是s Q 的子矩阵(sub-matrix)且不含相同的列10; 是知识状态, 是理想(期望/潜在)反应模式,f-1 是f 的反函数,此时要求f 本身是一一映射9。后半部分由试题性质、被试动机或一些随机因素等决定,因此要提高CDA 分类的准确性,关键取决于前半部分。如果一映射( | ) s t f Q Q 使得集合s Q 中的不同列(称为s Q 中的元素)在理想反应模式集合 中有相同的象,则分类较为模糊只能分到相应的等价类中。如果能够编制一测验蓝图t Q 使得对应关系( | ) s t f Q Q 对于集合s Q 中的任何一个元素,在集合 中都存在唯一的一个元素与之对应,则可以通过求对应关系的反函数,达到对反应模式的比较准确的分类。我们希望对任何一种属性层级,都能如例1一样,构造出相应的测验蓝图,使得属性掌握模式(知识状态)与理想反应模式一一对应。本文探讨将可达阵作为测验蓝图的一部分对提高认知诊断准确率的关系;要对认知诊断测验编制进行讨论。第2 节讨论认知诊断的逻辑顺序以及测验蓝图的编制,第3 节讨论上述结论中的应用,即对测验编制的指导作用和对有认知诊断功能的计算机化自适应测验选题策略的制订的指导作用;第4 节进行Monte Carlo 模拟研究,以讨论“将可达矩阵作为(或不作为)测验蓝图一部分”时的误判率大小;并验证第2 节的结论。第5 节是认知诊断测验编制的相关问题的进一步讨论。另外,我们给出一些附录,主要是想正文枝蔓不要太多而妨碍文章的主要结论,增加文章的可读性。2. 认知诊断测验蓝图的编制Tatsuoka(1983,1991,1995) 23 4的规则空间模型中关联矩阵Q 是可以通过分析测试项目得到的。事实上,目前许多CDA 是根据认知诊断模型(cognitive diagnostic model,CDM)对已有的测验进行分析,这些已有的测验并不是为认知诊断“量身定制”的。Leighton, Gierl,和 Hunka(2000)11指出这样导出Q 阵的方法逻辑性不强。Gierl 等人(2000) 11及Leighton 等人(2004)6建议在测验之前就由专家给出欲测属性及这些属性间的层级关系(hierarchyrelation)。对于如何构造一个有利于诊断的项目,Gorin(2007)1给出了一些例子,并给出一些原则;Gorin(2007)1强调诊断测验的构造的重要性不亚于构造单个项目的重要性,文章甚至造出一个不利于认知诊断的测验蓝图(其中每个项目至少包含两个属性),并讨论了诊断测验编制的问题,认为诊断测验中应尽可能多地包括对应Qr 中的列的项目。Henson和Douglas(2005)9对如何选取项目组成认知诊断测验作过较深入讨论,给出了计算指标,这个指标的计算是耗时的,并且该指标的应用有相当的限制,即需要认知诊断模型有具体的显式的(explicit expression)认知诊断的项目反应模型,如DINA,Fusion 模型等,对于没有显式表达的认知诊断项目反应模型,如RSM,AHM,这一指标还不能应用。由于本文主要讨论在给定可达阵R 的基础上诊断测验蓝图的编制,而不要求认知诊断模型具有显式表达式,为了节省篇幅,故对Henson 和Douglas (2005) 9在认知诊断测验中选取项目的方法不作具体陈述。Gorin(2007)1,Henson 和Douglas(2005)9的文章中,都未意识到可达阵在认知诊断测验编制中的重要性。Tatsuoka(1995)4和Leighton 等人(2004)6认为Qr 阵是认知诊断测验的测验蓝图,Gierl 等人(2007,p255)1也认为Qr 阵在AHM(Leighton at el,2004) 6中十分重要,是测验的一个认知蓝图(cognitive blueprint)。我们认为,依照AHM 的逻辑顺序,在测验之前便分析寻找认知诊断测验欲测之属性以及它们的层级关系,然后得到属性之间的邻接阵A,由A 与同阶单位阵I 的和A+I,计算出可达阵R,再从R 出发,寻找出满足属性层级关系的所有属性组合,即得到Tatsuoka(1991,1995)3 4所说的简化Q 阵,即Qr 阵(当被试较多时,他们的知识状态(knowledge state)的集合的外延较丰富,有可能Qr 中每一列都含在这个集合之中。我们称这个Qr 阵为学生Q 阵,记为Qs。当Qs 的列太多时,不可能将Qs 作为测验蓝图,这时要从Qs 中抽取一部分,可以作为测验蓝图,称Qs 的这个子矩阵(sub-matrix)为测验Q 阵,记之为Qt)。这里推荐AHM 的逻辑顺序,是因为AHM 中Q 矩阵产生在测验之前,故这时Qt 矩阵可以指导测验的编制,而Tatsuoka 的Q 矩阵是测验以后从得分阵中分析出来的,此时Q 阵对测验设计不可能有指导作用,也不可能保证反映了属性之间真实的层级关系8。接下来要讨论的问题就是如何构建Qt 阵,使得任取两个知识状态不同的被试,他们参加Qt 为蓝图的测验,在不计猜测也不计失误的理想情况下,他们的理想项目反应模式不相同。这可以抽象为从Qs 中任取两个列qi,qj(qiqj),记为被试qi,qj,用x(qiQt)表示被试qi 对测验Qt 的理想项目反应模式,则上述问题可以用一个数学符号来表示为:任取Qs 中两列qi,qj(qiqj)有x(qiQt) x(qjQt) (1)注意这里不讨论知识状态为零向量这一种很简单的情形,但模拟研究中还是包含了这种情况。为了寻找这样一个Q t 阵,我们先给出几个结论。结论1:可达阵可以表示为对角元全为1 的上三角阵。结论2:Qs 阵可以由可达阵通过扩张算法得到。结论3:对于可达阵中任两个不同的列 和(它们可以代表两个不同的被试),若这两个被试参加可达阵为蓝图的测验,理想反应模式必定不同。结论4:如果属性层级是线性型,则不同知识状态的被试参加以R 为蓝图的测验,理想反应模式必定不同。结论5:对于无结构型的属性集,设其对应的可达阵Ri, i=1,2;分别为R1=I 或R2,R2中第j 列的第1 个元及第j 个元为1,其他元素均为0,则不同知识状态的被试参加Ri(i=1,2)为蓝图的理想反应模式一定不同。注意R1,R2 分别描述Tatsuoka(1995)4和Leighton 等人(2004)6的无结构型。依照结论2,Qs(Qt)中每列都可以由R 的列“扩张”出来。通俗一点讲,R 是构造Qs(Qt)的基础,因此我们对其特别关注。另外,它的列数便是所测属性的个数,如果含有相同属性的项目看成同一类,则用K 个类的项目去考察K 个属性应该是符合经济,高效原则的。这个事实表明可达矩阵在认知诊断测验中具有举足轻重的作用,也启发我们对断言(1)采用如下的证明。证明:由Leighton 等人(2004)6的划分,属性层级结构分成线性、收敛、发散、无结构型等四类,其他形式的结构可以由它们组合,而由结论4 和5,我们只要对收敛及发散型结构证明即可。注意理想项目反应模式x(qiQt)是一个列向量,如果我们仅只考虑0-1 评分方式,且测验Qt 含有m 个项目,则x(qiQt)是一个m 行的只取0 或1的向量。如果我们能够将测验蓝图Qt 分成两部分,不失一般性可以假设Qt 的前一部分是可达阵R,余下部分记为Qo,即将Qt 写成一个分块矩阵模式Qt=(R Qo)。用x(qiR)表示被试qi 参加以可达阵R 为测验蓝图的分测验时所得到的理想反应模式。此时如果能证明x(qiR) x(qjR),则依向量相等的定义,我们便证明了(1)式。但要特别注意,Qt 是Km矩阵,R 是KK 阵,K 是测验所要考查的属性个数。R 要成为Qt 的一部分,其必要条件是mK。今设被试 和 其知识状态与Qs中第i,j 列相同,为qi,qj,且qi qj。对于t=K,K-1,2,1,逐步考察qti= qtj 是否成立。如果qKiqKj,且不妨设qKi=0 而qKj=1。由R 为上三角阵,得知有且只有rKK=1,再根据Qr 矩阵扩张算法 10 13 14, 得知qi ,qj 都可由R 中列“扩张”合成出来,从而可知R 的第K 列必参与复合qj,而未参与复合qi,故被试qj 对项目K 的理想反应为1 而qi 对项目K 的理想反应为0;如果qKi= qKj 不论它们都为0 还是为1,往下考察qK-1,i= qK-1,j 是否成立。如不成立,仍不妨设qK-1,j=1 而qK-1,i=0,则仿上推理,知qK-1,j=1 表明R 中第K-1 列参与复合qj 而未参与复合qi,故被试对项目K-1 的理想反应为1;而qi 的理想反应为0;如果qK-1,i= qK-1,j 成立,则往上考察qK-2,i= qK-2,j 是否成立,仿照上面可以证明qi 与qj 的理想反应模式必不相等。注意到qi, qj 均是K 维向量。K 是一个有限数,故以上步骤至多进行K-1 次必可以推知qi 与qj 参加R 为测验蓝图的测验后,其理想反应模式必不相等,即如果qi, qj 取自Qs,且qiqj,则x(qiR) x(qjR)。以上对断言(1)进行了证明(附录4 对其作了更为简洁的数学化证明)。下面举例对断言(1)的证明思想作进一步说明。例3 属性及其层级,则可达阵R 和学生阵Qs 。记R 中的列为r1, r2,。rK,,Qs 中的列为q1, q2,。q10,而元素全为零的列记为q0。如8 9 q q ,8 9 max | 4 t t tt q q = 。且49 48 q =1 q = 0,知4 r 参与9 q 的复合,事实上9 4 5 q = r r ,而8 3 5 q = r r ,而在理想反应情况下, 8 q 不能正确回答对应的项目4 r ,而9 q 则可以,即8 8 9 9 x(q | R) = q x(q | R) = q ;这里r3r5表示r3 与r5的列中对应元素的“加法”,即除0+0=0外其他情况相加均为1,比如(1,0,0,1)(0,0,1,1)=(1,0,1,1)。同样可知对于9 q 和10 q ,max | t9 t10 3tt q q = ,且39 3,10 q = 0 q =1,知3 r 参加10 q 的复合而未参与q9的复合,事实上q10 = r3 r4 r5;对于4 q 和8 q , 4 8 max | 5 t t tt q q = ,且54 58 q = 0 ( ) j i P ,被试i 在项目j q 上得0 分,否则得1 分。也可采用AHM中的模拟方式(理想反应模式再加上随机误差)获取得分阵8,两种方法原理基本相同。4.5 评价指标为评价测验的诊断准确率,采用两个常用指标,即模式判准率及边际判准率进行评价。用发生失误(slip)前的属性模式作为真值,然后计算属性模式分类的正确率来比较方法的好坏。比如,诊断测验共有K 个属性(本实验K =8)且有N 个被试参加测验,发生slip前被试 的属性掌握模式为y ( y 为K 维向量),而分类结果为 z ( z 为K 维向量)。边际属性诊断判准率(也称为单个属性判准率的计算如下:对K 个属性中第t 个属性,考察N 个被试中对第t 个属性的判准率,比如被试 掌握(未掌握)第t 个属性,今判断其掌握(未掌握)该属性,则称为对第t个属性判准了一次,记为= 1 t g ,否则= 0 t g 。令MMR(t) (Marginal match ratio (t)为第t 个属性诊断判准率, 也称为边际诊断判准率;MMR 为K 个属性的平均判准率,简称为属性平均判准率。4.6 试验结论通过自编DINA 参数估计程序,由模拟的得分阵和t Q 估计项目参数(s 和g)和属性掌握模式,然后计算模式判准率及边际判准率指标以及表示项目参数估计的准确程度的两个指标ABS,RMSD(在Monte Carlo 模拟中ABS 表示真值与估计值的绝对误差平均,而RMSD是真值与估计值的均方误差),可以得出以下结论:对各种结构下四种测验蓝图产生的测验的结果进行比较,随着属性可达阵的减少,显示模式判准率和边际判准率均明显下降,即属性掌握模式误判率增加。对于线型结构L 四种测验蓝图产生的测验的结果进行比较,表2 显示后三种测验蓝图的测验的诊断准确率有所下降。这是因为后三种测验蓝图的剩余的项目是从8 个属性独立时产生的r 减去R 对应的列中随机抽取,这些列不反映属性存在的层次关系,即测试t 阵对真实的层次关系不予正确表达,故诊断准确率必然下降。对于收敛型C、发散型D 和无结构型U 结构,四种测验蓝图产生的测验的结果进行比较,由于每种结构的后三种测验蓝图的剩余的项目的从r-R 随机抽取,反映了当属性存在层次关系时,固定测验长度下,仅由r-R 组成的测验,甚至由r 组成的测验,较全由可达阵组成的测验的诊断准确率将有所下降。特别地,对于收敛型C 结构测验蓝图4,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论