已阅读5页,还剩38页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
规则空间模型在口腔内科学分数报告中的应用研究 中文摘要 规则空间模型是一种基于统计模式识别和分类的认知诊断理论,能够提供关于考生 作答模式与属性掌握情况的详细信息。本研究运用该模型,在详细考察口腔内科学知识 属性的基础上,对参加2 0 0 6 年口腔执业医师考试的4 5 4 名考生进行诊断,最后得到八 种典型反应模式,并将4 5 4 名考生的实际作答模式判归为这八种典型反应模式,从而实 现对考生口腔内科学知识属性掌握的识别及其分类。全文共分为三个部分: 第一部分:文献综述。详述了三大教育与心理测量理论的发展过程,指出认知心理 学与教育测量相结合是新一代测验理论的发展趋势,介绍了具有代表性的认知诊断模型 及其在国内外研究的进展。 第二部分:规则空间模型的介绍。该部分介绍了与模型相关的概念及其判别方法。 第三部分:应用研究部分。该部分在详细考察口腔内科学知识属性的基础上,对参 加2 0 0 6 年执业医师考试( 口腔类) 的4 5 4 名考生的实考数据进行分析,最后得到八种 典型反应模式,从而实现对考生口腔内科知识属性识别及其对考生的分类,并针对我国 执业医师考试分数报告的形式和内容提出了相应的改进建议。 第四部分:讨论部分。该部分讨论了规则空间模型的局限。 关键词:规则空间模型认知诊断模型 属性口腔内科分数报告 3 规则空间模型在口腔内科学分数报告中的应用研究 a b s 仃a c t r u l es p a c em o d e l s m ) i sap f o b a b i l i g t i c 聊r o 耐ls p e c i f i c a l l yd e v e l o p e dt od e a lw i m t 1 1 ev 撕a b i l i t yo fs t u d e n t s r e s p o 璐酷w i ml o 百c a l l yg 耐c dh l o w l e d g es t a t 髂劬md o m a i n e 】【p e r t s c o 印i t i v eh y p o l l l 岱髓 o nt h eb a s i so fi n v 懿t i 鲫n gt l l e 删b u t 黯o fn o n n a s a l 时h t 锄a lm e d i c i n e ,t h i s 枷c l e w e sr s mt od i a g n o s i st h e4 5 4e 】【a i i l i n e e s ,u 城m a t e l yg e te i g l l ti d e a lr e s p o 璐ep a l t e r i 培,w l l i c h c a t e 9 0 r yt l l e4 5 4c x 幽si l l t ot l l ec i g h ti d lr e s p o 晒ep 绷【锄s ,m o r v 口i d 锄t i 母t l l e c x 枷n e e s r e a lr e s p o n s e t h ew h o l e 枷c l eh 鹪t 1 1 r e ep 缸t s : l s tp 盯t :l i t e m t l l r e 砖“e w i l l g h lt l l i sp a n 恤ea n i c l ed i u s s e st h ed e v e l o p m 锄o fm r e e e d u c a t i o n 柚d p s ”h o l o g ym e 舔u 朋n e mt l l e o p o 础n g o u tc o 鲥6 v e p s y c h o l o g y s c o i l l _ b i i l a t i 谢t hc d u c a t i o nm e a s u r 啪肌ti s 也e 咖do fm en e w 鲫l 酬i o nt e s tm e o r x i 1 1 n u d u c i n gt l l ep f a c t i c a l 印p l i c a t i o no ft h cr 印麟e l l _ t a t i v ec 0 驴i 咖ed i a 朗o s i sm o d e l si l l d o n 砌ca n dd b r o a d 2 n dp a r t :删u c t i o no fm l es p a c em o d c l mt l l i sp a n ,w ei i n r o d u c es o m ei m p o n a i i t c o n c e p t s 锄dc a i e g o r ym e t l l o d sa b o u t t l l em o d d 3 r dp a n :a p p l i c a t i o nr e s e 甜c h 0 nm e b a s i so fi n v e s t i 舳gt h c 枷b u t 豁o f 硼蠲a l 毋 i n t c r l l a lm o d i c i n e ,w ea i l a l y z ed a t ao f4 5 4c x 觚血c e sw h o 删e dn a t i o n a lm e d i c a l l i c e n s i i l ge x 锄i l l a t i o n ( n m l e ) ,砒l d w eg e t e i g b li d e a l s p o 璐ep a n 锄s ,w l l i c h c 锄 e 丑e c t i v e i yc a t e g o r yt l l i s4 5 4c ) 【锄i n si n t oe i g h ti d e a lr e s p o n p a t t 锄s ,m o r v e ri d e l l t i 锣 t h ee x 锄i n e 铭r c a lr e s p o n s ep a t t e r n s f i n a l l xw eg i v e m e 蛳g g e s t i sf o rc h 柚g i n gt l l e s t y l e 锄d c o n t t 斌a b o u ts c o r e p o r t i l l n m l e 4 t l lp a n :d i s c u s s i p a n w ed i s c 璐s m e1 i m i t a t i o 舾o f m o d e li 拓e l k e yw o r d s :r u l es p a c em o d e l ( r s m ) ;c o 印i t i v ed i a 印o s i sm o d e l ( c d m ) ;a t t 抽u t e ; n o n n a s a l i t yh l t e m a lm e d i c i n e ( n i m ) ;s c o r er e p o r t 4 规则空间模型在口腔内科学分数报告中的应用研究 第一部分:文献综述 第一节研究背景 1 1 三大测验理论的发展述评 教育与心理测量是按照一定的规则给研究对象在一定性质的量度系统( s c a l i n g ) 上 指定值的过程,其目的在于通过对大量的可观察到的行为对预测量对象的属性进行客观 描述进而达到对预测量对象的正确认识。针对人的心理的个别差异是客观存在的客观事 实,早在1 9 世纪末就对简单心理过程的个别差异的测量做了认真研究“1 。高尔顿就是 ( f g a l t t o n ) 就是一位杰出的代表。他认为“外在世界的任何信息欲传到个人,唯一的 途径是经过我们的感官,因此感官的区辩力愈强,我们的判断力和智力所能运作的范围 愈大”。接着卡特尔( j m k a t t e l l ) 、比纳( a b i n e t ) 等人特别关注对人的判断、理解 与推理能力的测量,比纳在心理测量技术上一个重要贡献就是提出了试测样本资料项目 分析及其基础上的常模这一概念,并采用代表性样组的实测资料作为通过率意义上的试 题难度分析这一做法也扩展到人格测验常模的求取上了,并沿袭至今。正是适应了对预 测量对象客观发展的需要,教育与心理测量学理论才得以蓬勃发展,从1 9 1 1 年比纳和 西蒙建立了第一个心理测验以来,测验理论和测量的技术有了很大的发展。发展至今, 已经形成三大主流理论。从经典测验理论( c 1 a s s i c a lt e s tt h e o r y ,以下简称c t t ) 到 概括化理论( g e n a l i z a b i l i t yt h e o r y ,以下简称g t ) 和项目反应理论( i t e mr e s p o n s e t h e o r y ,以下简称i r t ) ,测验理论得到了不断的完善。 第一大测验理论是经典测验理论( c t t ) ,其核心概念是真分数理论,即一个可观察 分数( x ) 等于真分数( t ) 与误差分数( e ) 之和,认为真分数就是用相同的两份平行 测验向同一批被试施测无数次后所得到的观察分数分布的期望,即平均分,并假设真分 数与误差、误差与误差之间无相关。其数学表达示如下: x = t + e 公式( 1 1 ) p 。, =o 尸( e - ,e :) 2 0 公式( 1 2 ) p ( 占1 ,r2)2 u 在真分数的基础上,c t t 提出了信度的概念,它认为一份测验所测值可不可靠,可 以通过信度来进行评价,信度实质上是对多次反复测量随机误差大小的反映。随机误差 规则空间模型在口腔内科学分数报告中的应用研究 小,所测值就越可靠;反之,测值就越不可靠。在c t t 中,信度是评价一份测验质量好 坏的重要指标。 c t t 使用的难度概念与比纳利用实测资料进行试题难度分析的思想可以说是同出一 辙,即都可视为所抽取具有代表性的行为样本正确回答某个项目的人数占所有被试总人 数的比率,或者称之为待分率、答对率,用p 表示。很显然,c t t 理论中的难度概念建 立的基础应当归属于随机抽样理论范畴,因为p 值会受到所抽取的不同能力大小样本的 影响,也即来自不同样本的被试群体在解答同一批项目时,其值会发生变化;这样,对 考生能力和试题这两个本不是同一维度的评价也就自然而然的被放在了同一尺度上来 进行考量。也即,从评价考生能力的角度来说,能力高的考生通过了难度值较低的题目: 反之,能力低考生被视为是通过了难度值较高的题目。因此,经典测验理论的很大缺陷 就是试题难度依赖于所考生样本的能力。类似的,对考生的能力评价也依赖于所测试的 试题样本的难易程度。 第二大理论体系是概括力理论( g t ) ,是在对真分数测验理论的信度研究的基础上发 展起来的,是对经典真分数理论特别是信度理论的进一步拓展,提出了测验情境关系( t h e c o n t e x to fm e a s u r e 眦n to fs i t u a t i o n ) 概念,改变了真分数固定不变,测量误差只是 个含混不清的随机误差,求测验信度就是计算相关系数的传统做法,应用方差分析的方 法对测量资料的变异性即测量误差来源做出具体分解,找出全面刻画各种类型的测量情 境关系和考察不同情境关系下各种测量条件的影响,从而能有针对性的控制和提高测量 的精度。但其在进行方差的划分与计算类信度系数时,仍然遵循的是抽样的思想,这与 c t t 有其相当的一致性。 第三大理论体系是项目反应理论( i r t ) ,亦称作为潜在特质理论( l a t e n tt r a i t t h e o r y ) ,从六十年代提出以来得到了很大的发展( b i r n b a u m ,1 9 6 8 :r a s c h ,1 9 6 0 ) ,随着 计算机技术的发展为i r t 中复杂的参数估计方法的实现提供了可能,这种理论认为,被 试在某个项目上能否正确作答某个试题的概率是由其能力和试题的性质共同决定的,通 过建立数学模型来刻画被试能力与试题属性之间的关系,被试能力与试题难度的差值越 大,被试在该题上作答的概率越大;反之,能力与试题难度的差值越小,被试在该题目 上作答的概率就小,其常用到的三参数l o g i s t i c 模型表达式如下: 6 规则空间模型在口腔内科学分数报告中的鹿用研究 p ( x = lf p ;口,6 ,c ) = c + i r :i i 石詈! i 公式( ,3 ) 上式中x 是被试在该题上的得分,曰是被试能力,a ,b ,c 是试题的参数,分别代表了 试题的难度、区分度和猜测度参数。 项目反应理论主要有以下几个优点:( 1 ) 考生能力和试题的难度被定义在同一个量 度系统上,克服了c t t 中试题难度与考生能力不可比较的缺陷;( 2 ) 提出了试题信息量 与测验信息函数的概念,可以对测验的测量精度即误差进行事先的控制,对于测验组卷 有指导作用。进入到二十世纪九十年代以来,i r t 模型得到了很大发展,由简单的二级 记分( o ,1 ) 模型发展到多级记分模型,由单维模型发展到了多维模型( v a nd e r l i n d e n ,1 9 9 7 ) 。i r t 本身亦在不断完善当中,但是i r t 也有其本身的一个局限即现代的 测量理论仍然采用的是行为主义的s r 模式,通过被试对刺激所作的反应模式来推断被 试的内部心理过程,但是,这种通过护值来推断被试的内部心理过程其实并未被真正揭 示出来,被试的内部心理过程仍然是一个黑箱,并因此被指责为是将“二十世纪的统计 学应用于十九世纪的心理学”( m i s l e v y ,1 9 9 3 ) 。这种仅把所测的内部心理属性看成是纯 统计结构,忽视了对被试作答过程的考察分析,计量时只注重作答反应结果,只注重计 量而忽视心理品质的实质内容显然已经不能满足当前社会发展的需要,特别是近年来认 i -, 知心理学的发展为各种数学模型的开发提出了更广阔的应用前景,认知心理学渗入到心 理测量模型当中,真正使得教育与心理测量为具体的认知学科服务。 1 2 认知心理学对教育测验的主要贡献 自从1 9 8 9 年教育测量第三版发表r i c h a r ds n o w 和d a v i dl o h i i l a n 认知心理学 在教育测量中的应用一文以来,认知心理学开始渗透到心理计量学领域,s n o wa n d l o h m a n ( 1 9 8 9 ) 认为建立在认知心理学基础的认知分析至少可以在以下四个方面对心 理测量学做出贡献: 第一,认知心理学提供了教育测验分数理解的新方法。正如s n o w 和l o h 哪n ( 1 9 8 9 ) 所提出的,在教育与心理测量模型( e p m ) 中提到的p ,并没有考虑到知识技能的如何 获得,教育与心理测量的分数不仅反映了不同操作技能、所用策略和知识元素,还包括 了程序性知识和陈述性知识以及可控制的和自动化的各种能力要素的不同组合,这些能 力要素有些是变量,有些是恒定不变的,且在不同人群和不同的任务实践中起不同的作 7 规则空间模型在口腔内科学分数报告中的应用研究 用,而认知心理的重要贡献之一就是对这些复杂的操作过程进行分析。 第二,教育测验的认知分析可以有助于我们理解测验所表征的结构,并能为测验的 结构效度提供新的证据。测验结构效度一直是测量学家所关注的问题,通过对所测测验 的认知分析可以了解整个测验的问题表征、知识内容,知识起始状态及考生作答所选用 的策略( v a n l e h n ,1 9 8 9 ) ,因此,认知分析研究可以为教育测验的结构效度提供新的证 据。 第三,教育测验在不同内容领域内的结构分析可以开发出不同认知内容下所需要的 测量方法及对现有测量方法的改善。当前发展的一个重要方向就是认知诊断评价,即要 根据对被试在测验上的作答反应给出能描述出考生认知过程及其详细的知识结构。1 第四,认知分析可以对诸如能力倾向、学习、指导和教育成就的理论提出的原有假 设进行有效评价并对其进行延伸和扩展。 总之,认知心理学有助于促进心理测量理论的发展,认知分析使得研究者可以对测 验内部特征进行试验,评价已有心理测量学模型的假设,创造出新的测量学模型并对测 验结构进行构建,对被试得分及其测验结果进行解释。 同时,在目前与考试有关的各种数学模型和记分模型的建构当中,被试解决问题的 能力是一个单维的连续变量,这对开展实际教育工作的评价、选拔功能是足够的,但是 要想通过考试对考生指导就显得力不从心。测验如果能够提供信息使人们对考生的知识 结构、内部解题策略及其内部心理过程有更深的了解,考试用于诊断和辅助教学功能将 大大提高,从而使教师教学和学生学习都有更强的针对性。 第二节新一代测验理论认知与测量结合 2 1 认知诊断的心理学基础 认知心理学应用于教育与心理测验为教育与心理测量学理论的发展注入了新鲜的 血液,也为建构不同领域内的心理计量学模型提供了崭新的视角。为了从被试的作答反 应中获得关于考生更为深层次的信息,许多研究者都做了一些尝试,他们认为其中的一 条出路就是“将认知与测量相结合”,这个新的领域被称为是“新一代的测量理论” ( e m b r e t o n ,1 9 8 5 :f i s h c h e r ,1 9 7 3 :m i s l e v y ,1 9 9 5 :t a t s u o k a ,1 9 8 4 ,1 9 9 0 等) 。 刘声涛、戴海崎等在认知诊断两大基础研究及其发展述评中就曾指出了认知诊 规则空间模型在口腔内科学分数报告中的戍用研究 断的两大基础研究:一大基础是依赖于心理学的基础研究:另一大基础是测量学基础。 他们认为认知诊断涉及到的领域研究包括知识领域和实践知识领域、能力及智力领域。 他们在文章中指出:“认知诊断现在主要应用于两个领域中,一是知识领域,一是一般 能力及智力领域。前者的主要目的是为教育与决策提供丰富的信息,后者主要目的是心 理学理论的建构与实践。”在知识领域中,其研究主要涉及到程序语言学习、数学、物 理、词汇、阅读、写作等领域;在实践知识领域中,主要的研究涉及有机械维修、电路 设计、医疗、销售、军队领导等领域; 在能力及智力的研究中,其关注的视角主要是在言语能力、空间能力、推理能力等 领域,认知分析涉及认知过程、认知结构模式和图式、认知策略的选用与转移等。在这 些研究中,有些研究结果已经将认知分析的结果与具体的心理测量学模型相结合,用于 认知诊断。如在言语能力方面,s t e r n b e r gr j 等。1 分析了实时言语理解的信息表征和 加工过程,将结果用于测验设计和分析;在空间能力方面,j a m e sw p e l l e g r i n q 等哪 对空间能力和专门技能做了任务分析,并把分析结果用于工程设计与制图的测量中;在 推理能力方面,e a r lc b u t t e r f i e l d 等“1 对生成字母系列的归纳推理项目做了认知分析, 并设计了自动生成字母系列的计算机系统。 2 0 世纪8 0 年代以来,智力理论得到发展,在对智力的研究当中,一些信息加工取 向的现代智力理论相继出现,包括加德纳德多元智力理论、s t e r n b e r gr j 的三元智力 理论、戴斯等提出的p a s s 智力模型、塞西的智力生物生态学模型,其中,较具代表性 的是戴斯的p a s s 智力模型,p a s s 智力模型认为,智力有三个认知功能系统:计划系统、 注意系统、同时性加工、继时性加工系统,其中计划系统是最高层次的系统。有四种认 知加工的过程:计划( p l a n n i n g ) 、注意( a t t e n t i o n ) 、同时性加工( s i 舢l t a n e o u s ) 、继 时性加工( s u c c e s s i v e ) 。戴斯等宣称,他们要将智力视作认知过程重构智力概念,认为 p a s s 模型将为编制不同于i q 测验的新的智力测验、为评估智力的加工过程提供一个 “健全的理论基础”,这一基础,也使智力的认知诊断成为可能。 2 2 认知诊断的测量学基础 认知诊断的另一大研究基础是测量学基础,一份测验要实际应用于大规模的考试, 真正体现考试的比较、鉴别、选拔功能,应当强调测验设计。测验设计强调以心理活动 的内在加工机制为基础,使内在的认知特征外化“1 。然后,心理计量学家致力于建构能 融合不同的认知变量的模型,并且运用各种现代统计方法估计模型中的参数,实现对各 9 规则空间模型在口腔内科学分数报告中的应用研究 认知变量进行量的分析和刻画的任务。 测验设计需要学科专家与测量学专家共同来编制。作为学科专家而言,需要界定学 科内容和教育所要测量的目标,制定本学科域内的“双项细目表”,运用布卢姆的认知 层次目标理论对所测题目的知识属性、内容结构及知识属性之间的相互联系要求有一个 明确而详细定义。同时,测量学家应当根据学科专家认知分析结果建立起恰当认知诊断 模型,这些模型应当具备以下两个功能:其一,模型要与考试实测资料结果相拟合,这 是模型得以正确应用的基础;其二,模型在建立之前应建立相应的评分规则;其三要对 认知分析得到结果,模型能够结合认知分析结果给予合理解释,建立相应的评分模型: 本文认为,一份编制好的测验应该有以下几个标准: ( 1 ) 测验应当有信度,即测量的随机误差最小: ( 2 ) 测验应当有效度,即能反映考试需要测量目的和考试目标内容; ( 3 ) 测验应当有足够的区分度,能区分出不同能力水平的被试; ( 4 ) 测验,尤其是作为一份涉及高风险、高利害( h i g hs t a k e ) 关系的测验应当经 得住社会的考验,即一份测验要能体现社会的公平性,能反映各项目功能差异 ( d i f f e r e n ti t e mf u n c t i o n ) 的有效控制指标; 以上各种反映一份测验质量是否优良的指标包括如前所述的信度、效度、区分度及 项目功能差异( d i f ) 都是从测验本身所应当包含的内部特性来进行评价的,各指标反映 的是在测量之前、测量过程当中应该注意的如测量误差的控制,所测量内容的有效及测 量过程中如何才能把能力强和能力低的被试真正区分出来,很显然,这些指标,都把更 多的注意力倾向于测量之前、测量过程中对反映所测真值差异的内容进行有效控制,并 利用各种有效能控制测量误差的“统计指标”来反映所测量的对象,而对真正反映客观 对象的心理特性和认知属性的具体内容并未揭示出来。换言之,无论是c t t 、g t 还是i r t , 它们的共同特征是将所测量的对象视为“统计结构”,这种统计结构的心理学意义是不 明确的。 实际上,教育与心理测量的一个目的已经不仅仅是从测验的内部特性来反映个体间 差异以及关注于测量的精度问题并回答“测什么”、“如何测”、“在什么性质量尺上如何 指定值”、“所得测值可靠”及“测验测到的是否真的是本来打算要测的东西”,而更多 的在于测量之后能够提供给个体更多、更为直观且更易量化的评价信息,这些评价信息 的重要作用和意义在于:( 1 ) 考生不仅仅知道自身的学习掌握情况,并有针对性的对自 l o 规则空间模型在口腔内科学分数报告中的应用研究 身的掌握内容采取弥补性的措旄;( 2 ) 对教师而言,可以为其教学提供更多的反馈信息, 真正做到“教学相长”。( 3 ) 从科学评价学生的角度而言,反映的是对学生能力的过程 性评价和非终结性评价。 第三节认知诊断模型介绍及其研究述评 3 1 提出背景及意义 上文已指出,考试的重要作用在于能够向考生、教师、学校、家长提供更为重要的 关于考生评价的信息,如何从一次考试并从考生的实际作答情况中获得更多的考生内部 心理状态的信息,认知心理学家和测量学家都在做各自的尝试。其中认知心理学家主要 考虑的是“新一代测量理论”该测量考生的“什么信息”的问题,而测量学家们则主要 致力于对于这些信息该如何测量与分析的问题,因此,为了进一步探查考生的这种内部 心理结构,就需要测量学家和认知心理学家两者的结合,共同为探查考生内部的心理结 构而做出贡献。 许多测量学者,在项目反应理论( i r t ) 的基础上,加入了一些代表内部心理过程的 参数,以期通过对这些参数估计的实现找出与被试能力相关联的试题属性特征,并希望 通过认知心理学家的贡献来对心理结构属性进行解构,进而使考生和教育者获得更多的 有关教育评价方面的信息,如美国的p s a t n m s 凹( p r e l i m i n a r ys a t n a t i o n a lm e r i t s c h 0 1 a r s h i pq u a l i f y i n gt e s t ) 考试就应用规则空间模型( r u l es p a c em o d e l ,r s m ) 用于测验分析与结果报告中( e t s ,2 0 0 2 ) 。 在美国,自美国国会制定了“t h en oc h i l dl e f tb e h i n da c t ”m ( n c l b ,不能 落下一个孩子) 以来,在这种背景下,美国教育考试中心( e t s ) 每年要向各州的学校、 教师提供一项叫做“n a t i o n a la s s e s s m e n to fe d u c a t i o n a lp r o g r e s s ,”( n a e p ) 的成 绩报告,该项报告建立在总分量表( s i n g l es c o r es c a l e ) 基础上,本质上说是“发 展量表”,从年级水平、年龄水平两个水平在时间跨度内比较了不同学科的教育成绩( 主 要是四年级至八年级) ,给出了不同年级组的学生在性别差异、地域分钸、种族差异及 公立学校与私立学校等维度上的学生学习成就的分析报告图,其目的是向学校、教师及 各个州政府制定相应教育政策提供更多有关教育影响价值的信息,找出教育进步及需要 碰对的挑战等问题,因而能填补教育成就测验中出现的空白。但是,它并非针对每一个 规则空间模型在口腔内科学分数报告中的应用研究 个体提供诊断及其评价的信息,对解释为什么同一年年级学生会在不同时日j 内获得什么 样的发展提供了较少信息。从以上两个例子可以看出,教育评价作为今后教育发展中的 一个发展趋势应当: ( 1 ) 认知诊断模掣应用于评价教育实践,对于心理计量学角度而言,具有罩程碑的 意义; ( 2 ) 重视教育评价在教育影响价值中的作用,尤其应当为考生本人提供有效的诊断 信息; 3 2 国内外研究发展概况 在我国大陆,余嘉元、戴海崎、吕英、张青华等人早有著文将认知诊断模型用于实 际的测验当中。如戴海崎、张青华在规则空间模型在描述统计学习模式识别中的应用 研究中就应用规则空间模型判别学生的属性掌握模式( 即知识结构) ,根据2 9 9 名被试 在测验项目上的作答反应将他们划归为3 0 种不同的属性掌握模式。文剑冰在博士论文中 应用规则空间模型( r s m ) 讨论了在诊断性计算机化自适应测验( c a t ) 中的应用,该文 通过实验研究方法分别考察了测验长度、测验属性的多少和它们之问的关联,测验使用 试题的复杂程度、试题的随机参数大小,以及项目反应理论模型等因素对于模型估计准 确性的影响,同时,还考察了各因素之间的交互影响作用。但是,这些测验都是在小范 围内或者通过模拟数据方法进行,真讵用于我国大规模考试的实际数据的应用还未出 现。 在国外,有许多学者将不同的认知诊断模型应用于考试实践,如k kt a t s u o k a 、 s a m e j i m a 、d i b e l l 0 s t o u t 、f u m i k o 、g e d w a r dm i l l e r 、h u ah c h a n g 等人将不同的 认知诊断模型( c d m ) 应用于不同类型的教育测验当中,这其中包括了小范闱内教师用 于诊断小学四年级的四则运算测验,如t a t s u o k a 及其同伴( 1 9 9 0 ,1 9 9 5 ,1 9 9 7 ) ”1 运用 该模型对具有9 个认知属性的“分数加法”的掌握模型进行诊断,将5 9 3 名学生中的9 0 归为3 3 种掌握模式,并在此基础上建立了具有认知诊断功能的计算化的自适应测验, 并同时对于未掌握的属性加以补救。g e d w a r d ! i i i l l e r ,h u ah c h a n g 在大规模考试评 价中的补充性诊断测验中就指出,运用f u s i o n 模型对美国有影响的p s a t 考试及高中 毕业考试进行认知诊断1 ,l 川时,运用模拟研究方法从题目特性和测量维度上估计了属性 掌握分类的精确性。综观各种认知与测量模型相结合的研究,研究的视角主要在于: im 鲫t e m ,m o i l f i l s ,w a i l g ,y e f i j u l i 神,& m 0 0 d y ,2 0 0 3 1 2 规则空间模型在口腔内科学分数报告中的应用研究 一是对测量模型的基础理论研究,主要研究模型使用的条件、各种模型之间的参数估 计精度的比较;二是侧重于具体学科的应用,应用较多的领域是数学( 尤其是小学数 学) 、语言、建筑及其在计算机适应性测验当中。 到目前为止,各种用于测验的诊断模型有很多种,国外有研究者统计,到2 0 0 2 年为 止,研究者至少已开发出1 4 种认知诊断的模型嘲并被应用于认知诊断。就己开发应用的 这些模型看,可以对认知诊断模型作一个简单的归类。认知诊断的测量学模型有两个基 础性的模型,一种是f i s h e r “”提出的线性逻辑斯谛克特质模型( 1 i n e a rl o g i s t i ct r a i t m o d e l ) ;另一种是t a t s u o k a 等人提出的规则空间模型( r u l es p a c e 鹏t h o d 0 1 0 9 y ) 。前 一个模型是潜在特质模型的扩展,目的是剖析观察分数下被试的潜在特质。后一个模型 是潜在分类模型的扩展,目的是按被试在潜在特质上质的差异将被试进行分类。以线性 逻辑斯谛克特质模型为基础发展出的模型有多成分潜在特质模型( 舢1 t i c o m p o n e n t t r a i tm o d e l ) 1 1 、线性指数模型( 1 i n e a re x p o n e n t i a lm o d e l ) 蚴等十余种。联合线性 逻辑斯谛克特质模型和规则空间模型发展出的模型有联合( 统一) 模型( u n i f i e d m o d e l ) “”、融合模型( f u s i o nm o d e l ) 1 “、d i n a 模( d e t e r m i n i s t i c i n p u t ,n o i s y ”a n d ”g a t em o d e l ) 、n i d a 模型( n o i s y i n p u t s ,d e t e r m i n i s t i c ,”a n d ”g a t e o d e l ) 【1 5 1 喜事。 通观各种有关认知诊断应用于各种类型考试的研究,不同的研究者提出了很多的认 知诊断测量模型,每个模型都有它的优缺点。张华华在在大规模考试评价中的补充性 诊断测验中认为一个成功模型的应当具备以下几个特征: ( 1 ) 被试属性的估计; ( 2 ) 与题目属性相关的能力估计; ( 3 ) 模型参数的识别; 以下,本文就一些具有代表性的测量模型作简单介绍和回顾。 3 3 认知诊断模型及其应用研究的介绍 3 3 1 线性逻辑斯蒂克特质模型( l l t m ,19 7 3 ) f i s c h e r 的线性逻辑斯蒂克特质模型( l i n e a rl o g i s t i ct r a i tm o d e l ,l l t m ,f i s c h e r , 1 9 7 3 ) 是发展较早的一种认知诊断模型,它是在拉希( r a s c h ) 模型的基础上进行扩充、 改造而成的,l l t m 数学模型是: 规则空间模型在口腔内科学分数报告中的应用研究 p ( 勃= 1 勺) = e x p ( g 一包) 1 + e x p ( g 一包) 】 公式1 4 其中6 ,= 7 7 j 9 腩+ d 公式1 5 上式中护,是被试能力参数,6 f 是项目难度参数,碍琥是项目i 在认知属性k 上的复 杂度计分,刁 是认知属性k 的复杂度权重,d 是标准化常数。l l t m 用认知属性复杂度 的线性组合模型来刻画项目的难度:项目的难度取决于各认知属性的复杂度。通过这样 的建模将认知的复杂度融入潜在特质模型中,把原来简单的概率模型转变成具有项目认 知内容的潜在特质模型,从而实现了认知与测量的结合。 l l t m 模型的应用研究较多:f i s c h e r ( 1 9 7 3 ) “”分析了学生“计算( c a l c u l u s ) ”中 的各认知属性难度;c a r p e n t e r ,j u s t 和s h e l l s ( 1 9 9 0 ) n 7 1 对抽象推理测验( a b s t r a c t r e a s o n i n gt e s t ,a r t ) 中项目难度的影响因素进行考察,发现影响a r t 项目难度有三 个因素:图形数量的变化、图形方向的变化及图形的拉丁方分布;p i s w a n g e r ( 1 9 7 5 ) “”, f i s c h e r 和f o r m a n n ( 1 9 8 2 ) “”等人曾用该模型做过跨国或跨种族的项目功能差异( d i f ) 研究,方法是通过分析不同种族或国别下影响项目难度的因素及各因素对项目难度的作 用大小来检验d i f ,深入考察项目中各认知属性的功能差异。e m b r e t s o n 和w a x 舱n ( 1 9 8 9 ) 曾将该模型用于心理旋转和空间折叠试题中。这类试题是给出一个正方体的平面展开 图,这个正方体的不同面有各自不同的符号( 如箭头、长方形、带方向性的多边形等) , 然后要求从选项中选出可以从哪个立方体展开得到题中的展开图。解决此类试题需要的 认知成份为( 1 ) 编码;( 2 ) 连结;( 3 ) 折叠;( 4 ) 验证。研究发现,许多刺激的属性 都会影响考生回答试题的反应时间和准确率,如立方体中是否有和平面展开图中不匹配 的符号出现,所需心理折叠的面数多少,折叠后进行匹配时立方体的旋转角度,平面中 的图形有方向性等等( e m b r e s t o n ,1 9 9 3 ) 。这些刺激属性都可以作为影响试难度的因素 而放在l l t m 中。 在国内,戴海崎、康春花、刘声涛等人。”运用此模型对影响空间折叠能力( 心理 旋转) 及影响瑞文测验项目认知难度因素进行了实证研究,均取得了较理想的效果。 在l l t m 的实际应用中,主要有以下步骤: 其一,可以通过考生在一批试题上的作答反应,用i r t 模型估计出考生能力的试题难 1 4 规则空间模型在口腔内科学分数报告中的应用研究 度。 其二,将试题难度和该试题的刺激属性联系起来,建立一个回归方程,求出各个刺激 属性对试题难度的权重。 其三,建立了回归方程之后,在以后的测验编制过程中,通过指定试题中心理刺激的 量就可以预先估计试题的难度,从而能够提高开发试题的效率。同时,也可以通过改变 心理刺激的多少来控制某些心理过程在测试中是否出现。 但该模型有以下不足: 第一,考生的能力是单维的,试题难度是试题所测认知属性的线性累加组合,这意味 着属性间可存在补偿( c o m p e n s a t o r y ) 效应,即在某个认知成份上的不足可以在另一个成 份上的加强来补偿。 第二,被试能力用一个笼统的能力值口来表示,虽然有人采用一些后续分析作弥补, 但仍没有对被试是否掌握各认知属性直接进行评价,这也是l l t m 的一大缺陷。 在l o g i s t i c 潜在特质模型的基础上,学者们又提出了其他不同的模型来描述试题属 性与试题答对率之间的关系。 3 3 2e l t i h r e s t o n 的札t m 和g l t _ 模型 e m b r e s t o n ( 又名w h i t e l y ) 于1 9 8 5 年提出了多成份潜在特质理论( m u l t i c o m p o n e n t l a t e n tt r a i tm o d e l , i l t m ) 该模型将心理计量学模型与数学模型结合,用以测量考生 二 的认知水平。模型假设试题的正确解答需要几个加工成份的正确信息输出,符合该要求 的有语词推理、三段论推理和数字系列完成等题型。要估计一组试题的认知要求,首先 需要明确提出与数据相拟合的潜在加工理论。如语词推理题为例,她认为这些试题都包 括两个相互独立的心理过程:规则构建和规则应用,试题可以有不同的形式分别测量这 两个成份。 多成份潜在特质模型需要两种数据,即被试在标准试题的作答情况,以及被试在该 试题所需要的信息加工成分的各个分任务上的作答情况。w h i t e l y 和s c h n e i d e r ( 1 9 8 0 ) 提出被试正确回答试题的概率等于被试正确解决各个加工成分的概率之积。其数学模型 如下: 尸( x 驸= 1 ) = g + ( 口一g ) 丌p ( x 玎t = 1 ) 公式( 1 6 ) 七 规则空间模型在口腔内科学分数报告中的应用研究 m 一卟孝豁 公式( 1 7 ) 公式中j p ( 石玎r = 1 ) 是被试j 下确回答整个试题的概率,尸( x ”= 1 ) 是被试币确解 决第k 个加工成分概率,它采用的是类似r a s c h 模型的公式。两个常数a 和g ,分别代表着 执行加工和猜测两个心理过程。具体地说,a 代表了当所有加工成分的分任务都答对时, 将这些信息运用于总的任务中从而得到正确结果的概率,g 代表的是有部分加工成分的 任务答错时,总任务得到正确答案的概率。由于模型中各个加工成分的数据是豆不相关 的,故而可采用联合极大似然法,分别算出各个试题在每个加工成分上的难度,以及各 个被试在每个加工成分上的能力值,然后计算出a 和g 两个常数值。有了这两个值,再加 上两个分任务的难度值以及考生在这两个分任务的能力值,就可以采用类似i r t 的参数 估计方法计算出考生在试题上的答对概率,所答对概率是考生在各个分任务上的作答概 率的乘积。因此,若考生在某个分任务的能力较低或某个试题在分任务的难度较高时, 考生在正确通过该分任的概率很小,此时考生能够答对试题的概率也会很小。由此可见, 考生在各个分任务上的能力足不可代偿的,考生答对试题的概率大,则考生在试题的各 个分任务上的能力都必须高。 此外,e m b r e t s o n ( 1 9 8 5 ) 又提出了多成分的潜在特质模型( g e n e r a l l t i c o m p o n e n t 1 a t e n tt r a i tm o d e l ,g l 例) 。g l t m 和m l 删采用的形式一样,所不同的是在模型的假设 成分任务的难度受到多个分任务中刺激的影响,而且它们之自j 存在线性关系,从而将上 述被试在加工成分上的反应与分任务的刺激联系起来。模型如下: 孝f i = ,7mt 口f tm + 口t 公式( 1 8 ) 其中,善腑是第i 题的第k 个加工成分的难度,m 是影响成分难度的因素个数,q k 是因素m 在第i 题的第k 个成分上的取值,是因素m 在第k 个成分上的权重( 即回 归方程中的回归系数) 。m 就是回归方程中的常数。因此推广的多成分潜在特质模型为: e x p 【p n 一( 玎。t g ,。+ 口t 】 p ( 工u r = 1 ) = g + ( 口一g ) r 1 一 公式( 1 9 ) l + e x p 【口n 一( 叩。g ,t + 口】 1 6 规则空间模型在口腔内科学分数报告中的应用研究 该模型既包含了m l t m ,又含了f i s h c h e r 提出的线性l o g i s t i c 潜在特质模型( l l t m ) , 故而被称为拓广的多成分潜在特质模型。它与l l t m 的相同之处在于可以通过控制刺激 成分的难度,从而可以通过调整成分的刺激水平而得到不同成分的难度,这对于测验的 编制有重大意义。不同之处在于g l t m 中所定义的潜在特质之间是不可代偿的,即在某 个认知成分上的能力较差,答对的概率小,在另一个认知成分上的能力高也无法提高在 总任务上的作答概率。在多个认知成分的任务上只要有一个较差,都会造成在总任务上 的答对概率较小。 以上两个模型与项目反应理论一样,将考生能否正确回答问题的概率与试题属性以 及考生能力的关系用概率模型结合起来。f i s h e r 的l l t m 模型认为试题的属性主要影响 试题难度,考生能力是一个整体,而w h i t e l y ( e m b r e s t o n ) 的m l t m 则认为考生能力在 不同的认知成分上也不同。 3 3 3 规则空间模型( r u i es p a c e d e l ,1 9 8 2 1 9 9 5 ) t a t s u o k a 及其同伴应用统计方法将被试在测验项目上的作答反应划归为某种与认 知技能相联系的属性掌握模式,创建了规则空间模型( r u l es p a c em o d e l ,1 9 8 2 1 9 9 5 ) 恤 2 3 。“,该模型的一个基本假设思想是:测验项目可以用特定的认知属性刻画,个体的某 种知识结构也可用一组通常无法直接观察的认知属性掌握模式来表征,而且还能用恰当 的可观察的项目反应模式来表征不可观察的认知属性。 其分析步骤由两部分构成:第一步是q 矩阵理论( q 一啮t r i xt h e o r y ) 泓1 ,该理论主 要是要确定测验项目所测的不可观察的认知属性,并把它转化为可观察的项目反应模 式。 第二步是规则空间的构建及判别。在空间中将被试的作答反应模式与理想反应模式 按贝叶斯法或距离判别法进行判别,对被试的认知结构进行诊断。 关于规则空
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年客户开发渠道拓展与管理策略培训试卷及答案
- 第12课 闭环控制助稳定教学设计-2025-2026学年小学信息技术人教版2024六年级全一册-人教版2024
- 2025年安康杯安全知识竞赛培训试题及答案
- 2026年服务流程管理合同
- 2025年utc多旋翼无人机考试题库及答案
- 雪娃娃(教学设计)-2023-2024学年三年级下册综合实践活动吉美版
- 2025年CAAC无人机执照考试题附完整答案详解
- 活动4 网络安全与道德教学设计-2025-2026学年初中信息技术人教蒙教版七年级下册-人教蒙教版
- 工地试验室人员培训考试题及答案
- 2025建筑安全b证考试试题及答案
- 配电运检培训课件
- 2025年云南大理中考道德与法治试题及答案
- 团结班集体主题班会课件
- 2025年内蒙古自治区选调生考试综合知识历年真题试卷
- 2025春国家开放大学《毛概》终考大作业答案
- 2025年时政100题(附答案)
- 2025年碳交易和减排专业资格考试试题及答案
- 江西体彩中心笔试题库及答案
- 小学男生生理卫生健康教育讲座
- 公安教导员现实表现材料
- 老年综合评估技术应用中国专家共识解读
评论
0/150
提交评论