（计算机应用技术专业论文）认知诊断中属性权重的研究——以多级评分ahm为例.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-20 格式：PDF 页数：48 大小：1.67MB 积分：12 举报 版权申诉

（计算机应用技术专业论文）认知诊断中属性权重的研究——以多级评分ahm为例.pdf_第2页

（计算机应用技术专业论文）认知诊断中属性权重的研究——以多级评分ahm为例.pdf_第3页

（计算机应用技术专业论文）认知诊断中属性权重的研究——以多级评分ahm为例.pdf_第4页

（计算机应用技术专业论文）认知诊断中属性权重的研究——以多级评分ahm为例.pdf_第5页

已阅读5页，还剩43页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要当今，传统测验越来越不能满足社会的需求，因为它只能提供给被试一个笼统的分数或能力，对于考生具体的知识状态无法获知。与传统测验相比，认知诊断测验的优势就在于它能够揭示每个被试的具体认知状况，并且有效地、有针对性地对个体进行补救。特别是在教育过程中，教师和学生都希望更多地了解学生所掌握的知识、形成的技能和策略等信息，从而能够促进教与学。t a t s u o k a 的规则空间模型( r s m ) 是较早提出且最有影响的认知诊断模型之一，她认为测验评估能够且应该提供被试的具体认知结构，并且用它来指导对被试作出补救决策。属性层次方法( a h m ) 是规则空间模型的一种变体，该方法假设测验项目是由一组具有层次结构的属性来表征的，然后根据被试的作答反应把被试归类到相应的知识状态中。本研究，认知诊断模型选用的是a h m 。目前为止，多级评分的认知诊断还停留在认知属性等权重的阶段但是一属性一分的评分方法与属性可能具有不等权重的实际情况不相符合，对于两被试掌握某项目中相同个数的属性，而非相同的属性，理应给掌握难度更大的属性的被试更多的分，而不是相同的分数。文中提出一个属性分数权重的计算方法即将贝叶斯网与最小二乘方法相结合，发现并解决了属性在不同的项目内权重可能不相等的问题。本研究进一步将认知诊断推广到多级评分的情形。试验证明，属性不等权重的等级反应模型的a h m 具有较高的判准率。用蒙特卡洛方法模拟实验，观察属性不等权重的等级反应模型的a h m 的模型表现。选用三种分类方法即a 、b 、l l 方法，两个归准率的评价指标即属性模式归准率和属性平均归准率。从试验结果可以发现，在属性带有不同权重的条件下，多级评分模型的三种分类方法( a 、b 、l l 方法) 在四种s l i p 的情况下( 5 、 1 0 、1 5 、2 0 ) 都保持了非常高的判准率。尤其是a 、b 方法，属性模式判准率甚至在s l i p 为2 0 的情况下判准率都在9 0 以上。试验结果显示属性不等权重的等级反应模型的a h m 具有较高的判准率。另外，在测试项目开发阶段，属性分数权重对项目属性评分也有很好的指导作用。关键词：认知诊断模型；属性层级方法；等级反应模型；最小二乘；贝叶斯网：属性权重 a b s t r a c t n o w a d a y s ，m o r ea n dm o r e t r a d i t i o n a lt e s t sc a nn o tm e e tt h ed e m a n d so fs o c i e t y , b e c a u s ei tc a no n l yb em a d ea v a i l a b l et oag e n e r a lt e s ts c o r e so ra b i l i t y , b e c a u s et h e s p e c i f i cs t a t eo fk n o w l e d g eo fc a n d i d a t e sw a sn o ta b l et oo b t a i n c o m p a r e dt ot h e t r a d i t i o n a lt e s t ，t h ev a l u eo ft e s tf o rd i a g n o s t i ca s s e s s m e n tt e s tl i e s i ni t sa b i l i t yt o r e v e a le a c hs t u d e n t ss p e c i f i cc o g n i t i v es t r e n g t h sa n dw e a k n e s s e sa n df u r t h e rh e l p s d e s i g ne f f e c t i v er e m e d yf o ri n d i v i d u a ls t u d e n t e s p e c i a l l yi nt h ee d u c a t i o np r o c e s s ， t e a c h e r sa n ds t u d e n t sa l lw a n tt ok n o wm o r ea b o u tt h es t u d e n t sk n o w l e d g ea n dt h e f o r m a t i o no fs k i l l sa n ds t r a t e g i e si no r d e rt o p r o m o t et h et e a c h i n ga n dl e a r n i n g t a t s u o k a sg r o u n d b r e a k i n gw o r k so nt h er u l e s p a c em o d e l ( r s m ) ，p u b l i s h e do v e ra p e r i o d o fm o r et h a n t w e n t y f i v ey e a r s ， s e r v e sa so n eo ft h e f i r s t p s y c h o m e t r i c a l l y - b a s e d m e t h o d sf o r d i a g n o s i n gc o g n i t i v e a t t r i b u t e s t a t s u o k a b e l i e v e dt h a ta s s e s s m e n t sc o u l da n ds h o u l d y i e l ds p e c i f i ci n f o r m a t i o na b o u t e x a m i n e e s c o g n i t i v es k i l l sa n dg u i d ei n s t r u c t i o n a ld e c i s i o n s t h ea t t r i b u t eh i e r a r c h y m e t h o de v o l v e df r o mt h er u l e s p a c ea p p r o a c h , i su s e dt oc l a s s i f ye x a m i n e e s t e s ti t e m r e s p o n s e si n t o as e to fs t r u c t u r e da t t r i b u t e p a t t e m sa s s o c i a t e dw i t hd i f f e r e n t c o m p o n e n t sf r o mah i e r a r c h i c a lc o g n i t i v em o d e lo ft a s kp e r f o r m a n c e i nt h i sp a p e r , c o g n i t i v ed i a g n o s i sm o d e l c h o o s ea h m s of a r ，t h ep o l y t o m o u se x t e n s i o no fd i a g n o s t i ca s s e s s m e n ts t i l lr e m a i n sa tt h e s t a g et h a ta l lt h ea t t r i b u t e ss h a r et h es a m es c o r i n g - w e i g h t i ti sc o n t r a r yt ot h ef a c tt h a t a t t r i b u t e sa r ev e r yl i k e l yt oh a v ed i f f e r e n tw e i g h t s o nt h ea s s u m p t i o nt h a tt w o s t u d e n t sr e s p e c t i v e l yg r a s pt h es a m en u m b e ro fa t t r i b u t e si na ni t e m ，b u tn o tt h es a m e a t t r i b u t e s ，r a t e rs h o u l dg i v em o r es c o r e st ot h es t u d e n tw h oa n s w e rt h em o l ed i f f i c u l t o rk e ya t t r i b u t e sc o r r e c t l y ，r a t h e rt h a ng i v et h es a m es c o r e i t si m p e r a t i v ef o ru st o s t u d yt h ec o g n i t i v ed i a g n o s t i cm o d e l s ( c d m ) b a s e do nt h ea t t r i b u t e sw i t hd i f f e r e n t s c o r i n g w e i g h t i nt h i sp a p e r , am e t h o dd e r i v e df r o mb a y e s i a nn e t w o r k sa n dl e a s t s q u a r e sd i s t a n c et h e o r i e si sp r o p o s e dt oc a l c u l a t et h es c o r ew e i g h to fa t t r i b u t e s a d d i t i o n a l l y ，t h i sp a p e rd i s c o v e r sa n ds o l v e sap r o b l e mt h a tt h ew e i g h to ft h es a l t l e a t t r i b u t e si nd i f f e r e n ti t e m sm a yn o tb et h es a m e t h ec o g n i t i v ed i a g n o s t i cm o d e li n t h i sp a p e ri sc a l l e da t t r i b u t eh i e r a r c h ym e t h o d ( 月a q m ) ，w h i c hi sb a s e do ng r a d e d r e s p o n s em o d e l ( g r m ) ，b r i e f l y ，i ti sc a l l e da h m - g r m f o u rk i n d so fa t t r i b u t e h i e r a r c h i e sw e r es e p a r a t e l yu s e da st h eb a s i sf o rt h es i m u l a t i o n s i m u l a t i o nr e s u l t ss h o w e dt h a ta l lc l a s s i f i c a t i o nm e t h o d s ，a ，ba n dl l ，a r ea l l m a i n t a i nav e r yh i g hc l a s s i f i c a t i o na c c u r a c yr a t eu n d e rt h ec o n d i t i o nt h a ta t t r i b u t e sa r c w i t hd i f f e r e n tw e i g h t s e s p e c i a l l yaa n dbm e t h o d s ，c l a s s i f i c a t i o na c c u r a c yr a t eo f a h m g r mi sk e p ta b o v e9 0 w h e ns l i pi sa sh i g ha s2 0 o nc o n c l u s i o n ，a h m - g r mw i t hd i f f e r e n tw e i g h t e da t t r i b u t e sh a sav e r yh i g h c l a s s i f i c a t i o na c c u r a c yr a t e i na d d i t i o n ，s c o r ew e i g h to fa t t r i b u t e sc a ng u i d ei t e m b u i l d e r st od i s t r i b u t es c o r e st ot h ei t e ma t t r i b u t e sa tt h es t a g eo f d e v e l o p i n gi t e mt e s t s k e y w o r d sc o g n i t i v ed i a g n o s t i cm o d e l s ；a t t r i b u t eh i e r a r c h ym e t h o d ；g r a d e d r e s p o n s em o d e l ；b a y e s i a nn e t ；s c o r ew e i g h to fa t t r i b u t e s i v 独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名：签字日期：年月日学位论文版权使用授权书本学位论文作者完全了解江西师范大学研究生院有关保留、使用学位论文的规定，有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许论文被查阅和借阅。本人授权江西师范大学研究生院可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名：导师签名：签字日期：年月日签字日期：年月日认矢u 诊断中属一陀权曩的研究以多级评分a h m 为例第1 章引言 1 1 研究目的和意义认知诊断理论被视为新一代的心理与教育测验理论的核心，是认知心理学与现代测量学相结合的产物，成为了当前国外心理测量学研究的一个重要热点。随着科学研究及社会生活的发展，人们越来越不满足于只能得到个体的宏观层次的评价，人们不仅要了解个体宏观层次的水平，还需要了解个体具体的认知状态。当今，传统测验越来越不能满足社会的需求，因为它只能提供给被试一个笼统的分数或能力，对于考生具体的知识状态无法获知，它们对具有相同分数或相同能力的被试却有不同知识状态及不同认知结构这一现象无法做出合理解释。与传统测验相比，认知诊断测验的优势就在于它能够揭示每个被试的具体认知状况，并且有效地、有针对性地对个体进行补救。2 0 0 1 年，美国通过法案“n o c h il dl e f tb e h in da c to f2 0 0 1 “，规定美国所有实施的测验必须提供诊断信息给家长、老师和学生。学者们认为，只考试不诊断或者说只诊断而不作补救的教学都是不负责任的表现。可见在考试的基础上对学生的认知结构进行诊断是非常有必要的。 1 2 本研究所要解决的问题当前，国内外教育测量界主要集中对o - 1 评分的认知诊断测验研究，然而o l 评分的认知诊断测验有一大缺陷即当且仅当被试掌握了该项目所涉及的所有属性，被试才能答对该项目，这样势必会损失被试信息，影响诊断测验的判准率。另外，这也与我国测验中某些项目( 如证明题，计算题) 的多级评分现状不相适应，所以开发多级评分的认知诊断测验是刻不容缓的。近些年，国内外对多级评分的认知诊断测验研究取得了一定的发展，但多级评分的认知诊断测验还只停留在认知属性等权重的阶段，即采用一属性一分的评分方法。一属性一分的评分方法与属性可能具有不等权重的实际情况不相符合，如2 + 2 1 与2 + 2 ，第一个题目含加法与减法两属性，第二个题目含加法与开方两属性，假设被试甲答对了硕卜学仲论文第一道题，而被试乙答对了第二道题，根据一属性一分的评分方法，两被试得分相同，都为2 分，然而事实上开方比减法运算更难，被试乙应得到比被试甲更多的分，所以我们应当给属性赋以权重。t a t s u o k a i l l 也认为有些属性可能比较难，而有的属性可能会比较容易。多级评分项目一个属性一分的原则，不符合属性也有难易之分的事实，对于两被试掌握某项目中相同个数的属性，而非相同的属性，理应给掌握难度更大的属性的被试更多的分，而不是相同的分数，难度较大的属性应赋予的分数权重较大些。项目得分既可以是被试掌握项目所包含属性的个数( 一属性一分) ，也可以是被试掌握项目所包含属性的加权和【1 】( 属性带有分数权重) 。所以在属性等权重的认知诊断测验的基础上，进一步研究属性不等权重的认知诊断测验是非常有必要的。 1 3 论文的组织结构与创新点本文的内容组织结构如下：第1 章：引言，简述认知诊断的研究背景和意义，对当前国内外有关认知诊断测验的研究进行了介绍，以及本研究所要解决的问题进行了介绍。第2 章：简述了三种基础性的二值评分项目的项目反应理论( 盯) 模型，另外还介绍了三种多级评分项目的项目反应理论( 肼) 模型第3 章：简单介绍了认知诊断的发展与研究现状，简述了几种常用的二值评分的认知诊断模型，重点介绍了属性等权重的等级反应模型的a h m 。第4 章：介绍了在属性含有层次结构的情况下属性权重的计算方法，以及属性不等权重的等级反应模型的a h m 的模型表现。第5 章：试验方法与结论。第6 章：总结与展望本文主要有三创新点：第一：在属性层次模型的情况下，提出了属性权重的计算方法。第二：引出了子项目阵的概念第三：属性等权重的等级反应模型的a h m 扩展为属性不等权重的等级反应模型的a h m 。认知淦断f l l 槿r f 权匹的f 究以多级评分a h m 为例第2 章项目反应理论综述 2 1 项目反应理论( i t e mr e s p o n s et h e o r y ) 的基础模型项目反应理论( i r t ) 1 2 1 是在克服了经典测量理论( c l a s s i c a lt e s tt h e o r y , c t t ) 的各种局限性后发展起来的一种全新的测量学理论，项目反应理论的发展首先建立在潜在特质理论的基础之上，其主要内容就是揭示被试在测验项目上的反应行为与测验所测的被试潜在特质之间的关系。项目反应理论的优良性质有：其一、被试能力估计不依赖于测验项目的选择；其二、项目参数估计独立于被试样本；其三、项目难度参数与被试能力参数量表的一致性；其四、可以通过测验信息函数精确估计每- - n 试项目的测量误差；其五、项目反应理论框架构建完备，具有很大的发展潜力。项目反应理论的基础模型主要有正态肩形曲线模型( n o r m a lo g i v em o d e l ) 、拉希模型( r a s c hm o d e l ) 和逻辑斯蒂克模型( l o g i s t i cm o d e l ) 。下文将对这三种模型进行简要的概述。 1 正态肩形曲线模型第一个项目反应理论模型是洛德在1 9 5 2 年出于理论研究的需要而提出的双参数正态肩形曲线模型( t w o p a r a m e t e r n o r m a lo g i v em o d e l ) 由于s 形项目特征曲线形同于一累积分布函数且是中心对称的，自然假设曲线可用j 下态分布函数的形式来描绘它。洛德给出的模型表达式为：州口) = 训六一手儿公式2 一，其中秒是能力参数，其取值是正负无穷的，口，是第i 个项目的区分度参数，6 ：是第i 个项目的难度参数，b ( 秒) 表示能力为口的被试在项目i 上正确作答的概率， b ( p ) 的取值在口：棚时取0 ，在口：佃时取l 。 2 拉希模型拉希模型是月麦学者在2 0 世纪5 0 年代创建的。其表达式如下：硕十学何论文 p i ( 秒) = e x p ( 0 一b i ) 1 + e x p ( o 一玩) 】公式2 - - 2 拉希模型中的能力0 ，项目参数岛与讵态肩形模型中的p 和岛的含义是一样的。拉希模型的特点是它完全是根据被试能力水平与项目难度关系而导出的正确作答概率公式，并未借助任何现有的数学函数式。拉希模型中只有一个项目难度参数而没有区分度参数，因为拉希认为，用一批项目去测试被试，就是要在一个线性系统上去确定被试的特质水平，除了项目难度之外，应该维持所有项目有相同的性质。其实后来发现拉希模型其实就是单参数的逻辑斯蒂克模型。 3 逻辑斯蒂克模型( l o g i s t i c l 1 9 5 7 年至1 9 5 8 年，伯恩鲍姆( a b i m b a u m ) 将洛德的双参数正态肩形曲线模型改换成了双参数的逻辑斯蒂克模型( 2 p l m ) ，其形式如下： 1 p ( x j f = 1 l g ，a i ，么) = 1 - 二一公式卜3 o-o+(ofb)4- 其中d = i 7 ，q 、b i 和秒的意义与正态肩形曲线模型中是完全一样的。为了计量测量中低能力被试在多重选择题上对正确作答的猜测而出现的非 0 现象，伯恩鲍姆建议增加一个猜测概率参数c ，模型继而变为：他，- 1 l 咖砖州= q + 尚公式2 叫 l 十p 7 这就是三参数逻辑斯蒂克模型( 3 p l m ) 。当猜测系数q = o 时，该模型为双参数l o g i s t i c 模型( 2 p l m ) ；当猜测系数c f = 0 且区分度口，= 1 时，该模型为单参数 l o g i s t i c 模型( 1 p l m ) ，即为拉希模型( r a s c h 模型) 。 2 2 多级评分模型我们可以发现前面介绍的几种基础模型都只含一个能力参数即它只能测被试的单重能力或单重的认知成分，且项目只有二值评分，如果我们把前面前面介绍的几种基础模型称为二值评分项目的单维模型的话，那这一节我们将要介绍多值评分项目的单维模型。多维模型因为与本研究无关，所以这里将不介绍多维的 i r t 模型。早期的项目反应模型都用于二值评分项目，到7 0 年代，计算机技术和软件 4 认知诊断中属性权叵的研究以多级评分a h m 为例的发展使得处理1 ，0 数据的单维i r t 模型成为可能。但是埘于多值评分项目，研究者在参数估计，模型一资料拟合检验等方面受到巨大的压力。这种状况到 8 0 年代a 有了好转。现在己建起了许多用于多值评分项目的单维项目反应模型。用于多值数据的主要代表模型有塞姆吉玛的等级反应模型( g r a d e dr e s p o n s e m o d e l ) ，马斯特斯的分部评分模型( p a r t i a lc r e d i tm o d e l ) 以及莫雷卡的拓广的分部评分模型【2 1 。 ( 1 ) 等级反应模型( g r a d e dr e s p o n s em o d e l ，g m r ) 。 1 9 6 9 年，塞姆吉玛首先给出了用于有序多值评分项目的i r t 模型等级反应模型【3 1 。它打破了过去项目反应模型只能用于二值评分项目的限制，为建立多值评分的项目反应模型开了一个先例。其原理是：假设项目- ，的满分值为乃( 乃n ，项目歹可评为乃+ 1 个分值，即o ，1 ，乃。用孙表示能力值为吃的被试在第歹题上得分不低于t 分的概率，于是p 咖= l ，。p 巧，f j + - ：o ，即得0 分以上的概率是l 、得乃+ 1 分以上的概率是0 。用p 画表示该被试在第，题上恰得f 分的概率，则：屹t = p 巧t p 两t 州，( f = o ，l ，) 公式2 5 在塞姆吉玛的等级反应模型中，一个项目各个等级上的难度是严格单调递增的，如果用表示第歹题上的得f 分以上的难度值，则有b ，t 6 - ，z 6 玩。 ( 2 ) 分部评分模型( p a r t i a lc r e d i tm o d e l ，简称p c m ) 分布评分模型是所有有序多值评分项目模型中最简单的，它仅含有两组参数，一组是被试能力参数，一组是项目难度参数。分部评分模型由马斯特斯于1 9 8 2 年提出，是拉希二值评分项目模型的一种直接应用。其原理是：对某多级评分试题_ ，做出完全正确的反应需要经过若干步骤，步骤之间具有某种次序，被试不可能略去某一中间步骤对下一步作答，而且各步骤的难度又不一定是逐步递增的，这是分部评分模型与等级反应模型的个重大不同。此时模型描述为：硕1 j 学位论丈 p 口j t = e x p ( 吃一) 】 r j e x p ( 吃一) 】 = 0 x = o t p 。户( 伊) = 1 t = o t = o ，1 ，旬公式2 6 其中是试题歹的满分值，是被试在此项目上的得分，为第题上已完成了石一1 步后欲完成第x 步的难度。( 护) 表示具有能力p 的被试口在项目_ ，上得，分的概率。 ( 3 ) 拓广的分部评分模型( g e n e r a l i z e dp a r t i a lc r e d i tm o d e l ，简称g p c m ) 。马斯特斯的分部评分模型假设所有项目的区分度参数相等，因此在模型中只有项目难度参数，被认定为拉希族模型。1 9 9 2 年莫雷卡在分部评分模型基础上通过取消项目区分度一致性的假设而推演出一个更具普遍性的模型，即拓广的分部评分模型，其公式表示为：圪( p ) = e x p e z d 口，( o - b , a 公式2 7 2 p i ( 0 ) = 1 h = l 其中d 是量表因子取1 7 ，a i 是斜率参数，b 访是项目类型界阈参数。斜率参数口，表示在该项目中，当能力秒水平改变时类型反应变化的程度。昂( 9 ) 按习惯称为项目的类犁反应函数。 6 一乡，l 口d 。州 p xe 正瑚认知诊断中属性权噩的研究以多级评分a h m 为例第3 章认知诊断理论综述 3 1 认知诊断的定义、特征、及意义作为独立学科分支的心理和教育测量学已经经历了一个多世纪的发展。 m i s l e v yr j 【4 j 手旨出，到目前为止，整个统计测验理论的发展可以分为两大阶段：标准测验理论( s t a n d a r dt e s tt h e o r y ) 阶段和新一代测验理论( t e s tt h e o r yf o ra n e w g e n e r a t i o no ft e s t s ) 阶段。经典测验理论、概化理论、项目反应理论都属于标准测验理论。标准测验理论在能力水平的研究范式( a b i l i t yl e v e lp a r a d i g m ) t 4 】下产生，将所测的心理特质视为一个心理学意义并不明晰的“统计结构”，目的在于从宏观的层次给个体一个整体的评估，在单维的、线性的、连续的度量系统上，指定一个标示位置的值1 2 】。有了这个值，就可以进行安置、分配、评定等工作。以空间认知能力为例，标准测验理论视野下的空间认知能力是要得到被试在整个测验上的一个整体的值，作为被试空间认知能力的度量。随着科学研究及社会生活的发展，人们越来越不满足于只能得到个体的宏观层次的评价，人们不仅要了解个体总的来说怎么样，还需要了解个体具体的来说怎么样。而此时，实质心理学尤其是认知心理学的发展，也给人们进一步了解人的内在的心理机制提供了可能。比如，e m b r e t s o ns e 1 5 认为，影响人的空间认知加工过程难度的因素有目标物体旋转的角度和折叠时携带表面的数目。人们想进一步地了解，不同的被试解答具有不同难度来源的项目的潜能是否相同? 研究者对这一问题的回答已不是给被试一个在项目上作答能力的整体评估值，而是涉及了被试的作答过程和机制；此时的度量系统已不是单维的，而是多维的；不是线性的，连续的，而是代表质的差异，离散性的。总的来说，人们已不满足于在总的能力水平层面上进行的测验实践，而是想深入到作答的认知加工过程，以揭示不同被试的认知加工特点。m i s l e v yr j 【4 l 将这种研究视野称之为认知水平的研究范式( c o g n i t i o nl e v e lp a r a d i g m ) 。1 9 9 3 年，f r e d e r i k s e nn 等编了一本书【6 】，书名就叫新一代测验的测验理论( t e s t t h e o r yf o r a n e w g e n e r a t i o no t t e s t s ) ，由此正式提出了新一代测验理论的概念。新一代测验理论强调测验应同时在两种水平的研究视野下进行。在新代测验理论的框架中，强调宏观和微观、能力水平和认知水平的评估并举，将测验理解为种整理和解 7 硕卜学f 节论文释个体所知道的和所能做的事实的技术，而不是局限于能力的特质水平的概念。测验领域中，认知水平的研究是对能力水平的研究的深入和拓展，能力水平研究的目的在于能力的定位，而认知水平研究的目的在于认知能力结构和性状的诊断。 c o r t e rje 【7 】指出传统测验和能实现诊断功能的测验有以下不同的特征。第一，传统测验测量广泛的能力，而诊断测验测量特定的心理特质。传统测验将测量对象视为“统计结构”，而诊断测验试图将这一“统计结构”进行分解，更深入地探测内部的心理特质。第二，传统测验假设不同水平的技能连续性变化，而认知诊断测验测量的特质可能是“全或无”。在传统测验中，所测量的能力在一个连续性的量尺上变化，测验的目的是为了将所测能力在连续性量尺上定位。在认知诊断测验中，所测量的特质如策略、技能等可能会呈有或无的状态。第三，传统测验中技能是单维的或多维的；认知诊断测验中的技能的组成部分可以是任何模式联系起来的。第四，传统测验应用项目一致性的几何模型；认知诊断测验中项目一致性的离散性特征模型是合适的。认知诊断所测量的特质之间不仅存在量的差异更存在质的差异，因此需要离散性特征模型【7 j 。认知分析可以使研究者测查测验包含的内部特性、评价现存心理计量模型的假设、建构新的测验心理计量模型，并对测验的结构、被试的得分、测验结果的解释从心理学角度来进行解释。新一代的测验理论强调结合现代测量模型与实质性认知心理学模型进行测验设计，强调深入研究心理现象的本质、结构、机制和功能，深入分析被试接受测验的具体心理过程，把心理学的模型跟心理计量模型结合起来，定性与定量统一进行分析。这种测验用于教育中，可通过对个体在认知、学业的各方面考查，找出阻碍其学习进步的主要问题，获得关于个体知识结构的情况，进而为更有效的教学提供必要的信息。将其应用于心理学中，可使研究者深入研究个体内部的心理过程、心理结构等，为认知心理学研究人类认知模式提供有力证据。认知诊断作为新一代测验理论的重要部分，有着重大的意义【引。首先，认知诊断能实现测验的最重要的功能：促进发展。现代认知心理学的测量观的基本观点是：运用认知分析的方法描述心理活动的内在机制，据此设计各种形式的测验以探测被试心理活动的机制与相应机制之间是否一致或存在缺陷，以便提出补救措施，促进发展。认知诊断是实现测量与发展之间的循环促进作用的关键环节。其认知诊断中属性权重的研究以多级评分a h m 为例次，认知诊断有利于提高测验的内容效度。目前，人们通常运用经典测验理论或项目反应理论编制教育和心理测验，这二者是依据项目的统计特性来指导测验编制，对内在的知识结构重视不够，难以对测验的内容效度进行分析。认知诊断依据认知心理学的研究成果编制测验，测验的内容效度能得到保证。 3 2 认知诊断模型据不完全统计，国外约开发了6 0 多个认知诊断模型【9 】并被应用于认知诊断。但是，大多数认知诊断的测量学模型都源于两个基础性的模型【1 0 1 ，一种是 f i s c h e r i 提出的线性逻辑斯谛克特质模型( 1 i n e a rl o g i s t i ct r a i tm o d e l ) ；另一种是 t a t s u o k a 等人提出的规则空间模型( r u l es p a c em e t h o d o l o g y ) 。这两种基础性的模型区别的本质在于，线性逻辑斯谛克特质模型是对潜在特质模型的扩展，它便于剖析观察分数下被试的潜在特质，规则空间模型是对潜在分类模型的扩展，其本质在于按被试在潜在特质上质的差异将被试进行分类。多成分潜在特质模型 ( m u l t i c o m p o n e n tt r a i tm o d e l ) 1 2 】、线性指数模型( 1 i n e a re x p o n e n t i a lm o d e l ) t 1 3 1 等是以线性逻辑斯谛克模型为基础发展出的模型。而联合( 统一) 模型、融合模型和属性层级方法等是由规则空间模型发展来的。下面介绍几种常用认知诊断模型： ( 1 ) f i s c h e r 的线性逻辑斯蒂克特质模型f 1 4 , 1 5 】尸c x 扩2 l i 勺，2 了要芝兰妻考乡兰：专木公式3 1 公式3 1 中，。, r l k q i k + d ，够是被试能力参数，耳是项目难度参数， g i 是项目i 在认知属性k 上的复杂度计分，仇是认知属性k 的复杂度权重，d 是标准化常数。该模型用认知属性的线性组合模型来刻画项目的难度，成功地把认知的复杂度融入潜在特质模型中，这样把原来简单的概率模型转变成具有项目认知内容的潜在特质模型，从而实现了认知与测量的结合。但该模型存在以下不足之处：第一，项目难度是项目所测认知属性的线性累加组合，这意味着认知属性间可存在补偿效应，如一个被试在认知属性k l 上掌握得不够好，而在认知属性 9 硕十学何论文 k 2 上掌握得很好：另一被试在k 2 上掌握得不够好但在k l 上掌握得很好，以该模型来计算，则这两个被试答对只测了属性k 1 和k 2 的项目的概率会相等。对于一些不能补偿的属性而言，该模型就不适用了。第二，被试的能力还是用一个笼统的能力值( 0 ) 来表示，虽然有人采用一些后续分析作弥补，但仍没有对被试是否掌握各认知属性直接进行评价，这也是l l t m 的一大缺陷。 ( 2 ) t a t s u o k a 的规则空间模型 i , 1 6 , 1 7 , 1 8 , 1 9 , 2 0 】由t a t s u o k a 及其助手创立的规则空间模型( r u l es p a c em o d e l ) 是新一代测量理论基础上发展起来的一种用于认知诊断的分类统计模型，它能够评估被试是否掌握了解决测验项目所需要的认知技能或属性。这种模型首先对所要考查的认知心理品质中的认知技能或属性进行分析，然后再在此基础上编制认知诊断测验，最后用统计的方法根据被试在项目上的作答反应来对被试属性掌握模式进行判断。以往的项目反应理论都是把被试的错误作答看成是随机的或是“噪音”，但 t a t s u o k a 则认为，学生使用错误规则( e r r o n e o u sr u l e s ) 来解题，极有可能形成系统化的规律错误。规则空间模型假设被试在测验作答中完全使用同一个规则，不论该规则正确与否。正确的规则能在所有试题中得到正确结果，而错误的规则也有可能在某些试题上得到正确结果。被试在某一批同类试题上都是错误的，是被试认知上的缺陷或是运用某个错误规则导致的。模型的一个基本假设思想是：测验项目可以用特定的认知技能( 属性) 刻画，属性包括被试正确求解测验项目必须具备的各方面的能力，如技能、策略、加工过程或知识点等。个体的某种知识结构也可用一组通常无法直接观察的属性来表征。从而实现了用可观察的认知属性( a t t r i b u t e s ) 来表征不可观察的认知过程和知识状态【i l 。该方法基于对项目的认知需要分析来识别被试认知状态。在项目认知属性被确定时，构建q 七h 矩阵( k 是属性个数，n 是项目数) 。规则空间模型包括两大部分，第一部分是q 矩阵理论【2 l 】，第二部分是模式识别。q 矩阵

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）认知诊断中属性权重的研究——以多级评分ahm为例.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）认知诊断中属性权重的研究——以多级评分ahm为例.pdf

文档简介

温馨提示

最新文档

评论

相关文档