




已阅读5页,还剩30页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
7 i l l i l i l l | 1 i l l l i | 7y 17 2 8 14 1 ” 摘要 认知诊断是当前心理与教育测量的研究热点,它侧重于测量被试在解题过程中 的心理加工过程与心理品质,分析被试的知识掌握程度,从而为教育、心理的辅导工 作提供详尽的参考。在过去的二十多年,心理计量学家们开发了许多现代教育强调 评价的反馈、矫正功能诊断性测验和诊断性的分数报告,正是教育测验对现代教育 对其所产生的新期望的回应。在这一趋势之下,教育测量界学者们提出了不少诊断 性的测验模型。属性层级模型就是现在影响比较大的诊断模型,它一种基于统计模 式识别和分类的认知诊断模型。根据已经确立的属性之间的层级关系,属性层次模 型可以将被试在试题上的反应模式划归为期望反应模式,由此得到被试的知识状 态,进而能够对被试进行有效的、有针对性的帮助。作为规则空间模型的重要变种, 属性层级模型同样克服了标准测验理论单维性和只重视作答结果而忽视作答过程 的考察分析的不足,并且逻辑性更强,促进了教育和心理测量学的发展和研究。 本文共分四个部分。第一部分介绍了诊断性测验模型的出现和初中数学6 个知 识点的确定,从而使读者对本研究的大体情况有一个了解:第二部分,首先回顾了 新一代的测量理论,接着从理论上对属性层次模型进行了较详细的描述:第三部分, 对实证研究的程序和结论进行了报告:最后一部分,报告研究中发现的问题以待未 来进一步的研究。 关键词:属性层次模型,认知诊断, i r t a b s t r a c t a b s t r a c t d i a g n o s i so fc o g n i t i v ep s y c h o l o g ya n de d u c a t i o n a lm e a s u r e m e n t o ft h ec u r r e n t i e s e a r c i hf o c u s ,w h i c hf o c u s e do nt h em e a s u r e m e mo fp r o b l e ms o l v i n gw e r et e s t e di nt h e c o u r s eo ft h ep s y c h o l o g i c a la n dm e n t a lq u a l i t yo fp r o c e s s i n g ,a n a l y z i n gt h es u b j e c t s k n o w l e d g ea n dm a s t e r y , s oa st oe d u c a t i o n ,p s y c h o l o g i c a lc o u n s e l i n g t op r o v i d ed e t a i l e d r e f e r e n c e i nt h ep a s t2 0y e a r s ,p s y c h o l o g i c a lm e a s u r e m e ms c i e n t i s t sd e v e l o p e d a 如u m b e ro fm o d e me d u c a t i o n a le m p h a s i s o ne v a l u a t i n gt h ef e e d b a c k ,c o r r e c t i o n f u n c t i o n a ld i a g n o s t i ct e s t sa n dd i a g n o s t i cs c o r er e p o r t ,i ti st om o d e me d u c a t i o n ,t h e e d u c a t i o n a lt e s t i n gn e we x p e c t a t i o n sg e n e r a t e db yt h e i rr e s p o n s et o i nt h i st r e n d , e d u c a t i o n a lm e a s u r e m e n tc o m m u n i t ys c h o l a r sh a v ep u tf o r w a r dan u m b e ro fd i a g n o s t i c t e s t sm o d e l a t t r i b u t e 1 e v e lm o d e li sn o wt h eg r e a t e s ti m p a c to ft h ed i a g n o s i sm o d e l , w h i c hb a s e do ns t a t i s t i c a lp a t t e r nr e c o g n i t i o na n dc l a s s i f i c a t i o no fc o g n i t i v ed i a g n o s t i c m o d e l h a sb e e ne s t a b l i s h e da c c o r d i n gt ot h el e v e lo f t h er e l a t i o n s h i pb e t w e e na t t r i b u t e s , t h ea t t r i b u t e 1 e v e lm o d e lc a nb et e s ti nt h ee x a m i n a t i o nq u e s t i o n so nt h er e s p o n s ep a t t e m c l a s s i f i e da se x p e c t a t i o n so fr e s p o n s em o d ea n dt h u s c a l lo b t a i nt e s tt h es t a t eo f k n o w l e d g e ,t h u sb e i n ga b l e t ot e s te f f e c t i v e l y , t h e r ea r et a r g e t e da s s i s t a n c e a s a r u l e s p a c em o d e lo ft h em a j o rv a r i a n t s ,a t t r i b u t e l e v e lm o d e lo ft h es a m e s t a n d a r dt e s t t h e o r yt oo v e r c o m et h eo n e d i m e n s i o n a la n do n l y a t t a c hi m p o r t a n c et oa n s w e rt h e q u e s t i o na n s w e rp r o c e s s ,i g n o r e dt h er e s u l t so f t h ea n a l y s i su n d e rs t u d y , a n dm o r el o g i c a l t op r o m o t et h ee d u c a t i o na n dt h ed e v e l o p m e n to fp s y c h o m e t r i ca n dr e s e a r c h t h i sp a p e ri sd i v i d e di n t of o u rp a r t s t h ef i r s ts e c t i o nd e s c r i b e sad i a g n o s et e s t m o d e lo ft h ee m e r g e n c ea n dm i d d l es c h o o lm a t h e m a t i c sk n o w l e d g ea n dp o i n t s o f6 i d e n t i f i e d ,t h e r e b ya l l o w i n gt h er e a d e rt o t h eg e n e r a ls i t u a t i o no ft h i ss t u d yw a sa n u n d e r s t a n d i n g ;t h es e c o n dp a r t ,t h ef i r s tr e v i e wo fa n e wg e n e r a t i o no fm e a s u r e m e n t 戗l e o 吼a n dt h e nf r o mt h et h e o r e t i c a la t t r i b u t e - l e v e lm o d e lam o r ed e t a i l e dd e s c r i p t i o n ; 删p a r to f t h ee m p i r i c a lr e s e a r c hp r o c e s sa n dc o n c l u s i o n so ft h er e p o r t ;l a s tp a r to ft h e r e p o r te x a m i n e st h ep r o b l e m sf o u n di nt h ef u t u r ep e n d i n g f u r t h e rr e s e a r c h k e y w o r d s :a t t r i b u t eh i e r a r c h i c a lm o d e l ,i r t , c o g n i t i v ed i a g n o s i s i i 第1 章绪论 1 1 选题背景 第1 章绪论 测验是教育的重要并且必须环节,是教育评价的重要指标,也是新课程评价改革 的重要的一个环节。自2 0 0 1 年我国新一轮的基础教育课程改革正式出台,教育评价改 革就成为了各方关注的焦点。基础教育改革纲要( 试行) 明确指出,要“改变课程 评价过分强调甄别与选拔的功能,发挥评价促进学生发展、教师提高和改进教学实践 的功能。”教育评价是为了鉴定、考核,还是为了推动、改进:是为了选拔、淘汰, 还是为了教育、发展,这是非常值得深思的。过去传统的教育评价偏重于鉴定、筛选 的功能,其目的是为了“选拔适合教育的儿童 ,它是为“应试教育”服务的。而现 代教育评价则强调评价的反馈、矫正功能即调控功能,其目的是为了“创造适合儿童 的教育”,即评价是为了诊断评价对象的现状,以便发现问题,使教育、教学工作不 断改进、不断完善,不断适合教育对象的需要,为促进学生个性全面发展和提高教育 质量服务。测验是进行教育评价的一种重要的、有着不可替代作用的手段:对教育评 价功能提出新的要求,同时也就是对测验提出了新要求:以往那种只给一个总分的试 卷,已经不能满足现代教育发展的需要:整个社会对测试的要求也不仅仅在于“鉴别 和选拔”了,而是希望能够给出诊断性的成绩结果。测验已被视作教学过程的一个不 可或缺的方法,其不再局限于对学生未来成绩好坏的预测,而更主要的是用于诊断学 生目前的学习状况并且更有效地指导学生取得最大进步。目前人们更加关心的是学生 已经发展的能力,己经显示出的才能以及已经获得的知识,也更加关心教与学中存在 的问题。测验在这个方面越来越多地显示出诊断和补救的作用。诊断性测验和诊断性 成绩结果,可以发现学生的长处和不足,便于学生更加清楚地认识到自己的优势和劣 势,而教师也可以从中了解到学生的个体差别,进而能够为学生提供有针对性的辅导 和教育,提高教学水平。 的确是这样,过去的测验无论是观察分数还是能力分数都只是对被试的一个大概 描述,对具有相同分数或相同能力的学生,却有不同的知识状态及不同认知结构这一 现象无法做出合理解释;相同分数的个体间差异无法识别;被试掌握了什么知识,未 掌握什么知识等信息无法获知。而认知诊断能对被试在完成测验项目时的认知过程或 心理加工过程进行诊断和评估。属性层次模型( a t t r i b u t eh i e r a r c h ym e t h o d ,a h m ) 是 最有影响的几种认知诊断模型的其中的一种,它从被试的错误作答入手,推测出被试 的内部知识结构,从而得知被试未能掌握的知识缺陷所在。本文介绍a h m 的理论及应 用方法,并应用于实践中。用于诊断中学生的认知错误,有利于教师课堂教学。 第1 章绪论 1 2 研究意义: ( 1 ) 突破了以往标准测验理论单维性的假设:经典测验理论、概化理论、项目反 应理论都属于标准测验理论,而属性层级模型所属的认知诊断为新一代测验理论。 属性层级模型一开始就将正确解决某一领域问题所需的各个属性提取出来,并且确 定属性之间的层级关系,在编制测验的时候按照属性的维度确定测验的维度,而不 受到标准测验理论单维性假设的限制。 ( 2 ) 可以得到命题蓝图,指导测验试题的编制:通过编码将项目和属性联系起 来,导出约减q r 矩阵。编制测验时q r 矩阵的每一列就代表一道反应属性之间层级 关系的试题,即对测验编制者而言它是命题蓝图或认知规范。并且比规则空间方法 先建立试题再抽取属性有更强的逻辑性,因为按规则空间方法提取的属性可能不完 全。 ( 3 ) 克服标准测验理论只关注结果而忽视对解题过程的考察分析的不足:经典 测验理论关注的是真分数,项目反应理论关注的是能力值0 ,而对每道试题的解答 过程和被试的知识结构并不了解。属性层级模型方法a 或方法b 将被试在试题上 的反应模式即观察反应模式划归为期望反应模式,再得到被试的属性掌握模式。这 样就知道被试掌握了那些属性,那些属性没掌握,也可以知道被试的作答过程。 ( 4 ) 对被试进行补救:在了解被试掌握了哪些属性,哪些属性没掌握之后就可对 被试进行有效的、有针对性的补救,对指导教学有重要的意义。 ( 5 ) 属性层级模型的应用可使测验有较高的效度。 ( 6 ) 规则空间中认知属性不必分享层次关系,也不必用邻接矩阵具体化这些关 系。而属性层级模型中认知属性层次相关,且必须用邻接矩阵具体化层次关系,而 这更符合认知研究认为认知技巧不是单独而是网状的观点,所以属性层级模型假设 的属性联系代表了重要的改变。 1 3 研究的具体问题 有了诊断性的模型,就可以应用到教师平常的教学工作中去,从而使得教师可以 因材施教,本研究是针对了初二年级数学这门科目的教学,请中学教师选取了其中6 个知识点,并理清其中的层级关系,经过诊断就可以对被试在这6 个知识点上哪些掌 握哪些没掌握作出诊断。 本研究中请中学数学教师选取了初二年级数学以下6 个知识点:平面直角 坐标系的概念利用平面直角坐标系点的特点解题函数的定义判断一次函 数一次函数的图像性质函数解析式的求法。一共出了2 0 道题目,根据属性之 间的层级关系产生了1 4 种理想的反应模式,根据所出的题目本研究选取其中1 2 个 2 第1 章绪论 理想反应模式进行诊断,也就是选取了其中相关的1 2 道题目进行归类,在用b i l o g m g 软件估算0 ,b 这三个参数时将被试在2 0 道题目上的作答情况全部选入数据 库,只有在归类的时候使用了筛选数据,也就是被试在有关的十二道题目上的作答 情况。 第2 章文献综述 第2 章文献综述 2 1 文献回顾:新一代测量理论 教育测量就是根据一定的法则用数字对教育效果或过程加以确定,教育测量学 即是以现代教育学、心理学和统计学作为基础,运用各种测试方法和手段,运用计 算机技术及相关的方法,对教育现状、教育效果、学业成就及其能力、品格、学术 能力倾向等等方面进行科学的测定的教育科学的- - f 7 分支。它是教育学和心理测量 学的结合。心理测量学是在二十世纪初产生,二三十年代兴起,四五十年代定型, 六七十年代迅速发展起来的- - f - j 学科:其发展历程大致如下:二十年代发展起来的 经典测量理论( c l a s s i c a lt e s tt h e o r y ,简称c t t ) 有很长的历史并且取得了公认的成 果,但是由于它的各种统计量均由考生样本获得,这就使得它过分依赖特定样本等 局限性显得尤为突出,并且自身无法克服这一点:六七十年代,很多现代测量理论 产生并得以应用,项目反应理论( i t e mr e s p o n s et h e o r y ,简称i r t ) 便是其中最受重 视并广为接受的一个。项目反应理论直接建立在潜在特质理论基础上,认为个体的 心理特质( 在i r t 中,一般称为“能力”,用希腊字母e 表示) 和其在相应情境中的 反应是相联系的。而在二值评分的认知测量中,它们的关系可以用一条取值在( 0 , 1 ) 区间内,上端渐近于l ,下端渐近于0 ( 若无猜测) 的单调上升曲线来表示。这条 被试在题目上的正答概率对能力0 的回归曲线,叫做题目特征曲线( i t e m c h a r a c t e r i s t i cc u r v e ,简称i c c ) 。i r t 以多种数学模型来描述和逼近这条曲线,将 人的潜在特质模型化和函数化,试图将被试在潜在特质空间某特质分量上的实际位 置确定为某个数字。然而,尽管1 r t 直接建立在潜在特质理论基础上并将被试能力 0 估计为某确定数字,但它对于能力值0 所代表的具体内容,仍然没有能够做出精 确的解释,对于被试的心理特质构成,仍然没有触及在项目反应理论中,被试的潜 在心特征和结构,依然是一个“黑箱 。 近些年来,认知心理学和人工智能研究获得长足发展,心理学家们开始日益关 注个体信息加工系统的内部过程,教育领域亦受到很大影响。随着认知心理学和人 工智能研究的发展,个体心理活动的内部信息加工过程以及内部知识结构,越来越 受到心理学家的重视。在心理测量学界,如何通过被试的外显行为,来推测其内部 心理结构并加以描述,也成了心理测量学家们在测量内容方面努力的新方向。同时, 在测量过程方面,数学方法在保证测验信度和效度方面一直发挥着巨大的作用:目 前,更精确的数学模型和参数估计方法正在越来越细致地刻画可观察到的被试的反 应和其潜在的特质之间的关系。如何结合认知心理学和数学的进步,来推动教育和 4 第2 章文献综述 心理测量学不断向前发展,是新一代测量理论关注的主要问题。基于这个同样的目 的,不同的测量学家从不同的角度,做出了各自的努力。早在上个世纪七八十年代, 计算机领域人工智能( a r t i c f i a l i n l t e l l i g e n c e ,a 1 ) 方面的学者们就已经开发了可以用 于智能辅导和错误诊断的系统统,包括s i e g l e r ( 1 9 7 6 ,1 9 7 8 ) 、a n d e r s o n ( 1 9 7 4 ,1 9 8 1 ) 、 b r o w n 和b u r t o n ( 1 9 7 8 ) 、b r o w n 和v a n l e h n ( 1 9 8 0 ) 、v a n l e h n ( 1 9 8 0 ) 、s l e e m e n 和 k e l l y ( 1 9 8 9 ) 等。这些人这些人工智能方面的研究成果,对于目前我们对人类思维和 推理过程的了解做出了不容抹煞的贡献。 其中,b r o w n 和b u r t o n ( 1 9 7 9 ) 的“错误系统”( b u g g y s y s t e m ) 在教育界引起了 极大反响:对于随机误差( s l i p s ,由于偶然因素而引起) 和系统误差( 由于与测验目的 无关的某种常定因素引起) ,当时的心理学家对后者颇为重视,而对前者没有给以 太多的注意。当时的观点认为通过对系统误差的研究,可以加深对学习过程的认识, 进而可以用来诊断学生所犯错误,以减少重复出错的可能性,实现矫正和提高:而 另一方面,认为随机误差的产生的无规则性,所以不是那么重要。d b e u g g y 就是在 这一思想的指导下设计出来的一个系统,它用于诊断学生在减法操作中出现的程序 性错误,并可判断出错误产生的原因。 包括d b e u g g y 系统在内的上述所有方法使用的都是确定性模型:它们需要预设 一个由各种己知的错误规则组成的程序一这些错误规则是由经过培训的教师们事 先总结出来的一它们费时费力:并且,因为都是预先设定的,所以这些模型都没有 也不可能考虑到随机误差和尚未被发现并归入相应模型所预设的程序的错误。 然而,如若一个诊断性模型是用于教育领域的,它应该而且必须能够评估考生 在试题上的任何反应一包括那些由随机误差和( 或) 考生们富有创造性的想象力而 形成的非常规的反应。因此,在教育测量领域,只有这些确定性模型是远远不够的, 我们需要的是可以诊断被试非常规性错误的模型。 2 2 认知诊断模型 2 2 1 认知诊断模型的发展 认知心理学以研究人的内在心理过程为对象,认为心理过程离不开思维,而思 维又体现在问题解决过程当中。现在许多教育评价都是基于认知问题和认知任务的 解决而开发的。认知诊断评价需要从认知信息加工过程开发适合诊断的项目,对测 试反应和认知属性进行建模,推断出被试的认知强项和不足,简而言之,认知诊断 评价就是通过系列的力法和步骤对被试的认知属性掌握情况进行归类。 路易斯( l o u i sa r o u s s o s ) 等提出认知诊断评价实现过程六个步骤如下:l 、对 评价目的描述,2 、技能( 属性) 空间模型描述,3 、开发和分析测试任务,比如测试 5 第2 章文献综述 项目4 、选择适当的心理测量模型一一认知任务观察反应与潜在技能变量的关系模 型,5 选择统计方法对模型进行估计和检验,6 、对被试、教师和其他相关人员报告 评价结果。 用于推断的认知诊断,不再像传统的测量只是在宏观的层面对被试的能力进行 排序( 单维能力) 或分类( 多维能力) ,以单一的的测试分数报告测试结果。需要反馈 更多的信息:需要反馈每个学生在认知属性的强项和不足,需要为教师提供学生解 决问题中的状态,以为后续指导提供依据,需要为教育管理层和教育机构提供较为 宏观层面的教育评价信息,为改善决策、提高宏观管理技术、促进科学管理效率和 增强计划实施提供事实依据。 2 2 2 四大认知诊断模型 2 2 2 1 线性逻辑斯蒂克特质模型( l l t m ,19 7 3 ) f i s c h e r 的线性逻辑斯蒂克特质模型( l i n e a rl o g i s t i ct r a i tm o d e l ,l l t m ,f i s c h e r , 1 9 7 3 ) 是发展较早的一种认知诊断模型,它是在拉希( r a s c h ) 模型的基础上进行扩充、 改造而成的,l u m 数学模型是: p ( x i j = l0 j ) = e x p ( o j b i * ) 1 + e x p ( o j b i * ) b i 幸= r l k q i k + d ( 2 1 ) 上式中o j 是被试能力参数,b i * 是项目难度参数,q i k 是项目i 在认知属性k 上的复杂度 计分,帖是认知属性k 的复杂度权重,d 是标准化常数。l l t m 用认知属性( 如项目的刺 激特征或所考核的知识点、技能等) 复杂度的线性组合模型来刻画项目的难度:项目的 难度取决于各认知属性的复杂度。通过这样的建模将认知的复杂度融入潜在特质模型 中,把原来简单的概率模型转变成具有项目认知内容的潜在特质模型,从而实现了认 知与测量的结合。 l l t m 模型的应用研究较多:f i s c h e r ( 1 9 7 3 ) 1 分析了学生“计算( c a l c u l u s ) ”中的 各认知属性难度;c a r p e n t e r , j u s t 和s h e l l s ( 1 9 9 0 ) i - 2 对抽象推理测验( a b s t r a c tr e a s o n i n g t e s t ,a r t ) 中项目难度的影响因素进行考察,发现影响a r t 项目难度有三个因素:图形 数量的变化、图形方向的变化及图形的拉丁方分布:p i s w a n g e r ( 1 9 7 5 ) ,f i s c h e r 和 f o r r n a n n ( 1 9 8 2 ) 等人曾用该模型做过跨国或跨种族的项目功能差异( d i f ) 研究,方法 是通过分析不同种族或国别下影响项目难度的因素及各因素对项目难度的作用大小 来检验d i f ,深入考察项目中各认知属性的功能差异。在国内 2 7 ,戴海崎、康春花、 刘声涛等人 5 ,6 运用此模型对影响空间折叠能力( 心理旋转) 及影响瑞文测验项目认 知难度因素进行了实证研究,均取得了较理想的效果。 但该模型有以下不足: 第一,项目难度是项目所测认知属性的线性累加组合,这意味着认定属性间可存 6 第2 章文献综述 在补偿( c o m p e n s a t o r y ) 效应:如一个被试在认知属性k 1 上掌握得不够好,而在认知属性 k 2 上掌握得很好:另一被试在l ( 2 上掌握得不够好但在k 1 上掌握得很好,以该模型来计 算,则这两个被试答对只测了属性k 1 和k 2 的项目的概率会相等。对于一些不能补偿的 属性而言,该模型就不适用了。 第二,被试的能力还是用一个笼统的能力值( 0 ) 来表示,虽然有人采用一些后续分 析作弥补,但仍没有对被试是否掌握各认知属性直接进行评价,这也是l l t m 的一大 缺陷。 2 2 2 。2 规则空间模型( r u l es p a c em o d e l 。1 9 8 2 1 9 9 5 ) t a t s u o k a 及其同伴应用统计的方法将被试在测验项目上的作答反应划归为某种与 认知技能相联系的属性掌握模式,创建了规则空间模型( r u l e s p a c e m o d e l ,1 9 8 2 1 9 9 5 ) 9 ,1 0 ,1 1 ,该模型的一个基本假设思想是:测验项目可以用 特定的认知属性刻画,个体的某种知识结构也可用一组通常无法直接观察的认知属性 掌握模式来表征:而且还能用恰当的可观察的项目反应模式来表征不可观察的认知属 性。 其分析步骤由两部分构成:第一步是q 矩阵理论( q m a t r i xt h e o r y ) 8 ,该理论主要 是要确定测验项目所测的不可观察的认知属性,并把它转化为可观察的项目反应模 式。首先建立项目与所测认知属性的关系:若项目测验了某属性用“l ”表示,未测验 某属性则用“0 来表示,这样就可以构建一个n x k 的矩阵( n 个项目k 个属性) ,用这个 矩阵来表征项目与属性间的关系:其次确定被试与属性的关系:若被试对所测属性掌 握了,就用“1 ”表示,未掌握用“o ”表示,这样被试对测验所测属性的掌握与否可用 一个k 维的属性向量( a t t r i b u t ev e c t o r ) 来进行表征。她把这种属性向量称为认知结构 ( k n o w l e d g e s t a t e s ,t a t s u o k a ,1 9 9 0 ,1 9 9 5 ) 8 ,也即认知结构。第二步是规则空间的构建 及判别。在空间中将被试的作答反应模式与理想反应模式( 经典反应模式) 按贝叶斯法 或距离判别法进行判别,对被试的认知结构进行诊断。规则空间模型主要应根据项目 反应模型计算出一组序偶 ( o ,) ) ,0 ;黾i r t 中被试的潜在能力变量,是一个基于i r t 的 警戒指标,它表示能力为0 的被试其实际测验项目反应模式偏离其能力水平相对应的 项目反应模式的程度,它是函数f ( x ) 的标准化形式: 乒f ( x ) 俩( 2 2 ) 其中:1 ) f ( x ) = p ( 0 ) 一t ( e ) 】, p ( 0 ) 一x :p ( 0 ) 是被试对n 个项目的答对概率向量。 p ( 0 ) = p 1 ( 。) ,p 2 ( o ) ,p n ( o ) 。x 是被试在测验项目上作答的二值反应向量。t ( 0 ) 是项目 答对概率的均值向量,其元素都相等,t ( e ) = 【1 n p ( e ) ,1 n z p ( 0 ) ,l n e p ( o ) ,f ( x ) 的期望 为0 ;2 ) v a r f ( x ) = z p j ( o ) q j ( e ) p j ( e ) 一1 n z p ( o ) t a t s u o k a 把由。和 ( 2 5 ) 根据公式2 3 和公式2 5 就可以求出p i i e x p e c t e d ( o j ) ,举个例子说明:比如现在 第一个被试的数据是 1 0 1 0 1 0 1 0 1 0 1 0 ,现在把它与第二种理想模式比较得出 p l i e x p e c t e d ( 0 ) ,假设第二种理想反应模式是 0 1 0 1 0 1 0 1 0 1 0 1 ,先把对应元素比较, 比如第一道题被试的反应是1 ,而规定模式是0 ,说明发生了1 - - - 0 的错误,第二道 题被试的反应是0 ,而规定模式是l ,说明发生了0 - - , - 1 的错误,类推下去,发现发 生了6 次1 - - - - 0 的错误和6 次0 1 的错误,如果对应元素是相同的,就是表示没有 1 6 第2 章文献综述 错误,p j k ( o ) 就表示发生了0 一l 的错误,1 。p j m ( d 就表示发生了l o 的错 误,p j e x p e c t e d ( o ) 就是由它们相乘得到,p j k ( o ) 就是由p ( o j ,a i ,b i ) = 1 l + e x p 1 7 a i ( o - b i ) 算出来,那么这个公式下标代表什么呢? j 代表题目的编号,i 表示被试的编 号,根据这个例子,详细的公式是: p l j e x p e c t e d ( 0 1 ) = 1 l + e x p 一1 7 a l ( o l - b o 幸1 l + e x p 一1 7 a 3 ( o l - b 3 幸木1 l + e x p 一1 7 a l l ( o l b 1 1 ) ) 卑【1 1 l + e x p 一1 7 a 2 ( o l - b 2 ) 幸【1 1 l + e x p 一1 7 a 4 ( 0 1 一b 4 ) 】奉奉【1 1 l + e x p - 1 7 a 1 2 ( 0 1 - b 1 2 ) ) 】 ( 2 6 ) 在c u iy 等( 2 0 0 6 ) 中对方法a 、方法b 进行了模拟实验,并对模拟实验的结 果进行了比较,在相同的情况下方法b 比方法a 有更高的模式判准率和边际判准 率。其大致实验方法为:把期望反应模式按总分从小到大排序,然后使具有这些得 分的被试人数满足标准正态分布,产生n 人进行分配,保证期望反应模式的总得分 服从正态分布。为了产生发生了失误或猜测的观察反应模式,比如要模拟有5 的 概率发生失误( s l i p ) ,则每道试题上随机挑选总人数的5 个人发生失误( s l i p ) , 某个被选中的期望反应模式在某个题目上的得分是1 就将其变为0 。如果该期望反 应模式在该题上的得分是0 就将其变为1 。这样就模拟产生一个有5 失误概率的观 察反应模式阵,然后把这些观察反应模式归类到期望反应模式中,用发生失误前的 属性模式作为真值,然后计算属性模式归类的正确率来比较方法的好坏,产生1 0 、 1 5 、2 0 等的失误概率用相同的方法进行。 1 7 第3 章实证研究 第3 章实证研究 3 1 研究方法 3 1 1 六个基本属性及其层级关系的确定 本文要考察的属性是初二年级人教版数学其中的6 个知识点,由中学的教师确 定这6 个知识点以及其中的层次关系,如图3 1 所示: 图3 1 属性之间的层次关系 3 1 2 试题的编制 根据已确定的6 个属性及其层级关系,我们编制了2 0 道试题来测试被试在本 研究所指向领域的知识结构。 在题目编制的过程中,有一条原则贯穿始终:力求使得题目等级不超过考察点, 以避免被试因为题干而非考察点的原因而导致错误作答。并且题目都用简洁明了的 语言描述,避免被试因读不懂题目而做错,正式施测之前找了十五个同学做前测, 发现其中大部分同学在4 5 分钟内可以完成试卷。 正式测试时每个班级的施测由数学任课老师一个人完成,并且向大家说明:必 须在4 5 分钟内交卷,不会可不填。因为学生都认为这是一次考试,所以都认真作 l g 第3 章实证研究 答,测试比较少作弊。最后回收试卷,进行数据的处理。 3 1 3 被试的构成 所有被试均来自于安徽合肥某中学的初二年级,每个班级都参加,共发放4 0 0 份试卷,回收3 5 0 份试卷,其中有效试卷2 7 2 份。本研究中将1 0 道题以上空白的 试卷视为无效。 3 1 4 数据处理 项目反应理论( i r t ) 项目参数和被试能力参数值的估计,采用b i l o gm g 软件进 行估计:被试理想反应模式的生成手动完成,最后的分类采用自编程序实现。 3 2 研究结果 3 2 1 理想反应模式的确定 本研究所确定的6 个属性,它们形成了6 6 邻接矩阵a ,如图3 2 所示: 01 oo 0o oo 00 o0 10 0o 0l o0 00 oo oo 0o o1 lo 0o o0 图3 2 邻接矩阵a 根据已经确定的层级关系,可以形成6 x 6 可达矩阵r ,如图3 3 所示: 1 1 0 l o0 0o o0 0 0 11 oo 11 0l 00 0o 11 oo l1 1o 1o ol 图3 3 可达矩阵r 1 9 第3 章实证研究 在不考虑属性之间层级关系的情况下,6 个属性可以形成6 6 3 的q 矩阵,由 于太大,在此不列出,根据层级关系,下面给出简约后的q r 矩阵( 构造方法前文 有述,在此不再赘述) ,如图3 4 所示: 图3 4q r 矩阵 q r 有6 行1 4 列,表示题目应该有1 4 种类型,考察了6 个属性,将缩减关联矩 阵q r 转置,得到理想属性矩阵q r :由这两个矩阵,我们可以得到被试的理想反应 模式,由理想反应模式,可以得到被试在理想状态下的相应总分。本研究考察了其 中1 2 种类型,因此本研究的理想反应模式可以表示成1 2 x 1 2 的矩阵,如图3 5 所 示: 图3 5 理想反应模式 3 2 2 被试能力值和试卷难度区分度的确定 本次实测共有2 7 2 份有效问卷,也就是说有2 7 2 的数据,共有2 0 道题目,也 ,工 1,工1工1l l n u l 1 l 1 l l 1 l 0 l l l l l l n v 1 0 1 1 1 0 l o l 1 0 l l 1 l n v n u 1 1 l 1 l o o 1 0 1 o o 1 l 0 1 l o o l l l o 0 o 1 n v 1 n v n u n v l 1 o 0 0 o 1 o o o o o 0 o o o 0 0 o o o o o 1 o o o o o o 0 0 o o l l o o o 0 o 0 0 0 0 l l 1 0 0 0 o 0 o 0 o 1 o o 1 0 o o o o o o 1 0 o o l n u n u n u n u n v n u 1 n u n v n u l l n v n v n u n v n u 1 n u 1 1 n v 九v l o o o 0 1 0 l 0 1 1 1 1 0 o 0 l 0 o 1 l o 0 1 l o 0 1 1 1 l 1 l l l l l o 1 o 1 o o 1 1 0 o l 1 l l ll工上工 l,上工1上 第3 章实证研究 就是有2 0 组难度和区分度的值,用b i l o g m g 软件估算0 ,a ,b 这三个参数,a ,b 值 如表3 1 : 表3 1 区分度和难度值 i t e mc h i s q s l o p et h r e s h o l d i t e m 0 0 010 3 7 8 1 6 8 8 i t e m 0 0 0 20 3 5 8 1 1 9 3 i t e m 0 0 0 3 0 7 1 82 8 2 5 i t e m 0 0 0 40 5 2 13 5 7 3 i t e m 0 0 0 5 0 8 1 60 4 7 2 i t e m 0 0 0 6 0 6 6 80 4 0 4 i t e m 0 0 0 7 0 2 2 55 3 5 5 i t e m 0 0 0 81 1 2 91 7 4 7 i t e m 0 0 0 9o 6 8 1 1 2 0 3 i t e m 0 0 1 0 o 1 4 22 2 3 8 i t e m 0 0 111 1 8 10 9 3 i t e m 0 0 1 20 2 3 12 6 9 8 i t e m 0 0 1 30 3 0 6 0 5 8 8 i t e m 0 0 1 4 0 6 5 9- 1 3 1 2 i t e m 0 0 15 1 2 3 6- 0 4 0 6 i t e m 0 0 1 61 3 1 71 1 7 i t e m 0 0 1 70 8 4 6- 0 4 0 6 i t e m 0 0 1 8 0 7 2o 1 5 9 i t e m 0 0 1 9 o 80 1 5 1 i t e m 0 0 2 00 7 6 2- 0 2 4 3 从表3 1 可以看出,一共是2 0 道题目,其中第二列和第三列分部代表每道题目的区分 度( s l o p e ) 和难度值( t h r e s l o p e ) ,难度的取值都在( 一3 ,3 ) 中,说明被试在试题上 的实际作答情况是否与项目特征曲线所描绘的相当一致。因为数据比较多,所以节选 部分能力值来说明,部分0 值如表3 2 : 2 l 第3 章实证研究 表3 2 能力参数值 s u b j e c t a b i l i t ys u b j e c ta b i l i t ys u b j e c ta b i l i t y t e s t t e s tt e s t t e s t 0 0 01 一o 5 4t e s t 0 0 1 20 4 0 4 6t e s t 0 0 2 30 3 1 7 l t e s t 0 0 0 2 0 1 9 0 3t e s t 0 0 1 30 5 5 8 8t e s t 0 0 2 4- 1 1 7 6 7 t e s t 0 0 0 30 6 0 8 6t e s t 0 0 1 4一o 1 0 8 7t e s t 0 0 25- 0 0 8 9 8 t e s t 0 0 0 41 0 3 6 5t e s t 0 0 1 5o 7 4 1 2 t e s t 0 0 2 6- 0 2 4 4 8 t e s t 0 0 0 50 3 7 0 2t e s t 0 0 1 61 0 1 7 5 t e s t 0 0 2 7- 0 2 4 5 3 t e s t 0 0 0 6- 0 9 7 6 6t e s t 0 0 1 71 5 7 7 4 t e s t 0 0 2 8- 0 3 8 0 3 t e s t 0 0 0 7- 1 8 7 9 9t e s t 0 0 1 80 4 4 4 6 t e s t 0 0 2 9- 0 4 8 6 7 t e s t 0 0 0 80 4 1 1 2 t e s t 0 0 1 9- 0 3 5 6 9t e s t 0 0 3 00 3 5 3 7 t e s t 0 0 0 90 9 7 1 4t e s t 0 0 2 0- 0 1 4 5 2t e s t 0 0 31 - 1 5 1 3 3 t e s t 0 0 1 00 2 4 5 1t e s t 0 0 210 5 1 5 9t e s t 0 0 3 2- 0 5 7 0 5 t e s t 0 0 110 3 5 0 5t e s t 0 0 2 2- 0 0 0 1 8t e s t 0 0 33- 1 4 8 6 5 其中s u b j e c t t e s t 表示被试编号,a b i l i t y 那一行代表了的被试的能力值,为了后续分 类计算的精确性,本研究保留了4 位小数。 3 2 3 分类的结果 正如前面所述,a h m 分类的方法有a ,b 两种,因为b 方法的精确性不如a 方法, 本研究中采用了a 分类方法,分类程序采用c 撑语言编程,开发环境是n e t ,0 ,a ,b 这三个参数以及被试在每道题上的作答情况,理想反应模式都采用外部输入,程序 最终输出的结果是与每组数据拟合度最好的那一种理想反应模式,拟合度用相似度 值来表示,相似度值即公式2 3 中的p i j e x p e c t e d ( 0 ) ,计算方法也就是按照公式2 3 来计算,表3 3 是选取部分输出结果,以第一行为例:1 1 1 1 0 0 1 1 1 0 1 0 表示第一个被 试在选取的1 2 道题目上的作答情况,l 表示回答正确,0 表示回答错误;相似度最 大的是第4 个模式,表示经过计算它与第四种理想反应模式匹配度最高,也就是说 计算出来p l j e x p e c t e d ( 0 1 ) 的值是最大的;错误数是4 个,表示发生了1 到0 或0 到1 的错误数总共是四个;相似度值是0 0 7 6 1 5 8 4 2 0 0 7 0 6 0 2 5 ,表示计算出来的 p 1 4 e x p e c t e d ( 0
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 第一章有理数数学活动教学设计 人教版七年级数学上册
- 2025LED显示屏维修与保养服务合同
- 机器人技术考试题库及答案
- 2025年新版国有建设用地使用权出让合同(GF-2008-2601)履行监督
- 绵阳市汇泽投资有限公司市场化选聘公司总经理笔试参考题库附带答案详解
- 化工产品检测流程及安全规范
- 浙江国企招聘2025下半年金华永康市部分国有企业招聘26人笔试参考题库附带答案详解
- 农村集体资产租赁合同(GF-2000-0151)2025年执行
- 黟县2025安徽黄山市黟县事业单位统一笔试公开招聘工作人员16笔试历年参考题库附带答案详解
- 2025年人工智能训练师三级职业技能鉴定理论考试题库含答案
- 老人存款委托儿女代管协议书
- 可解释性AI在故障诊断中的应用
- 锚杆施工合同范本
- 2024-2034年中国电力运维行业市场现状分析及竞争格局与投资发展研究报告
- 2024土建工程承包合同范
- 2019译林版高中英语全七册单词总表
- 中国近代史课件
- 小学道德与法治-主动拒绝烟酒与毒品(第一课时)教学设计学情分析教材分析课后反思
- 五上3-2《用水计量时间》课件
- 常用截面惯性矩与截面系数的计算
- 供应商黑名单管理办法
评论
0/150
提交评论