




已阅读5页,还剩35页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
个人功能差异研究及初步应用 中文摘要 内容摘要:考试中被试的作答包含了丰富的信息,传统的考试评价只 注重分数的表面,忽略了其中蕴涵的信息。被试在考试时,对测量不 同内容领域( 或能力) 的项目的作答有不同的模式,通过分析被试的 这些作答模式,可以发现被试在不同内容领域( 或能力) 的知识掌握 差异情况。本文在项目反应理论下,采用教育与心理测量界新兴起的 一种测量被试在不同内容领域( 能力) 表现差异的方法,结合实际考 试数据,发现被试在测验中存在三种情况:没有表现出个人功能差异, 表现出一致性个人功能差异,表现出非致性个人功能差异。通过实 际应用发现,大部分被试没有表现出个人功能差异,而在表现出个人 功能差异的被试中,大部分表现出了一致性个人功能差异。通过本文 的研究,个人功能差异对于学生的分析、诊断、评价具有比较大的意 义。 关键词:个人功能差异一致性个人功能差异非一致性个人功能差异 个人功能差异研究及初步应用 a b s t r a c t c o n t e n t :t h ef e s p o n s eo ft h ee x a m i n e e si nt e s t si n c l u d ea b u n d a n t i n f o r m a t i o nw h i c hi s0 f t e n i g n o r e d b e c a u s et h et r a d i t i o n a l e x a m i n a t i o n - o r i e 丑t e de v a l u a t i o no n l ye n p h a s i z eo nt h es c o r e so ft e s t s f 0 rt h en e m sa b o u tm e a s u r i n gd i f f e r e n ta r e a so fc o n t e n t0 ra b i l i t i e s ,t h e e x a m i n e e sr e s p o n di nd i f f e r e n ts t y l e si n t e s t s t h r o u g ha n a l y z i n gt h e r c s p o n d i n gs t y l e s t h ee x a m i n e e s d e g r e e so fm a s t e r i n gk n o w l e d g ei n d i f f c r e n tc o n t e n t so ra b i l i t i e sc a nb ef o u n d a c c o r d i n gt 0i t e mr e s p o n s e t h c o r ya n df a c t u a le x a m j n a t i o nd a t a ,m e a n w h i l ea d o p t i n gan e wp o p u l a f m e t h o di ne d u c a t i o n a la n dp s y c h o l o g i c a lm c a s u r e m e n to fm e a s u r i n g 。 d i s c r e p a n c yi nt h et e s t so fd i f f e r e n tc o n t e n t so ra b i l i t i c s ,t h r e es i t u a t i o n s a r ef o u n dw i t ht h ee x a m i n c e s :w i t h o u ts h o w i n gd i f f e r e n t i a lp e r s o n f u n c t i o n i n g ;s h o w i n gu n i f o r md i f f e r e n t i a lp e r s o nf u n c t i o n i n g ;s h o w i n g n o n u n i f o f md i f f e r e n t i a lp e r s o nf u n c t i o n i n g m o s te x a m i n e e sd o n ta p p e a r d i f f e r e n t i a lp e r s o nf u n c t i o n i n gi np r a c t i c e ,w h i l cm o s to ft h ce x a m i n e e s w h 0a p p e a rd i f f e r e n t i a lp e r s o nf u n c t i o n i n ga p p e a ru n i f o r md i f f e r e n t i a l p e r s o nf u n c t i o n i n g t h er e s e a r c ho ft h et h e s i sc o n c l u d et h a td i f f e f e n t i a l p e r s o nf u n c t i o n i n gh a sg r e a ts i g n i f i c a n c co ns t u d e n t s a n a l y s i s ,d i a g n o s i s a n de v a l u a t i o n + k e y w o r d s :d i f f e r e n t i a l p e r s o nf l i n c t i o n i n g , u n i f b r md i f f b r e t i a l p e r s o nf u n c t i o n i g ,n o n u n i f o r md f f f e r e n h a lp e r s o nf u n c t i o n l n g n 个人功能差异研究及初步应用 第一部分引言 1 1 问题的提出 我国考试历史悠久,早的可以追溯到2 0 0 0 多年前的学记中记 载的古代考试制度。“比年入学,中年考校。一年视离经辨志,三年视 敬业乐群,五年视博习亲师,七年视论学取友,谓之小成。九年知类 通达,强立而不反,谓之大成”。考试有多方面的功能,对个体而言既 可考核个体对所学知识的掌握程度,也可预测个体未来的发展:对社 会而言可以进行大规模的社会分层。在我国,考试是社会重分工的一 个重要的工具,几乎是平民百姓改变社会地位、获得权利重新分配的 唯一出路。人们对考试非常重视,考试的公正、公平性受人关注,但 人们关注考试的公正、公平更多的体现在考试过程的公正、公平,体 现在卷面分数的表面,而对于分数的内,涵,对于考生对试题的作答反 应则很少评价。 随着进入2 1 世纪,国家又开始进行新一轮基础教育课程改革,全 面推进素质教育,要求我们转变教育思想观念,树立新的课程观、教 学观、质量观、人才观和考试评价观。考试评价要求贯彻素质教育的 思想,体现基础教育新课程改革的理念与精神,科学测量学生的个人 差异,使考试评价不仅要关注学生的学业成绩,而且要发现和发展学 生多方面的潜能,了解学生发展中的需要,帮助学生认识自我,建立 自信。教育目标的多样性必然要求教育测量与评价方法、手段的多样 化和科学化,其中尤以考试对个人能力的科学测量为焦点,要求由考 试不仅发现不同个体之间的差异,还要发现单个个体自身不同能力的 差异。 个体差异历来是一个受人关注的话题。孔子在对学生施教时,就 提出要从学生差异出发进行教学,认为教人必先知人,“不患人之不知, 患不知人也”( 论语学而) 然后在知晓个体差异的基础上因人施教。 墨子则对弟予要求“能谈辩者辩,能说书者说书,能从事者从事”( 耕 柱) 但无论孔子、墨子还是中国后来的许多学者,在重视个体差异时, 着重从老师和学生个人的主观判断,还没有严谨、精确的测量方法。 在西方,思想家们也非常关注个体差异,但同样对个体差异进行精确 测量还是直到1 8 7 9 年德国实验心理学家冯特建立第一个实验室开始, 个人功能差异研究及初步应用 随后,高尔顿、桑代克、卡特尔、比奈等人相继对个体差异进行了大 量的研究。而这些研究者又太注重量化的方法,在测量个体的同时, 忽略了情感、环境等对人的影响。因此,教育心理学界有逐渐要求在 研究个体差异时,必须既有能力,也有个性,既有情感,也有个人与 环境相互作用趋势。随后,许多测量学家开始了这方面的研究,测量 学界三大测量理论( 经典测验理论、概化理论、项目反应理论) 的出 现与此极为相关。d p f 就是三大测量理论框架下的一种测量个体差异的 方法。 d p f ,( d i f f e r e n t i a lp e r s o nf u n c t i o n i n g ,简写d p f ) 我f 将其 译为个人功能差异,是一种在认知和学业评价领域发展起来的,借助 被试考试异常作答反应,分析个人功能差异的方法。在标准化测验中, 被试对于多项选择题有不同的反应模式,假如测验中有n 个0 1 答案 的题,那么被试就可能有掣种记录,这一记录称为反应模式。在被试 的反应模式中,如果出现低能力被试容易题答错,而难题反而答对, 人格测验中被试故意隐瞒自己的真实反应等,那么此时就出现了异常 反应模式。d p f 方法的目的就是从被试个人差异出发,探察单个被试在 考试时,在不同类型的或不同内容领域题目上是否有不同的反应模式, 例如计算题和理解题等。这种方法可以把被试的信息与题目的信息结 合,可以把题目考察领域与被试反应模式结合,更好的发现被试的个 人能力表现差异,发现被试在不同项目上的异常反应,从而对被试做 出科学的评价。 被试在考试时的作答反应包含了丰富的信息,尤其当被试存有异 常的反应作答模式时。考试对考生个体差异的关注,要求我们不能只 看到考试分数的表面,而应透过分数表面,深入研究为什么有的被试 会产生这种作答模式,而有的被试会产生那种作答模式。如果考试只 简单的报告得分,然后依据得分对学生作出诊断和评价,那么考试只 能是非常粗糙而且极为不科学的测量评价工具,并且由此极易造成考 试的不公平。如果把被试的作答反应和考试成绩综合分析,那么考试 成绩不只是考生某场考试成绩优劣的标准而且能告诉老师及家长, 学生掌握了哪些知识点,没掌握哪些知识点,学生处于哪一种能力水 平,在哪种知识领域有比较强的优势,而在哪种知识领域有比较大的 个人功能差异研究及初步应用 缺陷,并且还有可能得出学生对所学科目及考试的认识和态度。因此, 采用现代教育与心理测量理论,结合心理学认知理论对考试进行分析、 反馈和报告,越来越受到人们的关注。依据考试反馈信息对学生自身 的能力水平和未来发展方向提供咨询和建议是教育评价的重点和难 点,是考试分析和评价的未来发展趋势,更是考试公平性的一大体现。 目前测试个体差异的方法总体来说还不成熟,但它们借助被试作答模 式测量个体时,由于把测量理论、计算机方法和认知心理结合在一起, 对考试分析和评价有独特的优势,开始受到测量学家的青睐,国外教 育和心理测量界对它们进行的研究慢慢多起来了。 1 2 文献综述 在教育与心理测量界,对于被试异常反应模式的侦查方法首先出 现的是个人拟合( p e r s o n f i t ) 方法。个人拟合是一种建立在经典测 验理论( c 1 a s s i c a lt e s tt h e o r y ) 和项目反应理论( i t e mr e s p o n s e t h e o r y ) 基础上的评估个人测验表现拟合项目反应模型的方法。在项 目反应理论中,是依据被试的观察分来估计被试的特质水平,然而以 被试正确作答项目的得分来作为被试的特质水平是不够充分的,例被 试在多项选择题中,可能猜对一些项目,从而提高他她的测验得分, 或如果被试不熟悉测验规则,从而获得一个比较低的得分。特质水平 的不准确测量也可能由以下因素引起:( 1 ) 睡眠行为( s l e e p i n g b e h a v i o r ,即开始作答时第一个项目就答错) ;( 2 ) 欺骗行为( 如抄袭 他人) ;( 3 ) 迟钝行为( p l o d d i n gb e h a v i o r ,即答题速度很慢,不能在 规定的时间完成测试,但如果给以足够的时间,此类被试有可能获得 极高的得分) , 因而产生低于实际的得分模式 ( e 1 1 i s w o l l e n b e r g ,1 9 9 3 :h 0 1 l a n d ,1 9 9 0 ) 。异常反应行为是否拟合项 目得分依赖于许多因素,例如异常反应的类型和数量。 个人拟合用来侦查项目得分模式的错误拟合。有些个人拟合的方法 虽然可以针对性的检测特定的测验模型,或特定的异常得分,但多数 个人拟合的方法无法发现引起被试异常反应的机制。大多数个人拟合 统计量比较个人在测验上的观察分和期望分,期望分通过项目反应模 型或被试样本数据而得到。个人拟合测量的目标是侦查给定的项目反 应模型下被试不可能的得分模式,因此个人拟合统计量必须对错误拟 3 个人功能差异研究及初步应用 合的得分模式很敏感。研究显示个人拟合的侦查率高度依赖于:( 1 ) 错误拟合反应行为的类型;( 2 ) 被试的能力值;( 3 ) 测验长度 ( m e i j e r n e r i n g ,1 9 9 7 ) 。由于测量误差或被试的虚假反应,个人拟合 指数在多维测验中难以区分个人错误拟合,即使是单维测验中,尽管 有的个人拟合指数可以比较强的确认被试的虚假作答,但也都是针对 群体而言,而无法确认到底是哪一个被试是虚假作答。由于个人拟合 指数的缺陷,要求有能够区分单个被试异常反应行为的方法,而d p f 方法则可以区分单个被试的异常反应行为。 然而,大多数研究者在研究被试的异常作答反应时,基本忽略了 进一步研究被试的个人功能差异,只有很少一部分研究者在被试异常 反应的基础上继续研究了被试的个人功能差异。p e r k i n s 和h e n n i n g 利用d p f 方法研究被试测验的异常作答反应比较早,他们在1 9 9 2 年通 过把t o e f l ( 托福) 测验项目进行合理的难度和内容领域搭配,由学生 作答,依据学生对t o e f l 测验项目作答反应模式,研究了他们的个人 能力表现差异。 j o h a n s o n 和a 1 s m a d i ( 2 0 0 2 ) 用d p f 方法分析六年级的小学生在 加利福尼亚成就测验( c a l i f o r n i aa c h i e v e m e n tt e s t ) 数学部分的不同 内容领域项目的不同反应模式。通过考察3 8 4 个被试在5 0 个计算题( 平 均难度o 5 1 3 ) 和5 5 个理解与应用题( 平均难度o 5 9 2 ) 的作答反应, 采用d p f 方法的m h 方法( m a n t a 卜h 8 e n s z e lp r o c e d u r e ) 侦查被试的 异常作答反应,结果发现有的被试没有显示个人功能差异,有的被试 显示出非常显著的一致性个人功能差异,而有的被试则显示出非常显 著的不一致性个人功能差异。j o h a n s o n 和a l s m a d i 还初步探讨了d p f 与项目功能差异( d i f f e r e n t i a li t e mf u n c t i o n i n g ,简写d i f ) 、d p f 与个人拟合( p e r s o nf i t ) 之间的关系。 j o h a n s o n 和0 s b o r n ( 2 0 0 0 ) 用d p f 方法分析被试对积极和消极调查 项目的反应模式。发现被试在面对积极和消极项目时均有不同程度的 虚假作答反应。m a t t h e w s l o p e z ,l a r k i n 和j o h a n s o n ( 2 0 0 2 ) 用d p f 方法 分析评分者对教师执照考试标准化试题部分的第一部分与第二部分的 试题进行评分的反应结论。 l i h s h i n g 和r e is e ( 2 0 0 4 ) 认为,鉴于多年来教育与心理测最界 4 个人功能差异研究及初步应用 一直被被试的异常反应模式所困扰,而对被试异常反应模式测量又是 非常棘手,因此建议采用多水平模型( m u l t i l e v e lm o d e l i n g ) 探察被 试的个人功能差异,并通过实证研究认为多水平模型是d p f 方法研究 被试的异常反应的新途径。 d p f 方法还被用于人格测验中。c h a r l e s ( 2 0 0 3 ) 认为,由于在人格 测验中,许多被试的不诚实作答会严重影响人格问卷的效度和使用, 因此他用d p f 分析了被试在五因素人格测验( f i v e f a c t o rm o d e lo f p e r s o n a l i t y ) 中的诚实与不诚实反应,发现了哪些被试作出诚实作答, 哪些被试是不诚实的作答,并由此认为在人格评价和人事决策中运用 d p f 方法十分有益。 综观国外对d p f 的研究,主要有三个方面:( 1 ) 方法开发,现有 的d p f 分析方法还比较少,且是从d i f ( d i f f e r e n t i a li t e m f u n c t i o n i n g ,d i f ,译为项目功能差异) 分析方法引用过来,因此不少 学者正在致力开发独立的、可适用不同背景的方法,以期更好的侦查 被试的异常反应,发现被试的个人功能差异;( 2 ) 在不同的测验中应 用d p f 作个人差异分析;( 3 ) 把d p f 方法与其他侦查被试异常反应的 方法进行比较,目前比较普遍的是把d p f 方法与个人拟合指数作比较。 但由于d p f 的研究相对比较新,对d p f 的原因探讨与其他的一些相关 论证研究还相当少,并且d p f 目前还只是用于二值计分题,对于多级 计分题的运用还没有相关的研究。 依据国外运用d p f 方法对个人考试异常反应的研究,本研究提出 假设:被试在考试时,如果存在考察不同能力( 例如数学测验中的计 算题考查的计算能力和理解应用题分别考查的理解应用能力) 或不同 内容领域的多个项目,并且这些项目具有相等的或接近相等的难度, 那么被试对它们的作答有可能存在三种模式之一:( 1 ) 假如我们依考 察不同能力或不同内容领域把项目分为两个组,且记一为目标组,另 一为参照组,不管项目难度如何变化,被试有可能在目标组作答的正 确率一直大于参照组,或有可能在参照组作答的正确率一直大于目标 组;( 2 ) 被试在某个项目难度上对目标组作答正确率大于参照组,而 在另一个难度对参照组作答正确率大于目标组,或被试在某个项目难 度上对参照组作答正确率大于目标组,而在另一个难度对目标组作答 个人功能差异研究及初步应用 正确率大于参照组;( 3 ) 被试在两个组项目作答上没有表象出明显的 倾向性。 1 3 本研究的主要内容 ( 1 ) 先系统地介绍d p f 方法。d p f 方法在国内还是一个比较新鲜的 侦查被试异常反应,进行个体功能差异分析的方法,因此本研究拟先 对它作比较详细的介绍。 ( 2 ) 作d p f 方法的实证研究。利用d p f 分析方法,采用国家人事部 人事考试中心提供的考生考试数据,从中随机抽取一定的被试进行分 析和评估,以通过实际应用获得对被试的精细分析。 1 4 本研究的数据来源及数据处理工具 ( 1 ) 数据来源:国家人事部人事考试中心提供的2 0 0 4 年度全国经济专 业技术资格考试( 经济基础知识一中级) 前面7 0 道卜o 计分题的得分 数据。由于d p f 方法研究起步的时间比较晚,目前无论国内外,在整 个教育与心理测量学界,d p f 方法对多级计分题的分析还有很大的缺 陷,因此本研究拟只用于二级计分题。 ( 2 ) 数据处理工具:s p s s l l 5 统计软件、江西师大教育学院心理与教 育测量中心编制的测量通用程序、自编的计算程序。 第二部分个人功能差异研究意义及研究方法介绍 2 1 研究意义 教育测量的基本原理是借鉴物理测量的思想,力求减少误差,尽 可能准确地反映人在知识、能力等方面的真实水平。它有广义和狭义 之分:广义的教育测量泛指运用测量手段对教育活动所进行的数量化 的测定。它涉及的范围很广,凡是需要并能够测量的、与教育有关活 动均在研究之列。狭义的教育测量专指按一定规则和程序对学生的知 识、智能、个性发展、思想品德等所进行的数量化的测定。我们通常 所提及的多指狭义上的教育测量。( 侯光文,1 9 9 1 ) 考试作为教育测量 的一种,是对教育效果最直接的测量,要求其具备公平性、公正性、 权威性、有效性是不容置疑的。考试要科学化,就必须以教育测量为 基础,进行科学的分析。针对学生的考试结果进行科学分析有重大意 义,可以评价考试的质量,进一步做好今后的考试工作。老师、学校 个人功能差异研究及初步应用 还可以通过试卷分析,了解学生的学习状况,找出带有普遍性和差异 性的问题,从而分析这些问题是属于教师教的问题,还是属于学生学 的问题或是试题本身的质量问题等等,并及时在教学中加以反馈与矫 正,从而不断改进教学工作,促进学生更有效的学习。 当前教育与心理测量学理论是经典测验理论( c l a s s i c a lt e s t t h e o r y ,简称c t t ) ,概化理论( g e n e r a l i z a b i l i t yt h e o r y ,简称g t ) 和项目反应理论( i t e mr e s p o n s et h e o r y ,简称i r t ) 并存。经典测验 理论建立在真分数模型的基础上,依据整个被试样本的考试作答反应, 分别评估测验的信度、效度和题目的难度、区分度及鉴别力,然后对整 场测验和被试作出分析报告。经典测验理论一个最明显的缺点就是被 试样本不同,得出的项目参数和被试参数会随之改变,从而对被试评价 易失去科学性,即同一个被试因为处于不同的样本中,其个人评价会大 相径庭。概化理论从本质上与经典测验理论一样,同属于随机抽样模型, 其优点在于通过精心的测验设计,根据不同的确定测量目标与侧面的 做法,针对性地考察多种信度和效度,一个令人遗憾的缺点在于同样要 求抽取的被试必须是代表性样本。项目反应理论本质上属于潜在特质 模型,是一种量表化模型理论,它将反应试题各方面特性的参数与被 试潜在特质参数相关联于数学模型之中,并用极大似然函数法估计这 些参数。项目反应理论的突出优点就是参数不变性,即项目参数不会 因样本的变化而改变( h a m b l e t o n s w a m i n a t h a n ,1 9 8 5 :漆书青,戴海崎, 丁树良,2 0 0 2 ) 。不过,这三种测量理论都是从宏观的层次对个体进行 整体的评估,难免有一卷定终身之嫌。随着测量理论的进一步发展, 必然要求从微观的角度来评估和诊断,要求产生新一代的测验理论。 新一代测验理论以项目反应理论为基础,要求:( 1 ) 我们不能也不应该 单独地运用i r t 来测量和估计被试l 韵个人能力参数和项目的难度参数, 而应把i r t 与认知心理理论等综合起来对能力参数和难度参数进行估 计:( 2 ) 注重被试的个体差异,科学评价个体测验反应行为,为个体未来 发展提供咨询和建议( m is l e v y ,1 9 9 3 ) 。 d p f 是通过被试考试作答反应,对被试个体差异进行研究,它通过 把现代测量学理论和被试的个人表现差异结合起来,并结合认知心理 学理论,能够在对被试评价时,在常模参照和标准参照的背景下,从 尘垫墼董墨婴塞墨垫生壁旦 被试的个人功能差异出发,可以使被试明白自己真正做了什么或没做 什么,帮助老师避免过低或随意要求学生,帮助社会明智地判断学生 的表现和今后发展的潜力。采用d p f 方法对被试进行个人功能差异分 析,具有非常明显的优点:( 1 ) 采用现代测量理论和认知心理理论结 合,不但可以精确的测出项目参数和被试能力参数,避免项目参数和 被试能力参数因样本不同而变化,还从认知角度分析被试产生个人差 异的原因;( 2 ) 既可对被试个人分析,也可把被试作常模比较和标准 对照,弥补了传统考试分数评价的缺陷;( 3 ) 可以全面、公开、公平 的报告成绩,从学校出发,有利于学生和家长获得准确、有用的信息, 从用人单位的角度出发,有利于合适、合理的选拔、安排职员;( 4 ) 依据研究结果,结合网络技术,可以对被试实施因人施测,帮助被试 发现自己的能力优势与弱项,使被试在今后的学习与职业生涯中选择 适合自己的学习方法和职业。 2 2 个人功能差异介绍 d p f ,( d i f f e r e n t i a lp e r s o nf u n c t i o n i n g ,简写d p f ) 译为个人 功能( 能力类型) 差异,原义是指同一个被试对一些尽管具有相同难 度等级,但测量不同内容领域或不同能力类型的项目有着不相等的作 答概率,表现出不同作答倾向的现象。简单说就是被试在同等难度不 同类型项目上的倾向性作答差异。 d p f 严格说是一接套侦查被试对项目异常反应的方法总称,包含多 种分析方法,不同的方法各有其适用范围和优缺点,通过对被试异常 反应的侦查,发现被试个人的不同功能差异,从而对被试作出评价和 诊断,同时也可对测验项目和蕉个测验做出评价。 被试异常反应,指被试在作答时,出现不正常的或带有明显不同 倾向性的作答反应,比如人格测验中被试的虚假作答,学业测验中能 力较低者容易题答错而难题答对等作答反应。 2 3 与个人功能差异相关的几个基本概念 ( 1 ) 个人特征曲线( p e r s o nc h a r a c t e r is t i cc u r v e s ) 在一场测验中,对于编制质量较高的试题,被试在其上正确作答 的概率会随着项目难度的增加而降低,郾项目难度小,被试对试题的 正确作答概率高,而随着项目难度增加试题变得越来越难,项目正确 个人功能差异研究及初步应用 作答概率也会越来越低,这样被试对试题正确作答的概率与项目难度 之间呈负相关。把被试对项目正确作答率连接起来,就会形成一条下 降曲线。随着项目的增多,就可获得项目正确作答概率对项目难度的 一条回归曲线,称为个人特征曲线。 在本研究中,由于对项目作了不同组别划分,因此研究中的个人 特征曲线指被试对目标组与参照组所有项目作答的反应曲线,绘制时 以项目难度等级为横坐标,以被试对项目的正确作答率为纵坐标。在 个人特征曲线图中,项目难度等级不是指具体的项目难度,而是指项 目难度已经被划分为不同的等级,难度低的项目属于低的难度等级, 难度高的项目属于高的难度等级。等级1 包含的项目难度最低,等级4 包含的项目难度最高。 圈1个人特征曲线图 ( 2 ) 个人印象( p e r s o ni m p a c t ) 个人印象指被试在目标组与参照组作答的差异是由于被试对某种 类型或考查某个内容领域( 能力) 的试题的偏好或熟悉而引起的。在 d p f 分析时,被试的异常反应中有些是由于个人印象所产生的。 ( 3 ) 参照组和目标组 d p f 分析时可依据项目反应理论或经典测验理论,对项目作出难度 估计,再依据难度系数把具有同一难度水平,测量相同内容领域或能 力的项目归为一组。一般是选择两个内容领域来分组,当划分其中一 个内容领域为参照组,另一内容领域即为目标组,没有绝对的分组标 准,但一旦对某个被试确认了目标组与参照组,那么其他被试也应一 样。d p f 方法包含的多种分析方法,有的可以同时对多组项目分析,有 的只能对两组项目分析,但一般是两组项目对应分析,这是因为通常 的测验不会包含太多的项目,如果分成多组,每一组包含的项目就会 个人功能差异研究及初步应用 太少,分析时会由于项目太少而分析结果容易波动,误差会比较大。 ( 4 ) 匹配变量 对被试进行个人功能差异分析时,需要比较被试在具有相同难度 水平下的两组项目上的正确作答概率。此时,两组项目的难度即是匹 配变量。难度,指的是项目对被试作答时表现出的难易程度。一般来 说,不同的分析方法用的匹配变量不同,有的方法要求用经典测验理 论( c l a s s i c 8 lt e s t i n gt h e o r y ,简称c t t ) 下的难度,有的要求用项目 反应理论( i t e mr e s p o n s et h e o r y ,简称i r t ) 估出的难度。经典测验 理论下的难度,即所有被试在该题上的正确作答比率,此难度优点就 是计算简单,容易理解,缺点是会随被试样本变化丽变化,即用不同 被试样本估出的难度系数不同。项目反应理论下的难度,此难度优点 。是不会依被试样本变化而变化,即用不同被试样本估出的难度系数不 变,缺点是计算复杂,需要比较大的被试样本进行估计( 要达到难度系 数跨被试的稳定性,一般要求参数估计时被试人数在1 干人以上) 。 ( 5 ) 一致性d p f ( u n i f o r md p f ) 和非一致性d p f ( n o n u n i f o r md p f ) 一致性d p f :即一致性个人功能差异,指被试与项目难度水平之间 不存在交互作用,即在所有难度水平上,被试对某组项目正确作答概 率都大于另一组,被试的作答表现出明显的单向倾向性。非一致性d p f : 即非一致性个人功能差异,指被试与项目难度水平之闷存在交互作用, 即被试在某个难度水平上,目标组的正确作答概率高于参照组,而在 另一个难度水平上则表现为参照组的正确作答概率高于目标组。 2 4 个人功能差异与项目功能差异的比较 由于个人功能差异( d p f ) 与项目功能差异( d i f ) 存在许多相似之 处,并且d p f 的一些方法来自项目功能差异,因此有必要介绍一点项 目功能差异,并把它们作简单的比较。 d i f ,( d i f f e r e n t i a li t e mf u n c t i o n i n g ,简写d i f ) 中文译为项目 功能差异。d i f 的基本定义为:同批项目由具有相同能力分布的两类 被试作答,结果产生了不同的作答概率分布;即相同的一个或许多个 项目由能力水平相同的不同被试( 包括不同地域、民族、性别、职业 等) 共同作答,如果被试之间的得分在统计上不一致,那么我们就可 以认为这个或这批项目对不同的被试会产生不同的功能( r o z n o w s k i 个人功能差异研究及初步应用 r e i t h ,1 9 9 9 ;s n e t z l e r q u a l l s ,2 0 0 0 ) 。 d i f 方法一般是对两组被试进行d i f 分析,考察具有相同能力分布的 两组被试对某个项目的答对概率分布是否相同,这两组被试即一为目 标组,另一为参照组。匹配变量是用来衡量两组被试能力的,既可以 是考试实际得分,即测验的卷面总分;也可以是依据项目反应理论估 出的被试能力。一致性d i f 是指被试的能力水平与其组别之间不存在 交互作用,即在所有的能力水平上,一组被试回答某一项目的正确率 都大于另一组。非一致性d i f 指当被试的能力水平与其组别之间存在 交互作用,即在a 能力水平段的被试中,目标组回答该项目的正确率 高于参照组,而在b 能力水平段的被试中,参照组的正确率低于目标 组,或反之,这时就称该项目存在非一致性d i f 。 d i f 的研究重点在于侦察同一项目对具有相同能力分布的不同被 试可能引起不同反应的特殊现象,关注考试的公平性评价。而d p f 的 研究重点在于侦察同一个被试对具有相同难度水平的不同项目的不同 反应模式,关注考试的个体差异性评价。 d i f 的研究方法目前开发的比较多,而d p f 的研究方法由于起步 晚,方法比较少,且已有的研究方法均源自d i f 的研究方法。d i f 的研 究方法一般要求大规模的被试样本,对项目则没有这个要求;而d p f 研究方法要求比较多的项目样本,对被试则没有这个要求。d i f 方法分 析时,数据矩阵为个人一一项目型结构,而d p f 则是项目一一个人型 结构。d i f 分析项目的特征曲线,而d p f 则分析被试的个人特征陆线。 在d i f 研究中,也存在参照组与目标组、匹配变量、项目影响、一致 性d i f 和非一致性d i f 等与d p f 研究中相类似的概念,但它们的内涵 与d p f 中的不同。 2 5 检测个人功能差异的常用研究方法 目前外文文献中d p f 的检测方法均源自d i f 的检测方法,只是在 使用时对样本的要求不同,所要用到的数据多少、排列格式等不同。 当今d p f 检测方法主要有以下几种: 2 5 1m h 方法 m h 方法是检验项目功能差异 d i f的常用方法 ( d o r a n s ,1 9 8 9 :m a n t a l h a e n s z e l ,1 9 5 9 :d o r a n s h o l l a n d l 9 9 3 ) ,也被 个人功能差异研究及初步应用 用于检测d p f ( j o h a n s o n ,2 0 0 2 ) 。在使用m h 方法检测d p f 肘,要求把 被试在每一个难度水平下的作答反应构成一个2 x 2 列联表:如果共有k 个难度水平,则构成一个k x 2 2 列联表,然后依据列联表,用础掰指 标来检验。 ( 1 ) 如果只有一个难度水平,且目标组与参照组均有3 0 道题,目 标组答对1 6 道题,答错1 4 道题,参照组答对1 8 道题,答错1 2 道题, 那么被试的作答反应就构成一个2 2 列联表,见表1 。 表1单一难度等级下被试得分列联表 被试得分 项目1 o 合计 目标组 1 61 43 0 参照组 1 81 23 0 合计 3 42 66 0 ( 2 ) 如果项目共有s 个难度水平,则第k 个难度列联表形式见表2 。 表2 第k 个难度等级下被试得分列联表 被试得分 项目 lo 合计 目标组 五斥凡辟 以辟 参照组 厶f 嘛,l ,七 合计 n l i 甩o i玎 口膨h 计算公式如下: 榭一陟碳删船碳) 五。:第k 个难度水平时,被试答对目标组项目的题数 ,0 。:第k 个难度水平时,被试答错目标组项目的题数 五。:第k 个难度水平时,被试答对参照组项目的题数 矗。:第k 个难度水平时,被试答错参照组项目的题数 以庸:第k 个难度水平时,目标组包含的项目数 :第k 个难度水平时,参照组包含的项目数 个人功能差异研究及初步应用 ,l i :第k 个难度水平时,目标组和参照组包含的项目总数 以珊的取值为0 口+ * ,面循= 1 o 时,表示该被试不存在个人功能 差异;以饼 1 0 时,表示被试对参照组题目更易作出正确作答。m h 方法对侦查 一致性个人功能差异比较灵敏,但对侦查非一致性个人功能差异比较 迟钝,这是由于m h 方法本身构成造成的。当被试在某组的表现一直 明显优于另一组,那么m h 方法可以非常灵敏的把这种表现差异表现 出来:然而,如果被试的表现与项目难度出现交互作用,即被试在某 个难度等级上,目标组的正确作答概率高于参照组,而在另一个难度 等级上则表现为参照组的正确作答概率高于目标组,此时m h 方法在 计算时,会把不太明显的差异互相抵消,从而非一致性个人功能差异难 以侦查。4 坍必须作统计显著检验,检验统计量为腻h z 2 ,计算公式 如下: 埘- 1 小叫纠卜n 5 v 村厶 其中: e ( 允) = 佩 魄) 一昨( 体一1 ) 】 e ( 凡) :参照组得分期望值,v a r ( 厶) :参照组得分方差 册z 2 服从自由度为1 的z ,检验的虚无假设为:被试不存在个人功 能差异。如果经检验 徂z 2 值处于显著水平,则认为该被试存在个人 功能差异;而如果经检验朋日z 2 值不显著,则认为该被试不存在个人 功能差异。美国e t s 公司( e d u c a t i o n a lt e s t i n gs e r v i c e ) 在研究项 目的d i f 时,把以缎作了变化,并依据结果对项目划分。c h a r l e s ( 2 0 0 3 ) 把e t s 对面埘的转换用于d p f 中: “正日一一2 3 5 l n ( 讪但) 出掰的绝对值小于l ,且z 2 检验不显著,此类被试被认为没有表 现出人功能差异。 i l 僻的绝对值大于1 ,但小于1 5 ,且z 2 检验显著,此类被试被 个人功能差异研究及初步应用 认为表现出中等程度的个人功能差异。 a 掰的绝对值大于1 5 ,且z 2 检验显著,此类被试被认为表现出 严重程度的个人功能差异。 2 5 2l r t 方法 项目反应理论估计参数的方法可以用来发现被试的异常作答反 应,检测个人功能差异。依据项目反应理论,当被试达到1 0 0 0 人以上, 项目量也比较大时,这时被试的能力参数与项目的难度、区分度及猜 测参数都比较稳定。侦查被试的异常反应时,在i r t 模型下计算被试 在两组项目的能力参数差异,如果能力参数差异显著,那么被试就属 于异常作答反应,表现出了个人功能差异。i r t 方法由于有众多模型, 因此依据不同的模型和参数估计方法,有不同的侦查方法。i r t 方法最 基本的模型有单参数模型、双参数模型、三参数模型。模型表达式如 下: 单参数模型 弓( 口) - e x p 一岛) 【1 + e 叩p 一岛) 】 双参数模型 霉p ) - e x p 【d q p 一岛) 1 + e 印 d 口。徊一6 j ) 】 三参数模型 异p ) 篁c j + 五i 司 翻 其中弓p ) :被试正确作答概率;q :项目区分度;岛:项目难度;c f : 猜测参数;日:被试能力参数;d :量表因子。 i r t 方法中,要求大量的被试参与,在估计时,步骤如下: ( 1 ) 抽一批被试施测,然后依据被试的作答反应,运用联合极大似然 估计法,估出项目的难度参数。 ( 2 ) 把这批项目对被试( 即我们的研究对象) 施测,得出被试的作答 反应。 ( 3 ) 把项目依据考察不同内容领域分为不同的组,此时不限于只有目 标组与参照组,如果项目数量比较多,可分为多个组同时进行分析。 ( 4 ) 在( 3 ) 的基础上,分别估计被试在不同项目组的能力参数,然 后比较这些能力参数的大小,如果能力参数不存在差异,或虽存在差 异,但经检验不显著,可认为不存在个人功能差异;如果能力参数存 在差异,且经检验显著,则认为存在个人功能差异。 l4 个人功能差异研究及初步应用 i r t 方法的优点在于模型多,可以适用于不同的测验情景;参数估计 准确,可以同时对大量的被试进行d p f 分析。缺点在于参数估计要求 大量的被试,一般认为要1 0 0 0 人以上,因此许多测验都无法满足这个 要求;数学原理复杂,难以为人理解。同时,i r t 方法只能把存在d p f 与不存在d p f 区分,而不能进一步区分一致性d p f 和非一致性d p f 。 2 5 3l o g is t i c 回归方法 l o g i s t i c 回归方法主要适用于二级计分题,它的优点就是对一致 性d p f 和非一致性d p f 都很敏感。此方法的原理是:以参照组和目标 组的项目难度为匹配变量,再以被试在参照组的总分x 1 作为参照组回 归方程的因变量,以被试在目标组的总得分x 2 作为目标组回归方程的 因变量,那么对单个被试来说,被试在参照组项目上的得分y 1 对x l 的回归与目标组项目上的得分y 2 对x 2 的回归应该是处处相等的,即: 昧( x 五) - 坼( k 五) ( e 是期望,r 表示参照组,f 表示目标组) ,则没 有产生d p f 。当等式在某个自变量取值上有不同的期望时,就表示有 d p f 存在。 l o g i s t i c 回归模型专门针对两分类的变量,由被试的得分获得一个 回归方程,概率的取值在o 一1 之间,但回归方程的因变量取值在实数 集中,直接做会出现o 一1 范围之外的不可能结果,因此必须将概率做 一个l o g i t 变换,这样取值区间就变成了整个实数集,得出的结果就 不会有问题,因此该方法就称作l o g is t i c 回归。 l o g is t i c 回归方法虽然在侦查d p f 是比较灵敏,但由它的基本原 理可以知道,如果在回归时,项目数量不大,容易出现比较大的误差。 因此只有当项目数比较大,项目可以分成多个小组时,用l o g i s t i c 回 归方法才比较合适。 第三部分2 0 0 4 年度全国经济专业技术资格考试 个人功能差异分析研究 3 1 本研究个人功能差异的检测方法和基本步骤 综合考虑多种d p f 分析方法,本研究拟选用m h 方法来分析被试的 个人功能差异。 ( 1 ) m h 方法使用的时间比较长,相比其它方法更为成熟,分析结果更 15 个人功能差异研究及初步应用 为稳定,且可以针对每一个被试单独分析,符合本研究对单个被试分 析的要求。 ( 2 ) 其它几种分析方法目前来说,应用比较少,且与m h 方法相比,缺 陷更为明显,比如项目反应理论的方法,其长处在于可以大量被试同 时分析,但缺点也正在此,无法得出单个被试是一致性d p f 还是非一 致性d p f 等。 基本步骤: ( 1 ) 在2 0 0 4 年度全国经济专业方法资格考试( 经济基础知识一中级) 的 考生试卷中随机抽取2 0 0 0 份试卷,依据2 0 0 0 个被试的作答反应估计 项目的难度参数。 ( 2 ) 测验不同内容领域的项目分成两组,一为参照组,另一为目标组。 ( 3 ) 依据估计出的难度参数,把两组的项目进行难度搭配。把项目难度 分成不同的等级水平,然后把难度相同和相近的项目归为同一难度水 平,并尽量确保不同领域同一难度水平的项目组有相等或相似数量的 项目,即每一难度水平至少有两组项目:对照组一一参照组,对照组 和参照组有大致相等数量的若干个项目。 ( 4 ) 分析被试的个人功能差异和个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年专业服务行业共享经济市场前景分析报告
- 2025年电子游戏行业虚拟现实技术应用前景预测报告
- 2025年零售行业移动支付应用前景研究报告
- 2025年金融行业区块链数字货币应用前景研究报告
- 2025年人类基因编辑行业伦理风险与医疗应用前景研究报告
- 商场全员安全培训制度课件
- 2025年区块链技术在金融行业应用前景分析研究报告
- 宁波市2025浙江宁波市交通运输局局属事业单位招聘3人笔试历年参考题库附带答案详解
- 国家事业单位招聘2025中国文联所属单位招聘拟聘用人员笔试历年参考题库附带答案详解
- 吉林省2025年度柳河县事业单位域外人才回引笔试历年参考题库附带答案详解
- 创建平安医院课件
- 2025年高压电工考试题库:基础理论知识要点
- 2025中秋国庆双节安全培训
- 刑事谅解协议书范本6篇
- 护理员安全培训内容课件
- Starter Unit 1 Hello!单元测试(解析版)
- 全国2025年质量月活动知识竞赛题库及答案
- 金税四期培训
- 托管班安全培训课件
- 汽车制造生产知识培训课件
- 2025年县处级领导干部政治理论考试试题库(附答案)
评论
0/150
提交评论