(基础心理学专业论文)dif检测方法的比较及其在英语高考试卷分析中的初步应用.pdf_第1页
(基础心理学专业论文)dif检测方法的比较及其在英语高考试卷分析中的初步应用.pdf_第2页
(基础心理学专业论文)dif检测方法的比较及其在英语高考试卷分析中的初步应用.pdf_第3页
(基础心理学专业论文)dif检测方法的比较及其在英语高考试卷分析中的初步应用.pdf_第4页
(基础心理学专业论文)dif检测方法的比较及其在英语高考试卷分析中的初步应用.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

d i f 检测方法的比较及其在高考英语试鲞坌堑中的初步应用 摘要 项目功能差异( d i f f e r e n t i a li t e mf u n c t i o n i n g ,简称d i f ) 分 析是保证测验公平性和有效性的重要环节,如何从国外学者已经 开发i i 的众多的d i f 检测方法巾选择适当的方法,用于我国的实 际,这是一个值得探讨的课题。本研究以1 9 9 9 年英语高考试卷 ( a 卷) 7 5 道选择题为研究材料,对常用的三种d i f 检测方法 ( s i b t e s t 方法、m h 方法和s t n d 方法) 进行对比研究,并在 此基础上对1 9 9 9 年英语高考试卷( a 卷) 7 5 道选择题进行性别、 学科和城乡d i f 的分析。 ,窿方法比较研究中发现:s i b t e s t 方法具有较好的性能,在 实际应用中可以作为首选的方法。在对三种d i f 进行探索性分析 中发现:有3 2 题存在性别d i f ( 其中有利于男生的有1 7 题) 、有 1 6 题存在城乡d i f ( 有利于农村学生的与有利于城市学生的各有 8 题) 、有1 9 题存在学科d i f ( 其巾有利于理科学生的有6 题) 。 在对产生d i f 的原因的分析巾发现:读音能力差异、对项目内容 的感兴趣或熟悉程度的差异是导致一些试题产生d i f 的主要原 因:这些存在d i f 的项目中,有不少是属于存在良性( b e n i g n ) d 1 f 的项目。 关键词:项日功能差异项i :j 偏差检测方法d i f 原因 t h r o u g ht h ep r o c e d u r e c o n t r a s tr e s e a r c h ,r e s u l t ss h o w t h a tt h e p r o c e d u r eo fs i b t e s t h a st h eb e s tf u n c t i o na n ds h o u l db et h ef i r s t c h o i c ei np r a c t i c e e x p l o r a t o r ya n a l y s i so fs i b t e s tm a i n l yf o u n d : 3 2i t e r n ss h o w e dg e n d e r - r e l a t e dd i f ( 1 7i t e r n sf a v o r e dt om a l e ) :1 6 i t e m ss h o w e d t o w n c o u n t r y - r e l a t e d d i f 5 0 o ft h e mw e r e a d v a n t a g e t ot h et o w ns t u d e n t sa n dt h es a m er a t i ot oc o u n t r ys t u d e n t s ; l9i t e r n ss h o w e ds u b j e c t r e l a t e dd i f ( 6i t e m sf a v o r e dt ot h es t u d e n t s s t u d y i n gs c i e n c e ) c o n f i r m a t o r ya n a l y s i so fs m t e s t s h o w e d :t h e d i f f e r e n t i a t i o no fa b i l i t yo fe n g l i s hp r o n u n c i a t i o n ,t h ei n t e r e s to r f a m i l i a r i t yt ot h ec o n t e n ta r et h em a i nc a u s eo fd i fa n da m o n gt h e d i f , s o m e a r et h eb e n i g n k e y w o r d s :d i f f e r e n t i a li t e m f u n c t i o n i n g ,i t e mb i a s ,d e t e c t p r o c e d u r e ,c a u s eo f d i f 。t i m l;mu溉町d勰嚣恕等 嗽一哪一一一一 f m劬星e鹏岈 m n杈引垮灿洲i 岭曲m麟r碰 一一一一一一一 旦! ! 蝗塑查堡塑些丝垦基童堂量苎堡堕堂坌堑! 塑鲨幽一 d i f 检测方法的比较及其在高考英语试卷分析中的初步应用 引言 人们进行教育和心理测量的目的是尽可能准确、公平地了解被试在成就、能力、 人格等各种心理特质上的差异。但是,测量学家发现在教育和心理测量中经常会出现 测验偏差( b i a s ) 的现象( 余嘉元,1 9 9 2 ) 。也就是指,这个测验对于和大多数参试者 有差别的那些群体或个体来说是有偏见的或不公平的( 藏海崎,1 9 9 8 ) 。 测验偏差现象最早引起人们注意是在本世纪初,在使用智力测验时人们发现本 民族语言不是英语的儿童,往往因为语言障碍而影响其智商分数。随着团体测验的发 展和军队甲种测验在第一次世界大战中的大规模使用,这个问题引起人们广泛的关注。 - z 、三十年代以后,随着跨文化测验的发展。测验专家们在语言和文化对测验分数的 影l 响方面进行了许多研究,并试图编制存文化上二公平的测验。六十年代的民权运动, 及之后的妇女权利运动期间这个问题更j t l i j i 起人们的重视特定群体的公正和平等 权利。测验测试结果与决策中是否存在偏差受到公众及测量界的普翊关注( 马世晔, 1 9 9 7 ) 。 但是,“偏差”概念带有判断和评价的含义,人们想单纯通过统计的方法来侦查 偏差,实际上并不可能。在研究与实际丁作中对偏差的侦查,首先是通过统计的方 法计算出两组被试在某一项目上的表现是否存在差异,然后由专家来分析该项目是否 真的对某一组被试不公平。如何才能将统计过程与整个偏差侦查的过程区分开呢? a n g o f f ( 1 9 7 2 ) 提出,有些项目虽然使不同群体成员的表现不同,但它们针对的是教 育结果,所以不能算是“偏差”。这就将偏差与组阆差异区分开了。因此。在统计学中, 人们用“项目功能差异”( d i f f e r e n t i a l i t e m f u n c t i o n i n g ,简称为d i f ) 这一术语来表示两 组被试在某项目上的表现存在差异,代替“项目偏差”这一易于引起误解的词语( 李 伟明,1 9 9 8 ) 。 现在,关于d i f 的研究在许多国家得到r 很大的发展特别是在美国,不仅理论 研究上发展最快,而且应用上也撮为广泛。他们对d i f 的研究主要致力于:( 1 ) 方法 的开发。现在已有大量适用于不同背景的方法;( 2 ) 方法的比较以探讨各种方法的 效率及优缺点,帮助使用者选择适用的方法;( 3 ) 用检测项目功能差异的方法对各种 测验( 如g r e 和s a t ) 的项目进行分析,确定有功能差异的项目,分析项目存在功 能差异的原因。形成最大可能原因的假设并加以论证( 曾秀芹,1 9 9 9 ) 。 我国对测验偏差和d i f 的研究起步较晚,但这并不就说明我国不存在这些问题。 我国幅员辽阔民族众多,各地之间经济文化发展很不平衡,城乡差异较大,丽许多 大型的考试( 如高考、自考、研究生入学考试、英语等级考试等等) 都是全国统一考 试,很可能会存在一些影响考试公平性的因素因此加强关于项目功能差异和测验 偏差的研究,对于保证测验的公平性具有重要的意义针对国外已经开发出的众多的 d i f 检测方法我们应该加以借鉴平吸收,使我们的研究与二( 作少走弯路。 4 d i f 检测方法的比较及其在高考英语试卷分析中的初步应用 第一部分文献综述 一、项目功能差异( d r f ) 的概念 尽管人们对于偏差问题的研究非常重视,但迄今为止,进展并不很快。其根本原 因,在于对偏差的定义还根不一致。 派恩( p i n e ,1 9 7 7 ) 提出,若所有具有相同内在能力水平的个体,不论其所属子团 体如何,在同一项目上正确作答的概率相等,该项目可视为无偏的,否则就是有测量 偏差的项目。这一定义似乎很接近于项目反应理论。但是按此思路,肖伊纳曼 ( s c h e u n e m a n ,1 9 7 9 ) 和卡米里( c a m i i | i ,1 9 8 0 ) 等给 i i 了仍然属于经典测量理论的项 目功能差异的定义:就同一项目来说,若来自不同子群体的,测验总分相同的被试, 在该项目上答对概率不同,则该项目存在偏差。a n g o f f ( 1 9 9 3 ) 提出了大家普遍认同 的项月功能差异的定义:如果来自不同团体的具有相同能力( 或熟练程度) 的个体对 某题的正答率不同,则这道题有偏差。 从项目反应理论来看,项目测量偏差可定义为,如果某个项目在不同子群体中的 项目特征曲线不同,则项目存在测量偏差( 戴海崎。1 9 9 8 ) 项目反应理论中的项目特 征曲线是由项目参数唯一确定的,因此项目偏差也就是项目参数有差异。汉布尔顿 ( h a m b l e t o n ) 发现项1 1 有多种不同的偏差现象。图l - l 中的图a 、b 、c 分别代表三种 不同的项目偏差。a 图表示在口的全程上子群体a 的答对概率都低于子群体b 。b 图表示在口量表的左段两群体问差异很小,而在右段,子群体a 的答对概率却大大低 于子群体b 。a 图、b 图显示出的项目偏差称为一致性偏差( u n i f o r m b i a s ) 指得是被 试的能力水平与其组别之间不存在交互作用。有的研究还发现了非一致性项目偏差 ( n o n u n i f o r m b i a s ) ,即披试的能力水平与其组别之问存在交互作用。c 图表示的就是 一种非一致性偏差,在图中两子群体在口量表低段有相同的答对概率,在中段予群 体a 有高于子群体b 的答对概率而在高段子群体a 的答对概率却又低于予群体b 。 本研究未涉及非一致性项目偏差的研究。 图1 - 1a 图i lb图卜1c 一般认为应用项目反应理论测量探查项目偏差比经典测验理论更为准确,因为项 日反应理论具有参数不变性的优点,并且所估参数不受被试能力水平及分布形态的影 响t 同一项f 1 存不同子群体卜项目特征曲线的差异足项目性质差异的表现 结合前文,我们知道,这里讲的“项目偏差”并不严谨,因为有些差异并不一定 是偏差。因此,综上所述。可以将d 1 f 定义为对于某个特定项目,如果在来自同一 目标特质的两批平行被试组中,显现出不同的统计特性,那么该项目就存在功能差异。 这里所讲的“同一日标特质的两批平行被试组”是指在测验打算测查的能力( 目 望! ! 丝型查垡墼些壁墨基鱼壅查茎量蔓堂坌堑塑垫望堡旦 标特质) 上。两组被试具有相同的水平。在d i f 的实际研究中,总是会人为地把被试 分为两组,分别称为参照组和目标组。划分被试依据一般有。性别、地域、民族、职 业、年级、社会经济地位等( 马世晔。t 9 9 7 ) 。参照组一般被认为是项目对它有利的被 试组,而目标组一般被认为是项目对它存在不利的被试组。当然这只是一个人为的划 定规则它的实际情况如何需要进一步的研究分析之后才能加以判定。衡量参照组与 目标组的被试是否具有相同能力水平的变量就称为匹配变量匹配变量既可以观察分 数,如测验的总分# 也可以是潜在能力,如用r t 模型估计出的口值、经典测验理论 的真分数t 。因此,根据匹配变量的不同,d i f 在数学上的定义就有三个( h u a - h u a c h a n g j o h n m a z z e o 1 9 9 6 ) i 定义l ;以观察分数为匹配变量 如果e ( 1 ,i ) = e ( 1 ,i x ) ,则该项目无d i f 。 其中,e ( ,j ) 表示测验总分为的参照组被试答对该项目的期望概率, e ,( y i x ) 表示测验总分为x 的月标组被试答对该项目的期望概率。 定义2 ;以潜在能力为匹配变量 如果e ( y i 口) = e i ( r i 口) ,则该项目无d i f 。 其中,e ,( 1 , p ) 表示潜在能力为0 的参照组被试答对该项目的期望概率, e i ( yl 口) 表示潜在能力为口的目标组被试答对该项目的期望概率。 定义3 :以真分数作为匹配变量 如果e ( 1 ,i t ) = e s ( y t ) ,则该项目无d i f 。 其中e ( y i t ) 表示真分数为t 的参照组被试答对该项目的期望概率,e ,( y i ,) 表示真分数为t 的目标纽被试答对该项目的期望概率。 二、d i f 研究中的几个重要阔愿 1 、匹配变量甸置在检测d i f 时,一个很重要的前提是,两批被试在测验欲测 的目标特质上具有相同的水平。实际工作中,匹配变量常采用被试的总分或潜在特质 变量。但人们常认为。被试总分或潜在特质变量都是根据含有存在d i f 项目的测验结 果求取的因此,它们本身就是有偏差的。于是有人提出。除了采用测验总分作为匹 配变量外( 内部的匹配变量) ,还可以用一个不含d 1 f 项目的测验分数作为匹配变量, 即外部的肟配变量( 粱龙娟,1 9 9 9 ) 。但是,伯特( b e r t ) 、卡罗琳( o u r o h m ) 和瓦莱 丽( v a l e r i e ) 认为,使用测验总分划分能力水平的一个优点在于测验所测量的能力体 现在每一个项目中而独立的能力测量可能与项目所溅的能力不完全一致。为了避免 6 d 1 f 测验总分( 或潜在特质变量) 包含了有的项目,一股的做纭是先进仃堆备分析, 找出可能含有d i f 的项目,然后用剔除了这些项目的测验总分( 或潜在特质变量) 作 为疆配变量,来进行正式的d i f 分析。 2 、i 型错误问题在d i f 研究中,i 型错误即犯了舍弃不存在d i f 的项目的错误 如粜一种d i f 检测方法犯l 型错误的概率较高,会带来一些不利的影响( l o u i s a r o u s s o s w i l l i a m es t o u t , 1 9 9 5 ) ;一是经费浪费。因为编制题目、编制测验是一件花 费较大的工作,抛弃一些没有d i f 的题目是对经费的浪费;二是错误地舍弃一些质量 较高的题目。因为高区分度的项目更容易被检演9 认为有d i f ,所以会出现高质量的项 目更多地被舍弃的情况;三是会影响到人们对产生d 1 f 的真正原因的探讨与分析。i 型错误问题是d i f 研究的一个重要方面,经常采用模拟数据的来进行研究 3 、样本容量与被试能力分布的影响问麓在d 1 f 研究中还可能存在着这么一个问 题,即随着项目难度的增大或减小,统计分析工具对它的监测力下降。这都可能是因 为所选取的被试样本容量太小或分布很不规则所至。在d i f 研究中,如果被试量太小, 就可能让我们无法精确估计项目的各种参数,从而也无法对它进行辅确评价a 而被试 样本分布的不规则。如高能力或低能力被试样本太少,这都可能导致我们在难度较高 或较低的项目上得不到足够的估计量指标,从而降低统计监测的力度,这也可能导致 让我们按纳了存在d i f 的项目,即犯了i i 型错误。 4 、检测结果的解释与分析闯焉运用检测d i f 的方法对项目是否存在d i f 的计 算结果,只是d i f 分析过程中的第一步,之后还有几项工作要进行:对项目产生d i f 的原因进行探讨;对提出的原因假设进行检验;确定哪些项目是真正存在偏差的 项目,即存在不利的d i f ( a d v o f d i f ) 。这几项工作需要有学科专家的参与。但从测 量学的角度看,造成项目存在d i f 的原因主要是由于项目测量的维度超出了我们打算 测量的维度。例如,前文讲到的智力测验的情况,测验欲测的是儿童的智商,实际上 它还测量y ) l 童的语言能力,所以就会h 现d i f 。这里,测验欲测的维度常称为主维 度( 或称目标维度) ,实际还测量到了的另外的维度称为次维度( 或称非目标维度) 。 对于维度概念的理解有助于人们把握什么是真正的项目偏差这一点在下文“d i f 研 究的一种新模式”中有较为详细的论述。 5 、d i f 研究的一种新模式 w i l l i a m s t o u t & l o u i s r o u s s o s ( 1 9 9 6 ) 等人提出了一种新的研究d i f 的模式。这 种研究d i f 的模式无论从理论上还是从实际应用上都有着极大的优越性。 这种新的d i f 研究模式就是s h e a l y s t o u t 多维模型( m m d ) 。在这种新的研究模 式下的d 1 f 操作性定义为;酋先,此项目不但对主维度( 即日标维度) 敏感而且对 次维度( 非目标维度) 也敏感,即此项目测量了两个以上的维度;其次当给定相同 的主维度分布时,两个研究被试组在次维度上的条件分布存在着差异。另外,这个定 义还认为次维度可分为干扰维度与辅助维度,干扰维度一般被认为是与主维度测重的 方向不一致的维度。而辅助维度测量的方向与主维度的测量方向是基本一致的这个 定义与以前的d i f 研究中的定义有着不同之处,即它强调了次维度是在条件分布的情 形下存在差异,而以前的定义虽然认为造成存在d i f 的原因是由于项目测量的维度过 多,但却在具体分析d i f 的存在与否时,把次维度与主维度分开来单独进行考查,认 d i f 检测方法的比较及其在高考英语试卷分析中的初步应用 d f 。以前的研究模式没有足够地重视主维度分布情形对d i f 考查的影响 m m d 假设主维度与次维度的总体联合分布是一个双变量正态分布,它们的平均 数分别为肋和,岛,标准差分别为d 0 和盯口,两个维度之间的相关系数为p 对于我 们要研究的两组被试来说。这些参数之间可以存在差异。在这个假设条件下,当主维 度0 是某一固定值时,两组被试在次维度,7 一j :的平均数的期望差异可以表示为; 咏( ,7 l 研一4 ( ,7 i 印= 一) + 口一所) + 办一心序) f 1 ) u 岛u 耳u 母u 嘞 为了有助于理解上面这个公式,我们来考虑它的一种特殊情形。假设披研究的两 个被试组上的两个双变茧分布的标准差及相关系数相等,同时假设两个组在两个维度 ( 变量) j :的标准差也相等,而这两个组仅仅是在两个维度上存在着平均数的差异, 于是我们可以把公式( 1 ) 简化为: ( ,7 i 一睇( 叩i 扔= ( ,k 一,k ) 一p o 一,) ( 2 ) 从以上公式即可看f i ; m m d 认为即使两个被试组在次维度上存在着差异,如果两个被试组在主维度 j 二也存在着相同方向的差异并且两个维度之间的相关大小适度的话,那么,计算i l l 来的d i f 指标将不会大,即我们没有足够理由认定此项目存在着d 1 f 。其实,如果两 个被试组在两个维度l 二存在着一致的差异,且两个维度之间的相关又比较适度,那么, 我们就会认为两个被试组在次维度上存在差异是很自然的,因为他们在与之相关的主 维度一i :就已经存在着差异。 m m d 认为即使两个被试组在次维度上不存在差异如果两个被试组在主维度 上存在着差异且两个维度之间存在着较好的相关,那么,计算h 来的d 1 f 指标将会说 明此项目其实是存在着d i f 的。对于这一点,我们也可以这样说即两个在主维度上 存在着差异的被试组。在与主维度相关的次维度f :却表现相同,那么这就说明了这个 次维艘对于在蕾维度上占有优势的被试组存在着不公平现象。而在以前的d i f 解释中 认为,如果两个被试组在次维度一卜差异不明显,那么这个项目就可能被认为没有d i f 。 m m d 研究模式跟以前的研究模式之问最大差异归根结底是一个分布的问题。 如果以前的研究中能够在被试的维度能力分布匹配上严格要求那么,它所计算 i i 来 的d i f 指标的意义解释与m m d 研究模式将不会有什么差别m m d 研究模式中不用 对被试匹配问趔进行单独的考虑,它j 要求有被试在各个维度上的能力参数就行。内 为它能够在分析过程中同时把各个维度+ l :的能力分布状况考虑在内。而以前的研究模 式却要在计算d i f 指标之前单独考虑被试在主维度上的艇配方式问题。且这种匹配的 精确性程度还可能很不一致。i 瑚此,m m d 研究模式还具有便利性优势。 维度之问的棚关系数大小对评价d i f 有着极其重要的作用。因为如果两个维度 之间的帽关系数较大的话这就说明这两个维度测量的是同一个方向,次维度成了浏 矗 量的一个辅助维发而非干扰维度这样的两个维度之间在计算d i f 指标盯仔征肴一柙 相互抵消的关系,也就是即使在一个维度上两批披试存在差异,由于在另外一个与之 相关的维度j :也存在着相同方向的差异,因此不能认为此项目存在功能差异e 但是关 干相关系数大小的影响在以前的d i f 研究中却没有加以足够重视。 我们在i :面已经指出,造成项目出现d i f 的原因就是它测量的维度超出了我们的 测量目标。不管足对于传统的d 1 f 研究模式,还是对于m m d 研究模式以至对于将来 的d i f 研究模式,首先进行的一步就是朋各种统计分析和理论分析的手段把测验所测 量的维度确定下来,把主维度与次维度分开,确定各个项目所代表的维度,然后确定 被试在每个维度上所处的能力位置。 三、检测d i f 的方法 舣认为,根据匹既变量是测验总分还是被试潜在特质或真实能力,可把检测 d 1 f 的方法分为两类:以观察分数作为匹配变量的方法和以潜在特质作为匹配变量的 方法( p o t c n z a d o r a n s ,1 9 9 5 ) 。这两类方法都假设测验项目与匹配变量之问具有相同 的维度,也就是假设它们是单维的。二者的本质区别在于t 前者使用观察分数作为匹 配变量而后者使用观察分数的函数估计的潜在特质水平作为匹配变量。m a r i a & n e i l ( 1 9 9 5 ) 指出,这一区别常常错误地引导人们,认为以潜在特质作为匹配变量的 方法使用了参数形式,而以观察分数作为匹配变量的方法没有使用。而实际上,以观 察分数作为匹配变量的方法有不使用参数形式的方法,也有使用参数形式的方法,以 潜在特质作为匹配变量的方法亦然。使用了参数形式的方法,是指在项目分数和匹配 变量之间的关系采用了一个参数形式也就是有确定的测量模型。而非参数的方法没 有。对这一点的正确认识,可使我们对检测d i f 的方法有更深入的认识。表1 - 1 就是 d i f 检测方法的分类情况。 匹l j 己变量方法性质( 有无参数) 蹶型方法 非参数 二级题m h 、s t n d 观察分数 多级题p m h 、g - m h 、p - s t n d 二级题 l r d i f 参数 多级题 p l r d l f 非参数 二级题 s i b t e s t 潜变量 多级题 p - s i b t e s t := 二级题面积测度、w a l d 统计量 参数 多级题基于p c m 与g p c m 模型的方法 分之间还存在多种可能得分的题目( 常称为多级记分项目) 。 ( 一) 以观察分数作为匹配变量的方法 这些方法常被简称为观察分数的方法,它们关于项目没有d i f 的定义是一致的: “如果一个项目没有d i f ,那么个体在包含类似项目的子测验上应该有相同的得分 被考察的每个总体巾答对项月的个体比例应该是 h 同的”( s c h e u n e m a n ,1 9 7 5 ) 。这些 方法都足以测验的观察分数作为匹配变量,没有关于项日或测验作答信息的心理计量 或认知的模型。 m h 方法和标准化方法( s 1 n d ) 都是没有为项目分数和匹配变量之闻的关系指定 9 型! 蝗型查堡墼些墼丝基建蔓查茎塑堕堂坌堑! 些塑生生旦 一个参数形式的检测二级题d i f 的观察分数的方法( d o r a n s & h o l l a n d , 1 9 9 3 ) 。 l ,= 缓囊d i f 捡一的非参数方法 ( 1 ) m h 方法- ( m t n t e l h a e n s z e jp r o c e d u r e ) m h 方法由m a n t e l 和h a e n s z e l 1 9 5 9 ) 首先提 h ,h o l l a n d ( 1 9 $ 5 ) 以及h o l l a n d 和 t h a y e r ( 1 9 s s ) 把种方法用于检测项目功能差异( d o r m s & h o l l a n d , 1 9 9 3 ) 。现在已经成 为检测d i f 应用最为广泛的一种方法,它是传统z 2 检验法的自然推广。m h 法用于侦 查两级记分项目的d i f ,它关心的是目标组与参照组之间的差异,测验总分被作为匹 配变量的指标。m h 方法统计量的计算建立在一张s 2 2 的列联表中,其中s 是测 量总分的水平数,对于其中的任一7 k 平k 可构成一个来自于两子群体在项目上得、 失分数的2 2 列联次数表( 如下表) 。 m l l 法s 2 2 列联衷 项目分数 群体合计 】0 参照组( r ) f l 咄 f o 止f l 矗 目标组( f )f j j 垃 合计n l kn o kn t 根据样本数据完成上述的s 2 2 列联表,则可根据表中数据计算om h ,公式如 下: a m h = ( l 辟) n d ( t z 一) ,) ( 3 ) 其中工,、五t 分别是在第k 个能力水平组中,参照组答对项目的人数和答错项 同的人数;z m 、五m 则是目标组答对的人数和答错的人数。 o m h 的取值介干0 至正无穷之间。蝴= l0 时,表示该研究项目无d 1 f ; 蝴 1 0 时,表示所研究项目 对参照组有较低难度。 但是由于删的计算来自于样本数据因此对其值是否等于10 必须进行统计 检验。检验统计量是m t t z 2 ,其计算公式为: m hz z ;唯一。一妻 l l i f f i l i - l 12 厶 0 5 i 艺脚( h ) ( 4 ) j t - 其f l : f ( z ,】i ) = 玎i t 胛,t n i v u r ( ,) = 疗哺一o t 疗庸月皿,( 厅i 一1 ) 1 m t l z 2 被认为是服从自由度为l 的z 2 分布的,如果经检验 锄佬2 值处于显著性 水平,则认为所研究项月存在d i f 。美陶e t s 公司对a m 又作了一个变换,以与他 们的a 量表柏配,转换公式如一卜; d a m t i = 一7 三i n ( a m i ) = 一2 3 5 1 n ( a m h ) ( 6 ) 此时,a 丸i l l 为0 表示研究项只无d i f ,a m 为芷表示对目标组有利,为负表 示埘参照组有利。r o b i n sb r e s l o w 和6 r e e l a n d ( 1 9 8 6 ) 提出了一个估计a 肋盯标准误 j 0 望竖丝塑塑鲨塑! ! 墼丝基鱼塞查茎堕堕堂坌堑生墼塑生鏖旦一一 的公式: j 一 l 跚从彻= ( 2 3 o 圆如+ 蹦僻缸以) - + 瑚似缸+ 颤) ”嘲) ) 2 ( 7 ) 百 e t s 公司根据m h 方法汁算的结果,把项目分成三种等级( o o r a m & h o l l a n d ,1 9 9 3 ) : 等级a :a m 的绝对值小于l ,或者与0 没有显著差异( p o s ) 。这类项目被视 为其有很小的d i f 或者无d i f 可以用于测验。 等级c :a 肋的绝对值大于15 ,并且显著犬于1 0 ( p 。p ( y h k ) ( 2 1 ) 。 = 。“ ” 其中,p i 为第s 能力水平组中答对该项目的人数比率;匕、k 分别是第s 能力水平 组中的参照组和目标组被试在该题j :的、f 均得分。 s 1 b t e s t 还作显著性检验,其检验统计量为:b ;卢口( 卢) ,其中: 盯( ) = 【争口。2 ( 型曼盟+ ! 兰坐盟) 】l 2 ( 2 2 ) 墨n i t sn h 。 式中,盯2 ( y is ,g ) 是匹配测验分数为s 的g 组( g = r 或f ) 被试,在所研究的项目上 得分的方差。当项目无d i f 时,b 近似于n ( 0 ,1 ) 的正态分布( h u a - h u a c h a n g & j h o n m a z z e o ,1 9 9 6 ) 。如果b 值大于l9 6 或小于1 9 6 时( a = 0 0 5 ,双侧检验) 。假设披拒 绝,即认为该项目存在d i f 。 s i b t e s t 方法可被认为是经典理论的观点,它的最大创新是用回归校正 ( r e g r e s s i o n b a s e dc o r r e c t i o n ) 方法来估汁匹配分数:e 。( 】,i ,) = e ( rlt = ,g = g ) , 其中8 = f 或r 。这使得它对参照组和目标组能力分布不敏感,检测效率不受参照组和 目标组能力分布差异的影响( b o l t & s t o u t ,1 9 9 5 ;c l a u s e r m a z o r , 1 9 9 8 ) 。另外, s | b t e s t 设计了一个迭代程序,把被怀疑有d i f 的项目排除在匹配标准之外。起初, s i b t e s t 把所有的项目都作为匹配标准,对每个项目逐项检测,把有d i f 的项目排除 在匹配标准之外,这样不断反复,直到形成一个不含d i f 项目的“有效测验”。这个 “有效测验”就可作为最终的匹配标准。 s i b t e s t 方法的另一个革新之处在于可以对一批项目同时进行d i f 检测,称为项 目束功能差异( d i f f e r e n t i a lb u n d l ef t m o t i o n m g ) ,简称d b f ( c l a u s e r m a z o r , 1 9 9 8 ) 。如 可以同时对一篇阅读理解文章后面的五个题目进行d 1 f 分析。在项目束功能差异分析 时可能出现二种现象。一是“放大”( a m p l i f i c a t i o n ) 现象:单独分析每个项目时,d i f 值都不大,但同时对这些项且进行分析,则d b f 值马上增大( 说明这篇文章对两组学 生的功能不一致) ;二是“收缩”( o a n c e l l a t i u n ) 现象;单独分析每个项目时,d i f 值很 大,但同时分析时,d 1 f 值却减小了( 这些项目在两组学生上的功能差异相互抵消) 。 s t o u t 和r o u s s o s ( 1 9 9 6 ) 认为对项目束进行功能差异分析有二大益处;其一是可以 提高该方法的检测效率和减小i 型错误。由于有些项目的d 1 f 值太小。当单独对一个 项目进行分析时,可能检测不出来但把具有相同维度的项耳( 产生d i f 的原因相同) 组成项目柬,同时进行分析,d b f 会放大,从而提高了检测效率另外,对项目柬同 1 4 坚! 丝塑查婆塑堕墼墨基垄苎耋茎量蔓堂坌堑! 塑塑生堡旦 时分析可降低统计假设的次数和提高匹配变量对真实能力的估计,从而减小了i 型错 误。 对项目束同时进行功能差异分析的另一个重大用途是对项日产生d f 的原因进行 验证。对测验项目进行d i f 分析之后或专家对测验项目进行d i f 评估时要对项目产 生的原因进行分析,提出种种假设并对最可能的原因进行验证分析。对d i f 原因进 行分析时,主要是评估造成项目产生d i f 的第二维度,并把具有相同第二维度的项目 找出来,组成项目束,进行项目束功能差异分析,如果d b f 明显地增大了,则说明假 设的第二维度确实是存在,并且造成了项目功能差异。如英语测验中的五道单项读音 题都显现出有利于女生,可假设这些项目至少包括二个维度;测验所测的英语综合能 力和导致项目d i f 的读音能力。于是把这五个读音题组成项目束,进行分析,发现 d b f 有了明显的增大。上述假设就得到了验证。 2 、多级置d i f 检测的非参数方法 s 1 b t e s t 方法很容易适用于多级记分项目的d i f 检测( c h a n ge t a l ,1 9 9 5 ) ,现在已 经开发出了适用于多级记分项目的s 1 b t e s t 程序( p o l y t o m o u ss i b t e s t ,简称为 p s 1 b t e s t ) 。p s i b t e s t 方法不仅具有s i b t e s t 方法的优点,而且适用面更广可 用于以下几种情况:二级题d i f 检测;多级题d i f 检测;二级题和多级题混合 测验的项目d i f 检测。该程序是e t s 公司进行n a e p 的项目功能差异分析的首选程序 ( h u a - h u a c h a n g ,1 9 9 9 ) 。 3 、= 级篡d i f 检潮的参数方法 ( 1 ) 面积酒度 检测d i f 的面积测度指标一般被表达成如下形式: 一= z ( 乓( 口) 一0 ( 口) ) ( 2 3 ) a 是参照组与目标组特征函数之差定义在区间s 上的函数。其中b ( 一) 为参照组的项 目特征函数,昂( 口) 是目标组的项目特征函数s 为区间( 吃,劬) ,眈,劬分别为0 的 下界与上界。对于f 与s 有许多不同的选择,主要表现在f 的选择是连续积分还是离 散逼近,f 是等量加权还是不等量加权,f 是否带有正负号,s 是有限区间还是j e 穷区 间等,不同的选择构成不同的面积测度指标 最早的面积测度使用有限区阃,采用离散逼近的形式。1 9 9 7 年鲁德纳( r u i n 们建 议使用不带符号的指标r r :莞h i a , j ,一, q = ( 嘭) 一片( q ) ( 2 4 ) s = ( - 3 ,+ 3 ) 而a 是- - d , 区间( 例如a = 0 0 0 5 ) 。s 进而被分割成1 2 0 0 个小区间, r 成了不带符号的d i f 面积测度。r 也可以通过删去绝对值符号而变成带符号测度。 即有 + j 尼= ( q ) a ( 2 5 ) 但值得注意的是这一r 可能会因项目d i f 的交替出现而低估了d i f 的程度。为避免这 种现象,林l i n n ,1 9 8 1 ) 等建议仍然使用不带符号的r 测度,但同时定义了两个指标r h 与r i : 望! 丝塑查鲨鲤些墼丝基查查耋蔓堕堕堂坌堑生些塑生壁旦一 嘞= ( q ) ( 2 6 ) 如 r = r 一 ( 2 7 ) 对于r h ,连加和只包括那些在其上项目特征函数之差带同一符号( 如符号为负的) 的区间。这样既能帮助d 1 f 研究者了解绝对项中不同偏差方向的偏差程度和总体偏差 倾向,又避免了r 的缺陷。 谢帕德( s h c p a r c d ,j 9 8 5 ) 等提出了另一组面积测度指标如下l s o s j = 吉巧 ( 2 8 ) j m l 1 , s o s 2 = 寺谚仃邑 ( 2 9 ) p i l 舳喝= 寺i q i ( 哆) ( 3 0 ) 1 卜l 1 , s o s 4 = 寺i q i ( q ) 屹( 3 0 在这一组指标中,区间s 是有限的,但其界值是变化的。n = n e 一+ n r ,即n 是总样本容 量值。巩是总样本中第j 个被试的能力值,在计算中并不区分它是哪个子群体的成员。 可以看出,s o s 3 与s o s l 除了d i 为负时,该加项存在负号之外都是相同的。s o s 4 与 s o s 2 也是类似的情况。比r 指标麻烦的是,该组指标都需先计算p 值作为可变量。 以上介绍的面积测度指标都是属于离散逼近的。更近一些出现了连续积分形式的 面积测度指标。积分区间有有限的,也有无限的。其一般形式为: a c = i 。,( b ( 护) 一斥( 口) ) d 口 ( 3 2 ) s 可能是无穷区问也可能是有限区间。对于f ,可取无符号函数: f = i b ( 口) 一e a o ) l ( 3 3 ) 也可取有符号函数: f = b ( 口) 一名( 口) ( 3 4 ) 其中的,( 口) ,可取单参数、双参数和三参数模型中的任何种但必须注意应用 三参数模型时,如果两子群体的c 参数不等,则a c 值是无限大的。 所有面积测度指标的应用都有一个共同的困难,那就是到现在为止面积测度抽样 标准误均未知,这给评价任何所发现的差异的显著性带来了困难。有人( r 匈i l ,1 9 9 0 ) 为 无界l o g i s t i c 模型下的面积测度给出一个近似的抽样标准误差,这个抽样标准误差在 j i :态假设下町f j 于生成z 检验他还发现,这一近似检验的结果与m h 统计量有相当 好的一致性。但至今还未有人导i i i 有界面积指标的抽样标准误差 ( 2 ) w a l d 统计量 洛德于1 9 8 0 年给出了用同一项t :1 在不同子群体上估出的参数进行d i f 检测的方 法。 若采用兰参数模型洛德提出应认为不同子群体所估c 参数是相等的,需要检验 的是a 参数和b 参数。检验假设为: h o :n f 。n ab p 。五r 1 6 巳堡焦型查整盟些墼墨基垄壹耋茎堕蔓堂坌堑塑塑生查旦一 构造一实际估计值差数向量t v = ( 靠一,6 ,一) ( 3 5 ) 记极大似然估计过程中,参数估计的2 2 协方羞矩阵分别为s f 和s r 它们分别是子 群体f 和子群体r 上信息矩阵的逆矩阵,记t s = 品+ 岛 ( 3 6 ) 则在所作参数相等的假设之下可求得; z 2 = v 。s 一1 v ( 3 7 ) 在大样本条件下。此z 2 服从自由度为= 2 的矿分布。 三参数模型参数差异检验可平行推演到双参数和单参数模型。在单参数模型中 z 2 计算式简化为: z 2 :姿二姜 ( 3 8 ) ” s 备+ s ; 其中s ;与群2 分别为最和露的估计方差。此时,z 2 服从自由度为1 的z 2 分布。 也有人导出了对c 参数不作相等假设的丽对三参数同时检验的公式,其差异在v 与s 的不同;v = ( 靠一以,6 ,一,岛一靠) t 而s 是两个3 x 3 协方差矩阵之和,这 两个3 3 协方差矩阵分别是在两子群体上作参数估计时的信息矩阵的逆矩阵。 对于洛德给出的检测项目d i f 的z 2 检验方法,许多后续研究都证实,z 2 检验的 结论与无符号的面积测度指标的值非常地接近。但也有研究者提醒说,偶而也会出现 面积测度很小而矿检验拒绝零假设的现象发生。 4 、多缎置d i f 检测的参数方法 该方法主要是基于i r t 模型的一些方法。目前,能适用于多级题d i f 检测的模型 可以归为两类:差异模型( d i f f e r e n c e m o d e l ) 和总分模型( d i v i d e b y - t o t a l ) ( t h i s s e n & s t e i n b e r g 。1 9 8 6 ) 。等级反应模型是差异模型的一个例子( s a m e j i m a ,1 9 6 9 ) 。分部评分模 型( p a r t i a lc r e d i tm o d e l ,简记为p c m ,m a s t e r s , 1 9 8 2 ) 、称名反应模型( n o r m i n a lr e f f p o n s o m o d e l ,b o o k , 1 9 7 2 ) 、评定量表模型( r a t i n g s c a l em o d e l ,a n d r i c 加, 1 9 7 8 ) 和拓广的分部评分 模型( g e n e r a l i z e dp c m ,简记为g p c m ,m u r a l i l ,1 9 9 2 ) 都属于总分模型。 m u r a k i ( 1 9 9 3 ) 建议使用g p c m 来估价多级记分项目的d i f 。这种方法在参照组与 目标组之间设置了一个相等的区分度参数,然后检验项目的步予参数k 的差异。在评 定量表模型中,通过评价目标组与参照组在项目定位参数6 。的差异来达到检测项目 d i f 的目的。而p c m 是g p c m 的一个特例,因此,g p c m 的方法同样也适用于p c m 。 d i f 检测的方法众多,以上只是对部分常用的方法进行分类介绍。由于多级记分 项目d i f 检测方法的资料较少,因此介绍较为简单,仍需要进一步地探索。 四、d i f 检测方法的评价与选择 在众多的d i f 检测方法中,如何选择一个或几个恰当的方法。这是一个应该慎重 对待的问题。m a r i 8 和n e i l ( 1 9 9 5 ) 提出,对d i f 检测方法的评价要注意两类标准,即统 计学标准( 如测验理论基础、估计的无偏性、估计标准误、有无假设检验等) 和实践 的标准( 如花费、能否分析项目柬等) 。p o t e a z a 和d o t a m ( 1 9 9 5 ) 认为选择方法时要 1 7 d i f 检测方法的比较及其在高考英语试卷分折中的胡步应用 考虑三个方珀f 的因素;所受检测的项扫的类型,足两级记分的项目,还是多级记分 的项目;方法是否能同时检测出两种类型的d i f ,即是否能同时检测出一致性b i f 和非一致性d 1 f ;方法的经济性和宵效性。 项目反应理论的方法因其参数不变性的特点,而且i r t 的模型众多。可发展成为 适应许多条件背景下的方法,因此,从统计学的标准出发,i r t 的方法具

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论