




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、做事测试评卷中的质量控制 摘 要: 本文讨论了做事测试中人们普遍关心的一个核心问题评卷质量。评卷人在评卷过程中常受自己的喜好、习惯、期望等等因素的影响,这些偏见往往会导致评卷误差,从而影响评卷质量。评卷是种复杂、易于犯错的认知活动,评卷误差主要来自于三个方面:评卷人、评卷过程、评分标准。本研究以写作测试为例,论述了如何通过多层面Rasch模型监控评卷质量,主要观察评卷人的严厉度是否前后一致、评卷人评卷是否有偏见、评卷人能否一致地、有效地使用评分标准、评卷人是否能很好区分考生的不同能力。 关键词: 评卷质量;多层面Rasch模型;做事测试;信度 中图
2、分类号:H319.3文献标识码:A文章编号:1001-5795(2010)01-0026-0007 做事测试(performance test)兴起于20世纪90年代,在随后的十几年中越来越受欢迎,因为它在选择填空试题无法测试到的能力上表现出很光明的前景,与教学紧密相连,也与真实生活中的能力联系在一起(Brown et al. 1996)。做事测试对心理测量学家、试卷设计者、研究者提出了挑战,要求他们设计出一些情景,从中可以得到一些证据,使我们能够以此推断出学生的语言能力。在测试学生的语言能力时,传统的固定答案测试直接通过试题就得出学生的能力,而做事测试为产出型能力测试,涉及多个层面,包括试题
3、(任务)、其他考生的表现、考生的能力和个人特点、评分量表、测试的能力、评卷人等等。这些层面的关系可以用图1所示的模型来表示(McNamara 1996)。做事测试最大特点之一是需要人工评卷,评卷质量是人们普遍关心的问题。在考试,尤其是大规模考试中,如何控制评卷质量变得尤为重要。本文拟以写作测试为例,说明如何利用多层面Rasch模型来监控评卷人的评卷质量。 1 理论背景 测试信度指测试结果是否稳定可靠,是否能够真实反映了受试者的实际语言水平。一套信度好的试题在对同一测试对象进行的多次测试中,受试者的分数应较为稳定。人们常考察两种评卷信度:评卷人间信度(inter-rater reliabilit
4、y)和评卷人内信度(intra-rater reliability)。前者指不同评卷人对相同受试者的评分的一致性,后者则指同一评卷人对相同受试者评分的一致性。如果多个评卷人给考生的分数顺序排列是相近的,那么这样的评分结果就具有较高的评卷人间信度。如果同一评卷人在对相同试卷的重复评卷中给出的分数是相近的,则此评分结果具有较好的评卷人内部信度。在做事测试中,评卷人需公正地评估受试者的表现,评估的结果应既准确又客观,但事实上,要很好地做到这点并非易事(Bonk & Ockey 2003; Elder et al. 2005),评卷人在评卷过程中常受自己的喜好、习惯、期望等等因素的影响(Kum
5、ar 2005),这些偏见往往会导致评卷误差(rater errors),从而影响评卷的整体质量。评卷误差体现为评卷人在评卷过程中出现较为系统的、与考生的实际表现无关的差异(Scullen et al. 2000)。导致这种差异的原因是多方面的(Eckes 2008),例如,由于长时间的评卷,评卷人会感到疲倦,注意力不集中;评卷人有自己的偏好,对考生的期望度也不尽相同;评卷人会表现出不同的评卷严厉度;对评分标准的理解有时会受自己个人信仰影响;在分数的把握上会有所不同;由于缺乏某方面的知识,评卷人有时会出现误判等。 针对评卷误差的原因,Popham (1990)提出了一个框架,认为评卷误差主要来
6、自于三个方面:评卷人、评卷过程、评分标准。评卷人所进行的评卷是种复杂、易于犯错的认知活动(Cronbach 1990),是对过去和现在的经历进行评价性的总结,评卷人的内部电脑以复杂、不确定的方式处理输入的资料,并做出最后的决定(Thorndike & Hagen 1977)。在评卷过程中,评卷人可能需要考虑很多方面的能力,长时间评卷,甚至采用不同的评卷方式(如在电脑上评卷、评纸质试卷等),这些都会不同程度地导致差错。对于评分标准,评卷人可能不一定非常清楚他们要评什么,评分标准中对能力的界定不清楚,各个分数档次表达不清楚或者使用的档数过多和过少,这些也都会带来评卷误差。Myford和Wo
7、lfe (2003, 2004)指出,评卷误差可以从五个方面来观察:评卷人的总体严厉程度(leniency/severity)、区分性严厉度(differential leniency/severity)、集中趋势(central tendency)、随机效应(randomness effect)、晕轮效应(halo effect)。严厉程度指评卷人给的评分比其他评卷人的总体平均分高还是低,如果高则此评卷人评分较为宽松;相反,如果低则此评卷人评分较为严厉。区分性严厉度则指评卷人对某些考生特别严厉或宽松的情况。集中趋势指评卷人过多地使用中间分数段,如,在7个分数段的评分量表中过度集中使用3、4等
8、中间分数段。随机效应指评卷人在使用某个或某些分数段时出现了异常现象,有明显不一致的情况,显示出较大的随机性。如果出现了集中趋势或随机效应,则此评卷人不能很好的区分考生的实际水平。晕轮效应指评卷人对考生各个方面的能力给相似的分数,也就是说,评卷人无法区分出考生不同方面的能力,因而全部使用某个或几个分数段的分数。 研究者曾使用不同的方法来研究评卷误差,Johnson 和Albert(1999)把这些方法归纳为两类:第一类旨在为评卷人之间的一致性建立一个模型;第二类建立在项目反应理论基础上,强调评卷人的评卷准确性和考生相对排名 (Buu 2003)。采用的统计也不仅相同,有些通过计算平均分和标准差,
9、或通过方差分析来分析严厉度和集中趋势等差异(Bernardin & Pence 1980; Hedge & Kavanagh 1988; Murphy & Anhalt 1992),有些从相关关系着手,利用因子分析方法寻找晕轮效应的证据(Kenny & Kashy 1992; Scullen et al. 2000; Sykes et al. 2008),还有一些依据概化理论(generalizability theory)来观察评卷人误差(Lynch & McNamara 1998)。后来,研究者还发展出一些其它的研究方法,目前是使用较多的是多层面Ra
10、sch模型(Bonk & Ockey 2003; Eckes 2008; Weigle 1998; 张洁 2009),这一模型可以帮助人们在同一个洛基量尺(logit scale)上进行多层面的分析,其中包括评卷人的误差(Linacre 1994)。 2 文献综述 国内外有些研究探讨了评卷误差问题,研究最多的是评卷人的评卷严厉度问题。Engelhard(1994)邀请15个评卷人对264名学生的写作进行评分,通过多层面Rasch分析,发现评卷人表现出明显不一致的评分严厉度,对评分标准各个分数段的使用也存在一些问题。Bachman,Lynch,和Mason(1995)开发了一套测试学生口
11、语能力的试题:学生先阅读一段文章,接着看一段讲课录像,然后对提出的问题做书面和口头回答,最后口头概述讲课的内容。试卷采用双评,评卷人从发音、词汇、连接、组织、和语法等方面对218份试卷进行评分。他们利用Rasch模型分析了评卷人和试题如何影响对考生口语能力的评估,结果显示评卷人的严厉程度有很大的区别。Kondo-Brown (2002)调查了培训过的评卷人在写作评卷中出现的偏颇情况。3位评卷人总共评了234份写作试卷,结果显示评卷人的评卷严厉度不一,评卷人对某些学生表现出过严或过松的现象,而且每位评卷人表现出来的偏颇模式差异很大。Eckes(2005)从评卷人、考生、评分标准、任务等方面研究了
12、写作和口语考试中评卷人误差。总共29名评卷人参与1359位考生的写作评卷,31名评卷人对1348位考生的口试进行评分。评卷采用双评,每位评卷人评卷数量从25份到206份不等。结果表明评卷人的评卷严厉度有很大的差异,总体评分有较好的一致性,但在对评分标准的掌握上(尤其是口语部份)表现出相当的出入。 其次,研究者们还对评卷人、学生能力、考查的能力等方面之间的关系进行了一些研究。Eckes(2008) 调查了写作评卷中评卷人的差异。他提出,有经验的评卷人对于评分标准的各个方面的重要性存在着显著的理解差异。64名评卷人对一次大型考试中的写作题进行评分,评分标准包括九个方面(含流利性、完整性
13、、语法等方面),每方面4分。多层面Rasch分析结果证实了他的假设,评卷人对评分标准各个方面有不同的理解,64名评卷人呈现6种类型,每种类型的评卷人都表现出不同的评分档案,表明评卷人对评分标准的各方面的掌握表现出明显的差异。他还发现,评卷人的背景对评卷人最后的判断也有显著影响,因而建议要对评卷人进行合理的跟踪、监控、和培训。Gyagenda 和Engelhard (1998)利用Rasch模型分析了评卷人、评分标准、和学生写作能力之间的关系。20个评卷人从内容和结构、风格、习惯、语言等方面对366份写作试卷进行评分。他们发现,评卷人之间、评分标准各个方面之间都存在显著差异,而且评卷人和评分标准
14、各个方面有显著的相互影响作用。Sykes(2008)研究阅读测试中的评卷人误差。改卷采取三种方式:单评、双评、和三评(只评试题的三分之一)。通过验证性因子分析,作者发现三种方法之间的相关系数较为理想,但评卷人存在一定的晕轮效应,作者提议使用多评来更好地减少评卷人偏颇现象。 此外,还有一些研究探讨了培训对提高评卷质量的作用。Lumley和McNamara(1995)研究了评卷人在评估学生口语能力时使用分析性评分标准的情况。评卷分三阶段进行,持续了18个月,每个阶段都对评卷人进行了细致的培训。结果表明,评卷人在不同场合表现出不同的评卷严厉度和各种各样的偏颇,即使是经过严格的培训,这种情况也同样存在
15、。Weigle (1998)也发现了类似的结果。Weigle研究了8个有经验和8个没经验的评卷人在培训前后对学生作文评卷的差异。利用Rasch分析,她发现培训前没经验的评卷人比有经验的评卷人评卷更为严厉而且不一致;培训后这些差异稍小,但是显著差异仍在。Weigle总结说,与提高评卷人间信度相比,培训更能帮助评卷人提高评卷人内部信度。 在国内,贺满足(2006)对比了写作测试中整体法和分析法两种评分标准,探讨评卷人的严厉程度,评卷人与受试之间的相互作用以及受试在两次评分中所得到的分数的均值之间的差异。多层面分析显示,整体法评分中,四个评卷人的严厉程度趋于一致,接近平均值,而且每个评卷人与受试之间
16、都没有显著的相互作用;而分析法评分中,评卷人的严厉程度之间存在显著差异。张红霞(2006)使用的概化理论分析了英语口语测试评分中评卷人在考生口语能力各成分上的差异以及差异的大小。结果表明,评卷人受过一定的训练后,完全可以使测试达到较高的信度,评卷人在考生口语能力各因素中的评分差异主要体现在语法、词汇和贴切性三个方面,而在发音、流利性和灵活性上评分差异较小。姜雨(2008)对100名非英语专业大二学生的一次写作测试评分进行了分析。分析表明,一些评卷人在评分过程中出现了集中效应,对评分量表的使用信度较低,同时个别评卷人有评分偏差现象。何莲珍和张洁(2008)用多层面Rasch 模型对一次大学英语四
17、、六级口语考试的信度进行了研究。结果发现,考官的严厉度、任务难度、评分标准和量表等因素都可能产生一定的测量误差,从而导致考生的成绩差异。张洁(2009)探讨了评卷人在四级考试作文评分中产生差异的内在原因。多层面Rasch分析结果揭示了较好和较差两组评卷人在多方面的差异,好评卷人之间的评分信念更为一致,与专家的期望和考试大纲中的构念定义也更为接近。 3 研究设计 3.1 研究问题 本文拟通过一份写作试卷的评卷来揭示如何利用多层面Rasch模型理论监控评卷质量,具体回答以下研究问题: (1) 评卷人的严厉度是否一致?如果不一致,哪些评卷人评卷更严厉或宽松? (2) 评卷人评卷是否有偏见? (3)
18、评卷人能否一致地、有效地使用评分标准? (4) 评卷人是否能很好区分考生的不同能力? 3.2 研究对象 参加本研究的对象是30名某大学英语专业二年级的学生,其中男生12名,女生18名。此外,有6位老师参与了评卷。 3.3 研究材料 参与本研究的学生就Sporting Spirit这一话题写一篇约300字的议论文。 3.4 评分 8位老师接受必要的评分培训和试评,在与评分有关的各方面达成一致意见后,6位老师受邀对学生的作文进行评分。评分的主要依据包括四个方面:内容、语言、连贯、结构。每个方面最高分为5分,最低分为0分。每个方面以0.5分为一个档次进行评分。每个档次的评分标准都有非常详细的说明。每
19、个学生的总分是四个方面得分的总和,所以总分最高分为20分。 3.5 多层面Rasch模型 本研究使用FACETS 3.58 (Linacre 2005)进行多层面Rasch模型分析。这些层面包括考生、试题、评卷人、评分依据的四个方面、评分量表等,它们之间的关系可用以下数学模型来表示: log Pnjmk/Pnjmk-1 = BnRjDmFK 其中,Pnjmk表示评卷人j在评分方面m上给考生n打k分数段分的概率;Pnjmk-1表示评卷人j在评分方面m上给考生n打k-1分数段分的概率;Bn为考生n的写作能力;Rj为评卷人j评分的严厉程度;Dm为评分方面m的难度;而Fk则为k分数段相对于k-1分数段
20、的难度 (Engelhard 1992)。 4 结果与讨论 图2是Rasch模型分析结果的层面图。第一列为洛基量尺,各层面之间和层面内部的比较就是基于这个量尺进行的。第二列为根据参试者的原始分计算出来的考生能力测量,按照考生能力的高低自上而下排列,位于图上方的考生比位于下方的考生有更高的能力。第三列是评分标准四个方面的难度,语言部分得分最低,内容部分得分最高。第四列为评卷人的评卷严厉度,按照严厉程度自上而下排列,位于上方的较为严厉,而位于下方的较为宽容,从中可以看出,第2号评卷人评分最为严厉,第5号最为宽松。以下是评卷质量的具体分析。 4.1 评卷严厉度 严厉程度指评卷人给的评分比其他评卷人的
21、总体平均分高还是低,如果高则此评卷人评分较为宽松;相反,如果低则此评卷人评分较为严厉。总体上,分隔信度(.96)和卡方分析(2=144.9,p<.01)都表明评卷人的评卷严厉程度有显著差异。评卷人分隔比率(4.92)说明评卷人的严厉度的差异比测量误差大近5倍,据此计算出来的评卷人分隔指数(注:分隔指数的计算公式为(4G+1)/3,其中G为分隔比率(Myford & Wolfe 2004)。)(6.89)显示评卷人的严厉度可以分为约7个不同的层次,这些都说明6位评卷人虽然都具有较好的内部一致性,在评卷过程中表现出明显不同的严厉度,这与已有的大部分研究的结果(Bachman et a
22、l. 1995; Eckes 2005; Kondo-Brown 2002; 贺满足 2006)相似,尽管评卷时对评卷人进行了较为系统、全面的培训,但严厉度差异仍然存在。这意味着对评卷人的培训对提高评卷的内部一致性很有帮助,但不一定能很好地缩小评卷人之间的差异(Barrett 2001; Lumley & McNamara 1995; Weigle 1998)。6位评卷人中5号评卷最为宽松(-1.87 logits),6号最为严厉(-.09 logits)。6位评卷人的严厉程度相差1.78 logits,平均严厉程度为-0.87 logits,标准差为.62, 6位评卷人的严厉度全部小
23、于.00 logits,评卷总体偏松。 4.2 评卷人偏见 评卷人偏见,即区分性严厉度,可以通过Rasch模型中的偏性交互作用分析(bias interaction analysis)来观察。通过分析评卷人和考生或各种能力之间的偏性交互作用,我们可以发现哪位评卷人对哪些考生或方面特别严厉或宽松,也就是说,评卷人给某些考生或某些方面的分数平均比测量模型预测的分数要高或低,对某些人或方面存有偏见。表2是此研究中偏性交互作用的分析结果,这里只显示了有显著意义的偏性交互作用,交互作用z值大于2的表示此评卷人对此考生或方面比对其他考生或方面更为宽松,z值小于-2的表示此评卷人则对此考生或方面比对其他考生
24、或方面更为严厉。4个有显著意义的偏性交互作用中有3个出现在Rater 2上,而且体现在连贯、结构、内容等三个方面,Rater 4在内容方面表现出显著的偏性交互作用,过于严厉。Rater 2在连贯方面打分较为严厉,而在结构、内容等方面却比较宽松,所以Rater 2需要重点关注,可能要重新进行培训。 4.3 评分标准的使用 评卷人如果在使用评分标准时有明显差错就会出现随机效应和集中趋势等评卷误差。首先,如果评卷人在使用某个或某些分数段时出现了异常现象,使用评分标准前后明显不一致,则评卷就会出现随机效应,不能很好的区分考生的实际水平,给学生的分数次序与其他评卷人显著不同。如果存在随机效应,则考生的能
25、力难以很好区分开来。较低的分隔比率或分隔信度暗示着可能的随机效应。表3是部分考生能力统计结果。考生分隔比率(2.49)显示考生能力的差异比测量误差大近3倍,分隔指数(3.65)表明考生的能力可以分成大约4个层次,考生的分隔指数信度为.86,卡方检验(F(29)=231.2,p<.01)拒绝了零假设,这些都说明考生的能力得到显著地区分,总体上,6位评卷人不存在明显的随机效应。 其次,如果评卷人过多地使用中间分数段,如,在5个分数段的评分量表中过度集中使用3分这个中间分数段,则会出现集中趋势。集中趋势是写作考试评分中常出现的一个问题,反映出评卷人不能很好地区分出考生的水平。有些评卷人可以准确
26、地评估出成绩很好和成绩很差的考生,但对于大部分处于中间段的考生却不能很好地做出判断。评卷人有时采取安全策略,过度使用中间段分数,造成过多考生获得中间段分数(Myford & Mislevy 1995)。检验评卷人是否存在集中趋势可以通过分析评分量表的拟合度来进行。表4是评卷人使用评分量表的统计结果,第2、3列为各个分数段使用的次数和比例,从中可以看出,分数段4使用的次数最多(45%),其次是3分数段(25%),分数段1使用最少(3%),从中可以更清楚看出为何6位评卷人的评卷总体偏松,虽然总体偏松,但评卷人没有表现出明显的集中趋势。 如果评卷存在集中趋势,各个分数段的起始值就会分得很开,
27、有时还会出现分数段的起始值不呈从低阶向高阶呈单向递增趋势的情况(Linacre 1994)。此研究各分数段的间隔未超过极限值(4),而且呈单向递增的趋势,说明评卷人的评卷总体没有出现集中趋势。同时,评分量表分数段的概率曲线图也能显示评分是否有集中趋势。如果曲线图的每个分数段线分得很开而且有独立的尖峰,就有可能存在集中趋势(Myford & Wolfe 2004)。从图3可以看出,虽然两者都有独立的尖峰(注:独立的尖峰是衡量一个评分量表质量的重要指标之一。如果一条概率曲线没有自己独立的尖峰,则此评分量表不能有效地评估出考生的能力。),但各分数段线的间隔不是很大,因而再次显示评卷人的评分总
28、体上无明显集中趋势。 4.4 不同能力的区别 通过对评分标准的各个方面(domains)的分析,可以发现评卷人是否能区分出考生不同方面的能力。如果评卷人不能有效区分,则就会对于不同方面的能力都使用相同的某个或几个分数段的分数。在Rasch分析中,较低的分隔比率或分隔信度暗示着评卷人可能无法区分出考生不同方面的能力。表5是评分标准的四个方面统计结果,从中可以看出,评分标准各个方面的分隔比率为4.58,显示各方面能力的难度比测量误差大约5倍,分隔指数(6.44)表明各方面能力的难度可以分成约7个层次,能力的分隔指数信度为.95,卡方检验(F(3)=76.9,p<.01),说明四方面的能力至少
29、有两方面的难度有显著差异,这些都暗示6位评卷人整体上能够有效地区分考生各方面的能力,不存在明显的晕轮效应。 当各方面能力的难度相差不大时,如果某个评卷人出现晕轮效应,则此评卷人的加权均方拟合度会显著小于1。另一方面,当各方面能力的难度有显著差异时,如果出现晕轮效应,则评卷人给的分数与预测值有明显差异,加权均方拟合度会显著大于1。结果显示此研究中(见表1),各方面能力的难度有明显差异,所以加权均方拟合度会显著大于1的评卷人可能存在晕轮效应。本研究中Rater 1的加权均方拟合度显著大于1,暗示着Rater 1可能在不同能力方面给了类似分数,需要给予关注。 5 结语 如今越来越多的考试
30、包含各种各样的主观评分试题,如何发现和解释评卷人之间的差异成为迄今语言测试研究者遇到的最大挑战之一(Eckes 2008)。本研究结果显示,多层面Rasch分析可以很好地帮助研究者发现和分析主观评卷中可能出现的各种误差,从而使评卷质量得到更好的保证。由于收集的数据的局限性,本研究只讨论了多层面Rasch模型在评卷质量监控中的部分作用,其实它还可以为我们提供很多其它有关评卷质量的信息。这对于我们平常的一些做事测试,特别是大规模的考试,有一定的借鉴意义。在具体的评卷过程中,评卷组组长可以通过Rasch分析,掌握评卷人的各种评卷情况,监控评卷质量,对于出现严重评卷误差的评卷人,及时进行提醒、培训、甚
31、至更换,从而更好地提高评卷的质量。 本研究还证实,虽然对评卷人的培训不能有效消除评卷人之间的差异(Bonk & Ockey 2003; Elder et al. 2005),但可以有效提高评卷人自己评分的内部一致性,减少评卷误差(LeBel et al. Forthcoming; Saito 2008),目前还没有其他更好的方法可以替代评卷人培训(Kumar 2005),有时即使简单的培训也可能大大提高评卷人评卷的准确度(LeBel et al. Forthcoming)。培训应尽量涵盖所有评卷人(包括被认为是专家的评卷人)和能引起评卷人差异的各方面(Barrett 2001),评卷人
32、对评分标准的理解,尤其是使用各分数段的标准等等(Eckes 2008)。同时,设计和使用一套行之有效、有针对性的评估标准体系对评卷质量也至关重要。有些考试组织者认为一个常用的评分标准可以用于任何考试,其实每个考试都有其独特性,适合某种考试的评分标准不一定适用另一种考试(LeBel et al. Forthcoming),因而相对应的评分标准也要针对考试的具体特点做适当的修改。评卷质量的监控还涉及很多其它方面,例如,很多研究探讨了同一时段评卷人的评卷质量,但很少研究涉及不同时段评卷质量的变化(Myford & Wolfe 2004),这些都需要更多的研究,以便评卷质量得到更好的保证。 参
33、考文献 1 Bachman, L. F., B. K. Lynch, & M. Mason. Investigating variability in tasks and rater judgments in a performance test of foreign language speakingJ. ?Language Testing?,1995,12:238-257. 2 Barrett, S. The impact of training on rater variabilityJ. ?International Education Journal?,2001,2:49-5
34、8. 3 Bernardin, H. J. & E. C. Pence. Effects of rater training: Creating new response sets and decreasing accuracyJ. ?Journal of Applied Psychology?,1980,65(60-66). 4 Bonk, W. J. & G. J. Ockey. A many-facet Rasch analysis of the second language group oral discussion taskJ. ?Language Testing?
35、,2003,20(1):89-110. 5 Brown, W. L., K. O'Gorman, & Y. Du. The Reliability and Validity of Mathematics Performance AssessmentP. Paper presented at the Annual Meeting of the American Educational Research Association, Minnesota,1996. 6 Buu, Y.-P. Statistical analysis of rater effects. Unpublish
36、ed PhD thesis, University of Florida, Florida,2003. 7 Cronbach, L. J. ?Essentials of Psychological Testing?M (5th ed.). New York: Haper and Row,1990. 8 Eckes, T. Examining rater effects in TestDaF writing and speaking performance assessments: A many-facet Rasch analysis J. ?Language Assessment Quart
37、erly?,2005,2(3):197-221. 9 Eckes, T. Rater types in writing performance assessments: A classification approach to rater variabilityJ. ?Language Testing?,2008,25:155-185. 10 Elder, C., U. Knoch, G. Barkhuizen, & J. von Randow. Individual feedback to enhance rater training: Does it workJ. ?Languag
38、e Assessment Quarterly?,2005,2:175-196. ?11 Engelhard, G., Jr. The measurement of writing ability with a many-faceted rasch modelJ. ?Applied Measurement in Education?,1992,5(3):171-191. 12 Engelhard, G., Jr. Examining rater errors in the assessment of written composition with a many-faceted rasch mo
39、del J. ?Journal of Educational Measurement?,1994,31(2):93-112. 13 Gyagenda, I. S. & G. Engelhard, Jr. Applying the Rasch Model To Explore Rater Influences on the Assessed Quality of Students' Writing AbilityP. Paper presented at the Annual Meeting of the American Educational Research Associa
40、tion, San Diego,1998. 14 Hedge, J. W. & M. J. Kavanagh. Improving the accuracy of performance evaluations: Comparison of three methods of performance appraiser trainingJ. ?Journal of Applied Psychology?,1988,73:68-73. 15 Johnson, V. E. & J. H. Albert. ?Ordinal Data Modeling?M. New York: Spri
41、nger-Verlag,1999. 16 Kenny, D. A. & D. A. Kashy. Analysis of the multitrait-multimethod matrix by confirmatory factor analysisJ. ?Psychological Bulletin?,1992,112:165-172. ?17 Kondo-Brown, K. A FACETS analysis of rater bias in measuring Japanese second language writing performanceJ. ?Language Te
42、sting?,2002,19(1):3-31. 18 Kumar, D. D. Performance appraisal: The importance of rater trainingJ. ?Journal of the Kuala Lumpur Royal Malaysia Police College?,2005,4:1-17.19 LeBel, T. J., S. P. Kilgus, A. M. Briesch, & S. Chafouleas. The impact of training on the accuracy of teacher-completed dir
43、ect behavior ratingsJ. ?Journal of Positive Behavior Interventions. Forthcoming?. 20 Linacre, J. M. ?Many-facet Rasch Measurement?M. Chicago: MESA Press,1994. 21 Linacre, J. M. ?A User?s Guide to FACETS: Rasch-Model Computer Program?M. Chicago: MESA Press,2005. 22 Lumley, T. & T. F. McNama
44、ra. Rater characteristics and rater bias: implications for trainingJ. ?Language Testing?,1995,12(1):54-71. 23 Lynch, B. K. & T. McNamara. Using G-theory and many-facet Rasch measurement in the development of performance assessments of the ESL speaking skills of immigrantsJ. ?Language Testing?,19
45、98,15(2):158-180. ?24 McNamara, T. ?Measuring Second Language Performance?M. London ; New York: Longman,1996. 25 Murphy, K. R. & R. L. Anhalt. Is halo error a property of the rater, ratees, or the specific behavior observedJ. ?Journal of Applied Psychology?,1992,77:494-500. 26 Myford, C. M. &
46、; R. J. Mislevy. Monitoring and improving a portfolio assessment system(MS 94-05). Princeton, NJ: Educational Testing Service,1995. 27 Myford, C. M. & E. W. Wolfe. Detecting and measuring rater effects using Many-facet Rasch measurement: Part IJ. ?Journal of Applied Measurement?,2003,4(4):386-42
47、2. 28 Myford, C. M. & E. W. Wolfe. Understanding Rasch measurement: detecting and measuring rater effects using Many-facet Rasch measurement: Part IIJ. ?Journal of Applied Measurement?,2004,5(2):189-227. 29 Popham, W. J. ?Modern Educational Measurement: A Practitioner's Perspective?M. Englew
48、ood Cliffs, NJ: Prentice Hall,1990. 30 Saito, H. EFL classroom peer assessment: Training effects on rating and commentingJ. ?Language Testing?,2008,25(4):553-581. 31 Scullen, S. E., M. K. Mount, & M. Goff. Understanding the latent structure of job performance ratingsJ. ?Journal of Applied Psychology?,2000,85:956-970. 32 Sykes, R. C.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 信息系统监理师学习规划试题及答案
- 道路货物运输与新能源车辆推广考核试卷
- 计算机四级考试独特试题及答案汇集
- 网络技术在各行业中的应用现状试题及答案
- 装饰石材的表面装饰技术与效果考核试卷
- 软件测试工程师复习经验交流试题及答案
- 传输层协议的关键特征试题及答案
- 奥尔夫实训室管理制度
- 公司客房维修管理制度
- 行政组织理论考试新趋势试题及答案
- QC提高老年患者静脉留置针一次穿刺成功率
- 成语故事半途而废
- GB/T 7233.1-2009铸钢件超声检测第1部分:一般用途铸钢件
- GB/T 545-1996海军锚
- GB/T 3683-2011橡胶软管及软管组合件油基或水基流体适用的钢丝编织增强液压型规范
- GB/T 17766-1999固体矿产资源/储量分类
- GB/T 1094.1-2013电力变压器第1部分:总则
- 汤谷良全面预算整合企业管理
- 颊癌病人的护理查房
- 社会稳定风险分析调查问卷(企业或社会团体)
- 2021译林版英语四年级下册期末知识点复习课件
评论
0/150
提交评论