(基础心理学专业论文)湖南省高考理科数学的等值研究.pdf_第1页
(基础心理学专业论文)湖南省高考理科数学的等值研究.pdf_第2页
(基础心理学专业论文)湖南省高考理科数学的等值研究.pdf_第3页
(基础心理学专业论文)湖南省高考理科数学的等值研究.pdf_第4页
(基础心理学专业论文)湖南省高考理科数学的等值研究.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(基础心理学专业论文)湖南省高考理科数学的等值研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 目的:应用经典测量理论( c t t ) 和项目反应理论( i r t ) 对湖南 0 9 年高考理科数学与模拟考试进行等值分析,尝试使用新的等值模 型研究模拟考试和高考等值,为避免高考“一考定终身”提供理论与 实践的参考。 方法:采用锚测验等值设计。基于经典理论的等值方法选用 t u c k e r 等值方法、l e v i n e 观察分数等值方法、l e v i n e 真分数等值方 法和等百分位等值方法。基于项目反应理论理论的等值分析采用的是 “混合模型 ,选择题选用三参数模型,解答题选用s a m e ji m a 等级反 应模型。 结果:所选锚题与两次考试的相关系数分别为0 7 7 8 和0 7 2 5 ,锚 测验与需等值的两次考试显著相关。线性等值方法中,总体权重等于 0 4 8 1l 时,t u c k e r 方法,截距为2 7 1 3 6 ,斜率为0 9 3 3 6 ;l e v i n e 观察 分数方法,截距为5 0 5 6 1 ,斜率为0 9 4 8 7 。用s t 和p o l y s t _ w c v l o 程 序计算出等值转换常数q 和b ,选用s t o c k i n g - l o r d 方法得出的等值常 数,选择题的等值常数q = 1 0 2 1 6 ,1 3 = o 1 0 0 8 ,解答题的等值常数a = o 6 9 4 3 ,b = - 0 3 1 5 1 。线性等值方法中用t u c k e r 方法等值标准误最 小为1 6 4 2 5 ,等百分位方法等值标准误最大为5 2 6 3 9 。i r t 观察分数方 法等值标准误选择题为1 1 5 0 8 ,解答题为4 1 4 0 8 ,i r t 真分数方法等值 标准误选择题为1 1 9 2 4 ,解答题为3 3 5 9 2 。 结论:针对本研究所取等值数据与样本,线性等值方法优于等百 分位等值方法,其中t u c k e r 方法比l e v i n e 观察分数方法更好一些,频数 估计中等百分位方法等值误差较大,不足取。在高考数学成绩等值工 作中,线性等值方法选择不同总体权重对等值结果影响很小。用项目 反应理论等值方法对高考数学的考试数据采用“混合模型 对其进行 分析是可行的。 关键词:测验等值,高考数学,经典测量理论,项目反应理论 i i a b s t r a c t o b j e c t i v e s :u s i n gc t ta n di r tt oe q u a t et h ec o l l e g ee n t r a n c e e x a m i n a t i o ni ns c i e n c em a t h e m a t i c si nh u n a np r o v i n c ea n dt h e s i m u l a t e de x a m i n a t i o n ;t 拶i n gt ou s ean e we q u a t i n gm o d e lt or e s e a r c h e q u a t i n gi ns i m u l a t e de x a m i n a t i o na n dc o l l e g ee n t r a n c ee x a m i n a t i o n ; p r o v i d i n gt h e o r e t i ca n dp r a c t i c a lr e f e r e n c et oa v o i d t h et e s td e c i d e st h e d e s t i n y ”i nc o l l e g ee n t r a n c ee x a m i n a t i o n m e t h o d s :u s i n gc o m m o n i t e mn o n - e q u i v a l e n tg r o u pd e s i g n b a s e d o nc t t , w ec h o o s et h et u c k e rl i n e a rm e t h o d ,l e v i n eo b s e r v e ds c o r e e q u a t i n gm e t h o d ,l e v i n et r u es c o r ee q u a t i n gm e t h o da n de q u i p e r c e n t i l e e q u a t i n g m e t h o d b a s e do n i r t , w ec h o o s em i x e d m o d e l - t h r e e p a r a m e t e rm o d e l i nc h o i c eq u e s t i o n sa n ds a m e ji m ag r a d e d r e s p o n s e sm o d e li ne s s a yq u e s t i o n s r e s u l t s :t h ec o r r e l a t i o nc o e f f i c i e n tb e t w e e nt h ea n c h o ri t e m sa n d t w oe x a m i n a t i o n sa r eo 7 7 8a n do 7 2 5 ,t h e r ei sas i g n i f i c a n tc o r r e l a t i o n b e t w e e na n c h o rt e s ta n dt w oe x a m i n a t i o n s i nl i n e a re q u a t i n gm e t h o d , w h e n = o 4 8 11 ,i n t e r c e p ti s 一2 7 1 3 6a n ds l o p ei s0 9 3 3 6u s i n gt h et u c k e r l i n e a rm e t h o d ;i n t e r c e p ti s 一5 0 5 61a n ds l o p ei s0 9 4 8 7u s i n gl e v i n e o b s e r v e ds c o r ee q u a t i n gm e t h o d u s i n gs ta n dp o l y s t _ w c v1 0t o e s t i m a t ec t - a n db c o n s t a n t sf o rt r a n s f o r m i n g c h o o s i n gs t o c k i n g - l o r d m e t h o dt oe s t i m a t ec o n s t a n t s :q = 1 0 216 ,b = o 10 0 8i nc h o i c eq u e s t i o n s i i i a n dq = o 6 9 4 3 ,1 3 = 一0 3151i ne s s a yq u e s t i o n s i nl i n e a re q u m i n gm e t h o d s , t h ee q u a t i n gs t a n d a r de r r o ri sm i n i m a l ( 1 6 4 2 5 ) u s i n gt u c k e rl i n e a rm e t h o d ; t h e e q u a t i n g s t a n d a r de r r o ri s m a x i m a l ( 5 2 6 39 ) u s i n ge q u i p e r c e n t i l e e q u a t i n gm e t h o d i ni r t , t h ee q u a t i n gs t a n d a r de r r o ri s 1 150 8i nc h o i c e q u e s t i o n sa n d4 14 0 8i ne s s a yq u e s t i o n su s i n go b s e r v e ds c o r ee q u m i n g m e t h o d ;t h ee q u m i n gs t a n d a r de r r o ri s 1 19 2 4i nc h o i c eq u e s t i o n sa n d 3 3 5 9 2i ne s s a yq u e s t i o n su s i n gt r u es c o r ee q u m i n gm e t h o d c o n c l u s i o n s :i nt e r m so ft h e e q u a t i n gd a t aa n ds a m p l ei nt h i s r e s e a r c h ,l i n e a re q u m i n gm e t h o di ss u p e r i o rt oe q u i p e r c e n t i l ee q u m i n g m e t h o d ,a n dt h et u c k e rl i n e a rm e t h o di ss u p e r i o rt ol e v i n eo b s e r v e d s c o r ee q u a t i n gm e t h o d e q u i p e r c e n t i l ee q u a t i n gm e t h o di su n d e s i r a b l e b e c a u s eo ft h e g r e a t e re q u a t i n g s t a n d a r de r r o r i n c o l l e g ee n t r a n c e e x a m i n a t i o ni ns c i e n c em a t h e m a t i c s ,d i f f e r e n tw e i g h t sh a v el i t t l e i n f l u e n c eo ne q u a t i n gi nl i n e a rm e t h o d s i ni r t , u s i n g “m i x e dm o d e l t o a n a l y s i s s c i e n c em a t h e m a t i c si nc o l l e g ee n h a n c ee x a m i n a t i o ni s f e a s i b l e k e y w o r d s :t e s t e q u a t i n g ;c o l l e g e e n t r a n c ee x a m i n a t i o ni n m a t h e m a t i c s ;c l a s s i ct e s tt h e o r y ;i t e mr e s p o n s e t h e o r y i v 湖南师范大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论 文不含任何其他个人或集体已经发表或撰写过的作品成果。对本文的 研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人 完全意识到本声明的法律结果由本人承担。 学位论文作者签名:彦剐凰 扔。年月2 日 湖南师范大学学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 研究生在校攻读学位期间论文工作的知识产权单位属湖南师范大学。 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权湖南师范大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。 本学位论文属于 1 、保密口,在年解密后适用本授权书。 2 、不保密哑 ( 请在以上相应方框内打“ ) 作者签名:麂齐i 闻日期:勿多年月z 日 导师签名:慈钡嘶 日期:纠埠月沙日 湖南省高考理科数学的等值研究 1 引言 1 1 问题的提出 目前正在紧张起草中的中长期国家教育改革和发展规划纲要 中,对于高考改革初步提出了3 个方案,主要是要解决考核学生的综 合素质和一次考试定终身的问题。高校招生考试制度改革也提出要进 一步扩大高校招生自主权,有利于中学实施素质教育。高中新课程在 基本的理念当中明确指出评价的主要目的是为了全面了解学生的学 习历程,激励学生的学习和改进教师的教学。但是我们现在的评价模 式一直沿用1 9 7 8 年恢复高考以来所实行的模式,虽然我国在改革与 完善高考方面所做的探索一直未停止过,每一次改革都在社会上引起 巨大争议。不可否认,在当时的社会发展中,高考起到了不可磨灭的 贡献,但是随着社会的发展,这种模式暴露出的问题越来越突出。高 中新课程启动后,应试教育正向素质教育转变,这为真正意义上的高 考改革提供了一条更为合理、可行的变革渠道,高考一考定终生的形 式将一去不复返。如要实行一考多用和多次考试一次录取,就需要考 虑不同次考试的等值。测验等值理论为实行多次考试提供了可靠的理 论依据,测验等值方法则为多次不同时间的考试分数提供了转换和比 较的方法。 对于教育评价计量单位的“分”来说,只有分数等值,测验同一 心理特质的不同版本的测验分数之间才具有可比性和可加性从而保 硕士学位论文 证测验的公平性。考生能力的高低、学习成绩的优劣,一般以原始分 数为衡量指标。但原始分数往往不能直接反映考生之间的差异状况, 不能刻画出考生相互比较后的所处地位,也不能说明考生在其他等值 测试上应获什么样的分值。要使这些分数可以直接比较就必须进行测 验等值,测验等值已成为教育测量研究和应用的一个重要问题,也成 为教育管理部门重视的问题,很多专家,学者和教育管理者认为测验 等值势在必行。 只有当测验等值的时候,把他们施加于不同的考生并把所得分数 看作基于同一测验的做法才是公平的。我国是一个考试大国,但对测 验等值的实践研究仍显得十分欠缺,许多重要的考试都尚未实现统计 等值。研究具有很大的理论和实践意义。 1 2 研究目的 应用经典测量理论( c t t ) 和项目反应理论( i r t ) 对湖南0 9 年 高考理科数学与模拟考试进行等值,尝试使用新的等值模型研究模拟 考试和高考等值,为避免高考“一考定终身”提供理论与实践的参考。 对高考数学科目的改革与评价提供一些参考与建议。 1 3 研究意义 1 3 1 理论意义 现代考试需要科学的坚实的理论基础,同时考试研究过程也是一 个理论探讨的过程,它能够发展理论,对相关领域的理论研究起推动 作用。本研究在实际的操作过程中也对涉及该领域的理论进行了浅薄 的研究,以把握与本研究有关的一些方法的内涵和实质,理清各种方 湖南省高考理科数学的等值研究 法的区别和联系,如高考数学等值几种模型的比较,各种等值方法使 用条件和范围,等值误差的控制,等值结果检验的标准等。同时,本 研究也希望能够在已有的相关文献和实验的基础上找出一个适合我 国高考数学等值的理论模型,探讨对在不同版本的高考数学考试所获 得的分数进行统计调整的方法,为教育部门提供决策依据,提供理论 上的指导,这有利于考试作用的充分发挥,也真正突出了考试的评价 功能。 1 3 2 实践意义 每年的高考是我国最重要的全国统一的社会考试,它决定几百万 考生的命运,涉及到社会的各个方面,影响到千家万户,因而备受社 会各界关注。因此研究高考的等值化问题就显得非常重要。首先,等 值化可以衡量教、学水平,对几年成绩的纵比是提供根据;其次,避 免命题和试卷编制中的盲目性和偶然性,促进测验考试科学化与现代 化,有利于高考改革进一步深化。再次,为科学地应用测验结果比较, 录取提供科学评价考生和考试的方法。 1 4 文献综述 在众多测量相同能力的不同测验中,不同测验分数的比较性如 何? 例如:两位考生接受两种不同的测验,其测验分数该如何比较? 这个问题当遇到如资格考试、选拔考试、或及格与不及格的决定时, 会显得更加重要,因为这些决定不应该受考生接受不同版本或不同年 份测验的影响,而是各种测验分数间该如何客观、有效地进行比较的 问题。在许多相同的大规模测验中,被试通常会选择参加其中一种, 硕士学位论文 尽管不同的版本在建构过程中尽量保持内容和难度上的一致,但是仍 然不可避免的存在一些误差。怎样使在不同测验上所获得分数具有 可比性而且是公平的呢? 一直是测验编制者、测量专家、以及接受测 验的人,所一致关心和重视的问题。 1 4 1 测验等值的概念 等值是一个统计过程,用来调整不同形式的考试分数使不同形式 的考试分数能互换使用。国内统计学家对等值的定义要具体一些。 测验等值,是指对测量同一心理特质的不同测验分数或试题参数,通 过一定的数学模型,转换成同一单位系统中的量数,以利于相互比较 的方法。 1 4 1 1 测验等值的条件 根据测验等值的定义可知,测验等值是有条件的,不是任何两个 测验都可以拿来等值,基于经典理论的等值,测验分数要能公平的等 值,必须满足:是测量同一种心理特质的;在信度不相等的测验上的 原始分数无法等化;在难度变化大的测验上的原始分数无法等化,因 为在不同的能力水平上的测验不会具有相等的信度。此外,对称性和 不变性等两个条件,亦是进行测验分数之等值所必备的。对称性是指 等化不应该受使用何种测验为参照测验的影响;不变性则指等化的程 序应该是样本独立的( 亦即指不受所选用样本的影响) ,可见基于经 叫p e t e r s e nns , c o o kl l ,s t o c k i n g m l i r t v e r s u sc o n v e n t i o n a le q u a t i n gm e t h o c l s :ac o m p a r a t i v e 。s t u d yo f s c a l es t a b i l i t y j o u m a lo fe d u c a t i o n a ls t a t i s t i c s ,19 8 3 ,8 ( 2 ) :13 7 - 15 6 q k o l e nm j ,b r e n n a nrl t e s te q u a t i n g :m e t h o d sa n dp r a c t i c e s m 】n e wy o r k :s p d n g e r v e r l a g , 2 0 0 4 张敏强,胡晖略论测验等值的理论、方法和应用华南师范大学学报( 社会科学 版) ,1 9 8 8 ( 4 ) :11 3 1 1 8 湖南省高考理科数学的等值研究 典理论等值方法的条件是不容易满足。相比之下,在i r t 框架下实施 等值,不仅理论完善,前提条件较容易满足,而且等值关系式也十分 简洁。 1 4 1 2 测验等值的分类 测量学家们将测验等值分为两大类:一是水平等值,用于等值的 测验在难度上和考生在这些测验上的能力分布大体相等,一旦测验被 成功的等值化后,受试者的得分就不再受使用测验的版本不同而有所 差别,也就是说不同版本的测验可互通,受试者无论用那一种版本的 测验,所得结果应该相同,比如正规考试中正卷和备用卷的分数,这 种等值被称为水平等值( h o r i z o n t a le q u a t i n g ) 。二是垂直等值,即使受 试者接受同性质但不同的测验题,仍能比较彼此潜在特质能力的差 异,也就是用于等值的测验在难度上并不相同,考生在这些测验上的 能力分布是相异的,这种等值被称为垂直等值( v e r t i c a le q u a t i n g ) 。不 同年份间同一学科的试卷间的等值,就属于垂直等值。显然,垂直等 值的问题比水平等值的问题更为复杂。 1 4 2 测验等值的必要性 我们把考生试卷上的直接得分称为原始分数,一般根据这个分数 来对考生进行衡量和选拔,那么对于不同的考生,使用不同的试卷得 出的分数怎么进行比较呢? 这是问题一。问题二就是怎样衡量老师近 几年的教学水平,怎样比较同一考试在不同年份的成绩,怎样体现资 格考试中今年合格的和前几年合格的是不是一样的水平? 用原始分 丁树良,熊建华项目反应理论框架下几个等值问题的探讨中国考试2 0 0 3 ( 1 2 ) :1 4 1 5 5 硕士学位论文 数是不能很好的解决的,因为原始分数存在较大的局限性,第一原始 分数是绝对分数,由于难易程度不同,不同测验分数或同一测验不同 版本的测验分数其“含金量”是不一样的。所以原始分数就不可比和 不可加。拿原始分数直接去比较或简单的相加是不科学的也是不公平 的。解决这个问题一个非常好的方法就是测验等值。测验等值在测验 实施,编制与结果分析,题库的建立,不同单位、地区、时间上的学 科成绩的比较等方面,都是极为必要的。教育管理者也认识到测验 等值是非常重要的,测验等值是教育与心理测量中的一个重要研究领 域,在我国考试实践中,有许多大规模的考试需要但未进行测验等值。 1 4 3 测验等值的历史与研究现状 1 4 3 1 测验等值在美国 上世纪5 0 年代测验等值的问题就引起了学者的注意并做了研 究,l o a d ( 1 9 5 0 ) 描述了5 种线性等值的方法,并且提供了它们的标 准误差公式;a n g o f f ( 1 9 7 1 ) 详细的介绍了这几种线性方法以及这些 方法的等百分位等值模拟。1 9 7 7 年起,e t s 的统计研究组开始了测 验等值的研究,重审e t s 当时的方法并调查新方法的可能性和为这 些工作打下数理统计的基础。直到8 0 年代测验等值才引起比较广泛 的注意并把这一技术实用化,并有关于测验等值的专著出版。1 9 8 2 年,h o l l a n d 和r u b i n 编辑出版了第一本以等值为主题的测验等值 一书,这是一本关于等值问题的论文集。我国的叶佩华,张厚粲等在 漆书青略论测验等值江西教育科研1 9 8 7 ( 4 ) :5 6 6 2 。h o l l a n dp w - ,r u b i n ,d b ( 19 8 2 ) i n t r o d u c t i o n :r e s e a r c ho nt e s te q u a t i n gs p o n s o r e db y e d u c a t i o n a lt e s t i n gs e r v i c e ,1 9 7 8 1 9 8 0 湖南省高考理科数学的等值研究 1 9 9 0 年翻译并出版了测验等值。1 9 9 5 年,k o l e n 和b r e n n a n 共 同出版了测验等值:方法和实践一书。这是第一本关于等值的专 著。2 0 0 4 年,他们出版了此书的第二版,将书名改为测验等值, 量表化和连接:方法和实践( t e s te q u a t i n g ,s c a l i n ga n dl i n k i n g : m e t h o d sa n dp r a c t i c e s ) 。2 0 0 4 年,d a v i e r ,h o l l a n d 和t h a y e r 三人 合作出版了测验等值中的核等值方法( t h ek e r n e lm e t h o do ft e s t e q u a t i n g ) 一书。近年来,每年有大量关于考试分数等值的研究报告 发表。现在s a t , g r e ,t o e f l 等测验都采取了相同的方式实现测验等 值。 1 4 3 2 测验等值在中国的发展 随着对心理测量学各个领域的重视和深入研究,我国在测验等值 理论方面的研究不断增多,研究的范围也广泛起来。国内研究等值的 论文有5 0 多篇,研究的问题包括:等值的方法研究,不同等值设计之 间的比较,等值理论的模型研究,不同等值系数估计方法之间的比较, 造成等值误差因素的分析,关于等值误差的估计方法等等。 在测验等值的应用研究方面,我国也获得了很大的发展,紧跟着 国际的步伐,针对本国某些考试的实际需要探索合适的设计与方法, 例如有h s k 和m h k 的等值研究;高中会考等值方法的比较研究; 大学英语四、六级考试分数等值研究 ;经济专业资格考试的等值研 究。 谢小庆h s k 和m h k 的等值考试研究2 0 0 5 ,1 ( 1 ) :3 3 4 6 张光旭,杨志明高中会考等值方法的比较研究心理学探新,1 9 9 9 ,1 9 ( 4 ) :4 7 5 1 朱正才大学英语四、六级考试分数等值研究心理学报2 0 0 5 ,3 7 ( 2 ) :2 8 0 2 8 4 周骏等级反应模型下项目特征曲线等值法在大型考试中的应用心理学报2 0 0 5 ,3 7 ( 6 ) : 硕士学位论文 1 4 3 3 存在的问题 国内的专家和学者将等值化应用于考试中,推动着考试向科学 化、标准化迈进。但是,其中存在的问题也是值得我们深思的。 首先,相对于美国等国家而言,我国的等值研究的数量还是很少, 国内研究等值的论文只有有5 0 多篇。作为一个世界人口最多的国家, 也是一个创造了考试的国家而言,我国现有的许多考试在等值上都存 在着很多问题。高考是我国最大的考试之一,但是其等值研究也是有 限的。而现在很多省分开命题,这对于高考试题的等值带来的很大的 不便,如题库中的等值,管理考试的人员的专业知识。作为一个刚刚 实施分开命题的考试而言需要更多的工作来使这项考试更为公平,科 学。总的来说,对测验等值的实践研究仍显得十分欠缺,许多重要的 考试都尚未实现统计等值。我国的等值研究只是集中在某几个考试 上,更多的考试其科学性是值得质疑的。 其次,经典理论指导下的等值试验己取得了阶段性成果,但项目 反应理论指导下的等值研究却未成功其关键就在于多级模型等值实 验还未成功。等值误差的研究集中在基于c t t 模型下误差控制,这 主要是因为我国主要的考试是建立在此模型上的,但是作为未来与国 际接轨的研究前沿,应试要更加在i r t 等模型下做大量的研究,对新 出现的模型的误差从理论进行论证,从实践中检验。 再次,相对于根据实际情况进行等值数据收集方法的研究而言, 我国在新的算法开发方面的研究很少。 戴海崎等级反应模型项目特征曲线法等值研究心理学探新,2 0 0 0 ,3 ( 2 0 ) :4 9 5 3 湖南省高考理科数学的等值研究 最后,缺少测验等值计算方面的软件,在信息技术的时代,数据 的处理都依靠于计算机而得以实现,特别是i r t 等值方法没有计算机 程序的使用将使等值的计算非常的大。现在的模型发展也趋于更加的 复杂,求值仅靠人工是不可能的,要发展这些复杂的模型与进行大量 的数据处理,必然要求得到计算机上的实现。开发适用我国考试特色 的计算机软件,而不仅仅从国外引进购买,这成为一个很迫切的需要。 等值研究的道路任重道远,我认为需要从以下几个方面努力,推 动我国测验等值的发展。 第一,加强对新模型中的等值方法的开发研究。不仅对已经相对 完善的c t t 中的方法进行修正与考查,研究者要紧跟国外的新研究 进展,潜心钻研,引进新方法,新理论,更重要的是对新出现的模型 做等值算法的论证与开发研究。 第二,开发新的功能强的软件,现在新的测量等值的方法只有借 助计算机的计算才可行,没有易于操作的计算机程序就很难实现新方 法的应用与推广。 第三,不能只重对理论的研究而轻实践研究。 1 4 4 测验等值设计的方法 欲将两份测验的反应数据转换同一量尺上时,我们必须藉助相同 试题或重复考生。等值的任务就是要通过等值设计,收集到相应数据, 根据某个等值准则式,求出等值系数q ,1 3 。观测分数的等值有两个 丁树良,熊建华,毛萌萌项目反应理论框架下的新等值方法一一对数对比等值法心理学 报,2 0 0 3 ,3 5 ( 6 ) :8 3 5 8 4 1 。戴海崎等级反应模型项目特征曲线法等值研究心理学探新,2 0 0 0 ,3 ( 2 0 ) :4 9 5 3 硕士学位论文 基本的组成,一是等值数据收集的设计;另一个是等值方法的使用。 要使两个或多个测验等值,就要把这些测验向考生组施测,然后 根据试测资料再求出转换方程。等值设计指等值数据的采集方法设计, 可以使试题参数( 或其估计值) 得以转换到共同的量尺上,是实现测 验等值的第一项重要工作。施测的设计有多种,最基本的有以下几种。 1 4 4 1 单组设计 一组考生先后参加两个需要连接的考试,这种设计得到等值数据 最直接,最简单,误差因素最少。其改进型平衡组设计或等级交叉设 计,为了消除施测先后的顺序影响,将一组考生分为两半,一半考生 先测x 测验,后测y 测验,另一半考生先测y 测验,后测x 测验。 表卜1 单细设计 总体样本x 测验y 测验 p1 44 表1 - 2 平衡组设计 总体 p p 样本 1 2 x 测验y 测验x 测验 0 y 测验 _ 1 4 4 2 等组设计 在许多关于等值的文献中,等组设计也被称为随机组设计,在这 种设计中,具有相似的能力水平的两个随机样本组考生各参加一项考 试,每组考生仅仅参加一项考试。两组考生应是同一总体的两个随机 样本,应具有相似的能力水平。显然,这种设计的假设是很强的,在 考试实践中通常很难满足这样强的假设。如果真的满足了这种假设, 等值就失去了意义。在一般情况下,这种方法不应作为单独的等值设 。a l i n aa y o nd a v i e r , p a u lw h o l l a n d ,d o r o t h yt t h a y e r t h ek e r n e lm e t h o do ft e s te q u a t i n g 【m 】n e wy o r k :s p r i n g e r - v e r l a g ,2 0 0 3 1 0 湖南省高考理科数学的等值研究 计,但可以作为其他等值设计( 如共同组设计、共同题设计) 的一种 补充,可以对其他等值设计得到的等值结果进行验证。 表1 - 3 等组设计 总体样本x 测验y 测验 p1 p2_ 1 4 4 3“锚测验设计 “锚”测验设计也称为“共同题设计”,即在x ,y 两个测验中, 有一部分题目是共同的,这一部分题目就称为“锚 测验或共同参照 测验。如果测验一与测验二中有部分共同的项目( 锚题) 或测验一与测 验二中有部分相同的被试( 锚人) ,则这种坐标系之间的转换就可以进 行。两组考生先后参加两个需要连接的考试,两个考试中包含一部分 相同的题目。这时,不假设两组考生来自相同的总体,不假设两组考 生具有相同的能力水平。“锚”测验设计使现在最常用的等值设计, 并且,如果定锚试题选得好的话,此法可以避免单一组或相等组设计 所遭遇到的问题。共同题等值的基本逻辑是:当不同的测验版本被施 测于不同的考生样本时,平均分会存在差异。这时,我们不知道造成 差异的原因是试卷难度方面的差别,还是考生水平方面的差别。如果 两个版本之间存在共同题,我们就可以通过考生在共同题上的表现来 估计两组考生的水平,排除了考生水平上的差距,平均分之间的差距 就是试卷难度之间的差距。当锚题是两个测验的组成部分的时候,我 们称为“内锚设计”;当锚题是两个测验之外的独立部分的时候,我 们称为“外锚设计,此法最为常用。 。( 美) 霍- - v - ( h o l l a n d ,p w :) ,( 美) 鲁宾( r u b i n ,d b ) ,叶佩华等( 译) 测验等值广州:广东高等 教育出版社1 9 9 0 硕士学位论文 表1 - 4 非等组“锚”测验设计 总体样本x 测验 y 测验a 锚测验 p1 q 2 0 当p = q ,而且a 只有一个单独的评分值时,等组设计可以被认 为是包含在此设计中的一个特例。类似的,平衡组设计包含等组设计 和单组设计其中。 1 4 4 4 共用被试设计 把考生随机分为三个组分别记为组1 、组2 和组3 ,组1 和组3 的考生接受测验x ,组2 和组3 的考生接受测验y ,其中组3 的考生 同时接受了测验x 和测验y ,利用这部分被试作为桥梁建立测验x 和y 的等值方程。 1 4 5 测验等值的数据处理方法 等值数据采集之后,测验等值的重要工作就是等值关系的估计。 等值数据的处理的方法有很多中,按照其使用的测量模型,可以分为 基于c t t 的等值方法和基于i r t 的等值方法。在等值实践中,很少 仅仅采用一种等值数据处理方法,而是同时采用多种方法处理数据, 互相参考。 古典测验理论所使用的等值方法,大致可以归成两类:相等百分 比等值 法( e q u i p e r c e n t i l ee q u a t i n g ) 矛茸l 线性等值 法( 1 i n e a re q u a t i n g ) 。 1 4 5 1 等百分位方法 所谓等百分位方法就是指,能用来等值的两个平行测验上的两个 分数,当它们对任何来自同一总体的稳定被试组来说其百分等级相同 时,就被认为是等值分数。等百分位等值转换比较的简单,具体步骤 湖南省高考理科数学的等值研究 如下: 等值数据的采集可以使用相等组设计或随机组设计,可得测验 x ,测验y 的原始分数,测验x ,y 是同样可信和平行的测验。 根据测验x ,测验y 的原始分数编制两测验的相对累计次数分布 表和曲线图。 逐一求出第l 百分等级至第9 9 百分等级所对应的分数。 1 4 5 2 线性等值法 所谓线性等值法就是指,能用来等值的两个同样可信和平行的测 验上的两个分数,当它们对任何来自同一总体的稳定被试组来说其标 准分数相同,即任一给定的组上,各自的标准分数相等,就被认为是 等值分数。用公式1 1 表示即: y - m y x - m x s ys x ( 1 1 ) 整理公式( 1 1 ) 可得公式( 1 2 ) - 尸 坞一妻尬m 2 , 这里m x ,s x ,m y ,s y 分别是测验x ,测验y 的平均数与标准差。 公式( 1 1 ) 在意义上直观,应用上简单,因此很受实际应用工 作者的欢迎。但在不少情况下不能对数据进行满意的拟合。线性等值 时要求的是两个同样可信和平行的测验,这一点很难做到,两份测验 在内容、难度上相似,但考生在两份测验上得分的相关系数未必等于 1 ,而两份测验的可靠性即信度也未必一样。若两测验信度差异明显, 就没有办法形成使它们等值的分数转换,然实际工作中要求产生这样 硕士学位论文 一种“等值”。则可以采用下面的公式1 - 3 : 盟:盟 s y 厉s x 石( 1 - 3 ) 为了更好的控制等值误差,人们在进行测验等值的时,还要加上 锚测验。具体做法是:将测验x 、y 分别加上共用锚测验v ,然后将 其一同对随机给予的被试施侧,每被试仅接受一种测验,即产生了随 机组1 和随机组2 ,并合成一个被试组,两被试组权数分别记为q , 哆,且皑+ 哆21 。关于分组做合成时的权重q 与咤,有人建议 q = 咤= o 5 。a n g o f f 建议依两分组的容量来确定。不同总体权重的选 择对等值结果虽然影响甚微,但是,当选择总体权重w i = i 和w 2 - o 时,却可大为简化等值方程推导的计算过程。线性等值转换方程可以 改写为: y 2 鬻卜以瑚岫) ( 1 - 4 ) 仃s ( 川,o s ( 引,以( 引,从( y ) 是合成组s 上的参数,可由组1 ,组 2 的参数加上由一定假设条件估计得出的参数求得。t u c k e rlr 和 l e v i n er 分别提出了自己的假设,所以就有两种不同的锚测验随机 组设计的线性等值方法。b r a u n h o l l a n d 线性方法可以看作是t u c k e r 线性方法的一般化拓展。 t u c k e r 和l e v i n e 的线性等值,都是有严格的假设条件,在实际 工作中可以采取一些较简便的计算方法。 陈希镇不等信度下等值新公式考试研究,2 0 0 7 ( 1 ) :2 4 2 5 田( 美) 霍兰( h o l l a n d ,p w ) ,( 美) 鲁宾( r u b i n , d b ) ,叶佩华等( 译) 测验等值广州:广东高等 教育出版社1 9 9 0 湖南省高考理科数学的等值研究 等百分位方法和线性方法都是建立在经典真分数理论之上的,不 论是线性等值还是百分位等值,实际上都是根据样本资料求出的,是 会随抽样的不同,即样本资料的变化而变化的。也就是说,经典真分 数理论只能在测验的观察分数这一层面上来处理测验等值问题,其测 量模型不能深入到事物的内部,直接面向被试在各个项目上的作答反 应过程。由于不能很好地在不同难度测验间求取出等值转换关系,被 人称为只能做“水平等值”而不能做“垂直等值 。c t t 方法只能 实现“试卷”之间的等值,不能实现“试题之间的等值。要解决 这个问题,就要使等值建立在更加科学而牢靠的方法论基础上,项目 反应理论是一种更加科学而牢靠的心理与教育测量理论。项目反应理 论是在克服了经典测量理论的各种局限性后发展起来的一种新的测 量学理论,项目反应理论在克服经典理论的局限方面有明显的进步。 1 4 5 3 i r t 等值方法 项目反应理论的发展首先建立在潜在特质理论的基础之上。项目 反应理论研究的主要内容就是被试在测验项目上的反应行为与测验 所测的被试潜在特质之间的关系,这种关系的形象描写就是项目特征 曲线。项目特征曲线的解析式,即这种关系的函数表达式,就是被称 作为项目反应理论各种模型的项目反应函数。 在i r t 中,要完成测验分数的等值,首先要完成的是参数量表的 变换,使标刻在不同被试样本群体上的参数有相同的参数量表。项目 反应理论认为,同一测验项目在不同测验中所估出的两套参数间具有 。漆书青现代测量理论在考试中的应用 m 】武汉:华中师范大学出版社2 0 0 3 。谢小庆对1 5 种测验等值方法的比较研究心理学报2 0 0 0 ,3 2 ( 2 ) :2 1 7 2 2 3 硕士学位论文 以下关系: i = 刈q ( 1 5 ) b y i c 【。b x i 邯 ( 1 6 ) 其中蛳,b 虮分别为项目i 在测验y 中所估得的区分度与难度,a x i ,b x i 分别为项目i 在x 测验中所估得的区分度和难度。q 与1 3 是两套参数 的转换系数。 一般来说,只有两测验分别施测于不等被试组,而又分开估计参 数的情形时,者需要做参数量表的变换。在锚测验设计中当前确定等 值系数的常用的方法有四种:回归法( r e g r e s s i o nm e t h o d ) ;平均数和标 准差法( m e a na n ds i g m am e t h o d ) ;韧性平均数和标准偏差法( r o b u s t m e a na n ds i g m am e t h o d ) ;特征曲线法( c h a r a c t e r i s t i cc u r v em e t h o d ) 。 最常用的方法有均数标准差法( m s 方法) 和特征曲线法。与平均数 和标准差法( m e a na n ds i g m am e t h o d ) 相似的是平均数和平均数法 ( m e a n a n dm e a nm e t h o d ) 。 求取等值系数具体方法还有很多,目前基于i r t 的较流行的求等 值系数的方法,( 实际上是按目标函数的形式给予区分的) 有:基于 l o g i s t i c 模型的m s 和m m 等值方法;s t o c k i n g l o r d 等值方法; h a e b a r a 等值方法;对数对比等值法;余弦准则等值方法以及对各 余民宁试题反应理论的介绍研习信息1 0 ( 3 ) ,1 1 1 6 口k o l e nm j ,b r e n n a nrl t e s te q u a t i n g :m e t h o d sa n dp r a c t i c e s m 】n e wy o r k :s p r i n g e r - v e r l a g ,2 0 0 4 丁树良,熊建华,毛萌萌项目反应理论框架下的新等值方法一一对数对比等值法心理学 报,2 0 0 3 ,3 5 ( 6 ) :8 3 5 8 4 1 熊建华,丁树良h a e b a r a 等值方法及其加权准则江西师范大学学 报( 自然科学版) ,2 0 0 5 ,2 9 ( 5 ) :4 3 4 - 4 3 6 湖南省高考理科数学的等值研究 种方法的改进型。 i r t 等值计算可分为三步,第一步,计算测验( 含锚题) 上的反 应数据;第二步,计算等值系数;第三步;根据第二步所得出的等值 系数进行项目反应理论中项目参数等值和真分数等值及观察分数的 等值。i r t 等值的任务就是要通过等值设计,收集到相应数据,根据某 个等值准则式,求出等值系数。所以测验分数等值的主要工作是确定 转换公式中的等值系数。以下是几种常用的求等值系数的具体过程。 ( 1 ) 在i r t 中二参数l o g i s t i c 模型是使用l o g i s t i c 模型等值 的最基本模式。假设有两组考生,每组n 人,参加两个测验x 和y , 每个测验有m 个题目,其中有v 个共同题。m s ,m m 等值方法确定

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论