【毕业学位论文】(Word原稿)DIF检测中 Mantel-Haenszel法和IRT方法的比较-测量理论与统计_第1页
【毕业学位论文】(Word原稿)DIF检测中 Mantel-Haenszel法和IRT方法的比较-测量理论与统计_第2页
【毕业学位论文】(Word原稿)DIF检测中 Mantel-Haenszel法和IRT方法的比较-测量理论与统计_第3页
【毕业学位论文】(Word原稿)DIF检测中 Mantel-Haenszel法和IRT方法的比较-测量理论与统计_第4页
【毕业学位论文】(Word原稿)DIF检测中 Mantel-Haenszel法和IRT方法的比较-测量理论与统计_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

i RT of RT of n of of 010 of so of in IF RT to IF of on of a IF In IF of on on of IF is on IF is -H RT RT is in In 5% in of of of in is in IF IF 录 1 文献综述 . 错误 !未定义书签。 验效度 . 错误 !未定义书签。 统效度理论以及结构效度 . 错误 !未定义书签。 代的效度理论 . 4 典测量理论与误差 . 5 代测量理论 . 6 论 . 6 典测量理论与现代测量理论 . 7 验偏差( 法 . 错误 !未定义书签。 目功能差异 . 9 成 影响因素 . 9 论范畴中的 析 . 10 论范畴中的 析 . 13 述 . 14 度分析 . 14 2 研究目的与假设 . 错误 !未定义书签。 3 研究方法 . 18 试与工具 . 18 法 . 19 型假设 . 19 型方法 . 19 法 . 20 型假设 . 20 型方法 . 20 4 结果与分析 . 22 五个问题的回答 . 错误 !未定义书签。 题一,在 S 维度,是否存在性别的显著 . 22 题二,在 S 维度,是否存在学科的显著 . 24 题三,在 N 维度,是否存在性别的显著 . 26 题四,在 N 维度,是否存在学科的显著 . 27 题五, , S 维度的 量与 N 维度相比是否有显著差异 . 28 结与分析 . 错误 !未定义书签。 较 . 29 v 法比较 . 29 究假设的证明 . 30 5 讨论与总结 . 31 论与探索 . 31 试中性别分组 S 维度与 N 维度的 目比例过大 . 31 法与 法探测到的 目数量差异 . 32 法与 法探测到的 好矛盾 . 32 法上的进一步细化 . 33 究的发现 . 35 维度 和 N 维度上,性别分组间有显著的 . 35 维度和 N 维度上,学科分组间没有显著的 . 36 法与 法比较, 法更加敏感 . 36 法与 法比较,在 目的分组偏好上有一些矛盾 . 36 维度和 N 维度 索中, 对潜质的分层不影响探测结果 . 37 结 . 37 究不足与未来展望 . 38 附 录 . 39 附录 1 性别 目 比 . 39 附录 2 学科 目 比 . 42 附录 3 性别 目 比 . 43 附录 4 学科 目 比 . 45 参考文献 . 47 感 谢 . 49 1 by of by 1999; to or by is to be so in is of is an An IF a is a as a IF is It be IF in to in or 值得注意的是, 偏差( 是完全相同的概念。偏差,特别是日常意义上的偏差,指的是一个测验在某些情况下对一个群体不公平。 一个 统计指标,指的是同样潜质(比如能力)的不同组中 成员在测试中 的表现 差异。偏差的一个表现是产生了 是探测到 不能说明测验有偏差。 测验在不同的被试组(性别、民族、专业背景等)间产生显著差异,其原因并不一 定是由于测验的不公平。很多的外部原因,比如课程接受水平,教育师资差异等,都可能造成测验结果的差异( 2005)。因此,在解释组间项目差异 (时候,需要格外注意。判断一个测验项目的公平性,需要综合考虑测验中内部外部的各种影响情况以加以判断,不能仅靠一个大的 ,就认为项目不公平( 2 本研究讨论的是一个高赌注测验 “ 简称,由美国心理学家 儿)和 亲)根据荣格的心理类型学理 论设计编制而成,正式形成和发行于 1976 年,也称母 目前世界上近 20 年来应用最广泛的测验之一,它主要用于考察人在组织中的贡献、领导风格、偏好的工作环境、潜在的缺陷等个体特征与潜力,以及组织中人与人之间的沟通、团队组建等。因此在应聘与招聘的过程中, 验被广泛应用。由于 测试结果对应聘者有很大的影响,因此它也是一个高赌注测试。 在本研究中,作者就 S 维度(感觉型)与 N 维度(直觉型)针对男 /女分组以及文科 /理工科分组两个不同的分组组合进行 析,以提供 度的证据。 本 章节共分为六个部分。分别是 1) 测验效度; 2) 经典测量理论与误差; 3) 现代测量理论; 4) 偏差与 ) 项目功能差异( ,以及 6) 述。 文章的文献综述部分将先从效度的讨论入手。因为 偏差是效度的差异 , 充分了解效度的定义是进行偏差分析的基础 ,而对偏差有了充分的了解,就能对 差的一种表现有明确的认识 。在回顾了效度的定义以及其发展后,作者从经典测量理论和现代测量理论的理论框架中总结对测量误差和偏差的理解。在第四部分,作者比较偏差与 概念,并且在第五部 分提供在不同理论架构中对 分析方法。最后, 将简单的叙述 测量结构、测量特点以及其各个维度的理解分析。 验的效度是测验非常重要的指标。没有一个良好的效度,测验得到的分数是无法解释的、可能引起误解的。这种情况下测验也失去了意义。 正是因为效度的重要性, 在过去的几十年中, 心理测量学家不断地对效度的理论和操作进行探索。随着理论和技术的进步,对测验效度的认识 也 逐渐发生了变化。下面从主要测量偏差的角度对效度进行解释 3 验的效度是测验价值的核心。一个测验没有良好的效度,那么 对这个测验结果的解释就是没有意义的。对测验效度的定义、测量以及改进是设计以及修订测验的重要步骤。只有有了明确的效度指标,一个测验的结果才能被正确的解释和预测,并在一定范围内推广。 近年来在心理测量领域对效度的概念和解释有很多新的思考。这些思考很多来自于对于传统效度概念的延伸,以及对测验的本质和过程的认知。在传统的效度概念中,关于效度的概念主要集中在下面几点上( 1999): 是否测验所得到的是 希望 测量的东西 信度是效度的充分条件,但不是必要条件 效度是测验的是否恰当的工具性指标 效度是一种统计方 法学的工具,有固定的标准 根据标准,一个测验可以被认为是有效的,或是无效的,以及 有不同的效度指标。主要分为三种,如下: 内容效度:测验的内容与相关内容或行为的取样的适当性。主要根据专家的经验判断测验内容是否有效; 实证效度:一个测验对处于特定情境中的个体的行为进行预测时的有效性,分为同时效度和预测效度,分别是根据测验与现在或可预测的效标相关来判断测验效度; 结构效度:综合来说,结构效度是各种测验有效的证据的集合,它主要证实的是测验对某一理论概念或某一特制特量的程度。结构效度可以用多种方法进行分析。比如,相 容效度,聚合与区分效度,因素效度等。 根据各种不同效度的操作定义,在实际操作中,可以选择恰当的效度指标,对测验进行分析。经过大量的研究, 1989)在分析了大量的文献后,对效度进行了总结,提出了以下的问题, 是否有统一的效度指标; 对效度的分析应该细致到每一次测验的分析; 效度分析中的证据都包括是什么,以及; 效度与测试的价值是怎样的关系。 作为对这几个问题的回答, 结到,由于内容效度和实证效度在效度分析中表现出来的冗杂和分析效果不理想(见 203 页, P. R. 著),心理测量学家愈发倾向于下面的理解 : 结构效度作为整个效度定义的框架; 作为结构效度的证据,其他的效度,包括内容效度和实证效度,都包含在框架中; 4 结构效度必须根植于测试的条件以及环境。对于被试的自然条件,测试的目的等都需要考虑在结构效度的范畴之内 对于结构效度的证据,包括逻辑与实践证据、聚合与区分证据;应该综合各种各样的证据已进行分析,以避免似是而非的答案。 其中,偏差作为对于结构效度的逻辑与内部分析的证据,在一个测验的效度分析中具有重要的作用。 经过长期的研究和探索,以及不断的思考,心理测量学家逐渐发展了传统的效度定义,这就是现代效度理论。 代的效度理论 首先要说明 的是,现代的效度并不是对传统效度理论的颠覆。相反的,现代效度理论是传统效度理论的延伸。现代理论对效度的定义,是在传统效度理论的框架中所形成 并完善 的。 对应传统效度理论中总结的几条,现代效度理论有如下的特点( 1999): 结构效度是效度最核心的概念。在体现测验的效度的时候必须体现结构效度; 对于信度与效度的关系有了争论。越来越多的心理测量学家认为信度与效度的关系不再是充分 不必要条件。相反的,很多心理测量学家认为效度相对于信度是一个更加宽泛的概念。 2005)认为,如果把一个测验比作地球的话,信度是地壳,效度就像是大气层,覆盖所有的东西。 1999)的观点是,一个好的信度是恰当解释测试的重要条件,但并不必要; 效度不再是测验恰当性的指标;而是解释测验结果的工具; 效度是一个连续性的概念,不再是全或无; 效度不再是统计方法学的工具,而是对测验的详细理论和方法的支持; 测试的设计和施测过程是效度过程的核心; 所有的不同的效度都进入结构效度的框架中,内容 效度和实证效度构成结构效度的证据。在展示测试的效度的时候,只需要展示结构效度的证据。 在现代的效度理论中,效度作为对测验的解释受到了相当的重视。另外效度的情景性也被重点提出。展示一个测验的效度的时候,更加偏重施测对象的自然属性,以及组间的差异性。作为组间项目 表现 差 异 的指标, 成为结构效度的重要指标,是效度分析中的重要依据。 5 典测量理论与误差 经典测量理论( 关注的是真分数和测量误差。在超过150 年的研究中,经典测量理论凭借其自身理论的稳固性, 即使在计算技术高度发展、现代测量理论辈出的今天,仍然在测量领域有着强大的生命力( 2005)。在经典测量理论中,真分数是观测值与随机误差的差项( 2002)。但是随机误差是无法测量到的。因此各种心理测量学的技术以及关注点就是减少随机误差的影响;另外,即使采用了各种选择被试、以及统计方面的技术,随机误差也不能全部消除,只能在最大限度上减少随机误差对观测值的影响( 2005)。一般对误差的理解是对测验结果产生影响的,与测量潜质无关的维度( 2005)。 对于测量误差,有多种方式对其进行分类和分析。 1978)把误差的来源分为五类: 1)时间的影响; 2)测验内容影响; 3)评分影响; 4)被试状态,以及 5)被试本身。 2005)从人因学的观点总结了测验中的误差,主要从人类自身信息分析是容易产生的错误来解释误差的成因。它们主要是 1)不稳定精神状态引起的非正常反应,比如生病、生理周期等; 2)对测验中题目的错误理解。 根据 1994),测验误差是观测值与真分数之间的差异;测验误差可以分为两类:随机误差和系统误差。两者的差别在于系统误差对所有的被试产生同方向的影响,而随机误差产生的影响不同向。因此,随机误差是个人的反应,而系统误差 是 分组的反应;随机误差是个人的真分数与观测值的偏 差,而系统误差则更多的暗示了分组的特性对所测量的特质的影响( 2005)。一般认为,随机误差更加常见,并且相对于系统误差来说,随机误差不会引起世俗以及法律上的纠纷( 1994, 2005)。 由于经典测 量理论的 局限,对于随机误差 来说,经典测量理论的分析不可能得到每一个个体的误差值;相反的,经典测量理论默认每个被试有着相同的随机误差,并这种 假设下使用 各种 技术和方法把随机误差控制到最小 ; 另一个局限就是很难确定系统误差。对于系统误差的分析也就显得更加的模糊 和 似是而非。需要注意的是项目表现差异,包括 映项目表现跨时间稳定性的指标),只是系统误差的一个可能性,发生系统误差并不一定表现在项目表现差异上。另外由于“偏差”的概念所引起的误解, 2005)建议在描述 组间的差异的时候,更多使用“项目表现差异”,而避免使用“偏差”,以避免纠纷。另外他强调( 2005),项目表现差异更多体现的是统计得到的结果,是否产生真正意义上的偏差,还需要更多理论实践的分析。 综上所述,系统误差是偏差存在的原因之一。 1994)一书中对偏差的概念作了如下定义:“偏差是针对某个特定分组中的被试的系统误差或错误效度。”另一方面,由于 分析系统误差是没有强有力的理论支持,因此在经典测量理论的框架中分析 时候,多采用近似估计的方法,缺乏相对的理论 6 支持。 代测量理论 论 项目反应理论( 注的是心理测量中被测潜质( 被试的应激表现( 2005)。相对 说, 先进之处在于它采用了复杂的统计技术,以及在对 数据的解释 的时候更加的精细和有力 。 1991)认为, 的 特性 有几点 。首先,被试的潜质可以预测其在考试项目中的表现;其次,被试 的潜质以及其项目表现的关系可以通过项目特征曲线( 来模拟。最后, 法虽然更多的基于 心理测量统计学,但它是一个理论的框架 ,而不单纯是一个统计的过程 ( 2005) 。 根据 2005)的描述,“项目反应理论并不是抛弃了经典测量理论 去 对心理测验做一个新的理解,也不能取代经典测量理论。事实上,对经典测量理论的精确 把握 是理解 项目反应理论的基础。项目反应理论基于经典测量理论,在项目反应理论中,很多观点直接继承于经典测量理论。项目 反应理论是在经典测量理论的基础上加强了统计的效力,更多地强调认知科学在心理测量中的作用,并且通过一系列的数学统计方法 使测量理论更加 完善。” 在项目反应 理论 模型中( 人, 1991),被试特性与项目特性可以分离开来。判断被试的潜质 时可以不受特定测试的影响; 在较难测试中的低分表现,和较易测试中的高分表现 都 不影响对被试特性(潜质)的判断。相对的,对于测试的特性(比如难度),也不会因为不同的被试组而变化。无论是高能组的高分表现和低能组的低分表现, 都不能影响对测验 特性的分析。这样就解决了经典测量理论中 被试特性与测试特性循环论证的弊端。 在经典测量理论中,根据被试的反应来确定考试的难度,反过来,又根据考试的难度来鉴别被试的能力。 根据项目反应理论 的这些特点,项目表现差异很容易被确定。例如比较直观的方法,对比不同组的项目特征曲线,当不同组的项目特征曲线显著的不同,说明在相同的潜质下,不同组的表现不同,有 此相对经典测量理论, 论对于项目功能差异( 探测有明确的理论基础,也更加准确。 项目反应理论的模型有三类,分别是 1P( 型, 只考虑 b 参数,也就是项目难度参数的分析模型 ; 2P 模型,分别考虑 b(项目难度)参数,以及 a(区分度)参数; 3P 模型纳入的是 型的全部三个参数, a(区分度), b(项目难度),以及 c(猜 7 测指数)。在这三类模型中, 1P 模型的使用最广泛。在 析中,也只采用 1P 模型进行分析。 典测量理论与现代测量理论 经典测量理论与现代测量理论相比,哪一种理论框架更好。很多人讨论过这个问题。 1994) 对比了经典测量理论与现代测量理论(潜质理论、概化理论),并研究了大量案例之后,认为很难比较这两种理论的优劣。 2005)认为,虽然经典测量理论在百年来都少有变化,证明了其良好的适用性及生命力,但是仍有下面两点理由来推广和研究现代测量理论:主要的原因来自于现代测量理论可以有区别的分析误差;另一个理由就是在现代测量理论中,被试特质与测验特制不再互相牵制,难以区分。经典测量理论虽然在误差分析等方面有诸多劣势,但是相对于复杂的需要借助现代计算工具来完成的现代测量理论,它具有 理论基础深厚, 理解简单,便于计算和推广的特点。 在 分析中,经典测量理论和现代测量理论都提供了相当的方法和理论来进行析。在下一部分,将主 要介绍 概念以及其分析方法。 么是测量误差( 心理测量学家从系统误差和效度的等不同的角度给了定义。 1994)认为偏差是“针对特定被试组中成员的效度不良或系统偏差”。根据 1989)的定义,偏差( 对定义明确的相关分组中被试分数解释的效度 不良 。因此 总结到 ,偏差不是针对单独的被试,而发生在某一个被试组中。当某一个特定分组的成员,他们的在测试,或 某一个测试项目上的得分与其他分组的成员的得分有显著差异,而这个差异并不是由所测验的特质的差异所引起的,那么就可以认为在测验或者测验项目中产生了偏差。这种情况说明在测验或者项目中,所测试的不单是希望测验的特质,还有其他的维度影响了测验的成绩。一个比较简单的例子是,选取汉族和少数民族的小学生进行数学测验,以测试他们的数学能力。但是如果最后的测验结果表明少数民族学生的测试成绩显著低于汉族学生,并不一定能说明他们的数学水平低于汉族学生。有一个可能性是他们在阅读汉语的数学题目的时候产生了困难,从而影响了测试的成绩。因 此对汉语的熟悉程度成为影响他们数学测验成绩的重要因素。对于这个数学测验来说,它是有偏差的。 偏差产生的原因可能是外部的,比如施测环境不同,指导语差异;也可能是内部的,比如测验的效度方面的问题 ( 1989) 。另外偏差可能针对整套测验(测验偏差),也可能只出现在测验的几个项目中( 比如 因此在解释偏差的时候,应该非常谨慎,综合考虑可能产生偏差的各种原因。仅凭用复杂统计工具所得到的 值来说明问题, 8 必然会产生这样或者那样的误解或误导。 20 世纪 60 年代早期,随着妇女运动以及民权 运动的兴起,考试的公平性研究日益引起心理以及测量学家的重视 (1993)。在这些研究中,研究者逐步把视野集中在测试的内部差异,以及针对项目的测试差异上。随着这一类研究的日益增多, 术日益成熟,并逐步扩大影响,以至直接或间接的影响了美国教育以及雇员结构的格局 (1989)。而在中国,考试项目差异也受到了越来越多的关注。汉语职业资格考试( 试就在其设计以及施测和解释的过程中结合应用 理论和方法,以确保对考试成绩的公平性。 分类主要有两种。规则( 情况下,在同等潜质条件,某一份组的项目得分始终显著高于另一分组,见图 片来源, 1999)。而在非规则( 况下,同等潜质条件,某一分组在低分区的项目得分高于另一分组,而在高分区的项目得分低于另一分组,见图 图片来源, 1999)。 图 同潜质下,蓝线组的项目得分始终高于红线组 9 图 分区蓝线组的分高于红线组,而在 高分区相反 对 分析,经典测试理论方向主要采用的是简单排序法以及 法。这两种方法由于计算简单,计算结果相对稳定而在早期广泛应用。直到今天, 法仍然是医学领域比较研究时最常采用的方法。而随着计算机技术的发展,近年来 法也逐渐受到了重视。这些方法计算复杂,但是它可以处理五分量表、七分量表等排序数据,因此成功地把 析从单纯的成就测验领域引进到了人格测验的领域( 1999)。而在现代测量理论的领域,主要采用的是 法分析 目功能差异 项目功能差异 ( 是比较 一个测验中 同质(相同潜质)组间对项目的表现的差异的方法。 通过 析 来辨别偏差 不但包括了统计方法 的计算,也包括一系列的专家分析。因为 偏差的证据不但包括实践与理论的证据,也包括专家的专业判断。在 分析中,法与 法的本质是相同的,都是比较不同组别(如性别、种族)的被试在项目中的反应 (回答正确率) 差异。 当这些相对的子分组的成员在项目上的表现出现不相等的情况,表明存在 果这个组间表现的差异不是测验设计所探知的,说明这 个项目融入了其他的变量维度。当然也有一种可能性是这个差异所表现的正是测验所测量的目的。回到 前面 的汉族小学生和少数民族小学生的测验。如果在数学测验上的差异是由语言方面的理解障碍造成的,说明有项目差异的存在;如果这是一个语文测验,那么这个测验很好的表明了汉族小学生和少数民族小学生在语言方面的差别,否认项目差异的存在。 成 影响因素 造成 影响因素主要来源于下面几点:语义因素、环境以及身体条件因素、文化因素和语言因素( 2005)。 语义因素 :诸多研究证实,文字与其表述意义之间的联系的 差异,是产生 原因之一( 1992; 1988)。在他们 的研究中, 针对白种人与西班牙人的 在 10 验中的反应。研究表明 ,同字不同义,以及类似的字不同义的情况在两种相近的语言中会很大的困扰被试。 环境以及身体条件因素 :有研究表明,环境因素也会对被试的表现产生影响( 1971; 1975)。 例如 1992)在对比了夏威夷群岛的被试和美国本土的被试表现后发现,他们对树、以及下雪的理解有很大的出入,这种差异 即使 是在高信息量的社会, 有书报、电视、互联网 等 媒体的介入 后 也没有发生变化 ,差异依然存在 。 文化因素 :尽管文化因素的影响一直被认为是产生 重要因素,但是很多研究表明,文化差异并不一定会产生 2005, 第 66 页)。这些研究表明,某些测验只会在某些 的 文化差异下产生 这个结论既没有推广到所有的测验,也没有产生在所有的文化 差异 中。可能的解释是大部分的测验类型比较相似(比如,大部分采用多选题),因此对各种文化下的被试都是熟悉的( 2005)。 语言因素 :语言因素产生 要是因为在大部分的语言中 ,书面表达语言与口语表达语言都有一部分差异。而对于一个 使用 非母语 测试 的被试来说,这种差异难以把握,因此会发生语言理解不明,或者表述不清的情况( 1992)。 除了以上几个方面之外,造成 影响因素还可能来自于其他方面,比如题目顺序,难度分布等( 1987),都有可能对一些被试组产生 影响。 论范畴中的 析 在经典测量理论的框架中,确定 方法主要有下面的几种: 1) 法; 2)项目难度转换法; 3)相关表格方法; 4) 法。除了这几种方法之外,也有 其他方法 进行 分析 。 1) 法 法的原理时,进行 析 时 ,两组(或多组)同时进行测验,对测量结果中的 各个 项目做 析,特别关

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论