第四讲 测量的基本理论_第1页
第四讲 测量的基本理论_第2页
第四讲 测量的基本理论_第3页
第四讲 测量的基本理论_第4页
第四讲 测量的基本理论_第5页
已阅读5页,还剩82页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四讲概化理论和第四讲概化理论和IRT理论理论简介简介心理测量学心理测量学1. 概化理论简介概化理论简介 n一、概化理论的发展n(一)概化理论的发展思路n概化理论(Generalizability Theory,GT)是经典理论宏观发展,重在研究误差控制、研究测验整体设计。 心理测量学心理测量学n1、测验分数方差的测量学意义n测验分数方差有目标分数方差和误差分数方差之区别。如:n被试真正能力水平间的分数方差是目标分数方差。n同一被试不同次测验分数间的方差是误差方差。n同一作品多个评分间的方差也是误差方差。 心理测量学心理测量学n、误差来源的多样性与总分方差结构 的复杂性n测量误差的原因多方面,

2、误差方差的种类多种。n总分方差结构复杂:不同来源的误差方差与目标分数方差共存。 心理测量学心理测量学n3、经典测验理论处理分数方差的办法n 假定X = T + E,n 然后有:n 再定义信度为: 222ETX22/TX心理测量学心理测量学n优点:定义了随机误差,可设法估计其大小。n缺点:没有能告诉我们误差由哪些原因造成,各种原因造成的误差各有多大。 心理测量学心理测量学n 4、概化理论的研究目的n探清总分方差结构、n区分误差原因,n明确各种误差大小,n找到最优设计方案。 心理测量学心理测量学n(二)概化理论发展的理论与技术基础n1、经典测验理论 概化理论与经典测验理论相比,不同之处多于相同之处

3、。n2、方差分量分析 依靠方差分量分析将总分方差分解、定性。 心理测量学心理测量学n(三)概化理论发展史n用方差分量分析研究测量误差的历史可以追溯到20世纪上半叶。n公认的GT正式诞生的标志物是克朗巴赫等的专著行为测量的可靠性的正式出版。 心理测量学心理测量学n二、概化理论基本框架n(一)概化理论的测验情境关系说n为了探清测验误差的来源、类型、大小,必须建立一个理论模型。心理测量学心理测量学n概化理论模型的建立依赖于对测验情境关系的详细调查。n测验情境关系是指测量目标与各测量侧面所组成的一种关系结构。 心理测量学心理测量学n1、测量目标n测量目标:测量者希望通过测量用测量值描绘的心理品质。n确

4、定测量目标的方法:问“测谁”和“测什么”。n一般一场测量目标只能一个n研究同一测量问题测量目标一经确定不能改变。 心理测量学心理测量学n2、测量侧面n测量侧面:测量的条件。n测量侧面水平:测量条件的不同水平。n测量侧面类型:随机侧面 固定侧面心理测量学心理测量学n固定侧面的优点: 测量的误差会减小,测量的信度会提高。n固定侧面的缺点: 固定侧面成目标的一部分,测量结果拓广受限。 心理测量学心理测量学n3、概化理论下的真分数概念n经典测验理论认为个体真分数只能有一个。n概化理论认为在不同测量条件下会有不同的真分数。 心理测量学心理测量学n测验情境关系说结论:n情境关系中的测量目标、测量侧面、侧面

5、的水平变化,会引起测验误差的来源,误差的大小、真分数的种类以及测验信度的变化,进而引起测验分数的解释范围发生变化。 心理测量学心理测量学n(二)测验设计的模型与种类n测验设计的任务(两个方面):n(1)界定测量目标和测量侧面的个数及名称、意义,确定各侧面的水平数。n(2)设计数据采集方法。 心理测量学心理测量学n数据采集方法类型:n以侧面数分: 单侧面设计、 双侧面设计、 多侧面设计心理测量学心理测量学n以数据结构分:n交叉设计: 测量目标在所有侧面的各个水平上被测量。n如 pI 、pir 心理测量学心理测量学n嵌套设计:测量目标在一个或多个侧面的部分水平以下被测量。n如 p:r 、p:r:s

6、n混合设计:既有交叉,又有嵌套的测验设计。n如 i(p:r) 心理测量学心理测量学n数据采集设计原则:n数据充分体现测量目标与各个测量侧面及各侧面相互之间关系n侧面数、水平数的设置要符合客观的测验情境;n能获得充分的数据信息;n简化模型、节约投入。n施测时要控制设计之外的各种无关变量。 心理测量学心理测量学n(三)G研究 G研究目的:用方差分量分析,定量估计观察领域中测量目标方差和各个测量侧面方差,以及其间的交互作用的方差。 心理测量学心理测量学n方差分量分析(二步):n1、分解总体方差为测量目标主效应方差、各测量侧面主效应方差和各种交互效应方差。n2、应用样本方差估计各种效应的期望均方差。

7、心理测量学心理测量学n各种期望均方差性质:n测量目标效应期望均方差:测量目标个体差异的描写量;n各测量侧面效应期望均方差:各侧面对目标干扰程度描写量,就是误差;n各交互效应期望均方差:各侧面对目标的交互干扰程度描写量,也是误差。心理测量学心理测量学n(四)D研究nD研究的目的:在G研究的基础上,在原设计的测验情境关系范围之内,分析比较各种可能的测验方案,由研究者结合实际,优选实施方案。 心理测量学心理测量学nD研究调整原方案获取新方案的方法:n1、固定原测验情境关系中的某一个或某几个侧面。n2、改变原测验情境关系中的一个或某几个测量侧面的水平数。n3、改变原测验情境关系中某些测量侧面的结构关系

8、。心理测量学心理测量学nD研究的统计分析步骤(两步)n1、估计拓广领域(新测验方案)下各种效应期望方差。n2、估计新方案下测验误差的总体指标和测验质量指标,以提供比较依据。 心理测量学心理测量学n测验误差指标:n1、相对误差指标: 所有与测量目标有关的交互效应方差之和,n2、绝对误差指标: 除目标主效应方差之外的所有效应方差之和。 心理测量学心理测量学n测验质量综合指标:n1、概化系数G;目标效应方差与目标效应方差加相对误差方差之和的比。n2、相依系数:目标效应方差与目标效应方差加绝对误差方差之和的比。心理测量学心理测量学nD研究的最后工作:n根据综合指标,找出最优测验设计方案。 心理测量学心

9、理测量学n概化理论分析常用软件:n GENOVAn 或mGENOVA。 心理测量学心理测量学n三、概化理论评价n优点:n1、概化理论是一套全新的测验误差分析方法,而且非常精细。n2、概化理论引进了测验设计的思想和方法。n3、概化理论具有严谨的科学理论体系。心理测量学心理测量学n缺点:n1、概化理论本质上还是抽样,研究本身会有误差。n2、计算方法相对复杂,给应用带来一定困难。 2 项目反应理论介绍项目反应理论介绍内容提要:n项目反应理论的发展 nIRT的基本理论体系 n项目反应模型 n计算机程序 nIRT的应用、优点与不足 n(一)、经典测验理论一、项目反应理论的发展:n(二)、项目反应理论的发

10、展 1、CTT的理论体系很完善,是其他测验理论赖以产生的基石。优点有:n理论方法体系相对完整n前提假设比较弱n所涉及到的数学模型以及参数的概念和估计方法易理解和掌握n标准化技术在控制测验误差等方面有明显的效果(一)、经典测验理论n基本假设难以成立:真分数与观测分数间存在线性关系的假定不合理;平行测验的假设难以成立;误差与真分数独立的假设难以满足。 2、CTT在理论体系和方法体系方面存在许多其本身难以克服的缺点,具体表现为:n项目统计量严重依赖于测验所实施的被试样组。n被试测验分数依赖于所施测项目的难度。 n测验信度观存在严重问题。CTT的信度是针对被试全体的,只代表平均测量精度,假设所有被试测

11、量标准误相等,而实际上,不同能力水平的被试不可能具有同样的测量标准误。 n缺乏预测力n对测验等值、适应性测验、标准参照性测验的编制等问题不能给以满意的解决。n尽管存在以上缺点,CTT仍在广泛地应用。CTT、IRT和概化理论是当今最有影响的三种测验理论。n简单地说,IRT在处理微观问题(即被试水平与答题目之间的实质性关系)时优势明显,CTT在处理中观问题(如处理常见的标准化考试等)时方便易懂,GT则在处理宏观问题(如对结果作推论)时更显出色。n三种测验理论体系有内在联系,各有长短,应相互促进,互相补充。(二)、项目反应理论的发展n由于项目特征曲线(ICC)对项目反应理论的产生具有重要意义,所以在

12、讲项目反应理论的产生和发展问题时,一般都追溯到1905年比奈和西蒙编制第一个智力量表时的工作,他们当时所使用的作业成绩随年龄增长而提高的散点图与现在的ICC曲线十分类似。nIRT的真正创立者是美国心理测量学家洛德(Lord)。1952年,洛德发表博士论文一个测验分数的理论,提出了IRT的第一个数学模型(Two-parameter Normal Ogive Model,双参数正态卵形曲线模型)及其参数的估计方法,并把该模型应用到了学业成绩和态度测量工作之中。n(一)、概念n(二)、基本思想及基本思路n(三)、基本理论假设二、IRT的基本理论体系(一)、概念n项目反应理论(Item Respons

13、e Theory,简称 IRT),又称潜在特质理论潜在特质理论(Latent Trait Theory)或项目特征项目特征曲线理论曲线理论(Item Characteristic Curse Theory),是为了克服经典测验理论(CTT)的局限而提出的现代测验理论。n从测验的内部或微观方面入手,采取数学建模和统计调整的方法,重点讨论被试的能力水平与测验项目之间的实质性关系,测验的每一个项目都有自己的项目特征曲线,描述了每一个特定能力水平的被试答对或答错该项目的概率。(二)、基本思想及基本思路潜在特质:n把表现在一个人身上所特有的相对稳定的行为方式称为心理特质(trait),由于这种心理特质是

14、隐含于其行为之中的,所以也称做潜在特质。n与CTT一样,IRT也认为被试的潜在特质是不能被观察和测量的,但却可以通过其外显行为表现出来。 n不同的是,CTT是以被试对所有测验项目的反应总和(测验总分)为显变量来预测被试的潜在特质的,并不认为被试对单个项目的反应 与其特质间有任何有意义的联系。nIRT则认为被试的能力与其对某一特定项目的反应(以正确或错误反应概率表示)有某种函数关系存在,确定这种关系就是IRT的基本思基本思想和出发点想和出发点。n所以IRT可以被理解为一种探讨被试对项目的反应与其潜在特质间关系的概率性方法。n用表示被试的潜在特质或能力,用Pi()表示其对项目i正确反应概率,项目反

15、应理论的关键就是确定与Pi()间的函数关系。表1 某个项目假设的项目特征曲线1.000.000.50潜在特质: 正确反应的概率: Pi()潜在特质空间(Latent Trait Space)n对于某一特殊行为的发展起作用的所有潜在特质的集合。维度n在潜在特质空间中互相独立的潜在特质的个数。n一个K维的潜在特质空间可以表示为:H =(1, 2, 3,.,k)总之,潜在特质理论是一切心理测量理论研究的基础。n1、潜在特质空间的单维性假设n2、局部独立性假设n3、项目特征曲线假设 n4、非速度性假设(三)、基本理论假设1、潜在特质空间的单维性假设(unidimensionality)n潜在特质空间

16、n单维性 n指测验测量的是单一的特质而非多元特质,即被试对测验中任一项目的反应是其单一特质的函数。 n如何判断是否满足单维性假设?n因素分析的方法n当因素分析抽取的第一个公共因素解释的变异远大于第二个公共因素时,就可认为测验是单维的。n但严格的单维性是大多数测量工具都难以满足的,这也是IRT受到批评的主要原因。n所以,解决测验的单维性问题及建立多维反应模型是IRT将要研究的任务之一。n在项目反应理论中,常用一般的统计依存性和统计独立性概念来讨论项目间关系。2、局部独立性假设(local independence) nPi(+):表示正确回答第i个项目的概率nPi(-):表示答错第个i项目的概率

17、nPj(+):表示正确回答第j个项目的概率nPj(-) :表示答错第j个项目的概率nP(+,+)表示正确回答第i和第j个项目的概率同理,。n根据以上定义,在下列条件下,两个项目得分在统计上是独立的。 nP(+,+)= Pi(+) Pj(+)nP(+, -)= Pi(+) Pj(-)nP( -,+)= Pi(-) Pj(+)nP( -, -)= Pi(-) Pj(-)n如果四个等式中的任何一个不成立,则这两个项目在统计上就是依存的。n例:如果 Pi(+)=.8 Pi(-)=.2 Pj(+)=.6 Pj(-)=.4n那么当且仅当 P(+,+)=.48 P(+, -)=.32 P( -,+)=.12

18、 P( -, -)=.08 时两个项目才独立。n实际就是指,如果两个项目的每种反应模式的概率,仅仅根据对每个项目正确与不正确反应的概率就能计算出来,那么项目之间便是独立的。n如何理解局部独立性假设呢? n由于这种独立性是针对特定的值的被试而言的,所以称为“局部”。n例:假设1000名能力相同的被试参加某一能力测验,600名被试答对了项目i,400名答错了;这1000名被试对项目j的正确反应概率与对项目i的正确反应概率统计上是独立的。n总之,同一特质水平的被试回答某一项目时不受其他项目的影响。3、项目特征曲线假设 nIRT假定正确反应概率Pi()与间存在规律性的变化关系,这种关系可以用一个数学函

19、数的形式表示出来,这一函数称为项目反应函数(Item Response Function),项目特征曲线(ICC)就是这一函数的图像。n大量事实证明,对两级记分的项目,被试的能力水平与他对项目的反应之间呈S型的曲线关系,而且这一关系具有相当的普遍性。nS型ICC具有一些共同点,即都有一条Y=1的上渐近线和一条Y=c(c0)的下渐进线,且是严格单调上升的,一条ICC的形状取决于三个变量:下渐近线的高度,曲线拐点的位置及拐点处的斜率。n这三个变量恰好相当于三个项目参数:猜测参数ci,难度参数bi和区分度参数ai。1.000.000.50Pi()上渐近线下渐近线c拐点切线b21 c(1)难度参数bi

20、n在一条ICC中,bi等于曲线在拐点处的值。n当猜测参数ci=0(曲线的下渐近线为0)时,bi等于Pi()=0.50时的值,因为对一条完整的ICC,拐点恰好是曲线的中点和对称点。n当ci0时, P()=(1+c)/2n在IRT中, bi表示一个项目的难度,其取值范围一般在-3.0到+3.0之间。nbi越大,表示项目的难度越大。1.000.000.50Pi()b1b2项目1项目2n从上图可以看出,项目2比项目1更难些,因为能力相同的同一组被试对项目1的正确反应概率要大于对项目2的正确反应概率。n在其他条件不变的情况下,增大项目的难度会使ICC向右平移。(2)区分度参数ain在一条ICC中,ai的

21、大小决定曲线在拐点bi处的陡度。nai很大时,在bi附近能力的增加会导致正确反应概率Pi()有很快的增长;nai很小时,在bi附近能力的等量增加不会导致正确反应概率Pi()有明显的增长。nai的取值范围通常在0.302之间。图图 区分度参数区分度参数ai对正确反应概率的影响对正确反应概率的影响1.000.000.50Pi()b项目1项目2nai越大,曲线在bi附近就会越陡,项目在bi附近的区分能力就越大,但在远离bi的区域,曲线就会变得越平坦,项目的区分能力就越低。n也就是说,区分度参数ai大的项目对能力水平接近bi的被试有较大的区分能力,而对能力水平远大于或小于bi的被试区分能力小。n相反,

22、区分度参数ai小的项目则在能力分布更广泛范围内对被试都有一定的区分能力。(3)猜测参数cin被试完全凭机遇答对项目i的概率即是该项目的猜测参数ci。注意:CTT中没有猜测参数,IRT引入此概念是为了提高对能力估计的精度。n对包含m个选择项的选择题,其猜测参数ci一般接近1/m。nci的取值范围一般在00.50之间。n二级评分IRT模型n多级评分IRT模型n连续型IRT模型三、项目反应模型(一)、正态卵形模型(Normal Ogive Model)n正态卵形模型将项目特征曲线视为一条S形正态累积函数曲线,相应的数学模型即是正态累积分布函数。n可分为三参数、双参数和单参数模型三种。(1)三参数正态

23、卵形模型表达式为:)(2221)1 ()(iibayiiidyeccp ai、bi、ci,y为正态曲线纵线的高度,dy表示对y积分,为积分符号,上下角表示积分的范围,求从z=-到z=ai(-bi)范围内正态曲线下的累积面积。(2)双参数正态卵形模型当猜测参数为0时,三参数变成了双参数。(3)单参数正态卵形模型当ci=0,ai=1时,双参数变成了单参数。n由于正态卵形模型中的积分运算不易进行,伯恩鲍姆(Birnbaum,1957)在洛德正态卵形模型的基础上提出了逻辑斯蒂模型。(二)、逻辑斯蒂模型(Logistic Models)n逻辑斯蒂模型避免了复杂的积分运算,在估计能力和项目参数时要简便得多

24、。n逻辑斯蒂模型是使用最广的模型,其次是正态卵形模型。n逻辑斯蒂模型也包括三参数、双参数和单参数模型三种。(1)三参数逻辑斯蒂模型的表达式:)(7 . 111)1 ()(iibaiiieccpai、bi、ci分别为区分度参数、难度参数、猜测参数,含义与正态卵形模型相同。n(2)双参数逻辑斯蒂模型当猜测参数ci=0时,三参数就变成了双参数模型。)(7 . 111)(iibaiepn(3)单参数逻辑斯蒂模型当ci=0,ai=1时,就得到单参数逻辑斯蒂模型。)(7 . 111)(ibiepn单参数逻辑斯蒂模型又称拉什模型,是丹麦数学家拉什(Rasch,G.,1960)从一个不同的角度独立提出的心理测验模型。n在IRT的发展历史上,拉什模型占

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论