(基础心理学专业论文)项目反应理论在人格测验中的应用研究.pdf_第1页
(基础心理学专业论文)项目反应理论在人格测验中的应用研究.pdf_第2页
(基础心理学专业论文)项目反应理论在人格测验中的应用研究.pdf_第3页
(基础心理学专业论文)项目反应理论在人格测验中的应用研究.pdf_第4页
(基础心理学专业论文)项目反应理论在人格测验中的应用研究.pdf_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 随着人格测验在实际领域中的应用越来越广泛,它在现代生活中扮演 的角色也就越来越重要。以往的研究大多是在经典测量理论( c t t ) 的框 架内,对人格测验进行分析和解释。本研究把项目反应理论( i r t ) 应用 到人格测验中,以期望更高效率的对人格进行测量。在实证研究i 中,分 析了两种测量理论的记分模式,并着重比较了两种记分模式下对被试得分 的差异性和原因。结果表明,i r t 记分充分考虑了各个项目的性能差异, 被试的得分更少雷同、更为精确,误判也更少。在实证研究i i 中,测量误 差进行了研究。结果发现,c t t 在整份测验中只有一个测验的误差;而i r t 引入了信息函数,能够根据被试特质水平的不同,提供各个项目的测量误 差。同时,它也提供了测验的信息函数,方便知晓测验在某特质水平段的 信息量和测置误差。这为根据测验精度要求来编制人格测验提供了理论基 础和应用基础,为使用i r t 来编制人格测验提供了可操作性。 关键词:人格测验:经典测量理论( c t t ) ;项目反应理论( i r t ) 记分模式;信息函数 a b s t r a c t a sp e r s o n a l j l yt e s t sa r ea p p i j e d 册o f eb r o a d j yi np f a c l i c a lf i e l d ,j lp i a y s am o r ei m p o r t a n tr 0 i e m o s ts t u d i e so np e r s o n a l i t yt e s t sa n a l y z e da n d e x p l a i n e do nt h cb a s i so ft h ec l a s s i c a l1 1 c s tt h e o r y ( c t t ) t h i sa r t i c l e a p p l i e si t c mr e s p o n s et h e o r y ( i l 盯) t o p e r s o n a l i t y t e s t st os c o r ea n d e x p l a i nt h e m 1 nt h ee m p j f i c a ls t u d yo n e ,s c o r ep a t t e r n so ft h et w ot e s t t h e o r i e sa r e a n a l y e s ed t h ed i f f e r e n c e so f s o m es u b s j e c t s s c o r e sa r e c o m p a r e d ,a n df i n a l l yt h ec a u s ei se x p l o r e d t h er e s u l t ss h o w st h a tt h e s c o r e si ni r tt a k et h ep e r f o r m a n c eo fi t e m si n t oa c c o u n ta n dt h es a m e s c o f e si s1 e s ss i m a r ,m o r ea c c o u r a t e ,l e s sm i s c l a s s i f i c a t i o nt h a nt h o s ei c t t i nt h ee m p i r i c a ls t u d yt w o ,m e a s u r e i 驴n te “0 r so ft h et w ot e s t t h c o r i e sa r ec o m p a r e d c t th a so n l y0 n em e a s u f e m e n te r r o ri nt h el e s t h o w e v e r ,i l u b “n g si n t oi n f o r m a t i o nf u n c t i o n ,w h i c hc a nm o r ea c c u r a t c i y e v a l u a t et t l eq u a l i t yo fi t e m sa n dt e s ta n dt h ea b i l i t yo fe x a m i n e e st h a n ( 1 rd o e s , s o “h a sm o r es t r o n gg u i d a n c ei nt e s t a tt h es 柚et i m e ,i i u a l s oo f ! f - e 体t h ct e s t i n f o r m a t i o nf u n c t i o nt om a k et h em a x i u mi n f o r m a t i o na n dm e a s u r ee r r o r s k n o w nm o r ec o n v e n i e n t l yi nt h ec e r t a i nt r a i tl e v e l ,w h i c hp r o v i d e st h e t h e o f t i c a la n dp r a c t i c a lf o u n d a t i o nf o rt h e p e r s o n a i i t yt e s tc o n s t r u c t e d a c c o r d i n gt 0t e s ia c c u r a c y k e yw o r d s :p e r s o n a u t y i e s t ;t h ec i a s s l c a l1 陀s tt h e o r y ( c t t ) ; i t e mr e s p o n s et h e o r y ( i r t ) ;s c o r ep a t t e r n; i n f b r m a t i o nf u n c t i o n 项目反应理论在人格测验中的应用研究 第一部分文献综述与问题提出 l 文献综述 1 1概述 在我国,心理测量的思想和实践有着悠久的历史,中国古代的科举考 试制度就是现代心理测量的渊源。心理测量就是依据一定的心理学理论, 使用( 心理) 测验对人的心理特征进行定量描述的过程i 。其最终目的就 是要对被测心理特征进行定量描述。但是人的心理特征不同于物理特征, 它具有不稳定性和不确定性。那么,如何对这种不确定性的心理特征进行 定量的描述昵? 心理测量( p s y c h o l o g i c a lm e a s u r e m e n t ) 是通过科学、客观、标准的测量 手段对人的特定素质进行测量、分析和评价。它通过心理测验的研究手段 来实现其量的描述。心理测验是对行为样本做客观和标准化的测量的工 具。这个定义中包含着几个要素,即行为样本、标准化、难度与客观性和 信度与效度。从这几个要素可以看出,除了行为样本之外,其他几个要素 都是心理测验所应具备的质量要求。因此,心理测验是心理测量的关键之 处,是决定心理测量是否准确可靠的一个最重要的因素之一。 比奈一西蒙( b i n e t s i m o n ) 的智力测验,是人类有史以来第一个心理 测验,其开启了测验理论的先河。测验理论( t e s tt h e o r y ) ( 或全称叫心 理测验理论j ,也称为测量理论) 是一种解释测验资料问实证关系 ( e m p i r i c a lr e l a t i o n s h i p s ) 的有系统的理论学说。目前主要有三大测验 理论,即经典测量理论( t h ec l a s s i e a lt e s tt h e o r y ,简称为c t t ) 、项 目反应理论( i t e mr e s p o n s et h e o r y ,简称为i r t ) 和概化理论 ( g e n e r a l i z a b i l l i t yt h e o r y ,简称为g t ) 。一童以来,人们基本上都是 以经典测量理论为基础来编制测验、分析测验的,从而完成整个心理测量。 只是近几十年来,出现了在经典测量理论基础上发展起来的项目反应理论 和概化理论( 一般称后两者为“现代测量理论”) 。相对于经典测量理论而 言,项目反应理论更注重向微观层面发展,它对心理的研究分析深入到了 测验的每个项目。而概化理论则更多的是从测验整体这一宏观的角度来 项目反应理论靠人格测验中的应州研究 考察测验的;因此i 上l 可以说,它足经典测量理沦的宏观发展。 相对来讲,在现代心理测量t p 多半是以经典测量理论作为理论指导 的,其次是项目反应理论,应用较少的是概化理沦。就能力测验来讲,以 往都是用经典测量理论为理论指导来进行编制的;但是近些年来,由于项 日反应理论的出现( 它出现的最初原因和目的就是为了克服经典测量理沦 的不足) ,使得能力的测量变得更为清晰和准确,并为测验的编制和解释 开辟了一种全新的方法。目前,项目反应理论已经成功的运用到了能力测 验中,并取得了令人瞩目的成果。由此,项目反应理论在逐步取代经典测 量理论在能力测验方面的主导地位,显示出一种强劲的发展势头和理论生 命力。 但是,对于心理特征( 这里主要指人格特征) 的测量而言,情况却不 尽然。目前国内外对心理特征的测量多是以经典测量理论作为指导,无论 是编制测验还是测验记分、解释等,都是如此。直到2 0 0 2 年,几乎还没 有任何广泛使用的人格测验是使用项目反应理论来编制的1 。2 0 0 3 年,中 国科学院心理研究所对删p i 一2 进行了研究,并在i r t 的理论指导下把其 记分改成了一致性t 分,使得同一被试的不同量表分数、不同被试的同一 量表分数可以直接进行比较,同时,还实现了对这一过程的计算机化操作。 本文首先对国内外在人格测量方面的研究成就作一个简要的回顾,然后对 项目反应理论及其应用现状进行一番梳理,并在此基础上提出本文要研究 的问题。 1 2 人格测验研究现状 人格( p e r s o n a l i t y ) ,也有心理学家称之为性格( c h a r a c t e r is t i c s ) , 指个人在现实的稳定态度和习。| ! f :! 化了的行为方式- 扣所表现出来的个性 心理特征。人格研究是心理学领域的一个重大分支,应用十分广泛,可以 说,它是心理学与社会现实结合得最紧密也最广泛的应用学科之一。一般 来说研究人格的方法大体有两类:一类足研究人格的形成和发展,另一 类是描述性的研究。人格测验便属第二类,这类研究旨在用心理学的方法 埘人格进行测量,拍i 即测量一个人在特定情境。卜经常表现 i j 水的典型行为 项目反麻理论在人格测验中的应用研究 与情感反应。人格测验多达数百种,其所依据的人格理论以及所采用的方 法也不尽相同,但总体来说,主要分为四大类:自陈量表、投射测验、评 定量表和情境测验。 国内外流行的人格理论,一般可以分为两类:类型论和特质论。根据 不同的人格理论编制的人格测验更是种类繁多,其中比较有影响力的有大 五人格测验、1 6 p f 、m m p i 一2 等。这些人格测验在编制、记分和结果解释的 时候,基本上还是在经典测量理论的框架内进行的。而m 肝i 一2 是在m m p i 基础上修订完成的,它不仅在题量上不同于m m p i ,而且在记分方法上也进 行了修改,即把线性t 分记分改换成一致性t 分。 随着社会的发展阻及对心理学认识的逐步深入,人格测验得到了迅猛 的发展。国内外相继涌现了大量人格测验,并且把人格测验应用到许多实 际领域当中,比如心理咨询、心理临床诊断、人员测评与选拔等等。同 时对人格测验本身也进行了大量的理论研究。 目前,我国对人格测验的研究主要集中在以下几个方面:修订国外人 格测验;研究人格测验的性能;在不同的实际领域应用人格测验;对不同 人群进行人格测验的评定;编制中国人自己的人格测验等。 一、修订国外人格测验。目前国内使用的人格测验中,很多都是引自 国外的成型测验。具体操作是先把国外量表翻译成中文,再在国内进行施 测,根据国内的情况对其进行修订。同时制定出国内的常模,以便于对结 果进行解释。这类研究在国内比较多见,尤其是华东师范大学,对这方面 的研究比较多。比如,艾森克个性问卷全国协作组的龚耀文”1 在1 9 8 1 一1 9 8 2 年对艾森克个性问卷进行了修订,华东师范大学的祝蓓晕和戴忠恒1 4 l 在 1 9 8 8 年对卡特尔1 6 p f 量表中国常模进行了修订,1 9 8 1 年出m m p i 全国协 作组垆j 修订了明尼苏达多相个性调查表,2 0 0 1 年华东师范大学的蔡华俭等 修订了心理类型量表( m b t i ) ,等等。 二、研究人格测验的性能。曹小平等1 6 l 在1 9 9 4 年对1 6 p f 中译本常模 2 0 余年的变化趋势进行了比较详细的分析,该研究发现,随着社会的发展, 人格特征结构发生了很大的变化。大多数特征的平均分都有较明显的增 大,原始分在高分区非常集中。如果还以八十年代的常模来进行参照的话, 项目反应理论在人格测验中的应j j 硼f 究 那么就会出现标准分较低的被试比例特别少、较高的被试比例特别多的情 况,不利于结果解释。因此,该研究建议,常模应是动态的,也即应对常 模进行经常性的修订。杨坚等”1 对四种常用人格测验( e p q 、1 6 p f 、删p i 和c p i ) 的性能进行了比较详细的比较,为有选择的使用人格测验提供了 参考。 三、在不同的实际领域应用人格测验。随着心理学的蓬勃发展人格 测验的应用越来越广了,具体来讲主要有以下几个方面:心理临床渗断、 心理咨询、人员测评与选拔。王益明【8 】把1 6 p f 测验应用到大学生心理健康 渗断分析中。李彦章【9 l 对人格测验在人格障碍诊断中的运用进行过评价性 研究,结果表明这种诊断的准确性在逐渐的提高。北京师范大学的徐晓锋 和车宏生【”】探讨了把人格测验运用到人员选拔方面的问题。他们指出,人 格测验在人员选拔中的研究主要集中于预测源方面,即侧重对人员的绩效 进行预测的有效性问题进行研究。中国人民解放军南京军区的黄丽婷等 1 1 应用y g 人格测验对护士进行测定,发现了护士的人格特异性指标, 在开发适用于我国护士及护士长的职业人格测评工具方面作了一定的研 究。 四、对不同人群进行人格测验的评定。在这方面的研究有很多,其方 法是,把人格测验应用到不同的人群,对其进行测定,从而发现不同人群 的人格特征。例如,罗正学等”1 把m b t i 量表应用到军校大学生的人格类 型分析,并对男女生的人格特征进行了比较。粱铁成1 1 3 1 用1 6 p f 对警察分 离人员的人格特征进行了分析。王敬群等“运用1 6 p f 对高校中青年学科 带头人的人格特征状况作了调查分析。 五、编制中国人自己的人格测验。从心理学研究一开始,我国就在尝 试着编制自己的人格测验,但一直没有取得较大进展。只是到近些年来, 这一方面的发展才比较迅速,国内陆续出版了一些信度和效度都较好的人 格测验。比如,王登峰等“”编制的中国人人格量表( q z p s ) 和中国人人格 七因素量表( q z p s s f ) ,他们在编制这份中国人人格量表时做了很多的 相关研究,并对其信度和效度也分别进行了研究。香港大学的许志超等【圳 编制了“华人工作相关人格量表”( c p w ) ,该量表具有良好的信度和效度, 4 项目反应理论在人格测验中的鹿 i ! | 研究 可以用于人事选拔、员工培训等广泛的应用领域及研究领域中。应艺术院 校选拔、招收及培训影视话剧表演人才的实际需要,张景焕等1 编制了影 视话剧表演人才人格量表。这些量表的编制和已分基本上都是以经典测量 理论为理论指导,而且它们的记分和解释原则也处于经典测量理论的框架 之内。 但是,目前学界对有关人格测验本身的测量理论方面的研究却不是很 多。根据笔者的资料搜集,只有几篇相关研究文献。如张厚粲等【1 8 l 探讨了 使用经典测量理论和项目反应理论,并对1 6 p f 进行记分解释的比较研究。 然而,他们并没有深入分析其差异原因,而只是把两种分数同时按照不同 的方法转换到z 分数中来,然后再对z 分数进行比较,得到的结论就是二 者相差0 1 1 个标准差。最后,通过他们的研究得出了一个很有价值的结 论:l r t 方法比c 丌方法更为准确可靠,它能够更细致的区分测试结果, 所以作者建议应该在人格测验中尝试使用i r t 方法。 国外在人格测验方面的研究起步较早,而且人格测验的发展程度和重 视程度都是我国目前所无法比拟的。他们不仅对i r t 在人格测验的具体应 用有很多研究,而且在对它的记分、解释方面做出了很多有意义的研究。 在对人格测验的具体应用的研究方丽,国外与国内的研究状况相类似,因 此在这部分就不再作介绍,这里仅侧重回顾一下国外对人格测验的测量理 论研究。整体而言,国外的大量研究都是以与传统记分方式不同的项目反 应理论来分析测验的,比如r e n s el a n g e 和j a m e sh o u r a n 【1 9 j 使用l r t 对m a c d o n a 吲s 芦i t 2 0 进行记分分析,r a p s o ng o m e z 等【2 0 l 应用l r t 分 析b l s b a s 量表,r a p s o ng o m e z 和j o h nw f i s h e r l 2 1 ) 运用1 只t 分析主 观幸福感量表,p e r ej f e r r a n d o 和u r b a n ol o r e n z o f 2 2 j 应用l r t 分析人 格测量中的反应稳定性问题,尸e r ej f e r r a n d o f 2 3 】应用i r t 分析了人格测 量中的被试稳定性问题,等等。 s t a g e cf 2 4 i 【2 5 l 1 2 7 1 ( 2 8 l 曾把项目反应理论应用到瑞典学术倾向性测 验,即s w e s a t 测验( t h es w e d i s hs c h o j a s t i ca p l j i u d et e s t ) ,并做过一 系列的研究,分别研究了该测验中的四个分测验,并且对运用两种测量理 论的结果进行了比较。其主要关注的是这两种测量理论在项目分析与测验 5 项耳反心理论在人格测验中的应 j i i j f 究 设计方面的区别。所采用的方法则是,先将1 9 9 6 年春和1 9 9 7 年春的测试 分别定为前测和常规测试,然后分别计算经典测量理论中的p 值( 即难度 值) 和二列相关暑( 即区分度值) ,同时也用b i l o g w 软件分别计算出项 目反应理论中的b 值( 也是难度参数) 、a 值( 也是区分度参数) 和c 值 ( 猜测系数) 。把两次测试的对应p 值和b 值分别进行比较后发现,二者 之间存在非常大的相关( r 一9 0 ) ;同时也把两次测试对应的0 和a 值分别 进行比较,二者相关分别为r = 7 4 和r = 7 6 。这说明,这两种测量理论对测 试结果的解释将会有很大差异,尤其是对区分度的解释分析。 另外,r 0 b e r tj h a r v e va n dk s l i ea 1 m 娼1 2 9 1 使用i r t 来分析m b t i 量 表,主要是研究了偏好分数的双峰性问题和划界分数附近的测量误差问 题。结果发现c t t 分析的有效性严重依赖于偏好分数的双峰性,而事实 上数据往往并不支持双峰性要求。但是,i r t 却并不要求数据满足双峰性, 而只要求在各个特质水平段上都具有足够多的被试量。因此相对于c t t , i r t 分析的条件更容易被满足。在对划界分数附近的测量误差问题的研究 中发现,c t t 分析中有大量被试分数处于划界分数附近。这增大了对划界 分数附近被试进行类别判断的误差。而i r t 分析中分数雷同的被试数明显 更少,在划界分数附近的被试量也更少,因此在这个区域的测量误差更小、 测量精度更高。 从以上对国外人格测验的研究回顾来看已经有很多研究使用i r t 来 分析人格测验。并且,大多研究结果都表明,两种测量理论下的人格测验 分析和解释结果存在很大差异:在使用i r t 对人格测验进行分析之后,对 测验的解释更加准确。但是,国外火部分研究仅考察两种测量理论使用后 的相关性和差异性,并没有深入到两种测量理论的本质差异,以及分析它 们的记分模式。也很少有人去研究在i r t 框架下编制的人格测验。 总之,尽管国内外有大量研究把i r t 应用到人格测验,并对i r t 和c t t 两种框架下的分析比较进行了许多研究。但是。多数研究只是指明了它们 之间存在着很大的差异,而并未对产生差异的原因进行洋尽的研究和说 明。 1 3 项目反应理论及其在心理学中的应用状况 1 3 1 项目反应理论 项目反应理论是在克服经典测量理论的一些缺陷的基础上逐步发展 起来的一种测量理论。其理论基础是潜在特质理论,主要揭示被试在测验 项目上的反应行为与测验所测的被试潜在特质之间的关系。它假定被试在 特定测验中的反应受某种心理特质( 因其不能直接测定,故称之为“潜在 特质”) 支配,从而对这种特质进行测定。估计出该被试在这种特质上的 分数,并据此进行解释和预测其行为表现。 一般认为,美国学者洛德( l o r d ) 和丹麦学者拉希( r a c h ) 创立了项 目反应理论,以洛德在1 9 5 2 和1 9 5 3 年第一次提出的双参数正态肩形曲线 模型( 第一个正式的项目反应模型) 为创立的标志。该理论发展至今已有 5 0 余年的历史,到现在越来越完备,其应用范围也越来越宽广。我国则是 在八十年代初期,由北京师范大学心理系率先丌展了对项目反应理论的介 绍和研究工作。此后,广州、上海、北京、南京、山西、湖南和江西等地 的许多单位,陆续相继开展了对项目反应理论的研究与应用。这二十多年 来,我国的心理学界对此进行了很多有价值的研究,并取得了非常突出的 成绩。 相对于c t t 而吉,i r t 具有许多优越性。经典测量理论可以得到的信 息,项目反应理论部可以从更高的层次上、更可靠的意义上获得。可以说, i r t 的出现使得心理测验领域发生了全新的变化。其相对的优越性主要表 现在以下几个方面:i r t 在估计被试潜在特质时,同时考虑被试的作答 模式,因此对于原始得分相同但作答模式不同的被试,也往往能提供不同 的特质估计值。这一特性是c t t 所无法比拟的,在c t t 分析中,并没有考 虑到被试的作答模式的差异性。i r t 可以针对每个特定被试提出其特质 估计值的测量误差指标,而不是以一个笼统的标准误。来代表测量误差 因此能够比较精确的提供不同特质水平被试的特质估计值的测量误差。 i r t 所采用的项目参数不依赖于被试样本,也不依赖于特定的项目或测验。 因此项目参数具有拓广性,而被试在不同的同类测验上的得分也具有可比 项目反应理论在人格测验中的廊j h 研究 性。这一点也是c t t 无法做到的。i r t 提出的项目信息函数和测验信息 函数的概念,可以作为评定个别项目或整份测验的测量误差的指标,较之 于传统的“信度”概念就显得更为精确可信。 1 3 2 i r t 在心理学中的应用 目前,项目反应理论已经在能力与成就测验以及心理与教育方面取得 了相当大的成就。不仅用i r t 对这类测验进行编制、等值、记分和结果解 释,而且国内外还建立了大量的已标定参数的题库,并实现了计算机自适 应测验形式。鉴于i r t 在能力与成就测验中的成功运用,国内外也有许多 研究者开始借鉴其经验,并运用i r t 来对人格测验进行研究。前文已经回 顾了国外在这方面的研究,此处不赘。 近年来,国内陆续出现了一些关于这方面的研究。主要有:张厚粲与 朱宁宁用l r t 与c r r 两种方法对人格测验结果处理进行了比较研究。华东师范 大学的唐宁玉、戴忠恒l 圳在1 9 9 5 年采用项目反应理论来编制现代性量表,对被 试实施初步编制的现代性量表;对获得数据运用经典测验理论对项目进行统计 分析及筛选工作;对筛选过的项目进行模型拟合性检验;根据测验信息函数选 择项目;确定一2 至2 区间内允许的标准误为o 4 0 ,转化为测验信息函数值为6 2 5 , 模拟项目信息量的大小选择在2 、1 、o 、1 、2 尺度上都能达到此值的项目。从 整个过程来看,运用项目反应理论比经典测验理论要更费时费力,但它得到的 结果却更为可靠。研究结果表明,应用i r t 编制量表,在满足假设的情况下, 可使量表既简便,又有较高的精度,效度研究表明本研究编制的现代性量表有 较高的效度。辽宁师范大学的郭庆科和周晶( 3 ”对不同的i r t 模型在l i k e r t 量表 分析中的有效性进行过研究。他们采用5 级记分的情感能力量表,但实际上是 通过一定的操作把他们分别改为2 级和3 级记分形式,再对三种记分形式中i r t 模型的总体拟合指数进行了比较。结果发现各分量表的平均膏方值都很小,而 且各项目卡方都未达到显著水平,说明不同模型都是拟合的。在三个两级i r t 模型中,2 p l m 与数据的拟合是最好,而且测量精度也最高。另外还对不同模型 的测量精度作了比较,5 级评分模型是测量精度最高的,因此作者建议,如果 条件具备,应尽量采用评分等级多的测验形式和测验模型。2 0 0 5 年郭庆科 等”还对自陈量表式测验应用i r t 的可行性进行了研究。对采用5 级评 婴旦星窒里笙垄塑塑竺! 竺壁塑婴壅 。 分l i k e r t 式测题的情感能力量表的分析表明,各分量表项目都有较好的模 型一数据拟合性,而且显示了参数估计的不变性,以及与c t t 参数的关联性。 这些都表明l i k e r t 量表应用i r t 模型的假设条件得到了满足,即i r t 应用 是可行的。研究还表明i r t 能对测量精度进行更精确的估计。 杜文久“” 从概率函数的角度考察了项目反应理论框架下多级评分项目的信息函数。 江西师大“现代教育和心理测量通用分析系统”研制组”用信息函数法 对标准参照测验作过质量分析。 纵观以上对国内外关于i r t 在心理学中的应用状况可以发现,尽管已经 有很多的研究把l r t 应用到了心理学中,但他们在对c t t 和i r t 进行比 较研究时,只做出他们之间存在差异的结论丽并不深究产生差异的原因。 而且,在用信息函数对人格测验进行研究时,大部分也只是证实可以用信息 函数来分析人格测验,却没有拓广信息函数在人格测验编制中的更进一步的运 用。 1 4本研究涉及的基本概念 本节对本研究中所涉及的一些术语的基本概念进行说明,试比较两种 测量理论中对应概念。 1 4 1记分模式 对试卷或测验中的每个项目进行数字赋值的过程,就称为记分。数字赋值 的方法就是记分模式。根据所依据的测量理论的不同,目前有两种记分模式。 一种是线性记分,即所有的项目都有相同的记分权重。也即,答对项目个 数与总得分之间呈线性关系。比如,选对1 题得1 分,那么选对任意两题都是 得2 分;两个被试都正确作答了4 0 个题目,那么无论他们正确选择的是哪些题 目,他们都会得到4 0 分的总成绩。c r r 的记分模式是线性记分,对于所有的项 目都是给予同样的记分权熏。这种记分方式的优点是操作简单、解释方便,其 缺点是鉴别力低、信效度较差。 另一种是非线性记分,即不同项目根据其不同性能具有不同的记分权重。比 如两个被试都难确作答了4 0 个项目,但是出于正确作答的项目的性能参数不同 ( 比如,能力测验中的区分度参数或难度参数不同) ,他们的得分很可能会很不 一样。同样的,正确作答项目个数并不一样的两个被试,也很有可能得到相同 的分数值。l r t 的记分模式是非线性记分,是根据项目的难度和区分度的不同 型塑星生堡堡垒竖塑堕! ! _ ! ! ! ;! 堕型型 堑 来给予不同的权重。即对于同样难度的题曰,被试正确作答区分度大的题 目比正确作答区分度小的题目所得的分数要高;同样,对于i 司样区分度的 题目,被试正确作答难度大的题目比正确作答难度小的题目所得的分数也 要高。非线性记分的优点是充分考虑了项目的性能差异,减少了测量的误 差,其结果也更容易被理解。其不足之处是操作繁杂、费时费力。 以能力测验为例对两种记分模燕进彳_ 亍详绷的瞄较分析。假如有一个测验 只有3 个l 、o 记分的选择题( 豢际上3 介项目对于一个测验来讲是不够 的,这里仅仅作为研究目的) 。”1 。假定该测验满足单维性条件,则可以选 用单维三参数l o g i s “c 模型,通过计算得到各个项目的参数以及3 个被试的作答 模式如下表所示: 表一 在得知项目参数和被试的作答模式的情况下,可以根据所采用的单维三参 数l 0 9 i s t i c 模型,即 一 l - c r 【h j - c + 了_ = :i 元两:百 t 通过极大似然估计,估计出被试的能力值( o ) ,列入上表最下一栏。可以 看出被试2 和被试3 都是正确回答了两个项目。如果按照以线性记分的c 】广r 的记分方法,那么得分都应该是2 分,没有差别。但是,如果按照以非线性记 分的i r t 的记分方法,根据其不同的项目参数,所计算得到的得分却不相同, 即被试2 为o 9 0 、被试3 为1 5 0 。 尽管被试2 和被试3 都是正确回答了两个项目,但是他们的作答模式却不 相同。两个被试都正确回答了第一个项目,但被试2 正确回答了第2 个项目, 而被试3 f 确回答了第3 个项目。项目2 和项目3 的项目参数如上表所示,猜 测系数c 是相同的,难度值b 也比较接近,但是区分度a 却很不一样。第3 个项 目的区分度参数明显大于第2 个项目,所以给前者所分给的权重要更大,也因 此f 确回答区分度参数更大的项目的被试所得到的最后得分要更高。这就是为 什么都是f 确回答了两个项目,可他们的得分却很不一致的原因。这样就可以 根掘正确作答的项目的性能,给被试以合理的分数。 很明显,根据项目的性能来指派记分权重的记分方法更容易被理解,也更 “) 项目反应理论在人格测验中的麻用研究 能深刻的说明问题。因此可以说,i r t 记分相对于c t t 更具有合理性。 1 4 2测量误差 史蒂芬斯( s s s l e n e n s ) 蜕:“就其广义来讲,测量是按照法则给事物指 派数字”。测量是对个物理量或被测特质采用某种手段得到真值的过程。真值 是被测量对象的真实数值大小,是个理论值,无法实际测量到。但在测量过程 中,采用一些手段得出被测对象的真值时,由于测量工具、测量外在条件、甚 至测量对象本身的原因,都会使得测量结果与其真值不同,这个误差即是测量 误差。 任何测量结果都有误差,这是因为测量工具、方法、环境及实验者等都不 可能完美无缺。分析测量中可能产生的各种误差并尽可能消除其影响,对测量 结果中未能消除的误差作出合理估计,是测量的重要内容。测量误差根据其性 质和来源可分为系统误差和随机误差两大类。产生测量误差的原因很多,概 括起来有下列几个方i | 孬,即测量工具、被测对象以及施测过程”“。 两种测量理论( c t t 和i r t ) 对测量误差的理解并不完全一致。c t t 中的测量误差是建立在信度概念之上的,而信度又是平行测验下的产物。 一个测验只有一个测量误差。也就是说,对于所有特质水平的被试都具有 相同的测量误差,而且无法得知单个项目的测量误差,只知道测验的整体 测量误差。而且这个测量误差是特指该批被试的测量误差,而不能作出任 何其他被试范围的拓广性解释,除非被试样本具备充分的代表性。i r t 中 的测量误差是建立在信息函数概念基础上的,与信息量的平方根成反比。 它不使用依赖于平行测验的信度指标,而是深入到去分析每一个项目在每 个特质水平处所能提供的信息量的大小,从而分析每一个项目在每个特质 水平处的测量误差,并得出整个测验在各个特质水平出的测量误差,以这 些指标对测量的可靠程度作出估计。对同一个项目来说,它能根据被试的 特质水平的差异提供不同信息量。它也能对不同特质水平的被试提供对应 的信息量和测量误差,并且能汁算测验信息量和测验的测量误差。总之, c t t 中的测量误差是依赖性的概念,而i r t 中的测量误差却对被试以及测 验都没有依赖性,因此后者的测量误差的适应性更强。 项目反应理论在人格测验中的应川研究 1 2 问题提出 国内外对人格测验的研究( 包括测验编制、记分和解释评价等) 基本 上都在经典测量理论的框架内进行,但是对能力测验的研究却- 丌始使用新的 测量理论( 即项目反应理论) ,并且已经取得了十分可喜的成就。一方面建构了 大量的题库,能够在项目反应理论框架下直接生成符合既定要求( 比如,测量 精度要求) 的能力测验,同时也能够实现计算机自适应测验。这大大提高 了工作的效率以及测试的准确性。 根据本人对资料的收集和整理,目前国内这方面的研究并不多见。张 厚粲等在人格测验基础上,对1 6 p f 做过两种测验理论( 即c t t 和i r t ) 上 的比较研究。国外近些年来,已经有很多关于把项目反应理论应用到人格 测验中的研究成果,但基本上也是一些对两种测量理论的性能进行比较的 研究,没有能够深入研究产生性能差异的原因。目前一个主要的研究方向 就是,对人格测验的记分和解释进行尝试性的改革,即由原来的c t t 框 架下分数解释换成i r t 框架下的得分分析和解释评价。但是很明显,人格 测验的整个框架依然是经典测量理论,c t t 依然是人格测验编制的指导理 论。由于c t t 本身所固有的缺陷和不足,使得它越来越难以满足人们的 要求,包括测量精度要求、效率要求等。这也就是本研究尝试去解决的问 题。 人格理论越来越受到关注,依据人格理论所编制的人格测验的应用也 越来越广泛,比如临床研究、学校咨询、人才测评等。但是,人个测验的 建构原理及技术基本上都处于经典测量理论的框架之内。另一方面项目 反应理论也在逐步得到认可,目前它不仅在教育领域( 比如能力的测量) 取得了显著的成就,而且已经被应用到人才测评方面。江西师范大学在项 目反应理论的研究和应用方面做出了很多成绩得到了国内外专家的普遍 认可。目前江西师范大学正在着手“党政领导干部行为情景判断自适应测 验开发编制研究”这一工作,因此,项目反应理论的应用将会变得更加广 泛。这也说明,项目反映理论的优越性也越来越得到人们的关注与认可。 但是,使用项目反应理论对人格测验的理论研究并不多见。 本研究试图通过使用l r t 对人格测验进行两个方面的实证研究,以期 项目反虑理论在人格测验中的戍心研究 获得以下几个方面的意义。其一,拓广项目反应理论的实际应用。目前 项目反应理论在能力或成就测验的研究中取得了重大成就,而在人格测验 中的研究并不多见。通过这个研究,期望能在人格测量中体现项目反应理 论的优越性。其二,提高人格测验的测量准确性,使人格测验在社会生活 中发挥更大的作用。由于c t t 固有的缺陷,其所得到的常模具有严重的 样本依赖性和测验依赖性,因此在对新数据的结果进行解释的准确性不 高。但是i i 盯却不依赖于被试以及测验,其结果解释具有稳定性和可拓广 性。所以,把i i 玎应用到人格测验,应能提高人格测量的准确性。其三, 为编制人格测验指出新的方向,即在项目反应理论的指导和框架下来编制 人格测验。这种方法编制人格测验,将能够得到满足所需要的测量精度等 要求的测验。 因此,本研究的主要思路是,先从两种测量理论的记分模式着手,对 二者进行详细的比较。然后,再通过测量误差,分析项目反应理论下如何 测定和控制测量误差及如何提高测量精度,为人格测验编制开辟一条崭新 的道路。 本研究的研究工具是s p s s l l 5 以及江西师范大学教育与心理统计所 编制的测量通用程序( a n o t e l 6 0 ) 。 第二部分实证研究i 1研究方案 这个部分主要是对记分模式进行研究。对两种测量理论下记分的结果 进行比较研究,分析得分不一致的被试作答模式的差异,并试图解释产生 差异的原因。最终凸现相对优越的记分模式。在这里,得分不一致的情况 有两种:c t t 得分相同的被试获得的i r t 分数却不相同,以及i r t 得分相 同的被试所得的c t t 分数有差异。同时还对类别判断的准确性进行简单 的研究,比较两种测量理论在这方面的表现情况。 2 数据及材料来源 本研究以1 6 p f 测验为例子,对人格测验进行记分模式方面的研究。 选择该测验的原因在于,该测验应用非常广,而且其效度和信度都得到了 广泛的认可,因此其对人格测验的代表性非常好。由于该测验是由1 6 个 相对独立的特质构成,所以拟分析其中的一个特质,即h 特质( 即敢为性 分测验) 。本研究中的数据来自某大学的心理健康普查,从中随机抽取了 9 3 2 名被试作为样本。 3 研究过程及结果 按照华东师范大学戴忠恒、祝蓓坦1 9 8 8 年修订的卡特尔1 6 p f 测验的 记分方法,三个选项被分别给予o 、l 、2 不等的得分。由此可知,其采用 的是线性记分方法。尽管对人格量表的作答没有对错的分别,但是这罩存 在一个倾向的问题。例如,考察h 分测验,所有的项目都应该具有朝着敢 为性或退缩性任一个方向的倾向。本测验把所有朝着敢为性倾向的作答记 为2 分,把所有朝着退缩性倾向的作答记为0 分,而把倾向性不明显的作 答汜为1 分。问题是倾向的明显与不明显程度到底如何,无法从这里的记 分中得到数字上的细致区分。只知道这个项目是测查被试是偏向哪一方 向,却无法比较任意两个类似项目的偏向程度的差异性。 而这种项目中存在的倾向程度的差异性,会直接影响对被试的特征倾 堡旦星生堡堡垒塑型竺! 塑壁塑婴堑 : 向的判断,从而导致增大对其评判的可能出现的误差。通过下面例子的分 析可以发现项目间是否存在倾向程度的差异性。例子巾的两个项目都是h 分测验中的,在原手册解释中,它们对敢为性特质倾向程度具有同样的鉴 别力。通过比较可知,在用i l 玎进行分析时,两者对该特质倾向程度的鉴 别能力是不是一样的。 比如,第1 0 和第3 6 题都是有关公共场所的。两题分别是: 1 0 、在群众聚会中,我:( a ) 谈吐自如;( b ) 介干( a ) 、( c ) 之间;( c ) 保 持沉默。 3 5 、在公共场合,如果我突然成为大家注意的中心,就会感到局促不安:( a ) 是的;( b ) 介于( a ) 、( c ) 之间;( c ) 不是的。 这两个项目在原有的记分方式下,具有相同的意义和分量。也即, 在第1 0 题上得2 分和在第3 6 题上得2 分具有相同的意义,在这两个项目 中的任一项目上所得的2 分对于最终评判被试的敢为性特质所起的作用是 一样的。但是,很明显,“群众聚会中能谈吐自如”与“在公共场合成为 注意中心不会局促不安”这二者反映出的敢为性倾向的程度并不一样。根 据常识可以知道,“谈吐自如”和“不会感到局促不安”之间是有程度差 异的,也即能“谈吐自如”应该比“不会感到局促不安”具有更大倾向或 程度的敢为性特质。同时。本人还专门咨询、请教过相关专家,他们认为 就敢为性层面来讲,“谈吐自如”和“不会感到局促不安”二者之间,的 确存在很大的偏向程度差异。但这种差异性的程度在原有的记分方式下, 并不能显现出来。 丽如果改用项目反应理论的非线性记分方式,通过其参数估计,则可 以清晰的得出二者之问的敢为性偏向程度的差异性。由于i r t 有三种参数 模型( 单参数、双参数和三参数) ,但在人格测验中一般认为是不会出现 猜测的,所以选用双参数模型。又由于1 6 p f 测验中的h 分量表是测查敢 为性特质的,为单一特质因素,满足单维性要求,所以选用单维双参数 l o g i s t i c 模型对其进行分析。这两个项目的参数分别如表二所示 表二 项目反应理论在人格测验中的应用研究 从上面参数列表可以看出,在该两题上得2 分时的水平值( 即b 2 值) 也是不一样的,第1 0 题的值要高于第3 5 题的对应值。也就是说,如果两 个被试在其他项目上的作答模式都相同,而在这两个项目上是分别得2 分 的话;那么在i 盯i 己分的情况下,在第1 0 题上得2 分的被试就比在第3 5 题上得2 分的被试所得到的敢为性特质值要高,而用c t t 记分时,两者 分数并没有差别。 根据以上分析可知,使用项目反应理论的记分方式,将对特质评判的 准确和精确性提到一个新的高度,它对项目和被试都有更精细的区分力。 以下就是以1 6 p f 测验中的h 因素( 即,敢为性) 为例,对其以两种不同 的记分方式进行记分,从几个侧面来分析两种记分方式的不同之处,以凸 显出相对优越的记分方式。 3 1 相同c t t 得分被试的i r t 得分分析 由于i r t 是根据项目的不同性能特征对其进行记分的,而传统的c t t 指导下的记分原则却没有考虑项目的性能特征差,因此两种记分方式得到 的分数必然会有差异。本小节是对相同的c t t 得分的被试进行分析,比 较其i r t 得分的差异性,并分析其原因。当然,并不是所有的传统记分方 式下得分相同的被试,在i r t 框架下的得分都不尽相同,肯定也有得分接 近甚至相同的情况。但限以篇幅,我们这里只分析其有差异的一面。 由于在原有的记分方式下,是把得分低于3 分的划为退缩性,而把得 分高于8 分的划为敢为性。因此在这里,我们取在c t t 记分形势下得分 为3 和8 的两种值进行比较。标准分为3 的被试人数为7 3 ,标准分为8 的被试人数为5 2 。 ( 一) 部分得分为3 的被试以及他们的作答模式如表三所示: 表j 1 03 53 66 06 l8 58 61 1 01 1 11 3 5 1 3 6 1 6 1 1 8 6原分标准分 8 值 2 5 9 3 1 0 1 30 0 010100012016 31 4 2 9 9 2 5 9 3 1 0 6 50 0 00 0 20000102531 8 3 8 8 2 5 4 1 1 0 0 900 00 02 0 100100432 1 3 3 8 2 6 8 1 1 0 5 610 00 0l00011 02631 0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论