(应用心理学专业论文)人格likert量表计算机化自适应测验的初步探索.pdf_第1页
(应用心理学专业论文)人格likert量表计算机化自适应测验的初步探索.pdf_第2页
(应用心理学专业论文)人格likert量表计算机化自适应测验的初步探索.pdf_第3页
(应用心理学专业论文)人格likert量表计算机化自适应测验的初步探索.pdf_第4页
(应用心理学专业论文)人格likert量表计算机化自适应测验的初步探索.pdf_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 目前,以项目反应理沦( i f e mr e s p o n s et h e o r y ,简称l r t ) 为基础的计算机 自适应测验( c o m p u t e f i z e da d a p l i v et e s t i n g ,简称c a t ) 在人格测量中的 运用远不及教育测量,本研究将对c a t 在人格l j k e r t 量表中的运用作出 初步探索。 本研究有前言、实证研究和讨论与结论三部分,在前言部分主要介 绍了i r t 的基本概念及c a t 应用于人格测验的研究现状。实证部分中 采用特质焦虑量表的真实作答数据,分四级计分和三级计分两种作答模 式模拟c a t 。模拟研究结果发现尽管人格数据的单维性不是很理想,但c a t 的各种测验规则的研究结果与纸笔测验的结果仍有很高的相关。第三部分讨论 分析了研究的结果,发现c a t 在人格l i k e r t 量表中的运用具有可行性并有光明 的前景,得出结论如下: ( 1 )人格c a = r 对被试特质水平差异的分辨力更强 ( 2 ) 人格c a t 更高效。 ( 3 ) 人格c a r 的结果更直观。 ( 4 ) 人格量表目的是诊断被试时,c a t 应采用临床诊断规则作为测验终 止规则。 关键词:人格测验;项目反应理论;单维性;计算机自适应测验 a b s t r a c t c o n t e n t :a tp r e s e n t ,t h ea p p l i c a t i o no fc o m p u t e r i z e da d a p “v et e s t i n g ( c 气tj ns h o r t ) b a s e do ni t e mr e s p o n s et h e o r y ( i r ti ns h o n ) i np e r s o n a l i i ym e a s u r e m e n ti sm u c hl e s s t h a ni ne d u c a l i o nm e a s u r e m e n t 1 1 1 i ss i u d yw o u l de x p l o r eo nt h ea p p l i c a t i o no fc a t i nal i k e n s c a i eo fp e r s o n a l i t y t h i ss t u d yc o n s i s t so ft h r e ep a r t s :i n t f o d u c t i o n ,e m p i r i c a ls t u d ya n dc o n c l u s i o n i n i n i r o d u c t i o n ,t h eb a s i cc o n c 印to fl r tj so u t l i n e da n dt h ec u r r e n ts i u d i e so nl h e a p p l c a t i o no fc a r j np e r s o n a l j t ym e a s u r e m e n la r ej n t r o d u c e d 1 ne m p i r i c a lp a r t ,c h e a u t h e n t i cr c s p o n s e sd a t ao ft r a i ta n x i e t ys c a l ea r eu s e dt os j m u i a t ec a t 1 nt h i s m e t h o d ,s j m u l a t i n gc a r i sc o n d u c t e dt ot w om o d e so fr e s p o n s e sd a l a :f o u r _ p o j n ta n d t h r e e p o i n tr e s p e c i i v e ly t h es t u d ys h o w st h eu n i d j m e n s i o n a l i t yo fp e r s o n a i i t yd a t ai s n o tj d e a l ,b u tr e s u l i so fv a r i o u st e s tf u l e si nc a th o l dh i g hc o r r e l a t i o n sw i i ht h o s ei n p a p e r p e nl e s t i nt h et h i r dp a r t ,ad i s c u s s i o ni sm a d eu p o nt h er e s e a r c hf i n d i n g s o n t h ew h o l e ,t h e a p p i i c a t i o n o f ( :a :rj n p e r s o n a l i t yl i k e r t s c a i ei s f 色a s j b l ea n d p r o m j s i n g f o u rc o n c l u s i o n sa r ep r e s e n t e d : ( 1 ) t h ep e r s o n a l i i yc a t i sb e t c e ra td i f f e r e n f i a t i n gc h et r a i ll e v e io f s u b j e c t 1 ( 2 ) t h ep e r s o n a l i t yc :a :ri sm o r ee f f i c i e n ti h a np a p e r - p e nt e s l ( 3 ) t h er e s u l l so f l h ep e r s o n a l i l y ( 、a ta r em o r cs t f a 蟾h t f o n v a r d ( 4 )p m v i d i n gt h ep u r p o s eo fat e s ti st od i a g n o s et h ee x a m i n ;e ,t h ei e r m j n a i r u i eo fm e p e r s o n a i i t yc 6 i ts h o u l da d o p tc 1 n i cd i 8 9 n o s i sr u l e k e yw o r d s :p e 瑚o n a m yt e s t ;i t e mr e s p o n s et h e o r y ;u n i d i m e n s i o n a t y ; c o m p u t e r i z e da d a p t i v et e s “n g 1前言 1 1引言 一 心理测验是对人的各种特点进行了解、比较的一种工具,广泛应用于社会 生活各个方面,依据测验测量的事物的特质的不同,测验可以分为认知测验和 人格测验两大类。认知测验又称为能力测验,这类测验主要包括智力测验、能 力倾向测验两大类;人格测验测量的是个性中除能力以外的部分,它主要用于 测量人的性格、气质、兴趣、态度、品德、情绪、动机等方面的个性心理特征 及其相关行为【”。人格测验的主要方式是用业已标准化的测验工具,引发被试 陈述自己的看法,然后对结果进行统计处理和研究分析,从而对人的价值观、 气质、性格等素质特征进行测量与评价。目前,人格测验在工业和组织心理学 中也越来越受到重视( h o u 曲s c h e i d e r ,1 9 9 6 ) ,比如在人才的选拔这个环节, 人格测验已成为招聘工作不可缺少的一部分,它有助于在对应聘者的知识、能 力和技能考察的基础上,迸一步考察其工作动机、工作态度、情绪的稳定性、 气质、性格等心理素质,从而保证能够选拔出具有较高素质的优秀人才。自从 2 0 世纪8 0 年代中期以来,已经出现不少关于人格变量对预测重要工作成果的 元分析( 例如b a r r i c k & m o u n t ,1 9 9 1 ,1 9 9 3 ;w i s w e s v a r a n ,& s c h m i d t ,1 9 9 3 ) 1 2 】。 1 9 3 2 年所发展的单向度量化的“k e r t 量表是一种结构明确的问卷测验,它 是目前人格测验中使用最普遍、最广泛的一种量表形式。l i k e r t 量表项目的基 本形式是给出一组陈述,这些陈述都与被试对某个单独事物的态度有关,选项 两端标示为同意和不同意类似的词语,由被试从中选择。在经典测验理论 ( c l a s s i c a lt e s tt h e o r y ,简称a r r ) 中,l j k e r t 量表规定被试的分数为各项目得 分的加总,所以l i k c r t 量表有时也称求和量表( s u m m a l e ds c a l e s ) 。许多人格问 卷中的项目数量很大,如m m p i 一2 有5 7 6 题、m o r c y 编制的人格测量手册中有 3 4 4 道题、西方大五人格量表( c o s t a m c c r a e ,1 9 9 2 ) 有2 4 0 道胚,测试方式 是要求所有被试回答一样的项目,测验项目量大所带来的最大问题就是测验时 问较长,导致被试出现厌烦情绪,降低被试参与作答的动力,使得测验的效度 降低,另外还增加测验时间和成本。 实际上,有些项目对某些特质水平的被试而言是多余的【3 j 。如在一份考试 焦虑自评量表中,每题有二个选项:赞成、反对,有这样两题。 ( 1 ) 在考试时,我感到十分紧张 ( 2 ) 在考试中,我会沉浸在空想之中,一时忘了自己是在考试 如果被试对第一题的答案是“赞成”,便可预测被试对第二个问题的答案是“反 人格l i k e r i 量农计算机化白适应洲验的初步探索 对”,一个对考试非常紧张的被试在考试中是不可能忘了自已在考试,因此第二 个问题对于这个被试而言是没有价值的,它并不能提供其它有用的信息。在测 验过程中,如果能探测出项目对破试特质水平的估计提供信息的多寡,就可以 有针对性的选择项目,测验的效率也将得到提高。建立在l r t 模型上的c a t 已 经证明在能力测验中能做到这点,并且不会降低测验结果的精度( c f w e i s s , 1 9 8 5 ) 1 4 j o 如柴在人格测验能够借鉴。玎这一形式,利用它的原理,即根掘被 试对项同的作答米选择与被试特质水平相符的测验项目,因人施测,是否也能 获得c a t 在能力测验上的优良特性? 本研究将就这一领域作出初步探索。 t 1 2 研究综述 1 2 1i r t 的基本概念 i r t 的译名有许多。如项目反应理沦、试题反应理论、潜在特质理论等,由 l a wl e v 、t e c k e r 、l o r d 、b z a r s f e l d 等人于2 0 世纪5 0 年代所创立,他们提出了 “一个可见反应或行为的概率与个人具有隐含的潜在特质水平相关”的假定, 以及几种关于反应 c 率与潜在特质i 口j 数量关系的i r t 模型,从而奠定了j r t 进 一步发展的基础。六十年代后,随着新技术成果在测量领域应用范田的r 益加 宽,尤兑是电子技术的广泛普及,i r t 获得了迅速发展的技术条件1 5 j 。逐渐凌 驾a r r 之上,甚至有进而取而代之势。 i r t 认为,通过被试对具有一定难度和区分度等特征的项目的反应可以确 定被试的潜在特征( l a t e n tt r a i t ) 和倾向,i r t 模型可以表达被试的特质水平和 他( 她) 对项目所作的反应之间的关系( l o r d ,1 9 8 0 ) ,由于这种潜在特质足看 不见的,所以1 r t 模型属于一般的潜在特性模型。 1 2 1 1 i r t 的基本假设 ( 1 ) 潜在特质空间的单维胜( u n i d i m e n s i o n a l i t y ) 。测验总是要测量人的某 种内部心理特性,如智力、人格特点、学业成就水平等,由于所考察的东西都 不是可直接观察的,因而所考察的内部心理特性又称为潜在特质。大多数i r t 模型都假定潜在特质是单维度的,即一个项目只测量一种特性。这样的假设在 询多测验中是存在的,如测量小学生的t f 算能力、记忆能力。这个假设有许多 优点:第一,它有可能在描述项目特征时不随破试的变化而变化;第二,它有 叮能存描述个体特征时不凶项目的变化而变化;第三,它有可能在测验史施酌 预删测验的性质。但在只体的测验中,测验似乎很少只受到一个凶素的影响, 测验成绩还要受被试的情绪、测验的隋境、对测验的期望等因素的影响。在实 际操作中,h a m b l e t o n s w a n i n a c h a n 认为,当测验具有影响结果的一个l 二婴因 素( d o m i n a n lf a c t o r ) 时,则符合单维性假设。 ( 2 ) 局部独立性( l 0 c a li n d e p e n d e n c e ) 。局部独立性指的足假定被试特质水 2 人格“k e r i 草表计算机化白适府驯呛的初步探索 平不变时,任何一个项目的作答在统计学上而言是独立的,即一个项目上的作 答既不影响也不取决于其他任何项目上的作答;另一方面,被试问也互相独立, 即一被试对项目的作答反应既不影响也不取决于其他任一被试对项目的作答反 应。 ( 3 ) 非速度测验( n o n s p e e d e dt c s t j n g ) 。l r t 所适应的测验是难度测验范 畴而不属速度测验范畴,倘若一大批的项目针对所有的被试而言都是较易的, 则影响被试成绩的不是测验所考察的特质,而是作答速度了。只有被试有充分 时问解题作答,项目功能特性j 能稳定地表现出柬。另外,1 r t 还有些隐性假 设,如被试未作答的项目有两种类型:一种是省略不答的,另一种是来不及作 答的,前者是由于测验潜在特质因素的影响,后者是一种受施测速度的影i 咖。 显然,i r t 隐含了前一种的假设。 1 2 1 2 项目特征曲线( i i e mc h a r a c t e r i s t i cc u r v e ,简称l c c ) t u c k e r ( 1 9 4 6 ) 是第一位使用“i c c ”一词的心理计量学家,i c c 是i r t 中的 一个主要概念。美国著名测量学家洛德( l d r d ) 对美国教育服务中心( e t s ) 的大量实测资料作了深入的调查分析。发现被试在测验项目上的答对概率与被 试的测验总分之叫的回归线是一条s 形曲线,曲线表明随着被试总分的上升, 项目答对的人数比例也随之上升。在i r t 中,总分代表的是杲种特质水平,答 对人数比例便代表项目答对的概率,曲线代表了某种潜在特质的水平与其在某 一项目上币确反应的概率这种关系。被试的潜在特质水平的程度愈高,其在某 一项目上的谁确反应概率便愈大,不同的项目有不同的i c c 与之对应。 1 2 1 3项目反应函数( 1 i e mr e s p o n s e f u n c t j o n ,简称j r f ) l r f 是用来描述被试的特质水平与选择项目的某个选项的概率之间的关 。系,l r t 模型的基本目标就是决定每个项目的l r f 。 ( 1 ) 二级计分模型。洛德( 功r d ) 用数学上的逻辑什谛克函数( b g i s t i c f u n c t i o n ) 束刻画被试答对概率与特质水平及项目特性的关系,提出了最为普通 的是三参逻辑1 l 谛克模型( t h r e e p a f a m e t e rl 0 9 j s t i cm o d e i ,简称3 p u ) ,其i c c 为一条带有非零下渐近线的典型卵形曲线。其方程表达式为: p ( 目) = c ,+ ( 1 一c 。) 1 1 + e 1 ”l j _ l 公式巾的p ( 口) 表示能力为口的被试回答项目f 的下确概率,哆指i c c 拐点处的 斜率,对应于c t tq 一的鉴别力指数,即项目的区分度参数;鱼相当于c t t 巾 的难度参数;c 指的是猜测参数:d 常取1 7 0 2 。 当项目的猜测非常小时,即可视3 p l m 中的g 值为零,便可用双参逻辑什 谛克模型( 1 、o p a r a m e t e rl 0 2 i s i i cm o d c l ,简称2 p l m ) ,方程表达式为: 人格l l k e r t 晕表计算机化白适应删验的初步探索 见p ) = 1 | 1 + p 。”“ l 当测验的项目不仅猜测可能为o ,而且区分度也彼此相近,可统统令其为l , 便可得到单参逻辑什谛克模型( o n e p a f a m e i e rl 0 9 i s t i cm o d e l ,简称1 p l m ) , 也叫拉希( r a s c h ) 模型。 。 p j ( 目) = l | 1 + e 。p 州l ( 2 ) 多级计分模型。现在已建立起了许多用于多值评分项目的单维项目反 应模型,这些模型之问的主要区别有多值评分足否有序,数掘资料如何被模型 化以及模型中引进多少个参数等。其中,伯克的模型用于多值无序数据,称为 称名选项模型( n o m i n a lc a t e 盼i e om o d e i ) ,是用于无序多值数据模型的代表。 用于有序多值数据的主要代表模型有塞姆吉玛的等级反应模型( g r a d er e s d o n s e m o d e l ,简称g r m ) 和马斯特斯的分部评分模型( p a r i i a ic r e d i tm o d e l ) 。限于 篇幅,主要介绍本研究将采用g r m 。 在g r m 之中,项目的各个等级的难度是严格单调递增的,同一项目在各 个等级难度上的区分度足相等的,在项目f 上恰得i 等的概率m ( 护) 为: 仇 = p 乙 一矿耻十1 ) :1 ,2 ,) 其中:p + 。( 口) 是指特质水平为口的被试在项目f 上评为七等及七等以上的概率 p t ( p ) = 1 f 1 十b “”“i p j 。( 口) = 1 ( 表示得。等及。等以上的概率为1 ) p “l ( 日) = 0 ( 表示得职+ 1 ) 等及( f i + 1 ) 等以上的概率为o ) 1 2 1 4 项目信息函数( i t e ml n f o 咖a t j o nf u n c t j o n ,简称l i f ) 信息函数是i r t 的核心概念之一,它用来描述在所测特质的每个水平上, 一个测验或一个项目的测量有效性,项目信息量的大小与项目自身的特性相关, 区分度越大,猜测水平越小,则项目所提供的信息量就越大。信息函数使得测 验项目的难度与被试的特质水平能够联系起来。在c r r 中并未涉及这一概念, c 1 t 通常只提供一种有效性的测度,它被用于所有的人,而不管他们的特质水 平如何嗍。项目信息函数定义为: ,( 8 ) = p 。丁( p 口,) 其中见足项目反应函数,吼= 1 一只,p i 。是指第f 个项目反应函数对目的一 阶导数。每个项目所提供的信息量是它所测破试特质水平的函数 另外项目信息函数具有可加性,测验信息量为各项目的信息之和。某一特 质水平估t i 值的仙计标准误与测验信息函数有这样的关系,即测量枥i 准误跟信 4 人格l j k e l 晕表计算机化白适府删验的初步探索 息函数的平方根成反比,公式表示为: ,= = = 一 阳( 目) = 1 :,。( p ) c 丌巾的测量标准误适应于一切情况,对各利t 水平的被试都没有差骨。l r t 提出的信息函数,能针对各种水平的被试束计算测量标准误,更切实际。估计 标准误的大小受测验项目的数目、测验项目的质量、项目难度与考生能力之间 的配合程度等因素的影响,当信息量增加到超过2 5 时,信息函数对特质水平估 计值的估计误差的影响,仪会发生很小的作用【7 l 。 1 2 2 计算机在心理测验中的运用 计算机技术的发展及广泛应用,为心理学研究提供了新的、强有力的手段, 不少心理学研究领域出现了计算机化的趋势,如在实验控制、数掘处理、心理 过程模拟、知识与能力训练等方面。尤为明显的是心理测验领域,比如能力和 学业成就测验、职业兴趣测验、人格测验等,将计算机技术引入这些测验中, 充分利用计算机信息贮存容量大、处理速度快、准确和自动化的特点,发挥计 算机在计算、信息处理、实时控制等方面的优势,极大地促进了心理测验研究 水平的提高。 基于i i 算机的人格测验丌始于2 0 世纪6 0 年代早期的明尼苏达多椰人格问 卷( m j n i s o i am u l l j p l ep e r s o n a l i l yi n v e n t o r y ,简称m m p l ) ,后来有s c i s s o n s 的加州 心理调查表( c a l i f o m i ap s y c h o l o g i c a li n v e n t o r y ,简称c p i ) 、l r e d & h a r r i s 的抑 郁形容词检查量表( d e p r e s s i o na d j e c t i v ec h e c k “s t ) 等。此后,计算机化的人 格测量便迅速蔓延,在这些心理测验程序中,计算机不仅仅是简单的呈现项目, 还会提供测验评分,甚至还产生详细的解释性报告。这种测验模式在研究和临 床巾的应用愈束愈多。j 下如h o f e r & g r e e n 所言:“计算机应用于面试、测验和 结果的解释等方面非常广泛,这不足为奇。相反,如果情况不是这样,这才让 人感到奇怪”【8 l 。综合起柬,基于计算机的大多数心理测验主要有以下几方面的 功能: ( 1 ) 机上施删。在i f 算机上完成施测过程,替代传统的纸笔测验。在被试 输入个人资料后,t | 算机按测骑舰定程序给出测验指导语,然后逐一呈现项f 1 , 并记录下被试的反应。i r 算机通过屏幕可以呈现文字性的测题,也可以呈现图 形件( 包括活动图形) 的测题,必要时还可伴有声音或音乐。被试按指导语规定 的反应方式对每个项日作出反应,并由 算机记录到测验数据库中。计算机可 根据既定的删骑时问和方法安排,控制测验边程,拒绝被试的不当操作,必要 时提示有关的错误信息。 ( 2 ) 自动计分。计算机根拥机上被试的作答情况,或根掘纸笔测验中各个 5 人格“k e r t 量表计算机化白适应删验的初步探索 项目的回答,按测验评分规则自动进行计分,完成各分量表、总分及测验有关 指数的分数统计,从丽替代量表使用者采用计分模板等方法计算量表各项指数 的过程。 ( 3 ) 测验结果分析。根掘被试所对应的常模资料,计算机将一系列原始分 数转换成标准分数,然后对被试某种心理现象的发展水平、类型、特征作出分 类或界定,进而给出测验结论。 ( 4 ) 测验结果解释。计算机可事先录入“专家系统知识库”,根据被试测 验结果,调用专家系统知识库的有关内容对被试的结果作出说明,或提出训练、 干预方案及有关建议吼 在计算机引入心理测验领域后,最值得人关注的一个重要发展就是q 玎进 入这个领域。许多人格测量领域的研究人员( 例如f o r b e y ,h a n d e l , b e n p o r a t h ,2 0 0 0 ir o p e r ,b e n p o r a t h ,b u t c h e r ,1 9 9 1 ,1 9 9 5 ;r e j s e h e n s o n , 2 0 0 0 ;w a l l e r r e i s e ,1 9 8 9 ;z i c k a r ,2 0 0 1 ) 丌始借用c a t 在能力和成就测验中 的成功应用,丌始探索c a t 在人格测验中的应用研究【1 0 1 。 1 2 3i r t 在心理学中的运用 随着人格量表在选拔、培训和升迁中的使用,人们不可避免地江意到人格 测验的质量和公平性方面出现的问题,日益成熟的i r t 为这些问题的解决提供 了新的手段,研究人员开始将i r t 应用到人格测验中去。 在i r t 中,项目参数具有不变性这一优点,i c c 不受样本的影响,如果不一 致则要考虑是否有d i f 的存在。d l f 指的是来自两个不同团体但特质水平相等的 人选择该项目同一个答案的概率有差异,它直接影响到测验的效度,与项目的 特征曲线的原理也不符。早j l l 】的d i f 研究主要是在教育测量领域,从上世纪9 0 年 代起,研究人员丌始重视人格测量领域中项目的d l f 研究。t h i s s e n 、s f e i n b e r g g e 哪r d 提出在人格研究中,比较两组的平均分数时必须注意到产生差异的原因 【l l 】。h u a n g 、c h u r c h l ( a t i 曲a k 利用三种d i f 技术对著名的n e 0 人格问卷( 英语 版) 进行跨文化研究,被试是美国大学生和在美国生活了3 到1 0 年的菲律宾大学 生,结果发现在1 8 0 个项目中有4 0 项目存在d i 一1 2 l 。s m i t h r e i s e 利用d i f 技术, 重新审视了多相人格问卷中的应激反应量表( m u l t d i m e n s i o n a lp e r s o n a l i t y q u e s t j o n n a i r es t r e s sr e a c t i o ns c a l e ,简称m p q s r s ) 性别差异的比较结果,他们 指出d l f 项目与所测的因素有关【1 3 l 。w a l l e r 、t h o m p s o n w e n k ( 2 0 0 0 ) 做过一项 具有挑战性的研究:从种族的角度来研究m m p i 的项目足否具有d i f 。另外 h a t h a w a y 、r e i s e 、s m i t h f u r r ( 2 0 0 1 ) 等人也曾做过人格的d l f 研究,m j l i s a p e v e f s o n ( 1 9 9 3 ) 还对d i f 的手段进行过综述。 在人格测验中究竞选择付么样的i r t 模型j 合适? 很多研究肯汀明双参校 人格l i k e r t 罐表纠笄机化白适府删验的初步探索 型是合理的f 例如k a m a k u r a b a l a s u b r a m a n i a n ,1 9 8 9 :r e j s e ,1 9 9 9 :r e i s e w a l l e r ,1 9 9 0 ;w a l l e r ,1 9 9 9 :w a l l e r r e i s e ,1 9 8 9 ) ,较有影响的一个研究是 r e i s e w a l l e r ( 1 9 9 0 ) 的论文,选取的是二点计分的多相人格问卷( t c l l e g e n , 1 9 8 2 ) 作为研究对象,分别采用l p l m 和2 p l m 两个模型,他们认为猜测不能 在一个人格测验中出现,所以没有使用3 1 ) 【m ,研究结果发现2 p u m 的拟合性 更好。在r e i s e w a l l e r 发现的基础上,出现了很多有关i r t 在人格测验中的 研究s c h m i l r v a n ( 1 9 9 7 ) 用g r m ( 1 9 6 9 ) 研究n e 0 人格问卷( c 0 s f a , m c c f a e & d y e ,1 9 9 1 ) 中的诚实量表。另外,r o u s e 、f i n g e r b u t c h e r ( 1 9 9 9 ) 用2 p l m 去评价精神病理人格问卷( h a r k n e s s m c n u l l v ,1 9 9 4 ) 。 刘于二级计分的壁表柬说,大多数研究人员都认为2 pl 】比较适合。当然 也有其他的研究者认为在人格测验项目上的欺骗行为就类似于在能力上的猜测 行为( r o u s ee ta 1 ,1 9 9 9 ) 。如e l l j s 、b e c k e r k j m m e l ( 1 9 9 3 ) 用3 p l m 评价 t r i e f 编制的人格测验( b e c k e r ,1 9 8 9 ) ,最近r o u s e 、f i n g e r & b u t c h e r 应用3 p l m 研究m m p i 2 中的p s y 一5 量表,事先请专家对项目的社会期望效应作出一个程 度判定,研究发现项目的猜测参数与项目期望效应程度有显著的相关1 1 6 j 。 使用l r t 来分析评价人格量表的研究有许多,d a v i dj c o o k e c h r i s t i n e m i c h i e 使用l r t 刘h a r e 博士制订的精神病态筛查专家系统( p c l r ,p s y c h 叩a t h c h e c kl i s t r e v i s e d ) 进行测验和项目的功能进行分析,发现属于量表中自私囚子 的项目比另外一个叫反社会人格因子的项目的区分度更高并且提供的信息量也 更多。r c l l r i sf r a l e v 、n i e l sg w a l l e f k e l l va b r e n n a n 发现有很多成人依恋 量表的计分方式不一,这会导致一些错误的推论,他们用1 r t 分析了四个常用的 依恋量表:关系体验量表( k a b r e n n a n ,c lc l a r k ,p r s h a v e r ,1 9 9 8 ) 、成 人依恋量表( n lc 0 1 l i n s & s j r e a d ,1 9 9 0 ) 、关系风格问卷( d w g r j f f j n k b a r i h o l o m e w ,1 9 9 4 ) 和dj s i m p s o n s ( 1 9 9 0 ) 的依恋量表,使用的l r t 模型是 g r m ,发现四个常用的量表在测量结果的稳定性等许多方面都有改进的地方, 作者建议用i r t 技术柬丌发理想的新的依恋量表【1 8 】。w a i l e r 、 t e l l e g r 、 m c d o n d a l d & l y k e n ( 1 9 9 6 ) 用j r t 束设计和玎发人格量表,也有人柬关注人格测验 中的作假行为( 例如f l a n g a n ,r a i u ,h a y 9 0 0 d ,1 9 8 8 ;z i c k a r r o b i e ,1 9 9 8 ) 【1 9 l 。 相对国外而言,国内在应用i r t 模型去研究人格量表方面的研究不多。辽 宁师范大学的郭庆科和周晶对不同的i r t 模型在l i k e n 量表分析中的有效性进 行过研究,采用5 级计分的情感能力量表,山于被试可能存在趋中和极端化反 应倾向,选择第1 、2 个等级和第4 、5 等级的人可能并不存在差别,因此可以 将第1 、2 等级和第4 、5 个等级合并,将5 级订分改为3 级分。将前三个选择 项赋0 分,后两个选择项赋1 分,便得到了自陈量表中也常采, j2 缴评分的测 人格“k e r t 鲑表计算机化臼适府圳睑的初步探索 验形式。研究中比较了2 、3 、5 级i r t 模型的总体拟合指数,结果发现各分量 表的平均卡方值都很小,而且各项目的卡方值都未达到显著水平,说明不同模 型都是拟合的。在三个两级l r t 模型中,2 p l m 与数据的拟合最好,而且测量 精度也最高。另外还对不同模型的测量精度作了比较。5 级评分模型是测量精 度最高的,因此如果条件具备,作者建议应尽量采用评分等级多的测验形式和 测验模型i 删。朱宁宁与张厚粲用i r t 与c 兀两种方法对人格测验结果处理进行 比较研究。分别对模拟测验和自编的内倾外倾人格特征测验的测验结果进行了 分析,考察了两种方法计算出的人格测验结果的差异性,以便人格测验的研究 与使用者能更好地了解不同的方法在测验结果上的差别,从而在相关研究和实 践中选择合适的方法。通过模拟研究,能够检查两种方法对被试特质水平的真 值的估计情况,结果证明l r t 方法得到的测验结果与c 】盯的结果相比,能更准 确地估计出被试的特质水平,表明l r t 方法具有更高的可靠性1 2 1j 。华东师范大 学的唐宁玉、戴忠恒采用l r t 来编制现代性量表,对被试实施初步编制的现代 性量表;对获得数掘运用c 兀刘项目进行统计分析及筛选工作;对筛选过的项 目进行模型拟合性检验;根据测验信息函数选择项目;确定一2 至2 区叫内允许 的标准误为o 4 0 ,转化为测验信息函数值为6 2 5 ,模拟项目信息量的大小选择 在2 、1 、o 、1 、2 尺度上都能达到此值的项目。从整个过程来看,运用i r t 比 经典测验理论要花费更多的功夫,但得到的结果却更可靠。研究结果表明,应 用i r t 编制量表,在满足假设的情况下,可使量表既简便,又有较高的精度, 效度研究表明本研究编制的现代性量表有较高的效度1 2 2 】。另外深圳人学师范学 院的曹办薇选用s h i d a 简易人格问卷中的环境适应量表,选取了中f 1 两国的被 试,分别计算并作d 1 f 项目相应各方的反应曲线图,再比较它们之间的差异程 度来探测d lf i “j 。 1 2 4 自适应测验在心理学中的运用 自适应测验指的是根掘被试在测验中所体现的特质水平的变化米选择作答 项目,所挑选的项目针对被试的特质水平而吉,既不会太难也不会太易。早期t 的自适应测验部是通过纸笔的形式来进行,而基于计算机的自适应考试足将计 算机技术应用于心理与教育测量学并取得重大进展的考试方法,它山适应胜测 验( t a j l o r j n gt e s t ) 发展而米的,适应性测验这一概念是w j l l j a mw t u r nb u 儿 于1 9 5 1 年提出的,当时的适应性测验是指根据破试已经掌握的悄况,选取适 合被试特质水平的项目进行测验。被试对每一项目作答完毕后,立即评分,并 根抓i j j 一】! i ! i 作答t 占况,决定后一项目的选取。 最早的臼适应测验足1 9 ( ) 8 年比纳( b i n e t ) 所编制的智力t 则验。在比纳量 表l 1 ,他编制了3 到1 l 岁的项f i ,所有这些项目便构成了其自适心删验的邀库。 8 人格l i k e r i 荜表计算机化白适府删验的初步探索 。主试根拥不同年龄的被试呈现与他( 她) 年龄相对应的项目,如果被试答对了 该年龄水平的项目,则呈现更高年龄段的项目,如果被试没有答对相关项目, 则向被试呈现较低年龄段的项目。这是一种由人工控制的固定的自适应测验。 运用这种方法可以使呈现的项目逐步接近学生的特质水平,从而得到较精确的 测鞋结果。 尽管自适应测验能够提高效率,然而人格测验的历史中却很少有运用自适 应策略的例子,建立在i r t 基础上的c a t 都集中在能力这个领域,将自适应策 略思想应用到人格测验中去,比较著名的版本是m m p i 量表。w e i s s s u h d o l i n i k 在1 9 8 5 年就指出人格量表若不能满足单维性,使用i r t 模型便存在问题。因为 m m p i 2 不能满足币维性,不能应用l r t 的项目反应模型,也就根本不能实行 建立在这一理论上的c a t 。b u t c h e r 便提出了一种叫倒数( c o u n t d o w n ) 的测验 策略,如:一个诊断性量表有3 0 个项目,量表分界点是i f 向吲答2 0 题。若一 个被试反向回答1 l 题,则他( 她) 便没必要在这个量表上继续测试,若肯定问 答了2 0 题,也没必要继续测试。满足这两种规则便终止测验。利用这种策略思 想,他们将m m p i 改成自适应测验,大大提高了测验的效率。但这种策略有不 足的地方,因为想要了解在分界点上的被试的特质水平,那么这部分被试要继 续施测直至所有的项目都测完,显然这部分被试的测验效率并未得到提高。 r o p e r 、b e n p o r a l h & b u i c h e r 比较了m m p i 纸笔测验与使用这种策略的自适应 版本的结果,结果证明了它能大大节省项目旌测量,并与m m p i 传统的纸笔测 验结果相关极高1 2 4 j 。 使用计算机作为媒介工具的自适应测验改变了比纳的人工施测方式,项目 存贮在计算机甲被试用键盘或鼠标柬对项目进行作答。早期的c a t 策略都类 似于比纳的方法( w e i s s ,1 9 7 3 ) ,其它的策略建立在构建题库的不同方法上 ( l d r d ,1 9 7 1 ) ,但很快便发现每一种方法都出现问题( w e i s s ,1 9 7 4 ) i “。通 过纸笔或其它测验机械柬丌发自适应测验有许多不足,个主要的限制就是它 们只关注了项目的难度,忽略了项目其它的特性,如区分度和猜测度,另外一 个不足是测验终止规则的任意性,某些被试会因终止规则的不同得到不同的测 验结果1 2 6 。直到2 0 世纪6 0 年代,美国海军研究办公室的研究计划丌始支持l r t 的研究,研究机构的支持促进了建立在i r t 基础上的c a t 的发展。直到2 0 世 纪7 0 年代,l l 盯成熟后,这些叫题4 逐渐得到解决。 近几f 。年束,c a = r 在测验研究巾引人注日斤取得了重大发展,特别是e t s 提山对托稿科学外语考试( 1 1 0 e f i e ) 、研究,上资格考试( g r e ) 、管理专业研究 生录取测岭( g m a t ) 、护土资格让怙( c g f n s ) 等引进c a t 以柬,c a t 更足 引起了人们的广泛江意,测试技术i r 面f j i 酉大革新的局面。目莉已经证实c a r i 9 人格l i k e r t 封表计算机化臼适府驯崆的初步探索 在能力测验中具有以下主雯优点: ( 1 ) 测验结果更加准确。在c a t 中,每个破试所作答的项目都会影响下一 道被选择的项目,被选择的项目都与考生的特质水平柏匹配。对于被试而占。 过易过难的项目鄙能够避免,使得测验的误差较低,具有较高的信度。 ( 2 ) 测验时间更短。研究已经证明在测验精度没下降的前提下( w e j s e , 2 0 0 4 ) ,c a t 这一测评形式至少是纸笔测验效率的两倍。在c a t 中,对某一个 被试太难和太易的项目,即与被试能力水平不相匹配的项目都不会选择到,避 免了无法提供有用信息的项目,所以减少了项目的作答数量即缩短了测验时间, 比如:g r e 纸笔项目量为1 8 6 道,考试时问为1 8 0 分钟,而g r e 自适应测试 平均题量为9 3 题,考试时问平均为1 3 5 分钟。 ( 3 ) 测验的安全性更高。被试测试的项目都是根掘实际作答情况来选择, 智能组卷供被试答题并进行特质水平估计,不像纸笔测验固定的项目,所以漏 题的可能性更小,并且在考试中相互抄袭舞弊的可能性也更小。 ( 4 ) 测验的公平性更高。在纸笔测验中,认为每个参加测验的被试的测量 误差是相同的。显然,这点假设在现实中是很不切实际的,被试只有作答与他 ( 她) 水平相差不大的项目时,测量的误差爿最小。在c a = r 中,不同的考生参 加适宜难度的项目,并还能控制测量粘度相等,保证了测试的公平性。另外答 题与评分是同时进行的,成绩能得到及时的反馈,对任何破试都采用相同的评 分方法与标准,不会受无关因素的干扰p j 。 1 2 5国外c a t 在人格测验中的运用 i r t 的一个非常重要的运用就是c a t 丌发,建立在l r t 基础上的c a t 比 其它策略的c a t ( f o r b e ve ta 1 ,2 0 0 0 ;b e n p o r a t he ta 1 ,1 9 8 9 ;h a n d e le ia 1 , 1 9 9 0 ;r o p e re ta 1 ,1 9 9 1 ,1 9 9 5 ) 更能提高测验的准确性和效率( w e i s s ,1 9 8 5 ) 。c a t 是对传统的心理与教育测验的一种重新设计( v a nd e rl i n d e n g l a s , 2 0 0 0 ;w a m e re ta l ,2 0 0 0 ) ,人机互动的施测更加有效和高效,它的目标足为每 个破试选择一套最高效率的项目束测量被试的特质水平。相对而吉。很少有c a t 出现在人格测验中,有的只足极少的计算机程序模拟。w aj l e r r e j s e ( 1 9 8 9 ) 报告了人格数掘支持人格c a t 的可行性,他们应用2 p l m 到多维人格问卷 ( m p q ) 的吸收量表( a b s o r p i i o ns c a l e ) ,揪掘纸笔测验的1 0 0 0 个破试的作答 数掘进行c a t 的模拟研究。在他设计的c a t 中采用了曲种测验策略:第一个 足词定测验的长度,即每个被试施测一样氏度的项目。另一个足临床诊断策略, 即当破试在测验中的临时特质水平臀信区问不包含临界点时,便对破试作出区 分,这个破试的测验出就终止。结果发现c a t 的人格测验结果良好,临床珍断。 毓略可以在不牺牲诊断精度的情况下人人减少删验州问,铀省了5 0 的l 鲰目, 人格“k e r i 帚表计算机化白适府删验的初步探索 处于特质水平极端的被试仅用原测验2 5 的项目便能准确诊断悼“。 w a l l e & r e i s e 研究报告发表不久后,k a m a k u r a b a i a s u b r a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论