(教育学专业论文)36年级多重成就测验的效标效度.pdf_第1页
(教育学专业论文)36年级多重成就测验的效标效度.pdf_第2页
(教育学专业论文)36年级多重成就测验的效标效度.pdf_第3页
(教育学专业论文)36年级多重成就测验的效标效度.pdf_第4页
(教育学专业论文)36年级多重成就测验的效标效度.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

(教育学专业论文)36年级多重成就测验的效标效度.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 目的:( 1 ) 为3 - 6 年级多重成就测验提供效标效度证据;( 2 ) 得到智 力与语文量表和数学量表间的相关,从而推断3 6 年级多重成就测验 分数在解释智力变异时所占的百分比;( 3 ) 通过测量验证小学阶段女 性儿童的学习成绩是否显著优于男性儿童的学习成绩。 方法:( 1 ) 采用分层抽样方法在长沙市、永川区抽取了6 4 名4 7 年 级的学生作为研究对象;( 2 ) 选取学业成绩、教育程度、智力测验 以及教师对学生平时成绩的等级评定作为3 - 6 年级多重成就测验的 效标;( 3 ) 以学区内期末统考成绩、年级差异、w i s c - 1 v 中文版测验 分数和教师评定等级作为对应的效标测量;( 4 ) 分别采用积差相关、 方差分析和k e n d a ll st a u c 系数计算测验分数与效标问的相关系 数。 结果:( 1 ) 3 6 年级多重成就测验与学业成绩间的相关为 0 3 9 0 - 0 5 9 6 ,相关显著;( 2 ) 语文量表、数学量表和总量表与知觉 推理指数的相关分别为0 2 4 2 、0 2 5 5 和0 2 6 0 ,后两者相关显著, 语文量表、数学量表和总量表与言语理解指数的相关分别为0 2 0 5 、 o 1 1 4 和0 1 5 9 ,相关并不显著,语文量表、数学量表和总量表与一 般能力指数的相关分别为0 2 4 0 、0 2 0 2 和0 2 2 7 ,相关并不显著, 成就测验各量表与总智商的相关分别为0 1 6 0 、0 0 8 3 和0 1 2 1 ;( 3 ) 语文量表与语文教师评定等级间的相关系数为一0 3 8 0 ,数学量表与数 学教师评定等级间的相关系数为- 0 4 0 0 ;( 4 ) 受教育程度不同的被 试问测验分数差异在0 0 1 水平显著,具体的,三四年级之间、五年 六间的差异不显著,三年级与五六年级问、四年级与五六年级间的差 异极其显著。 结论:( 1 ) 3 - 6 年级多重成就测验有中等的效标效度;( 2 ) 3 - 6 年 级多重成就测验的语文量表、数学量表以及总量表分别能够解释一般 能力指数变异的5 7 6 、4 0 8 和5 1 5 ;( 3 ) 小学阶段女性儿童的 语文、数学学习成绩均优于男性儿童,但差异并不显著。 关键词:w i s c 一,多重成就测验,效标效度,3 6 年级 a b s t r a c t g o a l : ( 1 ) p r o v i d ec r i t e r i o nr e l a t e dv a l i d i t ye v i d e n c ef o rm a t si n g r a d e3 t o g r a d e6 ( 2 ) f i n dt h ec o r r e l a t i o nb e t w e e ni n t e l l i g e n c ea n d c h i n e s e ,m a t hs c o r e s ,t h e r e f o r ee s t i m a t et h ep e r c e n t a g eo fd i f f e r e n t g r a d e s s c o r e so fm a t si ne x p l a i n i n gv a r i a n c eo fi n t e l l i g e n c e ( 3 ) t e s t w h e t h e rg i r l sa c a d e m i cr e c o r d si s s i g n i f c a n t l yh i g h e rt h a nb o y si n p r i m a r ys c h o o la c c o r d i n gt op s y c h o m e t r i ca s s e s s m e n t s m e t h o d :( 1 ) 6 4p a r t i c i p a n t sa r ep r i m a r ys c h o o ls t u d e n t s a r r a n g e d f r o m g r a d e4t og r a d e 7w h i c hw e r er e c r u i t e df r o mc h a n g s h aa n d y o n g c h u a nd i s t r i c t i n c h o n g q i n i na w a yo fs t r a t i f i e ds a m p l i n g ( 2 ) c h o o s ea c a d e m i cr e c o r d s ,g r a d e s ,i n t e l l i g e n c et e s ts c o r e sa n dt e a c h e r s , r a t i n gt os t u d e n t s p e r f o r m a n c ea sc r i t e r i o nf o rm a t si n g a r d e 3t o g r a d e 6 ( 3 ) u s es e m e s t e rf i n a le x a m ss c o r e s ,g r a d e s ,w i s c i vs c o r e so f c h i n e s ev e r s i o na n dt e a c h e r s r a t i n g s a s c o r r e s p o n d i n g c r i t e r i o n m e a s u r e m e n t s ( 4 ) a d o p tp r o d u c tm o m e n tc o r r e l a t i o n ,a n o v aa n d k e n d a l l st a u - cc o e f f i c i e n tt oc a l c u l a t et h ec o r r e l a t i o nb e t w e e n t e s ts c o r e s a n dc r i t e r i o n r e s u l t s :( 1 ) t h ec o r r e l a t i o nb e t w e e na c h i e v e m e n tt e s tp a r ta ,ss c 0 1 e s i nc h i n e s ea n ds e m e s t e rc h i n e s ef i n a le x a m ss c o r e si s 0 3 9 0 ;a n dt h e c o r r e l a t i o nb e t w e e na c h i e v e m e n tt e s tp a r ta s s c o r e si nm a t ha n d i i i s e m e s t e rm a t hf i n a le x a m s c o r e si so 5 9 6 ;a l s o ,t h ec o r r e l a t i o nb e t w e e n c o m p r e h e n s i v es c o r e sa n ds e m e s t e rf i n a le x a m st o t a ls c o r e si so 5 6 9 ,a n d t h o s et h r e ec o r r e l a t i o n sa r ea l ls i g n i f i c a n t f o rt h ep a r tbo fa c h i e v e m e n t t e s t ,t h ec o r r e l a t i o n sa r e0 4 8 7 、0 51 4a n d0 5 6 9 ,r e s p e c t i v e l y ,a n dt h o s e t h r e ec o r r e l a t i o n sa r ea l lo fe x t r e m e l ys i g n i f i c a n t ;( 2 ) t h er e l a t i o n s b e t w e e na c h i e v e m e n tt e s ti nc h i n e s ep a r t ss c o r e s ,m a t hp a r t ss c o r e s , t o t a ls c o r e sa n dp e r c e p t u a lr e a s o n i n gi n d e xa r e0 2 4 2 ,0 2 5 5a n d 0 2 6 0 r e s p e c t i v e l y ,a n dt h el a t t e rt w oa r eo fs i g n i f i c a n t i na d d i t i o n ,t h er e l a t i o n s b e t w e e na c h i e v e m e n tt e s ti nc h i n e s ep a r t ss c o r e s ,m a t hp a r t ss c o r e s , t o t a ls c o r e sa n dv e r b a lc o m p r e h e n s i o ni n d e xa r e0 2 0 5 ,0 11 4a n do 15 9 , a n da l lo ft h et h r e er e l a t i o n sa r en o ts i g n i f i c a n t a l s o ,t h er e l a t i o n s b e t w e e na c h i e v e m e n tt e s ti nc h i n e s ep a r t ss c o r e s ,m a t hp a r t ss c o r e s , t o t a ls c o r e sa n dg e n e r a la b i l i t yi n d e xa r e0 2 4 0 ,0 2 0 2a n d0 2 2 7 ,a n da l l o ft h et h r e er e l a t i o n sa r en o ts i g n i f i c a n t a n dt h et h r e e s c o r e so f a c h i e v e m e n tt e s t sr e l a t i o n s ( c h i n e s ep a r t ss c o r e s ,m a t hp a r t ss c o r e sa n d t o t a l s c o r e s ) w i t ht o t a l i n t e l l i g e n c e a r eo 16 0 ,0 0 8 3a n d o 121 ,r e s p e c t i v e l y ,t o o ;( 3 ) t h ec o e f f i c i e n to fc o r r e l a t i o nb e t w e e nc h i n e s e s c o r e sa n dc h i n e s et e a c h e r s r a t i n gi s - 0 3 8 0 ,a n df o rm a t h ,t h e c o e f f i c i e n t o fc o r r e l a t i o ni s 一0 4 0 0 ;( 4 ) i no 01l e v e l ,t h ed i f f e r e n c eb e t w e e nt h es c o r e s o fs t u d e n t sw h of r o md i f f e r e n tg r a d e sa r es i g n i f i c a n t s p e c i f i c a l l y ,t h e d i f f e r e n c eb e t w e e ng r a d e 5 ss t u d e n t s s c o r e sa n dg r a d e 5 ss t u d e n t s s c o r e si sn o ts i g n i f i c a n tw h i l et h ed i f f e r e n c e sb e t w e e ng r a d e 5a n dg r a d e 6 , g r a d e 4a n dg r a d e 5a r eo fe x t r e m e l ys i g n i f i c a n t c o n e l u s i o n :( 1 ) t h ec r i t e r i o nr e l a t e dv a l i d i t yt e s t e di nt h em a t si n g r a d e 3t og r a d e 6i sm o d e r a t e ;( 2 ) t h ec h i n e s ep a r t ss c o r e s ,m a t hp a r t s s c o r e s ,t o t a l s c o r e so fm a t si n g r a d e 3 t o g r a d e 6 a c c o u n t sf o r 5 7 6 ,4 0 8 a n d 5 15 v a r i a n c ei n e x p l a i n i n g g e n e r a l a b i l i t y i n d e x ,r e s p e c t i v e l y ;( 3 ) i np r i m a r ys c h o o l ,g i r l s c h i n e s ea n dm a t hs c o r e s a r eh i g h e rt h a nb o y s ,b u tt h i si sn o ts i g n i f i c a n t k e yw o r d s :w i s c i v ,c r i t e r i o nv a l i d i t y ,m a t s ,g r a d e s3 - 6 v 3 6 年级多重成就测验的效标效度 1 1 效标效度的概念及种类 1 综述 效标效度,又称效标关联效度( c r i t e r i o nr e l a t e dv a l i d i t y ) , 传统意义上,效标关联效度是指将一组人在测验上的得分与等级评 定、分类,或者其他绩效测量进行比较的过程。然而,在有的教科 书中效标效度又称为实证效度,是指一个测验对处于特定情境中的个 体的行为进行估计的有效性。这里的行为即为效标。也就是说,测 验是否有效是依据实践的效果来判断的。此定义与美国著名心理学家 安妮安娜斯塔西对效标效度概念的描述相一致。在简明心理学辞典 中,效标效度的释义为:以测验分数与作为外在标准的效标行为之间 的关联程度来表示的测量结果的有效性程度。对比几个定义,虽有 文字表述的差异但不难发现它们都强调tn 验与外在效标行为间的 关联。 效标效度分为预测效度和同时效度两类。最初的分类依据是效标 和测验之间的时间关系,但这一标准已逐渐被淘汰。安娜斯塔西认为 预测效度和同时效度之间的逻辑区分,不是根据时间而是根据测验目 标。测验的同时效度多用于诊断现在的状态,而预测效度则用于预测 将来的结果。 l e w i sr a i i k e n ( 张厚粲,黎坚译) 心理测量与评估【m 】北京:北京师范大学出版 社,2 0 0 6 :9 7 戴海琦,张峰,陈雪枫心理与教育测量【m 】广州:暨南大学出版社,2 0 0 7 :6 6 - 6 7 黄希庭简明心理学辞典【m 】合肥:安徽人民出版社,2 0 0 4 :4 2 0 a n n ea n a s t a s i s u r b i a n 著,缪小春,竺培梁译心理测验 m 】杭州:浙江教育出版 社,2 0 0 1 :1 4 8 1 6 4 教育硕士学位论文 1 2 效标效度的产生及发展 效度是伴随测验的发展而发展的。测验的最早用途之一,是评定 个体在指定的内容领域已经学会了什么东西,通常称为成就测验。在 评价成就测验时,我们通过内容效度来表示测验项目对全部内容域的 代表程度。 测验发展到第二阶段,重点转向了预测。出于这种目的,通常把 测验效度报告为测验分数与该效标的直接的、独立的测量( 即效标测 量) 之间的相关系数。这时的效度我们称之为预测效度( p r e d i c t i v e v a l i d i t y ) 。例如,对于一个机械能力倾向测验,我们可以用测验分 数与其成为机械师后的工作表现之间的相关系数来表示测验的预测 效度。所要预测的行为在情境中的表现逐渐被称为效标。 实际生活中的许多领域,如企业的人员招聘、大学的招生、分派 军事人员参加职业培训等,在分类决策中都需要了解测验的预测效 度。但是人们很快发现经过一段时间建立预测效度,或者事先选择一 个适合于测验目的的样本,这往往是行不通的。比如确定某种机械能 力测验对某单位的操作工的选拔是否有效时,该种效度很难得到。于 是,同时效度就成为预测效度的替代品出现了。例如,可以把大学生 的测验分数与他们测验时的学科平均成绩相比较,或者把员工的测验 分数与他们当前的工作成功相比较。1 9 5 4 年美国心理学会出版的心 理测验的标准将效度分为四大类:内容效度、构想效度、预测效度 和同时效度,四者又成为效度的四面。 至u 1 9 7 4 年美国心理学会出版的教育和心理测验的标准将预测 3 6 年级多重成就测验的效标效度 效度和同时效度合并成效标关联效度,将效度分为:效标关联效度、 内容效度和构想效度三类。 效标关联效度较多的运用在局部效度的研究中,即比较强调情境 具体化时测验的效度,因而人们普遍对测验效度可以概化到不同情境 持悲观态度。但1 9 7 6 至u 1 9 9 1 年间施密特、亨特、皮尔曼以及沙恩等人 的用元分析的方法获得的研究结果表明:言语测验、数字测验和推理 能力倾向测验的效度能概化到不同行业的程度比先前认识到的要大 得多。也许正是受此研究结论的鼓舞,在2 0 世纪8 0 年代并1 :1 9 0 年代,测 验编制中一个重要的发展就是注重于效标分析。“美国军队选拔和分 类计划 ( u s a r m y ss e l e c t i o n & c l a s s i f i c a t i o np r o j e c t ) 就是把详尽的效标研究作为编制成套测验第一步的著名例子之一。 1 9 8 5 年美国心理学会的测验标准还认为,很可能只存在一种效度 类型。在安娜斯塔西看来,测验发展至j j 2 0 世纪末出现了两种主要趋向: 一是加强理论趋向;二是心理学理论与通过经验和实验的假设检验之 间密切联系。而这两种趋向的一种结果就是,日益认识到结构在描述 和理解人类行为中的重要性。结构效度逐渐被认为是基本的、包括一 切效度的概念。而内容效度和效标效度则被看作是两种方法,是有助 于界定和理解一个测验所评价的结构的两种资料来源。早在1 9 8 0 年测 验先驱克龙巴赫就说:“所有的效度都是一种类型,在一定意义上都 是构想效度 。梅西克1 9 8 9 年更是令人信服地证明,“效度”一词, 就它指出一个测验的解释意义而言,应该用结构效度替代。他坚持认 a n n ea n a s t a s i s u r b i a n 著,缪小春,竺培梁译心理测验【m 】杭州:浙江教育出版 社,2 0 0 1 :1 4 8 - 1 6 4 3 教育硕+ 学位论文 为,传统上与“效度”一词有关的其他方法,应该用描述较具体的名 称来称呼。如,内容效度可以称之为“内容恰当”和“内容范围; 效标效度可以称之为“预测效用”和“诊断效用”。故而,1 9 9 9 年 版的教育与心理测验标准不再区分不同的效度类型而是将效度的 证据区分为不同的类型。 1 3 效标效度的研究现状 1 3 1 国外效标效度研究现状 1 3 1 1 效标与效标测量 从定义中就可看出,效标是计算效标效度的关键。预测效度会受 到预测源( p r e d i c t o r ) 和效标两个变量的信度的影响,且小于二者 信度的平方根。 效标一词对于我们来说既熟悉又难以精确定义,简单地说,效标 就是衡量一个测验是否有效的外在标准,它独立于测验并可以从实践 中直接获得我们所感兴趣的行为。阿斯汀将效标分为观念效标和效标 测量,观念效标仅是一个概念,而效标测量是对观念效标的数量化。 好的效标测量应符合以下几个条件:( 1 ) 效标测量必须真实地反映 观念效标的重要侧面;( 2 ) 效标测量必须稳定可靠;( 3 ) 效标测量 必须客观,避免偏见;( 4 ) 在保证有效性的前提下,效标测量必须 尽可能简单、省时、花费少。例如,如果s a t 能准确的预测高中生在 a n n ea n a s t a s i s u r b i a n 著,缪小春,竺培梁译心理测验【m 】杭州:浙江教育出版 社,2 0 0 h1 4 8 - 1 6 4 l e w i sr a i l k e n 著,张厚粲,黎坚译心理测量与评估【m 】北京:北京师范大学出版 社,2 0 0 6 :9 8 1 0 0 a u s t i nj t & v i l l a n o v ap t h ee l i t e r i o i lp r o b l e m :1 9 1 7 - 1 9 9 2 【j 】j o u r n a lo f a p p li e dp s y c h o l o g y 1 9 9 2 ( 7 7 ) :8 3 8 3 - 6 年级多重成就测验的效标效度 大学里的学习情况的话,它就是大学入学测验的预测效度证据。在这 里,s a t 的总分包括它的数量和语言子测验的分数就是预测变量,大 学里的平均成绩点数( g p a ) 就是效标。更准确地说应该是效标测量。 评定任何情境中行为的任何方法,都为某种特定的目的提供一种效标 测量。 关于效标类型,a r t h u r 简洁地归纳为学业成就、等级评定、临床诊 断、特殊训练成绩、实际工作表现、对团体的区分、其他测验成绩。 例如,对智力测验进行效度分析时最常用的一种效标是学业成就,而 用作效标测量的具体指标包括在校成绩、成就测验分数、升级或毕业 记录、某种荣誉或奖励,以及教师对学生“智力”的评定等。这些指 标也可作为多重能力倾向测验和人格测验的效标。而经常用于校外成 人的学业成就效标的一种变式,是个体已经完成的教育量。因为,一 般而言,智力较高的个体受教育的时间较长,而智力较低的个体则较 早退学。在编制特殊能力倾向测验时,常用的效标是特殊训练课程的 成绩,如机械能力倾向测验可以根据工艺课程的期终成绩进行效度分 析。当用训练成绩作效标时,其具体指标可以是完成训练后所实施的 成就测验的成绩、正式评定的等级、指导教师的评定、成功完成训练 或者被中途淘汰等。对于许多测验目的来说,实际工作表现( j o b p e r f o r m a n c e ) 的追踪记录都是最令人满意的效标测量。这种效标在 某种程度上用来对一般智力测验和人格测验进行效度分析,在很大程 r o b e r tm k a p l a n d e n n isp s a c c u z z o 著,赵国祥,李勇峰等译心理测验( 第五版) m 】西安:陕西师范大学出版 a r t h u rs j d i c t i o n a r yo fp s y c h o l o g y 【m 】n y :e n 9 1 a n dv i k i n gp e n g u i n i n c 1 9 8 5 :1 6 6 教育硕士学位论文 度上也用来对特殊能力测验进行效度分析。此外,能反映日常生活中 积累的、不可控制因素的合成效标是采用对照组方法进行效度分析时 所必须包括的,常用于人格测验。例如,在进行一个社交特质测验的 效度分析时,可以把推销员或者行政官员的测验分数与办事员或工程 技术人员的测验分数相比较。这样做的基本假设是,在许多社交特质 上,从事售货或行政工作之类职业的个体,整体上优于从事工程或办 公室工作之类职业的个体。而在编制有的人格测验时,根据长期观察 和详尽案史做出的精神病诊断也可以是令人满意的效标,但此时一定 要保证诊断本身的效度。还有一种可用于每一种测验的效标,那就是 评定。评定尤其适用于人格测验,因为人格测验的客观性效标很难找 到。虽然评定常会发生判断误差,但在严格控制条件下得到的评定仍 然是效标数据的一种有价值来源。最后,一个新测验同先前已有的测 验的相关也经常作为效度的证据。但应当指出,只有新测验比先前测 验更简单、更省时,用后者作为效标才是合适的。 说到效标,就一定要提效标污染( c r i t e r i o nc o n t a m i n a ti o n ) 。 有时候效标本身就没有很好的效度,或者由于测量效标的方法存在问 题而被污染了。前者如,在仓促的会谈或检查后做出的精神诊断;后 者如,一个临床心理学家知道有一批人已经被诊断为精神病患者,他 可能会误解这些病人在人格测验上的某些反应。这种效标污染可以通 过盲分析( b l i n da n a l y s i s ) 来控制,即研究者只能知道测验分数, a n n ea n a s t a s i & s u r b i a n 著,缪小春,竺培梁译心理测验【m 】杭州:浙江教育出版 社,2 0 0 1 :1 4 8 1 6 4 6 3 - 6 年级多重成就测验的效标效度 不能事先获得受测者的任何病情诊断信息。此外,就是要保证效标 本身的效度。 1 3 1 2 计算方法 相关法被认为是计算效标效度的传统方法,也是最常用的方法。 具体操作是求测验分数与效标资料之间的相关。相关法的优点是:提 供了预测源与效标间的数量关系;可利用回归方程式来预测每个人的 效标分数。相关法的缺点是:如果预测源与效标之间不是直线关系, 便会低估测验的效度;不能提供关于取舍正确性的指标。 对照组方法也是效标效度的估计方法之一。对照组又称区分法, 是检验测验分数是否能够有效区分由效标所定义的团体的一种方法。 也就是说,如果一个测验有效,那么效标成绩优秀的个体与一般人在 测验上的得分应该有显著差异。在统计上,我们可以用t 检验来判断 此差异是否达到显著性水平。但由于统计上的显著性受团体大小的影 响,因此这种方法只能证伪不能证实,即差异不显著,则测验必然无 效;差异显著,测验也并非一定有效。为了弥补这个不足,更好地检 验测验的效度,一般常用重叠百分比即用两组团体测验分数重叠的百 分比来表示团体之间的差异。这里有两个指标:其一是高分组内得分 低于低分组平均数的人数百分比,此百分比越高,说明差异越小,也 就是效度较差;其二是两组分数分布的交叉部分的百分比,当两组分 数交叉的部分大于7 5 时,效度较差,当两组分数的交叉小于5 0 时, l e w i sr a i i k e n 著,张厚粲,黎坚译心理测量与评估【m 】北京:北京师范大学出版 社,2 0 0 6 :9 8 10 0 吴迪昆明市公务员录用考试效标效度的研究【d 】浙江:浙江大学,2 0 0 7 教育硕十学位论文 效度较好。 1 3 1 3 效度系数与决策 用相关法计算的相关系数又称为效度系数,它告诉我们依据测验 结果对效标进行推断时的有效程度。没有一个绝对的刻度或一个迅速 而简洁的规则可以用于判定多大的效度系数才是有意义的。在实际工 作中我们很少会看到效度系数大于0 6 的情况,而效度系数在0 3 到 0 4 2 _ 间已经被认为是比较高的了。只要我们证明机遇因素所导致的 测验和效标之间的相关是非常小的( 通常是小于5 ) ,那么效度系数 在统计上就是显著的。 效度系数的平方就是我们在测验分数的基础上所希望知道的效 标能够被解释的百分数,即决定系数。假如我们知道s a t 的效度系数 为0 4 0 那么1 6 的大学成绩变异可以通过s a t 分数来进行解释。美国 教育研究会、美国心理学会和国家教育测量委员会的联合委员会在 教育与心理测验标准手册中于1 9 9 9 年就效度系数的解释提出了几 点建议:察看变量间的关系是否发生改变,因为效标效度的逻辑起点 在于我们使用测验时最初的测验和效标之间的关系一直保持未变;明 确效标的价值是什么,除非效标是有效且可信的,否则效标效度的研 究可能毫无意义;审查效度研究的被试群体;确保样本规模的充分性; 不能混淆效标和预测源;检查预测变量和效标的取值范围;审查效度 可推广性的证据;考虑不同的预测情况。 张厚粲,龚耀先心理测量学【m 】台北:东华书局股份有限公司,2 0 0 9 :2 2 1 - 2 2 2 l e w isr a i k e n p s y c h o l o g i c a lt e s t i n ga n da s s e s s m e n t ( 1 1 t he d i t i o n ) 【m 】a 1 1 i n a n db a c o n ,i n c 2 0 0 3 r o b e r tm k a p l a n d e n n i sp s a c c u z z o 著,赵国祥,李勇峰等译心理测验( 第五版) 【m 】西安:陕西师范大学出版社,2 0 0 5 :9 3 - 9 9 3 - 6 年级多重成就测验的效标效度 1 3 2 国内效标效度研究现状 1 3 2 1 常用效标 关于上文对于同时效度和预测效度的争议,我国学者杨志明对 其进行了综合。他认为,根据效标资料搜集的时间差异,将效标效度 分成同时效度和预测效度;而在具体运用中,同时效度主要用于诊断 现状预测效度主要用于预测某个个体将来的行为。他认为我们感兴趣 的行为往往是一个观念上的东西( 观念效标) ,它必须用一个数字或 者等级来进行表达( 效标测量) 。如果效标测量要想较好地体现观念 效标,那效标测量本身就必须是有效的和可靠的,而且还必须客观、 实用。那么也就是说效标测量必须具有有效性、可靠性、客观性和实 用性;同时效标测量还具有多样性、复杂性、特殊性和时间性。华东 师范大学的刘明还认为,行为领域的界定属于典型的心理结构理论的 问题,恰当效标的确定也是心理结构理论的问题。 台湾学者黄政昌在总结以往研究的基础上,将常用的效标归为以 下七种类型:学习成绩、工作绩效、特殊训练成绩、临床诊断和治疗、 团体比较、已具备效度数据的测验和观察者的评定成绩。每一种效 标又有具体且不同的效标测量指标。不同的测验常用的效标也不同, 具体如表1 - 1 戴海琦,张峰,陈雪枫心理与教育测量【m 】广州:暨南大学出版社,2 0 0 7 :6 6 6 7 金瑜心理测量【m 】上海:华东师范大学出版社,2 0 0 5 :1 8 5 黄政昌心理评估一一在谘商中的应用【m 】台北:双叶书廊有限公司,2 0 0 9 :1 3 8 1 4 0 教育硕+ 学位论文 表1 一l 不同测验的常用效标 测验类型常用效标 学业成绩、实际工作成绩、观察者( 教师、家长) 智力测验 的评定成绩、先前有效的同质性测验 学业成绩、实际工作成绩、特殊训练表现、对照团 性向测验体、观察者( 主管) 的评定成绩、先前有效的同质 性测验 学业成绩、教育程度、观察者( 教师、家长) 的评 成就测验 定成绩、先前有效的同质性测验 实际工作成绩、对照团体、观察者( 主管、同侪) 生涯兴趣测验 的评定成绩、先前有效的同质性测验 , 心理诊断类别( 女f i d s m - 1 v ) 、对照团体、观察者( 家 人格测验人、同侪、心理师等) 的评定成绩、先前有效的同 质性测验 ( 资料来源:黄政昌2 0 0 9 :1 3 9 ) 效标研究在人事心理学领域比较活跃,早期,研究者们对效标进 行了合理的列举并假设他们代表了成功的不同维度,随着统计方法的 成熟,这些假设得到了验证。效标的多维性得到了共识后在实际应用 中却出现了分歧,即是独立地对待多个效标,还是将多个效标整合起 来,组成一个合成效标分数? 合成效标模型是将某具体职务所要求的 多个效标分别赋予一定的权重,再按线性合成的方法整合成一个合成 效标来反映总的绩效。t o o p s 、t h o r n d i k e 、b r o g d e n 、t a y l o r 、n a g l e 3 - 6 年级多重成就测验的效标效度 等主张合成效标,他们认为效标应提供每个个体对组织的价值或成功 大小的尺度,单一指标便于作决策和进行个体间比较。而多重效标模 型强调必须收集多个职务绩效效标,来确定效标的独立维度,并更好 地理解效标。c o t t e l 、l a w s h e 、m cg i n l e y 、g u i o n 、s c h m i d t 和k a p l a n 等主张多重效标,他们认为效标的各个维度彼此独立不能合成,合成 的指标意义含糊,没有心理学意义。在效标内容方面,b o r m a n 示h m o t o w i d l o 提出了作业绩效和关系绩效的定义。 1 3 2 2 计算方法 我国学者顾海根详细地列出t * h 关法的具体计算方法:当测验分 数和效标资料都是连续变量时,效度系数使用皮尔逊积差相关法计 算;当测验分数是连续变量,而效标资料为他人评定的类别时,效度 系数采用j u s p e n 多系列相关公式计算;当测验分数是连续变量,而效 标资料为真正的二分称名变量时,效度系数使用点二列相关公式计 算;当测验分数是连续变量,而效标资料原本为连续变量,人为划分 为两类时,效度系数使用- y u 相关公式计算。 国内的教科书在介绍效标效度的计算方法时,除上文介绍的相关法 和区分组法还提到两种相关法的衍生方法,分别是命中率法和预期表。 用四格相关系数表示测验与效标之间相关的方法叫做命中率法。 c a s c i owf h p p ll e dp s y c h o l o g yi np e r s o n n e lm a n a g e m e n t 【m 】v i r g i n i a : r e s t o n 1 9 8 2 :1 1 5 - 1 1 6 c a s c i owf a p p ll e dp s y c h o l o g yi np e r s o n n e im a n a g e m e n tf m 】v i r g i n i a :r e s t o n 1 9 8 2 : 1 1 5 - 1 1 6 b o r m a nw c m o t o w i d i os j e x p a n d i n gt h ec r i t e r i o nd o m a i nt oi n c l u d ee l e m e n t s o fc o n t e x t u a lp e r f o r m a n c e 【m 】i n :s c h m i t tn b o r m a nw ce d p e r s o n n e lc e i e c t i o ni n o r g a n i z a ti o n s s a nf r a n c is c o :j o ss e y - b ass 1 9 9 3 :7 7 9 8 顾海根心理与教育测量【m 】北京:北京大学出版社,2 0 0 8 :5 0 教育硕士学位论文 计算命中率的方法有两种,一种是计算总的命中率,另一种是计算正 命中率。根据信号检测论可知,正命中率受临界分数的影响非常大,所 以总命中率与正命中率在一般情况下不完全相同,有时相差还很大。 相关法可用以建立理论上的预期表,但是不用计算相关系数,只 用次数分布和百分数求出的经验性预期表就能发挥很好的预期作用。 使用预期表要经过两个步骤:第一,要选择合适的效标行为;第二, 选择表格或图表的形式来表示测验分数与效标行为之间的关系。根据 预测源分数和效标分数制成的二维图表中,每个变量按水平被分成若 干档次,然后列出每个档次上的人数百分比,从右下角到左上角的对 角线上各格中的数字越大,说明效标效度越高。当人数较少时不宜使 用预期表,此时产生的预测误差会非常大。 1 3 2 3 应用 效标效度的应用自然是离不开测验的,中国的心理测验主要运用 于教育、心理咨询与治疗以及人力资源三个领域。 马惠霞和龚耀先在验证多重成就测验的信度和效度时,通过对太 原市和忻州市1 4 0 0 多名大、中学生进行抽样测验,并以中学生期中考 试成绩、大学生的大学入学成绩以及高二年级教师对学生平时成绩的 等级评定作为效标测量,计算结果显示多重成就测验分数与效标成绩 之间为中等相关。安莉娟和杨美荣在对高中生的安全感量表进行效 张厚粲,龚耀先心理测量学【m 】台北:东华书局股份有限公司,2 0 0 9 :2 2 卜2 2 2 顾海根心理与教育测量【m 】北京:北京大学出版社,2 0 0 8 :5 0 k u r tp a w l i k m a r kr r o s e n z w e i g ( 张厚粲主译) 国际心理学手册 m 】上海:华东师范 大学出版社,2 0 0 2 :5 4 2 5 4 4 马惠霞,龚耀先多重成就测验的信、效度研究 j 】中国临床心理学杂 志,2 0 0 3 ( 0 4 ) :2 4 9 - 2 5 2 3 - 6 年级多重成就测验的效标效度 度检验时,根据安全感的提出及其理论框架使用了先前较成熟的量表 作为效标,一个是丛中、高文凤编制的自我接纳量表;一个是黄希庭 教授编制的自我价值感量表;以及r o s e n b e r g 编制的自尊量表。计算 量表相应因子与各效标的相关,效标系数在0 5 2 一o 6 1 之间,并在0 0 1 水平上显著,说明该量表有很好的效标效度。 章婕、吴振云、方格等在验证流调中心抑郁量表( c e s d ) 的效标 效度时采用了区分法,即检验c e s - d 能否区分病人与普通人群。匹配 t 3 4 9 名在性别、年龄、教育程度、收入水平上相似的普通人群样本, 检验两样本间c e s d 总分和单个项目得分的差异,经t 检验发现差异显 著,即说明c e s - d 具有较好的效标效度。 测验在人事心理学领域的应用,大多是为了选拔安置人员,更多 地是为了达到预测的目的,上文已经介绍到,预测效标的获取相对是 比较困难的,那么效标测量的确定就十分关键了。浙江大学的吴迪在 对昆明市公务员录用考试的效标效度进行研究时,选取了将来公务员 的工作能力( a 2 作绩效) 作为效标,将能够反映公务员工作能力又具 有可测量性的“胜任力 作为效标测量。因此在他的研究中首先采用 了专家访谈和实证研究的方法确定了公务员录用考试的胜任力效标 模型 。北京邮电大学的张玮在对基于胜任特征模型的结构化面试的 信度和效度进行研究时,基于测量维度( 沟通能力、人际知觉、主动 性和组织协调能力) 的高绩效相关性已经得到证明,因此选择样本的 安莉娟,杨美荣高中生安全感量表的信度、效度检验与常模初步建立 j 】中国健康心理 学杂志,2 0 1 0 ( 0 1 ) :7 6 - 7 7 章婕,吴振云,方格,李娟,韩布新流调中心抑郁量表全国城市常模的建立【j 】中国心理 卫生杂志,2 0 l o ( 0 2 ) :13 9 - 1 4 3 吴迪昆明市公务员录用考试效标效度的研究【d 】浙江:浙江大学,2 0 0 7 教育硕+ 学位论文 测量维度的真实值作为效标,并采用3 6 0 度反馈评价法获取测量维度 的真实值。通过计算面试得分与效标测量间的皮尔森( p e a r s o n ) 系 数作为效度系数,其中人际知觉、组织协调、主动性和沟通能力的效 度系数分别为0 7 7 4 、0 7 9 5 、0 4 7 4 和0 5 9 7 ,平均效度达n o 6 6 ,高 于以往研究中的一般水平。 有关效标效度的应用绝不仅限于此,但上述的几个例子几乎代表 了效标效度的所有类型。我们可以发现,在涉及人事选拔的测验中多 采用预测效度;而在其他测验中出于多方面的因素考虑,多采用同时 效度。 1 4 成就测验效标效度研究综述 1 4 1 多重成就测验的概念及分类 多重成就测验( m u l t i p l ea c h i e v et e s t s ,简称m a t s ) ,是多学科、 多水平的综合成就测验,适用于多个年级,以团体测验的形式实施, 并采用常模参照的形式衡量学生达到一般学业水平的相对位置。它可 作为普通教育和特殊教育各种决策的依据,也是各行业人才测评及临 床评估的常用工具之一。 按照测验编制程序将多重成就测验分为标准化和非标准化的多 重成就测验。前者诞生于1 9 世纪末期,是指由心理和教育测量专家、 学科专家以及有经验的教师根据测验的编制原理和方法共同编制而 成的测验。后者一般没有常模,没有经过试用与分析,也没有信效度 的检验数据,其编制和实施过程带有比较大的随意性,且测量结果是 张玮基于胜任特征模型的结构化面试信度和效度研究【d 】北京:北京邮电大学,2 0 0 9 3 6 年级多重成就测验的效标效度 否准确可靠需要测验编制者和使用者凭经验判断。 按照分数解释的方法可分为标准参照和常模参照的多重成就测 验。常模参照测

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论