(基础心理学专业论文)结构化面试与无领导小组讨论信度分析的概化视角.pdf_第1页
(基础心理学专业论文)结构化面试与无领导小组讨论信度分析的概化视角.pdf_第2页
(基础心理学专业论文)结构化面试与无领导小组讨论信度分析的概化视角.pdf_第3页
(基础心理学专业论文)结构化面试与无领导小组讨论信度分析的概化视角.pdf_第4页
(基础心理学专业论文)结构化面试与无领导小组讨论信度分析的概化视角.pdf_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

结构化面试与无领导小组讨论信度分析的概化视角 中文摘要 摘要:本研究的目的是运用多元概化理论对人事测评的两种主要方法进行信度分 析。首先是通过概化研究的各种技术指标分析结构化面试信度,并比较结构化面试中行 为性与情境性两类面试问题的信度。其次是用同样的方法对无领导小组讨论的信度进行 分析。证实多元概化理论在人事测评的信度分析当中的应用价值。研究运用模拟真实情 境的方式进行了结构化面试和无领导小组讨论的研究。其中结构化面试针对6 8 名本科 生在9 个能力维度上进行评价,并区别了行为性面试问题与情境性面试问题。无领导小 组讨论针对1 4 组共5 8 名被试在7 个能力维度上进行评价。使用多元概化理论的方法和 程序对以上三部分研究进行信度分析,得到结果如下:( 1 ) 使用多元概化理论对结构 化面试的信度进行研究,结果表明,被试能力的变异是总变异的主要来源,评分者、题 目及交互作用的变异均较小。9 个维度的信度均达到了o 8 4 以上,结构化面试总的信度 为0 9 5 3 1 4 。( 2 ) 在行为性面试与情境性面试信度的比较中,多元概化分析的结果显示, 行为性面试的信度( 0 9 8 1 4 1 ) 要稍高于情境性面试的信度( 0 9 4 6 9 9 ) 。并且从各维度 的方差协方差分量以及误差项分析,行为性面试与情境性面试适合测量的能力维度不 同。这一点提示我们,测试要根据所需测量的能力的不同选择合适的种类。( 3 ) 使用 多元概化理论对无领导小组讨论的信度进行研究,结果显示,被试能力的变异、评分者 的变异及交互作用的变异对总变异的贡献差别不大,被试能力的变异对总变异的贡献要 稍大于评分者的变异,交互作用的变异最大。测评中7 的维度的信度都偏低,但研究总 体的信度( 0 8 1 3 8 4 ) 可以接受。研究证实了在表现性评价当中,多元概化理论在变异 来源和信度分析上存在着优势,有很大的实用价值。 论 关键词:多元概化理论信度结构化面试行为性与情境性面试无领导小组讨 结构化面试与无领导小组讨论信度分析的概化视角 a b s tr a c t t h ep u r p o s eo ft h i sr e s e a r c hi ss t u d y i n gr e l i a b i l i t yo ft w om a i np e r s o n n e l a s s e s s m e n tm e t h o d sb yu s i n gm g t f i r s t ,t h r o u g ht h et e c h n i c a li n d e x e so fm g t , w ea n a l y z et h er e li a b il it yo ft h es t r u c t u r a l i n t e r v i e w ,a n dt h e nc o m p a r et h e r e l i a b i l i t yo fb e h a v i o ri n t e r v i e wa n ds i t u a t i o n a li n t e r v i e w t h i r d ,w ea n a l y z e t h er e l i a b i l i t yo fl g db yu s i n gt h es a m em e t h o d t h i sr e s e a r c hi sai m i t a t i o no fr e a lo n e sw h i c hm e a n st oc o n f i r mt h e a p p l i c a t i o nv a l u eo fm g ti np e r s o n n e la s s e s s m e n tp r o g r a m w ec h o s e n6 8o n g r a d u a t e sa st h et e s t e e so fi m it a ti o ns t r u c t u r a li n t e r v i e w ,a n dt e s t e dt h e mo n 9v a r i a b l e so fe a c hk i n do ft h eb e h a v i o ra n ds i t u a t i o n a li n t e r v i e w s l g ds t u d y b a s e do n1 4g r o u po ft e s t e e s ( t o t a l5 8 ) a n d7v a r i a b l e s b yu s i n gm g ta n a l y s e s ,w eg o tt h r e ec o n c l u s i o n s :( 1 ) t h er e l i a b i l i t ys t u d y o fs t r u c t u r a li n t e r v i e ws h o w e d ,t h ev a r i a t i o no ft h et o t a ls c o r em o s tc a m ef r o m t h ev a r i a t i o no ft h et e s t e e s a n dt h ev a r i a t i o n so fr a t e r sa n di t e m sw e r et o t a l l y s m a l l t h er e l i a b i l i t yo fe a c ho n eo ft h e9 i sa b o v e0 8 4 ,a n dt h ee n t i r e r e l i a b i l i t yo fs t r u c t u r a li n t e r v i e wi s0 9 5 3 1 4 ( 2 ) t h er e l i a b i l i t yc o m p a r i n go f b e h a v i o ra n ds i t u a t i o n a li n t e r v i e ws h o w e d :t h er e l i a b i l i t yo ft h eb e h a v i o r i n t e r v i e w ( 0 9 8 1 4 1 ) i sal i t t l eh i g h e rt h a nt h es i t u a t i o n a l i n t e r v i e w ( 0 9 4 6 9 9 ) t h r o u g ht h ev a r i a n c ea n dc o v a r i a n c ea n a l y s e so fe a c ho ft h e 9v a r i a b l e sa n dt h ee r r o ri t e m sa n a l y s e s ,i tt o l du st h a tt h ep r o p e rt e s t i n g v a r i a b l e so fb e h a v i o ra n ds i t u a t i o n a li n t e r v i e wa r ed i f f e r e n t ,t h a tm e a n s r e s e a r c h e r ss h o u l dc h o o s et h er i g h tk i n do fa s s e s s m e n t sa c c o r d i n gt ot h e c o m p e t e n c e st h e yw a n t ( 3 ) t h es t u d yo ft h er e li a b i1it yo fl g ds h o w e dt h a tt h e r e a r en oo b v i o u s l yd i f f e r e n ta m o n gt h et e s t e e sv a r i a t i o n 、r a t e r sv a r i a t i o na n d i n t e r a c t i o nv a r i a t i o n t h ev a r i a t i o no ft e s t e e si sa1 i t t l eh i g h e rt h a nt h e t a t e r sv a r i a t i o n ,a n dt h ei n t e r a c t i o nv a r i a t i o ni st h eh i g h e s ti nt h i sp a r to f r e s e a r c h t h er e li a b i1 it yo fe a c ho n eo ft h e7v a r i a b l e si so nt h el o ws i d e 。 b u tt h ee n t i r er e l i a b i l i t yo ft h el g d ( 0 8 1 3 8 4 ) i sa c c e p t a b l e t h i sr e s e a r c hc o n f i r m e dt h ea p p l i c a t i o nv a l u eo fm g tu s i n gi np e r s o n n e l a s s e s s m e n tm e t h o d s ,t h e r es h o u l db em o r ep r a c t i c a la p p l i c a t i o ni nt h ef u t u r e k e yw o r d s :m u l t i v a r i a t eg e n e r a l i z a b i l i t yt h e o r y r e l i a b i l i t ys t r u c t u r a l i n t e r v i e wb e h a v i o ra n ds i t u a t i o n a li n t e r v i e w l e a d e r l e s sg r o u pd i s c u s s i o n 2 学位论文独创性声明 本人承诺:所呈交的学位论文是本人在导师指导下所取得的研究成果。论文中除特别加以标注 和致谢的地方外,不包含他人和其他机构已经撰写或发表过的研究成果,其他同志的研究成果对本 人的启示和所提供的帮助,均已在论文中做了明确的声明并表示谢意。 学位论文作者签名: 查塑鲤型主 学位论文版权的使用授权书 本学位论文作者完全了解辽宁师范大学有关保留、使用学位论文的规定,及学校有权保留并向 国家有关部门或机构送交复印件或磁盘,允许论文被查阅和借阅。本文授权辽宁师范大学,可以将 学位论文的全部或部分内容编入有关数据库并进行检索,可以采用影印、缩印或扫描等复制手段保 存、汇编学位论文,并且本人电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后使用本授权书。 学位论文作者签名:墨塑垒暨! ;指导教师签名: 签名日期:砂伽7 年上月,孑日 结构化面试与无领导小组讨论信度分析的概化视角 1 引言 1 1 测评的概化理论 1 1 1 概化理论产生的背景 概化理论( g t ) 是当今最有影响力的三大测量理论之一。在g t 理论产生之前,人们 通常使用c t t 对测量误差进行分析。传统的c t t 又称为真分数理论,真分数指在测量中不 存在测量误差时的真值或观察值。实际的观察值等于真分数加上误差,即:x = t + e , 其中x 为观察分数,t 为真分数,e 为误差。真分数理论的三个基本假设是:( 1 ) 误差分 数的平均数是零;( 2 ) 误差分数和真分数相互独立;( 3 ) 两次测量的误差分数之间的相关 为零。信度是测量可信程度或一致性的表示。在c t t 中信度是一组测验分数中真分数方 差与观察分数方差的比率,信度系数往往随测量设计的不同而不同。而事实上,误差变 异并非单一结构,c t t 对误差来源的笼统划分与控制成为它在实际应用中最为突出的缺 陷;c t t 的另一个突出的局限在于“严格平行测验 ( s t r i c tp a r a l l e lt e s t ) 的理论 假设,即要求子测验在内容、均数、变差、信效度方面完全相同。这在实际的测验情景 中很难满足n 1 。鉴于c t t 理论存在的不足,g t 理论应运而生。1 9 6 3 年,克龙巴赫( c r o n b a c h , r a j a r a t n a m ,& g l e s e r ,1 9 6 3 ) 等人在英国统计心理学杂志上发表了论文概化理 论:信度理论的丰富和发展( t h e o r yo fg e n e r a l i z a b i l i t y :al i b e r a z a t i o no f r e l l a b i l i t yt h e o r y ) ,这标志着g t 理论的诞生,但正式提出这一理论的是c r o n b a c h 等 人在1 9 7 2 年出版的行为测量的可靠性一书。至i 1 9 8 3 年,该理论开始走向成熟,各 种术语等开始走向规范和统一,相关的计算机软件也开发成功。当年出版的布瑞南 ( b r e n n a n ,1 9 8 3 ) 的专著概化理论纲要以及相应的软件g e n o v a ,对g t 理论的发展 起了很大的推动作用。同一时期,谢伟森和韦伯( s h a v e l s o n & w e b b ,1 9 9 1 ) 也出版了自 己的专著:概化理论入门。2 0 0 1 年,布瑞南重新出版了概化理论专著,该书大 量增加了不平衡设计和多元g t 理论的内容,并同时推出了相应的软件包口1 。随着研究水 平的提高,g t 理论的范围越来越大。目前,g t 理论不仅被用于标准化的常模参照性测验, 而且还被广泛用于标准性参照测验,非标准化测验,表现性评价等多方面,对教师的教学 评价和人事测评中的面试均有直接的帮助。 1 1 2 概化理论的优缺点 g t 理论的优越性在于:首先,在理论假设上,g t 扬弃c t t 的“经典平行测验假设 , 而代之以“随机平行测验假设”,从而使分析问题的条件较容易得到满足;其次,在具体 方法上,g t 利用方差分析技术,将测验变异分成几个部分,每个部分对应于特定的误差来 源,从而更便于测量误差的控制;最后,g t 最显著的特点是强调测量的具体情境,它认为, 结构化面试与无领导小组讨论信度分析的概化视角 测量的根本目的并不是为了获得特定条件下的测量结果,而是要以此来推断更广泛的条 件下可能得到的测量结果,以寻求最优化的测量设计,改进并指导实际的测量工作比1 。 g t 理论虽然具有许多独特的优点,但要用它来解决有关实际问题,还必须弄清楚该 理论的局限性,以便使g t 理论在实际测量中得到合理的应用。在基本思想上,g t 理论注 重所测心理特质的单维性,因此在实际应用中同样要强调试题样组的同质性。在计量方 法上,g t 理论对各类误差源的考察是以方差分析为基础,通过方差分量的估计来实现。 但由于数据结构的复杂性,方差分量估计有时还会出现负值,这是一个困惑人心的统计 理论问题,在时间测量研究中就更难解释了。在测量应用上,g t 理论用于实测数据的事 后分析是比较理想的,但用在事先指导时,就要逊色一些。因为概化分析基于随机抽样 模型,由于抽样的异变性,一次抽样数据的分析结果,仅是测验统计规律的描写,其可靠 性严重依赖于实测数据的完备性。因此,研究者必须有较高的测验设计水平和实测控制 能力。即便如此,在将预测数据分析的结果应用到实际测验的编制时,也应充分注意到 随机误差的影响比1 。 1 1 3 概化理论的主要概念和研究设计 1 1 3 1 概化理论中的主要概念 概化理论认为,测量的情景关系由测量目标( o b j e c t ) 和测量侧面( f a c e t ) 构成,测 量目标就是研究者通过测量以及测验分数所试图描述、刻画、揭示和研究的某个心理特 质心1 。测量侧面就是除了测量目标外,凡是会影响和制约最后测验分数的所有条件和因 素乜k 测量侧面有水平的不同,侧面的水平是指一个测量侧面所包含的个别状态,它还可 分随机侧面和固定侧面,如果侧面的水平是该侧面所有可能的众多水平中的一个随机样 本,则该侧面是随机侧面;如果每次所采用的侧面水平都相同,固定不变,则该侧面是固 定侧面乜1 。在一定条件下,根据测量目的不同,随机侧面和固定侧面可以相互转换,测量 目标和测量侧面也可以相互转换,固定侧面越多,所得结果的信度就越好,但固定侧面越 多,就会使测量目标受更多的限制。如果所有的侧面都固定,测量目标将变的毫无意义, 所以应用g t 时至少有一个面是随机的。随机侧面越多,从条件样本得到的一些测量结论 就越能推广到普遍的条件总体上去啦! 。 观测全域( u n i v e r s eo fa d m i s s i b l eo b s e r v a t i o n s ) 是指实际测量活动中所有测量 侧面条件全域的集合,其中一系列相同的测验情景称之为一个侧面晗1 。同一个被试可以 在多个不同的测验情景下进行测量,这种情景的结合叫做随机平行( r a n d o m l y p a r a l l e l ) ,随机平行的前提是大规模题库的存在。所有可能的随机化平行组合,构成了 可推论全域。可推论全域包括可观察全域中所有或部分情境,但是不可能超出它所包含 的情境乜1 。g t 理论认为,观察分数方差可以分成多个部分,分别是由测量目标和由观测 情景造成的并可用方差分析的方法将他们分别计算出来嘲。 2 结构化面试与无领导小组讨论信度分析的概化视角 为了进一步分析方差误差,g t 还提出了相对误差和绝对误差的概念。前者指测量设 计中的侧面和测量目标之间的交互作用的方差分量,后者是指所有侧面的主效应和侧面 及测量目标之间的交互效应的方差分量。g t 理论用概化系数和可靠性系数作为刻画误差 的指标。用相对误差估计出来的信度系数是概化系数( g 系数) ,是测量目标的有效变 异占有效变异与相对误差变异之和的比值。用绝对误差估计出来的信度系数是可靠性系 数或巾系数,是测量目标自身的分数变异在全体分数变异中所占的比率。概化系数和可 靠性系数代表了测验信度的高低,它们分别表示常模参照测验和标准参照测验中的信度 水平。随机误差由测量的目标自身的稳定性以及各种因素间的交互作用引起,统误差 则由各个测量侧面引起。概化系数和可靠性系数的开方等于实得分数与其真实水平之间 的相关,其值越高,则测验信度就越高位3 1 1 1 3 2 概化理论的基本研究方法 概化理论研究分为g 研究和d 研究两个部分,前者是测量程序的开发过程,主要任务 是:尽可能多地“挖掘”出各种潜在的测量误差来源,并估计出它们的变异分量大小。后 者是测量工具的应用过程,主要任务是根据决策的需要,以概化研究的方差分量估计值 为基础,在改变测量情境关系某些方面,使得测量误差趋于最小,从而提高测量信度和效 度乜1 。 g 研究( g e n e r a l i z a b i l i t ys t u d y ) 又称概化研究,是指在观测全域之上,研究者需 对所有侧面和测量目标以及他们间的交互作变异分量估计。g 研究在特定测量情境下, 进行收集资料设计,并实际进行试验性测试,获得实测数据,尽可能多地估计测量过程中 所有误差来源变异分数口1 。 d 研究( d e c i s i o ns t u d y ) 又称决策研究,是指在概括全域或概化全域上,对各测量 面或测量对象或它们之间的交互作用的研究。d 研究是为了某种特殊的决策需要,以g 研 究所得到的方差分量估计值为基础,在改变测量情境关系某些方面的情况下,如调整各 个侧面样本的大小、调整各个侧面之间的关系等,使得测量误差趋于最小,从而提高测量 信度。d 研究是对g 研究的推广,使研究者不必等到以后正式进行的测量工作,就可以做出 优化决策,实现预控调节。g 研究和d 研究是g t 中的两个研究过程。简单地说,g 研究是测 量程序的开发过程,d 研究是测量工具的应用过程口1 。具体来说,二者的主要区别是: ( 1 ) 两者所涉及的条件全域可以有所不同。g 研究中测量的条件全域是观测全域,d 研 究中所涉及的条件全域则是概括全域或推论全域。d 研究的主要目的在于根据特定的决 策需要来推论或解释测量结果,因此其概括全域可以与观测全域相同,也可以不同心1 。 ( 2 ) 两者任务不同。g 研究的主要任务是,在研究设计上尽可能多地“挖掘”出各种 潜在的测量误差来源,并估计这些误差来源变异分量的大小。d 研究的任务是根据决策 的需要,利用g 研究的结果,重新构建多种概括全域,在样本均值的层面上估计各种变异 二l 结构化面试与无领导小组讨论信度分析的概化视角 分量的大小,进而估计各种测量误差和测量精度指标等,为改进测量提供有价值的信息。 一般地,d 研究通过三个方面来重新构建新的概括全域,即,调整全域中各个侧面的样本 容量,调整测量的模式,调整测量结构口1 。 1 2 结构化面试研究的回顾 结构化面试( s t r u c t u r e di n t e r v i e w ) 在员工的招聘、选拔和任用中发挥着越来越重 要的作用。从企事业单位的人才招聘到党政领导干部的公开选拔,结构化面试成为使用 最为广泛的人才测评方法之一。 1 2 1 结构化面试的含义 结构化面试是指在面试内容、程序和评价三个方面进行结构化的一种面试形式,包 括内容结构化、程序结构化和评价结构化三个方面n 加。“结构化 指面试设计参照职位 要求、应试者特征,对面试题目、评价标准作适当裁剪,目的是减少考官评价偏差,提高 面试信度和效度。“结构化 是一种重要的缓冲变量,结构化面试比无结构化面试具有 更高的信度和效度n 蚰。 1 2 2 行为性面试与情境性面试 行为面试( b e h a v i o rd e s c r i p t i o ni n t e r v i e w ) 和情景面试( s i t u a t i o n a li n t e r v i e w ) 是结构化面试的两种重要形式。行为面试假设,过去行为是未来行为的最好预测指标, 通过应聘者对过去某种行为的追忆和表述,从而捕捉应聘者的个性特征;行为面试的 实现途径主要通过应聘者对过去行为事例的回忆和表述,从而了解应聘者已具备的行 为素质。其实现途径是:( 1 ) 识别岗位工作的关键性要求;( 2 ) 使用过去的行为预测未来 的行为;( 3 ) 探测应聘者的行为事例并做出评价;( 4 ) 内容、程序、评价三方面结构化。 情景面试基本原理是届标设置理论,假设对未来的意图和设想是未来行为的有效预 测指标,主要通过求职者对某种假设情景的设想、联想、假设和分析,来捕捉其某些能 力或其他个性特征n 引。 行为面试和情景面试是两种有效的面试方法,它们各自的信度和效度并不存在显著 区别。c a m p i o n 等( 1 9 9 4 ) 研究发现:行为面试和情景面试相关系数为o 7 3 ( p 0 0 1 ) ,平 均数和变异量相似,考官间信度分别为0 9 4 和0 9 7 ,两类面试与上级评价绩效问相关 较低,行为面试略高于情景面试,但不显著n6 1 。又如m c d a n i e l 等( 1 9 9 4 ) 运用元分析技术 发现:情景面试和行为面试平均效度系数为o 2 7 和0 2 1 ,校正后为o 5 0 和0 2 9 n 刀。 虽然以往的研究表明行为面试和情景面试在信度和效度上并不存在显著差异,但也 有研究发现行为面试的效度显著高于情景面试,而情景面试的信度高于行为面试。如研 究发现行为面试与上级评价的工作绩效相关显著,而情景面试则不显著h 副。许多研究者 把这些差异归结三个方面原因:操作不同,情景面试适合逐题打分,而行为面试适合 末尾打分;反应不同求职者对假设的情景作简单反应,而对经历的行为反应丰富细腻; 4 结构化面试与无领导小组讨论信度分析的概化视角 所需时间不同,行为面试时间较长,情景面试时间较短。但进一步的研究发现,情景 面试和行为面试适用于招聘、选拔不同职位的员工,以往情景面试信度和效度较高的原 因是因为研究数据来源于简单的、基层职位。离开职位层次和职位特征来探讨结构化面 试的信度和效度毫无意义。p u l a k o s 和s c h i m t t ( 1 9 9 5 ) 在研究美国联邦调查局人才选拔 面试中发现,情景面试不适合用于联邦调查局这样复杂的部门和职位的人才选拔,并认 为行为面试比情景面试在选拔复杂职位和高层次人才时更为有效n 引。a l l e n 等( 2 0 0 1 ) 的 研究验证了情景面试的局限性,认为情景面试之所以在高层次人才选拔面试中应用效果 不好,可能是因为以下几方面原因:面试题目长度有限,难以设计复杂情景;复杂 情景具有动态性特征,运用关键事件编成的情景试题,生态效度大打折扣;求职者对 情景作简单的反应,使得试题区分度低n 町。职位层次和职位特征是一种重要缓冲变量, 面试设计和研究必须建立在职位层次和职位特征基础之上。 1 2 3 结构化面试进展及其误差的研究 近些年来,随着人们多认识测评重要性认识的不断加深,人事测评技术得到了飞速 的发展。人事测评的主要技术包括履历分析、心理测验、情景模拟、结构化面试等。其 中结构化面试几乎在所有的招聘中都会被用到h 3 。而且,在汇总各项测评结果做出最终 决定时,面试结果所占比重也越来越大。可以说,结构化面试已经成为人员招聘中使用 最为广泛的方法u 钔。 面试是一个或多个考官与一个求职者之间在有限时间内的人际互动,旨在鉴别求职 者的知识、技能、能力和行为等方面的特征,这些特征将用于预测求职者在未来工作上 的成功。研究对这种成功的操作性定义包括工作绩效、培训、晋升、任期等方面的指标 啪3 。面试按标准化程度可分为:结构化面试、半结构化和非结构化面试三种。所谓结构 化面试是指面试的内容,方式,评委构成,程序,评分标准及结果的分析评价等构成要 素,按照统一制定的标准和要求进行的面试砼。 长期以来,较低水平的评分者一致性一直被认为是人事面试的一个重要的缺陷。 w a g n e r 第一个全面地总结了与人事面试有关的研究综述心副,得出面试的评分者一致性从 0 2 3 到0 9 7 。w a g n e r 总结道:面试的信度和效度或许存在高度的情境特异性和考官特 异性乜引。从w a g n e r 开始,一直到当代学者瞳劓,对面试研究的总结反复提到下述评分误 差:对比效应( c o n t r a s te f f e c t s :至少考生的部分面试成绩受到紧邻的在他前面面试 的考生的质量的影响) 、与我类似效应( s i m i l a rt om e ) 、第一印象偏差( f i r s ti m p r e s s i o n e r r o r ) 、晕轮效应( h a l o ) 、首因一近因效应( p r i m a c y r e g e n c ye f f e c t s ) 、考官刻 板印象( 考官心目中理想的成功面试者的形象) 、顺序效应( o r d e re f f e c t s ) 、考官对 考生的个人感情( p e r s o n a lf e e li n g s ) 、信息偏好( 考官在面试的早期,一般是面试 的前4 分钟,已经做出了最终决定;与来自考生的积极的信息相比,考官更看重消极的 5 结构化面试与无领导小组讨论信度分析的概化视角 信息) 等等。关于面试误差的这些研究结果意味着评分往往在一定程度上反映的是面试 过程的特征或者考官个人的评分技能,而不是被试与工作相关的特征。因此,这种来自 情境的误差变异损害了面试的潜在效度和效用 2 5 o 随着面试形式的进步阱1 ,面试数据结果的信度和效度有所提高嘶1 。这些进步包括: 首先,面试的结构化不断增加,而研究发现面试结构化的程度与效度系数是相关的盥 ; 其次,面试题目是基于工作分析而得到的;第三,对评委进行培训;第四,在面试过程 中实行笔录;第五,使用评委组进行面试;第六,使用行为锚定等级量尺来评价被试的 回答啪3 等等。这些方法的使用在很大程度上提高了面试的效度和信度。m c d a n i e l 等对1 0 6 个研究进行元分析,以工作绩效为效标,得到的校正后的平均效度为0 4 5 2 4 o 这样, 在各种主要人事选拔技术中,面试已经成为仅次于认知能力测验的有力选拔工具( 认知 能力测验的效度为0 5 3 ,评价中心的效度为o 4 3 ,传记式资料的效度为0 3 7 ) 。基于一 系列的元分析,s c h m i d t 和h u n t e r ,在回顾了8 5 年的人事选拔研究之后,得到这样的结 论:面试是工作绩效、培训效果等变量的最好的预测变量之一。同时,他们还认为,面 试的这种效度可以概化到不同的工作、效标、以及组织例。总之,选拔面试能够较好的 预测工作绩效评定,尽管这种有效性受到面试内容,面试的结构化程度等变量的调节h 1 。 需要明确的是,面试本身作为一种工具的有效性并不能保证其在具体的面试实践中 的有效性。由于面试具有主观性大、面试考官容易出现偏差等缺点,如何不断提高结构 化面试的规范化、结构化、精细化和科学化仍受到研究者的日益重视。关于面试误差的 研究从很多方面展开。面试误差的来源有很多方面h 1 :面试题目的有效性、面试实施的 各个环节、面试评委的培训、面试记分维度的设定以及面试评分量表的设计等等。研究 者主要集中在两个方面的研究以降低面试过程中的情境误差,提高实际面试的效度和信 度。第一种方法关注面试的内容、获取信息的维度的标准化,从而使得考官尽可能在相 同的工作相关信息的基础上对考生进行评价,最终提高评分的一致性。 近年来,随着现代测量理论的发展,越来越多的研究者尝试使用现代测量学的方法, 通过统计校正,改进面试评分技术,提高面试信度和效度。但是,在我国,对于面试中 各种误差的研究还停留在比较初级的阶段。大多数面试研究仍局限于经典测量理论 ( c l a s s i c a lt e s tt h e o r y ,c t t ) 的研究方法h 。 1 3 无领导小组讨论研究的回顾 无领导小组讨论( l g d ) 是评价中心的主要方法之一,谈及这种方法的发展,就不 得不介绍评价中心的发展脉络。 上世纪2 0 年代德国军队建立了用以选拔军官的多项评价程序( ( ( a s s e s s m e n t c e n t e r sa n dm a n a g e r i a lp e r f o r m a n c e ) ) b yw i1lj a mc b y n a m e ) ,其中包含的实际操 作的作业成为了评价中心发展的基础。后来英国、美国的军方也在德国的基础上,建 6 结构化面试与无领导小组讨论信度分析的概化视角 立了自己的评价中心,用以选拔情报人员。二战后,这种方法被军事心理学家和军官带 到了工业企业中。评价中心最早在企业中的应用是上世纪5 0 年代美国电话电报公司 ( a t & t ) 实施的“管理发展研究( m a n a g e m e n tp r o g r e s ss t u d y ) 。在该项目中运 用了小组讨论、情境模拟、面试和心理测验等活动,心理学家和有经验的工作人员按照 2 5 条标准对公司的几百名员工进行了多次的评价和长期的评估,结果显示在被提升到中 级管理岗位上的人当中8 0 的人当时的评价鉴定是正确的,而在未被提升的人当中9 0 左右在八年前就预测到了。随后,标准石油、i b m 、通用电气等企业纷纷效仿a t & t ,评 价中心在工业组织中得到了迅速的传播,在德国、菲律宾、新加坡、南非、澳大利亚、 英国、日本等不同文化的国家均得到接受和广泛的使用( t h o r n t o n ,1 9 9 2 ) 。据估计, 1 9 8 0 年仅美国就至少有2 0 0 0 个组织使用了评价中心。直到2 0 世纪8 0 年代评价中心技 术才逐渐在我国开始了较为系统的介绍。进入9 0 年代,有些学者将评价中心作为选拔 管理人员的方法运用于企业中( 梁开广等,1 9 9 1 ;宗月琴,1 9 9 2 ) ,取得了良好的效果。 随后,我国的政府部门也开始使用评价中心选拔政府官员。1 9 9 6 年国家人事部考试录用 司在为原地矿部选拔局级领导干部时运用了评价中心,取得了令人满意的结果。1 9 9 7 年后在公务员录用考试、北京市的领导干部高级管理人员选拔考试中也在尝试着运用评 价中心中某些情境化测验( 如文件筐测验、无领导小组讨论等) 。总之,评价中心在我 国已得到初步的发展,但同时,许多测评的方法和技术还有待进一步的完善n 。 评价中心是一种综合的人事测评方法,它是在对目标岗位的工作分析的基础上确定 出该岗位所需要的关键能力、特质或者维度,然后创设一系列与工作高度相关的模拟情 境,再要求被试在这种模拟的工作情境下完成各种相应的管理工作,然后由多个评分者 对被评价者的行为进行观察和评分。评价中心主要包括的方法有:文件筐测验、无领导 小组讨论、搜索事实、演讲、模拟面谈、模拟会议等模拟活动。不同的组织在使用评价 中心进行选拔或其他的人事测评时可以进行适当的选择n 。 无领导小组讨论是一种评价中心常用的方法,经常用于各种组织的人才选拔,这种 方法在国外人才测评选拔中有广泛的运用,在国内对这种方法也有一定的研究,苏永华、 柴雪、丁玉洋的无领导小组讨论( 1 e a d e r l e s sg r o u pd i s c u s s i o n ,简称l g d ) 技术实施 中的信度与效度问题研究、吴谅谅等人的“无领导小组的应用等都对l g d 的信效度、 评价者等作了一系列的实证研究,可还有一些问题没有取得令人满意的结果,在各方面 还有待进一步的完善,还有大量的问题需要解决n 。 无领导小组的评分是一个非常复杂的过程,它是由多个评分者,按照预先设计好的 维度,从被评价者所表现出的诸多行为中辨别、筛选、记录其典型行为,评分者通过集 中讨论使评分结果达成一致,或者用统计的方法对评分结果进行整合,最终得到被评价 者行为表现的综合评价,观察和评价的过程需要在很短的时间内完成,这些对评分者的 7 结构化面试与无领导小组讨论信度分析的概化视角 要求是非常高的。而且这也是无领导小组讨论的一个难题,因此,如何使评分者的评分 更加准确,一直是研究者们关心的问题。b i t n e r ( 1 9 4 8 ) 就认识到对评分者进行培训能提 高评分有效性的这种潜在的价值n 。 1 3 1 国内外对l g d 的研究 国外对l g d 的研究主要是它在评价中心当中的应用,对它的设计、实施、信度和效 度等的专门研究不是很多,大部分研究是把l g d 与评价中心的其他方法结合起来进行研 究的,还有就是通过l g d ,对整个评价中心进行效度的研究 ( j e f f r e y n e a l ,1 9 9 2 :l a n c e ,n e w b o l t g a t e w o o d ,e r a l ,2 0 0 0 :s h o r e ,t h o r n t o n g e o r g e , 1 9 9 0 :k u d is e h & l a d d ,1 9 9 7 ) 。 表1 国外l t d 研究现状m 由于l g d 兼具人力资源评价和培训开发的双重功能,其在全球范围内得到广泛应 用。这些年以来,l g d 技术在我国的人才选拔应用广泛。国家公务员考试开始将它列为 面试的内容之一,有些省( 市、区) 已经在实际选拔公务员或领导干部时运用l g d 技术, 例如广东省就将l g d 的技术运用于省副厅级领导干部的选拔。公开选拔领导干部以 来,l g d 技术受到广泛关注,2 0 0 3 年广东省公开选拔1 0 0 名副县级领导干部就启用l g d 评 价程序,这是我国公开选拔领导干部实践中的创新尝试。公开选拔领导干部对l g d 提出 了很高的要求。2 0 0 0 年初中共中央组织部颁发了全国公开选拔党政领导干部考试大纲 ( 试行) 详细地阐述了l g d 的含义和操作程序。公开选拔领导干部对评价技术提出了更高 的要求,如何运用l g d 评价技术选拔高层次管理人才,如何开发具有中国特色的l g d 评价 工具是我国人才评价技术研究者面临的挑战。 我国对l g d 研究主要在下面几个方面:首先比较多的文章是对l g d 内容、特点、过 程等的介绍1 。其次,关于l g d 的实证研究中比较有代表性的是彭平根等人的“l g d 在 选拔企业高级管理人才方面的实证研究 啼1 ;苏永华、柴雪、丁玉洋的“l g d 技术实施 8 结构化面试与无领导小组讨论信度分析的概化视角 中的信度与效度问题研究 ;关培兰等人的“无领导小组在人才招聘中的作用”1 :黎 恒等人的“无领导小组的实物操作中层管理人才选拔案例 口1 ;吴谅谅等人的“无 领导小组的应用川8 1 等。这些文章都对l g d 的信效度、评价者等作了一系列的实证研究, 为我国l g d 技术的发展起到了推动的作用。 国内l g d 研究现状具有以下几个方面特征n 1 1 :( 1 ) 分析思路单一,运用传统的测量理 论分析l g d 的信度和效度。总的来看,我国研究证据表明,l g d 是一种具有较高信度和效 度的人才评价方法,但对过程效度关注不够,对影响信度和效度的关键缓冲变量的研究 有待进一步加强。研究关注l g d 与其他测验的关系,但对测验之间的增量效度尚未有实证 分析。( 2 ) 研究设计思路单一,局限于特质导向设计思路。特质导向的设计思路既忽略 了行为也忽略了结果,强调考官的客观观察和主观判断,因此,习惯运用等级评价量表对 被评价者的各个特质进行总体评价。特质导向的设计思路和等级评价量表是中国传统评 价思路的典型反映。特质导向设计思路容易导致测量构思偏移评价目标,从而使得测验 的构思效度缺失。( 3 ) l g d i 9 l t j 评要素设计缺乏理论支持和实证依据。测评要素数量比较多, 增加了评价者的认知负荷,致使测评要素之间相关过高,缺乏辨别效度。但在构思测量上 也取得了系列研究成果,如研究发现,与个性品质方面的评价相比,l g d 在评价个人的能 力特征方面更有优势射。 1 3 2 国内外对l g d 信度的研究 l g d 是由多个评价者对被评价者进行评价,所以评价者的内部评分内部一致性也成 为l g d 评分可靠性的一个重要指标n 。在国内外众多l g d 的研究中,很多都采用了评分 者一致性作为l g d 的信度指标。从这些对l g d 的研究结果来看l g d 的评价者内部一致性 是比较好的。b a s s ( 1 9 5 4 ) 报告评价者内部一致性在0 6 1 - 0 8 4 之间。b r a y g r a n t ( 1 9 6 6 ) 对两个不同的l g d 进行研究,其评分者的内部一致性是o 6 0 和0 7 5 ,等级的一致性是 0 6 9 和0 7 5 。在一个相似的研究中,g r e e n w o o d & m c n a m a r a s ( 1 9 6 7 ) 对1 2 组不同的l g d 进行研究,信度等级在o 4 8 0 8 4 之间。c 1i n g e n p e e l ( 1 9 7 9 ) 对两组l g d 的研究结果显 示评分者内部一致性是0 7 2 和0 6 9 。当然还有用其他的作为信度指标的。r o b e r t g a t e w o o d ,g e o r g ec t h o r n t o n & h a r r yw h e n n e s s e yj r 在1 9 9 0 年的一项对l g d 的 研究中显示评分者内部一致性在o 6 9 0 9 9 之间,组间信度在0 6 6 0 8 4 之间,同样也 比较好。然而复本信度却不是很理想( 两组不同的l g d 中同一个评价者对被评价者的评 价之间的相关) 是0 5 5 - 0 6 2 之间。对于评分者内部一致性,j o n e s ( 1 9 8 1 ) 的研究发现, 评分者通过讨论达成的综合评价对评分内部一致性产生影响,讨论前的一致性系数为 0 4 2 - 0 5 3 ,而讨论后的一致性系数是0 5 9 一o 7 4 。这个差异显示讨论后一致性系数的提 高是由于社会压力对评价的影响而不是基于基准分数( t r u es c o r e ) 所达成的一致。 9 结构化面试与无领导小组讨论信度分析的概化视角 h e r r i o t ,c h a l m e r s w i n g r o v e ( 1 9 8 5 ) 发现,社会因素会影响评分者内部一致性,讨论 后的评分会显示出更高的内部一致性。 被评价者人数影响l g d 的评价信度n 。b a s s 和n o r t o n 研究l g d 不同分组条件下评 价者信度发现:六人组信度最高( 一致性系数为0 8 2 ) ,两人组评价者信度最低( 一致性 系数为0 7 2 ) 。 国内也有很多研究者对l g d 的信度进行了研究,吴谅谅( 2 0 0 2 ) 用肯德尔w 系数作 为评分者的信度指标研究表明评价者的内部评分内部一致性趋于一致。彭平根的研究表 明:无领导小组讨论信度指标w 系数除了基本都达到真诚维度略低是0 3 8 3 ( p o 0 5 ) 外,其他的w 系数都在0 5 2 3 0 7 9 3 ( p o 0 1 ) ,表明评分者信度一致性较好,他的而且 他在研究中发现对能力方面的素质特征评价一致性略高于个性的评价体系。唐忠明在他 的评分者一致性研究中也显示肯德尔w 系数均达到显著,最低达到0 5 6 0 ,最高达到了 0 8 7 3 ,说,评分者的一致性较好。他还对不同评价者评分内部一致性进行了比较,结果 显示有人事经验的与没有人事经验的评价者在倾听能力上评价不一致,其他的维度趋于 一致。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论