（基础心理学专业论文）评价中心结构效度模拟实验研究.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-07 格式：PDF 页数：55 大小：1.66MB 积分：0 举报 版权申诉

已阅读5页，还剩50页未读，继续免费阅读

（基础心理学专业论文）评价中心结构效度模拟实验研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要评价中心是从多角度对个体行为进行评估的人才测评方法。它使用多种测评技术，通过多名测评师对个体在特定测评情景中表现出的行为做出判断，然后将所有测评师的意见通过讨论或统计的方法进行汇总，从而得出对个体的综合评估。公文筐测验、无领导小组讨论、角色扮演和管理游戏是评价中心常用的情景模拟技术。研究表明，评价中心具有良好的效标关联效度，其内容效度也在不断提升，但其结构效度却不太理想。影响评价中心结构效度的因素主要有测评维度、测评情景、测评师、测评对象和评分方法。研究采用评价中心技术，模拟某中学招聘数学教师的情景，选择3 0 名数学系的大四学生为测评对象，让他们模拟应聘某中学数学教师，另外选择3 2 名研究生和有工作经验的教师作为测评师，让他们根据事先确定的行为评价标准，对测评对象在1 0 分钟讲课、无领导小组讨论和角色扮演中行为表现进行评分。根据评价结果，检验了评价中心的结构效度，考察了评分方法对评价中心结构效度的影响，最后，还考察了测评师的评分一致性。研究一采用多质多法、验证性因素分析和概化理论，应用情景内评分方法检验了评价中心的结构效度。结果发现评价中心具有良好的汇聚效度，但区分效度较低。验证性因素分析还发现，维度效应大于情景效应，表明测评师是以个体特征模式进行评分的。研究二采用多质多法和概化理论，应用维度内评分方法检验了评价中心的结构效度，并比较了情景内评估方法和维度内评估方法对它的影响。结果发现评价中心具有良好的汇聚效度，但区分效度较低。比较研究二与研究一的结果发现，情景内评分方法和维度内评分方法对评价中心结构效度没有显著差异。研究三采用概化理论分别对三种情景中测评师评分一致性进行了探讨。结果发现，经过培训的测评师对评分标准的理解较为准确，但评分不太一致。具体讲， 1 0 分钟讲课和无领导小组讨论中的测评师的评分一致性较差，角色扮演中的评分一致性尚可接受。通过对三个研究结果的综合分析，得到以下结论： ( 1 ) 评价中心具有良好的汇聚效度，但区分效度较低。 ( 2 ) 测评师是以个体特征模式而不是角色一致模式进行评分的。 ( 3 ) 测评维度和测评情景较少的情况下，维度内评分方法和情景内评分方法对结构效度的影响没有显著区别。 ( 4 ) 测评对象在不同的测评维度上会有不同的行为表现，测评师的评分基本能够反应他们在不同维度上真实能力水平的差异，但他们的评分一致性有待提高。 ( 5 ) 3 或4 名测评师对3 个测评维度集进行评分，评分结果可以达到测量学要求的精度水平。关键词评价中心结构效度测评维度测评师数学教师模拟实验 u a b s t r a c t a s s e s s m e n tc e n t e ri sap e r s o n n e le v a l u a t i o nm e t h o dw h i c ha s s e s s e si n d i v i d u a l b e h a v i o rp e r f o r m a n c ef r o mm u l t i p l ep e r s p e c t i v e s m a n ye v a l u a t i o nt e c h n o l o g i e sa r e a p p l i e da n dm a n ya s s e s s o r se s t i m a t ei n d i v i d u a lb e h a v i o r si ns p e c i a le x e r c i s e s n e a s s e s s o r s e v a l u a t i o no p i n i o n sa r ec o l l e c t e dt h r o u g hd i s c u s s i o na n ds t a t i s t i c a lm e t h o d ， t h e nt h eo v e r a l la s s e s s m e n tt oi n d i v i d u a la r eo b t a i n e d u s u a l l y , i n b a s k e t , l e a d l e s s g r o u pd i s c u s s i o n ，r o l ep l a y i n ga n dm a n a g e m e n tg a m ea r eu s e df o rt h es i m u l a t i o n t e c h n o l o g yo fa s s e s s m e n tc e n t e r t h ef o r m e rr e s e a r c h e si n d i c a t et h a t ，a s s e s s m e n tc e n t e r h a sg o o dc r i t e r i o nv a l i d i t ya n di t sc o n t e n tv a l i d i t yh a sb e e ni m p r o v i n g , b u ti t sc o n s t r u c t v a l i d i t yh a sb e e nl e s sp r o m i s i n g t h em a i n l yi n f l u e n t i a lf a c t o r st ot h ec o n s t r u c tv a l i d i t y o fa s s e s s m e n tc e n t e ra r ed i m e n s i o n ，e x e r c i s e ，a s s c s s o r ，a s s c s s e ea n dr a t i n gm e t h o d t h i sa r t i c l e a p p l i e sa s s e s s m e n tc e n t e r , s i m u l a t e s t h ee x e r c i s e so fe m p l o y i n g e x c e l l e n tm a t h e m a t i c st e a c h e rf o rs o m em i d d l es c h o o l ，a n dc o n f i r m sc o n s t r u c tv a l i d i t y a n dt h ei n f l u e n c e so fd i f f e r e n tr a t i n gm e t h o dt oa s s e s s m e n tc e n t e r m o r e o v e r , t h ea r t i c l e a l s od i s c u s s e ss o m eq u e s t i o n sa b o u ta s s e s s o rr a t i n gc o n s i s t e n c y i nt h es t u d y , 3 0m a t h d e p a r t m e n t ss e n i o rs t u d e n t st a k er o l eo fa s s e s s e e s ，t h e yi n t e r v i e wm i d d l es c h o o l s m a t h e m a t i c st e a c h e r 3 2g r a d u a t e sa n de x p e r i e n t i a lt e a c h e r st a k ep l a yo fa s s e s s o r s ， a c c o r d i n gt ot h eb e h a v i o re v a l u a t i o nc r i t e r i o n ；t h e ye v a l u a t et h ea s s e s s e e s b e h a v i o r p e r f o r m a n c e i n1 0m i n u t e st e a c h i n g , l e a d l e s sg r o u pd i s c u s s i o na n dr o l ep l a y i n g i ns t u d y1 ，b ym e a n so fw i t h i n - d i m e n s i o nr a t i n gm e t h o d ，m u l t i t r a i t m u l t i m e t h o d ， c o n f i r m a t i o nf a c t o ra n a l y s i sa n dg e n e m l i z a b i l i t yt h e o r ya r eu s e dt ot e s t i f yt h e c o n s t r u c tv a l i d i t yo fa s s e s s m e n tc e n t e r 1 1 l er e s u l t si n d i c a t et h a ta s s e s s m e n tc e n t e rh a s w e l lc o n v e r g e n tv a l i d i t y , b u ti t sd i s c r i m i n a n tv a l i d i t yi sl o w e x e r c i s ee f f e c ti sh i 【g h e r t h a nd i m e n s i o ne f f e c t ，a n da s s e s s o r se s t i m a t et h ea s s e s s e e s a b i l i t yb yt h ep e r s o n c h a r a c t e r i s t i cm o d e l i ns t u d y2 ，b ym e a n so fw i t h i n e x e r c i s er a t i n gm e t h o d , m u l t i t r a l t m u l t i m e t h o da n d g e n e r a l i z a b i l i t yt h e o r ya r eu s e dt ot e s t i f yt h ec o n s t r u c tv a l i d i t yo fa s s e s s m e n tc e n t e r a g a i n a tt h es a m et i m e ，i n f l u e n c e sb r o u g h tb yd i f f e r e n tr a t i n gm e t h o d sa r ec o m p a r e d t h er e s u l t si n d i c a t et h a ta s s e s s m e n tc e n t e rh a sw e l lc o n v e r g e n tv a l i d i t y , b u t d i s c r i m i n a n tv a l i d i t yi sl o w r a t i n gm e t h o d sh a v el i t t l ed i f f e r e n c eo nc o n s t r u c tv a l i d i t y i ns t u d y3 a s s e s s o rr a t i n gc o n s i s t e n c yi sd i s c u s s e di nd i f f e r e n te x e r c i s e s b y g e n e r a l i z a b i l i t yt h e o r y t h er e s u l t si n d i c a t et h a t ，a s s e s s o rc a nu n d e r s t a n dw e l la b o u t m t h eb e h a v i o re v a l u a t i o nc r i t e r i o n ，b u tt h e i rr m i n gc o n s i s t e n c yi sl o w a s s e s s o rr a t i n g c o n s i s t e n c yi n1 0m i n u t e st e a c h i n ga n dl e a d l e s sg r o u pd i s c u s s i o ni sn o tg o o dc n o a g h ， b u ti tc a nb ea c c e p t e di nr o l ep l a y i n g a c c o r d i n gt ot h ef i n d i n g so ft h e3s t u d i e s ，f o l l o w i n gc o n c l u s i o n sw e r ed r a w n ： ( 1 ) a s s e s s m e n tc e n t e rh a sw e l lc o n v e r g e n tv a l i d i t y , b u td i s c r i m i n a n tv a l i d i t yi sl o w ( 2 ) a s s e s s o r sr a t ea s s e s s e s b e h a v i o rp e r f o r m a n c ei np e r s o nc h a r a c t e r i s t i cm o d e l ( 3 ) u s i n gaf e wd i m e n s i o n sa n de x e r c i s e s ，r a t i n gm e t h o d sa r en o tb r i n g i n gg r e a t d i f f e r e n c eo nt h ei n f l u e n c eo nc o n s t r u c tv a l i d i t y ( 4 ) a s s e s s e c sh a v ed i f f e r e n tb e h a v i o rp e r f o r m a n c eo nt h ed i f f e r e n td i m e n s i o n s a s s e s s o r s r a t i n gc a na l m o s tr e p r e s e n tt h e i rr e a la b i l i t y , b u tt h e i rr a t i n gc o n s i s t e n c yn e e d b ei m p r o v e d ( 5 ) i ti sp o s s i b l et om e e tt h ep r e c i s i o no fm e a s u r et h a t3o r4a s s e s s o r sr a t e3 d i m e n s i o nc l u s t e r s k e y w o r d s a s s e s s m e n tc e n t e rc o n s t r u c tv a l i d i t yd i m e n s i o na s s e s s o r m a t h e m a t i ct e a c h e rs i m u l a t i o ne x p e r i m e n t 学位论文独创性声明本人声明所呈交的学位论文是我在导师的指导下进行的研究工作及取得的研究成果。尽我所知，除文中已经注明引用的内容外，论文中不包含其他个人已经发表或撰写过的研究成果，也不包含为获得陕西师范大学或其它教育机构的学位或证书而使用过的材料。对本文的研究做出重要贡献的个人和集体，均已在文中作了明确说明并表示谢意。作者签名：至! 鱼暨日期： 2 0 订，譬学位论文使用授权声明本人同意研究生在校攻读学位期间论文工作的知识产权单位属陕西师范大学。本人保证毕业离校后，发表本论文或使用本论文成果时署名单位仍为陕西师范大学。学校有权保留学位论文并向国家主管部门或其它指定机构送交论文的电子版和纸质版；有权将学位论文用于非赢利目的的少量复制并允许论文进入学校图书馆、院系资料室被查阅；有权将学位论文的内容编入有关数据库进行检索；有权将学位论文的标题和摘要汇编出版作者签名；圣! 堡重一日期：坐p 一、研究背景 ( - - ) 评价中心综述 1 概念及发展历史评价中心源于2 0 世纪2 0 年代，开始于军界，发展于企业界，被认为是现代人员素质测评的一种新方法，是国际上流行的、准确率较高的人才选拔技术。它起源于德国心理学家1 9 2 9 年建立的一套用于挑选军官的多项评价程序。随后，美国战略情报局也将此方法用于军事人才的选拔。由于战略情报局的特工人员经常要在高度压力下的敌后进行活动，所以他们设计了一套具有这种情景压力的心理测验来选拔特工人员。美国国际电报电话公司在1 9 5 6 年进行了进一步研究，它是第一家采用这种方法的工业公司，目的是弄清该公司具有什么特性的年轻雇员能够从公司里的初级工作发展到中层和高层工作。随后，此项技术在西方国家的影响逐步加大。s h a c k l e t o n ，n e w e l l ( 1 9 9 1 ) 调查中发现【1 l ，大约有6 0 的英国公司采用这种方法，而根据罗伯逊和梅金的调查，这一数字在1 9 8 6 年仅为2 0 。美国有2 0 0 0 多家公司使用评价中心技术，其中许多大公司设有专门的评价中心，一般的小公司则由专门的咨询诊断机构为其提供评价中心。该方法的主导理念是给人们以公平评价、公平竞争的机会。同时，每个人在接受测评的同时，也就获得了一次了解自己、发展自己的机会。2 0 世纪8 0 年代以后，我国对这种人事测评方法也有了研究和应用1 2 j 。 2 0 0 0 年5 月，在美国加州举行的第2 8 届评价中心国际会议对评价中心的定义是【3 】：评价中心是从多角度对个体行为进行的标准化评估，它使用多种测评技术，通过多名测评师对测评对象在特定的测评情景中表现出的行为做出判断，然后将所有测评师的意见通过讨论或统计方法进行汇总，从而得出对个体的综合评估。简而言之，评价中心指利用多种测评技术对测评对象的特定特质进行评估的一系列活动和方法。应用评价中心技术的目的在于以下三方面：( 1 ) 用于选拔人员，重点在于挑选那些具有胜任岗位所必需的能力或潜质的员工；( 2 ) 用于培训诊断，重点分析员工优劣势，明确员工需要在哪些方面加强，为培训提供参考依据；( 3 ) 用于员工技能发展，在培训诊断的基础上，改善提高其能力。 2 主要情景模拟技术评价中心是多方法、多技术的综合体，从测评形式上看，广义的评价中心包含了传统的心理测验( 评价被试的人格、能力、职业兴趣等特质) 、面谈( 主要是结构化面谈) 、投射测验( 评估被试的深层次人格特质、职业动机、职业价值观) 和情景模拟等。狭义的评价中心指以情景模拟为核心的系列测评技术。本研究的评价中心指狭义的评价中心。常用的评价中心情景模拟技术包括公文筐测验、无领导小组讨论、角色扮演、管理游戏等，其中每一个测验都为总体能力评估提供了唯一的、重要的信息。其它的技术如案例分析、演讲、事实搜寻、情景面谈等也常常结合具体的实际需求加以应用。 ( 1 ) 文件筐测验( i n b a s k e t ) 。被认为是评价中心中应用最广且最为有效的测评形式，使用频率高达8 1 5 1 。具体操作方法是让测评对象扮演某一管理者的角色，主考官将该岗位经常需要处理的一堆有代表性的文件，如背景资料介绍、电话记录、请示报告、上级批示、该岗位前任人员已批复完的文件、待批示文件、各类报表和统计资料、备忘录、内外信函、投诉、建议等这里既有日常琐事，也有重要大事提供给测评对象，要求测评对象在一定时间内处理这些文件，相应地做出决定、撰写回信和报告、制定计划、组织和安排工作。之后，测评对象还要填写理由问卷。主考官也会根据实际情况，在测评对象填写完问卷后，就某些特定问题，要求测评对象做出解释，然后即可根据测评对象的综合表现，做出相应评价。由于给出的文件资料通常都是放在文件筐中的，所以就称为文件筐测验。 ( 2 ) 无领导小组讨论( 1 e a d l e s sg r o u pd i s c u s s i o n ，l g d ) 。是一种常用的测评技术，尤其对高级管理人员的选拔有非常高的实用价值。它通常是将4 _ _ 8 名测评对象召集到一起组成一个小组，给定一个主题，要求他们围绕这一主题进行自由讨论，并在规定时间内拿出小组决策意见。所谓“无领导”，就是指小组内所有参与讨论者在讨论给定主题的情景中，地位都是平等的，不指定会议顺序，不布置会议议程，不提出具体要求。主考官在无领导小组讨论开始前宣布主题、规则等要求后，不指定发言顺序，如何开展讨论以及得出最终结论完全由小组成员集体讨论决定。测评师对每个测评对象在讨论中的表现进行观察，看谁最擅长根据现有材料集中正确意见，最擅长说服他人，把讨论引向一致或做出大家公认的结论，从而对每个测评对象的组织管理能力、领导能力、团队合作能力、口头表达能力、影响能力、洞察力、说服力、分析能力、理解能力、推理能力、创新能力等方面做出评价。无领导小组讨论有时会以指定角色要求的讨论方式展开，有时则以不定角色的讨论展开。在无指定角色的讨论中，测评对象可以自由发表自己的意见；而在指定角色的讨论中，测评对象会被冠以一个固定的角色，比如他们分别被指定为不同地区的经理或不同部门的负责人等( 级别无高低) ，在基本利益不完全一致甚至矛盾的前提下，自由讨论并达成一致意见。 2 ( 3 ) 角色扮演( r o l ep l a y i n g ) 。它是评价中心最常用的一种测评方式，做法通常是主试设置一系列尖锐的人际矛盾和人际冲突，将测评对象和经过培训的“演员”分别赋予不同的角色，让他们模拟实际工作情景中的一些活动，处理各种问题和矛盾。角色扮演中的测评对象及“演员”可以是一个人，也可以是多人。测评师通过对测评对象的言行进行观察分析，得出相应的评价结论。角色扮演主要考察测评对象的说服能力、表达能力、冲突处理能力、思维的灵活性、反应能力、情绪稳定性。 ( 4 ) 管理游戏( m a n a g e m e n tg a m e ) 。在管理游戏测评中，主试将测评对象置身于一个模拟的环境中，面临一些管理中常常遇到的各种现实问题，要求他们解决。测评师通过观察测评对象在解决问题过程中的行为表现来评价其管理技巧、合作能力、团队精神等方面的素质。这种测评方法涉及的管理活动范围相当广泛，既可以是管理活动的某一方面，如决策、人事工作，也可以是多方面的复杂工作。管理游戏可以突破实际工作情景中时间与空问的限制，具有趣味性，但不易观察。 3 一般操作程序不同组织所采用的评价中心在开发程序上不尽相同，各有特色。一般来讲，主要有工作分析、情景设计和成功行为特征的收集、确定记分方法、测评师的选拔和培训四个关键环节。首先是进行工作分析。它是人力资源管理最基本的工作之一，是一种系统的收集和分析与职务有关的各种信息的方法，在评价中心中的作用是确定职务内容和职务要求，为评价中心确定将要评价的指标以及为设计提供情景素材。在开发评价中心测评工具的过程中，一般采用现场调查法、问卷调查法、关键事件法和胜任特征评价法来做工作分析，多数情况下，这四种方法应该配合使用。评价中心进行工作分析时应注意以下三个方面1 6 1 ：( 1 ) 围绕岗位关键职责任务； ( 2 ) 以工作行为为基础。( 3 ) 考虑与职务成败相关联的事件。另外，开发者需要对职务专家汇报的“关键事件”进行筛选、编辑和修订，使它们成为可读性强、容易理解的关键事件。对于类似的关键事件进行合并，用适合于多种工作岗位的语言来综合描述，使关键事件具有普遍性。其次，设计情景和收集成功行为特征。工作分析收集到的关键事件可以为情景设计和成功行为特征的收集提供服务。在设计情景时可以根据原先从关键事件到胜任特征的思路找到原来的关键事件，并以这些关键事件为基础进行筛选、组合、修订，提炼出一套情景。同时根据关键事件中体现的处理方法，设计情景成功的解决方法或处理意见。除了利用上述方法从实际工作情景中提取情景和成功行为特征外，还可以根 3 据岗位的一般特征编制假想的情景。在编制情景时，应该考虑到这些问题情景能够让测评对象处理起来有一定的难度，并且对所有的测评对象是公平的，同时还要注意情景的典型性及操作简便性。情景设计完成以后，就需要对问题情景进行试测，确定情景的可行性并收集成功行为特征。在试测中需要寻找批在岗员工，尤其是那些业绩表现优秀和业绩表现一般的在岗员工，要求他们根据问题情景所提供的信息对问题提出解决方法或处理意见( 包括好的解决方法和差的解决方法) 。另外，也要听取该岗位直接上级主管的意见。完成上述工作后，开发者还要对情景和收集到的成功行为特征进行整理和修订，合并类似的情景和管理行为特征，删除与指定结构无关的情景和行为特征，并对成功行为特征进行归类，确定它们体现的测评指标的内涵。再次，确定记分方法。评价中心的记分可以分为观察阶段的记分和评价判断阶段的记分。在观察阶段的记分过程中，某一个测验完毕之后，测评师就根据测评指标的定义和成功管理行为特征，再结合测评对象的表现独立地确定测评对象在测评指标上的初步等级。每一个行为特征可分如下等级：5 = 显著地高于成功管理行为特征的标准；4 = 有些高于成功管理行为的定性和定量标准：3 = 符合成功管理行为的定性定量标准；2 = 有些低于成功管理行为的定性定量标准；1 = 显著低于成功管理行为特征的标准；0 = 没有足够资料表明具有成功管理行为特征。在评价判断阶段，每个测评师首先需要把自己观察到和记录下的测评对象在测验中的行为表现、作用、地位以及自己的初步评价结果进行宣读。而其他测评师则根据所宣读的结果，独立确定测评对象在测评指标上的等级，这时所采用的评价等级与观察阶段的一样。最后，所有测评师根据已宣读的该测评对象的全部结果，共同讨论测评对象在测评指标上的行为等级。在讨论过程中，每位测评师都可以改变他最初做出的等级评价，直到取得一致同意的等级为止。最后，选择和培训测评师。在选择测评师时需要考虑以下4 个标准1 6 j ：( 1 ) 能够接收新观念和信息，能全身心投入到评价中：( 2 ) 具有较好的咨询和开发员工的能力；( 3 ) 处理人事问题有系统性和分析性；( 4 ) 非常熟悉评价工作和该岗位的具体工作行为，能够认识到成功的管理行为是怎样的，最好具有该工作的经验。在实际应用和研究中，评价小组一般由心理学者、上级主管和人力资源管理者组成。选定了测评师后，下一步就是对测评师进行培训。培训主要分为两步：第一步是理论和原理培训，主要是使他们掌握评价中心的基本原理与方法；第二步是实测训练。对测评师进行培训时，比哈提出了五项应具备的能力1 1 j ：( 1 ) 理解测评维度；( 2 ) 学会观察并记录测评对象的行为，重点在记录而不在评价； 4 ( 3 ) 把测评对象的行为进行归类到适当的维度下；( 4 ) 判断测评对象行为的质量： ( 5 ) 统一在多测评情景下各维度的评分并进行总评。对测评师的培训采用较多的方法有行为观察培训法( b e h a v i o r a lo b s e r v a t i o n t r a i n i n g ，b o t ) 和参考体系培训法( f r a m e - o f - r e f e r e n c et r a i n i n g ，f o r ) 1 7 1 。行为观察培训法着眼于评分者的“观察”，而不是“评分”，其培训效果的评估指标通常是行为观察准确度。它假设：如果测评师能够很好地观察测评对象的行为，他就能够更好地回忆或再认测评对象的行为，从而使评分更加准确。行为观察培训的步骤：研究者要求测评师对测评情景中测评对象的某一特定行为或事件的出现次数进行估计，然后将这一估计值与该行为在测评情景中实际出现的次数进行比较，从而得出行为观察准确度的指标。参考体系培训法强调按照统一的评分标准来培训测评师，即在所有测评师头脑中形成统一的评分参考体系。测评师的评分过程是一个自上而下的认知加工过程，测评师的观察和评分是同时进行的。在参考体系培训中，培训者要求测评师按照事先制订的统一的评分标准去仔细观察测评对象所表现出的典型行为，并同时做出评价。它假设：如果测评师按照专家提供的维度和标准进行评分，评分就会更加有效。参考体系培训法的步骤：第一，培训时强调评分的多维性，向测评师解释各个维度的定义，并详细说明每个维度上的不同水平上都有何典型行为表现；第二，鼓励测评师一边观察一边评分，而不是行为观察培训法中的先观察后评分# 第三，为测评师提供模拟评分的机会，并针对他们的评分给予反馈。在参考体系培训法中，通常使用评分准确度这一指标来评估培训效果。 4 评价中心的特点 ( 1 ) 测评方法的综合性、动态性和情景模拟性。评价中心采用了多种测评方法，综合了各种测评方法的长处，从不同的角度对测评对象进行观察，能对其各个方面进行较为全面的评价。各种测评方法间可以相互验证，如果从各种不同的测评方法中得出了测评对象在某方面较为一致的特征，就有助于做出较为明确的评价。评价中心多采用一些动态的测评方法，在测评对象的某些行为中对其进行评价，对实际行动的观察往往比测评对象的自陈更为准确有效。而且，在这些动态的测评中，测评对象之间可以进行相互作用，在这种相互作用中，测评对象的某些特征会得到更加清晰的暴露，更有利于对其进行评价。评价中心所采取的测评方法很多是对真实情景的模拟，而且很多情景是与拟任职务相关的情景。在这种情景中，测评对象的表现接近于真实的情况，并且在复杂的任务下，他们也不易做出伪装，因而在情景性测验中，测评对象的表现在 5 实际生活中有较大的迁移性，对测评对象未来的表现有较好的预测效果。 ( 2 ) 测评内容的全面性和针对性。评价中心不仅能够很好地考察测评对象的实际工作能力，而且还可以考察其它多种能力和性格品质等素质特征。例如，在我们设计的评价中心中，对测评对象的表达能力、人际沟通能力、组织管理能力、团队合作能力、分析综合能力、反应能力、创新能力进行了评价。另一方面，由于评价中心的测评指标体系的设计是从对岗位的工作分析出发来进行的，根据不同层次不同类别人员的岗位要求和必备素质，设计不同方面的模拟情景，适应不同岗位的需要，使得它所测评的素质往往是分析和处理具体工作的实际能力和一些工作中必需的心理素质，测评的针对性很强。 ( 3 ) 测评结果的可靠性和有效性。评价中心选用多种方式和技术对测评对象进行多次测评，并由多个测评师进行观察分析和评价，综合得出结论，这样可以有效避免测评对象发挥不正常、测评师因自身能力或主观判断而产生的评价偏差，有助于保证结果的可靠性。另外，评价中心不仅仅满足于测验过程中收集得到的信息，而且还在测验后请测评对象说明测验时的想法以及处理问题的理由，从而获得更多的信息。在此基础上，测评师进一步评定测评对象处理实际问题的能力和技巧，把定量评价和定性评价结合起来。这些技术和手段的综合应用能提高评价中心的有效性。评价中心虽有很多优点，但其主观程度高、评价成本高、人员要求高的缺点也是不可避免的。在评价中心所采用的情景测验中，评价的主观程度较强，制定统一的标准化的评价标准比较困难，并且这种测验形式由于其任务的复杂程度较高，任务的设计和实施中的控制也比较困难，所以对测评师的要求也较高。因为评价需要的空间和时间都比较大，需要的评价人员以及辅助人员比较多，导致评价成本较高。 ( 二) 评价中心结构效度的研究方法结构效度( c o n s t r u c tv a l i d i t y ) 指测验分数能说明理论的某种结构或特质的程度，或者用某种结构或特质来解释测验分数的恰当程度。评价中心的结构效度一般有两个指标，汇聚效度( c o n v e r g e n tv a l i d i t y ) 和区分效度( d i s c f i m i n a n tv a l i d i t y ) 。汇聚效度指同一测评维度( 特质) 的评分在不同测评情景( 方法) 之间的相关，也即同质异法间的相关，此相关系数越高，汇聚效度就可能越高：区分效度是指同一测评情景( 方法) 内不同测评维度( 特质) 间的相关，也即异质同法间的相关，此相关系数越低，区分效度才可能越高。对评价中心结构效度进行分析时，就是比较同质异法、异质同法、异质异法相关的大小。 6 1 多质多法矩阵多质多法( m u l t i t r a i t m u l t i m e t h o d ，m t m m ) 是由c a m p b e l l 和f i s k e ( 1 9 5 9 ) 提出的。k o l k ，b o m 等( 2 0 0 4 ) 1 8 】采用m t m m 对评价中心结构效度进行分析时发现，异质同法间的相关平均值为0 2 3 ，同质异法间的相关平均值为0 5 2 。l a n c e 等( 2 0 0 4 ) 1 9 l 的研究发现，同质异法相关的平均值为0 3 1 ，异质同法的相关平均值为0 7 8 ，异质异法的相关平均值为0 2 9 。吴志明、张厚粲( 2 0 0 1 ) 1 2 1 的研究发现，异质同法的相关平均值0 4 5 5 ，同质异法相关平均值为0 1 1 0 ，异质异法相关平均值为0 2 1 。这些研究的结果表明：( 1 ) 评价中心评估缺乏汇聚效度；( 2 ) 缺乏区分效度。因为m t m m 是以包含测量误差的可观测变量间的相关为基础来对潜在的结构进行解释的，但是，实际上测量误差每次都是不一致的，这就会影响到相关系数，进而影响到对潜在结构解释的准确性。另外，m t m m 没有一个精确的标准去评估哪一个模型是最适合的，也无法准确地估计出情景和维度效应的大小。因此，在2 0 世纪6 0 年代后，可以对误差和相关的变量进行控制的验证性因素分析很快就被认为是一种m t m m 强有力的分析工具。 2 验证性因素分析验证性因素分析( c f 氏) 根据潜在的结构而不是可观测的变量对m t m m 进行解释，此外，模型的拟合指数和参数估计提供了汇聚效度、区分效度的信息，也提供了情景、维度效应的大小。 c f a 是通过拟合不同的模型，并对其进行验证，然后选出拟合最好的一种模型加以分析。在c f a 中，同一特质( 维度) 不同测评方法( 情景) 所决定的因素代表测评的汇聚效度，同一测评方法( 情景) 不同特质( 维度) 所代表的因素则表明了测评方法的效应，不同特质( 维度) 因子之间的相关代表测评的区分效度。每一个可观测变量均由特质因子、方法因子和测量误差三部分组成。c f a 最大的优点在于它能够对因子的负荷进行固定，并可以对提出的不同假设模型进行检验。每一种自由负荷的大小反映了问题的所在，如果在特质因子上的自由负荷小且不显著，而在方法因子上的自由负荷大并且显著，那么，这种结果就是支持测评方法导向的。如果在不同测评方法上同一特质的因子负荷值大而且是显著的，那么，这种结果就是支持测评维度导向的。 l a n c e 等( 2 0 0 0 ) 1 1 0 | 的研究对以下五种模型进行拟合验证：( 1 ) k 情景j 维度模型。此模型反映了传统的m t m m 假设，认为评价中心对行为表现的维度和测评情景均进行评估。( 2 ) k 情景1 维度模型，其中“1 维度”代表一个总体表现因子( o n eg e n e r a lp e r f o r m a n c ef a c t o r ，g p ) 。此模型认为测评师是根据被测评者的总体表现效果而不是不同的行为表现维度进行评估。( 3 ) k 情景m 维度模型。指 7 测评师对任何跨情景的行为表现都不敏感。( 4 ) 1 情景j 维度模型。此模型认为单独的情景就包括不同的行为表现维度。( 5 ) 0 情景- j 维度模型。在l a n c e 等( 2 0 0 0 ，2 0 0 4 ) 1 1 0 l 【1 l 】的研究中，j 个维度的模型都导致不恰当的结果，因为它们对一些标准因子的负荷和因子相关估计的绝对值大于1 ，表明评价中心对维度的评估缺乏区分效度。针对这一点，m a r s h ( 1 9 8 8 ，1 9 8 9 ) 提出了用相关特质相关特性( c o r r e l a t e dt r a i tc o r r e l a t e du n i q u e n e s s ，c t c u ) 来设定方法因子，在这种模型中，只留下特质因子，取消方法因子，但对于同一方法得到的分数，容许它们的特殊因子，也即误差问有相关。一些研究已经显示出应用该模型可导致收敛和恰当的结果【l2 1 。l a n c e 等的研究还发现，k 情景1 维度模型比别的模型拟合得更好，在总体表现因子上的负荷也比较大，这表明对总体表现因子的评估有显著的汇聚效度。在方法因子上有较大的负荷，表明情景后维度评估支持测评方法导向。 3 概化理论分析 m t m m 和c f a 是证明评价中心结构效度最常用的两种方法，但是，它们集中在与评价中心与维度和测评方法相关的变异上，忽略了归咎于别的来源的潜在的变异，例如，测评师、测评对象以及他们问的交互作用。概化理论( g e n e r a l i z a b i l i t y t h e o r y ，g t ) 被认为是分解评价中心评估方差来源的一种有效的体系，它可以提供多种误差来源，还可以对反映测验可靠性的概化系数进行计算，从而为评价中心提供更精确的证据，并对评价中心提供设计上的优化方案。 g t 认为，任何测量都是在特定的情景下进行的，测量的根本目的并不是为了获得特定条件下的测量结果，而是要以此来推断更广泛的条件下可能得到测量结果。测量目标、测量侧面和测量情景是概化理论的基本概念。每个测量侧面都是系统误差的来源，而测量目标自身的稳定性以及各种因素问的交互作用均是随机误差的来源。因为g t 不涉及对方差分量的假设检验，所以对方差分量大小的描述和解释就显得尤为重要，这包括对方差分量大小的相对解释和绝对解释两个方面。相对解释是指各方差分量在总方差中所占的百分比。在对测量数据进行分析时，对测量目标或侧面估计的方差成分越大，其占总方差的百分比就越大，这意味着它们所解释分数的总变异也越大。对测量目标而言，其方差成分值越大，说明对它的测量越准确；对测量侧面而言，其方差成分值越大，说明此侧面因素给分数变异带来的系统误差越大。绝对解释就是对s h a v e l s o n 等称为评判标准的 ( y a r d s t i c k ) 的方差分量平方根a 2 大小的描述，之所以被称为绝对解释，是因为这种解释与其他变量方差分量大小无关。g t 在分析评价中心结构效度时，根据方差来源对比不同测评对象的表现，而方差来源的大小与汇聚效度和区分效度有关。 8 本研究采用相对解释对数据进行分析的。 g t 研究测量问题通常分两步进行：概化研究( g e n e r a l i z a b i l i t ys t u d y ，g 研究) 和决策研究( d e c i s i o ns t u d y ，d 研究) 。g 研究的目的是要估计与每个随机侧面相联系的误差的大小，而d 研究是在g 研究的基础上做出某种决策。 a r t h u r , w o c h r ( 2 0 0 0 ) 1 3 】采用g t 、m t m m 和c f a 对评价中心结构效度分别进行了分析，发现评价中心具有良好的汇聚效度和区分效度，并且三种方法的研究结果相类似。l i e v e n s ( 2 0 0 2 ) 1 1 4 l 的研究发现，测评师对跨情景表现一致的测评对象进行评估时，能证明汇聚效度的存在，对跨维度表现不同的测评对象进行评估时，能证明区分效度的存在。丁岳枫( 2 0 0 5 ) 1 1 5 】以g t 框架为指导，通过对评价中心设计、实施、以及统计分析的整体考虑，论述了g t 在分离评价中心测验中的误差源，检验评价中心构思效度时的应用价值。 ( 三) 评价中心结构效度的影响因素 1 设计因素 ( 1 ) 测评维度测评维度的数目不可避免的会对测评师产生影响。一般情况下，人们希望从不同的角度对测评对象进行较为全面的评价，所以认为测评维度越多越好。但是，人的信息加工能力是有限的，评分维度越多，测评师的信息加工负担越重，这就容易导致评分误差，影响评分效果。而且过多的维度容易产生一定的重叠，测评师对某个维度的评分会受到其他维度的影响，产生晕轮效应，从而影响其有效性。因此，利用评价中心进行测评时，维度数目应该受到控制。 g a u g l e r ，t h o r n t o n ( 1 9 8 9 ) 1 6 i 的研究发现，当测评维度有3 个时，测评师对行为分类和评分的准确性最高，也将产生较好的汇聚效度和较高的评分准确性，而当维度增加到6 个或9 个时，评分效果就会明显下降，但维度的数目对区分效度的影响不大。骆方、孟庆茂( 2 0 0 5 ) 1 1 7 1 将测评维度分为行为能力和心理特质两组，考察对评价中心结构效度的不同影响。m t m m 和c f a 分析结果表明，评价中心以行为能力为测评维度时，比以心理特质为测评维度产生更好汇聚效度和区分效度。测评维度的定义和归类也是评价中心设计中的一个重要环节。在评价中心中，测评维度

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（基础心理学专业论文）评价中心结构效度模拟实验研究.pdf

文档简介

温馨提示

最新文档

评论

（基础心理学专业论文）评价中心结构效度模拟实验研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档