版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、人才测评与开发,2011年4月,目录,一、人才测评概述,二、人才测评原理,三、人才测评内容与方法(岗位胜任素质),四、心理测验,五、面试方法与应用,六、评价中心与应用,七、测评应用相关问题,理论篇,方法篇,应用篇,理论篇,一、人才测评概述,二、人才测评原理,三、人才测评内容与方法(岗位胜任素质),理论篇之一,一、人才测评概述,1、人才测评简介,对人的知识水平、能力及其倾向、工作技能、个性特征和发展潜力,实施测量和评鉴的人事管理活动。 一门融现代心理学、测量学、社会学、统计学、行为科学及计算机技术于一体的综合性科学。 人才测评是人事管理的基础环节,科学评价人员是一切人事工作的起点。,2、人才测评
2、定义,*月度考核80分,表现中等,比较优秀,3、人才测评历史,尧舜 西周皇帝用“试射”来选拔人才 隋始至清中叶推行的科举考试 刘劭所著的人物志 年德国心理学家冯特设立了世界上第一个心理实验室; 心理测验从早期的心理缺陷诊断,后来演变为心理评价,从教育领域拓展到社会管理的其它领域,为学生升学、就业、人才选拔、晋升、培训等提供指导和服务,在西方已成为一个重要的产业。,4、人才测评一般方法,简历分析-基本背景(过去和现在);,4、人才测评一般方法,纸笔考试-知识(基本的测评);,4、人才测评一般方法,心理测验-形由心生 标准测验:既定试题、答案的分析 智力测验 能力倾向测验人格测验 其它心理素质测验
3、,如兴趣测验、价值观测验、态度测评等 标准化的心理测验同样具有使用方便、经济、客观等特点 投射测验:投射测验主要用于对人格、动机等内容的测量,4、人才测评一般方法,面试-沟通 结构化面试:针对岗位、确定题目、不同人员同一标准评价 非结构化面:面试者随机,4、人才测评一般方法,情景模拟 文件框 作业 无领 导小组讨论 管理游戏 角色扮演,4、人才测评一般方法,评价中心:1:2人员组合、不同方法不同标准 不同人员的结合; 只是一个过程,而不是一种方法;,5、人才测评应用,人才测评服务于企业人力资源管理的多个环节: 招聘 选拔培养与晋升 岗位胜任力考察 企业管理风格与能力考察 企业文化考察 人力资源
4、普查 培训诊断与辅导 员工职业生涯规划 组织诊断,5、人才测评应用,招聘与选拔:我们可以根据您的岗位要求设计招聘方案。使出类拔萃者从众多求职者中脱颖而出,并对聘用的人员制定发展建议。 1. 人员的基本素质评价2. 人员的岗位胜任力评价3. 人员的发展潜能评估4. 聘用与晋升的选择性排序5. 人才的发展使用建议,5、人才测评应用,培训:通过人才测评,根据企业发展方向找到员工认知及能力的欠缺点,以确定培训的内容。测评结果可作为人才开发的起点。 1. 人员基本素质评价2. 能立及认知心理状况3. 目前工作现状4. 培训计划需求5. 实施培训,5、人才测评应用,员工发展与职业规划:通过测评分析员工的潜
5、力,根据企业特点寻找其最适合的发展目标 1人才与职位的匹配程度2目前情况下如何发挥积极性与岗位共同发展3人员发展计划及步骤 4员工职业生涯发展规划5人员发展与企业发展的结合,5、人才测评应用,组织诊断: 1. 企业人力资源整体状况评价2. 企业具有发展潜力的潜在人才的识别 3. 企业人力资源改善及发展建议,理论篇之二,二、人才测评原理,1人事测评前提、假设和理论,人员素质测评的前提 个体差异的客观性与普遍性 生理差异(生理指标) 心理差异(心理指标) 工作的差异性 工作性质:领导/管理/操作 工作内容:what who when 工作环境:where 工作要求:how(K/S/A/O),心理现
6、象,心理过程,个性心理,认识过程(记忆、思维、想象、语言等),情感过程(情绪、情感和情操),意志过程(克服困难、完成任务),个性倾向性需要、动机、兴趣、理想、信念、价值观、世界观,个性心理特征 能力、气质和性格,心理差异的表现,有的人感知敏锐、思维深刻、想像丰富,有的人则相反,有的人记忆快且保持长久,有的人则记得慢且易遗忘,有的人长于形象思维,有的人则长于抽象思维等。 有的人性情温和、不易发脾气,有的人反应迅速、情感外向,有的人则反应迟缓、情感内向。 有的人经常活泼愉快,有的人却多愁善感,有的人怯懦软弱,有的人机智果断,有的人优柔不决等。,思考:,既然人与人之间是有差别的,工作与工作之间也是有
7、差别的,那么怎样实现二者的最佳结合呢? 什么是工作中的最优配置? 能力工作要求激励不足 能力工作要求绩效低下 能力=工作要求双赢 用什么方法可以实现二者的最佳匹配? 逐个试用费时费力 经验估计误差增大 科学测评效果相对最优,人事测评假设,假设1:个体每一个行为表现,都是其相应的心理素质在特定环境刺激下的特定反应。简言之,行为表现与心理素质之间存在相关关系。 B=f(Q.E) 假设2:特定的心理素质具有稳定性。素质是一种相对稳定的组织系统,使个体对这些不同的刺激做出一致的反应行为。概括地说,就是特定的心理素质具有稳定性。(不同情境、时间、活动),例 如:,一个人喜欢阅读机械杂志,喜欢看各种机器运
8、转,热心为别人修理钟表和自行车,我们就此推断他具有机械兴趣。 有人爱上网,有人爱唱歌,有人爱跳舞,有人爱阅读小说,有人爱赚钱,有人爱漂亮,我们说他们兴趣不同。 有的人感知敏锐、思维深刻、想像丰富,有的人则相反,有的人记忆快且保持长久,有的人则记得慢且易遗忘,有的人长于形象思维,有的人则长于抽象思维等,这些方面表现了人们在能力和智力方面的差异。 有的人性情温和、不易发脾气,有的人反应迅速、情感外向,有的人则反应迟缓、情感内向,这些方面表现气质方面差异。 有的人经常活泼愉快,有的人却多愁善感,有的人怯懦软弱,有的人机智果断,有的人优柔不决等,这些构成了性格方面的差异。,例 如:,具有机械兴趣的人,
9、喜欢阅读机械杂志,喜欢看各种机器运转,热心为别人修理钟表和自行车。 喜爱音乐的人,不但爱听歌,还爱唱歌,玩乐器,还会关心音乐动向等等。 个性外向开朗的人,不但善于与人交往,热情奔放,活泼健谈,有时显得轻率,而且遇到挫折不会悲观失望,能够快速调整状态,恢复自信。个性内向的人,关注自身,行事谨慎,深思熟虑,不善交际。 价值观崇尚真、善、美的人,表现为对美好事物的追求、欣赏、维护,以及自觉抵制和拒绝那些丑恶、虚伪的事物。,结论:由于人的行为表现与稳定的心理素质存在着相关关系,表现出较为明显的一致性,因此,心理素质可以通过行为表现进行测量!,测评理论基础(略) 心理学理论: 特质理论(卡特尔、艾森克、
10、大五) 神经质、外倾性、开放性、宜人性和尽责性。 人职匹配:现实、研究、企业、社会、艺术、传统 测量学理论:经典测量学理论(真分数理论)、项目反应理论 统计学理论:概率、相关和回归、因素分析,2 测评编制的一般程序,是一种方法,是在标准的情况下取出个体行为来进行分析和描述,以准确把握个体差异的过程。 确定测验的目的 制定编题计划 设计测验项目 试测与项目分析 合成测验 测验标准化 信度和效度 编写测验说明书,A、确定测验的目的 明确测验对象: 年龄、智力水平、文化背景及阅读水平 明确测验目标: 测量什么:能力、人格、成就? 目标具体化(操作化定义)p38 明确测验用途 选拔?配置?考核?诊断?
11、 取材范围和试题难度,例如:选拔性测评中要考虑,影响未来工作绩效的主要因素是什么(性格、态度、能力),如果是能力,还要进一步思考,是一般能力还是特殊技能?,不同的测评目的会影响受测者的心理感受,例如选拔性测评常常引发焦虑,导致测验成绩不稳定,因此,在了解测评目的的基础上选择和设计恰当的测评形式是很重要的。测量形式和工具会因测量内容的不同而不同。 测验形式的选择很大程度上由测评目的决定,在评价性测评中一般使用最高作为测量;在促进自我了解测评中一般使用典型典型测量;在选拔性测评中一般使用难度测验或速度测验等。,B、制定编题计划 总体设计,指出测验内容结构和项目形式,以及对每一个内容、目标的重视程度
12、。 用途:编制阶段,确定项目的多少和种类,确定内容是否有遗漏;记分,2009年全国硕士研究生入学考试英语试卷结构基本框架,C、设计测验项目(item) 收集测验资料 资料丰富性内容代表性。理论、术语、临床材料、其他测验项目 资料普遍性机会公平性。教学大纲和教材为题目来源。 选择项目形式内容的表现形式 测验目的和材料性质。概念、原理简答题;综合运用论述;解决问题计算、操作;判断、辨别选择 受测团体的特点。幼儿口头、语言缺陷操作 其他情景因素。人数、时间、经费 编写修订项目(编写、编辑、修改) 范围与计划一致;数量要多,已备筛选;难度适当;项目的说明清楚,资料来源,已出版的标准测验。最简单、最直接
13、的方法是从已经出版的各种标准测验中选择合适的题目。 理论和专家的经验。理论和专家经验可以作为测验题目的来源之一,比如编制态度量表,就可以将理论上对态度的类型、性质维度、定义等描述转换为测验题目。 临床观察和记录。,个人绩效评价量表 请参照上级主管或同事对自己的评价,在下面各项目上用1-7等分评价自己的工作和表现,各个分数代表的含义如下所示。数字越大,表示工作和表现越优秀。 非常糟糕 很差 比较差 中等 比较好 良好 非常优秀 1.积极提出创新建议改善整个部门的总体工作质量 2.在工作中投入了很大的努力 3.认真负责地执行交给的任务 4.积极协助上级开展工作 5.自愿承担那些没有正式分派的任务
14、6.在其他同事不在岗时愿意接替他们的任务 7.当别的同事工作负担增加时,会提供帮助 8.遵守公司的规章制度 9.与同事愉快地合作. ,D、编写项目原则,内容方面。首先,要求项目的内容符合测验的目的;其次,内容取样要有代表性;第三,项目间内容相互独立,互不牵连。 文字方面。使用语言要准确,语句要简明扼要,最好一句话说明一个概念,尽量少使用双重否定句。 理解方面。项目应有确切的答案,项目的内容不要超出受测团体的知识水平和理解能力,项目格式要容易理解。 社会敏感性方面。应尽量避开社会敏感性问题,如涉及社会禁忌或个人隐私的项目不应使用。,1、请问您最近一个月使用什么品牌的化妆品? 请问您最近一段时间使
15、用什么品牌的化妆品?,2、您是否认为使用电脑数字技术制作的广告更具有吸引力?,3、您觉得这种新款轿车的加速性能和制动性能怎么样?,4、人们认为长虹牌彩电质量不错,您觉得怎样?,5、您觉得这种产品的新包装不美观吗?,用词不够通俗,不应诱导,提问内容尽可能确切,不应包含多个问题,不应否定式提问,E、试测与项目分析 试测 对象来自将来正式测验准备用的群体; 实施过程与情景与正式测试类似; 时限放宽; 记录被试的反应情况,如不同时限完成的人数、题意有无歧义。 项目分析(后面专节) F、合成测验(选择合适项目、合理编排) 测验项目的选择:区分度和难度适当 测验项目的编排 并列直进式 混合螺旋式 编制复本
16、(等值):一种测验需要两个以上的等值型 测量的是同一心理特质 内容范围相同,但不重复 题型相同,题量相等,难度相当,霍兰德职业性向职业能力倾向的自我测定,G、测验标准化 施测过程 统一指导语 (项目说明和被试如何反应)影响被试反应态度与方法 时限:通常97%的被试在规定时间内完成全部测验。 测验评分:客观题;主观题。 及时清楚记录。 标准答案或典型特征 比较记分 分数合成(项目分测验总分) 测验分数解释(后面专节),填写要求: 1、请您在所选择答案的题号上画圈。 2、对只许选择一个答案的问题只能画一个圈;对可选择多个答案的问题,请在你认为合适的答案上画圈。 3、需填写数字的题目在留出的横线上填
17、写。 4、对于表格中选择答案的题目,在所选择的栏目内画勾。 5、对注明要求您自己填写的内容,请在规定的地方填写上您的意见。,开头部分,填写说明:明确填写问卷的要求和方法。,H、信度、效度(后面专节) 信度 效度 I、编写测验说明书 目的、功能;理论背景;实施方法、时限、答案和记分方法;常模表;信度、效度资料。,3 项目分析,类型 定性分析:包括考虑内容、题目编写的恰当性和有效性等(经验和训练) 定量分析:难度和区分度分析 项目难度分析 难度(difficulty)的意义。难度,指项目的难易程度。在最高作为测验中,称为“难度”,而在典型作为测验中,则指“通俗性”。两者都是指在总体中,能够正确或确
18、切回答某项目的人数。 若大部分被试都能答对,难度小;反之,难度大。 难度的相对性。难度大小除了与所测内容本身难易程度有关外,还与测验编制技术和被试的知识经验有关。由于表达不清或被试没有学过,本来容易的项目可能变得较难。,难度的计算 二分法记分项目的难度(是非、选择题) 通过率 P=R/N P为难度指标,R为答对项目的人数,N为全体人数 难度值越大,难度越小;反之,越大。 极端分组法(总分最高、最低27%)人数多 P=(PH+PL)/2 多项选择题 CP=(KP1)/(K1) p44例题 校正后难度值低于校正前的难度值,非二分法记分项目的难度(论述、简答题) P=X / Xmax X为所有被试在
19、该项目上的平均得分, Xmax为该项目的满分。,测验难度水平的确定 效标参照测验、掌握测验:不考虑难度;(期末考试、驾照) 选拔测验:难度=录取率; 对于选择题来说,难度一般应大于猜测概率; (如四选一题目难度0.625最合适;是非题难度应该为0.75最合适)(n+1)/2n 无论是速度测验,还是难度测验,一般都应防止被试得满分,因为满分的意义是不明确的。 大体而言,难度为0.50时最理想,此时项目具有最大的区分能力。但在实际操作中,让所有项目难度都到达0.50困难很大,而且也不必要,一般只需使项目的平均难度接近0.50,而各个项目的难度在0.50 0.20之间变化。,难度对测验的影响,(1)
20、测验难度影响测验分数的分布形态 难度大,正偏态 难度低,负偏态 (2)题目过难或过易,结果差距小,测验意义不大。,项目区分度 区分度的意义。区分度(discrimination)是指测验项目对被试心理品质水平差异的区分能力或鉴别能力。区分度高的项目能将不同水平的被试区分开来,即水平高的得高分;反之,得低分。项目的区分度是测验是否有效的“指示器”。 区分度与题目难度直接相关。调整难度是提高试题区分度的方法。P46 区分度与被试的水平密切相关。试题难度小于或等于实际水平区分度较好。 基本原理:水平高的倾向答对题目,反之,倾向答错题目。因此,区分度高的试题能区分水平高低;反之,则不能。,区分度指数(
21、index of discrimination,D)的计算 D = PH PL 取值范围:-1 +1 极端组的划分 27%规则。一般情况下,取上下25%33%均可。样本少时,可以取50% 由于计算机的方便使用,可以上下50%作为划分高低组的标准,或者多分几组,对区分度和难度作详细分析。因为只取上下两端,只利用了一部分资料,浪费了很多信息,有可能得出错误结论。,项目区分度评价标准,相关法(选择、是非) p为项目通过率,q=1-p, 为通过该项目的被试的总分平均值, 为未通过该项目的被试的总分平均值, st为全体被试总分标准差。,P=9/16=0.5625, q=0.4375 Xp=(55+78+
22、36)/9=63.78 Xq=(66+18+45)/7=54.71 X=(55+78+36)/16=59.81 D=0.2297,难度和区分度的关系p47,难度和区分度都是针对一定团体而言的。 一般来说,较难的项目对高水平被试区分度高,较易的项目对低水平被试的区分度高。,项目特征曲线(item characteristic curve, ICC),项目特征曲线描述了被试在某项目上的通过率。 曲线坡度越陡,鉴别力越好,预测的误差越小。,率 概 的 目 项 答 回 确 正,1.00,0.00,0.50,低 中 高 能力,鉴别力较好,低 中 高 能力,鉴别力为负,鉴别力较低,难度不同的3个项目的IC
23、C,多项选择中每个选项的ICC,你如何解释下述现象?,一个很聪明的孩子,测得智商是80分 一个学习很好的学生,考试成绩为60分 一个人缘很好的人,人际关系测量低于常模值,4信度和效度分析,4.1测量误差(measurement error) 测验分数 = 真实分数 + 测量误差 或者: X = T + e 误差定义 测量中与目的无关的因素所产生的不准确或不一致的结果。是变量测量值和真实值之间的差距 。,误差类型 测量误差可分为两大类: 随机误差(random error);指的是由偶然因素引起的无规律的误差,它导致测量结果围绕某一个值产生不一致或不稳定的变化。影响测量的一致性和准确性。 系统误
24、差(systematic error)。指的是某种无关的固定因素引起的有规律性变化的误差,它导致测量结果偏离真值,但每次偏离的方向和大小是稳定的,不会影响测验结果的一致性。影响测量的准确性。,误差来源 测验本身。项目取样(代表性、数量;是非选择题猜测;用词模棱两可) 施测过程。环境(温度、光线、桌面高低、噪音)、时间安排不当、主试、意外干扰、评分计分(题型、阅卷者情绪)。 被试。(最为复杂) 应试动机。影响答题态度、注意力、持久性、答题速度 焦虑紧张的情绪体验(能力、自信、接受测试频率负相关;关系重大正相关;不了解指导语和测试目的)p50 测验经验。 练习效应。测验重复使用时 反应倾向 速度测
25、验(时间有限,题量大,求快求准) 是非题(选是或非的倾向) 选择题(某个位置或长项目) 人格测验(掩饰) 生理因素,4.2测量的信度(reliability) 信度定义 指的是测量数据的可靠性程度,即在类似条件下重复测量能否给出一致的和稳定的测量结果。 信度的理想水平是1.00,但是实际上是达不到的。 一般来说,要求rxx 0.70。 一般能力与成就测验的信度系数在0.90以上;人格、兴趣等测验的信度通常在0.80-0.85之间。 一般来说,当rxx 0.70时,可用于团体间比较;当rxx 0.85时,可用于鉴别个人。,一般了解知识,信度与误差关系。 测验分数方差 = 真实分数方差+ 误差分数
26、方差 X2 = T2 + e2 信度系数: rxx= T2 / X2 = T2 / (T2 + e2) =1 e2 / X2 信度可以解释为总的方差(标准差的平方的缩略语)中有多少比例是由真实分数的方差决定的,即测量分数的变化中有多少是真正反映了被测者分数的变化。 例如:当rxx = 0.90时,我们可以说,实得分数中有90%的方差是来自真实分数的变化,仅有10%是来自测量的误差。,信度的测评方法 (1)重测信度(Test-Retest Reliability)p51 定义:同一量表,同一被试群体,在不同时间,两次施测,求其相关。 实质:表示测验结果前后出现的稳定性。故称之为稳定性系数(Coe
27、fficient of Stability) 形式:施测适当时间再施测。反映时间变异,计算公式 例如:如果用一个智力测验测量某人的智力,第一天测量得到100分,表示智力中等;第二天测量却变成了150分,这个分数意味着这个人在一夜之间变成了天才,如果没有特殊原因,这种事绝对是小概率事件,不太可能发生,可信度极低。,评估重测信度时,要注意重测间隔的时间 由于受试对象是人,两次测试的时间间隔应足够长,否则受试人对上次测试的记忆会影响第二次测试的回答,使两次测试获得不真实的高相关性。 两次测试的时间间隔也应足够近,否则待测的素质可能在这期间受某些影响而发生变化,这样两次测试的真实值可能变化。 年幼儿童
28、,间隔要小;年长群体,间隔可大。智力测验的间隔不能太短,成就测验的间隔不能太长。 一般间隔时间不超过六个月。(即不能让被试记住上一次测验的内容,又不能让其素质发生变化,或对所学知识产生遗忘)。实际研究中这一时间间隔通常取两个星期。,应用重测信度应注意:,重测信度一般只反映由随机因素导致的变化,而不反映被测者行为的长久变化。例如被测者智力的发展与能力的提高,不是重测信度考察的因素。这些因素导致的重测相关系数的降低,不能说明测验的重测信度低。 当测量的行为或特质较为稳定时,重测信度的解释才有效。如人格测验,才比较适合用重测法计算信度系数。,(2)复本信度(alternative-form reli
29、ability) 又称为等值性系数,它是以两个测验复本(功能等值但题目内容不同)来测量同一对象,然后求得被测者在这两个测验上得分的相关系数。复本信度反映了两个测验复本在内容上的等值性程度。 例如同样是测量数学运算能力的测验,如果一个测验复本侧重于考核加减法的运算,而另一个复本侧重乘除法的运算,两者之间的相关必定不会太高,即复本信度低,说明必定有一项测验复本的取样有问题。 同时连续施测。 形式:复本A最短时间复本B 时间间隔施测 形式:复本A适当时间复本B,复本等值要符合下列条件:,各份测验测量的是同一种心理特性。 各份测验具有相同的内容和形式。 各份测验的题目不应重复。 各份测验题目数量相等,
30、难度和区分度大体相同。 各份测验的分数分布(平均数和标准差)大致相等。,计算公式 其中,N为测评结果的被试人数,D为同一被试两次成绩名次的差。 p52例题 内容不同,能够避免重测信度的一些问题,如记忆效果、练习效应等,同时不会降低被试兴趣;但复本编制较难。,(3)折半信度(Split-Half Reliability ) 定义:在测验没有复本且只能实施一次的情况下,可将测验项目分成对等的两半,根据被试在这两半测验中所得的分数计算相关系数,即得折半信度。 计算折半信度先要对测验分半。一般按照奇偶来分半。 公式 为了使两半基本等值,可将项目按由易到难的顺序排列编号,然后按奇数和偶数序号将项目分半。
31、要注意使那些性质相同、联系紧密的项目分在相同的一半,否则会使信度值偏高。,(4)内部一致性信度( internal consistency reliability ) 库德理查森(Kuder- Richardson)的KR20。 P为通过某项目的比例,q为没有通过的比例,S为测验总分数的标准差。 适用于最高作为测试 例如,某项机械能力测验中有一个3项目的子测验,这3个项目试测时回答正确的比例分别是.80、.70、.50,总分数标准差是.90,则信度为?,一致性系数Cronbach alpha系数 项目的一致性程度和项目结构的良好性。运用最为广泛。 当项目内部结构不良或内容十分异质时,不宜使用。
32、 主要适用于典型作为测试,(5)评分者信度(raters reliability) 在有些测量情形中,评分者的评判也是误差的来源之一。例如面试、观察评定、投射测验、创造力测验、无领导小组讨论、管理者情境模拟等,都依赖于评分者的判断,这种判断的主观性往往造成不同评分者的评分很不一致,因此有必要考虑评分者信度。 评分者信度是指不同评分者对同一对象进行评定时的一致性。最简单的估计方法就是随机抽取若干份答卷,由两个独立的评分者打分,再求两个评判分数的相关系数。评分者的评分越一致,评分者信度越高。 如果评分者在三人以上,而且又采用等级记分时,就需要用肯德尔和谐系数来求评分者信度。,肯德尔和谐系数 n为评
33、定者人数,m为项目个数,Ri为第i个项目上所有被试等级或分数之和。,3位教师对四道题目的评分如下,分析这3位教师评分的一致性,提高可靠性(信度)的方法 (1)增加测试长度,即增加度量项目的个数。(同质、难度相当) 测验越长,则试题取样或内容取样越恰当 测验越长,测验结果越不易受猜测的影响 (2)被测因素在被试中的差异越大,测试越可靠。 与被测素质方面差异小的受试对象相比,对被测属性方面差异大的受试对象进行测试,更易做出可靠的测量; (3)通过提供准确的讲解和适宜的测试环境,来减小受试者犯错误的可能性,从而提高测量的可靠性。 在调查中提出问题时要注意只问那些被调查者可能知道答案的问题。 对可靠性
34、的最大威胁在于人们会对本来一无所知或一知半解的问题所给出一个确定的回答。,例:如果某一个素质测评有10个项目,信度为.65。若将项目增加道60个项目,信度为?如果要将该测评的信度提高到.70,需要增加多少个项目?,斯皮尔曼布朗公式,(4)测验的难度 任何以相关系数表示的信度系数都会受到样本团体分数分布的影响。分数分布越广,信度系数就相对越高,分数分布越窄,信度系数就会越低。 测验的难度也会对信度产生影响。如果一个测验的难度太低,测验分数会非常集中并聚在高分端,即出现天花板效应;如果难度太大,所有分数都集中在低分端,出现地板效应,都会使测量到的分数分布太窄,导致信度降低。只有当测验的难度水平能够
35、使测验分数分布范围最大时,测验的信度才会比较理想。一般来说,当所有被试的平均分为测验总分的一半,并且分数从零分到满分分布时,测量的信度最高。,各种信度评估的适用情景: 重测信度评估侧重考察测评跨时间的一致性和稳定性; 复本信度评估侧重考察测评跨形式的一致性和等值性; 内部一致性信度评估主要反映的是一个测评内部题目之间的关系,揭示测评的各个题目是否测量了相同的内容或特质。 评分者信度评估主要是考察评分者的主观误差。,课堂作业 与对某人品德测评分数的可靠性进行考察,随机抽取其中10个被试的分数,分别是:74、71、80、85、76、77、77、68、74、74,再次测评后10个被试的分数分别是:8
36、2、75、81、89、82、89、88、84、80、87。 请问可以用什么方法评价测评的可靠性?可靠性是多少? 假设两次测评是等值的复本,计算复本信度 假设上述20个人的分数为20道题目的分数,前10道题为奇数项题目,后10道题为偶数项题目,计算该量表的折半信度。,思考:我们如何知道我们有多高? 有两个工具:尺子 / 秤 尺子的数据与我们的目测更一致,而秤盘的数据则与我们的目测不一致。因此,尺子是测量身高的有效工具效度。 什么材料的尺子?钢铁(热胀冷缩) 涉及到一致性的问题。信度,4.3效度 内涵 效度是评价测量工具好坏的重要标准之一。较高的效度是一个良好的测量工具最重要的特性,是必要条件,也
37、是选择和评价测量工具质量的重要依据。一般来说,效度的作用比信度的作用更为重要。 测量结果的效度就是指测量的有效性和正确性,即能够测量到所要测量目标的程度,反映了测量结果对测量目标的体现程度。效度的高低只有程度上的差别,不存在完全没有或完全有的情况。,效度的特性,效度具有相对性 效度都是针对特定用途而言的,效度并没有普遍意义上泛指的效度值。数学测验数学成绩;整体智力;性格。 效度具有连续性 效度不是“全”或“无”的离散变量,它只是一个连续变量,测验的有效性只有程度上的差别。,对效度的考察反映在下面问题之中: 该测验真正测量的是什么? 该测验能够很好的预测我们感兴趣的结果吗? 结果适用的范围 第一
38、个问题集中于测验,要求明确关于测验所测量目标的内在理论或心理构想。(构想或构思效度) 第二个问题集中于效标,也就是判断一个测验预测的成功性的标准。这就要求建立测验成绩与那个标准之间的关系。(效标效度),研究有效性的类别,研究的有效性(Validity)主要分为三种: 构思有效性 (Construct Validity,简称C.V.); 内部有效性 (Internal Validity,简称I.V.) 外部有效性 (External Validity,简称E.V.),各种有效性的定义,构思有效性是指理论中的抽象概念在多大程度上在实际研究中成功地进行了操作化,即操作变量在何种程度上体现了它想要体现
39、的理论概念的真正含义。 内部有效性是指在多大程度上研究允许得出两个变量之间是因果关系的推断。 外部有效性是指在多大程度上可以将对特定研究样本和在特定研究环境下所得到的研究结果推广到理论假设中所明确的总体和环境中去,因而又可称为可推广性(generalibility)。,概念的多操作化定义,三种有效性之间的关系,构想或构思效度construct validity 构想效度是指测验能够测量到理论上的构想或素质的程度。所谓构想通常指一些抽象的、假设性的概念或特质,如智力、创造力、言语流畅性、焦虑等。这些构想无法直接观察。但是每个构想都有其心理上的理论基础和客观现实性,可以通过各种可观察的材料加以确定
40、。 例如言语流畅性可以通过语速、语句间的逻辑性、口误的数量等可观察的指标进行确定。 适用范围:适用于智力测验、人格测验等。 例如:韦克斯勒首先假设“智力是一个人去理解和应付他周围世界的总的才能”,然后,他依据这一定义,编制11个分测验从十几个方面来说明智力,编好测验又从多个角度加以验证,最后,用因素分析法验证,该测验实际测量了三类共同因素,即A因素(言语理解)、B因素(知觉组织)、C因素(记忆和注意集中)。,效度研究趋势 聚合(会聚)效度(Convergent Validity) 运用不同测量方法测量同一特征时结果相似程度,应该足够大 辨别(差别/区分)效度(Discriminant Vali
41、dity) 运用相同测量方法测量不同特征时辨别不同特征的程度,应该足够小,多特征多方法矩阵(multi-traits multi-methods,MTMM),多特征多方法矩阵说明,矩阵元素表示分别用不同的方法对不同的属性进行度量的结果之间的相关系数。矩阵由4种元素分块组成,分别在分块左上角用数字标识: 可靠性对角; 有效性对角; 异属性同方法三角形; 异方法三角形。 通过分析各分块中的数据可以对度量的可靠性、会聚有效性和差别有效性进行评价。,卷面效度(Face validity) 测评工具(量表)要测量的东西看上去象它所要测的东西。 最高作为测量,表面效度越高越好 典型作为测量,表面效度越低越
42、好 内容效度(content validity) 内容效度是一份试卷所测量的内容是否代表它应该测量的内容。是检查测验内容是否是所预测量的行为领域的代表性取样的指标。如高中物理包括力学、电学、光学、热学以及原子物理学5个方面。 在实际工作中我们编制的测验不可能包含所要测量的行为领域的全部可能的材料或情境,只能选择一个有代表性的样本,通过观察被试对个别题目的反应,来推测他的总体行为表现。,内部效度效标关联效度criterion-related validity 效标关联效度又称为效标效度,指测评结果与某种标准结果的一致性程度,反映的是测验分数与外在标准(效标)的相关程度,即测验分数对个体的效标行为
43、表现进行预测的有效性程度。 认知能力(预测指标)学习成绩(效标是考察测验效用的外在参照标准。),机械能力倾向测验,管理能力测验,管理绩效,机械师绩效,预测效度,常见效标,学术成就 特殊训练成绩 实际工作表现 等级评定,确定效标效度的方法,相关法。问题:相关系数的平方表示什么? 命中率:根据测验所做的正确决定的比率。 效度系数:是最常用的效度指标。它是以相关系数来表示的。 决定性系数:效度系数的平方就是决定性系数,它表示测验正确预测或解释的效标的方差占总方差的比例。,效度系数,信度和效度关系 二者的区别:信度与效度的差别在于所考虑的误差不同。信度考虑的是随机误差的影响;效度考虑的误差包括随即误差
44、和对测验目的无关的变量引起的系统误差。 信度(可靠性)是效度(有效性)的必要非充分条件。一般有下述四种关系:(1)有效的测量一定是可靠的测量。(2)无效的测量可能可靠,也可能不可靠。(3)可靠的测量,既可能有效,也可能无效。(4)不可靠的测量一定是无效的。,5 测评结果报告及分数的解释,人事测量的主要目的是获得应试者的各种反应信息(赋值),人事评价是利用这些反应信息对个体素质或特点作出评价的过程(分数的解释)。 如果有人告诉你:“我的英语测验得18分”,你可能会有什么反应? 有一人身高为170厘米,体重为65千克,究竟是身高还是体重在各自的分布中较高?,5.1原始分数与导出分数 原始分数(ra
45、w score): 通过实施测量和对测量结果计分(将应试者的反应与标准答案相比较)可以直接获得测量原始分数。没有附加的可解释的资料,任何心理测验的原始分数都是没有太大意义的。不同测验的原始分不能相互比较,因为它们的价值不一样。 单说某人正确解决了15道数学推理测验题,在词汇测验中能够再认34个单词或者在57秒之内成功组装了一个机械物体,并不能给我们提供关于他在这方面能力的精确信息。 如果一个女孩在一份词汇测验中得40分,而在数学推理测验中得20分(原始分数),能说她词汇好于数学吗?我们并不了解原始分数的实际含义,它们之间也不能直接比较。,原始分数的校正 公式1: Xc= R + O/k Xc=
46、校正分数; R=正确回答的得分; O=被忽略的题数;K=题目的选项数 公式2: Xc= R-W/(k-1) Xc=校正分数; R=正确回答数; W=错误数; K=题目选项数,被试 做对题数 忽略题数 错误数 修正分数(1) 修正分数(2) - 甲 14 0 6 14+0/4=14 14-6/3=12 乙 14 6 0 14+6/4=15.5 14-0/3=14 丙 14 3 3 14+3/4=14.75 14-3/3=13 -,解决途径导出分数 为了更精确的理解个体原始测量分数的确切意义,通常需要将原始分数转化为一些导出分数(按照统计学的原理,从原始分数转换而来的具有一定参照点和单位的测验量表
47、的数值,也就是与原始分数等值的量表分数)。 人事测量的目的在于根据特定标准评价和比较被测者各方面素质及其差异,只有通过与一定的标准进行比较,原始分数才能获得有意义的解释。 评价标准分为两种: 绝对标准通常是希望达到的外在目标,相对稳定,不会因测量对象的改变而改变。 相对标准通常代表某一群体内部真正的成绩,不稳定,会随着测量对象(测量对象所属群体不同)的改变而改变。,根据相对标准进行分数的解释称为常模参照解释,指测量的原始分数通过与某个参照团体的分数进行比较,并以该分数在这个团体中的相对等级或相对高低位置来描述应试者的素质或特点,以得到可供比较的导出分数的过程。 根据绝对标准进行分数的解释称为效
48、标参照解释,指依据外在标准对应试者分数进行解释的过程。 二者的根本区别在于测量成绩所参照的标准:常模参照解释是将被测者的成绩与同类群体的其他人的成绩进行比较,而效标参照解释是将被测者成绩与外在效标进行比较。,实施一项机械技术考试之后,如将应试者的成绩与其他人的成绩进行比较,可以知道该应试者的机械技术知识是优秀、一般还是较差,这就是常模参照的分数解释;如果将应试者的成绩与机械师分级的标准(外在标准)进行比较,就可以知道该应试者是否达到了某一级机械师的水平,这就是效标参照的分数解释。 驾照考试的分数解释属于哪一种? 英语过级考试与期末考试的分数解释属于哪一种? 公务员考试的分数解释属于哪一种?,导
49、出分数的作用 指出个体在参照群体中的位置,以便参照他人对这一个体进行评价。 使对个体在不同测验中的成绩的比较成为可能。导出分数能够以相同单位来表示测验成绩,能参照相同或近似的常模团体在不同的测验中的成绩情况,于是个体在多种测验中的成绩情况就可以比较了。,常模(norm): 上述用作比较的团体叫做常模团体(具有某种共同特征的人所组成的一个群体),常模团体的分数分布叫做常模。一般用测验分数的平均数(值)和标准差来表示。 常模作为比较的标准,其有效、可靠与否取决于常模所依据的样本群体(标准化样组)是怎样被选出来的。 例如:要为某种测验建立18岁的常模,最可靠的方法是将具有这一测量对象(心理特征)的1
50、8岁个体个个加以测量。但是由于时间、人数、经济的限制,这是不可能做到的,所以通常只能抽取具有这个研究特征的人群总体的一部分以代表总体,这个代表总体的样本通常被称作标准化样组。,标准化样组选择的条件 要选择一个能代表总体的样组在方法上很有讲究。有几条原则能保证获得一个标准化的样组。 1. 充分考虑到与测验有关的变量(文化、国家、地域、种族、年龄,性别,地区,受教育程度,职业/社会经济地位、智力等) 2. 规模要适当; 3. 选择合适的抽样方法,补充:常模的建立途径,简单随机抽样:将抽样范围中的每个人或每个抽样单位编号,随机选择,每个抽样单位都有相同的机会作为常模团体中的一部分。 等距抽样:以被试
51、某些与测量特征无关的特征(电话号码、学号)将被试按一定顺序排列,随机确定一个起点从总体中抽取1/K被试,列表中第K个就成为样本组成中的被试。 分层随机抽样:研究者事先确定某些类型的被试必须在样本中占一定的比例,然后按比例随机抽取各种类型的被试样本。 整群抽样:以自然组合单位构成被试团体(班级、工厂、医院)时,可以一以整群为单位随机抽样,被选中的单位团体将全部进入样本。,常模意义 任何个体的原始分数可以参照从标准化样组得来的分数分布,找到其在分布中的位置:他的分数和标准化样组的平均情况一致吗?是稍低于平均数,还是进入了分布的高端?从而得到该测验分数的相对意义。 常模不同,分数的解释也就不同,所以
52、在解释常模参照分数时,首先要了解:“他参加的是什么测验?”例如:一个人参加小学数学考试与参加大学数学考试的成绩肯定不一样,相对常模分数的分布位置也不一样。,常模的类型 发展性常模表示某一年龄心理发展的平均水平,用于衡量被试已经达到的发展水平。 智龄、年级当量、比率智商 组内常模个体在某一特殊团体中的相对位置 名次、百分位常模、Z分数、T分数、标准9分、C量表分数、斯坦分数、离差智商,发展性常模 人的许多心理特点如智力、技能等,是随着时间以有系统的方式发展的,所以可以将个人的成绩与各种发展水平的人的成绩比较而制成发展量表。 根据发展量表得出的导出分数可以通过对原始分数的变换揭示出:被测个体达到了
53、怎样的程度,他的行为属于哪一个水平。 例如:一个8岁的小孩在一份智力测验中如果做得和10岁小孩的平均水平一样,那么,我们可以说他达到10岁儿童的智龄;一个智力迟滞的成人如果也达到这一水平,我们说他的智龄达到10岁;另外,一个四年级学生可以被描述为达到了六年级阅读水平或三年级数学水平。,年级当量,年级量表与年龄量表类似,所不同的使用年级水平代替了年龄水平。 例如:教育成就测验上的分数通常可用年级当量来解释,某学生拼写相当于六年级,阅读相当于八年级,数学相当于五年级。 年级常模可以从计算各年级学生在某份测验上的平均原始分数而得。 例如:某标准化常模样组中四年级学生正确解答某一数学测验的问题数目平均
54、为23,那么原始分数23便相当于四年级的年级当量。,比率智商 计算公式:IQ=MA/CA100 IQ智力商数 MA智龄 CA实际年龄 可以看出,IQ是智龄与实际年龄的比率,是一个相对数,表示一个儿童智力发展速度或者聪明程度。如果一个儿童智力发展一般,智力随年龄增长而增长,直到停止,则其商数等于100,而心智发展慢于或快于年龄增长者,则其商数小于或大于100。 现在,你能了解阿甘的智商分数75意味着什么了吗?,发展性常模的评价,优点:以年龄或年级当量作为单位报告分数易于被人们理解;为个人内比较和纵向比较提供了基础。 缺点:只适用于所测特质随年龄或年级发生系统变化的情况,换句话说,仅适用于年纪小的
55、儿童,对成人不适用;由于人的行为发展受教育与经验的影响,因此发展量表只适用于典型环境下成长的儿童;,某单位组织400位员工考试,某人得分为73分,这是什么意思? 当满分为100分和满分为80分时,含义不同;员工中最高分为99分和最高分为79分时,含义不同;即使最高分为79分,73-79之间有200人和20人时,含义也会不同。只有了解73分相对于其他分数的位置,才能对这个员工做出有意义的解释和评价。,5.2组内常模,组内常模可以提供有关个体素质的相对评价,通过与其最可比较的标准化团体的素质比较而得到个体素质的评价。类似于拿一个学生的原始分数与其同龄或同班级的同学做比较一样。 组内常模可以很好地说
56、明被测者的测验分数在所属团体中的相对位置,便于进一步的分类、甄选与安置。常见的许多选拔性测验都会运用组内常模进行分数解释(高考、司法考试、注册会计师考试、证券从业人员考试)。 组内分数能够获得统一、清楚的数量意义,能够运用大多数统计方法进行分析。,5.2组内常模的类型 排序(名次)。直观;邻近名次差距不一,悬殊很大。 百分位数 用于计算低于某一测验分数的人数比例或者位于某一比例的分数。某一原始分数的百分位数可以解释为常模团体中得分在该原始分数以下的被试的百分数。 计量公式: 当两个被试团体总体水平结构相当,但个体总数不等时,其个体的百分位可以相互比较,而名次做不到。 PR=100(100R50
57、)/N,N为团体中个体数量,R为名次,示例:百分位数通常以表格形式呈现,百分位数与与之对应的 原始分数并列列出,下表可以方便的读出于某一原始分数相对 应的百分位数。,课堂讨论,原始分数58或原始分数为44,对于总体、男孩、女孩分别意味着什么?,百分数量表是一种等级(顺序)量表,它所使用的单位不是等距的,所以把原始分数转换成百分数量表在平均数附近的差别会被放大,而位于两端的差别却被大大缩小了。 由于是等级量表,所以百分数量表的分数不能进行加减乘除的运算,许多统计方法都无法使用。 其优点是易于理解,用途广。,标准分数 标准分数是以平均数为参照点,标准差为单位的一种量表分数,它将原始分与平均数的距离
58、以标准差为单位来表示。 Z分数 公式: 当Z位0时,处于中等;2.5以上为优秀;-2.5以下为极差,5.3效标参照分数 效标参照分数是另一种解释测验原始分数的方法,用于代替比较或同时比较一个人与其他参加测验的人所处的位置。它关心的是被测者是否达到了某种标准或效标,这种标准是外在的,与被测者所在群体无关。 在教学或培训情境当中,这一计分和解释方法非常有效,因为这些情境中,关注的是成绩的水平。例如:大学四六级考试、自学考试、驾照考试等。,复习思考题 1、人事测评的基本假设? 2、测验有哪几个步骤。 3、项目难度和区分度的定义、计算方法、关系 4、信度的概念、类型、计算公式、提高信度的方法。 5、效度的概念、类型、效度和信度的关系。 6、原始分与导出分数、常模参照解释与效标参照解释。 7、常见的导出分数及其计算。,理论篇之三,三、人才测评内容与方法(岗位胜任素质),1、人才素质的复杂性,人才的定义: 人才是指具有现实劳动能力的人,包括各行各业的在职劳动者以及具备劳动能力即将进入劳动岗位的潜在劳动力; 人才素质 是指决定一个人行为习惯和思维方式的内在特质,从广义上还可包括技能和知识。 素质是一个人能做什么(技能、知识)、想做什么(角色定位、自我认知)和会怎么做(价值观、品质、动机)的内
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 某人防工程监理实施细则
- 活动宣传方案
- 海鲜制品智能化检测加工项目可行性研究报告模板立项申批备案
- 2025年互动教学效果量化分析报告
- 创新教育理念下生成式AI在小学语文写作教学中的应用研究教学研究课题报告
- 2026年文化传媒行业数字内容创新报告及虚拟现实技术应用创新报告
- 选调生思想汇报(2篇)
- 大学生五月份思想汇报(2篇)
- 2026年公司年终报告及明年计划
- 2026年消防安全教育培训工作计划
- 2026贵州省住房资金管理中心招聘工作人员1人备考题库含答案详解(考试直接用)
- 2026储能入市背景下的投资测算工具设计逻辑深度研究报告
- 2026四川省阿坝州州级事业单位考试调动37人重点基础提升(共500题)附带答案详解
- 2026湖北神农架林区公安局招聘辅警22人笔试参考题库及答案解析
- 2026学校规范教育收费自查整改报告
- 2026中华全国供销合作总社直属事业单位招聘27人考试参考题库及答案解析
- 事故隐患排查治理基本知识
- 煤矿防治水知识培训
- 科学学习方法小学主题班会课件
- 2026江铜铜箔科技股份有限公司第一批次春季校园招聘89人建设笔试参考题库及答案解析
- 2026年建安杯信息通信建设行业安全竞赛重点题库(新版)
评论
0/150
提交评论