




已阅读5页,还剩49页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十章素质测评的质量管理 一 信度分析二 效度分析三 项目分析 第一节信度分析一 信度的概念信度就是指测评结果反映所测素质的一致性 也就是说测评结果的稳定性 可靠性程度 即在相似情境下 用同一测评工具对相同个体重复施测 所得结果的一致性程度 1 信度测量的理论定义 1 传统的信度理论认为 一个人的测验分数X是由真实分数 T 和误差 E 两部分构成的 公式是X T E 2 因此信度就被定义为 一组测量分数的真实方差与实得方差的比 或者是指真实方差占总方差的百分比 公式为 rxx 3 根据统计学理论 真实方差与实得方差的比是一个相关系数的平方 所以我们把这种相关系数的平方叫做信度系数 4 计算公式为 rxx 该定义有两点要注意 1 信度指的是一组测验分数或一列测量的特性 而不是个人分数的特性 2 真分数的变异数是不能直接测量的 因此信度是一个理论上构想的概念 只能根据一组实得分数作出估计 信度设计所解决的主要问题是对测验分数的意义的概化能力 即从一次测量来推论总体 真实分数 能达到何种正确程度 2 信度系数r大部分的信度指标都是用相关系数来表示 即用同一被试样本所得的两组资料的相关作为测量一致性的指标 称做信度系数 确定测验好坏的一个指标 一般的原则是 当rxx 0 70时 测验不能用于对个人作出评价或预测 而且不能做团体间比较 当0 70 rxx 0 85时 可用于团体比较 当rxx 0 85时 才可以用来鉴别或预测个人成绩或作用 信度的范围 0 00 1 00几种心理测验的信度系数信度测验类型低中高成套成就测验0 660 920 98学术能力测验0 560 900 97成套倾向性测验0 260 880 96客观人格测验0 460 850 97兴趣问卷0 420 840 93态度量表0 470 790 98 信度系数需要注意 1 在不同情况下 对不同样本 采用不同方法会得到不同的信度系数 因此一个测验可能会不止有一个信度系数 2 信度系数只是对测量分数不一致性程度的估计 并没有指出不一致的原因 3 获得较高的信度系数并不是测量追求的最终目的 它只是迈向目标的一个步骤 是使测验有效的一个必要条件 二 信度的类型和估计方法 一 重测信度重测信度又称为稳定性系数 它的计量方法是采用重测法 用同一测验 在不同时间对同一群体施测两次 这两次测验分数的相关系数即为重测系数 重测信度的计算方法是积差相关法 因而rxx就是皮尔逊的积差相关系数 r N xy x y 重测信度的优点是 首测和再测中使用同一套测评试题 较之编制两套等值测评题目要省时 省力 同一套试题无论施测多少次 所测评的属性是完全相同的 可作为预测被试者将来行为表现的依据 因为该方法提供了有关测评结果是否随着时间而发生变化的资料 重测信度的缺点是 如果前后两次施测间隔的时间选择不当 则测评易受练习和记忆的影响 同一组被试者对同一测试先后两次作答相互之间是不独立的 两次施测的环境不同不会产生测评误差 重测信度的假设 1 所测量的特性必须是稳定的2 遗忘与练习的效果相同3 在两次施测期间被试者的学习效果没有差别由于以上几条假设难以做到 所以有些测验是不宜用重测法估计信度的 一般在没有复本可用 而现实条件又允许重复施测的情况下才采用此方法 二 复本信度复本信度又称为等值系数 是指在测评性质 内容 题型 题量 难度等方面均一致的两个测量 其方法是 先精心编制两个互相平行的测验复本 然后用它们测量同一群体 则被试者在这两个测验上的分数的相关系数即为等值性系数 同重测信度相比 复本信度控制了两次施测间的相互影响 因而既适用于难度测试 也适用于速度测试 但完全等值的复本只在理论上存在 实际应用中抽样误差在所难免 而且编制复本也需要很大精力 三 内部一致性信度内部一致性信度主要反映的是测验内部题目之间的关系 考察测验的各个题目是否测量了相同的内容或特质 内部一致性又分为分半信度和同质性信度 1 分半信度分半信度系数是通过将测验分成两半 计算这两半测验之间的相关性而获得的信度系数 2 同质性信度 homogeneityreliability 就是指测验内部的各题目在多大程度上考察了同一内容 同质性是指测验的所有题目间性质的一致性 即测的是同一种心理特质或行为 同质性是测量单一特质的必要条件 这里讲的同质性是指测验题目得分反映的心理特质一致同质性的判别标准是 题目间呈高正相关 如果相关很低或是呈负相关 则题目为异质 3 克隆巴赫系数法 四 评分者信度评分者信度 ratersreliability 是指不同评分者对同样对象进行评定时的一致性 最简单的估计方法就是随机抽取若干份答卷 由两个独立的评分者打分 再求每份答卷两个评判分数的相关系数 这种相关系数的计算可以用积差相关方法 也可以采用斯皮尔曼等级相关方法 如果评分者再三人以上 而且又采用等级计分时 就需要用肯德尔和谐系数来求评分者信度 三 影响信度的因素1 样本团体的性质 1 任何相关系数都要受到团体中分数分布的影响 当分布范围增大时 其信度估计就较高 当差异减小时 相关系数随之下降 信度值则下降 2 信度系数也受到样本团体异质性的影响 3 测验的信度不仅受取样团体中个别差异范围的影响 也会由于不同团体间平均能力水平的不同而有所不同 2 测验的长度一般而言 测验越长 信度值越高 1 测验越长 则试题取样或内容取样越恰当 2 较长的测验也不易受到猜测的影响 3 测验的难度测验难度与信度没有简单的对应关系 但是 当测验分数分布范围缩小时 测验的信度降低 因此 如果一个测验对某团体而言太容易 会使所得分数都集中在高分端 当题目太困难时 得分会集中在低分端 这两种情况会使测验分数分布范围缩小而使结果变得不够可靠 第二节效度分析一 效度的概念所谓效度 是指测评结果对所测素质反映的真实程度 效度考虑的问题主要有两个 一是测评测量什么 二是测量对测评目标的测量精确性和真实性有多大 对效度测评的理解 1 效度是针对测评结果的2 效度是针对某种特定的测评目的的3 效度只有程度上的差异 二 效度的种类和估计方法 一 内容效度内容效度 contentvalidity 是检查测验内容是否是所欲测量的行为领域的代表性取样的指标 内容效度注意的问题 1 针对性 2 全面性 3 代表性 好的内容效度须满足的条件 1 要确定好的内容范围 并使测验的全部项目均在此范围内 2 测验项目应是已界定的内容范围的代表性样本 确定内容效度的方法1 专家判断2 复本法3 经验法 二 结构效度1 概念结构效度指的是测验能够测量到理论上的结构或特质的程度 或者说用某种心理结构或特质来说明测验分数的恰当程度 2 结构效度的确定方法一 建立理论框架 以解释被试者在测评上的表现二 依据理论框架 推演出各种有关测评成绩的假设三 以逻辑和实证的方法来检验假设 如果不能作出恰当的解释 则应该修正上述理论假设 直到能作出恰当的解释为止 三 效标关联效度也称效标效度 criterionvalidity 它反映的是测验分数与外在标准的相关程度 即测验分数对个体的效标行为表现进行预测的有效性程度 效标测量的注意事项 1 效标要在理论上体现测验有效性的主要方面 即跟所研究的问题有实质性的相关2 效标测量必须是客观的 要避免偏见的影响3 在收集效标资料时 必须注意防止所抽取的代表性样本中个体的流失4 效标测量必须稳定可靠 即有高的信度 效标污染 criterioncontamination 即由于评定者知道测验分数而影响个人的效标成绩的情形 四 表面效度表面效度是指受测者 测验结果的使用者及一般大众对于某测验的试题和形式等所作的主观判断 判断该测验能否达到其所宣称的目的 表面效度的改进方法 1 依据特定的测验目的 修改测验名称 重新安排试题的用词用字 使它显得更切题 更合理2 改进版面设计 印刷 装订 纸质 使得整个测验看上去是经过精心设计的 进而赢得使用者的重视 三 影响测验效度的因素 一 就内容效度而言 1 缺乏学科专家或资深教师参与拟题2 双向细目表设计不良3 预试的题数不多且品质不良 经试题分析淘汰部分试题后难以达到双向细目表上的要求 二 就建构效度来说 1 该测验的心理学理论建构尚不完备 有待加强或修改2 题目设计不良 与原理论脱节3 所提出待考验的假设不当 三 表面效度方面1 版面设计与印刷的品质不良2 遣词用字不能配合受测者的程度与背景3 指导手册或技术手册内容不够完备 未能作充分的沟通 四 效标关联效度1 样本的性质2 事先筛选与样本同质性 第三节项目分析项目分析是指根据被试者的反应堆组成测评的各个题目进行分析 从而评价其适用的程序和方法 项目分析既能帮助测评使用者评价现有的各种测评 还非常适合特殊的和非正式的测评的编制 项目分析包括定性分析和定量分析 定性分析包括考虑内容效度 题目编写的恰当性和有效性等定量分析主要是指题目难度和区分度的测量 一 项目难度难度是指题目的难易程度在能力测验中通常需要一个反映难度水平的指标 在非能力测评中 类似的指标是 通俗性 即取自相同总体的样本中 能在答案范围内回答该题的人数 一 难度的估计方法1 二值计分题目的难度 1 通过率法如果忽略应试者作答时的猜测成分 二值计分的测验题目难度一般用通过率表示 即答对或通过该题目的人数占总人数的比 2 高低分组法当应试者人数较多时 计算难度的一个简便方法是 先将应试者依照测验总分的高低次序排列 然后分出人数相等的高分组和低分组 再分别求出此两组在每一题目上的通过率 以两组通过率的平均值作为每一题目的难度 2 非二值计分的题目难度计算很多测验题目是按多级方式计分的 如论述题 有从零分到满分之间的多种可能结果 对于这类非二值计分的题目 通常用平均得分率表示难度 二 难度的确定1 试题难度的确定要看测评的目的是什么 测评的性质以及题目形式有什么特点当p等于0 5时区别力最高 为了使测评具有尽可能大的区别力 应该选择难度在0 5左右的试题 如果我们编制的一个测评是为了选拔或进行诊断 应该比较多地选择难度值接近录取率的题目 编制的测评是要诊断或筛选出少量交叉的被试者 如果公司中的末位被淘汰 那么题目p值应该高 使得大部分的人都能够顺利通过 而只有那些差的被试者不能通过 2 测评难度的确定人的心理特征基本上是呈正态分布的 因此大多数测评结果应该符合正态分布的模型 如果我们选择的被试者具有代表性 则测评总分应该接近正态分布在某个测评分数出现了正偏态或负偏态时 并非都是需要修改的 因为有些效标参照的测评 出现偏态分布是允许的 二 项目区分度项目区分度 也叫项目鉴别度 是指测评的题目对于所研究的人的特性的区分程度或鉴别能力 每个题目都可以看做一个独立的测评 三 项目反应理论 一 项目反应理论的概念项目反应理论又叫潜特质理论 它不是直接对被试者题目的反应进行统计分析的 而是找到被试者能力与题目反应概论之间的函数关系 通过这个函数来估计出被试者的能力 二 项目反应理论的假设1 潜在特质空间的单维性假设 在项目反应理论中 假定测评中的所有测题都是测量同一种能力 潜在特质 或者同一种能力的不同方面2 题目间的空间独立性假设3 项目特征曲线假设4 非速度实验假设 三 项目反应理论的优势1 经典测评理论依据其项目分析法所得到的项目统计量受样本的抽样变动大2 经典测评理论中 被试者的测评分数依赖于项目难度的高低 参加不同测验的被试者无法直接比较3 经典测评理
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 凤竹纺织企业管理制度
- 发廊员工请假管理制度
- 厂区装货司机管理制度
- 危险源辨识与管理制度
- 宿迁连锁餐饮管理制度
- 工厂仓库收货管理制度
- DB62T 4481-2021 农村互助老人幸福院星级划分与评定
- 电器修理改造方案(3篇)
- 内部谈判采购方案(3篇)
- 中标-股权激励方案(3篇)
- 考点10 汉字书写与书法鉴赏小升初语文专题训练(统编版)
- 房屋征收服务投标文件(技术方案)
- 《新闻采访与写作》(第三版)目录(丁柏铨高等教育出版社)
- 名著阅读 第16周阅读计划《钢铁是怎样炼成的》整本书阅读与研讨三(作业教学设计)2023-2024学年八年级语文下册同步备课
- 环保项目运维服务合同
- 四川省成都市成华区2023-2024学年七年级下学期期末生物试题(解析版)
- 2024年全国统计师之初级统计基础理论及相关知识考试重点试卷(附答案)
- 慢性冠脉综合征管理指南
- 泄洪洞工程金属结构制作和安装施工方案66
- 四川省巴中市2023-2024学年八年级上学期期末考试英语试卷
- 四川省南充市2022-2023学年六年级下学期期末英语试卷
评论
0/150
提交评论