心理与教育测量课件

上传人：子*** IP属地：山东上传时间：2024-04-03 格式：PPT 页数：808 大小：30.92MB 积分：15 举报 版权申诉

已阅读5页，还剩803页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

心理与教育测量第一章心理与教育测量概论第一节一般测量概述第二节心理与教育测量的性质第三节心理与教育测量的种类及其功能第四节心理与教育测量工作者的素质要求及道德准则第一节一般测量概述

心理与教育测量在心理科学、教育科学的基础学科和应用学科之间起着一种中介作用。一、测量及其种类二、测量的基本要素三、测量的量表第一节一般测量概述一、测量及其种类

1．测量(Measurement)的定义测量就是依据一定的法则使用量具对事物的特征进行定量描述的过程。第一节一般测量概述一、测量及其种类1。定义：法则→量具→事物（属性）→定量描述物理、社会和心理测量共性

一定的法则：任何测量都要建立在科学规则和科学原理基础之上，并通过科学的方法和程序完成测量过程。事物的特征：是指所要测量的事物的特定属性。量具：测量中所使用的工具定量描述：对事物特征的量的确定。2。测量的精确度决定于测量对象本身的性质与测量工具的精密性。3．测量的分类（根据测量对象的性质和特点）

物理测量：长度、重量、面积、速度等。生理测量：化学成分、生理机能等。社会测量：人口普查、经济统计、民意调查等。心理测量：智力、人格、成就、职业兴趣、态度等。单位意义明确单位等距参照点绝对参照点相对参照点全无人为二、测量的基本要素

二、测量的基本要素参照点(ReferencePoint)

采用相对参照点为测量起点的测量结果只能进行加减运算，而不能进行乘除运算。比如，智商，摄氏温度等。三、测量量表按标准化样本中大量测验结果制定的、有一定单位和参照点的、

标度由低到高排列的连续体。含义

三、测量的量表能够使事物的特征数量化的具有特定单位和参照点的数字的连续体就是量表。

（1）命名量表

命名变量只说明某一事物与其他事物在名称、类别或属性上的不同，并不说明事物与事物之间差异的大小、顺序的先后及质的优劣。应用例子：牌照号码，人名，地名，足球运动员的号码。局限性：不能说明类别的数量差别

（2）顺序量表顺序量表是指可以就事物的某一属性的多少或大小按次序将各事物加以排列的变量，具有等级性和次序性的特点。应用例子：军衔、比赛中的名次排列局限性：不考虑差异的绝对量，只考虑相对差别。（3）等距量表等距量表除能表明量的相对大小外，还具有相等的单位。应用例子：温度局限性：比率是无意义的，零点是任意规定的。（4）比率量表比率量表除了具有量的大小、相等单位外，还有绝对零点。应用例子：距离，重量

种类

基本特征

功能

运算

举例命名属性、类别分类或描述性别、民族职业、⋯顺序无相等单位无绝对零点1+等级不能＋－×÷品德、能力、爱好⋯等距有相等单位无绝对零点2+差异决策和比较可＋－温度⋯比率有相等单位有绝对零点3+比值决策和比较可＋－×÷身高、体重、投资⋯不同水平的量表0摄氏度-273.151020厘米090180考试成绩心理量表属于什么水平？第二节心理与教育测量的性质一、心理与教育测量的定义依据一定的心理学和教育学理论，使用测验对人的心理特质和教育成就进行定量描述的过程。

心理与教育测量的特点：

1。所依据的很大程度上只是一种理论典型例子——智力理论：（1）抽象的思维能力。斯皮尔曼认为，所谓智力是认识事物关系的能力。（2）学习能力。如盖茨认为，所谓智力，是关于学习能力的合成力。（3）对环境的适应能力。如斯滕认为，智力是对生活的新课题和条件的一般性心理适应力。（4）作为媒介变量。如弗里曼认为，智力是智力测验所测定的东西。智力结构的构成成分：（1）斯皮尔曼强调智力二因素论，一般因素和特殊因素比内量表和韦氏量表都是按照二因素论编制，主要用来测G因素。（2）桑代克强调多因素论，社会智力、具体智力、抽象智力（3）瑟斯顿强调群因素理论（4）卡特尔又强调流体智力和晶体智力（5）加德纳则强调多元智力理论

2。对象是人的心理特质和教育成就——间接测量

3。量具是由有关领域的专家编制的标准化测验——客观性

4。精确度远不及物理测量的高二、心理与教育测量的理论基础凡客观存在的事物都有其数量——桑代克凡有其数量的事物都可以测量——麦柯尔三、心理与教育测量的量表

1。从所使用的参照点来看，教育与心理测量领域的参照点均为相对参照点。智力测验成就为零，智商一定为零吗？

2。从所使用的单位来看，教育与心理测量的单位远没有其他单位成熟和完善。“分”

从本质上讲，心理与教育测量的量表属于顺序量表通过标准分数的转换，把次序量表转换成以标准差为单位的等距量表。四、心理与教育测量中的测验

测验是一个或一群标准的刺激，用以引起人们的行为，根据此行为以估计其智力、品格、兴趣、学业等。

——陈选善所谓测验，是对一个行为样组进行测量的系统程序。

——Brown

心理测验实质上是对行为样本的客观的和标准化的测量

——阿娜斯塔西

1。行为样本从人的大量行为中抽取与欲测量的心理特质直接相关的一组行为进行测量，并依据对这一组行为的测量结果推断其心理特质和教育成就。这一组被抽取出来的、作为直接的测量对象的行为就是行为样本。

2。标准化测验的标准化就是指测验的编制、实施、记分以及测量分数解释的程序的一致性。

3。难度或应答率

4。信度和效度标准化测验内容施测条件评分规则测验常模信度：一个测验的可靠性，即用同一测验多次测量同一团体所得结果之间的一致性程度。效度：一个测验的有效性，即一个测验在多大程度上能够测到它所要测量的心理特质。心理测验和心理测量区别心理测验：工具心理测量：活动第三节心理与教育测量的种类及其功能一、心理与教育测验的种类1。以测验的对象来分2。以测验的方式来分3。以测验的内容来分4。以测验的功能来分5。按评价参照的标准分类1。按测验对象所作的分类智力测验：一般能力水平能力倾向测验：潜能或发展倾向成就测验：学业成就人格测验：非认知性的特征2、按测量方式所作的分类

个体测验团体测验

3。按测验内容的形式所作的分类

文字测验非文字测验(图形,仪器,工具,实物)4。按测验内容所作的分类（1）成就测验与预测测验（2）难度测验与速度测验（3）描述测验与诊断测验5。按评价所参照的标准分类（1）常模参照测验（2）目标参照测验（3）潜力参照测验二、心理与教育测验的功能1。理论研究功能（1）收集研究资料（2）建立和检验理论假设（3）实验分组2。实际应用功能（1）选拔人才美国二战飞行员选拔（2）人员安置没有无用的人，只有放错地方的人。（3）心理诊断（4）描述评价（5）心理诊断心理测验在心理诊断中的应用

智力测验吴天敏：中国比内智力量表龚耀先韦氏成人智力量表（WAIS-RC）韦氏儿童智力量表（C-WISC）韦氏幼儿智力量表（C-WYCSI）林传鼎：韦氏儿童量表（WISC-CR）张厚粲：瑞文标准型测验（SPM）李丹：联合型瑞文测验（CRT）

人格测验艾森克人格问卷（EPQ）卡特尔16项人格因素问卷（16PF）明尼苏达多项人格调查表（MMPI）

心理评定量表精神病评定量表躁狂状态评定量表抑郁量表，焦虑量表，恐怖量表

案例明尼苏达多相人格问卷（MMPI）

背景：1942年首发。新版MMPI-2，1989年发行。新版

MMPI-A用于青少年。设计：标准记分键，个人回答模式与已被诊断归入某一临床人群者比较。出自８个临床量表分数加男子气—

女子气和社交内向性及三个效度量表。题目：原版550题，“是”，“否”或“不肯定”回答。新版替换了约100题。计分：分数剖析图。现测验解释按高分模式，产生编码描述不同的剖析图。有电脑测验解释。应用：临床评估，为临床筛选设计。子版本：加州心理问卷从中抽取一半题目，用于正常人；

5000多已发表研究用了MMPI。第四节心理与教育测量工作者的素质要求及道德准则

案例：

1959年6月，休斯敦（得克萨斯州）独立学区投票表决烧毁了5000份问卷，原因是家长们认为在一个对9年级学生进行的全国大调查中包含有所谓的个人隐私问题（Netter,1959）。这份问卷问学生是否同意下列表述：一个在约会中遇到麻烦的女孩只能责备她自己有时我会讲低级的笑话，但事实上我并不愿意说。我喜欢在浴缸中浸泡如果你不和一群人饮酒，他们的反应会使你觉得自己是一个胆小鬼爸爸总是看起来很忙，不能与我结为好友

6年后，美国心理学会（APA）被很多市民包围，他们拿着传单和旗帜，上面写着“别让博士强行灌输思想，去见你们的牧师或医生”、“给你们的议员或代表写信，让他们立法，要求在学校、公共机构和私人公司里停止使用性虐待的心理测验”（APA，1965）一、心理与教育测量工作者的素质要求

1。心理与教育测量工作的知识结构（基础知识、专业知识）

2。对心理与教育测验的科学态度错误观测验万能论——20世纪20年代测验无用论：测验遭到的最强烈的批评是：测验为宿命论和种族歧视提供心理学依据。

“美国黑人和其他美国人的平均智商之间的差异，几乎完全可以用从胎儿起直至整个一生的处境不利来说明。”

——欧文·戈茨曼正确观（1）重要的研究方法之一——辅助工具（2）尚不完善二、心理与教育测量工作者的道德准则

1。测验的保密和控制原则

2。测验中个人隐私的保护“我可以要一份斯坦福——比纳测验空白卷吗？我的侄子想进某学校，下个星期参加斯坦福——比纳测验，我很想让他练习一下，他就能通过了。“为了改进学校的阅读课程，我们需要一个排除文化影响的智力测验来测量每个儿童的潜力。”“昨晚我回答一本杂志上所发表的智力测验问题，IQ得了80分，我认为心理测验是无聊的。”“我的室友正在学习心理学。她让我做了一个人格测验，结果是我有神经症。自此，我心烦意乱，不能上学。”“去年你处于研究目的让我们员工做了一个新编人格测验，我们想把分数归入他们的个人档案。”对心理测量的评价第二章心理与教育测量的产生与发展

现代心理测量和测验作为心理科学的一个重要分支，是在19世纪的欧洲才发展成熟起来的，其直接动因乃是源于人们对心理特征的个别差异进行评定的需要。心理特征的个别差异是客观存在的，人们在日常生活中创造了丰富的语汇来描述这种差异。但是，对科学的心理研究来说，定性的描述是远远不够的，必须寻找到有效的方法对之加以定量的刻画，于是心理测验这一工具性的实用技术在各种关于心理实质的理论的指导下应运而生了。它与对变量加以严格控制的实验方法构成心理学实证研究的两大范式，并且近来有相互融合的趋势。

心理测验的发展史历史时期先验期时间：20世纪以前特点：重实用，缺理论，主观性强科学期时间：20世纪初～至今阶段经典测验理论：50′前现代测验理论：50′后特点测验理论形成测验工作系统化

孔子

孟子中人、中人以上、中人以下“中人以上可以语上也、中人以下不可语上也”权，然后知轻重；度，然后知长短。物皆然，心为甚，王者度之。第一节中国古代的心理与教育测量中国是心理与教育测量技术的最早故乡。一、能力测量

刘劭“观其感变，以审常度”。“应赞”

刘勰思《人物志》J.K.Shryock《人类能力的研究》使左物画方，右的画圆，无一时俱成《新论·专学篇》由心不两用则物不并运也。

民间七巧板九连环等颜氏家训《风操篇》周岁试儿第一节中国古代的心理与教育测量一、能力测量

1。孔子在教育实践中将人的智力分成三个等级，即中上之人、中人和中下之人。“中人以上，可以语上也；中人以下，不可以语上也。”

2。董仲舒一手画方，一手画圆，莫能成。这无疑是世界上最早的注意测验。

3。刘劭《人物志》，“观其感变，以审常度。”可以说是一本研究力的专门著作。他把人的才能划分为12种类型，即清节、法家、术家、国体、器能等。1937年，美国学者瑞奥克将本书翻译后,名为《人类能力之研究》

4。民间，周岁试儿在现在看来，即婴幼儿的动作测量

5。出现于清代的九连环、七巧板可以被认为最早的创造力测验。美国心理学家伍德沃斯对九连环及其赞赏，把它视为“中国式的迷津”。二、人格测量

1。孔子不仅论及学生智力水平的评定，同时也提出了性格类型的观点。孔子把人分成三种类型：狂者、狷者、中行

2。刘劭根据阴阳、五行和形体的关系及其人的行为表现，把人的性格划分成12种类型。三、教育测量最早的教育测量出现于中国西周奴隶制时期——国学汉武帝初年制定岁考制，并首开笔试先河。

描述性，不定量，分类的；心理特点与道德观念相结合；

科举考试3千年前六艺取士及隋唐科举制起源特点四、对测验理论的最初探索

孟子提出了测量人类心理的必要性和可能性。“权，然后知轻重；度，然后知长短；物皆然，心为甚。”

刘劭八观，五视八观是：观其夺救，以明间杂；观其感变，以审常度；观其志质，以知其名；观其所由，以辩依似；观其爱敬，以知通塞；观其情机，以辨恕惑；观其所短，以知所长；观其聪明，以知所达”。五视是：居，视其所安；达，视其所举；富，视其所由；穷，视其所为；贫，视其所取。

中国古代心理与教育测量的特点：

1。描述性，非定量的；

2。分类式的；

3。注重对人做整体的评价，并倾向于何人的道德品质联系起来；

4。与教育中的因材施教和人才使用有着密切联系，具有强烈应用性质。三国时期的诸葛亮在其《心书》一文中讲到如何知人时，提出了七条途径：其一，“问之以是非而观其志”，即从其对是非的判断来考察其将来的志向，看看是否胸有大志；

其二，“穷之以辞辩而观其变”，即提出尖锐的问题对其诘难，看其观点有什么变化，能否随机应变；

其三，“咨之以计谋而观其识”，即就某方面的问题咨询其看法和对策，看其知识经验如何，具不具备分析问题和解决问题的能力

其四，“告之以祸难而观其勇”，即观察其在困难面前的表现，看其有没有知难而进的勇气和处世不惊的良好心理素质；

其五，“醉之以酒而观其性”，即以美酒款待，看其个人品德如何，是否两面三刀，阳奉阴违；

其六，“临之以利而观其廉”，即观察其在金钱财富面前的表现，看其是否能经得住物质利益的诱惑，是否能保持良好的心态；

其七，“期之以事而观其信”，即托付其办事以视其信用如何，是一诺千金，还是信口开河。第二节现代心理与教育测量在西方国家的产生和发展

《旧约全书》中，基列山人用于侦察逃亡的以色列人的测验产生了相当惊人的结果：基列山人利用约旦河的浅滩来对付以色列人。当以色列的逃亡者中有人说：“让我过去！”基列山人就对他说：“那么请说Shibboleth。”（译者注：《圣经》中考验的词，看某人能否正确地发此词的音，以判断他是否是逃亡者）如果逃亡者不能正确发出“Shibboleth”的音，他们就会把他抓住并杀死在约旦河的浅滩里。在那里他们杀死了42000个以色列人。[译者注：士师记《旧约全书》第一卷]

这是个带有报复性的测试，幸好并非所有的教育或心理测验都会有如此极端的影响。

现代心理与教育测量的理论和技术是产生于工业革命后的西方国家。一、现代心理与教育测量的起源（1）西方科学家最初发现人的心理的个别差异的重要性——天文学上的一个事件（马斯林基、金内布鲁克、贝塞尔）（2）实验心理学的诞生是心理测验产生的另一个重要原因。实验心理学的诞生和发展，还给心理测量带来了另一个副产品：严格的标准化程序。标准化是现代心理测验的重要评价指标。（3）社会发展的需要原因社会需要个别差异研究实验心理学鉴别智残和精神障碍专才训练和职业指导早期尝试E.G.Boring（美）19世纪80年代是高尔顿的十年，90年代是卡特尔的十年，20世纪头十年是比奈的十年二、心理与教育测量的早期探索者1、高尔顿

堪称直接推动测验运动发展的第一人，也是最早实际从事测验活动的学者。

第一个研究智力测验的人研究个体之间心理活动的差异

1884，伦敦国际健康展览会，“人体测量实验室”；13项心理生理特征：反应时间，视听灵敏度，色彩分辨能力，长度判断能力，拉力，呼吸力量等等。他的这一举动是心理测验史上第一个大规模系统地测量个体差异的尝试。发明了大量心理测验仪器：高尔顿棒，高尔顿笛创始：评定量表，自由联想法、问卷法统计学研究方面的贡献:学生Pearson完善了相关概念的计算方法

“（优生学是）改善血统的科学，它……认识到各种影响力的作用，而这些影响力倾向于以无论多么渺小的程度给予更合适的种族或者血统以更好的快速发展的机会，而不是给予那些不那么合适的种族以否则也会很快的速度发展的机会。”“我看不出，等级制度的蛮横之处，怎么可能会妨碍有天赋的社会阶层，因为他们有能力用慈爱对待同胞，只要他们保持住自己的独身生活。可是，如果这些人还接二连三地生出一些道德感、智力和生理素质都很差的孩子，很容易相信，这些人被视为国家的敌人，并且使许多仁慈之举前功尽弃的一天也许就会到来。”

——高尔顿高尔顿的10年

F.Galton,英，1822测验运动首倡者第1个研究智力测验者；第1个大量系统测量个别差异者；1884-1890，“人类测量实验室”，测9337人。应用评定量表和问卷法的先驱；统计学家、生物学家、业余心理学家；优生学的创始人；反应时间，拉力和拧力，吹气的力量，身高，体重，臂长，呼吸力量，肺活量，视力和听力的灵敏度，色彩分辨能力，判断长度的能力“人体测量研究室”测量内容2。卡特尔1890年发表《心理测验与测量》一文于《心理》杂志上，这是在心理学文献中首次出现“心理测验”一词。心理学只有立足于实验与测量，才能达到如同自然科学的准确性；心理测量只有建立普遍的统一标准，并要与常模相比较，才能充分地实现其科学价值和实用价值。卡特尔的10年CattellJ.M.,美，1861实验心理与测验运动结合；“心理测验”首次在心理学文献出现（《心理测验与测量》）；创立心理测验公司；培养优秀学生：桑代克，佛朗兹等；握力，动作速度，触觉两点阈，重量辨别，声音反应时，痛感受性说出四种混杂颜色名称的速度，时间判断力，平分线段的精确性复述听过一次字母数目的能力卡特尔智力测验内容1891-1901：学生成绩与人体测验无明显相关，各测验间相关性也极差。

冯特的学生，德国莱比锡大学博士毕业英国剑桥受到高尔顿的影响，对个体差异研究感兴趣

19世纪末返回美国，宾夕法尼亚大学，建立实验室，传播心理测验

1890年在《心理》上第一次提出“心理测验”的概念测验内容：运动速度，痛感，视听，反应时，记忆力，重量辨别，肌力（但它们与学习能力无关）科学期3。比内的10年A.Binet，法，1857-19111898年，《人格心理学中的测量》，近代思想1903年，《智力的实验研究》，广义智力概念；1905年，B-S量表；第一个正式智力量表。经典测验理论阶段三、心理与教育测量运动的发展（20世纪20年代——至今）特点20’—狂热，40’—顶峰，50’—CCT趋于成熟、平稳，60年代以后测量理论出现新的动向。1、智力测验的发展（1）1916推孟修订斯坦福-比内量表首次使用了比率智商，简称为IQ，是心理年龄和实际年龄的比值。（2）团体智力测验的发展

Otis陆军甲种测验(1917)Otis陆军乙种测验(1927)

（3）对智力本质及其结构的统计学研究应运而生。斯皮尔曼首次运用因素分析研究智力结构，提出智力结构的二因素论，为编制新的智力测验奠定了理论基础。（4）瑞文推理测验和韦克斯勒智力测验2。能力倾向测验的发展3。成就测验的发展

桑代克编制第一个标准化的教育成就测验，被公推为教育测量的鼻祖。1923年，凯利、鲁奇、推孟合作编制了第一个成套成就测验——斯坦福成就测验斯坦福成就测验（1923）美国教育测验中心（ETS，1947）成立；（可以参考百度）4。人格测验的发展

最早进行人格测量的是克雷培林，最早采用自由联想法诊断病人自陈人格问卷：1917年武德沃斯设计的“个人资料调查表”。由哈撒韦和麦金利编制的目前影响最大的MMPI-明尼苏达多相人格调查表。16PF，EPQ

投射测验：1921年问世的罗夏克墨迹图测验（RIT），TAT四、心理与教育测量的当代趋势

1、信息加工测验

2、纸笔测验逐渐被电脑程序测验所取代

3、项目反应理论和概化理论心理测量发展近代历史简表1905，比奈-西蒙发表第一个智力测验量表（中国废止科举）1908，比奈修订比奈-西蒙智力测验量表，提出“智力年龄”概念1916，推孟发表斯坦福-比奈量表1917，陆军甲、乙种测验应用（最早的能力倾向测验）武德沃斯发表第一个标准化人格测验1920，罗夏发表墨迹测验1923，斯坦福成就测验1927，斯特朗男性职业兴趣量表1937，斯坦福-比奈量表年在首次引入“比率智商”概念（德国汉堡大学LWStern教授最先提出“智商”概念）1939，韦氏智力测验研制和试用1942，明尼苏达多项人格测验1949，韦氏儿童智力测验，提出“离差智商”概念1955，韦氏成人智力测验1967，韦氏幼儿智力测验1980，考夫曼儿童成套评估量表第三节现代心理与教育测量在中国的发展一、现代心理与教育测量建国前的发展（1）1916年，樊炳清先生首先介绍了比内-西蒙智力量表。

（2）1920年，北京高等师范学校和南京师范学校建立了我国最早的两个心理学实验室，廖世承和陈鹤琴先生在南京高等师范学校开设心理测验课。1921年，他俩正式出版《心理测验法》一书。

（3）1922年夏天，中华教育改进社聘请美国教育心理测验专家麦考尔来华讲学。

（4）1924年，陆志韦先生发表了《订正比内西蒙智力测验说明书》，30年代又与吴天敏再次做了修订。

（5）1931年由艾伟、陆志韦、陈鹤琴、萧孝嵘等倡议，组织并成立了中国测验学会。

（6）1932年《测验》杂志创刊。

（7）至抗战前夕，由我国心理学工作者制定或编制出的合乎标准的智力测验和人格测验约20种，教育测验50多种。二、现代心理与教育测量建国后的发展（1）1936年，苏联在批判“儿童学”时扩大化，心理测验也被一概禁止。

（2）从1978年北京大学首建心理系开始，心理测验才重新得到恢复。

（3）1979年，林传鼎、张厚粲等以国外资料为参考，编制了少年儿童学习能力测验。

（4）1980年初，北师大心理系开设了心理测量课。1984年，在北京召开的第五届全国心理学年会上，成立了心理测验工作委员会，加强了测验工作的指导和监督。1、智力测验龚耀先修订“韦克斯勒成人智力量表”林传鼎、张厚粲修订韦克斯勒儿童智力量表吴天敏出版“第三次修订中国比内测验”龚耀先修订韦克斯勒幼儿智力量表张厚粲修订瑞文标准推理测验李丹修订瑞文测验（联合型）戴忠恒修订了“一般能力倾向测验”。2、人格测验宋维真修订MMPI刘绍衣修订16PF，辽宁常模戴忠恒、祝蓓里制定了16PF全国常模。龚耀先、陈仲庚分别修订EPQ张明园修订生活事件量表吴文源修订SCL-901979年来国内现有主要智力测验1978丹佛发展筛选测验宋杰，朱月妹1980比内-西蒙量表Ⅲ修订吴天敏1981韦氏儿童智力量表林传鼎，张厚粲1981韦氏记忆量表龚耀先1982韦氏成人智力量表龚耀先1983韦氏幼儿智力量表郭迪，汪梅先1984韦氏幼儿智力量表龚耀先1984临床记忆量表许淑莲1987标准型瑞文测验张厚粲国内参考书目戴忠恒《心理与教育测量》江苏，87《教育测量》余嘉元《教育测量》王孝玲华东师大，88）《心理测量》郑日昌湖南，88凌文辁，滨治世《心理测验法》科学，88凌文辁，方俐洛.心理与行为的测量.02心理测验彭凯平华夏，90心理与教育测量张厚粲浙江教育，97教育测量学张敏强人教，98心理与教育测量戴海崎暨大，99心理测量车宏生北师大，00教育测量与评价黄光扬华东师大，02心理测验的原理与应用郭庆科人民军医，02项目反应理论及其应用研究漆书青戴海崎著（江西高校，92）国外参考书心理测验分数的统计理论（美）M.罗德叶佩华译人教，85心理与教育测量和评价（美）R.L.桑代克叶佩华译福建教育，92）心理测验安娜期塔西，厄比纳著（97）缪小春等译（浙江教育，01）PsychologicalTestingA.Anastasi（A，88-6）Criterion-ReferencedMeasurement》W.J.Popham（A，78）UsingPsychometricsR.Edenborough（B，99）

EssentialsofPsychologicalTeatingLee，J.Cronbach（A，90）教育测量纲要罗伯特·L·艾伯尔著漆书青等译（江西师大高教室，84）项目反应理论——在心理测量中的应用（美）查尔斯·L·赫林，弗里茨·德雷斯哥，查尔斯·K·帕森斯华东师大教育咨询中心译（湖北教育，90）第三章经典测验理论的基本假设第一节心理特质及其可测性假设一、心理特质（Trait）的含义

定义：表现在一个人身上所特有的相对稳定的行为方式如何理解：（1）一组内部相关的行为概括，具有一定的抽象性；（2）一种一般的神经心理系统，可以综合不同的刺激，使人对这些刺激做出相同的反应；（3）一个人身上比较稳定的特点；（4）一个人的精神面貌是由多种特质多层次有机结合而成的；（5）特质决定一个人对特定刺激的反应倾向。第三章经典测验理论的基本假设第一节心理特质及其可测性假设二、心理特质的可测性凡客观存在的事物都有其数量——桑代克凡有数量的东西都可以测量——麦柯尔请列举一些你所使用过或接触过的量表思考:量表的作用是什么？你如何解释下述现象？

一个很聪明的孩子，测得智商是80分一个学习很好的学生，考试成绩为60分一个人缘很好的人，人际关系测量低于常模值量表帮助我们了解心理现象（心理特质），就像尺子帮助我们测量身高。

思考:我们如何知道我们有多高？有两个工具：尺子/秤

尺子的数据与我们的目测更一致，而秤盘的数据则与我们的目测不一致。因此，尺子是测量身高的有效工具——效度。什么材料的尺子？——钢铁（热胀冷缩）涉及到一致性的问题。——信度物理不等于数学1.70与1.7的关系总结：量表是我们用来了解心理特质的工具，但这个工具是有误差的。误差要控制在一个许可的范围内。回顾什么是误差?误差的种类?误差是在测量中与目的无关的变因所产生的不准确或不一致的效应。误差分为随机误差和系统误差。第二节测量误差及其来源一、测量误差的含义在测量过程中由那些与测量目的无关的变化因素所产生的一种不准确或不一致的测量效应。二、测量误差的种类随机误差：那种与测量目的无关的、偶然因素所引起的一种恒定而有规律的效应。

系统误差：那种与测量目的无关的变因所引起的一种恒定而有规律的效应。

系统误差只影响测量的准确性，不影响稳定性。而随机误差既影响稳定性又影响准确性。第二节测量误差来源及其控制一、测量误差的来源（1）来自测量工具。心理测量量表是否稳定，是否测到了我们所要测得东西是测量工具造成误差的主要原因1、测验的项目过少或缺乏代表性2、复本不同，测验结果不同第二节测量误差来源及其控制一、测量误差的来源（2）来自测量对象。受测者真正水平是否得到真正发挥1、应试焦虑2、应试经验3、应试动机4、学习、发展和训练5、练习效应6、反应倾向7、生理因素（3）来自施测过程。物理环境，主试者方面，评分计分环节。第二节测量误差来源及其控制一、测量误差的来源（3）来自施测过程。最易控制和检验1、测试环境2、测试时间3、主试因素4、意外干扰5、评分计分

第二节测量误差来源及其控制二、测量误差的控制（1）题目等值（2）题目编制（3）相同施测条件（4）评分客观--相同评分标准（5）结果解释标准化—建立参照标准测量误差的估计：SX2=ST2+SE2

ST2=SV2+SI2

SX2=SV2+SI2+SE2SV2SI2SE2SX2ST2

第二节真分数及其有关的假设一、真分数的含义反映被试某种心理特质真正水平的那个数值一个理论构想出来的抽象概念，在实际测量中是很难得到的。第三节真分数及其有关的假设二、数学模型及其假设

经典测验理论假定，观察分数X与真分数T之间是一种线形关系，并只相差一个随机误差E，即

X=T+E

根据这一模型，我们可以引申出3个相关联的假设公理：（1）若一个人的某种心理特质可以用平行测验反复测量足够多次，则其观察分数的平均值会接近于真分数。即

ε（X）=T或ε（E）=0

（2）真分数和误差分数之间的相关为零。即

ρ（T，E）=0

（3）各平行测验上的误差分数之间相关为零。即

ρ（E1，E2）=0如何理解CTT数学模型及其假设：首先，在问题研究范围之内，反映个体某种心理特质水平的真分数是假定不会变的，测量的任务就是估计这一真分数的大小其次，观察分数与真分数之间是线性关系。再次，测量误差是完全随机的，并服从均值为零的正态分布。思考：如何应用CTT模型？平行测验两个题目不同的测验测得是同一特质，并且题目形式、数量、难度、区分度以及测查等值团体后所得分数的分布都是一致的用多个平行测验反复测量同一个人的同一种心理特质的做法往往难以实现，所以CTT模型假设仅仅是理论上的描述。为什么CTT模型能用？

如果按照CTT模型的描述，要用多个彼此平行的测验反复测量同一个人的同一种心理特质是很难实现的。但是事实上，我们在实施一个标准化测验时，并不是用许多平行测验来反复测查同一批被试，而是用一个测验来同时测查许多被试。由于每个人的误差都是随机的，且服从均值为零的正态分布，所以，当被试团体足够大时，团体内的各种随机误差会相互抵消，整个团体的观察分数的均值会趋近于该团体真分数的均值。这里，多个被试接受同一个测验相当于多个平行测验反复测查一个具有团体真分数均值水平的一个个体。因此，CTT的理论模型和假设便派上了用场。

根据CTT模型和假设推导出：根据CTT模型和假设，我们很容易推导出如下关系：S2X=S2T+S2E

即：在一次测量中，被试观察分数的方差等于其真分数方差与误差分数方差之和。

上面公式中只涉及到了随机误差的变异，系统误差的变异包含在真分数的变异之中。即：真分数还可以分为两部分：与测量目的有关的变异和与测量目的无关的变异

S2T=S2V+S2I（系统误差）

S2X=S2V+S2I+S2E经典测量理论的局限：信度估计精度不高，平行测验难以实现；误差指标笼统单一、不精细；各种参数估计对样本的依赖性太大，参数指标之间的匹配性较差；真分数与观测分数间存在线性关系的假定不合理。经典测量理论的优点：直观易懂适用性广测验结果可信经典测试理论&项目反应理论经典测试理论形成：出现于20世纪初，到了50年代形成了完整的体系。基本思想：把测试的得分（observedscore）看作是真分数和误差分数的线性组合。数学模型：X=T+E（X为观测分数，T为真分数，E为误差分数）经典测试理论_项目分析指标1.平均分（meanscore）_最常用的一种集中量数（反映分数集中位置，代表一批分数，反应一批分数的典型情况）2.标准差_差异量数，即分数的离散程度。标准差是最重要的差异量数。经典测试理论_项目分析指标3.难度_试题的难易程度4.区分度_测试项目对考生的区分程度经典测试理论_项目分析指标5.信度_测试结果的一致或者稳定程度。换句话说，有信度的试题在任何时间、地点下通过测试都能得到一致的结果。测试方法：再测法_同一份试卷，在不同的时间内对同一组受测者实测两次，根据两次测试分数计算得到的相关系数成为再测信度。（受间隔时间影响）经典测试理论_项目分析指标复本法_编制两套题目不同，形式相同的试卷，在最短时间内用两套试卷测试同一个群体，所得结果的相关系数成为复本信度。分半法（奇偶分半）经典测试理论_项目分析指标库理法（只适用于客观性测试）经典测试理论_项目分析指标用克伦巴赫系数公式估测主观性测试信度：经典测试理论_项目分析指标6.效度_测试的有效性或测试结果的正确程度，是指测试在多大程度上测量到了所要测的东西。内容效度_测试内容与所要测量的内容之间的一致性程度。经典测试理论_项目分析指标效标关联效度：效标：衡量测试有效性的参照标准，效标关联效度也就是该参照标准有关的效度。结构效度：测试能测量理论上的结构或心理特性的程度。经典测试理论_优缺点优点：直观形象；数学模型简单；对数据的假设比较弱。缺点：1、试卷的特征指标样本相关。（能力高低，所测难度系数不同；能力相似程度不同，区分度不同）

2、被测试者的能力水平“测试相关”。（测试难易不同，所反映出相同被试者能力不同）

项目反应理论形成：1.雏形在本世纪四十年代中期出现，由丹麦学者拉什（GeogeRasch）提出。2.但直到60-70年代，由于计算机的广泛应用和普及，计算机程序BICAL的出现，才使得项目反应理论的应用成为现实。

项目反应理论基本思想：在心理测验中寻找一个相对“恒定”的度量标准，从而更加客观的描述和评价测试手段中被测试对象的特征。特质：被测验者的某种相对稳定的支配其对相应的测验做出反应，并造成这种反应的一致性的内在特征，用希腊字母表示。（通常在-3到+3之间讨论）项目反应理论基本原理：通过一定的数学模型，在测得的原始数据或其等价形式和被测试者的“特质”之间建立某种函数关系，利用测得的原始数据确定被测试者的值以及用相同的R度得出试卷或实体的各种特征值。IRT是对被试能力的一种估计，并将被试对单个测验项目的某种反应概率与此项目的一定特征联系起来。项目反应理论_四条基本假设1.潜在特质空间的单维性假设：指测验只测量考生的某一种能力，而可以忽略其他能力对测量能力的影响。（阅读）2.局部独立性假设：考生在测验中对某题目上的正确反应概率不依赖于他在其他题目上的正确反应概率。项目反应理论_四条基本假设3.项目特征曲线假设：考生对项目所作反应的概率遵循一定的函数关系，这种函数关系可以用项目特征曲线形式表示出来。（知道-正确假设，即被试知道某一项目的正确答案，他必然答对。反之，亦然。）4.非速度限制假设测验的进行是在没有时间限制的条件下完成的，被试在项目反应上不理想，是能力不足引起的，而不是时间不够所致。项目反应理论_模型项目反应理论由许多数学模型组成，每种模式都是建立在一定假设基础之上的，是反映考生在测试中观察不到的能力水平和观察不到的反应之间的数学函数关系。构成模式的元素称为项目参数（项目难度参数，项目区分度参数，猜测参数）项目反应理论_模型项目反应理论中模式的共性：1.模式是单维的，函数反应的可能性仅依赖于个体的能力水平，并随能力水平的增加而增加；2.项目之间存在有条件的独立；3.大多数项目反应理论模式采用二记分法。项目反应理论_模型单参数模型三参数逻辑斯蒂模型（threeparameterlogisticmodels）项目反应理论_模型三参数模式的特征曲线：项目反应理论_模型第三章测验信度

教学要点：通过本章的学习，掌握信度的意义，信度系数的计算，了解影响信度的主要因素以及提高信度的常用方法等内容。教学内容：

一、信度的意义1．信度指实测值和真值相差的程度2．信度指统计量与参数之间的接近程度3．信度是指一种测验对相同的应试者再次测验时引起同样反应的程度二、信度系数的计算1．稳定性系数2．等值性系数3．等值稳定性系数4内部一致性系数5．评分者的信度系数例题1。在一次测验中有些学生得80分，这是否反映了他们的真实水平？如果再测一次他们的分数将改变多少？已知该次测验的标准差为5，信度系数为0.84。2。某班期末考试，张生语文、数学的成绩转换成了T分数（平均数为50、标准差为10）分别为65和70，由此我们知道张生的数学比语文好一些，但二者之间的差异是否有意义（语文考试与数学考试的信度系数分别为0.84、0.91）。三、提高测验信度的方法1．信度系数以多大为宜2．影响信度的因素3．提高测验信度的方法考核要求：

1.信度的意义2.信度系数的计算识记：稳定性系数，等值性系数，等值稳定性系数，内部一致性系数，评分者的信度系数3.提高测验信度的方法请列举一些你所使用过或接触过的量表思考:量表的作用是什么？你如何解释下述现象？

思考:我们如何知道我们有多高？有两个工具：尺子/秤

尺子的数据与我们的目测更一致，而秤盘的数据则与我们的目测不一致。因此，尺子是测量身高的有效工具——效度。什么材料的尺子？——钢铁（热胀冷缩）涉及到一致性的问题。——信度物理不等于数学1.70与1.7的关系总结：量表是我们用来了解心理特质的工具，但这个工具是有误差的。误差要控制在一个许可的范围内。回顾什么是误差?误差的种类?误差是在测量中与目的无关的变因所产生的不准确或不一致的效应。误差分为随机误差和系统误差。高尔顿的智力观比奈的智力观判断题、选择题和问答题SX2=ST2+SE2

ST2=SV2+SI2

SX2=SV2+SI2+SE2SV2SI2SE2SX2ST2

信度信度：测量结果的稳定性程度

若能用同一测量工具反复测量某人的同一种心理特质，则其多次测量的结果间的一致性程度，或测量的可靠性。定义1信度乃是一个组测验分数的真分数的变异数与总变异（实得分数的变异数）之比。rXX=ST2/SX2信度的定义2定义2信度乃是一个被测团体真分数与实得分数的相关系数的平方。rXX=P2TX思考：相关系数的平方？信度的定义三定义3信度乃是一个测验X与它的任意一个平行测验X＇的相关系数。rXX=PXX＇

第二节信度的估计方法一、重测信度二、复本信度三、分半信度四、同质性信度五、评分者信度一、重测信度（Test-RetestReliability）定义：同一量表，同一被试群体，在不同时间，两次施测，求其相关。实质：表示测验结果的稳定性。故称之为稳定性系数（CoefficientofStability）形式：施测—适当时间—再施测时间间隔的把握间隔时间越长，稳定性系数越低。适宜时间间隔依照测验目的、性质及被试特点而定。几分钟至几年。年幼儿童，间隔要小；年长群体，间隔可大。智力测验的间隔不能太短，成就测验的间隔不能太长。一般间隔时间不超过六个月。（即不能让被试记住上一次测验的内容，又不能让其特质发生变化，或对所学知识产生遗忘）重测信度的优缺点优点：能够提供有关测验结果是否随时间而变异的资料，可作为预测受测者将来行为表现的依据。缺点：易受练习和记忆的影响，前后两次施测间隔的长短务须适度。二、复本信度（Alternate-formraliability）因为任何测验只是所有可能题目中的一份取样（行为样本），所以可编制许多平行的等值测验，叫做复本。复本等值要符合下列条件：

各份测验测量的是同一种心理特性。各份测验具有相同的内容和形式。各份测验的题目不应重复。各份测验题目数量相等，难度和区分度大体相同。各份测验的分数分布（平均数和标准差）大致相等。复本编好后，应再测一次，以确保各份测验的等值。定义：两个复本施测同一被试群体，求其相关。1.等值性系数：同时连续施测，反映内容变异。形式：复本A—同时—复本B2.稳定性与等值性系数：时间间隔施测，内容变异＋重测信度误差形式：复本A—适当时间—复本B复本信度的优缺点优点：可以在一定程度上避免重测法的缺点缺点：

（1）只能减少而不能排除练习和记忆的影响。（2）第二个测验只改变了测验的具体内容，已经掌握的解题原则，可以很容易地迁移到同类问题。（3）对于许多测验来说，建立复本十分困难。三、分半信度（Split-HalfReliability）定义：在测验没有复本且只能实施一次的情况下，可将测验项目分成对等的两半，根据被试在这两半测验中所得的分数计算相关系数，即得分半信度。计算分半信度先要对测验分半。不同的分半法可能会得到不同的信度值。分半信度（Split-HalfReliability）为了使两半基本等值，可将项目按由易到难的顺序排列编号，然后按奇数和偶数序号将项目分半。要注意使那些性质相同、联系紧密的项目分在相同的一半，否则会使信度值偏高。由于分半信度实际上只是半个测验的信度，测验越长、项目越多，两半分数的相关就越高。计算时注意校正：

两半方差同质：

斯皮尔曼-布朗公式：

r=2rhh/(1+rhh)，

rhh：两半分数间的相关系数

前提条件：一次施测，没有副本，测验可分成两半。

特点：同一测验可以有多个分半信度值。不适合用于速度测验。适用于难度测验。

四、同质性信度（HomogeneityReliability）同质性指测验的所有题目测量的是同一种心理特质，表现为各个题目得分之间有较高的相关，相关越高则同质性越强。同质性信度，也叫内部一致性系数，它是指测验内部所有题目间的一致性程度。同质性信度就是一个测验所测内容或特质的相同程度。存在问题优点：测验只施测一次，可排除记忆和练习的效果缺点：1、只可在单一特质的测验上使用。2、不适用于速度测验，不能单一使用，需和重测信度、复本信度配合使用。五、评分者信度（ScorerReliability）评分者信度是指不同评分者之间在测验结果计分上的一致性。在心理测验中,评分者信度的计算,通常是随机抽取若干份试卷,由至少两位受过训练的评分者按计分规则分别判分,然后计算它们的相关。几个评分者的评分越一致,评分者信度越高。

五、评分者信度（ScorerReliability）最简单的估计方法就是随机抽取若干份答卷，由两个独立的评分者打分，再求每份答卷两个评判分数的相关系数。这种相关系数的计算可以用积差相关方法，也可以采用斯皮尔曼等级相关方法。如果评分者在三人以上，而且又采用等级记分时，就需要用肯德尔和谐系数来求评分者信度。估计信度的方法与测验复本的数目

以及施测次数的关系所需要施测的次数所需要复本的数目一二一分半信度同质性信度评分者信度复本信度（连续施测）二再测信度复本信度（间隔施测）在一般情况下，间隔施测的复本信度最低，因为很多因素有机会影响到分数。相反，校正过的分半相关，因为影响的因素少，所得的信度估计为最高。各种信度系数相应误差变异的来源信度系数的类型误差变异的来源再测信度复本信度（连续施测）复本信度（间隔施测）分半信度同质性信度评分者信度时间取样内容取样时间与内容取样内容取样内容的异质性评分者间的差异

估计信度的方法远不止上面谈的几种.实际上，有多少种误差来源，便有多少种估计信度的方法。一个测验哪种误差大，便应该用哪种误差估计。有时一个测验需要有几种信度系数，这样我们就把总分数的变异数分成不同的分支。

例题假设对100个六年级学生以两个月的时间间隔先后施测一个创造力测验的A\B两个复本，所得的等值性与稳定性系数为0.70。我们还根据被试对每个复本的反应计算出分半信度为0.80（先计算每个复本的分半相关系数。将二者平均后再用斯皮尔曼-布朗公式校正）。同时，我们让另一个评分者随机抽取50份卷子另外评分，得到评分者信度为0.92。然后，我们对这三种方法所产生的误差变异进行分析。一个假想测验的误差变异来源分析信度类型误差变异量误差变异来源复本信度（间隔施测)1-0.70=0.30时间与内容取样分半信度1-0.80=0.20内容取样上述二者差异0.30-0.20=0.10时间取样评分者信度1-0.92=0.08评分者差异误差变异总和0.20+0.10+0.08=0.38真实变异1-0.38=0.62一个假想测验的误差变异来源分析真实变异误差变异时间上的稳定性，复本之间的一致性，评分者之间的一致性内容取样误差时间取样误差评分者间差异62%20%10%8%第三节提高测量信度的方法一、影响测量信度的主要因素二、提高测量信度的常用方法三、几点说明一、影响测量信度的主要因素1。被试方面2。主试者方面3。施测情景方面4。测量工具方面5。两次施测得间隔时间例题

1.假设有一个包括10个题目的测验，信度为0.50,若把测验增加到50个题目,其信度将增加到多少?虽然增加题目可以提高信度，但并非多多益善。增加测验长度的效果遵循报酬递减率，测验过长是得不偿失的，有时还会引起被试的疲劳和反感而降低可靠性。还要注意一点，只有当新题目是与原题目选自同一总体，即与原题目具有同质性时，增长测验才能改进信度。二、提高测量信度的常用方法1、适当增加测验的长度2、使测验中所有试题的难度接近正态分布，并控制在中等水平。3、努力提高测验试题的区分度4、选取恰当的被试团体，提高测验在各同质性较强的亚团体上的信度。5、减少无关因素的影响。三、几点说明1、提高测验信度的方法很多，以上只是常用几种2、本章所用方法仅适用于常模参照测验3、目标参照测验的信度问题必须以测量的概化理论为基础才能进行较好的处理速度测验4、几个一般性参照标准

思考一个信度系数必须多高才算“足够高”？0.7-0.8基本满足基础研究中的多数目的。智力测验、标准化学绩测验：0.9人格测验：0.8自编测验：0.6

第四章测验的效度

第一节效度概述一、什么是效度二、效度与信度的关系一、什么是效度效度是指一个测验或量表实际能测出其所要测的心理特质的程度。1。效度是针对测验结果的2。效度是针对某种特定测量目的的3。效度只有程度上的差异

效度=S2V/

S2X=r2xy

效度是相对的，在特定人群、特定时间和特定使用条件下是有效的。二、效度与信度的关系

效度验证和效度概化1、效度验证要确定测验在解决某方面问题时的效度，需要收集充分的客观事实材料和证据，这种收集大量资料和证据来检验测验效度的工作过程就叫效度验证。内容效度的重点是确定测验内容与某个行为领域的一致性，而该行为领域往往是已经被明确界定了的，效标效度着重于测验分数是否与效标测量有高度相关，构想效度的重点则是测验编制所一句的心理特质理论和测验测量到该理论构想或特质的相关程度。2、效度概化指在某一情境中所做的效度研究能否推广到其他情境。（特定时间、特定情境、样本的局限性）预测源效标施测情境被试团体建立效度的方法第二节效度的估计比较常见的解释效度的角度：1。用测量的内容来说明目的——内容效度2。用心理学上某种理论结构来说明目的——结构效度3。用工作实效来说明目的——实证效度以上分类是相对的，有些专家认为，效度就是多方寻找证据来证明一个测验有效性的过程。第二节效度的估计1966年美国心理学会在《教育心理测验值标准》中将效度分为三大类：1．内容效度（ContentValidity）内容效度指测验实际测到的内容与所要测量的内容之间的吻合程度。2．结构效度(ConstructValidity)结构效度是指测验对于被称作构想的某一理论概念或特质测量的程度。3．实证效度(CriterionrelatedValidity)实证效度是指一个测验对处于特定情景中的个体的行为进行估计的有效性一、内容效度定义：内容效度指测验实际测到的内容与所要测量的内容之间的吻合程度。适用于成就测验、选拔和分类的职业测验，不适于能力倾向测验和人格测验。方法：逻辑分析法注意与表面效度的区分内容效度与表面效度的区别

（1）表面效度是由外行对测验做表面上的检查确定的，而内容效度是由够资格的判断者（专家）详尽地、系统地对测验评价而建立的。（2）这两者都是根据测验的内容作出的主观判断，但判断的标准不同。前者只考虑题目与测量目的之间明显的、直接的关系，后者则同时考虑到题目与测量目的和内容之间逻辑的微妙关系。常常有这种情况，外行人认为无效的题目，实际上并不一定无效。例如，MMPI中有这样的题目：“我的喉咙里总好象有一块东西堵着似的。”表面上看来这种题目似乎与个性无关，但在临床上，回答“是”的人很可能为癔病或神经衰弱患者。表面效度不是效度的客观指标，但能对受测者的动机产生影响，因而也会影响到效度。（3）最高行为测验要求有较高的表面效度，典型行为测验却要求较低的表面效度。双向细目表（举例）一、教學目標(以橫軸表示)

以Bloom所提的認知領域六個教學目標為依據：知識、理解、應用、分析、綜合、評鑑。

(此次編製成就測驗的歷程，可將分析、綜合、評鑑，統合成「高層次思考」)二、教材內容(以縱軸表示)

以出題的範圍，表示出包含幾個不同的單元。以台湾学校教育文科為例知識理解應用分析綜合評鑑總和唐詩88442228文言文64642224新詩86442226散文64622222總和2822201488100内容效度的评价

内容效度不但是评价学绩测验的最适合的方法，而且编制任何测验都要加以考虑的方面。内容效度既具有一定的优点，也有一定的局限。它的主要缺点是缺乏理想的数量指标，因而妨碍了信息交流和各测验间的相互比较。二、结构效度定义：结构效度是指测验对于被称作构想的某一理论概念或特质测量的程度。例如：智力、性向、動機、社會性、社經地位等。主要用于智力测验、人格测验方法：1。测验内部寻找证据法（1）确定内容效度作为结构效度的证据（2）分析被试的答题过程（3）通过计算测验的同质性信度来检验结构效度2。测验之间寻找证据法（1）相容效度（2）区分效度（3）因素分析3。考察测验的实证效度法4。多种特质——多种方法矩阵法1。测验内部寻找证据法（1）确定内容效度作为结构效度的证据例如，编制语文能力测验时，编制者将总体内容描述为对词汇下定义、对语言做类比推理、以及在句子中正确运用文字的能力，这在实际上就是给“语文能力”的构想下了定义。（2）分析被试的答题过程例如，在人格测验上有这样一些题目：“当事情不顺我意时，我时常动怒。”“我总避免批评别人的言行。”（3）通过计算测验的同质性信度来检验结构效度2。测验之间寻找证据法（1）相容效度(与权威测验的相关系数)斯坦福——比奈量表是世人公认有效的智力测验，后人编的智力测验大多与此量表作比较，如果相关高，便说明新编测验有效。（2）区分效度（3）因素分析因素分析一、探索性因素分析如果测验要自编时，则采用探索性因素分析。采用SPSS或SAS统计分析软件即可。二、验证性因素分析若要采用别人以编好的测验，则需采用验证性因素分析，验证是否具有其宣称的因素。需采用LISREL或AMOS统计软件。多种特质——多种方法矩阵法坎贝尔和费司克（1959）A：同方法测同特质B：不同方法测同特质C：同方法测不同特质D：不同方法测不同特质相关系数的高低应为：A>B>C>D多种特质——多种方法矩阵法多种特质——多种方法矩阵法表明，测验的信度实际上是用最相似的方法（例如再测法或复本法）对同一特质进行测量所得结果间的一致性；效度实际上是用极不相同的方法对同一特质进行测量所得结果间的一致性。可见，信度与效度的基本区别在于测量方法的相似性。对构想效度的评价构想效度是个有争议的概念。优点：其贡献在于把着眼点放在提出假设、检验假设上，因此使心理测验不再只是作实际决定的辅助工具，同时还成为发展心理学理论的重要工具，从而使测验有了更广阔的发展前景。缺点：三、实证效度定义：实证效度是指一个测验对处于特定情景中的个体的行为进行估计的有效性。也称为效标关联效度。根据效标资料搜集的时间差异，实证效度可以分成同时效度和预测效度两种。方法：1。相关法最常用来建立实证效度的方法是求测验分数与效标测量间的相关（积差相关法、等级相关法、二列相关法、四分相关法）2。分组检验法3。命中率4。功利率

U=B（NS）-C（NU）-SU代表功利率，B代表用一个成功的工人所产生的平均利润，C代表录用一个不合格的工人所造成的损失，NS和NU分别代表所录用的人中成功和不成功的人数，S代表整个选人程序的费用。其他效度1、表面效度对测验原理不熟悉的人表面上看一个测验是否有效。表面效度会影响被试测验动机区别效度用以检验职业测验效标关联效度的一种指标。3、内部效度和外部效度内部效度（内部一致性效度）反应了测验的结构效度。本质上是对同质性的考量。对测验效度的解释有限。外部效度指将研究结果概化到其他情境和总体的程度。影响一项研究应用价值的大小。效度概化提高外部效度的方法之一。2、合成效度和区别效度合成效度以职业表现为效标，根据工作分析的结果确定该职业中不同工作项目所占的比重，分别求出测验分数与各工作项目之间的相关系数，再按不同的比重加权计算，即可。用以预测整个工作绩效。第三节提高测量效度的方法一、影响测量效度的因素测验本身的因素1。测验的长度记住公式，并注意与信度的相应公式相区分：r(Kx)y=Krxy/√K（1-rxx+Krxx)rkk=Krxx/[1+(k-1)rxx]2。测量的信度效标因素1、效标的选择2、测验结果与效标之间的关系类型

是否是线性相关3、效标测量的信度

效标系数校正公式样本代表性干涉变量二、提高测量效度的方法1。精心编制测验量表，避免出现较大的系统误差2。妥善组织测验，控制随机误

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

心理与教育测量课件

文档简介

温馨提示

最新文档

评论

心理与教育测量课件

文档简介

温馨提示

最新文档

评论

相关文档