语言测试第一课

上传人：1*** IP属地：山东上传时间：2024-03-16 格式：PPT 页数：63 大小：4.37MB 积分：12 举报 版权申诉

已阅读5页，还剩58页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

语言测试目录第1章语言测试初探ChapterOnePrimaryExplorationofLanguageTestingIPrimaryExplorationofLanguageTesting

Whatislanguagetesting?Whytotest?Whattotest?Howtotest?Whatislanguage?DefinitionofLanguageLanguageisasystemofarbitraryvocalsymbolsusedforhumancommunication.语言的定义许国璋先生认为把语言定义成交际工具不够科学,至少不够严谨.他对语言的定义做了如下概括:语言是人类特有的一种符号系统.语言的功能：当它作用于人与人之间的关系的时候,它是表达相互反应的中介;

当它作用于人与客观世界的关系的时候,它是认知事物的工具;

当它作用于文化的时候,它是文化的载体和容器.语言测试的定义测试是对行为样本的客观的标准化的测量---刘润清和韩宝成引Anastasi(1982）语言测试是对受试者语言样本的客观的标准化的测量抽样Testee命题，预试（trial),实施（administration)，评分，第2章语言测试的类型2.1从用途的角度区分2.2从分数参照框架的角度区分2.3从评分方式的角度区分2.4从结构的角度区分2.5从综合与分离的角度区分2.6从规模的角度区分各类测验的特点

A成绩测验B能力倾向测验C水平测验D诊断测验E分班测验测验特点及类型依据所测能力信息指向标准化程度规模语言理论一般语言水平现在—将来最高最大

教学内容不一定过去可以较高可以很大认知理论学习潜能将来可以较高可以很大教学内容现有水平将来不高不大教学内容现有水平过去—将来低小依据所测能力信息指向标准化程度规模水平测验语言理论一般语言水平将来？最高最大成绩测验教学内容不一定过去可以较高可以很大倾向测验认知理论学习潜能将来可以较高可以很大安置测验教学内容现有水平将来不高不大诊断测验教学内容现有水平过去-将来低小各类测验的特点常模参照性测试平均分、标准差、标准分、正态分布图常模参照和标准参照的区别

┏━━━━━━┳━━━━━━━━━━━━┳━━━━━━━━━━━━┓┃┃常模参照┃标准参照┃┣━━━━━━╋━━━━━━━━━━━━╋━━━━━━━━━━━━┫┃测验的性质┃一般语言能力或水平┃特定的语言点┃┠──────╂────────────╂────────────┨┃分数解释的┃相对的：某被试和其他┃绝对的：被试的成绩和┃┃性质┃被试比较┃预先制定的内容比较┃┠──────╂────────────╂────────────┨┃分数的分布┃以平均分为中心的正态┃不考虑分布┃┃┃分布┃┃┠──────╂────────────╂────────────┨┃测验的目的┃区分所有被试的能力┃看被试掌握了多少教学┃┃┃┃内容┃┠──────╂────────────╂────────────┨┃测验的内容┃被试不知道或很少知道┃被试完全知道┃┗━━━━━━┻━━━━━━━━━━━━┻━━━━━━━━━━━━┛

第3章信度什么是信度信度和效度的关系是什么信度的计算方法：CTS-理论，G-理论，IR-理论CTS-理论X＝Xt

＋Xeobservedscoretruescoreerror

观察分数真分数随机误差r=Xt/XCTS-理论真分数与误差分数平行试卷法CTS-理论

真分数与误差分数

Xt=X-Xe

在一次测量中，被试观察分数的方差等于其真分数方差与误差分数方差之和。

Sx2=St2+Se2CTS-理论

r=St2/Sx2Sx2=St2+Se2两边同除以Sx21=St2/Sx2+Se2/Sx2r=1-Se2/Sx2CTS-理论中的误差什么是误差误差的分类：1、随机误差2、系统误差3、抽样误差误差的来源（一）测验自身引起的误差主要来源于测验的编制过程，其中项目取样影响最大。（二）施测过程引起的误差1、测试环境2、测试时间3、主试因素4、意外干扰5、评分记分（三）测试对象引起的误差1、应试动机2、测验焦虑3、测验经验4、练习效应5、反应倾向6、生理变因真分数（一）含义真分数是指测量没有误差时所得到的真值。其操作定义是无数次测量结果的平均值。测量越多则越接近真分数，但无法消除系统误差。四、真分数及其假设经典测验理论假设：观察分数（记为X）与真分数（T）之间是一种线性关系，并相差一个随机误差（记为E）

X＝T＋Eobservedscoretruescoreerror

观察分数真分数随机误差

CTT的数学模型四、真分数及其假设

根据CTT模型，我们可以引申出3个相关联的假设公理：用平行的测验反复测量足够多此后，观察分数的平均值会接近真分数，或者说：随机误差的平均数是零

E（X）＝T，E（E）＝0。或X＝T，E＝0。四、真分数及其假设真分数与随机误差之间相关为0。ρ（T，E）＝0。各平行测验的误差分数之间无相关/零相关,ρ（E1，E2）＝0CTS-理论

平行试卷相关性和误差方差的计算信度类型由于误差的来源信度的可分为：这种分类是基于信度的传统定义-真分数理论。1）重测信度（再测信度）：考虑的误差来源是时间取样。2）复本信度(对等信度）：考虑的误差来源是内容取样。3)同质性信度（内部一致性系数）：考虑的是测验内容是否异质。分半信度：它考虑的误差来源也是内容取样，它与复本信度的差别是：分半信度考查一个测验内容的两半题目测量的是否是同一个心理特点行为。项目方差信度4）评分员信度：考虑的误差来源是评分者。G理论G理论几个基本概念：⑴测量目标，即测量所要描述和研究的那个心理特质；解决“测什么”的问题⑵测量侧面(facet)，是指影响测量过程和测量结果的各种内外在因素，一个测量侧面就是某一方面的测量条件；涉及到“怎么测”⑶测量情境则是由测量目标和测量侧面构成的。显然测量的侧面是测量误差的重要来源，它对测量的信度有重要的影响。项目回应理论常用来描述试题特性的主要参数是难易度指数(FacilityIndex)“b”,区分度指数（DiscriminationIndex）“a”，和猜测系数（GuessingCoefficient）“c”。Ir理论

Ir理论影响信度的因素1）试卷的长度。2）试卷的难度和方差。3）分数段的确定。4）系统性因素。5）考生能力差异。6）项目区分度和数量。7）测试时间的多少。第四章效度内容效度效标关联效度理论效度（构念效度、结构效度、实验效度；认知效度，weir2008）试后效度（测试的反拨作用）P=0P=1-1-2-301234-4P=0.41y=0.3891-P=0.59IICentralTendency2.1Mode2.2Median2.3Mean2.1Mode（众数）

一组数据中出现次数最多的数值例如：1，2，3，3，4的众数是3。例如：1，2，2，3，3，4的众数是2和3。还有，如果所有数据出现的次数都一样，那么这组数据没有众数。例如：1，2，3，4，5没有众数。2.2Median（中位数）中数是指位于一组数据中较大一半与较小一半中间位置的那个数。如果数据个数为奇数，则取序列为第(N+1)／2的那个数据为中数，如：4、7、8、9、10、11、12、13、14(N=9)(N+1)／2=5，序列第五的数据是10，则该组数据的中数是10。2.2Median（中位数）如果数据个数为偶数，则取序列中第N/2和N/2+1

这两个数的平均数为中数，如

2、3、5、7、8、10、15、19(N=8)

序列为N／2=4者是7，序列为N／2+1=5者为8，则其中数为(7+8)／2＝7.5。

中数不受极大值与极小值的影响，而决定中数的关键是居中的那几个数据的数值大小。2.3Mean（平均数）平均数是指在一组数据中所有数据之和再除以数据的个数。平均数容易受极端数据的影响。例如，院长和书记的工资。中位数和众数这两个统计量的特点都是能够避免极端数据，但缺点是没有完全利用数据所反映出来的信息。IIIDispersionHowscatteredthedataare.不知道一组数据的离散程度，只知道一组数据的集中趋势有时是误导的。如两个街区各有20个家庭，平均收入都是$20万街区1每个家庭与平均数的差异都很小街区2有3个家庭收入在$

100万，其他17个在$6万左右这时需要表示离散程度的数据来描述这组数字。IIIDispersion3.1Range3.2Variance3.3Standarddeviation3.1Range(全距）全距指一组数据中最高分与最低分之差。R=最大数-最小数全距大数据分布分散全距小数值分布相对集中缺点：两级有异常值时全距不可靠A：79797980818181B：5060708090100110RangeofA=81-79=2RangeofB=110-50=60测试的开发与设计BritishCouncilAssessment第二部分1、确定考试类别2、确定考试内容3、确定考试题型4、确定试卷结构5、制定考试细目表6、命题及编辑试卷

——编写试卷语言测试的总体设计第二部分考试目的不同，试卷的内容、要求也不一样。1、确定考试类别2、确定考试内容3、确定考试题型（1）根据测试目的选择题型（2）纵横结合，确定题型是否有效（3）考虑被试的能力范围（1）多项选择题（2）是非题、判断题（3）配对题语言测试的总体设计第二部分语言测试的总体设计第二部分语言测试的总体设计第二部分语言测试的总体设计第二部分语言测试的总体设计第二部分语言测试的总体设计4、确定试卷结构首先，要确定试卷各部分的比例；其次，是研究每一部分有多少题目才能保证测试起码的效度；第三，题目数确定了，还要看时间是否够。第二部分语言测试的总体设计5、制定考试细目表知识理解应用分析综合总计比重时间（分）语法10102012.520词汇202012.560阅读404025综合填空202012.520听力353521.930写作252515.630总计30751020251601001606、命题及编辑试卷整个命题过程包括选材、编写试题、审题等环节。命题原则：先出容易的题，后出现较难的题目；题型相同的题应放在一起；客观题在前，主观题在后。规模大、影响大的测试在正式实施前还要进行试测，以验证试卷有没有缺失，要不要作一些改动等。命题要求：效度、信度，注意试题的难度和区分度等。第二部分语言测试的总体设计第二部分语言测试的总体设计1.区分度：指一个题目对于鉴别被试的水平所起的作用有多大。（1）区分度指数（极端分组法）：27%D=（高分组答对此题人数-低分组答对此题人数）/高分组或低分组人数。例题：P326-327。D在-1―+1之间，一般要求在0.3左右。特点：简便；不够精确题目分析的方法难度的形成知识的综合程度试题的呈现形式试题提问的思维跨度有用信息的提取难度第二部分语言测试的总体设计试题的难易度第二部分语言测试的总体设计2.难易度：指某个题目的答对率，即答对某题目的被试占全部参加测试的被试的比例。

p=答对此题人数/总人数，范围应在0.2-0.8之间。

平均难易度（一个测试的各个题目的难易度相加，再除以题目的数量），宜在0.5左右。

特别要求：被试的同质性题目分析报表题目编号：IT98CR-107标准答案：A题目质量：不合格题目正文107.大学生们十分感动。A.激动B.感激C.震动D.感慨一年级组考生数：173难易度：0.1053区分度：0.0180选项人数平均分数双列相关点双列相关

A2620.810.02760.0180B9521.82-0.2921-0.2324C1916.260.41800.2493D3219.220.15280.1050E117.500.19070.0048报告人：XX考试中心报告日期：1998年X月X日题目的修改题目的修改题目分析报表题目编号：IT01CR1-107标准答案：A题目质量：合格题目正文107.大学生们十分感动。A.震撼B.可怜C.努力D.骄傲一年级组考生数：138难易度：0.5036区分度：0.3976选项人数平均分数双列相关点双列相关

A7021.630.49830.3976B518.600.07770.0317C3417.350.30690.2243D2817.360.28190.1976E117.000.67100.1648报告人：XX考试中心报告日期：2002年X月X日用语表达：注意准确规范试卷格式：注意整齐美观试题内容：注意科学无误知识点覆盖面广、重点突出难度、比例和区分度适宜设计的题目是否如实地反映出考试细目表中的内容和要求？题目的要求是否明白无误？试题前后是否有提示？题目的难度是否适中？题目的覆盖面是否够广？第二部分语言测试的总体设计第三部分语言测试质量评估第三部分语言测试质量评估第三部分1.信度2.效度3.真实性4.互动性

5.可行性

6.后效作用语言测试质量评估第三部分1.信度信度（reliability）指同一个卷面和难易程度相同的试题用于水平基本相同的测试对象，测试结果是否基本相同。阅卷员信度，阅卷员自身信度2.效度效度（validity）指测试的有效程度，也就是测试的内容和方法是否达到了测试目的。要求：该测的当测，不该测的尽量不涉及；是否有缺漏或出现偏题、怪题；代表性、准确度和覆盖面如何。类型：构念效度、内容效度、表面效度、预测效度，方法效度语言测试质量评估第三部分3.真实性

语言测试的真实性指目标语言使用任务特征(targetlanguageusetask)与测试任务特征(testtask)的一致程度。目标语言使用任务指通过测试所要预测的被试者在将来工作中为达到一定目的在特定场合用所学语言所进行的一系列活动。测试任务指能够考察、预测、判断被试者在将来工作中目标语言使用能力的最佳测试方式。语言测试质量评估第三部分交互性指被试者在完成一件测试任务(testtask)时所涉及到的个人特征类型(individualcharacteristics)及程度。与语言测试最有关的个人特征主要有：语言能力(languageability其中包括语言知识languageknowledge、策略能力strategiccompetence或称元认知策略metacognitivestrategies)话题知识(topicalknowledge)情感图式(affectiveschemata)4.互动性语言测试质量评估第三部分可行性主要指考试在现实的条件下能否行得通，即可操作性，主观愿

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

语言测试第一课

文档简介

温馨提示

最新文档

评论

语言测试第一课

文档简介

温馨提示

最新文档

评论

相关文档