教育统计与测量的基础知识.ppt_第1页
教育统计与测量的基础知识.ppt_第2页
教育统计与测量的基础知识.ppt_第3页
教育统计与测量的基础知识.ppt_第4页
教育统计与测量的基础知识.ppt_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、教育统计与测量的基础知识,更多资源,第一节 教育统计基础知识,一、教育统计与测量概述,1. 什么是统计学 统计学是研究统计原理和方法的科学。具体地说,它是如何搜集、整理、分析反映事物总体信息的数字资料,并以此为依据,对总体特征进行推断的原理和方法。,(1) 数理统计:以概率论为基础,对统计数据数量关系的模式加以解释,对统计原理和方法给予数学的证明。 (2) 应用统计:统计原理在某个行业的具体应用。如工业统计学、教育统计学等。,2.统计学分类,3. 教育统计,教育统计是运用数理统计原理和方法,研究教育问题的一门应用科学。主要包括: 描述统计; 推断统计; 实验设计。,. 教育统计中几个名词,频数

2、:随机事件在n次试验中出现的次数,称这个随机事件的频数。 频数分布:各种随机事件在n次试验中出现的次数分布,称为频数分布。 离差:个体量和某一群体的平均量之差。,教育统计中几个名词,正态分布:是一种连续型随机变量的概率分布。 二项式分布中当 p=q时,且n很大时,二项式分布接近于正态分布,二、统计表,构成:统计表一般由标题、表号、标目、表注等构成。 编制基本原则:结构简明,一目了然。,统计表基本格式,表的标题 ? ? ?,注脚:说明资料来源等 X X X,表1 初三(1)班男女生数学成绩分布统计表,三. 统计图统计图由标题、图号标目、图注等项构成。,1. 直条图,2. 圆形图,3. 线条图,4

3、. 频数颁布直方图 图.4中考化学统计成绩直方图,5. 累积频数图图.5 2004年中考化学抽样得分情况累积频数图,10 20 30 40 50 60 70 80 90 100,图2.6:高一语文,四、集中量,1. 算术平均数( ) 所有观察值总和除以总频数之和所得商。,四、集中量,2. 加权平均数( ) 是不同比重数据(或平均数)的平均数 或. N表示各组的频数;X 表示各组的平均数。,例1:一个学生某门课期中考试成绩为72分,期末考试成绩为86分,而期考试占总成绩的40%,期末占60%,这个学生的学期总分是多少?,例2 :某校初一共有3个班,某次语文测验中,一班50人均分为68,二班45人

4、均分为75,三班40人均分为80,问全校初一语文的平均成绩? 不能用:(68+75+80)/3=74.33,正态分布图,偏正态分布,五、差异量,1. 全距(R) 一组数据中最大值和最小值之差表示,又称极差。 2. 标准差(或S) 标准差概念:标准差是指离差平方和后平均的方根。,问题1:,某班甲乙两组在一次测验中的成绩分别为65,68,71,72,74(均分为70分)和 30,50,86,90,94(均分为70分)。如何评价两组的学习情况?,方法一:根据定义式计算 方法二:根据原始数据计算 方法三:利用计算器计算 方法四:利用计算机计算,3.差异系数(变异系数),两个群体测量单位不同,或虽测量单

5、位相同,平均数相差很大时,不能用标准差比较他们离散程度,可利用差异系数。,问题2:某校期末考试语文平均成绩为69.3分,标准差为11.2分;英语平均成绩为94.8,标准差为13.8分。问哪一学科离散程度大?,问题3:设某考区已录取高中学生语文平均分为69分,标准差为12.5分,而未录取高中的学生语文平均分为40分,标准差为12.5分。比较他们语文成绩的离散程度。 CV1=12.5/69 *100%=18.12%; CV2=12.5/40 *100%=31.25%。 未录取学生的离散程度大。,问题4:下表中是某班甲乙两同学的期末考试成绩,问:(1)甲同学的语文和数学哪科相对较好? (2)甲同学和

6、乙同学相比,哪一个学业成绩较好?,六、标准分,(1)概念:标准分是将原始分数(测验分数)与平均分数相减,再除以标准差所得的商。 甲同学: z(语文)=(73-48.3)/ 3.9=1.8 z(数学)=(79-66.9) / 18.5=0.7,(2)标准分特点,标准分是以标准差为单位的,故称为标准分。它是一种相对地位分。 标准分有正负之分,一般在-3,3中(几率为99.74%) ,平均值为零。 标准分可比性根据在于标准正态分布。 T分数:T=100Z+500 (一般200T800),(3)标准分应用,比较各个学生成绩在班级中地位; 比较某个学生两科或多科测验中所得分的优劣,精确地计算学生的总成绩

7、。 确定等级评定的人数。,七、相关系数,相关:是指两个或两个以上变量之间存在相互依存关系。如数学课成绩与数学竞赛成绩、数学与物理成绩等。 正相关 负相关 零相关,相关系数:用来描述两个变量相互之间变化方向及密切程度的数字特征量称为相关系数。最常用的是积差相关系数。,数学与物理、物理与英语相关性比较,相关系数与相关程度表一览表表,八、差异显著性检验假设检验的基本原理,1.假设 虚无假设(零假设):是关于当前样本所属的总体(指参数)与假设总体(指参数)无区别的假设,一般H0表示。 备择假设(研究假设):是关于当前样本所属的总体(指参数)与假设总体(指参数)相反的假设,一般用H1表示。 由于直接检验

8、备择假设的真实性困难,假设检验一般都是从虚无假设出发,通过虚无假设的不真实性来证明备假设的真实性。,八、差异显著性检验,2. 小概率事 在随机事件中,概率很小的事件被称为小概率事件,习惯上约定在0.05以下,即当P(A) 5%时,则称A为小概率事件。在统计推断中认为,小概率事件在一次试验或观察中是不可能发生的。,八、差异显著性检验,3.显著性水平 两种水平 (1)=0.05,显著性水平为0.05,即统计推断时可能犯错误的概率5%,也就是在95%的可靠程度上进行检验; (2) =0.01,显著性水平为0.01,即统计推断时可能犯错误的概率1%,也就是在99%的可靠程度上进行检验。,八、差异显著性

9、检验,4.双样本Z检验 双样本均为大样本,N1、N2都大于30,并标准差相差不很大。(小于30要用t检验),八、差异显著性检验,例3:某校高一进行数学教改实验,若实验前两班的化学成绩无显著性差异,实验一段时间后的数学测验成绩,实验班51名为均分为62.37,标准差为13.65,对照班45名学生的均分为56.16,标准差为16.37,试进行差异性检验。,(1)提出假设 虚无假设H0:1=2(实验班和对照班样本来自同一个总体)。 备择假设H1:12 (实验班和对照班样本不是来自同一个总体)。 (2)选择统计量,计算其值 (3)确定显著水平=0.05。 (4)统计决断 |.0 1.96,则0.05,

10、拒绝零假设。实验班和对照的化学成绩存在显著差异,双侧检验统计决断规则,第二节 教育测量的质量特性,一个高质量的测验,它的结果是可靠而且是有效的; 可靠性(信度)和有效性(效度)是评价测验质量的两个重要指标。,一、教育测量的信度和效度,当一个测验多次测量的结果一致时,它就被认为是可靠的; 估计测量一致性程度的指标被称为信度。,如果在大体相同的条件下,几次测验都得到了大体相同的分数,那么这个测验的信度是较高的,反之,信度就低; 即如果被试的实得分数与真实分数差距小,则测验的分数越可靠,信度越高。 通常用信度系数衡量测验好坏: 一般能力与学籍测验的信度系数常在0.9以上; 性格、兴趣、态度等人格测验

11、常在0.8-0.85之间,有的认为0.7以上。,估计信度的方法,再测信度 复本信度 分半信度 内部一致性信度,试卷的信度,2i:每一道试题的方差; 2:全卷的方差; k试卷中试题的数目。,教育测量的效度,效度是测量的有效性,即一个测验对它所要测量的特性准确测量的程度。 效度不仅受随机误差的影响,还受系统误差的影响。,效度的类型,内容效度 构想效度 内部效度 统计结论效度 外部效度,内容效度,题目对欲测的内容或行为范围取样的适当程度,即是否充分代表了该范围内的基本知识和基本能力。 要具备好的内容效度要满足两个条件: 确定好内容范围; 测试题目具有该范围的代表性。,确定内容效度的方法,专家判断法

12、再测法,内容效度较适合评价教育成就测验和职业选拔测验; 缺乏可靠的数量指标,妨碍各测验间的相互比较。,构想效度,测验对理论上的构想或特质的测量程度; 即测验所提供的数据同理论假设的符合程度。,要获得较高的构想效度:,理论构思必须结构严谨,符合逻辑,层次分明,形成某种“构思网络”; 对研究的各种变量作出明确、严格的说明; 给变量下明确的操作定义,并制定相应的、客观的测量指标; 消除或控制影响构思效度的因素。,影响构思效度的因素,对构思缺乏明确的说明,概念解释模糊,逻辑关系不清; 单一方法和操作引起的偏差; 构思水平之间的混乱; 研究过程中主试的期望、被试因猜测而发生的心理与行为的改变,不同实验处

13、理的相互作用等。,内部效度,自变量与因变量之间存在一定关系的明确程度; 即所研究的两个或多个变量之间是否存在一定的关系?是否确实是自变量的变化引起了因变量的变化?,影响内部效度的因素:,成熟因素; 历史因素; 被试选择上的差异; 被试缺失产生的效应; 前测的影响; 实验程序不一致等,统计结论效度,检验研究结果的数据分析程序与方法的有效性的指标。 主要受数据的质量,统计的假设等因素影响。,研究的外部效度,研究结果能够一般化和普遍化到样本来自的总体和其他变量条件、时间和背景中去的程度,即研究结果的普遍性和代表性。,再测信度,用同一个测验,对同一组被试前后两次施测,两次测验分数的相关系数即得信度系数

14、。 满足的条件: 所测量的特性必须是稳定的; 遗忘与练习的效果相同; 两次施测期间被试的学习效果没有差别。,缺点 易受练习和记忆的影响; 优点 能提供测验结果是否随时间变化的资料,作为预测被试将来行为的依据; 适用于速度测验,不用用于难度测验。,复本信度,根据一组被试在两个等值测验上的得分计算的相关系数即为复本信度系数(肯德尔和谐系数)。 优点 可以在一定程度上避免再测法的缺点; 缺点 需要编制等值的两份问卷,比较困难。,分半信度,按照正常的程序实施测验,然后将全部试题分成相等的两半,被试组在这两半测验上的分数之间的相关系数即为信度系数。 通常采用奇偶分半法,得到半个测验的信度,求整个测验的信

15、度,需要校正。,当两半测验分数具有相同的平均数与标准差,用斯皮尔曼-布朗校正公式; 当两半测验分数具有不同的平均数与标准差,用卢伦校正公式;,优点 减少学生的疲劳、厌烦等因素的干扰 缺点 只能表示两半试题的等值程度,不能提供时间稳定性的信息。,内部一致性信度,即测验内部所有题目间的一致性,如果在一个测验中各道题得分有较大的正相关时,则测验是同质的; 也就是说该测验中所有的项目都测量相同的特质或程度略同的特质。 在李克特态度量表中常用的信度检验方法为Cronbach系数。,如果一个测验或量表,包含了数个小测验或构想层面,则每个小量表或构想层面的信度也要检验。 多数子测验或构想层面间的信度系数值会

16、低于总测验或总量表的信度系数值。,难度,难度指测题的难易程度。在教学测量中,通常用答对或通过测验的人数比例作为难度值。 P值越大,难度越低,P值越小,难度越高。一般来说,难度值平均在0.5最佳,难度值过高或过低,都会降低测验的信度。,在实际的评价过程中,测验的难度水平多高才合适,也还要取决于测验的目的。如果教师要对学生的知识准备状况进行一次诊断性测验,为了真实、准确地了解学生的知识掌握情况,测验难度大一点也是正常的。,难度() 试题的难易程度。P值越大,试题越容易。,0、1计分 ()P=R/N;(R:答对人数,N:被试总人数。) ()当被试较多时,将分数由高到低排序,可从高分和低分各取27%,形成高分组和低分组,然后以高分组的答对率和低分组的答对率(和)的平均数作为该题的难度。,(2)0、1计分多重选择题难度校正,k:每个测题可供选择的答案; P:未校正测题的难度; CP:校正测题难度。,3.非0、1计分(解答题),0.3,0.5,0.7,区分度,区分度有时也称鉴别力,它主要指测验对于不同水平的被试加以区分的能力。 题目对学业水平不同考生的鉴别程度。 它反映着测验与被试实际水平的相符合程度,如果在某道题上得分高就意味着学生的实际水平高,得分低就意味着实际水平低,那么该

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论