教育统计与测量ppt课件.ppt_第1页
教育统计与测量ppt课件.ppt_第2页
教育统计与测量ppt课件.ppt_第3页
教育统计与测量ppt课件.ppt_第4页
教育统计与测量ppt课件.ppt_第5页
已阅读5页,还剩398页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

教育统计与测量 刘经兰 学前教育1101 1102 三教407 1 2节 周五双1 2节 教育统计与测量是一门应用性的学科 学习的过程也是应用的过程 从而提高本门课程的学习效果 更好实现课程的功能 准备的学习用具 统计功能的计算器 练习本两本 教育统计篇 教育测量篇 教育统计篇 第一讲教育统计绪论第一节教育统计学概述研究对象研究方法研究内容 研究对象 教育统计学 应用数理统计学的原理和方法研究教育问题 主要研究如何收集 整理 分析由教育调查和教育实验所获得的数据资料 并以此为依据进行科学推断 揭示教育现象所蕴涵的客观规律 研究方法 研究过程 三阶段 资料的收集 资料的整理 资料的分析 研究方法 调查 实验 全面调查 重点调查 典型调查 抽样调查 单组实验 等组实验 轮组实验 一组对象 若干处理 相同条件对象 不同处理 一组或多组对象 轮换处理 抽样调查 单纯随机抽样从调查总体中完全随机地抽取调查单位或个人 分层抽样将总体中每一个个体按照一定的规则分为不同的类型或层次 然后从各层次中按一定规则随机抽取若干样本 整群抽样是抽取的对象以整群为单位而不是以个体不单位的抽样方法机械抽样P4 随机数的产生 大小为N的总体中产生样本量为n的随机样本的一个常用的方法是利用随机数 randomnumber 利用随机数步骤为 1 把总体的所有个体编号 2 产生n个在0到N之间的随机数 3 与如此产生的随机数中的数目相同的个体则形成了样本量为n的简单随机样本 最原始的办法是掷一种正20面体的均匀材料制成的骰子 标有两套0到9的数字 每次产生一个0到9的数字 另一种是查阅随机数表 在一些传统的统计教科书后可以找到随机数表 也有专门的随机数表的册子 今天 多用计算机产生的伪随机数 pseudo randomnumber 来代替真正的随机数 研究内容 描述统计统计图表统计特征量推断统计正态分布总体均数的估计假设检验方差分析 描述统计 研究如何对客观现象的数量特征进行计量 观察 概括和表述 用表和图表示 计算特征量 如平均值 等 所论不超出已有数据 推断统计 统计推断 据数据所提供信息对数据所来自的总体 母体 的性质作推断 推断会有错误 误差 用概率论的术语和方法来描述和论证 误差的产生源于数据有误差 怎样尽可能减少推断的错误和误差 是统计推断的中心问题 描述统计与推断统计 目的描述数据特征找出数据的基本规律内容确定要研究的数量特征设计统计指标 说明这些数量特征的 搜集数据整理数据计算并显示指标数据 描述统计 描述统计的主要方法 描述统计方法 集中量数 描述集中趋势 差异量数 描述离散程度 相关系数 描述关系程度 偏态系数 峰态系数 特征值 单向次数分布表 双向次数分布表列联表 交叉表 统计图 次数分布图 如直方图 发展趋势折线图 相关散点图 描述数据的正态程度 目的 对总体特征作出推断 内容 推断统计 推断统计 参数估计 假设检验 点估计 区间估计 均数差异显著性检验 次数分布差异显著性检验 比例数差异显著性检验 变量间关系显著性检验 描述统计与推断统计的关系 反映客观现象的数据 描述统计 统计数据的搜集 整理 显示和分析等 图1 1统计学探索现象数量规律性的过程 第二节教育统计学的初步概念 被试数据与变量随机误差抽样与样本定性研究和定量研究统计量与参数 一 随机变量 二 总体 样本和个体 三 次数 频率和概率 四 误差 五 统计量与参数 六 定性研究与定量研究 一 随机变量 1 在相同条件下进行的实验或观察 其可能结果不止一个 事先无法确定 这类现象称为随机现象 具备以下三个条件 第一 一次试验有多种可能结果 其所有可能结果是已知的 第二 试验之前不能预料哪一种结果会出现 第三 在相同的条件可以重复试验 2 随机现象的每一种结果叫做一个随机事件 3 我们把能表示随机现象各种结果的变量称为随机变量 用X Y X1 X2 4 随机变量的分类 实验数据按由什么观测方法得来 可划分为两大类 一类是计数数据 是指计算个数的数据 一般属性的调查获得的是此类数据 它具有独立的分类单位 如人口数 学校数等等 一般都取整数的形式 另一类测量数据 是借助于一定的测量工具或一定的测量标准而获得的 如身高 体重 分数 各种感觉阈等等 4 随机变量的分类 测量数据按其是否等距和有无绝对零点 又可细分为下述四种测量水平 1 有相等单位又有绝对零点的数据称为比率变量 如身高 体重 反应时 各种感觉阈值的物理量 2 有相等单位但无绝对零点的数据 称为等距变量 如温度 各种能力分数 智商等 3 既无相等单位 也无绝对零点 仅表示顺序 不能指出其间的差别大小的数据 称为顺序变量 如等级评定 品质等级等等 4 既无相等单位 也无绝对零点 仅表示其名称的变量 称为称名变量 如名字 学号等等 4 随机变量的分类 测量数据按其是否具有连续性可划分为连续变量与离散变量 二 总体 样本和个体 总体是指具有某种特征的一类事物的全体又称母体 构成总体的每个基本单元称为个体 从总体中抽取一部分个体 称为总体的一个样本 三 次数 频率和概率 1 次数次数是指某一事件在某一类别中出现的数目 又称为频数 一般用符号f表示 2 频率又称相对次数 即某一事件的次数被总的事件数目除 亦即某一数据出现的次数被这一组数据数目的总数除 频率常用比例来表达 有时也用百分数表示 f N3 概率又称机率或然率 常用符号P表示 是指某事件在无限的观测中所能预料的相对出现的次数 概率常用比例表示 四 误差 测定的观测值与真值之差称为误差 误差可分为随机误差 系统误差和抽样误差三种类别 随机误差指由与研究目的无关的难以控制的偶然因素所引起的误差 系统误差指由与研究目的无关的因素所引起的有规律性的误差 抽样误差指由于抽样而产生的误差 抽样误差属于随机误差的范畴 由于它在统计中的重要地位 所以人们专门列条陈述 五 统计量与参数 统计量又称统计特征数 是根据科研实验所获得的一组观测值计算出来的一些量数 又称为样本统计量 参数又称总体参数 是指描述一个总体情况的一些统计指标 统计量和参数所用的名称基本相同 但符号是不一样的 六 定性研究与定量研究 定性研究是对教育的研究内容进行质的分析 通过分类选取典型例证的方式对信息重新组织和在描述性的基础上得出结论 定量研究是指对教育中所包含的信息采用一定的方法 技术进行量的分析 思考与练习题 1 何谓教育统计学 学习它有何意义 2 什么是随机变量 教育科学实验所获得的数据是否属于随机变量 3 怎样理解总体 样本与个体 4 何谓次数 频率及概率 5 统计量与参数之间有何区别和关系 6 下述一些数据 哪些是测量数据 哪些是计数数据 其数值意味什么 称名变量 顺序变量 等级变量 比率变量 1 17 0千克 2 89 85厘米 3 199 2秒 4 17人 5 25本 6 93 5分 6 35号 7 第一名 第二名 8 3 第二讲描述统计 第一节统计表与统计图第二节教育统计的特征量 第一节统计表与统计图 统计表构成 统计表一般由标题 表号 标目 表注等构成 表的标题 注脚 说明资料来源等XXX 统计表基本格式 编制统计表的要求 表的结构要简单明了 层次清楚 表的标题要简明扼要地 确切地反映表的内容 写在表的上端的中央位置 表的标目有横 纵标目之分 一般将统计表所要叙述的主要对象放在横标目上 而将用以叙述的统计指标在纵标目上 表内数据排列要整齐 小数点位置要对齐 缺数据格或无数据格要划斜线 表的标题 标目或数字有未尽之意的地方 应加脚注说明 表中资料的来源应在底线下加以注明 简单表 表2重庆2中各年高考录取人数 复合表 表2 4某高级中学各年级文理科男女学生人数 4 频数分布表 对于一组大小不同的数据划出等距的分组区间 称为组距 i 然后将数据按其数值大小列入各个相应的组别内 便可以出现一个有规律的表式 这种统计表又称之为次数分布表 编制次数分布表的步骤 1 求全距 全距指最大数与最小数之间的差距 2 决定组数与组距 组距是指每一组的间距 用符号i表示 3 列出分组区间 分组区间又称为分组阶段 列分组区间要注意以下几点 最高组区间内应能包含最大值的数据 最低组区间应能含最小值的数据 最高组或最低组的下限最好是组距的整数倍 分组区间可写为10一 20一 30一 40一等 但我们l必须明确 实际上各组的精确界限应是9 5一19 499 4 登记次数 依次将数据登记到各个相应的组别内 一般用划线记数或写正字的方法 5 计算次数 f 各组的次数计算好后 还要计算总和即总次数 一是为了以后计算的需要 二是为了核对各组总和与数据总数 N 是否相等 5 抄录新表 登记核实后 重新制表 5 累积频数分布表及累积百分比分布表 表一三 2 班30名学生语文 数学 英语期末考试成绩 三科成绩均服从正态分布 表二 三 2 班30名学生语文成绩频数分布表 课堂练习 三 2 班30名学生英语成绩频数分布表 利用计算机制表常用的计算机软件 Excel SPSS制表用Excel软件制表 二 统计图 一 统计图的功用所谓统计图就是依据数字资料 应用点 线 面 体 色彩导的描绘制成整齐而又规律 简明而又知其数量的图形 统计图一般采用直角坐标系 横坐标用来表示事物的组别或自变量X 纵坐标常用来表示事物出现的次数或因变量Y 二 统计图的结构与制图要点 图号及图题图目图形图注 三 统计图的种类 统计图可按形状 数字性质 图的用途等标志分为多种类别 教育统计中常用的统计图可按形状划分为直条图 直方图 曲线图 圆形图 散点图等等 统计图 由标题 图号标目 图注等项构成 单式条形图 第一节统计表与统计图 复式条形图 圆形图 饼图 圆形图 饼图 折线图 4 线条图 5 频数颁布直方图图 4中考化学统计成绩直方图 6 累积频数图图 52004年中考化学抽样得分情况累积频数图 102030405060708090100 图2 6 高一语文 7 面积图 三 2 班30名学生语文成绩简单直方图 折线图 累积次数直方图 累积次数曲线 表二 三 2 班30名学生语文成绩频数分布表 课堂练习 三 2 班数学和英语成绩的次数分布表 相对次数分布表 累积次数分布表和次数直方图 次数多边图和累积次数曲线 利用计算机制图常用的计算机软件 Excel SPSS制图用Excel软件制图 第二节教育统计的特征量 最常用的统计量有三类 一类是代表一组数据典型水平或集中趋势的量 即集中量 另一类是反映一组数据的变异程度或离散程度的量 即差异量第三类是反映数据的相关程度的量 即相关量 一 集中量 定义 代表一组数据典型水平或集中趋势的量 平均数算术平均数原始数据法 频数分布表法加权平均数原始数据法频数分布表法 集中量是代表一组数据典型水平或集中趋势的量 常用的集中量有平均数 中位数和众数 一 平均数 1 算术平均数2 加权平均数 1 算术平均数简称为平均数或均数 Mean 1 算术平均数 1 未分组数据平均数的计算方法 2 数据分组后计算平均数的方法 3 平均数特点 4 平均数的意义与应用 1 未分组数据平均数的计算方法 原始数据 当一组数据未进行统计分类时 若想描述其典型情况 找出其代表值 可计算算术平均数 公式为 公式中 Xi表示所有数据的和 即 Xi XI X2 XNN为数据的个数 例如 求某小组10个学生的数学测验分数78 79 62 84 90 71 76 83 98 77的平均数 表一三 2 班30名学生语文 数学 英语期末考试成绩 三科成绩均服从正态分布 2 数据分组后计算平均数的方法 频数分布表 公式为 表二 三 2 班30名学生语文成绩频数分布表 3 平均数的特点 在一组数据中 每一个数据加上一个常数C 则所得的平均数为原来的平均数加上常数C 即 在一组数据中 每一个数据乘上一个常数C 则所得的平均数为原来的平均数乘上常数C 即 离均差的和等于0 即 4 平均数的意义与应用 算术平均数具备一个良好的集中量数应具备的一些条件 反应灵敏 确定严密 简明易解 计算简单 符合代数方法进一步演算 较少受抽变动的影响 缺点 易受极端数据的影响 若出现模糊不清数据时 无法计算平均数 此外 必要注意 凡不同质的数据不能计算平均数 2 加权平均数 1 加权平均数的概念加权平均数是不同比重数据 平均数 W表示各观察值的权数 X表示具有不同比重的观察值 2 加权平均数的计算方法 例如 某年级各班的一次数学考试成绩如下 一班45人平均分为80 二班50人平均分为70 三班40人平均分为65 四班50人平均分为80 五班60人平均分为65 求全年级的总平均分 例2 某校初一共有3个班 某次语文测验中 一班50人均分为68 二班45人均分为75 三班40人均分为80 问全校初一语文的平均成绩 不能用 68 75 80 3 74 33 二 中位数 中数 又称中点数 中位数 符号为Md中数是指位于一组数据中较大一半与较小一半中间位置的那个数 中数的求法根据数据是否分组 而有不同的方法 一 未分组数据求中数的方法 例1 有下列9个数 依大小排列为4 7 8 9 10 11 12 13 14 N 9 N 1 2 5 序列第五的数据是10 则该组数据的中数是10 例2 有下列8个数 依大小排列为 2 3 5 7 8 10 15 19 N 8 序列为N 2 4者是7 序列为N 2 1 5者为8 则其中数为 7 8 2 7 5 从以上两例可以看出 求中数不受极大值与极小值的影响 而决定中数的关键是居中的那几个数据的数值大小 二 次数分布表求中数的方法 了解 其具体步骤如下 第一步求N 2 并找到N 2所在的分组区间 第二步求含有中数那一区间以下各区间的次数和记作Fb 第三步求N 2与Fb之差 第四步求序列为第N 2那一点的值 求中数的公式如下 表二 三 2 班30名学生语文成绩频数分布表 中数的意义与应用 优点 计算简单 容易理解 中数的概念简单明了 缺点 它反应不够表敏 计算中数时 受抽样的影响较大 不如平均数稳定 中数乘以总数与数据的总和不相等 中数不能作进一步代数运算等等 在一些特殊情况下 它的应用受到重视 这些特殊情况是 当一组观测结果中出现两极端数目时 当次数分布的两端数据或个别数据不清楚时 只能取中数作为集中趋势的代表值 当需要快速估计一组数据的代表值是 也常用中数 三 众数的概念与求法 众数 Mode 又称为范数 密集数 通常数等 常用符号M0表示 众数是指在次数分布中出现次数最多的那个数的数值 一 直接观察求众数 二 用公式法求众数 三 众数的意义与应用 一 直接观察求众数只凭观察找出出现次数最多的数据就是众数 5 8 9 8 4 3 8 1 8 4 二 用公式法求众数 1 皮尔逊的经验法 分数分布为正态分布 Mo 3Md 2M 2 金氏插补法 了解 式中Lb为含众数这一区间的精确下限 fa不高于众数所在组一个组距那一分组区间的次数 fb不低于众数所在组一个组距那一分组区间的次数 I为组距若fa fb 则Mo不次数最多那一区间的组中值 这个公式适合次数分布比较偏斜的情况 当然 比较接近正态分布的出适用 众数的意义与应用 众数的概念简单明了 容易理解 但它不稳定 受分组的影响 亦受样本变动的影响 反应不够灵敏 观察众数 不严格计算而来 用计算方法所得众数亦是一个估计值 同时不能作进一步代数运算 众数也不是一个优良的集中量数 应用也不广泛 但在下述情况下也常有应用 当需要快速而粗略地寻求一组数据的典型情况时 当一组数据出现同质的情况时 可用众数表示 3 当次数分布中有两极端的数目时 有时也用众数 一般用中数 当粗略估计次数分布的形态时 有时用平均数与众数之差 表示次数分布是否偏态的指标 平均数 中数 众数之间的关系 在一个正态分布中 平均数 中数 众数三者相等 因此在数轴上三点重合 在正偏态分布中M Md M 在负偏态分布中M Md M 平均数为一个平衡点 是一组数据的重心 它使数轴保持平衡 即支点两侧的力矩是相等的 中数 只使其两侧的数据个数相同 众数 是指次数出现最多的 即重量较大的那个数据 思考与练习题1 应用算术平均数表示集中趋势要注意什么问题 2 对于下列数据 使用何种集中量数表示集中趋势其代表性更好 并计算它们的值 1 4566729 2 345575 3 2356789 3 求下列次数分布的平均数 中数和众数 4 求下列四个年级的总平均成绩 第二节教育统计的特征量 二 差异量 代表一组数据离散程度 变异程度的量 一 全距 R 最大值与最小值之差 三 方差与标准差 方差 Varance 也称变异数 均方 作为统计量 常用符号S2 x2表示 作为总体参数 常用符号 2表示 标准差 Srandarddeviation 即方差的平方根 常用S或SD x表示 若用 表示 则是指总体的标准差 1 方差与标准差的计算 问题1 某班甲乙两组在一次测验中的成绩分别为65 68 71 72 74 均分为70分 和30 50 86 90 94 均分为70分 如何评价两组的学习情况 又如 某某研究者对实验班用计算机辅助教学 而对照班仍用传统的讲授方式进行教学 期末进行统一测试 两班学生的成绩如下 试比较两种授课方式产生的效果有何不同 总平均数 81 81 表1 30名学生英语成绩频数分布表 求平均数 标准差和方差 2 方差与标准差的意义 方差与标准差是表示一组数据离散程度的最好指标 其值越大 说明离散程度大 其值小 说明数据比较集中 它是统计描述与统计分析中最常应用的差异量数 它基本具备一个良好的差异量数应具备的条件 1 反应灵敏 2 有一定的计算公式严密确定 3 容易计算 4 适合代数运算 5 受抽样变动的影响小 即不同样本的标准差或方差比较稳定 6 简单明了 7 具有可加性 四 差异系数 当所观测的样本水平比较接近 而且是对同一个特质使用同一种测量工具进行测量时 要比较不同样本之间离散程度的大小 一般可直接比较标准差或方庆功的大小 标准差的单位与原数据的单位相同 有时称它为绝对差异量 差异系数 又称变异系数 相对标准差等 通常用符号CV表示 其计算公式如下 1 同一团体不同观测值的离散程度的比较 2 对于水平相差较大 但进行的是同一观测的各种团体 进行观测值离散程度的比较 例题 某校期末考试语文平均成绩为69 3分 标准差为11 2分 英语平均成绩为94 8 标准差为13 8分 问哪一学科离散程度大 例题 设某考区已录取高中学生语文平均分为69分 标准差为12 5分 而未录取高中的学生语文平均分为40分 标准差为12 5分 比较他们语文成绩的离散程度 CV1 12 5 69 100 18 12 CV2 12 5 40 100 31 25 未录取学生的离散程度大 某市区入学男童 7岁组 体重的平均值为20 37kg 标准差为2 16kg 身高的平均值为113 64cm 标准差为4 04cm 问身高与体重那个差异大 由公式 课堂练习 练习 1 分别用定义公式及原始数据计算3 5 8 9 10的方差和标准差 2 计算下列资料的方差和标准差 3 2002年测得我国17岁学生400M跑成绩 男学生平均数为92 5秒 标准差为6 72秒 女学生平均数为117 0秒 标准差为10 6秒 试比较17男女学生400M跑成绩的离散程度 第二节教育统计的特征量 相关量 用于描述两个或多个变量间关联程度的量 相关关系相关系数 用来描述两个变量相互之间变化方向及密切程度的数字特征量称为相关系数 积差相关等级相关点二列相关相关 数学与物理 物理与英语相关性比较 相关系数与相关程度表一览表 相关关系 正相关 相关关系 零相关 负相关 积差相关系数 积差相关两组 N 30 的正态 且呈线性关系的连续变量之间的相关 积差相关系数的定义公式 积差相关系数的定义 用原始数据计算 用特征量计算 例 P46back 等级相关系数 等级相关系数以等级次序排列或以等级次序表示的变量之间的相关Spearman二列等级相关 N不一定必须大于30 例 10个学生数学和物理成绩的等级相关分析 点二列相关 在来自总体的两个变量中 一个变量是连续变量 另一个变量是两分变量 男 女 对 错 及格 不及格 点二列相关研究这样两个变量之间的相关关系 相关系数 p q两类变量的平均值 连续变量的标准差 另一类别频数的比例 一类别频数的比例 例 某班期末语文考试 从全体考生中随机抽取15名学生的考试成绩 见下表 问该次考试成绩是否与性别有关 P48 例题 下表为某一测验中10名考生的卷面总分和一道选择题的得分 试求该选择题的区分度 与部分的相关 相关 两个变量都是二分变量 或者可以人为地分为二分变量时 使用相关分析其相关程度 例 从体育达标测验的学生中随机抽取60人 其中男 女达标情况见下表 问本次达标测验是否与性别有关 例题 从研究生入学考试中 随机抽取100人 其大学应届与历届毕业生录取情况如下表 问应届与历届大学毕业生同研究生录取与否的相关情况如何 0 23 练习 1 求以下几何 X 与代数 Y 的积差相关系数 2 校方寻某一个年级8位物理教师课堂教学效果所排列的名次 由低到高排 和这8个班级学生物理统一测验的平均分数如下表 问教师课堂教学效果与学生测验成绩是否存在相关 3 高等教育自学考试已婚与未婚学员的高等数学成绩如下表 问婚否与成绩是否存在相关 4 从研究生入学考试的学生中 随机抽取60人 其大学应届与历届毕业生录取情况如下表 问应届与历届大学毕业生同研究生录取与否的相关情况如何 1 第三节利用计算机求特征量 利用计算机求集中量利用计算机求差异量利用计算机求相关量 利用计算机求集中量 一 计算算术平均值 AVERAGE 步骤 建立Excel工作表 点击fx 选择常用函数或点击统计 选择AVERAGE 算术平均值 点击确定 点击数据组表格框 拖动表格 点击表格框 点击确定 例 利用计算机求集中量 二 计算中值 MEDIAN 步骤 建立Excel工作表 点击fx 选择常用函数或点击统计 选择MEDIAN 中值 点击确定 点击数据组表格框 拖动表格 点击表格框 点击确定 例 Back MODE 众数 的求法与MEDIAN的求法相似 利用计算机求标准差 步骤 建立Excel工作表 点击fx 选择常用函数或点击统计 选择STDEV 标准偏差 点击确定 点击数据组表格框 拖动表格 点击表格框 点击确定 例 back 利用Excel求积差相关系数 建立Excel工作表 点击fx 选择常用函数或点击统计 选择CORREL 积差相关系数 点击确定 点击数据组表格框 1 拖动所选数据表格 点击表格框 1 点击数据组表格框 2 拖动所选数据表格 点击表格框 2 点击确定 例 利用问卷收集数据 正态 负偏态 正偏态 第三讲推断统计 第一节正态分布第二节总体平均数的估计第三节几种常用统计检验方法第四节方差分析 概率 频率 随机事件A在n次试验中出现m次 m与n的比值就是随机事件A发生的频率 公式 P A m n概率 随着试验次数n的无限增大 随机事件A的频率稳定于一个常数P 这个P就是随机事件A出现的概率 可表示为 P A m n概率的性质 1 0 P A 1 2 不可能事件的概率等于零 即P v 0 3 必然事件的概率等于1 即P u 1 第一节正态分布和正态曲线 最为常见一种概率分布形态 在理论和实践中均有广泛的应用 一 密度函数简记特征 单峰 对称 标准正态分布 standardnormaldistribution 的两个参数为 0 1记为N 0 1 一般正态分布为一个分布族 N m s2 标准正态分布只有一个N 0 1 这样简化了应用 u 正态曲线 normalcurve 图形特点 钟型中间高两头低左右对称最高处对应于X轴的值就是均数曲线下面积为1标准差决定曲线的形状 正态分布的特征 1 正态分布的形式是对称的 但对称的不一定是正态分布 它的对称轴是过平均数点的垂线 正态分布中 平均数 中数 众数三者相等 此点y值最大 0 3989 2 正态分布的中央点 即平均数点 最高 然后逐渐向两侧下降 曲线的形式是先向内弯 然后向外弯 拐点位于正负1个标准差处 曲线两端向靠近基线处无限延伸 但终不能与基线相交 3 正态曲线下的面积为1 由于它在平均数处左右对称 故过平均数点的垂线将正态曲线下的面积划分为相等的两部分 即各为0 50 0 5 二 正态分布表的编制与使用 依据正态分布的密度函数 编制方法 从Z O开始 逐渐变化Z分数 计算从Z 0至某一定值之间的概率 z Y 正态表一般包括以下三栏 第一栏表明Z分数单位 在平均数这一点上Z 0 在平均数以上 即曲线右侧 Z分数为正值 在平均数以下 即曲线左侧 Z分数为负值 一般正态表上z分数列到3 99 更详细的列到5 00 第二栏为y 即密度函数或比率数 值 即某一Z分数点上的曲线纵坐标的高度 标准正态曲线下y 0 3989 它是Z 0 这一点上曲线纵坐标具有的最大值或说概率密度值 第三栏为概率值 常标以P 即不同z分数点与平均数之间的面积与总面积之比 一 依据Z分数求概率 即已知差度 Z 求面积 P 1 某Z分数值与平均数 Z 0 之间的概率 P 0 z 1 0 34134 p 1 z 0 P 0 z 2 0 47725 p 2 z 0 P 0 z 3 0 49865 p 3 z 0 2 求某Z分数以上或以下自概率 P z 3 0 5 0 49865 0 00135P z 1 0 5 0 34134 0 84134 3 求两个Z分数之间的概率 1夹中间面积为68 26 即P 1 Z 1 68 26 2夹中间面积为95 46 即P 2 Z 2 95 46 3夹中间面积为99 73 即P 3 Z 3 99 73 z1 二 从概率 P 求Z分数 即从面积求差度值 这种计算的查表方法有以下几种情况 1 从平均数开始的概率值已知 求Z值 p 0 z 1 0 34134P 0 z 2 0 47725P 0 z 3 0 49975 p 2 求两端概率的Z值 指已知位于正态分布两端的概率值求该概率值分界点的Z值 P z 1 645 0 05 Z 05 1 645P z 2 33 0 01 Z 01 2 33P z 1 645 0 05 P z 2 33 0 01 Z 3 若已知正态曲线下中央部分的概率 求Z分数是多少 中间面积为90 Z 1 2 1 645即P 1 645 Z 1 645 90 中间面积为95 Z 05 2 1 96即P 1 96 Z 1 96 95 中间面积为99 Z 01 2 2 58即P 2 58 Z 2 58 99 Z 三 求概率的密度Y 即正态曲线的高 不论已知概率 还是已知Z值 都可从表的第一或第三栏查对应的第二栏 所知的概率是位于正态曲线的中间部分 还是两尾端部分 这一点要注意区分 才能通过P值查表求得正确的概率密度Y Y 记住以下数据 1 夹中间面积为68 26 即P 1 Z 1 68 26 2 夹中间面积为95 46 即P 2 Z 2 95 46 3 夹中间面积为99 73 即P 3 Z 3 99 73 1 645 夹中间面积为90 即P 1 645 Z 1 645 90 1 96 夹中间面积为95 即P 1 96 Z 1 96 95 2 58 夹中间面积为99 即P 2 58 Z 2 58 99 三 正态分布在测验记分方面的应用 1 将原始分数转换成标准分数 2 确定录取分数线3 确定等级评定人数4 确定在正态分布下特定分数界限内的考生人数 1 将原始分数转换成标准分数 标准分数的优越性表现在三个方面 1 各种标准分数的单位是绝对等价的 因此 它具有可加性 2 标准分数值的大小和正负 可以反映某一考分在全体考分中所处的地位 因此 它具有可比性 3 标准分数可以作为舍弃异常数据的依据 如果Z的绝对值大于3 则可考虑舍弃这种原始数据 例 表一中是该班两同学的期末考试成绩 问 1 甲同学的语文和数学哪科相对较好 2 甲同学和乙同学相比 哪一个学业成绩较好 2 确定录取分数线由录取率可以确定录取分数线 具体步骤为 P0 0 5 P0 P Z X 例 某区拟对参加语文竞赛的1000人中前200人予以奖励 考试的平均分数为70 标准差为10 问授奖的分数线应是多少分 课堂练习 对参加语文测验的后50名同学进行课后辅导 问辅导的分数应是多少分 3 确定等级评定人数 假定为正态分布 例 如500名学生学生逻辑思维能力呈正态分布 拟将之分成A B C D E五个等距的等级 问各等级应有多少人 A B C D E P 6 5 1 2 1 求面积PA P 1 8 Z 0 5 0 46407 0 03593B P 0 6 Z 1 8 0 46407 0 22575 0 23832C P 0 6 Z 0 6 0 22575 2 0 4515D P 1 8 Z 0 6 0 23832E P 1 8 0 03593 2 求人数A 0 03593 500 17 965 18B 0 23832 500 119 16 119C 0 4515 500 225 75 226D B 119 16 119E A 17 965 18 课堂练习 如100名学生语文能力呈正态分布 拟将之分成优 良 中 差四个等距的等级 问各等级应有多少人 4 确定在正态分布下特定分数界限内的考生人数 例 某地区某年高一统一考试数学科考生4 7万人 平均分为57 08 标准差为18 04 试问 1 成绩在90分以上有多少人 2 成绩在80分到90分之间有多少人 3 成绩在60分以下有多少人 90 80 4 7万人 1 成绩在90分以上有多少人 2 成绩在80分到90分之间有多少人 练习 3 成绩在60分以下有多少人 练习四 1 求下列各组在正态曲线下的面积 1 Z 0 Z 1 2 2 Z 0 5 Z 2 8 3 Z 0 Z 1 4 4 Z 1 5 Z 1 8 5 Z 0 5 Z 1 8 6 Z 2 5 Z 0 82 某班36个学生 数学测验的平均分为80分 标准差为11 5 问在70 90分之间 从理论上来讲应有多少人 占全班的百分比是多少 3 运用标准分数比较甲 乙两个学生三门学科的总成绩 4 某区拟对参加数学竞赛的2000人中前500人予以奖励 考试的平均分数为75 标准差为9 问授奖的分数线应是多少分 5 500名学生逻辑思维能力呈正态分布 拟将之分成A B C D E五个等距的等级 问各等级应有多少人 第二节总体平均数的估计 一 抽样分布的概念抽样分布是指某种统计量的概率分布 二 平均数抽样分布的几个定理 一 从总体中随机抽出容量为n的一切可能样本的平均数的平均数等于总体的平均数 二 容量为n的平均数在抽样分布上的标准差等于总体标准差除以n的方根 三 从正态总体中 随机抽出容量为n的一切可能样本的平均数的分布也呈正态分布 四 虽然总体不呈正态分布 如果样本容量较大 n 30 反映总体平均数和标准差的样本平均数的抽样分布 也接近于正态分布 三 标准误某种统计量在抽样分布上的标准差称为该种统计量的标准误 四 t分布 当总体标准差 未知 而用估计量S来代替 这时一切可能样本平均数与总体平均数的离差统计量t呈t分布 一 t分布与正态分布的异同 二 自由度df 是指总体参数估计量中变量值独立自由变化的个数 自由度df等于样本容量减去限制因子的个数 t分布 T distribution t分布是统计分析中应用较多的一种随机变量函数的分布 是统计学者高赛特 Goeset 1908年在以笔名 Student 发表的一篇论文中推导的一种分布 一 t分布的意义与特点 当样本容量n 时 它是正态分布 当n 30以上时接近正态分布 当n 30时 此分布不接近正态分布 而是具有左右对称 高狭峰的分布 且分布形状随样本容量n 1的变化而变化的一族分布 这就是t分布 它的函数为df为自由度df n 1 T分布密度曲线图 t分布与 无关而与n 1 自由度 有关 t分布的自由度 符号v或df表示 一般为n 1 即样本容量减1 自由度 degreesoffreedom 是指任何变量中可以自由变化的数目 是t分布的参数v 因为v代表t分布中独立随机变量的数目 故曰自由度 t分布的特点可归纳如下 t分布的平均值为0 是对于平均值0对称的分布 分布左侧t为负值 分布右侧t为正值 t变量取值在一 一 之间 当样本容量趋于 时 t分布为正态分布 方差为1 而当n 1大于30以上时 t分布接近正态分布 方差大于1 随n 1之增大而方差渐趋于1 当n 1 30时 t分布与正态分布相差较大 随n 1减少 离散程度 方差 越大 分布中间部分低面分布的尾部较高 二 t分布表的使用 t分布的形态随自由度而变化 它有一族分布 附表2 p452 是常用的t分布表 该表左列为自由度 最上一行是指不同自由度下t分布两尾部端的概率 双侧界限 分别为0 5 0 4 0 3 0 2 0 1 0 05 0 01 0 00l等 这些概率是指某一t值时 t分布两尾部端概率的和 而表的最下一行标明的是单侧界限 即从某t值以下t分布尾部一端的概率 因而单侧概率是双侧概率的一半 表中所列的值为t值 它随自由度及概率不同而变化 t分布表的使用 不同统计学教材提供的t分布表可能不同 返回 例如df 20 最大t值的概率为0 05 双侧概率 t值为2 086 意思是在t小于2 086以下的概率与t大于2 086以上的概率和为0 05亦即该两部分尾端的面积和与总面积之比率为0 05 双侧概率常写作t 2上例t 05 2 2 086 单侧概率则只计算一侧尾部的概率 故单侧概率为双侧概率的一半 常写作t 上例则可写作t 025 2 086 以上是已知自由度及概率查t值 有时常常要根据已知的自由度与t值 查相应的概率 五 总体平均数的参数估计 根据样本统计量对相应总体参数所作的估计叫总体参数估计 分为点估计和区间估计 在这里只介绍总体平均数的区间估计 一 总体标准差 已知或总体标准差虽未知 但样本容量n 30的情况在这种情况下 一切可能样本平均数与总体平均数的离差统计量呈标准正态分布 总体平均数的区间估计 当1 95 则有 总体平均数的区间估计 当1 99 则有 例 已知母总体为正态分布 标准差为7 07 从这个总体中随机抽取n1 10的样本 计算平均数分别为78 试问总体参数u的 95和 99的置信区间 因为总体分布为正态 且总体方差已知 故进行z估计 练习 某中学二年级语文同一试卷测验分数历年来的标准差为10 6 现从今年测验中随机抽取40份试卷 算得平均分为72 试求平均数标准误 并求该校此次测验95 置信区间 总体平均数的区间估计 二 总体标准差 未知 且样本容量n 30的情况在这种情况下 一切可能样本平均数与总体平均数的离差统计量t呈t分布 总体平均数的区间估计 当1 95 则有 当1 99 则有 例 某班49人期末考试成绩为85分 标准差为6 假设此项反映学生的学习水平 试推论该班学生学习的真实成绩分数 练习 已知某校高二10名学生的物理测验分数为92 94 96 66 84 71 45 98 94 67 求此次测验全年级标准差的估计值 并估计全年级平均分数的95 置信区间 应用举例 学生成绩的初步分析 分数分布形态 注 1 各分数段的区间大小应根据实际需要确定 2 一般要求学生的成绩分布为正态或负偏态 练习五 1 某中学二年级语文同一试卷测验分数历年来的标准差为10 6 现从今年测验中随机抽取10份试卷 算得平均分为72 试求平均数标准误 并求该校此次测验95 置信区间 2 从某县高中一年级数学测验中抽52份卷子 算得平均分为71 4 标准差为11 3 求平均数标准误 并估计全县高一年级此次测验99 置信区间 3 已知某校高二10名学生的物理测验分数为92 94 96 66 84 71 45 98 94 67 求此次测验全年级标准差的估计值 并估计全年级平均分数的95 置信区间 作业 某县初中毕业班一次语文考试成绩服从正态分布 在全县范围内随机抽取试卷30张 成绩如下 81 72 71 54 74 74 68 76 90 50 55 68 94 58 84 69 82 70 69 74 83 90 75 44 56 68 78 84 72 64 估计全县总平均分在什么范围 第三节几种常用的统计检验方法 一 统计检验的意义二 假设检验的步骤三 统计检验方法 一 统计检验的意义 一 假设与假设检验假设一般专指用统计学术语对总体参数所做的假定性说明 假设检验 通过样本统计量得出的差异作出一般性结论 判断总体参数之间是否存在差异 这种推论过程称做假设检验 hypothesistesting 假设检验包括参数检验和非参数检验 参数检验 parametrictest 若进行假设检验时总体的分布形式已知 需要对总体的未知参数进行假设检验 非参数检验 non parametrictest 若对总体分布形式甚少 需要对未知分布函数的形式及其他特征进行假设检验 假设 原假设 虚无假设 零假设 无差假设 HO U U0科学假设 研究假设 备择假设 真实假设 期望假设 HI U U0它们之间是相互对立的 二 假设检验中的小概率原理 假设检验 依据样本分布的原理 用反证法进行推论 也即假设虚无假设成立 假设推断的依据就是小概率事件原理 假设检验中的 不合理现象 是指小概率事件在一次试验中发生了 它是基于人们在实践中广泛采用的小概率事件原理 该原理认为 小概率事件在一次试验中几乎是不可能发生的 通常情况下 将概率不超过0 05的事件当作 小概率事件 有时也定为概率不超过0 01或者0 001 三 假设检验中的两类错误 一个好的检验应该在样本容量n一定的情况下 使犯这两类错误的概率 和 都尽可能小 但 不能定得过低 否则会使 大为增加 在实验问题中 一般总是控制犯 型错误的概率 使成立时犯 型错误的的概率不超过 在这种原则下的统计假设问题检验问题称为显著性检验 significancetest 将犯 型错误的概率 称为显著性水平 三 单侧检验与双侧检验 这种只强调差异而不强调方向性的检验叫双侧检验 two sidedtest或者two tailedtest 这种强调某一方向的检验叫单侧检验 通常适用于检验某一参数是否 大于 或 优于 快于 及 小于 劣于 慢于 另一参数等一类问题 单侧检验与双侧检验有几点区别 1 问题的提法不同 双侧检验的提法是 和已知常数 0是否有显著性差异 单侧检验的提法是 是否显著地高于已知常数 0 2 建立假设的形式不同 双侧检验的原假设和备择假设为 H0 H1 单侧检验的原假设和备择假设为 H0 H1 或H0 H1 3 否定区域不同 双侧检验的否定区为 Z Z 2 而单侧检验查表得Z 二 假设检验的步骤 一 建立原假设与备择假设 双侧检验的原假设和备择假设为 H0 H1 单侧检验的原假设和备择假设为 H0 H1 或H0 H1 二 在H0成立的前提下 寻找和决定合适的统计量及其抽样分布 并计算出统计量的值 常用的抽样分布和标准正态分布 t分布和F分布等 对应的检验方法称为Z检验 t检验和F检验 三 选定显著性水平 查相应的分布表来确定临界值 从而确定出H0的拒绝区间或接受区间 四 对H0作出判断和解释 即把临界值与统计量值相比较 若统计量值勤落在H0拒绝区间中 则拒绝H0 若统计量值落在H0接受区间中 则接受H0 三 统计检验的方法 一 Z检验前提 原总体为正态 总体方差已知 可未知 但N 30 比较两个平均数的差异是否显著 用Z检验 1 单总体Z检验2 双总体Z检验 1 单总体Z检验 单总体Z检验是检验一个样本平均数与一个已知的总体平均数的差异是否显著 原总体为正态分布 方差 的已知 样本平均数的抽样分布为正态分布 例 全区统一考试数学平均分 62 标准差 0 10 2分 某校90名学生该次考试的平均成绩为68 问该校成绩与全区平均成绩差异是否显著 例 全区统一考试数学平均分 62 标准差 0 10 2分 某校90名学生该次考试的平均成绩为68 问该校成绩是否显著高于全区平均成绩 2 双总体Z检验 双总体Z检验是检验两个样本平均数各自代表的总体的差异是否显著 双总体Z检验主要适用于独立大样本平均数差异的显著性检验 当两个样本的容量都大于30的独立样本则称为独立的大样本 例 从某地区的六岁儿童中随机抽取男生30人 身高平均为114cm 抽取女生27人平均身高为112 5cm 根据以往资料 该地区六岁男童身高的标准差为5cm 女童身高的标准差为6 5cm 能否根据这一次抽样测量的结果下结论 该地区六岁男女儿童的身高有显著性差异 课堂练习 1 在参加了全国统一考试后 且已知考生成绩呈正态分布 在甲省抽取了153名考生 得到平均分为57 41分 且该省的总标准差为5 77分 在乙省抽取了686名考生 得到平均分为55 95分 该省的总标准差为5 17分 问两省在该次考试中 平均分是否有显著的差异 Z 2 88 2 T检验 总体分布为正态 当其方差未知时 样本平均数的抽样分布为t分布 t检验 1 单总体T检验 总体分布为正态 当其方差未知时 样本平均数的抽样分布为t分布 t检验 df n 1 例 学生的学习成绩与教师的教学方法有关 某校教师采用了一种他认为是新式有效的教学方法 经过一学年的教学后 从该教师所教班级中随机抽取了6名学生的考试成绩 分别为48 5 49 53 5 49 5 56 52 5 而在该学年考试中 全年级的总平均分为52 试分析采用这种教学方法与未采用新教学方法的学生成绩有无显著差异 已知考生成绩服从正态分布 在实际使用中 当n 30时 t分布常常被近似地按正态分布对待 这时检验近似的应用Z检验 但n 30时则必须用t检验 因此Z检验又叫大样本检验 t检验又叫小样本检验 但是 由于n 时t0 05 2才等于1 96 除此之外 一般t 总是大于Z 因此 在理论上 或实际应用要求严格时 中要总体为正态分布 总体方差已知 不论n 30还是n 30都应该用Z检验 而总体为正态分布 总体方差未知 即使n 30也没有必要近似的做用Z检验 应该t检验 课堂练习 某高校参加同专业的统一考试 随机抽查64份试卷 由此求得平均成绩为69分 标准差为9 5分 已知该科全体考生成绩服从正态分布 且总平均分为65分 问该高校考生的平均成绩是否显著地高于全体考生的平均水平 2 双总体T检验 检验两个样本平均数差异的问题 叫平均数差异的显著性检验 这种检验的目的在于由样本平均数之间的差异检验各自代表的两个总体之间的差异 相关样本 所谓相关样本 指两个样本的数据之间存在一一对应的关系 1 相关系数未知 例 对9个被试进行两种夹角 15度和30度的缪勒 莱依尔错觉实验结果如下 问两种夹角的情况下错觉量是否有显著差异 2 相关系数已知 对9个被试进行两种夹角 15度和30度的缪勒 莱依尔错觉实验结果如下 问两种夹角的情况下错觉量是否有显著差异 三 F检验 F分布的直观意义 设有两个正态分布的总体 其平均数与方差分别为 1 12及 2 22 自此二总体中分别随机抽取容量为n1及n2的样本 每个样本都可计算 2值 这样可得到无限多个 21与 22 每个 2随机变量各除以对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论