概率统计(二).ppt_第1页
概率统计(二).ppt_第2页
概率统计(二).ppt_第3页
概率统计(二).ppt_第4页
概率统计(二).ppt_第5页
已阅读5页,还剩85页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

概率统计 二 参数估计与假设检验 任课教师 邢灵博Tel1 统计学分为两类 描述统计和推断统计 描述统计是通过图表或数学方法 对数据资料进行整理 分析 并对数据的分布状态 数字特征和随机变量之间关系进行估计和描述的方法 2 推断统计 根据样本所包含的信息来建立关于总体的种种结论 3 统计推断包括两类问题 统计估计和假设检验 4 参数估计 点估计和区间估计 1 总体 研究对象的全体 如一批灯泡 2 个体 组成总体的每个元素 如某个灯泡 3 总体的容量 总体中所包含的个体的个数 抛开实际背景 总体就是一堆数 这堆数中有大有小 有的出现机会多 有的出现的机会少 因此 用一个概率分布来描述和归纳总结总体是恰当的 从这个意义看 总体就是一个分布而其数量指标就是服从这个分布的随机变量 4 总体的随机样本 从总体中随机抽取的n个个体的集合 n称为样本容量 样本中的个体称为样品 随机样本具有所谓的两重性 一方面 由于样本是从总体中随机抽取的 抽取前无法预知它们的数值 因此 样本是随机变量 用大写字母X1 X2 Xn表示 另一方面 样本在抽取以后经观测就有确定的观测值 因此 样本又是一组数值 此时 用小写字母x1 x2 xn表示是恰当的 它们被称为是样本值 统计学分为两大类 描述统计和推断统计 一 描述统计 中位数 将一组数据按照大小顺序排列 如果数据的个数是奇数 则处于中间位置的一个数是这组数据的中位数 如果数据的个数是偶数 则处于中间位置的两个数椐的平均数就是这组数据的中位数 这组数据的中位数 例如 50060060060060065075080090020003000 中位数的作用和意义 中位数也是用来描述数据的集中趋势的 它是一个位置代表值 如果知道一组数据的中位数 那么可以知道 小于或大于这个中位数的数据约各占一半 频数频率分布表 样本数据的整理是统计研究的基础 整理数据的最常用方法之一是给出其频数分布或频率分布表 直方图 横坐标表示所关心变量的取值区间 纵坐标表示频数 这样就得到频数直方图 若把纵轴改成频率就得到频率直方图 练习 为研究某厂工人生产某种产品的能力 我们随机调查了20名工人某天生产的该种产品的数量 数据如下 使用SPSS软件对这20个数据 样本 进行整理 绘出频数直方图 定义 设 为取自总体X的样本 将其按大小顺序排序 则称X k 为第k个次序统计量 No kOrderStatistic 特别地 称 为最小顺序统计量 MinimumorderStatistic 称 为最大顺序统计量 MaximumorderStatistic 次序统计量 总体分位数与样本分位数 一 总体分位数 定义5 3 2 设总体X的分布函数为F x 满足 5 3 7 的x 称为X的 分位数 如下图所示 的几个的常用值如 0 0 25 0 05 0 1 0 9 0 95 0 975等等 二 样本分位数 定义 设 为取自总体X的次序统计量 称mp 为样本p分位数 Samplep Quantile 特别地 当p 时 称mp为样本中位数 五数概括与箱线图 次序统计量的应用之一就是五数概括与箱线图 在得到有序样本后 容易计算如下五个值 最小观测值xmin x 1 最大观测值xmax x n 第一4分位数Q1 m0 25中位数Q2 m0 5 第三4分位数Q3 m0 75 所谓五数概括就是指用这五个数来大致描述一批数据的轮廓 例 下表是某厂160名销售人员某月的销售量数据的有序样本 由该批数据可计算得到 五数概括的图形表示称为箱线图 由箱子和线段组成 下图是该例中样本数据的箱线图 其作法如下 下面就通过一个具体的实例说明之 表某厂160名销售员的月销售量的有序样本 1 画一个箱子 其两侧恰为第一4分位数和第三4分位数 在中位数位置上画一条竖线 它在箱子内 这个箱子包含了样本中50 的数据 图5 11月销售量数据的箱线图 2 在箱子左右两侧各引出一条水平线 分别至最小值和最大值为止 每条线段包含了样本中25 的数据 箱线图可用来对数据分布的形状进行大致的判断 图5 12给出三种常见的箱线图 分别对应对称分布 左偏分布和右偏分布 左斜的对称的右斜的 图5 12三种常见的箱线图及其对应的分布轮廓 如果我们要对几批数据进行比较 则可以在一张纸上同时画出这批数据的箱线图 下图是某厂20天生产的某种产品的直径数据画成的箱线图 从图中可以清楚地看出 第17天的产品出现了异常 二 统计量 常用统计量 1 样本均值 2 样本方差 偏差平方和 区间估计能够反映出估计的精度 三 区间估计 置信区间 今抽9件测量其长度 得数据如下 单位 mm 142 138 150 165 156 148 132 135 160 解 例 例某地一年级12名女大学生体重与肺活量的数据如下 见corr sav 问该地一年级女大学生的体重与肺活量的相关系数是多少 两者是否存在线性相关关系 正相关还是负相关 计算可以知道 该地12例的一年级女大学生的体重和肺活量之间呈正相关 相关系数是0 741 四 假设检验 但我们不能由此就判断该地的一年级女大学生的体重和肺活量之间呈正相关 相关系数是0 741 事实上 由于这12例只是总体中的一个样本 由此得到的相关系数会存在抽样误差 若总体相关系数 为零 由于抽样误差 从总体抽出的样本所计算出来的相关系数r可能不等于零 因此就要对r进行假设检验 判断r不等于零是由于抽样误差所致 还是两个变量之间确实存在相关关系 具体方法见相关分析 pdf 假设检验 hypothesistesting 是在样本的基础上对总体的某种结论作出判断的一种方法 它是统计推断的重要组成部分 分为参数假设检验和非参数假设检验 对总体分布中未知参数的假设检验称为参数假设检验 而对未知分布函数的类型或其某些特征提出的假设称为非参数假设检验 例某切割机在正常工作时 切割每段金属棒的平均长度为10 5cm 标准差是0 15cm 今从一批产品中随机的抽取15段进行测量 其结果如下 假定切割的长度X服从正态分布 且标准差没有变化 试问该机工作是否正常 数学期望 均值 方差 拒真概率 受伪概率 假设检验的步骤 例某切割机在正常工作时 切割每段金属棒的平均长度为10 5cm 标准差是0 15cm 今从一批产品中随机的抽取15段进行测量 其结果如下 假定切割的长度服从正态分布 且标准差没有变化 试问该机工作是否正常 解 即样本观测值落入接受域 接受原假设 这是方差已知的条件下的双边检验问题 使用z统计量 根据题目给出的数据 有z 例某地一年级12名女大学生体重与肺活量的数据如下 见corr sav 问该地一年级女大学生的体重与肺活量的相关系数是多少 两者是否存在线性相关关系 正相关还是负相关 本例使用SPSS判断的具体方法见相关分析 pdf 五 均值比较 统计分析常常采取抽样研究的方法 即从总体中随机抽取一定数量的样本进行研究来推断总体的特性 由于总体中的每个个体间均存在差异 即使严格遵守随机抽样原则也会由于多抽到一些数值较大或较小的个体致使样本统计量与总体参数之间有所不同 又由于实验者测量技术的差别或测量仪器精确程度的差别等等也会造成一定的偏差 使样本统计量与总体参数之间存在差异 由此可以得到这样的认识 均值不相等的两组样本不一定来自均值不同的总体 能否用样本均值估计总体均值 两个变量均值接近的样本是否来自均值相同的总体 换句话说 两组样本某变量均值不同 其差异是否具有统计意义 能否说明总体差异 这是各种研究工作中经常提出的问题 这就要进行均值比较 进行均值比较及检验的过程 MEANS过程 不同水平下 不同组 的描述统计量 如男女的平均工资 各工种的平均工资 目的在于比较 术语 水平数 指分类变量的值数 如sex变量有2个值 称为有两个水平 单元Cell 指因变量按分类变量值所分的组 水平组合Ttest过程 对样本进行T检验的过程单一样本的T检验 检验单个变量的均值是否与给定的常数之间存在差异 独立样本的T检验 检验两组不相关的样本是否来自具有相同均值的总体 均值是否相同 如男女的平均收入是否相同 是否有显著性差异 配对T检验 检验两组相关的样本是否来自具有相同均值的总体 前后比较 如训练效果 治疗效果 One WayANOVA 一元 单因素 方差分析 用于检验几个 三个或三个以上 独立的组 是否来自均值相同的总体 一 利用SPSS做单个样本的T检验 如果已知总体均数 进行样本均数与总体均数之间的差异显著性检验属于单一样本的T检验 在SPSS中 单一样本的T检验由 One SampleTTest 过程来完成 例 某厂生产的某种铝材的长度服从正态分布 其均值设定为240cm 现从该厂抽取5件产品 没得其长度的数据见 铝材长度 sav 试判断该厂此类铝材的升度是否满足设定要求 本例是方差未知时关于正态均值的双侧假设检验问题 原假设为H0 240 备择假设为 H1 在SPSS中执行Analyze CompareMeans One SampleTTest命令 打开对话框 将 铝材长度 变量选入testvariable s 对话框 在testvalue处输入240 并在options选项中确定置信水平 点击OK t值为 2 795 相伴概率 sig 为0 049 小于显著性水平0 05 说明产品的长度与设定均值有显著差异 认为该厂生产的铝材不满足设定要求 二 利用SPSS做独立样本的T检验 Independent SampleTTest过程 见 两独立样本T检验 pdf 对于相互独立的两个来自正态总体的样本 利用独立样本的T检验来检验这两个样本的均值和方差是否来源于同一总体 在SPSS中 独立样本的T检验由 Independent SampleTTest 过程来完成 例在某康健医院中测得有11例克山病患者与13名健康人的血磷值如下表所示 请问该地急性克山病患者与健康人的血磷值是否不相同 数据见 血磷值 sav 1 首先新建立变量 血磷值 和 group 对两种类型的人进行分组 1代表克山病患者 2代表健康人 2 使用SPSS进行检验 3 点选Definegroups 在Group1中输入表示第一组的 1 在Group2中输入表示第二组的 2 之后点 Continue 4 点选Options 输入置信度 OK 这里使用的置信度为95 显著性水平为0 05 5 得到结果 进行分析 这一部分为Levene s方差齐性检验 用于判断两总体方差是否具有方差齐性 其中F 0 032 相伴概率sig 为0 860大于显著性水平0 05 因此接受原假设 认为克山病患者与健康人的血磷值具有方差齐性 由于克山病患者与健康人的血磷值具有方差齐性 因此看输出结果的 Equalvariancesassumed 这一行对应的t值 可知t 2 524 自由度为22 相伴概率sig 为0 019小于显著性水平0 05 拒绝原假设 认为克山病患者与健康人的血磷值具有显著差异 6 再回到下表 进一步得到结论 从而最终的统计结论为按 0 05水准 认为克山病患者与健康人的血磷值不同 上表中样本均数来看 可认为克山病患者的血磷值较高 三 利用SPSS做配对样本T检验 Paired SamplesTTest过程 见 配对样本T检验 pdf 数据文件为pair sav 结果输出文件为 pair 配对样本T检验 分析结果 spo 四 利用SPSS做方差分析 One WayANOVA过程 方差分析是英国大统计学家费歇尔 R A Fisher 在20世纪20年代创立的 起初用于农田间试验结果的分析 随后迅速发展完善 被广泛应用于在工 农业生产 经济 管理领域 工程技术和科学研究中 方差分析是研究分类变量对数值型变量的影响 从形式上看 方差分析是比较多个总体均值是否相等 但本质上它所研究的是变量之间的关系 1 方差分析中的基本概念在实际问题中 影响一个数值型随机变量的因素一般会有很多 例如影响农作物产量的因素就有种子品种 肥料 雨水等 影响化工产品的产出率的因素可能有原料成分 剂量 催化剂 反应温度 机器设备和操作水平等等 为了找出影响结果 效果 最显著的因素 并指出它们在什么状态下对结果最有利 就要先做些试验 然后对测试的数据进行统计推断 方差分析就是对实测数据进行统计分析 鉴别各个因素对试验结果影响程度的方法 方差分析采用的方法是通过检验各总体的均值是否相等 来判断分类型自变量对数值型因变量 响应变量 是否有显著影响 由于检验各总体的均值是否相等的方法是通过计算分析观测数据的变差而实现的 所以称之为方差分析 当方差分析中只涉及一个分类型自变量时 称为单因素方差分析 当涉及两 多 个分类型自变量时称为双 多 因素方差分析 例1 某化肥生产商要检验三种新产品的效果 在同一地区选取18块大小相同 土质相近的农田中播种同样的种子 用等量的甲乙丙化肥各施于六块农田 试验结果每块农田的粮食产量如下所示 试根据试验数据推断甲乙丙三种化肥的肥效是否存在差异 单因素方差分析 本例中 只考虑化肥这一个因素 记为A 对粮食产量的影响 三种不同的化肥称为该因素的三个不同水平 分别记为A1 A2 A3 从表中数据看出 即使是施同一种化肥 由于随机因素 温度 湿度等 的影响 产量也不同 因而有 1 粮食产量是随机变量 是数值型的变量 2 把同一化肥 A的同一水平 得到的粮食产量看作同一总体抽得的样本 施用不同化肥得到的粮食产量视为不同总体下抽得的样本 表中数据应看成从三个总体X1 X2 X3中分别抽了容量为6的样本的观测值 推断甲乙丙三种化肥的肥效是否存在差异的问题 就是要辨别粮食产量之间的差异主要是由随机误差造成的 还是由不同化肥造成的 这一问题可归结为三个总体是否有相同分布的讨论 由于在实际中有充分的理由认为粮食产量服从正态分布 且在安排试验时 除所关心的因素 这里是化肥 外 其它试验条件总是尽可能做到一致 这使我们可以认为每个总体的方差相同即Xi N i 2 i 1 2 3因此 推断三个总体是否具有相同分布的问题就简化为 检验几个具有相同方差的正态总体均值是否相等的问题 即只需检验H0 1 2 3 象这类检验若干同方差的正态总体均值是否相等的一种统计分析方法称为方差分析 2单因素方差分析的数学模型进行单因素方差分析时 需要得到如表2所示的数据结构 表2单因素方差分析中数据结构 表中用A表示因素 A的m个取值称为m个水平分别用A1 A2 Am表示 每个水平对应一个总体 从不同水平 总体 中抽出的样本容量可以相同 也可以不同 若不同水平抽出的样本容量相同则称为均衡数据 否则称非均衡数据 设xij表示第i个总体的第j个观测值 j 1 2 ni i 1 2 m 由于 i 1 2 m单因素方差分析模型常可表示为 xij i ij 相互独立 1 i m 1 j ni 其中 i表示第i个总体的均值 ij为随机误差 ij N 0 2 各 ij相互独立 3 方差分析的方法对不同水平下均值是否相同的检验H0 1 2 m H1 1 2 m不全相等 下面简单介绍检验统计量及检验方法 以表示所有xij的总平均值 表示第i组数据的组内平均值 即其中n n1 n2 nm 统计量 称为总离差平方和 或简称总平方和 它反映了全部试验数据之间的差异 另外反映了每组数据均值和总平均值的误差 称为组间离差平方和 简称组间平方和 或称因素A平方和 反映了组内数据和组内平均的随机误差 称为组内离差平方和 或称为误差平方和 可以证明SST SSMA SSE构造检验统计量可以证明 在H0成立下 可以证明 对给定显著性水平 0 1 H0的拒绝域为 若由观测数据xij j 1 2 ni i 1 2 m 计算得到F的观测值为F0 当F0落入拒绝域时拒绝原假设H0 可以认为因素A对响应变量有显著影响 否则不能拒绝H0 认为因素A对响应变量无显著影响 另外 F统计量的P值为P P F F0 在显著水平 下 若P P F F0 则拒绝原假设H0 可以认为所考虑的因素对响应变量有显著影响 否则不能拒绝H0 认为所考虑的因素对响应变量无显著影响 通常将上述计算结果表示为方差分析表 利用方差分析表中的信息 就可以对因素各水平间的差异是否显著做出判断 实验1 利用SPSS对例1做方差分析 1 在SPSS中输入18块地的亩产量数据 并根据所施化肥进行分组 1表示 甲化肥 2表示 乙化肥 3表示 丙化肥 2 打开菜单 Analyze Comparemeans one WayANOVA 将 亩产量 选入DependentList 化肥 选入Factor 3 打开菜单PostHoc 指定一种多重比较检验方法和水准 PostHoc对话框 该对话框用于设置多重比较和配对比较 方差分析一旦确定各组均值间存在差异显著 多重比较检测可以求出均值相等的组 配对比较可找出和其它组均值有差异的组 并输出显著性水平为0 05 默认 的均值比较矩阵 在矩阵中用星号表示有差异的组 在 PostHoc 按钮对话框中分为EquarVariancesAssumed复选框组 一组当各组方差齐时可用的两两比较方法 共有14种 其中最常用的为LSD和S N K法注 1 LSD Least significantdifference 最小显著差数法 用t检验完成各组均值间的配对比较 对多重比较误差率不进行调整 2 S N K Student Newmnan Keuls 用StudentRange分布进行所有各组均值间的配对比较 在该比较过程中 各组均值从大到小按顺序排列 最先比较最末端的差异 在 PostHoc 按钮对话框中分为EquarVariancesNotAssumed复选框组 一组当各组方差不齐时可用的两两比较方法 共有4种 其中以Dunnetts sC法较常用 注 1 Tamhane sT2 t检验进行配对比较 2 Dun

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论