统计学概念和方法-第6章.ppt_第1页
统计学概念和方法-第6章.ppt_第2页
统计学概念和方法-第6章.ppt_第3页
统计学概念和方法-第6章.ppt_第4页
统计学概念和方法-第6章.ppt_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章 做出结论:估计,数学与信息科学学院 王 坤 TEL,统计学概念和方法,总体是由总体分布来刻画的。在实际问题中,我们需要通过样本来估计总体分布的类型和参数。这就是所谓统计推断研究的问题。 统计推断包括参数估计和假设检验。 例如,假设某城市人均年收入服从正态分布N(,2),但参数,2的具体取值并不知道,需要通过样本来估计。 根据样本来估计总体分布所包含的未知参数,称为参数估计。 参数估计的两种形式:点估计和区间估计。,统计推断,6.1样本统计量和总体参数,在统计中,我们把所研究对象的全体元素组成的集合称为母体或总体。母体中每一个元素称为个体。 总体依其 包含的个体总数分为有限总体和无限总体。 总体中抽取出来的一部分个体的集合称为子样或者样本。 统计量就是根据分布或数据计算出来的一个量。 常用的样本统计量是样本均值、样本百分比P和样本标准差s。通常用英文字母标记样本统计量。 总体参数通常包括总体均值、总体百分比和总体标准差。通常用希腊字母标记总体样本量。,6.2点估计,点估计是一个用来估计总体参数的数。 例如 假设你要研究平均一个大学生月消费情况,得到的结果有以下两种:“700元”或者“620元到800元之间”。这两种结果代表了估计总体参数的两种不同方式。最简单的是点估计,像“700元”这个结果就是一个点估计了。 “620元到800元之间”是一个区间估计。 常用的点估计方法有矩估计、极大似然估计等。,由于一个来自样本的特别的估计量绝不会精确地等于总体参数的真值,所以问某一个值是否为好的估计值是没有意义的,而可以问的是计算估计值的方法是不是一个好方法。 一个好的估计方法可以这样被定义:如果在无数个样本上应用该估计方法,得到的样本统计量估计值的均值等于总体参数的均值(无偏估计)。 一般说来,样本均值是总体均值的一个好的估计(无偏估计),比用样本中位数估计总体均值要好。,例 德军有多少坦克?,第二次世界大战期间,盟军非常想知道德军总共制造了多少辆坦克。德军制造坦克时是墨守成规的,他们把坦克从1开始进行了连续的编号。战争中,盟军缴获了一些敌军坦克,并记录了它们的生产编号。那么,怎样用这些坦克编号来估计坦克总数呢? 这里,总体参数是未知的生产出的坦克总数N,而缴获的坦克编号是样本。,方法1:先找到被缴获坦克编号的平均值,并认为这个值是全部编号的重点。因此样本均值乘以2就是总数的一个估计。这种估计N的缺点是不能保证均值的2倍一定大于记录中的最大编号。 方法2:用观测到的最大编号乘以因子1+1/n,其中n是被缴获坦克个数。例如,假设俘获了10辆坦克,其中最大编号是50,那么坦克总数的一个估计是(1+1/10)50=55。这种方法的确用于二战中。从战后发现的德军记录看,盟军的估计值非常接近所生产的坦克的真实值。 想一想,这个例子中,对战争、坦克的部署及俘获作了哪些假设? 这些坦克必须随机地分布于各个战场并随机地被俘获。,6.3区间估计,由于无法把握点估计与总体参数实际值之间的差距,为了解决这个问题,统计学家提出了区间估计。 区间估计又称置信区间,是用来估计参数的取值范围的。 一个总体参数的置信区间是用一个样本统计量加、减抽样误差得到的: 统计量-抽样误差 到 统计量+抽样误差 例如 假设在一群人中,相信中国产品质量好的人占58%,抽样误差为3%。则总体百分点的置信区间为: 58-3 到 58+3 如果在一次大选中某人的支持率为55%,而置信水平0.95上的置信区间是(50%,60%),那么他的真实支持率有百分之九十五的机率落在百分之五十和百分之六十之间,因此他的真实支持率不足一半的可能性小于百分之五。,因为统计学家有某种程度的信心认为这个区间会包含真正的固定的参数值,所以给它取名为置信区间。 如果我们收集了许多不同的样本,并对每个样本都构造了一个置信区间。这些置信区间有足够的宽度使他们中的95%包含了总体百分点的真值,而5%没包含,则95%这个值就称为置信水平。 如果用 某种方法构造的所有区间中有95%的区间包含真值,5%的区间不包含真值,那么这些用该方法构造的区间都叫做置信水平为95%的置信区间。,置信区间, 它由奈曼(Neymann)于1934年提出的 。,总体百分比的置信区间,从一个大的总体抽取一个由n个观测值组成的随机样本,并用P来标记样本百分比,那么总体百分比的一个95%置信区间为: 到 一个快速计算95%置信区间的近似方法是令P=50,同时四舍五入1.96到2,得到置信区间: 到 如果要把误差控制在3左右,那么要求样本含有1111个观测值。这就是为什么大多数问卷调查中样本要求1200个响应者的原因。,总体均值的置信区间,由n个独立的、服从正态分布的观测组成的一个样本,样本均值记为 ,样本标准差记为s。则总体均值的置信区间为: 这里t*=t(1-a)/2是t变量的一个值,a为置信水平。t*=t(1-a)/2可以从自由度为n-1的t分布的统计表中查到。 若总体的标准差是已知的,那么可以用去代替上述公式中的样本标准差s,同时用来自正态分布的z*代替t分布中的t*。于是置信区间为: 当z*=1.96时,它是一个95%的置信区间。,例 在一个大公司里的49名雇员的样本中,这些雇员一年中平均有7.0天在生病,其标准差为2.5天。 根据上述公式,我们可以得到雇员一年中平均生病天数的95%置信区间为: 这里t*=t0.025(48)=2.01,影响置信区间的因素,样本的观测值个数影响着置信区间的长度。大的样本产生较短的置信区间,小的样本产生较长的置信区间。 置信区间的长度还受置信水平的影响。低的置信水平(如90%)产生较短的区间,高的置信水平(如99%)产生较长的区间。 短的置信区间能比长的置信区间提供更多的有关总体参数的信息。,小结,样本统计量和总体参数 点估计 区间估计,思考与问题,统计推断的目的是什么? 通过样本来估计总体分布的类型和参数。 由样本计算出来的均值称为什么? 有一个无偏统计估计是什么意思? 对来自同一总体的许多不同样本分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论