统计学基础PPT课件.ppt_第1页
统计学基础PPT课件.ppt_第2页
统计学基础PPT课件.ppt_第3页
统计学基础PPT课件.ppt_第4页
统计学基础PPT课件.ppt_第5页
已阅读5页,还剩105页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据分析 (方法与案例) 作者 贾俊平 统计学基础 第 4 章 抽样与参数估计 4.1 抽样与抽样分布 4.2 参数估计的基本方法 4.3 总体均值的区间估计 4.4 总体比例的的区间估计 4.5 样本容量的确定 4 - 3 统计学 基础 学习目标 l抽样方法与抽样分布 l估计量与估计值的概念 l点估计与区间估计的区别 l总体均值的区间估计方法 l总体比例的区间估计方法 l样本容量的确定方法 4 - 4 统计学 基础 统计应用 一次失败的民意调查 在1936年的美国总统选举前,一份名为Literary Digest 杂 志进行了一次民意调查。调查的焦点是谁将成为下一届总 统是挑战者,堪萨斯州州长Alf Landon,还是现任总统 Franklin Delano Roosevelt 为了解选民意向,民意调查专家们根据电话簿和车辆登记 簿上的名单给一大批人发了简单的调查表(电话和汽车在 1936年并不像现在那样普及,但是这些名单比较容易得到 )。尽管发出的调查表大约有一千万张,但收回的比例并不 高。在收回的调查表中, Alf Landon非常受欢迎。于是该 杂志预测 Landon 将赢得选举。但事实上是Franklin Roosevelt赢得了这次选举 调查失败的主要原因是抽样框出现了问题。在经济大萧条 时期由于电话和汽车并不普及,只是富裕阶层才会拥有, 调查有电话和汽车的人们,并不能够反映全体选民的观点 4 - 5 统计学 基础 参数估计在统计方法中的地位 参数估计假设检验 统计方法 描述统计推断统计 4.1 4.1 抽样与抽样分布抽样与抽样分布 4.1.1 4.1.1 概率抽样方法概率抽样方法 4.1.2 4.1.2 抽样分布抽样分布 第 4 章 抽样与参数估计 4.1.1 概率抽样方法 4.1 4.1 抽样与抽样分布抽样与抽样分布 4 - 8 统计学 基础 有关抽样的几个基本概念有关抽样的几个基本概念 1 1、全及总体、全及总体 全及总体又称总体或母体,是指研究对全及总体又称总体或母体,是指研究对 象的全体,它是由许多个性质相同的调查单象的全体,它是由许多个性质相同的调查单 位组成的,总体单位数通常用位组成的,总体单位数通常用N N表示表示 。 例如:全部职工、全部学生、全部产品例如:全部职工、全部学生、全部产品 4 - 9 统计学 基础 有关抽样的几个基本概念 2、抽样框 目标总体规定了理论上的抽样范围,但是进行 抽样的总体单位与目标总体有时是不一致的, 因而,在抽样之前,还必须明确实际进行抽样 的总体范围和抽样单位。 抽样框是指用以代表总体,并从中抽选样本的一 个框架。 目标总体与抽样框有时是一致的;多数情目标总体与抽样框有时是一致的;多数情 况下,目标总体的范围要率大于抽样框。况下,目标总体的范围要率大于抽样框。 4 - 10 统计学 基础 2、抽样框 抽样框的主要形式有三种: 名单抽样框:指可供抽取的所有抽样单位的名 录一览表 例如:某地区企业名录,某校在籍学生花名册等 。 区域抽样框:即按地理位置将实际进行抽样的 总体范围划分为若干小区域,以每个小区域为 抽样单位。 例如:调查不同地区的人均收入水平等。 有关抽样的几个基本概念 4 - 11 统计学 基础 时间表抽样框:把总体的时间过程划分为若干 个小的时间单位做为抽样单位。 例如:对流水线上24小时内生产的产品进行质量 抽 查时,以10分钟为一个抽样单位。 有关抽样的几个基本概念 对于抽样调查来说,样本的代表性如何,抽样调对于抽样调查来说,样本的代表性如何,抽样调 查最终推算的估计值真实性如何,首先取决于抽样框查最终推算的估计值真实性如何,首先取决于抽样框 的质量。抽样框在抽样调查中处于基础地位,是抽样的质量。抽样框在抽样调查中处于基础地位,是抽样 调查必不可少的部分,其对于推断总体具有相当大的调查必不可少的部分,其对于推断总体具有相当大的 影响。影响。 区域抽样框区域抽样框 在商场的大门口在商场的大门口 在微波炉柜台前在微波炉柜台前 在市区街道旁边在市区街道旁边 在某个住宅小区在某个住宅小区 中山路中山路 桥西区桥西区 桥东区桥东区 华北地区华北地区 东北地区东北地区 居民一组 居民一组 居民二组 居民二组 某外国公司在大连进行某外国公司在大连进行 微波炉市场调查:微波炉市场调查: 时间表抽样框时间表抽样框 连续出产的产品总体可以连续出产的产品总体可以 编制抽样框:编制抽样框:均匀的出产均匀的出产 时间、可以预见到的产品时间、可以预见到的产品 总量。总量。 连续到加油站加油的汽车连续到加油站加油的汽车 总体无法编制抽样框:总体无法编制抽样框:时时 间不定、总量也无法确定间不定、总量也无法确定 。 4 - 14 统计学 基础 3 3、样本总体、样本总体 样本总体,又叫子样,简称样本。它是样本总体,又叫子样,简称样本。它是 从全及总体中随机抽取出来,用来代表全及从全及总体中随机抽取出来,用来代表全及 总体的那部分单位构成的总体。样本总体的总体的那部分单位构成的总体。样本总体的 单位数用小写字母单位数用小写字母n n表示,称为表示,称为样本容量样本容量。 从某个城市职工家庭中随机抽取从某个城市职工家庭中随机抽取10001000户进户进 行调查,则这行调查,则这10001000户组成的小总体即为样户组成的小总体即为样 本,样本容量本,样本容量 n=1000n=1000。 例如:例如: 有关抽样的几个基本概念有关抽样的几个基本概念 4 - 15 统计学 基础 对于给定的研究对象,全及总体是唯一确定对于给定的研究对象,全及总体是唯一确定 的,而样本总体不是唯一的,它是随机的。的,而样本总体不是唯一的,它是随机的。 4 4、抽样比、抽样比 抽样比是指在抽选样本时,所抽取的样抽样比是指在抽选样本时,所抽取的样 本单位数本单位数n n与总体单位数与总体单位数N N之比。一般地讲,之比。一般地讲, n30n30为大样本,为大样本,n n3030为小样本。为小样本。研究社会研究社会 经济现象时,通常采用大样本进行抽样调查经济现象时,通常采用大样本进行抽样调查 。 有关抽样的几个基本概念有关抽样的几个基本概念 4 - 16 统计学 基础 概率抽样 (probability sampling) 也称随机抽样 特点 n按一定的概率以随机原则抽取样本 l抽取样本时使每个单位都有一定的 机会被抽中 n每个单位被抽中的概率是已知的, 或是可以计算出来的 n当用样本对总体目标量进行估计时 ,要考虑到每个样本单位被抽中的概率 4 - 17 统计学 基础 简单随机抽样 (simple random sampling) 从总体N个单位中随机地抽取n个单位作为样本 ,每个单位进入样本的概率是相等的 最基本的抽样方法,是其它抽样方法的基础 特点 n简单、直观,在抽样框完整时,可直接从中抽 取样本 n用样本统计量对目标量进行估计比较方便 局限性 n当N很大时,不易构造抽样框 n抽出的单位很分散,给实施调查增加了困难 n没有利用其它辅助信息以提高估计的效率 4 - 18 统计学 基础 1 1、重复抽样、重复抽样 重复抽样也叫重置抽样,是指每次抽取一个元重复抽样也叫重置抽样,是指每次抽取一个元 素后又放回,重新参加下一次的抽选,直到抽取素后又放回,重新参加下一次的抽选,直到抽取n n个个 元素为止。全及总体单位数始终保持不变,每个总元素为止。全及总体单位数始终保持不变,每个总 体单位都有被重复抽中的可能。体单位都有被重复抽中的可能。 n n重复抽样通常要考虑单位排列顺序,如电话号重复抽样通常要考虑单位排列顺序,如电话号 码中的码中的“8651”8651”和和“1568”1568”不同。不同。 其样本可能数目为其样本可能数目为 抽样方法和样本可能数目 4 - 19 统计学 基础 2 2、不重复抽样、不重复抽样 不重复抽样也叫不重置抽样,是指每次从总体不重复抽样也叫不重置抽样,是指每次从总体 中抽取一个元素后不再放回,从剩余的元素中抽取中抽取一个元素后不再放回,从剩余的元素中抽取 下一个元素,直到抽取下一个元素,直到抽取n n个元素为止。总体单位数在个元素为止。总体单位数在 不断减少,每个总体单位不可能被重复抽中。不断减少,每个总体单位不可能被重复抽中。 n n不重复抽样通常不考虑样本单位排列顺序,如不重复抽样通常不考虑样本单位排列顺序,如 篮球队的篮球队的5 5个队员按其号码个队员按其号码“1,2,3,4,5”1,2,3,4,5”排队和排队和 “5,4,3,2,1”5,4,3,2,1”排队是同一个队。排队是同一个队。 其样本可能数目为其样本可能数目为 抽样方法和样本可能数目 4 - 20 统计学 基础 分层抽样 (stratified sampling) 将抽样单位按某种特征或某种规则划分为 不同的层,然后从不同的层中独立、随机 地抽取样本 例如:在企业职工收入抽样调查中,可按经济类 型将职工分为全民企业职工、集体企业职工、 中外合资企业职工等若干类,然后在各类型企 业职工中分别抽取一定数目的职工构成样本。 4 - 21 统计学 基础 优点 n保证样本的结构与总体的结构比较相近 ,从而提高估计的精度 n可以按自然区域或行政区域进行分层, 组织实施调查方便 n既可以对总体参数进行估计,也可以对 各层的目标量进行估计 n适用于总体情况复杂、各单位之间差异 较大、单位较多的情况。 分层抽样 (stratified sampling) 等比例分层抽样 不考虑各组单位变异程度,从各组当 中按同一比例抽取样本单位 不等比例分层抽样 按各组单位变异程度大小来确定抽样 单位数的多少,变异度大的类型组多抽 一些,变异度小的少抽一些,不规定统 一的抽样比 分层抽样的分类分层抽样的分类 实际工作中,由于事先很难了解各组单位变异实际工作中,由于事先很难了解各组单位变异 程度,因此多采用等比例分层抽样方法程度,因此多采用等比例分层抽样方法 在分层抽样方式下,因为是每组都抽取在分层抽样方式下,因为是每组都抽取 样本单位,所以对于各组来说,可以看成全样本单位,所以对于各组来说,可以看成全 面调查,没有抽样误差。因此分层抽样方式面调查,没有抽样误差。因此分层抽样方式 下,组间方差不影响抽样误差,只有各组组下,组间方差不影响抽样误差,只有各组组 内方差影响抽样误差。内方差影响抽样误差。 对对对对于于给给给给定的定的总总总总体,方差(即体,方差(即总总总总方差)是一定方差)是一定 的,划分的,划分层时应层时应层时应层时应 尽量尽量增大增大层间层间层间层间 差异,差异,缩缩缩缩小小层层层层 内差异内差异。这这这这是分是分层层层层抽抽样样样样法成功的关法成功的关键键键键。 4 - 24 统计学 基础 系统抽样 (systematic sampling) 将总体中的所有单位(抽样单位)按一定顺序排列 ,在规定的范围内随机地抽取一个单位作为初 始单位,然后按事先规定好的规则确定其它样 本单位,也叫等距抽样或机械抽样。 n先从数字1到k之间随机抽取一个数字r 作为初始单位,以后依次取r+k,r+2k等 单位 优点:操作简便,样本分布均匀,可提高估计 的精度 缺点:对估计量方差的估计比较困难 4 - 25 统计学 基础 系统抽样按照排队时所依据的标志不同,可 分为按无关标志排队和按有关标志排队。 系统抽样 (systematic sampling) n n按无关标志排队,是指用来排队的标志与调查按无关标志排队,是指用来排队的标志与调查 研究的标志无关研究的标志无关 例如:研究工人的平均收入水平时,将工人按照例如:研究工人的平均收入水平时,将工人按照 姓氏笔画顺序排列;姓氏笔画顺序排列; 在产品连续生产过程中进行质量检查,每在产品连续生产过程中进行质量检查,每 隔一定时间抽取一次样品等隔一定时间抽取一次样品等 4 - 26 统计学 基础 n 按有关标志排队,是指用来排队的标志与调查 研究的数量有直接关系 例如:研究职工工资收入时按职工的职别排队; 农产品调查以往年的平均亩产作为排队标 志 系统抽样 (systematic sampling) 系统抽样一定是不重复抽样。按系统抽样一定是不重复抽样。按无关标志无关标志排队,其排队,其 抽样效果相当于简单随机抽样;按抽样效果相当于简单随机抽样;按有关标志有关标志排队,排队, 其抽样效果相当于分层抽样,其样本的代表性优于其抽样效果相当于分层抽样,其样本的代表性优于 无关标志排队的系统抽样。无关标志排队的系统抽样。 4 - 27 统计学 基础 系统抽样 (systematic sampling) 系统抽样的实施步骤系统抽样的实施步骤 按照某种顺序给总体中个体排列编号,然后按照某种顺序给总体中个体排列编号,然后 从某个随机位置开始每隔一定号数抽取一个从某个随机位置开始每隔一定号数抽取一个 个体,直至抽够。个体,直至抽够。 抽样间隔抽样间隔= =总体单位数总体单位数/ /样本单位数样本单位数 例如:要从例如:要从500500件产品中抽取件产品中抽取1010件,则间隔为件,则间隔为5050 4 - 28 统计学 基础 系统抽样 (systematic sampling) 注意:系统抽样的第一个样本单位位置确 定以后,其余样本单位的位置也就随之确 定了。因此,要避免由抽样间隔和现象本 身的周期性节奏相重合而引起的系统性影 响。 例如,农产品调查时,农作物的抽样间隔不宜 和垅的长度相等; 工业产品质量检查时,产品的抽样间隔不 要和上下班的时间相一致,以防止发生系统性 误差。 4 - 29 统计学 基础 整群抽样 (cluster sampling) 将总体中若干个单位合并为组(群),抽样时 直接抽取群,然后对中选群中的所有单位 全部实施调查 特点 n抽样时只需群的抽样框,可简化工作量 n调查的地点相对集中,节省调查费用, 方便调查的实施 n缺点是估计的精度较差 n在群间差异性不大或者不适宜单个地抽 选调查样本的情况下,可采用这种方式。 例如:对农民的人均收入进行调查,可以先将总 体分群,如农村的乡、村、组等,然后进行整 群抽样; 对某工厂生产线生产的产品进行质量调查, 在规定时间内,每隔24小时抽取1小时的全部产 品加以检查。 整群抽样是用整群抽样是用抽中群的统计量来估计总体参数抽中群的统计量来估计总体参数,如果,如果 所有各群的结构都相同或相近,则被抽中的群就能较所有各群的结构都相同或相近,则被抽中的群就能较 好地代表总体的所有群,抽样误差就会很小。所以整好地代表总体的所有群,抽样误差就会很小。所以整 群抽样的误差主要取决于群抽样的误差主要取决于群间方差群间方差的大小,而与的大小,而与群内群内 方差方差无关。这一特点刚好与分层抽样相反。无关。这一特点刚好与分层抽样相反。 4.1.2 抽样分布 4.1 4.1 抽样与抽样分布抽样与抽样分布 4 - 32 统计学 基础 抽样的数理基础抽样的数理基础 抽样调查抽样调查 数理基础数理基础 抽样分布抽样分布 大数定律大数定律 正态分布正态分布 中心极限定理中心极限定理 4 - 33 统计学 基础 抽样分布的形成过程 总体总体 计算样本统计 量 如:样本均值 、比例、方差 样样 本本 样本统计量的概率分布样本统计量的概率分布 4 - 34 统计学 基础 在重复选取容量为n的样本时,由每一个样本算 出的该统计量数值的相对频数分布或概率分布 是一种理论分布 样本统计量是随机变量 n样本均值, 样本比例,样本方差等 结果来自容量相同的所有可能样本 样本统计量为我们提供了长远稳定的信息,是 进行推断的理论基础,也是抽样推断科学性的 重要依据 抽样分布 (sampling distribution) 4 - 35 统计学 基础 容量相同的所有可能样本的样本均值的概 率分布 一种理论概率分布 进行推断总体总体均值的理论基础 样本均值的抽样分布 4 - 36 统计学 基础 样本均值的抽样分布 (例题分析) 【例例】设一个总体,设一个总体,含有含有4 4个元素个元素( (个体个体) ) ,即总体单位,即总体单位 数数N N= =4 4。4 4 个个体分别为个个体分别为x x 1 1 =1=1、x x 2 2 =2=2、x x 3 3 =3=3 、x x 4 4 =4=4 。 总体的均值、方差及分布如下总体的均值、方差及分布如下 总体分布总体分布 1 1 4 4 2 2 3 3 0 0 .1.1 .2.2 .3.3 均值和方差均值和方差 4 - 37 统计学 基础 样本均值的抽样分布 (例题分析) 现从总体中抽取现从总体中抽取n n2 2的简单随机样本,在重复抽的简单随机样本,在重复抽 样条件下,共有样条件下,共有4 4 2 2 =16=16个样本。所有样本的结果为个样本。所有样本的结果为 3,43,33,23,13 2,42,32,22,12 4,44,34,24,14 1,4 4 1,3 321 1,21,11 第二个观察值第一个 观察值 所有可能的n = 2 的样本(共16个) 4 - 38 统计学 基础 样本均值的抽样分布 (例题分析) 计算出各样本的均值,如下表。并给出样本均计算出各样本的均值,如下表。并给出样本均 值的抽样分布值的抽样分布 3. 5 3. 0 2. 5 2. 0 3 3. 0 2. 5 2. 0 1. 5 2 4. 0 3. 5 3. 0 2. 5 4 2. 5 4 2. 0 321 1. 5 1. 0 1 第二个观察值 第 一 个 观 察 值 16个样本的均值 (x) X X 样本均值的抽样分布样本均值的抽样分布 1.01.0 0 0 0.10.1 0.20.2 0.30.3 P P ( (X X ) ) 1.51.53.03.04.04.03.53.52.02.02.52.5 4 - 39 统计学 基础 样本均值的分布与总体分布的比较 (例题分析) = 2.5 = 2.5 2 2 =1.25 =1.25 总体分布总体分布样本均值分布样本均值分布 4 - 40 统计学 基础 大数定律大数定律 在对某一现象观察过程中,由大量相互在对某一现象观察过程中,由大量相互 独立的随机变量构成的总体,由于受偶然独立的随机变量构成的总体,由于受偶然 因素的影响,每次所得到的结果不同,但因素的影响,每次所得到的结果不同,但 经过大量观察并加以综合平均后,消除了经过大量观察并加以综合平均后,消除了 偶然因素引起的差异,而接近于总体的平偶然因素引起的差异,而接近于总体的平 均值,使现象总体某一方面的均值,使现象总体某一方面的规律规律在数量在数量 上、质量上显示出来。上、质量上显示出来。 例如:抛硬币实验例如:抛硬币实验 通常以平均数或比通常以平均数或比 例的形式表现例的形式表现 1.1.独立同分布大数定律独立同分布大数定律(说明平均数具有稳定性)(说明平均数具有稳定性) 独立同分布的随机变量:独立同分布的随机变量: , 设它们的平均数为设它们的平均数为 ,方差为,方差为 ,则对任意小,则对任意小 的正数的正数 ,有:有: 2.2.贝努力大数定律贝努力大数定律(说明比例具有稳定性)(说明比例具有稳定性) 设设mm是是n n次独立随机试验中事件次独立随机试验中事件A A发生的次数,发生的次数, p p是事件是事件A A发生的概率,则对于任意小的发生的概率,则对于任意小的 正数正数 ,有,有 4 - 42 统计学 基础 大数定理从理论上揭示了样本和总体之大数定理从理论上揭示了样本和总体之 间的内在联系,即随着抽样单位数间的内在联系,即随着抽样单位数n n的增大的增大 ,样本平均数有接近总体平均数的趋势,样,样本平均数有接近总体平均数的趋势,样 本成数有接近总体成数的趋势。本成数有接近总体成数的趋势。 注意:注意: 第一、抽样必须遵循随机原则。第一、抽样必须遵循随机原则。 第二、抽样必须遵循大量原则。第二、抽样必须遵循大量原则。 大数定律大数定律 4 - 43 统计学 基础 正态分布 正态分布在抽样理论中占有非常重要的地位: n 大千世界中许多常见的随机现象服从或近似服 从正态分布,如测量误差,同龄男性的身高、 体重、智商和肺活量,设备使用寿命,一定条 件下某种农作物的产量等。它们的共同特点是 中间多两端小,即离均值越近的数值越常见; 反之,离均值越远的数值越少见。 n 由于正态分布特有的数学性质,使之成为许多 概率分布的极限分布,其他一些分布的概率可 由正态分布来近似计算,如当试验次数n很大时 ,二项分布可用正态分布来近似。 4 - 44 统计学 基础 例如:人类的身高、产品的寿命、加工零件的例如:人类的身高、产品的寿命、加工零件的 尺寸等。尺寸等。 正态分布基本指这样的分布:正态分布基本指这样的分布:在总体平在总体平 均数及其附近,总体单位数最多;相反地均数及其附近,总体单位数最多;相反地 ,越远离总体平均数,总体单位数越少。,越远离总体平均数,总体单位数越少。 也就是说,越也就是说,越接近接近总体平均数的变量值出总体平均数的变量值出 现的次数越多,现的次数越多,概率也就越大概率也就越大;反之,越;反之,越 远离远离总体平均数的变量值出现的次数就越总体平均数的变量值出现的次数就越 少,少,概率也就越小概率也就越小。 正态分布正态分布 4 - 45 统计学 基础 1 1、正态分布是钟型对称分布,对称线为总体正态分布是钟型对称分布,对称线为总体 平均数,整个曲线下的面积等于平均数,整个曲线下的面积等于1 1。总体平均。总体平均 数将分布曲线截为两段互为镜像的曲线,两段数将分布曲线截为两段互为镜像的曲线,两段 曲线下的面积相等,各为曲线下的面积相等,各为1/21/2。 正态分布的特征正态分布的特征 4 - 46 统计学 基础 2 2、在总体平均数处,正态分布的概率密度最、在总体平均数处,正态分布的概率密度最 大,当远离总体平均数时,概率密度的值随着大,当远离总体平均数时,概率密度的值随着 距离的增加而递减。距离的增加而递减。 X X f(xf(x) ) 正态分布的特征正态分布的特征 4 - 47 统计学 基础 3 3、在距离总体平均数一个标准差的位置上、在距离总体平均数一个标准差的位置上 ,即,即 时,曲线有两个拐点。时,曲线有两个拐点。 正态分布的特征正态分布的特征 4 - 48 统计学 基础 4 4、正态分布的位置及形状由总体平均数和、正态分布的位置及形状由总体平均数和 总体标准差决定,总体平均数决定正态分布总体标准差决定,总体平均数决定正态分布 中心的位置;中心的位置; 正态分布的特征正态分布的特征 4 - 49 统计学 基础 4 4、总体标准差决定正态分布的宽窄的形状。、总体标准差决定正态分布的宽窄的形状。 0 0 正态分布的特征正态分布的特征 标准正态分布 4 - 50 统计学 基础 当被抽样总体服从正态分布时,样本平当被抽样总体服从正态分布时,样本平 均数的抽样分布具有下列重要性质:均数的抽样分布具有下列重要性质: qq样本平均数的分布仍然是正态分布;样本平均数的分布仍然是正态分布; qq样本平均数分布的平均值等于总体平均数;样本平均数分布的平均值等于总体平均数; qq样本平均数分布的方差等于总体方差除以样样本平均数分布的方差等于总体方差除以样 本容量。本容量。 正态分布的特征正态分布的特征 4 - 51 统计学 基础 样本均值的抽样分布 与中心极限定理 = 50= 50 =10=10 X X 总体分布总体分布 n n = 4 = 4 抽样分布抽样分布 X n n =16 =16 当总体服从正态分布当总体服从正态分布N N( , , 2 2 ) )时,来自该总体的所有时,来自该总体的所有 容量为容量为n n的样本的均值的样本的均值 X X也服从正态分布,也服从正态分布, X X 的数的数 学期望为学期望为 ,方差为方差为 2 2 / /n n。即即 X XN N( ( , , 2 2 / /n n) ) 4 - 52 统计学 基础 中心极限定理 (central limit theorem) 当当样本容量足够样本容量足够 大时大时( (n n 30) 30) , 样本均值的抽样样本均值的抽样 分布逐渐趋于正分布逐渐趋于正 态分布态分布 中心极限定理:中心极限定理:设从均值为设从均值为 ,方差为方差为 2 2 的一个任意总的一个任意总 体中抽取容量为体中抽取容量为n n的样本,当的样本,当n n充分大时,样本均值的抽充分大时,样本均值的抽 样分布近似服从均值为样分布近似服从均值为 、方差为方差为 2 2 / /n n的正态分布的正态分布 一个任意分一个任意分 布的总体布的总体 X X 4 - 53 统计学 基础 中心极限定理 (central limit theorem) x x 的分布趋的分布趋 于正态分布于正态分布 的过程的过程 4 - 54 统计学 基础 抽样分布与总体分布的关系 总体分布总体分布 正态分布非正态分布 大样本大样本小样本小样本 样本均值 正态分布 样本均值 正态分布 样本均值 非正态分布 4 - 55 统计学 基础 样本均值的抽样分布 (数学期望与方差) 样本均值的数学期 望 样本均值的方差 n重复抽样 n不重复抽样 不重复抽样不重复抽样 的修正系数的修正系数 4 - 56 统计学 基础 总体(或样本)中具有某种属性的单位与全部单位 总数之比 n不同性别的人与全部人数之比 n合格品(或不合格品) 与全部产品总数之比 总体比例可表示为 样本比例可表示为 样本比例的抽样分布 (比例proportion) 4 - 57 统计学 基础 容量相同的所有可能样本的样本比例的概 率分布 当样本容量很大时,样本比例的抽样分布 可用正态分布近似 一种理论概率分布 推断总体比例的理论基础 样本比例的抽样分布 4 - 58 统计学 基础 样本比例的数学期望 样本比例的方差 n重复抽样 n不重复抽样 样本比例的抽样分布 (数学期望与方差) 不重复抽样不重复抽样 的修正系数的修正系数 4 - 59 统计学 基础 统计量的的标准误 样本统计量的抽样分布的标准差,称为 统计量的标准误,有时也称为标准误差 n 标准误衡量的是统计量的离散程度,它测度 了用样本统计量来估计总体参数的精确程度 4 - 60 统计学 基础 均值的标准误 所有可能的样本均值的标准差,测度所 有样本均值的离散程度 计算公式为 (总体方差已知)(总体方差已知)(总体方差未知)(总体方差未知) 4.2 4.2 参数估计的基本原理参数估计的基本原理 4.2.1 4.2.1 估计量与估计值估计量与估计值 4.2.2 4.2.2 点估计与区间估计点估计与区间估计 第 4 章 抽样与参数估计 4.2.1 估计量与估计值 4.2 4.2 参数估计的基本原理参数估计的基本原理 4 - 63 统计学 基础 参数估计(parameter estimation)就是用样本统 计量去估计总体的参数 估计量:用于估计总体参数的统计量的名称 n如样本均值,样本比例,样本方差等 n例如: 样本均值就是总体均值 的一个估计量 参数用 表示,估计量用 表示 估计值:估计参数时计算出来的统计量的具体值 n如果样本均值 x =80,则80就是 的估计值 估计量与估计值 (estimator & estimated value) 4.2.2 点估计与区间估计 4.2 4.2 参数估计的基本原理参数估计的基本原理 4 - 65 统计学 基础 点估计 (point estimate) 用样本的估计量的某个取值直接作为总体参 数的估计值 例如:用样本均值直接作为总体均值的估 计;用两个样本均值之差直接作为总体均值之差 的估计 无法给出估计值接近总体参数程度的信息 n由于样本是随机的,抽出一个具体的样本 得到的估计值很可能不同于总体真值 n一个点估计量的可靠性是由它的抽样标准 误差来衡量的,这表明一个具体的点估计值无法 给出估计的可靠性的度量 n可在对总体指标准确性要求不高时使用。 4 - 66 统计学 基础 区间估计 (interval estimate) 在点估计的基础上,给出总体参数估计的一个估计 区间,该区间由样本统计量加减估计误差而得到 根据样本统计量的抽样分布能够对样本统计量与总 体参数的接近程度给出一个概率度量 n比如,某班级平均分数在7585之间,置信水平是 95% 样本统计量样本统计量 ( (点估计点估计) ) 置信区间置信区间 置信下限置信下限置信上限置信上限 4 - 67 统计学 基础 区间估计的图示 x x 95% 95% 的样本的样本 -1.96 -1.96 x x +1.96+1.96 x x 99% 99% 的样本的样本 - 2.58- 2.58 x x +2.58+2.58 x x 90%90%的样本的样本 -1.65 -1.65 x x +1.65+1.65 x x 4 - 68 统计学 基础 将构造置信区间的步骤重复很多次,置 信区间包含总体参数真值的次数所占的 比例,也称置信度 表示为 (1 - n为是总体参数未在区间内的比例 常用的置信水平值有 99%, 95%, 90% n相应的 为0.01,0.05,0.10 置信水平 (confidence level) 4 - 69 统计学 基础 置信区间与置信水平的关系 均值的抽样分布均值的抽样分布 (1 - (1 - ) % ) % 区间包含了区间包含了 % % 的区间未包含的区间未包含 1 1 / / 2 2 / / 2 2 4 - 70 统计学 基础 由样本估计量构造出的总体参数在一定置信水平 下的估计区间 统计学家在某种程度上确信这个区间会包含真正 的总体参数,所以给它取名为置信区间 如果用某种方法构造的所有区间中有95%的区间 包含总体参数的真值,5%的区间不包含总体参数 的真值,那么,用该方法构造的区间称为置信水 平为95%的置信区间。同样,其他置信水平的区 间也可以用类似的方式进行表述 置信区间的表述 (confidence interval) 4 - 71 统计学 基础 总体参数的真值是固定的,而用样本构造的区 间则是不固定的,因此置信区间是一个随机区 间,它会因样本的不同而变化,而且不是所有 的区间都包含总体参数 实际估计时往往只抽取一个样本,此时所构造 的是与该样本相联系的一定置信水平(比如95%) 下的置信区间。我们只能希望这个区间是大量 包含总体参数真值的区间中的一个,但它也可 能是少数几个不包含参数真值的区间中的一个 置信区间的表述 (confidence interval) 4 - 72 统计学 基础 置信区间的表述 (95%的置信区间间) 从均值为从均值为185185的总体中抽出的总体中抽出n=10n=10的的2020个样本构造出个样本构造出 的的2020个个置信区间置信区间 我没有抓住参数! 点估计值点估计值 4 - 73 统计学 基础 当抽取了一个具体的样本,用该样本所构造的区间是 一个特定的常数区间,我们无法知道这个样本所产生 的区间是否包含总体参数的真值,因为它可能是包含 总体均值的区间中的一个,也可能是未包含总体均值 的那一个 一个特定的区间总是“包含”或“绝对不包含”参数的真 值,不存在“以多大的概率包含总体参数”的问题 置信水平只是告诉我们在多次估计得到的区间中大概 有多少个区间包含了参数的真值,而不是针对所抽取 的这个样本所构建的区间而言的 置信区间的表述 (confidence interval) 4 - 74 统计学 基础 使用一个较大的置信水平会得到一个比较宽的置信区 间,而使用一个较大的样本则会得到一个较准确(较 窄)的区间。直观地说,较宽的区间会有更大的可能 性包含参数 但实际应用中,过宽的区间往往没有实际意义 l比如,天气预报说“在一年内会下一场雨”,虽然这 很有把握,但有什么意义呢?另一方面,要求过于准确( 过窄)的区间同样不一定有意义,因为过窄的区间虽然看 上去很准确,但把握性就会降低,除非无限制增加样本量 ,而现实中样本量总是有限的 区间估计总是要给结论留点儿余地 置信区间的表述 (confidence interval) 4.3 4.3 总体均值的区间估计总体均值的区间估计 4.3.1 4.3.1 正态总体、方差已知正态总体、方差已知 或非正态总体、大样本或非正态总体、大样本 4.2.2 4.2.2 正态总体、方差未知、小样本正态总体、方差未知、小样本 第 4 章 抽样与参数估计 4.3.1 正态总体、方差已知 或非正态总体、大样本 4.3 4.3 总体均值的区间估计总体均值的区间估计 4 - 77 统计学 基础 总体均值的区间估计 (正态总体、方差已知或非正态总体大样本) 1.假定条件 n总体服从正态分布,且方差() 已知 n如果不是正态分布,可由正态分布来近似 (n 30) 使用正态分布统计量 z 构造置信区间 3.3. 总体均值总体均值 在在1-1- 置信水平下的置信水平下的置信区间为置信区间为 4 - 78 统计学 基础 总体均值的区间估计 (正态总体、方差已知或非正态总体大样本) 【例例4.24.2】一家食品生产企业以生产袋装食品为主,为对产量一家食品生产企业以生产袋装食品为主,为对产量 质量进行监测,企业质检部门经常要进行抽检,以分析每袋质量进行监测,企业质检部门经常要进行抽检,以分析每袋 重量是否符合要求。现从某天生产的一批食品中随机抽取了重量是否符合要求。现从某天生产的一批食品中随机抽取了 2525袋,测得每袋重量如下表所示。已知产品重量的分布服从袋,测得每袋重量如下表所示。已知产品重量的分布服从 正态分布,且正态分布,且总体标准差为总体标准差为1010克。试估计该批产品平均重量克。试估计该批产品平均重量 的置信区间,置信水平为的置信区间,置信水平为95%95% 25袋食品的重量 112.5101.0103.0102.0100.5 102.6107.5 95.0108.8115.6 100.0123.5102.0101.6102.2 116.6 95.4 97.8108.6105.0 136.8102.8101.5 98.4 93.3 4 - 79 统计学 基础 总体均值的区间估计 (正态总体、方差已知或非正态总体大样本) 解解:已知已知 N N( ( ,1010 2 2 ) ),n n=25, =25, 1-1- = = 95%95%,z z /2 /2=1.96 =1.96 。根据样本数据计算得:根据样本数据计算得: 。由于是正态总。由于是正态总 体,且方差已知。体,且方差已知。总体均值总体均值 在在1-1- 置信水平下的置信水平下的 置信区间为置信区间为 该食品平均重量的置信区间为该食品平均重量的置信区间为101.44g109.28g101.44g109.28g 4 - 80 统计学 基础 总体均值的区间估计 (正态总体、方差已知或非正态总体大样本) 解解:已知已知 N N( ( ,0.150.15 2 2 ) ), x x2.14, 2.14, n n=9, =9, 1-1- = 0.95 = 0.95, /2/2=1.96 =1.96 总体均值总体均值 的置信区间为的置信区间为 我们可以我们可以9595的概率保证该种零件的平的概率保证该种零件的平 均长度在均长度在21.30221.30221.498 mm21.498 mm之间之间 【例例】某种零件某种零件 长度服从正态分长度服从正态分 布,从该批产品布,从该批产品 中随机抽取中随机抽取件件 ,测得其平均长,测得其平均长 度为度为21.421.4 mmmm。 已知总体标准差已知总体标准差 =0=0. .1515mmmm,试试 建立该种零件平建立该种零件平 均长度的置信区均长度的置信区 间,给定置信水间,给定置信水 平为平为0.950.95。 4 - 81 统计学 基础 总体均值的区间估计 (正态总体、方差已知或非正态总体大样本) 【例例4.34.3】一家保险公司收集到由一家保险公司收集到由3636个投保人组成的个投保人组成的 随机样本,得到每个投保人的年龄随机样本,得到每个投保人的年龄( (单位:周岁单位:周岁) )数据数据 如下表。试建立投保人年龄如下表。试建立投保人年龄90%90%的置信区间的置信区间 36个投保人年龄龄的数据 233539273644 364246433133 425345544724 342839364440 394938344850 343945484532 4 - 82 统计学 基础 总体均值的区间估计 (正态总体、方差已知或非正态总体大样本) 解解:已知已知n n=36, =36, 1-1- = = 90%90%,z z /2 /2=1.645 =1.645。根据样本数根据样本数 据计算得:据计算得: , 总体均值总体均值 在在1-1- 置信水平下的置信区间为置信水平下的置信区间为 投保人平均年龄的置信区间为投保人平均年龄的置信区间为37.3737.37岁岁41.6341.63岁岁 4 - 83 统计学 基础 总体均值的区间估计 (正态总体、方差已知或非正态总体大样本) 解:解:已知已知 x x26, 26, =6=6,n n=100, =100, 1-1- = = 0.950.95, /2/2=1.96 =1.96 我们可以我们可以9595的概率保证平均每天的概率保证平均每天 参加锻炼的时间在参加锻炼的时间在24.82424.82427.176 27.176 分钟之间分钟之间 【例例】某大学从该某大学从该 校学生中随机抽取校学生中随机抽取 100100人,调查到他人,调查到他 们平均每天参加体们平均每天参加体 育锻炼的时间为育锻炼的时间为2626 分钟。试以分钟。试以9595的的 置信水平估计该大置信水平估计该大 学全体学生平均每学全体学生平均每 天参加体育锻炼的天参加体育锻炼的 时间(已知总体方时间(已知总体方 差为差为3636小时)。小时)。 4.3.2 正态总体、方差未知、小样本 4.3 4.3 总体均值的区间估计总体均值的区间估计 4 - 85 统计学 基础 总体均值的区间估计 (正态总体、方差未知、小样本) 1.假定条件 n总体服从正态分布,但方差() 未知 n小样本 (n 30) 使用 t 分布统计量构造置信区间 3.3. 总体均值总体均值 在在1-1- 置信水平下的置信水平下的置信区间为置信区间为 4 - 86 统计学 基础 T 统计量的分布 n n 设设X X 1 1 ,X X 2 2 ,X Xn1 n1是 是来自正态总体来自正态总体N N( 1 1 , , 1 1 2 2 ) )的一的一 个样本,个样本, 称称 为统计量为统计量, ,它服从自由度为它服从自由度为( (n n-1)-1)的的t t 分布分布 t t 不同自由度的不同自由度的t t分布分布 标准正态分布标准正态分布 t t ( (dfdf = 13) = 13) t t ( (dfdf = 5) = 5) 4 - 87 统计学 基础 总体均值的区间估计 (正态总体、方差未知、小样本) 【例例5.35.3】已知某种灯泡的寿命服从正态分布,现从已知某种灯泡的寿命服从正态分布,现从 一批灯泡中随机抽取一批灯泡中随机抽取1616只,测得其使用寿命只,测得其使用寿命( (单位:单位: h)h)如下。建立该批灯泡平均使用寿命如下。建立该批灯泡平均使用寿命95%95%的置信区间的置信区间 16灯泡使用寿命的数据 1510152014801500 1450148015101520 1480149015301510 1460146014701470 4 - 88 统计学 基础 总体均值的区间估计 (正态总体、方差未知、小样本) 解解:已知已知 N N( ( , 2 2 ) ),n n=16, 1-=16, 1- = 95%= 95%,t t /2 /2=2.131 =2.131 根据样本数据计算得:根据样本数据计算得: , 总体均值总体均值 在在1-1- 置信水平下的置信区间为置信水平下的置信区间为 该种灯泡平均使用寿命的置信区间为该种灯泡平均使用寿命的置信区间为1476.81476.8h h 1503.21503.2h h 4 - 89 统计学 基础 总体均值的区间估计 (正态总体、方差未知、小样本) 解:解:已知已知 N N( ( , 2 2 ) ), x x= =50, 50, s s=8=8, n n=25, 1-=25, 1- = 0.95 = 0.95,t t /2/2=2.0639 =2.0639。 我们可以我们可以9595的概率保证总体均值的概率保证总体均值 在在46.6946.6953.30 53.30 之间之间 【例例】从一个从一个 正态总体中抽正态总体中抽 取一个随机样取一个随机样 本,本, n n = = 2525 ,其均值其均值 x x = = 5050 ,标准差标准差 s s = = 8 8。 建立建立 总体均值总体均值 的的 95%95%的置信区的置信区 间。间。 4 - 90 统计学 基础 总体均值的区间估计 (小结) 4.4 4.4 总体比例的区间估计总体比例的区间估计 第 4 章 抽样与参数估计 4 - 92 统计学 基础 总体比例的区间估计 (一个总体比例) 1. 假定条件 n总体服从二项分布 n可以由正态分布来近似 nnp(成功次数)和n(1-p)(失败次数)均应该大于 10 使用正态分布统计量 z 构造置信

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论