抽样与抽样分布 课件_第1页
抽样与抽样分布 课件_第2页
抽样与抽样分布 课件_第3页
抽样与抽样分布 课件_第4页
抽样与抽样分布 课件_第5页
已阅读5页,还剩167页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

你不必吃完整一头牛,才知道它的肉是咬不动的。

SamelJohnson第6章抽样与抽样分布你不必吃完整一头牛,才知道它的第6章抽样与抽样分布第6章抽样与抽样分布6.1概率抽样方法6.2三种不同性质的分布6.3一个总体参数推断时样本统计量的抽样分布6.4两个总体参数推断时样本统计量的抽样分布第6章抽样与抽样分布6.1概率抽样方法学习目标了解概率抽样方法区分总体分布、样本分布、抽样分布理解抽样分布与总体分布的关系掌握单总体参数推断时样本统计量的分布掌握双总体参数推断时样本统计量的分布学习目标了解概率抽样方法6.1

概率抽样方法6.1.1简单随机抽样6.1.2分层抽样6.1.3系统抽样6.1.4整群抽样6.1概率抽样方法6.1.1简单随机抽样抽样方法抽样方法概率抽样

(probabilitysampling)根据一个已知的概率来抽取样本单位,也称随机抽样特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率概率抽样

(probabilitysampling)根据一简单随机抽样

(simplerandomsampling)从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中抽取元素的具体方法有重复抽样和不重复抽样特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其他辅助信息以提高估计的效率简单随机抽样

(simplerandomsampling简单随机样本

(simplerandomsample)由简单随机抽样形成的样本从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为n样本都有相同的机会(概率)被抽中参数估计和假设检验所依据的主要是简单随机样本简单随机样本

(simplerandomsample)由简单随机抽样

(用Excel对分类数据随机抽样)【例】某班级共有30名学生,他们的名单如右表。用Excel抽出一个由5个学生构成的随机样本简单随机抽样

(用Excel对分类数据随机抽样)【例】某班级简单随机抽样

(用Excel对分类数据随机抽样)第1步:将30个学生的名单录入到Excel工作表中的一列第2步:给每个学生一个数字代码,分别为1,2…,30,并按顺序排列,将代码录入到Excel工作表中的一列,与学生名单相对应第3步:选择【工具】下拉菜单,并选择【数据分析】选项,然后在【数据分析】选项中选择【抽样】第4步:在【抽样】对话框中的【输入区域】中输入学生代码区域,在【抽样方法】中单击【随机】

。在【样本数】中输入需要抽样的学生个数。在【输出区域】中选择抽样结果放置的区域。【确定】后即得到要抽取的样本用Excel对分类数据抽样简单随机抽样

(用Excel对分类数据随机抽样)第1步:将3简单随机抽样

(用Excel对数值型数据随机抽样)第1步:将原始数据录入到Excel工作表中的一列第2步:选择【工具】下拉菜单,并选择【数据分析】选项,然后在【数据分析】选项中选择【抽样】第3步:在【抽样】对话框中的【输入区域】中输入原始数据区域,在【抽样方法】中单击【随机】。在【样本数】中输入需要抽样的数据个数。在【输出区域】

中选择抽样结果放置的区域。【确定】后即得到要抽取的样本数据用Excel对数值型数据抽样简单随机抽样

(用Excel对数值型数据随机抽样)第1步:将分层抽样

(stratifiedsampling)将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本优点保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计分层抽样

(stratifiedsampling)将总体单系统抽样

(systematicsampling)将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k等单位优点:操作简便,可提高估计的精度缺点:对估计量方差的估计比较困难系统抽样

(systematicsampling)将总体中整群抽样

(clustersampling)将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查特点抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差整群抽样

(clustersampling)将总体中若干个多阶段抽样

(multi-stagesampling)先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干个单位进行调查群是初级抽样单位,第二阶段抽取的是最终抽样单位。将该方法推广,使抽样的段数增多,就称为多阶段抽样具有整群抽样的优点,保证样本相对集中,节约调查费用需要包含所有低阶段抽样单位的抽样框;同时由于实行了再抽样,使调查单位在更广泛的范围内展开在大规模的抽样调查中,经常被采用的方法

多阶段抽样

(multi-stagesampling)先抽统计量1、统计量的概念2、常用统计量3、次序统计量4、充分统计量统计量1、统计量的概念6.2

三种不同性质的分布6.2.1总体分布6.2.2样本分布6.2.3抽样分布6.2三种不同性质的分布6.2.1总体分布总体中各元素的观察值所形成的分布分布通常是未知的可以假定它服从某种分布总体分布

(populationdistribution)总体总体中各元素的观察值所形成的分布总体分布

(populat一个样本中各观察值的分布也称经验分布当样本容量n逐渐增大时,样本分布逐渐接近总体的分布样本分布

(sampledistribution)样本一个样本中各观察值的分布样本分布

(sampledist样本统计量的概率分布,是一种理论分布在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布随机变量是样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据 抽样分布

(samplingdistribution)样本统计量的概率分布,是一种理论分布抽样分布

(sampl抽样分布的形成过程

(samplingdistribution)总体计算样本统计量如:样本均值、比例、方差样本抽样分布的形成过程

(samplingdistribut

三大抽样分布大家很快会看到,有很多统计推断是基于正态分布的假设的,以标准正态变量为基石而构造的三个著名统计量在实际中有广泛的应用,这是因为这三个统计量不仅有明确背景,而且其抽样分布的密度函数有明显表达式,它们被称为统计中的“三大抽样分布”。三大抽样分布大家很快会看到,有很多统计推断是基于正态分布的2

分布(卡方分布)定义

设X1,X2,…,Xn,独立同分布于标准正态分布N(0,1),则2=

X12+…Xn2的分布称为自由度为n的2分布,记为2

2(n)

。当随机变量

2

2(n)时,对给定

(01),称满足P(2

12(n))的12(n)是自由度为n1的卡方分布的1

分位数.分位数

12(n)可以从附表3中查到。2分布(卡方分布)定义设X1,X2,…,X该密度函数的图像是一只取非负值的偏态分布

该密度函数的图像是一只取非负值的偏态分布F分布定义

设X1

2(m),X2

2(n),X1与X2独立,则称F=(X1/m)/(X2/n)的分布是自由度为

m与

n

的F分布,记为FF(m,n),其中m称为分子自由度,n

称为分母自由度。当随机变量FF(m,n)时,对给定(01),称满足P(F

F1(m,n))=1的F1(m,n)是自由度为m与

n

的F

分布的1分位数。由

F

分布的构造知F(n,m)=1/F1(m,n)。F分布定义设X12(m),X22(该密度函数的图象也是一只取非负值的偏态分布

该密度函数的图象也是一只取非负值的偏态分布t

分布

定义设随机变量X1

与X2

独立,且X1N(0,1),X2

2(n),则称t=X1/X2/n的分布为自由度为n

的t分布,记为tt(n)。

t分布定义设随机变量X1与X2独立,t=X1/t分布的密度函数的图象是一个关于纵轴对称的分布,与标准正态分布的密度函数形状类似,只是峰比标准正态分布低一些尾部的概率比标准正态分布的大一些。t分布的密度函数的图象是一个关于纵轴对称的分布,与标准正

n1时,t分布的数学期望存在且为0;

n2时,t

分布的方差存在,且为n/(n2);当自由度较大(如n30)时,

t分布可以用正态分布

N(0,1)近似。

自由度为1的

t

分布就是标准柯西分布,

它的均值不存在;n1时,t分布的数学期望存在且为0;自由度为1的当随机变量tt(n)时,称满足P(t

t1(n))=1的t1(n)是自由度为

n

t分布的1分位数.分位数t1(n)可以从附表4中查到。譬如n=10,=0.05,那么从附表4上查得t10.05(10)=t0.95(10)=1.812.由于

t分布的密度函数关于0

对称,故其分位数间有如下关系t(n1)=t1(n1)当随机变量tt(n)时,称满足由于t分布的密度函数一些重要结论定理

设x1,x2,…,xn是来自N(,2)的样本,其样本均值和样本方差分别为和x=xi/n

s2=

(xix)2/(n1)(3)(n1)s2/2

2(n1)。则有(1)x与s2相互独立;(2)xN(,2/n)

;一些重要结论定理设x1,x2,…,xn是来自推论

设x1,x2,…,xn是来自N(1,12)的样本,y1,y2,…,yn是来自N(2,22)的样本,且此两样本相互独立,则有特别,若12=22

,则F=sx2/sy2

F(m1,n1)推论设x1,x2,…,xn是来自N(1,推论

在推论的记号下,设12=22=2,并记则推论在推论的记号下,设则充分统计量充分性的概念例

为研究某个运动员的打靶命中率,我们对该运动员进行测试,观测其10次,发现除第三、六次未命中外,其余8次都命中。这样的观测结果包含了两种信息:(1)打靶10次命中8次;(2)2次不命中分别出现在第3次和第6次打靶上。充分统计量充分性的概念例为研究某个运动员的打靶命中率,第二种信息对了解该运动员的命中率是没有什么帮助的。一般地,设我们对该运动员进行n次观测,得到x1,x2,…,xn,每个xj

取值非0即1,命中为1,不命中为0。令T=x1+…+xn

,T为观测到的命中次数。在这种场合仅仅记录使用T不会丢失任何与命中率有关的信息,统计上将这种“样本加工不损失信息”称为“充分性”。样本x=(x1,x2,…,xn)有一个样本分布F

(x),这个分布包含了样本中一切有关的信息。第二种信息对了解该运动员的命中率是没有什么帮助的。一般地,设统计量T=T(x1,x2,…,xn)也有一个抽样分布FT(t),当我们期望用统计量T代替原始样本并且不损失任何有关的信息时,也就是期望抽样分布FT(t)像F(x)一样概括了有关的一切信息,这即是说在统计量

T的取值为t的情况下,样本x的条件分布

F(x|T=t)已不含的信息,这正是统计量具有充分性的含义。统计量T=T(x1,x2,…,xn)也有一个抽样分布F定义

设x1,x2,…,xn

是来自某个总体的样本,总体分布函数为F

(x;),统计量T=T(x1,x2,…,xn)称为的充分统计量,如果在给定T的取值后,x1,x2,…,xn

的条件分布与无关.定义设x1,x2,…,xn是来自某个总体因子分解定理充分性原则:在统计学中有一个基本原则--

在充分统计量存在的场合,任何统计推断都可以基于充分统计量进行,这可以简化统计推断的程序。定理

设总体概率函数为p(x;),

X1,…,Xn

为样本,则T=T(X1,…Xn)为充分统计量的充分必要条件是:存在两个函数g(t;)和h(x1,…,xn),使得对任意的和任一组观测值x1,x2,…,xn,有p(x1,x2,…,xn;)=g(T(x1,x2,…,xn);)h(x1,x2,…,xn)因子分解定理充分性原则:在统计学中有一个基本原则--定抽样分布1、统计量2、样本均值分布3、中心极限定理抽样分布1、统计量6.3

样本统计量的抽样分布

(一个总体参数推断时)6.3.1样本均值的抽样分布6.3.2样本比例的抽样分布6.3.3样本方差的抽样分布6.3样本统计量的抽样分布

(一个样本均值的抽样分布样本均值的抽样分布在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布一种理论概率分布推断总体均值的理论基础 样本均值的抽样分布在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相样本均值的抽样分布

(例题分析)【例】设一个总体,含有4个元素(个体)

,即总体单位数N=4。4

个个体分别为x1=1,x2=2,x3=3,x4=4

。总体的均值、方差及分布如下总体分布14230.1.2.3均值和方差样本均值的抽样分布

(例题分析)【例】设一个总体,含有4个元样本均值的抽样分布

(例题分析)

现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)样本均值的抽样分布

(例题分析)现从总体中抽取n=2的样本均值的抽样分布

(例题分析)计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)x样本均值的抽样分布1.000.10.20.3P

(x)1.53.04.03.52.02.5样本均值的抽样分布

(例题分析)计算出各样本的均值,如样本均值的分布与总体分布的比较

(例题分析)=2.5σ2=1.25总体分布14230.1.2.3抽样分布P(x)1.00.1.2.31.53.04.03.52.02.5x样本均值的分布与总体分布的比较

(例题分析)=2样本均值的抽样分布

与中心极限定理=50

=10X总体分布n=4抽样分布xn=16当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x

的数学期望为μ,方差为σ2/n。即x~N(μ,σ2/n)样本均值的抽样分布

与中心极限定理=50=10X总中心极限定理

(centrallimittheorem)当样本容量足够大时(n

30),样本均值的抽样分布逐渐趋于正态分布从均值为,方差为

2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ,方差为σ2/n的正态分布一个任意分布的总体x中心极限定理

(centrallimittheorem)中心极限定理

(centrallimittheorem)x的分布趋于正态分布的过程中心极限定理

(centrallimittheorem抽样分布与总体分布的关系总体分布正态分布非正态分布大样本小样本样本均值正态分布样本均值正态分布样本均值非正态分布抽样分布与总体分布的关系总体分布正态分布非正态分布大样本小样样本均值的数学期望样本均值的方差重复抽样不重复抽样样本均值的抽样分布

(数学期望与方差)样本均值的数学期望样本均值的抽样分布

(数学期望与方差)样本均值的抽样分布

(数学期望与方差)比较及结论:1.样本均值的均值(数学期望)等于总体均值

2.样本均值的方差等于总体方差的1/n样本均值的抽样分布

(数学期望与方差)比较及结论:1.样本统计量的标准误

(standarderror)样本统计量的抽样分布的标准差,称为统计量的标准误,也称为标准误差标准误衡量的是统计量的离散程度,它测度了用样本统计量估计总体参数的精确程度以样本均值的抽样分布为例,在重复抽样条件下,样本均值的标准误为统计量的标准误

(standarderror)样本统计量估计的标准误

(standarderrorofestimation)当计算标准误时涉及的总体参数未知时,用样本统计量代替计算的标准误,称为估计的标准误以样本均值的抽样分布为例,当总体标准差未知时,可用样本标准差s代替,则在重复抽样条件下,样本均值的估计标准误为估计的标准误

(standarderrorofest样本比例的抽样分布样本比例的抽样分布总体(或样本)中具有某种属性的单位与全部单位总数之比不同性别的人与全部人数之比合格品(或不合格品)与全部产品总数之比总体比例可表示为样本比例可表示为

比例

(proportion)总体(或样本)中具有某种属性的单位与全部单位总数之比比例

(在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布一种理论概率分布当样本容量很大时,样本比例的抽样分布可用正态分布近似推断总体比例的理论基础 样本比例的抽样分布在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相样本比例的数学期望样本比例的方差重复抽样不重复抽样样本比例的抽样分布

(数学期望与方差)样本比例的数学期望样本比例的抽样分布

(数学期望与方差)样本方差的抽样分布样本方差的抽样分布样本方差的分布在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布对于来自正态总体的简单随机样本,则比值的抽样分布服从自由度为(n-1)的2分布,即样本方差的分布在重复选取容量为n的样本时,由样本方差的所有可由阿贝(Abbe)

于1863年首先给出,后来由海尔墨特(Hermert)和卡·皮尔逊(K·Pearson)

分别于1875年和1900年推导出来设,则令,则Y服从自由度为1的2分布,即

当总体,从中抽取容量为n的样本,则2分布

(2

distribution)由阿贝(Abbe)于1863年首先给出,后来由海尔墨特(H分布的变量值始终为正分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称期望为E(2)=n,方差为D(2)=2n(n为自由度)可加性:若U和V为两个独立的服从2分布的随机变量,U~2(n1),V~2(n2),则U+V这一随机变量服从自由度为n1+n2的2分布2分布

(性质和特点)分布的变量值始终为正2分布

(性质和特点)c2分布

(图示)

选择容量为n的简单随机样本计算样本方差s2计算卡方值2=(n-1)s2/σ2计算出所有的

2值不同容量样本的抽样分布c2n=1n=4n=10n=20ms总体c2分布

(图示)选择容量为n的计算卡方值计算出所有的不c2分布

(例题的图示)16个样本方差的分布样本方差s2s2取值的概率0.04/160.56/1624/164.52/16c2分布

(例题的图示)16个样本方差的分布样本方差s2s2c2分布

(用Excel计算c2分布的概率)利用Excel提供的CHIDIST统计函数,计算c2分布右单尾的概率值语法为CHIDIST(x,df),其中df为自由度,x是随机变量的取值给定自由度和统计量取值的右尾概率,也可以利用“插入函数”命令来实现计算自由度为8,统计量的取值大于10的概率用Excel计算c2

分布的概率c2分布

(用Excel计算c2分布的概率)利用Excel提c2分布

(用Excel计算c2分布的临界值)利用Excel提供的CHIINV统计函数,计算分布右单尾的概率值为的临界值语法为CHIINV(,df),其中df为自由度给定自由度和分布右尾概率为的临界值也可以利用“插入函数”命令来实现计算自由度为10,右尾概率为0.1的临界值用Excel计算c2

分布的临界值c2分布

(用Excel计算c2分布的临界值)利用Excelc2分布

(用Excel生成c2分布的临界值表)第一步:将c2分布自由度df的值输入到工作表的

A列,将右尾概率的取值输入到第1行第二步:在B2单元格输入公式

“=CHIINV(B$1,$A2)”

然后将其向下、向右复制即可得到分布的临界值表

用Excel生成c2

分布的临界值表c2分布

(用Excel生成c2分布的临界值表)第一步:将cc2分布

(用Excel绘制c2分布图)第1步:在工作表的第1列A2:A62输入应一个等差数列,初始值为“0”,步长为“1”,终值为“60”第2步:在单元格B1输入c2分布自由度(如“15”)第3步:在单元格B2输入公式“=CHIDIST(A2,$B$1)”,并将其复制到B3:B62区域第4步:在单元格C2输入公“=B2-B3”,并将其复制到C3:C62

区域第5步:将A2:A62作为横坐标、C2:C62作为纵坐标,根据“图表向导”绘制折线图

用Excel绘制c2分布图c2分布

(用Excel绘制c2分布图)第1步:在工作表的c2分布

(用Excel绘制c2分布图)c2分布

(用Excel绘制c2分布图)6.4

样本统计量的抽样分布

(两个总体参数推断时)6.4.1两个样本均值之差的抽样分布6.4.2两个样本比例之差的抽样分布6.4.3两个样本方差比的抽样分布6.4样本统计量的抽样分布

(两个两个样本均值之差的抽样分布两个样本均值之差的抽样分布两个总体都为正态分布,即,两个样本均值之差的抽样分布服从正态分布,其分布的数学期望为两个总体均值之差方差为各自的方差之和 两个样本均值之差的抽样分布两个总体都为正态分布,即两个样本均值之差的抽样分布

m1s1总体1s2

m2总体2抽取简单随机样样本容量n1计算x1抽取简单随机样样本容量n2计算x2计算每一对样本的x1-x2所有可能样本的x1-x2m1-m2抽样分布两个样本均值之差的抽样分布m1s1总体1s2两个样本比例之差的抽样分布两个样本比例之差的抽样分布两个总体都服从二项分布分别从两个总体中抽取容量为n1和n2的独立样本,当两个样本都为大样本时,两个样本比例之差的抽样分布可用正态分布来近似分布的数学期望为方差为各自的方差之和 两个样本比例之差的抽样分布两个总体都服从二项分布两个样本比例之差的抽样分布两个样本方差比的抽样分布两个样本方差比的抽样分布两个样本方差比的抽样分布

两个总体都为正态分布,即X1~N(μ1,σ12),X2~N(μ2,σ22)从两个总体中分别抽取容量为n1和n2的独立样本两个样本方差比的抽样分布,服从分子自由度为(n1-1),分母自由度为(n2-1)的F分布,即两个样本方差比的抽样分布两个总体都为正态分布,即X1~N(由统计学家费希尔(R.A.Fisher)

提出的,以其姓氏的第一个字母来命名设若U为服从自由度为n1的2分布,即U~2(n1),V为服从自由度为n2的2分布,即V~2(n2),且U和V相互独立,则称F为服从自由度n1和n2的F分布,记为F分布

(F

distribution)由统计学家费希尔(R.A.Fisher)提出的,以其姓氏的F分布

(图示)

不同自由度的F分布F(1,10)(5,10)(10,10)F分布

(图示)不同自由度的F分布F(1,10)(5,F分布

(用Excel计算F分布的概率)利用Excel提供的FDIST统计函数,计算分布右单尾的概率值其语法为FDIST(x,df1,df2),其中x是随机变量的取值,df1为分子自由度,df2为分母自由度给定分子自由度df1、分母自由度df2和统计量取值的右尾概率,也可以利用“粘贴函数”命令来实现计算分子自由度为4,分母自由度为6,统计量的取值大于2.5的概率用Excel计算F分布的概率F分布

(用Excel计算F分布的概率)利用Excel提供F分布

(用Excel计算F分布的临界值)利用Excel提供的FINV统计函数,计算分布右单尾的概率值为的临界值其语法为FINV(,df1,df2),其中df1为分子自由度,df2为分母自由度给定分子自由度、分母自由度df2和分布右尾概率为的临界值也可以利用“粘贴函数”命令来实现计算分子自由度为4,分母自由度为6,F分布右尾概率为0.05的临界值

用Excel计算F分布的临界值F分布

(用Excel计算F分布的临界值)利用Excel提F分布

(用Excel生成F分布的临界值表)第一步:在B1单元格输入分布右尾概率的取值(如

=0.05),在第2行输入分子自由度df1的值,在第1列输入分母自由度df2的值第二步:在B2单元格输入公式

“=CHIINV(B$1,$A2)”

然后将其向下、向右复制即可用Excel生成F分布的临界值表F分布

(用Excel生成F分布的临界值表)第一步:在B1F分布

(用Excel绘制F分布图)第1步:在工作表的第1列A2:A62输入一个等差数列,初始值为“0”,步长为“0.1”,终值为“6”第2步:在单元格B1输入分子自由度(如“10”),在单元格D1输入分母自由度(如“15”)第3步:在单元格B2输入公式“=FDIST(A2,$B$1,$D$1)”,并将其复制到B3:B62区域第4步:在单元格C2输入公式“=(B2-B3)*10”,并将其复制到

C3:C62区域第5步:将A2:A62作为横坐标、C2:C62作为纵坐标,根据“图表向导”绘制折线图

用Excel绘制F分布图F分布

(用Excel绘制F分布图)第1步:在工作表的第F分布

(用Excel绘制F分布图)F分布

(用Excel绘制F分布图)本章小结概率抽样方法总体分布、样本分布、抽样分布单总体参数推断时样本统计量的分布双总体参数推断时样本统计量的分布本章小结概率抽样方法结束THANKS结束THANKS你不必吃完整一头牛,才知道它的肉是咬不动的。

SamelJohnson第6章抽样与抽样分布你不必吃完整一头牛,才知道它的第6章抽样与抽样分布第6章抽样与抽样分布6.1概率抽样方法6.2三种不同性质的分布6.3一个总体参数推断时样本统计量的抽样分布6.4两个总体参数推断时样本统计量的抽样分布第6章抽样与抽样分布6.1概率抽样方法学习目标了解概率抽样方法区分总体分布、样本分布、抽样分布理解抽样分布与总体分布的关系掌握单总体参数推断时样本统计量的分布掌握双总体参数推断时样本统计量的分布学习目标了解概率抽样方法6.1

概率抽样方法6.1.1简单随机抽样6.1.2分层抽样6.1.3系统抽样6.1.4整群抽样6.1概率抽样方法6.1.1简单随机抽样抽样方法抽样方法概率抽样

(probabilitysampling)根据一个已知的概率来抽取样本单位,也称随机抽样特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率概率抽样

(probabilitysampling)根据一简单随机抽样

(simplerandomsampling)从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中抽取元素的具体方法有重复抽样和不重复抽样特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其他辅助信息以提高估计的效率简单随机抽样

(simplerandomsampling简单随机样本

(simplerandomsample)由简单随机抽样形成的样本从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为n样本都有相同的机会(概率)被抽中参数估计和假设检验所依据的主要是简单随机样本简单随机样本

(simplerandomsample)由简单随机抽样

(用Excel对分类数据随机抽样)【例】某班级共有30名学生,他们的名单如右表。用Excel抽出一个由5个学生构成的随机样本简单随机抽样

(用Excel对分类数据随机抽样)【例】某班级简单随机抽样

(用Excel对分类数据随机抽样)第1步:将30个学生的名单录入到Excel工作表中的一列第2步:给每个学生一个数字代码,分别为1,2…,30,并按顺序排列,将代码录入到Excel工作表中的一列,与学生名单相对应第3步:选择【工具】下拉菜单,并选择【数据分析】选项,然后在【数据分析】选项中选择【抽样】第4步:在【抽样】对话框中的【输入区域】中输入学生代码区域,在【抽样方法】中单击【随机】

。在【样本数】中输入需要抽样的学生个数。在【输出区域】中选择抽样结果放置的区域。【确定】后即得到要抽取的样本用Excel对分类数据抽样简单随机抽样

(用Excel对分类数据随机抽样)第1步:将3简单随机抽样

(用Excel对数值型数据随机抽样)第1步:将原始数据录入到Excel工作表中的一列第2步:选择【工具】下拉菜单,并选择【数据分析】选项,然后在【数据分析】选项中选择【抽样】第3步:在【抽样】对话框中的【输入区域】中输入原始数据区域,在【抽样方法】中单击【随机】。在【样本数】中输入需要抽样的数据个数。在【输出区域】

中选择抽样结果放置的区域。【确定】后即得到要抽取的样本数据用Excel对数值型数据抽样简单随机抽样

(用Excel对数值型数据随机抽样)第1步:将分层抽样

(stratifiedsampling)将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本优点保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计分层抽样

(stratifiedsampling)将总体单系统抽样

(systematicsampling)将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k等单位优点:操作简便,可提高估计的精度缺点:对估计量方差的估计比较困难系统抽样

(systematicsampling)将总体中整群抽样

(clustersampling)将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查特点抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差整群抽样

(clustersampling)将总体中若干个多阶段抽样

(multi-stagesampling)先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干个单位进行调查群是初级抽样单位,第二阶段抽取的是最终抽样单位。将该方法推广,使抽样的段数增多,就称为多阶段抽样具有整群抽样的优点,保证样本相对集中,节约调查费用需要包含所有低阶段抽样单位的抽样框;同时由于实行了再抽样,使调查单位在更广泛的范围内展开在大规模的抽样调查中,经常被采用的方法

多阶段抽样

(multi-stagesampling)先抽统计量1、统计量的概念2、常用统计量3、次序统计量4、充分统计量统计量1、统计量的概念6.2

三种不同性质的分布6.2.1总体分布6.2.2样本分布6.2.3抽样分布6.2三种不同性质的分布6.2.1总体分布总体中各元素的观察值所形成的分布分布通常是未知的可以假定它服从某种分布总体分布

(populationdistribution)总体总体中各元素的观察值所形成的分布总体分布

(populat一个样本中各观察值的分布也称经验分布当样本容量n逐渐增大时,样本分布逐渐接近总体的分布样本分布

(sampledistribution)样本一个样本中各观察值的分布样本分布

(sampledist样本统计量的概率分布,是一种理论分布在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布随机变量是样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据 抽样分布

(samplingdistribution)样本统计量的概率分布,是一种理论分布抽样分布

(sampl抽样分布的形成过程

(samplingdistribution)总体计算样本统计量如:样本均值、比例、方差样本抽样分布的形成过程

(samplingdistribut

三大抽样分布大家很快会看到,有很多统计推断是基于正态分布的假设的,以标准正态变量为基石而构造的三个著名统计量在实际中有广泛的应用,这是因为这三个统计量不仅有明确背景,而且其抽样分布的密度函数有明显表达式,它们被称为统计中的“三大抽样分布”。三大抽样分布大家很快会看到,有很多统计推断是基于正态分布的2

分布(卡方分布)定义

设X1,X2,…,Xn,独立同分布于标准正态分布N(0,1),则2=

X12+…Xn2的分布称为自由度为n的2分布,记为2

2(n)

。当随机变量

2

2(n)时,对给定

(01),称满足P(2

12(n))的12(n)是自由度为n1的卡方分布的1

分位数.分位数

12(n)可以从附表3中查到。2分布(卡方分布)定义设X1,X2,…,X该密度函数的图像是一只取非负值的偏态分布

该密度函数的图像是一只取非负值的偏态分布F分布定义

设X1

2(m),X2

2(n),X1与X2独立,则称F=(X1/m)/(X2/n)的分布是自由度为

m与

n

的F分布,记为FF(m,n),其中m称为分子自由度,n

称为分母自由度。当随机变量FF(m,n)时,对给定(01),称满足P(F

F1(m,n))=1的F1(m,n)是自由度为m与

n

的F

分布的1分位数。由

F

分布的构造知F(n,m)=1/F1(m,n)。F分布定义设X12(m),X22(该密度函数的图象也是一只取非负值的偏态分布

该密度函数的图象也是一只取非负值的偏态分布t

分布

定义设随机变量X1

与X2

独立,且X1N(0,1),X2

2(n),则称t=X1/X2/n的分布为自由度为n

的t分布,记为tt(n)。

t分布定义设随机变量X1与X2独立,t=X1/t分布的密度函数的图象是一个关于纵轴对称的分布,与标准正态分布的密度函数形状类似,只是峰比标准正态分布低一些尾部的概率比标准正态分布的大一些。t分布的密度函数的图象是一个关于纵轴对称的分布,与标准正

n1时,t分布的数学期望存在且为0;

n2时,t

分布的方差存在,且为n/(n2);当自由度较大(如n30)时,

t分布可以用正态分布

N(0,1)近似。

自由度为1的

t

分布就是标准柯西分布,

它的均值不存在;n1时,t分布的数学期望存在且为0;自由度为1的当随机变量tt(n)时,称满足P(t

t1(n))=1的t1(n)是自由度为

n

t分布的1分位数.分位数t1(n)可以从附表4中查到。譬如n=10,=0.05,那么从附表4上查得t10.05(10)=t0.95(10)=1.812.由于

t分布的密度函数关于0

对称,故其分位数间有如下关系t(n1)=t1(n1)当随机变量tt(n)时,称满足由于t分布的密度函数一些重要结论定理

设x1,x2,…,xn是来自N(,2)的样本,其样本均值和样本方差分别为和x=xi/n

s2=

(xix)2/(n1)(3)(n1)s2/2

2(n1)。则有(1)x与s2相互独立;(2)xN(,2/n)

;一些重要结论定理设x1,x2,…,xn是来自推论

设x1,x2,…,xn是来自N(1,12)的样本,y1,y2,…,yn是来自N(2,22)的样本,且此两样本相互独立,则有特别,若12=22

,则F=sx2/sy2

F(m1,n1)推论设x1,x2,…,xn是来自N(1,推论

在推论的记号下,设12=22=2,并记则推论在推论的记号下,设则充分统计量充分性的概念例

为研究某个运动员的打靶命中率,我们对该运动员进行测试,观测其10次,发现除第三、六次未命中外,其余8次都命中。这样的观测结果包含了两种信息:(1)打靶10次命中8次;(2)2次不命中分别出现在第3次和第6次打靶上。充分统计量充分性的概念例为研究某个运动员的打靶命中率,第二种信息对了解该运动员的命中率是没有什么帮助的。一般地,设我们对该运动员进行n次观测,得到x1,x2,…,xn,每个xj

取值非0即1,命中为1,不命中为0。令T=x1+…+xn

,T为观测到的命中次数。在这种场合仅仅记录使用T不会丢失任何与命中率有关的信息,统计上将这种“样本加工不损失信息”称为“充分性”。样本x=(x1,x2,…,xn)有一个样本分布F

(x),这个分布包含了样本中一切有关的信息。第二种信息对了解该运动员的命中率是没有什么帮助的。一般地,设统计量T=T(x1,x2,…,xn)也有一个抽样分布FT(t),当我们期望用统计量T代替原始样本并且不损失任何有关的信息时,也就是期望抽样分布FT(t)像F(x)一样概括了有关的一切信息,这即是说在统计量

T的取值为t的情况下,样本x的条件分布

F(x|T=t)已不含的信息,这正是统计量具有充分性的含义。统计量T=T(x1,x2,…,xn)也有一个抽样分布F定义

设x1,x2,…,xn

是来自某个总体的样本,总体分布函数为F

(x;),统计量T=T(x1,x2,…,xn)称为的充分统计量,如果在给定T的取值后,x1,x2,…,xn

的条件分布与无关.定义设x1,x2,…,xn是来自某个总体因子分解定理充分性原则:在统计学中有一个基本原则--

在充分统计量存在的场合,任何统计推断都可以基于充分统计量进行,这可以简化统计推断的程序。定理

设总体概率函数为p(x;),

X1,…,Xn

为样本,则T=T(X1,…Xn)为充分统计量的充分必要条件是:存在两个函数g(t;)和h(x1,…,xn),使得对任意的和任一组观测值x1,x2,…,xn,有p(x1,x2,…,xn;)=g(T(x1,x2,…,xn);)h(x1,x2,…,xn)因子分解定理充分性原则:在统计学中有一个基本原则--定抽样分布1、统计量2、样本均值分布3、中心极限定理抽样分布1、统计量6.3

样本统计量的抽样分布

(一个总体参数推断时)6.3.1样本均值的抽样分布6.3.2样本比例的抽样分布6.3.3样本方差的抽样分布6.3样本统计量的抽样分布

(一个样本均值的抽样分布样本均值的抽样分布在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布一种理论概率分布推断总体均值的理论基础 样本均值的抽样分布在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相样本均值的抽样分布

(例题分析)【例】设一个总体,含有4个元素(个体)

,即总体单位数N=4。4

个个体分别为x1=1,x2=2,x3=3,x4=4

。总体的均值、方差及分布如下总体分布14230.1.2.3均值和方差样本均值的抽样分布

(例题分析)【例】设一个总体,含有4个元样本均值的抽样分布

(例题分析)

现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)样本均值的抽样分布

(例题分析)现从总体中抽取n=2的样本均值的抽样分布

(例题分析)计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)x样本均值的抽样分布1.000.10.20.3P

(x)1.53.04.03.52.02.5样本均值的抽样分布

(例题分析)计算出各样本的均值,如样本均值的分布与总体分布的比较

(例题分析)=2.5σ2=1.25总体分布14230.1.2.3抽样分布P(x)1.00.1.2.31.53.04.03.52.02.5x样本均值的分布与总体分布的比较

(例题分析)=2样本均值的抽样分布

与中心极限定理=50

=10X总体分布n=4抽样分布xn=16当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x

的数学期望为μ,方差为σ2/n。即x~N(μ,σ2/n)样本均值的抽样分布

与中心极限定理=50=10X总中心极限定理

(centrallimittheorem)当样本容量足够大时(n

30),样本均值的抽样分布逐渐趋于正态分布从均值为,方差为

2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ,方差为σ2/n的正态分布一个任意分布的总体x中心极限定理

(centrallimittheorem)中心极限定理

(centrallimittheorem)x的分布趋于正态分布的过程中心极限定理

(centrallimittheorem抽样分布与总体分布的关系总体分布正态分布非正态分布大样本小样本样本均值正态分布样本均值正态分布样本均值非正态分布抽样分布与总体分布的关系总体分布正态分布非正态分布大样本小样样本均值的数学期望样本均值的方差重复抽样不重复抽样样本均值的抽样分布

(数学期望与方差)样本均值的数学期望样本均值的抽样分布

(数学期望与方差)样本均值的抽样分布

(数学期望与方差)比较及结论:1.样本均值的均值(数学期望)等于总体均值

2.样本均值的方差等于总体方差的1/n样本均值的抽样分布

(数学期望与方差)比较及结论:1.样本统计量的标准误

(standarderror)样本统计量的抽样分布的标准差,称为统计量的标准误,也称为标准误差标准误衡量的是统计量的离散程度,它测度了用样本统计量估计总体参数的精确程度以样本均值的抽样分布为例,在重复抽样条件下,样本均值的标准误为统计量的标准误

(standarderror)样本统计量估计的标准误

(standarderrorofestimation)当计算标准误时涉及的总体参数未知时,用样本统计量代替计算的标准误,称为估计的标准误以样本均值的抽样分布为例,当总体标准差未知时,可用样本标准差s代替,则在重复抽样条件下,样本均值的估计标准误为估计的标准误

(standarderrorofest样本比例的抽样分布样本比例的抽样分布总体(或样本)中具有某种属性的单位与全部单位总数之比不同性别的人与全部人数之比合格品(或不合格品)与全部产品总数之比总体比例可表示为样本比例可表示为

比例

(proportion)总体(或样本)中具有某种属性的单位与全部单位总数之比比例

(在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布一种理论概率分布当样本容量很大时,样本比例的抽样分布可用正态分布近似推断总体比例的理论基础 样本比例的抽样分布在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相样本比例的数学期望样本比例的方差重复抽样不重复抽样样本比例的抽样分布

(数学期望与方差)样本比例的数学期望样本比例的抽样分布

(数学期望与方差)样本方差的抽样分布样本方差的抽样分布样本方差的分布在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布对于来自正态总体的简单随机样本,则比值的抽样分布服从自由度为(n-1)的2分布,即样本方差的分布在重复选取容量为n的样本时,由样本方差的所有可由阿贝(Abbe)

于1863年首先给出,后来由海尔墨特(Hermert)和卡·皮尔逊(K·Pearson)

分别于1875年和1900年推导出来设,则令,则Y服从自由度为1的2分布,即

当总体,从中抽取容量为n的样本,则2分布

(2

distribution)由阿贝(Abbe)于1863年首先给出,后来由海尔墨特(H分布的变量值始终为正分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称期望为E(2)=n,方差为D(2)=2n(n为自由度)可加性:若U和V为两个独立的服从2分布的随机变量,U~2(n1),V~2(n2),则U+V这一随机变量服从自由度为n1+n2的2分布2分布

(性质和特点)分布的变量值始终为正2分布

(性质和特点)c2分布

(图示)

选择容量为n的简单随机样本计算样本方差s2计算卡方值2=(n-1)s2/σ2计算出所有的

2值不同容量样本的抽样分布c2n=1n=4n=10n=20ms总体c2分布

(图示)选择容量为n的计算卡方值计算出所有的不c2分布

(例题的图示)16个样本方差的分布样本方差s2s2取值的概率0.04/160.56/1624/164.52/16c2分布

(例题的图示)16个样本方差的分布样本方差s2s2c2分布

(用Excel计算c2分布的概率)利用Excel提供的CHIDIST统计函数,计算c2分布右单尾的概率值语法为CHIDIST(x,df),其中df为自由度,x是随机变量的取值给定自由度和统计量取值的右尾概率,也可以利用“插入函数”命令来实现计算自由度为8,统计量的取值大于10的概率用Excel计算c2

分布的概率c2分布

(用Excel计算c2分布的概率)利用Excel提c2分布

(用Excel计算c2分布的临界值)利用Excel提供的CHIINV统计函数,计算分布右单尾的概率值为的临界值语法为CHIINV(,df),其中df为自由度给定自由度和分布右尾概率为的临界值也可以利用“插入函数”命令来实现计算自由度为10,右尾概率为0.1的临界值用Excel计算c2

分布的临界值c2分布

(用Excel计算c2分布的临界值)利用Excelc2分布

(用Excel生成c2分布的临界值表)第一步:将c2分布自由度df的值输入到工作表的

A列,将右尾概率的取值输入到第1行第二步:在B2单元格输入公式

“=CHIINV(B$1,$A2)”

然后将其向下、向右复制即可得到分布的临界值表

用Excel生成c2

分布的临界值表c2分布

(用Excel生成c2分布的临界值表)第一步:将cc2分布

(用Excel绘

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论