统计学抽样与抽样分布-文档资料_第1页
统计学抽样与抽样分布-文档资料_第2页
统计学抽样与抽样分布-文档资料_第3页
统计学抽样与抽样分布-文档资料_第4页
统计学抽样与抽样分布-文档资料_第5页
已阅读5页,还剩110页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 抽样与抽样分布1 抽样基本知识2 抽样分布3 样本统计量的抽样分布 (一个总体参数推断时)4 样本统计量的抽样分布 (两个总体参数推断时)学习目标1.了解概率抽样方法了解概率抽样方法2.区分总体分布、样本分布、抽样分布区分总体分布、样本分布、抽样分布3.理解抽样分布与总体分布的关系理解抽样分布与总体分布的关系4.掌握单总体参数推断时样本统计量的分布掌握单总体参数推断时样本统计量的分布 抽样基本知识抽样基本知识 总体与样本 抽样方法 抽样框抽样误差总体和参数总体总体( (Population),是指所要研究的对象的全体,它是由所研究范围内具有某种共同性质的全部单位所组成的集合体。总体单位总数用

2、N表示。参数(参数(parameterparameter)。)。用来反映总体数量特征的指标称。研究目的一经确定,总体也唯一地确定了,所以总体指标的数值是客观存在的、确定的,但又是未知的,需要用样本资料去估计。总体和参数(续)通常所要估计的总体指标有通常所要估计的总体指标有变量总体变量总体属性总体属性总体总体平均数总体平均数 ( (或记为或记为 )总体比例(成数)总体比例(成数)总体标准差总体标准差或方差或方差总体比例标准差总体比例标准差P P或方差或方差P P 总体标志总量总体标志总量 ( )( )总体中具有某一属性的单位总数总体中具有某一属性的单位总数(NP)(NP)等。等。XNX样本和统计

3、量样本(样本(SampleSample),它是从总体中抽取的部分总体单位的),它是从总体中抽取的部分总体单位的集合体集合体 。样本容量。样本容量。样本中所包含的个体的数量,一般用样本中所包含的个体的数量,一般用n n表示。表示。在实际工作中,人们通常把在实际工作中,人们通常把n30n30的样本称为的样本称为大样本大样本,而把而把n30nn) 分层抽样把异质性较强的总体分成一个个同质性较强的子总体,再抽取不同的子总体中的样本分别代表该子总体,所有的样本进而代表总体。等距抽样把总体的单位进行排序,然后按照固定的抽样距离抽取样本。第一个样本采用简单随机抽样的办法抽取。整群抽样抽样的单位不是单个的个体

4、,而是成群的个体。 多阶段抽样把抽样过程分为几个阶段进行。适用于总体规模特别大,或者总体分布的范围特别广时 非概率抽样n也叫非随机抽样,是指从研究目的出发,根据调查者的经验或判断,从总体中有意识地抽取若干单位构成样本。n重点调查、典型调查、配额抽样(是按照一定标准或一定条件分配样本单位数量,然后由调查者在规定的数额内主观地抽取样本)、方便抽样(指调查者按其方便任意选取样本。如商场柜台售货员拿着厂家的调查表对顾客的调查)等就属于非随机抽样。n优点:优点:及时了解总体大致情况,总结经验教训,在进行大规模抽样调查之前的试点。n缺点:缺点:非随机抽样容易产生倾向性误差,并且误差不能计算和控制 ,也就无

5、法说明调查结果的可靠程度。概率抽样与非概率抽样4. 系统随机抽样 先随机地抽取一个样本,然后按某种规律顺次地得到全部样本的抽取方法。 系统随机抽样的实现方法:对容量为N的总体,先将总体中各个个体按某种顺序从1到N编号。设要从中抽取出容量为n的样本,设N / n =k ,则先从编号为1到k的k个个体中随机地抽取一个,然后每隔k个抽取一个,顺次得到容量为n的样本。 系统随机抽样也称为系统抽样、等距抽样或机械抽样。重复抽样与非重复抽样n重复抽样,又称回置抽样,是指从总体的N个单位中,每次抽取一个单位后,再将其放回总体中参加下一次抽选,连续抽n次,即得到一个样本。n特点:样本是由n次相互独立的连续试验

6、构成的,每次试验是在完全相同的条件下进行,每个单位中选的机会在各次都完全相等。n“重抽”(考虑顺序)可能的样本数目(从总体中可能抽取的样本个数,用M表示)为:Nn个。重复抽样与非重复抽样n不重复抽样,也叫不回置抽样,是指抽中的单位不再放回总体中,下一个样本单位只能从余下的总体单位中抽取。n特点特点:样本由n次连续抽取的结果构成,实际上等于一次同时从总体中抽取n个样本单位。 n次抽取结果不是独立的n 可能的样本数目(考虑顺序): N(N-1)(N-2)(N-n+1)个。重复抽样与非重复抽样n设有设有4 4名学生的月消费支出分别为:名学生的月消费支出分别为:240240,280280,360360

7、,400400元。我们分别用元。我们分别用A A、B B、C C、D D替代。若从替代。若从中抽取两个单位构成样本,则全部可能的样本数中抽取两个单位构成样本,则全部可能的样本数目为:目为:n重复:重复:4 42 2=16=16个。它们是个。它们是 n AA AB AC AD; BA BB BC BD AA AB AC AD; BA BB BC BD n CA CB CC CD; DA DB DC DD CA CB CC CD; DA DB DC DDn不重复:不重复:4 43=123=12。它们是。它们是 n AB AC AD; BA BC BDAB AC AD; BA BC BDn CA C

8、B CD; DA DB DC CA CB CD; DA DB DC 抽样框调查目的确定之后,抽样总体(目标总体)也就随之确定。 但实际进行抽样的总体范围与目标总体有时是不一致的。所以,有了目标总体,还必须明确实际进行抽样的总体范围和抽样单位,这就需要编制一个抽样框抽样框。抽样框是包括全部抽样单位的名单框架。编制抽样框是实施抽样的基础。抽样框的好坏通常会直接影响到抽样调查的随机性和调查效果。抽样框n名单抽样框。名单抽样框。列出全部总体单位的名录一览表。n区域抽样框。区域抽样框。按地理位置将总体范围划分为若干小区域,以小区域为抽样单位。n时间表抽样框。时间表抽样框。将总体全部单位按时间顺序排列,把

9、总体的时间过程分为若干个小的时间单位,以此时间单位为抽样单位。n理想的抽样框:不重复、不遗漏。抽样误差n统计调查误差统计调查误差,是指调查,是指调查所得结果与总体真实所得结果与总体真实数值之间的差异数值之间的差异。n 登记性误差登记性误差。是任何一种统计调查都可能产生。是任何一种统计调查都可能产生。 n 代表性误差代表性误差系统性误差系统性误差:是由于非随机因素引起的:是由于非随机因素引起的 样本代表样本代表性不足而产生的误差,表现为样本估计量的值系性不足而产生的误差,表现为样本估计量的值系统性偏高或偏低,故也称偏差;统性偏高或偏低,故也称偏差;随机误差随机误差:又称偶然性误差,是指:又称偶然

10、性误差,是指遵循随机原则遵循随机原则抽样,但由于样本各单位的结构不足以代表总体抽样,但由于样本各单位的结构不足以代表总体各单位的结构而引起的样本估计量与总体参数之各单位的结构而引起的样本估计量与总体参数之间的误差间的误差。这就是抽样估计中所谓的抽样误差。这就是抽样估计中所谓的抽样误差 。三个误差概念实际抽样误差实际抽样误差 某一具体样本的样本估计值与总体参数真实值之间的离差。总体参数未知,每次抽样的实际抽样误差是无法计算的。样本是随机抽取,样本估计量是随样本不同而不同的随机变量,随机抽样误差也是随机变量,但样本估计量的所有可能取值总有一定的分布规律,抽样误差也就有一定的规律可循。抽样误差可以计

11、算和控制,并不是指某次具体抽样的实际误差,而是从所有可能样本来考察的抽样平均误差和抽样极限误差。三个误差概念抽样平均误差(抽样标准误抽样平均误差(抽样标准误)是反映抽样误差一般水平的指标(因为抽样误差是一个随机变量,它的数值随着可能抽取的样本不同而或大或小,为了总的衡量样本代表性的高低,就需要计算抽样误差的一般水平)。通常用样本估计量的标准差样本估计量的标准差来反映所有可能样本估计值与其中心值的平均离散程度。可以证明,对于既定的总体和样本容量,样本估计量是以相应总体参数为分布中心的。统计上把样本估计量的标准差定义为抽样平均误差22( )()( )x E xxxMM三个误差概念抽样平均误差(抽样

12、标准误抽样平均误差(抽样标准误)抽样平均误差可衡量样本对总体的代表性大小。抽样平均误越小,则样本估计量的分布就越集中在总体参数的附近,平均来说,样本估计值与总体参数之间的抽样误差越小,样本对总体的代表性越大。三个误差概念n实际中,抽样平均误差不可能按定义式来计算,只能根据概率论和数理统计的有关理论来推导其计算公式。n在总体方差已知,总体单位总数为N,样本容量为n,简单随机抽样条件下,抽样平均误的计算公式为:2( ) xnn2( )1nxnN(1)( )pppn(1)( )1ppnpnN三个误差概念抽样极限误差抽样极限误差一定概率下一定概率下抽样误差的可能范围,也称为允许误差。用抽样误差的可能范

13、围,也称为允许误差。用表示,由定义知其表达式:表示,由定义知其表达式:在一定概率下,在一定概率下, 上式表示,在一定概率下可认为样本估计量与相应的总上式表示,在一定概率下可认为样本估计量与相应的总体参数的误差的绝对值不超过体参数的误差的绝对值不超过 。用。用 、分别表示平均数和比例(成数)的抽样极限误差,则在一分别表示平均数和比例(成数)的抽样极限误差,则在一定概率下有:定概率下有: xppxPpXx三个误差概念抽样极限误差抽样极限误差估计均值的置信区间:估计均值的置信区间:估计成数(比例)的置信区间:估计成数(比例)的置信区间:xxxXx pppP p 三个误差概念u抽样极限误差是抽样误差的

14、抽样极限误差是抽样误差的可能范围可能范围,而不是完全肯定,而不是完全肯定的范围。所以,这一可能范围的大小是与其估计的可靠程的范围。所以,这一可能范围的大小是与其估计的可靠程度的大小(即概率)紧密联系的。在抽样估计中,这个概度的大小(即概率)紧密联系的。在抽样估计中,这个概率叫置信度,习惯上也称为可靠程度、把握程度或概率保率叫置信度,习惯上也称为可靠程度、把握程度或概率保证程度等,用证程度等,用1-1-表示。表示。显然在其他条件不变的情况下,显然在其他条件不变的情况下,抽样极限误差越大,相应的置信度也就越大。抽样极限误差越大,相应的置信度也就越大。u与抽样极限误差相关的两个概念是与抽样极限误差相

15、关的两个概念是: : 抽样误差率和抽样抽样误差率和抽样估计精度。估计精度。u抽样误差率抽样误差率= =(抽样极限误差(抽样极限误差/ /估计量)估计量)100%100%u抽样估计精度抽样估计精度=100%-=100%-抽样误差率抽样误差率三个误差概念u估计精度与估计的可靠程度是矛盾的。也就是说,如果精度很高,则会由于估计区间太窄而使错误估计的可能性大增,从而大大降低估计的可靠程度,使估计结果没有多大的作用;如果置信度很高,则意味着允许误差范围较大,而使估计精度太低 ,这时尽管估计的可靠程度接近或等于100%,但抽样估计本身也会失去意义。u实际中,只能依据具体情况,先满足一方面,然后确定另一方面

16、 。u抽样极限误差与抽样平均误差的关系? 三种不同性质的分布1 总体分布2 样本分布3 抽样分布总体分布(population distribution)1.总体中各元素的观察值所形成的分布 2.分布通常是未知的3.可以假定它服从某种分布 样本分布(sample distribution)1.一个样本中各观察值的分布 2.也称经验分布 3.当样本容量n逐渐增大时,样本分布逐渐接近总体的分布 抽样分布 (sampling distribution)1.样本统计量的概率分布,样本统计量的概率分布,是一种理论分布是一种理论分布在重复选取容量为n的样本时,由该统计量的所有可能取值及出现的概率分布 2.

17、样本统计量(样本统计量(样本均值, 样本比例,样本方差等)是随机变量,随机变量,它有若干可能取值,每个可能取值都有一定的可能性(即概率),从而形成它的概率分布,即统计上所谓的抽样分布。3.样本统计量是由n个随机变量构成的函数,故抽样分布属于随机变量函数的分布。4.结果来自容量相同容量相同的所有所有可能样本抽样分布 (sampling distribution)n抽样分布反映了样本指标的分布特征,是抽样推断的重要依据。根据样本分布的规律,可揭示样本指标与总体指标之间的关系,估计抽样误差,并说明抽样推断的可靠程度。n寻求抽样分布的方法:n精确分布,小样本方法n渐进分布,大样本方法抽样分布的形成过程

18、 (sampling distribution)抽样分布(例证)四名学生的月消费支出(240,280,360,400 元)。现按重复取样的方法,随机抽取两位构成一个样本,则全部可能的样本及其各样本的均值如下表所示:样本单位样本平均1240,2402402240,2802603240,3603004240,4003205280,2402606280,2802807280,3603208280,4003409360,24030010360,28032011360,36036012360,40038013400,24032014400,28034015400,36038016400,400400合计

19、5120均值频数240126022801300232043402360138024001抽样分布(例证) 样本统计量的抽样分布样本统计量的抽样分布 ( (一个总体参数推断时一个总体参数推断时) ) 样本均值的抽样分布样本比例的抽样分布 样本方差的抽样分布样本均值的抽样分布1.在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布2.一种理论概率分布3.推断总体均值的理论基础样本均值的抽样分布(例题分析)5 . 21NxNii25. 1)(122NxNii样本均值的抽样分布 (例题分析)3,43,33,23,132,42,32,22,124,44,34,24,141,441,33

20、211,21,11第二个观察值第二个观察值第一个第一个观察值观察值所有可能的所有可能的n = 2 的样本(共的样本(共16个)个)样本均值的抽样分布 (例题分析)3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第二个观察值第一个第一个观察值观察值16个样本的均值(个样本的均值(x)样本均值的分布与总体分布的比较 (例题分析)5 . 2x625. 02x样本均值的抽样分布与中心极限定理x5x50 x5 . 2x中心极限定理(central limit theorem)nxx),(),(则的简单随机样本,是取自正态总体设(

21、10N-X)2(nNX) 1 (),(),2221nNXXXn从正态分布独立正态分布之和也服,则由定理可知,证:令iXn1XnnXEnXnEXEii1)(1)1()(nnnXVarnXnVarXVarii22221)(1)1()(样本均值和样本方差的分布 1. 一般情况 设总体X 的均值为,方差为 2, X1, X2, , Xn是X 的一个样本,则有E(Xi)= , D(Xi)= 2 (i=1,2,n)。由数学期望和方差的性质,有111222211111()().111()().,nnniiiiinniiiiE XEXE XnnnD XDXD XnnnnnXnXX 由此可见, 样本均值的数学期

22、望与总体均值相同 而方差只是总体方差的 分之一这说明了用样本均值 来近似估计总体均值的合理性: 即当我们进行重复抽样时, 尽管每次抽样计算获得的样本均值 不一定等于总体均值 ,nX但这些值一定都在总体均值的附近, 且它们的平均值理论上应等于而且随着 的增加与 的偏差越来越小中心极限定理 (central limit theorem)2. 正态总体情况定理1 设随机变量X1, X2, Xn相互独立, 且服从正态分布N(i, i2),则它们的线性组合12211( ),( ).niiiinniiiiiiYa XaE YaD Ya不全为0)也服从正态分布, 且 该定理说明相互独立的正态分布随机变量的线

23、性组合仍是正态分布。推论推论1 设X1, X2, , Xn为来自正态总体XN(, 2 ) 的一个样本,则2( ,),(0,1)nnXXNN而定理22122211222,( ,),11(),1(1)(1).nnniiiiXXXXNXXSXXnnnSn 设为来自正态总体的一个样本则均值与方差相互独立且定理定理32122,( ,),(1).nSnXXXXNXSXt n 设为来自正态总体的一个样本与分别是样本均值和样本方差, 则定理4 设X1, X2, , Xn1与 Y1, Y2, , Yn2分别是来自具有相同方差的两个正态总体N(1, 2) 与 N(2, 2) 的样本,且这两个样本相互独立,则121

24、21212222112211121222221211121211()()(2).(1)(1)11;211()()11wnnwiiiinniiiinnXYt nnSnSnSSXXYYnnnnSXXSYYnn其中而和分别为这两个样本的均值,和分别为这两个样本的方差12121112212()(,(),()0 (1,2, ),( )lim( )lim().niinitinniiiiniiXnnnnXnxnnnnXEXnDXXXXE XD XinYF xF xPxedtnYY 设随机变量服从同一分布且相互独立,且则随机变量的分布函数满足由该定理知,当 充分大时,随机变量近似地服从标准正态分布,即11)1

25、21(0,1).(,)niiniiXnnniiniiNXXN nn从而随机变量服从正态分布:3. 中心极限定理正态总体方差未知,小样本n设总体设总体XNXN( ,),(),(x x1 1,x,x2 2,xn,xn)是其简单随)是其简单随机样本,则统计量机样本,则统计量) 1(ntnsXt)(XXX,X2i2n21n正态分布,则相互独立,都服从标准,设独立与)()(则有)的样本,(是取自正态总体,设22222SX(2)1nS1n) 1 (NXn2X1X)(),则(),(相互独立,并且设两个随机变量1ntnT1n10N2抽样分布与总体分布的关系正态分布正态分布未知未知样本均值样本均值正态分布正态分

26、布样本均值样本均值正态分布正态分布样本均值样本均值t分布分布样本均值的抽样分布(数学期望与方差)1.样本均值的数学期望2.样本均值的方差重复抽样不重复抽样)(xEnx22122NnNnx样本均值的抽样分布(数学期望与方差)为样本数目MnMxnixix222122625. 016)5 . 20 . 4()5 . 20 . 1 ()(5 . 2160 . 45 . 10 . 11Mxniix统计量的标准误 (standard error)1.样本统计量的抽样分布的标准差,称为统计量的标准误,也称为标准误差2.标准误衡量的是统计量的离散程度,它测度了用样本统计量估计总体参数的精确程度3.以样本均值的

27、抽样分布为例,在重复抽样条件下,样本均值的标准误为nx估计的标准误 (standard error of estimation)1.当计算标准误时涉及的总体参数未知时,用样本统计量代替计算的标准误,称为估计的标准误2.以样本均值的抽样分布为例,当总体标准差未知时,可用样本标准差s代替,则在重复抽样条件下,样本均值的估计标准误为nsx比例(proportion)1.总体(或样本)中具有某种属性的单位与全部单位总数之比不同性别的人与全部人数之比合格品(或不合格品) 与全部产品总数之比2.总体比例可表示为3.样本比例可表示为4.NNNN011或nnpnnp011或样本比例的抽样分布1.在重复选取容量

28、为n的样本时,由样本比例的所有可能取值形成的相对频数分布2.一种理论概率分布3.当样本容量很大时,样本比例的抽样分布可用正态分布近似 4.推断总体比例P的理论基础样本比例的抽样分布当从总体中抽取一个样本容量为n的样本时,样本中具有某种特征的单位数X服从二项分布,即有XB(n,)E(X)=nVar(X)=n(1-)样本比例的抽样分布(数学期望与方差)样本比例p=x/n也服从二项分布1.样本比例的数学期望2.样本比例的方差重复抽样不重复抽样nnxEnnxEpE1)(1)()(nnnxnnxVarp)1 ()1 (1)var(1)(2221)1 (2NnNnp样本比例的抽样分布根据中心极限定理,当n

29、时,二项分布趋近于正态分布。所以,在大样本下,若nP和n(1-P)皆大于5,样本比例近似服从正态分布)1 (,(nNp) 1 , 0()1 (Nnpz样本方差的分布) 1() 1(222nsn22) 1(sn 2分布(2 distribution)1.由阿贝(Abbe) 于1863年首先给出,后来由海尔墨特(Hermert)和卡皮尔逊(KPearson) 分别于1875年和1900年推导出来2.设 ,则3.令 ,则 Y 服从自由度为1的2分布,即4. 4.当总体 ,从中抽取容量为n的样本,则),(2NX) 1 , 0( NXz2zY ) 1 (2Y),(2NX) 1()(2212nxxnii2

30、分布(性质和特点)1.分布的变量值始终为正 2.分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称 3.期望为E(2)=n,方差为D(2)=2n(n为自由度) 4.可加性:若U和V为两个独立的服从2分布的随机变量,U2(n1),V2(n2),则U+V这一随机变量服从自由度为n1+n2的2分布 2分布(图示) 选择容量为选择容量为n 的的简单随机样本简单随机样本计算样本方差计算样本方差s2计算卡方值计算卡方值 2 = (n-1)s2/2计算出所有的计算出所有的 2值值总体总体2分布(例题的图示)16个样本方差的分布个样本方差的分布样本方差s2s2取值的概率0

31、.04/160.56/1624/164.52/162分布(用Excel计算2分布的概率)2分布(用Excel计算2分布的临界值)2分布(用Excel生成2分布的临界值表)2分布 (用Excel绘制2分布图)第第1步:步:在工作表的第1列A2:A62输入应一个等差数列,初始 值为“0”,步长为“1”,终值为“60”第第2步:步:在单元格B1输入2分布自由度(如“15”) 第第3步:步:在单元格B2输入公式“=CHIDIST(A2,$B$1)”,并将其 复制到B3:B62区域第第4步:步:在单元格C2输入公“=B2-B3”,并将其复制到C3:C62 区域第第5步:步:将A2:A62作为横坐标、C2:C62作为纵坐标,根据“ 图表向导”绘制折线图2分布 (用Excel绘制2分布图)2 样本统计量的抽样分布样本统计量的抽样分布 ( (两个总体参数推断时两个总体参数推断时) )两个样本均值之差的抽样分布 两个样本比例之差的抽样分布 两个样本方差比的抽样分布两个样本均值之差的抽样分布1.两个总体都为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论